您的位置 首页 通讯

梁文锋的新论文,要革何恺明们的命?

出品|搜狐科技作者|常博硕编辑|杨锦果然,只要一到假期,DeepSeek就会更新点什么。

出品|搜狐科技

作者|常博硕

编辑|杨锦

果然,只要一到假期,DeepSeek就会更新点什么。

这个元旦,DeepSeek发表了一篇新论文《mHC: Manifold-Constrained Hyper-Connections》提出了一种新的架构——流形约束超连接,以解决传统架构在大模型训练中的不稳定问题。

更值得关注的是,论文作者最后一位赫然写着梁文锋的大名。

梁文锋的新论文,要革何恺明们的命?

在此之前,梁文峰几乎很少在技术论文中署名,最多是挂个通讯作者。这次直接参与论文撰写,足以可见DeepSeek对这篇论文的重视程度。

而细读之后才发现,这篇论文可以称得上是一场革命性的创新,革的正是何恺明们建立的深度学习基石ResNet的命。

展开全文

作为计算机视觉领域的顶尖科学家,何恺明毕业于清华大学物理系,现任麻省理工学院电气工程与计算机科学系副教授(终身教职)。其最著名的成就,就是提出了ResNet架构,解决了深度神经网络中“越深越难训练”的根本性问题,ResNet也被称为现代深度学习发展史上的一座里程碑。

十年未变的“底层共识”被改变

要理解DeepSeek这篇论文分量,我们得回到十年前。如果把那时的神经网络比喻成一座高塔,在当时,随着塔的层数堆叠过多,地基传来的信号往往在半路就消失殆尽,很容易导致塔身崩塌。

直到何恺明等人提出了划时代的ResNet(残差网络),这个问题才被解决。

在 ResNet之前,深度神经网络有一个致命问题,那就是网络一深,反而学不会了。原因很简单,梯度会在层层传递中消失或爆炸,前面的信息传不到后面。

于是当时还在微软亚洲研究院的何恺明等人就发表了一篇名为《Deep Residual Learning for Image Recognition》的论文,这篇论文也是AI历史上引用率最高的殿堂级论文之一。

可以这样理解,原本信息过神经网络层时会被拦截处理,可以理解为一条高速公路中有很多收费站,导致信号像公路上的车流一样不停被收费站拦截,运行不畅。

而ResNet相当于在旁边修了一条直通的“快速通道”,哪怕收费站处理得不好,信息也可以通过快速通道原封不动地传到下一站,这也被称为恒等映射(Identity Mapping)。

于是,自2016 年何恺明提出ResNet开始,残差连接迅速成为深度神经网络的默认配置。它解决了深层网络难以训练的问题,使得模型深度可以从几十层扩展到上百层,甚至更深。

后来出现的 Transformer,看似是一种全新的架构,但LayerNorm + Residual的基本形式,本质也是继承了ResNet的思想。ResNet也成为了后来几乎所有大模型的基石。

然而,随着模型参数迈向万亿级别,研究者开始觉得单车道的信息吞吐量太小了,它限制了模型思考的广度。既然单车道不够用,为什么不把它拓宽成八车道、十六车道?

一种新的架构HC也就应运而生。这种被称为“超连接”(Hyper-Connections,简称HC)的新架构由字节Seed团队在论文《Hyper-Connections》中提出。

梁文锋的新论文,要革何恺明们的命?

它试图打破传统的束缚,将原本单一的残差流拓宽数倍,并允许信息在不同的通道间自由穿插、混合。也就是说,原本的高速路加快车单行道直接变成了一个巨大的、没有红绿灯的多层立交桥。

在 HC 架构中,模型维护多条并行的残差流,每一层输出都是这些残差流的线性组合。这也就意味着,信息不必被压缩进单一通道,结果就是网络的表示能力显著增强。

在中小规模实验中,HC的表现确实亮眼,在相同参数量和计算量下,HC模型往往能取得更低的 loss,或者在下游任务上表现更优。

但问题,很快就暴露出来。HC 在大规模模型训练中,存在系统性的不稳定问题。

这种不稳定并不是偶然的训练失败,而是随着层数和训练步数增加,几乎必然发生的结构性风险。

梁文锋的新论文,要革何恺明们的命?

mHC掀起架构革命

当模型规模放大,HC就开始“失控”了。在DeepSeek的新论文里认为,从数学角度看,这种失控的问题出在残差的恒等映射被破坏了。

在 ResNet 中,残差连接的核心价值不在于加法本身,而在于不论网络其他部分如何变化,都至少存在一条不被放大的信息通路。

但在 HC 中,每一层的残差更新,本质上是一个可学习矩阵对多条残差流的线性变换。当这种矩阵在层与层之间不断相乘时,就有可能导致梯度在反向传播中迅速失控,训练在某个时间点突然崩掉。

论文给出的实验非常直观,在 27B 参数规模的模型中,HC 架构在训练早期看似正常,但在约一万多步后,出现了突发的损失激增,梯度范数也表现出剧烈波动。

梁文锋的新论文,要革何恺明们的命?

研究团队计算了复合映射对信号的放大倍数,在HC架构中,这个值的峰值达到了3000,意味着信号在层间传播时可能被放大数千倍,也可能直接衰减至几乎消失。

梁文锋的新论文,要革何恺明们的命?

换句话说,HC 的问题并不是效果不好,而是它缺乏一个像ResNet那样的安全底座。

DeepSeek论文的核心思路是将残差映射矩阵约束到一个特定的流形上,一个由双随机矩阵构成的Birkhoff多面体。

他们认为HC的“多车道”思路是对的,但不能让车乱跑。于是他们在 HC 的基础上,加了一套严格的数学约束也就是双随机矩阵。

DeepSeek的工作,可以看作是给这个多车道高速路装上了智能红绿灯和导流线,规则是你可以变道,但必须保证出来的总车流量等于进去的总车流量。

这样既享受了HC带来的高吞吐量和性能提升,又像ResNet一样极其稳定,恢复了恒等映射。

具体来看,在mHC中所有用于混合多条残差流的矩阵,都必须满足三个条件:每一行元素之和等于1;每一列元素之和等于1;所有元素非负。

这类矩阵被称为双随机矩阵。

乍一看,这是一个非常强的约束,但正是这一约束,带来了mHC的核心优势。从稳定性角度看双随机矩阵的谱半径被严格限制在1以内,这意味着它不会放大信号,多层相乘后,依然保持有界,梯度既不会爆炸,也不会消失。

同时,双随机矩阵等价于对多条残差流做加权平均,在本质上仍然保留了ResNet的内核,信息可以自由混合,但不会被无限放大。

mHC架构其实并非纸上谈兵,DeepSeek团队论文之所以有诸多好评,很大程度上也源于他们在工程可行性上的能力。

算力压榨到极致

在原始HC设计中,多残差流意味着更高的内存占用和访问成本,显存带宽是现代AI芯片最昂贵的资源,如此高昂的成本在大模型时代是很难让人接受的。

DeepSeek团队展现了他们作为顶级AI实验室的工程素养,他们没有停留在算法层面,而是深入到了底层的算子优化。

团队为此开发了一系列基础设施优化,他们使用TileLang框架实现了多个融合内核,将原本分散的操作合并执行以减少内存访问次数。

针对Sinkhorn-Knopp算法,他们设计了专门的前向和反向内核,在芯片上重新计算中间结果以避免存储开销。

同时,他们还提出了DualPipe并行策略。在大模型训练中,计算和通信往往是串行的,也就导致了GPU在等待数据传输时经常处于闲置状态。

DualPipe巧妙地构建了一个双向流水线,利用前向传播和反向传播在时间上的错位,让计算任务和通信任务实现了完美重叠。

在算力、数据和参数规模不断膨胀的今天,模型性能的提升越来越像一场刷榜游戏。在这样的背景下,像mHC 这样直指底层结构的工作,就显得尤为重要。

对于用户来说,mHC或许不如一个新的模型、新的智能体对生活的改变大,但至少让人们看到了一群死磕AI底层架构的工程师们的执着,这群修补地基的人,或许才是AI时代最稀缺的人才。

本文来自网络,不代表大火龙新闻网立场,转载请注明出处:http://522051.cn/84803.html

作者: wczz1314

为您推荐

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部