梁文锋的新论文，要革何恺明们的命？

出品｜搜狐科技

作者｜常博硕

编辑｜杨锦

果然，只要一到假期，DeepSeek就会更新点什么。

这个元旦，DeepSeek发表了一篇新论文《mHC: Manifold-Constrained Hyper-Connections》提出了一种新的架构——流形约束超连接，以解决传统架构在大模型训练中的不稳定问题。

更值得关注的是，论文作者最后一位赫然写着梁文锋的大名。

梁文锋的新论文，要革何恺明们的命？

在此之前，梁文峰几乎很少在技术论文中署名，最多是挂个通讯作者。这次直接参与论文撰写，足以可见DeepSeek对这篇论文的重视程度。

而细读之后才发现，这篇论文可以称得上是一场革命性的创新，革的正是何恺明们建立的深度学习基石ResNet的命。

展开全文

作为计算机视觉领域的顶尖科学家，何恺明毕业于清华大学物理系，现任麻省理工学院电气工程与计算机科学系副教授（终身教职）。其最著名的成就，就是提出了ResNet架构,解决了深度神经网络中“越深越难训练”的根本性问题，ResNet也被称为现代深度学习发展史上的一座里程碑。

十年未变的“底层共识”被改变

要理解DeepSeek这篇论文分量，我们得回到十年前。如果把那时的神经网络比喻成一座高塔，在当时，随着塔的层数堆叠过多，地基传来的信号往往在半路就消失殆尽，很容易导致塔身崩塌。

直到何恺明等人提出了划时代的ResNet（残差网络），这个问题才被解决。

在 ResNet之前，深度神经网络有一个致命问题，那就是网络一深，反而学不会了。原因很简单，梯度会在层层传递中消失或爆炸，前面的信息传不到后面。

于是当时还在微软亚洲研究院的何恺明等人就发表了一篇名为《Deep Residual Learning for Image Recognition》的论文，这篇论文也是AI历史上引用率最高的殿堂级论文之一。

可以这样理解，原本信息过神经网络层时会被拦截处理，可以理解为一条高速公路中有很多收费站，导致信号像公路上的车流一样不停被收费站拦截，运行不畅。

而ResNet相当于在旁边修了一条直通的“快速通道”，哪怕收费站处理得不好，信息也可以通过快速通道原封不动地传到下一站，这也被称为恒等映射（Identity Mapping）。

于是，自2016 年何恺明提出ResNet开始，残差连接迅速成为深度神经网络的默认配置。它解决了深层网络难以训练的问题，使得模型深度可以从几十层扩展到上百层，甚至更深。

后来出现的 Transformer，看似是一种全新的架构，但LayerNorm + Residual的基本形式，本质也是继承了ResNet的思想。ResNet也成为了后来几乎所有大模型的基石。

然而，随着模型参数迈向万亿级别，研究者开始觉得单车道的信息吞吐量太小了，它限制了模型思考的广度。既然单车道不够用，为什么不把它拓宽成八车道、十六车道？

一种新的架构HC也就应运而生。这种被称为“超连接”（Hyper-Connections，简称HC）的新架构由字节Seed团队在论文《Hyper-Connections》中提出。

梁文锋的新论文，要革何恺明们的命？

它试图打破传统的束缚，将原本单一的残差流拓宽数倍，并允许信息在不同的通道间自由穿插、混合。也就是说，原本的高速路加快车单行道直接变成了一个巨大的、没有红绿灯的多层立交桥。

在 HC 架构中，模型维护多条并行的残差流，每一层输出都是这些残差流的线性组合。这也就意味着，信息不必被压缩进单一通道，结果就是网络的表示能力显著增强。

在中小规模实验中，HC的表现确实亮眼，在相同参数量和计算量下，HC模型往往能取得更低的 loss，或者在下游任务上表现更优。

但问题，很快就暴露出来。HC 在大规模模型训练中，存在系统性的不稳定问题。

这种不稳定并不是偶然的训练失败，而是随着层数和训练步数增加，几乎必然发生的结构性风险。

梁文锋的新论文，要革何恺明们的命？

mHC掀起架构革命

当模型规模放大，HC就开始“失控”了。在DeepSeek的新论文里认为，从数学角度看，这种失控的问题出在残差的恒等映射被破坏了。

在 ResNet 中，残差连接的核心价值不在于加法本身，而在于不论网络其他部分如何变化，都至少存在一条不被放大的信息通路。

但在 HC 中，每一层的残差更新，本质上是一个可学习矩阵对多条残差流的线性变换。当这种矩阵在层与层之间不断相乘时，就有可能导致梯度在反向传播中迅速失控，训练在某个时间点突然崩掉。

论文给出的实验非常直观，在 27B 参数规模的模型中，HC 架构在训练早期看似正常，但在约一万多步后，出现了突发的损失激增，梯度范数也表现出剧烈波动。

梁文锋的新论文，要革何恺明们的命？

研究团队计算了复合映射对信号的放大倍数，在HC架构中，这个值的峰值达到了3000，意味着信号在层间传播时可能被放大数千倍，也可能直接衰减至几乎消失。

梁文锋的新论文，要革何恺明们的命？

换句话说，HC 的问题并不是效果不好，而是它缺乏一个像ResNet那样的安全底座。

DeepSeek论文的核心思路是将残差映射矩阵约束到一个特定的流形上，一个由双随机矩阵构成的Birkhoff多面体。

他们认为HC的“多车道”思路是对的，但不能让车乱跑。于是他们在 HC 的基础上，加了一套严格的数学约束也就是双随机矩阵。

DeepSeek的工作，可以看作是给这个多车道高速路装上了智能红绿灯和导流线，规则是你可以变道，但必须保证出来的总车流量等于进去的总车流量。

这样既享受了HC带来的高吞吐量和性能提升，又像ResNet一样极其稳定，恢复了恒等映射。

具体来看，在mHC中所有用于混合多条残差流的矩阵，都必须满足三个条件：每一行元素之和等于1；每一列元素之和等于1；所有元素非负。

这类矩阵被称为双随机矩阵。

乍一看，这是一个非常强的约束，但正是这一约束，带来了mHC的核心优势。从稳定性角度看双随机矩阵的谱半径被严格限制在1以内，这意味着它不会放大信号，多层相乘后，依然保持有界，梯度既不会爆炸，也不会消失。

同时，双随机矩阵等价于对多条残差流做加权平均，在本质上仍然保留了ResNet的内核，信息可以自由混合，但不会被无限放大。

mHC架构其实并非纸上谈兵，DeepSeek团队论文之所以有诸多好评，很大程度上也源于他们在工程可行性上的能力。

算力压榨到极致

在原始HC设计中，多残差流意味着更高的内存占用和访问成本，显存带宽是现代AI芯片最昂贵的资源，如此高昂的成本在大模型时代是很难让人接受的。

DeepSeek团队展现了他们作为顶级AI实验室的工程素养，他们没有停留在算法层面，而是深入到了底层的算子优化。

团队为此开发了一系列基础设施优化，他们使用TileLang框架实现了多个融合内核，将原本分散的操作合并执行以减少内存访问次数。

针对Sinkhorn-Knopp算法，他们设计了专门的前向和反向内核，在芯片上重新计算中间结果以避免存储开销。

同时，他们还提出了DualPipe并行策略。在大模型训练中，计算和通信往往是串行的，也就导致了GPU在等待数据传输时经常处于闲置状态。

DualPipe巧妙地构建了一个双向流水线，利用前向传播和反向传播在时间上的错位，让计算任务和通信任务实现了完美重叠。

在算力、数据和参数规模不断膨胀的今天，模型性能的提升越来越像一场刷榜游戏。在这样的背景下，像mHC 这样直指底层结构的工作，就显得尤为重要。

对于用户来说，mHC或许不如一个新的模型、新的智能体对生活的改变大，但至少让人们看到了一群死磕AI底层架构的工程师们的执着，这群修补地基的人，或许才是AI时代最稀缺的人才。

扫一扫打开手机网站

微信扫一扫关注我们

梁文锋的新论文，要革何恺明们的命？

作者: wczz1314

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

作者: wczz1314

为您推荐

电厂 | 大厂涨薪的面子和里子

宜家成都门店毛绒玩具“降价”后反高于原价！品牌称已更换

地缘技术｜“武士精神”正在重回硅谷

原创 米粉终于赢了一次

全球首款1.8nm芯片，来了！

全球首款1.8nm芯片，来了！

联系我们

微信扫一扫关注我们

原创米粉终于赢了一次