DeepSeek的研究人员研发出一项技术,能让大型语言模型的训练过程更趋稳定。此方法借助数学约束,来应对扩展网络架构时存在的一个广为人知的难题。
神经网络在近十年间一直借助残余连接,让信息能在深度架构中传递。这些连接就像捷径一样,能让早期层的信息直接抵达后面的层,从而让训练过程更稳定。而像“超连接”(HC)这样的新方法,则在这一原则的基础上进一步拓展了信息流,引入了更为复杂的连接模式。
研究人员表示,关键问题在于:尽管这些扩展增强了性能,却导致大型模型的训练过程变得不稳定。DeepSeek团队目前已研发出“多流受限超连接”(mHC)这一解决方案,其目的是同时兼顾性能提升与训练稳定这两项优势。