发布网友 发布时间:2024-09-15 03:30
共1个回答
热心网友 时间:2024-10-13 07:01
在ICML 2024的最新研究中,来自剑桥大学、蒂宾根大学和苏黎世联邦理工学院的研究团队挑战了传统观点,他们指出理解大型语言模型(LLMs)如ChatGPT的行为不能仅依赖于统计泛化。论文“Position: Understanding LLMs Requires More Than Statistical Generalization”(arxiv.org/abs/2405.0196...,代码仓库:github.com/rpatrik96/ll...)强调了归纳偏置在解释LLMs特性上的关键作用,而非仅依赖于传统的机器学习理论。
研究者发现,自回归语言模型(AR)的不可识别性问题在大模型的训练中尤为显著。即使模型在海量数据训练下能在KL散度等指标上表现相似,但在涌现能力、上下文学习和微调迁移等关键特性上,它们的行为却可能大相径庭。为深入探究,研究者提出了“饱和状态”这一新概念,它超越了传统的插值状态,强调模型在训练和测试集上的全局性能,尤其关注其在异常分布和零样本学习中的表现。
未来的研究方向被建议聚焦于扩展模型的可识别性,特别是通过考虑归纳偏置作为影响模型性能的先验。作者呼吁大模型社区在理论框架上进行革新,不再受限于同分布的假设,而是重视这些模型在自然语言任务中的独特能力。总的来说,这篇论文标志着深度学习理论需要重新审视其基本假设,以更好地适应大模型时代的需求。