新闻中心
News
分类>>Transformer是推断还是记忆?初始化大小很重要
Transformer是推断还是记忆?初始化大小很重要Transformer 架构在当前大语言模型中的地位,堪比麦当劳里的牛肉饼——谁不爱呢?这位“全能选手”能解数学题、写诗作赋,简直是 AI 界的“跨界网红”。不过,要揭开它才华横溢的秘密,可比哄孩子吃饭还费劲。
直接研究真实的大语言模型,难度堪比在菜市场里向大妈们讲解狭义相对论——你会被讨价还价的嘈杂声淹没。所以,咱们换个思路,采用“锚点-关键项”这招“偷天换日”,既省时又高效。接下来,让我们一探 Transformer 学习复合函数的究竟:它是靠推理,还是单纯拼记忆?
假设我们有四种基本运算,它们可以组合出 16 种“变身形态”(16 种复合运算)。如果我们只拿其中 15 种训练模型,你猜:它能掌握剩下那个“遗珠”吗?
我们给模型输入一个 Token 序列,其中有一对从 {1, 2, 3, 4} 中选出的“天选锚点”,每个代表一种加减法运算。还有一个从 20 到 100 中挑选的“关键项”,它在经过“天选锚点”的洗礼后,幻化成序列的目标值。我们令四个锚点分别代表 “+5”、“+1”、“-2”、“-8” 四种魔法。举个栗子,如果关键项是 80,锚点是(1, 2),那目标值就是(80+5)+1=86。
如果我们只用 15 个锚点组合训练,模型竟然能掌握第 16 个的套路。这就像隔着手机屏幕学会做大餐,是不是很酷?那模型到底是怎么做到的呢?为了方便讨论,我们就假设缺席训练的是(4, 3)这对“神仙眷侣”。
其实,模型的学习机制有两种可能。一是走“福尔摩斯”路线,通过演绎推理出每个单锚点的能力,再将 “4”、“3” 的技能组合,找到推理解,破解(4, 3)的奥秘。二是走“复制粘贴”路线,发现(a, b)和(b, a)这两类锚点组合的效果一样(因为加减法可交换嘛)KK体育,于是把(3, 4)的规律“拿来主义”,安到(4, 3)头上,找到对称解。Transformer 究竟更爱哪一套呢?
破案的方法很简单,我们把(3, 4)的效果从 “-10” 改成“-6”,看(4, 3)是否也跟着变。如果(4, 3)的结果仍是 “-10”,说明模型是靠推理;如果变成了 “-6”,就说明模型其实在背公式。
实验发现,以默认初始化为分水岭,大的初始化推动模型多用背诵,学到对称解,小的初始化则有利于推理。这就像健身房的两类人,一类死记硬背每个动作,一类则掌握基本原理,灵活运用。
这其实与模型复杂度有关。对于推断机制,模型仅需要记住 4 种单 anchor 运算,而对于记忆机制,模型需要学习所有非对称关系的运算规律(如(1,1),(1,2)(1,3),(1,2),(2,2)等共 10 种)。因此学习推断机制所需要的模型复杂度更低。对于小初始化,模型初始复杂度低,模型参数会 发生凝聚现象。简单来说,就是同层的神经元会趋同。例如 矩阵的列,在小初始化时,有明显地相似度(低秩),但大初始化下并没有这种现象。
训练开始时,参数聚集在少数方向,随着训练深入,聚集的方向逐渐增多,模型复杂度水涨船高。当模型发现学 4 种映射就够拟合训练集,学习就停止了,所以它更爱简单的推理解。而在大初始化下,复杂度够高,模型很快记住其中的对称性。如果初始化再大一点,它干脆把每个输入序列到输出的映射都记住,反而学不到算术规律,连见过的锚点组合都不能保证完美复现。
通过这项研究,我们发现,Transformer 模型的初始化大小决定了它是像福尔摩斯一样通过推理解谜,还是像我奶奶一样通过记忆菜谱来做饭。小初始化让模型像侦探一样,只需要记住几个关键的线索(运算规则),就能推理出所有结果。而大初始化则像孙悟空,把所有知识吃下去的方式记下来。
展望未来,科学家们可能会像调配宇宙飞船的发动机一样,精确调节 Transformer 的初始化参数,以便它们在各种复杂任务中都能表现出色。想象一下,将来有一天,Transformer 不仅可以帮你证定理、写论文,还能帮你规划度假行程,甚至给你家的猫咪制定健身计划。
不过,要实现这些目标,我们还需要深入探讨不同初始化对模型复杂度和泛化能力的影响,就像农民研究如何让奶牛在听音乐时产奶更多一样。这不仅需要大量实验,还需要一点点运气和许多好奇心。
) 。 社区上线+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: