近期有个在大模型科研圈比较火的新闻,即一系列论文开始论文大模型的自迭代很可能实际上作用不大,这里就不具体讲某一篇论文了,笼统的讲一下。
比较短,毕竟没太多可讲的。
不过还是放一篇论文作为开篇吧,方便大家找:
1.大模型自迭代?
大模型的自迭代方法其实非常常见,种类也是多种多样,例如模型和数据集共同进步、代码语言模型根据编译器的反馈不断修正自己的代码。
不过这里我们主要关注的是这样一类情况,即不借助外部知识的自迭代。
有一个经典场景就是我们先让ChatGPT(模型A)生成一份计划,然后再让“另一个”ChatGPT(模型B)对这个计划评估并提供修改意见,这样两个模型不断重复这一步骤,理论上就可以获得更好的计划,之前也有一些工作说明了这样做是有用的
2.一个根本信念
虽然神经网络领域向来理论缺乏,但这个想法真的只是直觉。这种迭代本质上是来源于程序员的某种“根本信念”(哲学用语,例如对于一些古希腊哲学家来说,“人是万物的尺度”就是一个根本信念),即判断比计算简单。
也不用举计算理论中的例子,就简单给两个命题“世界上有黑天鹅”和“判断一只天鹅是黑色的还是白色的”就是两个难度完全不同的任务,命题1在你找到第一只黑天鹅之前都是下不了判断的(假设100只中有一只黑天鹅,那么平均要找大概50次)。对于大模型来说也是一样的,把这个根本信念迁移出来就是判断和评估内容比生成内容更容易。人不也是类似的嘛,让你从头写宪法是困难的,但审评一个起草好的宪法大纲就容易很多。
因为研究者认为“判断”更容易,所以让模型对于一个已经生成的文本提意见应该是比直接生成容易多的,也就更容易取得更好的效果。基于这一信念,才会有很多人做大模型自迭代。
3.反驳证据
最近这几篇论文基本给出了很多自迭代实际上作用不大甚至有变差倾向的证据,并且有文章指出,之前一些(不借助外部知识的)自迭代方法之所以有用可能就单纯是因为prompt改变了之类的理由。
不过还需要注意,目前这几个研究的问题还不具有普遍性,都是些比较小的问题,并不能直接断言自迭代就没用,我们仍然需要证据。
不管怎么说,这些研究都有利于我们更好地理解大模型。