前不久Science上有一篇有趣的论文:
在这篇论文中,研究人员让神经网络和儿童一起学习,这一方面有利于我们更好地理解儿童是怎么学习的,也为我们下一步开发与研究更好的多模态模型奠定基础,也有助于让机器学习更接近人类的学习。
1.人类学习与机器学习的不同
我们知道,机器学习往往是需要大量的数据的,例如ChatGPT训练的数据可是比一个人类一生中能接触到的语言多得多,两者根本不是一个数量级,但是人类依然能在很多自然语言处理任务上打败ChatGPT,而且能量消耗少得多,说明我们人类大脑学习的效率是高的多的。如何让机器像人一样学习一直是很多科研人员想搞明白的话题。
一个思路就是让机器接受和儿童一样的数据输入来进行学习,于是就有本文的方法。
本文从一个6-25个月的儿童那里得到61小时的数据(毕竟婴儿是要带着一个传感器设备进行行动的,而且婴儿也得有自己的空间,所以不可能全天24小时记录)用以训练一个模型来帮助科研人员理解婴儿是如何学到(以及能学到多少)语言或概念与视觉图像之间的映射关系的。
2.基于儿童视角的对比学习(CVCL)
本文用到的模型是基于儿童视角的对比学习(CVCL)
关于对比学习,可以参照:
对比学习是一种无监督学习(或者说自监督)方法,也就是说我只需要获取到数据,而不需要标签,就可以学习到一些东西。思路也是很简单,如果两个“东西”是相似的,我们就让它们的距离更近,否则,就让它们的距离更远。这个距离是在对物体进行了编码(Encode)的情况下计算的。
如图,我们可以看到CVCL有两个模态:视觉模态和语言模态(收集声音并转化为文字,音频模态这个是没办法,直接用音频数据训练的方法不够成熟)。在同一场景下,我们认为视觉信息和语言信息是相关的(绿箭头),不同场景下,我们认为视觉信息和语言信息是无关的(红箭头),如此开始训练模型。
3.模型性能评估
评估模型方法如下:
其实就是给一个自然语言,让模型选择图片,和我们教小朋友类似(“小熊是哪个呀”)
当然,之前也说了,整个训练是无监督的,那模型怎么选择呢?这里用的是和CLIP类似的方法。CLIP可以参照:
【花师小哲】当代炼金术(神经网络)前沿(20)——CLIP:打破原图片分类范式
简单来说,就是和我们训练过程类似,我们把问题和图像都Encode,然后看哪个图像距离文本更近。
测试效果是很不错的,相比于CLIP之类的方法,CVCL在训练数据少得多的情况下表现和它们类似,并且具有一定的泛化能力(就是没有出现在训练集中的一些东西也能适应到)。当然,我个人猜测可能是因为CVCL的数据质量较高并且概念相对简单(训练数据中总不会有儿童父母在孩子面前大肆聊哲学、管理、经济之类的话题吧),相反,CLIP主要是收集“朋友圈”信息并认为这样的图片和文本是相对应的,所以会有如下的噪声信息:
不管怎么样吧,学习效果是蛮好的。
4.作者叠甲
CVCL确实为我们提供了一个新的视角,但是也还只是很初步的。
例如,我们并不能把模型的学习和儿童的学习等同起来,因为:
(1)儿童从时间较长的情节中学习,而CVCL从独立的静止帧中学习;
(2)儿童是基本上是主动的、具有身体感知的学习者,而CVCL必须从记录的视觉-语言经验被动地学习;
(3)儿童持续从经验的持续流中学习,而CVCL反复访问其训练数据;
(4)年幼的儿童必须从语音中学习,而CVCL从转录的文本中学习(小作弊)。
另外还有很多没考虑到的:儿童在后续成长中的学习模式,互斥性、对比原则、形状偏好、句法线索、社交或手势线索以及假设生成等其他因素,而且也只是一个孩子的数据。
5.结语
这样的研究其实不好做的,收集一两年甚至更长时间的数据再训练模型,而且效果肯定比不上现在很多SOTA方法。
之前也提到过,现在的人工神经网络的主要发展方向并不是朝着“更像人”这个方向努力,而是性能更好的方向努力,其他方向上努力因为没啥成果,虽然更有意思,但发展很慢。
还是希望这样沉下心的研究更多啊。
花师小哲-中二 2023-03-20
花师小哲-中二 2023-01-12
花师小哲-中二 2023-08-07
花师小哲-中二 2023-07-27
花师小哲-中二 2023-10-08