伦敦大学学院人工智能研究员yihong chen(本硕清华,PhD UCL) 最近领导了一项研究-《通过主动遗忘预训练提高语言可塑性》(已被人工智能顶会NeurIPS接收)展示了用主动遗忘预训练语言模型如何帮助AI快速学习新语言。通过遗忘预训练获得的模型可塑性会让人大吃一惊。yihong chen 和她的团队说,他们的方法取得了成功,这表明遗忘可能有助于人工智能在不同语言之间进行泛化
AI模型现状
AI语言模型目前主要依赖人工神经网络驱动。神经网络由数学函数"神经元"构成,通过多层神经元传递并处理信息流。训练的本质是调整神经元连接,使模型适应训练数据,比如通过中英双语训练,模型可建立起英语单词与对应中文词语之间的关联
基于这种现状,现在AI模型缺点很明显:
为了解决以上问题,yihong chen团队 提出“定期遗忘算法”,首次将遗忘机制引入到语言模型预训练中,为提高预训练语言模型的可塑性和适应性开辟了新路径,主要创新点:
实验结果显示,采用"定期遗忘"训练的模型虽然初始精度稍逊传统模型,但在学习新语言时的表现要优秀得多,而且耗费的数据和算力资源也更少。这表明这种"遗忘"机制增强了模型对语言本质的理解,提升了灵活学习的能力
结语
目前主导市场的大型语言模型,仍是基于传统的训练范式,这项工作提出了一种全新的预训练范式,为提高大规模语言模型的可塑性和通用性开辟了新路径,并对语言理解的认知机制提出了新的解释视角,期待定期遗忘算法后续实际应用结果