师兄中午在群里发了一篇论文,然后整个群讨论得很火烈。于是我来介绍一下这篇论文。
内容比较少,毕竟这篇论文思想其实极其简单:


1.Code-LLM
先介绍代码-大语言模型。其实就是能够写代码的大语言模型。
现在很多语言模型,例如ChatGPT、文心一言啥的都是在代码数据上训练过的。
但其实初版的GPT-3是完全没有代码能力的,毕竟那时候人们还不认为语言模型能完成生成代码的任务,然后之后GPT-3.5的CodeX就打脸了,之后的大语言模型基本上就将代码生成作为标准配置了。
顺带一提,代码训练可能带来了很多副产品,例如多轮推理能力,典型的就是思维链,见:
【花师小哲】当代炼金术(神经网络)前沿(18)——多模态思维链战胜大模型?
还有长程依赖(我们写代码经常一个变量定义后很长时间再去用它)等能力。

2.信息提取IE
题目中的信息提取又是什么任务呢?作者举了两个例子——命名实体识别和关系抽取。
命名实体识别的例子:对于“小明今天一整天呆在计算机实验室”,我们可以提取出“小明”是人名,“计算机实验室”是个地点。
关系抽取一般是建立在命名实体识别的基础上(也有一步到位的),例子:“小明”和“实验室”是隶属于的关系。
细心的朋友可能发现了,这两个任务都是很结构化的

3.code-style prompt
关于prompt,见:
code-style见如下的例子:

(熟悉代码的朋友应该不难理解)灰色部分是输入,白色部分是让模型来预测的。
说白了,就是把自然语言变成了代码语言。
然后结合上下文学习,就是本论文的所有内容了。上下文学习见:
【花师小哲】当代炼金术(神经网络)前沿(11)——GPT与上下文学习
然后就随便就能提十几个点,恐怖如斯。

4.结论
我不知道怎么评价,需要我先缓几天,这个确实有些超乎想象,虽然应用的点挺小的。

花师小哲-中二 2023-02-15

花师小哲-中二 2023-02-26

花师小哲-中二 2023-05-30

花师小哲-中二 2023-02-20