当前位置:首页|资讯|大语言模型|编程|ChatGPT|文心一言

【花师小哲】当代炼金术(神经网络)前沿(34)——对大语言模型使用代码风格的提示吧

作者:花师小哲-中二发布时间:2023-05-11

师兄中午在群里发了一篇论文,然后整个群讨论得很火烈。于是我来介绍一下这篇论文。

内容比较少,毕竟这篇论文思想其实极其简单:

1.Code-LLM

先介绍代码-大语言模型。其实就是能够写代码的大语言模型

现在很多语言模型,例如ChatGPT文心一言啥的都是在代码数据上训练过的。

但其实初版的GPT-3是完全没有代码能力的,毕竟那时候人们还不认为语言模型能完成生成代码的任务,然后之后GPT-3.5CodeX就打脸了,之后的大语言模型基本上就将代码生成作为标准配置了。

顺带一提,代码训练可能带来了很多副产品,例如多轮推理能力,典型的就是思维链,见:

【花师小哲】当代炼金术(神经网络)前沿(18)——多模态思维链战胜大模型?

还有长程依赖(我们写代码经常一个变量定义后很长时间再去用它)等能力。

2.信息提取IE

题目中的信息提取又是什么任务呢?作者举了两个例子——命名实体识别关系抽取

命名实体识别的例子:对于“小明今天一整天呆在计算机实验室”,我们可以提取出“小明”是人名,“计算机实验室”是个地点。

关系抽取一般是建立在命名实体识别的基础上(也有一步到位的),例子:“小明”和“实验室”是隶属于的关系。

细心的朋友可能发现了,这两个任务都是很结构化的

3.code-style prompt

关于prompt,见:

【花师小哲】鉴定网络热门(?)AI(6)——Prompt

code-style见如下的例子:

(熟悉代码的朋友应该不难理解)灰色部分是输入,白色部分是让模型来预测的。

说白了,就是把自然语言变成了代码语言。

然后结合上下文学习,就是本论文的所有内容了。上下文学习见:

【花师小哲】当代炼金术(神经网络)前沿(11)——GPT与上下文学习

然后就随便就能提十几个点,恐怖如斯。

4.结论

我不知道怎么评价,需要我先缓几天,这个确实有些超乎想象,虽然应用的点挺小的。


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1