【花师小哲】当代炼金术（神经网络）前沿（66）——语言模型为什么数不清草莓中的r

作者：花师小哲-中二发布时间：2024-09-04

也不算是什么新鲜事了，估计很多人都知道，就是很多大语言模型（LLM），包括很强的一些大语言模型，都回答不对“草莓（Strawberry）中有几个r”这个问题。数不准的ChatGPT同学了属于是。要解释这个事情出发点很多，不过如下论文是一个很好的出发点，也能帮助我们理解语言模型是如何计数的： [图片] [图片] 1.分词的锅？这个情况的最简单的一种解释方式是分词的问题。这个之前也讲了N遍了，现在大部分LLM都采用分词的方式，对于他们来说，不可分的对象叫做token，可以翻译成词元或子词。简单来书（对于...【查看原文】

自从实验室要求变更，最近可是忙得要死，这周读了14篇论文，也爆发一波，来一波大的，谈谈语言模型（主要是大语言模型）除了走ChatGPT的老路之外，还有哪些值得研究的方向。以下提到的不少论文其实都是谷歌在GPT-3出来之后搞的，可以看出谷歌确实是想针对GPT做些不一样的，相较于专一（搞钱）的OpenAI，谷歌的路要更广。0.调教模型有一个知识点好像至今讲的不是很多。大家在读语言模型或大语言模型相关的论文时，应该经常能看到few-shot、one-shot、zero-shot、prompt这类的字眼。传统的神

ChatGPT 谷歌 OpenAI 提示词

花师小哲-中二 2023-02-26

【花师小哲】当代炼金术（神经网络）前沿（66）——语言模型为什么数不清草莓中的r

推荐体验

相关资讯

【花师小哲】当代炼金术（神经网络）前沿（66）——语言模型为什么数不清草莓中的r

【花师小哲】当代炼金术（神经网络）前沿（16）——语言模型的其他出路

【花师小哲】当代炼金术（神经网络）前沿（44）——语言模型战胜了Diffusion？！

【花师小哲】当代炼金术（神经网络）前沿（37）——语言模型学会制作工具？

【花师小哲】当代炼金术（神经网络）前沿（13）——语言模型自学使用工具？

近期资讯

我国首个商用堆在线辐照生产同位素装置投运，打破医用同位素长期依赖进口局面

京东员工提前过年！刘强东自掏腰包送8万盒巧克力

理想祝贺零跑成立九周年：一起为用户带来安全可靠的体验

统帅BCD-218LLC3EZS9冰箱：934元，218升风冷无霜，节能新选择

蔚来这十年到底怎么花的钱

全球首款AMD Zen5模块化掌机！

阿里云独家央视春晚创造历史！

特斯拉开卖199元摆件：15分钟被抢光，二手交易平台已炒到上千元

任天堂Switch2真机曝光：U形支架、磁吸Joy-Con接口

赵明回应iPhone降价：让行业更加聚焦消费者价值呈现

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响