也不算是什么新鲜事了,估计很多人都知道,就是很多大语言模型(LLM),包括很强的一些大语言模型,都回答不对“草莓(Strawberry)中有几个r”这个问题。数不准的ChatGPT同学了属于是。 要解释这个事情出发点很多,不过如下论文是一个很好的出发点,也能帮助我们理解语言模型是如何计数的: [图片] [图片] 1.分词的锅? 这个情况的最简单的一种解释方式是分词的问题。 这个之前也讲了N遍了,现在大部分LLM都采用分词的方式,对于他们来说,不可分的对象叫做token,可以翻译成词元或子词。简单来书(对于...【查看原文】