新论文:LLMs在解释事物方面非常出色,但在实际操作上却很糟糕。 问一个模型“如何”比较两个小数,它会给你一个完美的逐步算法。 但当你让它实际“做”比较时……突然间“9.11大于9.9,因为90大于11。” 研究人员称之为“计算性分脑综合症”。LLMs为解释一个过程发展出一条路径,而为执行它发展出完全不同的路径。 这两条路径存在于模型几何的不同部分(如本论文第14-16页的t-SNE图所示),它们之间没有交流。 这就是为什么一个模型可以教你长除法,但不能可靠地执行它。 或者为什么它可以阐明逻辑规则,却在基本推理上失败。 或者为什么它能产生无瑕的语言,却有脆弱的推理。 解释是模式回忆。 执行是计算。 LLMs在第一方面表现出色,但在第二方面根本挣扎。 在架构的深处,嵌入模糊了人类保持分开的意义。 论文给出了一个搞笑的例子:“9.11”比“九点十一”更接近“九月十一日”,因为标记嵌入在它们见过的每个上下文中平均化。那种“上下文污染”使得干净的符号推理变得不可能。 此外…… 变压器只能生成它们见过的“加权平均”。它们不能像“3354”那样从“43 × 78”生成新的符号值,使用实际的数学。 ...