阅读沃尔夫拉姆的精彩文章《ChatGPT在做什么...》(感谢@danielrock)。 他写道,我们从GPT3的事实中学到了很多关于语言如何运作的知识,GPT3只有1750亿个权重,却能如此好地模拟语言。这意味着它在计算上比我们想象的要简单得多。但数学呢? 在写这篇文章时(2023年),GPT在数学方面仍然很糟糕。当第一个推理模型(o1)发布时,模型在数学方面变得非常(非常)优秀,这个模型更多依赖于强化学习,而不仅仅是粗暴的预训练。 这对数学意味着什么?从概念上讲,语言比数学要“模糊”得多:在句子的同一位置,多个单词听起来都可以是“正确的”。这就是概率LLM架构能够工作的原因。数学则不那么模糊。这或许就是为什么更“基于规则”的强化学习步骤至关重要。 但这也意味着正式数学在计算上比我们想象的要简单。你怎么看?@littmath @alz_zyd_