热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Ruben Hassid
新论文:LLMs在解释事物方面非常出色,但在实际操作上却很糟糕。
问一个模型“如何”比较两个小数,它会给你一个完美的逐步算法。
但当你让它实际“做”比较时……突然间“9.11大于9.9,因为90大于11。”
研究人员称之为“计算性分脑综合症”。LLMs为解释一个过程发展出一条路径,而为执行它发展出完全不同的路径。
这两条路径存在于模型几何的不同部分(如本论文第14-16页的t-SNE图所示),它们之间没有交流。
这就是为什么一个模型可以教你长除法,但不能可靠地执行它。
或者为什么它可以阐明逻辑规则,却在基本推理上失败。
或者为什么它能产生无瑕的语言,却有脆弱的推理。
解释是模式回忆。
执行是计算。
LLMs在第一方面表现出色,但在第二方面根本挣扎。
在架构的深处,嵌入模糊了人类保持分开的意义。
论文给出了一个搞笑的例子:“9.11”比“九点十一”更接近“九月十一日”,因为标记嵌入在它们见过的每个上下文中平均化。那种“上下文污染”使得干净的符号推理变得不可能。
此外……
变压器只能生成它们见过的“加权平均”。它们不能像“3354”那样从“43 × 78”生成新的符号值,使用实际的数学。
它们的前馈网络介入,但FFNs是分段线性的,这意味着它们实际上无法实现精确的算术。它们能做的最好的就是近似或记忆模式(在附录A中正式证明)。
因此,它们听起来很有能力,但行为却很无能。
LLMs可以完美地描述乘法算法,因为它们见过数百万个解释。但当被要求“执行”算法时,它们会回归到模式完成启发式,换句话说,就是半记忆算术的片段,带着信心拼凑在一起。
这个区别很重要,因为人们将“理解类输出”与能力混淆。
一个模型详细解释如何解决逻辑难题“感觉”很聪明。
但正如在算术、关系推理和符号任务中的实验所示,那条指令路径从未与执行路径绑定。它们在几何上是分开的;即使是完美的解释也不会改善执行。
而这对任何与LLMs合作的人来说是一个真正的教训:
“把它们当作评论者,而不是计算器。”
如果你想要洞察、框架、视角、诊断、解释……LLMs非常出色。
如果你想要正确的多步骤推理或符号精度:请转向工具、结构化系统或混合架构。
换句话说:
LLMs在告诉你*如何*做事情方面表现出色。
但它们仍然需要其他东西来实际“做”事情。
你可以在这里阅读完整的论文:

11.32K
埃隆·马斯克表示,工作很快将变得"可选"。
机器人和人工智能将消除非体力工作,创造一个"普遍高收入"的局面,让每个人都能得到他们想要的。
但耶鲁大学的一篇论文显示,他的预测背后的经济学比他所暗示的要残酷得多。
我说的是题为"我们不会被怀念"的论文。
它得出的结论是:
"一半的劳动力明天可以停止工作,GDP也不会有任何变化。"
也就是说,人类在经济上变得毫无意义。
这篇论文将所有工作分为两类:
1) 瓶颈工作
这项工作对增长至关重要。能源生产、物流、科学发现和基础设施。经济无法增长,除非这项工作能够扩展。
2) 附属工作
这项工作并非必需。艺术、酒店业、治疗和高档餐饮。虽然有它很好,但并不是增长所必需的。
AGI系统性地接管所有关键任务。
一些附属工作仍然由人类完成,并不是因为AGI无法做到,而是因为我们有多余的工人,这样做不值得计算成本。
换句话说,你未来的薪水将基于复制你工作的计算成本。
随着计算成本呈指数下降,你的工资上限也随之暴跌。
经济增长,生产力提高,但你的价值与技术成本的下降息息相关。
耶鲁的论文得出结论:
劳动在GDP中的份额趋近于零。所有收入流向计算资源的所有者。
过渡的速度决定了这一过程的痛苦程度。
如果技术发展速度快于计算能力的扩展,我们将经历剧烈的破坏,一些工人在崩溃之前会获得巨额的溢价。
如果计算能力扩展得更快,我们将看到工资的逐渐、可预测的下降。
在我看来,马斯克在这里错过了一个悖论。
工作变得"可选"是一种幻觉。
人类需要工作,也许不是为了生存,但为了目的。
存在性的问题是:
当工作在经济上毫无意义时,人们还会选择工作吗……而当你的贡献对进步或繁荣没有任何意义时?
42.71K
ChatGPT刚刚禁止了医疗和法律建议
它不再提供需要专业执照的咨询,例如医疗、法律或财务建议。
这是一种巨大的过度纠正,实际上让互联网变得不那么安全,却假装在保护人们。
想象一下,住在农村地区的单身母亲,她无法负担200美元的皮肤科医生费用来识别她孩子的皮疹。
她本可以使用ChatGPT,获得潜在治疗的建议,节省金钱和长途驾驶的时间。
还有许多这样的案例,人们在医生之前使用GPT来诊断他们的健康问题。
(你可以在Reddit上找到它们)
不幸的是……
OpenAI的新政策没有区分“替代专业护理”和“改善信息获取”。
它禁止了两者。
他们的问题是对责任的恐惧。
他们在保护自己免受诉讼。
与此同时,缺乏医疗保健、法律资源或基本医学知识的人们刚刚失去了他们最易获取的工具。
听着,我来自一个医生家庭。
我妈妈是药剂师,我姐姐是胃肠病学家,她的丈夫是泌尿科医生,我的兄弟是牙医。
我亲身知道AI不会取代他们。
这项禁令不会“停止”替代,完全错失了要点。
这项禁令阻碍了获取基本信息的途径,帮助人们知道何时需要真正的医生。
考虑一下这种荒谬。
ChatGPT可以编写运行核电站的代码,但它却无法告诉你何时因胸痛就医。
一个更好的方法是有明确的免责声明、信心评分和明确的界限(“这只是信息,不是诊断”)。
相反,OpenAI选择了禁止所有需要执照的内容。
这一行为的意外后果是
人们不会停止询问这些问题。
(我知道我不会)
他们只会使用更糟糕的来源,例如不受监管的健康论坛、可疑的网站,或者完全避免寻求帮助。
有趣的是,每次试图让互联网“更安全”的尝试实际上使其变得不那么安全。


35.98K
热门
排行
收藏

