*重大* 开源 AI 发布今天。美国能赢得开放 AI 竞赛吗?我与 @natolambert 和 @soldni 以及 @allen_ai 的对话,讨论 Olmo 3 的发布 00:00 – 冷开场 00:39 – 欢迎 & 今天的重要公告 01:18 – 介绍 Olmo 3 模型系列 02:07 – 什么是“基础模型”(以及它们为何重要) 05:51 – Dolma 3:Olmo 3 背后的数据 08:06 – 性能与 Qwen、Gemma、DeepSeek 的比较 10:28 – 真正的开源意味着什么(以及为什么它很少见) 12:51 – 中间检查点、透明度,以及为什么 AI2 发布一切 16:37 – 为什么 Qwen 无处不在(包括美国初创公司) 18:31 – 为什么中国实验室选择开源(而美国实验室不这样做) 20:28 – ATOM 内部:美国对中国模型激增的回应 22:13 – “思维模型”的崛起和推理时间的扩展 35:58 – 完整的 Olmo 流程,简单解释 46:52 – 预训练:数据、规模,以及避免灾难性峰值 50:27 – 中期训练(尾部修补)和避免测试泄漏 52:06 – 为什么长上下文训练很重要 55:28 – SFT:构建推理基础 1:04:53 – 偏好调优 & 为什么 DPO 仍然有效 1:10:51 – 难点:RLVR、长推理链和基础设施痛点 1:13:59 – 为什么 RL 在技术上如此残酷 1:18:17 – 复杂性税与 AGI 热潮 1:21:58 – 每个人如何为 AI 的未来做出贡献 1:27:26 – 结束语
... 开放 **源代码** AI 竞赛,哎呀 🤦‍♂️
33.54K