热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Ahmad
人工智能研究员和软件工程师,肩负构建 DGX B200 GPU 集群的使命
极度看跌的信号
> 招待潜在的雇员
> 这要么出于慷慨
> 要么出于绝望
> 在这种情况下是后者
马克·扎克伯格将因
> 雇佣亚历山大·王而被铭记,
> 让他成为扬·勒昆的老板,
> 并摧毁FAIR
在Llama3的巅峰时刻。


Yuchen Jin12月3日 02:47
OpenAI的Mark Chen:
- “Meta挖走了我一半的直接下属,他们都拒绝了。”
- “Meta每年有100亿美元的资金可以用于人才招聘。”
- “扎克亲自煮汤并送给他想从OpenAI挖走的人。”
疯狂的AI人才争夺战。
13.57K
> 成为 arcee
> 环顾四周
> 意识到开放权重的 MoE 基本上是 Qwen/DeepSeek 的垄断
> 决定“算了,我们自己构建一个”
> 实际的端到端预训练
> 在美国土壤上
> 介绍 Trinity
> Nano (6B MoE) 和 Mini (26B MoE)
> 开放权重,Apache 2.0
> 目前在 OpenRouter 上免费
> Nano:具有 800M 活跃参数的人格模型
> Mini:具有 3B 活跃参数的推理模型
> Large:目前在 2048 B300s 上训练,因为为什么不呢
> 未来显而易见
> 模型不会是静态的设备
> 它们将是不断成长的系统
> 适应
> 从用户那里学习
> 从实时使用中重新训练
> 如果你不拥有权重
> 或训练循环,你就无法做到这一点
> 所以 arcee 翻转了桌子
> 决定自己预训练所有内容
> 第一步:AFM-4.5B
> 8T 精心策划的标记
> 与 DatologyAI 训练
> “我们能做到吗”实验
> 答案:可以
> 另外:数学和代码仍然很痛苦
> 还是继续
> 第二步:Trinity Nano & Mini
> 直接跳到 MoE 前沿
> 56 层,128 个专家
> sigmoid 路由,共享专家,无辅助损失
> 门控注意力,QK-norm,分组查询
> 局部/全局模式
> muon 优化器
> 在 512 H200s 上进行 bf16 训练
> 整个 Dion/TorchTitan/HSDP 特殊
> 上下文长度?
> Nano 在 256k 训练(在 128k 推理)
> Mini 在 128k 训练
> 数据?
> 10T 标记分为 3 个阶段
> 广泛 → 锐利 → STEM 重
> Datology 输出合成火hose
> Prime Intellect 让 H100 集群保持活力
> 是的
> 在这个规模上训练 MoE 是痛苦的
> “没有礼貌的说法,”痛苦
> 20T 标记用于 Trinity Large
> 2048 H100s 生成合成数据
> 2048 B300s 训练实际模型
> (调试是一种生活方式,顺便说一下)
> 但这就是乐趣所在
> 因为一旦你拥有预训练
> 你就拥有“产品”上游的一切
> 数据来源
> 目标
> 行为漂移
> 本地重新训练
> 真正的长期系统
> 而不是 API 作为依赖的炼狱
> 那么接下来是什么?
> Trinity Large
> 420B 参数
> 每个标记 13B 活跃
> 完全开放
> 目标是 2026 年 1 月
> “美国 MoE”成为一件事的时刻™
> Nano + Mini 是热身
> 你现在可以实际使用的模型
> 下载
> 托管
> 微调
> 破解
> 报告错误
> 影响 Large 的训练
> 社区循环解锁
> 如果你关心开放权重
> 或者不想将整个堆栈外包给黑箱实验室
> Trinity 基本上是一次挑战
> 在 Hugging Face 上获取 Nano + Mini
> 或在 OpenRouter 上运行它们
> 压力测试它们
> 找到裂缝
> 发送反馈
> 整个重点是拥有权
> 我喜欢 arcee,他们正在构建这些模型,以便你不必从其他地方租用你的智能

27.58K
热门
排行
收藏




