我刚写了一篇博客,讲述我们是如何创建第一个版本的 grail (grail-v0),这是一个完全开放的、去中心化的 RL 训练系统,专为 LLMs 设计。它是同类中的首个之一。 一切都是公开的:代码库、训练循环、实时训练曲线、激励措施、回滚。 🧵 1/4