Acabei de escrever um blog sobre como criámos a primeira versão do grail (grail-v0), um sistema de treino RL totalmente aberto e descentralizado para LLMs. Um dos seus primeiros tipos. Tudo é público: a base de código, o ciclo de treino, as curvas de treino ao vivo, os incentivos, os rollouts. 🧵 1/4