Din moment ce toată lumea vorbește despre medii RL și GRPO acum, dar nimeni nu știe cum funcționează, ne-am gândit că ar fi grozav să facem un videoclip explicativ + cod pe care îl puteți rula: Acesta este un exemplu de utilizare a GRPO pentru a antrena Qwen 2.5 pentru a juca 2048 (cod în fir): 🧵
112,37K