NU vrei să ratezi asta - Toate trucurile și optimizările folosite pentru a face gpt-oss extrem de rapid, toate - într-o postare pe blog (cu benchmark-uri)! 🔥 Acoperim detalii care variază de la cuantificarea MXFP4 până la nuclee pre-construite, Tensor/Expert Parallelism, Continuous Batching și multe altele Bonus: Adăugăm benchmark-uri extinse (împreună cu scripturi reproductibile)! ⚡