En ny modell för öppet resonemang, K2-Think, släpptes nyligen med resultat som är jämförbara med GPT-OSS 120B och som fick mycket uppmärksamhet i media. Deras prestanda är dock beroende av felaktig utvärdering präglad av kontaminering, orättvisa jämförelser och felaktig framställning av resultat. 🧵