En ny åpen resonnementmodell, K2-Think, ble nylig utgitt med poengsummer som kan sammenlignes med GPT-OSS 120B og får mye medieoppmerksomhet. Ytelsen deres er imidlertid avhengig av feilaktig evaluering preget av forurensning, urettferdige sammenligninger og feilaktig fremstilling av resultater. 🧵