最近、GPT-OSS 120Bに匹敵するスコアを誇り、メディアの注目を集めた新しいオープン推論モデル「K2-Think」がリリースされました。 しかし、そのパフォーマンスは、汚染、不公平な比較、結果の虚偽表示を特徴とする欠陥のある評価に依存しています。🧵