最近发布了一种新的开放推理模型 K2-Think,其得分与 GPT-OSS 120B 相当,并引起了大量媒体关注。 然而,他们的表现依赖于存在缺陷的评估,这些评估受到污染、不公平比较和结果误传的影响。 🧵