如果这是真的,Gemini 3 就完蛋了。 我用 Grok 4 和 Grok 4.1(估计)分数做了一个快速表格。 现在你知道他们为什么不包括 Grok 了。 Grok 4 在大多数基准测试中得分要么优于要么等同于其他结果。而 Grok 4.1 的结果甚至还没有公布。