Notável. A China novamente…
Artificial Analysis
Artificial Analysis7/11, 05:10
A MoonshotAI lançou o Kimi K2 Thinking, uma nova variante de raciocínio do Kimi K2 que alcança o #1 no benchmark agentic Tau2 Bench Telecom e é potencialmente o novo modelo líder de pesos abertos. O Kimi K2 Thinking é um dos maiores modelos de pesos abertos já existentes, com 1T de parâmetros totais e 32B ativos. O K2 Thinking é o primeiro lançamento de modelo de raciocínio dentro da família de modelos Kimi K2 da @Kimi_Moonshot, seguindo os modelos Kimi K2 Instruct não-raciocínio lançados anteriormente em julho e setembro de 2025. Principais conclusões: ➤ Desempenho forte em tarefas agentic: O Kimi K2 Thinking alcança 93% no 𝜏²-Bench Telecom, um benchmark de uso de ferramentas agentic onde o modelo atua como um agente de atendimento ao cliente. Esta é a maior pontuação que medimos de forma independente. O uso de ferramentas em contextos agentic de longo prazo foi uma força do Kimi K2 Instruct e parece que esta nova variante Thinking faz ganhos substanciais. ➤ Variante de raciocínio do Kimi K2 Instruct: O modelo, conforme seu nome, é uma variante de raciocínio do Kimi K2 Instruct. O modelo tem a mesma arquitetura e o mesmo número de parâmetros (embora com precisão diferente) que o Kimi K2 Instruct e, como o K2 Instruct, suporta apenas texto como modalidade de entrada (e saída). ➤ 1T de parâmetros, mas INT4 em vez de FP8: Ao contrário dos lançamentos anteriores do Kimi K2 Instruct da Moonshot que usaram precisão FP8, este modelo foi lançado nativamente em precisão INT4. A Moonshot usou treinamento consciente de quantização na fase pós-treinamento para alcançar isso. O impacto disso é que o K2 Thinking ocupa apenas ~594GB, em comparação com pouco mais de 1TB para o K2 Instruct e K2 Instruct 0905 - o que se traduz em ganhos de eficiência para inferência e treinamento. Uma razão potencial para o INT4 é que as GPUs NVIDIA anteriores ao Blackwell não têm suporte para FP4, tornando o INT4 mais adequado para alcançar ganhos de eficiência em hardware mais antigo. Nosso conjunto completo de benchmarks do Índice de Análise de Inteligência Artificial está em andamento e forneceremos uma atualização assim que estiverem completos.
Principais investidores na @Kimi_Moonshot : Alibaba (proprietário de 40%), Tencent, Meituan, Ant Group, Hongshan … e a Microsoft participaram!
3,61K