A MoonshotAI lançou o Kimi K2 Thinking, uma nova variante de raciocínio do Kimi K2 que alcança o #1 no benchmark agencial Tau2 Bench Telecom e é potencialmente o novo modelo líder de pesos abertos O Kimi K2 Thinking é um dos maiores modelos de pesos abertos de todos os tempos, com parâmetros totais de 1T com 32B ativos. O K2 Thinking é o primeiro lançamento de modelo de raciocínio dentro da família de modelos Kimi K2 da @Kimi_Moonshot, seguindo os modelos Kimi K2 Instruct sem raciocínio lançados anteriormente em julho e setembro de 2025. Principais conclusões: ➤ Forte desempenho em tarefas agenciais: Kimi K2 Thinking atinge 93% no τ²-Bench Telecom, um benchmark de uso de ferramentas agenciais onde o modelo atua como um agente de atendimento ao cliente. Esta é a pontuação mais alta que medimos de forma independente. O uso de ferramentas em contextos agenciais de longo horizonte foi um ponto forte do Kimi K2 Instruct e parece que essa nova variante do Thinking obtém ganhos substanciais ➤ Variante de raciocínio do Kimi K2 Instruct: O modelo, de acordo com sua nomenclatura, é uma variante de raciocínio do Kimi K2 Instruct. O modelo tem a mesma arquitetura e o mesmo número de parâmetros (embora com precisão diferente) que o Kimi K2 Instruct e, como o K2 Instruct, suporta apenas texto como uma modalidade de entrada (e saída) ➤ Parâmetros 1T, mas INT4 em vez de FP8: Ao contrário dos lançamentos anteriores do Kimi K2 Instruct da Moonshot que usavam precisão FP8, este modelo foi lançado nativamente em precisão INT4. A Moonshot usou o treinamento com reconhecimento de quantização na fase pós-treinamento para conseguir isso. O impacto disso é que o K2 Thinking tem apenas ~ 594 GB, em comparação com pouco mais de 1 TB para K2 Instruct e K2 Instruct 0905 - o que se traduz em ganhos de eficiência para inferência e treinamento. Um possível motivo para o INT4 é que as GPUs NVIDIA pré-Blackwell não têm suporte para FP4, tornando o INT4 mais adequado para obter ganhos de eficiência em hardware anterior. Nosso conjunto completo de benchmarks do Índice de Inteligência de Análise Artificial está em andamento e forneceremos uma atualização assim que estiverem concluídos.