Remarkabile. La Cina di nuovo…
Artificial Analysis
Artificial Analysis7 nov, 05:10
MoonshotAI ha rilasciato Kimi K2 Thinking, una nuova variante di ragionamento di Kimi K2 che raggiunge il #1 nel benchmark agentico Tau2 Bench Telecom ed è potenzialmente il nuovo modello leader a pesi aperti. Kimi K2 Thinking è uno dei più grandi modelli a pesi aperti mai realizzati, con 1T di parametri totali e 32B attivi. K2 Thinking è il primo rilascio di un modello di ragionamento all'interno della famiglia di modelli Kimi K2 di @Kimi_Moonshot, dopo i modelli Kimi K2 Instruct non ragionanti rilasciati precedentemente a luglio e settembre 2025. Punti chiave: ➤ Ottime prestazioni in compiti agentici: Kimi K2 Thinking raggiunge il 93% nel 𝜏²-Bench Telecom, un benchmark di utilizzo di strumenti agentici in cui il modello agisce come un agente di servizio clienti. Questo è il punteggio più alto che abbiamo misurato in modo indipendente. L'uso di strumenti in contesti agentici a lungo termine era un punto di forza di Kimi K2 Instruct e sembra che questa nuova variante Thinking faccia guadagni sostanziali. ➤ Variante di ragionamento di Kimi K2 Instruct: Il modello, come suggerisce il nome, è una variante di ragionamento di Kimi K2 Instruct. Il modello ha la stessa architettura e lo stesso numero di parametri (anche se con precisione diversa) di Kimi K2 Instruct e, come K2 Instruct, supporta solo il testo come modalità di input (e output). ➤ 1T di parametri ma INT4 invece di FP8: A differenza dei precedenti rilasci di Kimi K2 Instruct di Moonshot che utilizzavano la precisione FP8, questo modello è stato rilasciato nativamente in precisione INT4. Moonshot ha utilizzato l'addestramento consapevole della quantizzazione nella fase post-addestramento per raggiungere questo obiettivo. L'impatto di questo è che K2 Thinking è solo ~594GB, rispetto a poco più di 1TB per K2 Instruct e K2 Instruct 0905 - il che si traduce in guadagni di efficienza per l'inferenza e l'addestramento. Una possibile ragione per l'uso di INT4 è che le GPU NVIDIA pre-Blackwell non supportano FP4, rendendo INT4 più adatto per ottenere guadagni di efficienza su hardware più vecchio. Il nostro set completo di benchmark dell'Artificial Analysis Intelligence Index è in fase di sviluppo e forniremo un aggiornamento non appena saranno completi.
Investitori principali in @Kimi_Moonshot : Alibaba (proprietario al 40%), Tencent, Meituan, Ant Group, Hongshan … e Microsoft ha partecipato!
3,52K