Muito orgulhoso por ter alcançado este marco. Aterrámos na curva de escalonamento qwen sem benchmaxxing, e fizemo-lo em um cluster AMD.
É hora de escalar!
Em colaboração com @AMD e @IBM, nós @ZyphraAI estamos a partilhar o ZAYA1-base! O primeiro modelo em grande escala numa pilha integrada de hardware, software e rede da AMD. O ZAYA1 utiliza a nova arquitetura MoE da Zyphra com 760M de parâmetros ativos e 8.3B de parâmetros totais.
Artigo técnico e mais abaixo👇