Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Hugging Face
Hugging Face republicou
O relatório técnico de @Meituan_LongCat LongCat-Flash é incrivelmente bom e cheio de novidades.
O modelo é um MoE passivo de 560B ~27B ativo com um número adaptativo de parâmetros ativos dependendo do contexto, graças ao especialista Zero-Computational.
1) Nova arquitetura
> As camadas têm 2 blocos de Atenção e tanto FFN quanto MoE, assim você pode sobrepor as 2 comunicações all-to-all. (também são apenas 28 camadas, mas você deve levar em conta os 2 blocos de atenção).
> Eles adicionam o especialista zero-computacional que os tokens podem escolher e não fazer nada, meio que como um "sink" para tokens fáceis.
> Para balanceamento de carga, eles têm uma perda auxiliar semelhante ao dsv3 livre para definir a média real/falsa de especialistas por token. Eles aplicam um cronograma de decaimento a essa atualização de viés. Eles também fazem controle de balanceamento de perda.
2) Escalonamento
> Eles fizeram mudanças no MLA/MoE para ter alinhamento de variância na inicialização. Os ganhos são bastante impressionantes na Figura 5, mas não sei até que ponto isso impacta mais tarde.
> A inicialização do crescimento do modelo é bem legal, eles primeiro treinam um modelo 2x menor e então "quando está treinado o suficiente" (um pouco confuso aqui quantos B tokens) eles inicializam o modelo final apenas empilhando as camadas do modelo menor.
> Eles usaram o artigo de @_katieeverett @Locchiu e outros para ter transferência de hiperparâmetros com SP em vez de muP para o modelo 2x menor, eu acho.
3) Estabilidade
> Eles rastreiam a Razão do Normativo do Gradiente e a similaridade cosseno entre especialistas para ajustar o peso da perda de balanceamento de carga (eles recomendam Razão do Normativo do Gradiente <0.1).
> Para evitar ativações grandes, eles aplicam uma z-loss ao estado oculto, com um coeficiente bem pequeno (outra alternativa ao qk-clip/norm).
> Eles definem o epsilon do Adam para 1e-16 e mostram que você quer que seja menor do que a faixa RMS do gradiente.
4) Outros
> Eles treinam em 20T tokens para a fase 1, "múltiplos T de tokens" para o treinamento intermediário em dados STEM/código (70% da mistura), 100B para extensão de contexto longo sem fio (80B para 32k, 20B para 128k). Os documentos de contexto longo representam 25% da mistura (não tenho certeza se é % de documentos ou tokens, o que muda muito aqui).
> O pipeline de dados de pré-treinamento é extração de contexto, filtragem de qualidade, deduplicação.
> Um bom apêndice onde eles mostram que comparam o top_k necessário para diferentes benchmarks (MMLU mais alto com 8.32, GSM8K mais baixo com 7.46). Eles também comparam a alocação de tokens em camadas profundas/rasas.
> Eles lançam dois novos benchmarks Meeseeks (IF de múltiplas turnos) e VitaBench (cenário de negócios do mundo real).
> Muitos detalhes na infra/inferência com informações sobre aceitação de decodificação especulativa, quantização, implantação, otimização de kernel, sobreposição de comunicações, etc.
> Lista dos diferentes artigos relevantes no thread 🧵

46,35K
Top
Classificação
Favoritos