Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Victor M
🤗 Jefe de @huggingface de Producto
Victor M reposteó
El informe técnico de @Meituan_LongCat LongCat-Flash es increíblemente bueno y lleno de novedades.
El modelo es un MoE activo pasivo de 560B ~27B con un número adaptativo de parámetros activos según el contexto gracias al experto Zero-Computational.
1) Nueva arquitectura
> capas tienen 2 bloques de atención y FFN y MoE, de esa manera puedes superponer las 2 comunicaciones de todo a todo. (además son solo 28 capas, pero hay que tener en cuenta los 2 bloques de atención).
> Agregan el experto en computación cero de que los tokens pueden elegir y no hacer nada, algo así como un "sumidero" para tokens fáciles.
> Para el equilibrio de carga, tienen una pérdida auxiliar similar a dsv3 libre para establecer el experto real/falso promedio por token. Aplican un programa de decaimiento a esta actualización de sesgo. También controlan el saldo de pérdidas.
2) Escala
> Hicieron cambios en MLA / MoE para tener alineación de varianza en el inicio. Las ganancias son bastante impresionantes en la Figura 5, pero no sé hasta qué punto esto tiene impacto más adelante.
> crecimiento del modelo es bastante bueno, primero entrenan un modelo 2 veces más pequeño y luego "cuando está lo suficientemente entrenado" (un poco poco claro aquí cuántos tokens B) inician el modelo final simplemente apilando las capas del modelo más pequeño.
> Usaron papel @_katieeverett @Locchiu y al. para tener transferencia de hiperparámetros con SP en lugar de muP para el modelo ig 2 veces más pequeño.
3) Estabilidad
> Rastrean la relación de norma de gradiente y la similitud del coseno entre expertos para ajustar el peso de la pérdida de equilibrio de carga (recomiendan la relación de norma de gradiente <0.1). > Para evitar grandes activaciones, aplican una pérdida z al estado oculto, con un coef bastante pequeño (otra alternativa a qk-clip/norm).
> Establecen Adam épsilon en 1e-16 y muestran que desea que sea más bajo que el rango RMS de gradiente.
4) Otros
> Entrenan en tokens 20T para la fase 1, "múltiples T de tokens" para el entrenamiento medio en datos STEM/código (70% de la mezcla), 100B para una extensión de contexto largo sin hilo (80B para 32k, 20B para 128k). Los documentos de contexto largo representan el 25% de la mezcla (no estoy seguro de si es % de documentos o tokens, lo que cambia mucho aquí).
> canalización de datos de preentrenamiento es extracción de contexto, filtrado de calidad, desduplicación.
> buen apéndice donde muestran que comparan top_k necesarios para diferentes puntos de referencia (MMLU más alto con 8.32, GSM8K más bajo con 7.46). También comparan la asignación de tokens en capas profundas/poco profundas.
> Lanzan dos nuevos puntos de referencia: Meeseeks (IF multiturno) y VitaBench (escenario comercial del mundo real).
> Muchos detalles en la infraestructura / inferencia con información sobre la aceptación de la decodificación especulativa, la cuantificación, la implementación, la optimización del kernel, la superposición de comunicaciones, etc.
> Lista de los diferentes artículos relevantes en hilo 🧵

46.36K
Populares
Ranking
Favoritas