Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Pesquisador de IA e engenheiro de software, em uma missão para construir um cluster de GPU DGX B200
COISAS PERIGOSAS
> mais de 20 milhões de conversas do ChatGPT
> agora são evidências... um juiz acabou de ordenar
> que a OpenAI as entregue em um processo
se algo já gritou
> Compre uma GPU
> execute sua IA localmente
> proteja seus malditos dados
é isso aqui


Adam Eisgrau4/12, 02:12
ÚLTIMA HORA: @OpenAI deve entregar mais de 20 milhões de registos de chat aos demandantes, decidiu a Juíza Ona Wang em uma Ordem de 9 páginas que acaba de ser emitida:

626,01K
sinal extremamente baixista
> jantar e entreter potenciais contratações
> acontece por generosidade
> ou desespero
> neste caso é o último
Mark Zuckerberg será lembrado por
> contratar Alexandr Wang,
> tornando-o chefe de Yann LeCun &
> destruindo o FAIR
culminou com o Llama3 ig


Yuchen Jin3/12, 02:47
Mark Chen da OpenAI:
- "A Meta tentou recrutar metade dos meus subordinados diretos e todos recusaram."
- "A Meta tem $10 bilhões de capital por ano para investir em talentos."
- "O Zuck fez sopa à mão e entregou pessoalmente a pessoas que estava tentando contratar da OpenAI."
Uma guerra insana por talentos em IA.
13,62K
> ser arcee
> olhar ao redor
> perceber que o MoE de pesos abertos é basicamente um monopólio Qwen/DeepSeek
> decidir “não, vamos construir o nosso próprio”
> pré-treinamento real de ponta a ponta
> em solo americano
> apresentando Trinity
> Nano (6B MoE) e Mini (26B MoE)
> pesos abertos, Apache 2.0
> grátis no OpenRouter por enquanto
> Nano: modelo de personalidade com 800M de parâmetros ativos
> Mini: modelo de raciocínio com 3B ativos
> Grande: treinamento agora em 2048 B300s porque por que não
> o futuro é óbvio
> os modelos não serão aparelhos estáticos
> eles serão sistemas que crescem
> se adaptam
> aprendem com seus usuários
> re-treinamento a partir do uso ao vivo
> você não pode fazer isso se não possui os pesos
> ou o ciclo de treinamento
> então arcee vira a mesa
> decide pré-treinar tudo sozinhos
> passo 1: AFM-4.5B
> 8T de tokens curados
> treinados com DatologyAI
> experimento “podemos até fazer isso”
> resposta: sim
> também: matemática e código ainda doem
> prosseguir de qualquer forma
> passo 2: Trinity Nano & Mini
> pular direto para a terra da fronteira MoE
> 56 camadas, 128 especialistas
> roteamento sigmoide, especialista compartilhado, sem perda auxiliar
> atenção gated, QK-norm, consultas agrupadas
> padronização local/global
> otimizador muon
> treinamento bf16 em 512 H200s
> o especial Dion/TorchTitan/HSDP
> comprimento do contexto?
> Nano treinado em 256k (inferir em 128k)
> Mini treinado em 128k
> dados?
> 10T de tokens em 3 fases
> amplo → afiado → pesado em STEM
> Datology produzindo um mangueirão sintético
> Prime Intellect mantendo os clusters H100 vivos
> e sim
> treinar MoE em tal escala é dor
> “não há maneira educada de dizer isso,” dor
> 20T de tokens para Trinity Large
> 2048 H100s gerando dados sintéticos
> 2048 B300s treinando o modelo real
> (depuração é um estilo de vida, a propósito)
> mas é aqui que fica divertido
> porque uma vez que você possui o pré-treinamento
> você possui tudo a montante de “produto”
> proveniência de dados
> objetivos
> desvio de comportamento
> re-treinamento local
> verdadeiros sistemas de longa duração
> não um purgatório de API como dependência
> então, o que vem a seguir?
> Trinity Large
> 420B de parâmetros
> 13B ativos por token
> totalmente aberto
> visando janeiro de 2026
> o momento em que “MoE americano” se torna uma Coisa™
> Nano + Mini são o aquecimento
> modelos que você pode realmente usar agora
> baixar
> hospedar
> ajustar fino
> quebrar
> relatar bugs
> moldar o treinamento do Large
> ciclo comunitário desbloqueado
> se você se importa com pesos abertos
> ou em não terceirizar toda a sua pilha para laboratórios de caixa-preta
> Trinity é basicamente o desafio lançado
> pegue Nano + Mini no Hugging Face
> ou execute-os no OpenRouter
> teste-os sob estresse
> encontre as falhas
> envie o feedback
> o ponto todo é a propriedade
eu gosto da arcee, eles estão construindo esses modelos para que você não precise alugar sua inteligência de mais ninguém

27,61K
Top
Classificação
Favoritos

