Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derek Edws
Sócio Gerente @collab_currency / Cofundador @glitchmarfa
Derek Edws republicou
Na era do pré-treinamento, o que importava era o texto da internet. Você gostaria principalmente de uma coleção grande, diversificada e de alta qualidade de documentos da internet para aprender.
Na era do ajuste fino supervisionado, eram conversas. Trabalhadores contratados são contratados para criar respostas para perguntas, um pouco como o que você veria no Stack Overflow / Quora, ou etc., mas voltado para casos de uso de LLM.
Nenhum dos dois acima vai desaparecer (na minha opinião), mas nesta era de aprendizado por reforço, agora são ambientes. Ao contrário do acima, eles dão ao LLM a oportunidade de realmente interagir - tomar ações, ver resultados, etc. Isso significa que você pode esperar fazer muito melhor do que a imitação estatística de especialistas. E eles podem ser usados tanto para treinamento quanto para avaliação do modelo. Mas, assim como antes, o problema central agora é a necessidade de um conjunto grande, diversificado e de alta qualidade de ambientes, como exercícios para o LLM praticar.
De certa forma, sou lembrado do primeiro projeto da OpenAI (gym), que era exatamente uma estrutura esperando construir uma grande coleção de ambientes no mesmo esquema, mas isso foi muito antes dos LLMs. Então, os ambientes eram tarefas de controle acadêmico simples da época, como cartpole, ATARI, etc. O hub de ambientes @PrimeIntellect (e o repositório `verifiers` no GitHub) constrói a versão modernizada especificamente direcionada a LLMs, e é um grande esforço/ideia. Eu sugeri que alguém construísse algo assim no início deste ano:
Os ambientes têm a propriedade de que, uma vez que o esqueleto da estrutura esteja em vigor, em princípio, a comunidade/indústria pode paralelizar em muitos domínios diferentes, o que é empolgante.
Pensamento final - pessoalmente e a longo prazo, sou otimista em relação a ambientes e interações agentivas, mas sou pessimista em relação ao aprendizado por reforço especificamente. Eu acho que funções de recompensa são super suspeitas, e eu acho que os humanos não usam RL para aprender (talvez o façam para algumas tarefas motoras, etc., mas não para tarefas de resolução de problemas intelectuais). Os humanos usam paradigmas de aprendizado diferentes que são significativamente mais poderosos e eficientes em amostras e que ainda não foram devidamente inventados e escalados, embora esboços e ideias iniciais existam (como apenas um exemplo, a ideia de "aprendizado de prompt de sistema", movendo a atualização para tokens/contextos, não pesos, e opcionalmente destilando para pesos como um processo separado, um pouco como o sono faz).
427,04K
Derek Edws republicou
A próxima geração de startups de produtos avaliados em mais de 10 bilhões será construída escalando o treinamento em um ambiente de RL interno.
Vivemos em uma abundância de capacidades e, no entanto, temos apenas dois grandes produtos de IA, chatgpt e agente de codificação, e isso me frustra profundamente.
A atual cadeia de suprimentos da inteligência artificial está estruturalmente quebrada, com um fornecedor de hardware, alguns gigantes da IA possuindo toda a refinaria de inteligência, e os desenvolvedores ficam com acesso à API, com quase nenhum controle.
Como se a era da internet tivesse sido construída com a Intel vendendo CPUs para 4 gigantes da nuvem que possuem toda a infraestrutura e pilha de software, com segredos e NDAs por toda parte, e dando o WordPress como um kit de desenvolvimento para startups.
Por que a perplexidade não inventou a pesquisa profunda? Eles simplesmente não conseguiram porque é treinado com RL.
Minha previsão para os próximos anos:
O RL se tornará a ferramenta mais poderosa para startups construírem produtos de IA. Veremos centenas de histórias de sucesso como Cursor e Lovable. O usuário final será o que mais se beneficiará disso.
Grandes laboratórios evoluirão para empresas de produtos, a OAI se concentrará no mercado consumidor, a Antropic no agente de codificação, a DeepMind integrará IA em todos os negócios do Google, e a Meta e a XAI lutarão pelas redes sociais.
Veremos o surgimento de um ecossistema de startups de infraestrutura de IA, vendendo computação, treinando modelos fundamentais, curando dados, construindo ambientes de RL, oferecendo inferência e treinamento baratos, impulsionados pela ciência aberta e software de código aberto.
@PrimeIntellect está pioneirando este ecossistema e a visão de AGI de código aberto, o hub de ambiente de RL é uma das primeiras peças-chave.
3,26K
Derek Edws republicou
Apresentando o Hub de Ambientes
Os ambientes RL são o principal gargalo para a próxima onda de progresso em IA, mas grandes laboratórios estão restringindo-os
Criámos uma plataforma comunitária para crowdsourcing de ambientes abertos, para que qualquer pessoa possa contribuir para a AGI de código aberto
5,69K
Top
Classificação
Favoritos