DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Qual é o papel da memória LLM / RAG no curto a médio prazo, dado no contexto de longo prazo, as janelas podem ser extremamente grandes? Obtive alguns insights ao discutir janelas de contexto LLM com alguém da equipe DeepMind. Trabalhando no Gemma, eles descobriram que podiam esticar o comprimento do contexto, mas encontrar problemas de qualidade - os tokens no início e no final são bem recuperados, mas os do meio se perdem no mecanismo de atenção. Sua opinião interessante: eles inicialmente pensaram que um contexto mais longo resolveria tudo, mas uma análise mais profunda mostrou que, com a contagem fixa de parâmetros, a qualidade não vem de graça. Apesar de empurrar ainda mais os comprimentos de contexto, eles ainda veem as abordagens RAG como necessárias para o futuro próximo (6-12 meses) por causa desses desafios de qualidade de atenção. Por enquanto, o problema de recuperação não está totalmente resolvido apenas tornando os contextos mais longos. Além disso, preencher toda a janela de contexto para modelos de contexto longo e de alta qualidade custa ~ $ 1 por chamada hoje.

374

Melhores

Classificação

Favoritos