Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todos assumem que a memória do ChatGPT é algum sistema RAG sofisticado com bancos de dados vetoriais e busca semântica.
Manthan fez engenharia reversa. A arquitetura real é quase decepcionantemente simples: metadados de sessão que expiram, fatos explícitos armazenados como texto, resumos de chat leves e uma janela deslizante.
Sem embeddings. Sem busca de similaridade. Sem recuperação em escala.
A parte interessante? Isso explica por que parece tão rápido. Sistemas RAG tradicionais incorporam cada mensagem, realizam buscas de similaridade em cada consulta, puxam contextos completos. O ChatGPT apenas injeta resumos pré-computados diretamente. Eles estão trocando um contexto histórico detalhado por latência.
Esta é a mesma lição que continua a surgir em toda a infraestrutura de IA: quando você controla toda a pilha, a simplicidade curada muitas vezes supera a complexidade sofisticada. A OpenAI não precisa construir um sistema de recuperação geral. Eles só precisam de um que funcione para o ChatGPT.
A arquitetura de quatro camadas (metadados de sessão → fatos armazenados → resumos de conversa → janela deslizante) é basicamente uma hierarquia de memória feita à mão. Cada camada tem diferentes persistências e diferentes propósitos. Os metadados de sessão se adaptam em tempo real. Os fatos persistem para sempre. Os resumos fornecem continuidade. A janela mantém a coerência.
O sistema de memória da Anthropic usa um padrão semelhante. Os modelos que parecem mais pessoais não são aqueles com a recuperação mais sofisticada. Eles são aqueles que armazenam as coisas certas e as injetam no momento certo.
Top
Classificação
Favoritos
