Todos assumem que a memória do ChatGPT é algum sistema RAG sofisticado com bancos de dados vetoriais e busca semântica. Manthan fez engenharia reversa. A arquitetura real é quase decepcionantemente simples: metadados de sessão que expiram, fatos explícitos armazenados como texto, resumos de chat leves e uma janela deslizante. Sem embeddings. Sem busca de similaridade. Sem recuperação em escala. A parte interessante? Isso explica por que parece tão rápido. Sistemas RAG tradicionais incorporam cada mensagem, realizam buscas de similaridade em cada consulta, puxam contextos completos. O ChatGPT apenas injeta resumos pré-computados diretamente. Eles estão trocando um contexto histórico detalhado por latência. Esta é a mesma lição que continua a surgir em toda a infraestrutura de IA: quando você controla toda a pilha, a simplicidade curada muitas vezes supera a complexidade sofisticada. A OpenAI não precisa construir um sistema de recuperação geral. Eles só precisam de um que funcione para o ChatGPT. A arquitetura de quatro camadas (metadados de sessão → fatos armazenados → resumos de conversa → janela deslizante) é basicamente uma hierarquia de memória feita à mão. Cada camada tem diferentes persistências e diferentes propósitos. Os metadados de sessão se adaptam em tempo real. Os fatos persistem para sempre. Os resumos fornecem continuidade. A janela mantém a coerência. O sistema de memória da Anthropic usa um padrão semelhante. Os modelos que parecem mais pessoais não são aqueles com a recuperação mais sofisticada. Eles são aqueles que armazenam as coisas certas e as injetam no momento certo.