Você está em uma entrevista para Cientista de Pesquisa no Google. Entrevistador: Temos um LLM básico que é terrível em matemática. Como você o transformaria em uma potência em matemática e raciocínio? Você: Vou rotular alguns problemas e ajustar o modelo. Entrevista encerrada. Aqui está o que você perdeu:
Quando as saídas são verificáveis, os rótulos tornam-se opcionais. A matemática, o código e a lógica podem ser verificados e validados automaticamente. Vamos usar este fato para construir um modelo de raciocínio sem rotulagem manual. Usaremos: - @UnslothAI para ajuste fino eficiente em parâmetros. - @HuggingFace TRL para aplicar GRPO. Vamos lá! 🚀
O que é GRPO? A Otimização de Política Relativa de Grupo é um método de aprendizado por reforço que ajusta LLMs para tarefas de matemática e raciocínio usando funções de recompensa determinísticas, eliminando a necessidade de dados rotulados. Aqui está uma breve visão geral do GRPO antes de mergulharmos no código:
1️⃣ Carregue o modelo Começamos por carregar o Qwen3-4B-Base e o seu tokenizer usando o Unsloth. Você pode usar qualquer outro LLM de peso aberto aqui. Verifique isto 👇
2️⃣ Definir a configuração do LoRA Usaremos o LoRA para evitar o ajuste fino de todo o peso do modelo. Neste código, usamos o PEFT do Unsloth especificando: - O modelo - LoRA de baixa classificação (r) - Módulos para ajuste fino, etc. Verifique isto 👇
3️⃣ Criar o conjunto de dados Carregamos o conjunto de dados Open R1 Math (um conjunto de dados de problemas matemáticos) e formatamo-lo para raciocínio. Cada amostra inclui: - Um prompt do sistema que impõe raciocínio estruturado - Uma pergunta do conjunto de dados - A resposta no formato requerido Verifique este código 👇
4️⃣ Definir funções de recompensa No GRPO, usamos funções determinísticas para validar a resposta e atribuir uma recompensa. Nenhuma rotulagem manual necessária! As funções de recompensa: - Correspondem exatamente ao formato - Correspondem aproximadamente ao formato - Verificam a resposta - Verificam números Confira isto 👇
5️⃣ Use GRPO e comece a treinar Agora que temos o conjunto de dados e as funções de recompensa prontas, é hora de aplicar o GRPO. HuggingFace TRL fornece tudo o que descrevemos no diagrama do GRPO, pronto para uso, na forma de GRPOConfig e GRPOTrainer. Confira isto👇
6️⃣ Comparação Novamente, podemos ver como o GRPO transformou um modelo base em uma potência de raciocínio. Veja isto👇
Antes de concluirmos, deixe-me abordar uma questão importante: Quando você deve usar o ajuste fino por reforço (RFT) em vez do ajuste fino supervisionado (SFT)? Criei este diagrama para fornecer uma resposta:
157,37K