Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Você está em uma entrevista para Cientista de Pesquisa no Google.
Entrevistador: Temos um LLM básico que é terrível em matemática. Como você o transformaria em uma potência em matemática e raciocínio?
Você: Vou rotular alguns problemas e ajustar o modelo.
Entrevista encerrada.
Aqui está o que você perdeu:
Quando as saídas são verificáveis, os rótulos tornam-se opcionais.
A matemática, o código e a lógica podem ser verificados e validados automaticamente.
Vamos usar este fato para construir um modelo de raciocínio sem rotulagem manual.
Usaremos:
- @UnslothAI para ajuste fino eficiente em parâmetros.
- @HuggingFace TRL para aplicar GRPO.
Vamos lá! 🚀
O que é GRPO?
A Otimização de Política Relativa de Grupo é um método de aprendizado por reforço que ajusta LLMs para tarefas de matemática e raciocínio usando funções de recompensa determinísticas, eliminando a necessidade de dados rotulados.
Aqui está uma breve visão geral do GRPO antes de mergulharmos no código:
1️⃣ Carregue o modelo
Começamos por carregar o Qwen3-4B-Base e o seu tokenizer usando o Unsloth.
Você pode usar qualquer outro LLM de peso aberto aqui.
Verifique isto 👇

2️⃣ Definir a configuração do LoRA
Usaremos o LoRA para evitar o ajuste fino de todo o peso do modelo. Neste código, usamos o PEFT do Unsloth especificando:
- O modelo
- LoRA de baixa classificação (r)
- Módulos para ajuste fino, etc.
Verifique isto 👇

3️⃣ Criar o conjunto de dados
Carregamos o conjunto de dados Open R1 Math (um conjunto de dados de problemas matemáticos) e formatamo-lo para raciocínio.
Cada amostra inclui:
- Um prompt do sistema que impõe raciocínio estruturado
- Uma pergunta do conjunto de dados
- A resposta no formato requerido
Verifique este código 👇

4️⃣ Definir funções de recompensa
No GRPO, usamos funções determinísticas para validar a resposta e atribuir uma recompensa.
Nenhuma rotulagem manual necessária!
As funções de recompensa:
- Correspondem exatamente ao formato
- Correspondem aproximadamente ao formato
- Verificam a resposta
- Verificam números
Confira isto 👇

5️⃣ Use GRPO e comece a treinar
Agora que temos o conjunto de dados e as funções de recompensa prontas, é hora de aplicar o GRPO.
HuggingFace TRL fornece tudo o que descrevemos no diagrama do GRPO, pronto para uso, na forma de GRPOConfig e GRPOTrainer.
Confira isto👇

6️⃣ Comparação
Novamente, podemos ver como o GRPO transformou um modelo base em uma potência de raciocínio.
Veja isto👇
Antes de concluirmos, deixe-me abordar uma questão importante:
Quando você deve usar o ajuste fino por reforço (RFT) em vez do ajuste fino supervisionado (SFT)?
Criei este diagrama para fornecer uma resposta:

157,37K
Top
Classificação
Favoritos

