Novo artigo da @Scale_AI! O culpado por trás da manipulação de recompensas? Rastreiamo-lo até a má especificação na cauda de alta recompensa. A nossa solução: recompensas baseadas em rubricas para distinguir respostas "excelentes" de "ótimas." O resultado: Menos manipulação, pós-treinamento mais forte!