Novo @Scale_AI papel! O culpado por trás do hacking de recompensa? Nós o rastreamos até a especificação incorreta na cauda de alta recompensa. Nossa correção: recompensas baseadas em rubricas para diferenciar respostas "excelentes" além de "ótimas". O resultado: menos hacking, pós-treino mais forte!