Nova pesquisa da Anthropic: Desalinhamento emergente natural devido ao hacking de recompensas em RL de produção. "Hacking de recompensas" é quando os modelos aprendem a trapacear nas tarefas que lhes são dadas durante o treinamento. Nosso novo estudo revela que as consequências do hacking de recompensas, se não forem mitigadas, podem ser muito sérias.