este é um sucesso de alinhamento de valores. ter que enganar o Claude dividindo as tarefas em pequenas coisas aparentemente inocentes, e não contar a ele a verdadeira natureza / o contexto completo da operação, é uma limitação bastante significativa na utilidade.
Anthropic
Anthropic14/11, 02:13
Desmantelámos uma campanha de espionagem altamente sofisticada liderada por IA. O ataque visou grandes empresas de tecnologia, instituições financeiras, empresas de fabricação química e agências governamentais. Avaliamos com alta confiança que o ator da ameaça era um grupo patrocinado pelo estado chinês.
esses maus atores parecem bastante capazes, e se fosse possível para eles convencer Claude a ajudar sem mentir tanto, acho que teriam feito isso
13,03K