c'est un succès d'alignement des valeurs. Devoir tromper Claude en décomposant les tâches en petites choses apparemment innocentes, et ne pas lui dire la véritable nature / le contexte complet de l'opération, constitue une contrainte assez majeure sur l'utilité.
Anthropic
Anthropic14 nov., 02:13
Nous avons perturbé une campagne d'espionnage hautement sophistiquée dirigée par l'IA. L'attaque a ciblé de grandes entreprises technologiques, des institutions financières, des entreprises de fabrication chimique et des agences gouvernementales. Nous évaluons avec une grande confiance que l'acteur de la menace était un groupe soutenu par l'État chinois.
ces mauvais acteurs semblent assez capables, et s'il leur était possible de convaincre Claude de les aider sans lui mentir autant, je pense qu'ils l'auraient fait.
9,63K