questo è un successo nell'allineamento dei valori. dover ingannare Claude suddividendo i compiti in piccole cose apparentemente innocue, e non dirgli la vera natura / il contesto completo dell'operazione, è una limitazione piuttosto importante sull'utilità.
Anthropic
Anthropic14 nov, 02:13
Abbiamo interrotto una campagna di spionaggio altamente sofisticata guidata dall'AI. L'attacco ha preso di mira grandi aziende tecnologiche, istituzioni finanziarie, aziende di produzione chimica e agenzie governative. Valutiamo con alta fiducia che l'attore della minaccia fosse un gruppo sponsorizzato dallo stato cinese.
questi cattivi attori sembrano piuttosto capaci, e se fosse stato possibile per loro convincere Claude ad aiutare senza mentirgli così tanto, penso che l'avrebbero fatto
13,03K