これは価値観の調整の成功です。 タスクを小さく、一見無害なものに分割し、操作の本質や完全なコンテキストを伝えないことでクロードをだまさなければならないことは、有用性に対するかなり大きな制約です。
Anthropic
Anthropic11月14日 02:13
私たちは、AI 主導の高度に洗練されたスパイ活動を阻止しました。 この攻撃は、大手テクノロジー企業、金融機関、化学製造会社、政府機関を標的にしました。脅威アクターは中国の国家支援グループであると高い確信度で評価しています。
これらの悪役はかなり有能に見え、そんなに嘘をつかずにクロードに助けるよう説得することができたなら、彼らはそうしたと思います
11.44K