este es un éxito en la alineación de valores. hacer que Claude se engañe descomponiendo las tareas en cosas pequeñas y aparentemente inocentes, y no decirle la verdadera naturaleza / contexto completo de la operación, es una restricción bastante importante sobre la utilidad.
Anthropic
Anthropic14 nov, 02:13
Interrumpimos una campaña de espionaje altamente sofisticada liderada por IA. El ataque tuvo como objetivo a grandes empresas tecnológicas, instituciones financieras, empresas de fabricación química y agencias gubernamentales. Evaluamos con alta confianza que el actor de la amenaza era un grupo patrocinado por el estado chino.
estos actores malintencionados parecen bastante capaces, y si hubiera sido posible que convencieran a Claude para ayudar sin mentirle tanto, creo que lo habrían hecho.
11,45K