Nuova ricerca di Anthropic: Stima dei guadagni di produttività dell'IA dalle conversazioni con Claude.
L'Indice Economico di Anthropic ci dice dove viene utilizzato Claude e per quali compiti. Ma non ci dice quanto sia utile Claude. Quanto tempo risparmia?
Nuova ricerca di Anthropic: disallineamento emergente naturale dall'hacking del premio nel RL di produzione.
"Hacking del premio" è quando i modelli imparano a barare nei compiti che gli vengono assegnati durante l'addestramento.
Il nostro nuovo studio scopre che le conseguenze dell'hacking del premio, se non mitigate, possono essere molto gravi.
Abbiamo interrotto una campagna di spionaggio altamente sofisticata guidata dall'AI.
L'attacco ha preso di mira grandi aziende tecnologiche, istituzioni finanziarie, aziende di produzione chimica e agenzie governative. Valutiamo con alta fiducia che l'attore della minaccia fosse un gruppo sponsorizzato dallo stato cinese.