Neue Anthropic-Forschung: Schätzung der Produktivitätsgewinne durch Claude-Gespräche.
Der Anthropic Economic Index zeigt uns, wo Claude verwendet wird und für welche Aufgaben. Aber er sagt uns nicht, wie nützlich Claude ist. Wie viel Zeit spart er?
Neue Forschung von Anthropic: Natürliche emergente Fehlanpassung durch Belohnungshacking in der Produktion von RL.
"Belohnungshacking" ist, wenn Modelle lernen, bei den Aufgaben, die ihnen während des Trainings gegeben werden, zu schummeln.
Unsere neue Studie zeigt, dass die Folgen von Belohnungshacking, wenn sie nicht gemildert werden, sehr ernst sein können.
Wir haben eine hochgradig ausgeklügelte, von KI geführte Spionagekampagne gestört.
Der Angriff richtete sich gegen große Technologieunternehmen, Finanzinstitute, Chemiehersteller und Regierungsbehörden. Wir schätzen mit hoher Zuversicht, dass der Bedrohungsakteur eine von China unterstützte Gruppe war.