AIは実際に仕事を自動化できるのか? @Scale_AIと@ai_risksは、ソフトウェアエンジニアリング、デザイン、アーキテクチャ、データ分析などの分野で、AIエージェントが実際の有給フリーランスの仕事をどれだけうまく完了できるかをテストする最初のベンチマークおよび公開リーダーボードであるリモート労働指数(RLI)を立ち上げます。 初期の結果は、今日のモデルの限界を示しています。トップのAIエージェントは、実際のフリーランスの仕事のうち、人間よりもわずか2.5%しか成功しませんでした。AIは強力ですが、熟練労働者に取って代わるほど信頼性はまだありません。 RLIは、長期にわたる進捗状況を追跡し、仕事の未来を明確にするための透明性のある方法を提供します。