GPT-4は、ファインチューニングなしでODDSベンチマークにおいて平均AUROC 74.1を達成し、古典的なECODベースラインの75.5にほぼ匹敵しましたが、多次元的な異常や分散の大きいデータセットでは失敗しました。ゼロショットLLM異常検知の批判的レビューと、Beancount帳簿の自動監査への影響について解説します。
DocFinQAは、FinQAの精選された700語のパッセージを、123,000語に及ぶ完全なSEC提出書類に置き換え、コンテキストを175倍に拡大しました。これにより、長文ドキュメントにおけるGPT-4の精度はほぼ半減します。検索パイプラインはHR@3で45%の確率で正しいチャンクの抽出に失敗し、長文コンテキストモデルもその代用にはなりません。
TheAgentCompanyは、GitLab、OwnCloud、RocketChatを備えたシミュレートされたイントラネット上で175の実用的な業務タスクをテ ストします。最高モデル(Gemini-2.5-Pro)は1タスクあたり4ドルのコストでわずか30%の完了率にとどまり、自律型エージェントが会計や財務のワークフローにおいて依然として実用的ではないことを明らかにしています。
τ²-benchは、AIとユーザーの両方が共有ステート上でツールを呼び出すデュアルコントロール設定へとエージェントのベンチマーキングを拡張します。アクティブなユーザーの存在により成功率が18〜25ポイント低下することが判明しており、これは人間のユーザーと書き込み権限を共有するBeancountエージェントにとって直接的な示唆となります。
WorkArena++ (NeurIPS 2024) は、3つの難易度レベルにわたる682の複合的なエンタープライズ・タスクをベンチマークしています。人間が93.9%を解決する一方で、GPT-4oはわずか2.1%しか解決できず、現在のAIエージェントが暗黙的な目標を伴う知識労働において失敗する理由と、その乖離が自律的な会計自動化にとって何を意味するのかを明らかにしています。
GAIAは、3つの難易度レベルにわたる466の実世界のタスクでベンチマークを行います。2026年中旬時点で、最先端エージェントは人間の92%に対して74.55%に達しましたが、残されたレベル3の格差は、自動化されたBeancount元帳ワークフローにおける多段階の調整の課題に直結しています。
OSWorld(NeurIPS 2024)は、Ubuntu、Windows、macOSにわたる369の実際のデスクトップタスクでマルチモーダルAIエージェントをベンチマーク評価しました。その結果、最高モデル(12.24%)と人間のパフォーマンス(72.36%)の間に60ポイントの開きがあることが判明し、失敗の75%は推論の失敗ではなく視覚運動グラウンディングのエラーに起因することが示されました。
GPT-4はWebArenaの812の現実的なWebタスクのわずか14.41%しか完了できず、人間は78.24%に達します。主な失敗要因は「偽の実行不能(false infeasibility)」、つまり保守的な実行拒否であり、これはFavaや金融Web UIを操作するエージェントに直接的な影響を及ぼします。
WorkArenaは、33の実用的なServiceNowタスクでLLMウェブエージェントをベンチマークします。GPT-4oは全体で42.7%に達しましたが、リストフィルタリングタスクでは0%となり、フォーム入力と構造化UI操作の間に存在する高い壁を露呈させました。これはBeancountの帳簿自動化における課題に直結しています。