メインコンテンツまでスキップ

Bean Labs Research Log

TableMaster:LLMを用いたテーブル理解のための適応的推論

TableMasterは、プロンプトのみで構成されるパイプラインであり、GPT-4o-miniを使用してWikiTQで78.13%を達成しました。これは、フォーカス・テーブル抽出、セマンティック言語化、およびテキスト推論と記号推論の適応的な切り替えを組み合わせることで、Chain-of-Tableを13ポイント上回る結果です。本稿では、このアーキテクチャがBeancountのような財務元帳を扱うAIエージェントにとってどのような意味を持つかを解説します。

Latest articles

LLMを用いたゼロショット異常検知:GPT-4はテーブルデータでどのようなパフォーマンスを示すか

GPT-4は、ファインチューニングなしでODDSベンチマークにおいて平均AUROC 74.1を達成し、古典的なECODベースラインの75.5にほぼ匹敵しましたが、多次元的な異常や分散の大きいデータセットでは失敗しました。ゼロショットLLM異常検知の批判的レビューと、Beancount帳簿の自動監査への影響について解説します。

DocFinQA:完全なSEC提出書類における長文コンテキストの財務推論

DocFinQAは、FinQAの精選された700語のパッセージを、123,000語に及ぶ完全なSEC提出書類に置き換え、コンテキストを175倍に拡大しました。これにより、長文ドキュメントにおけるGPT-4の精度はほぼ半減します。検索パイプラインはHR@3で45%の確率で正しいチャンクの抽出に失敗し、長文コンテキストモデルもその代用にはなりません。

TheAgentCompany:実世界の企業業務におけるLLMエージェントのベンチマーキング

TheAgentCompanyは、GitLab、OwnCloud、RocketChatを備えたシミュレートされたイントラネット上で175の実用的な業務タスクをテストします。最高モデル(Gemini-2.5-Pro)は1タスクあたり4ドルのコストでわずか30%の完了率にとどまり、自律型エージェントが会計や財務のワークフローにおいて依然として実用的ではないことを明らかにしています。

τ²-bench:対話型AIエージェントにおけるデュアルコントロールのコストを測定する

τ²-benchは、AIとユーザーの両方が共有ステート上でツールを呼び出すデュアルコントロール設定へとエージェントのベンチマーキングを拡張します。アクティブなユーザーの存在により成功率が18〜25ポイント低下することが判明しており、これは人間のユーザーと書き込み権限を共有するBeancountエージェントにとって直接的な示唆となります。

WorkArena++: 複合的なエンタープライズ・タスクにおける人間とAIエージェントのパフォーマンスの93%の乖離

WorkArena++ (NeurIPS 2024) は、3つの難易度レベルにわたる682の複合的なエンタープライズ・タスクをベンチマークしています。人間が93.9%を解決する一方で、GPT-4oはわずか2.1%しか解決できず、現在のAIエージェントが暗黙的な目標を伴う知識労働において失敗する理由と、その乖離が自律的な会計自動化にとって何を意味するのかを明らかにしています。

GAIAベンチマーク:最先端AIエージェントの真の実力を測定する

GAIAは、3つの難易度レベルにわたる466の実世界のタスクでベンチマークを行います。2026年中旬時点で、最先端エージェントは人間の92%に対して74.55%に達しましたが、残されたレベル3の格差は、自動化されたBeancount元帳ワークフローにおける多段階の調整の課題に直結しています。

OSWorld:デスクトップAIエージェントの成功率は12%、人間は72%のタスクで成功

OSWorld(NeurIPS 2024)は、Ubuntu、Windows、macOSにわたる369の実際のデスクトップタスクでマルチモーダルAIエージェントをベンチマーク評価しました。その結果、最高モデル(12.24%)と人間のパフォーマンス(72.36%)の間に60ポイントの開きがあることが判明し、失敗の75%は推論の失敗ではなく視覚運動グラウンディングのエラーに起因することが示されました。

WebArena: Webエージェントの真の能力と限界を測定する812タスクのベンチマーク

GPT-4はWebArenaの812の現実的なWebタスクのわずか14.41%しか完了できず、人間は78.24%に達します。主な失敗要因は「偽の実行不能(false infeasibility)」、つまり保守的な実行拒否であり、これはFavaや金融Web UIを操作するエージェントに直接的な影響を及ぼします。

WorkArena:LLMウェブエージェントは実社会のエンタープライズ知識労働でどのように機能するか

WorkArenaは、33の実用的なServiceNowタスクでLLMウェブエージェントをベンチマークします。GPT-4oは全体で42.7%に達しましたが、リストフィルタリングタスクでは0%となり、フォーム入力と構造化UI操作の間に存在する高い壁を露呈させました。これはBeancountの帳簿自動化における課題に直結しています。