Mike Thrift

Marketing Manager

June 18, 2026·mike

τ²-bench：対話型AIエージェントにおけるデュアルコントロールのコストを測定する

τ²-benchは、AIとユーザーの両方が共有ステート上でツールを呼び出すデュアルコントロール設定へとエージェントのベンチマーキングを拡張します。アクティブなユーザーの存在により成功率が18〜25ポイント低下することが判明しており、これは人間のユーザーと書き込み権限を共有するBeancountエージェントにとって直接的な示唆となります。

llm

automation

June 17, 2026·mike

WorkArena++: 複合的なエンタープライズ・タスクにおける人間とAIエージェントのパフォーマンスの93%の乖離

WorkArena++ (NeurIPS 2024) は、3つの難易度レベルにわたる682の複合的なエンタープライズ・タスクをベンチマークしています。人間が93.9%を解決する一方で、GPT-4oはわずか2.1%しか解決できず、現在のAIエージェントが暗黙的な目標を伴う知識労働において失敗する理由と、その乖離が自律的な会計自動化にとって何を意味するのかを明らかにしています。

llm

automation

June 16, 2026·mike

GAIAベンチマーク：最先端AIエージェントの真の実力を測定する

GAIAは、3つの難易度レベルにわたる466の実世界のタスクでベンチマークを行います。2026年中旬時点で、最先端エージェントは人間の92%に対して74.55%に達しましたが、残されたレベル3の格差は、自動化されたBeancount元帳ワークフローにおける多段階の調整の課題に直結しています。

llm

machine-learning

June 15, 2026·mike

OSWorld：デスクトップAIエージェントの成功率は12%、人間は72%のタスクで成功

OSWorld（NeurIPS 2024）は、Ubuntu、Windows、macOSにわたる369の実際のデスクトップタスクでマルチモーダルAIエージェントをベンチマーク評価しました。その結果、最高モデル（12.24%）と人間のパフォーマンス（72.36%）の間に60ポイントの開きがあることが判明し、失敗の75%は推論の失敗ではなく視覚運動グラウンディングのエラーに起因することが示されました。

machine-learning

automation

June 14, 2026·mike

WebArena: Webエージェントの真の能力と限界を測定する812タスクのベンチマーク

GPT-4はWebArenaの812の現実的なWebタスクのわずか14.41%しか完了できず、人間は78.24%に達します。主な失敗要因は「偽の実行不能（false infeasibility）」、つまり保守的な実行拒否であり、これはFavaや金融Web UIを操作するエージェントに直接的な影響を及ぼします。

llm

automation

June 13, 2026·mike

WorkArena：LLMウェブエージェントは実社会のエンタープライズ知識労働でどのように機能するか

WorkArenaは、33の実用的なServiceNowタスクでLLMウェブエージェントをベンチマークします。GPT-4oは全体で42.7%に達しましたが、リストフィルタリングタスクでは0%となり、フォーム入力と構造化UI操作の間に存在する高い壁を露呈させました。これはBeancountの帳簿自動化における課題に直結しています。

llm

automation

June 12, 2026·mike

τ-bench: 実世界のツール使用ドメインにおけるAIエージェントの信頼性の測定

τ-benchは、Claude 3.5 SonnetのようなトップクラスのLLMでも、小売カスタマーサービス業務においてpass@1の0.692からpass@4の0.462へと低下することを示しています。これは一貫性の急落（Consistency Cliff）を意味し、Beancount元帳を操作する書き戻しエージェントにとって直接的な影響を与えます。

llm

machine-learning

June 11, 2026·mike

Chain-of-Table: LLM推論チェーンにおけるテーブルの進化

Chain-of-Table (ICLR 2024) は、テーブル自体を中間状態として進化させることで LLM のテーブル推論を向上させます。WikiTQ で 67.31%（従来ベースラインの 61.48% に対し）を達成し、4,000 トークンを超えるテーブルでは +10.25 ポイントのアドバンテージを実現しており、Beancount 元帳クエリエージェントへの直接的な応用が可能です。

llm

machine-learning

June 10, 2026·mike

TableLlama: 7Bのオープンモデルはテーブル理解においてGPT-4に匹敵するか？

TableLlamaは、260万のテーブルタスク例を用いてLlama 2 (7B)をファインチューニングしたモデルです。列型アノテーション（F1 94対32）のような構造的タスクではGPT-4を上回る一方、WikiTQの構成的推論では33ポイント及ばないという結果が出ています。これは、現在の金融AIにおいて7Bのオープンモデルができること、できないことを測るための指標となります。

llm

machine-learning

June 9, 2026·mike

TAPAS: SQL不要の弱教師ありテーブルQA、そしてそれがBeancountに意味すること

TAPAS（Google Research、ACL 2020）は、SQLを生成せずに、セルを選択してスカラー集計を適用することでテーブルに関する質問に答えます。本記事では、そのアーキテクチャ、SQAにおける12ポイントの精度向上、そしてなぜセル選択パラダイムが小規模なBeancount元帳クエリには適しているものの、大規模な場合には破綻するのかを分析します。

machine-learning

llm

June 8, 2026·mike

MAC-SQL：マルチエージェント協調型 Text-to-SQL

MAC-SQL (COLING 2025) は、スキーマ削減用の Selector、質問分解用の Decomposer、実行ガイド付き SQL 修正用の Refiner という 3 つの特化型エージェントを使用し、BIRD ベンチマークで 59.59% の実行精度を達成しました。アブレーション解析により、Refiner の貢献が最も大きいこと (+4.63 ポイント) が示されており、Beancount 元帳クエリ生成に直接的な示唆を与えています。

machine-learning

database

June 7, 2026·mike

DIN-SQL: Text-to-SQLのための分解されたインコンテキスト学習

DIN-SQL（NeurIPS 2023）は、text-to-SQLをスキーマリンキング、複雑度分類、SQL生成の段階に分解することで、ファインチューニングなしでSpiderにおけるGPT-4の実行精度を67.4%から85.3%に向上させました。この分解戦略は、BeancountのBQLクエリ言語のための自然言語インターフェースにも直接応用可能です。

llm

database

87件中25–36件を表示中

前へ3 / 8次へ