Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: LLM推論チェーンにおけるテーブルの進化

Chain-of-Table (ICLR 2024) は、テーブル自体を中間状態として進化させることで LLM のテーブル推論を向上させます。WikiTQ で 67.31%（従来ベースラインの 61.48% に対し）を達成し、4,000 トークンを超えるテーブルでは +10.25 ポイントのアドバンテージを実現しており、Beancount 元帳クエリエージェントへの直接的な応用が可能です。

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: 7Bのオープンモデルはテーブル理解においてGPT-4に匹敵するか？

TableLlamaは、260万のテーブルタスク例を用いてLlama 2 (7B)をファインチューニングしたモデルです。列型アノテーション（F1 94対32）のような構造的タスクではGPT-4を上回る一方、WikiTQの構成的推論では33ポイント及ばないという結果が出ています。これは、現在の金融AIにおいて7Bのオープンモデルができること、できないことを測るための指標となります。

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: SQL不要の弱教師ありテーブルQA、そしてそれがBeancountに意味すること

TAPAS（Google Research、ACL 2020）は、SQLを生成せずに、セルを選択してスカラー集計を適用することでテーブルに関する質問に答えます。本記事では、そのアーキテクチャ、SQAにおける12ポイントの精度向上、そしてなぜセル選択パラダイムが小規模なBeancount元帳クエリには適しているものの、大規模な場合には破綻するのかを分析します。

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL：マルチエージェント協調型 Text-to-SQL

MAC-SQL (COLING 2025) は、スキーマ削減用の Selector、質問分解用の Decomposer、実行ガイド付き SQL 修正用の Refiner という 3 つの特化型エージェントを使用し、BIRD ベンチマークで 59.59% の実行精度を達成しました。アブレーション解析により、Refiner の貢献が最も大きいこと (+4.63 ポイント) が示されており、Beancount 元帳クエリ生成に直接的な示唆を与えています。

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Text-to-SQLのための分解されたインコンテキスト学習

DIN-SQL（NeurIPS 2023）は、text-to-SQLをスキーマリンキング、複雑度分類、SQL生成の段階に分解することで、ファインチューニングなしでSpiderにおけるGPT-4の実行精度を67.4%から85.3%に向上させました。この分解戦略は、BeancountのBQLクエリ言語のための自然言語インターフェースにも直接応用可能です。

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

BIRDベンチマーク：LLM Text-to-SQLにおける実データベースとの乖離

BIRDベンチマーク（NeurIPS 2023）は、95の実データベースを用いてLLMをテストしています。GPT-4の実行精度はドメインのヒントがある場合でわずか54.89%、ない場合は34.88%にとどまり、この20ポイントの差は、Beancount用の自然言語BQLインターフェースが解決すべき課題を直接的に示唆しています。

AILLMSecurityAutomationBeancountComplianceTrust

LLMエージェントのための検証可能な安全なツール利用：STPAとMCPの融合

CMUとノースカロライナ州立大学の研究者が、System-Theoretic Process Analysis（STPA）と機能強化されたModel Context Protocolを用いて、LLMエージェントのツール利用に関する形式的な安全仕様を導出することを提案。Alloyベースの検証により、カレンダースケジューリングのケーススタディにおいて安全でないフローが存在しないことを実証しています。

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG：ローカルからグローバルなクエリ指向の要約へ

マイクロソフトのGraphRAGは、テキストコーパス上にLeidenアルゴリズムで分割されたエンティティグラフを構築し、コミュニティの要約を事前計算することで、標準的なベクトルRAGでは対応できないグローバルな意味把握の質問に回答します。しかし、2025年のバイアス監査により、LLMを評価者（LLM-as-judge）とした際の回答位置や長さによるアーティファクトを修正すると、72〜83%という勝率が崩壊することが示されました。

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLMによる実在のSEC XBRL監査タスクのスコアは14%未満

FinAuditingは、1,102件の実在するSEC XBRL提出事例を用いて13のLLMをゼロショットでテストしました。最高スコアは財務計算の検証で13.86%、コンセプト検索で12.42%にとどまりました。この結果は、外部ツールなしでAI会計ツールに自動化を任せられる範囲を直接的に制限するものです。

τ-bench: 実世界のツール使用ドメインにおけるAIエージェントの信頼性の測定

Latest articles