「Queries」タグの記事が8件件あります

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster：LLMを用いたテーブル理解のための適応的推論

TableMasterは、プロンプトのみで構成されるパイプラインであり、GPT-4o-miniを使用してWikiTQで78.13%を達成しました。これは、フォーカス・テーブル抽出、セマンティック言語化、およびテキスト推論と記号推論の適応的な切り替えを組み合わせることで、Chain-of-Tableを13ポイント上回る結果です。本稿では、このアーキテクチャがBeancountのような財務元帳を扱うAIエージェントにとってどのような意味を持つかを解説します。

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: LLM推論チェーンにおけるテーブルの進化

Chain-of-Table (ICLR 2024) は、テーブル自体を中間状態として進化させることで LLM のテーブル推論を向上させます。WikiTQ で 67.31%（従来ベースラインの 61.48% に対し）を達成し、4,000 トークンを超えるテーブルでは +10.25 ポイントのアドバンテージを実現しており、Beancount 元帳クエリエージェントへの直接的な応用が可能です。

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: 7Bのオープンモデルはテーブル理解においてGPT-4に匹敵するか？

TableLlamaは、260万のテーブルタスク例を用いてLlama 2 (7B)をファインチューニングしたモデルです。列型アノテーション（F1 94対32）のような構造的タスクではGPT-4を上回る一方、WikiTQの構成的推論では33ポイント及ばないという結果が出ています。これは、現在の金融AIにおいて7Bのオープンモデルができること、できないことを測るための指標となります。

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: SQL不要の弱教師ありテーブルQA、そしてそれがBeancountに意味すること

TAPAS（Google Research、ACL 2020）は、SQLを生成せずに、セルを選択してスカラー集計を適用することでテーブルに関する質問に答えます。本記事では、そのアーキテクチャ、SQAにおける12ポイントの精度向上、そしてなぜセル選択パラダイムが小規模なBeancount元帳クエリには適しているものの、大規模な場合には破綻するのかを分析します。

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL：マルチエージェント協調型 Text-to-SQL

MAC-SQL (COLING 2025) は、スキーマ削減用の Selector、質問分解用の Decomposer、実行ガイド付き SQL 修正用の Refiner という 3 つの特化型エージェントを使用し、BIRD ベンチマークで 59.59% の実行精度を達成しました。アブレーション解析により、Refiner の貢献が最も大きいこと (+4.63 ポイント) が示されており、Beancount 元帳クエリ生成に直接的な示唆を与えています。

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Text-to-SQLのための分解されたインコンテキスト学習

DIN-SQL（NeurIPS 2023）は、text-to-SQLをスキーマリンキング、複雑度分類、SQL生成の段階に分解することで、ファインチューニングなしでSpiderにおけるGPT-4の実行精度を67.4%から85.3%に向上させました。この分解戦略は、BeancountのBQLクエリ言語のための自然言語インターフェースにも直接応用可能です。

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

BIRDベンチマーク：LLM Text-to-SQLにおける実データベースとの乖離

BIRDベンチマーク（NeurIPS 2023）は、95の実データベースを用いてLLMをテストしています。GPT-4の実行精度はドメインのヒントがある場合でわずか54.89%、ない場合は34.88%にとどまり、この20ポイントの差は、Beancount用の自然言語BQLインターフェースが解決すべき課題を直接的に示唆しています。

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG：ローカルからグローバルなクエリ指向の要約へ

マイクロソフトのGraphRAGは、テキストコーパス上にLeidenアルゴリズムで分割されたエンティティグラフを構築し、コミュニティの要約を事前計算することで、標準的なベクトルRAGでは対応できないグローバルな意味把握の質問に回答します。しかし、2025年のバイアス監査により、LLMを評価者（LLM-as-judge）とした際の回答位置や長さによるアーティファクトを修正すると、72〜83%という勝率が崩壊することが示されました。

全てについて Queries