メインコンテンツまでスキップ

Bean Labs Research Log

FinQA:財務レポートにおけるAIの数値推論を測定するベンチマーク

FinQA (EMNLP 2021) は、多段階の算術プログラムを必要とするS&P 500の決算報告書から8,281個のQAペアを構築しました。リリース時、ニューラルモデルのスコアは61%であったのに対し、人間の専門家は91%でした。3段階以上のプログラムでは精度が22%にまで急落します。ドメイン定数、クロスモダリティのグラウンディング、推論チェーンの長さといった失敗のパターンは、今日のBeancountエージェントが直面している課題に直結しています。

Latest articles

FinanceBench:ベクトルストアRAGが実際の財務書類で失敗する理由

FinanceBenchは、実際のSEC提出書類から抽出された10,231個の質問に対して16種類のAI構成を評価しました。共有ベクトルストアRAGの正解率はわずか19%であり、正解が含まれるパッセージを提示したGPT-4-Turboでさえ精度は85%にとどまりました。これは、エンタープライズ財務AIにとっての制約が検索ではなく数値推論であることを示しています。

DSPy: 脆弱なプロンプトエンジニアリングをコンパイル済みのLLMパイプラインで置き換える

DSPyは、手作業で作成されたプロンプト文字列を宣言的なシグネチャとメトリクス主導のコンパイラに置き換えます。これにより、GSM8Kの数学的推論においてLlama2-13bの精度を9.4%から46.9%に向上させ、本番環境の財務AIパイプラインにおいてより保守性の高いパスを提供します。

LATS: Language Agent Tree Search — 推論、行動、計画を一つのフレームワークに統合

LATS (Language Agent Tree Search, ICML 2024) は、ReAct、Tree of Thoughts、Reflexionを単一のMCTSフレームワークに統合し、GPT-4を用いたHumanEvalで92.7%のpass@1を達成しました。Gitで管理されたBeancount帳簿において、本番環境でLATSの制限となる状態復元の要件は、極めて容易に満たすことができます。

Self-RAG:LLMのための適応的リトリーバルと自己批判

Self-RAG(ICLR 2024 Oral)は、言語モデルがいつ検索を行うかを自ら決定し、4つの反省トークンを使用して自らの結果を評価するようにトレーニングする手法です。PopQAで55.8%、伝記のFactScoreで80.2を達成し、5つのベンチマークでChatGPTを上回りました。この分析では、そのメカニズム、アブレーション結果、再現性の限界、およびBeancount元帳を利用する金融AIエージェントへの影響について解説します。

Voyager:生涯にわたるAIエージェント学習の基盤としてのスキルライブラリ

NVIDIAとカリフォルニア工科大学によるGPT-4駆動のMinecraftエージェント「Voyager」は、永続的なコードスキルライブラリによって、ファインチューニングなしで真の生涯学習が可能であることを実証し、従来の最先端技術よりも3.3倍多くのアイテムを発見しました。このパターンは長期的なBeancount元帳の自動化に直接応用できますが、財務的な正確性を期すためには、ゲームのサンドボックスには不要なステージングレイヤーが必要となります。

HippoRAG: LLMのための神経生物学に着想を得た長期記憶

HippoRAG (NeurIPS 2024) は、OpenIE トリプルから知識グラフを構築し、クエリ時にパーソナライズドPageRankを適用することで、2WikiMultiHopQA で Recall@5 89.1%(ColBERTv2 の 68.2% に対して)を達成しました。これは、数年にわたる取引履歴を持つ複雑な財務元帳のクエリに直接的な示唆を与えます。

AgentBench: エージェントとしてのLLM評価 — 金融AIの信頼性向上に向けた教訓

AgentBench (Liu et al., ICLR 2024) は、8つのインタラクティブな環境で27のLLMをベンチマーク評価しました。GPT-4の総合スコアは4.01に対し、オープンソースモデルの最高は0.96でした。3つの主要な失敗モード(ナレッジグラフの失敗の67.9%を占めるタスク制限超過、データベースの失敗の53.3%を占めるフォーマットエラー、および無効なアクション)は、実際の帳簿にBeancount書き戻しエージェントをデプロイする際のリスクに直結しています。

BloombergGPT と金融におけるドメイン特化型 LLM の限界

Bloomberg は 5,690 億トークンの金融データで 500 億パラメータの LLM をトレーニングし、感情分析やテーブル推論のベンチマークで汎用モデルを上回りました。しかし、その後 GPT-4 が金融特化の事前学習なしでそれに匹敵する性能を示しました。この 1,000 万ドルの実験が明らかにしたドメイン事前学習のトレードオフ、数値のトークン化、そしてなぜ会計エージェントにとってツールの利用がモデル内部よりも信頼できるのかについて解説します。

AutoGen: 金融AIのためのマルチエージェント対話フレームワーク

AutoGen (Wu et al., 2023) は、LLMベースのエージェントがメッセージをやり取りしてタスクを完了するマルチエージェント対話フレームワークを導入しました。2つのエージェント構成により、MATHベンチマークの精度が55%から69%に向上し、専用のSafeGuardエージェントによって安全でないコードの検出が最大35 F1ポイント改善されました。これらの知見は、安全でモジュール化されたBeancount自動化パイプラインの構築に直接応用可能です。