Bean Labs Research Log

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench：ベクトルストアRAGが実際の財務書類で失敗する理由

FinanceBenchは、実際のSEC提出書類から抽出された10,231個の質問に対して16種類のAI構成を評価しました。共有ベクトルストアRAGの正解率はわずか19%であり、正解が含まれるパッセージを提示したGPT-4-Turboでさえ精度は85%にとどまりました。これは、エンタープライズ財務AIにとっての制約が検索ではなく数値推論であることを示しています。

AILLMMachine LearningAutomationFinanceBeancount

DSPy: 脆弱なプロンプトエンジニアリングをコンパイル済みのLLMパイプラインで置き換える

DSPyは、手作業で作成されたプロンプト文字列を宣言的なシグネチャとメトリクス主導のコンパイラに置き換えます。これにより、GSM8Kの数学的推論においてLlama2-13bの精度を9.4%から46.9%に向上させ、本番環境の財務AIパイプラインにおいてより保守性の高いパスを提供します。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Language Agent Tree Search — 推論、行動、計画を一つのフレームワークに統合

LATS (Language Agent Tree Search, ICML 2024) は、ReAct、Tree of Thoughts、Reflexionを単一のMCTSフレームワークに統合し、GPT-4を用いたHumanEvalで92.7%のpass@1を達成しました。Gitで管理されたBeancount帳簿において、本番環境でLATSの制限となる状態復元の要件は、極めて容易に満たすことができます。

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG：LLMのための適応的リトリーバルと自己批判

Self-RAG（ICLR 2024 Oral）は、言語モデルがいつ検索を行うかを自ら決定し、4つの反省トークンを使用して自らの結果を評価するようにトレーニングする手法です。PopQAで55.8%、伝記のFactScoreで80.2を達成し、5つのベンチマークでChatGPTを上回りました。この分析では、そのメカニズム、アブレーション結果、再現性の限界、およびBeancount元帳を利用する金融AIエージェントへの影響について解説します。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager：生涯にわたるAIエージェント学習の基盤としてのスキルライブラリ

NVIDIAとカリフォルニア工科大学によるGPT-4駆動のMinecraftエージェント「Voyager」は、永続的なコードスキルライブラリによって、ファインチューニングなしで真の生涯学習が可能であることを実証し、従来の最先端技術よりも3.3倍多くのアイテムを発見しました。このパターンは長期的なBeancount元帳の自動化に直接応用できますが、財務的な正確性を期すためには、ゲームのサンドボックスには不要なステージングレイヤーが必要となります。

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG: LLMのための神経生物学に着想を得た長期記憶

HippoRAG (NeurIPS 2024) は、OpenIE トリプルから知識グラフを構築し、クエリ時にパーソナライズドPageRankを適用することで、2WikiMultiHopQA で Recall@5 89.1%（ColBERTv2 の 68.2% に対して）を達成しました。これは、数年にわたる取引履歴を持つ複雑な財務元帳のクエリに直接的な示唆を与えます。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: エージェントとしてのLLM評価 — 金融AIの信頼性向上に向けた教訓

AgentBench (Liu et al., ICLR 2024) は、8つのインタラクティブな環境で27のLLMをベンチマーク評価しました。GPT-4の総合スコアは4.01に対し、オープンソースモデルの最高は0.96でした。3つの主要な失敗モード（ナレッジグラフの失敗の67.9%を占めるタスク制限超過、データベースの失敗の53.3%を占めるフォーマットエラー、および無効なアクション）は、実際の帳簿にBeancount書き戻しエージェントをデプロイする際のリスクに直結しています。

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT と金融におけるドメイン特化型 LLM の限界

Bloomberg は 5,690 億トークンの金融データで 500 億パラメータの LLM をトレーニングし、感情分析やテーブル推論のベンチマークで汎用モデルを上回りました。しかし、その後 GPT-4 が金融特化の事前学習なしでそれに匹敵する性能を示しました。この 1,000 万ドルの実験が明らかにしたドメイン事前学習のトレードオフ、数値のトークン化、そしてなぜ会計エージェントにとってツールの利用がモデル内部よりも信頼できるのかについて解説します。

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: 金融AIのためのマルチエージェント対話フレームワーク

AutoGen (Wu et al., 2023) は、LLMベースのエージェントがメッセージをやり取りしてタスクを完了するマルチエージェント対話フレームワークを導入しました。2つのエージェント構成により、MATHベンチマークの精度が55%から69%に向上し、専用のSafeGuardエージェントによって安全でないコードの検出が最大35 F1ポイント改善されました。これらの知見は、安全でモジュール化されたBeancount自動化パイプラインの構築に直接応用可能です。

FinQA：財務レポートにおけるAIの数値推論を測定するベンチマーク

Latest articles