Mike Thrift
Marketing Manager
OpenHands:AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること
OpenHandsはMITライセンスのDockerサンドボックス化されたエージェントプラットフォームです。CodeActはSWE-Bench Liteで26%を達成しました。これは今日のAIエージェントが確実に実行できることを確立する冷静なベンチマークであり、最初の実用的な財務デプロイメントが自律型ではなく、範囲を厳密に限定すべき理由を示しています。
Fin-RATE:LLMは期間横断および企業横断の財務分析にいかに失敗するか
Fin-RATEは、2,472件のSEC提出書類から専門家が厳選した7,500件のQAペアを用いて17のLLMをベンチマーク評価しました。その結果、経時的トラッキングにおいて18.60%の精度低下が明らかになり、財務特化型Fin-R1は企業横断タスクで54ポイント下落しました。また、モデル本体ではなく検索パイプラインがボトルネックとなっていることが示されました。
FinDER: 実務のアナリストによるクエリが財務RAGにおける74%の再現率の乖離を露呈
FinDERは、S&P 500の10-K提出書類に対する5,703件の実際のヘッジファンドアナリストのクエリに基づいてRAGをベンチマークします。E5-Mistralのコンテキスト再現率はわずか25.95%にとどまり、略語の多いクエリでは適合率が8.2ポイント低下しました。これは、財務AIパイプラインにおいて、埋め込みの改善よりもクエリの正規化が優先的な解決策であることを示しています。
Lost in the Middle:LLMにおける位置バイアスと金融AIへの影響
LiuらによるTACL 2024の論文は、LLMが長いコンテキストの中央に埋もれた情報に対して最大20ポイント性能が低下することを示しています。これはClaude-1.3-100Kを含むすべてのテスト済みモデルに影響するU字型の劣化であり、金融・会計アプリケーションにおけるRAGパイプラインが取得したパッセージをどのように順序付けるべきかに具体的な示唆を与えています。
AD-LLMベンチマーク:GPT-4oがテキスト異常検知においてゼロショットで0.93以上のAUROCを達成
AD-LLMは、5つのNLPデータセットにおいて、ゼロショット検出器、データ拡張エンジン、モデル選択アドバイザーの3つの異常検知ロールにわたり、GPT-4oとLlama 3.1 8Bをベンチマークしました。GPT-4oはゼロショットでAUROC 0.93~0.99に達しましたが、LLMベースのモデル選択には依然として信頼性がなく、財務監査AIに直接的な影響を及ぼします。
CausalTAD: LLMによるテーブルデータの異常検知のための因果関係に基づく列順序付け
CausalTADは、シリアライズ前に因果関係に従ってテーブルの列を並べ替えることで、LLMベースのテーブルデータ異常検知を改善します。混合型ベンチマークにおいて平均AUC-ROCをAnoLLMの0.803から0.834へと向上させ、構造化された元帳データの異常検知に直接的な影響を与えます。
AnoLLM: 財務データにおけるテーブルデータの異常検知に向けたLLMのファインチューニング
AnoLLM(ICLR 2025)は、テーブルデータの異常検知をLLMの密度推定として再定義します。正常な行でファインチューニングを行い、負の対数尤度によってスコアリングします。混合型の不正データセットでは従来の手法を上回りますが、純粋な数値データでは優位性はなく、Beancountのレジャーエントリにおける異常検知に実用的な示唆を与えます。
LLMによるBeancount DSL生成の正解率は2.3%:LLMFinLiteracyベンチマーク
LLMFinLiteracyベンチマークによると、5つの約7Bパラメータのオープンウェイトモデルが完全に正しいBeancountトランザクションを生成できた割合はわずか2.3%でした。失敗は構文ではなく会計上の推論に集中しており、信頼性の高いライトバック・エージェントにはコンパイラ・イン・ザ・ループによるフィードバックが不可欠であることが示唆されています。
TableMaster:LLMを用いたテーブル理解のための適応的推論
TableMasterは、プロンプトのみで構成されるパイプラインであり、GPT-4o-miniを使用してWikiTQで78.13%を達成しました。これは、フォーカス・テーブル抽出、セマンティック言語化、およびテキスト推論と記号推論の適応的な切り替えを組み合わせることで、Chain-of-Tableを13ポイント上回る結果です。本稿では、このアーキテクチャがBeancountのような財務元帳を扱うAIエージェントにとってどのような意味を持つかを解説します。
LLMを用いたゼロショット異常検知:GPT-4はテーブルデータでどのようなパフォーマンスを示すか
GPT-4は、ファインチューニングなしでODDSベンチマークにおいて平均AUROC 74.1を達成し、古典的なECODベースラインの75.5にほぼ匹敵しましたが、多次元的な異常や分散の大きいデータセットでは失敗しました。ゼロショットLLM異常検知の批判的レビューと、Beancount帳簿の自動監査への影響について解説します。
DocFinQA:完全なSEC提出書類における長文コンテキストの財務推論
DocFinQAは、FinQAの精選された700語のパッセージを、123,000語に及ぶ完全なSEC提出書類に置き換え、コンテキストを175倍に拡大しました。これにより、長文ドキュメントにおけるGPT-4の精度はほぼ半減します。検索パイプラインはHR@3で45%の確率で正しいチャンクの抽出に失敗し、長文コンテキストモデルもその代用にはなりません。
TheAgentCompany:実世界の企業業務におけるLLMエージェントのベンチマーキング
TheAgentCompanyは、GitLab、OwnCloud、RocketChatを備えたシミュレートされたイントラネット上で175の実用的な業務タスクをテストします。最高モデル(Gemini-2.5-Pro)は1タスクあたり4ドルのコストでわずか30%の完了率にとどまり、自律型エージェントが会計や財務のワークフローにおいて依然として実用的ではないことを明らかにしています。