Bean Labs Research Log

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot：複式簿記における不正検知のためのLLM

AuditCopilotは、オープンソースのLLM（Mistral-8B、Gemma、Llama-3.1）を企業の仕訳不正検知に適用し、誤検知を942件から12件に削減しました。しかし、アブレーション研究により、LLMは独立した異常検知器としてではなく、主にIsolation Forestスコアの上層にある統合レイヤーとして機能していることが明らかになりました。

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: 財務表とテキストにおける離散的推論のために微調整されたLLaMA 2

TAT-LLMは、財務表とテキストのQAベンチマークにおいてLoRAを用いてLLaMA 2 7Bを微調整し、推論を決定論的な「抽出・推論・実行」のステップに分解することで、FinQAで64.60%のEM（厳密一致）を達成し、算術エラーを排除してGPT-4の63.91%を上回りました。

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

ファインチューニング vs. RAG：LLMへの新しい知識の注入において検索が勝る理由

70億パラメータのLLMを用いたRAGと教師なしファインチューニングの実証的な比較により、RAGはカットオフ後の事実に対して0.875以上の精度を達成する一方、ファインチューニングは0.504で停滞することが示されました。これはBeancountエージェントの設計や、頻繁な知識更新を必要とするシステムに直接的な影響を与えます。

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT: マルチステップQAに向けた検索と思考の連鎖（Chain-of-Thought）のインターリービング

IRCoTは、BM25検索と思考の連鎖（CoT）推論ループの各ステップをインターリーブさせることで、HotpotQAにおいて1ステップのRAGを上回る+11.3の検索リコールと+7.1のF1スコアを達成しました。また、適切な検索戦略があれば、3BモデルがGPT-3 175Bを凌駕できることを示しています。

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE: 能動的検索拡張生成

FLARE（EMNLP 2023）は、トークン確率の確信度しきい値を使用して生成の途中で検索をトリガーすることにより、標準的なRAGを改善します。2WikiMultihopQAにおいて、単一検索の39.4に対し51.0 EMに達しますが、指示調整済みチャットモデルにおけるキャリブレーションの失敗が、本番環境の金融エージェントとしての信頼性を制限しています。

AIMachine LearningLLMData SciencePlain-Text AccountingBeancount

LewisらによるNeurIPS 2020の論文は、2,100万件のWikipediaパッセージに対するFAISSインデックス検索器とBART-large生成器を組み合わせたハイブリッドRAGアーキテクチャを導入しました。Natural Questionsで44.5 EMを達成し、現在の多くのプロダクションAIシステムの基盤となっているパラメトリック/非パラメトリックの分離を確立しました。このレビューでは、RAG-SequenceとRAG-Tokenのトレードオフ、検索崩壊（retrieval collapse）の失敗モード、そして追記型のBeancount元帳に基づいて構築された金融AIにおけるインデックスの陳腐化の意味について解説します。