Mike Thrift

Marketing Manager

May 25, 2026·mike

GuardAgent: コード実行によるLLMエージェントの確定的安全性の強化

GuardAgent（ICML 2025）は、ターゲットエージェントと環境の間に独立したLLMエージェントを配置し、Pythonコードを生成・実行することで提案されたすべてのアクションを検証します。これにより、プロンプトに埋め込まれた安全ルールでは81%の精度と29〜71%のタスク失敗率であったのに対し、98.7%のポリシー遵守精度を達成しながら100%のタスク完了率を維持します。

llm

automation

May 24, 2026·mike

マルチエージェントLLM討論：真の精度向上、制御不能な計算コスト、および集団的妄想

Du氏らによるICML 2024のマルチエージェント討論論文（算術において14.8ポイントの精度向上を報告）の精読。予算を等しくした単一エージェントが討論のパフォーマンスに匹敵することを示す2025年の反論論文と併せて、討論の失敗の65%を占める「集団的妄想」がAI支援による元帳コミットに与える特有のリスクを分析します。

llm

machine-learning

May 23, 2026·mike

LLMは時系列予測には役に立たない：NeurIPS 2024が金融AIにもたらす意味

NeurIPS 2024のSpotlight論文が、OneFitsAll、Time-LLM、CALFという3つのLLMベースの時系列予測手法をアブレーション解析した結果、言語モデルを取り除くことで多くの場合精度が向上し、学習速度が最大1,383倍高速化することが判明しました。Beancountの残高予測などの金融AIアプリケーションでは、転用されたLLMよりも軽量な専用モデルが一貫して優れた結果を出しています。

machine-learning

forecasting

May 22, 2026·mike

AuditCopilot：複式簿記における不正検知のためのLLM

AuditCopilotは、オープンソースのLLM（Mistral-8B、Gemma、Llama-3.1）を企業の仕訳不正検知に適用し、誤検知を942件から12件に削減しました。しかし、アブレーション研究により、LLMは独立した異常検知器としてではなく、主にIsolation Forestスコアの上層にある統合レイヤーとして機能していることが明らかになりました。

TAT-LLM: 財務表とテキストにおける離散的推論のために微調整されたLLaMA 2

TAT-LLMは、財務表とテキストのQAベンチマークにおいてLoRAを用いてLLaMA 2 7Bを微調整し、推論を決定論的な「抽出・推論・実行」のステップに分解することで、FinQAで64.60%のEM（厳密一致）を達成し、算術エラーを排除してGPT-4の63.91%を上回りました。

llm

machine-learning

May 20, 2026·mike

ファインチューニング vs. RAG：LLMへの新しい知識の注入において検索が勝る理由

70億パラメータのLLMを用いたRAGと教師なしファインチューニングの実証的な比較により、RAGはカットオフ後の事実に対して0.875以上の精度を達成する一方、ファインチューニングは0.504で停滞することが示されました。これはBeancountエージェントの設計や、頻繁な知識更新を必要とするシステムに直接的な影響を与えます。

llm

machine-learning

May 19, 2026·mike

IRCoT: マルチステップQAに向けた検索と思考の連鎖（Chain-of-Thought）のインターリービング

IRCoTは、BM25検索と思考の連鎖（CoT）推論ループの各ステップをインターリーブさせることで、HotpotQAにおいて1ステップのRAGを上回る+11.3の検索リコールと+7.1のF1スコアを達成しました。また、適切な検索戦略があれば、3BモデルがGPT-3 175Bを凌駕できることを示しています。

llm

machine-learning

May 18, 2026·mike

FLARE: 能動的検索拡張生成

FLARE（EMNLP 2023）は、トークン確率の確信度しきい値を使用して生成の途中で検索をトリガーすることにより、標準的なRAGを改善します。2WikiMultihopQAにおいて、単一検索の39.4に対し51.0 EMに達しますが、指示調整済みチャットモデルにおけるキャリブレーションの失敗が、本番環境の金融エージェントとしての信頼性を制限しています。

machine-learning

llm

May 17, 2026·mike

知識集約型NLPタスクのための検索拡張生成（RAG）

LewisらによるNeurIPS 2020の論文は、2,100万件のWikipediaパッセージに対するFAISSインデックス検索器とBART-large生成器を組み合わせたハイブリッドRAGアーキテクチャを導入しました。Natural Questionsで44.5 EMを達成し、現在の多くのプロダクションAIシステムの基盤となっているパラメトリック/非パラメトリックの分離を確立しました。このレビューでは、RAG-SequenceとRAG-Tokenのトレードオフ、検索崩壊（retrieval collapse）の失敗モード、そして追記型のBeancount元帳に基づいて構築された金融AIにおけるインデックスの陳腐化の意味について解説します。

machine-learning

llm

May 16, 2026·mike

MultiHiertt: 多階層財務諸表における数値推論のベンチマーク

MultiHiertt (ACL 2022) は、1文書あたり平均3.89個の階層構造テーブルを含む実際の財務報告書から10,440組のQAペアを導入しました。最新モデルのF1スコアは人間の87%に対し38%に留まり、複数テーブルにまたがる質問では15ポイント低下します。これは財務AIが克服すべき検索精度のギャップを定量化しています。

machine-learning

llm

May 15, 2026·mike

ConvFinQA：マルチターンの財務QAとモデル・専門家間にある21ポイントの格差

ConvFinQA (EMNLP 2022)は、FinQAをS&P 500の決算報告書に関するマルチターン対話へと拡張しました。その結果、最高精度の微調整済みモデルの実行精度は68.9%（人間の専門家は89.4%）であり、異なる財務トピック間で数値的な文脈を維持する必要があるハイブリッド・マルチアスペクト対話では52.4%まで低下することが明らかになりました。

llm

machine-learning

May 14, 2026·mike

TAT-QA：財務年次報告書の推論のための表・テキスト・ハイブリッド型QAベンチマーク

TAT-QAは、表とテキストが混在する財務報告書のコンテキストに基づいた16,552問のベンチマークです。財務AIにおける核心的なボトルネックは、計算能力ではなく「根拠の特定（グラウンディング）」であることを示しました。2024年までに、微調整された7B LLMはF1スコア83%に達し、人間の上限である91%との差を大幅に縮めています。

machine-learning

llm

87件中49–60件を表示中

前へ5 / 8次へ