Mike Thrift

Marketing Manager

June 6, 2026·mike

BIRDベンチマーク：LLM Text-to-SQLにおける実データベースとの乖離

BIRDベンチマーク（NeurIPS 2023）は、95の実データベースを用いてLLMをテストしています。GPT-4の実行精度はドメインのヒントがある場合でわずか54.89%、ない場合は34.88%にとどまり、この20ポイントの差は、Beancount用の自然言語BQLインターフェースが解決すべき課題を直接的に示唆しています。

beancount

llm

June 5, 2026·mike

LLMエージェントのための検証可能な安全なツール利用：STPAとMCPの融合

CMUとノースカロライナ州立大学の研究者が、System-Theoretic Process Analysis（STPA）と機能強化されたModel Context Protocolを用いて、LLMエージェントのツール利用に関する形式的な安全仕様を導出することを提案。Alloyベースの検証により、カレンダースケジューリングのケーススタディにおいて安全でないフローが存在しないことを実証しています。

llm

security

June 4, 2026·mike

GraphRAG：ローカルからグローバルなクエリ指向の要約へ

マイクロソフトのGraphRAGは、テキストコーパス上にLeidenアルゴリズムで分割されたエンティティグラフを構築し、コミュニティの要約を事前計算することで、標準的なベクトルRAGでは対応できないグローバルな意味把握の質問に回答します。しかし、2025年のバイアス監査により、LLMを評価者（LLM-as-judge）とした際の回答位置や長さによるアーティファクトを修正すると、72〜83%という勝率が崩壊することが示されました。

llm

machine-learning

June 3, 2026·mike

FinAuditing: LLMによる実在のSEC XBRL監査タスクのスコアは14%未満

FinAuditingは、1,102件の実在するSEC XBRL提出事例を用いて13のLLMをゼロショットでテストしました。最高スコアは財務計算の検証で13.86%、コンセプト検索で12.42%にとどまりました。この結果は、外部ツールなしでAI会計ツールに自動化を任せられる範囲を直接的に制限するものです。

llm

financial-reporting

June 2, 2026·mike

InvestorBench: 金融取引の意思決定におけるLLMエージェントのベンチマーク評価

InvestorBench (ACL 2025)は、QAの正解率ではなく、累積収益率とシャープ・レシオを用いて、株式、仮想通貨、ETFのバックテスト取引において13種類のLLMバックボーンをテストしました。株式のリーダーボードではQwen2.5-72Bが累積収益率46.15%で首位に立ち、金融特化型モデルは株式において逆効果となる結果が出ました。モデルの規模は、ドメイン特化の微調整よりも信頼性の高いパフォーマンス予測因子となります。

llm

finance

June 1, 2026·mike

StructRAG (ICLR 2025): 適切なドキュメント構造の選択により、GraphRAGを28ポイント上回る

StructRAG (ICLR 2025) は、推論前に各クエリを表、グラフ、カタログ、アルゴリズム、またはチャンクといったタスクに適した構造タイプにルーティングします。これにより、LoongベンチマークにおいてGraphRAGを28ポイント上回るスコアを記録しつつ、22倍の高速化を実現しました。DPOでトレーニングされたルーター単体で、15ポイントの精度向上に寄与しています。

llm

machine-learning

May 31, 2026·mike

思考トークンの予算が同一の場合、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムを上回る

2026年のスタンフォード大学のプレプリントでは、5つのマルチエージェントアーキテクチャ間で思考トークン予算を均等化し、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムと同等かそれ以上の性能を発揮することを発見しました。これは情報処理不等式に基づいた理論的根拠を持ち、金融AIエージェントの設計にも影響を与えます。

llm

machine-learning

May 30, 2026·mike

M3MAD-Bench：マルチエージェント討論はドメインやモダリティを越えて真に有効なのか？

M3MAD-Benchは、9つのモデル、5つのドメイン、および視覚と言語の設定においてマルチエージェント討論をストレステストしました。その結果、失敗の65%が「集団的妄想」に起因すること、敵対的討論により精度が最大12.8%低下すること、そして自己整合性が通常、より低いトークンコストで討論と同等の精度を達成することが判明しました。

llm

machine-learning

May 29, 2026·mike

AGrail：タスクを越えて学習するLLMエージェントのための適応型セーフティ・ガードレール

AGrail（ACL 2025）は、テスト時適応（TTA）を通じて推論時に安全性チェックを適応させる2つのLLMによる協調型ガードレールを導入し、Safe-OSにおいてプロンプトインジェクション攻撃の成功率0%と正当なアクションの95.6%の保持を達成しました。これに対し、GuardAgentやLLaMA-Guardは正当なアクションを最大49.2%ブロックしてしまいます。

llm

security

May 28, 2026·mike

ShieldAgent: LLMエージェントのための検証可能な安全ポリシー推論

ShieldAgent (ICML 2025) は、LLMベースのガードレールをマルコフ論理ネットワーク上に構築された確率的ルール回路に置き換え、APIコールを64.7%削減しながらエージェント攻撃に対して90.4%の精度を達成しました。これが金融AIシステムにおける検証可能な安全性にとって何を意味するのかを解説します。

llm

machine-learning

May 27, 2026·mike

Atlas: 検索機と読解機の共同事前学習により、11Bパラメータで540BパラメータのLLMを凌駕

Atlas (JMLR 2023) は、わずか 64 個の学習例で Natural Questions において 42.4% の精度を達成し、11B パラメータでありながら PaLM 540B を 3 ポイント上回りました。これは、Contriever ベースの高密度検索機と T5 Fusion-in-Decoder 読解機を共同で事前学習することで実現されました。本分析では、検索精度の限界、587GB のインデックス・インフラコスト、および Beancount 元帳 QA システムへの影響について解説します。

machine-learning

llm

May 26, 2026·mike

Fusion-in-Decoder: 複数パッセージの検索が生成型QAをどのように改善するか

IzacardとGraveによるFiDアーキテクチャは、検索されたパッセージを独立してエンコードし、デコーダーで融合させることで、NQおよびTriviaQAにおいてRAG-Sequenceを4〜11ポイント上回りました。本記事では、その設計と、トランザクションをまたぐ複数エントリの統合が一般的であるBeancountの元帳QAへの影響について考察します。

machine-learning

llm

87件中37–48件を表示中

前へ4 / 8次へ