Mike Thrift

Mike Thrift

Marketing Manager

すべての著者を見る

OpenHands:AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること
·mike

OpenHands:AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること

OpenHandsはMITライセンスのDockerサンドボックス化されたエージェントプラットフォームです。CodeActはSWE-Bench Liteで26%を達成しました。これは今日のAIエージェントが確実に実行できることを確立する冷静なベンチマークであり、最初の実用的な財務デプロイメントが自律型ではなく、範囲を厳密に限定すべき理由を示しています。

ai
open-source
automation
llm
+4
Fin-RATE:LLMは期間横断および企業横断の財務分析にいかに失敗するか
·mike

Fin-RATE:LLMは期間横断および企業横断の財務分析にいかに失敗するか

Fin-RATEは、2,472件のSEC提出書類から専門家が厳選した7,500件のQAペアを用いて17のLLMをベンチマーク評価しました。その結果、経時的トラッキングにおいて18.60%の精度低下が明らかになり、財務特化型Fin-R1は企業横断タスクで54ポイント下落しました。また、モデル本体ではなく検索パイプラインがボトルネックとなっていることが示されました。

llm
ai
machine-learning
analytics
+3
FinDER: 実務のアナリストによるクエリが財務RAGにおける74%の再現率の乖離を露呈
·mike

FinDER: 実務のアナリストによるクエリが財務RAGにおける74%の再現率の乖離を露呈

FinDERは、S&P 500の10-K提出書類に対する5,703件の実際のヘッジファンドアナリストのクエリに基づいてRAGをベンチマークします。E5-Mistralのコンテキスト再現率はわずか25.95%にとどまり、略語の多いクエリでは適合率が8.2ポイント低下しました。これは、財務AIパイプラインにおいて、埋め込みの改善よりもクエリの正規化が優先的な解決策であることを示しています。

ai
llm
machine-learning
finance
+3
Lost in the Middle:LLMにおける位置バイアスと金融AIへの影響
·mike

Lost in the Middle:LLMにおける位置バイアスと金融AIへの影響

LiuらによるTACL 2024の論文は、LLMが長いコンテキストの中央に埋もれた情報に対して最大20ポイント性能が低下することを示しています。これはClaude-1.3-100Kを含むすべてのテスト済みモデルに影響するU字型の劣化であり、金融・会計アプリケーションにおけるRAGパイプラインが取得したパッセージをどのように順序付けるべきかに具体的な示唆を与えています。

llm
ai
machine-learning
data-science
+3
AD-LLMベンチマーク:GPT-4oがテキスト異常検知においてゼロショットで0.93以上のAUROCを達成
·mike

AD-LLMベンチマーク:GPT-4oがテキスト異常検知においてゼロショットで0.93以上のAUROCを達成

AD-LLMは、5つのNLPデータセットにおいて、ゼロショット検出器、データ拡張エンジン、モデル選択アドバイザーの3つの異常検知ロールにわたり、GPT-4oとLlama 3.1 8Bをベンチマークしました。GPT-4oはゼロショットでAUROC 0.93~0.99に達しましたが、LLMベースのモデル選択には依然として信頼性がなく、財務監査AIに直接的な影響を及ぼします。

llm
ai
machine-learning
data-science
+3
CausalTAD: LLMによるテーブルデータの異常検知のための因果関係に基づく列順序付け
·mike

CausalTAD: LLMによるテーブルデータの異常検知のための因果関係に基づく列順序付け

CausalTADは、シリアライズ前に因果関係に従ってテーブルの列を並べ替えることで、LLMベースのテーブルデータ異常検知を改善します。混合型ベンチマークにおいて平均AUC-ROCをAnoLLMの0.803から0.834へと向上させ、構造化された元帳データの異常検知に直接的な影響を与えます。

llm
ai
machine-learning
fraud-detection
+3
AnoLLM: 財務データにおけるテーブルデータの異常検知に向けたLLMのファインチューニング
·mike

AnoLLM: 財務データにおけるテーブルデータの異常検知に向けたLLMのファインチューニング

AnoLLM(ICLR 2025)は、テーブルデータの異常検知をLLMの密度推定として再定義します。正常な行でファインチューニングを行い、負の対数尤度によってスコアリングします。混合型の不正データセットでは従来の手法を上回りますが、純粋な数値データでは優位性はなく、Beancountのレジャーエントリにおける異常検知に実用的な示唆を与えます。

ai
llm
machine-learning
fraud-detection
+3
LLMによるBeancount DSL生成の正解率は2.3%:LLMFinLiteracyベンチマーク
·mike

LLMによるBeancount DSL生成の正解率は2.3%:LLMFinLiteracyベンチマーク

LLMFinLiteracyベンチマークによると、5つの約7Bパラメータのオープンウェイトモデルが完全に正しいBeancountトランザクションを生成できた割合はわずか2.3%でした。失敗は構文ではなく会計上の推論に集中しており、信頼性の高いライトバック・エージェントにはコンパイラ・イン・ザ・ループによるフィードバックが不可欠であることが示唆されています。

llm
beancount
plain-text-accounting
ai
+4
TableMaster:LLMを用いたテーブル理解のための適応的推論
·mike

TableMaster:LLMを用いたテーブル理解のための適応的推論

TableMasterは、プロンプトのみで構成されるパイプラインであり、GPT-4o-miniを使用してWikiTQで78.13%を達成しました。これは、フォーカス・テーブル抽出、セマンティック言語化、およびテキスト推論と記号推論の適応的な切り替えを組み合わせることで、Chain-of-Tableを13ポイント上回る結果です。本稿では、このアーキテクチャがBeancountのような財務元帳を扱うAIエージェントにとってどのような意味を持つかを解説します。

ai
llm
machine-learning
beancount
+4
LLMを用いたゼロショット異常検知:GPT-4はテーブルデータでどのようなパフォーマンスを示すか
·mike

LLMを用いたゼロショット異常検知:GPT-4はテーブルデータでどのようなパフォーマンスを示すか

GPT-4は、ファインチューニングなしでODDSベンチマークにおいて平均AUROC 74.1を達成し、古典的なECODベースラインの75.5にほぼ匹敵しましたが、多次元的な異常や分散の大きいデータセットでは失敗しました。ゼロショットLLM異常検知の批判的レビューと、Beancount帳簿の自動監査への影響について解説します。

ai
llm
fraud-detection
machine-learning
+3
DocFinQA:完全なSEC提出書類における長文コンテキストの財務推論
·mike

DocFinQA:完全なSEC提出書類における長文コンテキストの財務推論

DocFinQAは、FinQAの精選された700語のパッセージを、123,000語に及ぶ完全なSEC提出書類に置き換え、コンテキストを175倍に拡大しました。これにより、長文ドキュメントにおけるGPT-4の精度はほぼ半減します。検索パイプラインはHR@3で45%の確率で正しいチャンクの抽出に失敗し、長文コンテキストモデルもその代用にはなりません。

ai
llm
machine-learning
finance
+3
TheAgentCompany:実世界の企業業務におけるLLMエージェントのベンチマーキング
·mike

TheAgentCompany:実世界の企業業務におけるLLMエージェントのベンチマーキング

TheAgentCompanyは、GitLab、OwnCloud、RocketChatを備えたシミュレートされたイントラネット上で175の実用的な業務タスクをテストします。最高モデル(Gemini-2.5-Pro)は1タスクあたり4ドルのコストでわずか30%の完了率にとどまり、自律型エージェントが会計や財務のワークフローにおいて依然として実用的ではないことを明らかにしています。

ai
llm
automation
machine-learning
+3
87件中13–24件を表示中