LLMによるBeancount DSL生成の正解率は2.3%:LLMFinLiteracyベンチマーク
LLMFinLiteracyベンチマークによると、5つの約7Bパラメータのオープンウェイトモデルが完全に正 しいBeancountトランザクションを生成できた割合はわずか2.3%でした。失敗は構文ではなく会計上の推論に集中しており、信頼性の高いライトバック・エージェントにはコンパイラ・イン・ザ・ループによるフィードバックが不可欠であることが示唆されています。
LLMFinLiteracyベンチマークによると、5つの約7Bパラメータのオープンウェイトモデルが完全に正 しいBeancountトランザクションを生成できた割合はわずか2.3%でした。失敗は構文ではなく会計上の推論に集中しており、信頼性の高いライトバック・エージェントにはコンパイラ・イン・ザ・ループによるフィードバックが不可欠であることが示唆されています。
AuditCopilotは、オープンソースのLLM(Mistral-8B、Gemma、Llama-3.1)を企業の仕訳不正検知に適用し、誤検知を942件から12件に削減しました。しかし、アブレーション研究により、LLMは独立した異常検知器としてではなく、主にIsolation Forestスコアの上層にある統合レイヤーとして機能していることが明らかになりました。