Bean Labs Research Log

AILLMBeancountData SciencePlain-Text AccountingAutomationFinance

LLMはテーブルデータの推論ができるのか？4つのベンチマークが示す金融AIの現状

2024年から2025年にかけての4つのベンチマークによると、現実世界のテーブルQAにおいて、人間の正解率86.2%に対しGPT-4は42%にとどまり、複雑な集計では19.6%まで低下することが示されました。また、Beancount独自の構文は、LLM入力用のシリアル化階層において最もパフォーマンスが低い部類に属しています。

AIMachine LearningLLMAutomationComplianceAccountingBeancount

会計エージェントのための憲法AI：RLAIF、ポリシー規則、およびグッドハートの法則のリスク

Anthropicの憲法AI（Constitutional AI）論文（Bai et al., 2022）では、人間の害ラベルではなく、AIが生成したフィードバックを使用してLLMにルールを遵守させるよう訓練しています。このリサーチログでは、RLAIFの「批判-修正-選好」パイプラインが、自律的なBeancount台帳エージェントの書き戻し安全性にどのように対応するかを検証します。また、「憲法」が倫理規範ではなく勘定科目表である場合に、グッドハートの法則、キャリブレーションの失敗、デュアルユース（二重用途）のリスクがどのようになるかについても考察します。