CRITIC:なぜLLMの自己修正には外部ツールのフィードバックが必要なのか
CRITIC(ICLR 2024)は、LLMの修正を外部ツー ルの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。
CRITIC(ICLR 2024)は、LLMの修正を外部ツー ルの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。