「Developers」タグの記事が7件件あります

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands：AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること

OpenHandsはMITライセンスのDockerサンドボックス化されたエージェントプラットフォームです。CodeActはSWE-Bench Liteで26%を達成しました。これは今日のAIエージェントが確実に実行できることを確立する冷静なベンチマークであり、最初の実用的な財務デプロイメントが自律型ではなく、範囲を厳密に限定すべき理由を示しています。

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: LLMエージェントのための検証可能な安全ポリシー推論

ShieldAgent (ICML 2025) は、LLMベースのガードレールをマルコフ論理ネットワーク上に構築された確率的ルール回路に置き換え、APIコールを64.7%削減しながらエージェント攻撃に対して90.4%の精度を達成しました。これが金融AIシステムにおける検証可能な安全性にとって何を意味するのかを解説します。

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

ファインチューニング vs. RAG：LLMへの新しい知識の注入において検索が勝る理由

70億パラメータのLLMを用いたRAGと教師なしファインチューニングの実証的な比較により、RAGはカットオフ後の事実に対して0.875以上の精度を達成する一方、ファインチューニングは0.504で停滞することが示されました。これはBeancountエージェントの設計や、頻繁な知識更新を必要とするシステムに直接的な影響を与えます。

AILLMMachine LearningAutomationPython APIDevelopersBeancount

Gorilla: 検索を意識した学習（RAT）により、LLMのAPIハルシネーションを78%から11%に低減する方法

Gorilla（Patilら、NeurIPS 2024）は、検索されたAPIドキュメントを用いて検索を意識した学習（RAT）で7BのLLaMAモデルを微調整し、GPT-4のゼロショットと比較してハルシネーション率を78%から11%に削減しました。これは、勘定科目名の誤りや符号の反転が単なる不快感ではなく正確性の致命的な欠陥となる、金融AIの書き戻しエージェントにとって直接的な意義を持ちます。

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: インターフェース設計がいかに自動化ソフトウェアエンジニアリングを解禁するか

SWE-agent (NeurIPS 2024) は、LLM とソフトウェア環境の間の専用レイヤーであるエージェント・コンピュータ・インターフェース (ACI) を導入し、生のシェルアクセスと比較して 10.7 パーセントポイントの改善、GPT-4 Turbo による SWE-bench での 12.47% の解決率を達成しました。自律型コーディングエージェントの主なボトルネックは、モデルの能力ではなく、インターフェースの設計にあります。

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench: 言語モデルは現実世界のGitHubの問題を解決できるか？

SWE-benchは、12個のPythonリポジトリにおける2,294件の実際のGitHubイシューを用いて、実行ベースのテストで言語モデルを評価します。発表時、Claude 2は現実的なリトリーバル設定で1.96%のイシューしか解決できず、コーディングエージェントの事実上のベンチマークを確立しました。また、Beancountのライトバックエージェントに直接関連するリトリーバルとパッチ長の失敗モードを明らかにしました。

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer：自己教師ありツールの利用とその金融AIにおける限界

Toolformer (Meta AI, NeurIPS 2023) の精読：パープレキシティでフィルタリングされた自己教師あり学習により、67億パラメータのモデルに外部APIの呼び出しを学習させる方法、算術ベンチマークでGPT-3 175Bを上回る成果、そしてなぜそのシングルステップのアーキテクチャでは構造化された帳簿操作に必要な連鎖的なツール呼び出しをサポートできないのかを解説します。

全てについて Developers