メインコンテンツまでスキップ
Open Source

全てについて Open Source

4つの記事
Open-source tools, frameworks, and research artifacts for financial AI

OpenHands:AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること

OpenHandsはMITライセンスのDockerサンドボックス化されたエージェントプラットフォームです。CodeActはSWE-Bench Liteで26%を達成しました。これは今日のAIエージェントが確実に実行できることを確立する冷静なベンチマークであり、最初の実用的な財務デプロイメントが自律型ではなく、範囲を厳密に限定すべき理由を示しています。

WebArena: Webエージェントの真の能力と限界を測定する812タスクのベンチマーク

GPT-4はWebArenaの812の現実的なWebタスクのわずか14.41%しか完了できず、人間は78.24%に達します。主な失敗要因は「偽の実行不能(false infeasibility)」、つまり保守的な実行拒否であり、これはFavaや金融Web UIを操作するエージェントに直接的な影響を及ぼします。

TableLlama: 7Bのオープンモデルはテーブル理解においてGPT-4に匹敵するか?

TableLlamaは、260万のテーブルタスク例を用いてLlama 2 (7B)をファインチューニングしたモデルです。列型アノテーション(F1 94対32)のような構造的タスクではGPT-4を上回る一方、WikiTQの構成的推論では33ポイント及ばないという結果が出ています。これは、現在の金融AIにおいて7Bのオープンモデルができること、できないことを測るための指標となります。

SWE-agent: インターフェース設計がいかに自動化ソフトウェアエンジニアリングを解禁するか

SWE-agent (NeurIPS 2024) は、LLM とソフトウェア環境の間の専用レイヤーであるエージェント・コンピュータ・インターフェース (ACI) を導入し、生のシェルアクセスと比較して 10.7 パーセントポイントの改善、GPT-4 Turbo による SWE-bench での 12.47% の解決率を達成しました。自律型コーディングエージェントの主なボトルネックは、モデルの能力ではなく、インターフェースの設計にあります。