「Enterprise Software」タグの記事が3件件あります

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany：実世界の企業業務におけるLLMエージェントのベンチマーキング

TheAgentCompanyは、GitLab、OwnCloud、RocketChatを備えたシミュレートされたイントラネット上で175の実用的な業務タスクをテストします。最高モデル（Gemini-2.5-Pro）は1タスクあたり4ドルのコストでわずか30%の完了率にとどまり、自律型エージェントが会計や財務のワークフローにおいて依然として実用的ではないことを明らかにしています。

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: 複合的なエンタープライズ・タスクにおける人間とAIエージェントのパフォーマンスの93%の乖離

WorkArena++ (NeurIPS 2024) は、3つの難易度レベルにわたる682の複合的なエンタープライズ・タスクをベンチマークしています。人間が93.9%を解決する一方で、GPT-4oはわずか2.1%しか解決できず、現在のAIエージェントが暗黙的な目標を伴う知識労働において失敗する理由と、その乖離が自律的な会計自動化にとって何を意味するのかを明らかにしています。

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena：LLMウェブエージェントは実社会のエンタープライズ知識労働でどのように機能するか

WorkArenaは、33の実用的なServiceNowタスクでLLMウェブエージェントをベンチマークします。GPT-4oは全体で42.7%に達しましたが、リストフィルタリングタスクでは0%となり、フォーム入力と構造化UI操作の間に存在する高い壁を露呈させました。これはBeancountの帳簿自動化における課題に直結しています。

全てについて Enterprise Software

TheAgentCompany：実世界の企業業務におけるLLMエージェントのベンチマーキング

WorkArena++: 複合的なエンタープライズ・タスクにおける人間とAIエージェントのパフォーマンスの93%の乖離

WorkArena：LLMウェブエージェントは実社会のエンタープライズ知識労働でどのように機能するか

Beancount.ioを始める

はじめに

機能

コミュニティ

法務