「Plain-Text Accounting」タグの記事が33件件あります

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

LLMエージェントにおける不確実性を考慮したディフェラル：小規模モデルから大規模モデルへいつエスカレーションすべきか

ReDActは、デフォルトで小規模モデルを実行し、トークンレベルのパープレキシティが不確実性を示した場合にのみ高価なモデルへとエスカレーションします。これにより、GPT-5.2単体と比較して、精度を維持または向上させつつ64%のコスト削減を実現します。これはBeancountの取引分類エージェントに直接応用可能なパターンです。

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands：AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること

OpenHandsはMITライセンスのDockerサンドボックス化されたエージェントプラットフォームです。CodeActはSWE-Bench Liteで26%を達成しました。これは今日のAIエージェントが確実に実行できることを確立する冷静なベンチマークであり、最初の実用的な財務デプロイメントが自律型ではなく、範囲を厳密に限定すべき理由を示しています。

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLMによるBeancount DSL生成の正解率は2.3%：LLMFinLiteracyベンチマーク

LLMFinLiteracyベンチマークによると、5つの約7Bパラメータのオープンウェイトモデルが完全に正しいBeancountトランザクションを生成できた割合はわずか2.3%でした。失敗は構文ではなく会計上の推論に集中しており、信頼性の高いライトバック・エージェントにはコンパイラ・イン・ザ・ループによるフィードバックが不可欠であることが示唆されています。

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster：LLMを用いたテーブル理解のための適応的推論

TableMasterは、プロンプトのみで構成されるパイプラインであり、GPT-4o-miniを使用してWikiTQで78.13%を達成しました。これは、フォーカス・テーブル抽出、セマンティック言語化、およびテキスト推論と記号推論の適応的な切り替えを組み合わせることで、Chain-of-Tableを13ポイント上回る結果です。本稿では、このアーキテクチャがBeancountのような財務元帳を扱うAIエージェントにとってどのような意味を持つかを解説します。

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench：対話型AIエージェントにおけるデュアルコントロールのコストを測定する

τ²-benchは、AIとユーザーの両方が共有ステート上でツールを呼び出すデュアルコントロール設定へとエージェントのベンチマーキングを拡張します。アクティブなユーザーの存在により成功率が18〜25ポイント低下することが判明しており、これは人間のユーザーと書き込み権限を共有するBeancountエージェントにとって直接的な示唆となります。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

GAIAベンチマーク：最先端AIエージェントの真の実力を測定する

GAIAは、3つの難易度レベルにわたる466の実世界のタスクでベンチマークを行います。2026年中旬時点で、最先端エージェントは人間の92%に対して74.55%に達しましたが、残されたレベル3の格差は、自動化されたBeancount元帳ワークフローにおける多段階の調整の課題に直結しています。

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena：LLMウェブエージェントは実社会のエンタープライズ知識労働でどのように機能するか

WorkArenaは、33の実用的なServiceNowタスクでLLMウェブエージェントをベンチマークします。GPT-4oは全体で42.7%に達しましたが、リストフィルタリングタスクでは0%となり、フォーム入力と構造化UI操作の間に存在する高い壁を露呈させました。これはBeancountの帳簿自動化における課題に直結しています。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: 実世界のツール使用ドメインにおけるAIエージェントの信頼性の測定

τ-benchは、Claude 3.5 SonnetのようなトップクラスのLLMでも、小売カスタマーサービス業務においてpass@1の0.692からpass@4の0.462へと低下することを示しています。これは一貫性の急落（Consistency Cliff）を意味し、Beancount元帳を操作する書き戻しエージェントにとって直接的な影響を与えます。

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: LLM推論チェーンにおけるテーブルの進化

Chain-of-Table (ICLR 2024) は、テーブル自体を中間状態として進化させることで LLM のテーブル推論を向上させます。WikiTQ で 67.31%（従来ベースラインの 61.48% に対し）を達成し、4,000 トークンを超えるテーブルでは +10.25 ポイントのアドバンテージを実現しており、Beancount 元帳クエリエージェントへの直接的な応用が可能です。

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: 7Bのオープンモデルはテーブル理解においてGPT-4に匹敵するか？

TableLlamaは、260万のテーブルタスク例を用いてLlama 2 (7B)をファインチューニングしたモデルです。列型アノテーション（F1 94対32）のような構造的タスクではGPT-4を上回る一方、WikiTQの構成的推論では33ポイント及ばないという結果が出ています。これは、現在の金融AIにおいて7Bのオープンモデルができること、できないことを測るための指標となります。

全てについて Plain-Text Accounting