メインコンテンツまでスキップ

Beancount.io

ヘルプセンター
ブログ
オープン台帳

AI CFO
口座連携
スマートインポート
Beancount向けGit
ホスト型Fava
Androidアプリ
iOSアプリ

料金プラン

English
中文
Български
Català
Deutsch
Español
فارسی
Français
日本語
한국어
Nederlands
Português
Русский
Slovenčina
Українська

ログイン今すぐ始める

アーカイブ

アーカイブ

2026

4月15日 - FinBen: 36の財務タスクにおけるLLMのベンチマーク — 会計AIへの示唆
4月16日 - Toolformer：自己教師ありツールの利用とその金融AIにおける限界
4月17日 - ReAct：言語モデルにおける推論と行動の相乗効果
4月18日 - FinMasterベンチマーク：LLMが金融リテラシーで96%を記録しながら財務諸表作成で3%に沈む理由
4月19日 - PHANTOM (NeurIPS 2025): 金融文書におけるLLMのハルシネーション検出の測定
4月20日 - Chain-of-Thoughtプロンプティング：金融AIにおける適合率と再現率のトレードオフ
4月21日 - 会計エージェントのための憲法AI：RLAIF、ポリシー規則、およびグッドハートの法則のリスク
4月22日 - LLMはテーブルデータの推論ができるのか？4つのベンチマークが示す金融AIの現状
4月23日 - PAL: 信頼性の高い財務演算のためのプログラム支援言語モデル
4月24日 - 自己整合性：多数決サンプリングによる思考の連鎖（Chain-of-Thought）精度の向上
4月25日 - Reflexion: 再学習なしにミスから学習する言語エージェント
4月26日 - CRITIC：なぜLLMの自己修正には外部ツールのフィードバックが必要なのか
4月27日 - Tree of Thoughts: LLMの探索による意図的な問題解決
4月28日 - LLMはまだ推論を自己修正できない — ICLR 2024の知見と金融AIへの示唆
4月29日 - CodeAct: 実行可能なPythonコードがLLMエージェントの精度を20%向上させる理由
4月30日 - SWE-bench: 言語モデルは現実世界のGitHubの問題を解決できるか？
5月1日 - SWE-agent: インターフェース設計がいかに自動化ソフトウェアエンジニアリングを解禁するか
5月2日 - MemGPT: LLMエージェントのための仮想コンテキスト管理
5月3日 - Gorilla: 検索を意識した学習（RAT）により、LLMのAPIハルシネーションを78%から11%に低減する方法
5月4日 - AutoGen: 金融AIのためのマルチエージェント対話フレームワーク
5月5日 - BloombergGPT と金融におけるドメイン特化型 LLM の限界
5月6日 - AgentBench: エージェントとしてのLLM評価 — 金融AIの信頼性向上に向けた教訓
5月7日 - HippoRAG: LLMのための神経生物学に着想を得た長期記憶
5月8日 - Voyager：生涯にわたるAIエージェント学習の基盤としてのスキルライブラリ
5月9日 - Self-RAG：LLMのための適応的リトリーバルと自己批判
5月10日 - LATS: Language Agent Tree Search — 推論、行動、計画を一つのフレームワークに統合
5月11日 - DSPy: 脆弱なプロンプトエンジニアリングをコンパイル済みのLLMパイプラインで置き換える
5月12日 - FinanceBench：ベクトルストアRAGが実際の財務書類で失敗する理由
5月13日 - FinQA：財務レポートにおけるAIの数値推論を測定するベンチマーク
5月14日 - TAT-QA：財務年次報告書の推論のための表・テキスト・ハイブリッド型QAベンチマーク
5月15日 - ConvFinQA：マルチターンの財務QAとモデル・専門家間にある21ポイントの格差
5月16日 - MultiHiertt: 多階層財務諸表における数値推論のベンチマーク
5月17日 - 知識集約型NLPタスクのための検索拡張生成（RAG）
5月18日 - FLARE: 能動的検索拡張生成
5月19日 - IRCoT: マルチステップQAに向けた検索と思考の連鎖（Chain-of-Thought）のインターリービング
5月20日 - ファインチューニング vs. RAG：LLMへの新しい知識の注入において検索が勝る理由
5月21日 - TAT-LLM: 財務表とテキストにおける離散的推論のために微調整されたLLaMA 2
5月22日 - AuditCopilot：複式簿記における不正検知のためのLLM
5月23日 - LLMは時系列予測には役に立たない：NeurIPS 2024が金融AIにもたらす意味
5月24日 - マルチエージェントLLM討論：真の精度向上、制御不能な計算コスト、および集団的妄想
5月25日 - GuardAgent: コード実行によるLLMエージェントの確定的安全性の強化
5月26日 - Fusion-in-Decoder: 複数パッセージの検索が生成型QAをどのように改善するか
5月27日 - Atlas: 検索機と読解機の共同事前学習により、11Bパラメータで540BパラメータのLLMを凌駕
5月28日 - ShieldAgent: LLMエージェントのための検証可能な安全ポリシー推論
5月29日 - AGrail：タスクを越えて学習するLLMエージェントのための適応型セーフティ・ガードレール
5月30日 - M3MAD-Bench：マルチエージェント討論はドメインやモダリティを越えて真に有効なのか？
5月31日 - 思考トークンの予算が同一の場合、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムを上回る
6月1日 - StructRAG (ICLR 2025): 適切なドキュメント構造の選択により、GraphRAGを28ポイント上回る
6月2日 - InvestorBench: 金融取引の意思決定におけるLLMエージェントのベンチマーク評価
6月3日 - FinAuditing: LLMによる実在のSEC XBRL監査タスクのスコアは14%未満
6月4日 - GraphRAG：ローカルからグローバルなクエリ指向の要約へ
6月5日 - LLMエージェントのための検証可能な安全なツール利用：STPAとMCPの融合
6月6日 - BIRDベンチマーク：LLM Text-to-SQLにおける実データベースとの乖離
6月7日 - DIN-SQL: Text-to-SQLのための分解されたインコンテキスト学習
6月8日 - MAC-SQL：マルチエージェント協調型 Text-to-SQL
6月9日 - TAPAS: SQL不要の弱教師ありテーブルQA、そしてそれがBeancountに意味すること
6月10日 - TableLlama: 7Bのオープンモデルはテーブル理解においてGPT-4に匹敵するか？
6月11日 - Chain-of-Table: LLM推論チェーンにおけるテーブルの進化
6月12日 - τ-bench: 実世界のツール使用ドメインにおけるAIエージェントの信頼性の測定
6月13日 - WorkArena：LLMウェブエージェントは実社会のエンタープライズ知識労働でどのように機能するか
6月14日 - WebArena: Webエージェントの真の能力と限界を測定する812タスクのベンチマーク
6月15日 - OSWorld：デスクトップAIエージェントの成功率は12%、人間は72%のタスクで成功
6月16日 - GAIAベンチマーク：最先端AIエージェントの真の実力を測定する
6月17日 - WorkArena++: 複合的なエンタープライズ・タスクにおける人間とAIエージェントのパフォーマンスの93%の乖離
6月18日 - τ²-bench：対話型AIエージェントにおけるデュアルコントロールのコストを測定する
6月19日 - TheAgentCompany：実世界の企業業務におけるLLMエージェントのベンチマーキング
6月20日 - DocFinQA：完全なSEC提出書類における長文コンテキストの財務推論
6月21日 - LLMを用いたゼロショット異常検知：GPT-4はテーブルデータでどのようなパフォーマンスを示すか
6月22日 - TableMaster：LLMを用いたテーブル理解のための適応的推論
6月23日 - LLMによるBeancount DSL生成の正解率は2.3%：LLMFinLiteracyベンチマーク
6月24日 - AnoLLM: 財務データにおけるテーブルデータの異常検知に向けたLLMのファインチューニング
6月25日 - CausalTAD: LLMによるテーブルデータの異常検知のための因果関係に基づく列順序付け
6月26日 - AD-LLMベンチマーク：GPT-4oがテキスト異常検知においてゼロショットで0.93以上のAUROCを達成
6月27日 - Lost in the Middle：LLMにおける位置バイアスと金融AIへの影響
6月28日 - FinDER: 実務のアナリストによるクエリが財務RAGにおける74%の再現率の乖離を露呈
6月29日 - Fin-RATE：LLMは期間横断および企業横断の財務分析にいかに失敗するか
6月30日 - OpenHands：AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること
7月1日 - LLMエージェントにおける不確実性を考慮したディフェラル：小規模モデルから大規模モデルへいつエスカレーションすべきか
7月2日 - Found in the Middle: 位置的アテンションバイアスの校正によるロングコンテキストRAGの改善
7月3日 - LLM異常検知サーベイ (NAACL 2025)：強力な分類体系、欠如した表形式データへの対応
7月4日 - OmniEval: 金融分野向け全方位型RAG評価ベンチマーク
7月5日 - FinToolBench：実世界の金融ツール活用におけるLLMエージェントの評価
7月6日 - FinTrace：金融タスクにおけるLLMツール呼び出しのトラジェクトリレベル評価
7月7日 - FinMCP-Bench: MCP下での実世界の金融ツール利用に向けたLLMエージェントのベンチマーク
7月8日 - JSONSchemaBench: 現実世界のスキーマの複雑さがLLMの構造化出力の保証を破壊する
7月9日 - LLMの信頼度とキャリブレーション：研究が実際に示していることの調査
7月10日 - WildToolBench: なぜ現実世界のツール利用においてLLMのセッション精度は15%を超えないのか
7月11日 - LLMエージェントはCFOになれるのか？EnterpriseArenaによる132ヶ月のシミュレーションで明らかになった大きな格差
7月12日 - FinRAGBench-V：金融領域における視覚的引用を伴うマルチモーダルRAG

Beancount.ioを始める

オープンソースの複式簿記システムで財務をコントロールしましょう。今日から帳簿を始められます。

無料で始める料金を見る

はじめに

ドキュメント
クイックスタートガイド
FAQ
最初のトランザクション
オープン台帳
変更履歴

機能

Hosted Fava
Git バージョン管理
AIによる自動化
モバイルアプリ
料金

コミュニティ

Twitter/X
Telegram チャット
GitHub
YouTube
ブログ
私たちについて
ブランドアセット

法務

プライバシーポリシー
利用規約
セキュリティ
創業者向けリソースハブ

© 2019 - 2026 Beancount.io

App Storeからダウンロード

Google Playで手に入れよう

透明性に基づく構築 • バージョン管理 • AI搭載