33 записи з тегом "Plain-Text Accounting"

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Передавання завдань з урахуванням невизначеності для агентів LLM: коли переходити від малих до великих моделей

ReDAct за замовчуванням запускає малу модель і переходить до дорогої лише тоді, коли перплексія на рівні токенів сигналізує про невизначеність, досягаючи 64% економії коштів порівняно з використанням лише GPT-5.2 при відповідній або вищій точності — це патерн, що безпосередньо застосовується для агентів категоризації транзакцій Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів

OpenHands — це платформа для агентів з ліцензією MIT та пісочницею Docker, де CodeAct досягає 26% на SWE-Bench Lite — протверезний бенчмарк, який визначає, що агенти ШІ можуть надійно робити сьогодні, і чому перші продуктивні впровадження у фінансах мають бути вузькоспрямованими, а не автономними.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy виявив, що п'ять моделей з відкритими вагами (~7 млрд параметрів) генерують повністю коректні транзакції Beancount лише у 2,3% випадків. Помилки зосереджені в бухгалтерській логіці, а не в синтаксисі, що вказує на зворотний зв'язок від компілятора як на критично важливий елемент для надійних агентів зворотного запису.

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: адаптивне міркування для розуміння таблиць за допомогою LLM

TableMaster — це конвеєр, що базується виключно на промптингу, який досягає 78,13% на WikiTQ з GPT-4o-mini — на 13 пунктів вище, ніж Chain-of-Table — завдяки поєднанню вилучення фокусної таблиці (table-of-focus), семантичної вербалізації та адаптивного перемикання між текстовим і символічним міркуванням. Ось що ця архітектура означає для ШІ-агентів, які працюють із фінансовими книгами, такими як Beancount.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Вимірювання вартості подвійного керування в розмовних ШІ-агентах

τ²-bench розширює бенчмаркінг агентів на сценарії з подвійним керуванням, де і ШІ, і користувач використовують інструменти над спільним станом. Дослідження виявило, що активні користувачі знижують рівень успіху на 18–25 відсоткових пунктів, що має прямі наслідки для агентів Beancount, які ділять доступ на запис із людьми.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

Бенчмарк GAIA: Вимірювання того, що провідні ШІ-агенти насправді можуть робити

GAIA оцінює 466 реальних завдань на трьох рівнях складності; провідні агенти досягли 74,55% у середині 2026 року порівняно з 92% у людей, а залишковий розрив на Рівні 3 безпосередньо відповідає викликам багатокрокової координації в автоматизованих робочих процесах Beancount.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Як вебагенти на базі LLM справляються з реальною інтелектуальною працею на підприємствах

WorkArena тестує вебагентів на базі LLM у 33 реальних завданнях ServiceNow — GPT-4o досягає 42,7% загалом, але 0% у завданнях із фільтрацією списків, виявляючи жорсткий бар'єр між заповненням форм і структурованою взаємодією з UI, що безпосередньо стосується проблем автоматизації реєстру Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Вимірювання надійності ШІ-агентів у реальних сценаріях використання інструментів

τ-bench показує, що топові LLM, такі як Claude 3.5 Sonnet, демонструють падіння з pass@1 (0,692) до pass@4 (0,462) у завданнях обслуговування клієнтів у ритейлі — «прірва послідовності», що має прямі наслідки для будь-якого агента із записом даних у гросбух Beancount.

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Чи може відкрита модель 7B зрівнятися з GPT-4 у розумінні таблиць?

TableLlama донавчає Llama 2 (7B) на 2,6 млн прикладах табличних завдань і перевершує GPT-4 у структурних завданнях, як-от анотування типів стовпців (F1 94 проти 32), але відстає на 33 пункти у композиційному мисленні WikiTQ — каліброваному бенчмарку того, що відкриті моделі 7B можуть і чого не можуть у фінансовому ШІ сьогодні.

Все про Plain-Text Accounting

Передавання завдань з урахуванням невизначеності для агентів LLM: коли переходити від малих до великих моделей

OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів

LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy

TableMaster: адаптивне міркування для розуміння таблиць за допомогою LLM

τ²-bench: Вимірювання вартості подвійного керування в розмовних ШІ-агентах

Бенчмарк GAIA: Вимірювання того, що провідні ШІ-агенти насправді можуть робити

WorkArena: Як вебагенти на базі LLM справляються з реальною інтелектуальною працею на підприємствах

τ-bench: Вимірювання надійності ШІ-агентів у реальних сценаріях використання інструментів

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

TableLlama: Чи може відкрита модель 7B зрівнятися з GPT-4 у розумінні таблиць?

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація