Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evoluindo Tabelas na Cadeia de Raciocínio de LLMs

Chain-of-Table (ICLR 2024) melhora o raciocínio tabular de LLMs ao evoluir a própria tabela como estado intermediário — alcançando 67,31% no WikiTQ vs. 61,48% em baselines anteriores, com uma vantagem de +10,25 pontos em tabelas que excedem 4.000 tokens e aplicabilidade direta a agentes de consulta de livros razão Beancount.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Pode um Modelo Aberto de 7B Igualar o GPT-4 na Compreensão de Tabelas?

O TableLlama faz o ajuste fino do Llama 2 (7B) em 2,6 milhões de exemplos de tarefas de tabela e supera o GPT-4 em tarefas estruturais como anotação de tipo de coluna (F1 94 vs 32), mas fica 33 pontos atrás no raciocínio composicional do WikiTQ — um benchmark calibrado para o que os modelos abertos de 7B podem e não podem fazer na IA financeira hoje.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: Table QA Fracamente Supervisionado Sem SQL, e o Que Isso Significa para o Beancount

O TAPAS (Google Research, ACL 2020) responde a perguntas sobre tabelas selecionando células e aplicando agregações escalares — sem gerar SQL. Este post analisa a arquitetura, seu ganho de 12 pontos na precisão de SQA e por que o paradigma de seleção de células se adapta a pequenas consultas de livros razão Beancount, mas falha em larga escala.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: Colaboração Multi-Agente de Texto para SQL

O MAC-SQL (COLING 2025) utiliza três agentes especializados — Seletor para redução de esquema, Decompositor para decomposição de perguntas e Refinador para correção de SQL guiada por execução — para alcançar 59,59% de precisão de execução no benchmark BIRD; a ablação mostra que o Refinador é o que mais contribui (+4,63 pontos), com implicações diretas para a geração de consultas em livros-razão do Beancount.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Aprendizado em Contexto Decomposto para Text-to-SQL

O DIN-SQL (NeurIPS 2023) decompõe o text-to-SQL em etapas de vinculação de esquema, classificação de complexidade e geração de SQL, elevando o GPT-4 de 67,4% para 85,3% de precisão de execução no Spider sem ajuste fino — e a mesma estratégia de decomposição mapeia-se diretamente para interfaces de linguagem natural para a linguagem de consulta BQL do Beancount.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

Benchmark BIRD: A Lacuna de Bancos de Dados Reais em LLM Text-to-SQL

O benchmark BIRD (NeurIPS 2023) testa LLMs em 95 bancos de dados reais — o GPT-4 atinge apenas 54,89% de acurácia de execução com dicas de domínio e 34,88% sem elas, uma lacuna de 20 pontos que molda diretamente o que uma interface BQL de linguagem natural para o Beancount precisaria resolver.

AILLMSecurityAutomationBeancountComplianceTrust

Uso de Ferramentas Verificavelmente Seguro para Agentes de LLM: STPA encontra MCP

Pesquisadores da CMU e NC State propõem o uso da Análise de Processos Teórico-Sistêmica (STPA) e um Protocolo de Contexto de Modelo aprimorado por recursos para derivar especificações formais de segurança para o uso de ferramentas por agentes de LLM, com verificação baseada em Alloy demonstrando a ausência de fluxos inseguros em um estudo de caso de agendamento de calendário.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: Da Sumarização Local à Global Focada em Consultas

O GraphRAG da Microsoft constrói um gráfico de entidades particionado por Leiden sobre um corpus de texto e pré-computa resumos de comunidades para responder a perguntas de compreensão global que o RAG vetorial padrão não consegue lidar — mas uma auditoria de viés de 2025 mostra que suas taxas de vitória de 72–83% colapsam após a correção de artefatos de posição e comprimento na avaliação de LLM como juiz.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLMs Pontuam Abaixo de 14% em Tarefas Reais de Auditoria SEC XBRL

O FinAuditing testa 13 LLMs zero-shot em 1.102 instâncias reais de arquivamentos SEC XBRL; as pontuações máximas são de 13,86% na verificação matemática financeira e 12,42% na recuperação de conceitos — resultados que limitam diretamente o que as ferramentas de contabilidade de IA podem ser confiáveis para automatizar sem ferramentas externas.

τ-bench: Medindo a Confiabilidade de Agentes de IA em Domínios de Uso de Ferramentas no Mundo Real

Latest articles

Chain-of-Table: Evoluindo Tabelas na Cadeia de Raciocínio de LLMs

TableLlama: Pode um Modelo Aberto de 7B Igualar o GPT-4 na Compreensão de Tabelas?

TAPAS: Table QA Fracamente Supervisionado Sem SQL, e o Que Isso Significa para o Beancount

MAC-SQL: Colaboração Multi-Agente de Texto para SQL

DIN-SQL: Aprendizado em Contexto Decomposto para Text-to-SQL

Benchmark BIRD: A Lacuna de Bancos de Dados Reais em LLM Text-to-SQL

Uso de Ferramentas Verificavelmente Seguro para Agentes de LLM: STPA encontra MCP

GraphRAG: Da Sumarização Local à Global Focada em Consultas

FinAuditing: LLMs Pontuam Abaixo de 14% em Tarefas Reais de Auditoria SEC XBRL

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico