8 entrades etiquetades amb "Technology"

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

WildToolBench (ICLR 2026) avalua 57 LLM en 1.024 tasques extretes del comportament real dels usuaris — cap model supera el 15% de precisió de sessió, sent l'orquestració compositiva, la intenció oculta i les transicions d'instruccions els tres modes de fallada més acusats.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

L'article de TACL 2024 de Liu et al. mostra que els LLM funcionen fins a 20 punts pitjor amb la informació enterrada al mig de contextos llargs —una degradació en forma de U que afecta tots els models provats, inclòs Claude-1.3-100K— amb implicacions concretes sobre com les canalitzacions RAG haurien d'ordenar els fragments recuperats en aplicacions de finances i comptabilitat.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%

OSWorld (NeurIPS 2024) benchmarks multimodal AI agents on 369 real desktop tasks across Ubuntu, Windows, and macOS — finding a 60-percentage-point gap between the best model (12.24%) and human performance (72.36%), with 75% of failures traced to visuomotor grounding errors rather than reasoning failures.

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): Escollir l'estructura de document correcta supera GraphRAG per 28 punts

StructRAG (ICLR 2025) encamina cada consulta a un tipus d'estructura adequat per a la tasca —taula, graf, catàleg, algoritme o fragment— abans del raonament, obtenint 28 punts més que GraphRAG al benchmark Loong mentre s'executa 22 vegades més ràpid, amb l'encaminador entrenat amb DPO representant per si sol un guany de 15 punts en precisió.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Els LLM d'agent únic superen els sistemes multi-agent en el raonament de múltiples salts sota pressupostos iguals de tòquens de pensament

Un preprint de Stanford de 2026 iguala els pressupostos de tòquens de pensament en cinc arquitectures multi-agent i descobreix que els LLM d'agent únic igualen o superen els sistemes multi-agent en el raonament de múltiples salts, amb base teòrica en la Desigualtat de Processament de Dades i implicacions per al disseny d'agents d'IA financera.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Recuperació Adaptativa i Autocrítica per a LLMs

Self-RAG (ICLR 2024 Oral) entrena un model de llenguatge per decidir quan recuperar informació i després avaluar els seus propis resultats mitjançant quatre tokens de reflexió, assolint un 55,8% a PopQA i un 80,2 de FactScore en biografies, superant ChatGPT en cinc bancs de proves. L'anàlisi cobreix el mecanisme, els resultats d'ablació, els límits de reproductibilitat i les implicacions per als agents d'IA financera sobre llibres majors de Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Avaluant els LLM com a agents — Lliçons per a la fiabilitat de la IA en finances

AgentBench (Liu et al., ICLR 2024) avalua 27 LLM en 8 entorns interactius — GPT-4 va obtenir una puntuació de 4,01 en total enfront de 0,96 del millor model de codi obert. Els tres modes de fallada dominants (límit de tasques excedit en el 67,9% de les fallades del graf de coneixement, errors de format en el 53,3% de les fallades de la base de dades i accions no vàlides) es relacionen directament amb els riscos d'implementar un agent d'escriptura de Beancount en un llibre major real.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Gestió de context virtual per a agents d'LLM

MemGPT aplica la paginació de memòria virtual d'estil sistema operatiu als LLM, utilitzant un emmagatzematge de tres nivells (memòria de treball, de recuperació i d'arxiu) per donar als agents un record persistent entre sessions; en bancs de proves de xat multisessió, MemGPT amb GPT-4 assoleix una precisió del 92,5% en comparació amb el 32,1% del model de referència de context fix.

Tot Sobre Technology

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%

StructRAG (ICLR 2025): Escollir l'estructura de document correcta supera GraphRAG per 28 punts

Els LLM d'agent únic superen els sistemes multi-agent en el raonament de múltiples salts sota pressupostos iguals de tòquens de pensament

Self-RAG: Recuperació Adaptativa i Autocrítica per a LLMs

AgentBench: Avaluant els LLM com a agents — Lliçons per a la fiabilitat de la IA en finances

MemGPT: Gestió de context virtual per a agents d'LLM

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal