Modelos de linguagem em larga escala (LLMs) têm recebido atenção significativa no gerenciamento de dados, com aplicações que incluem integração de dados, preparação de banco de dados, desenvolvimento de consultas e limpeza de dados. No entanto, a análise de dados não estruturados, especialmente documentos complexos, continua a ser um desafio no processamento de dados. Estruturas declarativas recentes projetadas para processamento de dados não estruturados baseadas em LLM concentram-se mais na redução de custos do que na melhoria da precisão. Isto cria problemas para funções e dados complexos, onde a saída do LLM muitas vezes carece de precisão para funções definidas pelo usuário, mesmo com dados refinados. Por exemplo, os LLMs podem ter dificuldade em identificar a ocorrência de todas as cláusulas específicas, como força maior ou indenização, em documentos jurídicos longos, sendo necessária a decomposição tanto de dados quanto de funções.
Através da Identificação de Má Conduta Policial (PMI), os repórteres do Programa de Reportagem Investigativa de Berkeley procuram analisar dezenas de registos policiais obtidos através de pedidos de registos para descobrir padrões de má conduta policial e potenciais violações processuais. O PMI apresenta o desafio de analisar conjuntos complexos de documentos, como registros policiais, para identificar padrões de má conduta policial. Este trabalho inclui o processamento de vários documentos para extrair e resumir informações importantes, combinar dados de vários documentos e criar resumos comportamentais detalhados. Os métodos atuais tratam essas operações como uma operação de mapeamento de uma etapa, com uma chamada LLM por documento. No entanto, esta abordagem é muitas vezes imprecisa devido a questões como o comprimento do documento que excede o limite de conteúdo do LLM, a falta de detalhes importantes ou a inclusão de informações irrelevantes.
Pesquisadores da UC Berkeley e da Universidade de Columbia propuseram o DocETL, um novo programa projetado para melhorar pipelines complexos de processamento de documentos e, ao mesmo tempo, abordar as limitações dos LLMs. Essa abordagem fornece uma interface declarativa para os usuários definirem pipelines de processamento e usa uma estrutura baseada em agente para otimização automatizada. Os principais recursos do DocETL incluem reescrita lógica de pipelines projetados para tarefas baseadas em LLM, um método de avaliação de sistema direcionado a agentes que gerencia informações de validação específicas de tarefas e um algoritmo de otimização que identifica com eficiência programas promissores dentro de restrições de tempo baseadas em LLM. Além disso, o DocETL mostra uma melhoria significativa na qualidade da saída em várias tarefas de análise de documentos não estruturados.
O DocETL é testado em operações do PMI usando um conjunto de dados de 227 documentos dos departamentos de polícia da Califórnia. O conjunto de dados apresentou desafios significativos, incluindo documentos longos com uma média de 12.500 tokens, alguns excedendo o limite da janela de contexto de 128.000 tokens. A tarefa envolve a produção de resumos detalhados de má conduta de cada policial, incluindo nomes, tipos de má conduta e resumos completos. O primeiro pipeline no DocETL inclui uma função de mapa para extrair valores discrepantes, uma função inválida para enfraquecer a lista e uma função reduzida para resumir o mau comportamento entre documentos. O sistema testou diversas variantes de pipeline usando GPT-4o-mini, demonstrando a capacidade do DocETL de otimizar tarefas complexas de processamento de documentos. Pipelines são DocETLSDocETLTe DocETLÓ.
A avaliação humana foi realizada em um pequeno conjunto de dados usando o GPT-4o-mini como juiz em todos os 1.500 resultados para confirmar os julgamentos do LLM, produzindo alta concordância (92-97%) entre o juiz do LLM e o avaliador humano. Os resultados mostram que DocETL𝑂 é 1,34 vezes mais preciso que a linha de base. DocETLS e DocETLT pipelines são criados da mesma maneira, com DDocETLS muitas vezes pula datas e lugares. A avaliação destaca a complexidade da avaliação de pipelines baseados em LLM e a importância de otimizar o fluxo de trabalho e a avaliação na análise de documentos baseada em LLM. Os agentes de validação personalizados do DocETL são essenciais para descobrir os pontos fortes relativos de cada programa e destacar a eficiência do sistema no tratamento de tarefas complexas de processamento de documentos.
Concluindo, os pesquisadores apresentaram o DocETL, um sistema declarativo para o desenvolvimento de tarefas complexas de processamento de documentos usando LLMs, abordando limitações significativas nas estruturas de processamento de dados existentes habilitadas pelo LLM. Utiliza novas diretrizes de reescrita, uma estrutura baseada em agentes para reescrita e avaliação de programas e uma estratégia oportunista para enfrentar os desafios específicos do processamento complexo de documentos. Além disso, o DocETL pode produzir resultados de qualidade 1,34 a 4,6 vezes superior aos bancos de dados manuais. À medida que a tecnologia LLM continua a evoluir e novos desafios surgem no processamento de documentos, a arquitetura flexível do DocETL fornece uma plataforma sólida para futuras pesquisas e aplicações neste campo em rápido crescimento.
Confira Papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️