O processamento de dados moderno envolve trabalhar com grandes conjuntos de dados, estruturados e não estruturados, para encontrar insights acionáveis. As ferramentas tradicionais de processamento de dados muitas vezes enfrentam dificuldades com as necessidades de análises avançadas, especialmente quando as tarefas vão além de simples consultas para incluir compreensão semântica, classificação e agrupamento. Embora sistemas como Pandas ou ferramentas baseadas em SQL lidem bem com dados relacionais, eles enfrentam desafios na integração do processamento baseado em IA e com reconhecimento de contexto. Tarefas como resumir artigos do Arxiv ou verificar afirmações sobre um banco de dados mais amplo exigem habilidades de pensamento complexas. Além disso, esses sistemas muitas vezes não possuem os atalhos necessários para agilizar os fluxos de trabalho, fazendo com que os desenvolvedores construam pipelines complexos manualmente. Isso leva a ineficiências, altos custos computacionais e uma curva de aprendizado acentuada para usuários sem uma sólida experiência em programação de IA.
Pesquisadores de Stanford e Berkeley permaneceram em silêncio LÓTUS 1.0.0: uma versão melhorada do O LÓTUS (euLMs Óver To que eles sabem Vocêconstruído novamente Sdados estruturados), um mecanismo de consulta de código aberto projetado para enfrentar esses desafios. LOTUS simplifica a programação com um sistema semelhante ao Pandas, tornando-o acessível a usuários familiarizados com bibliotecas padrão de manipulação de dados. Mo mais importante é que agora a equipe de pesquisa apresenta um conjunto de operadores semânticos – a criação de programas declarativos como filtros, junções e junções – que usam expressões de linguagem natural para descrever transformações. Esses operadores permitem que os usuários expressem consultas complexas de maneira intuitiva, enquanto o domínio do sistema otimiza as aplicações, melhorando significativamente o desempenho e a eficiência.
Detalhes técnicos e benefícios
A LOTUS baseia-se no uso inovador de operadores semânticosque estende o modelo relacional com capacidades de raciocínio baseadas em IA. Exemplos importantes incluem:
- Filtros semânticos: permite que os usuários filtrem linhas com base em critérios de linguagem natural, como identificar artigos que “buscam avanços em IA”.
- Junções semânticas: Prepare uma combinação de conjuntos de dados usando critérios de correspondência baseados no contexto.
- Integração semântica: permite operações de resumo que combinam grandes conjuntos de dados em insights acionáveis.
Esses operadores usam modelos linguísticos de larga escala (LLMs) e modelos proxy leves para garantir precisão e eficiência. O LOTUS incorpora técnicas de otimização, como modelos em cascata e indexação semântica, para reduzir custos computacionais e ao mesmo tempo manter resultados de alta qualidade. Por exemplo, os filtros semânticos alcançam precisão e recuperação de alvos com garantias probabilísticas, medindo a eficiência computacional e a confiabilidade da saída.
O sistema suporta dados estruturados e não estruturados, tornando-o versátil para aplicações que envolvem conjuntos de dados tabulares, texto de formato livre e até mesmo imagens. Ao remover a complexidade das escolhas algorítmicas e das limitações contextuais, o LOTUS fornece uma estrutura fácil de usar, porém poderosa, para a construção de pipelines avançados de IA.
Implicações e aplicações no mundo real
A LOTUS comprovou seu desempenho em todas as diferentes situações de uso:
- Verificação da realidade: No conjunto de dados FEVER, o pipeline LOTUS escrito em menos de 50 linhas de código alcançou 91% de precisão, superando ferramentas básicas como FacTool em 10%. Além disso, a LOTUS reduziu o tempo de execução em até 28 vezes.
- Rotulagem Múltipla Extrema: Para classificação de texto biomédico no conjunto de dados BioDEX, o operador de junção semântica LOTUS reproduziu resultados de última geração com tempo de execução muito baixo em comparação com métodos ingênuos.
- Pesquisar e classificar: O operador semântico top-k LOTUS mostrou alto desempenho em conjuntos de dados como SciFact e CIFAR-bench, alcançando alta qualidade e fornecendo execução mais rápida do que os métodos de escalonamento convencionais.
- Processamento de imagem: O LOTUS estendeu o suporte para conjuntos de dados de imagens, permitindo tarefas como a geração de memes temáticos por meio do processamento dos atributos semânticos das imagens.
Esses resultados destacam a capacidade da LOTUS de combinar emoção e funcionalidade, simplificando o desenvolvimento e ao mesmo tempo entregando resultados impactantes.
A conclusão
A versão mais recente do LOTUS oferece uma nova abordagem para organização de dados, combinando consultas baseadas em linguagem natural com otimização orientada por IA. Ao permitir que os desenvolvedores criem pipelines complexos com apenas algumas linhas de código, o LOTUS torna a análise avançada mais acessível e, ao mesmo tempo, melhora a produtividade e a eficiência. Como um projeto de código aberto, o LOTUS incentiva a colaboração da comunidade, garantindo melhorias contínuas e ampla funcionalidade. Para usuários que desejam maximizar o poder de seus dados, a LOTUS oferece uma solução eficiente e eficaz.
Confira eu Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)