Os pesquisadores estão se concentrando na criação de sistemas que possam lidar com análises de dados multimodais, incluindo dados estruturados e não estruturados. Isso inclui a análise de textos, imagens, vídeos e bancos de dados para responder a perguntas complexas. Essas habilidades são importantes na área da saúde, onde os profissionais médicos interagem com registros de pacientes, imagens médicas e relatórios escritos. Da mesma forma, a análise multimétodo ajuda a interpretar bancos de dados com metadados, análise textual e imagens de obras de arte em um ambiente artístico ou de pesquisa. A integração perfeita desses tipos de dados fornece um poder significativo para a tomada de decisões e insights.
Um dos maiores desafios neste campo é permitir que os usuários consultem dados multimodais usando linguagem natural. Os sistemas convencionais lutam para interpretar consultas complexas que envolvem vários formatos de dados, como invocar tendências em tabelas estruturadas enquanto analisam o conteúdo de imagens relacionadas. Além disso, a ausência de ferramentas que forneçam explicações claras dos resultados da consulta torna difícil para os usuários confiarem e verificarem os resultados. Essas limitações criam uma lacuna entre os recursos avançados de processamento de dados e a usabilidade no mundo real.
As soluções atuais tentam enfrentar estes desafios utilizando duas abordagens principais. O primeiro inclui muitos métodos em linguagens de consulta unificadas, como NeuralSQL, que incorporam as funções de uma linguagem de visão diretamente em comandos SQL. O segundo utiliza um fluxo de trabalho de agente que conecta diversas ferramentas para analisar métodos específicos, demonstrado pelo CAESURA. Embora esses métodos tenham avançado na área, eles são insuficientes para aumentar o desempenho, garantir a interpretabilidade e responder adequadamente a perguntas complexas. Esta deficiência destaca a necessidade de um sistema que possa se adaptar e pensar com clareza.
Pesquisadores da Universidade de Ciências Aplicadas de Zurique introduziram o XMODE, um novo sistema projetado para resolver esses problemas. O XMODE permite a análise de dados multidimensionais usando uma estrutura agetic baseada em Large Language Model (LLM). O sistema interpreta as consultas do usuário e as divide em subtarefas, como geração de SQL e análise de imagens. Ao criar fluxos de trabalho representados como gráficos acíclicos direcionados (DAGs), o XMODE otimiza o sequenciamento e a execução de tarefas. Essa abordagem melhora a eficiência e a precisão em comparação com sistemas de última geração, como CAESURA e NeuralSQL. Além disso, o XMODE oferece suporte ao reagendamento de tarefas, o que permite a adaptação a situações em que determinados componentes falham.
A estrutura do XMODE inclui cinco componentes principais: programação e compartilhamento do modelo especialista, autoexecução e modificação, tomada de decisão, ferramentas especializadas e um repositório de dados compartilhado. Caso a consulta seja aceita, o sistema cria um fluxo de trabalho detalhado das tarefas, dotando-as de ferramentas adequadas como módulos de geração de SQL e modelos de análise de imagens. Essas operações são realizadas em paralelo sempre que possível, minimizando a latência e o custo computacional. Além disso, os recursos de autocorreção do XMODE permitem identificar e corrigir erros de execução, garantindo confiabilidade. Essa adaptabilidade é essencial para gerenciar fluxos de trabalho complexos que envolvem vários fluxos de dados.
O XMODE mostrou desempenho superior durante testes em dois conjuntos de dados. No conjunto de dados de arte, o XMODE alcançou uma precisão geral de 63,33%, em comparação com 33,33% do CAESURA. Teve muito sucesso no tratamento de tarefas que exigiam resultados complexos, como gráficos e estruturas de dados integrados, alcançando 100% de precisão na produção de resultados estruturais e de estrutura de dados. Além disso, a capacidade do XMODE de executar tarefas em paralelo reduziu a latência para 3.040 milissegundos, em comparação com os 5.821 milissegundos do CAESURA. Esses resultados destacam sua eficácia no processamento de consultas em linguagem natural com conjuntos de dados multidimensionais.
No conjunto de dados de registros eletrônicos de saúde (EHR), o XMODE alcançou 51% de precisão, superando o NeuralSQL em consultas multitabelas, pontuando 77,50% em comparação com 47,50% do NeuralSQL. O sistema apresentou forte desempenho no tratamento de consultas binárias, alcançando 74% de precisão, muito superior aos 48% do NeuralSQL na mesma categoria. A capacidade do XMODE de adaptar e reorganizar tarefas contribui para o seu desempenho robusto, tornando-o particularmente bem-sucedido em situações que exigem pensamento detalhado e integração de vários métodos.
O XMODE aborda efetivamente as limitações dos sistemas de análise de dados multimodais existentes, combinando agendamento avançado, paralelização e reprogramação dinâmica. Sua abordagem inovadora permite aos usuários consultar conjuntos de dados complexos de forma eficiente, garantindo transparência e interpretabilidade. Com melhorias comprovadas de precisão, eficiência e custo-benefício, o XMODE representa um avanço significativo na área, fornecendo aplicações práticas em áreas como saúde e arte.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)