A inteligência artificial (IA) fez avanços significativos nos últimos anos, particularmente com o desenvolvimento de tipos de linguagem em larga escala. Esses modelos, treinados em grandes conjuntos de dados, como textos da Internet, demonstraram habilidades notáveis em tarefas baseadas no conhecimento, como responder perguntas, resumir conteúdo e compreender instruções. No entanto, apesar do seu sucesso, estes modelos necessitam de ajuda em domínios especiais onde os dados são escassos ou muito específicos. Treinar estes modelos para um bom desempenho em ambientes de nicho continua a ser um obstáculo significativo, com apenas literatura limitada disponível.
Um problema importante na pesquisa em IA é a forma ineficiente de aprender modelos a partir de pequenos conjuntos de dados. Os modelos atuais precisam ser expostos a milhares de variações da mesma realidade para aprendê-la com sucesso. Isto cria um problema onde um facto aparece apenas uma ou duas vezes num corpus especializado, dificultando a compreensão e a síntese de informações tão limitadas pelos modelos. Esta ineficiência é ainda mais pronunciada quando se adapta um modelo de linguagem padrão a um novo ambiente específico de domínio, onde não existem diversas representações de conceitos-chave.
As abordagens atuais de IA tentam resolver este problema através de pré-treinamento em grandes conjuntos de dados, dando aos modelos uma ampla compreensão de tópicos gerais. No entanto, esta abordagem não funciona para domínios com um pequeno corpus de informação. Alguns pesquisadores tentaram resolver isso colocando o texto original várias vezes para criar representações diferentes. No entanto, esta abordagem, embora simples, requer mais capacidade para introduzir novas ideias ou aprofundar a compreensão. Após algumas rodadas de reformulação, o desempenho do modelo tende a aumentar, pois a reformulação por si só não fornece variação suficiente para melhorias significativas no aprendizado.
Pesquisadores da Universidade de Stanford apresentam o EntiGraph, uma nova forma de resolver esse problema por meio da manipulação de dados. A equipe, formada por membros do Departamento de Estatística e do Departamento de Ciência da Computação, desenvolveu o EntiGraph para gerar um grande corpus sintético a partir de um pequeno conjunto de dados específico de domínio. O objetivo é ajudar os modelos a aprenderem de forma mais eficaz, fornecendo uma maior variedade de exemplos. O EntiGraph identifica entidades-chave no texto original e usa um modelo de linguagem para gerar conteúdo novo e heterogêneo a partir dos relacionamentos entre essas entidades. Esta abordagem permite a criação de um conjunto de treinamento diversificado, mesmo com pequenas quantidades de dados.
O EntiGraph começa extraindo entidades significativas de um determinado conjunto de dados. As entidades podem ser pessoas, lugares ou conceitos no meio de um texto. Após identificar essas entidades, o algoritmo utiliza um modelo linguístico para descrever seus relacionamentos. Essas anotações são então combinadas em um conjunto de dados sintético que amplia o corpus original, fornecendo um modelo de linguagem com um conjunto de dados de treinamento muito maior e mais rico. Este processo permite que o modelo de linguagem aprenda interações entre entidades de formas que não estão presentes no texto original, resultando em melhores informações. Além disso, o EntiGraph organiza essas relações em um gráfico de conhecimento, que permite uma exploração mais aprofundada de como diferentes entidades interagem no conjunto de dados.
O desempenho do EntiGraph foi testado em uma série de testes e os resultados foram promissores. Os pesquisadores pegaram um corpus de 1,3 milhão de tokens e usaram o EntiGraph para gerar um conjunto de dados sintético contendo 600 milhões de tokens. Eles então pré-treinaram um modelo de linguagem, Llama 3 8B, neste grande conjunto de dados. Os resultados mostraram uma melhoria log-linear na precisão à medida que o número de tokens de transação aumentou. Por exemplo, a precisão do modelo em tarefas de resposta a perguntas melhorou de 39,49% ao usar o conjunto de dados original para 56,42% após o pré-treinamento no corpus sintético. Além disso, o pré-treinamento sintético usando EntiGraph proporcionou até 80% da melhoria na precisão alcançada pelos modelos quando tiveram acesso aos documentos originais durante a predição. Isso mostra que mesmo sem acesso aos dados originais, os modelos podem ter um bom desempenho após serem treinados em um corpus sintético.
O estudo também revelou que o EntiGraph supera os métodos existentes, como simplesmente renomear conjuntos de dados. Em outra comparação, o corpus reanalisado continha apenas 1,8 milhão de tokens, e a precisão do modelo aumentou 43,08%. Em contraste, o EntiGraph melhorou o desempenho do modelo à medida que o conjunto de dados sintéticos cresceu para 600 milhões de tokens. A capacidade de combinar conjuntos de dados grandes e diversos permitiu uma transferência de informação mais eficiente, demonstrando a superioridade desta abordagem em tornar modelos de linguagem capazes de aprender a partir de conjuntos de dados pequenos e especializados.
Concluindo, a introdução do EntiGraph marca um grande avanço na abordagem dos desafios da eficiência de dados em modelos de IA. O método gera efetivamente um corpus sintético e heterogêneo a partir de um pequeno conjunto de dados, permitindo que os modelos obtenham informações específicas do domínio de forma mais eficaz. Esta investigação destaca uma nova abordagem que poderá levar a melhorias adicionais nas técnicas de formação em IA, especialmente em domínios especializados onde os dados são limitados. Os resultados mostram que o EntiGraph fornece uma solução eficaz para superar as limitações dos métodos existentes, permitindo que os modelos de linguagem se adaptem melhor a domínios de nicho e executem tarefas complexas com maior precisão.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)