A síntese da literatura científica faz parte do progresso científico, permitindo aos investigadores identificar tendências, aperfeiçoar métodos e tomar decisões informadas. Porém, com mais de 45 milhões de artigos científicos publicados anualmente, manter-se atualizado tornou-se um grande desafio. As limitações impedem a integração de dados relevantes deste corpo crescente nas ferramentas existentes, que muitas vezes exigem mais precisão, relevância contextual e rastreamento abrangente de citações. A complexidade da integração de vários documentos aumenta a necessidade de sistemas especializados para gerir este grande mundo de forma eficiente.
Modelos de linguagem de uso geral geralmente produzem citações novas, com precisões de até 78–98%, especialmente nas áreas médicas. Um dos principais problemas que os investigadores enfrentam é a falta de ferramentas fiáveis que forneçam uma síntese precisa e contextualmente relevante da literatura científica. As ferramentas existentes são frequentemente limitadas a pequenos conjuntos de dados ou aplicações de domínio único, tornando-as inadequadas para pesquisas interdisciplinares. Essas deficiências levam a combinações incorretas e indicadores não confiáveis, que criam problemas para pesquisadores de biomedicina, ciência da computação e física, onde a precisão e a profundidade são importantes.
Os métodos existentes para a síntese da literatura científica incluem modelos linguísticos avançados, que tentam integrar fontes externas de informação durante a previsão. No entanto, sua dependência de pequenos conjuntos de dados proprietários ou de APIs de caixa preta muitas vezes limita esses modelos. Ferramentas como PaperQA2 e modelos de uso geral como GPT-4 podem melhorar a precisão das citações e a consistência da compilação. A avaliação de tais ferramentas muitas vezes requer maior reprodutibilidade ou está confinada a campos específicos, e limita a sua eficácia na resposta a questões de investigação amplas.
Pesquisadores da Universidade de Washington, Instituto Allen de IA, Universidade de Illinois Urbana-Champaign, Universidade Carnegie Mellon, Meta, Universidade da Carolina do Norte em Chapel Hill e Universidade de Stanford apresentaram. OpenScholarmodelo de linguagem com recuperação aumentada. O OpenScholar inclui um grande armazenamento de dados de 45 milhões de artigos científicos de acesso aberto recuperados do Semantic Scholar e utiliza técnicas avançadas de recuperação. Seu design inclui um recuperador de bi-codificador, um reclassificador de codificador cruzado e um algoritmo iterativo, todos otimizados para a integração da literatura científica. Este modelo difere de seus concorrentes por combinar treinamento específico de domínio, métodos transparentes e compromisso com matéria orgânica de código aberto.
O mecanismo central por trás do OpenScholar envolve processamento em vários estágios. Primeiro, ele encontra episódios relevantes em seu armazenamento de dados usando um recuperador bi-codificador treinado em 237 milhões de passagens de embeddings. O reclassificador de codificação cruzada filtra esses versículos para priorizar aqueles que são mais relevantes para o contexto. Por fim, o modelo de linguagem agrega as respostas, ajustando iterativamente os resultados com base nas respostas geradas. Este processo iterativo melhora a precisão e a integridade ao incorporar informações adicionais quando necessário. O treinamento do OpenScholar envolveu a criação de dados sintéticos de alta qualidade a partir de 1 milhão de conjuntos de dados selecionados, gerando 130 mil instâncias de treinamento. O modelo final, OpenScholar-8B, oferece precisão e eficiência computacional excepcionais.
Os resultados de desempenho do OpenScholar foram verificados usando o recém-desenvolvido benchmark ScholarQABench, que abrange áreas como neurociência, ciência da computação e biomedicina. OpenScholar superou GPT-4 em 5% e PaperQA2 em 7% em precisão. Enquanto as citações do GPT-4 foram iluminadas por 78–90% dos casos, o OpenScholar alcançou uma precisão de citação quase especializada, alcançando uma pontuação Citation F1 de 81%. Avaliadores humanos classificaram as respostas do OpenScholar como melhores do que aquelas escritas por especialistas em 51% das vezes. O OpenScholar melhorou a precisão do GPT-4 em 12% quando combinado com seu pipeline de recuperação, demonstrando sua capacidade de melhorar até mesmo os modelos mais eficientes. Além disso, o OpenScholar demonstrou eficiência de custos, com pipelines baseados em retorno que reduzem os custos de computação em até 50%.
As principais conclusões da pesquisa e desenvolvimento do OpenScholar são:
- Uso de dados: O OpenScholar inclui um armazenamento de dados contendo 45 milhões de artigos científicos e 237 milhões de citações incorporadas, tornando-o o maior corpus de acesso aberto para integração de literatura científica.
- Precisão de citação: O modelo alcançou uma pontuação Citation F1 de 81%, reduzindo significativamente as citações falsas em comparação com modelos de uso geral.
- Eficiência: Usando o modelo de parâmetros 8B e processos de recuperação avançados, o OpenScholar equilibra eficiência e desempenho computacional.
- Favoritos profissionais: As avaliações humanas preferem respostas geradas pelo OpenScholar 51% das vezes em vez de respostas escritas por especialistas.
- Utilidade Interdisciplinar: O OpenScholar funciona de maneira poderosa em todos os domínios, incluindo física, neurociência e biomedicina, com alta precisão e exatidão de citações.
- Ecossistema aberto: Os pesquisadores abriram o código-fonte de todos os componentes, incluindo conjuntos de dados de treinamento, ferramentas de teste e benchmarks, para melhorar a reprodutibilidade e a transparência.
Concluindo, o OpenScholar demonstra sucesso na agregação de literatura científica ao abordar as limitações das ferramentas existentes com um modelo robusto com recuperação aumentada que se destaca pela precisão, eficiência e uso interdisciplinar. Com sua capacidade de refinar iterativamente os resultados e garantir a confiabilidade das citações, o OpenScholar fornece aos pesquisadores uma ferramenta para navegar pelas complexidades da investigação científica moderna. Esta inovação marca um passo importante para permitir que os investigadores obtenham conhecimentos práticos a partir de um corpo de conhecimento científico em constante expansão.
Confira artigo, modelo em Hugging Face, mais detalhes e código final no GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'