Um passo em direção às melhores práticas de conjuntos de dados abertos para treinamento LLM
Inteligência artificial

Um passo em direção às melhores práticas de conjuntos de dados abertos para treinamento LLM


Principais modelos de linguagem depender fortemente de conjuntos de dados abertos para formação, o que coloca desafios legais, técnicos e éticos significativos à gestão de tais conjuntos de dados. Há incerteza sobre as implicações legais do uso de dados com base em diversas leis de direitos autorais e nas mudanças nas regulamentações relativas ao uso seguro. A falta de normas internacionais ou de uma base de dados central para validação e licenciamento de conjuntos de dados e de metadados incompletos ou inconsistentes dificultam a verificação do estatuto jurídico das obras. As barreiras técnicas também estão relacionadas ao acesso à funcionalidade digital de domínio público. A maioria dos conjuntos de dados abertos não são regulamentados e não implementaram qualquer tipo de rede de segurança formal para os seus contribuidores, colocando-os em risco e impossibilitando-os de escalar. Embora pretendam criar mais transparência e trabalho colaborativo, pouco ou nada fazem para enfrentar desafios sociais mais amplos, como a diversidade e a responsabilização, e muitas vezes excluem línguas e perspetivas sub-representadas.

Abordagens atuais para construir um conjunto de dados aberto de LLMs muitas vezes carecem de quadros jurídicos claros e enfrentam desafios técnicos, operacionais e éticos significativos. Os métodos tradicionais dependem de metadados incompletos, dificultando a verificação do status dos direitos autorais e a aplicação da conformidade em diferentes jurisdições com diferentes leis. Digitalizar materiais de domínio público e torná-los acessíveis é um desafio porque grandes projetos são semelhantes Google Livros limitar o uso, o que impede a criação de conjuntos de dados abertos. Os projectos geridos por voluntários carecem de governação formal, expondo os participantes a riscos jurídicos. Tais lacunas impedem a igualdade de acesso, impedem a diversidade na representação de dados e concentram o poder em algumas organizações poderosas. Isto cria um ecossistema onde os conjuntos de dados abertos lutam para competir com modelos proprietários, reduzindo a responsabilização e retardando o progresso no sentido do desenvolvimento de uma IA transparente e inclusiva.

Para reduzir os problemas na escrita de metadados, aquisição de dados e processamento de conjuntos de dados de aprendizado de máquina, os pesquisadores propuseram uma estrutura que se concentra na construção de um corpus confiável usando dados licenciados e de domínio público para treinar modelos linguísticos em larga escala (LLMs). A estrutura enfatiza a superação de desafios técnicos, como garantir metadados confiáveis ​​e digitalização de registros físicos. Incentiva a colaboração interdisciplinar para compreender, gerenciar e divulgar esses conjuntos de dados, ao mesmo tempo que promove a concorrência no ecossistema LLM. Também enfatiza os padrões de metadados, a reprodutibilidade, a responsabilização e a garantia da diversidade das fontes de dados, em oposição às abordagens tradicionais que carecem de governação formal e de transparência.

Os pesquisadores incluíram todas as etapas práticas para obtenção, processamento e gerenciamento dos conjuntos de dados. Ferramentas de descoberta de conteúdo com licença aberta foram usadas para garantir dados de alta qualidade. Uma estrutura de padrões integrada para consistência de metadados, enfatiza a digitalização e incentiva a colaboração com comunidades para criar conjuntos de dados. Também apoiou a transparência e a inovação no pré-processamento e no tratamento de potenciais preconceitos e conteúdos nocivos num programa de formação LLM robusto e inclusivo, reduzindo ao mesmo tempo os riscos legais. A estrutura também destaca o envolvimento com comunidades sub-representadas para construir diversos conjuntos de dados e criar políticas de utilização claras e legíveis por máquina. Além disso, tornar sustentável o ecossistema de dados abertos deve vir com propostas de modelos de financiamento tanto de empresas tecnológicas como de instituições culturais para garantir a participação sustentável.

Finalmente, os investigadores forneceram um quadro claro com um plano detalhado sobre como abordar as questões discutidas no contexto da formação de LLMs com dados não autorizados, concentrando-se na abertura do conjunto de dados e nos esforços interdisciplinares. Medidas como a ênfase na padronização dos metadados, a melhoria do processo de digitalização e a governação responsável visavam tornar o ecossistema de inteligência artificial mais aberto. Estes trabalhos constituem a base para trabalhos futuros nos quais serão feitas mais pesquisas sobre inovações na gestão de conjuntos de dados, gestão de IA e no desenvolvimento de tecnologias que melhorem a acessibilidade dos dados, ao mesmo tempo que abordam o problema dos desafios éticos e legais.


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 [Recommended Read] Nebius AI Studio se estende com modelos de visão, novos modelos de linguagem, embeddings e LoRA (Promovido)


Divyesh é estagiário de consultoria na Marktechpost. Ele está cursando BTech em Engenharia Agrícola e Alimentar pelo Instituto Indiano de Tecnologia, Kharagpur. Ele é um entusiasta de Ciência de Dados e Aprendizado de Máquina que deseja integrar essas tecnologias avançadas no domínio agrícola e resolver desafios.

📄 Conheça 'Height': a única ferramenta autônoma de gerenciamento de projetos (patrocinado)



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *