Para treinar grandes modelos linguísticos poderosos, os pesquisadores usam grandes conjuntos de dados que incluem diversos dados de milhares de fontes da web.
Mas à medida que esses conjuntos de dados são compilados e recombinados em múltiplas coleções, informações importantes sobre suas origens e as limitações de como podem ser usados são muitas vezes perdidas ou confusas durante a confusão.
Isto não só levanta preocupações legais e éticas, como também pode prejudicar o desempenho do modelo. Por exemplo, se um conjunto de dados for classificado incorretamente, alguém que treina um modelo de aprendizado de máquina para uma tarefa pode, sem saber, acabar usando dados que não foram projetados para essa tarefa.
Além disso, dados de fontes desconhecidas podem conter vieses que fazem com que o modelo faça previsões incorretas quando aplicado.
Para melhorar a transparência dos dados, uma equipa multidisciplinar de investigadores do MIT e de outros locais lançou uma revisão sistemática de mais de 1.800 conjuntos de dados de texto de sites populares participantes. Eles descobriram que mais de 70% desses conjuntos de dados omitiam algumas informações de licença, enquanto quase 50% continham informações que continham erros.
Com base nessas informações, eles desenvolveram uma ferramenta fácil de usar chamada Data Provenance Explorer, que gera automaticamente resumos fáceis de ler sobre criadores de conjuntos de dados, fontes, licenças e usos permitidos.
“Esses tipos de ferramentas podem ajudar administradores e profissionais a tomar decisões informadas sobre implantações de IA e impulsionar o desenvolvimento de IA”, disse Alex “Sandy” Pentland, professor do MIT, líder do Human Dynamics Group no MIT Media Lab e coautor de um novo artigo de acesso aberto sobre o projeto.
O Data Provenance Explorer pode ajudar os profissionais de IA a construir modelos eficientes, permitindo-lhes selecionar conjuntos de dados de treinamento apropriados para a finalidade pretendida do modelo. Com o tempo, isto poderá melhorar a precisão dos modelos de IA em situações do mundo real, como aqueles utilizados para avaliar pedidos de empréstimo ou responder a perguntas de clientes.
“Uma das melhores maneiras de compreender as capacidades e limitações de um modelo de IA é entender em quais dados ele foi treinado. Se você tiver conceitos errados e confusão sobre a origem dos dados, terá um grande problema de transparência”, disse Robert Mahari, estudante de pós-graduação no MIT Human Dynamics Group, candidato a JD na Harvard Law School e coautor de o papel. .
Mahari e Pentland foram acompanhados no artigo pela coautora Shayne Longpre, uma estudante de pós-graduação do Media Lab; Sara Hooker, que lidera o laboratório de pesquisa Cohere AI; e outros no MIT, Universidade da Califórnia em Irvine, Universidade de Lille na França, Universidade do Colorado em Boulder, Olin College, Universidade Carnegie Mellon, Contextual AI, ML Commons e Tidelift. O estudo foi publicado hoje em Inteligência da Máquina da Natureza.
Concentre-se no ajuste fino
Os pesquisadores costumam usar uma técnica chamada ajuste fino para melhorar os recursos de um grande modelo de linguagem que será usado para uma tarefa específica, como responder a perguntas. Para o ajuste fino, eles constroem cuidadosamente conjuntos de dados selecionados projetados para otimizar o desempenho do modelo para esta tarefa única.
Os pesquisadores do MIT concentram-se nesses conjuntos de dados bem organizados, que muitas vezes são desenvolvidos por pesquisadores, organizações acadêmicas ou empresas e licenciados para usos específicos.
Quando plataformas de crowdsourcing agregam esses conjuntos de dados em grandes coleções para profissionais usarem para ajuste fino, algumas das informações originais da licença muitas vezes são deixadas para trás.
“Essas licenças deveriam ser importantes e deveriam funcionar”, disse Mahari.
Por exemplo, se os termos de licenciamento de um conjunto de dados estiverem incorretos ou inexistentes, alguém que gaste muito dinheiro e tempo construindo um modelo poderá mais tarde ser forçado a retirá-lo porque alguns dados de treinamento contêm informações privadas.
“As pessoas podem acabar treinando modelos onde nem sequer entendem as capacidades, preocupações ou riscos desses modelos, que em última análise vêm dos dados”, acrescentou Longpre.
Para iniciar este estudo, os pesquisadores definiram formalmente a disponibilidade de dados como uma combinação de aquisição, construção e licenciamento de conjuntos de dados e suas características. A partir daí, desenvolveram um processo de avaliação sistemático para acompanhar a disponibilidade de dados de mais de 1.800 coleções de conjuntos de dados de texto de repositórios online populares.
Depois de descobrir que mais de 70% desses conjuntos de dados continham licenças “não especificadas” que deixavam de fora muitas informações, os pesquisadores trabalharam de trás para frente para preencher as lacunas. Através dos seus esforços, reduziram a quantidade de conjuntos de dados com licenças “não especificadas” para cerca de 30%.
O seu trabalho também revelou que as licenças relevantes eram muitas vezes mais restritivas do que as concedidas a colectivos.
Além disso, descobriram que quase todos os criadores de conjuntos de dados estão concentrados na parte norte do mundo, o que pode limitar as capacidades do modelo se este for treinado para implantação numa região diferente. Por exemplo, um conjunto de dados em língua turca criado principalmente por pessoas nos EUA e na China pode não conter quaisquer características culturalmente significativas, explicou Mahari.
“Quase nos enganamos pensando que os conjuntos de dados são muito diferentes do que realmente são”, diz ele.
Curiosamente, os investigadores também observaram um aumento dramático nas restrições impostas aos conjuntos de dados criados em 2023 e 2024, possivelmente motivados por preocupações dos académicos de que os seus conjuntos de dados pudessem ser utilizados para fins de marketing não intencionais.
Uma ferramenta fácil de usar
Para ajudar outras pessoas a encontrar essas informações sem a necessidade de auditoria manual, os pesquisadores criaram o Data Provenance Explorer. Além de classificar e filtrar conjuntos de dados com base em critérios específicos, a ferramenta permite aos usuários baixar um cartão de dados que fornece uma visão geral concisa e estruturada das características do conjunto de dados.
“Esperamos que este seja um passo, não apenas para compreender o cenário, mas também para ajudar as pessoas a tomar decisões informadas sobre os dados com os quais treinam”, disse Mahari.
No futuro, os investigadores querem expandir a sua análise para investigar a disponibilidade de fontes de dados multimodais, incluindo vídeo e fala. Eles também querem saber como os termos de serviço dos sites que servem como fontes de dados repercutem nos conjuntos de dados.
À medida que expandem a sua investigação, também contactam os reguladores para discutir as suas conclusões e as implicações únicas dos direitos de autor do ajuste fino dos dados.
“Precisamos de disponibilidade e transparência de dados desde o início, quando as pessoas estão criando e divulgando esses conjuntos de dados, para tornar mais fácil para outros encontrarem essas informações”, disse Longpre.
“Muitas intervenções políticas propostas pressupõem que podemos atribuir e identificar adequadamente licenças relacionadas aos dados, e este trabalho mostra pela primeira vez que este não é o caso e melhora muito a informação disponível”, disse Stella Biderman, diretora executiva da EleutherAI, que ele não teve nada a ver com este projeto. “Além disso, a seção 3 contém discussões jurídicas relevantes. Isto é especialmente importante para profissionais de aprendizado de máquina fora de empresas grandes o suficiente para terem equipes jurídicas dedicadas. Muitas pessoas que desejam construir sistemas de IA para o benefício da sociedade estão atualmente lutando silenciosamente para descobrir como lidar com o licenciamento de dados, porque a Internet não foi projetada para facilitar o acesso aos dados.”