MORCELA: Uma nova abordagem de IA para correlacionar pontuações LM de modelos linguísticos com julgamentos de aceitabilidade humana

No processamento de linguagem natural (PNL), uma questão importante é como as probabilidades geradas pelos modelos linguísticos (LMs) correspondem ao comportamento humano. Este alinhamento é frequentemente avaliado comparando as pontuações LM com os julgamentos de aceitabilidade humana, que avaliam o quão natural uma frase parece. Estudos anteriores, como os que utilizam SLOR (Syntactic Log-Odds Ratio), tentaram colmatar esta lacuna, mas permanecem problemas importantes. SLOR assume o mesmo ajuste para fatores como comprimento de sequência e frequência de unigrama em diferentes modelos, o que pode levar a viés. É necessária uma abordagem flexível, que possa se adaptar melhor às diferenças entre os modelos e à complexidade do processamento da linguagem humana.

MORCELA: Uma Nova Teoria de Coordenação

Uma equipe de pesquisadores da NYU e da CMU propôs MORCELA (Regressão Otimizada por Magnitude para Controlar Efeitos na Aceitabilidade Linguística), que apresenta uma nova teoria de correlação que aborda esses desafios. Ao contrário do SLOR, que aplica correções estáticas ao comprimento e frequência do unigrama, o MORCELA estima o nível correto de correção a partir dos dados, usando parâmetros aprendidos específicos para esses resultados. Ao combinar parâmetros – β para frequência de unigrama e γ para comprimento de frase – MORCELA ajusta a pontuação LM, resultando em melhor correlação com julgamentos humanos. Esta abordagem descreve melhor como os LMs percebem a ocorrência de palavras e o comprimento das frases em comparação com as expectativas humanas. A ideia principal do MORCELA é que nem todos os tipos de linguagens devem receber a mesma correção, pois os modelos diferem na forma como prevêem a recepção da linguagem.

Visão geral técnica

MORCELA trabalha combinando parâmetros treinados com julgamentos de aceitabilidade humana. Esses parâmetros controlam o nível de correção aplicado à probabilidade logarítmica do LM, tornando o MORCELA mais flexível do que seus antecessores, como o SLOR. Especificamente, o parâmetro aprendido β ajusta o efeito de frequência do unigrama, enquanto γ controla o ajuste do comprimento da frase. A flexibilidade deste ajuste permite que o MORCELA corresponda melhor às taxas de aceitação humana, especialmente para modelos maiores. Por exemplo, modelos maiores, que tendem a ter diferentes compreensões linguísticas, muitas vezes requerem menos ajustes de frequência de unigramas devido à sua melhor capacidade de prever palavras que são menos comuns no contexto.

Desempenho e valor

A importância do MORCELA fica clara quando se considera o seu desempenho em vários tamanhos de LM. MORCELA superou o SLOR na previsão de julgamentos de aceitabilidade humana para modelos de duas famílias bem conhecidas: Pythia e OPT. Os resultados mostraram que à medida que os modelos cresciam, a correlação do MORCELA com os julgamentos humanos melhorava. Os valores ótimos dos parâmetros estimados por MORCELA revelaram que LMs grandes são mais robustos aos efeitos quantitativos e longitudinais, necessitando de menos correção. Isto sugere que LMs mais velhos têm uma melhor compreensão do contexto da língua, permitindo-lhes prever com mais precisão a aceitação de palavras mais raras, reduzindo assim o efeito da frequência de unigramas como fator de confusão. O MORCELA melhorou a correlação entre as pontuações geradas pelo LM e o julgamento humano em até 46% em comparação com o SLOR, demonstrando sua capacidade de realizar correções com mais precisão.

Este desenvolvimento é importante por vários motivos. Primeiro, sugere que os LMs atuais podem ser capazes de refletir o processamento da linguagem humana melhor do que se pensava anteriormente, desde que sejam usadas correções apropriadas. Em segundo lugar, os dados do MORCELA podem ser úteis para a investigação linguística cognitiva que utiliza LMs como substitutos para a compreensão da linguagem humana. Ao fornecer uma teoria de ligação mais precisa, MORCELA garante que os LMs sejam avaliados da maneira que mais se aproxima da experiência da linguagem humana. Por exemplo, o principal resultado do uso de MORCELA mostrou que LMs grandes tinham uma baixa dependência da correção de frequência de unigramas, indicando que esses modelos são capazes de compreender melhor palavras desconhecidas e específicas do contexto. Esse recurso pode ter um impacto significativo em como interpretamos LMs em tarefas que envolvem linguagem desconhecida ou específica de um domínio.

A conclusão

MORCELA representa um avanço importante no alinhamento dos modelos linguísticos com os determinantes da aceitabilidade humana. Usar os parâmetros aprendidos para ajustar dinamicamente o comprimento e a massa corrige erros significativos em métodos anteriores, como SLOR. Os resultados mostram que, com o ajuste adequado, os LMs podem refletir melhor a intuição da linguagem humana, especialmente à medida que os modelos aumentam de tamanho. Trabalhos futuros poderiam explorar outros refinamentos ou novos parâmetros que poderiam aproximar os LMs da compreensão da linguagem humana. MORCELA não apenas melhora o processo de avaliação de LMs, mas também fornece insights importantes sobre como esses modelos processam a linguagem, preenchendo a lacuna entre as possibilidades geradas por máquina e o comportamento da linguagem humana.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

MORCELA: Uma Nova Teoria de Coordenação

Visão geral técnica

Desempenho e valor

A conclusão

Você também pode gostar...

Mistral AI lança Large Pixtral: modelo multimodal de pesos abertos 124B construído sobre Mistral Large 2

Revisitando RNNs de Redes Neurais Regulares: Pequenos LSTMs e GRUs para Treinamento Paralelo Eficiente

Tencent lança modelo Hunyuan-Large (Hunyuan-MoE-A52B): novo modelo MoE baseado em transformador de código aberto com total de 389 bilhões de parâmetros e 52 milhões de parâmetros funcionais

Deixe um comentário Cancelar resposta