Apesar de suas habilidades de pensamento avançadas, os LLMs recentes muitas vezes erram o alvo ao definir relacionamentos. Neste artigo, examinamos o Invertendo a Maldiçãopoço que afeta os LLMs em todas as atividades, como compreender e fazer. Para compreender o problema subjacente, é uma situação que ocorre quando se trabalha com duas organizações, definidas como um de novo bligados por seu relacionamento R e seu oposto. Os LLMs são excelentes no tratamento de sequências como “aRb”, mas lutam com “b R inverso a”. Embora os LLMs possam responder rapidamente a perguntas como “Quem é a mãe de Tom Cruise?” quando questionados, é mais provável que tenham ilusões e falhem quando questionados: “Quem é o filho de Mary Lee Pfeiffer?” Isso parece simples, pois a modelo já conhece a relação entre Tom Cruise e Mary Lee Pfeiffer.
Pesquisadores da Universidade Renmin da China apresentaram a maldição reversa dos LLMs à comunidade científica, esclarecendo suas possíveis causas e sugerindo possíveis estratégias de mitigação. Eles identificaram a Função Objetivo de Treinamento como um dos principais fatores que influenciam a taxa de retrocesso.
Para compreender totalmente a maldição do retrocesso, devemos primeiro compreender o processo de treinamento LLM. Previsão do próximo token (NTP) é o principal objetivo do pré-treinamento para modelos atuais de grandes linguagens, como GPT e Llama. Em modelos como GPT e Llama, a máscara de atenção durante o treinamento depende dos tokens anteriores, o que significa que cada token se concentra apenas no seu contexto anterior, impossibilitando a contabilização dos tokens subsequentes. Por causa disso, se um isso aconteceu antes b no corpus de treinamento, o modelo maximiza a probabilidade de b dado sobre a probabilidade de que um dado b. Portanto, não há garantia de que os LLMs possam oferecer maiores oportunidades um quando introduzido b. Em contraste, os modelos GLM são pré-treinados com preenchimento de branco autorregressivo propósitos, onde o token oculto domina os tokens anteriores e subsequentes, tornando-os mais resistentes à maldição reversa. Os autores argumentam que esta diferença na sucessão de formação é a causa raiz do fraco desempenho e dos relacionamentos cruzados dos LLMs.
Para testar esta hipótese, os autores ajustaram os GLMs nos dados “Nome para Descrição”, usando apelidos e descrições de feed para obter informações sobre entidades.
Os GLMs alcançaram aproximadamente 80% de precisão para esta tarefa, enquanto a precisão do Llama foi de 0%.
Para lidar com este problema, os autores propõem um método que adapta o objetivo de treinamento dos LLMs para algo como o ABI. Eles usam modelos especiais Desenvolvimento do Modelo de Raciocínio Bilíngue (BICO) funções matemáticas de engenharia reversa e problemas de tradução. O BICO adota um algoritmo de preenchimento automático de espaços em branco, semelhante ao GLM, mas com alterações projetadas especificamente para modelos de linguagem causal. Os autores introduziram a incorporação da condição rotativa (relativa) e modificaram a tarefa de atenção para torná-la bidirecional. Este método de ajuste fino melhorou a precisão do modelo na tradução inversa e em tarefas de resolução de problemas matemáticos.
Concluindo, os autores analisam a maldição reversível e propõem uma estratégia de otimização para reduzir esta armadilha. Ao adotar um modelo de linguagem causal objetivo como o ABI, este estudo lança luz sobre as transformações subjacentes ao desempenho dos LLMs. Este trabalho poderia ser estendido para testar o efeito de técnicas avançadas, como RLHF, na maldição reversa.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliárias– Da estrutura à produção
Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.
🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.