Selecionar dados específicos de domínio é uma arte complexa, especialmente se quisermos obter os resultados desejados a partir de modelos de linguagem. Até agora, os investigadores concentraram-se na criação de diversos conjuntos de dados entre tarefas, que se revelaram úteis para formação de uso geral. No entanto, para a otimização específica de domínios e tarefas, onde os dados são relevantes, os métodos atuais parecem ineficazes quando ignoram totalmente os requisitos específicos da tarefa ou dependem de medições que não conseguem capturar os padrões diferenciados necessários para executar tarefas complexas. Neste artigo, vemos como pesquisas recentes abordam esse problema e tornam os dados de pré-treinamento orientados pelo domínio.
Pesquisadores da Universidade de Stanford propõem o ZIP-FIT, uma nova estrutura de seleção de dados que usa compactação gzip para medir diretamente o ajuste entre dados de treinamento potenciais e distribuições de funções alvo. ZIP-FIT usa algoritmos de compressão para combinar os dados de treinamento com os dados de destino desejados, o que remove a incorporação e torna todo o processo leve. Além disso, a mesma palavra para compressão e incorporação da rede neural em termos de desempenho garante que os dados atendam à qualidade da forma. Antes do ZIP-FIT, a pesquisa focada no processamento de dados específicos de tarefas muitas vezes dependia de ações simples e barulhentas que resultavam em conflitos e ruídos. Por exemplo, um dos métodos utilizados é a incorporação neural para estimar a similaridade entre pontos de dados e um corpus de referência. Outro método usado é a distribuição normalizada de n-gramas de dados de destino para selecionar pontos de dados. Estes foram ineficazes para tarefas complexas e paralelas.
ZIP-FIT abordou os desafios acima capturando padrões de dados sintéticos e estruturais que correspondem a funções alvo com compressão baseada em compressão gzip combinando dois métodos de compressão – a) LZ77 b) codificação Huffman. Os métodos mencionados trabalham juntos para explorar padrões repetidos nos dados e com base na compactação da sequência. A compactação tem o objetivo de focar nos bits de dados mais relevantes e aumentar a eficiência do treinamento do modelo.
Zip-Fit foi testado em duas tarefas específicas de domínio, a saber, Fazendo isso automaticamente de novo Geração de código Python.
Antes de aprofundar, seria sensato entender o que é automação e por que ela foi escolhida como métrica de avaliação. É a tarefa de traduzir declarações matemáticas de linguagem natural em linguagens de programação matemática formal. A automação requer conhecimento de domínio e uma compreensão clara de matemática e sintaxe de programação, tornando-a adequada para testes de desempenho de domínio de LLMs. Quando o ZIP-FIT foi usado para ajustar conjuntos de dados em LLMs como GPT 2 e Mistral, os autores descobriram que a perda diminuiu rápida e significativamente com o aumento do alinhamento com os dados de trabalho. Os modelos treinados em dados ZIP-FIT selecionados alcançam a menor perda de entropia cruzada até 85,1% mais rápido do que as linhas de base.
Com a função de automação, superou outros métodos de alinhamento ao atingir uma convergência 65,8% mais rápida que o DSIR, outro método de seleção de dados. O tempo de processamento também é reduzido em até 25%. Da mesma forma, nas tarefas de geração de código ZIP FIT com dados bem ajustados, CodeGemma2 e Gemma2 tiveram desempenho significativamente melhor. Um dos principais insights que a equipe de pesquisa apresentou no estudo foi a superioridade de conjuntos de dados de domínio pequenos, mas bem alinhados, que tiveram melhor desempenho do que conjuntos de dados extensos, mas mal alinhados.
ZIP-FIT mostrou que a seleção de dados direcionados pode melhorar significativamente o desempenho de tarefas específicas em relação a um método de treinamento padrão. ZIP-FIT apresenta um método de treinamento específico de domínio eficaz e econômico. No entanto, este método apresentava algumas deficiências, como a incapacidade de compactação para capturar pequenas relações semânticas entre representações densas e a alta dependência de dados textuais. Seria interessante ver se o ZIP-FIT inicia pesquisas rigorosas na resolução de domínios e se suas deficiências podem ser superadas para ajustar dados caóticos e não estruturados.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel
Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. A Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️