aiXcoder-7B: um modelo multilíngue leve e eficiente que oferece alta precisão na conclusão de códigos em vários idiomas e simbologias
Inteligência artificial

aiXcoder-7B: um modelo multilíngue leve e eficiente que oferece alta precisão na conclusão de códigos em vários idiomas e simbologias


Os modelos linguísticos em larga escala (LLMs) revolucionaram vários domínios, incluindo a conclusão de código, onde a inteligência artificial prevê e sugere código com base em informações anteriores dos desenvolvedores. Essa tecnologia melhora muito a produtividade, permitindo que os desenvolvedores escrevam código com mais rapidez e menos erros. Apesar da promessa dos LLMs, muitos modelos lutam com velocidade e precisão de medição. Modelos maiores tendem a ter maior precisão, mas introduzem atrasos que impedem operações de código em tempo real, levando a ineficiências. Esse desafio estimulou esforços para criar modelos menores e mais eficientes que mantenham alto desempenho na conclusão de código.

Um problema chave no campo dos LLMs para conclusão de código é a compensação entre tamanho do modelo e desempenho. Modelos grandes, embora poderosos, exigem mais recursos e tempo de computação, resultando em tempos de resposta mais lentos para os desenvolvedores. Isto limita a sua utilidade, especialmente em aplicações em tempo real onde a resposta rápida é importante. A necessidade de modelos rápidos e leves que ainda forneçam alta precisão na previsão de código tornou-se um importante foco de pesquisa nos últimos anos.

Os métodos tradicionais de conclusão de código geralmente envolvem o aumento de LLMs para aumentar a precisão da previsão. Esses métodos, como os usados ​​no CodeLlama-34B e no StarCoder2-15B, dependem de grandes conjuntos de dados e bilhões de parâmetros, o que aumenta muito seu tamanho e complexidade. Embora essa abordagem melhore a capacidade dos modelos de gerar código preciso, ela acarreta tempos de resposta mais elevados e maiores requisitos de hardware. Os desenvolvedores muitas vezes descobrem que o tamanho desses modelos e as demandas computacionais prejudicam seu fluxo de trabalho.

Uma equipe de pesquisadores da aiXcoder e da Universidade de Pequim apresentou iXcoder-7Bprojetado para ser mais fácil e eficiente em tarefas de conclusão de código. Com apenas 7 mil milhões de parâmetros, atinge uma precisão notável em comparação com modelos maiores, tornando-o uma solução ideal para ambientes de codificação em tempo real. O aiXcoder-7B concentra-se no tamanho e no desempenho, garantindo que possa ser implantado na academia e na indústria sem os encargos computacionais habituais de grandes LLMs. A eficiência do modelo faz com que ele se destaque em um campo dominado por alternativas muito maiores.

A equipe de pesquisa usou treinamento multiobjetivo, incluindo métodos como Next-Token Prediction (NTP), Fill-In-the-Middle (FIM) e Advanced Structured Fill-In-the-Middle (SFIM). O SFIM, em particular, permite que o modelo leve em consideração a sintaxe e a estrutura do código mais profundamente, permitindo-lhe fazer previsões mais precisas em uma ampla gama de situações de codificação. Isto contrasta com outros modelos que tendem a olhar para o código simples sem compreender as suas nuances estruturais. A capacidade do aiXcoder-7B de prever segmentos de código que não estão dentro de um trabalho ou entre arquivos oferece uma vantagem única em tarefas de programação do mundo real.

O processo de treinamento do aiXcoder-7B envolveu o uso de um extenso conjunto de dados de 1,2 trilhão de tokens exclusivos. O modelo foi treinado usando um rigoroso pipeline de coleta de dados que incluía análise de dados, limpeza, replicação e controle de qualidade. O conjunto de dados incluiu 3,5 TB de código-fonte de diferentes linguagens de programação, garantindo que o modelo possa lidar com várias linguagens, incluindo Python, Java, C++ e JavaScript. Para melhorar seu desempenho, o aiXcoder-7B usou várias técnicas de amostragem de dados, como amostragem baseada na similaridade do conteúdo do arquivo, dependência de arquivo e similaridade de caminho de arquivo. Essas técnicas ajudaram o modelo a compreender o conteúdo de vários arquivos, o que é importante para tarefas em que a conclusão do código depende de referências espalhadas por vários arquivos.

O aiXcoder-7B superou seis LLMs do mesmo tamanho em seis benchmarks diferentes. Notavelmente, o benchmark HumanEval alcançou uma pontuação Pass@1 de 54,9%, superando modelos maiores, como CodeLlama-34B (48,2%) e StarCoder2-15B (46,3%). Em outro benchmark, FIM-Eval, o aiXcoder-7B demonstrou fortes capacidades de generalização em diferentes tipos de código, alcançando alto desempenho em linguagens como Java e Python. Sua capacidade de produzir código que se aproxima do código escrito por humanos, tanto em estilo quanto em comprimento, também a diferencia dos concorrentes. Por exemplo, em Java, o aiXcoder-7B produziu apenas 0,97 vezes o tamanho do código escrito por humanos em comparação com outros modelos que produziram códigos muito mais longos.

O aiXcoder-7B demonstra a capacidade de criar LLMs pequenos, rápidos e eficientes sem sacrificar a precisão. Seu desempenho em vários benchmarks e linguagens de programação o torna uma ótima ferramenta para desenvolvedores que precisam de conclusão de código confiável e em tempo real. A combinação de treinamento multiobjetivo, grande conjunto de dados e novos métodos de amostragem permitiu que o aiXcoder-7B estabelecesse um novo padrão para LLMs leves neste domínio.

Concluindo, o aiXcoder-7B aborda uma lacuna importante no campo de LLMs para decodificação, fornecendo um modelo altamente eficiente e preciso. A investigação que segue o modelo destaca vários factores-chave que podem orientar desenvolvimentos futuros nesta área:

  • Sete bilhões de parâmetros garantem desempenho ideal sem sacrificar a precisão.
  • Utiliza treinamento multiobjetivo, incluindo SFIM, para desenvolver habilidades preditivas.
  • Treinado em 1,2 trilhão de tokens com extenso processo de coleta de dados.
  • Ele supera modelos maiores em benchmarks, marcando 54,9% Pass@1 no HumanEval.
  • Ele pode gerar código que reflete de perto o código escrito por humanos, tanto em estilo quanto em comprimento.

Confira Papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] Melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (avançado)


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *