Qwen Open Sources Série de codificadores Qwen2.5 poderosos, versáteis e eficientes (0,5B/1,5B/3B/7B/14B/32B)

No mundo do desenvolvimento de software, há uma necessidade constante de modelos de linguagem mais inteligentes, capazes e especializados. Embora os modelos existentes tenham feito avanços significativos na automatização da geração, conclusão e consulta de código, vários problemas persistem. Os principais desafios incluem a ineficiência em lidar com uma variedade de tarefas de codificação, a falta de conhecimentos específicos do domínio e a dificuldade em aplicar os modelos a situações de codificação do mundo real. Apesar do crescimento de muitos modelos linguísticos de grande escala (LLMs), os modelos específicos de código muitas vezes tiveram dificuldade em competir com os seus homólogos proprietários, especialmente em termos de versatilidade e desempenho. A necessidade de um modelo que não apenas tenha um bom desempenho em benchmarks padrão, mas que também se adapte a vários ambientes nunca foi tão grande.

Qwen2.5-Coder: uma nova era de CodeLLMs abertos

Qwen abriu o código-fonte das séries “Powerful”, “Diverse” e “Active” Qwen2.5-Coder, dedicadas a promover ainda mais o desenvolvimento de CodeLLMs abertos. A série Qwen2.5-Coder é construída na arquitetura Qwen2.5, usando seus recursos avançados e um tokenizer extensível para melhorar a eficiência e a precisão das operações de codificação. Qwen deu um passo importante ao abrir o código-fonte desses modelos, tornando-os acessíveis a desenvolvedores, pesquisadores e profissionais da indústria. Esta família de modelos de código oferece uma faixa de tamanho de parâmetros de 0,5B a 32B, proporcionando flexibilidade para diversas necessidades de codificação. O lançamento do Qwen2.5-Coder-32B-Instruct chega na hora certa, apresentando-se como um modelo capaz e funcional de codificadores da série Qwen. Ele destaca o compromisso da Qwen em promover a inovação e avançar no campo dos modelos de codificação de código aberto.

Detalhes técnicos

Tecnicamente, os modelos Qwen2.5-Coder receberam treinamento extensivo em um grande corpus de mais de 5,5 bilhões de tokens, incluindo coleções de códigos públicos e grandes dados abertos na web contendo documentos relacionados a códigos. A estrutura do modelo é compartilhada entre modelos de tamanhos diferentes – parâmetros 1,5B e 7B – que incluem 28 camadas com tamanhos ocultos e cabeças de atenção variados. Além disso, o Qwen2.5-Coder é ajustado usando os conjuntos de dados sintéticos produzidos por seu antecessor, CodeQwen1.5, que inclui um depurador para garantir que apenas o código utilizável seja salvo, reduzindo assim os riscos de alucinações. Os modelos também são projetados para serem versáteis, suportando uma variedade de objetivos de treinamento, como codificação, conclusão, raciocínio e planejamento.

Alto desempenho

Uma das razões pelas quais o Qwen2.5-Coder se destaca é seu desempenho demonstrado em vários benchmarks de teste. Ele alcançou consistentemente desempenho de última geração (SOTA) em mais de 10 benchmarks, incluindo HumanEval e BigCodeBench, superando até mesmo alguns modelos importantes. Especificamente, Qwen2.5-Coder-7B-Base alcançou maior precisão nos benchmarks HumanEval e MBPP em comparação com modelos como StarCoder2 e DeepSeek-Coder de tamanhos comparáveis ou até maiores. A série Qwen2.5-Coder também se destaca em recursos de linguagem de multiprogramação, mostrando inteligência equilibrada em oito linguagens, como Python, Java e TypeScript. Além disso, os recursos de contexto longo do Qwen2.5-Coder são notavelmente robustos, tornando-o adequado para lidar com código em nível de cache e suportar efetivamente entradas de até 128 mil tokens.

Flexibilidade e acessibilidade

Além disso, a disponibilidade de modelos em vários tamanhos de parâmetros (de 0,5B a 32B) e a opção de formatos padrão como GPTQ, AWQ e GGUF garantem que o Qwen2.5-Coder possa atender a muitas necessidades de computação. Este crescimento é importante para engenheiros e pesquisadores que podem não ter acesso a recursos computacionais de ponta, mas ainda precisam se beneficiar de poderosos recursos de codificação. A versatilidade do Qwen2.5-Coder em suportar diversos formatos o torna facilmente acessível para uso prático, permitindo ampla adoção em diversas aplicações. Tal adaptabilidade torna a família Qwen2.5-Coder uma ferramenta importante para melhorar o desenvolvimento de assistentes de codificação de código aberto.

A conclusão

A disponibilidade aberta da série Qwen2.5-Coder marca um importante passo no desenvolvimento de modelos de linguagem de codificação. Ao lançar modelos poderosos, versáteis e funcionais, Qwen abordou as principais limitações dos modelos específicos de código existentes. A combinação de funcionalidade moderna, extensibilidade e flexibilidade torna a família Qwen2.5-Coder um ativo valioso para a comunidade global de engenharia. Se você deseja atualizar os recursos do modelo 0,5B ou precisar dos recursos expandidos da variante 32B, a família Qwen2.5-Coder visa atender às necessidades de uma gama diferente de usuários. Agora é um ótimo momento para explorar as possibilidades do principal modelo de codificador da Qwen, o Qwen2.5-Coder-32B-Instruct, e sua versátil família de codificadores. Vamos dar as boas-vindas a esta nova era de modelos de linguagem de codificação de código aberto que continuam a ultrapassar os limites da inovação e da acessibilidade.

Confira Papel, Modelos abraçando o rosto, Demonstração, e detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Upcoming Live LinkedIn event] 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão revitalizando o processo de desenvolvimento de dados para ajudar as equipes a construir modelos de IA multimodais revolucionários, rapidamente'

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Avaliação Abrangente de Modelos de Linguagem de Visão (VHELM): Estendendo a Estrutura HELM para VLMs

Melhorando a descoberta de texto: superando limitações com incorporação de documentos de conteúdo

O guia completo para desidentificar dados não estruturados de saúde

Deixe um comentário Cancelar resposta