Qwen AI lança QWEN2.5-7B-INSTRECT-1M e QWEN2.5-14B-INSTRECT-1M: Permite o uso e a duração dos contextos de até 1M tokens

O desenvolvimento de grandes idiomas (LLMs) aumentou o processamento da linguagem natural (PNL), que permite energia como a compreensão do contexto, produção e pensamento. No entanto, o limite principal continua: o tamanho da janela da correspondência restrita. Muitos LLMs podem especificar apenas o valor designado do texto, geralmente até 128 mil tokens, limitar sua capacidade de lidar com os trabalhos que requerem contexto abrangente, como códigos de codificação longa. Esses problemas geralmente precisam de ajuste, como mensagens de texto, aumentando a complexidade do computador. A superação desses desafios requer os modelos que podem estender o comprimento da luz sem interrupção sem interrupções.

Os últimos lançamentos de Qwen AI

Qwen Ai introduziu dois novos tipos, QWEN2.5-7B-YALA-1M ao lado QWEN2.5-14B-YALA-1Mprojetado para apoiar a duração do contexto que vem a 1 milhão de tokens. A equipe de Qwen na equipe do Alaba Group, esses modelos e veio com diretrizes abertas preparadas para gerenciar conteúdo longo. Esse desenvolvimento permite que engenheiros e pesquisadores trabalhem com os maiores conjuntos de dados de dados, desde que a solução eficaz para aplicativos que requerem conteúdo expandido. Além disso, os modelos incluem alguns pagamentos e desempenho do kernel, o que resulta em períodos de consideração antecipados de entrada prolongada.

Técnico e benefícios

Série QWEN2.5-1M Mantenha uma arquitetura baseada em transformador, incluindo recursos como Anexo de uma pergunta combinada (choque)Assim, Incorporações posiais rotativas (corda)ao lado Rsnorm Para que seja resolvido em longas situações. O treinamento envolveu conjuntos de dados naturais e naturais de conjuntos de dados. Preencha o meio (FIM)Reforma da passagem e retorno com base em um modelo de manipulação de habilidades do modelo. As maneiras de pagar um brilho como Atenção dupla de pedaços (DCA) Permitir explicações bem -sucedidas distinguindo sequências em frações. As técnicas de treinamento contínuas medem gradualmente a duração do contexto de 4K a 1M de tokens, promove a eficiência enquanto controlava contadores. Os modelos são totalmente cumpridos com o quadro VLLM de fontes abertas, facilitando a integração do engenheiro.

Resultados e detalhes

Os resultados do ByrChelect exibem o poder dos modelos QWEN2.5-1M. De Um teste de recebimento da chave superiorUma exceção de 7b e 14b retornou com sucesso as informações ocultas em 1 milhão de orqualhas, o que indica sua eficiência nas condições de um longo contexto. Em alguns dos batedores, incluindo Governador ao lado Agulha no palheiro (NIAH)O modelo 14B funcionou mais bem do que outras maneiras semelhantes ao GPT-4O-MINI e LLAMA-3. As maneiras de roupas contribuíram para o declínio nos pensamentos, que atinge a aceleração de chegar 6.7x Em NVIDIA H20 GPUS. Esses resultados destacam a capacidade dos modelos de integrar a eficiência e o alto desempenho, o que lhes permite se qualificar para as aplicações reais de terra que exigem contexto abrangente.

Conclusão

A série QWEN2.5-1M conta restrições importantes à PNL, esticando notavelmente os contornos na duração do contexto, mantendo a eficiência e a acessibilidade. Ao derrotar obstáculos de longo prazo para impedir o LLM, esses modelos abre novos trabalhos de analisar grandes dados para processar todas as coleções de código. Através de uma pequena atenção, a atualização do kernel e o treinamento prévio por escrito, a QWEN2.5-1M oferece uma ferramenta prática e eficaz para lidar com tarefas complexas e difíceis.

Enquete Artigo, os modelos dos rostos são detalhes técnicos e de galeria. Todo o crédito deste estudo vai para este trabalho. Além disso, não se esqueça de seguir Twitter e junte -se ao nosso A estação telefônica ao lado LinkedIn gracima. Não se esqueça de se juntar ao nosso 70k + ml subreddit.

🚨 [Recommended Read] O Nebius AI Studio exclui modelos de visão, novos modelos de idiomas, incorporado e Lora ^{(Foi criado)}

Asif Razzaq é CEO da Markteach Media Inc. Como empresário e engenheiro de visão, a ASIF está comprometida em usar o poder da inteligência artificial para o benefício da comunidade. Sua última tentativa é o lançamento da plataforma de mídia de inteligência artificial, Markteachpost, brilho em seu amplo uso da máquina e problemas de aprendizado profundo. O estádio se orgulha de mais de 2 milhões de visualizações, indicando seu trovão entre o público.

'Conheça' Altura ': O processo administrativo de um projeto privado (patrocinado)

Source link

Os últimos lançamentos de Qwen AI

Técnico e benefícios

Resultados e detalhes

Conclusão

Você também pode gostar...

NeuroFly: uma estrutura de IA para reconstrução de um único neurônio no cérebro inteiro

Pleias apresenta Common Corpus: um grande conjunto de dados multilíngues para treinamento de modelos de linguagem

ToolHop: um novo conjunto de dados projetado para avaliar LLMs em cenários de uso de ferramentas multi-hop

Deixe um comentário Cancelar resposta