LightOn e Ananswer.ai lançam ModernBERT: uma nova série de modelos que é uma melhoria de Pareto em relação ao BERT em velocidade e precisão

Desde o lançamento do BERT em 2018, os modelos somente codificador-transformador têm sido amplamente utilizados em aplicações de processamento de linguagem natural (PNL) devido à sua eficiência na recuperação e classificação de tarefas. No entanto, estes modelos enfrentam limitações significativas nas aplicações atuais. O comprimento da sua sequência, que é limitada a 512 tokens, dificulta a sua capacidade de lidar eficazmente com operações de formato longo. Além disso, sua estrutura, vocabulário e eficiência computacional não acompanharam os avanços em hardware e métodos de treinamento. Esta deficiência é particularmente evidente nas linhas de geração de recuperação avançada (RAG), onde modelos baseados em codificadores fornecem o contexto para modelos linguísticos de grande escala (LLMs). Apesar do seu papel crítico, estes modelos baseiam-se frequentemente em designs desatualizados, reduzindo a sua capacidade de satisfazer necessidades em constante mudança.

Uma equipe de pesquisadores da LightOn, Answer.ai, Universidade Johns Hopkins, NVIDIA e Hugging Face tentou enfrentar esses desafios apresentando o ModernBERT.apenas uma família aberta de modelos de codificadores. ModernBERT traz diversas melhorias arquitetônicas, estendendo o comprimento do contexto para 8.192 tokens – uma grande melhoria em relação ao BERT original. Esse aumento permite um bom desempenho em tarefas de conteúdo longas. A integração do Flash Attention 2 e da incorporação posicional rotativa (RoPE) melhora a eficiência da computação e a consciência espacial. Treinado em 2 trilhões de tokens de vários domínios, incluindo código, ModernBERT mostra melhor desempenho em múltiplas tarefas. Ele está disponível em duas configurações: básica (parâmetros 139M) e grande (parâmetros 395M), oferecendo opções para atender diferentes necessidades e ainda superando modelos como RoBERTa e DeBERTa.

Detalhes técnicos e benefícios

ModernBERT incorpora vários avanços no design de transformadores. A Atenção Flash melhora a memória e a eficiência do computador, enquanto a atenção espacial global melhora o processamento de conteúdo de longo alcance. A incorporação do RoPE melhora a compreensão espacial, garantindo desempenho eficaz em uma ampla variedade de comprimentos de sequência. O modelo também utiliza funções de ativação GeGLU e uma estrutura mínima e profunda para o equilíbrio entre eficiência e habilidade. A estabilidade durante o treinamento é ainda garantida por blocos de pré-normalização e pelo uso do otimizador StableAdamW com uma programação de taxa de aprendizagem trapezoidal. Essas melhorias tornam o ModernBERT não apenas mais rápido, mas também mais eficiente em termos de recursos, especialmente para tarefas teóricas em GPUs convencionais.

Resultados e detalhes

ModernBERT mostra forte desempenho em todos os benchmarks. No benchmark General Language Understanding Evaluation (GLUE), ele supera os modelos de linha de base existentes, incluindo o DeBERTaV3. Em tarefas de recuperação como Dense Passage Retrieval (DPR) e ColBERT para detecção multivetorial, ele atinge uma pontuação mais alta de nDCG@10 em comparação com seus pares. As capacidades do modelo em tarefas de contexto de longo prazo são refletidas no benchmark MLDR, onde supera modelos mais antigos e modelos especializados de contexto de longo prazo, como GTE-en-MLM e NomicBERT. ModernBERT também se destaca em tarefas relacionadas a código, incluindo CodeSearchNet e StackOverflow-QA, beneficiando-se de seu token de conhecimento de código e diversos dados de treinamento. Além disso, ele processa lotes muito maiores do que seus antecessores, o que o torna adequado para aplicações grandes e, ao mesmo tempo, mantém a eficiência da memória.

A conclusão

ModernBERT representa uma evolução conceitual de modelos somente de codificador-transformador, incorporando melhorias de arquitetura moderna e métodos de treinamento robustos. Seu comprimento de contexto estendido e eficiência aprimorada abordam as limitações dos modelos anteriores, tornando-o uma ferramenta versátil para uma variedade de aplicações de PNL, incluindo pesquisa semântica, segmentação e recuperação de código. Ao modernizar a arquitetura básica do BERT, o ModernBERT atende às necessidades dos aplicativos modernos de PNL. Lançado sob a licença Apache 2.0 e hospedado no Hugging Face, ele fornece uma solução acessível e prática para pesquisadores e profissionais que buscam avançar no estado da arte em PNL.

Confira papel, Um blogde novo O modelo do tamanho do rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)

Source link

Detalhes técnicos e benefícios

Resultados e detalhes

A conclusão

Você também pode gostar...

Conheça LLaVA-o1: o primeiro modelo de linguagem visual capaz de autorreflexão, estruturado de forma semelhante ao GPT-o1

TimeMarker: localização temporal precisa de interações de vídeo-LLM

Como os Adaptive Bricks alteram o desempenho de grandes modelos de linguagem

Deixe um comentário Cancelar resposta