Conheça EvaByte: modelo de linguagem de última geração sem tokenizador de código aberto 6.5B desenvolvido por EVA
Inteligência artificial

Conheça EvaByte: modelo de linguagem de última geração sem tokenizador de código aberto 6.5B desenvolvido por EVA


A tokenização, o processo de quebrar o texto em unidades menores, tem sido um passo importante no processamento de linguagem natural (PNL). No entanto, apresenta vários desafios. Os modelos de linguagem baseados em Tokenizers (LMs) normalmente enfrentam dificuldades com texto multilíngue, palavras fora do vocabulário (OOV) e entradas como digitação, emojis ou codificação mista. Esses problemas podem reduzir a robustez dos modelos e adicionar complexidade aos pipelines de pré-processamento. Além disso, a tokenização muitas vezes não consegue se adaptar bem às operações multimodais, criando ineficiências e medições complexas. Abordar estas limitações requer ir além do processamento baseado em tokens para uma abordagem mais geral e flexível.

Pesquisadores da Universidade de Hong Kong propuseram o EvaByte, um modelo de linguagem de código aberto sem token projetado para enfrentar esses desafios. Com 6,5 bilhões de parâmetros, esse modelo em nível de byte corresponde ao desempenho dos modernos LMs baseados em tokens, ao mesmo tempo que requer 5x menos dados e oferece velocidades de gravação 2x mais rápidas. EvaByte é alimentado por EVA – um blockchain eficiente projetado para escalabilidade e desempenho. Ao processar bytes brutos em vez de depender de tokenização, o EvaByte pode lidar com uma variedade de formatos de dados – incluindo texto, imagens e áudio – de forma consistente e fácil. Essa abordagem elimina problemas comuns de token, como separações de subpalavras que não estão em conformidade com parâmetros de codificação rígidos, tornando-a uma excelente opção para tarefas multilíngues e multigêneros. Além disso, sua estrutura de código aberto convida à colaboração e à inovação, tornando a PNL de ponta acessível a uma comunidade mais ampla.

Detalhes técnicos e benefícios

EvaByte usa uma estratégia de processamento em nível de byte, usando bytes brutos como unidades básicas de treinamento e descrição. Este design oferece suporte nativo a todos os idiomas, símbolos e dados não textuais, sem a necessidade de pré-processamento especial. Sua arquitetura de parâmetros de 6,5B atinge um equilíbrio entre eficiência computacional e alto desempenho.

Os principais benefícios do EvaByte incluem:

  1. Processamento de Dados: O modelo reduz a redundância trabalhando no nível de byte, alcançando resultados competitivos com conjuntos de dados muito pequenos.
  2. Decodificação rápida: A arquitetura simples do EvaByte melhora a velocidade de processamento, tornando-o adequado para aplicações em tempo real.
  3. Habilidades multimodais: Ao contrário dos LMs convencionais, o EvaByte se estende naturalmente a operações multimodais, permitindo o processamento conjunto de diferentes tipos de dados.
  4. Força: Ao eliminar a tokenização, o EvaByte lida com uma variedade de formatos de entrada de forma consistente, melhorando a confiabilidade entre os aplicativos.

Resultados e detalhes

O desempenho do EvaByte é notável. Apesar de usar 5x menos dados, ele alcança resultados semelhantes aos principais modelos baseados em tokens em benchmarks de PNL padrão. A sua capacidade de integração entre idiomas torna-o particularmente eficaz em situações multilingues, onde muitas vezes supera os modelos tradicionais. O EvaByte também apresenta forte desempenho em tarefas multimodais, como legendagem de imagens e integração de áudio-texto, alcançando resultados competitivos sem configuração extensa.

A versão de código aberto inclui ambientes de teste pré-treinados, ferramentas de teste e integração com Hugging Face, tornando-o acessível para teste e desenvolvimento. Pesquisadores e desenvolvedores podem utilizar o EvaByte em aplicações que vão desde agentes conversacionais até recuperação de informações, beneficiando-se de sua eficiência e flexibilidade.

A conclusão

EvaByte oferece uma solução criteriosa para as limitações da tokenização tradicional, introduzindo uma arquitetura sem token que combina eficiência, velocidade e adaptabilidade. Ao abordar desafios de longa data em PNL e processamento multimodal, EvaByte estabelece um novo padrão para modelos de linguagem. Sua natureza de código aberto incentiva a colaboração e a inovação, garantindo que habilidades avançadas de PNL estejam disponíveis para um público amplo. Para aqueles que procuram explorar soluções de PNL de última geração, o EvaByte representa um avanço significativo na compreensão e produção de linguagem.


Confira Detalhes, modelos no Hugging Face e página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 [Recommended Read] Nebius AI Studio se estende com modelos de visão, novos modelos de linguagem, embeddings e LoRA (Promovido)


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *