TensorOpera AI lança Fox-1: série de modelos de linguagem pequena (SLMs), incluindo Fox-1-1.6B e Fox-1-1.6B-Instrut-v0.1

Avanços recentes em modelos linguísticos de grande escala (LLMs) demonstraram capacidades valiosas em uma variedade de aplicações, desde a resolução de problemas matemáticos até a resposta a questões médicas. No entanto, esses modelos estão se tornando cada vez mais ineficientes devido ao seu tamanho e à grande quantidade de recursos computacionais necessários para treiná-los e executá-los. LLMs, como os desenvolvidos pela OpenAI ou Google, muitas vezes contêm centenas de bilhões de parâmetros, exigindo grandes conjuntos de dados e altos custos de treinamento. Isto, por sua vez, provoca encargos financeiros e ambientais que tornam estes modelos inacessíveis a muitos investigadores e organizações. A escala crescente também levanta preocupações sobre a eficiência, a latência e a capacidade de utilizar estes modelos de forma eficaz em aplicações do mundo real onde os recursos computacionais podem ser limitados.

TensorOpera AI lança Fox-1: série de modelos de linguagem pequena (SLMs)

Para responder a esses desafios, a TensorOpera AI lançou o Fox-1, uma série de Small Language Models (SLMs) que visam fornecer recursos semelhantes aos LLM com requisitos de recursos significativamente reduzidos. Fox-1 inclui duas versões principais: Fox-1-1.6B e Fox-1-1.6B-Instruct-v0.1, que são projetadas para fornecer fortes recursos de processamento de linguagem, permanecendo altamente eficientes e acessíveis. Esses modelos são pré-treinados em 3 trilhões de tokens de dados coletados na web e ajustados com 5 bilhões de tokens para executar tarefas de acompanhamento de comandos e de múltiplas conversas. Ao disponibilizar esses modelos sob a licença Apache 2.0, o TensorOpera AI visa promover o acesso aberto a modelos linguísticos poderosos e democratizar o desenvolvimento de IA.

Detalhes técnicos

Fox-1 utiliza tecnologia inovadora que o diferencia de outros SLMs. Uma característica notável é o currículo de dados em três fases, que garante uma progressão gradual na formação do contexto geral para o mais especializado. Durante o pré-treinamento, os dados foram classificados em três categorias diferentes, usando comprimentos de sequência de 2K a 8K, permitindo que Fox-1 aprendesse efetivamente dependências curtas e longas no texto. A estrutura do modelo é do tipo apenas transformador-decodificador profundo, com 32 camadas, o que é muito profundo em comparação com seus pares, como Gemma-2B e StableLM-2-1.6B.

Além do design intensivo, o Fox-1 usa Grouped Query Attention (GQA), que otimiza o uso da memória e melhora a velocidade e a confiabilidade do treinamento. O tamanho aumentado da palavra para 256.000 tokens melhora ainda mais a capacidade do modelo de compreender e renderizar texto com ambiguidade de token reduzida. Ao compartilhar incorporações de entrada e saída, o Fox-1 também reduz o número total de parâmetros, resultando em um modelo mais compacto e eficiente. Juntas, essas inovações permitem que a Fox-1 alcance desempenho de última geração em operações de linguagem sem a sobrecarga computacional normalmente associada aos LLMs.

Resultados de desempenho

O lançamento do Fox-1 é muito importante por vários motivos. Primeiro, aborda a questão central da acessibilidade à IA. Ao fornecer um modelo eficiente e capaz, o TensorOpera AI permite uma melhor compreensão da linguagem natural e a disponibiliza para um público mais amplo, incluindo pesquisadores e desenvolvedores que podem não ter acesso à infraestrutura computacional necessária para grandes LLMs. Fox-1 foi comparado com SLMs líderes, como StableLM-2-1.6B, Gemma-2B e Qwen1.5-1.8B, e tem desempenho consistentemente igual ou melhor em vários benchmarks padrão, como ARC Challenge, MMLU e GSM8k.

De acordo com alguns resultados, o Fox-1 alcançou 36,39% de precisão no benchmark GSM8k, superando todos os modelos comparados, incluindo o Gemma-2B, que tem o dobro do seu tamanho. Também apresentou alto desempenho no benchmark MMLU, apesar de seu pequeno tamanho. A eficiência do Fox-1 foi medida usando vLLM em GPUs NVIDIA H100, onde recebeu mais de 200 tokens por segundo, correspondendo à saída de modelos grandes como Qwen1.5-1.8B e usando menos memória de GPU. Essa eficiência torna o Fox-1 uma escolha atraente para aplicações que exigem alto desempenho, mas que são limitadas por limitações de hardware.

A conclusão

A série Fox-1 do TensorOpera AI marca um avanço significativo no desenvolvimento de modelos linguísticos pequenos, mas poderosos. Ao combinar um design eficiente, mecanismos avançados de atenção e uma estratégia de treinamento bem pensada, o Fox-1 oferece um desempenho impressionante comparável a modelos maiores. Com seu lançamento de código aberto, o Fox-1 está preparado para se tornar uma ferramenta essencial para pesquisadores, desenvolvedores e organizações que buscam desenvolver capacidades linguísticas avançadas sem os custos proibitivos associados a grandes modelos de linguagem. Os modelos Fox-1-1.6B e Fox-1-1.6B-Instruct-v0.1 demonstram que é possível obter compreensão e produção linguística de alta qualidade de maneira estruturada e altamente eficiente.

Confira Papel, Modelo Básicode novo Modelo de discussão. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Upcoming Live LinkedIn event] 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão revitalizando o processo de desenvolvimento de dados para ajudar as equipes a construir modelos de IA multimodais revolucionários, rapidamente'

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

TensorOpera AI lança Fox-1: série de modelos de linguagem pequena (SLMs)

Detalhes técnicos

Resultados de desempenho

A conclusão

Você também pode gostar...

RetrievalAttention: um método de aprendizado de máquina não treinado para acelerar a computação de atenção e reduzir o uso de memória GPU

CodeMMLU: um benchmark de múltipla escolha para testar a compreensão de código em grandes modelos de linguagem

Desenvolvendo modelos de linguagem com geração aprimorada de recuperação: um guia completo

Deixe um comentário Cancelar resposta