Liquid AI apresenta modelos de base líquida (LFMs): uma série 1B, 3B e 40B de modelos de IA generativos

Liquid AI lançou sua própria versão a primeira série de modelos de base líquida (LFMs)inaugurando uma nova geração de modelos generativos de IA. Esses modelos são definidos como uma nova referência de desempenho e eficiência em múltiplas escalas, ou seja, configurações de parâmetros 1B, 3B e 40B. Esta série visa estabelecer um novo padrão para modelos generativos de IA, alcançando desempenho de última geração em vários benchmarks, mantendo memória mínima e recursos preditivos altamente eficientes.

A primeira série de LFMs inclui três modelos principais:

LFM-1B: Modelo de 1 bilhão de parâmetros que oferece o melhor desempenho para sua classe de tamanho. Ele obteve uma pontuação muito alta em todos os vários benchmarks de sua classe, superando muitos modelos baseados em transformadores, apesar de não ter sido construído na arquitetura GPT amplamente utilizada.
LFM-3B: O modelo de 3 bilhões de parâmetros é ideal para aplicações móveis e de ponta. Não só supera os seus concorrentes diretos em termos de eficiência e velocidade, mas também se posiciona como um concorrente digno quando comparado com modelos nos parâmetros mais elevados, como os modelos 7B e 13B das gerações anteriores.
LFM-40B: Um modelo de parâmetros de mistura de especialistas (MoE) de 40 bilhões projetado para tarefas complexas. Este modelo compara seu desempenho e qualidade de saída com modelos ainda maiores devido à sua arquitetura avançada, que permite a ativação seletiva de segmentos do modelo dependendo da tarefa, melhorando assim a eficiência computacional.

Princípios de Arquitetura e Design

Os LFMs são construídos desde o início, com foco na construção de sistemas de IA poderosos que fornecem controle rígido sobre suas capacidades. De acordo com a Liquid AI, esses modelos são construídos usando unidades de computação profundamente focadas em programação dinâmica, processamento de sinais e teoria algébrica dos números. Essa combinação única permite que os LFMs aproveitem os avanços teóricos nesses campos para construir modelos de IA de uso geral, capazes de lidar com tipos de dados sequenciais, como vídeo, áudio, texto e séries temporais.

O design dos LFMs enfatiza dois aspectos principais: caracterização e impressão. A featurerização transforma os dados de entrada em um conjunto estruturado de recursos ou vetores que são usados para ajustar dinamicamente os cálculos dentro do modelo. Por exemplo, dados de áudio e de séries temporais normalmente exigem menos entrada dos operadores devido à sua menor densidade de informações em comparação com dados linguísticos e multimodais.

A pilha LFM é otimizada para uso em diversas plataformas de hardware, incluindo NVIDIA, AMD, Qualcomm, Cerebras e Apple. Essa configuração permite a otimização do desempenho em diferentes ambientes de implantação, desde dispositivos de borda até grandes infraestruturas de nuvem.

Medições e comparações de desempenho

Os benchmarks iniciais dos LFMs mostram resultados impressionantes em comparação com modelos semelhantes. O modelo 1B, por exemplo, superou vários modelos baseados em transformadores em termos de pontuações de aprendizagem e compreensão multimodal (MMLU) e outras métricas de referência. Da mesma forma, o desempenho do modelo 3B é comparável aos modelos das categorias 7B e 13B, tornando-o mais adequado para ambientes com uso intensivo de recursos.

O modelo 40B MoE, por outro lado, oferece um novo equilíbrio entre tamanho do modelo e qualidade de saída. A arquitetura deste modelo utiliza uma combinação única de tecnologias para permitir alto desempenho e utilização de hardware de baixo custo. Alcança desempenho comparável a modelos maiores devido ao uso eficiente da arquitetura MoE.

Principais poderes e casos de uso

A Liquid AI destacou várias áreas onde os LFMs mostram pontos fortes significativos, incluindo conhecimento geral e profissional, raciocínio matemático e lógico e tarefas eficientes no contexto de longo prazo. Os modelos também oferecem fortes capacidades multilíngues, suportando os idiomas espanhol, francês, alemão, chinês, árabe, japonês e coreano. No entanto, os LFMs não funcionam bem para operações de código zero e aritmética de precisão. Espera-se que esta lacuna seja resolvida através da iteração dos modelos.

Os LFMs também foram desenvolvidos para lidar com comprimentos de núcleo mais longos com mais eficiência do que os modelos de transformadores tradicionais. Por exemplo, os modelos podem processar até 32 mil tokens no contexto, tornando-os particularmente eficazes para tarefas de análise e resumo de documentos, interações mais intuitivas com chatbots sensíveis ao contexto e desempenho aprimorado de geração aumentada de recuperação (RAG).

Distribuição e direções futuras

Os LFMs da Liquid AI estão atualmente disponíveis para teste e uso em diversas plataformas, incluindo Liquid Playground, Lambda (Chat UI e API), Perplexity Labs e, em breve, no Cerebras Inference. O roteiro da Liquid AI sugere que ela continuará a melhorar e lançar novos recursos nos próximos meses, expandindo o escopo e a aplicabilidade dos LFMs em vários setores, como serviços financeiros, biotecnologia e eletrônicos de consumo.

Em termos de estratégia de implantação, os LFMs são projetados para serem flexíveis a todos os requisitos de hardware. Esta adaptação é conseguida através de operadores de fila dinâmica que são programados para responder dinamicamente com base na entrada. Essa flexibilidade é essencial para a implantação desses modelos em ambientes que vão desde servidores em nuvem de alta tecnologia até dispositivos de borda mais limitados.

A conclusão

A primeira série de Liquid Foundation Models (LFMs) da Liquid AI representa um passo promissor no desenvolvimento de modelos generativos de IA. Os LFMs visam redefinir o que é possível na modelagem e implantação de IA, alcançando maior desempenho e eficiência. Embora esses modelos não sejam de código aberto e estejam disponíveis apenas como parte de uma versão controlada, seu design exclusivo e abordagem inovadora os posicionam como concorrentes importantes no cenário da IA.

Confira Detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

Quer chegar a mais de 1 milhão de leitores de IA? Trabalhe conosco aqui

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Source link

Você também pode gostar...

CREAM: um novo método autocompensador que permite ao modelo aprender mais seletivamente e enfatizar dados confiáveis ​​e populares

Nvidia AI lança silenciosamente o Nemotron 70B: esmaga o GPT-4 da OpenAI em vários benchmarks

AutoRAG: uma ferramenta automatizada para desenvolver pipelines de produção com recuperação aumentada

Deixe um comentário Cancelar resposta

CREAM: um novo método autocompensador que permite ao modelo aprender mais seletivamente e enfatizar dados confiáveis e populares