Nexusflow lança Athena-V2: conjunto de modelos aberto 72B comparado ao GPT-4o em todos os benchmarks
Inteligência artificial

Nexusflow lança Athena-V2: conjunto de modelos aberto 72B comparado ao GPT-4o em todos os benchmarks


Nos últimos anos, modelos linguísticos de grande escala (LLMs) tornaram-se a base da IA, de chatbots poderosos, de assistentes virtuais e de uma variedade de aplicações complexas. Apesar do seu sucesso, surgiu um grande problema: a acumulação de leis de escala que historicamente impulsionam o desenvolvimento de modelos. Simplificando, a construção de modelos maiores não proporciona mais o aumento significativo no desempenho de antes. Além disso, o treinamento e a manutenção desses modelos grandes são caros, criando desafios de acessibilidade e usabilidade. Este patamar impulsionou um novo foco em métodos pós-formação direcionados para desenvolver e especializar-se em modelos de competências, em vez de depender apenas da dimensão.

Apresentando Athena-V2: uma nova abordagem para o desenvolvimento de LLM

Nexusflow está em silêncio Atenas-V2: é um conjunto de modelos de parâmetros abertos de 72 bilhões que visa abordar essa mudança no desenvolvimento de IA. O Athene-V2 é comparável ao GPT-4o da OpenAI em vários benchmarks, oferecendo uma abordagem única e avançada para resolver problemas do mundo real. Este conjunto inclui dois modelos diferentes: Athene-V2-Chat e Athene-V2-Agent, cada um otimizado para recursos específicos. O lançamento do Athene-V2 visa superar as limitações atuais, fornecendo funcionalidades complementares com foco pós-treinamento, tornando os LLMs mais eficientes e utilizáveis ​​em ambientes práticos.

Detalhes técnicos e benefícios

Athene-V2-Chat foi projetado para aplicativos de bate-papo de uso geral, incluindo aplicativos baseados em bate-papo, assistência de codificação e resolução de problemas matemáticos. Ele compete diretamente com o GPT-4o em todos esses benchmarks, comprovando sua versatilidade e confiabilidade no uso diário. Enquanto isso, o Athene-V2-Agent concentra-se na funcionalidade específica do agente, liderando o caminho em chamadas de tarefas e aplicações centradas no agente. Ambas as raças foram construídas a partir do Qwen 2.5 e treinaram duro para maximizar sua força. Essa abordagem direcionada permite que o Athene-V2 preencha a lacuna entre o LLM de uso geral e o LLM altamente especializado, entregando resultados altamente relevantes e eficientes dependendo da tarefa em questão. Isto torna o conjunto não apenas poderoso, mas também adaptável, atendendo a uma ampla gama de necessidades do usuário.

As especificações técnicas do Athene-V2 revelam sua durabilidade e melhorias especiais. Com 72 bilhões de parâmetros, ele permanece dentro de uma faixa gerenciável em comparação com outros modelos grandes e de uso intensivo de computação, ao mesmo tempo em que oferece desempenho semelhante ao GPT-4o. Athene-V2-Chat é especialmente hábil em lidar com a complexidade do bate-papo, codificar questões e resolver problemas matemáticos. O processo de treinamento incluiu extensos conjuntos de dados para a compreensão da linguagem natural, linguagens de programação e raciocínio matemático, permitindo que ele se destacasse em muitas tarefas. Por outro lado, o Athene-V2-Agent, projetado para cenários que envolvem chamadas de funções de API e fluxos de trabalho de tomada de decisão, supera o GPT-4o em algumas tarefas baseadas em agentes. Estas melhorias focadas tornam os modelos não apenas competitivos em benchmarks padrão, mas também altamente capazes em domínios especializados, fornecendo um conjunto completo que pode substituir muitas ferramentas independentes.

Este lançamento é muito importante por vários motivos. Em primeiro lugar, à medida que a lei da escala atinge um patamar, a inovação nos LLMs requer uma abordagem diferente – que se concentre no desenvolvimento de competências especializadas, em vez de apenas aumentar a dimensão. A decisão da Nexusflow de implementar o treinamento em segundo plano no Qwen 2.5 permite que os modelos sejam mais flexíveis e econômicos sem sacrificar o desempenho. Os resultados do benchmark são promissores, com o Athene-V2-Chat e o Athene-V2-Agent mostrando melhorias significativas em relação aos modelos de código aberto existentes. Por exemplo, o Athene-V2-Chat corresponde ao GPT-4o em compreensão de linguagem natural, geração de código e raciocínio estatístico, enquanto o Athene-V2-Agent mostra capacidade superior em tarefas complexas de chamada de tarefas. Alcançar tais metas sublinha a eficiência e a eficácia da abordagem Nexusflow, ultrapassando os limites do que pode ser alcançado com modelos de menor escala, mas altamente desenvolvidos.

A conclusão

Concluindo, o Athene-V2 do Nexusflow representa um avanço significativo no cenário em evolução de grandes modelos de linguagem. Com ênfase no treinamento de alvo lateral e foco em habilidades especiais, o Athene-V2 oferece uma alternativa poderosa e flexível para modelos maiores e pesados, como o GPT-4o. A capacidade do Athene-V2-Chat e do Athene-V2-Agent de competir em todos os vários benchmarks com um design tão simplificado é uma prova do poder dos especialistas no desenvolvimento de IA. À medida que entramos na era pós-lei de expansão, abordagens como as do Athene-V2 da Nexusflow podem definir a próxima onda de desenvolvimento, tornando a IA eficiente, acessível e adaptada a casos de uso específicos.


Confira Modelo Athene-V2-Chat no rosto abraçado de novo Modelo Athene-V2-Agent em rosto abraçado. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliárias


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🐝🐝 O próximo evento ao vivo do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar as equipes a construir modelos de IA revolucionários , rápido.





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *