AMD Open Source AMD OLMo: uma série de modelos de linguagem 1B totalmente de código aberto treinada do zero pela AMD em GPUs AMD Instinct™ MI250
Inteligência artificial

AMD Open Source AMD OLMo: uma série de modelos de linguagem 1B totalmente de código aberto treinada do zero pela AMD em GPUs AMD Instinct™ MI250


No mundo em rápida evolução da inteligência artificial e do aprendizado de máquina, a necessidade de soluções poderosas, flexíveis e acessíveis cresceu exponencialmente. Engenheiros, investigadores e entusiastas da tecnologia enfrentam frequentemente desafios quando se trata de tecnologia de ponta sem serem limitados por ecossistemas fechados. A maioria dos modelos de linguagem existentes, mesmo os mais populares, geralmente vêm com restrições de propriedade e de licenciamento ou são hospedados em ambientes que impedem o tipo de controle granular que os desenvolvedores desejam. Esses problemas geralmente apresentam obstáculos para aqueles interessados ​​em experimentar, estender ou usar modelos de maneiras específicas que beneficiem seus casos de uso individuais. É aqui que as soluções de código aberto se tornam uma força importante, oferecendo autonomia e acesso democrático a poderosas ferramentas de IA.

A AMD lançou recentemente o AMD OLMo: uma série de modelos 1B totalmente aberta, treinada desde o início pela AMD em GPUs AMD Instinct™ MI250. O lançamento do AMD OLMo marca a primeira grande incursão da AMD no ecossistema aberto de IA, oferecendo um modelo completamente transparente que atende tanto a desenvolvedores, cientistas de dados quanto a empresas. O AMD OLMo-1B-SFT (Supervised Fine-Tuned) foi especialmente ajustado para melhorar suas capacidades de compreensão de instruções, melhorando tanto a interação do usuário quanto a compreensão da linguagem. Este modelo foi projetado para oferecer suporte a uma variedade de casos de uso, desde tarefas básicas de IA de conversação até problemas complexos de PNL. O modelo é compatível com estruturas padrão de aprendizado de máquina, como PyTorch e TensorFlow, garantindo fácil acessibilidade para usuários em diferentes plataformas. Esta mudança representa o compromisso da AMD em promover uma comunidade próspera de IA, aproveitando o poder da colaboração e assumindo uma postura proativa no domínio aberto da IA.

Os detalhes técnicos do modelo AMD OLMo são muito interessantes. Construído em uma arquitetura de transformador, o modelo possui 1 bilhão de parâmetros robustos, fornecendo insights significativos de linguagem e recursos de geração. Ele é treinado em uma variedade de conjuntos de dados para melhorar seu desempenho em muitas tarefas de processamento de linguagem natural (PNL), como segmentação de texto, resumo e geração de diálogos. O ajuste fino dos dados seguindo instruções melhora ainda mais sua adequação para aplicações interativas, tornando-os adeptos da compreensão de instruções diferenciadas. Além disso, o uso de GPUs Radeon Instinct de alto desempenho pela AMD durante o processo de treinamento demonstra a capacidade de seu hardware de lidar com modelos de aprendizado profundo. O modelo foi otimizado para precisão e eficiência computacional, permitindo que ele seja executado em hardware de consumo sem os pesados ​​requisitos de recursos frequentemente associados a modelos de linguagem proprietária em larga escala. Isso o torna uma opção atraente tanto para entusiastas quanto para pequenas empresas que não podem pagar serviços de contabilidade caros.

A importância deste lançamento não pode ser exagerada. Uma das principais razões pelas quais este modelo é tão importante é a sua capacidade de reduzir as barreiras à entrada na investigação e inovação em IA. Ao disponibilizar o modelo de parâmetros 1B totalmente aberto para todos, a AMD está fornecendo um recurso importante que pode capacitar desenvolvedores em todo o mundo. O AMD OLMo-1B-SFT, com sua configuração intuitiva, permite usabilidade aprimorada em diversas situações do mundo real, incluindo chatbots, sistemas de suporte ao cliente e ferramentas educacionais. Os benchmarks iniciais mostram que o AMD OLMo tem um desempenho competitivo com outros modelos conhecidos da mesma escala, mostrando forte desempenho em vários benchmarks de PNL, incluindo GLUE e SuperGLUE. A disponibilidade destes resultados num ambiente de código aberto é importante, pois permite verificação independente, testes e desenvolvimento comunitário, garantindo transparência e incentivando uma abordagem colaborativa para ultrapassar os limites do que tais modelos podem alcançar.

Concluindo, o lançamento da linguagem do modelo de código aberto 1B pela AMD é um marco importante para a comunidade de IA. Este lançamento não apenas democratiza o acesso a recursos avançados de modelagem de linguagem, mas também fornece uma demonstração prática de como a IA poderosa pode ser integrada. O compromisso da AMD com os princípios de código aberto tem o potencial de inspirar outros gigantes da tecnologia a contribuir da mesma forma, promovendo um rico ecossistema de ferramentas e soluções que beneficiam a todos. Ao fornecer uma ferramenta poderosa, econômica e flexível para compreensão e geração de linguagem, a AMD se posicionou com sucesso como um participante importante no futuro da inovação em IA.


Confira Abraçando modelo de rosto e detalhes aqui. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *