AMD Open Source AMD OLMo: uma série de modelos de linguagem 1B totalmente de código aberto treinada do zero pela AMD em GPUs AMD Instinct™ MI250

No mundo em rápida evolução da inteligência artificial e do aprendizado de máquina, a necessidade de soluções poderosas, flexíveis e acessíveis cresceu exponencialmente. Engenheiros, investigadores e entusiastas da tecnologia enfrentam frequentemente desafios quando se trata de tecnologia de ponta sem serem limitados por ecossistemas fechados. A maioria dos modelos de linguagem existentes, mesmo os mais populares, geralmente vêm com restrições de propriedade e de licenciamento ou são hospedados em ambientes que impedem o tipo de controle granular que os desenvolvedores desejam. Esses problemas geralmente apresentam obstáculos para aqueles interessados em experimentar, estender ou usar modelos de maneiras específicas que beneficiem seus casos de uso individuais. É aqui que as soluções de código aberto se tornam uma força importante, oferecendo autonomia e acesso democrático a poderosas ferramentas de IA.

A AMD lançou recentemente o AMD OLMo: uma série de modelos 1B totalmente aberta, treinada desde o início pela AMD em GPUs AMD Instinct™ MI250. O lançamento do AMD OLMo marca a primeira grande incursão da AMD no ecossistema aberto de IA, oferecendo um modelo completamente transparente que atende tanto a desenvolvedores, cientistas de dados quanto a empresas. O AMD OLMo-1B-SFT (Supervised Fine-Tuned) foi especialmente ajustado para melhorar suas capacidades de compreensão de instruções, melhorando tanto a interação do usuário quanto a compreensão da linguagem. Este modelo foi projetado para oferecer suporte a uma variedade de casos de uso, desde tarefas básicas de IA de conversação até problemas complexos de PNL. O modelo é compatível com estruturas padrão de aprendizado de máquina, como PyTorch e TensorFlow, garantindo fácil acessibilidade para usuários em diferentes plataformas. Esta mudança representa o compromisso da AMD em promover uma comunidade próspera de IA, aproveitando o poder da colaboração e assumindo uma postura proativa no domínio aberto da IA.

Os detalhes técnicos do modelo AMD OLMo são muito interessantes. Construído em uma arquitetura de transformador, o modelo possui 1 bilhão de parâmetros robustos, fornecendo insights significativos de linguagem e recursos de geração. Ele é treinado em uma variedade de conjuntos de dados para melhorar seu desempenho em muitas tarefas de processamento de linguagem natural (PNL), como segmentação de texto, resumo e geração de diálogos. O ajuste fino dos dados seguindo instruções melhora ainda mais sua adequação para aplicações interativas, tornando-os adeptos da compreensão de instruções diferenciadas. Além disso, o uso de GPUs Radeon Instinct de alto desempenho pela AMD durante o processo de treinamento demonstra a capacidade de seu hardware de lidar com modelos de aprendizado profundo. O modelo foi otimizado para precisão e eficiência computacional, permitindo que ele seja executado em hardware de consumo sem os pesados requisitos de recursos frequentemente associados a modelos de linguagem proprietária em larga escala. Isso o torna uma opção atraente tanto para entusiastas quanto para pequenas empresas que não podem pagar serviços de contabilidade caros.

A importância deste lançamento não pode ser exagerada. Uma das principais razões pelas quais este modelo é tão importante é a sua capacidade de reduzir as barreiras à entrada na investigação e inovação em IA. Ao disponibilizar o modelo de parâmetros 1B totalmente aberto para todos, a AMD está fornecendo um recurso importante que pode capacitar desenvolvedores em todo o mundo. O AMD OLMo-1B-SFT, com sua configuração intuitiva, permite usabilidade aprimorada em diversas situações do mundo real, incluindo chatbots, sistemas de suporte ao cliente e ferramentas educacionais. Os benchmarks iniciais mostram que o AMD OLMo tem um desempenho competitivo com outros modelos conhecidos da mesma escala, mostrando forte desempenho em vários benchmarks de PNL, incluindo GLUE e SuperGLUE. A disponibilidade destes resultados num ambiente de código aberto é importante, pois permite verificação independente, testes e desenvolvimento comunitário, garantindo transparência e incentivando uma abordagem colaborativa para ultrapassar os limites do que tais modelos podem alcançar.

Concluindo, o lançamento da linguagem do modelo de código aberto 1B pela AMD é um marco importante para a comunidade de IA. Este lançamento não apenas democratiza o acesso a recursos avançados de modelagem de linguagem, mas também fornece uma demonstração prática de como a IA poderosa pode ser integrada. O compromisso da AMD com os princípios de código aberto tem o potencial de inspirar outros gigantes da tecnologia a contribuir da mesma forma, promovendo um rico ecossistema de ferramentas e soluções que beneficiam a todos. Ao fornecer uma ferramenta poderosa, econômica e flexível para compreensão e geração de linguagem, a AMD se posicionou com sucesso como um participante importante no futuro da inovação em IA.

Confira Abraçando modelo de rosto e detalhes aqui. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

A equipe de Andrew Ng lança 'aisuite': uma nova biblioteca Python de código aberto para IA generativa

Criando um programa de agente de interface do usuário com Langgraph: colocando alguém em loop

Este artigo sobre IA da UC Berkeley apresenta Pie: uma estrutura de aprendizado de máquina para inferência visual e expansão adaptativa em inferência LLM

Deixe um comentário Cancelar resposta