MemoryFormer: uma nova arquitetura de transformador para modelos de linguagem grande e de alto desempenho

MemoryFormer: uma nova arquitetura de transformador para modelos de linguagem grande e de alto desempenho

Os modelos de transformadores impulsionaram grandes avanços na inteligência artificial, permitindo aplicações em processamento de linguagem natural, visão computacional e reconhecimento de fala. Esses modelos são excelentes na compreensão e geração de dados sequenciais usando métodos como atenção multicabeças para capturar relacionamentos entre sequências de entrada. A ascensão de modelos de linguagem em larga escala …

NVIDIA apresenta Hymba 1.5B: um modelo de linguagem compacta de alto desempenho Llama 3.2 e SmolLM v2

NVIDIA apresenta Hymba 1.5B: um modelo de linguagem compacta de alto desempenho Llama 3.2 e SmolLM v2

Modelos de linguagem de grande escala (LLMs), como GPT-4 e Llama-2, são poderosos, mas requerem recursos computacionais significativos, tornando-os impraticáveis ​​para dispositivos pequenos. Os modelos de transformadores baseados em cuidados, em particular, possuem altos requisitos de memória e complexidade computacional quadrática, o que limita sua eficiência. Modelos de Espaço de Estados (SSMs), como o Mamba, …

Construindo uma compreensão de como os motoristas interagem com tecnologias veiculares emergentes | Notícias do MIT

Construindo uma compreensão de como os motoristas interagem com tecnologias veiculares emergentes | Notícias do MIT

À medida que a conversa global sobre veículos assistidos e automatizados (AVs) evolui, o Consórcio de Tecnologia Avançada de Veículos (AVT) do MIT continua a liderar pesquisas de ponta destinadas a compreender como os motoristas interagem com tecnologias veiculares emergentes. Desde o seu lançamento em 2015, o Consórcio AVT – uma colaboração global da indústria …

Google desenvolve Gemini-exp-1121: melhorando o desempenho da IA ​​em codificação, matemática e compreensão visual

Google desenvolve Gemini-exp-1121: melhorando o desempenho da IA ​​em codificação, matemática e compreensão visual

O campo da inteligência artificial (IA) continua a evoluir e a competição entre os principais cursos de linguística (LLMs) permanece acirrada. Apesar dos avanços recentes ultrapassarem os limites do que estes modelos podem alcançar, os desafios persistem. Uma das principais dificuldades dos LLMs existentes, como o GPT-4, é encontrar o equilíbrio certo entre pensamento de …

Apple lança AIMv2: uma família de codificadores abertos de última geração

Apple lança AIMv2: uma família de codificadores abertos de última geração

Os modelos de visão evoluíram significativamente ao longo dos anos e cada inovação aborda as limitações dos métodos anteriores. No campo da visão computacional, os pesquisadores enfrentaram desafios na medição da complexidade, generalização e padronização. Muitos modelos atuais lutam para lidar eficazmente com várias tarefas físicas ou se adaptarem bem a novos conjuntos de dados. …

Uma visão das conquistas científicas dos EUA | Notícias do MIT

Uma visão das conquistas científicas dos EUA | Notícias do MIT

O conselheiro científico da Casa Branca, Arati Prabhakar, expressou confiança nas capacidades científicas e tecnológicas dos Estados Unidos ao falar na quarta-feira sobre os maiores desafios que o país deve enfrentar. “Deixe-me começar com o propósito da ciência, tecnologia e inovação, que é abrir oportunidades para que possamos alcançar as nossas maiores ambições”, disse Prabhakar, …

Jina AI apresenta Jina-CLIP v2: modelo incorporado multilíngue 0.9B que vincula imagem a texto em 89 idiomas

Jina AI apresenta Jina-CLIP v2: modelo incorporado multilíngue 0.9B que vincula imagem a texto em 89 idiomas

Num mundo conectado, a comunicação interlingue e multilingue eficaz é essencial. A IA multimodal enfrenta desafios na combinação de imagens e texto para que possam ser facilmente recuperados e compreendidos em diferentes idiomas. Os modelos existentes geralmente funcionam bem em inglês, mas têm dificuldades com outros idiomas. Além disso, o manuseio simultâneo de dados de …

Allen Institute for AI (AI2) Apresentando o OpenScholar: um ecossistema aberto para síntese de literatura com armazenamentos de dados avançados e resultados de nível especializado.

Allen Institute for AI (AI2) Apresentando o OpenScholar: um ecossistema aberto para síntese de literatura com armazenamentos de dados avançados e resultados de nível especializado.

A síntese da literatura científica faz parte do progresso científico, permitindo aos investigadores identificar tendências, aperfeiçoar métodos e tomar decisões informadas. Porém, com mais de 45 milhões de artigos científicos publicados anualmente, manter-se atualizado tornou-se um grande desafio. As limitações impedem a integração de dados relevantes deste corpo crescente nas ferramentas existentes, que muitas vezes …

BONE: Uma estrutura integrativa de aprendizado de máquina para aprendizagem on-line bayesiana em ambientes não estacionários

BONE: Uma estrutura integrativa de aprendizado de máquina para aprendizagem on-line bayesiana em ambientes não estacionários

Neste artigo, pesquisadores da Queen Mary University of London, Reino Unido, University of Oxford, UK, Memorial University of Newfoundland, Canadá, e Google DeepMind Moutain View, CA, EUA propuseram uma estrutura unificadora, BONE (Bayesian Online learning in Non-stationary Ambientes) para aprendizagem bayesiana online em ambientes dinâmicos. BONE aborda desafios como aprendizagem contínua online, previsão de valor …

Descobrindo recursos interpretáveis ​​em modelos de linguagem de proteínas com codificadores automáticos esparsos

Descobrindo recursos interpretáveis ​​em modelos de linguagem de proteínas com codificadores automáticos esparsos

Os modelos de linguagem de proteínas (PLMs) possuem previsão avançada de estrutura e função de proteínas, explorando a grande diversidade de sequências de proteínas que ocorrem naturalmente. Contudo, seus mecanismos internos ainda precisam ser melhor compreendidos. Pesquisas interpretativas recentes fornecem ferramentas para analisar as representações aprendidas por esses modelos, o que é importante para melhorar …