pEBR: um novo modelo de recuperação probabilística incorporada para enfrentar os desafios da sub-recuperação de consultas principais e recuperação insignificante de consultas finais

pEBR: um novo modelo de recuperação probabilística incorporada para enfrentar os desafios da sub-recuperação de consultas principais e recuperação insignificante de consultas finais

Criar um espaço semântico comum onde consultas e objetos possam ser representados como vetores densos é o principal objetivo da recuperação baseada em incorporação. Em vez de depender da correspondência exata de palavras-chave, esta abordagem permite a correspondência ativa com base na similaridade semântica. Os itens semânticos relacionados são colocados próximos uns dos outros em …

Conheça Hertz-Dev: modelo de som aberto de 8,5B para IA de bate-papo em tempo real com 80ms teóricos e 120ms de latência no mundo real em um único RTX 4090

Conheça Hertz-Dev: modelo de som aberto de 8,5B para IA de bate-papo em tempo real com 80ms teóricos e 120ms de latência no mundo real em um único RTX 4090

A comunicação por IA é agora a base da tecnologia, mas conseguir uma comunicação rápida, eficiente e em tempo real continua a ser um desafio. A latência – o atraso entre a entrada e a resposta – limita aplicativos como bots de atendimento ao cliente e assistentes virtuais, tornando as interações lentas. Os modelos existentes …

FTP do modelo de previsão de token futuro: um novo método de treinamento de IA para preditores futuros de vários tokens

FTP do modelo de previsão de token futuro: um novo método de treinamento de IA para preditores futuros de vários tokens

O design atual de modelos de linguagem causal, como GPTs, está sobrecarregado com o desafio da associação semântica a longas distâncias devido ao seu design one-token-ahead. Isto ajudou o desenvolvimento da IA ​​para uma produção significativa, mas muitas vezes leva a uma “inundação de tópicos” quando uma longa sequência é produzida, uma vez que cada …

Tokenformer: a arquitetura de transformador de próxima geração que aproveita parâmetros tokenizados para escalonamento contínuo e rápido em aplicativos de IA

Tokenformer: a arquitetura de transformador de próxima geração que aproveita parâmetros tokenizados para escalonamento contínuo e rápido em aplicativos de IA

Os Transformers revolucionaram a inteligência artificial, oferecendo desempenho incomparável em PNL, visão computacional e integração de dados multimodais. Esses modelos são excelentes na identificação de padrões nos dados usando seus mecanismos de atenção, tornando-os ideais para tarefas complexas. No entanto, o rápido escalonamento dos modelos de transformadores precisa ser melhorado devido aos elevados custos computacionais …

Estudo de mudanças na conformação de proteínas usando uma estratégia de aprendizado profundo biofísico de grande amostra

Estudo de mudanças na conformação de proteínas usando uma estratégia de aprendizado profundo biofísico de grande amostra

Prever mudanças conformacionais de proteínas continua sendo um desafio importante na biologia computacional e na inteligência artificial. Avanços na aprendizagem profunda, como o AlphaFold2, eliminaram o objetivo de prever estruturas estáticas, mas não abordam as mudanças dinâmicas pelas quais muitas proteínas passam para desempenhar suas funções biológicas. Essas mudanças são importantes para a compreensão de …

Compreendendo a memória em modelos distributivos: uma abordagem matemática para dados multibaseados

Compreendendo a memória em modelos distributivos: uma abordagem matemática para dados multibaseados

Os modelos de distribuição de produção revolucionaram a produção de fotos e vídeos, tornando-se a base de software de produção de alta qualidade. Embora esses modelos tenham um desempenho muito bom no tratamento de distribuições complexas de dados de grandes dimensões, eles enfrentam um sério desafio: o risco de treinamento completo do head set em …

OpenWebVoyager: Construindo Agentes Web Multimodais por meio de Exploração Iterativa, Feedback e Melhoria do Mundo Real

OpenWebVoyager: Construindo Agentes Web Multimodais por meio de Exploração Iterativa, Feedback e Melhoria do Mundo Real

Projetar agentes autônomos capazes de navegar em ambientes web complexos levanta muitos desafios, especialmente quando tais agentes integram informações textuais e visuais. Em grande medida, os agentes têm capacidades limitadas, uma vez que estão confinados a ambientes artificiais, baseados em scripts, com sinais de recompensa bem concebidos, limitando as suas aplicações às tarefas do mundo …

Meta AI lança Sparsh: o primeiro codificador de uso geral para audição tátil baseada na visão

Meta AI lança Sparsh: o primeiro codificador de uso geral para audição tátil baseada na visão

A detecção tátil desempenha um papel importante na robótica, ajudando as máquinas a compreender e interagir de forma eficaz com seu ambiente. No entanto, o estado atual dos sensores táteis baseados na visão apresenta desafios significativos. A variedade de sensores – que variam em forma, brilho e características de superfície – torna difícil criar uma …

Capturando o raciocínio aritmético em LLMs: o papel dos circuitos heurísticos sobre algoritmos padrão

Capturando o raciocínio aritmético em LLMs: o papel dos circuitos heurísticos sobre algoritmos padrão

Uma questão importante sobre os LLMs é se eles resolvem tarefas de raciocínio aprendendo algoritmos transferíveis ou memorizando dados de treinamento. Esta distinção é importante: embora a memorização possa lidar com tarefas gerais, a verdadeira compreensão algorítmica permite uma generalização mais ampla. As tarefas de raciocínio aritmético podem revelar se os LLMs utilizam algoritmos aprendidos, …

Leopard: um modelo multilíngue (MLLM) projetado especificamente para lidar com tarefas de linguagem visual que envolvem várias imagens ricas em texto

Leopard: um modelo multilíngue (MLLM) projetado especificamente para lidar com tarefas de linguagem visual que envolvem várias imagens ricas em texto

Nos últimos anos, os modelos linguísticos multimodais de grande escala (MLLMs) revolucionaram as funções da linguagem visual, melhorando capacidades como legenda de imagens e detecção de objetos. No entanto, ao lidar com muitas imagens ricas em texto, mesmo modelos sofisticados enfrentam desafios significativos. A necessidade do mundo real de compreender e pensar sobre imagens ricas …