SVDQuant: um novo paradigma de quantização pós-treinamento de 4 bits para modelos de difusão

SVDQuant: um novo paradigma de quantização pós-treinamento de 4 bits para modelos de difusão

O rápido escalonamento dos modelos de distribuição levou a desafios de uso de memória e latência, dificultando sua implantação, especialmente em ambientes com uso intensivo de recursos. Tais modelos têm demonstrado notável capacidade de fornecer imagens de alta fidelidade, mas são exigentes tanto em memória quanto em computação, o que impede sua disponibilidade em dispositivos …

Pesquisadores de Cambridge fornecem informações importantes sobre aprendizagem profunda através das lentes pedagógicas de um modelo telescópico usando equações de primeira ordem

Pesquisadores de Cambridge fornecem informações importantes sobre aprendizagem profunda através das lentes pedagógicas de um modelo telescópico usando equações de primeira ordem

As redes neurais permanecem um mistério complicado até hoje. Por um lado, são responsáveis ​​por automatizar tarefas complexas em todas as áreas, como reconhecimento de imagens, compreensão de linguagem natural e geração de texto; contudo, por outro lado, o seu comportamento básico e os processos de tomada de decisão permanecem complexos. As redes neurais muitas …

FrontierMath: uma referência que destaca os limites da IA ​​em matemática

FrontierMath: uma referência que destaca os limites da IA ​​em matemática

Os sistemas de Inteligência Artificial (IA) fizeram progressos impressionantes nos últimos anos, demonstrando experiência em lidar com problemas cada vez mais desafiadores. No entanto, quando se trata de raciocínio matemático avançado, ainda existe uma grande lacuna entre o que estes modelos podem alcançar e o que é necessário para resolver problemas complexos do mundo real. …

O seu agente LLM está pronto para uso empresarial? Salesforce AI Research lança CRMarena: um novo benchmark de IA projetado para testar agentes de IA em tarefas realistas baseadas em ambientes de trabalho profissionais

O seu agente LLM está pronto para uso empresarial? Salesforce AI Research lança CRMarena: um novo benchmark de IA projetado para testar agentes de IA em tarefas realistas baseadas em ambientes de trabalho profissionais

O Customer Relationship Management (CRM) tornou-se parte integrante das operações de negócios como um centro para gerenciar interações, dados e processos do cliente. A integração de IA avançada ao CRM pode transformar esses sistemas, automatizando processos de rotina, proporcionando experiências personalizadas e simplificando os esforços de atendimento ao cliente. À medida que as organizações adotam …

Databricks Mosaic Research explora geração aprimorada de recuperação de contexto longo: como modelos avançados de IA lidam com informações estendidas para maior precisão de resposta

Databricks Mosaic Research explora geração aprimorada de recuperação de contexto longo: como modelos avançados de IA lidam com informações estendidas para maior precisão de resposta

A geração aumentada de recuperação (RAG) representa um grande avanço na capacidade de modelos linguísticos de grande escala (LLMs) de executar tarefas com precisão, incorporando informações externas relevantes em seu processamento de tarefas. Esta abordagem, que combina técnicas de descoberta de conhecimento com modelagem generativa, tem sido cada vez mais utilizada em aplicações complexas, como …

Pesquisadores do Google DeepMind propõem RT-Affordance: uma abordagem de recursos que usa custos como representações centrais de políticas

Pesquisadores do Google DeepMind propõem RT-Affordance: uma abordagem de recursos que usa custos como representações centrais de políticas

Nos últimos anos, houve desenvolvimentos significativos no campo de modelos pré-treinados em larga escala para a aprendizagem de políticas robóticas. O termo “representação de políticas” aqui se refere às diferentes interações e métodos de tomada de decisão dos robôs, o que pode facilitar a generalização de novas tarefas e ambientes. Visão-linguagem-ação (VLA) os modelos são …

Misturas de alunos em contexto: uma solução robusta de IA para gerenciar restrições de memória e melhorar a precisão da classificação em modelos de PNL baseados em transformadores

Misturas de alunos em contexto: uma solução robusta de IA para gerenciar restrições de memória e melhorar a precisão da classificação em modelos de PNL baseados em transformadores

O processamento de linguagem natural (PNL) continua a evoluir com novos métodos, como a aprendizagem in-context (ICL), fornecendo novas maneiras de desenvolver modelos linguísticos em larga escala (LLMs). A ICL envolve modelar a situação em instâncias específicas do modelo sem alterar diretamente os parâmetros do modelo. Este método é muito importante para treinar rapidamente LLMs …

WEBRL: Uma estrutura de aprendizagem de autodesenvolvimento para currículo on-line para treinamento de agentes da Web altamente eficazes com LLMs abertos

WEBRL: Uma estrutura de aprendizagem de autodesenvolvimento para currículo on-line para treinamento de agentes da Web altamente eficazes com LLMs abertos

Modelos linguísticos de grande escala (LLMs) demonstraram capacidades excepcionais na compreensão, raciocínio e aquisição de informação da linguagem humana, sugerindo a sua capacidade de funcionar como agentes autónomos. No entanto, treinar agentes web eficazes com base em LLMs abertos em ambientes online, como o WebArena, enfrenta vários desafios significativos. O desafio é começar com atividades …

Explorando estruturas de dados dinâmicas: o papel do aprendizado de máquina no projeto de soluções rápidas e eficientes para tarefas complexas de recuperação de dados

Explorando estruturas de dados dinâmicas: o papel do aprendizado de máquina no projeto de soluções rápidas e eficientes para tarefas complexas de recuperação de dados

A pesquisa de aprendizado de máquina evoluiu para modelos que podem projetar e descobrir automaticamente estruturas de dados para tarefas computacionais específicas, como a pesquisa do vizinho mais próximo (NN). Esta mudança na metodologia permite que os modelos aprendam não só a estrutura dos dados, mas também como otimizar as respostas às consultas, reduzindo os …

Pesquisadores de Stanford e Cornell apresentam APRICOT: uma nova abordagem de IA que combina aprendizagem de preferência ativa bayesiana baseada em LLM e planejamento de tarefas com reconhecimento de restrições

Pesquisadores de Stanford e Cornell apresentam APRICOT: uma nova abordagem de IA que combina aprendizagem de preferência ativa bayesiana baseada em LLM e planejamento de tarefas com reconhecimento de restrições

No campo emergente dos robôs domésticos, surgiu um grande desafio na execução de tarefas organizacionais pessoais, como organizar mantimentos na geladeira. Essas tarefas exigem que os robôs equilibrem as preferências do usuário e as restrições visuais, evitando colisões e mantendo a estabilidade. Embora os Modelos de Linguagem em Grande Escala (LLMs) permitam a comunicação em …