Nvidia AI lança silenciosamente o Nemotron 70B: esmaga o GPT-4 da OpenAI em vários benchmarks

Nvidia AI lança silenciosamente o Nemotron 70B: esmaga o GPT-4 da OpenAI em vários benchmarks

Os atuais modelos de fabricação de IA enfrentam desafios relacionados à robustez, precisão, eficiência, custo e resposta amigável ao ser humano. Há uma necessidade de soluções escaláveis ​​e eficientes que possam fornecer resultados precisos enquanto trabalham em várias aplicações de IA. A Nvidia apresenta o modelo Nemotron 70B, projetado para fornecer uma nova referência na …

Este artigo sobre IA da Meta AI destaca os riscos do uso de dados artificiais para treinar grandes modelos de linguagem

Este artigo sobre IA da Meta AI destaca os riscos do uso de dados artificiais para treinar grandes modelos de linguagem

O aprendizado de máquina se concentra no desenvolvimento de modelos que podem aprender com grandes conjuntos de dados para melhorar suas capacidades preditivas e de tomada de decisão. Uma das principais áreas de desenvolvimento no aprendizado de máquina são as redes neurais, que são críticas para tarefas como reconhecimento de imagens, processamento de linguagem e …

Conheça o TurtleBench: um sistema exclusivo de teste de IA para testar modelos de linguagem avançados com quebra-cabeças sim/não do mundo real

Conheça o TurtleBench: um sistema exclusivo de teste de IA para testar modelos de linguagem avançados com quebra-cabeças sim/não do mundo real

A necessidade de técnicas eficazes e confiáveis ​​para avaliar o desempenho de grandes modelos de linguagem (LLMs) está aumentando à medida que estes modelos são integrados em mais domínios. Ao avaliar a eficácia dos LLMs em interações dinâmicas do mundo real, padrões de teste comuns são frequentemente aplicados a conjuntos de dados estáticos, apresentando problemas …

Montagem de variáveis ​​discretas (DAM): uma nova abordagem de IA para montagem de modelos

Montagem de variáveis ​​discretas (DAM): uma nova abordagem de IA para montagem de modelos

A integração de modelos, especialmente entre modelos linguísticos de grande escala (LLMs), apresenta um desafio interessante que aborda a necessidade crescente de sistemas de IA heterogêneos. Estes modelos têm frequentemente capacidades especializadas, como o multilinguismo ou conhecimentos especializados em domínios específicos, tornando a sua integração crítica para a criação de sistemas robustos e multifuncionais. No …

Integrando a previsão do próximo token e a distribuição de vídeo em visão computacional e robótica | Notícias do MIT

Integrando a previsão do próximo token e a distribuição de vídeo em visão computacional e robótica | Notícias do MIT

No atual zeitgeist da IA, a popularidade dos modelos de sequência cresceu devido à sua capacidade de analisar dados e prever o que fazer a seguir. Por exemplo, você pode usar modelos de previsão de token como ChatGPT, que esperam que cada palavra (token) em sequência gere respostas às consultas do usuário. Existem também modelos …

Pesquisadores de IA do Google apresentam um conjunto de novos métodos para melhorar o desempenho do conteúdo LLM de longo prazo na geração aprimorada de recuperação

Pesquisadores de IA do Google apresentam um conjunto de novos métodos para melhorar o desempenho do conteúdo LLM de longo prazo na geração aprimorada de recuperação

Os modelos linguísticos de grande escala (LLMs) revolucionaram vários campos ao permitir o processamento eficiente de dados, a resolução de problemas complexos e a compreensão da linguagem natural. Outra inovação é a geração aumentada de recuperação (RAG), que permite aos LLMs encontrar informações relevantes de fontes externas, como grandes bancos de dados, para gerar melhores …

Mistral AI apresenta Les Ministraux: Ministral 3B e Ministral 8B – revolucionando a IA no dispositivo

Mistral AI apresenta Les Ministraux: Ministral 3B e Ministral 8B – revolucionando a IA no dispositivo

Modelos de IA de alto desempenho que possam funcionar na periferia e em dispositivos pessoais são necessários para superar as limitações dos modelos existentes em grande escala. Esses modelos exigem recursos computacionais significativos, tornando-os dependentes de ambientes em nuvem, que apresentam riscos à privacidade, aumentam a latência e agregam custos. Além disso, a dependência da …

AutoDAN-Turbo: método de jailbreak de caixa preta para LLMs com agente vitalício

AutoDAN-Turbo: método de jailbreak de caixa preta para LLMs com agente vitalício

Os cursos de linguística (LLMs) ganharam ampla aceitação devido às suas habilidades avançadas de compreensão e produção de textos. No entanto, garantir o seu comportamento ético alinhado com a segurança tornou-se um grande desafio. Os ataques de jailbreak surgiram como uma grande ameaça, usando informações cuidadosamente elaboradas para contornar medidas de segurança e desencadear conteúdo …

Pesquisa de IA do Google testa amostragem de circuito aleatório (RCS) para testar o desempenho da computação quântica em condições de ruído

Pesquisa de IA do Google testa amostragem de circuito aleatório (RCS) para testar o desempenho da computação quântica em condições de ruído

Os computadores quânticos são uma tecnologia revolucionária que utiliza os princípios da mecânica quântica para realizar cálculos que não podem ser feitos em computadores clássicos. Testar o desempenho de computadores quânticos tem sido uma tarefa desafiadora devido à sua sensibilidade ao ruído, à complexidade dos algoritmos quânticos e à disponibilidade limitada de hardware de computação …

Thinking LLMs: como o desenvolvimento de preferências de pensamento está mudando os modelos de linguagem para um melhor desempenho em carreiras conceituais, de marketing e criativas

Thinking LLMs: como o desenvolvimento de preferências de pensamento está mudando os modelos de linguagem para um melhor desempenho em carreiras conceituais, de marketing e criativas

Modelos linguísticos de larga escala (LLMs) evoluíram para se tornarem ferramentas poderosas, capazes de compreender e responder às instruções do usuário. Baseados na arquitetura do transformador, esses modelos prevêem a próxima palavra ou token em uma frase, gerando respostas com notável fluência. No entanto, muitas vezes respondem sem se envolverem em processos de pensamento internos …