A inteligência artificial (IA) está mudando rapidamente, especialmente na aprendizagem multimodal. Os modelos multimodais visam integrar informações visuais e escritas para que as máquinas possam compreender e gerar conteúdo que requer informações de ambas as fontes. Essa capacidade é importante para tarefas como legendagem de imagens, resposta a perguntas visuais e criação de conteúdo, onde …
MassiveDS: um armazenamento de dados de 1,4 trilhão de tokens que permite que modelos de linguagem alcancem maior desempenho e precisão em aplicativos de PNL com uso intensivo de informações
Os modelos linguísticos tornaram-se a base da PNL moderna, permitindo avanços significativos em uma variedade de aplicações, incluindo geração de texto, tradução automática e sistemas de resposta a perguntas. Pesquisas recentes concentraram-se na estimativa desses modelos em termos da quantidade de dados de treinamento e do número de parâmetros. Essas leis de escala mostraram que …
Revisitando a perda de peso: além da norma na aprendizagem profunda contemporânea
A decomposição de peso e o escalonamento ℓ2 são importantes para o aprendizado de máquina, especialmente para reduzir a capacidade da rede e reduzir componentes de peso não essenciais. Estas estratégias são consistentes com as leis da navalha de Occam e são importantes nas discussões sobre os limites da generalização. No entanto, pesquisas recentes questionaram …
JailbreakBench: um benchmark de código aberto para jailbreak de grandes modelos de linguagem (LLMs)
Large Language Models (LLMs) são vulneráveis a ataques de jailbreak, que podem criar informações ofensivas, imorais ou inadequadas. Ao explorar as falhas do LLM, esses ataques vão além das medidas de segurança destinadas a impedir a exposição de resultados maliciosos ou maliciosos. O teste de ataque de jailbreak é um processo muito difícil, e as …
Disjuntores para IA: interrompendo resultados prejudiciais com engenharia representacional
Atacar inimigos e defender LLMs envolve uma variedade de táticas e estratégias. Os métodos de integração vermelha autoprojetados e automatizados revelam vulnerabilidade, enquanto o acesso à caixa branca revela o potencial para ataques de pré-preenchimento. Os mecanismos de defesa incluem RLHF, DPO, otimização rápida e treinamento inimigo. As defesas do tempo de inferência e a …
Salesforce AI apresenta SFR-Judge: uma família de três modelos de juízes para 8 bilhões de parâmetros nos tamanhos 8B, 12B e 70B, construído com Meta Llama 3 e Mistral NeMO
O desenvolvimento de modelos linguísticos de larga escala (LLMs) no processamento de linguagem natural melhorou muito vários domínios. À medida que modelos mais complexos são desenvolvidos, avaliar com precisão seus resultados torna-se importante. Tradicionalmente, os testes em humanos têm sido um método comum de avaliação da qualidade, mas este processo é demorado e precisa de …
SELMA: uma nova abordagem de IA para desenvolver modelos de geração de texto para imagem usando dados gerados automaticamente e técnicas especiais de aprendizagem
Os modelos de texto para imagem (T2I) tiveram um rápido progresso nos últimos anos, permitindo a geração de imagens complexas com base na entrada de linguagem natural. No entanto, mesmo os modelos T2I avançados precisam de ajuda para capturar e exibir com precisão toda a semântica de uma determinada informação, resultando em imagens que podem …
AMD lança AMD-135M: a primeira série de modelos de linguagem pequena da AMD treinada do zero em aceleradores AMD Instinct™ MI250 usando tokens 670B
A AMD apresentou recentemente seu novo modelo de linguagem, AMD-135M ou AMD-Llama-135Mo que é uma adição importante ao cenário dos modelos de IA. Baseado no modelo de arquitetura LLaMA2, este modelo de linguagem possui uma estrutura robusta com 135 milhões de parâmetros e é otimizado para rodar nas mais recentes GPUs AMD, especialmente a MI250. …
ReliabilityBench: Medindo o desempenho preditivo de modelos linguísticos em larga escala em cinco domínios principais da cognição humana
A pesquisa examina a confiabilidade dos principais modelos linguísticos (LLMs), como GPT, LLaMA e BLOOM, que são amplamente utilizados em diversos domínios, incluindo educação, medicina, ciência e gestão. À medida que o uso desses tipos aumenta, é importante compreender suas limitações e possíveis armadilhas. A investigação destaca que à medida que estes modelos crescem em …
Avaliando o impacto das ferramentas de geração de código (ChatGPT e GitHub Copilot) na educação em programação
A combinação de tecnologias de geração de código baseadas em IA, como ChatGPT e GitHub Copilot, está revolucionando o ensino de programação. Essas ferramentas, ao fornecer assistência em tempo real aos desenvolvedores, aceleram o processo de desenvolvimento, melhoram a solução de problemas e tornam a codificação mais acessível. A sua crescente prevalência despertou um interesse …