Ovis-1.6: Uma estrutura de modelo de linguagem multimodal multimodal (MLLM) de código aberto projetada para alinhamento estrutural de elementos visuais e de texto incorporados

Ovis-1.6: Uma estrutura de modelo de linguagem multimodal multimodal (MLLM) de código aberto projetada para alinhamento estrutural de elementos visuais e de texto incorporados

A inteligência artificial (IA) está mudando rapidamente, especialmente na aprendizagem multimodal. Os modelos multimodais visam integrar informações visuais e escritas para que as máquinas possam compreender e gerar conteúdo que requer informações de ambas as fontes. Essa capacidade é importante para tarefas como legendagem de imagens, resposta a perguntas visuais e criação de conteúdo, onde …

MassiveDS: um armazenamento de dados de 1,4 trilhão de tokens que permite que modelos de linguagem alcancem maior desempenho e precisão em aplicativos de PNL com uso intensivo de informações

MassiveDS: um armazenamento de dados de 1,4 trilhão de tokens que permite que modelos de linguagem alcancem maior desempenho e precisão em aplicativos de PNL com uso intensivo de informações

Os modelos linguísticos tornaram-se a base da PNL moderna, permitindo avanços significativos em uma variedade de aplicações, incluindo geração de texto, tradução automática e sistemas de resposta a perguntas. Pesquisas recentes concentraram-se na estimativa desses modelos em termos da quantidade de dados de treinamento e do número de parâmetros. Essas leis de escala mostraram que …

Revisitando a perda de peso: além da norma na aprendizagem profunda contemporânea

Revisitando a perda de peso: além da norma na aprendizagem profunda contemporânea

A decomposição de peso e o escalonamento ℓ2 são importantes para o aprendizado de máquina, especialmente para reduzir a capacidade da rede e reduzir componentes de peso não essenciais. Estas estratégias são consistentes com as leis da navalha de Occam e são importantes nas discussões sobre os limites da generalização. No entanto, pesquisas recentes questionaram …

JailbreakBench: um benchmark de código aberto para jailbreak de grandes modelos de linguagem (LLMs)

JailbreakBench: um benchmark de código aberto para jailbreak de grandes modelos de linguagem (LLMs)

Large Language Models (LLMs) são vulneráveis ​​a ataques de jailbreak, que podem criar informações ofensivas, imorais ou inadequadas. Ao explorar as falhas do LLM, esses ataques vão além das medidas de segurança destinadas a impedir a exposição de resultados maliciosos ou maliciosos. O teste de ataque de jailbreak é um processo muito difícil, e as …

Disjuntores para IA: interrompendo resultados prejudiciais com engenharia representacional

Disjuntores para IA: interrompendo resultados prejudiciais com engenharia representacional

Atacar inimigos e defender LLMs envolve uma variedade de táticas e estratégias. Os métodos de integração vermelha autoprojetados e automatizados revelam vulnerabilidade, enquanto o acesso à caixa branca revela o potencial para ataques de pré-preenchimento. Os mecanismos de defesa incluem RLHF, DPO, otimização rápida e treinamento inimigo. As defesas do tempo de inferência e a …

Salesforce AI apresenta SFR-Judge: uma família de três modelos de juízes para 8 bilhões de parâmetros nos tamanhos 8B, 12B e 70B, construído com Meta Llama 3 e Mistral NeMO

Salesforce AI apresenta SFR-Judge: uma família de três modelos de juízes para 8 bilhões de parâmetros nos tamanhos 8B, 12B e 70B, construído com Meta Llama 3 e Mistral NeMO

O desenvolvimento de modelos linguísticos de larga escala (LLMs) no processamento de linguagem natural melhorou muito vários domínios. À medida que modelos mais complexos são desenvolvidos, avaliar com precisão seus resultados torna-se importante. Tradicionalmente, os testes em humanos têm sido um método comum de avaliação da qualidade, mas este processo é demorado e precisa de …

SELMA: uma nova abordagem de IA para desenvolver modelos de geração de texto para imagem usando dados gerados automaticamente e técnicas especiais de aprendizagem

SELMA: uma nova abordagem de IA para desenvolver modelos de geração de texto para imagem usando dados gerados automaticamente e técnicas especiais de aprendizagem

Os modelos de texto para imagem (T2I) tiveram um rápido progresso nos últimos anos, permitindo a geração de imagens complexas com base na entrada de linguagem natural. No entanto, mesmo os modelos T2I avançados precisam de ajuda para capturar e exibir com precisão toda a semântica de uma determinada informação, resultando em imagens que podem …

AMD lança AMD-135M: a primeira série de modelos de linguagem pequena da AMD treinada do zero em aceleradores AMD Instinct™ MI250 usando tokens 670B

AMD lança AMD-135M: a primeira série de modelos de linguagem pequena da AMD treinada do zero em aceleradores AMD Instinct™ MI250 usando tokens 670B

A AMD apresentou recentemente seu novo modelo de linguagem, AMD-135M ou AMD-Llama-135Mo que é uma adição importante ao cenário dos modelos de IA. Baseado no modelo de arquitetura LLaMA2, este modelo de linguagem possui uma estrutura robusta com 135 milhões de parâmetros e é otimizado para rodar nas mais recentes GPUs AMD, especialmente a MI250. …

ReliabilityBench: Medindo o desempenho preditivo de modelos linguísticos em larga escala em cinco domínios principais da cognição humana

ReliabilityBench: Medindo o desempenho preditivo de modelos linguísticos em larga escala em cinco domínios principais da cognição humana

A pesquisa examina a confiabilidade dos principais modelos linguísticos (LLMs), como GPT, LLaMA e BLOOM, que são amplamente utilizados em diversos domínios, incluindo educação, medicina, ciência e gestão. À medida que o uso desses tipos aumenta, é importante compreender suas limitações e possíveis armadilhas. A investigação destaca que à medida que estes modelos crescem em …

Avaliando o impacto das ferramentas de geração de código (ChatGPT e GitHub Copilot) na educação em programação

Avaliando o impacto das ferramentas de geração de código (ChatGPT e GitHub Copilot) na educação em programação

A combinação de tecnologias de geração de código baseadas em IA, como ChatGPT e GitHub Copilot, está revolucionando o ensino de programação. Essas ferramentas, ao fornecer assistência em tempo real aos desenvolvedores, aceleram o processo de desenvolvimento, melhoram a solução de problemas e tornam a codificação mais acessível. A sua crescente prevalência despertou um interesse …