Microsoft lança GRIN MoE: uma combinação baseada em gradiente de modelos especializados de MoE para aprendizado profundo eficiente e escalável

Microsoft lança GRIN MoE: uma combinação baseada em gradiente de modelos especializados de MoE para aprendizado profundo eficiente e escalável

A pesquisa em inteligência artificial (IA) tem se concentrado cada vez mais em melhorar a eficiência e a robustez dos modelos de aprendizagem profunda. Esses modelos revolucionaram o processamento de linguagem natural, a visão computacional e a análise de dados, mas apresentam desafios computacionais significativos. Especificamente, à medida que os modelos crescem, eles exigem mais …

Conjunto de dados FC-AMF-OCR extraído LightOn: um conjunto de dados de 9,3 milhões de imagens de documentos financeiros com anotações completas de OCR

Conjunto de dados FC-AMF-OCR extraído LightOn: um conjunto de dados de 9,3 milhões de imagens de documentos financeiros com anotações completas de OCR

Lançamento de Conjunto de dados FC-AMF-OCR com LightOn representa um marco significativo no reconhecimento óptico de caracteres (OCR) e no aprendizado de máquina. Este conjunto de dados é um avanço técnico e é a base para futuras pesquisas em Inteligência Artificial (IA) e visão computacional. A introdução de tal conjunto de dados abre novas oportunidades …

LASR: um novo método de aprendizado de máquina para regressão simbólica usando modelos de linguagem em grande escala

LASR: um novo método de aprendizado de máquina para regressão simbólica usando modelos de linguagem em grande escala

A regressão exponencial é um método estatístico avançado para encontrar equações estatísticas que melhor descrevem um conjunto de dados. Ao contrário da regressão convencional, que ajusta os dados a modelos predefinidos, a regressão logística procura propriedades estatísticas subjacentes a partir do zero. Esta abordagem ganhou destaque em campos científicos como física, química e biologia, onde …

Sketch: um kit de ferramentas de IA inovador projetado para reverter o desempenho do LLM em diferentes campos

Sketch: um kit de ferramentas de IA inovador projetado para reverter o desempenho do LLM em diferentes campos

Modelos linguísticos de larga escala (LLMs) revolucionaram o processamento de linguagem natural, mostrando notáveis ​​capacidades de generalização em uma ampla variedade de tarefas. No entanto, devido à fraca adesão às instruções, estes modelos enfrentam um desafio significativo na produção de resultados formatados corretamente, como JSON. Esta limitação representa um obstáculo significativo para aplicações orientadas por …

MMSearch Engine: poderosa pesquisa de IA multimodal avançada para processar e combinar com precisão consultas escritas e visuais para resultados de pesquisa aprimorados.

MMSearch Engine: poderosa pesquisa de IA multimodal avançada para processar e combinar com precisão consultas escritas e visuais para resultados de pesquisa aprimorados.

Os motores de busca tradicionais dependem fortemente de consultas baseadas em texto, limitando a sua capacidade de processar e interpretar as informações cada vez mais complexas disponíveis hoje na Internet. A maioria dos sites modernos inclui texto e imagens. No entanto, continua a faltar a capacidade dos motores de busca tradicionais para lidar com estas …

CodeMaker AI Avanço no Desenvolvimento de Software: Alcança 91% de Precisão na Recriação de 90.000 Linhas de Código, Estabelece Nova Referência para Geração de Código Orientada por IA e Modelagem Afinada

CodeMaker AI Avanço no Desenvolvimento de Software: Alcança 91% de Precisão na Recriação de 90.000 Linhas de Código, Estabelece Nova Referência para Geração de Código Orientada por IA e Modelagem Afinada

Na era das indústrias transformadoras de IA, IA do CodeMaker alcançou um marco histórico ao recriar automaticamente uma biblioteca de software de 90.000 linhas com uma surpreendente semelhança de 91% com a base de código original. Este avanço marca uma grande mudança na forma como a IA pode ser usada no desenvolvimento de software, demonstrando …

Este artigo sobre IA da NVIDIA apresenta o NVLM 1.0: uma família de grandes modelos de linguagem multimodal com recursos avançados para processamento de texto e imagem

Este artigo sobre IA da NVIDIA apresenta o NVLM 1.0: uma família de grandes modelos de linguagem multimodal com recursos avançados para processamento de texto e imagem

Os modelos linguísticos multimodais (MLLMs) concentram-se na criação de programas de inteligência artificial (IA) que podem interpretar facilmente texto e dados visuais. Esses modelos visam preencher a lacuna entre a compreensão da linguagem natural e a compreensão visual, permitindo que as máquinas processem coletivamente vários tipos de entrada, desde documentos de texto até imagens. A …

Podemos desenvolver modelos de linguagem maiores mais rápido do que Adam? Este artigo sobre IA de Harvard revela SOAP para melhorar e parar a lavagem no aprendizado profundo

Podemos desenvolver modelos de linguagem maiores mais rápido do que Adam? Este artigo sobre IA de Harvard revela SOAP para melhorar e parar a lavagem no aprendizado profundo

A otimização dos modelos de aprendizagem profunda continua a ser um grande desafio, à medida que o custo de formação dos principais modelos linguísticos (LLMs) continua a aumentar. À medida que os modelos crescem, a carga computacional e o tempo de treinamento necessário aumentam significativamente, criando a necessidade de otimizações eficientes que podem reduzir o …

Diagrama de pensamento (DoT): uma estrutura de IA para modelagem de pensamento recursivo com modelos de linguagem em larga escala (LLMs) como construção de gráfico acíclico direcionado (DAG) dentro de um único modelo

Diagrama de pensamento (DoT): uma estrutura de IA para modelagem de pensamento recursivo com modelos de linguagem em larga escala (LLMs) como construção de gráfico acíclico direcionado (DAG) dentro de um único modelo

Pesquisas anteriores sobre estruturas de pensamento nos principais modelos linguísticos (LLMs) exploraram várias maneiras de melhorar as habilidades de resolução de problemas. A Cadeia de Pensamento (CoT) introduziu processos de pensamento específicos, enquanto a Árvore do Pensamento (ToT) e o Gráfico do Pensamento (GoT) expandiram esse conceito incorporando possibilidades de ramificação e relações complexas entre …

Desvendando a memória de Schrödinger: abordagens de memória dinâmica para modelos de linguagem baseados em transformadores

Desvendando a memória de Schrödinger: abordagens de memória dinâmica para modelos de linguagem baseados em transformadores

Os LLMs demonstram habilidades linguísticas notáveis, o que levanta questões sobre seus processos de memória. Ao contrário dos humanos, que usam a memória para realizar tarefas diárias, a “memória” dos LLMs é baseada em entradas e não em armazenamento externo. Os esforços de pesquisa visam melhorar a retenção de LLMs, aumentando o comprimento do contexto …