Conjuntos de dados e modelos pré-treinados apresentam preconceitos internos. Muitos métodos dependem da análise visual de amostras indiferenciadas para validação automatizada por computador humano. As redes neurais profundas, geralmente modelos básicos ajustados, são amplamente utilizadas em áreas como saúde, finanças e justiça criminal, onde previsões tendenciosas podem ter um impacto significativo na sociedade. Estes modelos …
Microsoft Asia Research lança SPEED: uma estrutura de IA para alinhar micromodelos de código aberto (8B) para geração eficiente de dados incorporados em grande escala
A incorporação de texto, um foco central no processamento de linguagem natural (PNL), converte texto em vetores numéricos que capturam o significado essencial de palavras ou frases. Essa incorporação permite que as máquinas processem operações de linguagem, como classificação, combinação, recuperação e resumo. Ao organizar os dados em formato vetorial, a incorporação fornece uma maneira …
Uma maneira melhor e mais rápida de treinar robôs de uso geral | Notícias do MIT
No clássico desenho animado “Os Jetsons”, Rosie, a empregada robótica, transita facilmente entre limpar a casa, preparar o jantar e levar o lixo para fora. Mas na vida real, treinar um robô de uso geral ainda é um grande desafio. Normalmente, os engenheiros coletam dados específicos de um robô e de uma tarefa, que usam …
Meta AI lança silenciosamente NotebookLlama: uma versão de código aberto do NotebookLM do Google
A Meta lançou recentemente o NotebookLlama, uma versão de código aberto do NotebookLM do Google que capacita pesquisadores e desenvolvedores com soluções acessíveis e escaláveis para análise e documentação interativa de dados. NotebookLlama integra grandes modelos de linguagem diretamente em uma interface visual de código aberto, como Jupyter ou Google Colab, permitindo que os usuários …
Conheça mcdse-2b-v1: um modelo de recuperação de documentos multilíngue eficaz, escalonável e eficiente
A ascensão da era da informação trouxe uma enorme quantidade de dados em vários formatos. Documentos, apresentações e imagens são produzidos em números incríveis em vários idiomas e domínios. No entanto, a recuperação de informações úteis destas diversas fontes representa um grande desafio. Os modelos de recuperação convencionais, embora eficazes para consultas baseadas em texto, …
SPARE: Engenharia de Representação Gratuita e Não Treinada para Gerenciamento de Conflitos de Informação em Grandes Modelos de Linguagem
Modelos de linguagem em larga escala (LLMs) mostraram capacidades notáveis no tratamento de tarefas que exigem muito conhecimento com suas informações de parâmetros armazenadas nos parâmetros do modelo. No entanto, as informações armazenadas podem estar incorretas ou desatualizadas, levando à adoção de métodos de recuperação e aprimoramento de ferramentas que fornecem informações situacionais externas. Um …
IM-RewardBench: um método multilíngue para teste de modelo de recompensa, analisando a precisão em idiomas de alto e baixo idioma com resultados eficazes
Os modelos linguísticos em larga escala (LLMs) revolucionaram campos que vão desde o atendimento ao cliente até a assistência médica, sincronizando a produção da máquina com os valores humanos. Os modelos de recompensa (MRs) desempenham um papel importante neste alinhamento, agindo como um ciclo de feedback no qual os modelos são direcionados para fornecer as …
SAM2Long: Desenvolvimento de treinamento gratuito na classificação de vídeo SAM 2 Long
A segmentação longitudinal de vídeo envolve a divisão de um vídeo em segmentos para analisar processos complexos, como movimento, obturador e diferentes condições de iluminação. Possui diversas aplicações em piloto automático, vigilância e edição de vídeo. É desafiador, mas importante categorizar as coisas da maneira certa em uma sequência de vídeo. A dificuldade está no …
Nova: Uma Metodologia Iterativa de Planejamento e Pesquisa para o Desenvolvimento de Geração de Modelo Novo e Variável em Grandes Idiomas (LLM)
A inovação científica é importante para o desenvolvimento humano porque impulsiona avanços numa variedade de indústrias, incluindo tecnologia, cuidados de saúde e sustentabilidade ambiental. Modelos de Linguagem em Grande Escala (LLMs) demonstraram recentemente o potencial para acelerar a descoberta científica, gerando hipóteses de pesquisa devido às suas extensas capacidades de processamento de texto. No entanto, …
MathGAP: uma referência de avaliação para o 'raciocínio matemático' do LLM usando profundidade, alcance e complexidade de tarefas não distributivas controladas por evidências
O aprendizado de máquina fez progressos significativos no teste de modelos linguísticos em larga escala (LLMs) quanto às suas capacidades de raciocínio matemático, particularmente no tratamento de tarefas aritméticas e dedutivas complexas. O campo se concentra em explorar a capacidade do LLM de generalizar e resolver novos tipos de problemas, especialmente à medida que os …