Melhorando o raciocínio da inteligência artificial abordando as limitações do Softmax na tomada de decisões inteligentes com estratégias térmicas dinâmicas

A capacidade de gerar conclusões precisas com base na entrada de dados é crítica para um raciocínio robusto e um desempenho confiável em sistemas de Inteligência Artificial (IA). A função softmax é um recurso importante que oferece suporte a essa funcionalidade em modelos modernos de IA. Uma grande parte da análise discriminante de chaves de consulta é a função softmax, que permite que o modelo se concentre nas partes principais dos dados de entrada de uma forma que pode ser melhorada ou aprendida ao longo do tempo. A sua importância é particularmente clara em métodos atencionais, onde modelos como os Transformers devem optar por focar em entradas específicas para produzir análises ou previsões precisas.

Os modelos de IA podem aceitar múltiplas entradas, ao mesmo tempo que dão mais peso às mais importantes usando o algoritmo softmax. Por exemplo, ele pode converter um conjunto de pontos, conhecidos como logs, de uma saída do modelo em uma probabilidade. O modelo pode priorizar os recursos de entrada mais importantes usando essas probabilidades, que indicam o quão relevante é cada recurso. É geralmente aceito que este trabalho auxilia no projeto de circuitos internos em modelos de IA, especialmente em estruturas que utilizam redes neurais profundas com mecanismos de atenção.

Acredita-se que esses circuitos – por meio dos quais as informações são processadas, bem como alguns cálculos – melhoram o poder preditivo do modelo, realizando cálculos consistentes e confiáveis em uma variedade de entradas. Portanto, a função do softmax é considerada um fator importante que possibilita que esses circuitos prestem atenção especial aos dados, um recurso importante para tarefas de processamento de linguagem, percepção e outros domínios onde é possível focar em determinados pontos de dados. é essencial para o sucesso.

No entanto, recentemente, tem havido críticas à ideia de que estas regiões baseadas em softmax são fiáveis em qualquer situação. Um problema principal é que a capacidade da função softmax de manter o foco dinâmico diminui com o aumento do volume de dados ou do número de objetos no conjunto de entrada. Isso mostra que o softmax não consegue manter essa nitidez à medida que o número de entradas aumenta durante o período de teste, embora possa detectar e medir as entradas mais importantes ao trabalhar com uma quantidade gerenciável de dados. O desempenho da função softmax para tarefas que exigem decisões rápidas é limitado à medida que os dados aumentam devido ao efeito de dispersão, onde a atenção muda entre as entradas em vez de permanecer focada nas mais importantes. À medida que o tamanho da entrada aumenta, mesmo uma tarefa simples, como determinar o valor máximo no conjunto de entradas, torna-se mais desafiadora, fazendo com que o modelo espalhe sua atenção pelos objetos em vez de focar no máximo.

Essa dispersão é causada por uma falha fundamental da própria função softmax: quando apresentada a um grande número de entradas, ela não consegue estimar com precisão os parâmetros de decisão. Para ilustrar bem esse fenômeno, uma equipe de pesquisadores explicou em um estudo recente como o softmax tende a se tornar ineficaz na localização dos pontos de dados mais relevantes sob certas condições à medida que o tamanho do problema aumenta. Os seus resultados lançam dúvidas sobre a ideia de que os processos de atenção baseados em softmax permanecem fiáveis, especialmente no que diz respeito a tarefas cognitivas que requerem um foco seletivo e forte num subconjunto de inputs.

A equipe propôs um método de temperatura ajustável dentro da função softmax como uma solução prática para reduzir esse problema de dispersão. O modelo pode alterar sua concentração utilizando o parâmetro de temperatura Softmax, que controla o nível de concentração em sua probabilidade de saída. O modelo pode manter o foco selecionado mesmo quando o tamanho da entrada muda, alterando dinamicamente este parâmetro para aumentar a nitidez. Ao lidar com a dispersão interna do softmax, embora ad hoc, este método de temperatura dinâmica o torna muito robusto para problemas de escala no momento da decisão.

Concluindo, embora a função softmax seja importante para a IA moderna porque ajuda na atenção seletiva, os sistemas de raciocínio que precisam tomar decisões rápidas têm um grande problema devido à sua incapacidade de escalar para grandes tamanhos de entrada. O método de aquecimento adaptativo proposto é um passo importante para melhorar as capacidades de raciocínio da IA em situações cada vez mais complexas e ricas em dados, oferecendo formas promissoras de apoiar o desempenho do softmax em condições de escala. Aplicações que exigem precisão e medição, como grandes modelos de linguagem e sistemas complexos de visão computacional, podem se beneficiar muito com essa modificação.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel

Tanya Malhotra está em seu último ano na Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação com especialização em Inteligência Artificial e Aprendizado de Máquina.
Ele é um entusiasta de Data Science com forte pensamento analítico e analítico, e grande interesse em adquirir novas habilidades, liderar equipes e gerenciar o trabalho de forma organizada.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Zipu AI lança GLM-4-Voice: um novo modelo de linguagem grande de ponta a ponta

Pesquisadores da Snowflake e CMU apresentam SuffixDecoding: um novo método livre de modelo para acelerar a sumarização de modelos de linguagem grande (LLM) com decodificação inferencial

MALPOLON: uma estrutura de IA de ponta projetada para melhorar a modelagem de distribuição de espécies, combinando dados geoespaciais e modelos de aprendizagem profunda

Deixe um comentário Cancelar resposta