Capturando o raciocínio aritmético em LLMs: o papel dos circuitos heurísticos sobre algoritmos padrão
Inteligência artificial

Capturando o raciocínio aritmético em LLMs: o papel dos circuitos heurísticos sobre algoritmos padrão


Uma questão importante sobre os LLMs é se eles resolvem tarefas de raciocínio aprendendo algoritmos transferíveis ou memorizando dados de treinamento. Esta distinção é importante: embora a memorização possa lidar com tarefas gerais, a verdadeira compreensão algorítmica permite uma generalização mais ampla. As tarefas de raciocínio aritmético podem revelar se os LLMs utilizam algoritmos aprendidos, tais como adição direta à aprendizagem humana, ou se dependem de padrões memorizados em dados de treino. Estudos recentes identificam componentes específicos do modelo ligados à aritmética em LLMs, com outras descobertas sugerindo que as funções de Fourier ajudam nas operações de adição. No entanto, resta determinar se o mecanismo completo de generalização versus memorização será determinado.

A interpretabilidade mecanística (IM) busca compreender os modelos de linguagem distinguindo os papéis de seus componentes. Técnicas como ativação e modificação de caminho ajudam a vincular comportamentos específicos aos componentes do modelo, enquanto outros métodos se concentram em como pesos específicos influenciam as respostas simbólicas. O estudo também aborda se os LLMs generalizam ou simplesmente memorizam dados de treinamento, detalhando como a ativação interna reflete esse equilíbrio. No raciocínio aritmético, pesquisas recentes identificam estruturas gerais em circuitos aritméticos, mas precisam incluir como os dados do operando são processados ​​para maior precisão. Este estudo expande a visão, mostrando quantos tipos de heurísticas e tipos de recursos interagem em LLMs em tarefas matemáticas.

Pesquisadores do Technion e da Northeastern University investigaram como os LLMs lidam com a matemática e descobriram que, em vez de usar algoritmos rígidos ou memorização pura, os LLMs usam uma abordagem de “saco de heurística”. A análise de neurônios individuais no circuito aritmético identificou que certos neurônios disparam de acordo com padrões simples, como o intervalo do operando, para produzir as respostas corretas. Essa combinação de heurísticas aparece no início do treinamento e continua como principal método para resolução de problemas aritméticos. Os resultados da pesquisa fornecem insights detalhados sobre o raciocínio matemático do LLM, mostrando como essas heurísticas funcionam, mudam e contribuem para os pontos fortes e as limitações nas tarefas de raciocínio.

Em modelos de linguagem baseados em transformadores, um circuito é um subconjunto de componentes do modelo (MLPs e cabeças de atenção) que executam operações específicas, como aritmética. Os pesquisadores analisaram os circuitos aritméticos em quatro modelos (Llama3-8B/70B, Pythia-6.9B e GPT-J) para identificar os componentes responsáveis ​​pela aritmética. Eles encontraram MLPs importantes e focos de atenção usando ativação irregular, observando que MLPs intermediários e tardios promoveram a resposta. Experimentos mostraram que apenas cerca de 1,5% de neurônios por camada eram necessários para atingir alta precisão. Esses neurônios atuam como “heurísticas memorizadas”, trabalhando em padrões específicos de atividade e escrevendo tokens de resposta significativos.

Para resolver informações aritméticas, os modelos usam um “saco de heurísticas”, no qual neurônios individuais reconhecem certos padrões, e cada um contribui de forma incremental para a probabilidade de uma resposta correta. Os neurônios são classificados por seus padrões de ativação em tipos heurísticos, e os neurônios dentro de cada heurística são responsáveis ​​por diferentes operações aritméticas. O teste de ablação verifica se cada tipo de heurística contribui para informações consistentes com seu padrão. Esses neurônios heurísticos se desenvolvem gradualmente durante o treinamento, eventualmente controlando a capacidade aritmética do modelo, assim como as heurísticas vestigiais emergem durante o treinamento. Isto sugere que as habilidades aritméticas surgem principalmente desses neurônios integrados heuristicamente durante o treinamento.

Os LLMs abordam operações aritméticas usando raciocínio heurístico em vez de algoritmos rígidos ou memorização. A pesquisa mostra que os LLMs usam um “saco de heurísticas”, uma mistura de padrões aprendidos em vez de algoritmos padrão, para resolver matemática. Ao identificar as partes específicas do modelo – os neurônios dentro do circuito – que lidam com a aritmética, eles descobriram que cada neurônio atende a padrões específicos de entrada, que juntos suportam respostas precisas. Essa abordagem orientada pela heurística aparece no início do treinamento do modelo e cresce gradualmente. As descobertas sugerem que a melhoria das competências matemáticas dos LLMs pode exigir mudanças significativas na formação e na arquitectura, para além das actuais estratégias pós-académicas.


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel


Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *