Emergência Intelectual em LLMs: O Papel da Complexidade em Programas Baseados na Lei

A investigação investiga a evolução do comportamento inteligente em sistemas artificiais, examinando como a complexidade dos sistemas baseados em regras afecta a capacidade dos modelos treinados para prever essas regras. Tradicionalmente, o desenvolvimento da IA tem-se centrado em modelos de formação que utilizam conjuntos de dados que refletem a inteligência humana, tais como organização linguística ou dados definidos por especialistas. Esta abordagem pressupõe que a inteligência só pode surgir da exposição a dados naturais inteligentes. No entanto, este estudo testa outra teoria, que sugere que a inteligência pode surgir de modelos treinados com programas simples que produzem comportamentos complexos, mesmo que o processo subjacente não possua inteligência inerente.

O conceito de complexidade decorrente de sistemas simples tem sido explorado em estudos fundamentais em autômatos celulares (CA), onde mesmo pequenas regras podem gerar padrões complexos. A pesquisa de Wolfram e outros mostrou que os sistemas que operam à beira do caos – onde a ordem e a desordem se encontram – apresentam maiores capacidades de integração. A investigação demonstrou que comportamentos complexos podem emergir de regras simples, proporcionando um quadro para a compreensão de como a inteligência pode evoluir a partir da exposição à complexidade, em vez de apenas dados de inteligência. Os avanços recentes nos LLMs também destacam a importância da formação em dados complexos para desenvolver novas competências, enfatizando que tanto o tamanho dos modelos como a complexidade dos dados desempenham um papel importante no desenvolvimento da inteligência.

Pesquisadores das universidades estaduais de Yale, Columbia, Northwestern e Idaho examinaram como a complexidade dos sistemas baseados em regras influencia a inteligência de modelos treinados para prever essas regras. Usando autômatos celulares primários (ECA), sistemas unidimensionais simples com vários graus de complexidade, treinaram diferentes modelos GPT-2 em dados gerados por ECAs. O estudo revelou uma forte ligação entre a dificuldade das regras do ECA e a inteligência dos modelos, indicada pela melhoria do desempenho das tarefas de raciocínio e previsão do xadrez. As suas descobertas sugerem que a inteligência pode advir da capacidade de prever sistemas complexos, especialmente aqueles que estão “à beira do caos”.

O estudo examinou a ligação entre complexidade e inteligência do sistema treinando modelos GPT-2 modificados em dados binários gerados a partir do ECA. Os ECAs são simulados em 1.000 intervalos de tempo, gerando uma sequência de vetores binários. Os modelos são pré-treinados na previsão do próximo token por até 10.000 épocas, usando uma arquitetura modificada para lidar com entradas e saídas binárias. As sequências de treinamento foram amostradas aleatoriamente, e o otimizador de Adam com corte resumido e taxa de aprendizado de plotagem foi usado para garantir um treinamento eficaz. Após o pré-treinamento, os modelos foram testados em tarefas de raciocínio e previsão de movimentos de xadrez.

O estudo examina como a complexidade do sistema afeta o corpo docente dos LLMs. Os resultados mostram que os modelos pré-treinados em regras ECA complexas têm melhor desempenho em tarefas como raciocínio e previsão de movimentos de xadrez, mas a complexidade excessiva, como regras ímpares, pode reduzir o desempenho. Modelos treinados em regras complexas incorporam conhecimento passado para previsões, como mostram seus padrões de atenção. Surpreendentemente, os modelos que preveem o próximo estado tiveram melhor desempenho do que aqueles que preveem as cinco etapas, sugerindo que os modelos complexos aprendem padrões não triviais. No geral, parece haver um nível ideal de complexidade que melhora a inteligência e as capacidades de generalização do modelo.

Em conclusão, o estudo examina como a criatividade se desenvolve em LLMs treinados pela ECA com complexidade regulatória variável. Os resultados mostram que modelos treinados em regras de dificuldade moderada – nem muito fáceis nem muito confusas – têm melhor desempenho em tarefas como raciocínio e previsão de xadrez. Isto apoia a teoria do “limite do caos”, onde a inteligência cresce em sistemas que medem a previsibilidade e a complexidade. A investigação sugere que os modelos aprendem melhor aplicando o conhecimento histórico a tarefas complexas e que a inteligência pode advir da exposição a sistemas com o nível adequado de complexidade.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)

Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Seleção de dados específicos do trabalho: uma abordagem prática para otimizar o desempenho e o desempenho do ajuste fino

Promptfoo: uma ferramenta de IA para avaliação, avaliação e aplicações LLM para colaboração com a equipe vermelha

Revisitando a perda de peso: além da norma na aprendizagem profunda contemporânea

Deixe um comentário Cancelar resposta