O campo das arquiteturas de redes neurais tem visto um rápido desenvolvimento à medida que os pesquisadores exploram novas maneiras de melhorar a eficiência computacional, mantendo ou melhorando o desempenho do modelo. As redes densas convencionais dependem fortemente de operações matriciais dispendiosas para codificar e armazenar informações. Essa confiança representa desafios ao dimensionar esses modelos para aplicações do mundo real que exigem amplo armazenamento e recuperação de informações. Pesquisas recentes concentraram-se no refinamento das arquiteturas existentes para equilibrar os requisitos de computação e memória, abrindo caminho para sistemas de IA escaláveis e energeticamente eficientes.
As limitações dos modelos existentes são o seu fraco desempenho no tratamento de entidades factuais simples, tais como relações entre entidades ou factos numéricos. Modelos de transformadores densos, embora eficientes na representação de padrões complexos, requerem maiores recursos computacionais à medida que sua contagem de parâmetros aumenta. Esta ineficiência é um problema ao executar tarefas que exigem precisão factual, como responder a perguntas, onde a capacidade de recordar informações específicas é importante. O desafio reside em encontrar maneiras que permitam aos modelos armazenar e recuperar informações sem aumentar significativamente as demandas de computação ou o uso de memória. A necessidade de soluções que sejam bem dimensionadas com o aumento do tamanho dos parâmetros e dos requisitos de dados está se tornando mais urgente.
Técnicas atuais, como modelos de mistura de especialistas (MOE), foram desenvolvidas para enfrentar alguns destes desafios. O MOE introduz dispersão ativando apenas um pequeno conjunto de seus parâmetros para uma determinada entrada, reduzindo a sobrecarga computacional em comparação com modelos totalmente densos. No entanto, as estruturas MOE muitas vezes falham em tarefas que exigem recordação precisa e representação de informações gerais. Além disso, esses métodos geralmente exigem projetos complexos e são difíceis de implementar em grande escala. Apesar disso, Os modelos MOE têm lutado para responder plenamente às crescentes exigências de estruturas eficientes e incontroláveis, levando os investigadores a explorar outras abordagens.
Para avançar no uso de camadas de memória na arquitetura de IA, pesquisadores da FAIR e Meta estão se concentrando em medir e melhorar seu desempenho. Originalmente propostas como uma forma de procurar um valor-chave, as camadas de memória demonstraram a capacidade de armazenar e recuperar informações de forma eficiente. Os metapesquisadores integraram essas camadas de memória em um projeto de transformador, alterando as redes feed-forward para várias configurações. Este esforço representa uma melhoria dupla na capacidade de memória, com até 128 mil milhões de blocos de memória. Ao atualizar e melhorar as camadas de memória, a equipe demonstrou sua capacidade de superar modelos densos e MOE em vários benchmarks, especialmente aqueles que exigem precisão real e recuperação de informações.
O design refinado da camada de memória inclui incorporação de valores-chave treináveis e usa menos padrões de ativação para melhorar o desempenho. A pesquisa de chave de produto, um processo que divide as chaves em subconjuntos para uma pesquisa eficiente, permite o dimensionamento de camadas de memória sem aumentar a complexidade computacional. As operações de memória paralela em GPUs aumentam a eficiência, permitindo que o sistema lide com milhões de chaves enquanto mantém uma carga de computação gerenciável. Nas implementações anteriores, os kernels CUDA personalizados melhoraram o desempenho da memória, atingindo limites de largura de banda da GPU próximos de 3 TB/s em comparação com menos de 400 GB/s.
Na análise, por exemplo, um modelo de 1,3 bilhão de parâmetros com camadas de memória alcançou precisão comparável a modelos mais densos com o dobro dos requisitos computacionais. Em tarefas autênticas de resposta a perguntas, como NaturalQuestions e TriviaQA, os modelos com memória aprimorada mostraram um aumento de mais de 100% na precisão. Testes de benchmark revelaram que modelos de memória com 64 milhões de chaves e 128 bilhões de parâmetros de memória se aproximaram do desempenho do modelo Llama2 7B, que exigia mais recursos computacionais. Além disso, os modelos com memória aprimorada mostraram taxas de aprendizagem mais rápidas, alcançando maior precisão com menos tokens de treinamento.
Várias conclusões do estudo incluem:
- As camadas de memória melhoraram o desempenho em benchmarks de resposta a consultas em tempo real, com modelos mais densos que efetivamente duplicam os recursos de computação.
- Este método cresceu livremente em todos os parâmetros de tamanho, até 128 bilhões de parâmetros de memória e mostra uma melhoria consistente na precisão.
- Kernels CUDA personalizados maximizaram a largura de banda da GPU, garantindo implementação eficiente de operações de memória.
- Os modelos com memória aprimorada alcançaram resultados mais elevados no início do treinamento, demonstrando sua capacidade de aprender de forma eficiente com menos tokens.
- Os pools de memória compartilhada permitem uma combinação estratégica de camadas densas e de memória, melhorando a eficiência da computação e da memória.
Concluindo, o estudo Meta FAIR melhora a robustez e usabilidade das camadas de memória em modelos de IA. O estudo enfatiza o poder das camadas de memória para enfrentar os principais desafios no projeto de redes neurais, refinando as implementações e demonstrando sua eficácia em uma variedade de tarefas. Estas descobertas destacam uma direção promissora, fornecendo ferramentas para medir as demandas de computação e melhorar a capacidade de armazenamento.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)