NVIDIA Research apresenta ChipAlign: uma nova abordagem de IA usando uma estratégia de alinhamento sem modelo, combinando o poder do LLM alinhado ao padrão e das instruções com o LLM específico do chip.

Os cursos de linguística (LLMs) encontraram aplicações em vários setores, automatizando tarefas e melhorando a tomada de decisões. No entanto, quando usados em domínios especializados, como design de chips, eles enfrentam desafios únicos. Modelos específicos de domínio, como o ChipNeMo da NVIDIA, muitas vezes enfrentam dificuldades com o alinhamento – a capacidade de seguir comandos humanos precisos. Essa limitação reduz sua eficácia em tarefas como a produção de documentos precisos para automação de projetos eletrônicos (EDA) ou assistência a engenheiros de hardware. Para serem verdadeiramente úteis, estes modelos precisam de combinar uma forte experiência no domínio com capacidades fiáveis de seguimento de comandos, uma lacuna que permanece por resolver.

Pesquisa NVIDIA apresenta ChipAlign

NVIDIA ChipAlign aborda esses desafios combinando os pontos fortes do LLM tradicional alinhado ao ensino e do LLM específico de chip. Esta abordagem evita a necessidade de um extenso treinamento e, em vez disso, usa uma estratégia para agrupar o modelo sem treinamento. Em sua essência está a interpolação geodésica, uma técnica que trata os pesos do modelo como pontos no espaço geométrico, permitindo uma integração suave de suas capacidades.

Ao contrário do aprendizado multitarefa tradicional, que requer grandes conjuntos de dados e recursos computacionais, o ChipAlign integra diretamente modelos pré-treinados. Esta abordagem garante que o modelo resultante preserve os pontos fortes de ambas as entradas, fornecendo uma solução eficiente para integração de informações especializadas e alinhamento de instruções.

Detalhes técnicos e benefícios

ChipAlign alcança seus resultados por meio de uma série de etapas cuidadosamente projetadas. Os pesos dos LLMs são específicos do chip e as instruções são direcionadas para a n-esfera, o que permite a translação geodésica no caminho mais curto entre os dois conjuntos. Os pesos combinados são então redimensionados para manter suas propriedades originais.

As principais vantagens do ChipAlign incluem:

Não é necessária reciclagem: O método elimina a dependência de conjuntos de dados proprietários e custos de retreinamento.
Alinhamento de instrução aprimorado: Alcança melhorias significativas, incluindo uma melhoria de 26,6% nos benchmarks seguindo instruções.
Manutenção de Especialistas em Domínio: Armazena informações importantes sobre funções EDA, projeto de circuitos e áreas relacionadas.
Bom desempenho: Com complexidade de tempo linear, o ChipAlign pode lidar com modelos grandes sem requisitos excessivos de computação.

Resultados e detalhes

Os resultados do benchmark mostram a eficiência do ChipAlign:

Você tem Referência IFvalChipAlign mostra uma melhoria de 26,6% no alinhamento das instruções.
Para tarefas específicas de domínio, como Referência de controle de qualidade do OpenROADatinge uma pontuação 6,4% maior para ROUGE-L em comparação com outras técnicas de agrupamento de modelos.
No controle de qualidade de chips industriais, o ChipAlign supera os modelos básicos em até 8,25%, destacando-se em cenários de volta única e multivoltas.

Uma análise de sensibilidade mostra que definir o hiperparâmetro λ em 0,6 aproxima melhor o alinhamento das instruções com informações específicas do domínio.

A conclusão

ChipAlign mostra como novas técnicas podem preencher lacunas com grandes modelos de linguagem. Ao combinar experiência de domínio com fortes capacidades para seguir instruções, fornece uma solução eficiente para desafios no design de chips. Esta abordagem poderá também estimular o desenvolvimento noutros domínios especializados, sublinhando a importância crescente de soluções de IA flexíveis e eficazes. O trabalho da NVIDIA destaca que um design cuidadoso pode tornar as ferramentas de IA mais eficientes e amplamente aplicáveis.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Pesquisa NVIDIA apresenta ChipAlign

Detalhes técnicos e benefícios

Resultados e detalhes

A conclusão

Você também pode gostar...

Pesquisadores do Google desenvolvem AlphaQubit: um decodificador baseado em aprendizado profundo para computação quântica

Amazon apresenta Amazon Nova: uma nova geração de modelos básicos SOTA que oferecem inteligência de ponta e desempenho líder do setor

Este aprendizado de máquina revela como grandes modelos de linguagem LLM funcionam como cadeias de Markov para desbloquear seu poder oculto

Deixe um comentário Cancelar resposta