SemiKong: um modelo de código aberto para o processo de fabricação de semicondutores

Os semicondutores são essenciais para alimentar uma variedade de dispositivos eletrônicos e impulsionar o desenvolvimento nos setores de telecomunicações, automotivo, saúde, energia renovável e IoT. Na fabricação e design de semicondutores, duas fases principais, FEOL e BEOL, apresentam desafios únicos. Os LLMs são treinados em grandes quantidades de dados textuais usando técnicas de aprendizagem supervisionada que podem capturar informações de domínio ricas e também podem ajudar em atividades como avaliação de leis de design, projeto estrutural e avaliação de locais. Circuito Integrado (CI) o projeto. Os LLMs permitem a produção de novos projetos que aderem a critérios especificados e otimizam as métricas de desempenho desejadas, aprendendo com grandes layouts de IC e conjuntos de dados para regras de projeto. Porém, a maioria dos modelos são gerais e não possuem conhecimento específico da indústria de semicondutores. Isso apresenta problemas únicos, como a complexa física e química de dispositivos e processos semicondutores.

Atualmente, os LLMs são modelos de uso geral que, apesar de suas capacidades, requerem conhecimento altamente especializado em tarefas específicas da indústria de semicondutores. A Inteligência Artificial (IA) avançou na fabricação de semicondutores, melhorando a otimização de máscaras e a detecção de pontos de acesso por meio de aprendizado de máquina, aprendizado de reforço profundo e conjuntos de dados como o LithoBench. Na indústria de semicondutores, grandes modelos de linguagem de domínio específico (LLMs), como ChipGPT e ChatEDA, superaram os modelos convencionais para tarefas como codificação, depuração e assistência de chatbot. Os LLMs também exploram tarefas de geração de linguagem natural, usando feedback de especialistas para desenvolver benchmarks e enfrentar desafios em testes complexos específicos de domínios.

Combinando os pontos fortes do LLM na indústria de semicondutores, pesquisadores de Aitomatic Inc., FPT Software AI Center e Tokyo Electron Ltd realizou um estudo detalhado e propôs Semi-Kongo primeiro LLM específico do setor para o domínio de semicondutores que fornece a base para o desenvolvimento de modelos proprietários personalizados. O SemiKong 1.0 concentra-se na construção de modelos básicos com uma compreensão de nível especializado de problemas de gravação. Essa abordagem combina modelos de treinamento com extensos dados específicos de domínio. O processo de treinamento foi dividido em duas etapas: pré-treinamento e ajuste fino.

Existem vários conjuntos de dados de alta qualidade para o domínio de semicondutores. Para resolver isso, surgiu um grande conjunto de dados baseados em texto focado em conceitos de semicondutores e problemas de integração, incluindo dados de pré-treinamento de livros técnicos, artigos e patentes, bem como dados instrucionais com 50.000 perguntas. Ferramentas como o GPT-4o-mini cuidavam da formatação, enquanto o GPT-4o gerava e respondia a consultas específicas. O modelo SemiKong foi treinado em três etapas. Primeiro, foi pré-treinado usando pontos de teste Llama3 para aprender sobre a indústria de semicondutores. Em seguida, ele passa por uma remediação supervisionada para melhorar sua capacidade de lidar com tarefas como responder perguntas e pensar. Por fim, o modelo foi ajustado com quantização para torná-lo adequado para aplicações do mundo real, adquirindo conhecimento aprofundado sobre a fabricação de semicondutores ao longo do caminho. Os pesquisadores usaram 8 GPUs NVIDIA A100 de 80 GB para treinamento para melhor desempenho e velocidade de treinamento.

O teste do modelo SemiKong envolveu a comparação de seu desempenho em vários aspectos, incluindo Clareza e Compreensibilidade (C&D), Funcionalidade Altamente Utilizável (PIU), Eficiência e Robustez (E&B), Fluxo Lógico e Coerência (LFC), Especialista para Especialista. Comunicação (EEC) e utilização de exemplos e especificações (UES). As experiências mostraram que o ajuste fino por si só não melhorou significativamente o desempenho, uma vez que o conhecimento específico do domínio era importante. Quando o pré-treinamento foi combinado com o ajuste fino, o desempenho melhorou. Modelos grandes com parâmetros 70B tiveram melhor desempenho que os pequenos, o modelo SemiKong 70B é o melhor em todos os sentidos.

Em resumo, o método proposto forneceu uma solução robusta para integração da tecnologia LLM com a indústria de semicondutores e alcançou excelente desempenho. Funcionou melhor do que o modelo básico de código aberto. No entanto, o SemiKong ainda está em seus estágios iniciais e ainda há um trabalho significativo. Este projeto que integra a mais recente tecnologia LLM na fabricação pode servir de base para pesquisas futuras na área de semicondutores e mudá-la para sempre!

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.

Divyesh é estagiário de consultoria na Marktechpost. Ele está cursando BTech em Engenharia Agrícola e Alimentar pelo Instituto Indiano de Tecnologia, Kharagpur. Ele é um entusiasta de Ciência de Dados e Aprendizado de Máquina que deseja integrar essas tecnologias avançadas no domínio agrícola e resolver desafios.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

Você também pode gostar...

LLaMA-Mesh: um novo método de IA que integra geração de malha 3D com grandes modelos de linguagem, representando malhas como texto simples

Nexusflow lança Athena-V2: conjunto de modelos aberto 72B comparado ao GPT-4o em todos os benchmarks

3 perguntas: como provar humanidade online | Notícias do MIT

Deixe um comentário Cancelar resposta