Transformador pré-treinado generativo de gráfico (G2PT): um modelo autoregressivo projetado para aprender estruturas de gráfico com previsão do próximo token

A modelagem de grafos é uma atividade importante em diversos campos, incluindo design molecular e análise de redes sociais, devido à sua capacidade de exibir relacionamentos complexos com dados estruturados. Apesar dos avanços recentes, a maioria dos modelos de geração de grafos ainda depende fortemente da representação de matrizes de adjacência. Embora eficientes, esses métodos podem ser computacionalmente exigentes e muitas vezes inflexíveis. Isso pode dificultar a captura eficaz de dependências complexas entre nós e arestas, especialmente em gráficos grandes e pequenos. Os métodos atuais, incluindo modelos baseados em difusão e autorregressivos, enfrentam desafios de medição e precisão, destacando a necessidade de soluções mais refinadas.

Pesquisadores da Tufts University, Northeastern University e Cornell University desenvolveram o Graph Generative Pre-trained Transformer (G2PT), um modelo auto-regressivo projetado para aprender estruturas gráficas prevendo o próximo token. Ao contrário dos métodos tradicionais, o G2PT usa uma representação de gráficos baseada em sequência, codificando nus e arestas como uma sequência de tokens. Essa abordagem simplifica o processo de modelagem, tornando-o mais eficiente e escalável. Usando um decodificador conversor de previsão de token, o G2PT gera gráficos que mantêm a integridade estrutural e a flexibilidade. Além disso, o G2PT é adaptável a tarefas posteriores, como geração de gráficos orientados a objetivos e previsão de estrutura de gráficos, tornando-o uma ferramenta versátil para uma variedade de aplicações.

Detalhes técnicos e benefícios

G2PT introduz uma representação baseada em sequência que divide os gráficos em descrições de nós e arestas. O nó define ponteiros e tipos de dados, enquanto as definições de borda expressam conexões e rótulos. Este método passa de exibir a matriz de adjacência focando apenas em suas arestas, reduzindo o mínimo e a complexidade computacional. Um decodificador de transformador modela efetivamente essa sequência com a seguinte projeção de token, proporcionando diversas vantagens:

Bom desempenho: Ao lidar apenas com arestas existentes, o G2PT reduz a sobrecarga computacional.
Escalabilidade: A arquitetura é adequada para lidar com gráficos grandes e complexos.
Adaptabilidade: O G2PT pode ser adaptado para diferentes tarefas, melhorando a sua aplicação em todos os domínios, como design molecular e análise de redes sociais.

Os pesquisadores também exploraram métodos de otimização para tarefas como geração orientada a objetivos e previsão de propriedades de gráficos, aumentando o desempenho do modelo.

Resultados e detalhes do teste

G2PT mostrou forte desempenho em vários conjuntos de dados e tarefas. Ao gerar gráficos gerais, iguale ou exceda o desempenho dos modelos existentes em todos os sete conjuntos de dados. Na representação gráfica molecular, o G2PT apresentou alta validade e pontuações únicas, indicando sua capacidade de capturar com precisão detalhes estruturais. Por exemplo, no conjunto de dados MOSES, G2PTbase alcançou uma pontuação de validação de 96,4% e uma pontuação distinta de 100%.

Na geração orientada a objetivos, o G2PT é alinhado aos gráficos gerados com propriedades desejáveis usando técnicas de ajuste fino, como amostragem de rejeição e aprendizagem por reforço. Esses métodos permitem que o modelo adapte seus resultados de forma eficaz. Da mesma forma, em tarefas preditivas, a incorporação do G2PT proporcionou resultados competitivos em todos os benchmarks de arquitetura molecular, reforçando a sua adequação tanto para tarefas generativas como preditivas.

A conclusão

O Graph Generative Pre-trained Transformer (G2PT) representa um avanço conceitual na geração de gráficos. Ao usar representação baseada em sequência e modelagem baseada em transformador, o G2PT aborda muitas das limitações dos métodos tradicionais. Sua combinação de eficiência, extensibilidade e flexibilidade o torna um recurso valioso para pesquisadores e profissionais. Embora o G2PT mostre sensibilidade à ordenação de gráficos, uma exploração mais aprofundada de métodos de ordenação de arestas globais e discretos pode melhorar sua robustez. G2PT é um exemplo de como novas representações e técnicas de modelagem podem avançar no campo da geração de grafos.

Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 Siga-nos no X (Twitter) para pesquisas gerais sobre IA e atualizações de desenvolvimento aqui…

Source link

Detalhes técnicos e benefícios

Resultados e detalhes do teste

A conclusão

Você também pode gostar...

Fixie AI apresenta Ultravox v0.4.1: uma família de modelos de fala aberta especialmente treinados para fornecer conversação em tempo real com LLMs e outros pesos abertos para GPT-4o em tempo real

Cohere AI lança Command R7B: o menor, mais rápido e último modelo da série R

Avaliação Abrangente de Modelos de Linguagem de Visão (VHELM): Estendendo a Estrutura HELM para VLMs

Deixe um comentário Cancelar resposta