InstructG2I: um modelo gráfico estável com reconhecimento de distribuição para combinar imagens de gráficos atribuídos multimodais

Gráficos Atribuídos Multimodais (MMAGs) têm recebido pouca atenção, apesar de sua versatilidade na geração de imagens. Os MMAGs representam os relacionamentos entre entidades com complexidade agregada de forma gráfica. Os nós em um gráfico contêm informações de imagem e texto. Comparados aos modelos de processamento de texto ou imagem, os gráficos podem ser transformados em imagens melhores e mais informativas. Graph2Image é um desafio interessante na área que requer modelos generativos para combinar o estado de uma imagem em descrições textuais e conexões gráficas. Embora os MMAGs sejam úteis, eles não podem ser incorporados diretamente no contexto da imagem e do texto.

A seguir estão os desafios mais relevantes no uso de MMAGs na composição de imagens:

Explodindo no tamanho do gráfico– Esta situação ocorre devido à complexidade combinada do gráfico, onde o tamanho aumenta significativamente à medida que o introduzimos em submodelos locais, incluindo imagens e texto.
Empresas com gráfico de dependência – As características nodais são mutuamente dependentes, portanto, sua proximidade reflete a relação entre entidades no texto e na imagem e as preferências na produção de imagens. Para dar um exemplo disso, produzir uma camisa com cor clara deve ter preferência por tons claros como pastéis.
Necessidade de controle na situação gráfica – A interpretação das imagens geradas deve ser controlada para seguir os padrões ou características desejadas definidas pelas conexões entre as entidades do gráfico.

Uma equipe de pesquisadores da Universidade de Illinois criou o InstructG2I para resolver esse problema. Este é um modelo de distribuição gráfica sensível ao contexto que usa informações gráficas heterogêneas. Essa abordagem aborda a complexidade do espaço gráfico compactando temas de gráficos em tokens de configuração de gráfico de volume fixo que são otimizados com amostras de gráficos personalizados baseados em PageRank. A arquitetura Graph-QFormer melhora ainda mais esses tokens de gráfico, resolvendo o problema de dependência de entidade de gráfico. Por fim, o InstructG2I orienta a criação de uma imagem com altura ajustável.

InstructG2I apresenta condições de gráfico em particionamento estável com amostragem de vizinhança baseada em PPR. PPR ou PageRank personalizado identifica nós relacionados em uma estrutura gráfica. Para garantir que as imagens geradas estejam semanticamente relacionadas ao nó alvo, uma função de cálculo de similaridade baseada em semântica é usada para classificação. Este estudo também propõe o Graph-QFormer, que é um módulo de dois transformadores para captura baseada em texto e imagem. Graph-QFormer usa atenção multicabeças para dependências de imagem e atenção multicabeças para dependências de imagem de texto. A camada de atenção cruzada alinha recursos de imagem com instruções de texto. Ele usa formas ocultas da camada de foco como entrada e incorporação de texto como uma consulta para gerar imagens relevantes. As saídas finais dos dois transformadores Graph-QFormer são tokens de informação gráfica condicionados que direcionam o processo de geração de imagem para o modelo de distribuição. Finalmente, é usado um algoritmo sem classificador que é basicamente um método para ajustar a força dos gráficos.

O InstructG2I foi testado em três conjuntos de dados de domínios diferentes – ART500K, Amazon e Goodreads. Para métodos de texto para imagem, Stable Diffusion 1.5 foi determinado como modelo base, e para métodos de imagem para imagem, InstructPix2Pix e ControlNet foram selecionados para comparação; ambos inicializados com SD 1.5 e ajustados para conjuntos de dados selecionados. Os resultados do estudo mostraram uma melhoria dramática em relação aos modelos de base em ambas as tarefas. O InstructG2I superou todos os modelos de linha de base nas pontuações CLIP e DINOv2. Para avaliar a qualidade, o InstructG2I produziu imagens que melhor correspondem à semântica da informação do texto e ao contexto do gráfico, garantindo a reprodução do conteúdo e da condição conforme aprendeu com os vizinhos do gráfico e transmite a informação com precisão.

O InstructG2I resolveu com sucesso os principais desafios de clustering, dependências entre entidades e controle em gráficos atribuídos multimodais e ultrapassou a linha de base na geração de imagens. Nos próximos anos, haverá muitas oportunidades para trabalhar e integrar Gráficos na produção de imagens, grande parte das quais envolve lidar com as diversas relações complexas entre imagem e texto em MMAGs.

Confira Papel, O códigode novo Detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)

Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.

Source link

Você também pode gostar...

Este artigo sobre IA apresenta um esboço abrangente de carreiras de engenharia de software orientadas por LLM

MOS-Bench: uma coleção completa de conjuntos de dados para modelos de treinamento e teste para avaliação de qualidade de fala de sujeito (SSQA)

O que é coleta de dados? Tudo que um iniciante precisa saber

Deixe um comentário Cancelar resposta