Capacitando modelos de backbone para geração de texto visual com controle de granularidade de entrada e treinamento com reconhecimento de glifos

A produção de documentos visuais precisos e atraentes com modelos de produção de texto para imagem apresenta um desafio significativo. Embora os modelos baseados em transmissão sejam bem-sucedidos na criação de imagens diversas e de alta qualidade, eles muitas vezes têm dificuldade para produzir texto visual legível e bem posicionado. Problemas comuns incluem erros ortográficos, palavras omitidas e formatação inadequada de texto, especialmente quando produzido em idiomas diferentes do inglês, como o chinês. Essas limitações limitam a aplicabilidade de tais modelos em casos de uso do mundo real, como produção de mídia digital e publicidade, onde a produção precisa de texto visual é crítica.

Os métodos atuais de geração de texto virtual geralmente incorporam texto diretamente na superfície oculta do modelo ou colocam barras verticais durante a geração da imagem. No entanto, esses métodos apresentam limitações. A codificação de pares de bytes (BPE), que é frequentemente usada para criar tokens nesses modelos, divide as palavras em palavras menores, dificultando a geração de texto coerente e legível. Além disso, os mecanismos de atenção cruzada nestes modelos não estão totalmente otimizados, levando a um alinhamento fraco entre o texto visual gerado e os tokens de entrada. Soluções como TextDiffuser e GlyphDraw tentam resolver esses problemas com restrições rígidas de posicionamento ou técnicas de pintura, mas isso geralmente leva a um contraste visual limitado e a uma composição de texto inconsistente. Além disso, a maioria dos modelos atuais lida apenas com texto em inglês, deixando lacunas na sua capacidade de produzir texto preciso em outros idiomas, especialmente em chinês.

Pesquisadores da Universidade de Xiamen, Baidu Inc. e Laboratório de Inteligência Artificial de Xangai introduziram duas inovações principais: controle de granularidade de entrada e treinamento de reconhecimento de glifos. A estratégia de granularidade combinada representa palavras inteiras em vez de subpalavras, superando os desafios impostos pela tokenização BPE e permitindo a geração de texto mais consistente. Além disso, é introduzido um novo programa de treinamento, que inclui três perdas importantes: (1) perda de alinhamento atencional, que melhora os mecanismos de atenção ao melhorar o alinhamento dos tokens de texto; (2) perda local de MSE, que garante que o modelo se concentre em regiões texturais importantes da imagem; e (3) detecção de OCR com perdas, projetada para aumentar a precisão do texto gerado. Essas técnicas combinadas melhoram os aspectos visuais e semânticos da renderização do texto, mantendo a qualidade da composição da imagem.

Este método usa uma estrutura de distribuição difusa com três recursos principais: um Autoencoder Variacional (VAE) para codificação e decodificação de imagens, um denoiser UNet para gerenciar o processo de distribuição e um codificador de texto para lidar com comandos de entrada. Para enfrentar os desafios apresentados pelos tokens BPE, os pesquisadores usaram uma estratégia de granularidade híbrida, tratando as palavras como unidades inteiras em vez de subpalavras. O modelo OCR é ainda mais integrado para extrair recursos em nível de glifo, refinando a incorporação de texto usada pelo modelo.

O modelo foi treinado usando um conjunto de dados composto por 240.000 amostras em inglês e 50.000 amostras em chinês, que foram filtradas para garantir imagens de alta qualidade com texto visual claro e coerente. Foram utilizados os modelos SD-XL e SDXL-Turbo, com treinamento realizado em 10.000 passos com taxa de aprendizado de 2e-5.

Esta solução mostra uma melhoria significativa na precisão da reprodução de texto e no apelo visual. A precisão, a recuperação e as pontuações F1 para a geração de texto em inglês e chinês excedem em muito as dos métodos existentes. Por exemplo, a precisão do OCR chega a 0,360, o que supera outros modelos básicos, como SD-XL e LCM-LoRA. O método produz textos mais legíveis, visualmente atraentes e facilmente integrados às imagens. Além disso, a nova estratégia de treinamento com reconhecimento de glifos permite suporte multilíngue, com o modelo lidando efetivamente com a geração de texto em chinês – uma área onde os modelos anteriores falharam. Estes resultados destacam a capacidade superior do modelo de produzir texto visual preciso e esteticamente agradável, mantendo ao mesmo tempo a qualidade geral das imagens produzidas em diferentes idiomas.

Em conclusão, a abordagem aqui desenvolvida avança o campo da produção de texto visual, abordando desafios críticos relacionados com tokens e mecanismos de atenção. A introdução do controle de granularidade de entrada e do treinamento de reconhecimento de glifos permite a produção de textos precisos e esteticamente agradáveis em inglês e chinês. Estas inovações melhoram o uso prático de modelos de texto para imagem, especialmente em áreas que exigem produção precisa de texto multilíngue.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

Source link

Você também pode gostar...

F5-TTS: um sistema de conversão de texto em fala totalmente adaptável baseado em correspondência de fluxo e transformador de difusão (DiT)

Classificação adaptativa de imagens: treinando grandes redes neurais convolucionais no conjunto de dados ImageNet

Google DeepMind lança Omni×R: uma estrutura de teste abrangente para medir as habilidades de raciocínio de modelos de linguagem omnimodalidade em entrada de texto, áudio, imagem e vídeo

Deixe um comentário Cancelar resposta