Starbucks: uma nova estratégia de treinamento de IA para modelos de incorporação semelhantes a Matryoshka, incluindo fases de ajuste fino e pré-treinamento.

No aprendizado de máquina, a incorporação é amplamente utilizada para representar dados em um espaço vetorial unidimensional compactado. Eles capturam bem as relações semânticas na execução de tarefas como classificação de texto, análise de sentimento, etc. No entanto, eles acham difícil capturar os relacionamentos complexos nas estruturas hierárquicas complexas dos dados. Isso leva a um baixo desempenho e aumento do custo computacional durante o treinamento de incorporações. Pesquisadores da Universidade de Queensland e CSIRO desenvolveram uma nova solução para treinar Embeddings Matryoshka 2D para melhorar sua eficiência, flexibilidade e eficácia em aplicações práticas.

Métodos de incorporação tradicionais, como a incorporação de frases Matryoshka 2D (2DMSE), têm sido usados para representar dados no espaço vetorial, mas têm dificuldade para codificar a profundidade de estruturas complexas. Os nomes são tratados como entidades independentes sem considerar relacionamentos aninhados. Redes neurais superficiais são usadas para mapear essas relações, por isso não conseguem capturar sua profundidade. Esses métodos convencionais apresentam limitações significativas, incluindo integração incorreta de dimensões e camadas do modelo, o que leva à redução do desempenho em tarefas complexas de PNL. O método proposto, Starbucks, para treinamento de Embeddings Matryoshka 2D, foi projetado para aumentar a precisão das representações hierárquicas sem exigir altos custos computacionais.

Esta estrutura inclui duas fases: Starbucks Representation Learning (SRL) e Starbucks Masked Autoencoding (SMAE). SMAE é um poderoso método de treinamento inicial que bloqueia aleatoriamente algumas partes dos dados de entrada que o modelo deveria retornar. Este processo dá ao modelo uma compreensão mais focada das relações semânticas e uma melhor generalização entre dimensões. SRL é uma otimização de modelos existentes usando perdas computacionais associadas a determinados pares de larguras de camada no modelo, o que melhora ainda mais a capacidade do modelo de capturar relacionamentos de dados mais confiáveis e aumentar a precisão e consistência dos resultados. Os resultados dos testes da metodologia Starbucks mostram que ela tem um desempenho muito bom, melhorando as métricas de desempenho relevantes nas tarefas de processamento de linguagem natural dadas, especialmente quando se considera a tarefa de teste de similaridade de texto e comparação semântica, bem como a variação de recuperação de informação.

Duas métricas são usadas para medir o desempenho: Correlação de Spearman e Classificação Recíproca Média (MRR), que mostram em detalhes o que um modelo pode ou não fazer. Testes empíricos de extensos conjuntos de dados confirmaram a robustez e a eficácia da abordagem da Starbucks para uma ampla gama de tarefas de PNL. Testes adequados em ambientes práticos também desempenham um papel fundamental na determinação do desempenho do método: para clareza operacional e confiabilidade, tal análise é essencial. Por exemplo, para a métrica MRR@10 no conjunto de dados MS MARCO, o método Starbucks obteve pontuação de 0,3116. Mostra, portanto, que, em média, os textos correspondentes à consulta apresentam um nível superior ao alcançado pelos modelos treinados com métodos de treinamento “tradicionais”, como 2D Matryoshka Sentence Embeddings (2DMSE).

A abordagem chamada Starbucks aborda os pontos fracos do modelo de incorporação Matryoshka 2D, incorporando um novo método de treinamento que melhora a flexibilidade e o desempenho. Seus poucos pontos fortes incluem a capacidade de igualar ou superar o desempenho de modelos treinados de forma independente e de aumentar a eficiência computacional. Portanto, é necessária validação adicional em ambientes do mundo real para avaliar sua adequação para uma variedade de tarefas de PNL. Este trabalho é importante para o foco específico do treinamento de modelos. Pode fornecer formas de melhorar as aplicações de PNL, o que pode levar ao estímulo de desenvolvimentos futuros em sistemas de IA adaptativos.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)

Afeerah Naseem é estagiária de consultoria na Marktechpost. Ele está cursando bacharelado em tecnologia no Instituto Indiano de Tecnologia (IIT), Kharagpur. Ele é apaixonado por Ciência de Dados e fascinado pelo papel da inteligência artificial na resolução de problemas do mundo real. Ele adora descobrir novas tecnologias e explorar como elas podem tornar as tarefas diárias mais fáceis e eficientes.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

TinyTNAS: uma ferramenta NAS inovadora com reconhecimento de hardware para classificação de série temporal TinyML

Uma revisão sistemática da literatura: estratégias para desenvolver e acelerar LLMs

RxEnvironments.jl: uma abordagem de programação eficaz para simular ambientes de agentes complexos na linguagem Julia

Deixe um comentário Cancelar resposta