Melhorando o processamento de conteúdo de longo prazo com Role-RL: uma estrutura de aprendizagem por reforço para o uso eficaz de um modelo de idioma amplo

O treinamento de modelos de linguagem em larga escala (LLMs) que possam lidar com o processamento de conteúdo de longo alcance ainda é uma tarefa desafiadora devido às restrições de indisponibilidade de dados, complexidade de implementação e eficiência de treinamento. Trabalhar com documentos de lapso de tempo, comuns em formatos de mídia modernos, como atualizações automatizadas de notícias, plataformas de comércio de streaming ao vivo e curtas-metragens, deixa essas questões muito claras. O Processamento Online de Longo Contexto (OLP) é um novo paradigma usado para superar isso.

O paradigma OLP é projetado especificamente para gerenciar e processar grandes quantidades de dados em tempo real, organizando e avaliando vários fluxos de mídia à medida que eles chegam. OLP pode ajudar a categorizar e categorizar as transcrições em áreas relevantes, como descrições de produtos e discussões de preços. , ou interação com o cliente, no comércio eletrônico ao vivo. Pode ajudar a organizar um fluxo contínuo de dados de notícias em grupos como fatos, opiniões e suposições em reportagens automatizadas, melhorando a precisão das informações e a facilidade de uso.

No entanto, tentar escolher o melhor LLM disponível a partir de uma coleção cada vez maior de modelos apresenta algumas dificuldades. É um desafio identificar um modelo com bom desempenho em todas essas áreas porque cada uma é diferente em termos de custo, tempo de resposta e desempenho. Para responder a este problema, uma estrutura conhecida como Role Reinforcement Learning (Role-RL) foi apresentada em um artigo de pesquisa recente da South China Normal University, da Universidade de Toronto e da Universidade de Zhejiang. Role-RL usa dados de desempenho em tempo real para automatizar a implantação de vários LLMs na fila OLP de acordo com suas respectivas funções.

Cada LLM é avaliado pelo Role-RL com base nas principais métricas de desempenho, como velocidade, precisão e economia. O Role-RL maximiza a eficiência geral do sistema, capacitando cada LLM para as tarefas mais apropriadas com base nesta avaliação. Desta forma, os recursos podem ser utilizados de forma mais eficiente, garantindo que LLMs eficientes assumam as tarefas mais importantes e que modelos mais económicos sejam utilizados para processos mais simples.

Uma extensa pesquisa no conjunto de dados OLP-MINI revelou que a estrutura combinada de OLP e Role-RL rendeu benefícios tangíveis. Com uma taxa média de recuperação de 93,2%, atingiu o benchmark OLP, demonstrando a capacidade do sistema de recuperar informações confiáveis e comuns. Este framework também foi responsável pela redução de custos em 79,4% das implantações de LLM, demonstrando eficiência econômica além de sua eficiência.

A equipe resume suas principais contribuições da seguinte forma.

Foi introduzida uma estrutura de Aprendizagem por Reforço de Papéis (Role-RL), que visa colocar diferentes LLMs em funções que melhor lhes convêm com base em seu desempenho em tempo real em tarefas específicas. Isso garante que os LLMs sejam usados da maneira mais eficiente e precisa possível.

Para gerenciar operações de longo contexto, a equipe propôs um pipeline Online Long-context Processing (OLP). O Pipeline processa e organiza dados de documentos longos ou fluxos de mídia com eficiência. O conjunto de dados OLP-MINI também é apresentado para validação e teste.

Uma taxa de recall estimada de 93,2% foi alcançada usando a estrutura Role-RL em conjunto com o pipeline OLP. A estrutura também reduziu os custos do LLM em 79,4%. Além disso, a taxa de recuperação aumenta em 53,6% usando o pipeline OLP em oposição a processos não-OLP.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!

Tanya Malhotra está em seu último ano na Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação com especialização em Inteligência Artificial e Aprendizado de Máquina.
Ele é um entusiasta de Data Science com forte pensamento analítico e analítico, e grande interesse em adquirir novas habilidades, liderar equipes e gerenciar o trabalho de forma organizada.

Source link

Você também pode gostar...

MinerU: uma ferramenta de extração de dados PDF de código aberto

FaithEval: um novo e abrangente benchmark de IA dedicado à avaliação de fé baseada em LLM em três tarefas diferentes – condições sem resposta, incongruentes e controversas

Google AI Research apresenta Caravan MultiMet: uma nova extensão do Caravan para melhorar a previsão hidrológica com dados multimeteorológicos

Deixe um comentário Cancelar resposta