Nos últimos anos, a rápida medição de grandes idiomas (LLMS) levou ao incrível desenvolvimento de habilidades de entendimento e consulta ambientais. No entanto, a conduta vem com uma advertência importante: respostas produzidas pelas contas um token na época – a garrafa de números do brothe. Como os LLMs crescem em tamanho e dificuldade, a latência e a energia as demandas de uma geração sucessiva do token são importantes. Esses desafios são muito importantes para o uso real do mundo, onde despesas, velocidade e lesão. Métodos decorativos tradicionais, como a ganância ou a forma de pesquisadores, geralmente exigem um teste de multiplicação para modelos grandes, resultando em um computador mais alto. Além disso, mesmo estratégias para decorar decorações semelhantes, a preservação da operação e a qualidade dos resultados podem ser difíceis. Essa situação estimulou as técnicas de pesquisa que podem reduzir o custo da medição sem comprometer a precisão. Os pesquisadores têm examinado métodos híbridos, incluindo modelos fortes com nutrientes fortes, buscando alto equilíbrio entre velocidade e funcionamento – sistemas ativos e grande libertação e grande distribuição nas nuvens.
A pesquisa da Salesforce AI é apresentada pela recompensa direcionada (RSD), a nova estrutura que visa melhorar a eficiência em grandes idiomas da linguagem (LLMS). A coluna vertebral, o RSD define a estratégia de modelo duplo: modelo mais rápido, luz “. Real. Diferentemente das decorações tradicionais, enfatizando o token de solidez entre o rascunho e os modelos, o RSD introduz a controle. Ele foi removido da estratégia estatística que determina que o modelo de destino deve intervir. Detalhados no artigo anexado, esse sistema de sucessos representa as principais críticas no processo de lidar com o desemprego criativo da geração LLMS.
Informações técnicas e benefícios de RSD
Colocando a tecnologia, o RSD serve combinando dois modelos de maneira segura, no entanto, em parceria. Inicialmente, o modelo em guerra produz tokens eleitorais ou medidas para consultar baixos custos competitivos. Cada candidato é avaliado usando um trabalho de recompensa, que está servindo como um portão de qualidade. Se a recompensa da linha superior estiver excedendo um limite limitado, o resultado será aceito; Caso contrário, o sistema custa o modelo mais focado a pagar para produzir token refinado. Esse processo é direcionado pelo trabalho de peso – geralmente a ação de uma etapa binária – remodia para confiar no rascunho do modelo de destino. O poderoso controle de qualidade fornecido pelo Modelo de Recompensa do ProcePlour (PRM) garante que apenas os resultados mais promissores excedam o modelo de destino, preservando assim a complicação. Um dos benefícios desse método de “velocidade”, onde o controle do controlado é prejudicar, mas é uma boa opção para priorizar resultados de recompensa mais altos. Isso resulta em dois objetivos importantes: primeiro, o processo de propriedade completa pode ser 4,4 × imediatamente em comparação com o uso do modelo de destino; Segundo, muitas vezes expressa o desenvolvimento da precisão média de + 3,5 acima de Breesenenes decorativas normais. De fato, o RSD adapta a precisão da precisão – para permitir uma redução significativa na quantidade flutuante de pontos flutuantes (fracassos) enquanto traz resultados no modelo de destino. Antpinnings teóticos e detalhes algorítmicos, como a distribuição da mistura PRSD e o processo transgressivo acordado, fornecem uma estrutura de dedução sólida em vários pensamentos.
Compreensão
A verificação empírica do RSD está forçando. O exame detalhado do artigo mostra que, em bancos desafiadores, como GSM8K, MATT500, Olyembikidbench e GPQA, o RSD envia um maior desempenho. Por exemplo, na referência Math500 – um Daleset projetado para testar o pensamento matemático – RSD recebeu 88.0 precisão quando preparado com um modelo de destino de 72b e o modelo de destino 85.6 composto 8b é válido. Essa configuração não apenas reduz a carga computacional para aproximadamente 4,4 × poucos apartamentos, mas também melhora a precisão atenciosa. Os resultados enfatizam o poder do RSD de maneiras nativas tradicionais, como consideração (DP) e estratégias avançadas, como o feixe ou o melhor dos ne-nems.

Conclusão: Novo paradigma do paradigma relevante de Wellm
Em conclusão, a condenação da correspondência gratificante (RSD) observa um marco em busca da força relevante do LLM. Ao inteligente um modelo circular forte em um modelo forte e gratificante, o RSD lida efetivamente com o dobro de desafios de envolvimento e qualidade da saída. Um novo método de frequência pré-livre permite que o programa escolha a despesa da despesa de efeitos mais altos de recompensa, assim direcionada ao processo de medição. O sistema de controle de alta qualidade – incluído pelo processo de procedimento – garante que os recursos de computação fossem compartilhados em termos, incluindo o modelo de destino, quando necessário. Para efeitos visuais que aparecem até 4,4 × atualizações 4,4
Enquete Página e papel do github. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.
🚨 Recomendado para um código aberto de IA' (Atualizado)

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.
✅ [Recommended] Junte -se ao nosso canal de telégrafo