Uma das chaves para alcançar resultados de alta qualidade com esses modelos está no design da entrada – as instruções de entrada cuidadosamente projetadas que direcionam o modelo para produzir as respostas desejadas. Apesar da sua importância, a criação rápida é um processo trabalhoso que muitas vezes requer conhecimento específico do domínio e considerável esforço humano. Estas limitações incentivaram o desenvolvimento de sistemas automatizados para refinar e otimizar dados.
Um dos principais desafios da engenharia ágil é confiar em informações manuais para personalizar as informações para cada tarefa específica. Essa abordagem é demorada e precisa ser dimensionada de maneira eficaz para aplicações complexas ou específicas de domínio. Além disso, os métodos de desenvolvimento de dados existentes são geralmente limitados a modelos de código aberto que fornecem acesso a cálculos internos. Os sistemas de caixa preta, tais como modelos proprietários acessíveis apenas através de APIs, apresentam um obstáculo adicional, uma vez que o seu funcionamento interno é obscurecido, tornando ineficazes as técnicas tradicionais baseadas em gradientes. Estas questões realçam a necessidade urgente de soluções que funcionem de forma eficiente com recursos limitados e, ao mesmo tempo, sejam eficazes numa vasta gama de tarefas.
Atualmente, os métodos de melhoria rápida podem ser divididos em duas categorias: métodos contínuos e métodos discretos. Técnicas contínuas, como soft data, dependem de modelos auxiliares para refinar instruções, mas exigem grandes recursos computacionais e não são diretamente aplicáveis a sistemas de caixa preta. Vários métodos, incluindo métodos como PromptBreeder e EvoPrompt, concentram-se na geração de diferentes prompts e na seleção dos de melhor desempenho com base em métricas de avaliação. Embora estas abordagens tenham se mostrado promissoras, muitas vezes requerem mecanismos de feedback sistemáticos para serem desenvolvidas. Eles precisam limitar os testes e o refinamento específico das tarefas, o que leva a resultados mais baixos.
Pesquisadores da Microsoft Research India desenvolveram e abriram o PromptWizard, uma nova estrutura de IA para melhorar prompts em caixas pretas LLM. Esta estrutura usa uma abordagem de crítica e síntese baseada em feedback para refinar iterativamente instruções rápidas e exemplos no carro repetidamente, melhorando o desempenho da tarefa. O PromptWizard se destaca por combinar avaliação guiada com crítica estruturada para garantir o desenvolvimento ideal do conteúdo. Ao contrário dos métodos anteriores, ele alinha requisitos específicos de tarefas com um processo de otimização sistemático, oferecendo uma solução eficiente e escalonável para diversas aplicações de PNL.
O PromptWizard opera em duas fases principais: uma fase de produção e uma fase de determinação do tempo de teste. Durante a fase de geração, o sistema usa LLMs para criar múltiplas variações do prompt base usando heurística cognitiva. Essas variáveis são testadas em relação a exemplos de treinamento para identificar os indivíduos mais bem-sucedidos. A estrutura inclui uma abordagem crítica que analisa os pontos fortes e fracos de cada informação, gerando feedback que informa sucessivas iterações de melhoria. Ao integrar novos paradigmas e cadeias de raciocínio funcionais, o sistema melhora a diversidade e a qualidade da informação. Notificações e exemplos avançados são usados para tarefas que não são visíveis durante o teste, garantindo melhorias consistentes de desempenho. Essa abordagem reduz bastante a sobrecarga computacional, concentrando-se na otimização lógica em vez de variáveis aleatórias, tornando-a adequada para ambientes com uso intensivo de recursos.
O desempenho da estrutura é demonstrado por meio de testes extensivos em 45 tarefas, incluindo conjuntos de dados como Big Bench Instruction Induction (BBII) e benchmarks de raciocínio aritmético como GSM8K, AQUARAT e SVAMP. O PromptWizard alcançou a mais alta precisão em configurações de disparo zero em 13 das 19 tarefas, superando métodos básicos como Instinct e EvoPrompt. Também melhorou a precisão em situações de tiro único, resultando em 16 das 19 carreiras. Por exemplo, alcançou precisão de disparo zero de 90% no GSM8K e 82,3% no SVAMP, demonstrando sua capacidade de lidar com tarefas complexas de imagem com sucesso. Além disso, o PromptWizard reduziu o consumo de tokens e as chamadas de API em até 60 vezes em comparação com diferentes métodos, como o PromptBreeder, com um custo total de US$ 0,05 por transação, tornando-o uma das soluções com melhor custo-benefício disponíveis.
O sucesso do PromptWizard reside na sua combinação inovadora de otimização sequencial, crítica guiada e integração humana especializada, garantindo compreensão e interpretação específicas da tarefa. Os resultados destacam seu potencial para transformar a engenharia ágil, fornecendo uma solução escalável, eficaz e acessível para o desenvolvimento de LLMs em diversos domínios. Este desenvolvimento sublinha a importância da integração de estruturas automatizadas em fluxos de trabalho de PNL, abrindo caminho para uma utilização mais eficiente e económica de tecnologias avançadas de IA.
Confira eu Papel, Um blogde novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)