Da previsão à inferência: examinando o impacto de o1 nos preconceitos probabilísticos do LLM

Os modelos linguísticos de grande escala (LLMs) têm recebido atenção significativa nos últimos anos, mas compreender as suas capacidades e limitações continua a ser um desafio. Os pesquisadores estão tentando desenvolver maneiras de discutir os pontos fortes e fracos dos sistemas de IA, especialmente dos LLMs. Os métodos atuais muitas vezes carecem de uma estrutura sistemática para prever e analisar esses comportamentos. Isto levou a dificuldades em antecipar como os LLMs irão realizar diversas tarefas, especialmente aquelas que diferem do seu objectivo de formação original. O desafio reside em colmatar a lacuna entre o processo de formação de um sistema de IA e o seu desempenho observado em diversas tarefas, o que requer uma abordagem analítica abrangente.

Neste estudo, pesquisadores do Instituto Wu Tsai, da Universidade de Yale, da OpenAI, da Universidade de Princeton, da Roundtable e da Universidade de Princeton se concentraram na análise do novo programa OpenAI, o1, que foi projetado especificamente para tarefas cognitivas, para descobrir que ele mostra o mesmo ” autorregressões” observadas em – LLM aprovado. Os investigadores utilizam uma perspectiva teleológica, que considera as pressões que moldam os sistemas de IA, para prever e avaliar o desempenho do O1. Esta abordagem testa se a saída de o1 do treinamento para prever a próxima palavra reduz as restrições associadas a esse objetivo. O estudo compara o desempenho do o1 e de outros LLMs em diferentes tarefas, examinando sua sensibilidade à probabilidade de saída e à frequência da tarefa. Além disso, os pesquisadores introduziram uma métrica robusta – o número de tokens durante a geração da resposta – para medir a dificuldade da tarefa. Esta análise abrangente visa revelar se o1 representa uma melhoria significativa ou ainda mantém os padrões comportamentais ligados ao treino para adivinhar a próxima palavra.

Os resultados do estudo revelam que o1, embora apresente uma melhoria significativa em relação aos LLMs anteriores, ainda apresenta sensibilidade à probabilidade de produção e à frequência da atividade. Em quatro tarefas (cifras de deslocamento, Pig Latin, troca de artigos e transposição), o1 mostrou maior precisão em exemplos com resultados de alta probabilidade em comparação com aqueles de baixa probabilidade. Por exemplo, na função de cifra de deslocamento, a precisão de o1 varia de 47% nos casos menos prováveis a 92% nos casos mais prováveis. Além disso, o1 consumiu mais tokens ao processar exemplos de baixa probabilidade, indicando maior dificuldade. Em relação à frequência da tarefa, o1 inicialmente apresentou desempenho semelhante em diferentes itens comuns e raros, superando outros LLMs em variedades raras. No entanto, quando testado em versões mais desafiadoras de programação e alteração de funções de cifra, o1 mostrou melhor desempenho do que a variante normal, sugerindo que os efeitos de frequência da função são evidentes quando o modelo é levado ao seu limite.

Os pesquisadores concluíram que o1, apesar de sua melhoria significativa em relação aos LLMs anteriores, ainda mostra sensibilidade à probabilidade de saída e à frequência de atividade. Isto corresponde a uma perspectiva teleológica, que considera todos os processos de desenvolvimento utilizados num sistema de IA. O forte desempenho do O1 em tarefas algorítmicas reflete seu processamento transparente de raciocínio. No entanto, os padrões comportamentais observados sugerem que o1 pode ter recebido treinamento extensivo para adivinhar a próxima palavra. Os pesquisadores propõem duas fontes possíveis para a possível sensibilidade de o1: um viés na geração de texto inerente a sistemas otimizados para previsão estatística e um viés no desenvolvimento de cadeias de pensamento que favorecem os cenários mais prováveis. Para superar essas limitações, os pesquisadores sugerem incluir componentes do modelo que não dependam de julgamentos probabilísticos, como módulos que executam código Python. Finalmente, embora o1 represente um grande avanço nas capacidades de IA, ainda mantém vestígios do seu treinamento automático, indicando que o caminho para a AGI continua a ser influenciado pelas técnicas básicas utilizadas no desenvolvimento de modelos de linguagem.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!

Asjad é consultor estagiário na Marktechpost. Ele está cursando B.Tech em engenharia mecânica no Instituto Indiano de Tecnologia, Kharagpur. Asjad é um entusiasta do aprendizado de máquina e do aprendizado profundo que pesquisa regularmente a aplicação do aprendizado de máquina na área da saúde.

Source link

Você também pode gostar...

DIFFUSEARCH: Revolucionando a IA do xadrez com pesquisa difusa e modelo de classificação diferencial

AutoRAG: uma ferramenta automatizada para desenvolver pipelines de produção com recuperação aumentada

Lingma SWE-GPT: soluções pioneiras assistidas por IA para desafios de desenvolvimento de software com novos modelos de código aberto

Deixe um comentário Cancelar resposta