O aprendizado de máquina para modelagem preditiva visa prever resultados com base nos dados de entrada com precisão. Um dos principais desafios neste campo é a “familiarização do domínio”, que lida com a disparidade entre situações de treinamento e recursos, especialmente quando os modelos são expostos a situações novas e diferentes após o treinamento. Este desafio é importante para conjuntos de dados tabulares financeiros, de saúde e de ciências sociais, onde as condições dos dados subjacentes mudam frequentemente. Tais mudanças podem reduzir significativamente a precisão das previsões, uma vez que muitos modelos são inicialmente treinados sob pressupostos específicos que não são verdadeiros quando as condições mudam. Compreender e abordar estas mudanças é fundamental para construir modelos flexíveis e robustos para aplicações do mundo real.
Um grande problema na modelagem preditiva é a mudança na relação entre os fatores (X) e os resultados alvo (Y), comumente conhecidos como mudanças Y|X. Estas variáveis podem resultar de informações em falta ou de variáveis confusas que diferem entre condições ou populações. A transformação Y|X é particularmente desafiadora para dados tabulares, onde a ausência ou alteração de variáveis importantes pode distorcer os padrões aprendidos, levando a previsões incorretas. Os modelos atuais enfrentam dificuldades em tais situações, pois a sua dependência de relações de destino fixas limita a sua flexibilidade a novas situações de dados. Portanto, o desenvolvimento de métodos que permitam que os modelos aprendam com apenas alguns exemplos rotulados em um novo contexto, sem um extenso treinamento, é importante para aplicações práticas.
Métodos tradicionais, como árvores de aumento de gradiente e redes neurais, têm sido amplamente utilizados na modelagem de dados tabulares. Embora eficazes, estes modelos devem ser atualizados quando aplicados a dados que diferem significativamente das condições de formação. O uso recente de modelos linguísticos de larga escala (LLMs) representa uma abordagem emergente para este problema. Os LLMs podem codificar mais informações contextuais em recursos, o que os pesquisadores acreditam que pode ajudar os modelos a ter um melhor desempenho quando as distribuições de treinamento e de dados de destino não correspondem. Esta nova estratégia de adaptação é poderosa, especialmente em situações em que os modelos tradicionais lutam com a diversidade de domínios.
Pesquisadores da Universidade de Columbia e da Universidade de Tsinghua desenvolveram uma nova abordagem que usa a incorporação de LLM para enfrentar o desafio da adaptação. Seu método envolve a conversão de dados tabulares em formato de texto serializado, que é então processado por um codificador LLM avançado chamado e5-Mistral-7B-Instruct. Esses documentos estruturados são convertidos em incorporações, ou representações numéricas, que capturam informações significativas sobre os dados. A incorporação é então aplicada a uma rede neural superficial treinada no domínio original e ajustada para uma subamostra rotulada dos dados de destino. Ao fazer isso, o modelo pode aprender muitos padrões comuns na distribuição de novos dados, tornando-o mais resiliente a mudanças no ambiente de dados.
Este método usa o codificador e5-Mistral-7B-Instruct para converter os dados da tabela em uma incorporação, que é então processada por uma rede neural superficial. A técnica permite a integração de informações adicionais específicas de domínio, tais como dados socioeconómicos, que os investigadores combinam com a incorporação sequencial para melhorar as representações dos dados. Essa abordagem combinada fornece um rico conjunto de recursos, que permite ao modelo capturar melhor as diversas mudanças entre os domínios. Ao ajustar esta rede neural com apenas um número limitado de exemplos rotulados do domínio alvo, o modelo se adapta de forma mais eficaz do que os métodos convencionais, mesmo sob mudanças Y|X significativas.
Os pesquisadores testaram seu método em três conjuntos de dados do mundo real:
- ACS patrimônio líquido
- Mobilidade ACS
- ACS Pub.Cov
Seus testes incluíram 7.650 combinações únicas de origem e destino em conjuntos de dados, usando 261.000 configurações de modelo com 22 algoritmos diferentes. Os resultados revelaram que a incorporação do LLM por si só melhorou o desempenho em 85% dos casos no conjunto de dados ACS Income e em 78% no conjunto de dados ACS Mobility. No entanto, para o conjunto de dados ACS Pub.Cov, a métrica FractionBest caiu para 45%, indicando que a incorporação de LLM não superou consistentemente os métodos de cluster para todos os conjuntos de dados. No entanto, quando ajustado com apenas 32 amostras alvo, o desempenho aumentou significativamente, atingindo 86% para ACS Income and Mobility e 56% para ACS Pub.Cov, enfatizando a flexibilidade do método sob diversas condições de dados.
Os resultados da pesquisa sugerem aplicações promissoras para incorporação de LLM na previsão de dados tabulares. As principais conclusões incluem:
- Modelagem dinâmica: A incorporação de LLM melhora a flexibilidade, permitindo que os modelos lidem melhor com as mudanças Y | X, incorporando informações específicas do domínio nas representações de recursos.
- Desempenho de dados: O ajuste fino com um pequeno conjunto de amostras alvo (apenas 32 amostras) melhora o desempenho, indicando eficiência de recursos.
- Desempenho amplo: O método adaptou-se com sucesso a diferentes mudanças de dados em três conjuntos de dados e 7.650 casos de teste.
- Limitações e pesquisas futuras: Embora a incorporação de LLM tenha mostrado uma melhoria significativa, ela não superou consistentemente os métodos de árvore de cluster, especialmente no conjunto de dados ACS Pub.Cov. Isto destaca a necessidade de mais pesquisas sobre métodos de otimização e mais conhecimento do domínio.
Em conclusão, este estudo mostra que o uso da incorporação de LLM para prever dados tabulares representa um importante passo em frente no ajuste de modelos para mudanças distributivas. Ao transformar dados tabulares em incorporações robustas e ricas em informações e modelos de ajuste fino com dados de destino limitados, o método supera limitações comuns, permitindo que os modelos funcionem de forma eficaz em uma variedade de ambientes de dados. Esta técnica abre novas maneiras de usar incorporações LLM para obter modelos preditivos adaptativos para aplicações do mundo real com dados rotulados esparsos.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️