Campos que vão da robótica à medicina e à ciência política estão tentando treinar sistemas de IA para tomar decisões racionais de todos os tipos. Por exemplo, a utilização de um sistema de IA para gerir de forma inteligente o trânsito numa cidade congestionada pode ajudar os condutores a chegar mais rapidamente aos seus destinos, ao mesmo tempo que melhora a segurança ou a sustentabilidade.
Infelizmente, ensinar um sistema de IA a tomar boas decisões não é uma tarefa fácil.
Os modelos de aprendizagem por reforço, que fundamentam estes sistemas de tomada de decisão de IA, ainda falham quando confrontados com pequenas variações, mesmo nas tarefas para as quais são treinados. Numa situação de trânsito, o modelo pode ter dificuldade em gerir um conjunto de cruzamentos com diferentes limites de velocidade, números de faixa ou padrões de tráfego.
Para aumentar a confiabilidade dos modelos de aprendizagem por reforço para tarefas complexas com variabilidade, os pesquisadores do MIT introduziram um algoritmo altamente eficiente para treiná-los.
O algoritmo seleciona de forma inteligente as melhores tarefas para treinar o agente de IA para que ele possa executar todas as tarefas com eficiência em um conjunto de tarefas relacionadas. No caso do controle de semáforos, cada obra pode ser um único cruzamento em uma área de trabalho que inclua todos os cruzamentos da cidade.
Ao focar no pequeno número de interseções que mais contribuem para a eficiência geral do algoritmo, esta abordagem maximiza o desempenho enquanto mantém baixos os custos de treinamento.
Os pesquisadores descobriram que o processo deles era entre cinco e 50 vezes mais eficiente do que os métodos padrão de lista fixa. Esse ganho de eficiência ajuda o algoritmo a aprender uma solução melhor de forma mais rápida, melhorando, em última análise, o desempenho do agente de IA.
“Conseguimos ver melhorias incríveis de desempenho, com um algoritmo muito simples, pensando fora da caixa. “Um algoritmo menos complexo tem mais chances de ser adotado pelo público porque é mais fácil de usar e mais fácil de ser entendido por outros”, disse a autora sênior Cathy Wu, professora associada de desenvolvimento profissional Thomas D. e Virginia W. Cabot. em Engenharia Civil e Ambiental (CEE) e no Instituto de Dados, Sistemas e Sociedade (IDSS), e membro do Laboratório de Sistemas de Informação e Decisão (LIDS).
Contribuição para o artigo do autor principal Jung-Hoon Cho, um estudante de pós-graduação da CEE; Vindula Jayawardana, pós-graduanda do Departamento de Engenharia Elétrica e Ciência da Computação (EECS); e Sirui Li, estudante de pós-graduação do IDSS. A pesquisa será apresentada na Conferência de Sistemas de Processamento de Informação Neural.
Encontrando o meio-termo
Para treinar um algoritmo de controle de robô para múltiplas interseções de cidades, um engenheiro geralmente pode escolher entre duas abordagens principais. Ele pode treinar um algoritmo para cada interseção de forma independente, usando apenas os dados dessa interseção, ou treinar um algoritmo maior que use dados de todas as interseções e aplique-os a cada uma delas.
Mas cada método tem sua parcela de desvantagens. Treinar um algoritmo separado para cada tarefa (como uma determinada interseção) é um processo demorado que requer uma grande quantidade de dados e computação, enquanto treinar um único algoritmo para todas as tarefas geralmente leva a um desempenho mais lento.
Wu e seus colaboradores procuraram um ponto ideal entre essas duas abordagens.
Na sua abordagem, eles escolhem um conjunto de tarefas e treinam um algoritmo para cada tarefa de forma independente. É importante ressaltar que eles selecionam de forma inteligente tarefas individuais com maior probabilidade de melhorar o desempenho do algoritmo em todas as tarefas.
Eles usaram uma técnica comum no campo da aprendizagem por reforço chamada aprendizagem por transferência zero-shot, onde um modelo já treinado é aplicado a uma nova tarefa sem treinamento adicional. Com a aprendizagem por transferência, o modelo geralmente funciona notavelmente bem na nova tarefa de vizinhança.
“Sabemos que seria bom praticar em todas as tarefas, mas questionámo-nos se poderíamos parar de treinar num conjunto dessas tarefas, aplicar o resultado a todas as tarefas e ainda ver um aumento no desempenho”, disse Wu.
Para identificar quais atividades escolher para maximizar o desempenho esperado, os pesquisadores desenvolveram um algoritmo chamado Model-Based Transfer Learning (MBTL).
O algoritmo MBTL tem duas partes. Por um lado, ele modela o desempenho de cada algoritmo se fosse treinado independentemente em uma única tarefa. Em seguida, ele modela o quanto o desempenho de cada algoritmo seria degradado se fosse transferido para cada tarefa, um conceito conhecido como generalização de desempenho.
Modelar claramente o desempenho geral permite ao MBTL estimar a quantidade de formação no novo trabalho.
O MBTL faz isso sequencialmente, selecionando primeiro a atividade que leva ao maior ganho de desempenho e, em seguida, selecionando atividades adicionais que proporcionam a maior melhoria geral pós-desempenho.
Uma vez que o MBTL se concentra apenas nos empregos mais promissores, pode melhorar significativamente a eficiência do processo de formação.
Reduzindo custos de treinamento
Quando os investigadores testaram esta técnica em tarefas simuladas, incluindo o controlo de sinais de trânsito, o tratamento de avisos de velocidade em tempo real e a execução de várias tarefas clássicas de controlo, revelou-se cinco a 50 vezes mais eficiente do que outros métodos.
Isso significa que eles podem chegar à mesma solução treinando com muito menos dados. Por exemplo, com uma melhoria de eficiência de 50x, o algoritmo MBTL pode treinar em apenas duas tarefas e alcançar o mesmo desempenho que um método convencional usando dados de 100 tarefas.
“Do ponto de vista dos dois métodos principais, isso significa que os dados das outras 98 tarefas não foram necessários ou que o treinamento em todas as 100 tarefas confunde o algoritmo, então o desempenho acaba sendo pior que o nosso”, disse Wu.
Com o MBTL, adicionar até mesmo uma pequena quantidade de tempo extra de treinamento pode levar a um melhor desempenho.
No futuro, os pesquisadores planejam projetar algoritmos MBTL que possam ser dimensionados para problemas mais complexos, como espaços de tarefas de alta dimensão. Eles também estão interessados em aplicar a sua abordagem a problemas do mundo real, especialmente em sistemas de mobilidade da próxima geração.
A pesquisa foi financiada, em parte, pelo prêmio CAREER da National Science Foundation, pelo programa de bolsas de doutorado da Fundação Educacional Kwanjeong e pela Amazon Robotics PhD Fellowship.