O robô doméstico treinado para realizar as tarefas de fábrica pode deixar de romper ou remover os resíduos da cozinha do usuário, porque esse novo local é diferente em sua área de treinamento.
Para evitar isso, os engenheiros geralmente tentam corresponder ao sistema de treinamento o máximo possível sobre o mundo real onde o AGIR será enviado.
No entanto, pesquisadores do MIT e de outros lugares descobriram que, apesar da sabedoria mais comum, às vezes o treinamento climático diferenciado produz um agente de inteligência criminal.
Seus resultados indicam que, em alguns casos, o agente de treinamento é um mundo baixo, ou “som”, permitiu fazer melhor desempenho melhor.
Os investigadores chamam essa coisa inesperada de ser resultados de treinamento interno.
“Se aprendermos a jogar tênis na área onde não há som, podemos conhecer os diferentes sapatos. Serena Bono, uma assistente de pesquisa em Lit Media Lab e um autor de papel no tráfego de papel.
Os investigadores leem este item com os agentes de IA treinando jogos Atari, que não mudaram adicionando a algo. Eles ficaram surpresos ao saber que o treinamento interno pré-treinamento ocorre em Ataris e a diversidade do jogo.
Eles esperam que esses resultados sejam divulgados para melhorar os melhores agentes da IA.
“Este é um novo eixo para se pensar. Em vez de tentar combinar as áreas de treinamento e as áreas de teste, podemos construir áreas projetadas quando a IA estiver aprendendo melhor”, formou -se um estudante de pós -graduação na Universidade de Harvard.
Imoism e Madan foram unidos no papel por Ishaan Grover, estudante de pós -graduação; Mao Yashua, um estudante de graduação da Universidade; Cynthia Breakeal, professora de artes de mídia e líder de ciências e ciências do Party Media Lab; Hanspeter Pfister, professor Wang Wang, da Computer Eharvard; E Gabriel Kreiman, professor da Harvard Medical School. O estudo será introduzido quando o desenvolvimento da Associação da Conferência de Inteligência Intelectual.
Problemas de treinamento
Os investigadores estão dispostos a verificar por que os agentes de aprendizagem fortes geralmente têm atos tão prejudiciais quando avaliados em diferentes áreas de treinamento.
A confirmação do aprendizado é um crime e erro em que o agente testar a área de treinamento e aprender a tomar ações que aumentam sua recompensa.
A equipe cria um processo mais claro de limpar uma certa quantidade de ruído para uma coisa do problema de aprender o reforço. A função de conversão descreve que o agente pode ser de um estado, com base na escolha.
Se o agente jogar o Pac-Man, a função de conversão poderá explicar a probabilidade de que os fantasmas no quadro de jogos descem, desça, esquerda ou direita. Na leitura normal dos pontos fortes, a IA será treinada e avaliada usando a mesma função de transformação.
Os investigadores adicionaram ruído a essa função de conversão e, como esperado, prejudicaram o desempenho do PAC-MAN do agente.
Mas quando os pesquisadores treinam um agente em um jogo do Pac-Man, é um teste em que colocam o som da Reforma, é feito melhor do que um agente treinado em um agente barulhento.
“A sexta lei deve ser tentada para capturar a implantação e o treinamento para o seu estrondo. Nós realmente verificamos esse entendimento da morte porque não acreditamos em nós”, disse Madan.
Injetar o número de vários sons na Funness Transion permite que os pesquisadores verifiquem muitos locais, mas eles não foram jogos lógicos. O som adicional incluído no Pac-Man, os fantasmas mais prováveis começarão ocasionalmente em diferentes cenas de mercado.
Para ver que o Eccount de treinamento em ambientes internos ocorre em jogos regulares do PAC-MAN, eles estão ajustando as oportunidades mais baixas para que os fantasmas se movam em geral, mas podem estar de cima a baixo e para baixo. Os agentes AI são treinados por áreas barulhentas que ainda estão funcionando melhor nesses jogos lógicos.
“Não foi apenas por causa do som do som para criar áreas AC Hoc.
Para verificar as descrições
Quando os pesquisadores são profundamente aprofundados, eles vêem um link para a construção de agentes de AI no espaço de teste.
Quando os dois agentes de IA são altamente avaliados áreas, um agente treinado em uma área não som está melhor, talvez porque um agente de leitura de ruído sem ruído sem ruído.
Se os padrões de check -up forem diferentes, o agente treinado geralmente será melhor. Isso é possível porque o agente deve entender os padrões que você não pode ler em um ambiente de som.
“Se eu aprender a jogar tênis apenas com o meu barulho, no entanto, há um desejo barulhento também deve jogar com o meu bagkand, não vou tocar no lugar não pessoal”, explica.
No futuro, os pesquisadores esperam avaliar como o efeito de treinamento interno pode vir de áreas re-estruturadas ou outras estratégias, como uma visão computacional e a manutenção da linguagem natural. Eles também desejam criar situações de treinamento projetadas para obter capacidade de treinamento internacional, o que pode ajudar os AIs da AI a se sair melhor em lugares inseguros.