O planeamento e a tomada de decisões em ambientes complexos e pouco observados são um grande desafio para a IA integrada. Tradicionalmente, os agentes integrados baseiam-se em observações físicas para recolher informações adicionais, o que pode ser demorado e impraticável, especialmente em ambientes grandes e dinâmicos. Por exemplo, a condução ou navegação automatizada em ambientes urbanos muitas vezes exige que o agente tome decisões rápidas com base em informações visuais limitadas. Os movimentos corporais para obter informações adicionais nem sempre são possíveis ou seguros, como ao contornar um obstáculo repentino, como um carro parado. Portanto, há uma necessidade urgente de soluções que ajudem os agentes a construir uma compreensão clara do seu ambiente sem inspeções físicas caras e perigosas.
Introdução ao Genex
Os pesquisadores da John Hopkins introduziram o Generative World Explorer (Genex), um novo modelo de geração de vídeo que permite que agentes incorporados explorem de forma imaginativa grandes ambientes 3D e atualizem suas crenças sem movimento físico. Inspirado na forma como os humanos usam modelos mentais para descobrir partes invisíveis do seu ambiente, Genex capacita os agentes de IA a tomar decisões mais informadas com base em situações percebidas. Em vez de navegar pelo ambiente para coletar novas informações, o Genex permite ao agente visualizar as partes invisíveis do ambiente e ajustar sua compreensão de acordo. Esta capacidade pode ser especialmente benéfica para veículos autónomos, robôs ou outros sistemas de IA que necessitam de operar eficazmente em grandes ambientes urbanos ou naturais.
Para treinar o Genex, os pesquisadores criaram um conjunto de dados de áreas urbanas artificiais chamado Genex-DB, que inclui várias áreas para simular condições do mundo real. Com esse conjunto de dados, a Genex aprende a fazer observações consistentes e de alta qualidade de seu entorno durante a exploração de longo prazo do ambiente físico. Crenças atualizadas, derivadas de observações intuitivas, informam os modelos de tomada de decisão existentes, permitindo um melhor planejamento sem a necessidade de navegação física.
Detalhes técnicos
Genex usa uma estrutura de geração direta de vídeo colocada na visão panorâmica atual do agente, que inclui as direções de movimento alvo como entrada para a ação. Isso permite que o modelo gere observações egocêntricas futuras, como testar mentalmente novas ideias. Os pesquisadores usaram um modelo de distribuição de vídeo treinado para apresentações panorâmicas para manter a coerência e garantir que o resultado seja espacialmente relevante. Isto é importante porque o agente precisa manter uma compreensão consistente do seu ambiente, pois apresenta uma visão de longo horizonte.
Um dos principais métodos introduzidos é o aprendizado consistente esférico (SCL), que treina Genex para garantir transições suaves e continuidade em experimentos panorâmicos. Ao contrário dos modelos convencionais de produção de vídeo, que podem focar em quadros individuais ou pontos fixos, o método panorâmico da Genex captura toda a visão de 360 graus, garantindo que o vídeo produzido mantenha consistência em diferentes campos de visão. As capacidades de fabricação de alta qualidade do Genex o tornam ideal para tarefas como direção autônoma, onde a previsão de longo horizonte e a manutenção da consciência espacial são importantes.
Significado e consequências
A introdução da revisão de crenças orientada pelo pensamento é um salto gigantesco para a IA incorporada. Com o Genex, os agentes podem gerar uma sequência de hipóteses que imitam observações visuais. Esta capacidade permite-lhes rever as suas crenças de uma forma que imite os benefícios da navegação física – mas sem os riscos e custos associados. Tal capacidade é importante em situações como a condução autónoma, onde a segurança e a rapidez na tomada de decisões são de extrema importância.
No teste piloto, a Genex mostrou capacidades incríveis. Foi demonstrado que ele supera os modelos básicos em diversas métricas, como qualidade de vídeo e consistência de teste. Notavelmente, a métrica Imaginative Exploration Cycle Consistency (IECC) revelou que o Genex manteve um alto nível de consistência durante testes de longa distância – com erros quadráticos médios (MSE) permanecendo inferiores aos modelos concorrentes. Esses resultados mostram que a Genex não é apenas bem-sucedida na produção de conteúdo visual de alta qualidade, mas também na manutenção de uma compreensão estável do ambiente durante um longo período de testes. Além disso, em situações que envolvem ambientes multiagentes, o Genex demonstrou melhorias significativas na precisão das decisões, destacando a sua robustez em ambientes complexos e dinâmicos.
A conclusão
Em suma, o Generative World Explorer (Genex) representa um grande avanço no campo da IA integrada. Usando a exploração imersiva, o Genex permite que os agentes naveguem mentalmente em grandes espaços e melhorem sua compreensão sem movimento físico. Esta abordagem de gestão não só reduz os riscos e custos associados aos testes de rotina, mas também melhora as capacidades de tomada de decisão dos agentes de IA, permitindo-lhes considerar possibilidades hipotéticas, em vez de simplesmente observá-las. À medida que os sistemas de IA continuam a ser implantados em ambientes complexos, modelos como o Genex abrem caminho para interações robustas, flexíveis e seguras em situações do mundo real. A aplicação do modelo à condução autónoma e a sua extensão a cenários multiagentes sugere uma vasta gama de aplicações que poderão revolucionar a forma como a IA interage com o seu ambiente.
Consulte o documento e a página do projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
Por que os modelos de linguagem de IA ainda estão em risco: principais insights do relatório da Kili Technology sobre a vulnerabilidade de modelos de linguagem em grande escala [Read the full technical report here]
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.