Google DeepMind lançado O Gênio 2um modelo multimodal de IA projetado para preencher a lacuna entre inovação e IA. Genie 2 está preparado para redefinir o futuro da criação de conteúdo interativo, especialmente no desenvolvimento de videogames e no mundo virtual. Baseando-se no seu antecessor, o Genie original, esta nova iteração mostra avanços, incluindo a sua capacidade de gerar ambientes virtuais complexos e totalmente jogáveis com entrada simples. O Genie 2 pode transformar essa entrada em ambientes de videogame dinâmicos e envolventes, sejam descrições escritas, imagens ou gráficos desenhados à mão.
Usando seu sistema intuitivo, o Google Genie 2 permite aos usuários criar ambientes virtuais detalhados e interativos. Não mais limitado àqueles com habilidades de programação, qualquer pessoa pode criar ambientes virtuais detalhados e interativos usando o sistema intuitivo Genie 2. A ferramenta de IA analisa vários conjuntos de dados, incluindo conteúdo de vídeo, para aprender como os jogadores interagem com seu ambiente. Isso permite gerar espaços virtuais onde os usuários podem participar e explorar. O que diferencia o Genie 2 é sua capacidade de traduzir e converter automaticamente entradas em recursos totalmente funcionais, sem a necessidade de instruções explícitas.
Os transformadores espaçotemporais (ST) são um tipo diferente de modelo de transformador que permite ao Genie 2 processar conteúdo de vídeo com eficiência. Ao contrário dos transformadores tradicionais otimizados para processamento de texto, os transformadores ST podem analisar componentes espaciais e temporais de quadros de vídeo. Isso permite que o Genie 2 preveja quais ações provavelmente ocorrerão em uma sequência de vídeo, o que é importante para gerar o próximo quadro jogável em um videogame. Essencialmente, a IA aprende padrões subjacentes ao conteúdo de vídeo e como as coisas interagem ao longo do tempo, permitindo simular mundos reais e dinâmicos. Com este método sofisticado, ele consegue compreender não apenas quadros individuais de vídeo, mas também transições entre eles, permitindo um ambiente visual mais fluido e realista.
O Google Genie 2 pode aprender ações sutis a partir do conteúdo do vídeo. Este recurso permite que a IA preveja as ações do jogador no jogo ou no mundo virtual sem instruções explícitas.
Por exemplo, se um usuário fornecer uma imagem ou descrição simples de um espaço, o Genie 2 poderá realizar as ações mais prováveis que um jogador realizaria naquele espaço, como caminhar, pular ou interagir com objetos.
Esse recurso permite que os usuários criem espaços realistas que respondam naturalmente à entrada do jogador. Esse recurso é incrível porque imita a natureza dinâmica e comportamental dos videogames modernos, onde o ambiente reage às escolhas e ações dos jogadores em tempo real.
Outro grande recurso do Genie 2 é a capacidade de criar uma experiência de jogo totalmente nova com base em pouquíssimas informações. Isto é conseguido treinando-o em um grande conjunto de dados de vídeos da Internet, especialmente aqueles que mostram jogos. Este treinamento permite que o Genie 2 aprenda as regras básicas dos playgrounds e da dinâmica. Em seguida, utiliza essas informações para prever respostas apropriadas às entradas do usuário, gerando mundos complexos e dinâmicos sem um extenso livro de regras. Este processo de aprendizagem do conteúdo do vídeo é fundamental para o seu sucesso, pois dá ao Genie 2 a capacidade de se adaptar e lidar com uma variedade infinita de situações visuais.
O núcleo da funcionalidade do Genie 2 usa um token de vídeo, que reduz a complexidade dos quadros de vídeo em pedaços pequenos e gerenciáveis. Essas peças, tokens, são fáceis de processar e usar pela IA. Usando esses tokens, o Genie 2 prevê o próximo quadro de uma sequência de vídeo avaliando as ações dentro do vídeo, executando com sucesso uma história ou sequência de jogo. Essa capacidade de gerar vídeo quadro a quadro ao longo do tempo é fundamental para a criação de ambientes imersivos e jogáveis, pois permite aos usuários criar jogos que evoluem naturalmente ao longo do tempo.
Além disso, o Genie 2 utiliza um modelo dinâmico que desempenha um papel importante na manutenção da continuidade e consistência do vídeo gerado. O modelo dinâmico usa tokens de vídeo e ações direcionadas para gerar o próximo quadro, garantindo que o mundo virtual permaneça consistente e lógico. Este modelo ajuda a prever o que acontece a seguir em um jogo ou ambiente virtual com base nas ações e escolhas do jogador. Essa capacidade preditiva faz com que os mundos virtuais pareçam mais responsivos e interativos à medida que a IA se adapta às decisões em tempo real do jogador.
O sistema também inclui um modelo de ação latente (LAM), que ajuda o Genie 2 a entender o que está acontecendo entre os frames do vídeo. O LAM analisa sequências de vídeo para detectar ações não ditas, como um personagem se movendo ou interagindo com objetos. Esse recurso é importante na produção de vídeo porque permite que a IA crie interações mais precisas e dinâmicas entre objetos e personagens no mundo virtual.
Concluindo, a nova abordagem do Google Genie 2 para a criação de jogos e de mundos é uma virada de jogo na indústria. Ele permite que os usuários criem ambientes visuais complexos com o mínimo de esforço e experiência profissional, abrindo novas oportunidades tanto para profissionais quanto para novatos. Os desenvolvedores de jogos, por exemplo, podem usar o Genie 2 para simular rapidamente novos mundos e experiências de jogo, economizando tempo e recursos valiosos. Ao mesmo tempo, amadores e criadores iniciantes podem explorar suas ideias sem precisar de conhecimentos avançados de programação.
Confira Detalhes aqui. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)