Os avanços na Realidade Estendida (XR) permitiram a integração de entidades do mundo real no mundo virtual. No entanto, apesar de inúmeros sensores, dezenas de câmeras e técnicas caras de visão computacional, essa integração levanta várias questões importantes. 1) Essa combinação realmente captura a essência dos objetos do mundo real ou simplesmente se comporta como pano de fundo? 2) Se continuarmos nesse caminho nesse ritmo, é “possível” que em breve ele seja acessível a muitas pessoas? Visto isoladamente, sem a intervenção do aprendizado de máquina, o futuro do XR parece sombrio – A) Os esforços atuais movem periféricos para o XR, mas essa integração é superficial e carece de interação significativa. B) As massas não ficam muito satisfeitas quando se deparam com os constrangimentos técnicos para cumprir o XR mencionado na parte (A). Quando a IA e suas muitas aplicações fascinantes, como segmentação não supervisionada em tempo real e geração generativa de conteúdo de IA, emergem de um ambiente forte, o XR está pronto para cumprir esse futuro XR que inclui integração perfeita.
A equipe de pesquisa do Google acaba de lançar Itens XRe em suas palavras literais, eles dizem que tornam o XR tão envolvente quanto – “clicar com o botão direito em um arquivo digital para abrir seu menu de contexto, mas aplicado a objetos físicos”. O artigo apresenta 'Inteligência Aumentada de Objetos' que utiliza IA para extrair informações digitais de objetos analógicos, tarefa anteriormente considerada difícil. AOI representa uma mudança de paradigma na integração perfeita de conteúdo real e virtual e dá aos usuários a liberdade de interações digitais adequadas ao contexto. Os pesquisadores do Google combinaram o desenvolvimento de AR na compreensão espacial com SLAM e detecção e classificação de objetos combinada com Multimodal Large Language Model (MLLM)
XR Object oferece interações centradas em objetos, em oposição à abordagem centrada em aplicativos do Google Lens. Aqui, a interação é focada diretamente nos objetos dentro do ambiente do usuário, o que é aprimorado ainda mais pela UI do World Location, que evita o incômodo de navegar pelos aplicativos e selecionar objetos manualmente. Para garantir apelo estético e evitar confusão, as informações digitais são apresentadas em bolhas transparentes que funcionam como pequenas instruções sutis.
A estrutura para alcançar esse estado da arte em XR é simples. A estratégia trimestral é – A) Aquisição de Objetos e B) Localização e Anexo de Objetos. C) Associar cada item ao MLLM D) Executar uma ação. A biblioteca MediaPipe do Google, que usa essencialmente uma CNN otimizada para dispositivos móveis, é útil para a primeira tarefa e produz boxsets 2D que começam a se concentrar em AR e localização. Atualmente, esta CNN é treinada no conjunto de dados COCO que classifica cerca de 80 objetos. Inicialmente, mapas de profundidade são usados para localização AR, e um modelo de proxy de objeto contendo o menu de contexto do objeto é inicializado. Finalmente, MLLM(PaLI) é combinado com cada objeto, e a caixa delimitadora cortada da etapa A torna-se a informação. Isso faz com que o algoritmo se destaque e identifique o “Molho de Soja Escuro Superior” na garrafa padrão armazenada em sua cozinha.
O Google conduziu uma pesquisa com usuários para comparar o Item XR com o Gemini, e os resultados não foram surpreendentes dado o contexto acima. O XR obteve uma bela vitória em termos de tempo e recurso HMD. O formulário do telefone é dividido entre elementos chatbot e XR. Os resultados da pesquisa HALIE para Chatbot e XR foram semelhantes. Os usuários do assunto também deram feedback entusiasmado ao XR sobre como ele era útil e eficiente. Os usuários também fornecem feedback para melhorar seu desempenho ergonômico.
Este novo paradigma AOI é promissor e expandirá rapidamente a prática do LLM. Seria interessante ver se sua contraparte Meta, que fez grandes avanços em segmentação e LLM, pode desenvolver novas soluções para substituir objetos XR e levar o XR a novos patamares.
Confira Papel e detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!
Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.