O modelo de vídeo generativo interativo ‘Genie 3’ do Google nos leva um passo mais perto do holodeck

A DeepMind, o laboratório de pesquisa de IA do Google, anunciou o lançamento do Genie 3, um novo sistema de IA capaz de gerar ambientes virtuais interativos em tempo real-e nos aproximar um passo mais perto do holodeck.

Google diz em um Atualização DeepMind Que, com um prompt de texto simples, o Genie 3 pode criar cenas dinâmicas e navegáveis que são executadas a 24 quadros por segundo na resolução de 720p.

É verdade que o Genie 3 só pode ser usado em monitores de tela plana, então não há como dizer quando obteremos algo semelhante para fones de ouvido VR. Por exemplo, a exibição do Quest 3 tem uma resolução por olho de 2.064 × 2.208, com um tempo a uma taxa de atualização base de 90Hz, colocando VR na extremidade mais distante da margem de desempenho (como de costume).

Sem dúvida, é uma olhada presciente para as coisas que estão por vir. Ao contrário de simulações estáticas ou pré-renderizadas, o Google diz que o modelo gera cada quadro em tempo real, permitindo uma interação mais rápida do usuário e feedback ambiental.

https://www.youtube.com/watch?v=pdkhuknuqdg

Além disso, esses mundos gerados podem permanecer visuais e fisicamente consistentes por vários minutos, diz o Google, com o sistema mantendo uma forma de memória de curto prazo para refletir ações passadas.

A Genie 3 também é capaz de simular uma ampla gama de cenários, incluindo ambientes naturais, ambientes históricos e mundos fictícios e animados. Enquanto isso, os usuários podem desencadear “eventos mundiais prontáveis”, onde os usuários podem inserir alterações no mundo por meio de comandos de texto, como alterar o clima ou introduzir novos objetos.

Além da diversão de recriar Osaka do 1800, ou fazer um jet ski aparecer nos canais de Amsterdã, o Google diz que a Genie 3 também será uma ferramenta para o treinamento incorporado de IA, com possíveis aplicações em áreas como robótica, jogos e pesquisa de inteligência geral artificial.

Por enquanto, existem algumas limitações. O Google diz que a Genie 3 atualmente possui um “espaço de ação” limitado para os agentes e luta com a modelagem com precisão de interações multi-agentes em ambientes compartilhados. Por “agentes”, a empresa se refere aos sistemas de IA que operam autonomamente dentro dos ambientes virtuais, de certa forma tomando decisões, tomando ações e aprendendo com a experiência.

Ele também enfrenta desafios ao simular locais do mundo real com “precisão geográfica perfeita”, renderizar o texto claramente e manter interações de longa duração além de alguns minutos.

Ainda assim, é um salto incrível do tipo de vídeos não interativos que estamos vendo on-line agora, muitos dos quais são bastante difíceis de dizer pelo negócio real. As simulações de comer espaguete de Will Smith só ficarão mais realistas e, com sistemas como o Genie 3, também interativos.