3 coisas que aprendemos nesta entrevista com o CEO do Google DeepMind e por que o Astra poderia ser a chave para os ótimos óculos inteligentes da IA

O Google está aumentando seu projeto ASTRA como a próxima geração de IA há meses. Isso estabeleceu algumas expectativas altas quando 60 minutos Enviou Scott Pelley para experimentar o Project Astra Tools fornecido pelo Google DeepMind.
Ele ficou impressionado com o quão articulada, observadora e perspicaz a IA acabou sendo ao longo de seus testes, principalmente quando a IA não apenas reconheceu a pintura mal -humorada de Edward Hopper “Automat”, mas também leu a linguagem corporal da mulher e girou uma vinhas fictícia sobre sua vida.
Tudo isso através de um par de óculos inteligentes que mal pareciam diferentes de um par sem IA embutido. Os óculos servem como um sistema de entrega para uma IA que vê, ouve e pode entender o mundo ao seu redor. Isso pode preparar o cenário para uma nova corrida inteligente de wearables, mas essa é apenas uma das muitas coisas que aprendemos durante o segmento sobre os planos do Project Astra e do Google para a IA.
O entendimento de Astra
Claro, temos que começar com o que agora sabemos sobre Astra. Em primeiro lugar, o assistente de IA processa continuamente vídeo e áudio de câmeras e microfones conectados em seus arredores. A IA não apenas identifica objetos ou transcreva texto; Também pretende identificar e explicar o tom emocional, extrapolar o contexto e continuar conversando sobre o tópico, mesmo quando você faz uma pausa para pensar ou conversar com outra pessoa.
Durante a demonstração, Pelley perguntou a Astra o que ele estava olhando. Ele identificou instantaneamente o Coal Drops Yard, um complexo de varejo em King’s Cross, e ofereceu informações básicas sem perder o ritmo. Quando mostrado uma pintura, não parou em “Isso é uma mulher em um café”. Dizia que ela parecia “contemplativa”. E quando cutucada, deu a ela um nome e uma história de fundo.
De acordo com o CEO da DeepMind, Demis Hassabis, o entendimento do mundo real do assistente está avançando ainda mais rápido do que ele esperava, observando que é melhor entender o mundo físico do que os engenheiros pensavam que seria nesta fase.
Eu vejo 2 visualizações
Mas Astra não está apenas assistindo passivamente. O DeepMind também está ocupado ensinando a IA a gerar imagens e vídeos fotorrealistas. Os engenheiros descreveram como há dois anos, seus modelos de vídeo lutaram para entender que as pernas estão presas a cães. Agora, eles mostraram como o Veo 2 pode conjurar um cachorro voador com asas batendo.
As implicações para a narrativa visual, cinema, publicidade e, sim, óculos de realidade aumentada, são profundos. Imagine seus óculos não apenas dizendo a você qual edifício você está olhando, mas também visualizando como era há um século, renderizada em alta definição e integradas perfeitamente à visão atual.
Genie 2
E depois há o Genie 2, o novo sistema de modelagem mundial da Deepmind. Se Astra entende o mundo como ele existe, Genie constrói mundos que não. É preciso uma imagem estática e a transforma em um ambiente explorável visível através dos óculos inteligentes.
Caminhe em frente, e Genie inventa o que fica ao virar da esquina. Vire à esquerda e preenche as paredes invisíveis. Durante a demonstração, uma foto de cachoeira se transformou em um nível de videogame jogável, gerado dinamicamente como Pelley explorou.
O DeepMind já está usando espaços gerados por gênios para treinar outras AIs. Genie pode ajudar esses navegando em um mundo composto por outra IA e em tempo real também. Um sistema sonhos, outro aprende. Esse tipo de loop de simulação tem grandes implicações para a robótica.
No mundo real, os robôs precisam se atrapalhar através de tentativa e erro. Mas em um mundo sintético, eles podem treinar sem parar sem quebrar móveis ou arriscar ações judiciais.
Olhos Astra
O Google está tentando colocar a percepção do estilo Astra em suas mãos (ou em seu rosto) o mais rápido possível, mesmo que isso signifique denunciá-lo.
Apenas semanas após o lançamento dos recursos de câmera de tela e câmera ao vivo da Gemini como uma vantagem premium, eles reverteram o curso e o tornaram gratuito para todos os usuários do Android. Isso não foi um ato aleatório de generosidade. Ao conseguir o maior número possível de pessoas para apontar suas câmeras no mundo e conversar com Gemini, o Google recebe uma enxurrada de dados de treinamento e feedback do usuário em tempo real.
Já existe um pequeno grupo de pessoas usando óculos movidos a Astra no mundo. O hardware usa telas micro-lideradas para projetar legendas em um olho e entrega o áudio através de pequenos alto-falantes direcionais perto dos templos. Comparado ao visor de ficção científica estranho do vidro original, isso parece um passo à frente.
Claro, há problemas com privacidade, latência, duração da bateria e a questão não tão pequena sobre se a sociedade está pronta para pessoas que andam com óculos semi-omiscientes sem zombar deles sem piedade.
Se o Google pode ou não fazer com que essa mágica pareça ética, não invasiva e elegante o suficiente para ser o mainstream ainda está no ar. Mas esse senso de 2025, como o ano em que os óculos inteligentes ficam mainstream, parece mais preciso do que nunca.