Todos hemos utilizado Street View en Google Maps para mostrarle a un amigo cómo era la casa de nuestra infancia, o hemos dejado caer ese ícono de personita en las calles de París para ver si reservamos un hotel en un vecindario atractivo. Imagínese poder hacer eso, pero de una manera más inmersiva e interactiva que le permita simular realmente la calle y sus alrededores, e incluso hacer cosas como ajustar el clima o ver cómo se vería en un escenario de «Pasado mañana».
Ese es uno de los objetivos de la última integración de Google. A partir de hoy, Google DeepMind está conectando Street View con Project Genie, el modelo mundial de propósito general de la compañía que puede generar entornos diversos e interactivos. La nueva función se lanzó durante la conferencia de desarrolladores Google I/O.
«Es realmente poderoso tanto para el agente [and robotics] caso de uso y para que los humanos jueguen, y esa siempre ha sido la tesis de Genie”, dijo a TechCrunch Jack Parker-Holder, científico investigador del equipo de apertura de DeepMind.
Puso el ejemplo de un nuevo robot que se está desplegando en Londres y que rara vez ve el sol. Genie podría, dice Parker-Holder, simular esas escasas ocasiones en las que el sol brilla en las viviendas victorianas, de modo que los rayos no sorprendan al robot cuando esto suceda.
“Al mismo tiempo, podrías decir: ‘Voy a ir a la ciudad de Nueva York, pero no en esta época del año’”, continuó. «‘Va a nevar. Quiero ver cómo se ve ese bloque en la nieve'».
Google ha estado recopilando datos de Street View durante 20 años a través de automóviles con cámaras e individuos atados con “mochilas de seguimiento”. El gigante tecnológico ha recopilado más de 280 mil millones de imágenes en 110 países y siete continentes.
«Con Street View, tenemos imágenes de una gran cantidad de partes del mundo», dijo Jack. «Puedes imaginar lo potencialmente poderoso que es combinar esta rica fuente de información y datos del mundo real con la capacidad de simular mundos».
Google lanzó su último modelo mundial Genie 3 para vista previa de investigación en agosto pasado y abrió el acceso a la herramienta a los suscriptores de Google AI Ultra en los EE. UU. en enero, permitiendo a los clientes crear mundos de juegos interactivos a partir de mensajes de texto o imágenes. El objetivo es utilizar Genie para experiencias educativas, juegos y formación en robótica.
Genie 3 ya está ayudando a impulsar uno de los simuladores de Waymo para entrenar sus autos autónomos en “eventos extremadamente raros” como tornados o encuentros casuales con elefantes. Agregar datos de Street View podría ayudar a Waymo a prepararse para su lanzamiento en más ciudades de todo el mundo.
Waymo tiene su propio simulador en el que confió para escalar a 11 ciudades de EE. UU. y probar su controlador de IA en varias más. La diferencia con Genie, dice Parker-Holder, es que todo esto ocurre desde el punto de vista del automóvil. Street View permite no sólo simular un mundo anclado a un lugar real, sino también trasladar el punto de vista a otro tipo de agentes, como un humano o un robot.
Google está lanzando Street View en Genie para algunos usuarios de Ultra en los Estados Unidos a partir de hoy, y el acceso se implementará a escala con el tiempo. Los usuarios de Global Ultra obtendrán acceso en las próximas semanas, según la empresa.
El objetivo de los investigadores es poner esta nueva capacidad en tantas manos como sea posible, según Diego Rivas, gerente de producto de DeepMind. Advirtió que Street View en particular y Genie en general son todavía un experimento, por lo que hay mucho que mejorar en términos de precisión.
En las muestras que me mostró el equipo de Google, incluida una simulación submarina de un vecindario en el que solía vivir, los resultados son impresionantes y reconocibles, pero siguen teniendo calidad de videojuego en lugar de fotorrealismo. Los modelos tampoco son conscientes de la física, lo que significa que aún no comprenden la causa y el efecto. Por ejemplo, en una simulación de una mujer corriendo a través de un árbol de Joshua nevado, corrió entre cactus y arbustos.
Compárese eso con, digamos, el generador de imágenes Nano Banana de Google, que ahora puede generar texto perfecto en infografías, o su generador de videos Veo, que entiende que los barcos de papel flotan en las corrientes de agua, el humo se dispersa en el aire y las telas cubren las formas.
La física no está codificada en estos modelos; lo aprenden intuitivamente con el tiempo a través de la observación pasiva, como lo haría un ser vivo.
«Creo que para este tipo de modelo, quizás haya entre seis y 12 meses de retraso respecto al video en términos de precisión y calidad, así que creo que es algo que resolveremos», dijo Parker-Holder.
Jonathan Herbert, director de Google Maps que comenzó en el equipo de Street View como pasante hace 12 años, dijo que Genie aún no puede crear una reconstrucción fiel de una calle. Cree que el verdadero avance es la continuidad espacial de la IA. Si gira 360 grados, la IA recuerda y simula correctamente el entorno detrás de usted. A partir de ese momento, el modelo puede construir un nuevo entorno además de eso.
«Hemos pensado durante mucho tiempo en cómo podemos construir el mejor y más rico modelo del mundo a partir de los datos de Street View», dijo Herbert. «Definitivamente ha sido una idea nuestra utilizar Maps Data de nuevas maneras y para nuevos tipos de investigación de IA desde hace bastante tiempo».
Cuando compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.



