La inteligencia artificial imagina nuestros monumentos en 3D

Tiempo de lectura: 5 min

Las calles de Roma desiertas como en una escena de la Dolce Vita. Nuestro humano imaginario es capaz de visualizarlo. Hemos visto estas escenas en las redes y en televisión durante el confinamiento. Y, con suerte, en la gran pantalla de la mano de Federico Fellini.

Publicidad

Pero las redes neuronales de la inteligencia artificial de Google no han llegado a conocer los tiempos pandémicos. Ni saben de cine simbolista italiano. Conocen el mundo por lo que la gente sube a las redes sociales, sobre todo. Aprenden a partir de cientos de fotos de lugares como la Fontana de Trevi, el Sacré-Cœur o la Puerta de Brandeburgo.

Esos escenarios suelen estar llenos de turistas, manifestantes o, simplemente transeúntes. Pero el proyecto Neural Rerendering in the Wild (NRitW) ha conseguido que la inteligencia artificial recree en 3D estos monumentos de manera limpia. Al punto de ser casi indistinguibles de un rénder de ordenador hecho por un humano.

No le es tan fácil a una máquina interpretar un elemento estático de una escena con lo todo lo que cambia ante iluminaciones distintas.

«A partir de fotos de internet de un punto de interés turístico, aplicamos la reconstrucción 3D tradicional para registrar las fotos y aproximar la escena como una nube de puntos», explican los participantes de este desarrollo, que acaban de publicar.

«Para cada foto, renderizamos los puntos de la escena y entrenamos una red neuronal para que aprendiese el mapeo de estas representaciones iniciales con las fotos reales». 

Publicidad

El mundo es cambiante. Y eso no le gusta a las máquinas

«Una de las limitaciones de esta técnica es que asume que el mundo es geométrica, material y fotométricamente estable». Pero no. «Dos fotógrafos situados en el mismo punto, apuntando al mismo lugar, sacarán escenas diferentes con que hayan apenas pasado unos segundos entre un disparo y el otro», explican los autores en su preprint.

Incluso cada cámara devolverá un perfil diferente de color o exposición. Así que ellos proponen una cosa llamada Neural Radiance Fields in the Wild. Vamos por partes:

El neural rendering permite el control explícito o implícito de las propiedades de la escena: la iluminación, los parámetros de la cámara, el ángulo, la apariencia y la estructura semántica (qué es cada cosa en la escena, etiquetarlo).

Combina técnicas de aprendizaje automático generativo con conocimiento físico de gráficos por ordenador (CAD) con resultados fotorrealistas.

En este caso, le enseñaron lo que no era un monumento, como los transeúntes o las señales de tráfico. La máquina tuvo que entender que la Fontana de Trevi es la misma, independientemente de si es de día o de noche. Ahí es donde entra lo de Radiance (brillo o resplandor).

Publicidad
Varias imágenes de las que aprendió la IA lo que era la Puerta de Brandeburgo. Cada cual, con elementos cambiantes.

Para ello, la inteligencia artificial tiene que comprender qué significa que sea de noche en términos de color y luminancia. Qué es lo que permanece y lo que es mutable, tal y como hacemos los humanos en nuestro aprendizaje.

Esas imágenes amorfas y cortadas del Street View

«El modelo se evalúa en varios conjuntos de datos de imágenes disponibles públicamente que abarcan una amplia gama de condiciones de iluminación», explican. «Creamos vídeos cortos que demuestran la manipulación realista del punto de vista de la imagen, la apariencia y el etiquetado semántico».

Como un pintor renacentista, la inteligencia artificial pudo deducir los volúmenes (y por tanto, el cálculo de los objetos en tres dimensiones) a partir de los ángulos de iluminación y sombras de las fotos.

Desde ahí, fue capaz para cada monumento de elaborar una interpretación de cómo son los ‘ángulos muertos’ a la visión plana. Y lo hizo con bastante precisión, verosimilitud y realismo.

Publicidad

Los autores, que ya publicaron una primera versión de su trabajo el año pasado, destacan que crear escenas en 3D (para un videojuego, para aplicaciones de navegación, turísticas o educativas, etc.) es algo laborioso. Exige tomar fotos de distintos ángulos y en todas las posibles iluminaciones, si no se quiere crear un rénder completamente artificial.

Sin mencionarlo expresamente, dejan entrever las lagunas de aplicaciones como la propia Google Earth o Maps, en sus visiones de alzado de edificios. A veces observamos imágenes raras o solapamientos extraños de instantáneas que cortan piernas o trocean fachadas.

Cosa que, por cierto, pasa también en Street View, ejemplo que mencionan pero del que destacan «la falta de diversidad» en lo que captan las cámaras 360º que recorren nuestras calles con sus coches.

Todo el código y detalles de este trabajo está colgado públicamente en GitHub.