Realidad, ¿dónde estás?

Tiempo de lectura: ...

Vladimir Putin y Donald Trump cantan «Imagine» y nada en el video revela su carácter apócrifo. El último salto experimentado por la inteligencia artificial se llama GAN y difumina como nunca antes los límites entre lo verdadero y lo falso.

Juntos por la paz. La compleja técnica da como resultado deepfakes difíciles de detectar.

Imagine there’s no heaven», cantan líderes mundiales como Donald Trump, Vladimir Putin, Theresa May y Xi Jinping en un video que circuló por las redes: ¿una victoria del pacifismo global? No: apenas un paso adelante más en la veloz carrera de la inteligencia artificial recargada con Redes Generativas Antagónicas (GAN, por su sigla en inglés). La empresa Canny AI compartió, a modo de publicidad, una pequeña muestra de su poder informático poniendo a estos personajes a cantar la famosa canción de John Lennon de forma perfectamente verosímil. Al comienzo un cartel advierte que el video es un truco y, de alguna manera, desafía a buscar inútilmente alguna señal del fraude. La ausencia de errores en la iluminación, perspectiva, inflexión de los labios o movimientos sospechosos es lo más impactante de una simulación cuyo realismo anticipa una seria dificultad para diferenciar en un futuro próximo el mundo real de este creado por las computadoras.

De los datos al aprendizaje
Si en las primeras décadas de este milenio la disputa fue por acaparar más datos, ya quedó claro que la próxima se resolverá en el campo de la inteligencia artificial que repercute en prácticamente todos las áreas del conocimiento humano. Allí se dirime mayormente la actual guerra tecno-comercial entre Estados Unidos y China: quien lidere esta tecnología tendrá más posibilidades de imponerse en cualquier área.
Dentro de la llamada inteligencia artificial existen numerosas técnicas. Todas utilizan grandes cantidades de datos y procesamiento para entrenar máquinas en base a un algoritmo que les encarga una tarea. Luego se las deja hacer para que prueben una y otra vez cómo llevarla adelante de la mejor manera; así las máquinas desarrollan los mecanismos más efectivos para, por ejemplo, hacer reconocimiento de imágenes o simular el lenguaje natural. En ese aprendizaje automático se desarrollan refinados procesos que se modifican a sí mismos en busca de la perfección. Para mejorar necesitan muchos ejemplos y un entrenamiento como el que, por ejemplo, proveemos los humanos cuando marcamos semáforos, autos o números en los recaptcha. El sistema recopila la información y aprende cómo ser más eficiente en la tarea que le encomendaron. El proceso es una suerte de evolución de las especies que, en lugar de la selección natural, utiliza una selección informática a toda velocidad.
De esta manera los sistemas desarrollan tal nivel de complejidad que ningún ser humano puede entender en detalle cómo hacen lo que hacen. Por ejemplo, la técnica de «aprendizaje profundo» emula rudimentariamente la complejidad de procesos neuronales que se especializan en distintas tareas tal como ocurre en el cerebro humano: comprender la interacción de millones de nodos que se afectan en red los unos a los otros, como en el cerebro humano, resulta imposible.
Recientemente la inteligencia artificial dio un salto inesperado. Si bien las máquinas desarrollaron una gran capacidad para reconocer y etiquetar lo que hay (como hace, por ejemplo, Google Images) hasta ahora no eran tan buenas para producir. Los sistemas de reconocimiento de imágenes pueden ser excelentes para señalar a un perro visto desde cualquier ángulo, pero no tanto para producir uno verosímil: sus «inventos» pueden tener tres ojos o carecer de parte trasera. Por así decirlo, los sistemas aprenden a reconocer la «perritud» de una imagen, pero producir un perro creíble estadísticamente no es tan fácil. Para resolver la limitación se desarrolló una nueva técnica que aprovecha esta asimetría: por un lado se entrena un algoritmo que produce imágenes verosímiles, mientras otro las rechaza cuando no pasan sus controles. De esta manera, ambos aprenden. Esta técnica, la GAN mencionada al comienzo, requiere una gran cantidad de datos para usar como ejemplos y una enorme capacidad de procesamiento. El resultado son los deepfakes o «falsos profundos», falsificaciones automáticas de gran complejidad que resultaban imposibles de realizar artesanalmente, como el video de «Imagine» mencionado. Los intentos por detectar los deepfakes resultan precarios porque en cuanto se vuelven efectivos los sistemas aprenden a sortearlos en una carrera sin final (ver recuadro).
 

De boca en boca
En el caso de «Imagine», la empresa tomó muchas horas de video de estos personajes para que el sistema aprenda cómo son los movimientos de los labios y cómo afectan el rostro. Luego grabó a otra persona que canta la canción para que el sistema recopile los movimientos de la boca, en particular los puntos que se modifican al modular. Esos mismos puntos se aplican a los labios de los personajes para manipularlos tomando como modelo las imágenes recopiladas anteriormente. Luego se retoca la luz y la perspectiva: el resultado es una combinación de movimientos originales basados en otros anteriores. Otros investigadores utilizan como insumo el sonido para que el sistema lo reconozca, lo compare con discursos del sujeto elegido y de esa manera elija los movimientos de la boca que les corresponden.
La producción de falsos profundos por medio de inteligencia artificial ya está dando sus primeros pasos para el gran público gracias a videos pornográficos sobre los que se superponen rostros de famosos. Otro producto que generó revuelo recientemente fue la subasta de una pintura llamada «Retrato de Edmond Bellamy», elaborada por un algoritmo de inteligencia artificial. No importa que el personaje sea inventado y que prácticamente no se pueda ver su rostro: la obra se subastó por 432.500 dólares el año pasado. Ya hay desde rostros de personas inventados por computadoras a huellas digitales perfectamente verosímiles. En la medida en que estas técnicas sigan mejorando, sus usos potenciales se multiplicarán: un candidato podrá enviar videos automatizados y personalizados a medida para cada ciudadano, doblar una película con la voz del actor a cualquier idioma o recrear en una pantalla la interacción con una persona fallecida como ocurre en la serie Black Mirror, por mencionar solo algunas ideas escalofriantes.
Si el desarrollo de esta tecnología continúa su paso firme, fogoneado por millones de dólares de empresas como Google y Facebook pero también de sus pares chinos Tencent o Ali Baba, hay quienes calculan que en poco tiempo se podrá acceder a ella desde cualquier celular o computadora casera. Si la promesa se concreta, la idea de «lo vi con mis propios ojos» adquirirá todo un nuevo sentido y el mundo, cada vez más mediatizado por pantallas, deberá hacer malabares para saber qué es real y qué inventado, algo que ya hoy es muy difícil de determinar.

Estás leyendo:

Realidad, ¿dónde estás?