¿La Inteligencia Artificial acabará con el Arte?
Esta no es una obra de arte pintada por una mano humana Y esta fotografía no la capturó
la cámara de una persona y, de hecho, las personas y cosas que aparecen ahí ¡no existen!
Son imágenes generadas por inteligencias artificiales y ya son capaces de producir
cualquier escena, imaginable o inimaginable, en un sinnúmero de estilos y simulando cualquier
técnica, con tan sólo darles una instrucción. ¿Cómo funcionan? ¿Son capaces de pensar?
Y, más importante…
¿La inteligencia artificial acabará con el arte?
Computadora, quiero una pintura de mí mismo en pose heróica montando a caballo y conquistando
el mundo. ¡Humm! Mejor dibújame en el estilo de Rufino Tamayo. No, creo que quedaría mejor
como anime japonés. ¿O como si lo hubiera pintado Remedios Varo? ¡La verdad es que
esto de la inteligencia artificial da un poco de miedo! Porque, como habrás notado, no
se trata de que hagan copy-paste de imágenes que se encuentran por ahí ¿Cómo lo hacen?
¿Son mágicas? ¿Ya son seres conscientes? O son… ¿matemáticas?
La inteligencia artificial no es algo nuevo, ya lleva años existiendo. De hecho, desde
hace tiempo se ha usado esta tecnología para identificar lo que representan las imágenes:
algo que para nosotros es muy sencillo, para una computadora es muy complicado: lo que
para un ser humano es, por ejemplo, un perrito jugando pelota, para la computadora es sólo
una colección de valores numéricos. Por eso los programadores inventaron algo llamado
redes neuronales: sistemas computacionales que son capaces de aprender. Se pueden entrenar
para un montón de cosas, desde jugar juegos de video hasta hacer diagnósticos de salud
o análisis del clima. Tenemos un video sobre ellas, si quieres ahondar más en el tema.
Para reconocer imágenes, las redes neuronales se entrenan dándoles imágenes que intentan
adivinar usando un método llamado Redes Generativas Adversarias: una red genera intentos y la
otra los califica. Cada intento se premia o se castiga (por decirlo así) usando un
algoritmo llamado “descenso de gradiente”, que califica los intentos más acertados con
un costo bajo y los más alejados con un costo alto. Los intentos que se acercan más tienen
otra oportunidad y se reproducen introduciendo variaciones. El proceso se repite muchas,
muchas MUCHAS, veces hasta que tenemos un sistema capaz de identificar lo que hay en
la imagen. Bueno, pues recientemente, un grupo de expertos
dijo: “¿Y qué tal si lo aplicamos a la inversa? En vez de que la imagen produzca
un texto, hacemos que el texto… produzca una imagen.” Pero no sólo que encuentre
una imagen, sino que genere algo completamente nuevo. Actualmente hay varios modelos, como
el de Midjourney, el de Dall-e o Stable Diffusion, que tienen características diferentes, pero
simplificando y generalizando mucho, el proceso es el siguiente:
Primero se recopila un conjunto de datos lo más grande posible que contenga imágenes
y sus descripciones. Estas se obtienen de todos los rincones de internet, donde las
imágenes suelen tener texto alternativo (esa breve descripción que aparece cuando la foto
no carga) y del texto que rodea a las imágenes. Durante ese proceso la imagen se reinterpreta,
reduciendo su información al mínimo de manera que pesa solo unos cuantos bytes.
Con esa enorme base de datos se entrena a la red neuronal para que identifique qué
contiene cada imagen, y la información resultante genera algo llamado “espacio latente”...
¿Qué es eso? ¡Es un espacio de muchas dimensiones! ¡Órale! ¿Cómo es eso? Imagina que quieres
distinguir esta imagen de una rana de la de un libro. Una dimensión, o variable, que
puedes medir, es la “verdosidad”. Pero ¿y si el libro es verde? Entonces, para distinguirlos,
puedes añadir otra dimensión, digamos, la “rectangularidad”. Ya tenemos un espacio
de dos dimensiones. Oye, pero esta imagen también tiene una rana y no es verde… Entonces,
para decir que es una rana, necesitamos otras características, por ejemplo “tener ojos”:
una dimensión más. Este animal tiene ojos pero no es una rana ¡necesitaríamos muchísimas
dimensiones para describir imágenes! Y exactamente así es el espacio latente: tiene cientos
de dimensiones, y la mayoría de ellas ni siquiera las podemos describir con lenguaje
coloquial. En este espacio hay regiones donde se concentran
colores, formas o incluso estilos visuales y escuelas artísticas. Y cada punto dentro
de este espacio es un punto de partida potencial para generar imágenes posibles. Y así llegamos
a la tercera parte: la generación. Partiendo de los prompts, o sugerencias, que
introduce el usuario, el modelo elige un punto del espacio latente y entra a un proceso que
se llama difusión estable. Primero crea una imagen a partir de ruido aleatorio. Como es
aleatorio nunca se obtienen dos imágenes exactamente iguales. La red neuronal le “busca
forma” a las imágenes de ruido, como cuando nosotros les buscamos forma a las nubes, y
elige aquella que se parece más a lo que se le pidió (aunque en este momento no se
parezca a nada). Conservando los pixeles que sirven y cambiando los que no, genera muchas
variantes que a su vez también son calificadas y filtradas. Esta, por ejemplo, ya tiene más
características en común con aquel punto específico en el espacio latente. El proceso
se repite una cantidad enorme de veces: la imagen se va convirtiendo poco a poco en algo
reconocible y hasta increíblemente detallado. ¡Y ahí la tienes! Una fotografía,dibujo
o pintura que no existía antes, creada únicamente con el poder de las matemáticas: una obra
de arte sin la mano de un artista. ¡Esto lo cambia todo! Esta nueva tecnología
tiene tremendas implicaciones éticas, algunas que ya te habrás dado cuenta y otras que
seguro ni te imaginabas. Para empezar ¿Esto hará que los dibujantes, pintores y fotógrafos
se queden sin trabajo? Para contestar esto, hay que decir que, desde hace 200 años, con
la revolución industrial, las innovaciones tecnológicas siempre han precarizado las
ocupaciones de la gente: los telares mecánicos dejaron sin trabajo a las tejedoras manuales;
la automatización de las fábricas dejó sin empleo a muchísimos obreros.
Sin embargo, hay casos interesantes: se temía que la invención de la fotografía eliminaría
a los pintores, y no ocurrió así; más bien los artistas encontraron nuevas formas de
expresión. Más adelante, el arte digital no destruyó la profesión de quienes pintan
y dibujan con papel, lápiz y pintura. Lo que ha pasado es que se han diversificado
las formas de expresión: lo análogo convive con lo digital y ahora, convivirá con la
inteligencia artificial. Pero sí cambiarán las cosas: posiblemente las empresas que venden
imágenes de stock empezarán a incluir imágenes generadas. Artistas digitales usarán las
IAs como fuente de inspiración o materia prima y seguramente aparecerán nuevas profesiones,
como “ingeniero de prompts”: personas expertas en escribir textos para que las computadoras
produzcan exactamente las imágenes que necesitan. Otra consideración ética tiene que ver con
la autoría de las imágenes que se usan para entrenar a las IA: si bien no “copian y
pegan” las imágenes directamente, es evidente que toman e interpretan esas obras para generar
las nuevas. ¿No debería darse crédito y compensarse económicamente a sus creadores?
Algunas empresas ya están limitando las fuentes de inspiración a artistas que fallecieron
hace ya mucho tiempo, pero hay sitios que compilan muchísimas obras de arte que están
vendiendo las colecciones sin necesariamente pedirle permiso a las autoras y autores. Lo
mismo aplica a los modelos: si alguien tomó una foto tuya, esta podría usarse sin tu
consentimiento para alimentar a las IAs o incluso para generar imágenes falsas para
inculparte o ridiculizarte. También está el problema de los sesgos:
la manera en que se alimentan las bases de datos suele reproducir las mismas tendencias
sexistas o racistas que hay en la sociedad: generar imágenes de “hombres guapos”
suele producir imágenes de hombres caucásicos, o poner “nurse”, enfermero o enfermera,
genera imágenes de solo mujeres. Actualmente ya hay grupos y organizaciones
preocupados por estas consideraciones éticas, trabajando por que se corrijan estos sesgos
y problemáticas. Sin embargo la tecnología parece avanzar demasiado rápido. Las IAs
ya están generando videos, empiezan a componer música… (PAUSA 3 SEGUNDOS) Quizá antes
de diez años ya estén escribiendo novelas, diseñando edificios y produciendo hasta películas
completas ¿Será que superarán a los humanos en la creatividad, lo único en lo que nos
creíamos especiales? Pero, aún si fuera así, creemos que las Inteligencias artificiales
nunca podrán sustituirnos, porque el arte es más que un producto: es, ante todo, una
manera en la que nos expresamos y en la que escuchamos a los demás: es la manera que
tenemos de compartir y aprender de la profundidad de la experiencia humana y conocernos unos
a otros ¡CuriosaMente! ¿Ya te suscribiste a nuestro canal? ¡Ahh,
qué bueno! Si te gustó el video, danos un like y déjanos un comentario. Recuerda que
también puedes apoyarnos en patreon.com/curiosamente o a través del botón “unirse”, y así
puedes proponer temas para los videos y participar en votaciones. Y también puedes seguirnos
para saber más cosas interesantes en Instagram, Twitter y Facebook.