Los ‘chicos del coro’ de la inteligencia artificial
Hablar de sistemas ‘inteligentes’ que pintan, escriben o hacen música mejor que los humanos no solo es absurdo y profundamente ingenuo, sino también una falta de reconocimiento hacia todas esas personas que diseñan, desarrollan, entrenan, ponen en marcha y mantienen esta tecnología.
Con cada vez mayor frecuencia leemos en los medios generalistas acerca de las increíbles y cuasi mágicas capacidades de la inteligencia artificial (IA). Gracias a ella, los robots serán más eficientes e inteligentes que nosotros y, a la larga, terminarán por reemplazarnos, leemos una y otra vez.
Las fabulosas capacidades de esta tecnología irían desde la detección de todo tipo de enfermedades al cálculo del riesgo de reincidencia de un recluso que solicita la libertad condicional. Esto último es precisamente para lo que se usa el software RisCanvi, en la Justicia catalana. Sistemas de este tipo, llamémosles ‘clasificatorios’, ya se utilizan para analizar, por ejemplo, una foto de un lunar en la piel para etiquetarlo como potencialmente benigno o maligno.
A pesar de que sus resultados puedan ser prometedores, estas tecnologías también son objeto de serias críticas por parte de académicos e investigadores, ya que producen resultados sesgados y discriminatorios, especialmente, en contextos de injusticia estructural que afectan a colectivos y personas vulnerables. Además, son opacos en su funcionamiento, dificultan la atribución de responsabilidad cuando las cosas salen mal y ejecutan tareas que quizás no se deberían delegar en una máquina.
A veces, estos sistemas ni siquiera funcionan bien desde el punto de vista técnico y sus resultados son incluso peores que los que se podrían obtener mediante el azar. La propia Comisión Europea recoge estas y otras preocupaciones en el primer marco normativo común, la AI Act, que se encuentra en fase de aprobación. Si bien la norma reconoce el potencial rol beneficioso, también considera de “alto riesgo” a las tecnologías de IA empleadas en ámbitos como la educación o administración de justicia.
Expectativas desmesuradas en los sistemas generativos
Aquí, sin embargo, queremos concentrarnos en las reacciones que han suscitado recientemente otro tipo de sistemas y en el tratamiento que se les da habitualmente por parte de los medios de comunicación. Nos referimos a los sistemas de IA con los que se generan cosas nuevas y que denominaremos sistemas ‘generativos’.
Si un sistema clasificatorio se usa para trabajar con lo existente, uno generativo sirve para ‘crear’ algo nuevo, algo que no existía hasta el momento en el que es artificialmente generado por un sistema computacional. Dos conocidos ejemplos son GPT-3 y Dall·e que han sido ampliamente comentados en los medios de todo el mundo.
GPT-3 y Dall·e han dado lugar a estrambóticos titulares como estos: “La inteligencia artificial que escribe mejor que un humano”, “La IA que escribe sobre el amor como un guionista de Hollywood”, “¿Sabríamos diferenciar si hablamos con una IA o un humano?”, “La IA que dibuja cualquier cosa que le pidas y es lo más alucinante que se ha visto en Internet en años”, “¿Crees que la inteligencia artificial no es creativa? Mira cómo escribe y cómo pinta”. No es infrecuente encontrar alguno aún más taxativo: “Hola, Dall·e. Adiós, artistas humanos”.
El software GPT-3 sirve para generar textos y responder a preguntas complejas del tipo: “¿Cuál es la razón de la guerra de Ucrania?” o a órdenes concretas: “Escribe la historia del imperio persa con perspectiva de género”. Con el software Dall·e, en cambio, se pueden generar imágenes.
OpenAI, la compañía detrás de ambos sistemas, ofrece en diversas publicaciones ejemplos de algunos resultados obtenidos con Dall·e a partir de peticiones tan variadas como solicitar el dibujo de “una nutria marina al estilo de La joven con un pendiente de perla de Johannes Vermeer” o una “foto de un astronauta a caballo”. Las imágenes resultantes son ciertamente notables y chocantes. Al menos ante el ojo inexperto, pasan por un dibujo realizado por un ser humano. Por otro lado, GPT-3 ya se ha usado para escribir artículos y columnas de opinión y muchos opinan que pronto se usará para escribir las entradas de la Wikipedia.
Detrás de los sistemas sigue habiendo personas
¿Pero es cierto que la IA puede ‘pintar’ mejor que nosotros? ¿GPT-3 realmente ‘escribe’ como los humanos? Una cuestión obvia es que estos sistemas ni se hacen a sí mismos ni se activan por sí solos, sino que requieren de equipos muy numerosos de personas que los diseñen, desarrollen, entrenen, mantengan y pongan en marcha.
De la misma manera que para que Deep Blue ganara a Kaspárov hizo falta que sus creadores lo entrenaran con gigantescos datasets conformados por infinidad de partidas de ajedrez jugadas por humanos y reajustaran sus estrategias, reprogramándolas de forma reiterada, también sucede que para que Dall·e ilustre al estilo Kandinsky hacen falta no sólo Kandinsky y sus pinturas sino también las de sus seguidores e imitadores.
Resulta ineludible contar con productos del ingenio humano como base para estos nuevos productos y dedicar horas y horas de trabajo muy especializado para estabilizar el funcionamiento de GPT-3. El personal de ingeniería que desarrolla este software lo prepara y monitoriza con cientos de miles de textos para que cuando alguien lo ponga en marcha genere como output una serie de palabras que nos parezca, a nosotros, una frase coherente. Dentro del sistema, no obstante, esta frase no será estrictamente una frase, sino simplemente un vector probabilístico. ¿Qué palabra debe ser la siguiente? ¿Qué combinación de palabras es la más probable en función de lo que se le ha solicitado?
Atribuyéndoles capacidad de entendimiento, algunos insisten en que estos sistemas han pasado pruebas de comprensión lectora. Pero es preciso hacer una salvedad: estas pruebas están diseñadas para el fin específico de medir lo que un ser humano es capaz de entender, no lo que entiende una máquina. Aplicar estas pruebas a un sistema computacional es un grave error metodológico. No es posible afirmar en base a la superación de estas pruebas de comprensión lectora que un sistema algorítmico tenga la capacidad de entender lo que procesa, ni en relación a captar el significado de las palabras ni a la comprensión global del texto.
¿Recuerdan los videos conspiracionales en los que se exprimía zumo de naranja en un test rápido de antígenos y este terminaba dando un resultado positivo? Para los conspiparanoicos esto demostraba que los tests eran un engaño o que la covid no existía. Pero los tests rápidos de antígenos están diseñados para comprobar fluidos con un pH como el de la saliva, no para zumos cítricos, que tienen un pH ácido fuera de ese rango. El resultado en este caso no es ni siquiera un falso positivo, ya que la prueba con zumo queda invalidada metodológicamente. Utilizar con un sistema de IA una prueba de comprensión lectora pensada para humanos adolece de un problema metodológico parecido.
Un sistema de IA no entiende, en un sentido humano, nada de lo que escribe. Investigadoras como Emily Bender o Timnit Gebru se han referido a estos sistemas como ‘loros estocásticos’. GPT-3 entiende tanto de lo que escribe como un loro que canta el tango El día que me quieras.
Esta imagen representa el proceso de aprendizaje automático en el reconocimiento de objetos. Los árboles son datos de entrenamiento y los bloques/patrones blancos que se van alineando indican el progreso en los objetivos. El árbol pixelado es un recordatorio de que las máquinas no ven como los humanos. / David Man & Tristan Ferne / Better Images of AI / Trees / CC-BY 4.0
Confundir una parte por el todo
Hay otra cuestión importante que suele dejarse de lado en favor de la fascinación. El problema aquí es lo que algunos filósofos denominan la ‘falacia mereológica’: confundir una parte por el todo. El arte, la ilustración, la redacción de entradas de enciclopedias, la literatura, la composición de canciones, o el periodismo son prácticas humanas. Son actividades cooperativas que no son equiparables a los resultados que generan. Una práctica es mucho más que sus resultados.
La literatura, como práctica, no es equiparable a una novela, ni siquiera es la suma de todas las novelas. Es mucho más que eso. Es una tradición, o varias, un espacio de diálogo y disenso acerca de las excelencias de la práctica, acerca de sus medios y sus propósitos. El ajedrez es mucho más que un jaque mate. Cuando Deep Blue derrotó a Kaspárov, el ajedrez no se acabó. ¿Por qué habría de acabarse con Dall·e el arte de la ilustración?
Que la mayoría de las personas se maravillan e impresionan con la fluida comunicación que podemos tener con un sistema artificial es algo que sabemos desde las pruebas con el chatbot Eliza, hace ya más de 50 años. Parece, sin embargo, que no hemos aprendido la lección. Joseph Weizenbaum, su creador y un pionero de la IA, quedó perplejo ante la reacción de la gente ante ese rudimentario sistema de diálogo.
En parte, su libro Computer Power and Human Reason: From Judgement to Calculation (1976) se puede entender como una reacción ante esa crédula fascinación y casi sumisión. Pasan los años y volvemos otra vez a caer en una deriva muy humana, la de adscribir un enorme grado de autonomía, inteligencia y agencia a nuestras propias creaciones. Expresado en términos sencillos, la agencia, es la capacidad de actuar con intencionalidad, de controlar lo que se hace y cómo. Atribuimos agencia a un coche cuando exclamamos “¿por qué ese BMW se cruza así a 160 km/h?”, pero decir esto no es problemático mientras no perdamos de vista que se trata de un recurso discursivo y que el BMW se cruza porque su conductor así lo ha determinado, envalentonado por el poder de su vehículo.
Sí que es problemático que desarrolladores y departamentos de comunicación parezcan desvivirse para conseguir que demos por supuesto que las máquinas no solo tienen intenciones propias sino algo ya cercano a la omnipotencia. Todo esto contribuye a asentar un relato de progreso imparable, y unidireccional, hacia máquinas tan inteligentes y autónomas como nosotros sino directamente sobrehumanas en cualquier tipo de tarea.
Complicidad de los medios
Un mínimo conocimiento de la historia de la disciplina y de los valores del entorno empresarial que la ha aprovechado, nos debería llevar a adoptar una cierta distancia de cautela en nuestros juicios, o, como mínimo, a no entusiasmarnos tan fácilmente. Sin embargo, abundan las actitudes acríticas y crédulas. Estas son especialmente intolerables cuando provienen de medios de comunicación serios, que deberían hacernos pensar más allá de nuestras primeras impresiones intuitivas.
Nos resulta inadmisible que desde la sección de tecnología de medios especializados o de diarios de tirada nacional no se mantengan unos mínimos estándares en cuanto al vocabulario empleado que atribuye a estos sistemas una capacidad volitiva que no tienen (“la IA dibuja y es creativa”). Claro, el papel del titular llamativo desde siempre y el clickbait necesario para sobrevivir no son desdeñables para entender estas prácticas comunicativas tan empobrecedoras del debate público.
Tampoco se alcanzan unos mínimos estándares de calidad cuando estos mismos medios no consideran seriamente qué tipo de fuentes pueden contar como evidencias para que hablar de “avances históricos” esté justificado. Lo que se ha escrito en las últimas semanas sobre Dall·e (o sobre el modelo 540B desarrollado por Google, similar en operativa a GPT-3), está basado en informes internos de las propias empresas. No han pasado por los canales habituales de la comunicación científica ni han sido sometidos al escrutinio de la revisión por pares, ni han aportado información verificable acerca de la manera en que estos sistemas han sido entrenados, ni en base a qué datos. A veces las empresas directamente niegan a investigadores críticos de renombre el uso del sistema.
Papanatismo y marketing
Los periodistas, analistas y medios que anuncian el fin de los ilustradores renuncian, sin embargo, a requerir unas mínimas evidencias objetivas y sucumben a un papanatismo que no se cuestiona nada. Y que, además, copia, pega y reproduce con domesticada ingenuidad los materiales distribuidos por los departamentos de relaciones públicas y comunicación de las compañías detrás de estos sistemas, convirtiéndose en un coro que amplifica un mensaje de origen empresarial que responde a una clara estrategia de marketing.
Dicho de otra manera, una empresa nos cuenta que ha llegado a Marte pero no nos dice cómo y como única evidencia nos muestra la foto de una roca guardada en una caja fuerte, que no se puede abrir porque, claro, es secreto industrial. Un coro de niños canta alabanzas desde sus páginas y pantallas: “Histórico, ¡Google ha llegado a Marte! Nada volverá a ser igual.”
La acusación de escepticismo (tal como nos sucedió a uno de nosotros en Twitter) es la estrategia más al alcance de la mano de los niños del coro cuando se les cuestiona este proceder. Sin embargo, tal como recomienda Bender, debemos rechazar que se nos etiquete así y, por ello, se nos saque de la discusión.
Aceptar que se nos relegue al rincón de los escépticos es aceptar que quienes enmarquen y participen en el debate sean únicamente los crédulos. En una cuestión científica o técnica, uno es escéptico cuando cuestiona una afirmación al encontrarse ante evidencias que, por una razón u otra, no acepta como válidas o suficientes
En el caso de Dall·e simplemente no aceptamos que un paper corporativo constituya, por sí solo, una evidencia que justifique afirmaciones periodísticas tan ditirámbicas. Si la industria del tabaco y del petróleo nos han enseñado algo es que los ‘estudios’ corporativos internos no son evidencias hasta que transitan por los canales científicos apropiados.
Exageración de las capacidades de la IA
Este hype, esta hiperexpectación, acerca de las posibilidades de la IA contribuye a nutrir y asentar imaginarios tecnológicos que inequívocamente benefician a las empresas desarrolladoras y comercializadoras. Por eso es tan pernicioso cuando los medios reproducen la idea de que un sistema de software que implementa técnicas de IA actúa autónomamente y, por tanto, entiende conceptos, escribe como un guionista, es creativa, empática y hasta tiene un grado embrionario de consciencia.
Cada uno de estos artículos contribuye a normalizar y consolidar una narrativa que de manera sistemática exagera las capacidades reales de estas tecnologías y les atribuye un rol en la sociedad que no tienen ni quizás deban tener.
En la intersección de las ciencias de la computación, las ciencias cognitivas, la filosofía y las humanidades sigue sin haber consenso acerca de hasta qué punto las afirmaciones acerca de la inteligencia o la superinteligencia de las máquinas están justificadas. Incluso quienes aceptan la posibilidad teórica de la superinteligencia admiten que a la técnica le falta bastante para llegar a ese momento. Es más, hasta los significados de las nociones de ‘inteligencia’ y ‘consciencia’ son vigorosamente debatidos.
Sin embargo, cada vez que los medios mencionan a las ‘inteligencias artificiales’ (sic) que ‘superan’ a los humanos se pierde de vista que la atribución de agencia es sólo una manera de hablar para referirnos de aquello que nosotros hemos delegado en ellas. Lo nocivo es que se repite un argumento de persuasión y seducción, y de ello se benefician especialmente las empresas desarrolladoras de sistemas clasificatorios, que se vuelven cada vez más ubicuos.
El mecanismo del beneficio retórico es sencillo: si un sistema de IA es capaz de leer y comprender como cualquiera de nosotros, de redactar una entrada de la Wikipedia, o incluso de pintar como Vermeer, de jugar al ajedrez como Kaspárov o de escribir y lograr emocionar como un guionista de Hollywood… ¿Por qué no habría de ser también capaz de asignar recursos sanitarios ¿Despedir y contratar trabajadores? ¿Decidir quién recibe un préstamo? ¿Qué personas y barrios deben ser vigilados para combatir la criminalidad?, etc.
Fragilidad técnica de los sistemas
Estos no son meros escenarios futuristas, todo ya está ocurriendo a pesar de la fragilidad técnica de estos sistemas y los altísimos riesgos y daños que conlleva su uso. Pero está ocurriendo no por la decisión autónoma de estos sistemas que usan técnicas de IA, sino porque alguien en un puesto jerárquico de una empresa o institución pública ha decidido integrarlos en estos procesos, a menudo reemplazando el juicio humano, que, si bien es claramente imperfecto, es más transparente que el de estos sistemas y permite un mejor escrutinio externo.
Por más que los ‘chicos del coro’ de la inteligencia artificial digan lo contrario, nada de lo que ‘hace’ un sistema que implementa técnicas de IA es verdaderamente análogo a lo que hace un ser humano. El resultado obtenido puede resultar parecido (un dibujo o un texto, en los casos que hemos analizado). Sin embargo, a no ser que estemos dispuestos a adoptar una visión reduccionista que afirme que los seres humanos no somos más que sistemas estadísticos de toma de decisiones, el proceso por el cual un dibujante llega a un dibujo o una escritora a un texto es radicalmente distinto del empleado por las máquinas para llegar a estos resultados.
Nada impide, en principio, que GPT-3 y Dall·e generen resultados de gran calidad técnica. De ser así, nos encontraremos ante nuevas y maravillosas muestras del ingenio humano. A menos que estos sistemas resulten en nuevas formas de perpetuar y exacerbar las injusticias sociales existentes, debemos celebrarlo y admirar a todas las personas que con su creatividad y trabajo los han hecho posibles.
Hay que seguir teniendo presente que la acción humana es una condición necesaria para la existencia y funcionamiento de estos sistemas y de muchos otros como, por ejemplo, el empleado por el pianista Marco Mezquida, quien utilizó un sistema que reaccionaba a sus improvisaciones con otras nuevas durante el arranque del Sonar AI+MUSIC Festival del 2021. Hablar de “inteligencias artificiales que pintan, escriben o hacen música mejor que los humanos” no solo es absurdo y profundamente ingenuo, sino una falta de reconocimiento hacia todos esos humanos que diseñan, desarrollan, entrenan, ponen en marcha y mantienen estos sistemas.
Ariel Guersenzvaig es investigador en ética de la inteligencia artificial y profesor en Elisava, Facultad de Diseño e Ingeniería de la Universidad de Vic y miembro del comité de ética de la investigación de esa universidad.
Ramon Sangüesa es investigador en inteligencia artificial, profesor de la Universidad Politécnica de Catalunya y coordinador docente del Grado de Inteligencia Artificial en esa universidad.