Examinando la amplificación algorítmica del contenido político en Twitter
Como compartimos a principios de este año, creemos que es fundamental estudiar los efectos del aprendizaje automático (ML) en la conversación pública y compartir nuestros hallazgos públicamente. Este esfuerzo es parte de nuestro trabajo continuo para analizar los algoritmos en una variedad de temas. Recientemente compartimos los hallazgos de nuestro análisis de sesgo en nuestro algoritmo de recorte de imágenes y cómo informaron los cambios en nuestro producto.
Hoy publicamos lo aprendido de otro estudio: un análisis en profundidad de si nuestros algoritmos de recomendación amplifican el contenido político. La primera parte del estudio examina los tweets de funcionarios electos* en siete países (Canadá, Francia, Alemania, Japón, España, Reino Unido y Estados Unidos). Dado que los tweets de funcionarios electos cubren solo una pequeña parte del contenido político en la plataforma, también estudiamos si nuestros algoritmos de recomendación amplifican el contenido político de los medios de comunicación.
Desde 2016 , las personas en Twitter han podido elegir entre ver los Tweets ordenados algorítmicamente primero en la línea de tiempo de Inicio o ver los Tweets más recientes en orden cronológico inverso. Una línea de tiempo de inicio algorítmica muestra un flujo de tweets de las cuentas que ha elegido seguir en Twitter, así como recomendaciones de otro contenido que creemos que podría interesarle en función de las cuentas con las que interactúa con frecuencia, los tweets con los que interactúa y más. Como resultado, lo que un individuo ve en su línea de tiempo de Inicio es una función de cómo interactúa con el sistema algorítmico, así como también cómo está diseñado el sistema.
El propósito de este estudio fue comprender mejor la amplificación del contenido político de los funcionarios electos en nuestra línea de tiempo Home clasificada algorítmicamente en comparación con la línea de tiempo Home cronológica inversa. Esperamos que nuestros hallazgos contribuyan a una discusión basada en evidencia sobre el papel que juegan estos algoritmos en la configuración del consumo de contenido político en Internet.
En nuestro estudio, examinamos la amplificación algorítmica del contenido político en la línea de tiempo de Home haciendo las siguientes preguntas:
- ¿Cuánta amplificación algorítmica recibe el contenido político de los funcionarios electos en la línea de tiempo Home clasificada algorítmicamente de Twitter en comparación con la línea de tiempo cronológica inversa? ¿Esta amplificación varía entre partidos políticos o dentro de un partido político?
- ¿Se amplifican algorítmicamente algunos tipos de grupos políticos más que otros? ¿Son estas tendencias consistentes en todos los países?
- ¿Algunos medios de comunicación se amplifican más con algoritmos que otros? ¿La amplificación algorítmica de los medios de comunicación favorece a un lado del espectro político más que al otro?
Cómo realizamos el estudio
Analizamos millones de tweets del 1 de abril al 15 de agosto de 2020, de cuentas operadas por funcionarios electos en siete países. Usamos estos datos para probar si estos Tweets se amplifican más en la línea de tiempo de Home clasificada algorítmicamente que en la transmisión cronológica inversa y si hubo variación dentro de una fiesta. Utilizamos fuentes públicas de terceros (como sitios web institucionales oficiales) para identificar la afiliación a partidos políticos. No utilizamos el contenido del Tweet para intentar inferir opiniones políticas de los funcionarios electos.
Para estudiar la amplificación algorítmica de los medios de comunicación, analizamos cientos de millones de tweets que contienen enlaces a artículos compartidos por personas en Twitter durante el mismo período de tiempo. Los medios se clasificaron en función de las calificaciones de sesgo de los medios de dos organizaciones independientes, AllSides y Ad Fontes Media . Excluimos los Tweets que apuntan a contenido no político, como recetas o deportes.
¿Qué encontramos?
- Los tweets sobre contenido político de funcionarios electos, independientemente del partido o si el partido está en el poder, ven una amplificación algorítmica en comparación con el contenido político en la línea de tiempo cronológica inversa.
- Los efectos grupales no se tradujeron en efectos individuales. En otras palabras, dado que la afiliación a un partido o la ideología no es un factor que nuestros sistemas consideren cuando recomiendan contenido, dos individuos en el mismo partido político no necesariamente verían la misma amplificación.
- En seis de siete países, todos menos Alemania, los tweets publicados por cuentas de la derecha política reciben más amplificación algorítmica que la izquierda política cuando se estudian como grupo.
- Los medios de comunicación de derecha, según la definición de las organizaciones independientes enumeradas anteriormente, ven una mayor amplificación algorítmica en Twitter en comparación con los medios de comunicación de izquierda. Sin embargo, como se destaca en el documento, estas calificaciones de terceros hacen sus propias clasificaciones independientes y, como tales, los resultados del análisis pueden variar según la fuente que se utilice.
Puede leer la totalidad de nuestros hallazgos en el documento aquí .
There is also no ‘master algorithm’ of Twitter – your experience is the function of an algorithmic system. Even if we find algorithmic bias in our root cause analyses – we need to sleuth where it’s coming from and figure out what we can do. 7/n pic.twitter.com/wMFFwOBKSO
— Rumman Chowdhury (@ruchowdh) October 21, 2021
¿Qué sigue?
En este estudio identificamos lo que está sucediendo: cierto contenido político se amplifica en la plataforma. Establecer por qué ocurren estos patrones observados es una pregunta significativamente más difícil de responder, ya que es producto de las interacciones entre las personas y la plataforma. La misión del equipo de ML Ética, Transparencia y Responsabilidad (META), como investigadores y profesionales integrados en una empresa de redes sociales, es identificar ambos y mitigar cualquier inequidad que pueda ocurrir.
Este estudio de investigación destaca la compleja interacción entre un sistema algorítmico y las personas que utilizan la plataforma. La amplificación algorítmica no es problemática por defecto: todos los algoritmos amplifican. La amplificación algorítmica es problemática si existe un trato preferencial en función de cómo se construye el algoritmo frente a las interacciones que las personas tienen con él. Se requiere un análisis adicional de la causa raíz para determinar qué cambios, si los hay, se requieren para reducir los impactos adversos de nuestro algoritmo de línea de tiempo de Home.
¿Cómo se pueden validar estos hallazgos?
Es importante para nosotros compartir los datos que usamos para realizar este estudio para que otros investigadores puedan reproducir nuestro trabajo. Para ayudar a esto, estamos poniendo a disposición conjuntos de datos agregados para investigadores externos que deseen reproducir nuestros principales hallazgos y validar nuestra metodología, a pedido. Los detalles sobre lo que se incluye en estos datos se dan en el documento. Para una transparencia total, los investigadores idealmente tendrían acceso a los datos sin procesar a partir de los cuales se calcularon estos agregados, pero esto es extremadamente difícil sin comprometer la privacidad.
Durante los últimos meses, META ha estado buscando métodos para poner a disposición grandes conjuntos de datos de manera responsable para respaldar la validación. Estamos finalizando una asociación para aprovechar la tecnología de preservación de la privacidad para permitir que los investigadores externos reproduzcan este tipo de trabajo, al mismo tiempo que protegemos y salvaguardamos la privacidad de las personas que usan Twitter. Este enfoque es nuevo y no se ha utilizado a esta escala, pero somos optimistas de que abordará las compensaciones entre privacidad y responsabilidad que pueden obstaculizar la transparencia algorítmica. Estamos entusiasmados con las oportunidades que este trabajo puede generar para la colaboración futura con investigadores externos que buscan reproducir, validar y ampliar nuestra investigación interna. Pronto compartiremos más sobre esta asociación.
Esperamos que al compartir este análisis hoy, podamos ayudar a iniciar una conversación productiva con la comunidad de investigación en general para examinar varias hipótesis de por qué, en general, estamos observando una amplificación política comparativamente más derechista del contenido de los funcionarios electos en Twitter.
Si tiene alguna pregunta sobre Responsible ML, o el trabajo que está haciendo META, no dude en preguntarnos usando #AskTwitterMETA. Si desea ayudar, únase a nosotros .
###
Esta investigación fue realizada por Ferenc Huszár (Twitter, Universidad de Cambridge), Sofia Ira Ktena (ahora en DeepMind Technologies), Conor O’Brien (Twitter), Luca Belli (Twitter), Andrew Schlaikjer (Twitter) y Moritz Hardt (UC). Berkeley; el autor era un consultor remunerado en Twitter. Trabajo realizado como consultor para Twitter).
* Los funcionarios electos en este estudio se definen de la siguiente manera:
Canadá, miembros de la Cámara de los Comunes.
Francia, miembros de la Asamblea Nacional francesa.
Alemania, los miembros del Bundestag alemán.
Japón, miembros de la Cámara de Representantes.
España, miembros del Congreso de los Diputados.
Reino Unido, miembros de la Cámara de los Comunes.
Estados Unidos, cuentas oficiales y personales de miembros de la Cámara de Representantes y del Senado.
Fuente (inglés): https://blog.twitter.com/en_us/topics/company/2021/rml-politicalcontent