Sesgos algorítmicos y representación social en los modelos de lenguaje generativo (LLM)

Con el surgimiento de GPT, los modelos de lenguaje generativo (LLM) irrumpieron en nuestra vida cotidiana. Los usamos para aprender, para atender clientes e incluso para diseñar políticas públicas. Todas las respuestas generadas por estos modelos (incluso la falta de respuesta) reflejan una opinión. ¿Qué segmentos de la población argentina tienden a estar más presentes en las respuestas de estos modelos? Responder esta pregunta es crucial si queremos ampliar el uso de estas herramientas con éxito. Desde la falta de representación equitativa hasta la posibilidad de amplificar estereotipos, analizamos los desafíos de estos sesgos algorítmicos.

Ilustración: Micaela Nanni

¿Qué son y cómo funcionan los modelos de lenguaje generativo (LLM)?

¿Qué son los modelos LLM?

Son modelos de procesamiento de lenguaje natural, diseñados para interpretar y responder preguntas de manera cada vez más sofisticada. Surgieron en el ámbito académico, pero fue la llegada de ChatGPT en noviembre de 2022 lo que realmente impulsó su expansión en ámbitos diversos de la sociedad.

Desde entonces, estos modelos están encontrando aplicaciones en una variedad de dominios, desde la atención al cliente o la personalización de recomendaciones hasta el diseño de políticas públicas basadas en evidencia. No obstante, no todos sus usos son virtuosos. Se han presentado también casos negativos, por ejemplos en el uso en contextos gubernamentales por distorsión de información y generación de discursos engañosos para promover agendas políticas o ideológicas.

A medida que estas herramientas se hacen cada vez más masivas, la responsabilidad en su uso y la comprensión de sus implicaciones éticas también se han convertido en un tema en sí mismo. Surge un interrogante fundamental: ¿hasta qué punto estos algoritmos reflejan e, incluso, pueden amplificar los sesgos preexistentes en nuestra sociedad?

¿Cómo funcionan los modelos LLM?

  • Funcionan mediante prompts: indicaciones que se les da para generar respuestas o contenido específico. Dicho de otro modo, un prompt es una pregunta que se le hace al modelo. Este, basándose en la vasta cantidad de información con la que fue entrenado, produce una respuesta coherente y, en muchos casos, sorprendentemente precisa. 

Este entrenamiento se da en dos momentos:

  • Preentrenamiento, donde el modelo desarrolla habilidades esenciales, como entender y generar lenguaje. El proceso demanda muchos recursos por lo que sólo gigantes tecnológicos como Google, Meta y OpenAI la han llevado a cabo con éxito. El resto se beneficia de modelos preentrenados por estas empresas.
  • Ajuste fino, donde se define el comportamiento de cada modelo: su tono conversacional, los límites en sus respuestas y cordialidad, entre otros. Esta fase es menos intensiva en recursos pero demanda una mayor participación humana para garantizar que las respuestas se alineen con estándares específicos. 

 

En este ajuste fino, los modelos pueden heredar sesgos debido a la intervención humana que busca dirigir intencionalmente su comportamiento. Estos sesgos son los que, posteriormente, los harán responder preguntas con base en las creencias con las que fue entrenado.

¿Cómo “se equivocan” los modelos LLM?

Generan texto mediante la predicción de la siguiente palabra más probable, basándose en los datos utilizados durante su entrenamiento. Tienden a expresarse con un alto grado de confianza. La combinación de estas dos características puede dar lugar a respuestas que son inexactas o, incluso, completamente ficticias, pero que suenan auténticas. Los textos producidos por los LLM pueden presentar los siguientes inconvenientes: 

  • Sesgos (de género, raza, orientación sexual u otros atributos): una incorrecta o injusta representación de una población o fenómeno, dada por una recolección parcial o incorrecta de datos o por sesgos ya existentes (presentes en los datos recolectados).
  • Información errónea o falsa: esto puede suceder si los datos de entrenamiento contienen información inexacta. Esto es especialmente problemático cuando se utilizan para consultas que requieren información precisa, como asesoramiento médico.
  • Alucinaciones: los modelos pueden generar respuestas ficticias o inventadas, lo que puede ser engañoso o potencialmente perjudicial si los usuarios toman esa información como cierta. 
  • Refuerzo de creencias preexistentes: lo que podría llevar a la polarización y la falta de diversidad de opiniones.

¿Las opiniones de quiénes reflejan GPT y sus competidores?

Metodología de investigación

Esta investigación se basa en un estudio realizado por la Universidad de Stanford, en el que se compararon las respuestas de varios modelos de lenguaje generativo (LLM), incluido GPT, con las opiniones de la sociedad estadounidense mediante encuestas de opinión pública. 

Para este estudio: 

  1. Seleccionamos un conjunto de 78 preguntas y respuestas de la encuesta de opinión de Latinobarómetro (2020). 
  2. Repetimos el cuestionario: le hicimos las mismas preguntas de la encuesta a tres modelos LLM: GPT Turbo 3.5 (OpenAI), Command-nightly (Cohere), Bard (versión anterior de Gemini) (Google). 
  3. Comparamos las respuestas de estos 3 modelos LLM con las de la población argentina.
  4. Analizamos coincidencias y diferencias para  identificar las características que comparte cada modelo con los distintos segmentos de la población local.

¿Qué segmentos de la población tienden a estar más presentes en las respuestas de los modelos LLM?

Al analizar los resultados, observamos que las personas que mostraron similitud en sus respuestas a cada Modelo (LLM) presentaban las siguientes características:

 
MODELOS LLM ANALIZADOS
GPT Turbo 3.5
Cohere
Bard
PERFIL
Características de las personas con las que mostraron mayor similitud en sus respuestas

Varón

Interés en política

 

Adulto

Nivel educativo alto

Ideología con inclinación a la derecha

Varón

Interés en política

Varón

Interés en política

Adulto

Nivel  educativo alto

Perfil: Varón
Perfil: Nivel educativo alto
Perfil: Interesado en la política
Perfil: Ideología con inclinación a la derecha
Caracterización de los modelos LLM

Aunque las respuestas de los 3 modelos no son idénticas, comparten ciertas características que los hacen similares en términos de audiencias. Los tres modelos muestran una inclinación hacia un sector más masculino y politizado. Además, tanto Bard como GPT Turbo 3.5 también se asemejan a personas con niveles educativos más altos y una mayor edad. Cabe destacar que GPT Turbo 3.5 es el único que muestra una correlación significativa con la ideología, mostrándose más afín a individuos con orientaciones ideológicas de derecha.

  • La afinidad de estos modelos con personas interesadas en política tiene sentido, ya que, durante su entrenamiento, fueron expuestos a diversas fuentes de datos relacionadas con la política, como debates en redes sociales, definiciones de Wikipedia y ensayos.
  • La coincidencia con individuos de altos niveles de educación es comprensible, dado que estos modelos son muy informados debido a su entrenamiento.
  • La tendencia hacia la masculinización se puede explicar considerando que, aun si no conocemos sus identidades exactas, el campo del software tiende a estar dominado por hombres y que la mayoría de los autores de los papers fundacionales de los LLM (13 de 16) son hombres.

Los perfiles cambian según los temas sobre los cuáles se consulte

Luego, realizamos un análisis por tema considerando cómo varían los perfiles según los tópicos sobre los cuales se consulta. Dado que algunos LLM no respondieron muchas de estas preguntas, indicamos “Sin datos” cuando el modelo no eligió ninguna de las alternativas proporcionadas.

Tópico

GPT Turbo 3.5

Cohere

Bard

Relaciones Internacionales

Sin datos

Sin datos

– Adulto

– Varón

– Ideología con inclinación a la derecha

– Nivel educativo alto

– Politizado

Opinión 

Sin datos

Sin datos

– Nivel educativo alto

– No emigrar
– Politizado

Economía 

Sin datos

Sin datos

– Adulto

– Varón

– Ideología con inclinación a la derecha

– Nivel educativo alto

– Deseo de emigrar

– Politizado

Democracia 

Sin datos

Sin datos

– Ideología con inclinación a la izquierda

– No emigrar

– Politizado

Ideología 

Sin datos

Sin datos

– Varón

– Deseo de emigrar

Derechos sociales

– Politizado

– Adulto

– Politizado
– Adulto

– No emigrar

– Politizado

Caracterización de los modelos LLM según temáticas

Si bien existen similitudes en varios temas, observamos que los perfiles de los modelos varían según los temas sobre los cuales se pregunte. Por ejemplo, Bard presenta una afinidad con un público de derecha al opinar sobre cuestiones relacionadas con relaciones internacionales, pero se asemeja más a un público de izquierda cuando se le consultan temas sobre democracia. Lo mismo ocurre con su perspectiva sobre el deseo de emigrar del país. Si se le pregunta sobre economía o ideología, parece tener más similitudes con aquellos que desean abandonar el país, pero si se trata de preguntas relacionadas con democracia u opinión, ocurre lo contrario.

Tanto GPT Turbo 3.5 como Cohere presentaron un alto número de preguntas sin respuesta: 53 de 78 para GPT (68% sin responder) y 50 para Cohere (64%). Esto indica un esfuerzo por parte de los desarrolladores para evitar que estos modelos emitan opiniones en numerosos temas. En contraste, Bard se negó a responder sólo 11 preguntas (sólo 14% sin responder), lo que sugiere un enfoque menos restrictivo por parte de Google.

En cuanto a sesgos, es notable que tanto Bard como Cohere respondieron haciendo referencia a Estados Unidos cuando se les pregunta por “nuestro país”. En contraste, GPT Turbo 3.5 contestó que no sabía a qué país se hacía referencia. Esta diferencia destaca cómo los sesgos de los desarrolladores pueden haber influido en las respuestas de manera, posiblemente, no intencional.

Buenas prácticas para el uso y diseño de modelos LLM

La eliminación completa de sesgos en modelos de propósito general, como los LLM, sigue siendo un desafío sin solución definitiva en la actualidad. Lo que se hace actualmente es orientar el comportamiento de los modelos hacia lo que sus desarrolladores consideran como el «bien». Pero esta noción de «bien», a menudo, depende de la cultura y el contexto en el que se desarrolla. Por lo tanto, es de suma importancia identificar estos sesgos para utilizar esta tecnología de manera más responsable y eficaz, reconociendo sus limitaciones y considerando cómo pueden afectar a diversas audiencias y aplicaciones.

Para reproducir el análisis realizado en este estudio, se puede acceder al repositorio disponible en el siguiente enlace. Este repositorio contiene todos los datos y scripts necesarios para replicar los procedimientos presentados en este trabajo. Es importante tener en cuenta que el código presente en el repositorio refleja la funcionalidad disponible al momento de la creación de este documento. Debido a posibles cambios en las APIs u otros factores, puede haber variaciones en los resultados si se ejecuta en un momento posterior.

Publicaciones relacionadas