El reto de los sesgos en la construcción de sistemas de inteligencia artificial

La Cátedra iDanae (inteligencia, datos, análisis y estrategia) en Big Data y Analytics, creada en el marco de colaboración de la Universidad Politécnica de Madrid (UPM) y Management Solutions, publica su newsletter trimestral correspondiente al 1T25 sobre el reto de los sesgos en la construcción de sistemas de inteligencia artificial

La Cátedra iDanae, que surge en el marco de la colaboración de la UPM y Management Solutions, tiene el objetivo de promover la generación de conocimiento, su difusión y la transferencia de tecnología y el fomento de la I+D+i en el área de Analytics. En este contexto, una de las líneas de trabajo que desarrolla la Cátedra es el análisis de las metatendencias en el ámbito de Analytics.

El reto de los sesgos en la construcción de sistemas de inteligencia artificial

Ver vídeo

Introducción

En un mundo cada vez más impulsado por la inteligencia artificial (IA) los modelos de aprendizaje automático se han convertido en herramientas esenciales para la toma de decisiones en una amplia gama de aplicaciones, desde la medicina a las finanzas. Su capacidad para analizar grandes volúmenes de datos y extraer patrones útiles ha transformado sectores enteros, permitiendo avances que antes parecían inalcanzables. Sin embargo, esta creciente adopción también ha puesto de manifiesto retos críticos relacionados con los posibles sesgos derivados de los procesos de negocio y que se reflejan en los datos de entrenamiento, los cuales pueden también producir decisiones injustas en el uso de estos modelos. Se trata de aspectos esenciales que se deben abordar para garantizar una correcta implantación y despliegue, así como un uso responsable y ético de los modelos.

Los sesgos inherentes a los datos y los modelos pueden dar lugar a decisiones no deseadas que afecten negativamente a distintos grupos. Estos sesgos pueden estar presentes en los datos utilizados para entrenar los modelos, tanto porque el proceso de recogida y almacenamiento de los datos no sea completo (por ejemplo, si hay alguna información relevante que no se haya recogido y almacenado) como porque la información presente en los datos represente una realidad sesgada (por ejemplo, cuando hay algunos patrones no deseados, como decisiones, tratamientos o comportamientos históricos que se quieren evitar). En ambos casos, estos sesgos pueden perpetuarse o incluso amplificarse mediante los algoritmos. Esto puede poner en peligro la correcta aplicación del modelo, y también podría plantear cuestiones éticas sobre las decisiones tomadas automáticamente utilizando el modelo.

Esta newsletter pretende abordar estas cuestiones desde dos perspectivas clave: (1) los sesgos en los modelos de aprendizaje automático, considerando tanto los sesgos en los conjuntos de datos de entrenamiento como en el proceso de modelización, y (2) los sesgos en los grandes modelos lingüísticos. Mediante un análisis de métricas, estrategias y herramientas innovadoras, se examina cómo las comunidades de investigación y desarrollo están trabajando para detectar y mitigar los sesgos, contribuyendo así a un uso ético de los sistemas de IA. Se exploran métricas específicas para evaluar el impacto de las decisiones de los algoritmos en distintos grupos de población, algunas técnicas de preprocesamiento de datos, y ajustes en los algoritmos.

Sesgos en la inteligencia artificial

Concepto

En términos generales, los modelos de aprendizaje automático se entrenan a partir de datos observados o generados, y se implementan y utilizan para la ejecución de tareas generales o específicas (predicción, clasificación, toma de decisiones, etc.). Sin embargo, algunas características de los distintos componentes del proceso de modelización pueden influir (de forma no deseada) en los resultados, produciendo una desviación (sistemática, es decir, no aleatoria) entre el valor real y el esperado dado por el modelo. Este tipo de desviación se denomina sesgo. Aunque no se puedan eliminar totalmente, se pueden mitigar, y para ello es necesario conocer de dónde proceden. Las fuentes de un sesgo pueden clasificarse en dos tipos: (1) sesgo derivado de los datos utilizados para el entrenamiento del modelo; (2) sesgo introducido durante el proceso de modelización, normalmente derivado de las decisiones tomadas o de las técnicas aplicadas por quien desarrolla el modelo. Como consecuencia, la presencia de sesgos puede implicar una discriminación contra determinados grupos de personas y dar lugar a decisiones injustas en la práctica.

Sesgos en los datos de entrenamiento

Los modelos se entrenan a partir de un conjunto de datos con el objetivo de capturar los patrones o comportamientos presentes en los datos de entrenamiento. De hecho, el proceso de entrenamiento de los modelos utiliza una función para minimizar la diferencia entre la salida del modelo y los datos observados. Si los datos muestran un conjunto de patrones de comportamiento que no representan fielmente la realidad, la salida del modelo estará sesgada. Por lo tanto, es fundamental evaluar la representatividad del conjunto de datos, es decir, que los datos representen correctamente la realidad que se quiere modelizar.

Se dice que un conjunto de datos es representativo cuando no existen diferencias significativas entre los comportamientos, patrones o características de los datos y la realidad o población a la que se espera aplicar el modelo. La aparición de estas diferencias puede deberse principalmente a dos motivos:

1. Si se produce un cambio en la realidad que quedó reflejada en el conjunto de datos de entrenamiento (por ejemplo, cuando se producen cambios en la estrategia de una empresa, en las políticas, en los procesos de decisión o de negocio, en la normativa, en las condiciones macroeconómicas o de mercado, etc.).

2. El proceso que genera los datos de entrenamiento está diseñado de tal forma que no representa la realidad que se quiere modelar. Esto ocurre cuando:

a) El proceso de negocio afecta a la información producida o a los patrones o comportamientos que estarán presentes en el conjunto de datos (lo que se conoce como sesgo histórico). Por ejemplo, en un proceso de admisión de créditos de una entidad financiera, sólo se concede un préstamo a los buenos acreedores, por lo que no se puede observar el historial de impagos de los préstamos rechazados.

b) El proceso de recogida de datos o la construcción del conjunto de datos está diseñado de tal forma que influye en la representación de los patrones o comportamientos reales, o no incluye información determinante para la realidad representada.

Para comprender y determinar la posible falta de representatividad de los datos, debe realizarse un análisis de representatividad durante la fase de preparación de los datos, teniendo en cuenta tanto análisis cuantitativos (por ejemplo, distribuciones estadísticas) como criterios cualitativos (por ejemplo, características de la población, similitud de los procesos de negocio, etc.).

Como primer paso para abordar la falta de representatividad, debe garantizarse la incorporación de todos los datos pertinentes en la muestra de modelización, si no están aún presentes. Por ejemplo, en el caso de los préstamos rechazados puede aplicarse una técnica de inferencia: se estima, con una probabilidad, el comportamiento de pago del préstamo que se habría observado en caso de que se hubiera concedido y, a continuación, los préstamos rechazados se incluyen también en la muestra de modelización.

También debe analizarse el caso en que un patrón o comportamiento esté mal representado en los datos, o cuando haya una subpoblación que muestre un patrón o comportamiento no deseado. Para ello, podrían aplicarse algunas técnicas:

Se pueden estimar algunas métricas para determinar la presencia de dicho patrón (véanse algunos ejemplos de estas métricas más adelante en este documento). Estas métricas podrían aplicarse tanto al conjunto de datos de entrenamiento como después del despliegue del modelo para comprobar si se ha corregido el sesgo.
Analizar las relaciones entre las variables relevantes subyacentes al mecanismo de generación de datos para identificar relaciones causales en las variables que podrían estar produciendo la falta de representación observada. Para ello, podría considerarse el uso de Redes Bayesianas Causales (CNB, por sus siglas en inglés). Las CNB constituyen una potente herramienta gráfica para la representación y el razonamiento sobre las relaciones causales en los datos. Más concretamente, en el contexto de la identificación de sesgos, las CNB facilitan la visualización de cómo algunos atributos influyen directa o indirectamente en las decisiones o resultados a través de vías causales. El uso de esta herramienta puede permitir la identificación de patrones mal representados dentro de conjuntos de datos y facilita el diseño de modelos que buscan mitigar esos sesgos.

Para abordar la mitigación de sesgos en este caso, el rebalanceo del conjunto de datos es una opción que se puede explorar (por ejemplo, utilizando técnicas de sobremuestreo o la incorporación de datos sintéticos).

Sesgos en el proceso de modelización

Durante el proceso de modelización, el desarrollador del modelo puede tomar algunas decisiones que podrían influir en el resultado. Por lo tanto, es importante aplicar técnicas adecuadas para detectar y evitar este tipo de consecuencias no deseadas. Por ejemplo, una división inadecuada entre las muestras de entrenamiento y de test podría sesgar las muestras. El uso de una selección aleatoria resuelve el problema, y puede aplicarse una técnica de validación cruzada para comprobar la corrección de esta separación.

Si un sesgo determinado no se ha resuelto en la fase de tratamiento de los datos y sigue presente en el conjunto de datos, el entrenamiento del modelo podría ayudar a corregir esta situación. Esto se hace entrenando un algoritmo que acepte el uso de pesos, de forma que las muestras puedan ser reponderadas, cambiando la representación y la "influencia" de unas muestras frente a otras para la estimación de los parámetros. Otras técnicas sugieren el uso de entrenamiento adversarial (el uso de un modelo adversarial que pretende predecir si una muestra pertenece a un grupo protegido dada la predicción del modelo que se está entrenando; si esta predicción tiene éxito, entonces el sesgo podría estar presente), o la modificación de la función de coste añadiendo al error del modelo una métrica de equidad para el proceso de minimización y la obtención de las estimaciones de los parámetros. Por ejemplo, la Reducción del Gradiente Exponenciado es una técnica de entrenamiento que permite el uso de restricciones como la paridad demográfica o probabilidades igualadas.

Además, se han introducido nuevas técnicas para abordar los sesgos en los modelos de aprendizaje automático. Métodos como las medidas de efecto directo marginal (MDE, por sus siglas en inglés) o las explicaciones aditivas de SHapley (SHAP) han demostrado que incluso las técnicas avanzadas de aprendizaje insesgado pueden generar sesgos, ya sea por asociación o por discriminación inversa, tanto en conjuntos de datos reales como sintéticos. Estas técnicas, MDE y SHAP, cuando se utilizan para construir funciones de pérdida, pueden ser beneficiosas para abordar los problemas relacionados con el sesgo. Un reto clave sigue siendo evitar la discriminación directa sin incurrir en discriminación indirecta (es decir, inducir la discriminación utilizando variables correlacionadas con el atributo como sustitutos), como el fenómeno conocido como redlining (el proceso por el que los bancos en Estados Unidos denegaban sistemáticamente préstamos y servicios a determinados grupos raciales en función de las zonas en las que vivían).

Los últimos avances han reducido significativamente el sesgo explícito en las respuestas de los modelos. Estos métodos aprovechan la capacidad de estos sistemas para reconocer comportamientos inadecuados cuando se identifican. Aunque estas técnicas no son infalibles, se espera que la prevalencia de comportamientos problemáticos disminuya con el continuo perfeccionamiento de las metodologías. Sin embargo, esto no implica un control total sobre los modelos, y la supervisión constante sigue siendo esencial.

Un nuevo reto: los sesgos de los grandes modelos lingüísticos

Aunque los grandes modelos lingüísticos (LLM, por sus siglas en inglés) suelen alcanzar altos niveles de precisión, pueden verse influidos por sesgos que repercuten negativamente en sus resultados, especialmente en el caso de los grupos minoritarios infrarrepresentados. Los sesgos introducidos durante el desarrollo de un algoritmo pueden dar lugar a problemas como la discriminación, la falta de equidad y la escasez de diversidad e inclusión.

Estos sesgos surgen a menudo de forma no intencionada debido a una representación insuficiente en los datos utilizados para entrenar los modelos. Sin embargo, incluso los métodos diseñados para mitigar la discriminación suelen producir modelos sesgados, independientemente de si los conjuntos de datos utilizados contenían o no elementos discriminatorios Uno de los sesgos observados es el llamado "sesgo social": la atribución de características específicas a una persona basándose únicamente en el grupo al que pertenece. Por ejemplo, un modelo podría asociar erróneamente características como "puntualidad y eficiencia" a un individuo de los países nórdicos debido a su asociación con el origen geográfico. Varios estudios han confirmado que los LLM tienden a incorporar sesgos sociales presentes en los datos de entrenamiento no procesados. Estos sesgos pueden influir en las decisiones tomadas por el modelo en tareas posteriores, comprometiendo así la imparcialidad. En este contexto, un modelo lingüístico verdaderamente justo debe funcionar de forma imparcial.

Métricas para detectar comportamientos sesgados entre dos subpoblaciones

Puede darse un tipo especial de sesgo cuando se espera que se aplique el mismo comportamiento o patrón a dos subpoblaciones distintas, pero los datos muestran un patrón diferente. Para detectar estas situaciones puede aplicarse un conjunto de métricas. Estas métricas pueden dividirse en dos tipos diferentes: métricas de grupo y métricas individuales.

Las métricas de grupo se centran en el análisis de la diferencia de las predicciones del modelo en dos grupos. En este caso, pueden calcularse las siguientes medidas:

Paridad demográfica: los porcentajes de un resultado positivo en los diferentes grupos analizados deben ser los mismos.
Igualdad de oportunidades: los distintos grupos deben tener las mismas tasas de verdaderos positivos.
Probabilidades igualadas: los distintos grupos deben tener las mismas tasas de verdaderos y falsos positivos. Esta métrica es más restrictiva que las dos anteriores.
Igualdad de precisión global: las precisiones de los grupos sensibles son iguales. Esta métrica puede utilizarse en situaciones en las que los verdaderos negativos son tan deseables como los verdaderos positivos.
Igualdad de tratamiento: las proporciones de predicción falsa negativa y predicción falsa positiva deben ser iguales en todos los grupos.
Igualar los desincentivos: esta medida puede utilizarse cuando clasificar incorrectamente a un individuo en un grupo supone una pérdida mayor.
Principio de equidad Rawlsian Max-Min: esta medida fomenta la maximización de la utilidad del grupo con la utilidad más baja, donde la métrica de utilidad puede ser precisión, AUC, etc.
Agrupación justa: se define para cuantificar la inequidad en los problemas de clustering.

En el caso de las métricas de equidad individual, el objetivo es garantizar que el modelo asigne el mismo resultado a todas las muestras con características similares. Algunas métricas son las siguientes:

Equidad a través de la concienciación: dos individuos que tengan atributos no sensibles similares deben recibir un resultado similar.
Equidad contrafáctica: dos ejemplos que son idénticos en todos los aspectos, excepto en un determinado atributo sensible, deberían dar lugar a la misma predicción del modelo.
Razonamiento causal: análisis de si un atributo causa una decisión del modelo (por ejemplo, la tasa de candidatos a un puesto de trabajo admitidos dado que todos son del tipo A debería ser igual a la tasa de candidatos admitidos si todos son del tipo B, en el caso de que no exista una relación causal entre el atributo inspeccionado y el resultado del modelo).

Sesgos derivados del entrenamiento de los LLM

Los sesgos que afectan a los modelos lingüísticos pueden tener su origen en las siguientes fuentes:

Etiquetas sesgadas: los corpus de entrenamiento que contienen información perjudicial o etiquetas subjetivas proporcionadas por anotadores sesgados pueden introducir estereotipos en el modelo.
Sesgo de muestreo: cuando la representación de los distintos grupos demográficos en los datos de prueba no coincide con la de los datos de entrenamiento, el modelo presenta un sesgo influenciado por este desajuste de distribución.
Sesgo semántico: durante el proceso de codificación pueden surgir sesgos inesperados que incorporen información semántica sesgada a las representaciones del modelo.
Amplificación de los sesgos: los sesgos presentes en los datos de entrenamiento pueden amplificarse durante el proceso de aprendizaje del modelo, y este efecto se refuerza aún más durante el ajuste fino.

Algunas metodologías de entrenamiento también podrían producir un sesgo. Por ejemplo:

Pre-entrenamiento y fine-tuning: este enfoque comienza con una fase de preentrenamiento no supervisado en un corpus de gran tamaño, seguida de un posterior ajuste supervisado (fine-tuning) para una tarea específica. Suele aplicarse a LLM de tamaño medio y permite una amplia gama de aplicaciones. Sin embargo, en este proceso pueden surgir dos tipos de sesgos:
- Sesgo intrínseco: surge de las representaciones generadas por el modelo pre-entrenado y es independiente de tareas específicas.
- Sesgo extrínseco: se manifiesta en los resultados del modelo para tareas específicas, como las etiquetas predichas en clasificación o el texto generado en tareas creativas.
Mecanismo basado en instrucciones (prompting): en este enfoque, el modelo responde a instrucciones específicas de la tarea sin necesidad de fases de entrenamiento adicionales. Este método es más adecuado para los LLM a gran escala, pero puede reflejar sesgos humanos en las respuestas generadas por el modelo, especialmente en modelos que se han ajustado utilizando técnicas como el aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés).

Para abordar y medir los sesgos en los LLM, se han desarrollado métricas de evaluación y se han clasificado en métricas de sesgo intrínseco y extrínseco:

Métricas de sesgo intrínseco: estas métricas evalúan los sesgos integrados en las representaciones del modelo cuantificando las asociaciones estadísticas entre los conceptos y atributos objetivo:
- Métricas basadas en la similitud: utilizan plantillas de frases semánticamente neutras para calcular las similitudes entre distintos grupos demográficos. Son una adaptación del Word Embedding Association Test (WEAT), que mide el sesgo en las incrustaciones de palabras.
- Métricas basadas en probabilidades: formalizar el sesgo intrínseco analizando las probabilidades generadas por los LLM pre-entrenados para palabras o frases candidatas basadas en conjuntos de datos de evaluación.
Métricas de sesgo extrínseco: estas métricas evalúan los sesgos en las salidas de las tareas posteriores, caracterizando el sesgo a través de gaps de rendimiento. A menudo se crean conjuntos de datos de referencia para medir el sesgo en tareas específicas:
- Métricas basadas en NLU: evaluar modelos de clasificación, como BERT, en tareas de comprensión del lenguaje natural (NLU, por sus siglas en inglés). Se entrena un clasificador específico de la tarea en un conjunto de datos de evaluación y su resultado se utiliza como métrica.
- Métricas basadas en NLG: evaluar modelos autorregresivos, como GPT-2, en tareas de generación de lenguaje natural (NLG, por sus siglas en inglés). El modelo se ajusta en un conjunto de datos de evaluación que contiene instrucciones para diferentes condiciones, y se evalúan los resultados generados.

Gracias a estas métricas, se pueden identificar y corregir los sesgos en los LLM, garantizando que estos sistemas funcionen de forma más justa y equitativa en diversas aplicaciones.

Sesgos derivados del uso del LLM: alucinaciones

Un factor clave relacionado con la presencia de sesgos es el fenómeno conocido como alucinación. Las alucinaciones en los LLM representan un reto importante, ya que estos modelos pueden generar respuestas incorrectas, incoherentes o generadas [10]. Algunas investigaciones recientes indican que el fenómeno de la alucinación se deriva de problemas en los conjuntos de datos, como la falta de datos relevantes y la repetición de datos.

Se ha demostrado que este problema, inherente a los LLM, es imposible de eliminar, aunque se han propuesto varias técnicas para mitigarlo.
Las alucinaciones pueden dividirse en varios tipos: Las alucinaciones intrínsecas se producen cuando las respuestas del modelo contradicen directamente las instrucciones o la información de entrada, mientras que las extrínsecas se manifiestan cuando los resultados no pueden verificarse con la información proporcionada.

Las alucinaciones factuales ponen de manifiesto las discrepancias entre el contenido generado y los hechos verificables del mundo real. Por otro lado, las alucinaciones de fidelidad engloban incoherencias relacionadas con las instrucciones del usuario, el contexto o la lógica, como desviaciones de las instrucciones originales, contradicciones contextuales y errores de coherencia interna. Otros problemas son la inexactitud factual, cuando las respuestas son incorrectas, pero se basan en datos existentes, y la interpretación errónea, que se produce cuando el modelo no comprende correctamente la entrada o el contexto, lo que da lugar a respuestas inexactas. Por último, el problema de “la aguja en el pajar” refleja la dificultad de recuperar información específica y precisa de un corpus vasto, lo que puede dar lugar a omisiones de datos clave o a respuestas parcialmente correctas.

Diversos estudios han introducido estrategias para abordar las alucinaciones en los LLM. Entre ellas se incluye el uso de conjuntos de datos centrados en los hechos y una limpieza exhaustiva de los datos para reducir el ruido y los sesgos existentes. Además, se han propuesto técnicas de razonamiento como la cadena de pensamiento y el árbol de pensamiento para estructurar las respuestas de forma lógica y coherente. Otra estrategia clave consiste en mejorar las capacidades del modelo mediante instrucciones avanzadas, ensamblaje de modelos e implementación de “guardarraíles”, que son reglas programáticas diseñadas para limitar comportamientos no deseados. Además, el suministro de datos adicionales, la mejora de los ajustes del conjunto de datos, la adición de datos sintéticos, y la introducción de mejoras en la arquitectura refuerzan la precisión del modelo.

Otro enfoque para mitigar las alucinaciones es el Retrieval Augmented Generation (RAG), que combina la recuperación de información externa con la generación de respuestas. Incluye técnicas como la recuperación iterativa, que permite recopilar conocimientos durante el proceso de generación, y la recuperación post-hoc, que refina los resultados del modelo basándose en información externa. Además, la verificación de hechos posterior a la generación garantiza que las respuestas sean coherentes con fuentes fiables.

El método de verificación de hechos consta de dos etapas principales: la extracción de hechos, que consiste en identificar afirmaciones factuales dentro de los resultados generados por el modelo, y la verificación de hechos, cuyo objetivo es contrastar la exactitud de estas afirmaciones con fuentes de conocimiento fiables. En función de las fuentes utilizadas, las metodologías de verificación se dividen en recuperación externa, que implica consultar bases de datos o recursos externos, y verificación interna, que se basa en el conocimiento paramétrico almacenado dentro de los LLM. En este contexto, se introdujo la Cadena de Verificación (CoVe), un enfoque en el que un LLM genera preguntas de verificación para un borrador inicial y luego evalúa sistemáticamente su coherencia, detectando posibles incoherencias o alucinaciones. Este proceso permite al modelo autocorregir errores y proporcionar respuestas más precisas mediante un ciclo iterativo de generación y verificación.

Por último, cabe destacar varias investigaciones sobre los LLM que exploran su capacidad para beneficiarse de las explicaciones cuando aprenden nuevas tareas a partir de ejemplos limitados. Proporcionar explicaciones detalladas de las respuestas con few-shot learning puede mejorar el rendimiento del modelo. Además, los experimentos han demostrado que incluir explicaciones después de la respuesta en las instrucciones mejora el aprendizaje de pocos ejemplos en modelos lingüísticos de gran tamaño. Otro enfoque notable es el ajuste de explicaciones, un método que entrena modelos lingüísticos más pequeños utilizando explicaciones paso a paso generadas por modelos más avanzados, proporcionando supervisión. Los resultados experimentales
indican que este método supera al prompting convencional de instrucciones en tareas complejas de razonamiento con zero-shot learning.

Ejemplo de cadena de verificación

Este ejemplo permite comparar la respuesta generada por un LLM que utiliza un prompting estándar o un prompting de cadena de verificación:
Pregunta estándar (sin cadena de verificación)
Entrada: P: Una tienda vende 5 manzanas por 2$. ¿Cuánto costarían 20 manzanas?
Modelo de salida: R: La respuesta es 8$.
La respuesta es CORRECTA, pero el modelo no comprobó sus cálculos correctamente.

Cadena de verificación

Entrada: P: Una tienda vende 5 manzanas por 2$. ¿Cuánto costarían 20 manzanas?
Modelo de salida (verificación paso a paso): A: En primer lugar, sabemos que 5 manzanas cuestan 2$. Para hallar el coste de 1 manzana, dividimos 2$ entre 5, lo que da 0,40$ por manzana. Ahora, multiplicamos 0,40$ por 20 manzanas: 0.40 × 20 = 8$. Déjame verificarlo: Tengo que multiplicar el precio de 5 manzanas por 4 (porque 20 manzanas son 4 veces 5). 2 × 4 = 8$. Por lo tanto, el coste correcto de 20 manzanas es 8$.

La respuesta es CORRECTA. El modelo primero descompone el problema, verifica los pasos intermedios y se asegura de que el cálculo es correcto antes de proporcionar la respuesta final. El modelo comprueba su trabajo y confirma que 8$ es efectivamente la respuesta correcta.

Comprender los resultados para detectar y tratar los sesgos

La complejidad de los algoritmos ha sido uno de los principales obstáculos para comprender los resultados de los sistemas de IA. En el contexto de los LLM, comprender el proceso de cómo el LLM ha producido un resultado específico puede ayudar a detectar posibles sesgos ocultos entre ellos. La llamada "cadena de pensamiento" es una técnica utilizada en los modelos lingüísticos para comprender el proceso de producción de un resultado animando al modelo a articular pasos intermedios mientras llega a una respuesta. Permite a los usuarios rastrear la lógica que subyace a las conclusiones del modelo e identificar posibles errores o sesgos. Este paso a paso también puede mejorar el rendimiento del modelo en tareas complejas. Cuanto mayor sea el número de ejemplos, mejor será la respuesta del LLM.

Además, herramientas como Phoenix y LLMCHECKUP complementan estas estrategias facilitando la observabilidad, la evaluación y la experimentación con los LLM:

Phoenix es una plataforma de observabilidad de IA de código abierto que permite a los usuarios experimentar, evaluar y solucionar problemas en aplicaciones web. También es buena para probar aplicaciones con diferentes LLM y crear conjuntos de datos personalizados.
LLMCHECKUP permite a los usuarios interactuar con cualquier LLM de última generación para analizar su comportamiento, en lugar de depender de múltiples modelos lingüísticos para comprender el comportamiento de un LLM, LLMCHECKUP utiliza el mismo modelo para entender la intención del usuario, facilitando la autoexplicación de su propia funcionalidad. Además, ofrece a los usuarios la flexibilidad de introducir datos personalizados, superando las limitaciones de trabajar exclusivamente con ejemplos de conjuntos de datos predefinidos. Dado que los LLM pueden generar ocasionalmente respuestas inexactas, LLMCHECKUP incorpora la capacidad de buscar información en bases de conocimiento externas mediante la integración con Google Search. Esto incluye la generación de enlaces externos con información relevante para las entradas proporcionadas. Los usuarios pueden comparar la información recuperada con las explicaciones ofrecidas por el modelo, logrando una comprensión más completa y precisa de su comportamiento.

Ejemplo de cadena de pensamiento

Este ejemplo permite comparar la respuesta generada por un LLM utilizando un prompting estándar o un prompting de cadena de pensamiento:

Pregunta estándar (few-shot learning)

Entrada:
P: María tiene 10 caramelos. Compra 3 paquetes de caramelos y cada paquete contiene 5 caramelos.
¿Cuántos caramelos tiene ahora?
R: La respuesta es 25.
P: En una clase hay 40 alumnos. Si 18 de ellos se van de viaje y se incorporan 5 nuevos alumnos, ¿cuántos alumnos hay ahora en la clase?
Modelo de salida:
A: La respuesta es 23.

Esa respuesta es INCORRECTA.

Cadena de pensamiento

Entrada:
P: María tiene 10 caramelos. Compra 3 paquetes de caramelos y cada paquete contiene 5 caramelos.
¿Cuántos caramelos tiene ahora?
R: María empieza con 10 caramelos. Cada paquete tiene
5 caramelos y hay 3 paquetes. Por tanto, 3 × 5 = 15. Sumando los caramelos originales, 10 + 15 = 25. La respuesta es 25.
P: En una clase hay 40 alumnos. Si 18 de ellos se van de viaje y se incorporan 5 nuevos alumnos, ¿cuántos alumnos hay ahora en la clase?
Modelo de salida:
A: Originalmente había 40 alumnos en la clase. 18 alumnos se fueron de viaje, por lo que quedan 40 - 18 = 22 alumnos. Luego, se incorporaron 5 alumnos nuevos, por lo que 22 + 5 = 27. La respuesta es 27.

La respuesta es correcta

Conclusiones

La creciente adopción de la inteligencia artificial en diversos sectores presenta oportunidades sin precedentes, pero también importantes retos relacionados con la existencia y el tratamiento de sesgos en los datos o en la construcción de modelos de aprendizaje automático. Aunque estas tecnologías tienen el potencial de transformar positivamente la sociedad, su impacto dependerá en gran medida de cómo se aborden las cuestiones éticas y técnicas durante su desarrollo y aplicación. La presencia de sesgos en los datos y los algoritmos pone de relieve la importancia de diseñar sistemas que no solo sean técnicamente competentes, sino también socialmente responsables y equitativos.

Los avances actuales en métricas y estrategias para mitigar los sesgos son prometedores, pero aún queda mucho trabajo por hacer. Es crucial que las empresas, los investigadores y los reguladores colaboren en el establecimiento de normas claras y técnicas de modelización para garantizar decisiones imparciales al utilizar sistemas automatizados. Al hacerlo, el desarrollo de herramientas para identificar y corregir los sesgos debe seguir siendo una prioridad para la comunidad.

Además, la complejidad de los modelos modernos, como los grandes modelos lingüísticos, sigue siendo un reto crítico. La falta de transparencia de estos sistemas puede generar desconfianza y limitar su adopción, sobre todo en sectores en los que las decisiones tienen un impacto directo en la vida de las personas. Por ello, invertir en la comprensión del proceso de pensamiento y en enfoques que fomenten una mejor comprensión de los resultados generados por estos modelos es esencial para su uso ético y su mayor aceptación.

En última instancia, el desarrollo de la inteligencia artificial requiere un planteamiento interdisciplinar que combine conocimientos técnicos, éticos y sociales. Sólo mediante una colaboración continua y un compromiso con las decisiones imparciales y la transparencia, los sistemas de IA podrán respetar los valores de equidad, confianza y responsabilidad.

La newsletter “El reto de los sesgos en la construcción de sistemas de inteligencia artificial" ya está disponible para su descarga en la web de la Cátedra tanto en español como en inglés.