El dilema del director del club de baloncesto
Imaginemos que somos los directores de un equipo de baloncesto profesional que lleva años perdiendo dinero. Hartos de fichajes fallidos, decidimos comprar una IA de última generación para el proceso de selección de novatos: el «BasketCrack.ai».
Nuestro dilema está en los datos. Tenemos dos tipos de candidatos:
- Los «Academia»: los que vienen de escuelas de élite. Estadísticamente, el 60% triunfa y son la apuesta segura.
- Los «Calle»: talento puro de barrio sin formación específica. Solo el 10% triunfa, pero cuando lo hacen, cambian la historia de la liga y son el riesgo alto.
Le pedimos a la IA que sea «justa». Y aquí es donde las matemáticas nos ponen los pies en el suelo: Resulta que hay tres cosas que queremos que la IA haga:
- Precisión calibrada: que acierte igual de bien para los de academia que para los de calle.
- No desperdiciar talento (Equidad de falsos negativos): que la tasa de buenos jugadores que se rechaza por error sea igual en ambos grupos.
- No fichar fracasos (Equidad de falsos positivos): que la tasa de malos jugadores que se acepta por error sea igual en ambos grupos.
Parece razonable pedir las tres, ¿verdad? Pues ahí viene el problema: solo podemos elegir dos. Si elegimos precisión y no desperdiciar talento, ficharemos más fracasos del grupo «calle». Si evitamos los fracasos, rechazaremos sistemáticamente a los diamantes en bruto.
Matemáticamente, resulta imposible satisfacer los tres criterios de justicia simultáneamente cuando los grupos de partida son desiguales. Tenemos que elegir qué sacrificar.
El Teorema de la imposibilidad
Esta historia no va de baloncesto. Va de nuestras empresas. Sustituimos «jugadores» por el scoring de leads comerciales (¿A quién llamamos primero?), la detección de fraude en notas de gastos (¿A quién auditamos?), la predicción de fuga de clientes o el análisis de riesgo en nuestra cadena de suministro…
En 2016, Kleinberg y su equipo demostraron que un algoritmo no puede satisfacer simultáneamente tres definiciones de justicia a menos que sea un adivino que nunca se equivoque.
Si un proveedor se reúne con nosotros y promete una «IA libre de sesgos» que cumple los tres criterios, o bien no entiende su propio producto o nos está mintiendo. Nos está vendiendo la ilusión de que la tecnología puede arreglar problemas estructurales de nuestro sector y de nuestros datos sin coste alguno. La decisión de qué criterios priorizar nos corresponde a nosotros, no al algoritmo.
El sesgo no es un fallo, es un espejo…El sesgo algorítmico rara vez representa un error de programación. Suele ser un reflejo de nuestras propias decisiones.
Por ejemplo, si durante 20 años hemos contratado mayoritariamente a hombres para puestos directivos, cualquier IA entrenada con nuestros datos históricos «aprende» que ser hombre predice el éxito. Aunque eliminemos la variable género para hacerlo «ciego», la IA utilizará variables indirectas —como huecos en el CV o códigos postales— para deducirlo.
Si, la IA busca patrones lo mas eficientes posible… Si en el pasado discriminamos de forma rentable, la IA replicará ese patrón y lo amplificará como un loro que repite lo que decimos.
Cómo evaluar el sesgo: Las métricas que nuestro equipo no debe de olvidar
Decir «queremos una IA justa» no basta. Tenemos que decidir qué tipo de justicia queremos medir, porque cada «justicia» afecta de manera diferente a nuestro negocio:
- Paridad Demográfica (La cuota): Exige que el resultado final sea idéntico para todos. Si aprobamos al 20% de los hombres, debemos aprobar al 20% de las mujeres. Es una cuota pura que ignora si un grupo estaba objetivamente más cualificado que el otro.
- Igualdad de Oportunidades (La meritocracia): Nos fijamos solo en los candidatos que realmente son válidos. Garantiza que una «estrella» de un grupo minoritario tenga la misma probabilidad de ser detectada que una del grupo mayoritario.
- Igualdad de Pronósticos (Justicia en el Error): Nos pide que la IA se equivoque igual con todos. Si el algoritmo rechaza por error a un candidato válido de un grupo, debe cometer ese mismo error con la misma frecuencia en el otro.
- Impacto Desproporcionado (La alerta legal): No es tanto una métrica de diseño como un indicador de riesgo. Se basa en la «regla del 80%»: si la tasa de selección de un grupo desfavorecido es inferior al 80% de la del grupo más favorecido, saltan las alarmas de discriminación en una auditoría.
Estas métricas suelen ser -matemáticamente- incompatibles entre sí en el mundo real. No podemos optimizar todas a la vez; debemos elegir.
Herramientas y estándares
Ya existen herramientas robustas y de código abierto.
- IBM AI Fairness 360: más de 70 métricas y 10 algoritmos de mitigación.
- Microsoft Fairlearn: biblioteca especializada con panel interactivo.
- Google What-If Tool: para explorar visualmente contradicciones
- Aequitas: herramienta de diagnóstico de la Universidad de Chicago.
Además, en enero de 2025, el IEEE publicó el estándar 7003-2024 sobre consideraciones de sesgo. No es obligatorio, pero marca el camino exigiendo cosas como el «Perfil de sesgo», la «Identificación de partes interesadas» y la «monitorización de la deriva de datos».
Gobernanza y reglamento europeo
Entonces, ¿tiramos la IA a la basura? No!… La IA es necesaria para competir en igualdad de condiciones, pero no para juzgar. El Reglamento Europeo de Inteligencia artificial, cuyas reglas ya han empezado a aplicarse a modelos generalistas, no solo sugiere, sino que exige supervisión humana para sistemas de alto riesgo.
Más allá del cumplimiento legal, para gobernar esto operativamente en la empresa deberíamos:
- Aceptar la renuncia: Decidir qué criterios priorizar y ser capaces de explicar a qué se renuncia y por qué.
- Exigir supervisión humana: No automatizar la decisión final en procesos críticos. Si la confianza es baja (ej. 75%), debe pasar a revisión humana.
- Auditorías de «Caja de Cristal»: Huir de los modelos opacos o “caja negra”. Si la IA deniega un crédito, debemos poder explicar por qué usando técnicas como SHAP o LIME.
- Medición continua: Construir paneles de control que rastreen métricas en producción, ya que el sesgo no es estático.
Los tres desafíos reales (…y el precio de solucionarlos)
Hasta aquí hemos visto la teoría. Pero aterrizar esto, supone retos en el día a día que paralizan a muchos directivos. Pienso que estos son los tres obstáculos principales, algunas soluciones para saltarlos y, siendo honestos, el coste real que debemos asumir:
- El Desafío de la IA Generativa (El «Loro IA»): Si usamos modelos de lenguaje (como GPT, Gemini, Claude etc.) en abierto para redactar informes o interactuar con clientes, nos arriesgamos a alucinaciones y sesgos de estereotipos que no se pueden medir con métricas numéricas simples.
Una posible solución es el anclaje documental. Obligamos al modelo a construir sus respuestas exclusivamente basándose en nuestros documentos internos validados (PDFs de políticas, manuales). Pasamos de una IA «creativa» a una IA «bibliotecaria». Claro que el problema es el famoso Basura entra, basura sale. El anclaje documental no limpia el sesgo, solo restringe su fuente. Si nuestros documentos históricos de hace 5 años contienen lenguaje sexista o políticas no actualizadas, la IA los amplificará como un loro que repite lo que ya dijimos…
- El Desafío de la Fatiga (los humanos no somos máquinas): El Reglamento exige supervisión humana, pero el cerebro es perezoso. Si la IA acierta el 90% de las veces, nuestro personal dejará de revisar y hará clic en «Aceptar» mecánicamente.
Podríamos forzar un diseño que obligue a pensar. No permitimos un simple «OK». Obligamos a la persona a interactuar: que la IA proponga tres borradores y que se deba seleccionar el mejor, o que deje espacios en blanco clave que deban rellenarse obligatoriamente.
…Claro que esto es como decir adiós a la velocidad. Esta solución reduce la eficiencia operativa, y puede generar conflictos: nuestros empleados se quejarán de que el proceso es más lento (pero es el único modo de mantener la seguridad legal).
- El Desafío Político (El Miedo a Firmar el Error): Ningún directivo quiere firmar un documento que diga explícitamente «Aceptamos un 5% de error». La falta de una decisión así puede bloquear la adopción de IA.
Por suerte, existen «Sandboxes»: no lanzamos a producción desde el primer día. Creamos un entorno donde la IA funcione en paralelo durante unos meses, sugiriendo decisiones sin ejecutarlas. Esto genera datos reales para comparar con el desempeño humano y decidir con evidencias.
…Pero esto implica asumir un doble coste. Financieramente es difícil de justificar. Durante meses estaremos pagando la licencia de la IA y los sueldos del equipo humano que sigue haciendo el trabajo manual, sin ver un retorno de inversión inmediato.
Sí, la IA nos obliga a seguir tomando decisiones…
…Porque la responsabilidad es lo único que no se puede delegar. El «BasketCrack.ai” de esta historia, muestra que la esperanza de que las matemáticas decidan por nosotros es hoy por hoy, solo eso.
Cuando implantemos IA en nuestra organización, recordemos: El algoritmo nos dará velocidad y oportunidades para competir, pero solo nosotros podemos decidir qué criterios priorizar. Integrar la IA con seguridad es posible si abandonamos la búsqueda de la «magia» y aplicamos controles aceptando que, como cualquier herramienta, la seguridad tiene un coste en velocidad y presupuesto.
El sesgo cero no existe; la responsabilidad humana, apoyada en una arquitectura técnica sólida y su regulación, es la única red de seguridad real que tenemos hoy por hoy.
Las opiniones expresadas en este artículo son fruto de una reflexión basada en la experiencia y a título exclusivamente personal.