Supongamos la siguiente situación: Hay una población de personas caracterizadas cada una de ellas por el valor de una cualidad o atributo sensible. P. ej. el atributo sensible puede ser la pilosidad. En función de estos valores la población total se divide en varios grupos. Para la pilosidad, los grupos serían
Uno de estos grupos se supone que es el dominante, contra cuyos privilegios es justo luchar, y otro el desfavorecido socialmente. P. ej., supongamos que los calvos son el grupo desfavorecido.
Los individuos de la población tienen otro atributo que tiene un valor positivo o bueno y un valor negativo o malo. Por ejemplo, este atributo puede ser la morosidad, con valores
Pretendemos que un algoritmo, sabiendo únicamente el valor de la pilosidad, prediga si un individuo dado es buen-pagador o mal-pagador. Supongamos que la información histórica acumulada dice lo siguiente:
Ahora llega un nuevo individuo y observamos su pilosidad. ¿Será buen-pagador o mal-pagador? Se puede demostrar matemáticamente que para minimizar el error hay que aplicar las siguientes reglas:
¿Será este algoritmo equitativo con respecto a la pilosidad? Definamos como medida de la equidad la siguiente: el algoritmo es equitativo si al calificar a un individuo como negativo (malo) se equivoca por igual, sea cual sea el valor del atributo sensible (es decir, en el grupo desfavorecido y en el grupo dominante). En este ejemplo, el algoritmo será equitativo si califica como mal-pagador con igual probabilidad a
Consideremos los calvos buenos pagadores (que son el 30% de los calvos). El algoritmo se equivocara siempre con ellos y clasificará a todos como malos pagadores. Consideremos los no-calvos buenos pagadores (que son el 80% de los no-calvos). El algoritmo no se equivocara nunca con ellos y no clasificará a ninguno como mal pagador. (Hablando más técnicamente, la probabilidad de clasificar a un calvo buen pagador como mal pagador es 1, y la probabilidad de clasificar a un no-calvo buen pagador como mal pagador es 0) Por tanto, el algoritmo NO es equitativo.
Nótese que el algoritmo está diseñado para minimizar el error de predicción. Así que no es necesario suponer mala intención ni prejuicios ni sesgos del diseñador del algoritmo o del usuario. Pero la predicción es desproporcionadamente desfavorable para el grupo desfavorecido, y desproporcionadamente favorable para el grupo dominante. Seguramente los calvos buenos pagadores (30%) se sientan ultrajados.
La ley puede (y suele) prohibir la recogida de datos y la toma en consideración de atributos sensibles para adoptar una decisión. Pero la falta de equidad puede presentarse aun cuando el atributo sensible no se considere explícitamente. P. ej. consideramos un atributo no sensible llevar-sombrero y supongamos que los calvos, y solo ellos, llevan sombrero. Un algoritmo que recogiera los datos históricos de morosidad en función de este atributo se comportaría de la manera ya vista; sería igualmente no equitativo.