Categorías: Contraportada

“Las prácticas clásicas en ciencia de datos fomentan el sexismo. El feminismo de datos lo combate”

Catherine D’Ignazio (Chapel Hill, Carolina del Norte) es profesora de Ciencia y Planificación Urbana en el Instituto Tecnológico de Massachusetts (MIT). También dirige el Data + Feminism Lab, que utiliza datos y métodos computacionales para trabajar por la igualdad de género. Se define como académica, artista visual y desarrolladora de software y es conocida con el apodo de kanarinka en los hakathons feministas que organiza.

D’Ignazio, que vivió durante un tiempo en Barcelona cuando era estudiante de secundaria, ha escrito, junto a Lauren Klein, directora de Digital Humanities Lab en la Universidad de Emory, el libro Data Feminism, publicado este año. Las autoras consideran fundamental reconocer los sesgos de género —y también los de racismo, clasismo y discriminación de minorías— de los algoritmos usados masivamente en las aplicaciones de inteligencia artificial y en big data. Además, subrayan la necesidad de entender estos sesgos a nivel técnico para así introducir medidas que los contrarresten.

¿Qué es el feminismo de datos y para qué sirve?

Es una forma de reflexionar sobre los datos, tanto en lo que se refiere a sus usos como a sus limitaciones. Está fundamentado en la experiencia directa, el compromiso para la acción y el pensamiento feminista interseccional. El punto de partida es algo que generalmente no se reconoce en la ciencia de datos: que el poder no está distribuido equitativamente en el mundo, ya que quienes lo ejercen son, desproporcionadamente, hombres blancos con acceso a la educación, heterosexuales y del norte.

Hay sistemas de detección de rostros que no reconocen a las mujeres negras, algoritmos que degradan a las mujeres y que hacen circular estereotipos negativos sobre las niñas negras, algoritmos de detección de abuso infantil que castigan a los padres de bajos recursos…

El trabajo del feminismo de datos consiste, en primer lugar, en examinar cómo las prácticas estándar en ciencia de datos sirven para reforzar estas desigualdades existentes, que se traducen en sexismo, pero también en racismo, clasismo y discriminación de minorías. Y, en segundo lugar, utilizar esta misma ciencia para desafiar y cambiar esta distribución de poder y luchar contra la discriminación en sus distintas variantes.

¿Cuáles son los principales sesgos discriminatorios que habéis encontrado?

Vemos el feminismo de datos como parte de un creciente cuerpo de trabajo que responsabiliza a los actores corporativos y gubernamentales por sus productos de datos racistas, sexistas y clasistas. Por ejemplo, hemos encontrado sistemas de detección de rostros que no reconocen a las mujeres negras, algoritmos que degradan a las mujeres, algoritmos de búsqueda que hacen circular estereotipos negativos sobre las niñas negras, algoritmos de detección de abuso infantil que castigan a los padres de bajos recursos, visualizaciones de datos que refuerzan el binarismo de género. Todo esto y mucho más.

Claramente hay ganadores y perdedores en el ámbito de los datos.

Sí, claro, como decía, los que pierden son desproporcionadamente mujeres, personas de color, indígenas y otros grupos marginados, como personas trans, no binarias y las personas pobres. Algo que igualmente puede considerarse como una pérdida es lo que llamamos missing data, es decir, todos aquellos datos que pueden ser importantes y no se están recogiendo. En el libro describimos el ejemplo de los datos sobre los feminicidios y denunciamos que los gobiernos no recolectan datos exhaustivos para entender el problema e implementar soluciones políticas para acabar con esta lacra.

Otros ejemplos de missing data son los datos de mortalidad materna, que solo se han comenzado a recoger recientemente, y los de acoso sexual. Además, no olvidemos que gran parte de nuestro conocimiento médico y de salud procede datos de investigaciones que se basan casi únicamente en el cuerpo masculino.

Los proyectos de ‘Big Dick Data’ ignoran el contexto de los datos, fetichizan el tamaño de la base de datos e inflan sus capacidades técnicas y científicas, normalmente con ánimo de lucro, poder o ambos

En vuestro libro utilizáis el término Big Dick Data [dick es pene en argot popular y la expresión se podría traducir como ‘datos de quién la tiene más grande’]. ¿Nos puedes explicar su significado?

Es una crítica del machismo oculto en la mayoría de las narrativas en torno al big data. Las descripciones de proyectos en este ámbito se caracterizan por fantasías masculinas y totalizadoras de dominación mundial que se llevan a cabo mediante la captura y el análisis de datos.

Así, los proyectos de Big Dick Data ignoran el contexto de los datos, fetichizan el tamaño de la base de datos e inflan sus capacidades técnicas y científicas, normalmente con ánimo de lucro, poder o ambos.

Los algoritmos de machine learning se alimentan de datos históricos que perpetúan prejuicios, no solo en cuestiones de género. Por ejemplo, muchos estudios de criminalidad en EE UU apuntan a que las personas afroamericanas tienen más probabilidades de cometer delitos.

Como te decía, en el feminismo de datos dejamos espacio para una posición de rechazo de los datos y su uso en ciertas situaciones. Respecto a los datos de criminalidad en EE UU, por ejemplo, opino que tendríamos que desechar su uso enteramente porque están corrompidos por el racismo.

Después de siglos de encarcelar desproporcionadamente a afrodescendientes e indígenas, no podemos usar esos registros para predecir quién debería ser puesto en libertad bajo fianza e imaginar de alguna manera que los algoritmos van a ser neutrales. Repito: estos datos han sido corrompidos por siglos de supremacía blanca y deben ser rechazados, esa es mi opinión.

Portada del libro Data Feminism. / MIT

¿Cómo se cambia esa narrativa?

El cambio narrativo que necesitamos tiene que ver con dejar espacio para esta posición de rechazo en el diálogo público y en las políticas. Hay algunas tecnologías que no deberían construirse. Hay algunos datos que no deben usarse.

¿Podría lograrse la neutralidad de los datos?

No, los datos no serán neutrales jamás porque nunca son datos ‘crudos’. Están producidos por seres humanos que vienen de lugares determinados, tienen sus propias identidades, sus historias particulares y que trabajan en instituciones concretas.

Pero eso no significa que los datos no puedan ser útiles. Solo que tenemos que usarlos con los ojos abiertos. Y hacernos las preguntas adecuadas: ¿Quién se beneficia? ¿A quién se perjudica? ¿Quién hace el trabajo? ¿Quién recibe el crédito?

En el momento que vivimos, ¿Qué valoración haces del manejo de datos en la pandemia?

Aquí en EE UU está siendo terrible. Te pongo un ejemplo. Al comienzo de la pandemia, Trump expresó su deseo de no permitir que atracara un crucero con pasajeros afectados por la covid-19. Sus palabras fueron: “Me gusta que los números estén donde están. No necesito que se dupliquen por un barco que no es nuestra responsabilidad”.

Otras agencias gubernamentales están también implicadas en esta subestimación deliberada. Durante once semanas, de marzo a mayo, los CDC [Centros para el Control y la Prevención de Enfermedades] no publicaron datos sobre cuántas personas estaban siendo testadas para detectar el virus. En cierto momento, se publicó silenciosamente un nuevo sitio web de los CDC que realizaba un seguimiento de las pruebas nacionales. Sin embargo, según una verificación independiente de The Atlantic, las cifras no coincidían con las que reportaban los propios estados. Ahora, la responsabilidad de monitorear los datos de la covid-19 se ha trasladado al departamento de Salud y Servicios Humanos [HHS] por razones políticas.

Los datos no serán neutrales jamás, pero eso no significa que no puedan ser útiles, solo que tenemos que usarlos con los ojos abiertos y hacernos las preguntas adecuadas: ¿Quién se beneficia? ¿A quién se perjudica? ¿Quién hace el trabajo? ¿Quién recibe el crédito?

Suena todo bastante desastroso.

Pues sí. Y además los detalles demográficos sobre las muertes por coronavirus tampoco se reportan. Sabemos que los hombres mueren en proporciones más altas que las mujeres. También, que las comunidades negras, indígenas y latinas son las más afectadas. Pero los estados no están rastreando de manera fiable cuestiones como el género o la raza en los casos de covid-19. Y, si se hace, se categoriza a las poblaciones nativas como ‘otros’, lo que hace imposible desagregar los efectos racializados de la enfermedad en las personas indígenas. Es todo un gran desastre.

Ilustración de Catherine DIgnazio / Surasti Pari

Acceda a la versión completa del contenido

“Las prácticas clásicas en ciencia de datos fomentan el sexismo. El feminismo de datos lo combate”

Ana Hernando - SINC

Entradas recientes

Hacienda permitirá por primera vez el pago de la Renta a través de Bizum

Así se desprende del proyecto sometido a audiencia e información pública sobre los modelos de…

5 horas hace

La banca alcanza un récord desde 2010 en volumen de nuevas hipotecas, con 68.000 millones

Solamente en el mes de diciembre, el volumen de nuevas hipotecas concedidas fue de 6.877…

5 horas hace

La gala de los Goya 2025 registra un share del 24,4%, la mejor cuota desde 2020 y nueve décimas más que en 2024

Además, la gala fue vista algún momento por más de 6,5 millones de espectadores únicos,…

5 horas hace

Las ventas de Tesla en Europa caen en enero en medio de la agitación política de Elon Musk

En concreto, las ventas del fabricante estadounidense cayeron en enero en Alemania un 59,5% respecto…

5 horas hace

CSIF «parará» la Administración este jueves en una huelga para exigir al Gobierno una solución a Muface

"Vamos a parar la Administración del Estado", indicó el presidente de CSIF, Miguel Borra, sobre…

6 horas hace

Renfe supera un récord histórico y contabiliza 537 millones de pasajeros en 2024, un 2,7% más que en 2023

Esta cifra total representa un incremento del 2,7% con respecto al año anterior (523,2 millones…

6 horas hace