Descripció
En molts projectes de ciència de dades es prenen decisions que poden afectar persones, a partir de models construïts amb dades segurament obtingudes prèviament d’altres persones. Seguint el cicle de vida de les dades, és necessari plantejar-se certs aspectes ètics, el compliment dels quals de manera adequada cal assegurar. Així, resumidament:
- Generació/captura: el més important és el consentiment dels usuaris, que han d’estar informats de la recollida de dades. A més, el procediment de captura ha d’assegurar que recull totes les dades i solament les dades rellevants per a l’objectiu expressat, i ha de ser representatiu i no sobrerepresentar o discriminar cap grup d’usuaris involucrat.
- Emmagatzematge: les dades emmagatzemades no haurien de representar cap risc per als usuaris que les han generat, per la qual cosa el sistema d’emmagatzematge hauria d’assegurar l’anonimat i establir els nivells de seguretat adequats per a evitar pèrdues o filtracions.
- Processament/anàlisi: a partir de les dades, els models construïts haurien de tenir en compte els possibles biaixos en les dades per no reproduir-los. A més, el model no hauria de plantejar, ja de base, cap premissa que pugui considerar-se discriminatòria pel que fa a algun dels grups representats en les dades.
- Implementació: una vegada engegat el sistema de presa de decisions, aquest ha de ser traçable, de manera que qualsevol decisió presa pugui ser contrastada contra el model subjacent i s’identifiquin les raons que van portar a aquesta decisió, de manera que, si es detecten biaixos, es puguin aïllar i corregir.
Exemple d’ús
Desafortunadament, recentment hi ha hagut diversos exemples que es poden considerar males pràctiques pel que fa als aspectes ètics esmentats anteriorment:
- El bo social al com poden acollir-se vídues i famílies nombroses per a obtenir un descompte en la tarifa de la llum no funcionava correctament, i en deixava fora usuaris que complien els requisits. Quan l’organisme encarregat d’aquest bo va ser requerit, es va negar a publicar els detalls dels algorismes que havien funcionat de forma errònia, la qual cosa no ajuda precisament a donar una imatge de transparència en una qüestió que està regulada de forma oficial, tal com va denunciar Civio.
- Les tecnologies de reconeixement facial estan també sota sospita, especialment des de casos tan greus com el del sistema de Google, que cometia errors com ara classificar persones de color com a «goril·les», a causa d’un mal funcionament de l’algorisme d’entrenament i les dades usades per a entrenar el sistema. D’altra banda, països com la Xina estan usant massivament tècniques de reconeixement facial per a vigilar als seus ciutadans, i molts altres països també ho fan en espais com els aeroports, amb la qual cosa sacrifiquen la privadesa en honor d’una suposada seguretat.
- Un altre exemple recent és el de Facebook, que el 2018 va permetre l’accés a les dades de milions d’usuaris de la xarxa social a un tercer que treballava per a una empresa anomenada Cambridge Analytics; les dades es van usar amb finalitats polítiques, per ajustar els usuaris objectiu d’anuncis de la campanya electoral als Estats Units.
Enllaços relacionats
Reconeixement facial: https://www.theverge.com/2018/1/12/16882408/google-racist-gorillas-photo-recognition-algorithm-ai
Cambridge Analytica: https://www.theguardian.com/technology/2019/mar/17/the-cambridge-analytica-scandal-changed-the-world-but-it-didnt-change-facebook
Llibre Ethics and Data Science: https://www.oreilly.com/library/view/ethics-and-data/9781492043898/
Eina per a crear llistes de control (checklists) d’aspectes ètics: http://deon.drivendata.org/