Le Serment d'Hippocrate du Data Scientist
Vers un engagement Ă©thique des data scientistsâ
Un serment dâHippocrate pour toute personne travaillant avec la donnĂ©e
Le collectif Data for Good invite les data scientists et les spĂ©cialistes de la donnĂ©e Ă sâengager Ă respecter une charte Ă©thique.
Cette initiative a Ă©tĂ© lancĂ©e dans le cadre de la saison d'accĂ©lĂ©ration 2018 de Data for Good, qui regroupe des bĂ©nĂ©voles pendant trois mois pour mettre la data science au service de lâintĂ©rĂȘt gĂ©nĂ©ral Ă travers le dĂ©veloppement de rĂ©flexions et de produits fonctionnels s'attaquant Ă des problĂšmes de sociĂ©tĂ©.
âCâest un projet par et pour des data scientists, ouvert et bĂ©nĂ©voleâ, explique Soline LedĂ©sert, web designer et membre du projet.
âCe guide permet de montrer comment Ă©valuer nos pratiques par rapport aux grands principes Ă©thiques et juridiques, mais aussi de les expliciterâ, explique Estelle Recuero, product manager et membre du projet.
Le projet a impliquĂ© plus dâune centaine de data scientists et dâexperts qui collectent, stockent, traitent, modĂ©lisent, analysent des donnĂ©es et font de la prĂ©diction dans le cadre de leur activitĂ© professionnelle. Ces data scientists travaillent dans des start-ups, des grandes entreprises, des cabinets de conseil, des PME, des administrations, ou sont indĂ©pendants ou chercheurs.
La charte sâarticule Ă la fois autour de principes Ă©thiques fondamentaux et de bonnes pratiques dâutilisation des donnĂ©es.
Les principes dâintĂ©gritĂ© scientifique, de transparence, dâĂ©quitĂ©, de respect et de responsabilitĂ© sont mis en avant. Les engagements sont formulĂ©s Ă la premiĂšre personne, comme dans le serment dâHippocrate des mĂ©decins :
- « Je veillerai Ă toujours mâassurer que des individus ou des groupes ne soient pas discriminĂ©s par rapport Ă des critĂšres illĂ©gaux ou illĂ©gitimes, de façon directe ou indirecte, sur la base de mes travaux sur les donnĂ©es. »
- « Jâexercerai mon activitĂ© professionnelle en respectant la vie privĂ©e et la dignitĂ© des personnes dans toutes leurs dimensions. »
- « Jâassumerai mes responsabilitĂ©s en cas de manquements ou de conflits dâintĂ©rĂȘt et je donnerai lâalerte si des actes illĂ©gaux liĂ©s Ă des donnĂ©es sont constatĂ©s. »
Toute personne travaillant avec la donnée peut lire la charte et la signer publiquement sur le site.
âCâest un guide pratique que lâon peut utiliser Ă chaque Ă©tape de notre travail de data scientist et qui rappelle la dimension Ă©thique et les limites Ă respecterâ, selon Sami Moustachir, data scientist et membre du projet.
La charte contient en effet une dimension opĂ©rationnelle Ă travers des conseils pratiques. DĂ©crite comme une âcheck-list Ă©thiqueâ, elle concerne par exemple lâapplication de modĂšles algorithmiques, qui sont souvent assimilĂ©s Ă des boĂźtes noires :
- « Je m'engage Ă âŠ
- ... prévoir les dérives possibles du modÚle par rapport aux données dans le temps, de façon à éviter l'apparition de biais supplémentaires.
- ... réfléchir à la performance et à l'interprétabilité de chaque modÚle à disposition et, si possible, opter pour les modÚles les plus explicables aux personnes concernées par les résultats. »
Un rappel de dispositions du RÚglement Général sur la Protection des Données (RGPD) est également intégré à la charte pour clarifier des notions essentielles telles que les « données personnelles » ou le « consentement ».
tip
La charte va au-delĂ du cadre lĂ©gislatif afin de promouvoir lâutilisation Ă©thique des donnĂ©es et de prĂ©venir de potentiels scandales liĂ©s aux donnĂ©es et Ă lâintelligence artificielle. Lâobjectif est de faire grandir la responsabilitĂ© individuelle et collective des data scientists en suscitant une rĂ©flexion et des Ă©changes sur lâimpact social de leur activitĂ© professionnelle.
La charteâ
Principe #1 - Interroger la finalité du projet, sa légalité et son possible impact social et environnemental.
Principe #2 - Veiller à ce que les métriques à optimiser soient pertinentes et ne conduisent pas le projet à avoir un impact social et environnemental négatif.
Principe #3 - Faire mon possible pour que mes conditions de travail, en particulier le temps de travail qui mâest allouĂ©, me permettent de mener avec les donnĂ©es un travail honnĂȘte et le plus scientifique possible.
Principe #4 - Ne pas collecter ou utiliser de données inutilement personnelles et/ou sensibles.
Etape projet (2): Je collecte ou je dispose de données
... et une « donnée sensible » ?
Lâarticle 9 du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD) prĂ©voit que « le traitement des donnĂ©es Ă caractĂšre personnel qui rĂ©vĂšle l'origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l'appartenance syndicale, ainsi que le traitement des donnĂ©es gĂ©nĂ©tiques, des donnĂ©es biomĂ©triques aux fins d'identifier une personne physique de maniĂšre unique, des donnĂ©es concernant la santĂ© ou des donnĂ©es concernant la vie sexuelle ou l'orientation sexuelle d'une personne physique sont interdits ».
Principe #5 - Ce que les donnĂ©es que je collecte ou dont je dispose soient exactes et que je comprenne bien leur signification. pour cela, je mâengage Ă retracer autant que possible l'origine et le processus de crĂ©ation des donnĂ©es, ainsi que les Ă©ventuelles modifications qu'elles ont subies.
Etape projet (2): Je collecte ou je dispose de données
Le droit prĂ©voit un principe d'exactitude des donnĂ©es personnelles. celles-ci doivent ĂȘtre « exactes et, si nĂ©cessaire, tenues Ă jour ». celles qui seraient inexactes doivent ĂȘtre effacĂ©es ou rectifiĂ©es.
... selon l'article 5 (d) du RÚglement Général sur la Protection des Données (RGPD).
Principe #6 - Ne pas collecter des donnĂ©es dont je peux raisonnablement estimer quâelles ne seront pas utiles par rapport aux besoins du projet.
Etape projet (2): Je collecte ou je dispose de données
Le droit prĂ©voit un principe de minimisation, c'est-Ă -dire que les donnĂ©es Ă caractĂšre personnel doivent ĂȘtre « adĂ©quates, pertinentes et limitĂ©es Ă ce qui est nĂ©cessaire au regard des finalitĂ©s pour lesquelles elles sont traitĂ©es ».
... selon l'article 5 (c) du RÚglement Général sur la Protection des Données (RGPD).
Principe #7 - Ne pas négliger des données potentiellement utiles au projet, dans la limite des principes éthiques, afin de ne pas mettre en péril la robustesse et la pertinence des résultats de leur traitement.
Principe #8 - Veiller Ă ce que les donnĂ©es dont jâai la responsabilitĂ© soient gĂ©rĂ©es et stockĂ©es en sĂ©curitĂ©.
Etape projet (2): Je collecte ou je dispose de données
Le droit prĂ©voit que les donnĂ©es personnelles doivent ĂȘtre sĂ©curisĂ©es.
Lâarticle 32 du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD) prĂ©voit que des mesures techniques et organisationnelles doivent ĂȘtre mises en place afin dâassurer la sĂ©curitĂ© des donnĂ©es personnelles.
Principe #9 - communiquer, ou sinon rappeler aux Ă©quipes compĂ©tentes, la nĂ©cessitĂ© de communiquer auprĂšs des personnes concernĂ©es, lâusage qui sera fait de leurs donnĂ©es, de la façon la plus claire, explicite et transparente possible.
Etape projet (2): Je collecte ou je dispose de données
Un tel principe de communication claire et explicite est prévu par le droit.
L'article 12 du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD) oblige Ă informer les personnes dâune façon « concise, transparente, comprĂ©hensible » et adaptĂ©e.
Les articles 13 et 14 du RGPD prĂ©voient une liste consĂ©quente d'informations Ă fournir aux personnes : lâidentitĂ© du responsable du traitement, les finalitĂ©s du traitement, les donnĂ©es concernĂ©es, les droits des personnes sur leurs donnĂ©es, etcâŠ
Principe #10 - Veiller à ce que le consentement des personnes dont je collecte les données soit obtenu dans des conditions loyales et transparentes pour eux. en cas de changements ultérieurs des conditions d'utilisation, veiller à ce que ces changements leur soient aussi communiqués clairement et efficacement, et ré-obtenir leur consentement dans des conditions loyales, explicites et transparentes pour eux.
Etape projet (2): Je collecte ou je dispose de données
Le « consentement » a une définition légale.
Lâarticle 4 paragraphe 11 du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD) dĂ©finit le consentement comme « toute manifestation de volontĂ©, libre, spĂ©cifique, Ă©clairĂ©e et univoque par laquelle la personne concernĂ©e accepte, par une dĂ©claration ou par un acte positif clair, que des donnĂ©es Ă caractĂšre personnel la concernant fassent l'objet d'un traitement ».
Principe #11 - Veiller, lorsque j'élimine ou j'impute des valeurs manquantes ou aberrantes, à ne pas introduire de biais supplémentaires qui mÚneraient à des résultats partiels ou faux. pour cela :
- je regarde la distribution des données à ma disposition ;
- je m'interroge sur leurs potentiels biais, notamment le biais de sélection ;
- je justifie et documente mon nettoyage.
Principe #12 - Ne pas crĂ©er de donnĂ©es caractĂ©ristiques (âfeaturesâ) qui Ă©quivaudraient Ă des donnĂ©es personnelles sensibles si leur usage peut entraĂźner des effets discriminatoires illĂ©gaux ou illĂ©gitimes (exemples : code postal, nom de famille, ...).
Etape projet (3): Je prĂ©pare et jâexplore les donnĂ©es
Ce point est l'objet d'une discussion.
Vous pouvez la lire sur notre Framavox. Ce point sera retravaillé pour la prochaine version du Serment.
Principe #13 - DĂ©terminer le meilleur compromis entre la performance et l'interprĂ©tabilitĂ© sur lâensemble des modĂšles Ă disposition et autant que possible, opter pour les modĂšles les plus simples Ă expliquer aux personnes concernĂ©es (un modĂšle performant permettra de diminuer les risques dâerreur tandis quâun modĂšle interprĂ©table permettra de mieux justifier les rĂ©sultats du modĂšle).
Principe #14 - ParamĂ©trer et tester plusieurs modĂšles en ne mâarrĂȘtant pas au premier modĂšle et paramĂ©trage qui me semblent bons.
Principe #15 - Veiller Ă ce que le responsable du systĂšme puisse autant que possible fournir une explication des rĂ©sultats du modĂšle algorithmique aux personnes concernĂ©es et ce dâautant plus sâil est lĂ©galement tenu dâexpliquer ces dĂ©cisions.
Etape projet (4): J'applique un ou des modĂšle(s) algorithmique(s)
Le droit oblige Ă pouvoir expliquer le fonctionnement des algorithmes.
L'article 22 du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD) prĂ©voit un principe selon lequel la personne concernĂ©e a le droit de sâopposer Ă ce quâune dĂ©cision sur elle soit prise uniquement sur le fondement dâun traitement automatisĂ©. Certaines exceptions sont toutefois amĂ©nagĂ©es et le RĂšglement oblige Ă prendre des mesures appropriĂ©es pour protĂ©ger les personnes lorsquâelles font lâobjet dâune dĂ©cision uniquement fondĂ©e sur un traitement automatisĂ©.
Lâarticle 10 de la loi française distingue deux cas :
â Dans le secteur privĂ©, lorsquâune dĂ©cision est prise uniquement sur le fondement dâun traitement automatisĂ©, lâauteur doit pouvoir expliquer les rĂšgles dĂ©finissant le traitement et les caractĂ©ristiques de sa mise en oeuvre (sauf si cette explication est couverte par un secret).
â Dans le secteur public, lâindividu doit ĂȘtre informĂ© que la dĂ©cision a Ă©tĂ© fondĂ©e uniquement sur un algorithme et lâauteur de la dĂ©cision doit pouvoir expliquer les rĂšgles dĂ©finissant le traitement et les caractĂ©ristiques de sa mise en oeuvre.
La décision du Conseil Constitutionnel du 12 juin 2018 précise dans quelles conditions les administrations peuvent avoir recours à des algorithmes pour prendre des décisions concernant les individus.
Principe #16 - Mesurer le biais et la variance pour contrÎler l'exactitude et la dispersion du résultat et documenter les métriques d'erreur retenues.
Principe #17 - Garder un esprit critique par rapport aux segments issus d'un algorithme de groupement (âclusteringâ).
Principe #18 - Prévoir et prévenir les dérives possibles dans le temps du modÚle par rapport aux données, de façon à éviter l'apparition de biais supplémentaires.
Principe #19 - Veiller à regarder les résultats dans leur ensemble (non-partialité) et à ne pas céder à un "biais de confirmation" (qui consisterait à voir ce à quoi je m'attendais).
Principe #20 - VĂ©rifier lâabsence de discrimination : vĂ©rifier si le modĂšle sâapplique avec la mĂȘme pertinence sur des segments potentiellement discriminatoires de la population traitĂ©e.
Principe #21 - Communiquer ma démarche et mes résultats (ou leur absence) à mon client / mon équipe :
- en ne les dĂ©naturant et en ne les dissimulant pas, notamment en choisissant une visualisation fidĂšle Ă lâensemble des rĂ©sultats
- en garantissant la comprĂ©hension la plus exacte possible, en optant pour les visualisations et explications les plus parlantes, en prĂ©cisant les prĂ©cautions dâusage Ă prendre avec ces rĂ©sultats et leur interprĂ©tation.
Principe #22 - Donner l'alerte si je constate une utilisation frauduleuse, illégale, illégitime, discriminatoire ou non-éthique des résultats.
Principe #23 - Veiller Ă ce que les donnĂ©es ne soient pas conservĂ©es plus longtemps que ce qui est nĂ©cessaire pour lâapplication telle que dĂ©finie pendant le projet.
Etape projet (7): Je termine le projet
Un principe de conservation limitée dans le temps est prévu par le droit.
Selon lâarticle 5 (e) du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD), les donnĂ©es Ă caractĂšre personnel doivent ĂȘtre « conservĂ©es sous une forme permettant l'identification des personnes concernĂ©es pendant une durĂ©e n'excĂ©dant pas celle nĂ©cessaire au regard des finalitĂ©s pour lesquelles elles sont traitĂ©es ; les donnĂ©es Ă caractĂšre personnel peuvent ĂȘtre conservĂ©es pour des durĂ©es plus longues dans la mesure oĂč elles seront traitĂ©es exclusivement Ă des fins archivistiques dans l'intĂ©rĂȘt public, Ă des fins de recherche scientifique ou historique ou Ă des fins statistiques conformĂ©ment Ă l'article 89, paragraphe 1, pour autant que soient mises en Ćuvre les mesures techniques et organisationnelles appropriĂ©es requises par le prĂ©sent rĂšglement afin de garantir les droits et libertĂ©s de la personne concernĂ©e ».
Principe #24 - documenter au maximum les donnĂ©es et leurs traitements afin dâen garantir lâexplicabilitĂ© et la reproductibilitĂ©.
Principe #25 - Anticiper les usages qui pourraient ĂȘtre faits de mon travail Ă moyen et long terme et faire mon possible pour garder sur lui un droit de regard et une possibilitĂ© dâaction.
Aller plus loinâ
- Lisez l'article sorti dans Le Monde sur le Serment d'Hippocrate du Data Scientist
- Découvrez le référentiel cadre de notre partenaire Labelia
- Lisez le Tech Pledge
- Inscrivez-vous aux 101 actions pour une tech responsable et engagée de Latitudes
- Mesurez l'empreinte carbone de votre code avec CodeCarbon