Skip to main content

Le Serment d'Hippocrate du Data Scientist

hippocrate

Vers un engagement Ă©thique des data scientists​

Un serment d’Hippocrate pour toute personne travaillant avec la donnĂ©e

Le collectif Data for Good invite les data scientists et les spĂ©cialistes de la donnĂ©e Ă  s’engager Ă  respecter une charte Ă©thique.

Cette initiative a Ă©tĂ© lancĂ©e dans le cadre de la saison d'accĂ©lĂ©ration 2018 de Data for Good, qui regroupe des bĂ©nĂ©voles pendant trois mois pour mettre la data science au service de l’intĂ©rĂȘt gĂ©nĂ©ral Ă  travers le dĂ©veloppement de rĂ©flexions et de produits fonctionnels s'attaquant Ă  des problĂšmes de sociĂ©tĂ©.

“C’est un projet par et pour des data scientists, ouvert et bĂ©nĂ©vole”, explique Soline LedĂ©sert, web designer et membre du projet.

“Ce guide permet de montrer comment Ă©valuer nos pratiques par rapport aux grands principes Ă©thiques et juridiques, mais aussi de les expliciter”, explique Estelle Recuero, product manager et membre du projet.

Le projet a impliquĂ© plus d’une centaine de data scientists et d’experts qui collectent, stockent, traitent, modĂ©lisent, analysent des donnĂ©es et font de la prĂ©diction dans le cadre de leur activitĂ© professionnelle. Ces data scientists travaillent dans des start-ups, des grandes entreprises, des cabinets de conseil, des PME, des administrations, ou sont indĂ©pendants ou chercheurs.

La charte s’articule Ă  la fois autour de principes Ă©thiques fondamentaux et de bonnes pratiques d’utilisation des donnĂ©es.

Les principes d’intĂ©gritĂ© scientifique, de transparence, d’équitĂ©, de respect et de responsabilitĂ© sont mis en avant. Les engagements sont formulĂ©s Ă  la premiĂšre personne, comme dans le serment d’Hippocrate des mĂ©decins :

  • « Je veillerai Ă  toujours m’assurer que des individus ou des groupes ne soient pas discriminĂ©s par rapport Ă  des critĂšres illĂ©gaux ou illĂ©gitimes, de façon directe ou indirecte, sur la base de mes travaux sur les donnĂ©es. »
  • « J’exercerai mon activitĂ© professionnelle en respectant la vie privĂ©e et la dignitĂ© des personnes dans toutes leurs dimensions. »
  • « J’assumerai mes responsabilitĂ©s en cas de manquements ou de conflits d’intĂ©rĂȘt et je donnerai l’alerte si des actes illĂ©gaux liĂ©s Ă  des donnĂ©es sont constatĂ©s. »

Toute personne travaillant avec la donnée peut lire la charte et la signer publiquement sur le site.

“C’est un guide pratique que l’on peut utiliser Ă  chaque Ă©tape de notre travail de data scientist et qui rappelle la dimension Ă©thique et les limites Ă  respecter”, selon Sami Moustachir, data scientist et membre du projet.

La charte contient en effet une dimension opĂ©rationnelle Ă  travers des conseils pratiques. DĂ©crite comme une “check-list Ă©thique”, elle concerne par exemple l’application de modĂšles algorithmiques, qui sont souvent assimilĂ©s Ă  des boĂźtes noires :

  • « Je m'engage Ă  

  • ... prĂ©voir les dĂ©rives possibles du modĂšle par rapport aux donnĂ©es dans le temps, de façon Ă  Ă©viter l'apparition de biais supplĂ©mentaires.
  • ... rĂ©flĂ©chir Ă  la performance et Ă  l'interprĂ©tabilitĂ© de chaque modĂšle Ă  disposition et, si possible, opter pour les modĂšles les plus explicables aux personnes concernĂ©es par les rĂ©sultats. »

Un rappel de dispositions du RÚglement Général sur la Protection des Données (RGPD) est également intégré à la charte pour clarifier des notions essentielles telles que les « données personnelles » ou le « consentement ».

tip

La charte va au-delĂ  du cadre lĂ©gislatif afin de promouvoir l’utilisation Ă©thique des donnĂ©es et de prĂ©venir de potentiels scandales liĂ©s aux donnĂ©es et Ă  l’intelligence artificielle. L’objectif est de faire grandir la responsabilitĂ© individuelle et collective des data scientists en suscitant une rĂ©flexion et des Ă©changes sur l’impact social de leur activitĂ© professionnelle.

La charte​

Principe #1 - Interroger la finalité du projet, sa légalité et son possible impact social et environnemental.

Principe #2 - Veiller à ce que les métriques à optimiser soient pertinentes et ne conduisent pas le projet à avoir un impact social et environnemental négatif.

Principe #3 - Faire mon possible pour que mes conditions de travail, en particulier le temps de travail qui m’est allouĂ©, me permettent de mener avec les donnĂ©es un travail honnĂȘte et le plus scientifique possible.

Principe #4 - Ne pas collecter ou utiliser de données inutilement personnelles et/ou sensibles.

Etape projet (2): Je collecte ou je dispose de données

... et une « donnée sensible » ?

L’article 9 du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD) prĂ©voit que « le traitement des donnĂ©es Ă  caractĂšre personnel qui rĂ©vĂšle l'origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l'appartenance syndicale, ainsi que le traitement des donnĂ©es gĂ©nĂ©tiques, des donnĂ©es biomĂ©triques aux fins d'identifier une personne physique de maniĂšre unique, des donnĂ©es concernant la santĂ© ou des donnĂ©es concernant la vie sexuelle ou l'orientation sexuelle d'une personne physique sont interdits ».

Principe #5 - Ce que les donnĂ©es que je collecte ou dont je dispose soient exactes et que je comprenne bien leur signification. pour cela, je m’engage Ă  retracer autant que possible l'origine et le processus de crĂ©ation des donnĂ©es, ainsi que les Ă©ventuelles modifications qu'elles ont subies.

Etape projet (2): Je collecte ou je dispose de données

Le droit prĂ©voit un principe d'exactitude des donnĂ©es personnelles. celles-ci doivent ĂȘtre « exactes et, si nĂ©cessaire, tenues Ă  jour ». celles qui seraient inexactes doivent ĂȘtre effacĂ©es ou rectifiĂ©es.

... selon l'article 5 (d) du RÚglement Général sur la Protection des Données (RGPD).

Principe #6 - Ne pas collecter des donnĂ©es dont je peux raisonnablement estimer qu’elles ne seront pas utiles par rapport aux besoins du projet.

Etape projet (2): Je collecte ou je dispose de données

Le droit prĂ©voit un principe de minimisation, c'est-Ă -dire que les donnĂ©es Ă  caractĂšre personnel doivent ĂȘtre « adĂ©quates, pertinentes et limitĂ©es Ă  ce qui est nĂ©cessaire au regard des finalitĂ©s pour lesquelles elles sont traitĂ©es ».

... selon l'article 5 (c) du RÚglement Général sur la Protection des Données (RGPD).

Principe #7 - Ne pas négliger des données potentiellement utiles au projet, dans la limite des principes éthiques, afin de ne pas mettre en péril la robustesse et la pertinence des résultats de leur traitement.

Principe #8 - Veiller Ă  ce que les donnĂ©es dont j’ai la responsabilitĂ© soient gĂ©rĂ©es et stockĂ©es en sĂ©curitĂ©.

Etape projet (2): Je collecte ou je dispose de données

Le droit prĂ©voit que les donnĂ©es personnelles doivent ĂȘtre sĂ©curisĂ©es.

L’article 32 du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD) prĂ©voit que des mesures techniques et organisationnelles doivent ĂȘtre mises en place afin d’assurer la sĂ©curitĂ© des donnĂ©es personnelles.

Principe #9 - communiquer, ou sinon rappeler aux Ă©quipes compĂ©tentes, la nĂ©cessitĂ© de communiquer auprĂšs des personnes concernĂ©es, l’usage qui sera fait de leurs donnĂ©es, de la façon la plus claire, explicite et transparente possible.

Etape projet (2): Je collecte ou je dispose de données

Un tel principe de communication claire et explicite est prévu par le droit.

L'article 12 du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD) oblige Ă  informer les personnes d’une façon « concise, transparente, comprĂ©hensible » et adaptĂ©e.

Les articles 13 et 14 du RGPD prĂ©voient une liste consĂ©quente d'informations Ă  fournir aux personnes : l’identitĂ© du responsable du traitement, les finalitĂ©s du traitement, les donnĂ©es concernĂ©es, les droits des personnes sur leurs donnĂ©es, etc


Principe #10 - Veiller à ce que le consentement des personnes dont je collecte les données soit obtenu dans des conditions loyales et transparentes pour eux. en cas de changements ultérieurs des conditions d'utilisation, veiller à ce que ces changements leur soient aussi communiqués clairement et efficacement, et ré-obtenir leur consentement dans des conditions loyales, explicites et transparentes pour eux.

Etape projet (2): Je collecte ou je dispose de données

Le « consentement » a une définition légale.

L’article 4 paragraphe 11 du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD) dĂ©finit le consentement comme « toute manifestation de volontĂ©, libre, spĂ©cifique, Ă©clairĂ©e et univoque par laquelle la personne concernĂ©e accepte, par une dĂ©claration ou par un acte positif clair, que des donnĂ©es Ă  caractĂšre personnel la concernant fassent l'objet d'un traitement ».

Principe #11 - Veiller, lorsque j'élimine ou j'impute des valeurs manquantes ou aberrantes, à ne pas introduire de biais supplémentaires qui mÚneraient à des résultats partiels ou faux. pour cela :

  • je regarde la distribution des donnĂ©es Ă  ma disposition ;
  • je m'interroge sur leurs potentiels biais, notamment le biais de sĂ©lection ;
  • je justifie et documente mon nettoyage.

Principe #12 - Ne pas crĂ©er de donnĂ©es caractĂ©ristiques (“features”) qui Ă©quivaudraient Ă  des donnĂ©es personnelles sensibles si leur usage peut entraĂźner des effets discriminatoires illĂ©gaux ou illĂ©gitimes (exemples : code postal, nom de famille, ...).

Etape projet (3): Je prĂ©pare et j’explore les donnĂ©es

Ce point est l'objet d'une discussion.

Vous pouvez la lire sur notre Framavox. Ce point sera retravaillé pour la prochaine version du Serment.

Principe #13 - DĂ©terminer le meilleur compromis entre la performance et l'interprĂ©tabilitĂ© sur l’ensemble des modĂšles Ă  disposition et autant que possible, opter pour les modĂšles les plus simples Ă  expliquer aux personnes concernĂ©es (un modĂšle performant permettra de diminuer les risques d’erreur tandis qu’un modĂšle interprĂ©table permettra de mieux justifier les rĂ©sultats du modĂšle).

Principe #14 - ParamĂ©trer et tester plusieurs modĂšles en ne m’arrĂȘtant pas au premier modĂšle et paramĂ©trage qui me semblent bons.

Principe #15 - Veiller Ă  ce que le responsable du systĂšme puisse autant que possible fournir une explication des rĂ©sultats du modĂšle algorithmique aux personnes concernĂ©es et ce d’autant plus s’il est lĂ©galement tenu d’expliquer ces dĂ©cisions.

Etape projet (4): J'applique un ou des modĂšle(s) algorithmique(s)

Le droit oblige Ă  pouvoir expliquer le fonctionnement des algorithmes.

  • L'article 22 du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD) prĂ©voit un principe selon lequel la personne concernĂ©e a le droit de s’opposer Ă  ce qu’une dĂ©cision sur elle soit prise uniquement sur le fondement d’un traitement automatisĂ©. Certaines exceptions sont toutefois amĂ©nagĂ©es et le RĂšglement oblige Ă  prendre des mesures appropriĂ©es pour protĂ©ger les personnes lorsqu’elles font l’objet d’une dĂ©cision uniquement fondĂ©e sur un traitement automatisĂ©.

  • L’article 10 de la loi française distingue deux cas :

    ⁃ Dans le secteur privĂ©, lorsqu’une dĂ©cision est prise uniquement sur le fondement d’un traitement automatisĂ©, l’auteur doit pouvoir expliquer les rĂšgles dĂ©finissant le traitement et les caractĂ©ristiques de sa mise en oeuvre (sauf si cette explication est couverte par un secret).

    ⁃ Dans le secteur public, l’individu doit ĂȘtre informĂ© que la dĂ©cision a Ă©tĂ© fondĂ©e uniquement sur un algorithme et l’auteur de la dĂ©cision doit pouvoir expliquer les rĂšgles dĂ©finissant le traitement et les caractĂ©ristiques de sa mise en oeuvre.

  • La dĂ©cision du Conseil Constitutionnel du 12 juin 2018 prĂ©cise dans quelles conditions les administrations peuvent avoir recours Ă  des algorithmes pour prendre des dĂ©cisions concernant les individus.

Principe #16 - Mesurer le biais et la variance pour contrÎler l'exactitude et la dispersion du résultat et documenter les métriques d'erreur retenues.

Principe #17 - Garder un esprit critique par rapport aux segments issus d'un algorithme de groupement (“clustering”).

Principe #18 - Prévoir et prévenir les dérives possibles dans le temps du modÚle par rapport aux données, de façon à éviter l'apparition de biais supplémentaires.

Principe #19 - Veiller à regarder les résultats dans leur ensemble (non-partialité) et à ne pas céder à un "biais de confirmation" (qui consisterait à voir ce à quoi je m'attendais).

Principe #20 - VĂ©rifier l’absence de discrimination : vĂ©rifier si le modĂšle s’applique avec la mĂȘme pertinence sur des segments potentiellement discriminatoires de la population traitĂ©e.

Principe #21 - Communiquer ma démarche et mes résultats (ou leur absence) à mon client / mon équipe :

  • en ne les dĂ©naturant et en ne les dissimulant pas, notamment en choisissant une visualisation fidĂšle Ă  l’ensemble des rĂ©sultats
  • en garantissant la comprĂ©hension la plus exacte possible, en optant pour les visualisations et explications les plus parlantes, en prĂ©cisant les prĂ©cautions d’usage Ă  prendre avec ces rĂ©sultats et leur interprĂ©tation.

Principe #22 - Donner l'alerte si je constate une utilisation frauduleuse, illégale, illégitime, discriminatoire ou non-éthique des résultats.

Principe #23 - Veiller Ă  ce que les donnĂ©es ne soient pas conservĂ©es plus longtemps que ce qui est nĂ©cessaire pour l’application telle que dĂ©finie pendant le projet.

Etape projet (7): Je termine le projet

Un principe de conservation limitée dans le temps est prévu par le droit.

Selon l’article 5 (e) du RĂšglement GĂ©nĂ©ral sur la Protection des DonnĂ©es (RGPD), les donnĂ©es Ă  caractĂšre personnel doivent ĂȘtre « conservĂ©es sous une forme permettant l'identification des personnes concernĂ©es pendant une durĂ©e n'excĂ©dant pas celle nĂ©cessaire au regard des finalitĂ©s pour lesquelles elles sont traitĂ©es ; les donnĂ©es Ă  caractĂšre personnel peuvent ĂȘtre conservĂ©es pour des durĂ©es plus longues dans la mesure oĂč elles seront traitĂ©es exclusivement Ă  des fins archivistiques dans l'intĂ©rĂȘt public, Ă  des fins de recherche scientifique ou historique ou Ă  des fins statistiques conformĂ©ment Ă  l'article 89, paragraphe 1, pour autant que soient mises en Ɠuvre les mesures techniques et organisationnelles appropriĂ©es requises par le prĂ©sent rĂšglement afin de garantir les droits et libertĂ©s de la personne concernĂ©e ».

Principe #24 - documenter au maximum les donnĂ©es et leurs traitements afin d’en garantir l’explicabilitĂ© et la reproductibilitĂ©.

Principe #25 - Anticiper les usages qui pourraient ĂȘtre faits de mon travail Ă  moyen et long terme et faire mon possible pour garder sur lui un droit de regard et une possibilitĂ© d’action.

Aller plus loin​