top of page

Pour une IA de confiance dans la santé

  • Photo du rédacteur: AI for Citizen
    AI for Citizen
  • 9 avr. 2020
  • 13 min de lecture


Retour sur le séminaire organisé à Sciences Po le 10 janvier 2020

Les enjeux éthiques des Intelligences Artificielles sont aujourd’hui âprement discutés à l’échelle internationale : au sein de l’Organisation Mondiale de la Santé[1], à l’UNESCO[2], à la Commission européenne[3], dans le monde des technologies et dans celui des Sciences Humaines et Sociales. Ce travail international se traduit en France par l’adoption d’une initiative législative au sein du projet de loi bioéthique (article 11), inspirée par un rapport du Comité Consultatif National d’Ethique (CCNE), visant à établir le principe d’une garantie humaine des Intelligences Artificielles.

Dans ces travaux, la notion d’Intelligence Artificielle se prête mal à une définition unique. Elle gagne à être déclinée au pluriel, tant elle correspond à des réalités mathématiques potentiellement différentes[4] et à des risques potentiellement divers. L’environnement juridique dans lequel se situe les IAs est lui-même divers : certaines IAs sont des éléments d’aide à la décision intégrés à des Dispositifs Médicaux, d’autres se situent en dehors de ce cadre juridique, qui est pourtant le seul moyen de faire reconnaître la valeur santé d’une solution digitale.

Conjuguer l’IA au pluriel

De plus en plus d’études ont montré que les Intelligences artificielles ont un potentiel considérable pour transformer la santé. Il est frappant de constater que ces études peuvent se situer dans un cadre correspondant aux critères habituels de l’Evidence Based Medicine, mais ce n’est pas systématique. On peut notamment remarquer que les IAs qui améliorent les capacités diagnostiques, en utilisant notamment l’analyse d’image, obéissent à des critères compatibles avec les critères de l’EBM. Elles concernent notamment l’appui aux radiologues pour le dépistage du cancer du sein[5], la rétinopathie diabétique[6] ou la classification de lésions cutanées[7]. Une étude publiée dans le JAMA en décembre 2017 est clé de ce point de vue : elle a montré une analyse rétrospective des données issues de 110 patientes ayant des métastases de cancer du sein et 160 un cancer du sein sans métastases, que l’utilisation d’algorithmes de Deep Learning faisait aussi bien que les pathologistes pour la détermination de l’existence de métastase[8].

La capacité à répondre aux exigences spécifiques de l’EBM sont moins facilement remplies pour les IAs qui reposent sur l’élaboration de stratégies thérapeutiques complètes ou prétendent interpréter la littérature médicale, comme c’est le cas par exemple pour les projets tels que Watson.

L’utilisation de l’IA pour trier les patients ou segmenter un groupe de malades est ancienne, notamment dans le secteur des services d’assurance. Elle gagne aussi les équipes hospitalières.


Une étude publiée en 2017 a par exemple évalué l’apport d’une technique de triage des patients informatisée avec une approche d’apprentissage machine[9]. Cette étude a montré que cette orientation des patients basées sur un algorithme électronique était plus performant que le calcul du score ESI qui repose de façon importante sur le jugement du clinicien et dont le calcul est donc sujet à de nombreuses variations.

Les risques de discrimination systémique

La question des risques de discriminations liés à l’utilisation de l’IA a émergé en 2017, suite à une première publication la revue Science[10] qui a montré que l’apprentissage machine classique peut acquérir des biais à partir de données textuelles qui reflètent la culture humaine quotidienne. Cette question a pris une dimension internationale à la fin de l’année 2019, après la publication d’une enquête systématique dans la revue Science du 24 octobre 2019. Cette enquête a montré qu’un des algorithmes de stratification des patients les plus utilisés dans le système de santé américain produit des discriminations massives à l’égard des personnes de couleur[11]. Cet algorithme est commercialisé par une filiale du plus gros assureur santé américain, UnitedHealth Optum. Il vise à définir l’éligibilité à des services personnalisés de santé pour les patients complexes (high risk care management) et repose sur un modèle probabiliste, entrainé par des données de remboursements.

Mettre en évidence ce type de biais n’est pas chose aisée. Les algorithmes déployés à large échelle font le plus souvent l’objet d’un droit de propriété intellectuelle, qui empêche de simuler leurs effets ou de les décortiquer. La meilleure option pour les tester est de reconstituer un contrefactuel externe (dataset de contrôle) et de procéder à des exercices de testing aléatoires. Cela est évidemment rarement réalisé, car peu de personnes ont une incitation objective à assurer de tels contrôles.

Les équipes du Pr Obermeyer à Berkeley se sont attaquées à un modèle de stratification des patients, qui est au cœur de l’allocation des services de gestion du risque (managed care) des assureurs santé américains. Pour tester ce modèle, ils ont collecté 49 710 dossiers médicaux sur une période allant de 2013 à 2015. Ils ont distingué ces dossiers selon la couleur de peau et l’origine des patients, établies sur une base déclarative. L’étude distingue ainsi les personnes noires (6 079), blanches (42 539 patients) et les autres types de patients (ie hispaniques par exemple). Elle compare la classification des patients opérée par l’algorithme d’Optum avec une classification fondée sur une appréciation du risque à partir des données médicales sources de ces patients. Ce contrefactuel est notamment conçu à travers le calcul de scores de comorbidités ou, pour les principales maladies chroniques concernées, l’analyse de biomarqueurs médicaux (ie l’hémoglobyne glyquée pour les patients diabétiques).

Le résultat de l’étude est particulièrement net : au final que seuls 17,7% des patients qui étaient identifiés comme à risque par l’algorithme étaient noirs, alors que la proportion aurait du être quasiment trois fois plus élevée (46,5%) si l’algorithme n’avait pas été biaisé.

Quelques jours après la publication de Science, le Department of Financial Services et l’Etat de New York (NY Department of Health) ont écrit au groupe UnitedHealth pour lui demander des comptes et notamment d’apporter la preuve du respect de la législation fédérale contre les discriminations[12]. Evidemment l’algorithme en question n’a pas été conçu délibérément pour être discriminatoire. A aucun moment, il ne s’appuie sur le critère de la couleur de peau. Il ignore simplement cette dimension dans sa construction et n’a opéré aucune mesure de contrôle de ses effets en la matière.

L’IA est-elle en cause dans ce résultat ? Les biais introduits dans l’algorithme d’Optum n’est pas la conséquence d’un redressement mathématique. Il a toutes les raisons d’être le reflet d’un biais massif existant dans les processus de soins et leur remboursement. L’étude d’Obermeyer est à cet égard intéressante : elle estime qu’à niveau de santé équivalent, les personnes noires reçoivent pour 1801 dollars de soins en moins que les personnes blanches par an.

Il existe deux types d’explication de cette discrimination :


- La première est de nature sociale : elle serait liée aux difficultés d’accès aux soins pour des patients en moyenne plus pauvre, ce qui est sans doute le cas de la population afro-américaine ; on notera toutefois que la population couverte par l’étude exclut par définition celle des personnes ne disposant pas d’assurance sociale ;


- Une deuxième explication porte sur les choix réalisés par les patients eux-mêmes (« taste-based » discrimination), dans le cadre du colloque singulier avec leurs professionnels de santé : ces choix obéissent à de multiples déterminants, qui pour certains tiennent à la projection que les médecins ont de leur patient ; il existe notamment une littérature importante sur les différences de choix des patients afro-américains dans leur traitement, liées à la différence de perception des professionnels sur la tolérance de la douleur, sur leur capacité de financement et sur le niveau d’éducation thérapeutique possible.

Au final, si l’algorithme d’Optum est discriminatoire, c’est vraisemblablement parce que l’ensemble de la société américaine est traversé par des stéréotypes.

Réunir les principes d’une IA de confiance

En réponse à ces études, un effort international visant à définir une éthique de l’IA a conduit à une assez nette convergence autour de six principes, qui forment le cœur d’une IA dite de confiance :


- 1er principe : le maintien du contrôle et de la responsabilité humaine : l’IA doit rester au service d’objectifs assignés par des personnes humaines, sans restreindre ou dévoyer l'autonomie humaine.

- 2ème principe : la robustesse : les algorithmes doivent être suffisamment sûrs, fiables et robustes pour gérer les erreurs ou les incohérences dans toutes les phases du cycle de vie des produits.

- 3ème principe : la maîtrise des données personnelles par les citoyens.

- 4ème principe : la transparence, ce qui impose la traçabilité des opérations, mais aussi potentiellement des démarches visant à assurer l’explicabilité des algorithmes.

- 5ème : La non-discrimination et l’équité : les systèmes d'IA devraient prendre en compte tout l'éventail des capacités, aptitudes et éviter de créer des différences de traitement systématiques qui seraient contraires à nos lois ou à nos valeurs.

- 6ème principe : la contribution au bien-être sociétal et environnemental : les systèmes d'IA doivent être utilisés pour soutenir des évolutions sociales positives et répondre à un objectif de sobriété énergétique.

Un garde-fou contre le risque de discriminations massives liées à l’utilisation d’Intelligences Artificielles est le maintien de la responsabilité finale du praticien utilisateur de la machine. Ce garde-fou, dont la portée pratique mérite d’être interrogée, est en train d’être récemment renforcé dans la législation française.

L’article 10 de la loi du 6 janvier 1978 prévoyait déjà qu’aucune décision produisant des effets juridiques à l’égard d’une personne ne peut être prise sur le seul fondement d’un traitement automatisé des données. L’article 22 du règlement général sur la protection des données indique que « La personne concernée a le droit de ne pas faire l'objet d'une décision fondée exclusivement sur un traitement automatisé, y compris le profilage, produisant des effets juridiques la concernant ou l'affectant de manière significative de façon similaire. »

Le projet de loi bioéthique adopté le 24 juillet 2019 en conseil des ministres propose de préciser son application aux Intelligences Artificielles (IA). Il pose en son article 11 le principe d’une garantie humaine des Intelligences Artificielles en santé. Cette garantie humaine repose sur une obligation d'informer la personne de l’utilisation d'un tel traitement algorithmique. Elle impose l'intervention d’un professionnel du service public pour le paramétrage d'un tel traitement et précise que ce paramétrage peut être modifié par le professionnel de santé. La garantie humaine impose enfin la traçabilité des données utilisées par ces dispositifs et l’accès à ces informations des professionnels de santé concernés.

Elle concerne pour l’instant l’ensemble des « traitements algorithmiques de données massives » embarqués dans des « actes à visée préventive, diagnostique ou thérapeutique ». Mais leur portée va être probablement étendue, car ces règles viennent donner corps à des principes constitutionnels qui concernent tous les services publics (Conseil Constitutionnel n°2018-765 DC du 12 juin 2018[13]).

La portée pratique de cette nouvelle législation pose question : comment mettre le professionnel en situation d’assurer réellement et de façon opérante sa responsabilité à l’égard d’une IA ? Renvoyer sur lui la responsabilité juridique est il une option efficace pour réduire les discriminations.


L’IA de confiance est une question technologique

Derrière ces principes se trouvent un grand nombre d’incertitude et de malentendus. A l’occasion du séminaire organisé à Sciences Po le 10 janvier 2020, plusieurs exemples ont pu en être donnés :

- 1ère idée fausse : « les IAs, dans leur diversité, seraient par nature source d’une régression éthique » : le Comité consultatif national d’éthique a fort justement remis les choses en perspective dans son avis 129 [14], en rappelant que compte tenu des gains pour la santé que peuvent générer le déploiement de certaines IAs (notamment dans le domaine du diagnostic) ne pas y donner accès est en soi une problématique éthique ; le cadre éthique des IAs est ainsi celui de l’Evidence Based Medicine (EBM) en général, balançant des gains pour la santé et des risques, selon la capacité que nous avons à objectiver les uns et les autres conformément aux règles qui rendent la science reproductible ; comme l’a rappelé Jacques Lucas, lors du séminaire « la problématique éthique principale de l’IA en France est qu’il n’y en a pas assez. »

- 2ème idée fausse : « il serait impossible d’assigner des objectifs définitifs à la programmation des IAs sans faire un choix de valeurs, ce qui rendraient les IAs spécifiques aux déterminants culturels de la société dans laquelle elles sont développées » : les objectifs donnés aux algorithmes d’apprentissage supervisé s’inscrivent en effet nécessairement dans un cadre éthique, qui n’est jamais universel et reflète une hiérarchie de valeurs propre à une société donnée ; un champ prometteur des IAs complète ainsi le machine learning en développant des techniques ouvertes d’apprentissage (dites « par renforcement »). Mais ces techniques qui fonctionnent in silico sont peu adaptées au monde réel, dans lequel la masse d’interactions liées à l’environnement devient considérable. La question de l’agrégation des résultats se pose alors de façon redoutable, à moins qu’une véritable interdisciplinarité s’installe dès la conception même des algorithmes ;

- 3ème idée fausse : « les IAs seraient par nature porteuses de biais, générant des risques de discriminations massives » : ce sujet des biais mérite une analyse plus

- approfondie[15], les biais sont le lot commun des décisions de santé et la clinique a développé une série de techniques pour les maitriser[16] ; la discrimination est bien souvent le résultat de leur effet cumulé ; si elle se révèle à travers les IAs, dans des conditions qui rendent leur industrialisation impossible, c’est d’abord parce que les données en vie réelle sont chargées de ces biais. La difficulté que posent les déploiements de l’IAs et qu’ils risquent de rendre ces biais systémiques. Mais cela veut dire également que le développement de l’IA offre une formidable opportunité pour transformer positivement le système de santé en faisant la chasse aux biais en vie réelle. Cet enjeu vient potentiellement « charger » les projets d’IAs d’un lourd fardeau, qu’il faut aborder avec pragmatisme dans le cycle de conception des algorithmes, en créant une fois encore une dynamique interdisciplinaire tels que les proposent les « collèges de garantie humaine ».

- 4ème idée fausse : « L’idée selon laquelle les IAs seraient par nature des boîtes noires » : cela les rendraient non seulement peu explicables, mais aussi extrêmement vulnérables à de petites modifications des données (deepfake). En réalité, ne sont des boîtes noires que certains types d’IA, dites de machine learning, qui ont la particularité de définir des programmes ayant une capacité d'« apprentissage » propre à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. D’autres formes d’IA n’ont pas ces limitations et tout l’enjeu du développement d’IA dites hybrides est justement de préserver l’explicabilité des modèles tout en bénéficiant des capacités exceptionnelles du machine learning. Par ailleurs, un champ de recherche s’est développé qui emprunte des méthodologies issues de la théorie des jeux, des tels que les valeurs de Shapley, pour restituer l’explicabilité des algorithmes. La seule fatalité de la boîte noire des IAs est la même que celle qui, depuis Epicure, freine la capacité de l’intelligence humaine à concevoir un système complet d’explication du monde.

Il est frappant de constater que ces faux débats sur l’encadrement de l’IA entrent en résonance avec les faux débats qui rendent de plus en plus délicate l’application des principes de l’EBM. La crise de la reproductibilité est notamment le fil conducteur qui relie l’un à l’autre. Depuis les travaux fondateurs de J Ioannidis en 2005[17], une prise de conscience est à l’oeuvre que les conditions de réalisation des recherches médicales rendent systématiquement improbable l'atteinte d'un taux de validité des résultats de 100 % dans la littérature publiée. Une étude réalisée auprès de 1 500 scientifiques et publiée par Nature en 2016[18], a montré que plus de 70 % des chercheurs affirment avoir été incapables de reproduire l'expérience scientifique d'un autre chercheur et plus de la moitié affirment avoir échoué à reproduire leur propre expérience. Cette « tragédie des erreurs »[19] a des causes multiples :

- la complexification croissante de la recherche biomédicale, avec l’augmentation trop rapide du nombre de traitements voulant prétendre au stade du développement clinique[20]

- la non-publication des recherches inabouties,

- la puissance des liens d’intérêts

- l’opacité dans l’accès aux données sources.


De ce point de vue, la crise de reproductibilité des IA, qui fait aujourd’hui l’objet d’une prise de conscience mondiale[21], est le reflet d’une problématique plus ancienne, qui impose de repenser de conserve la capacité à développer une intelligence collective autour de la recherche clinique, les conditions d’avancement de l’EBM et le déplacement de la frontière technologique. Etienne Grass

[1] L’OMS a lancé en 2018 une consultation internationale sur les enjeux éthiques de l’IA en santé : https://www.who.int/ethics/publications/big-data-artificial-intelligence-report/en/ [2] Depuis le forum de Haut niveau organisé par l’UNESCO sur le sujet en 2018, l’organisation s’est investie de la responsabilité de préparer une convention internationale sur le sujet de l’éthique des IA https://en.unesco.org/artificial-intelligence/africa-forum [3] La Commission européenne a initié en 2018 une réflexion au sein du High Level Expert Group on Artificial Intelligence qui a conduit à la publication de principes éthiques en avril 2019, lesquels viennent endosser par la Commission européenne le 19 février 2020 : European Commission, White paper on « Artificial Intelligence - A European approach to excellence and trust », 19 février 2020 : https://ec.europa.eu/futurium/en/ai-alliance-consultation/guidelines#Top [4] L’IA a été définie en 1956, à l’occasion de la conférence organisée à l’université américaine de Darmouth autour de chercheurs en sciences cognitives, par le scientifique M. Minsky comme « la science qui consiste à faire faire aux machines ce que l’homme ferait moyennant une certaine intelligence ». Selon la Commission de réflexion sur l'éthique de la recherche en sciences et technologies du numérique, l’apprentissage machine repose sur « une approche statistique permettant de découvrir des corrélations significatives dans une masse importante de données pour construire un modèle prédictif quand il est difficile de construire un modèle explicatif ». Rapport « Éthique de la recherche en apprentissage machine », juin 2017 [5] Wang J, Yang X, Cai H, et al. Discrimination of Breast Cancer with Microcalcifications on Mammography by Deep Learning. Sci Rep 2016;6:27327. [6] Gulshan V, Peng L, Coram M, et al. Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs. JAMA 2016;316(22):2402-10. [7] Esteva A, Kuprel B, Novoa RA, et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017;542(7639):115-18 [8] Bejnordi BE, Veta M, van Diest PJ, et al. Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer. JAMA 2017;318(22):2199-210. [9] Cette étude a consisté en une analyse rétrospective des données de près de 173000 adultes ayant consultés aux urgences. Le score de référence était le ESI, ou indice de sévérité aux urgences. Le triage électronique est composé d'un modèle de forêt aléatoire appliqué aux données de triage des patients (signes vitaux, plainte principale et antécédents médicaux) qui prédit le besoin de soins intensifs, d'une procédure d'urgence et d'une hospitalisation en parallèle et classifie le patient en niveau de risque. Levin S, Toerper M, Hamrock E, et al. Machine-Learning-Based Electronic Triage More Accurately Differentiates Patients With Respect to Clinical Outcomes Compared With the Emergency Severity Index. Ann Emerg Med 2017. [10] Caliskan A, Bryson JJ, Narayanan A. Semantics derived automatically from language corpora contain human-like biases. Science 2017;356(6334):183-86. [11] Obermeyer, Z., Powers, B., Vogeli, C. & Mullainathan, S. Science 336, 447–453 (2019). [12] Le récit en est fait dans le Wall Street Journal : https://www.wsj.com/articles/new-york-regulator-probes-unitedhealth-algorithm-for-racial-bias-11572087601 [13] Le Conseil Constitutionnel a alors jugé que ne peuvent être utilisés, comme fondement exclusif de cette décision, des algorithmes « susceptibles de réviser eux-mêmes les règles qu’ils appliquent, sans le contrôle et la validation du responsable du traitement ». [14] Avis rappelé par le Dr Jacques Lucas lors du séminaire : CCNE, Avis 129 « Contribution du Comité consultatif national d’éthique à la révision de la loi de bioéthique 2018-2019 », 2019 https://www.ccne-ethique.fr/sites/default/files/publications/avis_130.pdf [15] Comme Henri Bergeron l’a fait remarqué lors du séminaire, les Sciences politiques doivent également se saisir de cet objet qui est devenu central dans les sciences économiques [16] Comme c’est particulièrement le cas pour les biais d’ancrage, la fermeture prématurée [17] John P. A. Ioannidis, « Why Most Published Research Findings Are False », PLoS Medicine, vol. 2, no 8,‎ 1er août 2005, e124 [18] Monya Baker, « 1 500 scientists lift the lid on reproducibility, Nature, vol 533, 26 mai 2016 https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970 [19] David B. Allison,Andrew W. Brown,Brandon J. George,Kathryn A. Kaiser, « A tragedy of errors », Nature Comments, 3 fév 2016 [20] Au cours des dernières années, le monde médical a été envahi par de nombreuses publications pré-cliniques non reproductibles [21] Cet enjeu a été le sujet central des deux dernières conférences NeurIPS en 2018 et 2019. Le discours inaugural de la conférence 2018 prononcé par Joelle Pineau est une référence : https://www.youtube.com/watch?v=Vh4H0gOwdIg

Comments


Post: Blog2_Post
  • Facebook
  • Twitter
  • LinkedIn

©2020 par AI for Citizen. Créé avec Wix.com

bottom of page