L’intelligence artificielle (IA) est une avancée technologique exceptionnelle, mais son évolution ne doit pas se faire au détriment de la protection des données personnelles, une préoccupation centrale de l’ère digitale. Dans cette quête pour concilier innovation avec protection de la vie privée, la Commission nationale de l’Informatique et des Libertés (CNIL) établit un parcours balisé. Trafic d’Influence vous explique comment créer des modèles d’IA respectueux du RGPD, en explorant les directives émises par la CNIL.
Modèles d’IA et conformité RGPD : les dessous de cette décision
Pour créer ses sept fiches pratiques, la CNIL a pris l’initiative d’organiser des rencontres avec divers acteurs du secteur, aussi bien issus du public ou privé, afin de recueillir leurs avis, préoccupations et interrogations concernant la création de bases de données destinées à l’apprentissage des systèmes d’IA.
De plus, dans le cadre de ce processus, la CNIL a lancé un appel à contributions le 27 juillet 2023 pour enrichir sa réflexion, et une synthèse des réponses reçues a été publiée. Cette démarche a suscité l’intérêt de huit entités, parmi lesquelles des entreprises privées, un institut de recherche, un syndicat professionnel de salariés et un particulier.
Ces efforts visent à promouvoir une utilisation responsable de l’intelligence artificielle (IA) tout en garantissant la conformité au Règlement général sur la protection des données (RGPD).
Les 7 fiches de la CNIL pour la conception de modèles d’IA respectueux de la vie privée
La CNIL a donc élaboré 7 fiches pratiques pour définir des directives claires concernant le traitement des données personnelles pendant la phase de développement des systèmes d’IA.
L’Introduction
La CNIL a délibérément choisi de se focaliser sur le commencement du parcours des intelligences artificielles. Autrement dit, elle met l’accent sur leur création et leur phase d’apprentissage. Les étapes ultérieures, où ces Intelligences Artificielles sont utilisées, ajustées et maintenues, de même que la création de bases de données servant à les former, que ce soit pendant leur conception ou leur utilisation, sont laissées de côté, pour autant que des données personnelles ne soient pas impliquées.
De plus, les fiches pratiques ne traitent pas des opérations liées à l’arrêt d’un système d’IA ou à la suppression des données personnelles qu’il contient. Ces opérations doivent néanmoins respecter le principe de conservation limitée des données, qui prévoit que les données ne doivent pas être conservées indéfiniment.
En ce qui concerne la portée de ces recommandations, elles se concentrent sur deux principaux types d’IA :
- Les systèmes d’apprentissage automatique, qui apprennent à partir de données ;
- Les systèmes déterministes, qui ne reposent pas sur l’apprentissage statistique, mais s’appuient sur la logique et les connaissances. Par exemple, cela inclut les moteurs d’inférence et de déduction, ainsi que les systèmes experts.
Enfin, ces recommandations en consultation s’appliquent exclusivement aux systèmes d’IA relevant du RGPD. En général, cela concerne les IA développées dans le cadre de la recherche scientifique, du développement, de la personnalisation de produits commerciaux ou de l’amélioration des services publics. En revanche, les traitements de données effectués lors de la phase de développement d’une IA soumise à la Directive 2016/680 du 27 avril 2016, ainsi que ceux liés à la sécurité nationale et à la défense, ne sont pas couverts par ces recommandations.
Le régime juridique
Cette première fiche vise à apporter des éclaircissements sur la manière de déterminer le cadre légal applicable lors de la phase de développement de l’IA, incluant le RGPD, la Directive LED, ainsi que les questions liées à la sécurité nationale et à la défense nationale.
La finalité du traitement
La 2e fiche propose des directives pratiques pour déterminer clairement les objectifs du traitement, en prenant en considération les particularités du développement des systèmes d’IA.
Elle aborde les défis auxquels les développeurs de solutions d’IA peuvent être confrontés lorsque l’utilisation opérationnelle future de l’outil n’est pas encore définie de manière explicite à l’étape de développement.
Dans de telles situations, il est toujours possible de respecter l’obligation de définir des objectifs précis pour chaque traitement de données personnelles, à condition que ces objectifs renvoient de manière cumulative au “type” de système en cours de développement (qu’il s’agisse, par exemple, d’une IA générative d’images ou de sons, d’un système de “vision par ordinateur”, etc.) ainsi qu’aux caractéristiques et aux capacités techniques prévisibles.
Des exceptions à ce principe sont envisageables dans le cadre de projets de recherche scientifique, sous certaines conditions.
La qualification juridique
Cette 3e fiche explique qu’il est essentiel, pour tout fournisseur de systèmes d’IA impliquant le traitement de données personnelles, de déterminer s’il agit en tant que responsable du traitement, co-responsable du traitement ou sous-traitant, selon les termes du RGPD. Cette classification détermine les obligations qui incombent à chaque partie.
La CNIL propose des exemples concrets pour illustrer les relations entre les parties impliquées et la qualification qui devrait être attribuée à chacune.
Par exemple :
Le fournisseur d’un agent conversationnel qui entraîne son modèle de langage (tel un “Large Language Model” ou LLM) à partir de données accessibles au public sur Internet est considéré comme un responsable du traitement. En effet, il décide à la fois de l’objectif (former un système d’IA) et des moyens essentiels du traitement (sélection des données à réutiliser). Dans ce cas, l’entité publique ou privée qui met à disposition en ligne les données réutilisées par le fournisseur est également considérée comme un responsable du traitement, de manière distincte du fournisseur.
Les hôpitaux universitaires développant un système d’IA pour analyser des données d’imagerie médicale, et qui choisissent d’utiliser le même protocole d’apprentissage fédéré, sont considérés comme des co-responsables du traitement. Ensemble, ils déterminent l’objectif (former un système d’IA pour l’imagerie médicale) et les moyens de ce traitement (par le choix du protocole et la détermination des données exploitées).
Un fournisseur de systèmes d’IA qui développe un tel système au nom d’un de ses clients, dans le cadre d’un service, est qualifié de sous-traitant.
La base légale du traitement
Tout traitement de données personnelles ne peut être considéré comme légal que s’il repose sur l’une des six “bases légales” prévues par le RGPD stipule la 4e fiche. Selon la CNIL, en ce qui concerne la création d’une base de données de données personnelles destinée à la formation d’un algorithme basé sur l’IA, plusieurs fondements légaux peuvent être envisagés : le consentement des personnes concernées, l’intérêt légitime, la mission d’intérêt public et l’exécution d’un contrat.
Bien que la CNIL n’exclue pas explicitement la possibilité de se conformer à une obligation légale ou de protéger des intérêts vitaux en tant que motifs légaux de traitement, elle ne fournit pas de directives spécifiques à cet égard. La fiche détaille les conditions dans lesquelles chacun de ces fondements légaux peut être considéré comme approprié et précise les vérifications supplémentaires à effectuer en cas de réutilisation des données.
Plus précisément, la CNIL indique que la réutilisation des données, notamment lorsqu’elles sont accessibles au public sur Internet, peut être justifiée conformément aux règles énoncées par le RGPD en matière de recherche et d’innovation. Cependant, les entreprises souhaitant réutiliser ces données pour alimenter leurs algorithmes d’apprentissage doivent s’assurer qu’elles n’ont pas été collectées de manière manifestement illégale.
L’analyse d’impact sur la protection des données (AIPD)
La 5e fiche explique qu’une Analyse d’Impact sur la Protection des Données (AIPD) doit être réalisée avant la mise en œuvre de tout traitement présentant un risque élevé pour les droits et les libertés des personnes concernées.
La CNIL spécifie dans quelles situations les acteurs de l’IA sont susceptibles d’être soumis à cette obligation, en prenant en compte les risques spécifiques liés au développement d’outils d’IA.
Pour déterminer si une AIPD est nécessaire pour le traitement des données basé sur l’IA, il est essentiel de :
1) Consulter la liste établie par la CNIL des opérations de traitement pour lesquelles une AIPD est toujours requise. Certaines de ces opérations peuvent être liées à des systèmes d’IA, telles que celles impliquant un profilage ou une prise de décision automatisée : dans ce cas, une AIPD est obligatoire.
2) Si le traitement envisagé ne figure pas sur cette liste, procéder au test des 9 critères établi par le Comité européen de la protection des données (CEPD). Selon ce test, toute opération de traitement répondant à au moins deux des critères sera soumise à l’obligation de réaliser une AIPD.
Selon la CNIL, les critères suivants sont généralement pertinents pour la phase de développement d’un système d’IA :
- La collecte de données sensibles ou de données de nature très personnelle (par exemple, données de localisation ou données financières) ;
- La collecte à grande échelle de données personnelles ;
- La collecte de données provenant de personnes vulnérables, telles que les mineurs ;
- Le recoupement ou la combinaison de jeux de données ;
- L’utilisation innovante ou l’application de nouvelles solutions technologiques ou organisationnelles.
Conception du système, collecte et gestion des données
Ces 2 fiches fournissent un aperçu détaillé des étapes recommandées pour tout développeur d’un algorithme d’IA qui traite des données personnelles, que ce soit lors de la phase de conception initiale du système ou tout au long de la phase de développement.
Ces recommandations sont très pratiques et incluent des actions concrètes telles que réaliser une analyse technique de l’état actuel de la technologie, mener des études pilotes, consulter un comité d’éthique, et utiliser des techniques d’ablation des données d’entraînement, entre autres. Elles sont formulées en tenant compte des principaux principes de protection des données énoncés dans le RGPD, tels que la minimisation des données, les durées de conservation et la sécurité.
La CNIL souligne la possibilité de déroger aux règles de conservation des données, qui doivent normalement être limitées dans le temps, dans le cas où une conservation à long terme s’avère nécessaire aux fins du traitement d’IA.
Lors de la consultation publique lancée par la CNIL sur ces nouvelles recommandations, on peut s’attendre à recevoir de nombreuses contributions de la part des acteurs de l’IA. De plus amples clarifications concernant l’application du RGPD aux systèmes d’IA devraient être fournies à l’avenir.
Le modèle de documentation-type
Fourni en annexe.
En conclusion
Les fiches pratiques de la CNIL jouent un rôle essentiel en guidant les acteurs de l’écosystème de l’intelligence artificielle dans leur démarche de se conformer à la législation sur la protection des données personnelles :
Elles proposent des solutions concrètes, illustrées par des exemples concrets, pour surmonter les défis d’ordre juridique et technique liés à l’application du RGPD à l’intelligence artificielle.
Elles apportent des réponses claires aux interrogations concernant la mise en pratique des principes de finalité, de minimisation et de durée de conservation des bases de données d’apprentissage.
De surcroît, elles éclaircissent les règles régissant la recherche scientifique et la réutilisation des bases de données, constituant ainsi une ressource inestimable pour une utilisation responsable de l’intelligence artificielle.
Sources de cet article :
How to develop an AI system in compliance with the GDPR: the CNIL publishes its first practical guidelines – lexology.com
Intelligence artificielle : la CNIL ouvre une consultation sur la constitution de bases de données d’apprentissage – cnil.fr