[ in - for - ma - tion ] <i> P E R S O N N E S</i>: <br />Ciel, l'ordinateur m'a reconnu !<br />Les notions d'« identification » et d'« identifiabilité

Chronique du 4 octobre 2007

Au programme de l'émission Citoyen numérique du 4 octobre 2007, il a été question d'anonymat et d'utilisation de pseudonymes dans la blogosphère avec l'affaire Élodie Gagnon-Martin, des jeunes douaniers ayant révélé leur immaturité sur Facebook, et du documentaire de Paul Arcand (Québec sur ordonnances) qui rappelle que les compagnies pharmaceutiques ont accès au profil de prescription des médecins québécois, mais sans information sur les patients individuels. La présente chronique prendre la suite pour expliquer qu'est-ce qui fait qu'un paquet d'informations permet ou non de nous identifier et de nous faire reconnaitre ou non.

La question à savoir si un ensemble d'informations nous concernant en tant qu'individu permet ou non de nous identifier et, si oui, de nous identifier avec quelle précision est en effet essentielle dans plein de situations courantes. Par exemple, lors d'élections, on souhaite et exige que les citoyens qui désirent exercer leur droit de vote s'identifient auprès des scrutateurs avant que ceux-ci leur remettent un bulletin de vote. Mais inversement, on tient aussi absolument à que le bulletin de vote ne révèle absolument pas pour qui les citoyens ont voté.

Il y a donc des moments où on exige que l'identification des personnes soit très forte (par exemple, lors de contrôle d'identité aux frontières, de transactions bancaires) ; d'autres moments où on exige qu'il n'y a pas d'identification possible (participation à un vote, à un sondage, à une recherche scientifique) ; et d'autres moments où les contraintes d'identification peuvent être très variables, et même laissées carrément à la discrétion de chacun (souvent le cas sur internet pour la visite de sites Web, la tenue de blogues ou la participation à des forums de discussion, à des jeux en ligne ou à des espaces de rencontre comme Second Life).

Chaque fois que des êtres humains interagissent à travers des moyens d'information ou de communications la question de l'identification se pose donc. Il importe peu ici que l'interaction s'effectue face à face (avec le douanier, le médecin ou l'enseignant qui vous fait passer un examen) ou à distance par la poste, par téléphone, internet ou réseau privé de guichets automatiques. Partout où des citoyens produisent ou échangent des informations, ces dernières peuvent les identifier plus ou moins.

Malheureusement, une grande confusion règne souvent dans l'esprit de biens des gens relativement à ce qui fait qu'un ensemble d'informations parle ou non au sujet d'un individu. On tend à amalgamer la présence ou non d'identifiants dans un paquet d'informations (par exemple, la présence des nom et prénom ou encore d'un numéro d'identification) avec le fait que la personne est identifiée ou non. Cette confusion est non seulement courante chez les simples citoyens, mais également chez beaucoup de spécialistes, comme les informaticiens, les juristes, les concepteurs de site Web et les responsables de la sécurité.

Ainsi, plusieurs pensent que si ces informations incluent le nom ou le numéro d'identification d'une personne, on sait alors de qui ces informations parlent. Ce n'est pas nécessairement le cas. Présentement, il peut y avoir plein de Marie Tremblay ou de Pierre Nguyen dans le bottin téléphonique. Et peut être que, par exemple, certains se sont fait injustement bloquer à l'embarquement pour un vol à l'étranger parce qu'on les confondait avec une autre Marie Tremblay ou un autre Pierre Nguyen.

Inversément, plusieurs pensent que si un paquet d'informations à notre sujet ou encore une communication ou une transaction que nous faisons est « anonyme », nous ne pouvons pas être identifié. Or ici aussi, c'est encore loin d'être nécessairement le cas. Régulièrement, on rapporte que des journalistes citoyens, de dissidents politiques, de criminels ou de prédateurs pédophiles qui ont pu être retracés à partir de leurs activités sur internet malgré qu'ils le faisaient anonymement.

Il faut donc distinguer entre la présence ou non de noms, de numéro d'identification et autres identifiants dans un ensemble d'informations, d'une part, et le fait que cet ensemble d'informations identifie ou non une personne, d'autre part. Ce sont deux réalités très différentes. La première touche aux marques « d'identification », c'est-à-dire à l'usage ou non d'identifiants. La seconde à « l'identifiabilité », c'est-à-dire à dans quelle mesure on peut relier ou non un ensemble d'informations à un individu reconnaissable (ou encore à plusieurs individus ou un ou plusieurs groupes d'individus reconnaissables). Donc, identification d'un côté contre identifiabilité de l'autre.

Quatre modes d'identification
Il existe quatre manières d'utiliser des identifiants. Ou en d'autres mots, quatre modes ou quatre marques d'identification. Un ensemble d'informations peut être : anonyme, éponyme, pseudonyme ou synonyme.

La première catégorie correspond à la situation la plus simple : l'ensemble d'informations anonyme. Il s'agit d'un paquet d'informations qui ne comprend aucun identifiant, c'est-à-dire aucune dénomination attribuée spécifiquement à une personne. Pas de nom ou prénom, pas de surnom, pas de numéro d'identification, pas de nom d'usager. Rien. Ce peut être le cas de la réponse à un sondage d'opinion effectué au téléphone ou sur la rue. C'est le cas du bulletin de vote qui ne contient aucune information d'identification sur le voteur.

Mais le bulletin de vote en comprend des identifiants pour chacun des candidats qui sont clairement identifiés et identifiables ! Dans le cas des candidats inscrits sur le bulletin de vote, les informations sont « éponymes ». Le bulletin de vote affiche des identifiants tels les nom et prénom de chacun des candidats, et ces identifiants sont les mêmes par lesquels ils sont connus ou veulent se faire connaitre. C'est ce caractère identique qui fait qu'on qualifie cette identification d'« éponyme » (terme qui signifie Qui porte le même nom) . Un peu comme lorsqu'on dit que Céline Dion a sorti un disque éponyme, c'est-à-dire dont le titre est tout simplement son propre nom, soit « Céline Dion ». La grande majorité des dossiers nous concernant sont donc éponymes : notre bulletin scolaire est à notre nom, comme nos cartes de crédit, la plupart de nos factures, dossiers clients, dossiers d'employés, dossiers d'impôt sur le revenu, etc.

Ensuite, il y a l'emploi de pseudonymes. Typiquement, un pseudonyme sert à remplacer ou masquer un éponyme. Ainsi, Dominique Michel est le nom d'artiste d'Aimée Sylvestre, et Benoit XVI, le nom de pape de Joseph Ratzinger. Autrefois, les pseudonymes étaient utilisés surtout par des personnes oeuvrant sur la place publique ou dans la clandestinité. Aujourd'hui, avec l'informatisation, tout un chacun utilise des « pseudos » comme noms d'usager dans des systèmes informatiques ou de courriel ou noms de participant à des jeux, forums ou lieux de rencontre en ligne.

Enfin, il y a le mode synonyme d'identification, beaucoup favorisé aussi par l'informatisation. Il y a synonymie lorsque la personne est identifiée par un identifiant non pas attribué à elle, mais à une autre personne, ou même à un objet. L'exemple le plus quotidien est celui de l'afficheur téléphonique. Un numéro de téléphone s'affiche sur l'écran et nous arrivons à déduire qu'il s'agit d'Untel qui appelle. C'est le numéro de téléphone d'où part l'appel qui identifie la personne. Ou encore, le nom qui s'affiche n'est pas du tout le nom de l'appelant, mais le nom de l'individu ou de l'entreprise inscrit à la compagnie de téléphone. Je sais donc que si le nom X s'affiche, c'est en fait Unetelle qui appelle parce qu'elle est une coloc, une employée, une parente ou une visiteuse de X. Le numéro de téléphone cellulaire est souvent un synonyme encore plus sûr. De même sur Internet, l'adresse IP d'un ordinateur individuel, et même mieux l'adresse IP plus des numéros de « cookies » ou témoins de connexion enregistrés dans cette même machine peut constituer ensemble un synonyme d'un utilisateur humain particulier.

Ainsi, nous avons quatre modes d'identification : anonyme (pas d'identification), éponyme (identifiant propre à la personne), pseudonyme (identifiant remplaçant l'identifiant propre à la personne) et synonyme (identifiant propre à une autre personne ou encore à un objet). On remarque que l'informatisation a non seulement multiplié la production d'informations éponymes à notre sujet (les dossiers sous notre propre nom ou sous l'un de nos numéros d'identification), mais a aussi étendu l'usage des modes d'identification anonyme, pseudonyme et synonyme qui sont désormais couramment utilisés sur internet.

Les degrés d'identifiabilité

L'identifiabilité n'est pas la présence ou non d'identifiants. L'identifiabilité c'est plutôt la capacité d'un ensemble d'informations de pouvoir parler ou pas d'un individu précis, déterminé, bref identifiable.

L'individu dont il est question peut être identifiable sans recours à un identifiant. Il suffit que les informations fournies donnent juste assez de détails pour distinguer cet individu parmi tous les autres. Et parfois, cela n'en prend pas beaucoup.

Par exemple. Si je vous dis : un personnage politique, ayant perdu une jambe, à cause de la bactérie mangeuse de chair. De nombreux Québécois et Canadiens reconnaitront aussitôt que je parle ici de Lucien Bouchard. Pourtant, je n'ai pas dit son nom. Je n'ai pas mentionné son sexe, sa nationalité, quand il a vécu dans l'Histoire. Juste avec trois éléments discriminants (politique, jambe perdue, bactérie mangeuse de chair), vous avez pu distinguer cet être humain de tous les autres qui ont vécu sur la planète.

C'est ce qu'on appelle l'identifiabilité objective qui est lié à un calcul de probabilités. C'est purement mathématique. Prenons par exemple le vote aux élections. Il est généralement impossible de savoir pour qui j'ai voté parce que mon bulletin de vote est mélangé à plusieurs dizaines d'autres dans la boite de scrutin. Probabilités d'identification : proche de 0 %. Par contre, imaginons que je suis la seule personne inscrite qui a voté à cette boite. Bien, il est évident qu'une fois publiés les résultats de cette boite, toute la planète aura la capacité de savoir pour qui, moi, j'ai voté. Probabilités d'identification : 100 %. Adieu donc la confidentialité du vote même s'il est anonyme. Inversement, supposons qu'il y a 100 personnes qui ont voté dans cette boite et qu'elles ont toutes voté pour le même candidat. Encore là, probabilités d'identification : 100 %. Et de nouveau adieu la confidentialité du vote anonyme de ces 100 personnes, car encore une fois toute la planète sera en mesure de savoir pour qui chacune d'elles a voté.

Donc, une personne devient identifiable, pas nécessairement parce que les informations incluent un identifiant de la personne, mais parce qu'il y a suffisamment d'informations qui permettent de la distinguer, de la reconnaitre parmi toutes les autres formant une population donnée.

Inversément, il possible que malgré la présence d'identifiants, la personne ne soit pas identifiable ? Cela arrive plus souvent qu'on le pense. C'est notamment le cas des homonymes. Comme nous l'avons souligné tantôt, il peut y avoir plusieurs Marie Tremblay dans une même école, une même entreprise, dans un même bottin téléphonique régional, avec tous les désagréments que cela peut causer, y compris de très graves comme de nombreux cas aux États-Unis d'arrestations et incarcérations de la mauvaise personne, et parfois même de blessures et morts par balle tirée par la police. Une tactique électorale déloyale parfois utilisée est de faire inscrire comme candidat, et donc sur le bulletin de votre, une personne qui porte les mêmes nom et prénom qu'un adversaire afin de diviser son vote et favoriser ainsi son propre candidat.

Un autre exemple. Supposons que je trouve sur le trottoir un papier avec seulement ces mots : « Paul Martin ». Clairement, ce sont des identifiants. Mais de qui ? Impossible de le savoir. Car il n'y a aucune indication que ces deux mots soient un nom et un prénom, ou à l'inverse un prénom et un nom. Ou encore deux noms de famille ou deux prénoms. Et même en admettant qu'il s'agit d'un prénom et d'un nom, ces mots décrivent lequel des Paul Martin parmi les centaines qu'on retrouve dans les bottins téléphoniques et ceux qui ne sont pas inscrits dans un bottin, sans compter ceux qui sont décédés ? On constate donc que la présence d'identifiant est loin de garantir l'identifiabilité de la personne décrite dans un ensemble d'informations.

Voilà pour l'identifiabilité objective, celle qui est liée à la probabilité de reconnaitre une personne précise selon la quantité et la qualité des détails fournies à son sujet.

Or, il existe aussi une autre forme identifiabilité, dite subjective, parce qu'elle ne dépend pas du paquet d'informations lui-même, mais de la connaissance personnelle que possèdent un ou des êtres humains. Un exemple simple est celui du médecin enseignant qui présente à son élève un cas de patient. Il peut présenter le cas en terme si vague qu'il est pratiquement impossible de repérer de qui il parle exactement. Probabilités d'identification : proche de 0 %. Cependant, ce médecin connait personnellement ce patient. Connaissance : 100 %. Ainsi il faut considérer, non seulement le niveau de détail ou de vague d'un paquet d'informations, mais aussi l'éventuelle connaissance personnelle des êtres humains qui manient ou utilisent ces informations.

Tout plein d'implications pratiques

Nous avons vu ensemble maintenant les notions d'identification (anonyme, éponyme, pseudonyme et synonyme) et d'identifiabilité (objective et subjective), ainsi que la différence entre les deux. Les citoyens vivant dans une société de l'information doivent en avoir compréhension au moins sommaire. Ce savoir ne permet pas seulement de comprendre à quel point les traces d'informations que nous laissons autour de nous peuvent être très « parlantes » à notre sujet. Il offre un point de vue très pratique sur de nombreux problèmes. Ne serait-ce que découvrir l'intérêt d'ajouter une initiale ou un second prénom à notre nom si ce dernier trop commun avant qu'un de nos homonymes ne fasse soudain partie de la liste de criminels les plus recherchés. Ou encore, savoir utiliser judicieusement les pseudonymes et la discrétion sur les détails personnels de manière à ne pas dévoiler imprudemment ou prématurément notre identité, par exemple sur un forum de discussion ou un espace de rencontre.

Ces notions ont aussi une application juridique. Légalement, un paquet d'informations sera soumis à des lois très différentes selon qu'il porte sur une personne identifiable ou non. Cela veut dire des obligations très différentes pour ceux qui détiennent ou utilisent ce paquet d'information et des droits très différents pour ceux sur qui portent ces informations.

Grosso modo, on est en pratique libre de faire à peu près ce que l'on veut avec des informations personnelles qui n'identifient pas un individu particulier (sous réserve du droit de propriété intellectuelle). Par contre, diverses lois énoncent de nombreuses restrictions à partir du moment que ces informations sont associées à un individu identifiable, d'autant plus que cet individu acquiert alors des droits sur ces informations (droit de connaitre l'existence de ces informations, droit d'y accéder, droit de les faire corriger, droit d'en limiter plus ou moins l'utilisation). Concrètement, cela veut dire que nos carnets d'adresses personnels, le contenu de nos courriels personnels, les interventions et commentaires signés ou très détaillés sur notre blogue sont techniquement soumis aux exigences lois de protection des renseignements personnels. Et qu'inversement, nous avons des droits sur les entrées de carnets d'adresses et les courriels personnels nous concernant que détiennent tout autant nos amis et nos proches que les entreprises et les organismes publics.

En conséquence, on peut apprendre à modifier un ensemble d'information pour en faciliter l'utilisation ou la circulation. Prenons le cas du dossier médical. Ce dossier parle à la fois d'un patient identifié (sa condition physique et mentale) et d'un médecin identifié (ses observations, les tests commandés, ses diagnostics, les traitements prescrits). Il est donc difficile de faire circuler ce type d'informations tout en respectant le secret médical. Cependant, on peut très bien produire à partir de plusieurs dossiers médicaux un profil des habitudes de prescription d'un médecin identifié à l'égard de la totalité de sa clientèle. Le médecin est donc clairement identifié, mais aucun de ses patients individuels. C'est le type de profils constitués par les courtiers en informations mentionnés dans le (documentaire de Paul Arcand). De même, on peut interdire de vendre des profils individuels de médecins sans leur consentement aussi. Cela n'empêche cependant pas de constituer des profils collectifs par clinique médicale, par quartier ou ville. Statistique Canada elle-même vend des profils démographiques ou de consommation de la population par bouts de rue ou pâtés de maisons. Même s'il n'identifie aucun individu, ce genre de profils est très utile autant pour les organismes publics (planification de l'offre de services publics), les commerçants (campagnes de publicité, ouverture de magasins) ou les chercheurs (études sur les conditions et habitudes de vie, sur les opinions).

Une autre considération pratique est liée aux problèmes croissants d'usurpation d'identité et de fraudes. Il serait grand temps que tout le monde cesse d'utiliser toujours les mêmes identifiants (nom, prénom, adresse, date de naissance, numéro de téléphone). Il existe plein de solutions disponibles qui recourent, soit à des pseudonymes, soit à des détails additionnels personnels discriminants (comme des questions comme « Quel est le nom de votre animal favori ? ») qui réduiraient considérablement l'usurpation d'identité.

De même, l'emploi de pseudonymes pourrait servir à augmenter considérablement la sécurité des accès aux immeubles et aux frontières ou encore la sécurité des transactions bancaires par carte de paiement ou par internet sans pour autant accroitre le poids de la surveillance sur les vies individuelles. La technologie peut alors concilier sécurité et liberté. Par exemple, l'introduction d'un microprocesseur dans une carte de paiement permet diverses solutions, comme celle de confirmer à la banque et au commerçant l'identité du détenteur de carte et la disponibilité de fonds suffisants par la production d'un pseudonyme unique à cette transaction. On obtient ainsi une très haute sécurité puisqu'il n'y a pas de nom ou de numéro de carte qu'un criminel pourrait s'approprier pour utiliser le compte du client à son insu. En outre, on interdit aussi à la banque et au marchand de suivre à la trace toutes les transactions du client, et donc le détail de sa vie quotidienne. Car, ce n'est plus un même Pierre Nguyen qu'on peut suivre à la trace, mais qu'une suite de transactions identifiés comme ABCD ici, puis 1234 là, puis D1E2 à un endroit, et ainsi de suite.

Dans un monde numérique, dans une société de l'information, la manière dont on s'identifie individuellement et la capacité d'un ensemble d'information d'identifier un individu peut avoir diverses conséquences. Car c'est sur la base de ces informations que les organisations et les individus interagissent ou non directement entre eux, établissent des relations directes ou indirectes entre eux, interviennent ou non directement entre eux. Or, l'informatique permet de transformer aisément des informations personnelles en informations non personnelles et vice-versa. Elle permet aussi de jouer avec différents modes d'identication et d'identifiabilité. Il faut cependant connaitre ces possibilités, si on veut identifier, choisir et exploiter celles qui seraient les plus appropriés dans les circonstances.

L'exercice du mois.

Pour intégrer les notions d'identification et d'identifiabilité, je vous suggère de faire un petit exercice simple durant le mois qui vient.

Il s'agit, chaque fois que vous faites une expérience de vie entre les lignes d'une facture, d'un dossier, d'un courriel, d'un formulaire, d'une communication, d'un site web visité ou autre, de vérifier :

s'il y a présence ou non d'identifiants ;

s'il y a identifiants, à propos de qui ;

s'il y a identifiants, de quels types (éponyme, pseudonyme ou synonyme) ;

si ces lignes permettent plus ou moins facilement de vous identifier, vous ou une autre personne ; puis

s'il existe quelqu'un qui pourrait quand même vous identifier

Si vous avez besoin de rafraichir vos connaissances sur les notions d'identification et d'identifiabilité, revenez à cette page. Et si vous avez des questions ou un cas intéressant, n'hésitez pas à m'écrire un commentaire.

Libellés : Enseignement, Identification/identifiabilité, Informations personnelles, Vulgarisation

[ in - for - ma - tion ] P E R S O N N E S

Qui suis-je

The English site

Carnet de vulgarisation

Microblogue

Site d'écrits personnels

À propos

Quoi de neuf

Plan du site

Ciel, l'ordinateur m'a reconnu !
Les notions d'« identification » et d'« identifiabilité » des personnes

0 Commentaires :