Beyond Personal Information: A Path to Protect Canadians Against Digital Harms

Christelle Tessono

le français suit

 

Introduction

In late February, the Canadian government banned TikTok from government mobile devices, following a review from the Chief Information of Canada which found that the application presented an “unacceptable level of risk to privacy and security”. However, critics of the ban have called this a “distraction” as these concerns are neither new or unique to TikTok. Researchers at the Citizen Lab published a report analyzing the platform and found that TikTok collects similar types of data to track users and serve targeted ads as other popular social media platforms. This made me wonder: what do platforms know about us? What strategies are they using to collect and analyze our data? But most importantly, what options do we have in Canada to protect against digital harms? In the following memo, I will argue that existing legislative frameworks in Canada cannot address the individual and collective harms raised by platforms because they focus on protecting personal identifiable information instead of all forms of what Teresa Scassa calls human-derived data in her piece.

What do platforms do with our data?

Platforms collect data ranging from our phone’s geolocation, the content we share and like on Instagram and TikTok, our health information collected from wearable healthcare tech such as a Fitbit, shopping transactions, to our browsing behaviour to name a few examples. As discussed by scholars Linnet Taylor et al. and Graef & van der Sloot, once this information is collected, it is often de-identified and curated to build large databases containing information that reflects the behaviour and activities of users. Then, computational tools are applied to these databases and draw insights from the aggregated data collected to identify patterns, preferences, and behaviors of the groups of people whose data has been collected. As argued by Barocas & Nissenbaum, the computational process of analyzing large databases to generate new information, commonly referred to as data mining, “breaks the basic intuition that identity is the greater source of potential harm because it substitutes inference for using identifying information as a bridge to get at additional facts.” In other words, insights drawn from these datasets can provide additional information about an individual or a group, without any personal identifiers.

What are the implications behind the use of these technologies?

At an individual level, it is hard to identify what/when/why/how models are applied and inferences are made about us. At present, researchers, whistleblowers, and journalists are the main routes to uncover these issues, such as the Wall Street Journal investigation of Meta Platforms Inc, which revealed that the platform knew about Instagram’s negative impact on teenage girls.  

At a group level, automated forms of data analytics affect how groups of people are identified. As scholars Lanah Kammourieh et al. note, these systems can identify groups in four different ways. First, they can identify groups and infer information about them without a predefined hypothesis. Second, they can identify groups within a population that had no connection to one another prior to analysis. Third, they can identify groups through new analytical approaches and thus create groups based on previously unknown characteristics. Lastly, these practices might identify groups without analysts’ knowledge, thus running the risk of harming people.  

What is particularly difficult about such inferences is that these computational analytical tools may discriminate against people by sorting them into groups that do not fall under legally protected categories (e.g. race, gender, disability) and without their personal information being exposed. This makes it difficult for someone to know if they were being profiled and discriminated against. As a result, privacy and data protection legislative strategies that focus solely on protecting identifiable personal information “distracts from, and may even give rise to, problems involving groups profiled anonymously from within huge digital datasets”.

What types of group harms emerge from making inferences through these databases? As noted in a report by the Citizen Lab on the collection of mobility data, although databases may contain de-identified or aggregated data, the risk of re-identification remains as it is possible to draw “inferences or correlations from the data or by overlaying it with known personal information.” A 2009 study by Harvard professor Latanya Sweeney proved this by re-identifying the names of over 40% participants from a sample of anonymous participants of a DNA study. Aside from the risk of identification, there is also the risk of surveillance of historically marginalized groups, or even political targeting as we have learned from the Cambridge Analytica scandal. Most significantly, automated decision-making systems deployed to analyze this data tend to misidentify, misclassify, and inaccurately predict outcomes.

How does Canada fare in the face of these challenges?

In terms of data protection and privacy legislation, the Canadian government has two sets of laws. First, the Privacy Act which governs the federal government collection, use, disclosure, retention, and disposal of personal information. Second, the Personal Information Protection and Electronic Documents Act (PIPEDA), which outlines how the private sector handles personal information during a commercial activity. Provinces and territories have their own laws governing private and public sector usage of personal information, though here I will only discuss federally mandated legislation. Both the Privacy Act and PIPEDA primarily focus on the protection of personal information. The Acts both define personal information as “information about an identifiable individual.” which leaves a significant gap around protecting data that is not identifiable.

In June 2022, the Canadian government tabled Bill C-27: Digital Charter Implementation Act, which consists of 3 separate Acts. First, the Consumer Privacy Protection Act (CPPA) seeks to modernize PIPEDA to adapt to emerging digital technology challenges. Second, the Personal Information and Data Protection Tribunal Act looks to create a tribunal to impose penalties for contraventions of the CCPA. Finally, the Artificial Intelligence and Data Act (AIDA) seeks to create a statutory framework to “regulate international and interprovincial trade and commerce in artificial intelligence systems by establishing common requirements [...] for the design, development and use of those systems.” Regarding data protection, the CPPA is different from PIPEDA as it introduces provisions on data de-identification, deletion, and children’s protection. More specifically, it defines de-identification as the “means to modify personal information so that an individual cannot be directly identified from it, though a risk of the individual being identified remains.” Moreover, the CPPA seeks to provide safeguards for minors by considering their personal information as sensitive. Yet, these acts leave much to be desired.

How do we move forward?

To fight against emerging digital harms, the Canadian government should modernize privacy legislation and expand protections to non-identifiable information. This would involve implementing the following amendments to Bill C-27:

  1. Protections for all human-derived data, which includes personal information, de-identified and anonymized data as Teresa Scassa proposes.

  2. Instate a prohibition on the re-identification of de-identified data, as recommended by the parliamentary study on the use of mobility data during the COVID-19 pandemic.

  3. Empowering the Office of the Privacy Commissioner of Canada to enforce both public and private sector privacy laws, investigate breaches, draft regulation, and audit companies.

  4. Defining in the CPPA what constitutes a ‘legitimate commercial interest’ and ‘public good’ in the collection, storage, use, transfer, and sale of private data, as recommended by the parliamentary study on the use of mobility data during the COVID-19 pandemic.

Furthermore, given that emerging technologies relying on AI systems heavily infringe on privacy and other numerous human rights, the proposed AIDA needs significant improvement. The government should look to establish a robust independent regulatory framework by providing the Office of the Privacy Commissioner of Canada with adequate powers to enforce the law and craft sector-specific regulation. Moreover, we need a statutory framework that addresses the core human rights risks of algorithmic systems. This would include, but not be limited to, establishing clear limitations and guidelines on the design and development of algorithmic systems that:

  1. Impact the health and financial outcomes for individuals and communities.

  2. Are used to access social services or humanitarian aid.

  3. Are used to profile and influence peoples’ behaviour.

  4. Use biometric or health-related bodily information to uniquely identify and categorize people.

With Bill C-27 being presently debated at the House of Commons, the government has a unique opportunity to enact a legislative framework that not only protects Canadians against digital harms, but ensures the safe and equitable development of digital technologies.


Aller au-delà des renseignements personnels : ouvrir la voie à des lois qui protègent la population canadienne contre les préjudices liés au numérique

Introduction

Fin février, à la suite d’une évaluation menée par la dirigeante principale de l’information du Canada et dont les résultats ont montré que TikTok présentait un « niveau inacceptable de risque envers la vie privée et la sécurité », le gouvernement canadien a interdit l’utilisation de l’application sur les appareils mobiles gouvernementaux. Les détracteurs et détractrices de cette interdiction, pour leur part, l’ont qualifiée de « diversion », dans la mesure où ces préoccupations ne sont ni nouvelles ni propres à TikTok. Une équipe de recherche du Citizen Lab a publié un rapport analysant la plateforme et a découvert que les types de données recueillis par TikTok pour suivre les utilisateur·rice·s et leur montrer des publicités ciblées sont en réalité semblables à ceux recueillis par les autres plateformes de réseaux sociaux populaires. Cela nous a poussé·e·s à nous interroger sur la question suivante : que savent de nous ces plateformes? Quelles sont les stratégies qu’elles emploient pour recueillir et analyser nos données? Et, plus important encore, quels sont les moyens à notre disposition au Canada pour nous protéger des préjudices liés au numérique? Dans l’article suivant, nous démontrerons que les cadres législatifs existants au Canada ne permettent pas de faire face aux préjudices individuels et collectifs que peuvent causer ces plateformes, car ils se centrent sur la protection des renseignements permettant d’identifier les personnes plutôt que de s’intéresser à toutes les formes de ce que Teresa Scassa appelle des « données d’origine humaine » dans son travail.

Que font les plateformes avec nos données?

Les plateformes de réseaux sociaux recueillent une grande variété de données allant de la géolocalisation de notre téléphone au contenu que nous partageons et aimons sur Instagram et TikTok, en passant par des informations sur notre santé recueillies à partir de technologies portables connectées qui suivent notre état de santé comme les montres Fitbit, sans oublier nos achats et nos habitudes de navigation, pour ne citer que quelques exemples. Comme le montrent les équipes de recherche de Linnet Taylor et al. et de Graef et van der Sloot, une fois ces informations recueillies, bien souvent, elles sont dépersonnalisées, puis soigneusement sélectionnées afin de créer d’énormes bases de données contenant des informations qui reflètent le comportement et les activités des utilisateur·rice·s. Par la suite, des outils informatiques de calcul sont appliqués à ces bases de données agrégées, dont ils tirent des informations exploitables dans le but d’identifier des tendances, des préférences et des comportements chez les groupes de personnes associés à ces données. Comme l’expliquent Barocas et Nissenbaum, le processus assisté par ordinateur consistant à analyser d’immenses bases de données pour générer de nouvelles informations, communément appelé exploration de données, « brise notre intuition première selon laquelle c’est l’identité qui constitue la plus grande source de danger potentiel, car il substitue l’inférence au fait d’utiliser des informations permettant d’identifier les personnes et s’en sert comme d’un pont pour parvenir à découvrir des informations supplémentaires ». En d’autres termes, les informations obtenues à partir de ces ensembles de données peuvent fournir d’autres informations sur un individu ou un groupe, sans faire usage des éléments permettant d’identifier les personnes.

Qu’implique l’utilisation de ces technologies?

Quels sont les systèmes informatisés modèles appliqués au niveau individuel? À quel moment le sont-ils? Pourquoi et comment? Les mêmes questions se posent concernant les inférences que font ces systèmes font modèles à notre sujet. Mais, dans les deux cas, il est difficile d’y répondre. À l’heure actuelle, les équipes de recherche, les lanceur·euse·s d’alerte et les journalistes sont les trois acteurs principaux qui permettent de révéler au grand jour les problèmes que cela soulève. Par exemple, l’enquête du Wall Street Journal portant sur Meta Platforms inc. a révélé que la plateforme était au courant des répercussions négatives d’Instagram sur les adolescentes.  

Au niveau collectif, les méthodes formulaires automatisés d’analyse de données ont une incidence sur la façon dont les groupes de personnes sont identifiés. Comme l’ont montré les chercheur·euse·s Lanah Kammourieh et al., ces systèmes sont capables d’identifier des groupes de quatre façons différentes. Tout d’abord, ils sont capables d’identifier des groupes et d’inférer des informations à leur sujet sans hypothèse prédéfinie. Deuxièmement, ils sont capables d’identifier les groupes au sein d’une population dont les membres n’avaient pas de rapport les un·e·s avec les autres avant l’analyse. Troisièmement, ils sont capables d’identifier des groupes grâce à de nouvelles approches analytiques et ainsi de créer des groupes basés sur des caractéristiques jusque-là inconnues. Enfin, ces systèmes pourraient être capables d’identifier des groupes à l’insu des analystes, risquant ainsi de porter préjudice à certaines personnes.  

Ce qui est particulièrement délicat avec ce genre d’inférences, c’est que ces outils d’analyse informatique peuvent discriminer les gens en les répartissant dans des groupes qui n’appartiennent pas à des catégories protégées par la loi (par exemple, la race, le genre ou le handicap) et ce, sans que les renseignements personnels de ces personnes ne soient exposés pour autant. Il est donc difficile de déterminer si une personne a fait l’objet d’un profilage ou de discrimination. Par conséquent, les stratégies législatives en matière de protection de la vie privée et des données qui se concentrent uniquement sur la protection des renseignements personnels permettant d’identifier les personnes « détournent l’attention des problèmes mettant en jeu des groupes de personnes anonymes ayant fait l’objet d’un profilage à partir d’énormes ensembles de données numériques, et peuvent même donner lieu à ce type de phénomène ».

Quels sont les types de préjudices collectifs qu’on peut observer en raison des inférences tirées de ces bases de données? Comme le souligne le Citizen Lab dans un rapport sur la collecte de données sur la mobilité, bien que les bases de données puissent contenir des données dépersonnalisées ou agrégées, le risque de réidentification demeure, car il est possible d’établir « des inférences ou des corrélations à partir des données ou en les superposant avec des renseignements personnels connus ».  Une étude réalisée en 2009 par Latanya Sweeney, professeure à Harvard, l’a prouvé : dans ce cadre, plus de 40 % des personnes ayant participé de façon anonyme à une étude ADN ont pu être réidentifiées. Outre le risque d’identification, il existe aussi un risque de surveillance de groupes historiquement marginalisés, voire de ciblage politique, comme nous l’a appris le scandale de Cambridge Analytica. Plus important encore, les systèmes de prise de décision automatisés déployés pour analyser ces données ont tendance à mal identifier les gens, à mal les catégoriser et même à prédire des résultats de façon inexacte.

Comment le Canada s’en sort-il face à ces défis?

En matière de législation sur la protection des données et de la vie privée, le gouvernement canadien dispose de deux ensembles de lois. Premièrement, la Loi sur la protection des renseignements personnels, qui régit la collecte, l’utilisation, la divulgation, la conservation et la suppression des renseignements personnels par le gouvernement fédéral. Deuxièmement, la Loi sur la protection des renseignements personnels et les documents électroniques (LPRPDE), qui décrit comment le secteur privé doit traiter les renseignements personnels lors d’une activité commerciale. De plus, les provinces et les territoires disposent également de leurs propres lois régissant l’utilisation des renseignements personnels par les secteurs privé et public. Cela étant dit, le présent article se concentrera uniquement sur les lois fédérales. La Loi sur la protection des renseignements personnels et la LPRPDE se concentrent toutes deux principalement sur la protection des renseignements personnels. Ces lois définissent les renseignements personnels comme étant « les données qui concernent un “individu identifiable” », une définition qui n’aborde absolument pas la question de la protection des données ne permettant pas d’identifier les individus.

En juin 2022, le gouvernement canadien a déposé le projet de loi C-27 : Loi sur la mise en œuvre de la Charte du numérique, qui vise à édicter trois lois distinctes. Premièrement, la Loi sur la protection de la vie privée des consommateurs (LPVPC) cherche à moderniser la LPRPDE afin que le pays puisse s’adapter aux défis émergents dans le contexte des technologies numériques. Deuxièmement, la Loi sur le Tribunal de la protection des renseignements personnels et des données cherche à créer un tribunal pour imposer des sanctions lorsque des infractions à la LPVPC sont commises. Enfin, la Loi sur l’intelligence artificielle et les données (LIAD) vise à créer un cadre législatif pour « réglementer les échanges et le commerce internationaux et interprovinciaux en matière de systèmes d’intelligence artificielle par l’établissement d’exigences communes [...] pour la conception, le développement et l’utilisation de ces systèmes ». En ce qui concerne la protection des données, la LPVPC diffère de la LPRPDE, car elle introduit des dispositions sur la dépersonnalisation des données, leur suppression et la protection des enfants. Plus précisément, elle définit la dépersonnalisation des données comme le fait de « modifier des renseignements personnels afin de réduire le risque, sans pour autant l’éliminer, qu’un individu puisse être identifié directement ». De plus, la LPVPC cherche à fournir des garanties aux mineur·e·s en considérant leurs renseignements personnels comme sensibles. Or, malgré cela, ces lois laissent encore beaucoup à désirer.

Comment protéger davantage la population canadienne à l’avenir?

Pour lutter contre les préjudices liés au numérique qui émergent, le gouvernement canadien devrait moderniser sa législation sur la protection de la vie privée et étendre ses mesures de protection aux renseignements ne permettant pas d’identifier un individu. Cela impliquerait d’apporter les modifications suivantes au projet de loi C-27 :

  1. Mettre en place des mesures de protection pour toutes les données d’origine humaine, comme le propose Teresa Scassa. Cela inclurait les renseignements personnels, ainsi que les données dépersonnalisées et anonymisées.

  2. Instaurer une interdiction de réidentification des données dépersonnalisées, comme le recommande l’étude parlementaire sur l’utilisation de données sur la mobilité pendant la pandémie de COVID-19.

  3. Donner les moyens au Commissariat à la protection de la vie privée du Canada de faire appliquer les lois sur la protection de la vie privée dans les secteurs public et privé, d’enquêter sur les violations, de rédiger des réglementations et de contrôler les sociétés.

  4. Définir dans la LPVPC ce qui constitue un « intérêt commercial légitime » et le « bien public » en lien avec la collecte, le stockage, l’utilisation, le transfert et la vente de données privées, comme le recommande l’étude parlementaire sur l’utilisation des données sur la mobilité pendant la pandémie de COVID-19.

En outre, étant donné que les technologies émergentes reposant sur des systèmes d’intelligence artificielle (IA) portent gravement atteinte à la vie privée et à de nombreux autres droits de la personne, la LIAD proposée doit être considérablement améliorée. Le gouvernement devrait chercher à établir un cadre réglementaire solide et indépendant en dotant le Commissariat à la protection de la vie privée du Canada de pouvoirs adéquats pour faire appliquer la loi et élaborer une réglementation propre à chaque secteur. De plus, nous avons besoin d’un cadre législatif qui prenne en compte les principaux risques que posent les systèmes algorithmiques pour les droits de la personne. Cela comprendrait, mais sans s’y limiter, le fait d’établir des limites et des lignes directrices claires sur la conception et le développement de systèmes algorithmiques qui :

  1. ont des répercussions sur la santé et les résultats financiers des individus et des communautés;

  2. sont utilisés pour accéder à des services sociaux ou à une aide humanitaire;

  3. sont utilisés pour profiler les gens et influencer le comportement de ces derniers;

  4. utilisent des informations corporelles biométriques ou liées à la santé pour identifier et catégoriser les personnes de manière unique.

Dans un contexte où le projet de loi C-27 est en cours de débat à la Chambre des communes, le gouvernement dispose d’une occasion unique de promulguer un cadre législatif qui non seulement protège la population canadienne contre les préjudices liés au numérique, mais garantit également que les technologies numériques seront développées de façon sécuritaire et équitable.

 
Previous
Previous

Governing Human-Derived Data

Next
Next

Don’t Fear the Splinternet: Policy Interoperability and Lessons from the Banking Sector