ChatGPT’s Infrastructural Ambitions: AI, Commodification, and the Commons

Fenwick McKelvey and Robert Hunt

le français suit

 

OpenAI’s ChatGPT, the hybrid private company–nonprofit’s latest project, arrives just as the Government of Canada attempts to pass its own response to AI, the Artificial Intelligence and Data Act (AIDA). Amidst ongoing debates over ChatGPT and its growing connections to major platforms, we urge greater consideration of the information commons as a key policy frame to understand AI chatbots and the large-language models used to train them. ChatGPT could not exist without the collective production of resources to support and maintain these commons. Its exploitation of those commons will only continue as OpenAI and its competitors try to monetize chatbots.

Commons-based approaches respond to demands for stronger collective rights in the AIDA Bill. Currently, AIDA focuses largely on economic or psychological harm to individuals with only a gesture towards larger systemic issues. Critics of the bill have questioned this narrow focus on harms in contrast with the Office of the Privacy Commissioner's recommendations for a rights-based approach

We take ChatGPT’s recent rollout of third-party plug-ins as an occasion to elaborate how Canadian AI policy can be informed by theories of the information commons and to call attention to AI’s persistent reliance on precarious and low-wage platform work. As lawmakers develop policy to regulate AI, they should consider how AI firms have already taken advantage of existing commons and how they often resort to precarious labour to tackle key policy concerns like content moderation. The connection between these two issues is on clear display in ChatGPT’s recent launch of plug-ins.      

ChatGPT’s infrastructural ambitions on display

On 23 March 2023, OpenAI announced the arrival of plug-ins for ChatGPT that connected the experimental AI live to the internet. These plug-ins allow the bot to “access up-to-date information, run computations, or use third-party services.” OpenAI president and cofounder Greg Brockman illustrated the new products’ utility by tweeting a video demonstrating how ChatGPT could find a recipe online, calculate the dish’s calorie count, and order the ingredients from Instacart. The demo shows how ChatGPT’s conversational interface could be used to do more than generate text. It also reveals that its developers aspire to make the technology infrastructural. The plug-ins make clear that ChatGPT’s owners want it to become a—possibly the—key platform for accessing the internet and accomplishing everyday tasks, including those that depend on precarious human labour.

Beyond showcasing the chatbot’s new abilities and aspirations, the video also demonstrates the hidden, infrastructural work behind ChatGPT—indeed, most modern AI—from the data used to train the model to the labour required to pick items off grocery shelves. The chatbot’s capacity to deliver impressively human-like responses to users’ queries relies on a group of large language models (LLMs), which are trained on massive datasets of text to “learn” to predict natural sequences of words. These datasets were built in a variety of ways, including scraping public websites (e.g., Wikipedia), digitized books, and social media networks. 

In other words, millions of internet users’ content was converted into data that trained the models that became the infrastructure for ChatGPT and similar applications. All this relatively indiscriminate data harvesting normally requires human judgment and labour to filter out racist, abusive, or otherwise offensive text, relying on a global system of ghost work. But cleaning such a massive dataset before training would be tremendously difficult, so OpenAI hired low-paid workers in Kenya to annotate problematic text that could be used to train ChatGPT what not to say.

ChatGPT’s back story has taken on particular significance as the chatbot, initially launched as a free tool, enters a new phase of commodification. With billions of dollars invested in generative AI, new revenue streams will inevitably be pursued in the future. OpenAI’s strategy to develop and maintain an app store might seem novel at first, but it has become foundational to most modern platform firms’ business models. For $20 (USD) per month, subscribers can access ChatGPT Plus; similar or rival chatbots are being incorporated into other subscription-based software products, such as Microsoft’s 365 family of applications (which could themselves be understood as infrastructural to much contemporary labour).

This coming wave of products and services raises pressing questions about LLM-based chatbots and their implications for aspects of internet governance, such as copyright, freedom of expression, and data privacy. From our view, these new products shine a bright light on drawbacks to the openness of information commons like internet content. Though nascent in its functionality, ChatGPT exemplifies how some AI applications trouble established understandings of online commons, prompting fundamental questions about what these commons are, who should have access to them, and how they can be maintained and governed. That billions of individual acts of creation were treated like a collective pool of non-proprietary data to manufacture subscription-based products shows how well-intentioned efforts to build and maintain commons can be preyed upon by corporations who see them not as communal resources but as vast pools of free labour

These attempts to become critical infrastructure have been a persistent concern in media and information policy, prompting greater interest in policy approaches informed by the commons. 

How does ChatGPT trouble the commons?

ChatGPT and other LLM-based chatbots simultaneously require and undermine theories of the political economy of communication. Building on the work of Vincent Mosco, we see two strategies at work:

  1. Extrinsic commodification, where firms harvest and operationalize historical common data resources under aggressive interpretations of copyright law;

  2. Intrinsic commodification, where firms mine and revalue data collected in their everyday operations.

Like past theories of enclosure and commodification, these efforts undermine the reproduction of information commons, turning public resources into private assets.

Generative AI, in most forms, relies on extrinsic commodification, such as the Common Crawl dataset being used to train OpenAI’s models. The nonprofit 501(c)(3) organization relies on a broad interpretation of fair dealing and fair use to collect images and text published on the web in its entirety. Ostensibly, Common Crawl is a product of a commons-based production model. At its launch in 2011, Lisa Green, director of the organization, announced: “it is crucial [in] our information-based society that Web crawl data be open and accessible to anyone who desires to utilize it.” Though loosely premised on openness, by allowing powerful corporations to fulfill their desires, Common Crawl functions more as an engine of processes of commodification that encodes public resources into proprietary AI models.

Platforms—especially platforms that rely on data to optimize their operations, or those that Nick Srnicek refers to as “lean” platforms—have increasingly reconsidered their transactional or business data as sources of training data. The result is a form of intrinsic commodification that seeks to extract value out of ongoing company activities. This form of commodification applies to a number of platforms, from Meta and Google using their free services as sources of information models to Microsoft reconfiguring its Office Suite as a source of training data for its partner OpenAI. These developments are a critical matter for Canadian communication policy as well.

Artificial intelligence raises deeper questions about the information commons. Most directly, large AI firms’ seamless commodification of public data calls into question whether adhering to a principle of openness successfully maintains information commons. Commons-based projects like Creative Commons content licenses or the General Public License for software are grounded in values of sharing, citing, and collective benefit. Treating these efforts as merely facilitating reservoirs of free data for powerful corporations negates their relational and reciprocal nature.

Artificial intelligence, then, might require reconsidering the commons as a relational norm premised on care and maintenance rather than unrestricted use. However, the uncopyrightable nature of current AI-produced works raises a secondary issue: the potential pollution of the commons by AI-generated works. Identifying AI-generated text is already a concern for OpenAI’s owners, who are worried that training new models on the output of past models might cause chaos in the system. As generative AI trains on its own creations, meaningful signals become lost in the deluge of automated content production—how might human users suffer if the global information commons of the internet is swamped with machine-made and possibly plagiarized, misleading, inaccurate, or defamatory content? We ask policy makers to take seriously the exploitation of our collectively built information commons and to take care of the networked labours that enable it.


Les grandes ambitions de ChatGPT : l’IA, la marchandisation et les biens communs

ChatGPTest le tout dernier projet d’OpenAI, une entité hybride se situant entre l’entreprise privée et l’organisme à but non lucratif. Le robot conversationnel arrive sur le marché alors que le gouvernement canadien tente de faire adopter sa propre réponse aux IA, la Loi sur l’intelligence artificielle et les données (LIAD). Alors que les débats actuels concernant ChatGPT et ses connexions croissantes aux plateformes majeures font rage, nous encourageons vivement la considération des biens communs informationnels comme étant des cadres de référence politiques qui permettraient de mieux comprendre les agents conversationnels intelligents et les grands modèles linguistiques qui servent à les entraîner. ChatGPT n’existerait pas sans la production collective de ressources qui permettent de soutenir et de maintenir ces biens communs. Comme OpenAI et ses compétiteurs tentent de monétiser leurs agents conversationnels intelligents, l’exploitation des biens communs informationnels ne fera que s’intensifier.

Les approches basées sur les biens communs répondent aux demandes de droits collectifs plus stricts dans le projet de loi LIAD. À ce jour, le LIAD se concentre principalement sur les préjudices économiques et psychologiques subis par les individus et accorde peu d’attention aux problématiques systémiques plus larges. Les opposants au projet de loi restent dubitatifs face à cette attention centrée sur les préjudices, contrairement aux recommandations du Commissariat à la protection de la vie privée du Canada, qui propose une approche fondée sur les droits

À l’occasion du déploiement récent de modules d’extension tiers de ChatGPT, nous détaillerons la façon dont les politiques canadiennes sur l’IA peuvent être alimentées par des théories sur les biens communs informationnels et mettrons en lumière le fait que les plateformes de l’IA dépendent continuellement d’une de travailleurs sur les plateformes précaires et sous-payés. Dans l’élaboration de réglementation sur les IA, les législateurs devraient prendre en compte le fait que les entreprises d’IA tirent déjà profit des biens communs existants et qu’elles ont souvent recours à l’exploitation d’une main-d’œuvre en situation précaire afin de répondre aux préoccupations liées à des politiques essentielles, telles que la modération de contenu. Les liens entre ces deux problématiques n’en sont devenus que plus limpides depuis le lancement récent des modules d’extension de ChatGPT.  

ChatGPT affiche son objectif de devenir un élément d’infrastructure Web essentiel

Le 23 mars 2023, OpenAI a annoncé l’arrivée de modules d’extension pour ChatGPT qui permettent de connecter en direct l’IA expérimentale à l’Internet. Ces modules d’extensions permettent au robot d’avoir « accès à des informations actualisées, d’effectuer des calculs ou d’utiliser des services de tierces parties. » Greg Brockman, le directeur et cofondateur d’OpenAI, a partagé la nouvelle fonctionnalité du produit en publiant sur Twitter une vidéo montrant comment ChatGPT peut trouver une recette en ligne, calculer le nombre de calories du plat et commander les ingrédients via l’application de livraison Instacart. Cette vidéo prouve que l’interface conversationnelle de ChatGPT peut faire bien plus que générer du texte. Elle dévoile également que ses développeurs souhaitent que leur technologie devienne une infrastructure Web. Les modules d’extension sont la preuve que les propriétaires de ChatGPT souhaitent que cette IA devienne une plateforme clé (si ce n’est la plateforme clé) permettant d’accéder à Internet et d’effectuer des tâches du quotidien, dont celles qui dépendent d’une main-d’œuvre humaine précaire.

Au-delà de la présentation des nouvelles fonctionnalités et des ambitions de l’agent conversationnel intelligent, la vidéo montre également le travail interne et relatif à l’infrastructure qui se cache derrière ChatGPT (et la plupart des IA modernes), depuis les données utilisées afin d’entraîner le modèle, jusqu’au travail requis afin de sélectionner des produits sur des tablettes d’épiceries. L’aptitude de l’agent conversationnel intelligent à répondre aux questions des utilisateurs de manière incroyablement humaine repose sur un groupe de grands modèles linguistiques (abrégé LLM de l’anglais large language model) qui sont entraînés grâce à d’énormes jeux de données constitués de textes dans l’objectif d’« apprendre » à anticiper les séquences naturelles de mots. Ces jeux de données ont été construits de diverses manières, notamment grâce à l’assimilation de sites Web publics (tels que Wikipédia), de livres numériques ou encore des plateformes de réseaux sociaux. 

Autrement dit, le contenu appartenant à des millions d’utilisateurs sur Internet a été converti en données qui ont permis d’entraîner les modèles. Celles-ci forment désormais l’infrastructure de ChatGPT et d’autres applications semblables. Cette exploitation assez arbitraire des données requiert normalement un jugement et un travail humain afin de filtrer tout texte à caractère raciste, abusif ou choquant et repose sur un système mondial de travailleurs fantômes. Or, le nettoyage d’un jeu de données aussi monumental peut s’avérer extrêmement fastidieux. C’est pourquoi OpenAI a recruté des travailleurs faiblement rémunérés au Kenya afin d’annoter des textes problématiques qui pourraient être exploités afin d’entraîner ChatGPT à ne pas les utiliser dans ses réponses.

Au moment où ChatGPT, initialement lancé en tant qu’outil libre et gratuit, entre dans une nouvelle ère de marchandisation, le cadre dans lequel il a été conçu prend une signification particulière. Du fait des milliards de dollars investis dans l’IA générative, de nouvelles sources de revenus deviendront nécessaires. La stratégie d’OpenAI visant à développer et maintenir une boutique d’applications pourrait sembler novatrice au premier abord, mais elle est devenue fondamentale pour la plupart des modèles opérationnels des entreprises de plateformes modernes. En effet, en souscrivant à un abonnement mensuel de 20 $ US, les abonnés ont accès à ChatGPT Plus; des agents conversationnels intelligents semblables ou concurrents sont en train d’être incorporés dans d’autres produits logiciels qui requièrent un abonnement, tels que la famille d’applications de Microsoft 365 (qui pourrait elle-même être considérée comme partie intégrante de l’infrastructure de nombreuses formes de travail contemporaines).

La vague imminente de produits et de services fait émerger d’importantes questions liées aux agents conversationnels intelligents basés sur les LLM et au rôle qu’ils jouent dans certains aspects de la gouvernance du Web, telles que les droits d’auteur, la liberté d’expression et la confidentialité des données. De notre point de vue, ces nouveaux produits mettent très clairement en lumière les revers de l’accessibilité des biens communs informationnels, tels que le contenu que l’on retrouve sur Internet. Bien que ses fonctionnalités n’en soient qu’à leurs prémices, ChatGPT met en évidence les manières dont certaines utilisations des IA viennent perturber la compréhension établie des biens communs sur Internet. Ceci soulève des questions sur la nature de ces biens communs, sur les droits d’accès à ceux-ci et sur les façons dont ils peuvent être maintenus et réglementés. Des milliards de sources de contenu créatif individuelles ont été considérées comme un bassin collectif de données libres de droits qui ont permis la fabrication de produits basés sur un système d’abonnements. Cette situation révèle à quel point des efforts bien intentionnés visant à construire et à maintenir les biens communs peuvent malheureusement devenir la cible de sociétés commerciales qui les considèrent non pas comme des ressources communes, mais comme une vaste réserve de main-d’œuvre gratuite

Ces tentatives des sociétés qui cherchent à devenir une infrastructure essentielle ont fait l’objet d’appréhensions constantes liées aux politiques sur les médias et l’information, ce qui suscite un plus grand intérêt pour des approches politiques basées sur les biens communs. 

De quelles façons ChatGPT met-il en danger les biens communs?

ChatGPT et d’autres agents conversationnels intelligents basés sur les LLM exigent à la fois des théories sur l’économie politique de la communication et une subversion de leurs principes.. Si l’on se base sur les travaux de Vincent Mosco, il est possible de distinguer deux stratégies mises en œuvre :

  1. Une marchandisation extrinsèque, où les entreprises récoltent et rendent opérationnelles des ressources de données communes historiques par le biais d’interprétations agressives des lois sur les droits d’auteur;

  2. Une marchandisation intrinsèque, où les entreprises minent et revalorisent les données collectées au cours de leurs opérations quotidiennes.

Au même titre que les théories de renfermement et de marchandisation, ces méthodes banalisent la reproduction des biens communs de l’information et transforment ces ressources publiques en biens privés.

La plupart des formes d’IA génératives reposent sur des marchandisations extrinsèques semblables au jeu de données libres d’accès de Common Crawl dont OpenAI se sert afin d’entraîner ses modèles. Cette organisation à but non lucratif 501 (c) (3) dépend d’une interprétation vague de l’utilisation équitable afin de rassembler des images et du texte publié sur le Web tout entier. Vraisemblablement, le Common Crawl découle d’un modèle de production basé sur les biens communs. Lorsque Common Crawl a été lancée en 2011, la directrice de l’organisation, Lisa Green, a évoqué qu’il était  « essentiel, compte tenu de la société de l’information dans laquelle nous vivons, d’ouvrir et de faciliter l’accès aux données disponibles sur les robots d’indexation à tout individu qui souhaiterait les utiliser. » Bien qu’elles s’appuient vaguement sur le principe d’accessibilité pour toutes et tous, les fonctionnalités proposées par Common Crawl permettent de répondre aux désirs des entreprises puisqu’elles servent principalement de moteur de marchandisation qui encode les ressources publiques pour en faire des modèles d’IA exclusifs.

Les plateformes, en particulier celles qui dépendent de données afin d’optimiser leurs opérations, ou encore celles que Nick Srnicek appelle les « plateformes allégées », considèrent de plus en plus leurs données transactionnelles ou commerciales comme une source de données d’entraînement. De ce glissement découle une marchandisation intrinsèque ayant pour but de rentabiliser les données extraites des activités continuelles des entreprises. Cette forme de marchandisation est exploitée par de nombreuses plateformes, de Meta à Google, qui utilisent les données issues de leurs services libres et gratuits comme modèles d’information, en passant par Microsoft, qui a transformé sa suite Office en une source de données d’entraînement pour son partenaire OpenAI. Ces changements constituent une autre question essentielle que les politiques de communication canadiennes doivent prendre en compte.

L’intelligence artificielle soulève des questions profondes sur les biens communs informationnels. Plus concrètement, le fait que les grandes entreprises d’IA puissent facilement marchandiser les données publiques soulève une énième question : l’adhésion à un principe d’accessibilité des informations pourrait-elle mener à la protection des biens communs informationnels? Des projets basés sur les biens communs tels que les licences de contenu de Creative Commons ou la Licence publique générale pour les logiciels reposent sur des valeurs de partage, de citation et de bénéfices collectifs. En se servant de ces outils comme d’un réservoir de données libres, gratuites et faciles d’accès, ces puissantes entreprises annulent la nature relationnelle et réciproque de ces biens.

Les concepteur·rice·s d’intelligences artificielles devront donc revoir leurs rapports aux biens communs afin d’établir une relation basée sur la bienveillance et la conservation plutôt que sur l’exploitation illimitée de données. Néanmoins, le fait que les travaux actuellement générés par les intelligences artificielles ne puissent pas être protégés par des droits d’auteur soulève une problématique de second plan : la pollution potentielle des biens communs informationnels par des travaux générés artificiellement. L’identification des textes générés par des intelligences artificielles préoccupe déjà les propriétaires d’OpenAI, qui s’interrogent sur le niveau de chaos qui pourrait être généré s’ils venaient à entraîner leurs nouveaux modèles d’IA sur des sorties produites par d’anciens modèles. Puisque les IA génératives s’entraînent sur leurs propres créations, les informations de valeur se perdent dans le déluge de la production automatisée de contenu. Il est possible de se demander à quel point les utilisateurs humains pourraient souffrir si les biens communs informationnels disponibles sur Internet se retrouvaient ensevelis sous du contenu généré par des machines, possiblement plagié, fallacieux, inexact ou diffamatoire. Nous demandons donc aux responsables de l’élaboration des politiques de prendre au sérieux l’exploitation de nos biens communs informationnels et de prendre en compte les réseaux de main d’œuvre qui rendent l’alimentation de ces biens communs possibles.

 
Previous
Previous

Don’t Fear the Splinternet: Policy Interoperability and Lessons from the Banking Sector

Next
Next

Carbon Tracking Platforms and the Problem of Net-Zero