Il y a un an, Google publiait un article de blog intitulé « Une approche de principe pour faire évoluer le choix et le contrôle des contenus web ». Cet article reconnaissait les préoccupations des éditeurs concernant l’utilisation de leur contenu par les entreprises d’IA pour entraîner des modèles, sans permission ni compensation. Il mettait en exergue les limites du fichier robots.txt, une méthode courante pour contrôler l’accès des moteurs de recherche aux sites web, et promettait une « discussion publique » sur le développement d’un nouveau système.
Cependant, selon les observateurs de l’industrie, Google n’a jamais vraiment tenu cette promesse. Nate Hake a récemment critiqué Google dans une série de tweets, les accusant de prioriser un « accord privilégié » avec Reddit plutôt qu’une discussion ouverte avec tous les éditeurs.
Les préoccupations des éditeurs
De nombreux éditeurs, Reddit inclus, s’inquiètent de la façon dont les grandes entreprises d’IA utilisent librement leur contenu pour entraîner leurs modèles. Ils plaident pour un contrôle accru sur leur contenu et demandent une compensation pour son utilisation.
Les limites du fichier Robots.txt
Le recours au fichier robots.txt, qui permet aux propriétaires de sites web de bloquer l’accès à certains contenus par les moteurs de recherche, est inefficace pour contrôler l’accès aux données d’entraînement de l’IA. Voici pourquoi :
- Scrapers non identifiables : De nombreuses entreprises d’IA peuvent ne pas être facilement identifiables, ce qui complique la tâche des éditeurs pour savoir qui bloquer.
- Responsabilité inversée : Robots.txt place la responsabilité sur les éditeurs pour prévenir les infractions, au lieu de demander aux entreprises d’IA de solliciter la permission.
- Duplication de contenu : Bloquer un scraper IA n’empêchera pas ce dernier d’accéder à des copies du contenu hébergées ailleurs en ligne.
- Restrictions ignorées : Certaines entreprises d’IA pourraient ignorer les directives de robots.txt.
Un système « d’inscription volontaire » proposé
Les experts de l’industrie croient qu’une solution viable réside dans un système « d’inscription volontaire ». Dans ce cadre, les entreprises d’IA offriraient ouvertement une compensation aux éditeurs pour le droit d’entraîner leurs modèles sur leur contenu.
L’accord privé allégué de Google avec Reddit
Les critiques suspectent que Google a priorisé un accord privé avec Reddit, leur accordant control et compensation pour leur contenu destiné à l’entraînement de l’IA, tout en négligeant les éditeurs plus petits.
Manque de transparence
Malgré une année d’investissement significatif dans l’IA, Google n’a pas facilité de discussion publique substantielle avec les éditeurs plus petits concernant le consentement, le contrôle, et la compensation en matière d’entraînement de l’IA. Cette situation soulève des questions sur la transparence et l’équité dans la manière dont Google gère l’accès aux données d’entraînement de l’IA.
Les éditeurs plus petits se sentent laissés pour compte dans des discussions cruciales qui pourraient avoir un impact significatif sur leurs revenus et leur présence en ligne. Ils estiment que leurs intérêts et leurs préoccupations ne sont pas suffisamment pris en compte dans le débat actuel, ce qui pourrait avoir des conséquences majeures sur la façon dont les contenus sont utilisés et monétisés à l’avenir.
La nécessité d’un dialogue ouvert et inclusif n’a jamais été aussi pressante. Les petits éditeurs demandent un siège à la table pour discuter des pratiques d’IA qui influent sur l’ensemble du paysage du contenu en ligne. Un système plus transparent et équitable pourrait non seulement protéger leurs intérêts, mais aussi garantir un écosystème numérique plus équilibré et respectueux des contributions des créateurs de contenu de toutes tailles.