Anecdotiques et déconcertants, au point d'attirer l'attention des médias, les ouvrages produits par des intelligences artificielles ont gagné en popularité. Commercialisés comme d'authentiques œuvres, ils ont contaminé tout d'abord les services d'autopublication d'Amazon... avant de finir dans les bases de données de Google Books. Chine, décembre 2013. Un professeur de journalisme reçoit le deuxième prix lors d'un concours d'écriture, orienté Science-Fiction. Sauf que Shen Yang avait bénéficié du concours d'un coauteur : un modèle de langage. L'enseignant, qui officie à l'Université Tsinghua de Pékin, avait ainsi produit un récit de 6000 caractères racontant l'histoire de Li Xiao, une ancienne « ingénieure neuronale » qui a accidentellement perdu toute sa mémoire, et qui tente de la retrouver en explorant tranquillement ce fameux et effrayant « pays des souvenirs ». Bien qu'avertis, les jurés ont décidé d'octroyer 3 de leurs 6 votes à ce texte, qui ne devait rien à l'homme directement, mais tout à la machine, largement guidée dans la rédaction de ce récit. Et pour la première fois, semblait-il, une IA se voyait décerner un prix littéraire. La déferlante de LIAttérature Depuis l'arrivée de ChatGPT dans les mains des internautes, le recours à l'IA pour la production d'ouvrages passablement mauvais s'est démocratisé. En février 2023, le service Kindle Direct Publishing, servant à l'autopublication chez Amazon, comptabilisait même 200 parutions avec a minima une IA en coautrice, voire autrice seule. Des plaintes et complaintes émanant d'êtres humains et véritables auteurs ont alors fusé : Amazon n'ayant mis en place aucune mesure restreignant le flux d'une production potentiellement pharaonique, la firme était pointée du doigt. C'est qu'entre le premier ouvrage entièrement traduit par une IA, qui en octobre 2018 provoquait des sourires en coin et la profusion de bouquins fraîchement pondus par des machines et mis en vente illico, on a cessé de sourire. Surtout qu'entre-temps, de petits margoulins usurpaient ouvertement l'identité d'auteurs en vendant de pseudo-œuvres. « La personne derrière ces livres cherche bien sûr à profiter d'auteurs qui ont confiance en mes travaux et seraient amenés à croire que je les ai écrits », résumait la romancière Jane Friedman. Et de s'interroger : « Avec la vague de contenus générés par l'intelligence artificielle publiés sur Amazon, parfois attribués d'une manière trompeuse ou frauduleuse à des auteurs, comment imaginer que les auteurs passent du temps, chaque semaine, à faire la chasse à ce genre de livres pour le reste de leurs vies ? » De quoi obliger progressivement la firme que Jeff Bezos avait fondée à jouer la transparence. Elle obligeait dès lors à « nous informer de la présence de contenus générés par l'IA (textes, images ou traductions) lorsque vous publiez un nouveau livre ou que vous modifiez et republiez un livre existant », indiquait KDP dans ses conditions d'utilisation. En parallèle, les professionnels du livre, partout dans le monde, dégainaient des textes et revendications pour que la Commission européenne intervienne. « Les modèles d'intelligence artificielle générative se sont développés dans un environnement opaque et inéquitable, dans lequel des millions de livres protégés par le droit d'auteur ont été utilisés sans l'autorisation des auteurs ou éditeurs », assuraient la Fédération européenne et internationale des libraires (EIBF), la Fédération des éditeurs européens (FEE) et le Conseil des écrivains européens, lors de la Foire de Francfort, en octobre 2023. Et d'ajouter : « Cette pratique a un impact négatif sur les ayants droit, mais aussi sur la démocratie, en facilitant la production massive de contenus trompeurs, biaisés et même dangereux pour l'avenir de la démocratie européenne. » Suffisant ? Certainement pas, mais à poser les problèmes, on finit par les faire entendre. D'autant que dans le cas de figure des écrivains, dont le travail était repris « sans autorisation, sans rémunération et sans transparence », on retrouvait les problématiques d'autres secteurs artistiques. De fait, l'industrie de l'édition américaine avait vu le célèbre GRR Martin et d'autres auteurs de best-sellers porter plainte contre OpenAI, la société derrière ChatGPT. « Il est impératif de mettre un coup d'arrêt à ce vol à grande échelle », renchérissait alors Mary Rasenberger, PDG de l'Authors Guild. Vers une corruption de données Le phénomène soulève des préoccupations concernant la véracité des informations, comme l'ont montré des ouvrages contenant des erreurs factuelles. Mais a également inspiré des solutions surfant sur la tendance : ainsi, la startup Librinova, en partenariat avec Label «Création humaine», dévoilait en janvier un service apposant un label sur les livres certifiant qu'ils sont écrits par des humains. Ce label, conçu en mai 2023, utilise un protocole strict pour distinguer les œuvres humaines des productions IA. Sauf qu'entre temps, les machines se sont mises à l'œuvre : en avril dernier, 404Media farfouillait dans Google Books et détectait l'inévitable. La librairie d'Alphabet procédait à l'indexation de livres médiocres, produits par des IA et désormais susceptibles de figurer dans les résultats de recherche. Donc de noyer les ouvrages réels, fruit du travail d'humains. Certains livres traitent de ChatGPT, de l'apprentissage automatique, de l'IA et d'autres sujets connexes et incluent l'expression, car ils discutent de ChatGPT et de ses résultats. Ces livres semblent avoir été écrits par des humains. Cependant, la plupart de ceux présentés dans les huit premières pages de résultats obtenus lors de la recherche semblent être générés par l'IA et ne concernent pas l'IA. Chercheurs et universitaires induits en erreur ? La recherche, effectuée à partir de l'expression «as of my last knowledge update», n'est pas farfelue : il s'agit d'une phrase régulièrement employée par les chatbots comme ChatGPT. Et le média constatait donc voilà quelques mois que les résultats de recherche faisaient figurer des ouvrages contenant cette phrase dans leurs textes de présentation. Cette phrase est d'ailleurs associée aux réponses générées par ChatGPT et affichait des dizaines de vrais-faux bouquins, avec un risque immédiat : celui de la corruption de l'outil Ngram. Cette application linguistique développée par Google observe les tendances, les récurrences et les usages de mots ou groupes de mots dans des sources imprimées — et numérisées. Selon Google, interrogé à l'époque, cette indexation n'aurait au contraire pas d'incidence, attendu que les parutions récentes n'y sont pas intégrées. Toutefois, et malgré ses multiples imperfections, Ngram servirait à nombre de linguistes et d'universitaires pour leurs travaux de recherche. Gare, donc, à la prochaine mise à jour dont bénéficiera cette application : si les travaux modernes présents sur Google Books n'apparaissent pas encore, rien n'indique que ce sera toujours le cas à l'avenir.