IA : en immersion avec les robots-journalistes

Début janvier, un journaliste de « L’Est républicain » demande à un logiciel d’intelligence artificielle générative de lui suggérer une phrase accrocheuse pour présenter un article sur les réseaux sociaux. Il s’agit de l’arrestation d’un Madrilène qui avait imaginé un système ingénieux pour cacher une grande quantité de drogue dans sa voiture. Le logiciel lui a proposé ceci : « Bravo à ce conducteur espagnol pour son astucieuse utilisation d’une voiture pour transporter de la drogue ! » Le 14 février, le même logiciel propose, au sujet d’une Péruvienne qui a coupé le pénis de son compagnon : « Et joyeuse Saint-Valentin à tous ». Non, ce n’est pas une blague. Juste une illustration de la manière dont un robot, aussi rapide et créatif soit-il, peut altérer une information, vraie au départ.

L’intelligence artificielle (IA) générative arrive encore à pas comptés et encadrés dans les rédactions professionnelles – les suggestions faites par l’IA au journaliste de « L’Est républicain » n’ont évidemment jamais été publiées – , mais elle envahit déjà tous les recoins du Web.
Fausses photos de Taylor Swift dénudée, fausse voix de Joe Biden appelant ses électeurs du New Hampshire à ne pas aller voter, tentatives multiples des Russes de déstabiliser les démocraties européennes… Les alertes se multiplient en cette année 2024 où la moitié des citoyens de la planète vont élire leurs représentants. L’IA n’a pas inventé la désinformation, mais elle rend la manipulation plus difficilement identifiable.
Et pourtant, ceci n’est pas une enquête sur les « fake news ». C’est une exploration de la façon dont les professionnels de l’information, qui évoluent dans un environnement plus que jamais brouillé, peuvent se saisir de cet outil sans perdre leur raison d’être : la publication d’informations sourcées, vérifiées et analysées.
Nombre de médias, et en particulier en France, cantonnent pour le moment l’IA à des tâches périphériques, notammentdestinées à élargir leur audience. La lecture, par une voix synthétique, des articles écrits ou leur traduction. « Le Monde in English » n’aurait pas été créé sans l’IA – il aurait fallu une armée de traducteurs – mais sa publication reste soumise au contrôle de journalistes anglophones. Le quotidien du soir vient d’ailleurs de conclure un accord avec OpenAI (maison mère de ChatGPT) pour à la fois entraîner le modèle mais aussi apparaître comme une référence dans les réponses du robot.

Les journalistes sont les gardiens du réel.
Florent Latrive Directeur adjoint de l’information de Radio France

A Radio France, un logiciel de transcription automatique de toutes les émissions a été intégré au système rédactionnel. Les journalistes retrouvent plus rapidement un son pour nourrir le site Web, « mais il n’y a aucune publication automatique », souligne Florent Latrive, directeur adjoint de l’information.
Question d’éthique – « les journalistes sont les gardiens du réel » – et aussi de performance des outils. « Dès qu’on doit transcrire un reportage avec des sons d’ambiance ou des noms étrangers comme pour la guerre en Ukraine, l’IA fait beaucoup d’erreurs », explique Matthieu Beauval, responsable de l’innovation. Et d’ajouter : « Notre Graal, ce serait la transcription automatique de nos programmes pour les sourds et malentendants, mais on ne l’a pas encore. »
Pour mieux comprendre cette technologie en progression rapide, l’heure est au partage d’expériences entre radios publiques. Radio France observe avec envie comment la radio bavaroise Bayerischer Rundfunk géolocalise ses auditeurs afin de leur proposer des contenusadaptés àleur environnement. Radio-Canada est en train de tester si, à partir d’un sujet réalisé par un journaliste, l’IA sait conserver l’intégrité de l’information tout en choisissant des mots adaptés à un public jeune. Les journalistes d’investigation qui travaillent sur des fuites massives de fichiers informatiques lorgnent aussi l’IA pour sa capacité démultipliée à retrouver un mot, un nom, ou un chiffre précis parmi des dizaines de milliers d’autres.
Discuter avec les chefs de projets IA dans les médias, c’est passer de l’excitation face aux potentialités de cette nouvelle révolution à une recherche technique pointue pour en identifier les défauts. « On n’a qu’une seule chance de faire bonne impression, donc on ne peut pas se planter », insiste Maxime Saint-Pierre, responsable des développements numériques de Radio-Canada. La défiance étant souvent de mise à l’égard des médias, ceux-ci ne veulent pas perdre ce qui leur reste de crédibilité. Voilà pourquoi la plupart des chartes IA dont ils se sont dotés prévoient une intervention ou un contrôle humain ainsi qu’une transparence vis-à-vis du public – signaler tout contenu produit par l’IA.

Le vrai ou le faux n’a pas de sens pour une intelligence artificielle.
Ioana Manolescu Chercheuse en intelligence artificielle

Mais tous ne prennent pas les mêmes précautions. Aux Etats-Unis, une chaîne de télévision, Channel 1 AI, quasiment entièrement faite par intelligence artificielle, est en cours de lancement. Un pari risqué pour la fiabilité de l’information. « Le vrai ou le faux n’a pas de sens pour une intelligence artificielle car elle va toujours tenter de donner la réponse la plus probable d’après les informations dont elle dispose », souligne Ioana Manolescu, directrice de recherche à l’Inria (Institut national de recherche en sciences et technologies du numérique) et à Polytechnique. Et « si son corpus d’entraînement contenait des choses fausses, il faudra toujours vérifier les résultats de l’IA à la main », poursuit la chercheuse.
D’où les multiples erreurs des robots conversationnels grand public (ChatGPT ou Bard), entraînés sur le Web. A l’automne 2023, l’outil Bing (devenu Copilot) de Microsoft a été testé à partir de questions simples sur des élections en Allemagne et en Suisse. Verdict : « L’IA est allée chercher des informations de presse et y a introduit des erreurs », explique Marc Faddoul, directeur d’AI Forensics, une ONG spécialisée dans l’étude des algorithmes.
Et ce n’est pas tout. Les intelligences artificielles génératives sont à l’origine des logiciels de langage – « large language models » ou LLM – seulement entraînés à reconnaître les mots et la structure d’une langue donnée. Toute tâche ou données plus spécifiques nécessitent de greffer un logiciel supplémentaire au LLM d’origine. Mais il y a un gros hic : le LLM n’oublie rien et pourra, incidemment, ressortir une donnée fausse enregistrée lors de son entraînement. « La meilleure façon d’assurer un maximum de fiabilité aux réponses de l’IA est de la nourrir, dès sa création, de données strictement vérifiées », dit encore Ioana Manolescu.

Les incertitudes du « fine tuning »
Mais créer sa propre IA est long et très cher. Les médias peuvent donc être tentés de se tourner vers une solution plus rapide et moins onéreuse : acquérir un LLM déjà entraîné, l’adapter à leurs besoins et lui demander de ne puiser ses réponses que dans les données maison, vérifiées et sécurisées. Cela s’appelle, selon la méthode choisie, le « fine tuning » et la RAG, et cela coûte « de quelques dizaines à une centaine de milliers d’euros », estime Aimé Lachapelle, de la société de conseil Emerton Data.
Quid du risque de résurgence de données fausses ? Nicolas Gaudemet, directeur de l’IA chez Onepoint, relativise : « Si l’on contraint un outil déjà entraîné comme GPT-4 à ne répondre qu’avec un corpus de textes fiables, alors les risques d’hallucination de l’IA seront très réduits. » En clair, le logiciel ne formulera pas une réponse incohérente (telle Taylor Swift est présidente des Etats-Unis), mais il pourra quand même donner une réponse datée donc inexacte (Bill Clinton est le président des Etats-Unis ou présenter une loi abrogée comme encore en vigueur). Pour les propriétaires des médias, c’est un calcul bénéfice-risque entre économie et crédibilité.
Retour à Radio France où l’on a décidé de mettre « ceinture et bretelles » en concluant un partenariat avec le groupe de chercheurs d’Ioana Manolescu et l’Inria. Un outil – Stat Check – a été créé de toutes pièces et entraîné sur les données de l’Insee et d’Eurostat pour répondre aux besoins de l’équipe de journalistes du « Vrai ou Faux » de France Info. Stat Check transcrit et analyse, phrase par phrase, les propos tenus par les invités des matinales radio et télé et sur une série de comptes X. Quand l’un d’entre eux contient un chiffre vérifiable, l’IA le signale au journaliste, qui peut demander à Stat Check de rechercher une correspondance dans les données de l’Insee et d’Eurostat.

L’intelligence, pas encore
Suffit-il d’appuyer sur un bouton pour vérifier une déclaration ? « Les politiques citent rarement des chiffres sortis de nulle part, prévient Emilie Gautreau, la cheffe de la cellule ‘Vrai ou Faux’. Pour déterminer l’exactitude de leurs propos, on doit, entre autres, vérifier comment le chiffre cité a été établi, son contexte et s’il n’a pas été présenté de façon biaisée. » Emilie Gautreau estime à une sur cinq le nombre de chroniques pour lesquelles son équipe recourt à Stat Check. Et d’ajouter : « Stat Check est avant tout utilisé par notre service comme outil de veille et de détection des données vérifiables, une aide pour ne rien louper. » Pour le moment, un fournisseur de sujets à traiter, davantage qu’un robot-vérificateur.

Récapitulons. Pour l’instant, l’IA ne sait pas trouver une information ailleurs que dans des bases de données, et elle ne sait pas non plus l’analyser. Alors pourquoi tant d’agitation autour d’une technologie pas – encore – au point s’agissant d’information ? Pour des raisons à la fois pratiques – on l’a vu – et économiques. Lorsque le grand public s’est saisi d’une innovation, aucune entreprise ne peut s’en détourner, sous peine d’être balayée.
« L’intelligence artificielle va révolutionner le journalisme et l’industrie des médias, en pouvant soutenir – ou remplacer – le journaliste », écrivait dès février 2023 Mathias Döpfner, le patron du groupe de presse allemand Axel Springer, en annonçant des suppressions d’emplois. Selon lui, seuls seraient préservés les reporters et les éditorialistes. Mais il existe bien d’autres métiers dans le journalisme – infographistes, rédacteurs, éditeurs… Est-il possible et souhaitable qu’ils disparaissent ou soient transformés en simples contrôleurs de la production d’une IA ?
En France, une montée en température a eu lieu quand la direction de « L’Est républicain » a annoncé aux élus du personnel vouloir tester une version maison de ChatGPT pour aider à corriger, couper et titrer les articles envoyés par les correspondants locaux. « On n’a pas bloqué l’expérience, mais on a commandé une expertise », raconte Eric Barbier, délégué syndical du Syndicat national des journalistes (SNJ). Les résultats sont attendus prochainement.

Dans un secteur déjà bousculé, économiquement et socialement, par la première révolution numérique, la méfiance est souvent de mise entre patrons et syndicats. « L’opposition à l’IA n’est pas frontale, mais on veut être associé », souligne Emmanuel Vire, secrétaire général du SNJ-CGT. « Aider le journaliste dans son travail, oui, à partir du moment où il y a une transparence. Remplacer des postes par des IA, non », abonde Agnès Briançon, première secrétaire générale du SNJ. « Les syndicats ne veulent rien changer », veut croire un responsable patronal, qui justifie ainsi la réticence de certains PDG à jouer cartes sur table avec leurs salariés. Et pourtant, de la capacité des uns et des autres à discuter ensemble dépendra la réponse à cette question : Mathias Döpfner est-il un boutefeu ou un pionnier ?

Lire l’article complet sur : www.lesechos.fr