« Blade Runner », le film culte de Ridley Scott sorti en 1982, comporte un test de Turing qui tourne mal : Leon Kowalski, l’androïde sur la sellette, assassine le policier qui tente de déterminer s’il est un humain ou un robot en l’interrogeant et en scrutant son iris. Quarante-deux ans plus tard, « il est devenu impossible de distinguer à l’oeil ou à l’oreille les contenus générés par certaines Intelligences Artificielles », s’inquiète Erwan Le Merrer, chercheur au sein de l’équipe Artishau (ARTificial Intelligence, Security, trutHfulness and Audit) d’Inria, à Rennes.
Certaines IA ont déjà passé mieux que des humains les tests de Turing, y compris les Captchas, utilisés sur Internet pour vérifier qu’un visiteur n’est pas un robot », ajoute Steven Smith, vice-président ingénierie chez TFH (Tools for Humanity), une entreprise de San Francisco qui propose une technologie permettant de s’assurer que la personne avec qui l’on discute sur Telegram ou Zoom n’est pas un bot : il suffit de se faire enregistrer comme humain auprès de TFH en faisant photographier son iris par l’Orb, sorte de gros oeil mécanique et bourré d’IA. L’objet est déjà programmé pour repérer les robots.
L’ombre de Sam Altman
Cynisme ? Intuition de ce que sera notre avenir ? Un des deux cofondateurs de TFH n’est autre que Sam Altman, également patron d’OpenAI, l’éditeur de ChatGPT. Cette GenAI (Intelligence Artificielle générative) qui fêtera ses deux ans à la fin du mois est à l’origine du grand carnaval actuel, où l’on ne peut plus distinguer un humain d’une IA.
« Les bots, ces logiciels qui se font passer pour des humains, représentent entre 50 et 60 % du trafic sur Internet », rappelle Christophe Lebrun, data scientist et adjoint scientifique à la Haute Ecole de Gestion de Genève où il s’occupe, entre autres, de plagiat (voir encadré). Sur le site de Harvard, Latanya Sweeney, professeur dans cette université, estime qu’à l’avenir, sur Internet « 90 % du contenu ne sera plus généré par des humains mais par des robots. » Déjà, la start-up américaine NewsGuard a identifié plus de 1.110 sites d’information, y compris en français, non fiables car entièrement rédigés par une IA.
« Si nous ne faisons rien, les activités malveillantes permises par l’IA risquent de définitivement polluer le Web », avertissent trente-deux chercheurs d’OpenAI, Microsoft, Harvard, Berkeley, du MIT etc., dans un article scientifique paru en août. Ces juristes, informaticiens et spécialistes de l’éthique appartiennent à une nouvelle discipline, la « sécurité de l’IA ». « Ce domaine scientifique, qui explore de nouvelles méthodes pour s’assurer qu’un contenu n’a pas été généré par une GenAI, est à la jonction de la cybersécurité, l’algorithmique, la statistique, du traitement du signal, par exemple », détaille Erwan Le Merrer.
Tests de Turing
Même si ses travaux peuvent également protéger les humains, la sécurité de l’IA tente surtout de garantir sa propre intégrité : l’utilisation de data synthétiques pour l’entraînement des prochaines générations de ces algorithmes , provoquera un effondrement de leurs performances. « Dans ce cas, il pourrait y avoir à terme une baisse de la richesse linguistique des nouvelles données produites », prévient ainsi Chloé Clavel, directrice de recherche en IA, à Inria Paris. « Il faut donc une sorte de test de Turing inversé, afin de vérifier si les données présentes sur le web sont le fait d’humains ou, au contraire, de GenAI », insiste Erwan Le Merrer.
Même s’il s’agit des deux versants d’un même problème, prouver que l’on est bien un humain lors d’une visioconférence ou de l’ouverture d’un compte bancaire en ligne est une chose ; certifier l’origine – humaine ou synthétique – d’un contenu en est une autre, beaucoup plus difficile, car facilement contournable. Pour s’assurer de la réalité humaine de leurs clients, les sites en ligne recourent à des techniques de KYC (Know Your Customer) qui jusqu’à présent reposaient souvent sur des selfies. Pour distinguer le vrai (humain) du faux (généré par une IA), il faudrait pouvoir se livrer à une analyse spectrale de la photo envoyée et comparer les résultats à ceux d’une base de données la plus large possible. Première étape : des chercheurs du Huawei Noah’s Ark Lab, à Montréal, au Canada, spécialisé dans l’IA, viennent de bâtir une photothèque comportant 1,3 million de vrais clichés et autant de faux.
Identification biométrique
L’identification biométrique, comme celle proposée par TFH, constitue également une solution fiable mais très longue à mettre en oeuvre à l’échelle planétaire : TFH n’a scanné que 7 millions d’iris, essentiellement, en Amérique du Sud ; en Europe, elle fait l’objet d’une enquête des CNIL locales. En attendant, les 32 chercheurs d’OpenAI, Microsoft, Harvard, Berkeley, du MIT etc., proposent de mettre en place des PHC (PersonHood Credentials), « des certificats numériques qui permettent aux utilisateurs de prouver qu’ils sont des personnes réelles aux services en ligne auxquels ils souhaitent s’inscrire, sans divulguer d’informations personnelles. ». Des tiers indépendants seront chargés de vérifier les preuves (papier d’identité…) apportées par les impétrants.
Certifier l’origine
Second problème, donc : la certification de l’origine des contenus. Pour l’instant, il n’existe pas de solutions. Jusqu’ici, la validation des textes, des photos ou des vidéos mis en ligne reposait soit sur la détection d’un tatouage, un filigrane invisible (suites de mots, pixels…) volontairement introduit au moment de leur génération, soit sur leur analyse par une autre IA, tentant d’y déceler le style typique d’une GenAI : construction du texte, vocabulaire utilisé…
Exemple de tatouage : SynthID-text, partagé en open source fin octobre par des chercheurs de DeepMind, la filiale de Google spécialisée dans l’IA. « SynthID-text introduit des informations supplémentaires au moment de la génération du texte en modulant la probabilité que certains morceaux de phrase soient présents, sans compromettre la qualité du texte », explique, par mail, Pushmeet Kohli, en charge de la recherche chez DeepMind. Problème : il suffit le plus souvent de demander à une seconde IA de réécrire le texte rédigé par une première GenAI pour faire disparaître toute trace de filigrane ou tout style particulier…
La chasse au plagiat
La copie d’un contenu existant concerne aussi bien l’enseignement secondaire, le supérieur que les places de marché éditoriales. L’une de ces dernières, DCM Swiss, a collaboré avec Christophe Lebrun, de la Haute Ecole de Gestion de Genève, pour élaborer une méthode de validation des textes proposés par ses contributeurs. « Comme lorsque vous posez une question à ChatGPT, nous convertissons le texte en vecteurs, des points dans un espace numérique, qui permettent d’identifier des mots possédant le même sens, explique Christophe Lebrun. Cela permet de comparer le texte à une base de données, puis après traitement, de voir s’il y a plagiat ou pas. » À Aix-Marseille Université, des efforts sont menés pour repérer les « faussaires » non seulement parmi les productions des étudiants, mais aussi dans les publications du monde entier. « Certaines revues scientifiques prédatrices acceptent des articles générés par une IA, parfois enrichis de résultats expérimentaux fictifs, constate Ismail Badache, maître de conférences en informatique à l’Inspé (Institut national supérieur du professorat et de l’éducation) de cette université. Une liste noire de ces supports sans scrupule existe, mais un article bidonné peut aussi se glisser dans une revue sérieuse. » Rien ne remplace l’esprit critique.
Lire l’article complet sur : www.lesechos.fr
Leave A Comment