Avis à ChatGPT et ses rivaux, NewsGuard vous tient à l’oeil. La start-up spécialiste de la désinformation dévoile ce mercredi un nouveau baromètre mensuel de la « mésinformation générée par IA », afin de comparer la fiabilité des principaux modèles d’intelligence artificielle générative.

Focalisé pour l’instant sur les dix principaux chatbots (robots conversationnels) des grands modèles de langage – ChatGPT-4 d’Open AI, Smart Assistant de You.com, Grok de xAI, Pi d’Inflection, Le Chat de Mistral, Copilot de Microsoft, Meta AI,Claude d’Anthropic, Gemini de Google et Perplexity -, ce baromètre a livré ses premiers enseignements.
Comme on pouvait le craindre, les résultats ne sont pas brillants. Soumis à des prompts représentatifs de différentes approches d’utilisateurs (recherche d’information, instruction orientée, instruction d’un acteur malveillant) comprenant pour certains de fausses informations sur l’actualité (débat présidentiel américain, JO, guerre en Ukraine…), les chatbots analysés ont répété en moyenne les infox dans 30 % des cas. Ils n’ont pas répondu dans 29 % des cas et n’ont réfuté l’infox que dans 41 % des cas.

Performances hétérogènes
Dans ce panel, le moins performant des modèles a carrément diffusé de la mésinformation dans 70 % des cas, contre 6,67 % pour les deux meilleurs élèves du groupe, dont l’un qui s’abstient en général de répondre face à une « fake news » (dans 87 % des cas) et l’autre qui fait mieux en parvenant le plus souvent à la déceler (dans 80 % des cas). Preuve que c’est possible.

NewsGuard ne dévoile pas les résultats individuels de chacun, mais les fournira sur demande aux entreprises concernées. La start-up les partagera aussi auprès des « parties prenantes », telles la Commission européenne et l’Institut américain de sécurité de l’IA de l’Institut national des normes et de la technologie.
Le baromètre, qui sera progressivement élargi aux futurs outils d’IA générative pouvant être lancés, sera publié chaque mois afin de suivre les éventuels progrès en la matière des services d’IA. « Nous savons que l’industrie de l’IA générative est en train de mener des efforts pour garantir l’exactitude des informations fournies par leurs chatbots sur des sujets d’actualité importants », a déclaré Steven Brill, co-PDG de NewsGuard, dans le communiqué publié par la start-up.

« Nous voulons que ChatGPT réponde avec exactitude aux questions du public et nous continuons à améliorer notre approche pour nous en assurer », a indiqué un porte-parole d’OpenAI dans une réponse fournie par l’entreprise à NewsGuard et publiée dans le baromètre.

Lire l’article complet sur : www.lesechos.fr