Très courante dans la recherche en intelligence artificielle depuis des décennies, la pratique du « benchmark » compte maintenant des dizaines d’examens pour passer en revue les modèles et chatbots de l’IA générative. Le fameux test de Turing des années 1950 a ainsi laissé la place au plus connu d’entre eux, le MMLU.

Imaginé par des universitaires américains pour « mesurer la compréhension massive du langage multitâche » il soumet les modèles à 57 tâches, notamment des exercices de mathématiques ou d’histoire des Etats-Unis. D’autres bancs d’essais se concentrent sur la capacité d’un modèle à synthétiser, à coder ou à éviter les affirmations toxiques.
« Ces tests sont très utiles pour savoir où en est la recherche, c’est par exemple grâce à ce type de tests qu’on peut observer les avancées de chaque génération de modèles en programmation ou en raisonnement », relève Clémentine Fourrier, chercheuse chez Hugging Face. Force aussi est de constater que des modèles plus petits, et plus économes en énergie, obtiennent aujourd’hui les mêmes notes que de plus gros modèles il y a seulement un an.

Iniquité
Mais la spécialiste émet aussi des réserves, pointant de possibles triches, au pire des cas, ou tout simplement une forme d’iniquité. « Il est impossible de savoir si les entreprises font passer les tests dans les mêmes conditions », poursuit-elle. Ainsi, Google avait en fin d’année dernière comparé des pommes et des oranges en affirmant que son Gemini surpassait GPT-4. En réalité, l’instruction fournie à son modèle en début de test était beaucoup plus détaillée que celle donnée par OpenAI à son propre modèle.
Les experts s’accordent sur un point : le choix d’un modèle pour les entreprises ne peut se faire au seul prisme des tests mais bien au cas par cas. « Tout dépend des usages. Pour la synthèse, OpenAI, c’est fabuleux. S’il faut des données actualisées, on préférera Gemini aux modèles disponibles sur Microsoft. Mais on privilégiera aussi parfois des petits modèles comme Mistral 7B ou LLaMA qui hallucinent moins que les plus gros, notamment pour les entraîner sur les bases de données des clients », égrène Jérôme Malzac, le directeur de l’innovation de Micropole, une entreprise française de services numériques.
Lorsque les projets impliquent un grand nombre de requêtes de la part des utilisateurs, le coût des ressources informatiques entre aussi en ligne de compte. La question intéressera alors de près les autorités de la concurrence qui enquêtent sur le secteur. Il devient souvent plus intéressant pour une entreprise de passer par les modèles en partenariat avec les champions de l’informatique en ligne comme Microsoft, Amazon ou Google, plutôt que de s’appuyer sur ses propres serveurs.

Lire l’article complet sur : www.lesechos.fr