A quelques jours de la Saint-Sylvestre, un des produits parmi les plus attendus de 2024 manque à l’appel. GPT-5, le dernier grand modèle (LLM) d’OpenAI, ne devrait finalement arriver que l’année prochaine. Cela fait pourtant des mois que les ingénieurs d’OpenAI travaillent d’arrache-pied pour sortir cette nouvelle version d’IA générative suffisamment innovante pour emballer une nouvelle fois la planète tech, après le succès des versions précédentes et deux ans après la sortie fracassante de ChatGPT .
Il semblerait que le projet – codé sous le nom d’Orion – soit plus complexe et beaucoup plus cher que prévu, comme l’explique le « Wall Street Journal », alors qu’OpenAI tente à tout prix de conserver son rôle de leader dans la course à l’IA générative, après avoir séduit les investisseurs cette année en atteignant 157 milliards de dollars de valorisation en octobre.
Matière première épuisée
Les cerveaux de la pépite de Palo Alto rencontrent en réalité un problème de taille : le manque de données. Pour améliorer les performances de ses grands modèles (LLM), OpenAI a, jusqu’à maintenant, pris le parti d’élargir le nombre de paramètres d’entraînement : 117 millions pour GPT-1, 1,5 milliard pour GPT-2, 175 milliards pour GPT-3 et 1.700 milliards pour GPT-4.
Les derniers grands modèles ont été entraînés sur l’immense source de données qu’est Internet afin de sortir des réponses les plus exactes possibles, malgré un taux d’erreur encore élevé. Parmi ces données, les sources primaires – ouvrages, travaux de recherche, presse, encyclopédies – ont déjà été avalées par les versions précédentes, et sont désormais taries.
Pousser plus loin la technologie nécessite désormais d’inclure les vidéos, les images, les sons dans les données d’entraînement, mais aussi créer de nouvelles sources primaires de qualité. Un travail de longue haleine : il a fallu des dizaines d’années pour parvenir à la richesse d’informations d’Internet.
OpenAI planche actuellement sur la fabrication de données synthétiques, un lot de data créée par l’IA elle-même pour entraîner l’IA. Des sources cependant susceptibles de favoriser les erreurs, d’après de multiples travaux de recherche, puisqu’elles fonctionnent par probabilité, et qui demandent la mobilisation de fonds humains et techniques (puissance de calcul) de plus en plus importants.
La start-up Writer , qui rêve de concurrencer OpenAI, s’est spécialisée sur cette verticale pour développer ses propres modèles. En 2024, le recours aux données synthétiques a dépassé l’usage des données de recherches scientifiques et des livres pour entraîner l’intelligence artificielle, d’après une étude menée par le consortium Data Provenance Initiative.
Des « idées géniales » mais pas de GPT-5
Pour espérer déboucher sur le prochain modèle frontière, il faut aussi avoir les poches profondes. Et l’argent, OpenAI n’en manque pas : soutenue par le géant Microsoft, multipliant les levées de fonds, la pépite semble avoir les cartes en main. Mais selon le « Wall Street Journal », les dernières phases d’entraînement de GPT-5 ont coûté incroyablement cher (puissance de calcul, puces GPU de Nvidia ) pour un résultat encore décevant.
Il avait fallu une centaine de millions de dollars pour entraîner GPT-4. Le développement de GPT-5 pourrait atteindre jusqu’au milliard de dollars. De quoi s’interroger sur les capacités d’OpenAI de rentabiliser, un jour, de tels investissements, alors que la start-up devrait déjà encaisser des pertes abyssales cette année .
Cette année, OpenAI a sorti o1, une version de son dernier modèle capable de « raisonner » , mais aussi Sora, son modèle de génération de vidéo. Malgré la sortie de GPT-o3 il y a quelques jours, une version encore plus poussée du modèle de raisonnement, la frontière technologique n’a pas encore été dépassée.
« Tous ces modèles sont devenus très complexes et nous ne pouvons pas livrer autant de choses en parallèle que nous le souhaiterions. Nous sommes également confrontés à de nombreuses limitations et à des décisions difficiles concernant l’allocation de nos ressources informatiques à de nombreuses idées géniales », avait écrit Sam Altman, le patron d’OpenAI, lors d’une session de questions-réponses sur Reddit en octobre.
Lire l’article complet sur : www.lesechos.fr
Leave A Comment