OpenAI fait passer un cap aux assistants vocaux avec GPT-4o

On croyait une scène tout droit sortie d’« Her », une comédie romantique où Scarlett Johannson prête sa voix à une intelligence artificielle. Le dernier modèle d’OpenAI, GTP-4o, est capable d’interagir avec fluidité avec un utilisateur, d’analyser un flux vidéo en direct, de répondre dans une autre langue, d’expliquer du code et des équations… Sa facilité d’utilisation pourrait faire la différence face aux concurrents, de plus en plus nombreux, de l’entreprise californienne.

C’est Mira Murati, la directrice de la technologie d’OpenAI, qui a présenté le nouveau modèle depuis leurs locaux de San Francisco, parmi des fauteuils moelleux et des plantes vertes. La conférence, qui a duré une demi-heure lundi, a été retransmise en direct, mais les journalistes n’avaient pas été conviés sur place.

Ce nouveau modèle est deux fois plus rapide que le précédent, GPT 4 Turbo, selon OpenAI. Il coûte aussi moins cher. Ce nouveau produit ringardise des assistants vocaux tels qu’Alexa et Siri. L’entreprise dirigée par Sam Altman, qui a été valorisée 80 milliards de dollars, veut montrer sa capacité à rester à la pointe de l’innovation dans l’IA générative, tout en gagnant de l’argent avec ses modèles.

« Facilité d’utilisation »
« Pour la première fois, nous faisons un énorme pas en avant en matière de facilité d’utilisation », a commenté Mira Murati, avant de dévoiler le nouveau produit. ChatGPT, le robot conversationnel grand public lancé en novembre 2022 par l’entreprise de San Francisco, compte désormais plus de 100 millions d’utilisateurs hebdomadaires.
Son nouveau modèle se distingue principalement par sa capacité à jongler entre le texte, l’audio et l’image. Il est capable d’intégrer tous ces éléments dans son raisonnement, et de donner une réponse selon des modalités diverses. Cela représente un pas en avant vers des « agents » fonctionnant à l’IA, qui pourront s’appuyer sur ce que voit l’utilisateur pour analyser en direct une situation.
Avant la conférence, certains commentateurs s’attendaient à ce qu’OpenAI annonce un accord avec Apple. L’entreprise dirigée par Sam Altman s’est contentée d’annoncer le lancement d’une application pour Mac. La démonstration était en outre réalisée sur un MacBook. Un signal qui n’est pas neutre alors que Microsoft, un rival d’Apple, a investi plus de 10 milliards de dollars dans la start-up.

Equations et émotions
Le dernier-né d’OpenAI se distingue des modèles précédents par sa capacité à dialoguer avec un utilisateur. Il est capable d’exprimer des émotions en déclamant un texte avec emphase, par exemple, ce qui donne l’impression de parler à une personne réelle. Il est désormais possible de lui couper la parole si le robot ne fournit pas la réponse voulue.

Lorsqu’on lui présente une équation mathématique en vidéo, l’IA explique comment la résoudre, tout en essayant d’encourager l’utilisateur, comme le ferait un bon professeur. Elle peut aussi analyser du code informatique et expliquer à quoi il sert, de façon claire. Enfin, le modèle est capable de traduire en temps réel, de l’italien vers l’anglais par exemple.
Destiné à remplacer son modèle gratuit GPT-3.5 et sa version payante GTP-4.0, cette dernière itération inaugure un changement de modèle économique. GPT-4o sera en effet ouvert à tous, même si son usage sera limité pour les utilisateurs gratuits. Une interface de programmation (API) permettra également de l’intégrer à des applications tierces.

Disponible en priorité pour les abonnés à ChatGPT Plus, ce nouveau modèle sera déployé plus largement « d’ici quelques semaines », a affirmé Mira Murati, sans donner plus de précision.

Lire l’article complet sur : www.lesechos.fr