OpenAI se lance dans la vidéo. L’entreprise située à San Francisco vient d’annoncer le lancement, auprès d’un public restreint, d’un nouvel outil utilisant l’IA générative pour créer des vidéos. Baptisé « Sora », il est capable de générer des films d’une minute à partir d’une brève description.

Cet outil n’est pas encore accessible au grand public, pour des raisons de sécurité. Mais ces vidéos semblent être d’un réalisme remarquable. OpenAI n’est pas la première entreprise à se positionner sur le créneau de l’IA pour la vidéo. Une autre start-up, Runway, a lancé en juin dernier Gen-2, qui est capable de produire des séquences de quelques secondes. Google et Meta travaillent eux aussi à leurs propres outils, qui ne sont pas encore publics.

Des vidéos longues d’une minute
Mais OpenAI semble avoir une longueur d’avance sur ses rivaux. Sur son site Web, l’entreprise a publié plusieurs exemples de vidéos, accompagnées du texte utilisé pour les générer. Son patron, Sam Altman, a demandé aux utilisateurs de X (ex-Twitter) de lui envoyer des idées de prompts, afin de montrer toute l’étendue des capacités du modèle.
L’une des vidéos publiées sur le site d’OpenAI montre des mammouths laineux avançant à travers un paysage enneigé. Une autre représente une femme japonaise en robe rouge, marchant dans une rue de Tokyo, qui semble filmée sous plusieurs angles. Une autre encore, qui ressemble aux films de studios d’animation, montre un petit monstre duveteux se réchauffant les mains à la flamme d’une bougie.
Sur X, les internautes ont laissé libre cours à leur imagination. L’un d’entre eux a demandé à Sam Altman de produire une vidéo de « golden retrievers en train d’enregistrer un podcast au sommet d’une montagne ». Un autre réclame « une course à vélo sur l’océan avec des animaux comme athlètes, filmée par un drone ». L’IA s’exécute, et le résultat est complètement surréaliste.

Période de test
Pour l’instant, tout le monde ne peut pas profiter de cette nouvelle fonctionnalité. A l’heure actuelle, OpenAI réserve l’accès à ce modèle à des experts de la désinformation et de la haine en ligne. Ces derniers vont tester le modèle en lui demandant de créer des contenus jugés inacceptables, afin de voir comment celui-ci réagit.
OpenAI veut fixer des garde-fous à Sora afin que le modèle refuse de fabriquer des vidéos comportant de « l’extrême violence, du sexe, des images haineuses, des célébrités ou du contenu protégé par le droit de la propriété intellectuelle ». L’entreprise a également donné accès à ce nouvel outil à des professionnels de l’image – artistes visuels, designers et réalisateurs – afin de comprendre comment ces derniers l’utilisent.

Désinformation
Des premières critiques se font déjà entendre. « Cet outil est indéniablement performant, mais je vois deux utilisations possibles », réagit Sasha Luccioni, chercheuse chez Hugging Face. « Premièrement, nous vendre plus de choses (avec de la publicité). Et deuxièmement, fabriquer des contenus non consensuels ou qui induisent en erreur afin de manipuler ou de harceler des personnes en ligne. Pourquoi est-ce que tout le monde est enthousiaste ? »
L’IA générative en général, et la vidéo en particulier, nécessite d’entraîner les modèles sur des quantités gigantesques de données. Cet entraînement est effectué dans des centres de données, qui consomment énormément d’énergie, et émettent donc des gaz à effet de serre, pointe aussi la spécialiste. OpenAI ne donne quasiment aucun détail sur ses opérations.

Bases de données
On ne sait pas non plus comment l’entreprise californienne parvient à obtenir de meilleurs résultats que ses concurrents. Mais elle a signé un accord avec Microsoft qui lui donne notamment accès aux centres de données du géant de Seattle.
Par le passé, elle a réussi à atteindre des résultats exceptionnels en entraînant ses modèles sur des bases de données bien plus grandes que celles de tous ses rivaux. La technologie derrière ChatGPT repose aussi sur l’intervention humaine : en signalant aux modèles quelles sont les meilleures réponses, il est possible d’améliorer la qualité des résultats.
Dans le cas de la vidéo, OpenAI a eu accès aux données de Shutterstock, grâce à un partenariat prolongé en juillet dernier. Sur X, Brian Merchant, un ancien éditorialiste au Los Angeles Times, pointe des similitudes entre certaines des vidéos publiées par l’entreprise et des films disponibles sur la base d’images.

Entraînement
Sora repose sur le même principe que ChatGPT, le chatbot d’OpenAI lancé fin 2022. Ces deux modèles sont entraînés sur des bases de données, textuelles ou visuelles. Ils apprennent à prédire quel sera le prochain mot dans une conversation, ou la prochaine image dans un film.
Dans le cas de Sora, l’entraînement se fait sur des images découpées en « patches », des petits morceaux séquentiels, plus faciles à analyser par l’IA. Ce qui permet par ailleurs à OpenAI d’entraîner son modèle sur des vidéos de longueurs et de formats variés. Une astuce précieuse pour tirer parti du maximum de données possibles.

Avant même la publication de Sora, des artistes ont commencé à utiliser l’IA générative pour créer des courts-métrages, qui se caractérisent pour l’instant par une certaine impression d’étrangeté. Mais à terme, certains espèrent que la technologie leur permettra de partager plus facilement leurs idées sur Internet, voire d’être repérés par des producteurs hollywoodiens.

Lire l’article complet sur : www.lesechos.fr