Si la voix est le reflet de l’âme, elle est aussi celui de nos émotions. Et elle n’aura peut-être bientôt plus de secret pour l’intelligence artificielle. Le cabinet Axys a ainsi développé une IA susceptible d’identifier l’état émotionnel d’une personne grâce à l’analyse de sa voix. Le logiciel devrait être présenté en avant-première à l’occasion du prochain Salon VivaTech .
Axys a développé cette application à partir de Smart Report, son logiciel de rédaction de comptes rendus et de synthèse de réunions développé en interne sur la base de deux intelligences artificielles du marché : Whisper pour la reconnaissance vocale et ChatGPT pour la synthèse.
Pour développer cette brique supplémentaire liée aux émotions, Axys s’est appuyé sur les compétences du Laboratoire interdisciplinaire des sciences du numérique (LISN) de l’université Paris-Saclay, qui fait autorité en la matière. L’algorithme a été entraîné grâce à l’apprentissage supervisé dans lequel l’être humain guide l’intelligence artificielle.
Tonalité plus ou moins positive
« Nous avons utilisé un corpus de 470 conversations téléphoniques provenant d’un centre d’appels spécialisé dans l’aide aux salariés ayant un problème à l’occasion d’un voyage d’affaires. Nous avons fait une sélection de celles dégageant le plus d’énergie », précise Jean-Marc Guidicelli, directeur associé d’Axys. Toutes ces conversations, préalablement anonymisées, ont ainsi été annotées par des spécialistes qui ont décrit l’évolution de l’état émotionnel de chaque interlocuteur (colère, calme, joie, tristesse, nervosité, surprise…) avant d’être soumise à l’IA afin qu’elle s’entraîne.
« Chacun d’entre nous ayant sa propre perception des émotions, les conversations ont été annotées par plusieurs personnes. Nous avons ensuite réalisé une moyenne », précise Jean-Marc Guidicelli. Pour offrir davantage de facilité de lecture, les conversations sont présentées sous forme d’un graphe avec deux courbes. L’une indiquant les variations de l’intensité de la voix et l’autre sa tonalité plus ou moins positive.
Milliers d’heures d’enregistrement
Une démonstration effectuée sur le sketch « le licenciement » joué par les deux humoristes Omar et Fred est assez saisissante. La retranscription en temps réel est non seulement précise, mais le logiciel décrypte bien l’évolution de l’état émotionnel de chacun des deux personnages et la façon dont le stress et la tension montent.
Pour cette IA à laquelle il n’a pas encore donné de nom, Axys a identifié un premier cas d’usage avec le marché des centres d’appels qui possèdent des centaines, voire des milliers d’heures d’enregistrement. « Ce genre d’outil permet de repérer automatiquement les moments où le client passe du stress à la satisfaction. L’être humain prend ensuite pour analyser ce qui dans le comportement de l’opérateur a permis ce changement », explique Jean-Marc Guidicelli.
Le cabinet compte toutefois sur sa présence sur le Salon pour identifier d’autres marchés potentiels comme le monde de l’automobile. « Nous restons très ouverts, même si je pense qu’il faudra rester prudents avec ce genre de technologie et rester dans le domaine de l’aide à la décision. On peut en effet imaginer des systèmes qui cherchent, grâce à l’analyse des émotions, à influencer. Il y a des limites à ne pas dépasser et l’éthique doit veiller à ce que l’être humain garde le dernier mot », explique Jean-Marc Guidicelli.
Lire l’article complet sur : www.lesechos.fr
Leave A Comment