blog proposé par Guy Barrier

blog proposé par Guy Barrier
Guy Barrier, expert en communication non verbale - publications et activités: pointer la photo

jeudi 2 décembre 2010

avatars conversationnels: du robot parlant à l’humanoïde réactif et sensible



Un évènement de fin d'année dans le domaine du motion design  est l'élection du meilleur chaterbot ,  intitulée MissClient 2011 . Il s'agira pour le jury  de départager une vingtaine de robots parlants (dont 3 messieurs seulement  ...)   selon des critères d'ergonomie  mais aussi de présence sociale .  Evènement intéressant car il démontre que ces artefacts  engendrent des impressions de qualité variable en fonction de leurs compétences dialogique et de leur réalisme expressif. Ces questions de qualité communicationnelle  constituent  d’ailleurs un thème de recherche parallèle à la modélisation des avatars intelligents, dont on mesure parfois les effets cognitifs et sociaux.



Rappelons que depuis une dizaine d’années les études scientifiques sur le non verbal sont fortement  (et financièrement) déterminées par un axe qui a encore un bel avenir , celui de la conception d’avatars conversationnels. Ces recherches sont importantes pour la connaissance du geste humain car elles permettent à des experts en CNV de collaborer avec des spécialistes d’intelligence artificielle . De telles synergies restimulent régulièrement les réflexions et théories dans le champ de l’expression des gestes et des émotions. Elles ouvrent vers des questionnements originaux tels que  : comment modéliser sur un visage des émotions mélangées. Par exemple joie + déception (nous pouvons ressentir simultanément des inclinations différentes devant tel évènement, ou être amenés socialement à masquer une émotion par une autre ).


Des machines à dialoguer… et à négocier

Souvent utilisés comme métaphore d'une hôtesse d'accueil, d'un formateur , d'un guide... les agents virtuels sont théoriquement capables de comprendre le langage écrit et d’engager le dialogue en temps réel avec un être humain . L’internaute qui visite un site, entend soudain un « bonjour ! »  venu d’un coin de l’écran ( ce qui parfois peut faire sursauter ) puis voit s’afficher une créature  aguichante qui met discrètement le pied dans la porte: " puis-je vous aider ?"   L'utilisateur peut ou non accepter le dialogue, souvent l'avatar est chahuté ou on teste ses connaissances.
Petit exemple d’un chatbot volubile , qui n’appartient pas à la catégorie des agents émotionnels autonomes, mais a un certain sens de la réplique  (relativement à ses concurrents) :
http://www.jeanneton.blueinfos.com/

A minima l’effet de curiosité permet donc au personnage d'engager le dialogue,   de manière semi-directive:  certains prototypes sont dotés de procédures de négociation héritées des théories des actes de langage, et sous-tendues par des arbres de décision qui se resserrent progressivement vers des actions incitatives .  En clair, le premier objectif de l’agent virtuel sur un site commercial est d'éviter l’abandon du panier.

Mais ces personnages ludiques sont ils systématiquement acceptés ?  Avant  d'examiner plus loin les perceptions de leur gestuelle , se pose le problème de leur utilisabilité. En raison de leurs  compétences sémantiques parfois décevantes , ils peuvent agacer l’utilisateur lorsqu’ils bloquent devant une question simple ou répondent « je ne vous comprends pas, je suis jeune stagiaire ». Frustration compréhensible car ils  sont conçus pour gérer des requêtes en langage naturel et ne devraient pas lui demander plus de temps qu’une requête menée sur  un moteur . La présence d'un tel avatar est-elle alors justifiée sur le portail d'accueil ? Autrement dit s'agit-il d'afficher un faire-valoir communicationnel , ou bien de privilégier la pertinence en  recherche d'information ? 


Les agents conversationnels animés , une sémiologie des effets produits

Un autre objectif des concepteurs est le réalisme de l’ expression corporelle  . Ceci est alors le domaine des Agents conversationnels animés (ACA)  à côté desquels les chatbots , plutôt forts en verbe, font figure de "cartoon" basique.  L’ apparence humaine des ACA est toujours contrôlée par le programme même lorsqu’ils sont silencieux , à l’écoute : posture , mouvements de tête légèrement animés, clignements…  Ensuite les séquences de gestes doivent s’enchainer de manière cohérente et non discontinue afin de  ne  pas desservir la parole mais l’illustrer , et exercer une  redondance visuelle pour capter l’attention .  Certaines catégories gestuelles sont plus  complexes à modéliser que d’autres : les pointeurs directionnels, clignements des yeux, gestes de repos et autocentrés, mouvements de tête, soulèvent moins de problèmes que la connexion d’un geste métaphorique avec le mot  qu’il doit illustrer (mais certains agents savent faire) .

Autre type d'enjeu, synchroniser  sur les pics d’intonation,  les gestes prosodiques adéquats.  On évalue à ce genre de problème la difficulté de modéliser le pathos et la vibration infime qui font la trame sensible de la parole humaine.  En contrepartie certains ACA révèlent des émotions « robustes » au niveau du visage  : les unités faciales peuvent être très finement paramétrées grâce à des modèles de logique floue .  Un sourire franc saura être  modélisé différemment d’un sourire de politesse ou d’embarras (par sa symétrie, intensité...) . En outre lors d’une émotion toutes les unités faciales caractéristiques de celle-ci ne sont pas activées avec la même intensité au même moment  car c'est un continuum (ex degrés de froncement du sourcil , ouverture de la bouche ) : des graphes  permettent de visualiser les pourcentages paramétriques de l’émotion dans son déroulement temporel pour extraire de cette segmentation en micro-expressions, le pattern le plus typique .

Puis n'oublions pas dans le ressenti relationnel , que la voix d'un tel personnage va rapidement « sauter aux oreilles» : une  voix synthétisée avec une fréquence fondamentale constante, est perçue comme artificielle , métallique, et fait encore plus  ‘robot’  lorsque l'articulation des lèvres suscite une perception désynchronisée. .

Le regard  , enfin, est un paramètre d’impression très élevé . Parvenir à restituer une expression des yeux 100% naturelle de la part d’une créature synthétique relèverait  du prodige . Le regard de certains avatars dégage des impressions d’étrangeté, de « regard fixe, vide, hagard, vague … »  . La représentation graphique de la pupille , sa taille , sa motilité,  modifient fortement les perceptions. Autres impressions à contrôler: la programmation directionnelle de ce regard peut induire l’impression qu’il est trop insistant ( regard frontal trop prolongé) ou à l’inverse fuyant (oblique, vers le bas…)
 


L'analyse fine des connotations de toutes ces variables expressives devrait être idéalement, toujours menée en parallèle de la conception. Le réalisme  du paraverbal est un élément important pour que fonctionne l’interactivité entre l’ACA et l’utilisateur .


A ce sujet un nouveau prototype , Sensitive Artificial Listener a pour objectif de modéliser fidèlement l'interaction  avec l'humain (ce qui est autrement complexe que de répondre à des frappes de clavier). Il devra être capable d’interpréter les signes émotionnels fournis par l’utilisateur via une webcam intelligente (voix, regard, visage...) afin d’adapter son propre comportement et d’entretenir le plus naturellement  une synchronie dans le dialogue. Un objectif ambitieux, qui commence à révéler des résultats.  Pour en savoir plus:  :http://www.semaine-project.eu/