LANGAGE S N° 234 (2/2024)
Pour acheter ce numéro, contactez-nous
Recevez les numéros de l'année en cours et accédez à l'intégralité des articles en ligne.
Cette contribution présente une étude sur la détection d’émotions et de mélanges d’émotions dans un corpus collecté dans un centre d’appels d’urgence à Paris (CEMO). Notre corpus, enregistré ‹in the wild›, est riche en diversité vocale (âge, accent, nombre de locuteurs) et est annoté avec un schéma original qui représente jusqu’à deux émotions par segment. Des tests avec des systèmes utilisant des Transformers audio spécifiques adaptés à CEMO sur une partie des émotions non mixtes ont permis d’obtenir un score de détection (Accuracy) de 56.7 % pour 4 classes (peur, neutre, positif, tristesse) surpassant ceux obtenus avec des approches plus classiques basées sur des caractéristiques prosodiques expertes. Des tests supplémentaires ont été effectués sur une partie de CEMO avec des émotions mixtes, mettant en évidence certains des défis à relever, en particulier la prise en compte du contexte de l’interaction.
This contribution presents a study on the detection of emotions and mixtures of emotions in a corpus, CEMO, collected from a Parisian emergency call center. Our corpus, recorded ‹in the wild›, is rich in voice diversity (age, accent, number of speakers) and is annotated with an original scheme that represents up to two emotions per segment. Tests on a portion of CEMO’s unmixed emotions with systems using audio-specific Transformers adapted to the CEMO corpus obtained a detection score (Accuracy) of 56.7% for 4 classes (fear, neutral, positive, sadness) surpassing those obtained with more classical approaches based on expert prosodic features. Additional tests were carried out on a portion of the CEMO corpus with mixed emotions, highlighting some of the outstanding challenges, in particular how to take into consideration the context of the interaction.