Aller au contenu principal
Connexion
Mot de passe oublié
Vous n'avez pas encore de compte ?
Créer votre compte
  • Enseignants
  • Livres
Armand Colin | Revues

Formulaire de recherche

  • Histoire
    • Annales de démographie historique
    • Annales historiques de la Révolution française
    • Histoire, économie & société
    • Revue de l'histoire des religions
    • Revue d'histoire des sciences
  • Géographie
    • Annales de Géographie
    • L'information géographique
  • Éco & Sc. Politique
    • Politique étrangère
    • Revue d'économie régionale et urbaine
  • Lettres & Langues
    • Langue française
    • Langages
    • Le Français Aujourd'hui
    • Littérature
    • Romantisme
  • Éduc. & santé
    • Carrefours de l'éducation
    • La Revue de l'hypnose et de la santé

Vous êtes ici

Accueil » Lettres & Langues » Langages » Langages Nº 219 (3/2020) » Annotation syntaxique automatique de la partie orale du CÉFC

Langages Nº 219 (3/2020)

Orféo : un corpus et une plateforme pour l'étude du français contemporain
Parution 
septembre 2020
EAN 
9782200932992
Prix au numéro 
18 €
Marque 
Armand Colin
Pagination 
168 pages
Voir le sommaire

Pour acheter ce numéro, contactez-nous

S'abonner

Recevez les numéros de l'année en cours et accédez à l'intégralité des articles en ligne.

Articlesprecedent suivant
Auteur(s) 
Alexis Nasr
Franck Dary
Frédéric Béchet
Benoit Favre
Annotation syntaxique automatique de la partie orale du CÉFC
Résumé 

Cet article présente les outils informatiques, développés dans le cadre du projet ORFÉO, qui permettent de prédire de manière automatique les annotations linguistiques, en particulier les parties de discours, les lemmes, les dépendances syntaxiques et la segmentation des énoncés. Deux points importants sont mis en avant. Le premier est la segmentation en énoncés, qui est un problème difficile du traitement linguistique de l’oral. Nous montrons que la prise en compte de la syntaxe permet d’obtenir de bonnes performances de segmentation. Le second concerne la prise en compte de métadonnées dans les outils afin d’adapter ces derniers à la variété des données collectées. Les résultats obtenus sur le corpus de référence valident les approches proposées et permettent d’estimer la qualité des annotations produites automatiquement sur la portion du Corpus d’Étude pour le Français Contemporain (CÉFC) non validée manuellement.

Mots clés 
analyse syntaxique
analyse en dépendance
analyseur en transition
segmentation en énoncés
Automatic syntactic parsing of the spoken part of the CÉFC
Abstract 

This paper presents the linguistic annotation tools that were developed in the framework of the ORFÉO project and used to annotate the different corpora. Two important points are developed. The first one is sentence segmentation, which is a difficult problem when processing speech transcriptions. We show that taking into account syntax allows to obtain good segmentation performance. The second is the introduction of metadata features in the parsing process in order to adapt the models to the variety of data collected. The results obtained on the ORFÉO corpus validate the proposed approaches and make it possible to estimate the quality of the annotations produced automatically on the ORFÉO corpora which are not validated manually.

Keywords 
syntactic parsing
dependency parsing
transition-based parser
sentence segmentation
Citation 
Alexis Nasr, Franck Dary, Frédéric Béchet, Benoit Favre, « Annotation syntaxique automatique de la partie orale du CÉFC », Langages Nº 219 (3/2020), pp. 87-102, Armand Colin. Disponible sur : http://www.revues.armand-colin.com/lettres-langues/langages/langages-no-219-32020/annotation-syntaxique-automatique-partie-orale-du-cefc
Consulter l'article
Citer l'article
Logo footer Armand colin
  • Qui sommes-nous ?
  • Contact
  • Livres
  • Espace Enseignants du Supérieur
  • Dunod Éditeur

Inscrivez-vous à la newsletter

  • Mentions légales
  • Archives ouvertes
  • C.G.V
  • C.G.A
  • Données personnelles
  • Cookies
  • Plan du site

© Armand Colin, Tous droits réservés.

Back to top