Langages Nº 219 (3/2020)
Pour acheter ce numéro, contactez-nous
Recevez les numéros de l'année en cours et accédez à l'intégralité des articles en ligne.
Cet article présente les choix d’annotation syntaxique dans le cadre du projet ORFÉO. Un corpus de français parlé de plus de 180 000 mots a été annoté en syntaxe de dépendance à la main, puis un corpus de 3 millions de mots a été analysé automatiquement. Les choix d’annotation sont comparés avec ceux du projet RHAPSODIE, qui a précédé ORFÉO, avec UNIVERSAL DEPENDENCIES (UD), qui a démarré un peu après ORFÉO, et avec SURFACE-SYNTACTIC UD (SUD), qui est une synthèse des choix d’ORFÉO et d’UD. ORFÉO se caractérise par une prise en compte de la macrosyntaxe et des phénomènes de listes, ainsi que par un ‹tag set› restreint qui a permis une annotation rapide et plus facilement reproductible.
This article presents the syntactic annotation choices for the ORFÉO project. A corpus of Spoken French of more than 180 000 words was manually annotated in dependency syntax, then a 3 M word corpus was automatically parsed. The annotation choices are compared with those of the RHAPSODIE project, which preceded ORFÉO, with UNIVERSAL DEPENDENCIES (UD), which started shortly after ORFÉO, and with SURFACE-SYNTACTIC UD (SUD), which synthesizes ORFÉO and UD’s choices. ORFÉO is characterized by a consideration of macrosyntax and list phenomena, as well as a restricted tag set that allowed a quick and more easily reproducible annotation.