
Langages Nº 219 (3/2020)
Pour acheter ce numéro, contactez-nous
Recevez les numéros de l'année en cours et accédez à l'intégralité des articles en ligne.
L’article présente les principes et les critères qui ont présidé à l’élaboration de la table des parties du discours et à l’organisation du lexique correspondante, mis en oeuvre dans l’analyse syntaxique automatique du corpus ORFÉO. La comparaison est établie avec le Lexique des Formes Fléchies du Français (LEFFF) utilisé dans d’autres outils de traitement automatique du langage. Les enjeux linguistiques et informatiques sont abordés. Un développement particulier est consacré au traitement des locutions ou expressions multi-mots. Des perspectives d’amélioration sont envisagées.
The paper discusses the principles and criteria used in elaborating the POS tagset and the structure of the corresponding lexicon at use for the automatic parsing of the ORFÉO corpus. This architecture is compared with the current Lexique des Formes Fléchies du Français (LEFFF) dictionary, available under open source license. The linguistic and natural language processing challenges are dwelled on. A specific attention is devoted to the processing of multiword expressions. Some ways of improvement of the system are provided.

