Méthodologie d’harmonisation et de traitement des données orales du CÉFC

Christophe Benzitoun; Carole Etienne

Langages Nº 219 (3/2020)

Orféo : un corpus et une plateforme pour l'étude du français contemporain

Parution

septembre 2020

EAN

9782200932992

Prix au numéro

18 €

Marque

Armand Colin

Pagination

168 pages

Voir le sommaire

Pour acheter ce numéro, contactez-nous

Recevez les numéros de l'année en cours et accédez à l'intégralité des articles en ligne.

Auteur(s)

Christophe Benzitoun

Carole Etienne

Méthodologie d’harmonisation et de traitement des données orales du CÉFC

Résumé

Le CÉFC comprend des données de plusieurs sources différentes, ce qui permet d’observer au moins en partie la diversité du français. La résolution des problèmes inhérents à l’hétérogénéité de ces données est donc intrinsèque à la constitution de cette ressource et motivée par son objectif. Cet article décrira, étape par étape, l’approche méthodologique qui a permis de construire une ressource orale homogène en mutualisant différentes sources afin de procéder à des annotations automatiques cohérentes et de faciliter les analyses d’un corpus oral de plusieurs millions de mots.

Mots clés

corpus oraux

interopérabilité

métadonnées

transcription

format

Methodology to harmonize and process the oral data of CÉFC

Abstract

The CÉFC corpus includes data from several different sources to make observable the diversity of oral French at least partly, solving the problems inherent to the heterogeneity of these data is intrinsic to the constitution of this resource and motivated by its objective. This article will describe, step by step, the methodological approach that enables us to build a homogeneous resource by pooling these different sources in order to provide coherent automatic annotations and to facilitate the analysis of an oral corpus of several million words.

Keywords

oral corpora

interoperability

metadata

transcription

format

Citation

Christophe Benzitoun, Carole Etienne, « Méthodologie d’harmonisation et de traitement des données orales du CÉFC », Langages Nº 219 (3/2020), pp. 39-52, Armand Colin. Disponible sur : http://www.revues.armand-colin.com/lettres-langues/langages/langages-no-219-32020/methodologie-dharmonisation-traitement-donnees-orales-du-cefc

Consulter l'article

Citer l'article

DANS LA MÊME thématique