Du multilinguisme vers la préservation de la diversité linguistique : une expérience d’apprentissage auto-supervisé

Micaela  Rossi; Danio  Maldussi; Moreno La Quatra

LANGAGES N° 237 (1/2025)

Intelligence artificielle, corpus et diversité linguistique

Parution

mars 2025

EAN

9782200936044

Prix au numéro

18 €

Marque

Armand Colin

Pagination

160 pages

Voir le sommaire

Pour acheter ce numéro, contactez-nous

Recevez les numéros de l'année en cours et accédez à l'intégralité des articles en ligne.

Auteur(s)

Micaela Rossi

Danio Maldussi

Moreno La Quatra

Du multilinguisme vers la préservation de la diversité linguistique : une expérience d’apprentissage auto-supervisé

Résumé

Dans cette contribution, nous nous proposons de décrire le comportement d’un système d’intelligence artificielle dans une phase de pré-entraînement, afin de vérifier l’hypothèse de Raus (2024), selon laquelle les grands corpus utilisés pour la phase de pré-entraînement des systèmes d’IA privilégient une variété « internationale » des grandes langues pluricentriques, contribuant par conséquent à une sous-représentation de la variation diatopique dans sa richesse ainsi qu’à un aplatissement des représentations linguistiques sur un modèle morphologique et syntaxique fortement influencé par la langue anglaise. Nous testerons cette hypothèse au moyen d’une brève étude exploratoire à l’aide de deux corpus et d’un dispositif élaborés dans le cadre du projet Artificial Intelligence for European Integration.

Mots clés

Intelligence artificielle

multilinguisme

variation diatopique

From Multilingualism to the Preservation of Linguistic Diversity : A Self-Supervised Learning Experiment

Abstract

In this contribution, we propose to describe the behaviour of an AI system in a pre-training phase, to verify R. Raus’s hypothesis (2024), according to which the large corpora used for the pre-training phase of AI systems favour an “international” variety of large pluricentric languages, thereby contributing to an under-representation of diatopic variation in all its richness, as well as to a flattening of these languages out to a morphological and syntactic model strongly influenced by the English language. We will test this hypothesis by a brief exploratory study, using two corpora and a system developed as part of the Artificial Intelligence for European Integration project.

Keywords

artificial intelligence

multilingualism

diatopic variation

Citation

Micaela Rossi, Danio Maldussi, Moreno La Quatra, « Du multilinguisme vers la préservation de la diversité linguistique : une expérience d’apprentissage auto-supervisé », LANGAGES N° 237 (1/2025), pp. 43-60, Armand Colin. Disponible sur : http://www.revues.armand-colin.com/lettres-langues/langages/langages-ndeg-237-12025/du-multilinguisme-preservation-diversite-linguistique-experience-dapprentissage-auto-supervise

Consulter l'article

Citer l'article

DANS LA MÊME thématique