
Langages Nº 240 (4/2025)
Pour acheter ce numéro, contactez-nous
Recevez les numéros de l'année en cours et accédez à l'intégralité des articles en ligne.
Cette étude présente une approche interdisciplinaire de la reformulation sous-phrastique médicale en linguistique et les enjeux dans le contexte actuel du Traitement Automatique des Langues (TAL) et de la génération automatique de textes avec des Grands Modèles de Langues (LLMs). Nous mettons en avant les difficultés d’identification automatique de la reformulation sous-phrastique et l’importance de l’équivalence sémantique entre le terme médical et sa reformulation. Les outils d’IA générative de type CHATGPT sont utilisés par le grand public pour obtenir des explications à des questions de santé, ce qui attire l’attention sur le risque de considérer des textes incorrects, dits « hallucinatoires », comme étant la vérité médicale. Dans le TAL, des méthodes hybrides de recherche d’information de type Retrieval Augmented Generation (RAG) peuvent assurer l’accès à une reformulation médicale correcte.
This study presents an interdisciplinary approach to medical sub-sentential paraphrases and the issues at stake in the current context of Natural Language Processing (NLP) and automatic text generation with Large Language Models (LLMs). We present the difficulties that arise in the automatic identification process of sub-sentential paraphrases and we highlight the importance of semantic equivalence between the medical term and its paraphrase. Generative AI tools such as CHATGPT are used by the general public to obtain explanations to health questions, which draws attention to the risk of considering incorrect or “hallucinatory” texts as the medical truth. In NLP, hybrid methods of information retrieval such as Retrieval Augmented Generation (RAG) can provide access to a correct medical reformulation.