Étude sur la normalisation lexicale de contenus produits par les utilisateurs

Abstract

L’essor du traitement automatique des langues (TAL) se vit dans un monde où l’on produit de plus en plus de contenus en ligne. En particulier sur les réseaux sociaux, les textes publiés par les internautes sont remplis de phénomènes « non standard » tels que les fautes d’orthographe, l’argot, les marques d’expressivité, etc. Ainsi, les modèles de TAL, en grande partie entraînés sur des données « standard », voient leur performance diminuer lorsqu’ils sont appliqués aux contenus produits par les utilisateurs (User-Generated Content, UGC). L’une des approches pour atténuer cette dégradation est la normalisation lexicale : les mots non standard sont remplacés par leurs formes standard. Dans cet article, nous réalisons un état de l’art de la normalisation lexicale des UGC. Nous discutons de ses avantages, limites et perspectives de travaux de recherche, ainsi que de sa pertinence dans l’avenir du TAL : les modèles actuels étant déjà très robustes aux UGC, la normalisation lexicale reste utile dans des contextes de ressources limitées, ou pour des études sociolinguistiques.

Publication
Traitement Automatique des Langues, Volume 64-2, pages 11-37

To Appear

Lydia Nishimwe
Lydia Nishimwe
PhD Candidate

I am a PhD candidate currently working on the neural machine translation of user-generated content (e.g. social media posts).

Related