"Classification de textes pour la détection automatique de thèmes dans un système de trie automatique de réclamations "
U.F.R Sciences et Techniques
Université de Rouen
Par
M. Thierry PAQUET
Professeur à l'Université de Rouen France
ET
M. Laurent HEUTTE
Professeur à l'Université de Rouen France
Le service après vente ou le service client d'une entreprise est de plus en plus sollicité par la clientèle, par l'intermédiaire de courriers manuscrits notamment. En général, chaque courrier comporte des informations qui se rapportent à un thème bien spécifique et il est nécessaire à l'entreprise, avant le traitement de ces courriers, de les regrouper par thèmes. Hors le regroupement de ces courriers par des opérateurs humains est très long et fastidieux. La classification de ces courriers serait un grand avantage.
Le but du projet est de réaliser un module de classification automatique de textes pour la détection de thème dans un système de tri automatique du courrier tout venant. Dans une première étape, nous ferons une étude bibliographique sur les méthodes existantes de traitement de l'information en générale et en particulier les méthodes de catégorisation de texte. Ensuite, nous étudierons le système d'étiquetage de SWT que nous utiliserons pour extraire les documents qui vont servir à l'apprentissage de notre classifieur. Le classifieur que nous adopterons, sera testé non seulement sur la base de document de SWT mais aussi sur la base de documents Reuters-21578 , qui est une base gratuite et disponible sur le net. Nous allons en premier temps considérer le vocabulaire fourni par SWT comme espace de caractéristique. Ensuite, nous appliquerons des méthodes d'extractions de caractéristiques sur les documents pour extraire un autre vocabulaire qui soit plus judicieux que le premier.