Identification de la langue et catégorisation thématique de textes d’un corpus multilingue en utilisant les réseaux de neurones artificiels RNA
No Thumbnail Available
Date
2013
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
FACULTE DES MATHEMATIQUES ET DE L’INFORMATIQUE-UNIVERSITE DE M’SILA
Abstract
De nos jours, les besoins de catégorisation automatique de documents en raison de l'augmentation constante du volume d'informations accessibles électroniquement, la conception et la mise en œuvre d'outils efficaces, permettant notamment à l'utilisateur de n'avoir accès qu'à l'information qu'il juge pertinente, devient une nécessité absolue. Comme la plupart de ces outils sont destinés à être utilisés dans un cadre professionnel, les exigences de fiabilité et de convivialité sont très importantes ; les problèmes à résoudre pour satisfaire ces exigences sont nombreux et difficiles.
Le but de nos travaux est de développer un modèle fondé sur l'apprentissage automatique pour la catégorisation multilingue de textes en utilisant la méthode de réseau de neurone artificielle, donc on peut distinguer deux grandes parties :
La catégorisation multilingue de textes.
La catégorisation thématique avec les réseaux de neurone artificielle.
La structure proposée du mémoire peut être présentée comme suit :
Dans le premier chapitre nous introduisons des notions générales sur les domaines de : Data Mining, Text Mining en donnant quelques définitions, les taches principales, les applications de chacun et surtout la relation entre l’apprentissage automatique et le Text Mining.
Le deuxième chapitre vise à présenter le processus de la catégorisation des textes, ainsi que les difficultés liées à cette catégorisation.
Le troisième chapitre est dédié à la présentation des différents algorithmes d’apprentissage automatique supervisée ainsi que leurs avantages et leurs inconvénients. Nous avons également introduit les différents moyens d’évaluation d’un classificateur.
Le quatrième chapitre en mettant l’accent sur l’algorithme utilisé dans notre travail : les réseaux de neurone artificiel.
Le cinquième chapitre expose les types de la catégorisation des textes multilingue, et un état de l’art qui présente en détail ce domaine.
Et le dernier chapitre permettra d’évaluer les performances des différentes approches implémentées en présentant les résultats obtenus avec interprétation.
Description
Keywords
Identification,catégorisation thématique ,corpus multilingue ,artificiels RNA