Abstract:
Les progrès technologiques ont facilité l’acquisition et la collecte de nombreuses données.
Ces données peuvent être utilisées comme aide à la décision, conduisant au développement
d’outils capables de les analyser et de les traiter. Les systèmes de soutien diagnostique sont
considérés comme essentiels dans de nombreuses disciplines, basés sur des techniques
d’intelligence artificielle, mais les problèmes les plus intéressants sont souvent basés sur de
grandes données. Ces problèmes se rapportent à des situations où nous avons peu d’observations,
alors que le nombre de variables explicatives est très élevé. La sélection des variables est
devenue l’objet qui attire l’attention de nombreux chercheurs ces dernières années, cette
sélection permet d’identifier et d’éliminer les variables qui pénalisent la performance d’un
modèle complexe dans la mesure où elles peuvent être bruyantes, redondant ou non pertinent. En
outre, l’identification des variables pertinentes facilite l’interprétation et la compréhension des
aspects liés à l’application; ainsi, il permet d’améliorer la performance prédictive des méthodes
de classification et de ne pas tenir compte de l’organisme nuisible de la dimensionnalité élevée
de ces données.
Actuellement, l’approche par filtre est couramment utilisée pour analyser les données
biologiques, cette approche consiste à examiner la sélection des variables avant le processus
d’apprentissage et ne conserve que des caractéristiques informationnelles.
L’objectif de ce travail est de contribuer à la recherche et au développement de systèmes
innovants d’aide au diagnostic médical. Ce travail de simulation se concentre sur l’application de
techniques d’apprentissage statistique comme solution à la conception de ces systèmes par la
reconnaissance des formes. Dans le cadre de l’apprentissage contrôlé, la sélection des fonctions
permet d’obtenir des classificateurs précis.
Afin de mener une étude comparative permettant un choix décisif de la méthode la mieux
adaptée à l’application proposée, on évaluera pour les méthodes exposées les paramètres liés au
taux de reconnaissance, au temps d’apprentissage et à l’erreur d’entraînement.