Abstract:
Les avancées technologiques ont facilité l’acquisition et le recueil de nombreuses données.
Ces données peuvent être utilisées comme support de décision, conduisant aux
développements d’outils capables de les analyser et de les traiter. Les systèmes d’aide au
diagnostic sont considérés comme étant essentiels dans beaucoup de disciplines, ces
systèmes reposent sur des techniques issues de l’intelligence artificielle mais les problèmes
les plus intéressants sont souvent basés sur des données de haute dimension. Ces
problèmes désignent les situations où nous disposons peu d’observations alors que le
nombre de variables explicatives est très grand. La sélection de variables est devenue
l’objet qui attire l’attention de nombreux chercheurs durant ces dernières années, cette
sélection permet d’identifier et d’éliminer les variables qui pénalisent les performances
d’un modèle complexe dans la mesure où elles peuvent être bruitées, redondantes ou non
pertinentes. De plus, la mise en évidence des variables pertinentes facilite l’interprétation
et la compréhension des aspects liés aux applications ; ainsi, elle permet d’améliorer la
performance de prédiction des méthodes de classification et de passer outre le fléau de la
haute dimensionnalité de ces données. L’approche filtre est couramment utilisée à ce jours
pour analyser les données biologiques, cette approche consiste à parcourir la sélection des
variables avant le processus de l’apprentissage et ne conserve que les caractéristiques
informatives.
L’objectif recherché dans le cadre de ce travail est une contribution à l’étude et au
développement de systèmes innovants d’aide au diagnostic médical. Consacré à la
simulation, ce travail vise l’application des techniques d’apprentissage statistique comme
étant une solution dans la conception de ces systèmes par reconnaissance de formes. Dans
le cadre de l’apprentissage supervisé, la sélection des caractéristiques permet d’obtenir des
classifieurs précis. L’approche filtre est fondée uniquement sur des données, elles
permettent à l’utilisateur d’entamer une analyse plus fine de ces données en augmentant la
transparence du modèle utilisant la méthode mRMR (Minimum Redondance, Maximum
Relevance). Pour la validation de données sélectionnées dans des bases d’apprentissage
biomédicales, nous testons leurs capacités et leurs taux de classification avec plusieurs
classifieurs. Afin de mener une étude comparative permettant un choix décisif de la
méthode la mieux adaptée à l’application proposée, on évaluera pour les méthodes
exposées les paramètres liés au taux de reconnaissance, au temps d’apprentissage et à
l’erreur d’entraînement.