Classification des données non équilibrées
No Thumbnail Available
Date
2015
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
FACULTE DES MATHEMATIQUES ET DE L’INFORMATIQUE - UNIVERSITE DE M’SILA
Abstract
Dans ce mémoire, on a étudié le problème de la classification des données non
équilibrées. En effet, le biais de données affecte et dégrade les performances des classifieurs.
On a choisis des bases de données du domaine médicales. Trois méthodes ont été testées pour
équilibrer les données (suréchantillonage, souséchantillonage , hybride ). Pour la tache de
classification, trois algorithmes ont été appliqués et évaluer (le naive bayésien, le plus proche
voisin, les arbres de décisions).Les résultats montrent que le meilleur algorithme de
classification de ces bases de données dans le domaine médicale est l’arbre de décision qui
performe mieux que les autres, et la meilleur méthode d’échantillonage est le sur
échantillonnage avec SMOTE .
Description
Keywords
Classification supervisé, Imbalanced Data, SMOTE, oversampling, undersampling, Data Mining.