Classification des données non équilibrées

No Thumbnail Available

Date

2015

Journal Title

Journal ISSN

Volume Title

Publisher

FACULTE DES MATHEMATIQUES ET DE L’INFORMATIQUE - UNIVERSITE DE M’SILA

Abstract

Dans ce mémoire, on a étudié le problème de la classification des données non équilibrées. En effet, le biais de données affecte et dégrade les performances des classifieurs. On a choisis des bases de données du domaine médicales. Trois méthodes ont été testées pour équilibrer les données (suréchantillonage, souséchantillonage , hybride ). Pour la tache de classification, trois algorithmes ont été appliqués et évaluer (le naive bayésien, le plus proche voisin, les arbres de décisions).Les résultats montrent que le meilleur algorithme de classification de ces bases de données dans le domaine médicale est l’arbre de décision qui performe mieux que les autres, et la meilleur méthode d’échantillonage est le sur échantillonnage avec SMOTE .

Description

Keywords

Classification supervisé, Imbalanced Data, SMOTE, oversampling, undersampling, Data Mining.

Citation

Collections