Une approche à base d’ontologies floues pour la fouille de données
Loading...
Date
2010-06-10
Journal Title
Journal ISSN
Volume Title
Publisher
University of M'sila
Abstract
La fouille de données vise à extraire des règles pertinentes à partir de bases
de données volumineuses. Le processus du data mining est un processus qui est à
la fois itératif et interactif, incluant le nettoyage de données, l'intégration de données,
la sélection de données, la transformation de données, l'exploration de données,
l'évaluation des motifs et la présentation de connaissances.
Il a été observé que la plupart des algorithmes de data mining génèrent un
grand nombre de motifs qui sont valides, mais évidents ou peu intéressants. Pour
cette raison des méthodes de filtrage sont nécessaires pour sélectionner les motifs
les plus intéressants. Les motifs sont pertinents selon des mesures d'intérêt
objectives qui évaluent les propriétés statistiques des modèles extraits, ou selon
des mesures d'intérêt subjectives qui confrontent les modèles extraits à des
connaissances exprimées sur le domaine.
L’utilisation de la connaissance préalable du domaine ou du processus dans le
domaine de data mining, peut aider à choisir les informations appropriés (pré
traitement), diminuer l'espace d’hypothèse (traitement), représenter les résultats
d'une façon plus compréhensible et améliorer le processus (post traitement). Dans
la phase (post traitement), l’intégration des connaissances du domaine dans le
processus du data mining, aide à évaluer la pertinence des motifs et de les exprimer
dans des termes concis et à des différents niveaux d'abstraction. Les ontologies
permettent une représentation formelle d’un domaine de connaissance, sous la
forme d’une terminologie hiérarchisée munie de relations sémantiques [Gru93a].
L'ontologie représente la connaissance avec les rapports entre les concepts. Elle est
organisée comme une hiérarchie DAG (Directed Acyclic Graph). Les concepts
hautement reliées sont regroupés ensembles dans la hiérarchie. Plus les concepts
sont éloignées plus ils sont moins reliés.
La connaissance par sa nature est lexicalement imprécise et non catégorique,
elle contient l'ambiguïté et le floue. L'ontologie floue a été introduite pour représenter
la connaissance dans tous les domaines dans lesquels les concepts à représenter
ont une définition imprécise. Au lieu d’appartenir ou non complètement à un concept
flou, une instance possède un degré d’appartenance. Les ontologies floues sont
capables de s'occuper de la connaissance floue [WY01] où les concepts sont en
relation entre eux dans l'ontologie, avec un degré d'appartenance μ (0≤μ≤1). Dans ce document on a présenté une nouvelle approche, pour classer les
motifs inattendus basée sur la distance conceptuelle. Dans un réseau sémantique
«IS-A», la forme la plus simple de déterminer la distance entre deux noeuds de
concept élémentaires, A et B, est le chemin le plus court qui relie A et B, c'est-à-dire
le nombre minimal d’arcs qui séparent A et B [RMBB89] ou la somme des poids des
arcs le long de ce chemin le plus court [RS95]. L’algorithme de classement proposé
utilise une ontologie floue pour calculer la distance des règles d’associations, sur
laquelle se base le classement. L’idée derrière notre approche est plus la règle est
décrite avec des concepts distants, plus la règle représente un degré d’intérêt élevé.
Ce travail constitue une contribution pour aider l'utilisateur à identifier les motifs les
plus intéressants.
Une étude de cas théorique d’ontologie floue de nourriture a été présentée
pour l’application de l’implémentation de notre approche, ainsi qu’une étude de cas
réel de recensement du revenu.
De nombreuses perspectives s’offrent à la suite de nos travaux à savoir :
L’intégration de notre approche dans l’algorithme de calcul des patterns comme
l’algorithme a- priori en définissant un seuil de distance. Cela permet de réduire
considérablement le nombre de règles.
La prise en compte d’autres types de relation dans le calcul de la distance interconcept
et dans la pondération des arcs.
Utilisation d’autre type de distance autre que « edge counting » et d’autre
catégorie de mesure tel que les mesures basées sur le contenu d’l’information.
L’étude de notre approche avec d’autre type de motifs, à savoir les motifs
séquentiels.