Browsing by Author "Hamani, Mohamed Said"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
Item Open Access Une approche à base d’ontologies floues pour la fouille de données(University of M'sila, 2010-06-10) Hamani, Mohamed Said; Rapporteur: Maamri, RamdaneLa fouille de données vise à extraire des règles pertinentes à partir de bases de données volumineuses. Le processus du data mining est un processus qui est à la fois itératif et interactif, incluant le nettoyage de données, l'intégration de données, la sélection de données, la transformation de données, l'exploration de données, l'évaluation des motifs et la présentation de connaissances. Il a été observé que la plupart des algorithmes de data mining génèrent un grand nombre de motifs qui sont valides, mais évidents ou peu intéressants. Pour cette raison des méthodes de filtrage sont nécessaires pour sélectionner les motifs les plus intéressants. Les motifs sont pertinents selon des mesures d'intérêt objectives qui évaluent les propriétés statistiques des modèles extraits, ou selon des mesures d'intérêt subjectives qui confrontent les modèles extraits à des connaissances exprimées sur le domaine. L’utilisation de la connaissance préalable du domaine ou du processus dans le domaine de data mining, peut aider à choisir les informations appropriés (pré traitement), diminuer l'espace d’hypothèse (traitement), représenter les résultats d'une façon plus compréhensible et améliorer le processus (post traitement). Dans la phase (post traitement), l’intégration des connaissances du domaine dans le processus du data mining, aide à évaluer la pertinence des motifs et de les exprimer dans des termes concis et à des différents niveaux d'abstraction. Les ontologies permettent une représentation formelle d’un domaine de connaissance, sous la forme d’une terminologie hiérarchisée munie de relations sémantiques [Gru93a]. L'ontologie représente la connaissance avec les rapports entre les concepts. Elle est organisée comme une hiérarchie DAG (Directed Acyclic Graph). Les concepts hautement reliées sont regroupés ensembles dans la hiérarchie. Plus les concepts sont éloignées plus ils sont moins reliés. La connaissance par sa nature est lexicalement imprécise et non catégorique, elle contient l'ambiguïté et le floue. L'ontologie floue a été introduite pour représenter la connaissance dans tous les domaines dans lesquels les concepts à représenter ont une définition imprécise. Au lieu d’appartenir ou non complètement à un concept flou, une instance possède un degré d’appartenance. Les ontologies floues sont capables de s'occuper de la connaissance floue [WY01] où les concepts sont en relation entre eux dans l'ontologie, avec un degré d'appartenance μ (0≤μ≤1). Dans ce document on a présenté une nouvelle approche, pour classer les motifs inattendus basée sur la distance conceptuelle. Dans un réseau sémantique «IS-A», la forme la plus simple de déterminer la distance entre deux noeuds de concept élémentaires, A et B, est le chemin le plus court qui relie A et B, c'est-à-dire le nombre minimal d’arcs qui séparent A et B [RMBB89] ou la somme des poids des arcs le long de ce chemin le plus court [RS95]. L’algorithme de classement proposé utilise une ontologie floue pour calculer la distance des règles d’associations, sur laquelle se base le classement. L’idée derrière notre approche est plus la règle est décrite avec des concepts distants, plus la règle représente un degré d’intérêt élevé. Ce travail constitue une contribution pour aider l'utilisateur à identifier les motifs les plus intéressants. Une étude de cas théorique d’ontologie floue de nourriture a été présentée pour l’application de l’implémentation de notre approche, ainsi qu’une étude de cas réel de recensement du revenu. De nombreuses perspectives s’offrent à la suite de nos travaux à savoir : L’intégration de notre approche dans l’algorithme de calcul des patterns comme l’algorithme a- priori en définissant un seuil de distance. Cela permet de réduire considérablement le nombre de règles. La prise en compte d’autres types de relation dans le calcul de la distance interconcept et dans la pondération des arcs. Utilisation d’autre type de distance autre que « edge counting » et d’autre catégorie de mesure tel que les mesures basées sur le contenu d’l’information. L’étude de notre approche avec d’autre type de motifs, à savoir les motifs séquentiels.