DSpace À propos de l'application DSpace
 

Depot Institutionnel de l'UMBB >
Thèses de Doctorat et Mémoires de Magister >
Informatique >
Magister >

Veuillez utiliser cette adresse pour citer ce document : http://dlibrary.univ-boumerdes.dz:8080/handle/123456789/899

Titre: Prise en compte de l'hétérogéniété structurelle en recherche d'information semi-structurée
Auteur(s): Bouidghaghen, Ouardia
Mots-clés: Hétérogéniété structurelle
XML (langage de balisage)
Ontologie
Apprentissage automatique
Date de publication: 2007
Résumé: Les travaux présentés dans ce mémoire se situent dans le contexte général de gestion automatisée de corpus de documents XML de structures hétérogènes. Leur objectif est de proposer des solutions pour l'interrogation de ce type de documents sans se soucier de cette hétérogénéité. L'émergence d'XML comme langage de représentation a créé une grande quantité de documents qui bien que se rapportant au même domaine sont structurés différemment. Cela est une conséquence directe de la liberté qu'offre XML aux concepteurs pour représenter leurs données. En effet, deux concepteurs différents peuvent employer différents noms de balises pour désigner un même concept. De même, le nombre des balises et leur agencement, peuvent varier à travers des sources disparates de documents. L'hétérogénéité des structures des documents est de ce fait inévitable. L'accès aux documents semi structurés suivant des structures hétérogènes, dans le cadre de la recherche d'information soulève un réel problème. En effet, comme ces documents peuvent être interrogés à la fois à travers des requêtes comportant que des mots clés ou des requêtes combinant mots clés et contraintes structurelles (balises), la connaissance de toutes les structures dans le second cas par un utilisateur est impossible. Il appartient alors au système de recherche d'information de fournir des moyens adéquats pour l'interrogation de tels corpus. Il est nécessaire alors de répondre aux questions suivantes : quelle méthode peut être utilisée pour établir les correspondances entre les différentes structures? Les correspondances doivent-elles se focaliser uniquement sur la différence des noms de balises, ou bien faut-il considérer aussi la différence de structuration de ces balises? Nous nous sommes intéressés dans ce mémoire à proposer des solutions pour répondre à de telles problématiques. Dans ce cadre, nous avons présenté principalement trois contributions. Dans la première, pour remédier au problème de la variation linguistique, nous proposons de concevoir un dictionnaire des balises synonymes de la collection en utilisant une ontologie (WordNet). Dans la seconde, nous tentons de répondre aux deux problèmes de la différence des noms de balises et leur structuration dans les différents schémas des documents. Pour cela, nous proposons d'utiliser une ontologie pour concevoir une structure générique unifiant tous les schémas des documents de la collection. Dans la dernière, nous proposons de convertir les documents XML de structures hétérogènes vers un schéma de médiation. Cette conversion se fait de manière automatique à partir de règles de transformation applicables pour toute la collection
Description: 157 p. , ill. , 30 cm
URI/URL: http://dlibrary.univ-boumerdes.dz:8080/jspui/handle/123456789/899
Collection(s) :Magister

Fichier(s) constituant ce document :

Fichier Description TailleFormat
Bouidghaghen, Ouardia magister.pdf1,5 MBAdobe PDFVoir/Ouvrir
View Statistics

Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.

 

Valid XHTML 1.0! Ce site utilise l'application DSpace, Version 1.4.1 - Commentaires