DSpace
 

Depot Institutionnel de l'UMBB >
Thèses de Doctorat et Mémoires de Magister >
Informatique >
Doctorat >

Veuillez utiliser cette adresse pour citer ce document : http://dlibrary.univ-boumerdes.dz:8080/handle/123456789/2956

Titre: Recherche d'information dans les documents XML : prise en compte des liens pour la sélection d'éléments pertinents
Auteur(s): Mataoui, M'Hamed
Mots-clés: Recherche d'information
XML
Date de publication: 2016
Résumé: Notre travail se situe dans le contexte de la recherche d'information (RI), plus particulièrement la recherche d'information dans des documents semi structurés de type XML. L'exploitation efficace des documents XML disponibles doit prendre en compte la dimension structurelle. Cette dimension a conduit à l'émergence de nouveaux défis dans le domaine de la RI. Contrairement aux approches classiques de RI qui mettent l'accent sur la recherche des contenus non structurés, la RI XML combine à la fois des informations textuelles et structurelles pour effectuer différentes tâches de recherche. Plusieurs approches exploitant les types d'évidence ont été proposées et sont principalement basées sur les modèles classiques de RI, adaptées à des documents XML. La structure XML a été utilisée pour fournir un accès ciblé aux documents, en retournant des composants de document (par exemple, sections, paragraphes, etc.), au lieu de retourner tout un document en réponse une requête de l'utilisateur. En RI traditionnelle, la mesure de similarité est généralement basée sur l'information textuelle. Elle permetle classement des documents en fonction de leur degré de pertinence en utilisant des mesures comme:" similitude terme " ou " probabilité terme ". Cependant, d'autres sources d'évidence peuvent être considérées pour rechercher des informations pertinentes dans les documents. Par exemple, les liens hypertextes ont été largement exploités dans le cadre de la RI sur le Web.Malgré leur popularité dans le contexte du Web, peud'approchesexploitant cette source d'évidence ont été proposées dans le contexte de la RI XML. Le but de notre travail est de proposer des approches pour l'utilisation de liens comme une source d'évidencedans le cadre de la recherche d'information XML. Cette thèse vise à apporter des réponses aux questions de recherche suivantes : 1. Peut-on considérer les liens comme une source d'évidence dans le contexte de la RIXML? 2. Est-ce que l'utilisation de certains algorithmes d'analyse de liensdans le contexte de la RI XML améliore la qualité des résultats, en particulier dans le cas de la collection Wikipedia? 3. Quels types de liens peuvent être utilisés pour améliorer le mieux la pertinence des résultats de recherche? 4. Comment calculer le score lien des différents éléments retournés comme résultats de recherche? Doit-on considérer lesliens de type "document-document" ou plus précisément les liens de type "élément-élément"? Quel est le poids des liens de navigation par rapport aux liens hiérarchiques? 5. Quel est l'impact d'utilisation de liens dans le contexte global ou local? 6. Comment intégrer le score lien dans le calcul du score final des éléments XML retournés? 7. Quel est l'impact de la qualité des premiers résultats sur le comportement des formules proposées? Pour répondre à ces questions, nous avons mené une étude statistique, sur les résultats de recherche retournés par le système de recherche d'information"DALIAN", qui a clairement montré que les liens représentent un signe de pertinence des éléments dans le contexte de la RI XML, et cecien utilisant la collection de test fournie par INEX. Aussi, nous avons implémenté trois algorithmes d'analyse des liens (Pagerank, HITS et SALSA) qui nous ont permis de réaliser une étude comparative montrant que les approches "query-dependent" sont les meilleures par rapport aux approches "global context" . Nous avons proposé durant cette thèse trois formules de calcul du score lien: Le premièreest appelée "Topical Pagerank"; la seconde est la formule : "distance-based"; et la troisième est :"weighted links based". Nous avons proposé aussi trois formules de combinaison, à savoir, la formule linéaire, la formule Dempster-Shafer et la formule fuzzy-based. Enfin, nous avons mené une série d'expérimentations. Toutes ces expérimentations ont montré que: les approches proposées ont permis d'améliorer la pertinence des résultats pour les différentes configurations testées; les approches "query-dependent" sont les meilleurescomparées aux approches global context; les approches exploitant les liens de type "élément-élément"ont obtenu de bons résultats; les formules de combinaison qui se basent sur le principe de l'incertitude pour le calcul des scores finaux des éléments XML permettent de réaliser de bonnes performances
Description: 156 p. : ill. ; 30 cm
URI/URL: http://dlibrary.univ-boumerdes.dz:8080/handle/123456789/2956
Collection(s) :Doctorat

Fichier(s) constituant ce document :

Fichier Description TailleFormat
MATAOUI.pdf3,73 MBAdobe PDFVoir/Ouvrir
View Statistics

Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.

 

Valid XHTML 1.0! Ce site utilise l'application DSpace, Version 1.4.1 - Commentaires