|
Depot Institutionnel de l'UMBB >
Thèses de Doctorat et Mémoires de Magister >
Informatique >
Doctorat >
Veuillez utiliser cette adresse pour citer ce document :
http://dlibrary.univ-boumerdes.dz:8080/handle/123456789/7614
|
Titre: | Recherche d'information guidée par l'image sur des grands corpus de documents scannés |
Auteur(s): | Benabdelaziz, Ryma Gaceb, Djamel(Directeur de thèse) |
Mots-clés: | Intelligence artificielle Apprentissage profond Recherche d'information visuelle |
Date de publication: | 2021 |
Editeur: | Université M'hamad Bougara : Faculté des Sciences |
Résumé: | La numérisation des documents est une tâche essentielle, car elle permet de passer de la
version papier traditionnelle à la version numérique moderne. Les images de documents
numérisés contiennent des informations sensibles et jouent un rôle important dans la
préservation numérique du patrimoine culturel mondial et dans l'archivage des livres et des
documents administratifs. La numérisation de documents implique le développement de
techniques pour pouvoir exploiter leur contenu visuel à des fins de recherche de documents.
Trouver un document nécessite d'abord de trouver ses entités (mots, logos, signatures, etc.),
ce qui nécessite une analyse de l'image et de sa représentation dans un espace de
caractéristiques visuelles, qui permet de réduire la quantité importante d'informations
contenue dans l’image.
En général, lorsque le document est de bonne qualité, l'étape de segmentation devient possible
et ainsi on peut aisément rechercher et récupérer ses composantes. La plupart du temps, cette
tâche est facile et réalisable lorsque le document contient du texte imprimé ; beaucoup de
techniques ont été proposées dans ce contexte et qui ont produit des résultats intéressants.
Cependant, si l'on veut traiter des documents complexes et de mauvaise qualité tels que les
documents manuscrits anciens, il est nécessaire de faire appel à des techniques de
représentation robustes et plus fines, car ni la taille, ni le style d'écriture, ni l'espace entre les
lettres et les mots ne sont réguliers ou connus par rapport aux images du texte imprimé. Cela
nécessite le développement de techniques conventionnelles basées sur les points d'intérêts qui
permettent de représenter l’image à travers un ensemble de points pertinents. Cette stratégie
de représentation est intéressante lorsque la possibilité de segmentation des documents est
impossible. Il y a beaucoup de travaux basés sur ce type de représentation d'images, mais avec
des précisions moyennes, et cela est dû aux nombreux paramètres qui doivent être pris en
compte lors de la mise en œuvre de ces systèmes de recherche (prétraitement, relations spatiales entre les points, description, etc.).
Ce projet de thèse investit dans le développement d'une technique complète de recherche de
documents depuis l'extraction des points d'intérêts jusqu'à la mise en correspondance
d'images. Notre nouvelle technique a produit des résultats intéressants et se classe parmi les
premières en termes de précision par rapport à d'autres travaux dans le même domaine, mais
elle reste encore limitée. Afin d'améliorer notre approche, nous avons évolué vers de nouvelles
directions dans la représentation d'images en utilisant des techniques d'intelligence artificielle,
basées sur le transfert de l'apprentissage profond, qui permettent l'extraction automatique des
caractéristiques visuelles. Cette stratégie a donné d'excellents résultats par rapport à de
nombreux travaux. Tous nos tests expérimentaux ont été initialement menés sur la base d'un
ensemble d'images anciennes de mots manuscrits, et la complexité de cet ensemble nous a
permis de développer des techniques puissantes qui peuvent être appliquées à d'autres entités
de documents (logos, cachets, signatures, etc.). |
Description: | 168 p. : ill. ; 30 cm |
URI/URL: | http://dlibrary.univ-boumerdes.dz:8080/handle/123456789/7614 |
Collection(s) : | Doctorat
|
Fichier(s) constituant ce document :
Il n'y a pas de fichiers associés à ce document.
|
Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.
|