Contribution au Développement d’Approches pour la Collecte et l’Extraction de contenue Web.
FR
Loading...
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Faculté des Sciences et des Techniques, Béni Mellal - Doctorat ou Doctorat National
Department
Supervisor
Date
Abstract
Aujourd’hui, le World Wide Web se veut l’une des plates-formes les plus sollicitées
pour la diffusion et la recherche d’information. De ce fait, de nombreux chercheurs le
considèrent comme la meilleure source d'information, sur laquelle ils s’appuient pour leurs
fouilles des données. Il convient toutefois de souligner que le choix et la sélection des données
sources sont cruciaux, dans la mesure où ils impactent directement le résultat final. En nous
basant sur des études théoriques sur la fouille de texte, nous avons essayé d’élaborer un
modèle sur lequel le chercheur pourrait se baser pour concevoir ses projets de fouille de
contenu du web, et pour faciliter le choix et sélection des données sources selon ses objectifs
de recherche. Par ailleurs, compte tenu du fait que la fouille de contenu web se distingue de la
fouille texte uniquement par ses méthodes de collecte des données, nous avons développé des
méthodes dédiées à la collecte automatique et à l’extraction intelligente des données,
notamment le projet RCrawler développé avec le langage R. En dépit des difficultés et des
limites relatives à ce processus, les expérimentations réalisées ont témoigné de la performance
et l’efficacité des approches proposées.
Description
Keywords
fouille de contenu du Web, fouille de texte, analyse de texte, collection des
données, robot d’indexation, extraction des données