Contribution au Développement d’Approches pour la Collecte et l’Extraction de 
contenue Web.

Aujourd’hui, le World Wide Web se veut l’une des plates-formes les plus sollicitées pour la diffusion et la recherche d’information. De ce fait, de nombreux chercheurs le considèrent comme la meilleure source d'information, sur laquelle ils s’appuient pour leurs fouilles des données. Il convient toutefois de souligner que le choix et la sélection des données sources sont cruciaux, dans la mesure où ils impactent directement le résultat final. En nous basant sur des études théoriques sur la fouille de texte, nous avons essayé d’élaborer un modèle sur lequel le chercheur pourrait se baser pour concevoir ses projets de fouille de contenu du web, et pour faciliter le choix et sélection des données sources selon ses objectifs de recherche. Par ailleurs, compte tenu du fait que la fouille de contenu web se distingue de la fouille texte uniquement par ses méthodes de collecte des données, nous avons développé des méthodes dédiées à la collecte automatique et à l’extraction intelligente des données, notamment le projet RCrawler développé avec le langage R. En dépit des difficultés et des limites relatives à ce processus, les expérimentations réalisées ont témoigné de la performance et l’efficacité des approches proposées.

Keywords

fouille de contenu du Web, fouille de texte, analyse de texte, collection des données, robot d’indexation, extraction des données

Full item page

Contribution au Développement d’Approches pour la Collecte et l’Extraction de contenue Web.

Authors

Files

Collections

Journal Title

Journal ISSN

Volume Title

Publisher

Department

Supervisor

URI

Date

Abstract

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By