Exploration et analyse des données massives : Algorithmes et applications
fr
Loading...
Authors
Files
Collections
Journal Title
Journal ISSN
Volume Title
Publisher
Université Mohamed V, Faculté des Sciences, Rabat
Department
Supervisor
Date
Abstract
Les données massives (Big Data), désignent les jeux de données qui ne peuvent pas être
traités efficacement à l’aide des outils traditionnels existants. Les Big Data sont caractérisés
par les 3Vs (Volume, Variété et Vélocité) : Le volume croissant de données, La vitesse de
traitement doit être la plus rapide possible et les données sont de formats très variés et ne
sont pas toujours structurées. Les Big Data apparaissent dans de nombreuses applications
importantes, telles que la recherche sur Internet, les réseaux sociaux et la télédétection. Les
Big Data attirent, de plus en plus, l’attention des chercheurs en matière d’exploration et
d’analyse.
Dans cette thèse, nous avons proposé et développé un ensemble d’algorithmes et de modèles liés au domaine d’exploration et d’analyse de données massives. Initialement, nous
avons commencé par le choix des jeux de données sur lesquels, on va appliquer nos contributions. Pour cela, nous avons choisi les Images Hyperspectrales (HSI) comme premier jeu
de données et un corpus arabe comme deuxième jeu de données.
Sur les HSI, on a proposé une version distribuée parallèle de l’algorithme de réduction
de dimension ACP. L’algorithme est implémenté dans un environnement distribué parallèle
nommé Apache Spark. En utilisant la méthode de transformation et en se basant sur l’ACP
distribué parallèle, nous avons proposé, dans la deuxième contribution, un algorithme de visualisation des HSI dans l’environnement Apache Spark. La troisième contribution concerne
la proposition d’un modèle de classification spectrale des HSI en utilisant l’apprentissage en
profondeur (Deep Learning) : Les réseaux de neurones convolutifs(CNN)
Sur le corpus arabe, nous avons proposé un modèle de prédiction des textes manquants
dans des documents arabes, en utilisant les réseaux de neurones convolutifs
Description
Keywords
Informatique, Données massives, Image Hyperspectrale, TALN, CNN, Visualisation, Spark, Apprentissage en profondeur