Techniques NLP Génériques et Systèmes D’apprentissage Automatiques pour l’Analyse du Texte Bruité : Cas de la Détection de la Cyberviolence.
fre
Loading...
Authors
Files
Collections
Journal Title
Journal ISSN
Volume Title
Publisher
Faculté des Sciences de Rabat
Department
Supervisor
Date
Abstract
Les médias sociaux (SM) débordent aujourd’hui de données textuelles, ces données peuvent être très utiles pour des applications de Text Mining telle que la détection de la cyberviolence qui est devenue un phénomène suscitant une intervention urgente. Cependant, ces textes générés par les utilisateurs des SM sont de nature bruitée, ils contiennent des éléments bruyants dont : le Code Switching (CS), le dialecte, les mots mal orthographiés, les abréviations/les symboles. Ces aspects linguistiques rendent très difficile le traitement de ce type de texte avec les techniques NLP traditionnelles,/par conséquent, il faut les normaliser afin qu’ils prennent une forme standard. Dans le cadre de cette thèse, notre contribution porte sur plusieurs axes. D’abord, afin de surmonter les problèmes susmentionnés, notre approche, de type générique, vise à la normalisation du texte bruité en exploitant des ressources/des outils existants. Le principal traitement consiste en la normalisation des phrases CS à travers une approche de type traduction automatique. Les autres opérations concernent la normalisation du dialecte/des expressions spéciales du SM ainsi la correction orthographique. Nous avons appelé l’ensemble de ces traitements ‘Machine Normalization’, ce processus sert de prétraitement précédant l'analyse du texte bruité. Puis, nous entamons le problème de la détection du contenu violent à partir du texte généré par les utilisateurs en ligne. Notre approche est basée sur les techniques Ensemble Machine Learning, que nous avons entrainées sur des caractéristiques liées à la personnalité des utilisateurs, un choix inspiré des études faites en psychologie sur la cyberviolence. Cette approche a prouvé son efficacité devant les techniques Deep Learning dans un contexte de dataset déséquilibré/de taille réduite. Finalement, nous présentons notre corpus annoté pour la détection du contenu violent en Arabe Marocain.
Description
Keywords
NLP, Analyse des Médias Sociaux, Normalisation du Texte Bruité, Détection des Contenus Violents, Caractères de la Personnalité Relatives à la Violence, Machine Learning.