Techniques NLP Génériques et Systèmes D’apprentissage Automatiques pour l’Analyse du Texte Bruité : Cas de la Détection de la Cyberviolence.

ZARNOUFI Randa

Techniques NLP Génériques et Systèmes D’apprentissage Automatiques pour l’Analyse du Texte Bruité : Cas de la Détection de la Cyberviolence.

dc.contributor.advisor	Mounia ABIK
dc.contributor.author	ZARNOUFI Randa
dc.date.accessioned	2024-04-24T10:11:50Z
dc.date.accessioned	2026-01-24T08:39:45Z
dc.date.available	2024-04-24T10:11:50Z
dc.date.issued	2021
dc.description.abstract	Les médias sociaux (SM) débordent aujourd’hui de données textuelles, ces données peuvent être très utiles pour des applications de Text Mining telle que la détection de la cyberviolence qui est devenue un phénomène suscitant une intervention urgente. Cependant, ces textes générés par les utilisateurs des SM sont de nature bruitée, ils contiennent des éléments bruyants dont : le Code Switching (CS), le dialecte, les mots mal orthographiés, les abréviations/les symboles. Ces aspects linguistiques rendent très difficile le traitement de ce type de texte avec les techniques NLP traditionnelles,/par conséquent, il faut les normaliser afin qu’ils prennent une forme standard. Dans le cadre de cette thèse, notre contribution porte sur plusieurs axes. D’abord, afin de surmonter les problèmes susmentionnés, notre approche, de type générique, vise à la normalisation du texte bruité en exploitant des ressources/des outils existants. Le principal traitement consiste en la normalisation des phrases CS à travers une approche de type traduction automatique. Les autres opérations concernent la normalisation du dialecte/des expressions spéciales du SM ainsi la correction orthographique. Nous avons appelé l’ensemble de ces traitements ‘Machine Normalization’, ce processus sert de prétraitement précédant l'analyse du texte bruité. Puis, nous entamons le problème de la détection du contenu violent à partir du texte généré par les utilisateurs en ligne. Notre approche est basée sur les techniques Ensemble Machine Learning, que nous avons entrainées sur des caractéristiques liées à la personnalité des utilisateurs, un choix inspiré des études faites en psychologie sur la cyberviolence. Cette approche a prouvé son efficacité devant les techniques Deep Learning dans un contexte de dataset déséquilibré/de taille réduite. Finalement, nous présentons notre corpus annoté pour la détection du contenu violent en Arabe Marocain.
dc.description.laboratoire	Intelligent Processing and Security of Systems “IPSS”
dc.identifier.uri	https://toubkal.imist.ma/handle/123456789/33467
dc.identifier.uri	https://doi.org/10.83129/toubkal-15371
dc.language.iso	fre
dc.publisher	Faculté des Sciences de Rabat	fr_FR
dc.subject	NLP	fr_FR
dc.subject	Analyse des Médias Sociaux	fr_FR
dc.subject	Normalisation du Texte Bruité	fr_FR
dc.subject	Détection des Contenus Violents	fr_FR
dc.subject	Caractères de la Personnalité Relatives à la Violence	fr_FR
dc.subject	Machine Learning.	fr_FR
dc.subject.other	Informatique
dc.title	Techniques NLP Génériques et Systèmes D’apprentissage Automatiques pour l’Analyse du Texte Bruité : Cas de la Détection de la Cyberviolence.	fr_FR
dc.title.alternative	Generic NLP Techniques and Machine Learning Systems for Noisy Text Analysis: Case of Cyberviolence Detection.	fr_FR

Files

Original bundle

Now showing 1 - 1 of 1

Name:: these-fsr.pdf
Size:: 3.65 MB
Format:: Adobe Portable Document Format

Download

Collections

Faculté des Sciences - Rabat