Techniques NLP Génériques et Systèmes D’apprentissage Automatiques pour l’Analyse du Texte Bruité : Cas de la Détection de la Cyberviolence.

dc.contributor.advisorMounia ABIK
dc.contributor.authorZARNOUFI Randa
dc.date.accessioned2024-04-24T10:11:50Z
dc.date.accessioned2026-01-24T08:39:45Z
dc.date.available2024-04-24T10:11:50Z
dc.date.issued2021
dc.description.abstractLes médias sociaux (SM) débordent aujourd’hui de données textuelles, ces données peuvent être très utiles pour des applications de Text Mining telle que la détection de la cyberviolence qui est devenue un phénomène suscitant une intervention urgente. Cependant, ces textes générés par les utilisateurs des SM sont de nature bruitée, ils contiennent des éléments bruyants dont : le Code Switching (CS), le dialecte, les mots mal orthographiés, les abréviations/les symboles. Ces aspects linguistiques rendent très difficile le traitement de ce type de texte avec les techniques NLP traditionnelles,/par conséquent, il faut les normaliser afin qu’ils prennent une forme standard. Dans le cadre de cette thèse, notre contribution porte sur plusieurs axes. D’abord, afin de surmonter les problèmes susmentionnés, notre approche, de type générique, vise à la normalisation du texte bruité en exploitant des ressources/des outils existants. Le principal traitement consiste en la normalisation des phrases CS à travers une approche de type traduction automatique. Les autres opérations concernent la normalisation du dialecte/des expressions spéciales du SM ainsi la correction orthographique. Nous avons appelé l’ensemble de ces traitements ‘Machine Normalization’, ce processus sert de prétraitement précédant l'analyse du texte bruité. Puis, nous entamons le problème de la détection du contenu violent à partir du texte généré par les utilisateurs en ligne. Notre approche est basée sur les techniques Ensemble Machine Learning, que nous avons entrainées sur des caractéristiques liées à la personnalité des utilisateurs, un choix inspiré des études faites en psychologie sur la cyberviolence. Cette approche a prouvé son efficacité devant les techniques Deep Learning dans un contexte de dataset déséquilibré/de taille réduite. Finalement, nous présentons notre corpus annoté pour la détection du contenu violent en Arabe Marocain.
dc.description.laboratoireIntelligent Processing and Security of Systems “IPSS”
dc.identifier.urihttps://toubkal.imist.ma/handle/123456789/33467
dc.identifier.urihttps://doi.org/10.83129/toubkal-15371
dc.language.isofre
dc.publisherFaculté des Sciences de Rabatfr_FR
dc.subjectNLPfr_FR
dc.subjectAnalyse des Médias Sociauxfr_FR
dc.subjectNormalisation du Texte Bruitéfr_FR
dc.subjectDétection des Contenus Violentsfr_FR
dc.subjectCaractères de la Personnalité Relatives à la Violencefr_FR
dc.subjectMachine Learning.fr_FR
dc.subject.otherInformatique
dc.titleTechniques NLP Génériques et Systèmes D’apprentissage Automatiques pour l’Analyse du Texte Bruité : Cas de la Détection de la Cyberviolence.fr_FR
dc.title.alternativeGeneric NLP Techniques and Machine Learning Systems for Noisy Text Analysis: Case of Cyberviolence Detection.fr_FR

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
these-fsr.pdf
Size:
3.65 MB
Format:
Adobe Portable Document Format