détection du plagiat sémentique multilingue pour les documents arabes
Fr
Loading...
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Faculté des Sciences et des Techniques, Béni Mellal - Doctorat ou Doctorat National
Department
Supervisor
Date
Abstract
Le plagiat multilingue fait référence à la réutilisation non reconnue d'un texte
impliquant sa traduction d'une langue naturelle à une autre, sans référence appropriée à la
source d'origine. L'un des problèmes courants du traitement des données réside dans
l'efficacité de la comparaison de textes volumineux. Dans un cas d'une similarité sémantique
floue, la complexité des langages naturels (en particulier l'Arabe), et le nombre croissant de
publications, contribuent à l’augmentation du taux de documents suspects sources de plagiat.
CLP (Cross-Language Plagiarism) est un processus plus compliqué que le plagiat
monolingue. CLP est plus qu'une copie munie d'une traduction, c’est un changement sérieux
du texte traduit sans indication de la source. Par conséquent, le processus de détection révèle
le besoin des analyses et des techniques compliquées pour découvrir des pratiques
malhonnêtes de plagiat caché dans des documents arabes traduits de sources anglaises ou
françaises.
Dans cette thèse, nous proposons un système de détection de plagiat multilingue
sémantique. D’abord on a construit un système de détection du plagiat multilingue CLPD
(Cross-Language Plagiarism Detection) basé sur la similarité sémantique en utilisant
WordNet. Puis, pour une analyse plus profonde des cas de plagiat multilingue, le système a
été étendu en une similarité sémantique basée sur la théorie des ensembles flous. Ensuite, le
travail est parallélisé en utilisant Apache Hadoop avec le système de fichiers HDFS et le
modèle de programmation MapReduce, pour gérer les grandes masses d'informations et le
nombre important d'opérations et des calculs faites dans un tel système.
Description
Keywords
Plagiat multilingue, théorie des ensembles floues, traitement du langage
naturel, Arabe, similarité sémantique.