HEAL DSpace

Εγγενής ανίχνευση λογοκλοπής με ευφυείς τεχνικές

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Πολυδούρη, Ανδριάννα el
dc.contributor.author Polydouri, Andrianna en
dc.date.accessioned 2016-10-19T05:58:16Z
dc.date.available 2016-10-19T05:58:16Z
dc.date.issued 2016-10-19
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/43832
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.13163
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Εγγενής ανίχνευση λογοκλοπής el
dc.subject Επιβλεπόμενη μάθηση el
dc.subject Εξισορρόπηση δεδομένων εκπαίδευσης el
dc.subject Στυλομετρία el
dc.subject Scikit learn en
dc.subject Apache OpenNLP en
dc.title Εγγενής ανίχνευση λογοκλοπής με ευφυείς τεχνικές el
heal.type bachelorThesis
heal.classification Νευρωνικά δίκτυα και ευφυή υπολογιστικά συστήματα el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2016-09-19
heal.abstract Στην ακαδημαϊκή κοινότητα με τον όρο λογοκλοπή εννοούμε την παρουσίαση δουλειάς τρίτου ως προσωπικής, ελλείψει κατάλληλης αναφοράς στην πηγή ή/και γνωστοποίησης στον συγγραφέα. Στις μέρες μας, όπου η ερευνητική δραστηριότητα αξιολογείται (και) με όρους παραγωγικότητας, ενώ, ταυτόχρονα, το διαδίκτυο προσφέρει εύκολη πρόσβαση σε αμέτρητα ερευνητικά έργα, η λογοκλοπή αποτελεί ένα φαινόμενο με ολοένα αυξανόμενη συχνότητα που πλήττει την ερευνητική ακεραιότητα και αξιοπιστία. Η έρευνα γύρω από την ανίχνευση λογοκλοπής χωρίζεται σε δύο κατευθύνσεις: την εξωγενή και την εγγενή. Κατά την εξωγενή ανίχνευση θεωρείται ένα εξωτερικό σώμα αναφορών, όπου αναζητούνται οι ομοιότητες με το υπό εξέταση κείμενο. Κατά την εγγενή ανίχνευση, με μόνο το υπό εξέταση κείμενο ως πηγή πληροφορίας, αναζητούνται τα λογοκλεμμένα, σε αυτό, χωρία, με εργαλείο τη στυλιστική ανάλυση του κειμένου. Κατα την εργασία αυτή κατασκευάστηκε ένα σύστημα εγγενούς ανίχνευσης λογοκλοπής, το οποίο αναπτύχθηκε, κυρίως, σε Java. Κύρια μέρη του συστήματος είναι: η στυλιστική ανάλυση των κειμένων, όπου χρησιμοποιήθηκαν τόσο γνωστά όσο και πρωτότυπα στυλιστικά χαρακτηριστικά, και ένα μοντέλο μηχανικής μάθησης για την εξαγωγή των ύποπτων χωρίων. Κατά τη στυλιστική ανάλυση χρησιμοποιήθηκε η Java βιβλιοθήκη OpenNLP της Apache. Κατά τη μηχανική μάθηση χρησιμοποιήθηκε η Python βιβλιοθήκη Scikit-Learn. Πειραματιστήκαμε με 4 διαφορετικούς αλγορίθμους εκμάθησης (Naive Bayes, Μηχανές Διανυσμάτων Υποστήριξης, Δέντρα Απόφασης, Perceptron πολλών-στρωμάτων). Ακόμη, εισήχθη, για πρώτη φορά, η ανισορροπία των δεδομένων εκμάθησης ως παράμετρος του προβλήματος. Χρησιμοποιώντας το Github repository Unbalanced Dataset, πειραματιστήκαμε με 2 αλγορίθμους εξισορρόπησης (simple SMOTE, borderline SMOTE). Ως σώμα δεδομένων χρησιμοποιήθηκε αυτό του διαδικτυακού διαγωνισμού για εγγενή ανίχνευση λογοκλοπής PAN@CLEF 2011, ενώ τα αποτελέσματα συγκρίνονται (και) με αυτά των διαγωνιζομένων συστημάτων. el
heal.abstract In the academic society the term plagiarism refers to the presentation of someone else’s work as one’s own, without proper citation and/or acknowledgment of the original author. Nowadays, that success in academic research is, as well, a matter of productivity and that worldwide web is an easily accessible, endless information source, plagiarism arises as a fast growing problem that harms research integrity and credibility. Research for plagiarism detection involves two different approaches: extrinsic and intrinsic. In terms of extrinsic detection, a suspicious document is compared to a collection of reference documents. In terms of intrinsic detection, no reference corpus is provided and the detection of the plagiarised passages is based on the stylistic changes or inconsistencies within the document. In this thesis, an intrinsic plagiarism detection system is constructed, which is, mostly, developed in Java programming language. Main parts of this system are the stylistic analysis of the documents - where widely known stylometrics and semantics features are used, as well as novel ones -, and a machine learning model for the extraction of the plagiarised passages. For the stylistic analysis the Java library OpenNLP of Apache is used. For the machine learning model the Python library Scikit-Learn is used. We run experiments for 4 different learning algorithms (Naive Bayes, Support Vector Machines, Decision Trees, Multilayer Perceptron). In addition, the fact of unbalanced training data is, for the first time, considered as one of the parameters of the intrinsic plagiarism detection problem. Using the Github repository Unbalanced Dataset - which requires the Scikit-Learn toolkit -, we experimented with 2 balancing algorithms (simple SMOTE, borderline SMOTE). The data corpus of the PAN 2011 evaluation lab for intrinsic plagiarism detection is employed, while the results of the detection system are compared to those that took part in the evaluation lab. en
heal.advisorName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Σιόλας, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 107 σ. el
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα