Τεχνικές Μηχανικής Μάθησης για την Ανίχνευση Ομοιότητας/Ανομοιότητας - Εφαρμογές Εντοπισμού Κοινοτήτων σε Κοινωνικά Δίκτυα και Ελέγχου Λογοκλοπής σε Κείμενα

Βάθη, Ελένη; Vathi, Eleni

Τεχνικές Μηχανικής Μάθησης για την Ανίχνευση Ομοιότητας/Ανομοιότητας - Εφαρμογές Εντοπισμού Κοινοτήτων σε Κοινωνικά Δίκτυα και Ελέγχου Λογοκλοπής σε Κείμενα

Τίτλος: Τεχνικές Μηχανικής Μάθησης για την Ανίχνευση Ομοιότητας/Ανομοιότητας - Εφαρμογές Εντοπισμού Κοινοτήτων σε Κοινωνικά Δίκτυα και Ελέγχου Λογοκλοπής σε Κείμενα;
Machine Learning Techniques for Similarity/Dissimilarity Identification - Applications to Community Detection in Social Networks and Plagiarism Detection in Documents

Βάθη, Ελένη; Vathi, Eleni

URI: https://dspace.lib.ntua.gr/xmlui/handle/123456789/50873
http://dx.doi.org/10.26240/heal.ntua.18571

Ημερομηνία: 2020-07-14

Περίληψη:

Τα τελευταία χρόνια, η πληροφορία που διακινείται ηλεκτρονικά έχει αυξηθεί σε μεγάλο βαθμό, γεγονός που επιβάλλει τη δημιουργία και χρήση νέων συστημάτων, ικανών να διαχειρίζονται μεγάλο όγκο πληροφορίας. Η Μηχανική Μάθηση και η Εξόρυξη Δεδομένων είναι δύο πεδία μελέτης, τα οποία επιτρέπουν την ανάλυση και ταξινόμηση πληροφορίας. Οι αλγόριθμοι μηχανικής μάθησης μαθαίνουν από τα ίδια τα δεδομένα, ανακαλύπτοντας μοτίβα, χωρίς τη χρήση ρητών οδηγιών. Στο πλαίσιο της διατριβής, μελετήθηκαν και υλοποιήθηκαν τρεις ξεχωριστές, αλλά συναφείς προσεγγίσεις, για την Ανίχνευση Κοινοτήτων και την Εγγενή Ανίχνευση Λογοκλοπής, οι οποίες κάνουν χρήση τεχνικών μηχανικής μάθησης. H Ανίχνευση Κοινοτήτων, ή αλλιώς ομαδοποίηση γράφου, είναι ένα από τα πιο δημοφιλή θέματα της σύγχρονης επιστήμης δικτύων, που επιχειρεί να λύσει το πρόβλημα του εντοπισμού της κοινοτικής δομής σε δίκτυα. Τα περισσότερα δίκτυα εμφανίζουν κοινοτική δομή, δηλαδή οι κορυφές τους είναι οργανωμένες σε ομάδες, που ονομάζονται κοινότητες, ομάδες ή συστάδες. Η ανίχνευση κοινοτήτων δεν είναι ένα σαφώς ορισμένο πρόβλημα, καθώς δεν υπάρχει ένας αυστηρός και καθολικά αποδεκτός ορισμός για το τι είναι κοινότητα. Ο ορισμός αλλάζει ανάλογα με την εφαρμογή, δηλαδή με το ερευνητικό ερώτημα που καλούμαστε κάθε φορά να απαντήσουμε ή το συγκεκριμένο σύστημα το οποίο βρίσκεται υπό μελέτη. Στο πλαίσιο της διατριβής, μελετήθηκε το πρόβλημα της ανίχνευσης κοινοτήτων στα κοινωνικά δίκτυα και προτάθηκε μια μεθοδολογία για τον εντοπισμό όμοιων χρηστών στο Twitter. Οι κοινότητες ορίζονται ως ομάδες χρηστών με μεγαλύτερη πυκνότητα συνδέσεων μεταξύ τους παρά με το υπόλοιπο δίκτυο, που αλληλεπιδρούν ο ένας με τον άλλο και έχουν κοινά ενδιαφέροντα. Επομένως, η συγκεκριμένη μεθοδολογία δεν βασίζεται μόνο στην τοπολογία του δικτύου για να ομαδοποιήσει τους χρήστες σε κοινότητες, αλλά λαμβάνει επιπλέον υπ' όψιν το κείμενο που μοιράζονται οι χρήστες και τις αλληλεπιδράσεις τους. Αρχικά, ορίζονται έξι διαφορετικές μετρικές ομοιότητας, με βάση όλα τα χαρακτηριστικά στοιχεία του Twitter που παρέχουν πληροφορία για τις αλληλεπιδράσεις των χρηστών. Οι μετρικές αυτές συνδυάζονται, και ο συνδυασμός τους χρησιμοποιείται για την ομαδοποίηση των χρηστών σε κοινότητες. Επίσης, παρουσιάζεται μια νέα μέθοδος που εξάγει τα θέματα που συζητούνται σε κάθε κοινότητα, με στόχο να εντοπιστούν τα ενδιαφέροντα των χρηστών. Ακόμα, προτείνεται μια μέθοδος αφαίρεσης των θεμάτων που δεν παρουσιάζουν ενδιαφέρον και περιγράφεται μια διαδικασία για την αυτόματη παραγωγή επισημάνσεων για κάθε θέμα. Σε δεύτερη φάση, μελετάται η ενσωμάτωση γράφου και η εξαγωγή διανυσματικών παραστάσεων κόμβων. Οι μέθοδοι ενσωμάτωσης γράφου έχουν προταθεί ως εναλλακτική στις παραδοσιακές τεχνικές εξόρυξης γράφων. Στόχος τους είναι η μετατροπή ενός γράφου σε μια αναπαράσταση χαμηλών διαστάσεων, όπου κάθε κόμβος αντιστοιχεί σε ένα διάνυσμα χαμηλών διαστάσεων. Αυτά τα διανύσματα, που ονομάζονται, επίσης, διανυσματικές παραστάσεις κόμβων, μπορούν στη συνέχεια να δοθούν ως είσοδοι σε οποιονδήποτε αλγόριθμο επιβλεπόμενης μάθησης, μετατρέποντας, έτσι, το αρχικό πρόβλημα σε ένα ήδη γνωστό. Επομένως, οι μέθοδοι αυτές είναι χρήσιμες σε μια πληθώρα εφαρμογών του πραγματικού κόσμου, όπως είναι η ταξινόμηση κόμβων, η ανίχνευση κοινοτήτων, η πρόβλεψη συνδέσμου και η οπτικοποίηση δικτύων. Στα πλαίσια αυτά, προτείνεται η δεύτερη προσέγγιση της διατριβής, η οποία, σε αντίθεση με προηγούμενες προσεγγίσεις, οι οποίες λαμβάνουν υπ' όψιν μόνο τις ακμές ενός γράφου κατά την εξερεύνηση του μέσω τυχαίων περιπάτων, λαμβάνει επίσης υπ' όψιν τις ομοιότητες μεταξύ των κόμβων. Η λογοκλοπή είναι η πράξη της αντιγραφής ή της μίμησης του έργου κάποιου άλλου και η παρουσίασή του ως πρωτότυπη, χωρίς όμως την κατάλληλη αναφορά ή παραπομπή. Η ανίχνευση λογοκλοπής σε έγγραφα κειμένου χωρίζεται σε δύο κύριες κατηγορίες, τις εξωγενείς και τις εγγενείς μεθόδους. Οι εξωγενείς μέθοδοι συγκρίνουν μια συλλογή εγγράφων, η οποία αποτελεί πιθανή πηγή προέλευσης των αντιγραμμένων αποσπασμάτων, και ένα σύνολο ύποπτων εγγράφων, ενώ οι εγγενείς μέθοδοι προσδιορίζουν ποια από τα αποσπάσματα του εγγράφου υπό διερεύνηση είναι αντιγραμμένα, παρατηρώντας τις διαφοροποιήσεις στον τρόπο γραφής μέσα στο ίδιο το κείμενο. Η κεντρική ιδέα στην οποία βασίζεται η εγγενής ανίχνευση λογοκλοπής είναι ότι κάθε συγγραφέας έχει το δικό του προσωπικό και μοναδικό στυλ γραφής, το οποίο μπορεί να ανιχνευθεί και να ποσοτικοποιηθεί χρησιμοποιώντας στυλιστικές ή/και σημασιολογικές τεχνικές. Με βάση τα παραπάνω, παρουσιάζεται μια προσέγγιση εγγενούς ανίχνευσης λογοκλοπής για έγγραφα κειμένου. Αρχικά, προτείνεται μια σειρά νέων χαρακτηριστικών, τα οποία επιτρέπουν την ποσοτικοποίηση του τρόπου γραφής για κάθε απόσπασμα κειμένου. Τα χαρακτηριστικά αυτά συνδυάζονται με μια σειρά μοντέλων επιβλεπόμενης μάθησης, που εκπαιδεύονται να ταξινομούν τα αποσπάσματα ανάλογα με το αν έχουν προκύψει από λογοκλοπή ή όχι. Τέλος, μελετάται το πρόβλημα των μη ισορροπημένων δεδομένων, το οποίο αποτελεί μία κρίσιμη παράμετρο του προβλήματος. Για το λόγο αυτό, εξετάζεται το κατά πόσον οι τεχνικές υπερδειγματοληψίας και υποδειγματοληψίας βελτιώνουν τα αποτελέσματα του συστήματος. Οι προτεινόμενες προσεγγίσεις αξιολογήθηκαν σε δημόσια διαθέσιμα σύνολα δεδομένων. Λόγω της φύσης του προβλήματος της ανίχνευσης κοινοτήτων, τα αποτελέσματα της πρώτης μεθοδολογίας δεν αξιολογούνται σε σύγκριση με κάποιον ήδη υπάρχοντα αλγόριθμο. Αντίθετα, η δεύτερη και η τρίτη προσέγγιση συγκρίθηκαν με τους state-of-the-art αλγορίθμους στο εκάστοτε πεδίο έρευνας. Τα αποτελέσματα των πειραμάτων αποδεικνύουν την ικανοποιητική συμπεριφορά των προτεινόμενων μεθοδολογιών, οι οποίες σε πολλές περιπτώσεις υπερτερούν σε σχέση με τους αλγορίθμους με τους οποίους συγκρίνονται.

Εμφάνιση πλήρους εγγραφής