Κατηγοριοποίηση κειμένων χρησιμοποιώντας το μοντέλο
αναπαράστασης γράφων Ν-γραμμάτων σε υψηλής συχνότητας
ροής δεδομένων και εφαρμογές σε μέσα κοινωνικής δικτύωσης

Βιόλος, Ιωάννης

dc.contributor.author	Βιόλος, Ιωάννης	el
dc.date.accessioned	2018-12-28T10:10:29Z
dc.date.available	2018-12-28T10:10:29Z
dc.date.issued	2018-12-28
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/48303
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.3034
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.subject	κατηγοριοποίηση κειμένων	el
dc.subject	συσταδοποίηση κειμένων	el
dc.subject	ροή κειμένων	el
dc.subject	υπολογιστικό νέφο	el
dc.subject	text classification	en
dc.subject	text streaming	en
dc.subject	text clustering	en
dc.subject	n-gram graph	en
dc.subject	cloud computing	en
dc.subject	γράφοι ν- γραμμάτων	el
dc.title	Κατηγοριοποίηση κειμένων χρησιμοποιώντας το μοντέλο αναπαράστασης γράφων Ν-γραμμάτων σε υψηλής συχνότητας ροής δεδομένων και εφαρμογές σε μέσα κοινωνικής δικτύωσης	el
dc.contributor.department	Επικοινωνιών, ηλεκτρονικής και συστημάτων πληροφορικής	el
heal.type	doctoralThesis
heal.classification	Data analysis	en
heal.classificationURI	http://skos.um.es/unesco6/120903
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2018-10-03
heal.abstract	Μια σημαντική πρόκληση στην εποχή μας είναι η ταξινόμηση κειμένων σε ροές δεδομένων υψηλής συχνότητας. Σε αυτήν την έρευνα, προτείνουμε ένα καινοτόμο και υψηλής ακρίβειας μοντέλο ταξινόμησης ροής κειμένου, που σχεδιάστηκε με έναν ελαστικό κατανεμημένο τρόπο και είναι ικανό να εξυπηρετεί έναν όγκο ροής δεδομένων που παρουσιάζει διακυμάνσεις συχνότητας. Σε αυτό το μοντέλο ταξινόμησης, τα κείμενα αναπαριστώνται ως γράφοι Ν-γραμμάτων και η διαδικασία ταξινόμησης πραγματοποιείται χρησιμοποιώντας τεχνικές προεπεξεργασίας κειμένων, μετρικές ομοιότητας γράφων και τεχνικές κατηγοριοποίησης διανυσμάτων, ακολουθώντας τo μοντέλο επιβλεπόμενης μηχανικής μάθησης. Η έρευνα μας περιλαμβάνει την ανάλυση πολλών παραλλαγών του προτεινόμενου μοντέλου και των παραμέτρων του, όπως διαφορετικές αναπαραστάσεις των κειμένων ως γράφοι Ν-γραμμάτων, μετρήσεις ομοιότητας γράφων και μέθοδοι κατηγοριοποίησης, ούτως ώστε στο τέλος να καταλήξουμε σε ένα μοντέλο που παράγει προβλέψεις με υψηλή ακρίβεια. Δώσαμε ιδιαίτερη σημασία στην αντιμετώπιση της κλιμάκωσης και αποκλιμάκωσης του φόρτου εισροής των κειμένων, της διαθεσιμότητας της υπηρεσίας που παράγει τις προβλέψεις και της έγκαιρης απόκρισης των προβλέψεων για αυτό χρησιμοποιήσαμε το μοντέλο προγραμματισμού Beam. Στο μοντέλο προγραμματισμού Beam, η διαδικασία κατηγοριοποίησης εμφανίζεται ως μια ακολουθία ξεχωριστών εργασιών και διευκολύνει την κατανεμημένη υλοποίηση των πιο απαιτητικών εργασιών. Το προτεινόμενο μοντέλο και οι διάφορες παράμετροι που το συνθέτουν αξιολογούνται πειραματικά και η ροή υψηλής συχνότητας εξομοιώνεται με τη χρήση διαδεδομένων συνόλων δεδομένων, που χρησιμοποιούνται στη βιβλιογραφία για εφαρμογές ταξινόμησης κειμένων. Το μοντέλο που προτείνουμε εκτείνεται σε πολλά ερευνητικά πεδία και αξίζει να αναφέρουμε επιγραμματικά το κάθε ένα, πώς σχετίζονται με την εργασία μας. Η κατηγοριοποίηση κειμένων είναι ένα ερευνητικό θέμα που έγκειται στα επιστημονικά πεδία της μηχανικής μάθησης και της φυσικής επεξεργασίας γλώσσας, η ροή κειμένων κυμαινόμενης υψηλής συχνότητας ανήκει στο πεδίο των μεγάλων δεδομένων. Τα μεγάλα δεδομένα για να εξυπηρετηθούν χρειάζονται υπολογιστικές υποδομές που προτείνονται από το επιστημονικό πεδίο των υπολογιστικών νεφών. Τέλος, οι εφαρμογές της κατηγοριοποίησης κειμένων στην παρούσα έρευνα θα χρησιμοποιηθεί για να επιλύσουν προβλήματα του πεδίου των μέσων κοινωνικής δικτύωσης. Θα ξεκινήσουμε με το να παρουσιάσουμε πώς οι τεχνικές επεξεργασίας φυσικής γλώσσας χρησιμοποιούνται για την κατηγοριοποίηση, την συσταδοποίηση και την ανάκτηση κειμένων. Οι τεχνικές θα παρουσιαστούν με χρονολογική σειρά με σκοπό να φανεί η εξέλιξη της σκέψης των ερευνητών και πώς η κάθε τεχνική που προτείνεται έρχεται να επιλύσει προβλήματα ή να βελτιώσει τις προηγούμενες. Θα συνεχίσουμε με το να παρουσιάσουμε τις ιδιότητες που πρέπει να πληροί μια κατηγοριοποίηση ή συσταδοποίηση για να θεωρείται καλή, καθώς και ένα σύνολο από μετρικές που ποσοτικοποιούν την ακρίβεια μιας κατηγοριοποίησης σύμφωνα με αυτές τις ιδιότητες. Θα παρουσιαστεί η μέθοδος διεξαγωγής πειραμάτων κατηγοριοποίησης, που εφαρμόζουν αυτές τις μετρικές, η οποία θα είναι η μέθοδος αξιολόγησης που θα χρησιμοποιηθεί σε όλα τα πειραματικά σύνολα που θα παρουσιάσουμε στις επόμενες ενότητες. Θα παρουσιαστούν σε δύο διαφορετικές ενότητες, μια μέθοδος κατηγοριοποίησης κειμένων και μια συσταδοποίησης, που κάνουν χρήση του μοντέλου αναπαράστασης γράφων Ν-γραμμάτων. Μια σειρά από προβλήματα του χώρου των μέσων κοινωνικών δικτύων, θα παρουσιαστούν σε συνδυασμό με αντιπροσωπευτικές μεθόδους που χρησιμοποιούνται για την επίλυσή τους. Θα προτείνουμε την μέθοδο με την οποία το μοντέλο κατηγοριοποίησης κειμένων εφαρμόζεται, θα το επιβεβαιώσουμε και θα το αξιολογήσουμε πειραματικά και θα δούμε πως πολλές φορές ξεπερνάει σε ακρίβεια άλλες μεθόδους που χρησιμοποιούνται. Οι εφαρμογές του χώρου των μέσων κοινωνικών δικτύων όπου θα εφαρμοστεί το μοντέλο που προτείνουμε είναι η αναγνώριση κοινοτήτων, αναγνώριση γεγονότων, συναισθηματική ανάλυση και τα συστήματα συστάσεων.	el
heal.advisorName	Βαρβαρίγου, Θεοδώρα	el
heal.committeeMemberName	Βαρβαρίγου, Θεοδώρα	el
heal.committeeMemberName	Δουλάμης, Αναστάσιος	el
heal.committeeMemberName	Ασκούνης, Δημήτριος	el
heal.committeeMemberName	Ψαρράς, Ιωάννης	el
heal.committeeMemberName	Παπαβασιλειου, Συμεών	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας	el
heal.committeeMemberName	Δουλάμης, Νικόλαος	el
heal.academicPublisher	Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	202
heal.fullTextAvailability	true