HEAL DSpace

Κατηγοριοποίηση κειμένων χρησιμοποιώντας το μοντέλο αναπαράστασης γράφων Ν-γραμμάτων σε υψηλής συχνότητας ροής δεδομένων και εφαρμογές σε μέσα κοινωνικής δικτύωσης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βιόλος, Ιωάννης el
dc.date.accessioned 2018-12-28T10:10:29Z
dc.date.available 2018-12-28T10:10:29Z
dc.date.issued 2018-12-28
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/48303
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.3034
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject κατηγοριοποίηση κειμένων el
dc.subject συσταδοποίηση κειμένων el
dc.subject ροή κειμένων el
dc.subject υπολογιστικό νέφο el
dc.subject text classification en
dc.subject text streaming en
dc.subject text clustering en
dc.subject n-gram graph en
dc.subject cloud computing en
dc.subject γράφοι ν- γραμμάτων el
dc.title Κατηγοριοποίηση κειμένων χρησιμοποιώντας το μοντέλο αναπαράστασης γράφων Ν-γραμμάτων σε υψηλής συχνότητας ροής δεδομένων και εφαρμογές σε μέσα κοινωνικής δικτύωσης el
dc.contributor.department Επικοινωνιών, ηλεκτρονικής και συστημάτων πληροφορικής el
heal.type doctoralThesis
heal.classification Data analysis en
heal.classificationURI http://skos.um.es/unesco6/120903
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2018-10-03
heal.abstract Μια σημαντική πρόκληση στην εποχή μας είναι η ταξινόμηση κειμένων σε ροές δεδομένων υψηλής συχνότητας. Σε αυτήν την έρευνα, προτείνουμε ένα καινοτόμο και υψηλής ακρίβειας μοντέλο ταξινόμησης ροής κειμένου, που σχεδιάστηκε με έναν ελαστικό κατανεμημένο τρόπο και είναι ικανό να εξυπηρετεί έναν όγκο ροής δεδομένων που παρουσιάζει διακυμάνσεις συχνότητας. Σε αυτό το μοντέλο ταξινόμησης, τα κείμενα αναπαριστώνται ως γράφοι Ν-γραμμάτων και η διαδικασία ταξινόμησης πραγματοποιείται χρησιμοποιώντας τεχνικές προεπεξεργασίας κειμένων, μετρικές ομοιότητας γράφων και τεχνικές κατηγοριοποίησης διανυσμάτων, ακολουθώντας τo μοντέλο επιβλεπόμενης μηχανικής μάθησης. Η έρευνα μας περιλαμβάνει την ανάλυση πολλών παραλλαγών του προτεινόμενου μοντέλου και των παραμέτρων του, όπως διαφορετικές αναπαραστάσεις των κειμένων ως γράφοι Ν-γραμμάτων, μετρήσεις ομοιότητας γράφων και μέθοδοι κατηγοριοποίησης, ούτως ώστε στο τέλος να καταλήξουμε σε ένα μοντέλο που παράγει προβλέψεις με υψηλή ακρίβεια. Δώσαμε ιδιαίτερη σημασία στην αντιμετώπιση της κλιμάκωσης και αποκλιμάκωσης του φόρτου εισροής των κειμένων, της διαθεσιμότητας της υπηρεσίας που παράγει τις προβλέψεις και της έγκαιρης απόκρισης των προβλέψεων για αυτό χρησιμοποιήσαμε το μοντέλο προγραμματισμού Beam. Στο μοντέλο προγραμματισμού Beam, η διαδικασία κατηγοριοποίησης εμφανίζεται ως μια ακολουθία ξεχωριστών εργασιών και διευκολύνει την κατανεμημένη υλοποίηση των πιο απαιτητικών εργασιών. Το προτεινόμενο μοντέλο και οι διάφορες παράμετροι που το συνθέτουν αξιολογούνται πειραματικά και η ροή υψηλής συχνότητας εξομοιώνεται με τη χρήση διαδεδομένων συνόλων δεδομένων, που χρησιμοποιούνται στη βιβλιογραφία για εφαρμογές ταξινόμησης κειμένων. Το μοντέλο που προτείνουμε εκτείνεται σε πολλά ερευνητικά πεδία και αξίζει να αναφέρουμε επιγραμματικά το κάθε ένα, πώς σχετίζονται με την εργασία μας. Η κατηγοριοποίηση κειμένων είναι ένα ερευνητικό θέμα που έγκειται στα επιστημονικά πεδία της μηχανικής μάθησης και της φυσικής επεξεργασίας γλώσσας, η ροή κειμένων κυμαινόμενης υψηλής συχνότητας ανήκει στο πεδίο των μεγάλων δεδομένων. Τα μεγάλα δεδομένα για να εξυπηρετηθούν χρειάζονται υπολογιστικές υποδομές που προτείνονται από το επιστημονικό πεδίο των υπολογιστικών νεφών. Τέλος, οι εφαρμογές της κατηγοριοποίησης κειμένων στην παρούσα έρευνα θα χρησιμοποιηθεί για να επιλύσουν προβλήματα του πεδίου των μέσων κοινωνικής δικτύωσης. Θα ξεκινήσουμε με το να παρουσιάσουμε πώς οι τεχνικές επεξεργασίας φυσικής γλώσσας χρησιμοποιούνται για την κατηγοριοποίηση, την συσταδοποίηση και την ανάκτηση κειμένων. Οι τεχνικές θα παρουσιαστούν με χρονολογική σειρά με σκοπό να φανεί η εξέλιξη της σκέψης των ερευνητών και πώς η κάθε τεχνική που προτείνεται έρχεται να επιλύσει προβλήματα ή να βελτιώσει τις προηγούμενες. Θα συνεχίσουμε με το να παρουσιάσουμε τις ιδιότητες που πρέπει να πληροί μια κατηγοριοποίηση ή συσταδοποίηση για να θεωρείται καλή, καθώς και ένα σύνολο από μετρικές που ποσοτικοποιούν την ακρίβεια μιας κατηγοριοποίησης σύμφωνα με αυτές τις ιδιότητες. Θα παρουσιαστεί η μέθοδος διεξαγωγής πειραμάτων κατηγοριοποίησης, που εφαρμόζουν αυτές τις μετρικές, η οποία θα είναι η μέθοδος αξιολόγησης που θα χρησιμοποιηθεί σε όλα τα πειραματικά σύνολα που θα παρουσιάσουμε στις επόμενες ενότητες. Θα παρουσιαστούν σε δύο διαφορετικές ενότητες, μια μέθοδος κατηγοριοποίησης κειμένων και μια συσταδοποίησης, που κάνουν χρήση του μοντέλου αναπαράστασης γράφων Ν-γραμμάτων. Μια σειρά από προβλήματα του χώρου των μέσων κοινωνικών δικτύων, θα παρουσιαστούν σε συνδυασμό με αντιπροσωπευτικές μεθόδους που χρησιμοποιούνται για την επίλυσή τους. Θα προτείνουμε την μέθοδο με την οποία το μοντέλο κατηγοριοποίησης κειμένων εφαρμόζεται, θα το επιβεβαιώσουμε και θα το αξιολογήσουμε πειραματικά και θα δούμε πως πολλές φορές ξεπερνάει σε ακρίβεια άλλες μεθόδους που χρησιμοποιούνται. Οι εφαρμογές του χώρου των μέσων κοινωνικών δικτύων όπου θα εφαρμοστεί το μοντέλο που προτείνουμε είναι η αναγνώριση κοινοτήτων, αναγνώριση γεγονότων, συναισθηματική ανάλυση και τα συστήματα συστάσεων. el
heal.advisorName Βαρβαρίγου, Θεοδώρα el
heal.committeeMemberName Βαρβαρίγου, Θεοδώρα el
heal.committeeMemberName Δουλάμης, Αναστάσιος el
heal.committeeMemberName Ασκούνης, Δημήτριος el
heal.committeeMemberName Ψαρράς, Ιωάννης el
heal.committeeMemberName Παπαβασιλειου, Συμεών el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας el
heal.committeeMemberName Δουλάμης, Νικόλαος el
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 202
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα