dc.contributor.author | Βιόλος, Ιωάννης | el |
dc.date.accessioned | 2018-12-28T10:10:29Z | |
dc.date.available | 2018-12-28T10:10:29Z | |
dc.date.issued | 2018-12-28 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/48303 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.3034 | |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.subject | κατηγοριοποίηση κειμένων | el |
dc.subject | συσταδοποίηση κειμένων | el |
dc.subject | ροή κειμένων | el |
dc.subject | υπολογιστικό νέφο | el |
dc.subject | text classification | en |
dc.subject | text streaming | en |
dc.subject | text clustering | en |
dc.subject | n-gram graph | en |
dc.subject | cloud computing | en |
dc.subject | γράφοι ν- γραμμάτων | el |
dc.title | Κατηγοριοποίηση κειμένων χρησιμοποιώντας το μοντέλο αναπαράστασης γράφων Ν-γραμμάτων σε υψηλής συχνότητας ροής δεδομένων και εφαρμογές σε μέσα κοινωνικής δικτύωσης | el |
dc.contributor.department | Επικοινωνιών, ηλεκτρονικής και συστημάτων πληροφορικής | el |
heal.type | doctoralThesis | |
heal.classification | Data analysis | en |
heal.classificationURI | http://skos.um.es/unesco6/120903 | |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2018-10-03 | |
heal.abstract | Μια σημαντική πρόκληση στην εποχή μας είναι η ταξινόμηση κειμένων σε ροές δεδομένων υψηλής συχνότητας. Σε αυτήν την έρευνα, προτείνουμε ένα καινοτόμο και υψηλής ακρίβειας μοντέλο ταξινόμησης ροής κειμένου, που σχεδιάστηκε με έναν ελαστικό κατανεμημένο τρόπο και είναι ικανό να εξυπηρετεί έναν όγκο ροής δεδομένων που παρουσιάζει διακυμάνσεις συχνότητας. Σε αυτό το μοντέλο ταξινόμησης, τα κείμενα αναπαριστώνται ως γράφοι Ν-γραμμάτων και η διαδικασία ταξινόμησης πραγματοποιείται χρησιμοποιώντας τεχνικές προεπεξεργασίας κειμένων, μετρικές ομοιότητας γράφων και τεχνικές κατηγοριοποίησης διανυσμάτων, ακολουθώντας τo μοντέλο επιβλεπόμενης μηχανικής μάθησης. Η έρευνα μας περιλαμβάνει την ανάλυση πολλών παραλλαγών του προτεινόμενου μοντέλου και των παραμέτρων του, όπως διαφορετικές αναπαραστάσεις των κειμένων ως γράφοι Ν-γραμμάτων, μετρήσεις ομοιότητας γράφων και μέθοδοι κατηγοριοποίησης, ούτως ώστε στο τέλος να καταλήξουμε σε ένα μοντέλο που παράγει προβλέψεις με υψηλή ακρίβεια. Δώσαμε ιδιαίτερη σημασία στην αντιμετώπιση της κλιμάκωσης και αποκλιμάκωσης του φόρτου εισροής των κειμένων, της διαθεσιμότητας της υπηρεσίας που παράγει τις προβλέψεις και της έγκαιρης απόκρισης των προβλέψεων για αυτό χρησιμοποιήσαμε το μοντέλο προγραμματισμού Beam. Στο μοντέλο προγραμματισμού Beam, η διαδικασία κατηγοριοποίησης εμφανίζεται ως μια ακολουθία ξεχωριστών εργασιών και διευκολύνει την κατανεμημένη υλοποίηση των πιο απαιτητικών εργασιών. Το προτεινόμενο μοντέλο και οι διάφορες παράμετροι που το συνθέτουν αξιολογούνται πειραματικά και η ροή υψηλής συχνότητας εξομοιώνεται με τη χρήση διαδεδομένων συνόλων δεδομένων, που χρησιμοποιούνται στη βιβλιογραφία για εφαρμογές ταξινόμησης κειμένων. Το μοντέλο που προτείνουμε εκτείνεται σε πολλά ερευνητικά πεδία και αξίζει να αναφέρουμε επιγραμματικά το κάθε ένα, πώς σχετίζονται με την εργασία μας. Η κατηγοριοποίηση κειμένων είναι ένα ερευνητικό θέμα που έγκειται στα επιστημονικά πεδία της μηχανικής μάθησης και της φυσικής επεξεργασίας γλώσσας, η ροή κειμένων κυμαινόμενης υψηλής συχνότητας ανήκει στο πεδίο των μεγάλων δεδομένων. Τα μεγάλα δεδομένα για να εξυπηρετηθούν χρειάζονται υπολογιστικές υποδομές που προτείνονται από το επιστημονικό πεδίο των υπολογιστικών νεφών. Τέλος, οι εφαρμογές της κατηγοριοποίησης κειμένων στην παρούσα έρευνα θα χρησιμοποιηθεί για να επιλύσουν προβλήματα του πεδίου των μέσων κοινωνικής δικτύωσης. Θα ξεκινήσουμε με το να παρουσιάσουμε πώς οι τεχνικές επεξεργασίας φυσικής γλώσσας χρησιμοποιούνται για την κατηγοριοποίηση, την συσταδοποίηση και την ανάκτηση κειμένων. Οι τεχνικές θα παρουσιαστούν με χρονολογική σειρά με σκοπό να φανεί η εξέλιξη της σκέψης των ερευνητών και πώς η κάθε τεχνική που προτείνεται έρχεται να επιλύσει προβλήματα ή να βελτιώσει τις προηγούμενες. Θα συνεχίσουμε με το να παρουσιάσουμε τις ιδιότητες που πρέπει να πληροί μια κατηγοριοποίηση ή συσταδοποίηση για να θεωρείται καλή, καθώς και ένα σύνολο από μετρικές που ποσοτικοποιούν την ακρίβεια μιας κατηγοριοποίησης σύμφωνα με αυτές τις ιδιότητες. Θα παρουσιαστεί η μέθοδος διεξαγωγής πειραμάτων κατηγοριοποίησης, που εφαρμόζουν αυτές τις μετρικές, η οποία θα είναι η μέθοδος αξιολόγησης που θα χρησιμοποιηθεί σε όλα τα πειραματικά σύνολα που θα παρουσιάσουμε στις επόμενες ενότητες. Θα παρουσιαστούν σε δύο διαφορετικές ενότητες, μια μέθοδος κατηγοριοποίησης κειμένων και μια συσταδοποίησης, που κάνουν χρήση του μοντέλου αναπαράστασης γράφων Ν-γραμμάτων. Μια σειρά από προβλήματα του χώρου των μέσων κοινωνικών δικτύων, θα παρουσιαστούν σε συνδυασμό με αντιπροσωπευτικές μεθόδους που χρησιμοποιούνται για την επίλυσή τους. Θα προτείνουμε την μέθοδο με την οποία το μοντέλο κατηγοριοποίησης κειμένων εφαρμόζεται, θα το επιβεβαιώσουμε και θα το αξιολογήσουμε πειραματικά και θα δούμε πως πολλές φορές ξεπερνάει σε ακρίβεια άλλες μεθόδους που χρησιμοποιούνται. Οι εφαρμογές του χώρου των μέσων κοινωνικών δικτύων όπου θα εφαρμοστεί το μοντέλο που προτείνουμε είναι η αναγνώριση κοινοτήτων, αναγνώριση γεγονότων, συναισθηματική ανάλυση και τα συστήματα συστάσεων. | el |
heal.advisorName | Βαρβαρίγου, Θεοδώρα | el |
heal.committeeMemberName | Βαρβαρίγου, Θεοδώρα | el |
heal.committeeMemberName | Δουλάμης, Αναστάσιος | el |
heal.committeeMemberName | Ασκούνης, Δημήτριος | el |
heal.committeeMemberName | Ψαρράς, Ιωάννης | el |
heal.committeeMemberName | Παπαβασιλειου, Συμεών | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας | el |
heal.committeeMemberName | Δουλάμης, Νικόλαος | el |
heal.academicPublisher | Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 202 | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: