HEAL DSpace

Ταξινόμηση κειμένων με χρήση γράφων λέξεων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βούλγαρης, Σωτήρης el
dc.contributor.author Voulgaris, Sotiris en
dc.date.accessioned 2019-10-08T09:15:20Z
dc.date.available 2019-10-08T09:15:20Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/49268
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.16966
dc.rights Default License
dc.subject Γραφός λέξεων el
dc.subject Graph of words en
dc.subject Ταξινόμηση κειμένου el
dc.subject Coreference resolution en
dc.subject Collocation detection en
dc.subject Ενίσχυση κόμβων el
dc.subject Word embeddings en
dc.subject Μεταβλητό μέγεθος παραθύρου el
dc.subject Ensembles en
dc.title Ταξινόμηση κειμένων με χρήση γράφων λέξεων el
heal.type bachelorThesis
heal.classification Machine learning en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2019-07-10
heal.abstract Οι γράφοι λέξεων αναπαριστούν ένα κείμενο ως ένα γράφο, οι κόμβοι του οποίου είναι οι ξεχωριστοί όροι του κειμένου και οι ακμές συμβολίζουν τη συνύπαρξη δύο όρων σε ένα κινούμενο παράθυρο. Το μοντέλο εκμεταλλεύεται τη σχέση που έχουν μεταξύ τους οι κοντινοί όροι και τη σειρά τους, για να αποδώσει κατάλληλο βάρος στους όρους του κειμένου, το οποίο προκύπτει από το βαθμό που έχει ο αντίστοιχος κόμβος στο γράφο. Το βάρος του όρου μπορεί να αντικαταστήσει τη συχνότητα στη διανυσματική αναπαράσταση TF-IDF, οπότε και προκύπτει το TW-IDF, το οποίο μπορεί να χρησιμοποιηθεί μεταξύ άλλων για την ταξινόμηση κειμένων. Στην παρούσα εργασία, στόχος είναι η μελέτη και η βελτίωση του μοντέλου γράφων λέξεων στην ταξινόμηση κειμένου. Για το σκοπό αυτό προτείνονται διάφορες τροποποιήσεις του μοντέλου, οι οποίες αφορούν τόσο την προεπεξεργασία του κειμένου όσο και την κατασκευή του γράφου. Πιο συγκεκριμένα, οι μέθοδοι coreference resolution και collocation detection έχουν στόχο τη δημιουργία πιο αντιπροσωπευτικών ακμών και κόμβων αντίστοιχα, μέσω κατάλληλης προεπεξεργασίας του κειμένου. Έπειτα, εξετάστηκε η χρήση της απόστασης ομοιότητας των word embeddings των όρων για τα βάρη των ακμών. Παράλληλα, εντοπίστηκε μια αδυναμία των γράφων λέξεων να δώσουν κατάλληλο βάρος στους όρους που βρίσκονται στα άκρα του κειμένου και για το λόγο αυτό αναπτύχθηκαν οι μέθοδοι ενίσχυσης του βάρους των κόμβων, Rebase και Boost. Η μέθοδος Rebase θέτει ένα κάτω όριο στο βάρος που επιτρέπεται να έχει κάθε όρος , ενώ η Boost τροποποιεί επιλεκτικά τα βάρη μόνο των προβληματικών όρων. Μια άλλη τροποποίηση που εξετάστηκε είναι το μεταβλητό μήκος παραθύρου, στην οποία κάθε όρος έχει το δικό του μέγεθος παραθύρου. Το μέγεθος του παραθύρου καθορίζει το πλήθος των συνδέσεων που έχει ένας κόμβος και ως αποτέλεσμα τη σημασία του αντίστοιχου όρου, οπότε η αλλαγή του μπορεί να επηρεάσει σημαντικά το βάρος που αποδίδει το μοντέλο σε κάθε όρο. Τέλος, προτείνεται η χρήση ensembles γράφων λέξεων. για να εκμεταλλευτούμε τις διάφορες επιλογές που υπάρχουν για την κατασκευή των γράφων και να βελτιώσουμε περαιτέρω την απόδοση της ταξινόμησης. Η χρησιμότητα των μεθόδων αξιολογείται σε δύο διαφορετικές συλλογές κειμένων, απ΄ όπου προκύπτουν χρήσιμα συμπεράσματα για το μοντέλο γράφου λέξεων, ενώ προτείνονται και κατευθύνσεις για μελλοντική επέκταση και βελτίωση των προτεινόμενων τροποποιήσεων. el
heal.abstract Graph of words(GoWs) represent a textual document asagraph whose vertices are theunique terms and the edges represent co-occurrence between the terms within a fixed size sliding window. GoWstakeinto account the relationshipthat exists between the terms, their order and distanceinside the textand uses the degree of a node to assign weight to the corresponding term. The weight of a term can replace the frequency in TF-IDF, which results in TW-IDF,that can be used for textclassification.The scope of thisdiploma thesis is to examine and improve the GoWsmodel for the task of textclassification. As a result,wepropose several modifications forthe preprocessing of the text and the construction of the graph. Coreference resolution and collocation detection are used to produce more suitable edges and nodes accordingly. Furthermore, we examined the use of the similarity distance of thetermsword embeddings to assign weightsto the edges. Regarding a problem in the misrepresentation of the term weight in the edges of the document, we proposed two node reinforcement methods, Rebase and Boost.Rebasedefines a lower limit for the term weights and Boost modifies only the term weightsthat are misrepresented. Wealsoexamined the possibility for each termto have its ownvariablewindow size. The amount of connections that a node has is proportional to the window size, which means that a bigger size can significantly changethe importance of a term. Last but notleast, we used ensembles of GoWs to take advantage of the many optionswe have for the graph creation, to further improve the classification performance.For the evaluation of the methods we used two different collections of documentsand future research is suggestedfor the enhancement of the proposed methods and the GoWsmodelin general en
heal.advisorName Stamou, Giorgos el
heal.committeeMemberName Papaspyrou, Nikolaos el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 74 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής