Ταξινόμηση κειμένων με χρήση γράφων λέξεων

Βούλγαρης, Σωτήρης; Voulgaris, Sotiris

dc.contributor.author	Βούλγαρης, Σωτήρης	el
dc.contributor.author	Voulgaris, Sotiris	en
dc.date.accessioned	2019-10-08T09:15:20Z
dc.date.available	2019-10-08T09:15:20Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/49268
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.16966
dc.rights	Default License
dc.subject	Γραφός λέξεων	el
dc.subject	Graph of words	en
dc.subject	Ταξινόμηση κειμένου	el
dc.subject	Coreference resolution	en
dc.subject	Collocation detection	en
dc.subject	Ενίσχυση κόμβων	el
dc.subject	Word embeddings	en
dc.subject	Μεταβλητό μέγεθος παραθύρου	el
dc.subject	Ensembles	en
dc.title	Ταξινόμηση κειμένων με χρήση γράφων λέξεων	el
heal.type	bachelorThesis
heal.classification	Machine learning	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2019-07-10
heal.abstract	Οι γράφοι λέξεων αναπαριστούν ένα κείμενο ως ένα γράφο, οι κόμβοι του οποίου είναι οι ξεχωριστοί όροι του κειμένου και οι ακμές συμβολίζουν τη συνύπαρξη δύο όρων σε ένα κινούμενο παράθυρο. Το μοντέλο εκμεταλλεύεται τη σχέση που έχουν μεταξύ τους οι κοντινοί όροι και τη σειρά τους, για να αποδώσει κατάλληλο βάρος στους όρους του κειμένου, το οποίο προκύπτει από το βαθμό που έχει ο αντίστοιχος κόμβος στο γράφο. Το βάρος του όρου μπορεί να αντικαταστήσει τη συχνότητα στη διανυσματική αναπαράσταση TF-IDF, οπότε και προκύπτει το TW-IDF, το οποίο μπορεί να χρησιμοποιηθεί μεταξύ άλλων για την ταξινόμηση κειμένων. Στην παρούσα εργασία, στόχος είναι η μελέτη και η βελτίωση του μοντέλου γράφων λέξεων στην ταξινόμηση κειμένου. Για το σκοπό αυτό προτείνονται διάφορες τροποποιήσεις του μοντέλου, οι οποίες αφορούν τόσο την προεπεξεργασία του κειμένου όσο και την κατασκευή του γράφου. Πιο συγκεκριμένα, οι μέθοδοι coreference resolution και collocation detection έχουν στόχο τη δημιουργία πιο αντιπροσωπευτικών ακμών και κόμβων αντίστοιχα, μέσω κατάλληλης προεπεξεργασίας του κειμένου. Έπειτα, εξετάστηκε η χρήση της απόστασης ομοιότητας των word embeddings των όρων για τα βάρη των ακμών. Παράλληλα, εντοπίστηκε μια αδυναμία των γράφων λέξεων να δώσουν κατάλληλο βάρος στους όρους που βρίσκονται στα άκρα του κειμένου και για το λόγο αυτό αναπτύχθηκαν οι μέθοδοι ενίσχυσης του βάρους των κόμβων, Rebase και Boost. Η μέθοδος Rebase θέτει ένα κάτω όριο στο βάρος που επιτρέπεται να έχει κάθε όρος , ενώ η Boost τροποποιεί επιλεκτικά τα βάρη μόνο των προβληματικών όρων. Μια άλλη τροποποίηση που εξετάστηκε είναι το μεταβλητό μήκος παραθύρου, στην οποία κάθε όρος έχει το δικό του μέγεθος παραθύρου. Το μέγεθος του παραθύρου καθορίζει το πλήθος των συνδέσεων που έχει ένας κόμβος και ως αποτέλεσμα τη σημασία του αντίστοιχου όρου, οπότε η αλλαγή του μπορεί να επηρεάσει σημαντικά το βάρος που αποδίδει το μοντέλο σε κάθε όρο. Τέλος, προτείνεται η χρήση ensembles γράφων λέξεων. για να εκμεταλλευτούμε τις διάφορες επιλογές που υπάρχουν για την κατασκευή των γράφων και να βελτιώσουμε περαιτέρω την απόδοση της ταξινόμησης. Η χρησιμότητα των μεθόδων αξιολογείται σε δύο διαφορετικές συλλογές κειμένων, απ΄ όπου προκύπτουν χρήσιμα συμπεράσματα για το μοντέλο γράφου λέξεων, ενώ προτείνονται και κατευθύνσεις για μελλοντική επέκταση και βελτίωση των προτεινόμενων τροποποιήσεων.	el
heal.abstract	Graph of words(GoWs) represent a textual document asagraph whose vertices are theunique terms and the edges represent co-occurrence between the terms within a fixed size sliding window. GoWstakeinto account the relationshipthat exists between the terms, their order and distanceinside the textand uses the degree of a node to assign weight to the corresponding term. The weight of a term can replace the frequency in TF-IDF, which results in TW-IDF,that can be used for textclassification.The scope of thisdiploma thesis is to examine and improve the GoWsmodel for the task of textclassification. As a result,wepropose several modifications forthe preprocessing of the text and the construction of the graph. Coreference resolution and collocation detection are used to produce more suitable edges and nodes accordingly. Furthermore, we examined the use of the similarity distance of thetermsword embeddings to assign weightsto the edges. Regarding a problem in the misrepresentation of the term weight in the edges of the document, we proposed two node reinforcement methods, Rebase and Boost.Rebasedefines a lower limit for the term weights and Boost modifies only the term weightsthat are misrepresented. Wealsoexamined the possibility for each termto have its ownvariablewindow size. The amount of connections that a node has is proportional to the window size, which means that a bigger size can significantly changethe importance of a term. Last but notleast, we used ensembles of GoWs to take advantage of the many optionswe have for the graph creation, to further improve the classification performance.For the evaluation of the methods we used two different collections of documentsand future research is suggestedfor the enhancement of the proposed methods and the GoWsmodelin general	en
heal.advisorName	Stamou, Giorgos	el
heal.committeeMemberName	Papaspyrou, Nikolaos	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	74 σ.
heal.fullTextAvailability	true