dc.contributor.author |
Βούλγαρης, Σωτήρης
|
el |
dc.contributor.author |
Voulgaris, Sotiris
|
en |
dc.date.accessioned |
2019-10-08T09:15:20Z |
|
dc.date.available |
2019-10-08T09:15:20Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/49268 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.16966 |
|
dc.rights |
Default License |
|
dc.subject |
Γραφός λέξεων |
el |
dc.subject |
Graph of words |
en |
dc.subject |
Ταξινόμηση κειμένου |
el |
dc.subject |
Coreference resolution |
en |
dc.subject |
Collocation detection |
en |
dc.subject |
Ενίσχυση κόμβων |
el |
dc.subject |
Word embeddings |
en |
dc.subject |
Μεταβλητό μέγεθος παραθύρου |
el |
dc.subject |
Ensembles |
en |
dc.title |
Ταξινόμηση κειμένων με χρήση γράφων λέξεων |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Machine learning |
en |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2019-07-10 |
|
heal.abstract |
Οι γράφοι λέξεων αναπαριστούν ένα κείμενο ως ένα γράφο, οι κόμβοι του οποίου είναι οι ξεχωριστοί όροι του κειμένου και οι ακμές συμβολίζουν τη συνύπαρξη δύο όρων σε ένα κινούμενο παράθυρο. Το μοντέλο εκμεταλλεύεται τη σχέση που έχουν μεταξύ τους οι κοντινοί όροι και τη σειρά τους, για να αποδώσει κατάλληλο βάρος στους όρους του κειμένου, το οποίο προκύπτει από το βαθμό που έχει ο αντίστοιχος κόμβος στο γράφο. Το βάρος του όρου μπορεί να αντικαταστήσει τη συχνότητα στη διανυσματική αναπαράσταση TF-IDF, οπότε και προκύπτει το TW-IDF, το οποίο μπορεί να χρησιμοποιηθεί μεταξύ άλλων για την ταξινόμηση κειμένων.
Στην παρούσα εργασία, στόχος είναι η μελέτη και η βελτίωση του μοντέλου γράφων λέξεων στην ταξινόμηση κειμένου. Για το σκοπό αυτό προτείνονται διάφορες τροποποιήσεις του μοντέλου, οι οποίες αφορούν τόσο την προεπεξεργασία του κειμένου όσο και την κατασκευή του γράφου. Πιο συγκεκριμένα, οι μέθοδοι coreference resolution και collocation detection έχουν στόχο τη δημιουργία πιο αντιπροσωπευτικών ακμών και κόμβων αντίστοιχα, μέσω κατάλληλης προεπεξεργασίας του κειμένου. Έπειτα, εξετάστηκε η χρήση της απόστασης ομοιότητας των word embeddings των όρων για τα βάρη των ακμών. Παράλληλα, εντοπίστηκε μια αδυναμία των γράφων λέξεων να δώσουν κατάλληλο βάρος στους όρους που βρίσκονται στα άκρα του κειμένου και για το λόγο αυτό αναπτύχθηκαν οι μέθοδοι ενίσχυσης του βάρους των κόμβων, Rebase και Boost. Η μέθοδος Rebase θέτει ένα κάτω όριο στο βάρος που επιτρέπεται να έχει κάθε όρος , ενώ η Boost τροποποιεί επιλεκτικά τα βάρη μόνο των προβληματικών όρων. Μια άλλη τροποποίηση που εξετάστηκε είναι το μεταβλητό μήκος παραθύρου, στην οποία κάθε όρος έχει το δικό του μέγεθος παραθύρου. Το μέγεθος του παραθύρου καθορίζει το πλήθος των συνδέσεων που έχει ένας κόμβος και ως αποτέλεσμα τη σημασία του αντίστοιχου όρου, οπότε η αλλαγή του μπορεί να επηρεάσει σημαντικά το βάρος που αποδίδει το μοντέλο σε κάθε όρο. Τέλος, προτείνεται η χρήση ensembles γράφων λέξεων. για να εκμεταλλευτούμε τις διάφορες επιλογές που υπάρχουν για την κατασκευή των γράφων και να βελτιώσουμε περαιτέρω την απόδοση της ταξινόμησης.
Η χρησιμότητα των μεθόδων αξιολογείται σε δύο διαφορετικές συλλογές κειμένων, απ΄ όπου προκύπτουν χρήσιμα συμπεράσματα για το μοντέλο γράφου λέξεων, ενώ προτείνονται και κατευθύνσεις για μελλοντική επέκταση και βελτίωση των προτεινόμενων τροποποιήσεων. |
el |
heal.abstract |
Graph of words(GoWs) represent a textual document asagraph whose vertices are theunique terms and the edges represent co-occurrence between the terms within a fixed size sliding window. GoWstakeinto account the relationshipthat exists between the terms, their order and distanceinside the textand uses the degree of a node to assign weight to the corresponding term. The weight of a term can replace the frequency in TF-IDF, which results in TW-IDF,that can be used for textclassification.The scope of thisdiploma thesis is to examine and improve the GoWsmodel for the task of textclassification. As a result,wepropose several modifications forthe preprocessing of the text and the construction of the graph. Coreference resolution and collocation detection are used to produce more suitable edges and nodes accordingly. Furthermore, we examined the use of the similarity distance of thetermsword embeddings to assign weightsto the edges. Regarding a problem in the misrepresentation of the term weight in the edges of the document, we proposed two node reinforcement methods, Rebase and Boost.Rebasedefines a lower limit for the term weights and Boost modifies only the term weightsthat are misrepresented. Wealsoexamined the possibility for each termto have its ownvariablewindow size. The amount of connections that a node has is proportional to the window size, which means that a bigger size can significantly changethe importance of a term. Last but notleast, we used ensembles of GoWs to take advantage of the many optionswe have for the graph creation, to further improve the classification performance.For the evaluation of the methods we used two different collections of documentsand future research is suggestedfor the enhancement of the proposed methods and the GoWsmodelin general |
en |
heal.advisorName |
Stamou, Giorgos |
el |
heal.committeeMemberName |
Papaspyrou, Nikolaos |
el |
heal.committeeMemberName |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
74 σ. |
|
heal.fullTextAvailability |
true |
|