dc.contributor.author | Μπριάκου, Ελευθερία | el |
dc.contributor.author | Briakou, Eleftheria | en |
dc.date.accessioned | 2018-09-05T09:57:08Z | |
dc.date.available | 2018-09-05T09:57:08Z | |
dc.date.issued | 2018-09-05 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/47528 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.15779 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Σημασιολογική ανάλυση | el |
dc.subject | Θεματική μοντελοποίηση | el |
dc.subject | Κατανεμημένα σημασιολογικά μοντέλα | el |
dc.subject | Θεματικά κατανεμημένα σημασιολογικά μοντέλα | el |
dc.subject | Σημασιολογικές απεικονίσεις | el |
dc.subject | Semantic analysis | en |
dc.subject | Topic modeling | en |
dc.subject | Distributional semantic models | en |
dc.subject | Topic embeddings | en |
dc.subject | Semantic mappings | en |
dc.title | Σημασιολογικές αναπαραστάσεις λέξεων με χρήση θεματικής μοντελοποίησης | el |
heal.type | bachelorThesis | |
heal.secondaryTitle | Topic-based word embeddings | en |
heal.classification | Artificial intelligence | en |
heal.classification | Τεχνητή νοημοσύνη | el |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2018-06-25 | |
heal.abstract | Τα Κατανεμημένα Σημασιολογικά Μοντέλα (ΚΣΜ) αποτελούν μια δημοφιλή μέθοδο που κωδικοποιεί τις έννοιες των λέξεων μέσω της στατιστικής ανάλυσης των συμφραζόμενων πλαισίων τους. Οι προκύπτουσες διανυσματικές αναπαραστάσεις λέξεων έχουν χρησιμοποιηθεί επιτυχώς σε διάφορες εφαρμογές της Επεξεργασίας Φυσικού Λόγου (Natural Language Processing, NLP), ενώ χρησιμοποιούνται επίσης για τον υπολογισμό των σημασιολογικών ομοιοτήτων ανάμεσα σε ζεύγη λέξεων. Ωστόσο, μια σημαντική έλλειψη των παραδοσιακών ΚΣΜ είναι ότι οι πολλαπλές έννοιες μιας πολυσήμαντης λέξης συγχωνεύονται σε μια μοναδική διανυσματική αναπαράσταση. Ο σκοπός αυτής της διπλωματικής εργασίας είναι η αντιμετώπιση του παραπάνω προβλήματος, μέσω της χρήσης δύο μοντέλων που αξιοποιούν θεματικές διανυσματικές αναπαραστάσεις λέξεων οι οποίες έχουν εξαχθεί από Θεματικά ΚΣΜ (ΘΚΣΜ). Αρχικά, βασιζόμενοι στην παρατήρηση ότι οι λέξεις εμφανίζονται συνήθως με μια συγκεκριμένη έννοια σε κάθε θεματική περιοχή, προτείνουμε ένα μείγμα σημασιολογικών μοντέλων που επιτρέπει τον συνδυασμό των ομοιοτήτων ζευγών λέξεων οι οποίες υπολογίζονται σε πολλαπλά ΘΚΣΜ. Στη συνέχεια, επεκτείνουμε αυτό το μοντέλο προκειμένου να αποκτήσουμε μια ενιαία αναπαράσταση των πολλαπλών θεματικών εννοιών των λέξεων σε έναν κοινό διανυσματικό χώρο. Προς αυτή την κατεύθυνση, κάθε ένα από τα ΘΚΣΜ ευθυγραμμίζεται ως προς έναν κοινό διανυσματικό χώρο μέσω γραμμικής απεικόνισης. Αυτή η μέθοδος οδηγεί σε ένα σύνολο διανυσματικών αναπαραστάσεων ανά λέξη, το πλήθος των οποίων ισούται με το πλήθος των θεμάτων. Έπειτα, το πλήθος των προκυπτόντων διανυσμάτων μειώνεται περαιτέρω μέσω συσσωρευτικής ταξιδόμησης. Επιπλέον, έναν από τους κύριους στόχους αυτής της εργασίας αποτελεί η διερεύνηση των διαφορετικών τρόπων εκτέλεσης των σημασιολογικών απεικονίσεων ανάμεσα στους θεματικούς υποχώρους και στον ενοποιημένο σημασιολογικό χώρο. Συγκεκριμένα, υποθέτουμε ότι τα ΘΚΣΜ ενσωματώνουν σημαντικές διακυμάνσεις στη χρήση των πολυσήμαντων λέξεων, ενώ παράλληλα διατηρούν τις σχετικές σημασιολογικές αποστάσεις ανάμεσα στις μονοσήμαντες λέξεις. Αυτό, μας οδήγησε στο να αντιμετωπίσουμε τις μονοσήμαντες λέξεις ως σημασιολογικές άγκυρες που καθορίζουν τις αντιστοιχίσεις ανάμεσα στους σημασιολογικούς μας χώρους. Απ' όσο γνωρίζουμε, αυτή είναι η πρώτη φορά που απεικονίσεις μεταξύ σημασιολογικών χώρων εφαρμόζονται στο πρόβλημα της εκμάθησης πολλαπλών διανυσματικών αναπαραστάσεων για πολυσήμαντες λέξεις. Τα προτεινόμενα μοντέλα μπορούν να αξιολογηθούν σε σύνολα δεδομένων τα οποία παρέχουν ζεύγη λέξεων παρουσία ή απουσία συμφραζόμενων πλαισίων, επιδεικνύοντας σημαντική βελτίωση της συσχέτισης με τις τιμές αλήθειας οι οποίες παρέχονται από ανθρώπινες εκτιμήσεις, σε σύγκριση με μια βασική προσέγγιση που δεν χρησιμοποιεί θεματικά μοντέλα. Επιπλέον, τα μοντέλα μας σημειώνουν επιδόσεις συγκρίσιμες με τα καλύτερα προβλεπτικά συστήματα τα οποία προτείνονται στη βιβλιογραφία. | el |
heal.abstract | Distributional Semantic Models (DSMs) constitutes a popular method that estimates the meaning of words from the statistical analysis of their contexts. The extracted word representations have been successfully applied to various Natural Language Processing (NLP) applications, and they are typically utilized to compute pairwise semantic similarities of words. However, one major deficiency of traditional DSMs is that the multiple senses of a polysemous word are conflated into a single vector space representation. The goal of this diploma thesis is to alleviate the above problem, via proposing two models that leverage topic representations of words extracted from Topic-based DSMs (TDSMs). Firstly, motivated by the fact that typically words appear with a specific sense in each topic, we discuss a semantic mixture model that enables the combination of word similarity scores estimated across multiple TDSMs. Afterwards, we extend this work in order to acquire a unified representation of the multiple topic-senses of words in a common space. In this direction, each of the TDSMs are aligned to a common vector space via linear mapping. This results in a set of embedding vectors per word with cardinality equal to the number of topics; the number of resulting vectors is further reduced via agglomerative clustering. Furthermore, on of the main scopes of this thesis is to investigate different ways to perform the mappings from the topic sub-spaces to the unified semantic space. Specifically, we hypothesize that TDSMs capture meaningful variations in usage of polysemous words, while the relative semantic distance between monosemous words is preserved. This, motivated as to think of monosemous words as semantic anchors that determine the mappings between our semantic spaces. Up to our knowledge, this is the first time that mappings between semantic spaces are applied to the problem of learning multiple embeddings for polysemous words. The proposed models can be evaluated on both contextual and in-isolation semantic similarity tasks, showing a significant improvement of correlation with human annotations, compared to a baseline approach that does not use topic models. Moreover, our models report performances comparable to the best predictive systems that are proposed in the literature. | en |
heal.advisorName | Ποταμιάνος, Αλέξανδρος | el |
heal.committeeMemberName | Ποταμιάνος, Αλέξανδρος | el |
heal.committeeMemberName | Τζαφέστας, Κωνσταντίνος | el |
heal.committeeMemberName | Στάμου, Γιώργος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 180 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: