HEAL DSpace

Σημασιολογικές αναπαραστάσεις λέξεων με χρήση θεματικής μοντελοποίησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μπριάκου, Ελευθερία el
dc.contributor.author Briakou, Eleftheria en
dc.date.accessioned 2018-09-05T09:57:08Z
dc.date.available 2018-09-05T09:57:08Z
dc.date.issued 2018-09-05
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/47528
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.15779
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Σημασιολογική ανάλυση el
dc.subject Θεματική μοντελοποίηση el
dc.subject Κατανεμημένα σημασιολογικά μοντέλα el
dc.subject Θεματικά κατανεμημένα σημασιολογικά μοντέλα el
dc.subject Σημασιολογικές απεικονίσεις el
dc.subject Semantic analysis en
dc.subject Topic modeling en
dc.subject Distributional semantic models en
dc.subject Topic embeddings en
dc.subject Semantic mappings en
dc.title Σημασιολογικές αναπαραστάσεις λέξεων με χρήση θεματικής μοντελοποίησης el
heal.type bachelorThesis
heal.secondaryTitle Topic-based word embeddings en
heal.classification Artificial intelligence en
heal.classification Τεχνητή νοημοσύνη el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2018-06-25
heal.abstract Τα Κατανεμημένα Σημασιολογικά Μοντέλα (ΚΣΜ) αποτελούν μια δημοφιλή μέθοδο που κωδικοποιεί τις έννοιες των λέξεων μέσω της στατιστικής ανάλυσης των συμφραζόμενων πλαισίων τους. Οι προκύπτουσες διανυσματικές αναπαραστάσεις λέξεων έχουν χρησιμοποιηθεί επιτυχώς σε διάφορες εφαρμογές της Επεξεργασίας Φυσικού Λόγου (Natural Language Processing, NLP), ενώ χρησιμοποιούνται επίσης για τον υπολογισμό των σημασιολογικών ομοιοτήτων ανάμεσα σε ζεύγη λέξεων. Ωστόσο, μια σημαντική έλλειψη των παραδοσιακών ΚΣΜ είναι ότι οι πολλαπλές έννοιες μιας πολυσήμαντης λέξης συγχωνεύονται σε μια μοναδική διανυσματική αναπαράσταση. Ο σκοπός αυτής της διπλωματικής εργασίας είναι η αντιμετώπιση του παραπάνω προβλήματος, μέσω της χρήσης δύο μοντέλων που αξιοποιούν θεματικές διανυσματικές αναπαραστάσεις λέξεων οι οποίες έχουν εξαχθεί από Θεματικά ΚΣΜ (ΘΚΣΜ). Αρχικά, βασιζόμενοι στην παρατήρηση ότι οι λέξεις εμφανίζονται συνήθως με μια συγκεκριμένη έννοια σε κάθε θεματική περιοχή, προτείνουμε ένα μείγμα σημασιολογικών μοντέλων που επιτρέπει τον συνδυασμό των ομοιοτήτων ζευγών λέξεων οι οποίες υπολογίζονται σε πολλαπλά ΘΚΣΜ. Στη συνέχεια, επεκτείνουμε αυτό το μοντέλο προκειμένου να αποκτήσουμε μια ενιαία αναπαράσταση των πολλαπλών θεματικών εννοιών των λέξεων σε έναν κοινό διανυσματικό χώρο. Προς αυτή την κατεύθυνση, κάθε ένα από τα ΘΚΣΜ ευθυγραμμίζεται ως προς έναν κοινό διανυσματικό χώρο μέσω γραμμικής απεικόνισης. Αυτή η μέθοδος οδηγεί σε ένα σύνολο διανυσματικών αναπαραστάσεων ανά λέξη, το πλήθος των οποίων ισούται με το πλήθος των θεμάτων. Έπειτα, το πλήθος των προκυπτόντων διανυσμάτων μειώνεται περαιτέρω μέσω συσσωρευτικής ταξιδόμησης. Επιπλέον, έναν από τους κύριους στόχους αυτής της εργασίας αποτελεί η διερεύνηση των διαφορετικών τρόπων εκτέλεσης των σημασιολογικών απεικονίσεων ανάμεσα στους θεματικούς υποχώρους και στον ενοποιημένο σημασιολογικό χώρο. Συγκεκριμένα, υποθέτουμε ότι τα ΘΚΣΜ ενσωματώνουν σημαντικές διακυμάνσεις στη χρήση των πολυσήμαντων λέξεων, ενώ παράλληλα διατηρούν τις σχετικές σημασιολογικές αποστάσεις ανάμεσα στις μονοσήμαντες λέξεις. Αυτό, μας οδήγησε στο να αντιμετωπίσουμε τις μονοσήμαντες λέξεις ως σημασιολογικές άγκυρες που καθορίζουν τις αντιστοιχίσεις ανάμεσα στους σημασιολογικούς μας χώρους. Απ' όσο γνωρίζουμε, αυτή είναι η πρώτη φορά που απεικονίσεις μεταξύ σημασιολογικών χώρων εφαρμόζονται στο πρόβλημα της εκμάθησης πολλαπλών διανυσματικών αναπαραστάσεων για πολυσήμαντες λέξεις. Τα προτεινόμενα μοντέλα μπορούν να αξιολογηθούν σε σύνολα δεδομένων τα οποία παρέχουν ζεύγη λέξεων παρουσία ή απουσία συμφραζόμενων πλαισίων, επιδεικνύοντας σημαντική βελτίωση της συσχέτισης με τις τιμές αλήθειας οι οποίες παρέχονται από ανθρώπινες εκτιμήσεις, σε σύγκριση με μια βασική προσέγγιση που δεν χρησιμοποιεί θεματικά μοντέλα. Επιπλέον, τα μοντέλα μας σημειώνουν επιδόσεις συγκρίσιμες με τα καλύτερα προβλεπτικά συστήματα τα οποία προτείνονται στη βιβλιογραφία. el
heal.abstract Distributional Semantic Models (DSMs) constitutes a popular method that estimates the meaning of words from the statistical analysis of their contexts. The extracted word representations have been successfully applied to various Natural Language Processing (NLP) applications, and they are typically utilized to compute pairwise semantic similarities of words. However, one major deficiency of traditional DSMs is that the multiple senses of a polysemous word are conflated into a single vector space representation. The goal of this diploma thesis is to alleviate the above problem, via proposing two models that leverage topic representations of words extracted from Topic-based DSMs (TDSMs). Firstly, motivated by the fact that typically words appear with a specific sense in each topic, we discuss a semantic mixture model that enables the combination of word similarity scores estimated across multiple TDSMs. Afterwards, we extend this work in order to acquire a unified representation of the multiple topic-senses of words in a common space. In this direction, each of the TDSMs are aligned to a common vector space via linear mapping. This results in a set of embedding vectors per word with cardinality equal to the number of topics; the number of resulting vectors is further reduced via agglomerative clustering. Furthermore, on of the main scopes of this thesis is to investigate different ways to perform the mappings from the topic sub-spaces to the unified semantic space. Specifically, we hypothesize that TDSMs capture meaningful variations in usage of polysemous words, while the relative semantic distance between monosemous words is preserved. This, motivated as to think of monosemous words as semantic anchors that determine the mappings between our semantic spaces. Up to our knowledge, this is the first time that mappings between semantic spaces are applied to the problem of learning multiple embeddings for polysemous words. The proposed models can be evaluated on both contextual and in-isolation semantic similarity tasks, showing a significant improvement of correlation with human annotations, compared to a baseline approach that does not use topic models. Moreover, our models report performances comparable to the best predictive systems that are proposed in the literature. en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Στάμου, Γιώργος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 180 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα