dc.contributor.author |
Γιαννούλη, Χρυσάνθη
|
el |
dc.contributor.author |
Giannouli, Chrysanthi
|
en |
dc.date.accessioned |
2021-07-29T08:38:03Z |
|
dc.date.available |
2021-07-29T08:38:03Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/53730 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.21428 |
|
dc.rights |
Default License |
|
dc.subject |
Ομοιότητα κειμένων |
el |
dc.subject |
Σημασιολογική ομοιότητα |
el |
dc.subject |
Προ-εκπαιδευμένοι κωδικοποιητές |
el |
dc.subject |
Text similarity |
en |
dc.subject |
Semantic similarity |
en |
dc.subject |
Word embeddings |
en |
dc.subject |
Sentence embeddings |
en |
dc.subject |
Pre-trained encoders |
en |
dc.title |
Μελέτη μεθόδων υπολογισμού σημασιολογικής ομοιότητας κειμένων |
el |
dc.title |
Study of methods for calculating semantic similarity of texts |
en |
heal.type |
bachelorThesis |
|
heal.classification |
Τεχνητή μάθηση |
el |
heal.classification |
Machine learning |
en |
heal.classification |
Επεξεργασία φυσικής γλώσσας |
el |
heal.classification |
Natural language processing |
en |
heal.language |
el |
|
heal.access |
campus |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2021-03-22 |
|
heal.abstract |
Ο υπολογισμός της ομοιότητας μεταξύ κειμένων είναι μία σημαντική μέθοδος της ανάλυσης δεδομένων, η οποία μπορεί να χρησιμοποιηθεί περαιτέρω σε πολλές και διαφορετικές εφαρμογές της ΕΦΓ όπως είναι η ανάκτηση πληροφορίας, η ανάλυση συναισθημάτων, η μηχανική μετάφραση κτλ. Η παρούσα εργασία μελετά διάφορες μεθόδους για τον υπολογισμό της σημασιολογικής ομοιότητας κειμένων. Βασικό χαρακτηριστικό των μεθόδων αυτών, είναι η αναπαράσταση της φυσικής γλώσσας ενός κειμένου σε αριθμητική μορφή, με τρόπο που να συλλαμβάνεται πληροφορία για την σημασία του (embedding). Οι μέθοδοι βασίζονται στην μηχανική μάθηση για την δημιουργία των embeddings των λεκτικών όρων και εξετάζονται με κριτήριο την ικανότητα τους να εκτιμούν την ανθρώπινη κρίση για το νόημα του κειμένου.Συγκεκριμένα, στην εργασία μελετώνται κωδικοποιητές για την δημιουργία embeddings λέξεων (word embeddings) και πως μπορούν να συνδυαστούν για να συλλάβουν το νόημα μιας πρότασης, καθώς και προ-εκπαιδευμένοι κωδικοποιητές για την δημιουργία embeddings προτάσεων (sentence embeddings). Για την πειραματική αξιολόγηση χρησιμοποιήθηκαν μικρά ειδησεογραφικά κείμενα, αντιπροσωπευτικά της αγγλικής γλώσσας, και ένα σετ ανθρώπινες μετρήσεις για την ομοιότητα των κειμένων. Τα αποτελέσματα των μετρήσεων δείχνουν πως η γενική επίδοση των μοντέλων να εκτιμούν την ανθρώπινη αντίληψη είναι καλή, χωρίς ιδιαίτερα κακές επιδόσεις. Αν και κάποια μοντέλα, πέτυχαν πολύ υψηλή απόδοση, η καλύτερη επίδοση επιτεύχθηκε στην περίπτωση που λάβαμε υπόψη το dataset μας, κάνοντας fine-tuning ένα μοντέλο σε αυτό. |
el |
heal.abstract |
Computation of similarity between texts has been animportant method of data analysiswhich can be further used in different NLP applicationslike information retrieval,sentiment analysis, machine translation. Generally,similarity between texts can be lexicalor semantic. This thesis presents different approachesof modeling the semantic similaritybetween texts. The basic characteristic of these methodsis the arithmetic representation oftexts as vectors, in a way that captures informationabout text’s meaning (embedding). Themethods are based on machine learning for the creationof the embeddings and are assessedin terms of their ability to evaluate human judgmentsof similarity.More specifically, in this thesis were studied modelsfor creating word embeddings anddifferent methods to combine these embeddings in orderto capture the meaning of asentence. Also, pre-trained sentence encoders werestudied for creating sentenceembeddings. Τhe presented methods are evaluated experimentallyusing a small dataset ofnews and a dataset of the human ratings of the similarityof every pair of the texts. Theevaluation results suggest that the proposed methodshave generally good performance,withοut any model underperforming. However, the bestperformance measured was whenwe fine-tuned one of the models in the used dataset. |
en |
heal.advisorName |
Στάμου, Γιώργος |
el |
heal.committeeMemberName |
Στάμου, Γιώργος |
el |
heal.committeeMemberName |
Σταφυλοπάτης, Ανδρέας-Γιώργος |
el |
heal.committeeMemberName |
Κόλλιας, Στέφανος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Πολιτικών Μηχανικών. Τομέας Υδατικών Πόρων και Περιβάλλοντος. Εργαστήριο Εφαρμοσμένης Υδραυλικής |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
70 σ. |
el |
heal.fullTextAvailability |
false |
|