dc.contributor.author |
Ξεφτέρη, Βασιλική
|
|
dc.contributor.author |
Xefteri, Vasiliki
|
en |
dc.date.accessioned |
2022-11-16T09:59:47Z |
|
dc.date.available |
2022-11-16T09:59:47Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/56148 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.23846 |
|
dc.rights |
Default License |
|
dc.subject |
Σημασιολογικός εμπλουτισμός |
el |
dc.subject |
Επεξεργασία φυσικής γλώσσας |
el |
dc.subject |
Ταξινόμηση |
el |
dc.subject |
Ανάκτηση πληροφορίας |
el |
dc.subject |
Νευρωνικά δίκτυα |
el |
dc.subject |
Semantic enrichment |
en |
dc.subject |
Natural language processing |
en |
dc.subject |
Classification |
en |
dc.subject |
Information retrieval |
en |
dc.subject |
Neural networks |
en |
dc.title |
Σημασιολογικός εμπλουτισμός προεκπαιδευμένων νευρωνικών δικτύων για την επεξεργασία φυσικής γλώσσας με τη χρήση εργαλείων αναπαράστασης γνώσης |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Μηχανική Μάθηση |
el |
heal.classification |
Επεξεργασία Φυσικής Γλώσσας |
el |
heal.language |
el |
|
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2022-07-13 |
|
heal.abstract |
Τα τελευταία χρόνια, η επιστημονική βιβλιογραφία στον βιοϊατρικό και κλινικό τομέα αυξάνεται ολοένα και περισσότερο. Αυτή η ταχεία ανάπτυξη έχει περιπλέξει τον εντοπισμό πληροφοριών που ενδιαφέρουν τους ερευνητές. Επί του παρόντος, υπάρχουν διάφορα εποπτευόμενα μοντέλα για την ανάκτηση πληροφοριών και την ταξινόμηση ιατρικών εγγράφων, ωστόσο η ταχεία εμφάνιση νέων θεμάτων και ευρημάτων συχνά εμποδίζει την απόδοσή τους. Η διπλωματική αυτή ασχολείται με τη διερεύνηση του σημασιολογικού εμπλουτισμού αρχιτεκτονικών βαθιάς μάθησης transformer με σκοπό την εύρεση των σχετικών ιατρικών εγγράφων με ένα ερώτημα χρήστη και επίσης την ταξινόμηση αυτών των εγγράφων. Αξιολογούμε τις μεθόδους μας σε υποσύνολα δεδομένων OHSUMED. Και στα δύο προβλήματα, ο σημασιολογικός εμπλουτισμός επιτυγχάνεται με τη SNOMED CT, μια οντολογία κλινικής υγειονομικής περίθαλψης, και χρησιμοποιούμε κυρίως δύο διαφορετικές προσεγγίσεις. Σε αυτή τη διπλωματική, αρχικά, διερευνούμε τον εμπλουτισμό των ενσωματώσεων κειμένων που βασίζονται σε μοντέλα transformer με ενσωματώσεις οντολογιών, που παράγονται από το OWL2Vec*. Το OWL2Vec* είναι ένα πλαίσιο που διατηρεί τις λεξιλογικές πληροφορίες και τους λογικούς τελεστές μιας οντολογίας. Πειραματιζόμαστε με διαφορετικές παραμέτρους του OWL2Vec* και διαφορετικές προ-διεργασίες του συνόλου δεδομένων και της οντολογίας μας και αποδεικνύουμε ότι το OWL2Vec* δεν μπορεί επί του παρόντος να εφαρμοστεί σε μεγάλες οντολογίες, όπως η SNOMED CT. Αυτό το αποδεικνύουμε όχι μόνο στην ανάκτηση πληροφοριών αλλά και στην ταξινόμηση κειμένων. Στο μέλλον, η απόδοση του OWL2Vec* αναμένεται να βελτιωθεί με μεγαλύτερες οντολογίες. Για την ταξινόμηση, δοκιμάζουμε επίσης μια άλλη μέθοδο που βασίζεται στο φιλτράρισμα. Ενισχύουμε κάθε κλάση και κάθε έγγραφο με έννοιες της SNOMED CT και, στη συνέχεια, επιβάλλουμε φίλτρα στη συνύπαρξη εννοιών μεταξύ τους. Η μέθοδος επιτυγχάνει καλή απόδοση στην ταξινόμηση. Εξετάζουμε αυτή την προσέγγιση συνδυάζοντάς την με τα μοντέλα BERT και βελτιώνουμε σημαντικά την απόδοσή τους. Ως αποτέλεσμα, αποδεικνύουμε ότι μια εξειδικευμένη οντολογία μπορεί να εφαρμοστεί με επιτυχία για την προσαρμογή μοντέλων, που δεν εξειδικεύονται σε έναν τομέα, σε έναν νέο τομέα και να βελτιώσει την απόδοση των μοντέλων επεξεργασίας φυσικής γλώσσας. |
el |
heal.abstract |
In recent years, the scientific literature in the biomedical and clinical domain is more and more increasing. This rapid growth has complicated the identification of information of interest by researchers. Various supervised models currently exist for the information retrieval and the classification of medical documents, however the rapid emergence of new topics and findings often hinders their performance. The thesis is concerned with investigating the semantic enrichment of deep transformer architectures in order to find the related medical documents with a user query and also to classify these documents. We evaluate our methods on subsets of OHSUMED dataset. On both tasks the semantic enrichment is achieved with SNOMED CT, a clinical healthcare terminology, and we use mainly two different approaches. In this thesis, firstly, we investigate the enrichment of transformer-based embeddings with owl embeddings, produced by OWL2Vec*. OWL2Vec* is a framework that preserves the lexical information and the logical constructors of an ontology. We experiment with different settings of OWL2Vec* and different pre-processes of our dataset and ontology and we prove that OWL2Vec* is currently unable to be applied in large ontologies, like SNOMED CT. We prove this not only on information retrieval but also on text classification. In the future the performance of OWL2Vec* is expected to improve with larger vocabularies. For the classification task we, also, try another method based on filtering. We enhance each class and each document with SNOMED CT concepts and then impose filters on concept co-occurrence between them. The method achieves good performance on classification. We examine this approach while combining it with BERT models and improve significantly their performance. As result, we prove that a specialized ontology, can successfully be applied to adapt out-of-domain models to a new domain and improve the performance of natural language processing models. |
en |
heal.advisorName |
Στάμου, Γεώργιος |
el |
heal.committeeMemberName |
Στάμου, Γεώργιος |
el |
heal.committeeMemberName |
Βουλόδημος, Αθανάσιος |
el |
heal.committeeMemberName |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
115 σ. |
el |
heal.fullTextAvailability |
false |
|