HEAL DSpace

Σημασιολογικός εμπλουτισμός προεκπαιδευμένων νευρωνικών δικτύων για την επεξεργασία φυσικής γλώσσας με τη χρήση εργαλείων αναπαράστασης γνώσης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Ξεφτέρη, Βασιλική
dc.contributor.author Xefteri, Vasiliki en
dc.date.accessioned 2022-11-16T09:59:47Z
dc.date.available 2022-11-16T09:59:47Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56148
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.23846
dc.rights Default License
dc.subject Σημασιολογικός εμπλουτισμός el
dc.subject Επεξεργασία φυσικής γλώσσας el
dc.subject Ταξινόμηση el
dc.subject Ανάκτηση πληροφορίας el
dc.subject Νευρωνικά δίκτυα el
dc.subject Semantic enrichment en
dc.subject Natural language processing en
dc.subject Classification en
dc.subject Information retrieval en
dc.subject Neural networks en
dc.title Σημασιολογικός εμπλουτισμός προεκπαιδευμένων νευρωνικών δικτύων για την επεξεργασία φυσικής γλώσσας με τη χρήση εργαλείων αναπαράστασης γνώσης el
heal.type bachelorThesis
heal.classification Μηχανική Μάθηση el
heal.classification Επεξεργασία Φυσικής Γλώσσας el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-07-13
heal.abstract Τα τελευταία χρόνια, η επιστημονική βιβλιογραφία στον βιοϊατρικό και κλινικό τομέα αυξάνεται ολοένα και περισσότερο. Αυτή η ταχεία ανάπτυξη έχει περιπλέξει τον εντοπισμό πληροφοριών που ενδιαφέρουν τους ερευνητές. Επί του παρόντος, υπάρχουν διάφορα εποπτευόμενα μοντέλα για την ανάκτηση πληροφοριών και την ταξινόμηση ιατρικών εγγράφων, ωστόσο η ταχεία εμφάνιση νέων θεμάτων και ευρημάτων συχνά εμποδίζει την απόδοσή τους. Η διπλωματική αυτή ασχολείται με τη διερεύνηση του σημασιολογικού εμπλουτισμού αρχιτεκτονικών βαθιάς μάθησης transformer με σκοπό την εύρεση των σχετικών ιατρικών εγγράφων με ένα ερώτημα χρήστη και επίσης την ταξινόμηση αυτών των εγγράφων. Αξιολογούμε τις μεθόδους μας σε υποσύνολα δεδομένων OHSUMED. Και στα δύο προβλήματα, ο σημασιολογικός εμπλουτισμός επιτυγχάνεται με τη SNOMED CT, μια οντολογία κλινικής υγειονομικής περίθαλψης, και χρησιμοποιούμε κυρίως δύο διαφορετικές προσεγγίσεις. Σε αυτή τη διπλωματική, αρχικά, διερευνούμε τον εμπλουτισμό των ενσωματώσεων κειμένων που βασίζονται σε μοντέλα transformer με ενσωματώσεις οντολογιών, που παράγονται από το OWL2Vec*. Το OWL2Vec* είναι ένα πλαίσιο που διατηρεί τις λεξιλογικές πληροφορίες και τους λογικούς τελεστές μιας οντολογίας. Πειραματιζόμαστε με διαφορετικές παραμέτρους του OWL2Vec* και διαφορετικές προ-διεργασίες του συνόλου δεδομένων και της οντολογίας μας και αποδεικνύουμε ότι το OWL2Vec* δεν μπορεί επί του παρόντος να εφαρμοστεί σε μεγάλες οντολογίες, όπως η SNOMED CT. Αυτό το αποδεικνύουμε όχι μόνο στην ανάκτηση πληροφοριών αλλά και στην ταξινόμηση κειμένων. Στο μέλλον, η απόδοση του OWL2Vec* αναμένεται να βελτιωθεί με μεγαλύτερες οντολογίες. Για την ταξινόμηση, δοκιμάζουμε επίσης μια άλλη μέθοδο που βασίζεται στο φιλτράρισμα. Ενισχύουμε κάθε κλάση και κάθε έγγραφο με έννοιες της SNOMED CT και, στη συνέχεια, επιβάλλουμε φίλτρα στη συνύπαρξη εννοιών μεταξύ τους. Η μέθοδος επιτυγχάνει καλή απόδοση στην ταξινόμηση. Εξετάζουμε αυτή την προσέγγιση συνδυάζοντάς την με τα μοντέλα BERT και βελτιώνουμε σημαντικά την απόδοσή τους. Ως αποτέλεσμα, αποδεικνύουμε ότι μια εξειδικευμένη οντολογία μπορεί να εφαρμοστεί με επιτυχία για την προσαρμογή μοντέλων, που δεν εξειδικεύονται σε έναν τομέα, σε έναν νέο τομέα και να βελτιώσει την απόδοση των μοντέλων επεξεργασίας φυσικής γλώσσας. el
heal.abstract In recent years, the scientific literature in the biomedical and clinical domain is more and more increasing. This rapid growth has complicated the identification of information of interest by researchers. Various supervised models currently exist for the information retrieval and the classification of medical documents, however the rapid emergence of new topics and findings often hinders their performance. The thesis is concerned with investigating the semantic enrichment of deep transformer architectures in order to find the related medical documents with a user query and also to classify these documents. We evaluate our methods on subsets of OHSUMED dataset. On both tasks the semantic enrichment is achieved with SNOMED CT, a clinical healthcare terminology, and we use mainly two different approaches. In this thesis, firstly, we investigate the enrichment of transformer-based embeddings with owl embeddings, produced by OWL2Vec*. OWL2Vec* is a framework that preserves the lexical information and the logical constructors of an ontology. We experiment with different settings of OWL2Vec* and different pre-processes of our dataset and ontology and we prove that OWL2Vec* is currently unable to be applied in large ontologies, like SNOMED CT. We prove this not only on information retrieval but also on text classification. In the future the performance of OWL2Vec* is expected to improve with larger vocabularies. For the classification task we, also, try another method based on filtering. We enhance each class and each document with SNOMED CT concepts and then impose filters on concept co-occurrence between them. The method achieves good performance on classification. We examine this approach while combining it with BERT models and improve significantly their performance. As result, we prove that a specialized ontology, can successfully be applied to adapt out-of-domain models to a new domain and improve the performance of natural language processing models. en
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 115 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής