Σημασιολογικός εμπλουτισμός προεκπαιδευμένων νευρωνικών δικτύων για την επεξεργασία φυσικής γλώσσας με τη χρήση εργαλείων αναπαράστασης γνώσης

Ξεφτέρη, Βασιλική; Xefteri, Vasiliki

dc.contributor.author	Ξεφτέρη, Βασιλική
dc.contributor.author	Xefteri, Vasiliki	en
dc.date.accessioned	2022-11-16T09:59:47Z
dc.date.available	2022-11-16T09:59:47Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/56148
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.23846
dc.rights	Default License
dc.subject	Σημασιολογικός εμπλουτισμός	el
dc.subject	Επεξεργασία φυσικής γλώσσας	el
dc.subject	Ταξινόμηση	el
dc.subject	Ανάκτηση πληροφορίας	el
dc.subject	Νευρωνικά δίκτυα	el
dc.subject	Semantic enrichment	en
dc.subject	Natural language processing	en
dc.subject	Classification	en
dc.subject	Information retrieval	en
dc.subject	Neural networks	en
dc.title	Σημασιολογικός εμπλουτισμός προεκπαιδευμένων νευρωνικών δικτύων για την επεξεργασία φυσικής γλώσσας με τη χρήση εργαλείων αναπαράστασης γνώσης	el
heal.type	bachelorThesis
heal.classification	Μηχανική Μάθηση	el
heal.classification	Επεξεργασία Φυσικής Γλώσσας	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2022-07-13
heal.abstract	Τα τελευταία χρόνια, η επιστημονική βιβλιογραφία στον βιοϊατρικό και κλινικό τομέα αυξάνεται ολοένα και περισσότερο. Αυτή η ταχεία ανάπτυξη έχει περιπλέξει τον εντοπισμό πληροφοριών που ενδιαφέρουν τους ερευνητές. Επί του παρόντος, υπάρχουν διάφορα εποπτευόμενα μοντέλα για την ανάκτηση πληροφοριών και την ταξινόμηση ιατρικών εγγράφων, ωστόσο η ταχεία εμφάνιση νέων θεμάτων και ευρημάτων συχνά εμποδίζει την απόδοσή τους. Η διπλωματική αυτή ασχολείται με τη διερεύνηση του σημασιολογικού εμπλουτισμού αρχιτεκτονικών βαθιάς μάθησης transformer με σκοπό την εύρεση των σχετικών ιατρικών εγγράφων με ένα ερώτημα χρήστη και επίσης την ταξινόμηση αυτών των εγγράφων. Αξιολογούμε τις μεθόδους μας σε υποσύνολα δεδομένων OHSUMED. Και στα δύο προβλήματα, ο σημασιολογικός εμπλουτισμός επιτυγχάνεται με τη SNOMED CT, μια οντολογία κλινικής υγειονομικής περίθαλψης, και χρησιμοποιούμε κυρίως δύο διαφορετικές προσεγγίσεις. Σε αυτή τη διπλωματική, αρχικά, διερευνούμε τον εμπλουτισμό των ενσωματώσεων κειμένων που βασίζονται σε μοντέλα transformer με ενσωματώσεις οντολογιών, που παράγονται από το OWL2Vec. Το OWL2Vec είναι ένα πλαίσιο που διατηρεί τις λεξιλογικές πληροφορίες και τους λογικούς τελεστές μιας οντολογίας. Πειραματιζόμαστε με διαφορετικές παραμέτρους του OWL2Vec* και διαφορετικές προ-διεργασίες του συνόλου δεδομένων και της οντολογίας μας και αποδεικνύουμε ότι το OWL2Vec* δεν μπορεί επί του παρόντος να εφαρμοστεί σε μεγάλες οντολογίες, όπως η SNOMED CT. Αυτό το αποδεικνύουμε όχι μόνο στην ανάκτηση πληροφοριών αλλά και στην ταξινόμηση κειμένων. Στο μέλλον, η απόδοση του OWL2Vec* αναμένεται να βελτιωθεί με μεγαλύτερες οντολογίες. Για την ταξινόμηση, δοκιμάζουμε επίσης μια άλλη μέθοδο που βασίζεται στο φιλτράρισμα. Ενισχύουμε κάθε κλάση και κάθε έγγραφο με έννοιες της SNOMED CT και, στη συνέχεια, επιβάλλουμε φίλτρα στη συνύπαρξη εννοιών μεταξύ τους. Η μέθοδος επιτυγχάνει καλή απόδοση στην ταξινόμηση. Εξετάζουμε αυτή την προσέγγιση συνδυάζοντάς την με τα μοντέλα BERT και βελτιώνουμε σημαντικά την απόδοσή τους. Ως αποτέλεσμα, αποδεικνύουμε ότι μια εξειδικευμένη οντολογία μπορεί να εφαρμοστεί με επιτυχία για την προσαρμογή μοντέλων, που δεν εξειδικεύονται σε έναν τομέα, σε έναν νέο τομέα και να βελτιώσει την απόδοση των μοντέλων επεξεργασίας φυσικής γλώσσας.	el
heal.abstract	In recent years, the scientific literature in the biomedical and clinical domain is more and more increasing. This rapid growth has complicated the identification of information of interest by researchers. Various supervised models currently exist for the information retrieval and the classification of medical documents, however the rapid emergence of new topics and findings often hinders their performance. The thesis is concerned with investigating the semantic enrichment of deep transformer architectures in order to find the related medical documents with a user query and also to classify these documents. We evaluate our methods on subsets of OHSUMED dataset. On both tasks the semantic enrichment is achieved with SNOMED CT, a clinical healthcare terminology, and we use mainly two different approaches. In this thesis, firstly, we investigate the enrichment of transformer-based embeddings with owl embeddings, produced by OWL2Vec. OWL2Vec is a framework that preserves the lexical information and the logical constructors of an ontology. We experiment with different settings of OWL2Vec* and different pre-processes of our dataset and ontology and we prove that OWL2Vec* is currently unable to be applied in large ontologies, like SNOMED CT. We prove this not only on information retrieval but also on text classification. In the future the performance of OWL2Vec* is expected to improve with larger vocabularies. For the classification task we, also, try another method based on filtering. We enhance each class and each document with SNOMED CT concepts and then impose filters on concept co-occurrence between them. The method achieves good performance on classification. We examine this approach while combining it with BERT models and improve significantly their performance. As result, we prove that a specialized ontology, can successfully be applied to adapt out-of-domain models to a new domain and improve the performance of natural language processing models.	en
heal.advisorName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Βουλόδημος, Αθανάσιος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	115 σ.	el
heal.fullTextAvailability	false