dc.contributor.author |
Βουτσάς, Χρήστος
|
el |
dc.contributor.author |
Voutsas, Christos
|
en |
dc.date.accessioned |
2022-01-31T10:15:04Z |
|
dc.date.available |
2022-01-31T10:15:04Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/54494 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.22192 |
|
dc.rights |
Default License |
|
dc.subject |
Αυτόματη αναγνώριση όρων |
el |
dc.subject |
Επεξεργασία κειμένου |
el |
dc.subject |
Ιατρικά άρθρα |
el |
dc.subject |
Οντολογίες |
el |
dc.subject |
Σύνδρομο sjogren |
el |
dc.subject |
Automatic term recognition |
en |
dc.subject |
Text processing |
en |
dc.subject |
Medical articles |
en |
dc.subject |
Ontologies |
en |
dc.subject |
Sjogren syndrome |
en |
dc.title |
Δημιουργία συστήματος αυτόματης αναγνώρισης όρων σε διεθνείς δημοσιεύσεις και κλινικές μελέτες που αφορούν το σύνδρομο Σιόγκρεν και αξιοποίηση του για ιατρικούς σκοπούς |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Information extraction |
en |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2021-09-30 |
|
heal.abstract |
Οι σύγχρονες επιστήμες έχουν μία πληθώρα τεχνικών όρων, με νέους να προστίθενται διαρκώς στους καταλόγους τους. Η χειρωνακτική ενημέρωση των καταλόγων από τους ειδικούς επιστήμονες είναι μια χρονοβόρα διαδικασία που τείνει να γίνει αδύνατη σε λογικά χρονικά πλαίσια. Υπό αυτές τις συνθήκες δημιουργήθηκε η ανάγκη αυτοματοποίησης της διαδικασίας με χρήση υπολογιστικών μεθόδων. Όμοια με το πρόβλημα της Μηχανικής Μετάφρασης τη δεκαετία του ’50, η απόλυτη και εξαντλητική τυποποίηση των κανόνων και των επίσημων γραμματικών στα κείμενα είναι ανεπαρκής για να εντοπιστεί το νόημα στα κείμενα, είτε πρόκειται για μετάφραση, είτε για εξαγωγή όρων. Από την άλλη, η απόλυτη στήριξη στο λεξιλόγιο χωρίς επεξεργασία του κειμένου, δεν αφήνει περιθώρια στην πρόβλεψη των νέων όρων που εισάγονται στην επιστήμη. Για αυτόν τον λόγο, τη δεκαετία του ’90 αναπτύχθηκαν στατιστικές μέθοδοι αναγνώρισης και εξαγωγής των όρων από κείμενα, με στόχο να τυποποιήσουν τη διαδικασία με την οποία μεταβαίνουμε από τη συντακτική και γραμματική ανάλυση του κειμένου στην στατιστική ερμηνεία των λέξεων του. Μία από αυτές ήταν η C-Value, η οποία, για πολυλεκτικές φράσεις, υπολογίζει τον βαθμό ύπαρξης όρου (termhood).
Στην εργασία αυτή παρουσιάζουμε μία εφαρμογή Αυτόματης Αναγνώρισης Όρων που αναπτύχθηκε βασισμένη στις αρχές της C-Value. Επεκτείνοντας τον αλγόριθμο ώστε να συμπεριλαμβάνει και μονολεκτικούς όρους και με την αξιοποίηση βιβλιοθηκών της java για διαδικασίες τοκενοποίησης (tokenization), λεκτικής ανάλυσης, Part-of-Speech Tagging, stemming και κανονικοποίησης των όρων, αντιμετωπίσαμε το συντακτικό σκέλος της ανάλυσης του κειμένου. Στη συνέχεια, όσον αφορά το σημασιολογικό σκέλος, υλοποιήσαμε μία διεπαφή αντιστοίχισης συνωνύμων των ιατρικών όρων με το WordNet, η οποία στα αρχικά πειράματα κρίθηκε ανεπαρκής. Μετά από τις συντακτικές και σημασιολογικές προσεγγίσεις, προβήκαμε σε υπολογισμό του C-Value των ακολουθιών λέξεων που αντιστοιχίζονταν σε μοτίβα Part Of Speech που εισάγαμε. Αυτές οι ακολουθίες θεωρήθηκαν υποψήφιοι όροι και απέκτησαν την τιμή C-Value με βάση έναν μαθηματικό υπολογισμό που συμπεριλάμβανε τις απόλυτες και σχετικές συχνότητες των ιδίων και των υπακολουθιών τους.
Τα αποτελέσματα έδειξαν ότι μία τέτοια εφαρμογή μπορεί να αποτελέσει χρήσιμο εργαλείο υποβοήθησης ενός αναλυτή, καθώς μπορεί να προτείνει με μεγάλη ακρίβεια πραγματικούς ιατρικούς όρους. Όμως, η παρακολούθηση των αποτελεσμάτων από έναν ιατρικό επιβλέποντα κρίνεται απαραίτητη, καθώς κρύβονται και ορισμένα false positives εντός των αποτελεσμάτων. Αυτά εντοπίστηκαν μέσα από την αξιολόγηση που εκτελέσαμε με μικρά datasets αλλά και με πειράματα που έγιναν με χρήση της εφαρμογής για εύρεση όρων σχετικών με το ιατρικό σύνδρομο Sjogren. |
el |
heal.abstract |
Modern science of every branch includes a vast number of technical terms, with new ones continuously enriching their corpora. The manual update of those corpora by specialist scientists is a time-consuming procedure which tends to become impossible to execute in sensible time frames. Under this assumption, a need for automating this procedure with computational methods begun to appear in the middle of the 20th century. Like the Machine Translation problem of the 50s decade, the absolute and exhaustive definition of the formal grammars is inadequate when it comes to detecting the semantics of a text, whether the goal is to translate or to extract terms. On the other hand, sole focus on vocabulary without accounting for syntax, limits our predictions on new terms that will appear in any scientific text. Thus, statistic methods for term recognition and extraction were developed during the 90s, to formalize the procedure of connecting syntax and grammar with statistic measures of the text’s contents. C-Value was one of these methods, and it is used to measure the termhood of multi-word phrases.
In this thesis, we present an Automatic Term Extraction application developed under the fundamentals of the C-Value method. By extending the algorithm so that it also considers single-word phrases, and by utilizing java libraries for tokenization, POS-tagging, document preprocessing and term normalization, we achieved the syntactic analysis of texts. As for the semantics, we implemented an interface that detects synonyms of medical terms with the help of WordNet, but our preliminary experiments showed inadequate results. Through our semantics and syntax approaches, we proceeded with the computation of the C-Value of word sequences that corresponded to matching Part Of Speech patterns we provided as input. Those candidate terms’ C-Values were calculated based on the absolute and relative frequency not only of their own appearances in the text but also of the appearances of their sub-terms.
Our results show that such an application can be a useful tool of assistance for an analyst, as it can recommend real medical terms with high precision. However, manual oversight of the results by a medical expert is considered necessary, as some false positives exist within the results. Those were tracked by the execution of an evaluation algorithm, using controlled datasets but this observation also happened during our experiments, when we used the application to search for terms relevant to the Sjogren’s Syndrome disease. |
en |
heal.advisorName |
Βαρβαρίγου, Θεοδώρα |
el |
heal.committeeMemberName |
Βαρβαρίγου, Θεοδώρα |
el |
heal.committeeMemberName |
Βαρβαρίγος, Εμμανουήλ |
el |
heal.committeeMemberName |
Παπαβασιλείου, Συμεών |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
96 σ. |
el |
heal.fullTextAvailability |
false |
|