HEAL DSpace

Δομημένη εξαγωγή πληροφοριών από σελίδες ιατρικών και διατροφικών δεδομένων με χρήση του Information Extraction

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Κουτσούρης, Δημήτριος el
dc.contributor.author Παντερής, Γεώργιος Δ. el
dc.contributor.author Panteris, Georgios D. en
dc.date.accessioned 2014-11-18T12:17:18Z
dc.date.available 2014-11-18T12:17:18Z
dc.date.copyright 2014-07-23 -
dc.date.issued 2014-11-18
dc.date.submitted 2014-07-23 -
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/39674
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.6578
dc.description 106 σ. el
dc.description.abstract Αντικείμενο της παρούσας διπλωματικής εργασίας αποτελεί η μελέτη και εφαρμογή μεθόδων για την εξαγωγή πληροφοριών (Ιnformation Extraction, IE) από κείμενα σχετικά με ιατρικοφαρμαευτικά και διατροφικά δεδομένα και τη δομημένη παρουσίασή τους σε μορφή html πινάκων. Γίνεται, επίσης, χρήση ενός λογισμικού που διατίθεται ελέυθερα στους χρήστες (GATE), καθώς και ενός συνόλου κανόνων και γραμματικών (JAPE) που υποβοηθούν στον εντοπισμό των δεδομένων που ζητούνται. Παρουσιάζεται, παράλληλα, μία εφαρμογή (pipeline) που είναι σχεδιασμένη κατάλληλα για να τρέχει πάνω σε ένα σύνολο εγγράφων (corpus) και να δημιουργεί ένα σύνολο σχολιασμών (annotations). Τέλος, εφαρμόζεται ένα στάδιο που λαμβάνει τα αποτελέσματα της εφαρμογής και τα κατηγοριοποιεί στην επιθυμητή μορφή. Η εργασία στο συνολό της περιλαμβάνει πέρα από ένα γενικό θεωρητικό υπόβαθρο, τη χρήση ειδικών διαδραστικών περιβαλλόντων (Integrated Development Environment, IDE) απαραίτητων για την επίτευξη του αρχικού στόχου. Στο κεφάλαιο 1, γίνεται μια γενική εισαγωγή σε τρόπους επεξεργασίας φυσικών γλωσσών (Natural Language Processing, NLP) εισάγωντας το γενικότερο πλαίσιο στο οποίο θα κινηθεί η εν λόγω εργασία. Προσδιορίζονται, επίσης, και έννοιες απαραίτητες για τη συνέχεια, όπως αυτή της εξαγωγής δεδομένων (IE). Στο κεφάλαιο 2, παρουσιάζεται το κυριότερο θεωρητικό υπόβαθρο της εργασίας, καθώς περιλαμβάνει την ανάλυση του GATE, ενός συστηματος λογισμικού στο οποίο θα στηριχθεί η εξαγωγή των δεδομένων μας. Περιλαμβάνει, ακόμα, και την ανάλυση του διαδραστικού περιβάλλοντος του GATE (GATE Developer) και του ΙΕ συστήματός του (ANNIE), που θα χρησιμοποιηθούν στη συνέχεια. Στο κεφάλαιο 3, περιγράφεται σε θεωρητικό επίπεδο η γλώσσα που παράγει τους σχολιασμούς κειμένων με χρήση ειδικών κανόνων και γραμματικών. Αποτελεί ένα βασικό εργαλείο για τη δημιουργία της εφαρμογής που θα εξάγει τα δεδομένα. Στο κεφάλαιο 4, προσδιορίζεται ο τρόπος σύνδεσης όλων των ανώτερων στοιχείων και πληροφοριών για τη δημιουργία της εφαρμογής που επιτυγχάνει τον τελικό στόχο. Αναφέρεται, δηλαδή, σε ένα αναλυτικό βαθμό ο τρόπος σχεδιασμού της εφαρμογής, παρουσιάζοντας ταυτόχρονα τμήματα κώδικα προγραμματισμού της και αποτελέσματα από την εκτελεσή της. Στο κεφάλαιο 5, γίνεται μία γενική σύνοψη της εργασίας , προβολή συμπερασμάτων που προέκυψαν, καθώς και προτροπή νέων ιδεών για μελλοντική ανάπτυξη της δουλειάς που παρουσιάστηκε. el
dc.description.abstract The purpose of this diploma thesis is the design and implementation of methods that achieve Information Extraction (IE) from texts, relevant to biomedical and nutritional data and their structured presentation in html tables. Additionally, an open-source software for text engineering (GATE) is used, and a set of rules and grammars (JAPE) to assist in identifying the requested data. Furthermore, an application (pipeline) is utilized that is designed especially to run on a set of documents (corpus) and create a set of annotations that facilitate superior work. A final stage is applied, that takes the results of the above application and categorizes them in a desired form. The document includes apart from a theoretical background review of the basic concepts involved in the aforementioned tool flow, the description of the use of special Integrated Development Environments (IDEs) necessary to achieve the original goal. In Chapter 1, a general introduction is made, covering the field of Natural Language Processing (NLP), providing motivation for this work. Moreover, lots of necessary concepts, such as the Information extraction (IE) are determined, critical for the comprehension of the rest of the chapters. Chapter 2 presents the main theoretical background of the entire diploma thesis, as it involves the analysis of GATE, a general architecture of text engineering which will support the information extraction of our data. It also includes the analysis of the integrated development environment of GATE (GATE Developer) and the information extraction system of GATE (ANNIE), which will be subsequently used. Chapter 3 describes the way of creating text annotations using the Java Annotation Pattern Engine (JAPE). It is an essential tool for the creation of our application which will perform the IE. In Chapter 4, we analyze the way of connecting all data and information mentioned, to create the application that achieves the ultimate goal. Additionally, a detailed process of the application design is highlighted, while presenting snippets of its code and results of its execution. In Chapter 5, the diploma thesis is summarised, giving conclusions and introducing new ideas for further development of the presented work. en
dc.description.statementofresponsibility Γεώργιος Δ. Παντερής el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Επεξεργασία φυσικής γλώσσας el
dc.subject Εξαγωγή πληροφοριών el
dc.subject Γενική αρχιτεκτονική για επεξεργασία κειμένων el
dc.subject Δημιουργίας μοτίβων σχολιασμών σε Java el
dc.subject Σχολιασμός el
dc.subject Σύνολα εγγράφων el
dc.subject Σύστημα εξαγωγής πληροφοριών του GATE el
dc.subject Natural language processing (NLP) en
dc.subject Information Extraction (IE) en
dc.subject General Architecture for Text Engineering (GATE) en
dc.subject Java Annotation Pattern Engine (JAPE) en
dc.subject Annotation en
dc.subject Corpus en
dc.subject A Nearly-New Information Extraction system (ANNIE) en
dc.title Δομημένη εξαγωγή πληροφοριών από σελίδες ιατρικών και διατροφικών δεδομένων με χρήση του Information Extraction el
dc.type bachelorThesis el (en)
dc.date.accepted 2014-07-21 -
dc.date.modified 2014-07-23 -
dc.contributor.advisorcommitteemember Φωτιάδης, Δημήτριος el
dc.contributor.advisorcommitteemember Ματσόπουλος, Γεώργιος el
dc.contributor.committeemember Κουτσούρης, Δημήτριος el
dc.contributor.committeemember Φωτιάδης, Δημήτριος el
dc.contributor.committeemember Ματσόπουλος, Γεώργιος el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Η/Υ. el
dc.date.recordmanipulation.recordcreated 2014-11-18 -
dc.date.recordmanipulation.recordmodified 2014-11-18 -


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής