HEAL DSpace

Αναγνώριση προτύπων σε κείμενα ιστοσελίδων βιοϊατρικού περιεχομένου με την χρήση της μεθοδολογίας των Hidden Markov Models

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Καραταπάνης, Θοδωρής el
dc.contributor.author Karatapanis, Thodoris en
dc.date.accessioned 2016-07-15T10:51:33Z
dc.date.available 2016-07-15T10:51:33Z
dc.date.issued 2016-07-15
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/43136
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.11917
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μοντέλα Μαρκόφ el
dc.subject Αναγνώριση προτύπων el
dc.subject Κατηγοριοποίηση κειμένων el
dc.subject Κατάτμηση κειμένων el
dc.subject Εξόρυξη πληροφορίας από κείμενα el
dc.subject Hidden Markov Models en
dc.subject Text mining en
dc.subject Pattern recognition el
dc.subject Document classification el
dc.subject Text segmentation el
dc.title Αναγνώριση προτύπων σε κείμενα ιστοσελίδων βιοϊατρικού περιεχομένου με την χρήση της μεθοδολογίας των Hidden Markov Models el
dc.title Pattern recognition in documents of biomedical content using the methodology of Hidden Markov Models en
heal.type bachelorThesis
heal.classification Μηχανική μάθηση el
heal.classification Machine learning en
heal.classification Pattern recognition en
heal.classification Αναγνώριση προτύπων el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2016-04-25
heal.abstract The purpose of this work is to test the application of Hidden Markov Models to the field of text mining. More specifically the project's goal is the automated detection of certain important sections of text (such as sections referring to product description, code, countries of distribution and so on, appearing in reports of medical device recalls) from a set of documents related to the recalls of medical devices, gathered from the web pages of certain agencies such as FDA, TGA and Healthy Canadians. To reach that goal, firstly a binary classifier based on Hidden Markov Models was designed that is able to detect a document that belongs to the category of medical devices with great accuracy. The method that was used to achieve these good results takes into account besides the word frequencies in each category of the binary classifier(medical devices and other) their relative frequencies of their most frequent words. Furthermore the model was optimized by the removal with a specific method of the least important words. For the creation of the Hidden Markov Model which can detect the important sections in the documents about the recalls of medical devices, a method was developed to encode the words, given their position in the document and the prevalence of their appearance in each important section, to distinct categories. These categories can then be used to decode a document in a sequence of observations that can be fed to a Hidden Markov Model which in turn correctly predict the location of the constituent sections of that document. While the results for documents from individual agencies were excellent, the model can be faulty if we try to combine documents from agencies with very different patterns. In conclusion while the results for section detection with one and the same model for different agencies weren't good , the methods described in this project could be used to automatically create individual models for different agencies with the ability to discover the location of the important sections (as we describe them) with good accuracy. Finally it is important to note that the methods developed here can be easily extended to other types of documents (such as newspapers ,general purpose magazines etc). en
heal.abstract Στην παρούσα διπλωματική εργασία έγινε χρήση τεχνικών μηχανικής μάθησης δίνοντας ιδιαίτερη έμφαση στην ανάπτυξη και μελέτη της τεχνικής των Hidden Μarkov Μodels για την κατηγοριοποίηση και στην συνέχεια κατάτμηση ιατρικών ημιδομημένων κειμένων που περιγράφουν ιατρικά προϊόντα σε δομημένα έγγραφα ανάλογα με την ιδιότητα στην οποία αναφέρονται. Πιο συγκεκριμένα το αντικείμενο της διπλωματικής είναι η υλοποίηση εφαρμογής που υποστηρίζει αρχικά τον αυτοματοποιημένο εντοπισμό της περιοχής του κειμένου που εμπίπτει σε μια προκαθορισμένη κατηγορία και εν συνεχεία την περαιτέρω κατάτμηση της περιοχής αυτής σε επιμέρους θεματικές ενότητες που έχουν προκαθοριστεί. Τα κείμενα που χρησιμοποιήθηκαν στα πλαίσια της εργασίας αυτής προέρχονται από βάσεις δεδομένων διεθνών οργανισμών, όπως ο FDA (Food and Drug Administration), και αφορούν ανακλήσεις ιατρικών προϊόντων από τις οποίες επιλέχθηκε να εντοπιστούν ιατρικά προϊόντα που αναφέρονται σε ιατρικές συσκευές από ένα σύνολο κατηγοριών όπως φάρμακα, διατροφικά προϊόντα κ.α και εν συνεχεία προσδιορίστηκε ο εντοπισμός των χωρίων του κειμένου που αναφέρονται στην περιγραφή του προϊόντος (product), τον κωδικό του (code), τον κατασκευαστή (manufacturer), τον λόγο της ανάκλησης (reason), την ποσότητα ανάκλησης (volume) και την κατα τόπους διανομή του προϊόντος (distribution). Ωστόσο σημειώνεται ότι η εφαρμογή που αναπτύχθηκε εύκολα μπορεί να προσαρμοστεί για την δόμηση των κειμένων σε άλλες θεματικές ενότητες ενδιαφέροντος. Τέλος αφού εντοπιστούν τα χωρία μπορούμε να αποθηκεύσουμε τα αρχικά κείμενα σε δομημένη μορφή στην οποία γνωρίζουμε κάθε φορά σε ποιο θέμα σχετικό με το προϊόν κάθε τμήμα αναφέρεται. Επιπλέον, γίνεται δυνατή η περαιτέρω ανάλυση των δεδομένων που βρίσκονται πχ σε μια σχεσιακή βάση δεδομένων από τεχνικές εξόρυξης δεδομένων. Όλες οι τεχνικές που χρησιμοποιήθηκαν και αναπτύχθηκαν έγιναν σε περιβάλλον MATLAB με ιδιαίτερα σημαντική την συμβολή της εργαλειοθήκης TMG της matlab για την προεπεξεργασία των κειμένων και την υλοποίηση αλγορίθμων ταξινόμησης (classification algorithms) καθώς και της εργαλειοθήκης hmm murphy toolbox για την κατασκευή και εκπαίδευση των Hidden Markov Models. el
heal.advisorName Κουτσούρης, Διονύσιος-Δημήτριος el
heal.committeeMemberName Νικήτα, Κωνσταντίνα el
heal.committeeMemberName Ματσόπουλος, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 118 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα