dc.contributor.author | Καραταπάνης, Θοδωρής | el |
dc.contributor.author | Karatapanis, Thodoris | en |
dc.date.accessioned | 2016-07-15T10:51:33Z | |
dc.date.available | 2016-07-15T10:51:33Z | |
dc.date.issued | 2016-07-15 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/43136 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.11917 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Μοντέλα Μαρκόφ | el |
dc.subject | Αναγνώριση προτύπων | el |
dc.subject | Κατηγοριοποίηση κειμένων | el |
dc.subject | Κατάτμηση κειμένων | el |
dc.subject | Εξόρυξη πληροφορίας από κείμενα | el |
dc.subject | Hidden Markov Models | en |
dc.subject | Text mining | en |
dc.subject | Pattern recognition | el |
dc.subject | Document classification | el |
dc.subject | Text segmentation | el |
dc.title | Αναγνώριση προτύπων σε κείμενα ιστοσελίδων βιοϊατρικού περιεχομένου με την χρήση της μεθοδολογίας των Hidden Markov Models | el |
dc.title | Pattern recognition in documents of biomedical content using the methodology of Hidden Markov Models | en |
heal.type | bachelorThesis | |
heal.classification | Μηχανική μάθηση | el |
heal.classification | Machine learning | en |
heal.classification | Pattern recognition | en |
heal.classification | Αναγνώριση προτύπων | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2016-04-25 | |
heal.abstract | The purpose of this work is to test the application of Hidden Markov Models to the field of text mining. More specifically the project's goal is the automated detection of certain important sections of text (such as sections referring to product description, code, countries of distribution and so on, appearing in reports of medical device recalls) from a set of documents related to the recalls of medical devices, gathered from the web pages of certain agencies such as FDA, TGA and Healthy Canadians. To reach that goal, firstly a binary classifier based on Hidden Markov Models was designed that is able to detect a document that belongs to the category of medical devices with great accuracy. The method that was used to achieve these good results takes into account besides the word frequencies in each category of the binary classifier(medical devices and other) their relative frequencies of their most frequent words. Furthermore the model was optimized by the removal with a specific method of the least important words. For the creation of the Hidden Markov Model which can detect the important sections in the documents about the recalls of medical devices, a method was developed to encode the words, given their position in the document and the prevalence of their appearance in each important section, to distinct categories. These categories can then be used to decode a document in a sequence of observations that can be fed to a Hidden Markov Model which in turn correctly predict the location of the constituent sections of that document. While the results for documents from individual agencies were excellent, the model can be faulty if we try to combine documents from agencies with very different patterns. In conclusion while the results for section detection with one and the same model for different agencies weren't good , the methods described in this project could be used to automatically create individual models for different agencies with the ability to discover the location of the important sections (as we describe them) with good accuracy. Finally it is important to note that the methods developed here can be easily extended to other types of documents (such as newspapers ,general purpose magazines etc). | en |
heal.abstract | Στην παρούσα διπλωματική εργασία έγινε χρήση τεχνικών μηχανικής μάθησης δίνοντας ιδιαίτερη έμφαση στην ανάπτυξη και μελέτη της τεχνικής των Hidden Μarkov Μodels για την κατηγοριοποίηση και στην συνέχεια κατάτμηση ιατρικών ημιδομημένων κειμένων που περιγράφουν ιατρικά προϊόντα σε δομημένα έγγραφα ανάλογα με την ιδιότητα στην οποία αναφέρονται. Πιο συγκεκριμένα το αντικείμενο της διπλωματικής είναι η υλοποίηση εφαρμογής που υποστηρίζει αρχικά τον αυτοματοποιημένο εντοπισμό της περιοχής του κειμένου που εμπίπτει σε μια προκαθορισμένη κατηγορία και εν συνεχεία την περαιτέρω κατάτμηση της περιοχής αυτής σε επιμέρους θεματικές ενότητες που έχουν προκαθοριστεί. Τα κείμενα που χρησιμοποιήθηκαν στα πλαίσια της εργασίας αυτής προέρχονται από βάσεις δεδομένων διεθνών οργανισμών, όπως ο FDA (Food and Drug Administration), και αφορούν ανακλήσεις ιατρικών προϊόντων από τις οποίες επιλέχθηκε να εντοπιστούν ιατρικά προϊόντα που αναφέρονται σε ιατρικές συσκευές από ένα σύνολο κατηγοριών όπως φάρμακα, διατροφικά προϊόντα κ.α και εν συνεχεία προσδιορίστηκε ο εντοπισμός των χωρίων του κειμένου που αναφέρονται στην περιγραφή του προϊόντος (product), τον κωδικό του (code), τον κατασκευαστή (manufacturer), τον λόγο της ανάκλησης (reason), την ποσότητα ανάκλησης (volume) και την κατα τόπους διανομή του προϊόντος (distribution). Ωστόσο σημειώνεται ότι η εφαρμογή που αναπτύχθηκε εύκολα μπορεί να προσαρμοστεί για την δόμηση των κειμένων σε άλλες θεματικές ενότητες ενδιαφέροντος. Τέλος αφού εντοπιστούν τα χωρία μπορούμε να αποθηκεύσουμε τα αρχικά κείμενα σε δομημένη μορφή στην οποία γνωρίζουμε κάθε φορά σε ποιο θέμα σχετικό με το προϊόν κάθε τμήμα αναφέρεται. Επιπλέον, γίνεται δυνατή η περαιτέρω ανάλυση των δεδομένων που βρίσκονται πχ σε μια σχεσιακή βάση δεδομένων από τεχνικές εξόρυξης δεδομένων. Όλες οι τεχνικές που χρησιμοποιήθηκαν και αναπτύχθηκαν έγιναν σε περιβάλλον MATLAB με ιδιαίτερα σημαντική την συμβολή της εργαλειοθήκης TMG της matlab για την προεπεξεργασία των κειμένων και την υλοποίηση αλγορίθμων ταξινόμησης (classification algorithms) καθώς και της εργαλειοθήκης hmm murphy toolbox για την κατασκευή και εκπαίδευση των Hidden Markov Models. | el |
heal.advisorName | Κουτσούρης, Διονύσιος-Δημήτριος | el |
heal.committeeMemberName | Νικήτα, Κωνσταντίνα | el |
heal.committeeMemberName | Ματσόπουλος, Γεώργιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 118 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: