HEAL DSpace

Εξαγωγή ονοματικών οντοτήτων και εμπλουτισμός κειμένου με χρήση σημασιολογικού ιστού

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Σταφυλοπάτης, Ανδρέας-Γεώργιος el
dc.contributor.author Ζέρβα, Χρυσούλα Δ. el
dc.contributor.author Zerva, Chrysoula D. en
dc.contributor.author Κοπανέλη, Αλίκη Μ. el
dc.contributor.author Kopaneli, Aliki M. en
dc.date.accessioned 2012-09-03T08:55:58Z
dc.date.available 2012-09-03T08:55:58Z
dc.date.copyright 2012-07-25 -
dc.date.issued 2012-09-03
dc.date.submitted 2012-07-25 -
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/6533
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.9022
dc.description.abstract Η παρούσα διπλωματική εργασία έχει ως αντικείμενο τη μελέτη και την ανάπτυξη δύο συ- στημάτων τα οποία επιδιώκουν τον εμπλουτισμό ακατέργαστων και αδόμητων κειμένων, γραμ- μένων σε φυσική γλώσσα, με χρήση Σημασιολογικού Ιστού και συγκεκριμένα των διασυνδεδε- μένων δεδομένων της DBpedia. Καθοριστικής σημασίας κρίνεται ο εντοπισμός και η επιλογή μέσα από το κείμενο, μόνο εκείνων των φράσεων που αντιστοιχούν σε ονοματικές οντότητες της DBpedia και φέρουν την ανά περίπτωση επιθυμητή πληροφορία. Η εξαγωγή των οντοτή- των αυτών, δίνουν τη δυνατότητα άντλησης επιπρόσθετης πληροφορίας η οποία εμπλουτίζει το κείμενο με τον τρόπο που υπαγορεύει ο στόχος του κάθε συστήματος. Το πρώτο σύστημα ονομάζεται ”Σύστημα Σημασιολογικής Επισημείωσης και Εξαγωγής Συ- νοπτικής Αναπαράστασης Κειμένου” και προσανατολίζεται στην εξαγωγή των ονοματικών οντο- τήτων από ένα δεδομένο κείμενο, το σύνολο των οποίων είναι ικανό να αποτελέσει μία επαρκή αναπαράστασή του. Συγκεκριμένα, μία αναπαράσταση θεωρείται αποδεκτή όταν συνοψίζει τις βασικές έννοιες του κειμένου και αρκεί για να το διαχωρίσει με σημασιολογικά κριτήρια από άλλα κείμενα. Μάλιστα, οι οντότητες που συνθέτουν την εν λόγω αναπαράσταση, παρέχονται από το σύστημα ταξινομημένες με βάση τη νοηματική βαρύτητα που θεωρείται πως έχει η κάθε μία για το εκάστοτε κείμενο. Για την ταξινόμηση και τη διαλογή των εντοπισμένων οντοτήτων χρησιμοποιούνται κριτήρια που βασίζονται σε δεδομένα αντλούμενα από τη Wikipedia και τη DBpedia. Η τελική αξιολόγηση των αποτελεσμάτων γίνεται με χρήση προσημειωμένων συνό- λων κειμένων και των στατιστικών μεγεθών ακρίβειας και ανάκλησης. Το δεύτερο σύστημα ονομάζεται ”Σύστημα Ταυτοποίσης Προσώπων με χρήση Σημασιο- λογικού Ιστού” και αφορά τον εντοπισμό αναφορών σε πρόσωπα του πραγματικού κόσμου εντός ενός κειμένου. Στη συγκεκριμένη περίπτωση, γίνεται αναζήτηση στη γνωσιακή βάση της DBpedia προκειμένου να προσδιοριστεί ποιές από τις εντοπισμένες ονοματικές οντότητες πληρούν την παραπάνω συνθήκη με βάση τον τύπο δεδομένων που υποδηλώνει η σημασιολογία της κάθε μίας. Τα αποτελέσματα είναι ικανοποιητικά ως προς την ακρίβειά τους, σε σύγκριση και με υπάρχοντα συστήματα, ωστόσο περιορίζονται στον εντοπισμό οντοτήτων που είναι κα- ταχωρημένες στη γνωσιακή βάση που χρησιμοποιήθηκε. el
dc.description.abstract The main object of the present thesis is the study and the development of two independent systems that attempt to enrich plain, unprocessed, natural language texts, using Semantic Web (Dbpedia Linked Data in particular). In the above mentioned procedure, the detection and extraction of the phrases that correspond to DBpedia’s noun entities and ”bear” the desired piece of information is of paramount importance. The extraction of these entities, facilitates the acquisition of extra related information, thus enriching the initial text according to the target of each system. The first system, named ”Condensed Representation Extraction and Semantic Text Annotation” - CRESTA, is oriented towards the extraction of a set of noun entities that can be considered an efficient representation of the input text. A representation is approved when succesful in summarising the fundamental text concepts and distinguishing its semantic context. In addition, CRESTA performs evaluation ranking over the above mentioned entities, based on their conceptual significance. Τhe metrics necessary for the implementation of ranking and final selection procedures, are calculated using Wikipedia and DBpedia data. Pretagged corpora were used as an evaluation set for the observation of the CRESTA’s performance, that was conducted based on precision and recall values. The second system, named ”Semantic Web based Person IDentification” - SWPID, aims at the detection of references to real world persons, within plain texts. For the purposes of this approach, the system queries Dbpedia knowledge database in order to identify the entities that fulfil the above mentioned condition, as indicated by their extracted semantics. The precision results are remarkably satisfactory compared to other tools performing the same task, however, the output results are obviously restricted to entities already included in the employed knowledge database. en
dc.description.statementofresponsibility Χρυσούλα Δ. Ζέρβα el
dc.description.statementofresponsibility Αλίκη Μ. Κοπανέλη el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Σημασιολογικός ιστός el
dc.subject Γραμματική επισημείωση όρων el
dc.subject Σημασιολογική επισημείωση όρων el
dc.subject Διασυνδεδεμένα δεδομένα el
dc.subject Γνωσιακή βάση δεδομένων el
dc.subject Ταυτοποίηση προσώπων el
dc.subject Ονοματική οντότητα el
dc.subject Εξαγωγή ονοματικών οντοτήτων el
dc.subject Semantic web en
dc.subject Part of speech tagging en
dc.subject Semantic annotation en
dc.subject Linked data en
dc.subject Knowledge database en
dc.subject Person identification en
dc.subject Noun entity en
dc.subject Noun entity extraction en
dc.subject RDF en
dc.subject DBpedia en
dc.title Εξαγωγή ονοματικών οντοτήτων και εμπλουτισμός κειμένου με χρήση σημασιολογικού ιστού el
dc.title.alternative Noun entity extraction and text enrichment using the semantic web en
dc.type bachelorThesis el (en)
dc.date.accepted 2012-07-19 -
dc.date.modified 2012-07-25 -
dc.contributor.advisorcommitteemember Στάμου, Γεώργιος el
dc.contributor.advisorcommitteemember Κόλλιας, Στέφανος el
dc.contributor.committeemember Σταφυλοπάτης, Ανδρέας-Γεώργιος el
dc.contributor.committeemember Στάμου, Γεώργιος el
dc.contributor.committeemember Κόλλιας, Στέφανος el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. el
dc.date.recordmanipulation.recordcreated 2012-09-03 -
dc.date.recordmanipulation.recordmodified 2012-09-03 -


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής