Εξαγωγή ονοματικών οντοτήτων και εμπλουτισμός κειμένου με χρήση σημασιολογικού ιστού

Ζέρβα, Χρυσούλα Δ.; Zerva, Chrysoula D.; Κοπανέλη, Αλίκη Μ.; Kopaneli, Aliki M.

dc.contributor.advisor	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
dc.contributor.author	Ζέρβα, Χρυσούλα Δ.	el
dc.contributor.author	Zerva, Chrysoula D.	en
dc.contributor.author	Κοπανέλη, Αλίκη Μ.	el
dc.contributor.author	Kopaneli, Aliki M.	en
dc.date.accessioned	2012-09-03T08:55:58Z
dc.date.available	2012-09-03T08:55:58Z
dc.date.copyright	2012-07-25	-
dc.date.issued	2012-09-03
dc.date.submitted	2012-07-25	-
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/6533
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.9022
dc.description.abstract	Η παρούσα διπλωματική εργασία έχει ως αντικείμενο τη μελέτη και την ανάπτυξη δύο συ- στημάτων τα οποία επιδιώκουν τον εμπλουτισμό ακατέργαστων και αδόμητων κειμένων, γραμ- μένων σε φυσική γλώσσα, με χρήση Σημασιολογικού Ιστού και συγκεκριμένα των διασυνδεδε- μένων δεδομένων της DBpedia. Καθοριστικής σημασίας κρίνεται ο εντοπισμός και η επιλογή μέσα από το κείμενο, μόνο εκείνων των φράσεων που αντιστοιχούν σε ονοματικές οντότητες της DBpedia και φέρουν την ανά περίπτωση επιθυμητή πληροφορία. Η εξαγωγή των οντοτή- των αυτών, δίνουν τη δυνατότητα άντλησης επιπρόσθετης πληροφορίας η οποία εμπλουτίζει το κείμενο με τον τρόπο που υπαγορεύει ο στόχος του κάθε συστήματος. Το πρώτο σύστημα ονομάζεται ”Σύστημα Σημασιολογικής Επισημείωσης και Εξαγωγής Συ- νοπτικής Αναπαράστασης Κειμένου” και προσανατολίζεται στην εξαγωγή των ονοματικών οντο- τήτων από ένα δεδομένο κείμενο, το σύνολο των οποίων είναι ικανό να αποτελέσει μία επαρκή αναπαράστασή του. Συγκεκριμένα, μία αναπαράσταση θεωρείται αποδεκτή όταν συνοψίζει τις βασικές έννοιες του κειμένου και αρκεί για να το διαχωρίσει με σημασιολογικά κριτήρια από άλλα κείμενα. Μάλιστα, οι οντότητες που συνθέτουν την εν λόγω αναπαράσταση, παρέχονται από το σύστημα ταξινομημένες με βάση τη νοηματική βαρύτητα που θεωρείται πως έχει η κάθε μία για το εκάστοτε κείμενο. Για την ταξινόμηση και τη διαλογή των εντοπισμένων οντοτήτων χρησιμοποιούνται κριτήρια που βασίζονται σε δεδομένα αντλούμενα από τη Wikipedia και τη DBpedia. Η τελική αξιολόγηση των αποτελεσμάτων γίνεται με χρήση προσημειωμένων συνό- λων κειμένων και των στατιστικών μεγεθών ακρίβειας και ανάκλησης. Το δεύτερο σύστημα ονομάζεται ”Σύστημα Ταυτοποίσης Προσώπων με χρήση Σημασιο- λογικού Ιστού” και αφορά τον εντοπισμό αναφορών σε πρόσωπα του πραγματικού κόσμου εντός ενός κειμένου. Στη συγκεκριμένη περίπτωση, γίνεται αναζήτηση στη γνωσιακή βάση της DBpedia προκειμένου να προσδιοριστεί ποιές από τις εντοπισμένες ονοματικές οντότητες πληρούν την παραπάνω συνθήκη με βάση τον τύπο δεδομένων που υποδηλώνει η σημασιολογία της κάθε μίας. Τα αποτελέσματα είναι ικανοποιητικά ως προς την ακρίβειά τους, σε σύγκριση και με υπάρχοντα συστήματα, ωστόσο περιορίζονται στον εντοπισμό οντοτήτων που είναι κα- ταχωρημένες στη γνωσιακή βάση που χρησιμοποιήθηκε.	el
dc.description.abstract	The main object of the present thesis is the study and the development of two independent systems that attempt to enrich plain, unprocessed, natural language texts, using Semantic Web (Dbpedia Linked Data in particular). In the above mentioned procedure, the detection and extraction of the phrases that correspond to DBpedia’s noun entities and ”bear” the desired piece of information is of paramount importance. The extraction of these entities, facilitates the acquisition of extra related information, thus enriching the initial text according to the target of each system. The first system, named ”Condensed Representation Extraction and Semantic Text Annotation” - CRESTA, is oriented towards the extraction of a set of noun entities that can be considered an efficient representation of the input text. A representation is approved when succesful in summarising the fundamental text concepts and distinguishing its semantic context. In addition, CRESTA performs evaluation ranking over the above mentioned entities, based on their conceptual significance. Τhe metrics necessary for the implementation of ranking and final selection procedures, are calculated using Wikipedia and DBpedia data. Pretagged corpora were used as an evaluation set for the observation of the CRESTA’s performance, that was conducted based on precision and recall values. The second system, named ”Semantic Web based Person IDentification” - SWPID, aims at the detection of references to real world persons, within plain texts. For the purposes of this approach, the system queries Dbpedia knowledge database in order to identify the entities that fulfil the above mentioned condition, as indicated by their extracted semantics. The precision results are remarkably satisfactory compared to other tools performing the same task, however, the output results are obviously restricted to entities already included in the employed knowledge database.	en
dc.description.statementofresponsibility	Χρυσούλα Δ. Ζέρβα	el
dc.description.statementofresponsibility	Αλίκη Μ. Κοπανέλη	el
dc.language.iso	el	en
dc.rights	ETDFree-policy.xml	en
dc.subject	Σημασιολογικός ιστός	el
dc.subject	Γραμματική επισημείωση όρων	el
dc.subject	Σημασιολογική επισημείωση όρων	el
dc.subject	Διασυνδεδεμένα δεδομένα	el
dc.subject	Γνωσιακή βάση δεδομένων	el
dc.subject	Ταυτοποίηση προσώπων	el
dc.subject	Ονοματική οντότητα	el
dc.subject	Εξαγωγή ονοματικών οντοτήτων	el
dc.subject	Semantic web	en
dc.subject	Part of speech tagging	en
dc.subject	Semantic annotation	en
dc.subject	Linked data	en
dc.subject	Knowledge database	en
dc.subject	Person identification	en
dc.subject	Noun entity	en
dc.subject	Noun entity extraction	en
dc.subject	RDF	en
dc.subject	DBpedia	en
dc.title	Εξαγωγή ονοματικών οντοτήτων και εμπλουτισμός κειμένου με χρήση σημασιολογικού ιστού	el
dc.title.alternative	Noun entity extraction and text enrichment using the semantic web	en
dc.type	bachelorThesis	el (en)
dc.date.accepted	2012-07-19	-
dc.date.modified	2012-07-25	-
dc.contributor.advisorcommitteemember	Στάμου, Γεώργιος	el
dc.contributor.advisorcommitteemember	Κόλλιας, Στέφανος	el
dc.contributor.committeemember	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
dc.contributor.committeemember	Στάμου, Γεώργιος	el
dc.contributor.committeemember	Κόλλιας, Στέφανος	el
dc.contributor.department	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών.	el
dc.date.recordmanipulation.recordcreated	2012-09-03	-
dc.date.recordmanipulation.recordmodified	2012-09-03	-