dc.contributor.advisor |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
dc.contributor.author |
Ζέρβα, Χρυσούλα Δ.
|
el |
dc.contributor.author |
Zerva, Chrysoula D.
|
en |
dc.contributor.author |
Κοπανέλη, Αλίκη Μ.
|
el |
dc.contributor.author |
Kopaneli, Aliki M.
|
en |
dc.date.accessioned |
2012-09-03T08:55:58Z |
|
dc.date.available |
2012-09-03T08:55:58Z |
|
dc.date.copyright |
2012-07-25 |
- |
dc.date.issued |
2012-09-03 |
|
dc.date.submitted |
2012-07-25 |
- |
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/6533 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.9022 |
|
dc.description.abstract |
Η παρούσα διπλωματική εργασία έχει ως αντικείμενο τη μελέτη και την ανάπτυξη δύο συ-
στημάτων τα οποία επιδιώκουν τον εμπλουτισμό ακατέργαστων και αδόμητων κειμένων, γραμ-
μένων σε φυσική γλώσσα, με χρήση Σημασιολογικού Ιστού και συγκεκριμένα των διασυνδεδε-
μένων δεδομένων της DBpedia. Καθοριστικής σημασίας κρίνεται ο εντοπισμός και η επιλογή
μέσα από το κείμενο, μόνο εκείνων των φράσεων που αντιστοιχούν σε ονοματικές οντότητες
της DBpedia και φέρουν την ανά περίπτωση επιθυμητή πληροφορία. Η εξαγωγή των οντοτή-
των αυτών, δίνουν τη δυνατότητα άντλησης επιπρόσθετης πληροφορίας η οποία εμπλουτίζει
το κείμενο με τον τρόπο που υπαγορεύει ο στόχος του κάθε συστήματος.
Το πρώτο σύστημα ονομάζεται ”Σύστημα Σημασιολογικής Επισημείωσης και Εξαγωγής Συ-
νοπτικής Αναπαράστασης Κειμένου” και προσανατολίζεται στην εξαγωγή των ονοματικών οντο-
τήτων από ένα δεδομένο κείμενο, το σύνολο των οποίων είναι ικανό να αποτελέσει μία επαρκή
αναπαράστασή του. Συγκεκριμένα, μία αναπαράσταση θεωρείται αποδεκτή όταν συνοψίζει τις
βασικές έννοιες του κειμένου και αρκεί για να το διαχωρίσει με σημασιολογικά κριτήρια από
άλλα κείμενα. Μάλιστα, οι οντότητες που συνθέτουν την εν λόγω αναπαράσταση, παρέχονται
από το σύστημα ταξινομημένες με βάση τη νοηματική βαρύτητα που θεωρείται πως έχει η κάθε
μία για το εκάστοτε κείμενο. Για την ταξινόμηση και τη διαλογή των εντοπισμένων οντοτήτων
χρησιμοποιούνται κριτήρια που βασίζονται σε δεδομένα αντλούμενα από τη Wikipedia και τη
DBpedia. Η τελική αξιολόγηση των αποτελεσμάτων γίνεται με χρήση προσημειωμένων συνό-
λων κειμένων και των στατιστικών μεγεθών ακρίβειας και ανάκλησης.
Το δεύτερο σύστημα ονομάζεται ”Σύστημα Ταυτοποίσης Προσώπων με χρήση Σημασιο-
λογικού Ιστού” και αφορά τον εντοπισμό αναφορών σε πρόσωπα του πραγματικού κόσμου
εντός ενός κειμένου. Στη συγκεκριμένη περίπτωση, γίνεται αναζήτηση στη γνωσιακή βάση
της DBpedia προκειμένου να προσδιοριστεί ποιές από τις εντοπισμένες ονοματικές οντότητες
πληρούν την παραπάνω συνθήκη με βάση τον τύπο δεδομένων που υποδηλώνει η σημασιολογία
της κάθε μίας. Τα αποτελέσματα είναι ικανοποιητικά ως προς την ακρίβειά τους, σε σύγκριση
και με υπάρχοντα συστήματα, ωστόσο περιορίζονται στον εντοπισμό οντοτήτων που είναι κα-
ταχωρημένες στη γνωσιακή βάση που χρησιμοποιήθηκε. |
el |
dc.description.abstract |
The main object of the present thesis is the study and the development of two independent
systems that attempt to enrich plain, unprocessed, natural language texts, using Semantic Web
(Dbpedia Linked Data in particular). In the above mentioned procedure, the detection and extraction
of the phrases that correspond to DBpedia’s noun entities and ”bear” the desired piece of information
is of paramount importance. The extraction of these entities, facilitates the acquisition of extra
related information, thus enriching the initial text according to the target of each system.
The first system, named ”Condensed Representation Extraction and Semantic Text Annotation”
- CRESTA, is oriented towards the extraction of a set of noun entities that can be considered an
efficient representation of the input text. A representation is approved when succesful in summarising
the fundamental text concepts and distinguishing its semantic context. In addition, CRESTA performs
evaluation ranking over the above mentioned entities, based on their conceptual significance. Τhe
metrics necessary for the implementation of ranking and final selection procedures, are calculated
using Wikipedia and DBpedia data. Pretagged corpora were used as an evaluation set for the
observation of the CRESTA’s performance, that was conducted based on precision and recall
values.
The second system, named ”Semantic Web based Person IDentification” - SWPID, aims at the
detection of references to real world persons, within plain texts. For the purposes of this approach,
the system queries Dbpedia knowledge database in order to identify the entities that fulfil the
above mentioned condition, as indicated by their extracted semantics. The precision results are
remarkably satisfactory compared to other tools performing the same task, however, the output
results are obviously restricted to entities already included in the employed knowledge database. |
en |
dc.description.statementofresponsibility |
Χρυσούλα Δ. Ζέρβα |
el |
dc.description.statementofresponsibility |
Αλίκη Μ. Κοπανέλη |
el |
dc.language.iso |
el |
en |
dc.rights |
ETDFree-policy.xml |
en |
dc.subject |
Σημασιολογικός ιστός |
el |
dc.subject |
Γραμματική επισημείωση όρων |
el |
dc.subject |
Σημασιολογική επισημείωση όρων |
el |
dc.subject |
Διασυνδεδεμένα δεδομένα |
el |
dc.subject |
Γνωσιακή βάση δεδομένων |
el |
dc.subject |
Ταυτοποίηση προσώπων |
el |
dc.subject |
Ονοματική οντότητα |
el |
dc.subject |
Εξαγωγή ονοματικών οντοτήτων |
el |
dc.subject |
Semantic web |
en |
dc.subject |
Part of speech tagging |
en |
dc.subject |
Semantic annotation |
en |
dc.subject |
Linked data |
en |
dc.subject |
Knowledge database |
en |
dc.subject |
Person identification |
en |
dc.subject |
Noun entity |
en |
dc.subject |
Noun entity extraction |
en |
dc.subject |
RDF |
en |
dc.subject |
DBpedia |
en |
dc.title |
Εξαγωγή ονοματικών οντοτήτων και εμπλουτισμός κειμένου με χρήση σημασιολογικού ιστού |
el |
dc.title.alternative |
Noun entity extraction and text enrichment using the semantic web |
en |
dc.type |
bachelorThesis |
el (en) |
dc.date.accepted |
2012-07-19 |
- |
dc.date.modified |
2012-07-25 |
- |
dc.contributor.advisorcommitteemember |
Στάμου, Γεώργιος |
el |
dc.contributor.advisorcommitteemember |
Κόλλιας, Στέφανος |
el |
dc.contributor.committeemember |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
dc.contributor.committeemember |
Στάμου, Γεώργιος |
el |
dc.contributor.committeemember |
Κόλλιας, Στέφανος |
el |
dc.contributor.department |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. |
el |
dc.date.recordmanipulation.recordcreated |
2012-09-03 |
- |
dc.date.recordmanipulation.recordmodified |
2012-09-03 |
- |