HEAL DSpace

Αποσαφήνιση οντοτήτων σε κείμενο με χρήση γράφου γνώσης και σημασιολογικής εγγύτητας

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Μανδαλιός, Αλέξιος el
dc.contributor.author Mandalios, Alexios en
dc.date.accessioned 2017-10-30T09:01:14Z
dc.date.available 2017-10-30T09:01:14Z
dc.date.issued 2017-10-30
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/45831
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.14828
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Αναγνώριση ονοματικών οντοτήτων el
dc.subject Αποσαφήνιση ονοματικών οντοτήτων el
dc.subject Γράφος γνώσης Google el
dc.subject k-partite γράφος el
dc.subject k-clique μέγιστου βάρους el
dc.subject Ευριστική τεχνική αφαίρεσης χειρότερου στοιχείου el
dc.subject Named entity recognition en
dc.subject Wikipedia en
dc.subject NER en
dc.subject Named entity disambiguation en
dc.subject NED en
dc.subject NERD en
dc.subject Google knowledge graph en
dc.subject k-partite graph en
dc.subject Max weight k-clique en
dc.subject Worst out heuristic en
dc.title Αποσαφήνιση οντοτήτων σε κείμενο με χρήση γράφου γνώσης και σημασιολογικής εγγύτητας el
heal.type bachelorThesis
heal.classification Επεξεργασία φυσικής γλώσσας el
heal.classification Εξαγωγή πληροφορίας el
heal.classificationURI http://data.seab.gr/concepts/1b4fc9fc425985188ba7b60404a8ffd79a9f080f
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2017-07-20
heal.abstract Ένα κείμενο μπορεί να περιέχει αναφορές σε φυσικά πρόσωπα, τοποθεσίες, οργανισμούς, ταινίες, μάρκες προϊόντων και άλλους τύπους οντοτήτων. Οι αναφορές αυτές είναι συχνά αμφίσημες ως προς τις οντότητες του κόσμου που αναπαριστούν, πλην όμως η ανθρώπινη νοημοσύνη έχει τη δεξιότητα να τις αποσαφηνίζει με επιτυχία στις περισσότερες περιπτώσεις. Στόχος της παρούσας εργασίας είναι η αναγνώριση των αναφορών αυτών σε κάποιο κείμενο και η αποσαφήνισή τους μέσω αντιστοίχισης με οντότητες που βρίσκονται σε μια βάση γνώσης. Αυτή η διαδικασία είναι γνωστή ως αναγνώριση και αποσαφήνιση ονοματικών οντοτήτων. Για να επιτευχθεί αυτός ο στόχος χρησιμοποιείται μια γραφοθεωρητική προσέγγιση. Αυτή περιλαμβάνει ανάλυση του κειμένου με μεθόδους επεξεργασίας φυσικής γλώσσας, καθώς και χρήση σύγχρονων τεχνικών και εργαλείων. Ως βασικές πηγές γνώσης αξιοποιούνται ο Γράφος Γνώσης της Google και η Wikipedia. Ιδιαίτερο βάρος δίνεται στην ανάλυση των βασικών αποφάσεων που πρέπει να ληφθούν κατά τη σχεδίαση ενός συστήματος αποσαφήνισης οντοτήτων σε κείμενο, οι οποίες θα καθορίσουν την ποιότητα του αποτελέσματος και το πεδίο εφαρμογής. Η εργασία αυτή επικεντρώνεται σε μικρού και μεσαίου μεγέθους κείμενα, τα οποία αναφέρονται σε σημασιολογικά συναφείς οντότητες από σχετικά λίγες και σχετιζόμενες θεματικές ενότητες. Το σύστημα αξιολογείται πειραματικά σε δύο σύνολα κειμένων, το πρώτο με μικρά κείμενα και το δεύτερο με μεσαίου μεγέθους κείμενα. Τα αποτελέσματα της αξιολόγησης αυτής υποδεικνύουν ότι το σύστημα που αναπτύχθηκε είναι ανταγωνιστικό και η απόδοσή του είναι συγκρίσιμη με αυτήν των πιο επιτυχημένων συστημάτων αποσαφήνισης οντοτήτων. el
heal.abstract A document may include mentions about people, locations, organizations, films, product brands and other kinds of entities. Those mentions are often ambiguous and there is no obvious way to map them to real world entities. However, in most cases, the human cognitive ability is capable of disambiguating them successfully. This thesis aims to recognize those mentions in unstructured text and proceed to disambiguate them by mapping them to entities stored in a knowledge base. This process is known as Named Entity Recognition & Disambiguation (NERD) or Entity Linking. The aforementioned goal is achieved via a graph-based approach, that leverages natural language processing methods and state-of-the art techniques and tools. Google's Knowledge Graph and Wikipedia are the main sources of knowledge in this project. One of the most important tasks in the development process is the selection of an appropriate set of features for the disambiguation engine, as those features are inevitably going to determine the resulting system's quality as well as its applications. This thesis focuses on small and medium-sized documents, that refer to coherent entities from one or a few related topics. The developed system is evaluated experimentally using two datasets, the first containing small documents and the second medium-sized documents. The evaluation results suggest that the system is quite competitive and its performance can be compared to that of the most successful NERD systems available today. en
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Φωτάκης, Δημήτριος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 138 σ.
heal.fullTextAvailability true


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα