Αποσαφήνιση οντοτήτων σε κείμενο με χρήση γράφου γνώσης και σημασιολογικής εγγύτητας

Μανδαλιός, Αλέξιος; Mandalios, Alexios

dc.contributor.author	Μανδαλιός, Αλέξιος	el
dc.contributor.author	Mandalios, Alexios	en
dc.date.accessioned	2017-10-30T09:01:14Z
dc.date.available	2017-10-30T09:01:14Z
dc.date.issued	2017-10-30
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/45831
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.14828
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Αναγνώριση ονοματικών οντοτήτων	el
dc.subject	Αποσαφήνιση ονοματικών οντοτήτων	el
dc.subject	Γράφος γνώσης Google	el
dc.subject	k-partite γράφος	el
dc.subject	k-clique μέγιστου βάρους	el
dc.subject	Ευριστική τεχνική αφαίρεσης χειρότερου στοιχείου	el
dc.subject	Named entity recognition	en
dc.subject	Wikipedia	en
dc.subject	NER	en
dc.subject	Named entity disambiguation	en
dc.subject	NED	en
dc.subject	NERD	en
dc.subject	Google knowledge graph	en
dc.subject	k-partite graph	en
dc.subject	Max weight k-clique	en
dc.subject	Worst out heuristic	en
dc.title	Αποσαφήνιση οντοτήτων σε κείμενο με χρήση γράφου γνώσης και σημασιολογικής εγγύτητας	el
heal.type	bachelorThesis
heal.classification	Επεξεργασία φυσικής γλώσσας	el
heal.classification	Εξαγωγή πληροφορίας	el
heal.classificationURI	http://data.seab.gr/concepts/1b4fc9fc425985188ba7b60404a8ffd79a9f080f
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2017-07-20
heal.abstract	Ένα κείμενο μπορεί να περιέχει αναφορές σε φυσικά πρόσωπα, τοποθεσίες, οργανισμούς, ταινίες, μάρκες προϊόντων και άλλους τύπους οντοτήτων. Οι αναφορές αυτές είναι συχνά αμφίσημες ως προς τις οντότητες του κόσμου που αναπαριστούν, πλην όμως η ανθρώπινη νοημοσύνη έχει τη δεξιότητα να τις αποσαφηνίζει με επιτυχία στις περισσότερες περιπτώσεις. Στόχος της παρούσας εργασίας είναι η αναγνώριση των αναφορών αυτών σε κάποιο κείμενο και η αποσαφήνισή τους μέσω αντιστοίχισης με οντότητες που βρίσκονται σε μια βάση γνώσης. Αυτή η διαδικασία είναι γνωστή ως αναγνώριση και αποσαφήνιση ονοματικών οντοτήτων. Για να επιτευχθεί αυτός ο στόχος χρησιμοποιείται μια γραφοθεωρητική προσέγγιση. Αυτή περιλαμβάνει ανάλυση του κειμένου με μεθόδους επεξεργασίας φυσικής γλώσσας, καθώς και χρήση σύγχρονων τεχνικών και εργαλείων. Ως βασικές πηγές γνώσης αξιοποιούνται ο Γράφος Γνώσης της Google και η Wikipedia. Ιδιαίτερο βάρος δίνεται στην ανάλυση των βασικών αποφάσεων που πρέπει να ληφθούν κατά τη σχεδίαση ενός συστήματος αποσαφήνισης οντοτήτων σε κείμενο, οι οποίες θα καθορίσουν την ποιότητα του αποτελέσματος και το πεδίο εφαρμογής. Η εργασία αυτή επικεντρώνεται σε μικρού και μεσαίου μεγέθους κείμενα, τα οποία αναφέρονται σε σημασιολογικά συναφείς οντότητες από σχετικά λίγες και σχετιζόμενες θεματικές ενότητες. Το σύστημα αξιολογείται πειραματικά σε δύο σύνολα κειμένων, το πρώτο με μικρά κείμενα και το δεύτερο με μεσαίου μεγέθους κείμενα. Τα αποτελέσματα της αξιολόγησης αυτής υποδεικνύουν ότι το σύστημα που αναπτύχθηκε είναι ανταγωνιστικό και η απόδοσή του είναι συγκρίσιμη με αυτήν των πιο επιτυχημένων συστημάτων αποσαφήνισης οντοτήτων.	el
heal.abstract	A document may include mentions about people, locations, organizations, films, product brands and other kinds of entities. Those mentions are often ambiguous and there is no obvious way to map them to real world entities. However, in most cases, the human cognitive ability is capable of disambiguating them successfully. This thesis aims to recognize those mentions in unstructured text and proceed to disambiguate them by mapping them to entities stored in a knowledge base. This process is known as Named Entity Recognition & Disambiguation (NERD) or Entity Linking. The aforementioned goal is achieved via a graph-based approach, that leverages natural language processing methods and state-of-the art techniques and tools. Google's Knowledge Graph and Wikipedia are the main sources of knowledge in this project. One of the most important tasks in the development process is the selection of an appropriate set of features for the disambiguation engine, as those features are inevitably going to determine the resulting system's quality as well as its applications. This thesis focuses on small and medium-sized documents, that refer to coherent entities from one or a few related topics. The developed system is evaluated experimentally using two datasets, the first containing small documents and the second medium-sized documents. The evaluation results suggest that the system is quite competitive and its performance can be compared to that of the most successful NERD systems available today.	en
heal.advisorName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Φωτάκης, Δημήτριος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	138 σ.
heal.fullTextAvailability	true