dc.contributor.author | Μανδαλιός, Αλέξιος | el |
dc.contributor.author | Mandalios, Alexios | en |
dc.date.accessioned | 2017-10-30T09:01:14Z | |
dc.date.available | 2017-10-30T09:01:14Z | |
dc.date.issued | 2017-10-30 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/45831 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.14828 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Αναγνώριση ονοματικών οντοτήτων | el |
dc.subject | Αποσαφήνιση ονοματικών οντοτήτων | el |
dc.subject | Γράφος γνώσης Google | el |
dc.subject | k-partite γράφος | el |
dc.subject | k-clique μέγιστου βάρους | el |
dc.subject | Ευριστική τεχνική αφαίρεσης χειρότερου στοιχείου | el |
dc.subject | Named entity recognition | en |
dc.subject | Wikipedia | en |
dc.subject | NER | en |
dc.subject | Named entity disambiguation | en |
dc.subject | NED | en |
dc.subject | NERD | en |
dc.subject | Google knowledge graph | en |
dc.subject | k-partite graph | en |
dc.subject | Max weight k-clique | en |
dc.subject | Worst out heuristic | en |
dc.title | Αποσαφήνιση οντοτήτων σε κείμενο με χρήση γράφου γνώσης και σημασιολογικής εγγύτητας | el |
heal.type | bachelorThesis | |
heal.classification | Επεξεργασία φυσικής γλώσσας | el |
heal.classification | Εξαγωγή πληροφορίας | el |
heal.classificationURI | http://data.seab.gr/concepts/1b4fc9fc425985188ba7b60404a8ffd79a9f080f | |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2017-07-20 | |
heal.abstract | Ένα κείμενο μπορεί να περιέχει αναφορές σε φυσικά πρόσωπα, τοποθεσίες, οργανισμούς, ταινίες, μάρκες προϊόντων και άλλους τύπους οντοτήτων. Οι αναφορές αυτές είναι συχνά αμφίσημες ως προς τις οντότητες του κόσμου που αναπαριστούν, πλην όμως η ανθρώπινη νοημοσύνη έχει τη δεξιότητα να τις αποσαφηνίζει με επιτυχία στις περισσότερες περιπτώσεις. Στόχος της παρούσας εργασίας είναι η αναγνώριση των αναφορών αυτών σε κάποιο κείμενο και η αποσαφήνισή τους μέσω αντιστοίχισης με οντότητες που βρίσκονται σε μια βάση γνώσης. Αυτή η διαδικασία είναι γνωστή ως αναγνώριση και αποσαφήνιση ονοματικών οντοτήτων. Για να επιτευχθεί αυτός ο στόχος χρησιμοποιείται μια γραφοθεωρητική προσέγγιση. Αυτή περιλαμβάνει ανάλυση του κειμένου με μεθόδους επεξεργασίας φυσικής γλώσσας, καθώς και χρήση σύγχρονων τεχνικών και εργαλείων. Ως βασικές πηγές γνώσης αξιοποιούνται ο Γράφος Γνώσης της Google και η Wikipedia. Ιδιαίτερο βάρος δίνεται στην ανάλυση των βασικών αποφάσεων που πρέπει να ληφθούν κατά τη σχεδίαση ενός συστήματος αποσαφήνισης οντοτήτων σε κείμενο, οι οποίες θα καθορίσουν την ποιότητα του αποτελέσματος και το πεδίο εφαρμογής. Η εργασία αυτή επικεντρώνεται σε μικρού και μεσαίου μεγέθους κείμενα, τα οποία αναφέρονται σε σημασιολογικά συναφείς οντότητες από σχετικά λίγες και σχετιζόμενες θεματικές ενότητες. Το σύστημα αξιολογείται πειραματικά σε δύο σύνολα κειμένων, το πρώτο με μικρά κείμενα και το δεύτερο με μεσαίου μεγέθους κείμενα. Τα αποτελέσματα της αξιολόγησης αυτής υποδεικνύουν ότι το σύστημα που αναπτύχθηκε είναι ανταγωνιστικό και η απόδοσή του είναι συγκρίσιμη με αυτήν των πιο επιτυχημένων συστημάτων αποσαφήνισης οντοτήτων. | el |
heal.abstract | A document may include mentions about people, locations, organizations, films, product brands and other kinds of entities. Those mentions are often ambiguous and there is no obvious way to map them to real world entities. However, in most cases, the human cognitive ability is capable of disambiguating them successfully. This thesis aims to recognize those mentions in unstructured text and proceed to disambiguate them by mapping them to entities stored in a knowledge base. This process is known as Named Entity Recognition & Disambiguation (NERD) or Entity Linking. The aforementioned goal is achieved via a graph-based approach, that leverages natural language processing methods and state-of-the art techniques and tools. Google's Knowledge Graph and Wikipedia are the main sources of knowledge in this project. One of the most important tasks in the development process is the selection of an appropriate set of features for the disambiguation engine, as those features are inevitably going to determine the resulting system's quality as well as its applications. This thesis focuses on small and medium-sized documents, that refer to coherent entities from one or a few related topics. The developed system is evaluated experimentally using two datasets, the first containing small documents and the second medium-sized documents. The evaluation results suggest that the system is quite competitive and its performance can be compared to that of the most successful NERD systems available today. | en |
heal.advisorName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Φωτάκης, Δημήτριος | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 138 σ. | |
heal.fullTextAvailability | true |
The following license files are associated with this item: