dc.contributor.author | Σιαχάμης, Γεώργιος | el |
dc.contributor.author | Siachamis, Georgios | en |
dc.date.accessioned | 2020-05-05T11:33:59Z | |
dc.date.available | 2020-05-05T11:33:59Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/50397 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.18095 | |
dc.rights | Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-sa/3.0/gr/ | * |
dc.subject | Ομοιότητα ερωτημάτων | el |
dc.subject | Μεταγραφή Ερωτημάτων | el |
dc.subject | Ομαδοποίηση Ερωτημάτων | el |
dc.subject | Προσεγγιστική Μεταγραφή Ερωτημάτων | el |
dc.subject | Αναπαράσταση Ερωτημάτων | el |
dc.subject | Μηχανική Μάθηση | el |
dc.subject | Query Similarity | en |
dc.subject | Query Rewriting | en |
dc.subject | Approximate Query Rewriting | en |
dc.subject | Query Clustering | en |
dc.subject | Query Representation | en |
dc.subject | Machine Learning | en |
dc.title | Εξερεύνηση Ομοιότητας Ερωτημάτων μέσω Τεχνικών Μηχανικής Μάθησης | el |
dc.contributor.department | Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.type | bachelorThesis | |
heal.classification | Πληροφορική | el |
heal.classification | Επιστήμη των Δεδομένων | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2019-10-21 | |
heal.abstract | Η παρούσα διπλωματική εργασία ανήκει στον τομέα της Ολοκλήρωσης Δεδομένων (Data Integration). Συγκεκριμένα μελετά την ομοιότητα ερωτημάτων για την προσεγγιστική μεταγραφή ερωτημάτων στο πλαίσιο μιας βάσης δεδομένων ομότιμων κόμβων. Σε αυτού του είδους τις βάσεις δεδομένων, κάθε κόμβος διαθέτει μια ιδιωτική βάση δεδομένων, η οποία έχει το δικό της ανεξάρτητο σχήμα. Όταν γίνεται ένα ερώτημα σε έναν κόμβο, το ερώτημα αυτό διαδίδεται και στους υπόλοιπους κόμβους για να απαντηθεί κι από τις δικές τους βάσεις δεδομένων και να επιστραφούν τα αποτελέσματα στον ερωτηθέντα. Λόγω του ανεξάρτητου σχήματος για την βάση κάθε κόμβου για να μπορεί ένα ερώτημα να απαντηθεί σε έναν άλλο κόμβο πρέπει να μεταγραφεί στο αντίστοιχο σχήμα. Η μεταγραφή αυτή γίνεται με την βοήθεια αντιστοιχίσεων μεταξύ των διαφόρων σχημάτων, οι οποίες όμως στη γενική περίπτωση δεν είναι πλήρεις και οι κλασσικοί αλγόριθμοι μεταγραφής δεν λειτουργούν. Έτσι απαιτείται η χρήση ενός προσεγγιστικού αλγορίθμου για την επίτευξη της μεταγραφής. Ο αλγόριθμος αυτός κάνει χρήση συναρτήσεων ομοιότητας ερωτημάτων. Σκοπός της εργασίας είναι η μελέτη της απόδοσης του αλγορίθμου για τις διάφορες διαθέσιμες συναρτήσεις ομοιότητας και για διάφορα είδη ερωτημάτων, ώστε να επιτευχθεί η αυτοματοποίηση της επιλογής συνάρτησης ομοιότητας ανάλογα με το ερώτημα και να βελτιωθεί η απόδοση του αλγορίθμου. Η ερευνητική διαδικασία που ακολουθείται κάνει μια πρώτη προσπάθεια χρήσης τεχνικών μηχανικής μάθησης στο συγκεκριμένο πλαίσιο και μελετά την δομική ομοιότητα των ερωτημάτων που έως σήμερα δεν είχε ερευνηθεί. Για το σκοπό αυτό πραγματοποιείται σε τέσσερα στάδια. Αρχικά δίνονται οι ιδέες και οι στόχοι και αποδίδονται οι απαραίτητοι ορισμοί, ενώ πραγματοποιείται και ο σχεδιασμός όλης της υπόλοιπης ερευνητικής διαδικασίας. Στη συνέχεια παράγονται τα διάφορα είδη ερωτημάτων ανάλογα με τις ανάγκες των στόχων που τέθηκαν. Στο τρίτο στάδιο χρησιμοποιούνται τεχνικές ομαδοποίησης από την μηχανική μάθηση για την εκτενή κατηγοριοποίηση των ερωτημάτων και εκπαιδεύεται ένας ταξινομητής βασισμένος στη μηχανική μάθηση για την αντιστοίχιση ερωτημάτων στις κατηγορίες που δημιουργήθηκαν. Τέλος, εκτελέστηκαν πειράματα μεταγραφής ερωτημάτων από τις παραπάνω κατηγορίες για την εύρεση και την απόδοση σε κάθε κατηγορία της συνάρτησης ομοιότητας ερωτημάτων με την καλύτερη απόδοση για αυτήν την κατηγορία. Τα αποτελέσματα της εργασίας είναι ενθαρρυντικά για την περαιτέρω ερευνητική μελέτη του θέματος και οι δυνατές επεκτάσεις της έχουν να προσφέρουν πολλά στο πεδίο. | el |
heal.abstract | The present thesis lies in the field of Data Integration. More specifically, it studies query similarity for approximate query rewriting for a Peer – to – Peer database environment. In this type of databases, each peer owns a private database, which has its own independent schema. When a query occurs to a peer, it is transferred across the P2P network to be answered from the other peers as well. Due to each peer’s independent database schema for a query to be answered, it has to be translated to the equivalent schema. The translation occurs through rewriting of the query. The rewriting is based on mapping between the schemas, which are not complete in the general case and thus the classical rewriting algorithms are not working. Therefore, the use of an approximate query rewriting algorithm is needed for the rewriting to be successful. Such an algorithm makes use of query similarity functions. The purpose of the present thesis is to study the effectiveness of the approximate query rewriting algorithm for the different available query similarity functions and for different query categories, so as the process of choosing a similarity function for the rewriting to be automated and the algorithm’s effectiveness to be maximized. Our research process makes use of machine learning techniques for the first time in this field and it discusses the pure structural query similarity that has not been researched yet. For that purposes, the process is divided into four steps. Firstly, the ideas and the goals of the thesis are given and the needed definitions are formed, while the plan of the whole process is discussed. In the next step, the different queries are produced in accordance with our research goals. During the third step, clustering techniques of machine learning are used for the proper categorization of the produced queried and a machine learning classifier is trained upon the created categories. Finally, we performed some rewriting experiments where a few queries of each category were rewritten, in order to find for each category the best suited query similarity function according to rewriting effectiveness. The results of the research process are promising for a more in-depth study of the query similarity problem in the future and the possible extensions of this thesis have a lot to contribute to the field. | en |
heal.advisorName | Καντερέ, Βηρένα | |
heal.committeeMemberName | Στάμου, Γεώργιος | |
heal.committeeMemberName | Παπασπύρου, Νικόλαος | |
heal.committeeMemberName | Καντερέ, Βηρένα | |
heal.academicPublisher | Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 107 | |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: