Εξερεύνηση Ομοιότητας Ερωτημάτων μέσω Τεχνικών Μηχανικής Μάθησης

Σιαχάμης, Γεώργιος; Siachamis, Georgios

dc.contributor.author	Σιαχάμης, Γεώργιος	el
dc.contributor.author	Siachamis, Georgios	en
dc.date.accessioned	2020-05-05T11:33:59Z
dc.date.available	2020-05-05T11:33:59Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/50397
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.18095
dc.rights	Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-sa/3.0/gr/	*
dc.subject	Ομοιότητα ερωτημάτων	el
dc.subject	Μεταγραφή Ερωτημάτων	el
dc.subject	Ομαδοποίηση Ερωτημάτων	el
dc.subject	Προσεγγιστική Μεταγραφή Ερωτημάτων	el
dc.subject	Αναπαράσταση Ερωτημάτων	el
dc.subject	Μηχανική Μάθηση	el
dc.subject	Query Similarity	en
dc.subject	Query Rewriting	en
dc.subject	Approximate Query Rewriting	en
dc.subject	Query Clustering	en
dc.subject	Query Representation	en
dc.subject	Machine Learning	en
dc.title	Εξερεύνηση Ομοιότητας Ερωτημάτων μέσω Τεχνικών Μηχανικής Μάθησης	el
dc.contributor.department	Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.type	bachelorThesis
heal.classification	Πληροφορική	el
heal.classification	Επιστήμη των Δεδομένων	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2019-10-21
heal.abstract	Η παρούσα διπλωματική εργασία ανήκει στον τομέα της Ολοκλήρωσης Δεδομένων (Data Integration). Συγκεκριμένα μελετά την ομοιότητα ερωτημάτων για την προσεγγιστική μεταγραφή ερωτημάτων στο πλαίσιο μιας βάσης δεδομένων ομότιμων κόμβων. Σε αυτού του είδους τις βάσεις δεδομένων, κάθε κόμβος διαθέτει μια ιδιωτική βάση δεδομένων, η οποία έχει το δικό της ανεξάρτητο σχήμα. Όταν γίνεται ένα ερώτημα σε έναν κόμβο, το ερώτημα αυτό διαδίδεται και στους υπόλοιπους κόμβους για να απαντηθεί κι από τις δικές τους βάσεις δεδομένων και να επιστραφούν τα αποτελέσματα στον ερωτηθέντα. Λόγω του ανεξάρτητου σχήματος για την βάση κάθε κόμβου για να μπορεί ένα ερώτημα να απαντηθεί σε έναν άλλο κόμβο πρέπει να μεταγραφεί στο αντίστοιχο σχήμα. Η μεταγραφή αυτή γίνεται με την βοήθεια αντιστοιχίσεων μεταξύ των διαφόρων σχημάτων, οι οποίες όμως στη γενική περίπτωση δεν είναι πλήρεις και οι κλασσικοί αλγόριθμοι μεταγραφής δεν λειτουργούν. Έτσι απαιτείται η χρήση ενός προσεγγιστικού αλγορίθμου για την επίτευξη της μεταγραφής. Ο αλγόριθμος αυτός κάνει χρήση συναρτήσεων ομοιότητας ερωτημάτων. Σκοπός της εργασίας είναι η μελέτη της απόδοσης του αλγορίθμου για τις διάφορες διαθέσιμες συναρτήσεις ομοιότητας και για διάφορα είδη ερωτημάτων, ώστε να επιτευχθεί η αυτοματοποίηση της επιλογής συνάρτησης ομοιότητας ανάλογα με το ερώτημα και να βελτιωθεί η απόδοση του αλγορίθμου. Η ερευνητική διαδικασία που ακολουθείται κάνει μια πρώτη προσπάθεια χρήσης τεχνικών μηχανικής μάθησης στο συγκεκριμένο πλαίσιο και μελετά την δομική ομοιότητα των ερωτημάτων που έως σήμερα δεν είχε ερευνηθεί. Για το σκοπό αυτό πραγματοποιείται σε τέσσερα στάδια. Αρχικά δίνονται οι ιδέες και οι στόχοι και αποδίδονται οι απαραίτητοι ορισμοί, ενώ πραγματοποιείται και ο σχεδιασμός όλης της υπόλοιπης ερευνητικής διαδικασίας. Στη συνέχεια παράγονται τα διάφορα είδη ερωτημάτων ανάλογα με τις ανάγκες των στόχων που τέθηκαν. Στο τρίτο στάδιο χρησιμοποιούνται τεχνικές ομαδοποίησης από την μηχανική μάθηση για την εκτενή κατηγοριοποίηση των ερωτημάτων και εκπαιδεύεται ένας ταξινομητής βασισμένος στη μηχανική μάθηση για την αντιστοίχιση ερωτημάτων στις κατηγορίες που δημιουργήθηκαν. Τέλος, εκτελέστηκαν πειράματα μεταγραφής ερωτημάτων από τις παραπάνω κατηγορίες για την εύρεση και την απόδοση σε κάθε κατηγορία της συνάρτησης ομοιότητας ερωτημάτων με την καλύτερη απόδοση για αυτήν την κατηγορία. Τα αποτελέσματα της εργασίας είναι ενθαρρυντικά για την περαιτέρω ερευνητική μελέτη του θέματος και οι δυνατές επεκτάσεις της έχουν να προσφέρουν πολλά στο πεδίο.	el
heal.abstract	The present thesis lies in the field of Data Integration. More specifically, it studies query similarity for approximate query rewriting for a Peer – to – Peer database environment. In this type of databases, each peer owns a private database, which has its own independent schema. When a query occurs to a peer, it is transferred across the P2P network to be answered from the other peers as well. Due to each peer’s independent database schema for a query to be answered, it has to be translated to the equivalent schema. The translation occurs through rewriting of the query. The rewriting is based on mapping between the schemas, which are not complete in the general case and thus the classical rewriting algorithms are not working. Therefore, the use of an approximate query rewriting algorithm is needed for the rewriting to be successful. Such an algorithm makes use of query similarity functions. The purpose of the present thesis is to study the effectiveness of the approximate query rewriting algorithm for the different available query similarity functions and for different query categories, so as the process of choosing a similarity function for the rewriting to be automated and the algorithm’s effectiveness to be maximized. Our research process makes use of machine learning techniques for the first time in this field and it discusses the pure structural query similarity that has not been researched yet. For that purposes, the process is divided into four steps. Firstly, the ideas and the goals of the thesis are given and the needed definitions are formed, while the plan of the whole process is discussed. In the next step, the different queries are produced in accordance with our research goals. During the third step, clustering techniques of machine learning are used for the proper categorization of the produced queried and a machine learning classifier is trained upon the created categories. Finally, we performed some rewriting experiments where a few queries of each category were rewritten, in order to find for each category the best suited query similarity function according to rewriting effectiveness. The results of the research process are promising for a more in-depth study of the query similarity problem in the future and the possible extensions of this thesis have a lot to contribute to the field.	en
heal.advisorName	Καντερέ, Βηρένα
heal.committeeMemberName	Στάμου, Γεώργιος
heal.committeeMemberName	Παπασπύρου, Νικόλαος
heal.committeeMemberName	Καντερέ, Βηρένα
heal.academicPublisher	Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	107
heal.fullTextAvailability	false