HEAL DSpace

Εξερεύνηση Ομοιότητας Ερωτημάτων μέσω Τεχνικών Μηχανικής Μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σιαχάμης, Γεώργιος el
dc.contributor.author Siachamis, Georgios en
dc.date.accessioned 2020-05-05T11:33:59Z
dc.date.available 2020-05-05T11:33:59Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/50397
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.18095
dc.rights Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-sa/3.0/gr/ *
dc.subject Ομοιότητα ερωτημάτων el
dc.subject Μεταγραφή Ερωτημάτων el
dc.subject Ομαδοποίηση Ερωτημάτων el
dc.subject Προσεγγιστική Μεταγραφή Ερωτημάτων el
dc.subject Αναπαράσταση Ερωτημάτων el
dc.subject Μηχανική Μάθηση el
dc.subject Query Similarity en
dc.subject Query Rewriting en
dc.subject Approximate Query Rewriting en
dc.subject Query Clustering en
dc.subject Query Representation en
dc.subject Machine Learning en
dc.title Εξερεύνηση Ομοιότητας Ερωτημάτων μέσω Τεχνικών Μηχανικής Μάθησης el
dc.contributor.department Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.type bachelorThesis
heal.classification Πληροφορική el
heal.classification Επιστήμη των Δεδομένων el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2019-10-21
heal.abstract Η παρούσα διπλωματική εργασία ανήκει στον τομέα της Ολοκλήρωσης Δεδομένων (Data Integration). Συγκεκριμένα μελετά την ομοιότητα ερωτημάτων για την προσεγγιστική μεταγραφή ερωτημάτων στο πλαίσιο μιας βάσης δεδομένων ομότιμων κόμβων. Σε αυτού του είδους τις βάσεις δεδομένων, κάθε κόμβος διαθέτει μια ιδιωτική βάση δεδομένων, η οποία έχει το δικό της ανεξάρτητο σχήμα. Όταν γίνεται ένα ερώτημα σε έναν κόμβο, το ερώτημα αυτό διαδίδεται και στους υπόλοιπους κόμβους για να απαντηθεί κι από τις δικές τους βάσεις δεδομένων και να επιστραφούν τα αποτελέσματα στον ερωτηθέντα. Λόγω του ανεξάρτητου σχήματος για την βάση κάθε κόμβου για να μπορεί ένα ερώτημα να απαντηθεί σε έναν άλλο κόμβο πρέπει να μεταγραφεί στο αντίστοιχο σχήμα. Η μεταγραφή αυτή γίνεται με την βοήθεια αντιστοιχίσεων μεταξύ των διαφόρων σχημάτων, οι οποίες όμως στη γενική περίπτωση δεν είναι πλήρεις και οι κλασσικοί αλγόριθμοι μεταγραφής δεν λειτουργούν. Έτσι απαιτείται η χρήση ενός προσεγγιστικού αλγορίθμου για την επίτευξη της μεταγραφής. Ο αλγόριθμος αυτός κάνει χρήση συναρτήσεων ομοιότητας ερωτημάτων. Σκοπός της εργασίας είναι η μελέτη της απόδοσης του αλγορίθμου για τις διάφορες διαθέσιμες συναρτήσεις ομοιότητας και για διάφορα είδη ερωτημάτων, ώστε να επιτευχθεί η αυτοματοποίηση της επιλογής συνάρτησης ομοιότητας ανάλογα με το ερώτημα και να βελτιωθεί η απόδοση του αλγορίθμου. Η ερευνητική διαδικασία που ακολουθείται κάνει μια πρώτη προσπάθεια χρήσης τεχνικών μηχανικής μάθησης στο συγκεκριμένο πλαίσιο και μελετά την δομική ομοιότητα των ερωτημάτων που έως σήμερα δεν είχε ερευνηθεί. Για το σκοπό αυτό πραγματοποιείται σε τέσσερα στάδια. Αρχικά δίνονται οι ιδέες και οι στόχοι και αποδίδονται οι απαραίτητοι ορισμοί, ενώ πραγματοποιείται και ο σχεδιασμός όλης της υπόλοιπης ερευνητικής διαδικασίας. Στη συνέχεια παράγονται τα διάφορα είδη ερωτημάτων ανάλογα με τις ανάγκες των στόχων που τέθηκαν. Στο τρίτο στάδιο χρησιμοποιούνται τεχνικές ομαδοποίησης από την μηχανική μάθηση για την εκτενή κατηγοριοποίηση των ερωτημάτων και εκπαιδεύεται ένας ταξινομητής βασισμένος στη μηχανική μάθηση για την αντιστοίχιση ερωτημάτων στις κατηγορίες που δημιουργήθηκαν. Τέλος, εκτελέστηκαν πειράματα μεταγραφής ερωτημάτων από τις παραπάνω κατηγορίες για την εύρεση και την απόδοση σε κάθε κατηγορία της συνάρτησης ομοιότητας ερωτημάτων με την καλύτερη απόδοση για αυτήν την κατηγορία. Τα αποτελέσματα της εργασίας είναι ενθαρρυντικά για την περαιτέρω ερευνητική μελέτη του θέματος και οι δυνατές επεκτάσεις της έχουν να προσφέρουν πολλά στο πεδίο. el
heal.abstract The present thesis lies in the field of Data Integration. More specifically, it studies query similarity for approximate query rewriting for a Peer – to – Peer database environment. In this type of databases, each peer owns a private database, which has its own independent schema. When a query occurs to a peer, it is transferred across the P2P network to be answered from the other peers as well. Due to each peer’s independent database schema for a query to be answered, it has to be translated to the equivalent schema. The translation occurs through rewriting of the query. The rewriting is based on mapping between the schemas, which are not complete in the general case and thus the classical rewriting algorithms are not working. Therefore, the use of an approximate query rewriting algorithm is needed for the rewriting to be successful. Such an algorithm makes use of query similarity functions. The purpose of the present thesis is to study the effectiveness of the approximate query rewriting algorithm for the different available query similarity functions and for different query categories, so as the process of choosing a similarity function for the rewriting to be automated and the algorithm’s effectiveness to be maximized. Our research process makes use of machine learning techniques for the first time in this field and it discusses the pure structural query similarity that has not been researched yet. For that purposes, the process is divided into four steps. Firstly, the ideas and the goals of the thesis are given and the needed definitions are formed, while the plan of the whole process is discussed. In the next step, the different queries are produced in accordance with our research goals. During the third step, clustering techniques of machine learning are used for the proper categorization of the produced queried and a machine learning classifier is trained upon the created categories. Finally, we performed some rewriting experiments where a few queries of each category were rewritten, in order to find for each category the best suited query similarity function according to rewriting effectiveness. The results of the research process are promising for a more in-depth study of the query similarity problem in the future and the possible extensions of this thesis have a lot to contribute to the field. en
heal.advisorName Καντερέ, Βηρένα
heal.committeeMemberName Στάμου, Γεώργιος
heal.committeeMemberName Παπασπύρου, Νικόλαος
heal.committeeMemberName Καντερέ, Βηρένα
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 107
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα