HEAL DSpace

Υπηρεσίες αναζήτησης πηγών και δεδομένων στον ιστό για υποστήριξη επιστημονικής καινοτομίας

DSpace/Manakin Repository

Show simple item record

dc.contributor.advisor Σελλής, Τιμολέων el
dc.contributor.author Γιαννόπουλος, Γεώργιος Π. el
dc.contributor.author Giannopoulos, Giorgos P. en
dc.date.accessioned 2014-05-26T10:08:56Z
dc.date.available 2014-05-26T10:08:56Z
dc.date.copyright 2014-01-13 -
dc.date.issued 2014-05-26
dc.date.submitted 2014-01-13 -
dc.identifier.uri http://hdl.handle.net/123456789/38603
dc.description 162 σ. el
dc.description.abstract Η διατριβή πραγματεύεται ζητήματα αναταξινόμησης (εξατομίκευσης, διαφοροποίησης, συνδυασμού) αποτελεσμάτων αναζήτησης στον ιστό. Συγκεκριμένα, μελετώνται και προτείνονται μέθοδοι για αναταξινόμηση των αποτελεσμάτων μηχανών αναζήτησης, ώστε να ανταποκρίνονται στις εκάστοτε ανάγκες αναζήτησης πληροφορίας ενός χρήστη ή ομάδας χρηστών. Ως βάση χρησιμοποιούνται προσεγγίσεις που στηρίζονται στην εκπαίδευση συναρτήσεων αναταξινόμησης αποτελεσμάτων, χρησιμοποιώντας πληροφορία που εξάγεται από το ιστορικό αναζήτησης του χρήστη (ερωτήματα αναζήτησης, αποτελέσματα και επιλεγμένα αποτελέσματα). Επιπλέον, προτείνονται μέθοδοι για ημι-αυτόματη σημασιολογική επισημείωση εγγράφων με χρήση οντολογιών, για υβριδική αναζήτηση εγγράφων (με λέξεις κλειδιά και με έννοιες οντολογίας) και για εξατομίκευση αναζήτησης με λέξεις κλειδιά σε σημασιολογικά δεδομένα. Επίσης, εφαρμόζονται ευριστικές και ορίζονται κριτήρια για διαφοροποίηση σχολίων χρηστών σε κοινωνικά δίκτυα, καθώς και σημασιολογικών, δομημένων δεδομένων για αναζήτηση με λέξεις κλειδιά. Τέλος, εξετάζεται το πρόβλημα της αναταξινόμησης αποτελεσμάτων αναζήτησης σε οντότητες με αλλαγές στην ονοματολογία τους (βιολογικές οντότητες). Στα πλαίσια της διατριβής μελετήθηκαν και υλοποιήθηκαν μέθοδοι για την αποτελεσματικότερη και αποδοτικότερη χρησιμοποίηση του ιστορικού αναζήτησης, μέσω της εκπαίδευσης εξειδικευμένων συναρτήσεων ταξινόμησης. Συγκεκριμένα, σε πρώτη φάση υλοποιήθηκε μία μέθοδος εμπλουτισμού της εξαγόμενης πληροφορίας από το ιστορικό του χρήστη, για ταχύτερη εκπαίδευση των συναρτήσεων. Στη συνέχεια, αναπτύχθηκαν μέθοδοι εκπαίδευσης πολλαπλών συναρτήσεων με βάση, είτε το περιεχόμενο αναζήτησης, είτε τη συμπεριφορά αναζήτησης του χρήστη. Η καινοτομία των μεθόδων έγκειται στη συγκέντρωση συνεργατικής πληροφορίας από το ιστορικό του συνόλου των χρηστών και στο διαχωρισμό αυτής της πληροφορίας σε συστάδες που αντιπροσωπεύουν διαφορετικό περιεχόμενο ή συμπεριφορά αναζήτησης. Η τελική αναταξινόμηση επιτυγχάνεται με το συνδυασμό των αποτελεσμάτων από τις συναρτήσεις που έχουν εκπαιδευτεί χρησιμοποιώντας τις παραπάνω συστάδες. Επιπλέον, στα πλαίσια της διατριβής μελετήθηκε η προσαρμογή μεθόδων διαφοροποίησης αποτελεσμάτων αναζήτησης, στο σενάριο διαφοροποίησης σχολίων χρηστών σε κοινωνικά δίκτυα. Ορίστηκαν εξειδικευμένα κριτήρια διαφοροποίησης και εφαρμόστηκαν διαφορετικοί ευριστικοί αλγόριθμοι διαφοροποίησης. Για να καταδειχθεί η αποτελεσματικότητα των προτεινόμενων προσεγγίσεων, ορίστηκαν ειδικές μετρικές αξιολόγησης της ετερογένειας συνόλων σχολίων χρηστών. Πέρα από το σενάριο διαφοροποίησης σχολίων, έγινε μία πρώτη προεργασία για τη διαφοροποίηση αναζήτησης με λέξεις κλειδιά σε σημασιολογικά δεδομένα, δηλαδή δομημένα δεδομένα που ακολουθούν ορισμένο σχήμα και διασυνδέονται μέσω ιδιοτήτων. Επιπρόσθετα, προτάθηκαν μέθοδοι για τη βελτίωση της αναζήτησης εγγράφων μέσω σημασιολογικής επισημείωσής τους και μετέπειτα υβριδικής (με λέξεις κλειδιά και σημασιολογικής) αναζήτησής τους, καθώς και εξατομικευμένης αναζήτησης σημασιολογικών δεδομένων. Τέλος, εξετάστηκαν σχήματα ευρετηρίασης και αλγόριθμοι βαθμολόγησης οντοτήτων των οποίων η ονοματολογία μεταβάλλεται με το χρόνο, όπως συμβαίνει, για παράδειγμα, σε ορισμένες βιολογικές οντότητες. Οι παραπάνω εργασίες αξιολογήθηκαν σε διαφορετικά σενάρια αναζήτησης, καθώς και σε ετερογενή σύνολα δεδομένων, όπως έγγραφα-ιστοσελίδες, σχόλια χρηστών, σημασιολογικές επισημειώσεις κειμένων και βιολογικές οντότητες. Επέφεραν δε αποτελέσματα που βελτίωναν τις προϋπάρχουσες βασικές μεθόδους στο κάθε πρόβλημα και οδήγησαν σε περισσότερες από δέκα δημοσιεύσεις σε διεθνή συνέδρια, workshops και περιοδικά. Επιπλέον, μέσω των παραπάνω εργασιών, προέκυψαν περαιτέρω ερευνητικά προβλήματα, τα οποία έχουν περιγραφεί στις δημοσιευμένες εργασίες και θα μπορούσαν να αποτελέσουν αντικείμενο μελλοντικής δουλειάς. el
dc.description.abstract The thesis handles re-ranking problems, including personalization, diversification, and hybrid search of entities on the web. Specifically, we studied and proposed novel methods for re-ranking web search results by capturing information needs of users or groups of users. We base our methods on ranking function training models, utilizing information extractedfrom user's search history (clickstream data - queries, results and clicked results). Further, we propose methods for semi-automatic semantic annotation of documents using ontology classes, for hybrid document search (using keywords and ontology classes) and for personalization of keyword search on semantic (RDF) data. Moreover, we evaluate/propose heuristics and introduce criteria for diversification of user comments on social networks, as well as for diversification of keyword search on semantic, structured data. Finally, we propose a first cut approach on re-ranking search results on name changing biological entities. Next, we discuss each of the above methods in more detail. Through the presented research, we implemented methods for more effective utilization of users' search histories, through ranking function training. Specifically, first, we proposed a method for enriching the extracted information from user's clickstream data (search history), for faster ranking function training. Next, we proposed and implemented methods for training multiple ranking functions, based either on search content or on user behavior. The novelty of the methods lies on gathering collaborative information from all users and grouping this information into clusters that represent diverse content or diverse search behavior. The final ranking of the results is achieved by combining rankings produced by models trained on different clusters. Moreover, we studied the adaptation of the problem of search result diversification into the scenario of diversifying user comments on news articles. We defined problem specific diversification criteria and applied several heuristic diversification algorithms. In order to assess the effectiveness of the proposed methods, we defined problem specific evaluation measures. Beyond that, we proposed a first cut approach for diversifying keyword search results on semantic (RDF) data, utilizing the schema and structure characterizing the data and the properties interconnecting the data. Finally, we examined indexing schemes and ranking algorithms for entities whose naming changes through time, as it stands for certain categories of biological entities. The aforementioned works were evaluated in several search scenarios, as well as on diverse datasets, such as documents-web pages, user comments, semantic annotations on documents and biological entities. The evaluation results showed that the above methods improved the effectiveness of baseline methods in the specific research problems, leading to the publication of more than ten articles in international conferences, workshops and journals. Further, through the work done on the specific areas, new, interesting problems arised, that are described in the individual publications and can be handled in future works. en
dc.description.statementofresponsibility Γεώργιος Π. Γιαννόπουλος el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Αναταξινόμηση el
dc.subject Αναζήτηση πηγών el
dc.subject Εξατομίκευση el
dc.subject Διαφοροποίηση el
dc.subject Σημασιολογικός ιστός el
dc.subject Δεδομένα ιστού el
dc.subject Σχόλια χρηστών κοινωνικών δικτύων el
dc.subject Βιολογικά δεδομένα el
dc.subject Reranking en
dc.subject Retrieving sources en
dc.subject Personalization en
dc.subject Diversification en
dc.subject Semantic web en
dc.subject Web data en
dc.subject Snetwork user comments en
dc.subject Biological data en
dc.title Υπηρεσίες αναζήτησης πηγών και δεδομένων στον ιστό για υποστήριξη επιστημονικής καινοτομίας el
dc.title.alternative Methods on retrieving sources and data from the Web for supporting scientific innovation en
dc.type doctoralThesis el (en)
dc.date.accepted 2013-12-20 -
dc.date.modified 2014-01-13 -
dc.contributor.advisorcommitteemember Βασιλείου, Ιωάννης el
dc.contributor.advisorcommitteemember Δαλαμάγκας, Θοδωρής el
dc.contributor.committeemember Σελλής, Τιμολέων el
dc.contributor.committeemember Βασιλείου, Ιωάννης el
dc.contributor.committeemember Δαλαμάγκας, Θοδωρής el
dc.contributor.committeemember Κοζύρης, Νεκτάριος el
dc.contributor.committeemember Αφράτη, Φώτω el
dc.contributor.committeemember Σταφυλοπάτης, Ανδρέας el
dc.contributor.committeemember Παπαθεοδώρου, Χρήστος el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων el
dc.date.recordmanipulation.recordcreated 2014-05-26 -
dc.date.recordmanipulation.recordmodified 2014-05-26 -


Files in this item

This item appears in the following Collection(s)

Show simple item record