Υπηρεσίες αναζήτησης πηγών και δεδομένων στον ιστό για υποστήριξη επιστημονικής καινοτομίας

Γιαννόπουλος, Γεώργιος Π.; Giannopoulos, Giorgos P.

Υπηρεσίες αναζήτησης πηγών και δεδομένων στον ιστό για υποστήριξη επιστημονικής καινοτομίας

Γιαννόπουλος, Γεώργιος Π.; Giannopoulos, Giorgos P.

URI: https://dspace.lib.ntua.gr/xmlui/handle/123456789/38603
http://dx.doi.org/10.26240/heal.ntua.1282

Ημερομηνία: 2014-05-26

Περίληψη:

Η διατριβή πραγματεύεται ζητήματα αναταξινόμησης (εξατομίκευσης, διαφοροποίησης, συνδυασμού) αποτελεσμάτων αναζήτησης στον ιστό. Συγκεκριμένα, μελετώνται και προτείνονται μέθοδοι για αναταξινόμηση των αποτελεσμάτων μηχανών αναζήτησης, ώστε να ανταποκρίνονται στις εκάστοτε ανάγκες αναζήτησης πληροφορίας ενός χρήστη ή ομάδας χρηστών. Ως βάση χρησιμοποιούνται προσεγγίσεις που στηρίζονται στην εκπαίδευση συναρτήσεων αναταξινόμησης αποτελεσμάτων, χρησιμοποιώντας πληροφορία που εξάγεται από το ιστορικό αναζήτησης του χρήστη (ερωτήματα αναζήτησης, αποτελέσματα και επιλεγμένα αποτελέσματα). Επιπλέον, προτείνονται μέθοδοι για ημι-αυτόματη σημασιολογική επισημείωση εγγράφων με χρήση οντολογιών, για υβριδική αναζήτηση εγγράφων (με λέξεις κλειδιά και με έννοιες οντολογίας) και για εξατομίκευση αναζήτησης με λέξεις κλειδιά σε σημασιολογικά δεδομένα. Επίσης, εφαρμόζονται ευριστικές και ορίζονται κριτήρια για διαφοροποίηση σχολίων χρηστών σε κοινωνικά δίκτυα, καθώς και σημασιολογικών, δομημένων δεδομένων για αναζήτηση με λέξεις κλειδιά. Τέλος, εξετάζεται το πρόβλημα της αναταξινόμησης αποτελεσμάτων αναζήτησης σε οντότητες με αλλαγές στην ονοματολογία τους (βιολογικές οντότητες). Στα πλαίσια της διατριβής μελετήθηκαν και υλοποιήθηκαν μέθοδοι για την αποτελεσματικότερη και αποδοτικότερη χρησιμοποίηση του ιστορικού αναζήτησης, μέσω της εκπαίδευσης εξειδικευμένων συναρτήσεων ταξινόμησης. Συγκεκριμένα, σε πρώτη φάση υλοποιήθηκε μία μέθοδος εμπλουτισμού της εξαγόμενης πληροφορίας από το ιστορικό του χρήστη, για ταχύτερη εκπαίδευση των συναρτήσεων. Στη συνέχεια, αναπτύχθηκαν μέθοδοι εκπαίδευσης πολλαπλών συναρτήσεων με βάση, είτε το περιεχόμενο αναζήτησης, είτε τη συμπεριφορά αναζήτησης του χρήστη. Η καινοτομία των μεθόδων έγκειται στη συγκέντρωση συνεργατικής πληροφορίας από το ιστορικό του συνόλου των χρηστών και στο διαχωρισμό αυτής της πληροφορίας σε συστάδες που αντιπροσωπεύουν διαφορετικό περιεχόμενο ή συμπεριφορά αναζήτησης. Η τελική αναταξινόμηση επιτυγχάνεται με το συνδυασμό των αποτελεσμάτων από τις συναρτήσεις που έχουν εκπαιδευτεί χρησιμοποιώντας τις παραπάνω συστάδες. Επιπλέον, στα πλαίσια της διατριβής μελετήθηκε η προσαρμογή μεθόδων διαφοροποίησης αποτελεσμάτων αναζήτησης, στο σενάριο διαφοροποίησης σχολίων χρηστών σε κοινωνικά δίκτυα. Ορίστηκαν εξειδικευμένα κριτήρια διαφοροποίησης και εφαρμόστηκαν διαφορετικοί ευριστικοί αλγόριθμοι διαφοροποίησης. Για να καταδειχθεί η αποτελεσματικότητα των προτεινόμενων προσεγγίσεων, ορίστηκαν ειδικές μετρικές αξιολόγησης της ετερογένειας συνόλων σχολίων χρηστών. Πέρα από το σενάριο διαφοροποίησης σχολίων, έγινε μία πρώτη προεργασία για τη διαφοροποίηση αναζήτησης με λέξεις κλειδιά σε σημασιολογικά δεδομένα, δηλαδή δομημένα δεδομένα που ακολουθούν ορισμένο σχήμα και διασυνδέονται μέσω ιδιοτήτων. Επιπρόσθετα, προτάθηκαν μέθοδοι για τη βελτίωση της αναζήτησης εγγράφων μέσω σημασιολογικής επισημείωσής τους και μετέπειτα υβριδικής (με λέξεις κλειδιά και σημασιολογικής) αναζήτησής τους, καθώς και εξατομικευμένης αναζήτησης σημασιολογικών δεδομένων. Τέλος, εξετάστηκαν σχήματα ευρετηρίασης και αλγόριθμοι βαθμολόγησης οντοτήτων των οποίων η ονοματολογία μεταβάλλεται με το χρόνο, όπως συμβαίνει, για παράδειγμα, σε ορισμένες βιολογικές οντότητες. Οι παραπάνω εργασίες αξιολογήθηκαν σε διαφορετικά σενάρια αναζήτησης, καθώς και σε ετερογενή σύνολα δεδομένων, όπως έγγραφα-ιστοσελίδες, σχόλια χρηστών, σημασιολογικές επισημειώσεις κειμένων και βιολογικές οντότητες. Επέφεραν δε αποτελέσματα που βελτίωναν τις προϋπάρχουσες βασικές μεθόδους στο κάθε πρόβλημα και οδήγησαν σε περισσότερες από δέκα δημοσιεύσεις σε διεθνή συνέδρια, workshops και περιοδικά. Επιπλέον, μέσω των παραπάνω εργασιών, προέκυψαν περαιτέρω ερευνητικά προβλήματα, τα οποία έχουν περιγραφεί στις δημοσιευμένες εργασίες και θα μπορούσαν να αποτελέσουν αντικείμενο μελλοντικής δουλειάς.

The thesis handles re-ranking problems, including personalization, diversification, and hybrid search of entities on the web. Specifically, we studied and proposed novel methods for re-ranking web search results by capturing information needs of users or groups of users. We base our methods on ranking function training models, utilizing information extractedfrom user's search history (clickstream data - queries, results and clicked results). Further, we propose methods for semi-automatic semantic annotation of documents using ontology classes, for hybrid document search (using keywords and ontology classes) and for personalization of keyword search on semantic (RDF) data. Moreover, we evaluate/propose heuristics and introduce criteria for diversification of user comments on social networks, as well as for diversification of keyword search on semantic, structured data. Finally, we propose a first cut approach on re-ranking search results on name changing biological entities. Next, we discuss each of the above methods in more detail. Through the presented research, we implemented methods for more effective utilization of users' search histories, through ranking function training. Specifically, first, we proposed a method for enriching the extracted information from user's clickstream data (search history), for faster ranking function training. Next, we proposed and implemented methods for training multiple ranking functions, based either on search content or on user behavior. The novelty of the methods lies on gathering collaborative information from all users and grouping this information into clusters that represent diverse content or diverse search behavior. The final ranking of the results is achieved by combining rankings produced by models trained on different clusters. Moreover, we studied the adaptation of the problem of search result diversification into the scenario of diversifying user comments on news articles. We defined problem specific diversification criteria and applied several heuristic diversification algorithms. In order to assess the effectiveness of the proposed methods, we defined problem specific evaluation measures. Beyond that, we proposed a first cut approach for diversifying keyword search results on semantic (RDF) data, utilizing the schema and structure characterizing the data and the properties interconnecting the data. Finally, we examined indexing schemes and ranking algorithms for entities whose naming changes through time, as it stands for certain categories of biological entities. The aforementioned works were evaluated in several search scenarios, as well as on diverse datasets, such as documents-web pages, user comments, semantic annotations on documents and biological entities. The evaluation results showed that the above methods improved the effectiveness of baseline methods in the specific research problems, leading to the publication of more than ten articles in international conferences, workshops and journals. Further, through the work done on the specific areas, new, interesting problems arised, that are described in the individual publications and can be handled in future works.