HEAL DSpace

Σύστημα δεικτοδότησης με δυνατότητα ενημερώσεων για δεδομένα μεγάλης κλίμακας, χρησιμοποιώντας κατανεμημένες τεχνικές επεξεργασίας (MapReduce και NoSQL)

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Κοζύρης, Νεκτάριος el
dc.contributor.author Αντωνόπουλος, Παναγιώτης Χ. el
dc.contributor.author Antonopoulos, Panagiotis Ch. en
dc.date.accessioned 2011-07-21T09:04:30Z
dc.date.available 2011-07-21T09:04:30Z
dc.date.copyright 2011-07-18 -
dc.date.issued 2011-07-21
dc.date.submitted 2011-07-18 -
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/4812
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.10946
dc.description 96 σ. el
dc.description.abstract Με τη χρήση κατανεμημένων τεχνικών επεξεργασίας, έχουμε τη δυνατότητα να μειώσουμε σημαντικά το χρόνο δημιουργίας και ενημέρωσης των ευρετηρίων που αφορούν δεδομένα μεγάλης κλίμακας, όπως για παράδειγμα αυτά που είναι διαθέσιμα στο διαδίκτυο, εκμεταλλευόμενοι τις δυνατότητες που μας προσφέρουν οι σύγχρονες αρχιτεκτονικές υπολογιστών, όπως οι shared-nothing αρχιτεκτονικές και το Cloud. Ταυτόχρονα, με την κατανεμημένη αποθήκευση και διαχείριση των ευρετηρίων, καθίσταται εφικτή η αντιμετώπιση του αυξημένου φόρτου ερωτημάτων που έχει προκύψει ως αποτέλεσμα της εκρηκτικής αύξησης του αριθμού των χρηστών του διαδικτύου. Στην διπλωματική αυτή εργασία παρουσιάζεται μια κατανεμημένη αρχιτεκτονική για τη δημιουργία και την ενημέρωση ανεστραμμένων ευρετηρίων (inverted index) για συλλογές κειμένων μεγάλης κλίμακας. Αναλυτικότερα, παρουσιάζεται μια μεθοδολογία για την κατανεμημένη δημιουργία και, στη συνέχεια, την κατανεμημένη ενημέρωση ανεστραμμένων ευρετηρίων, η οποία καθιστά δυνατή την ενημέρωση ενός υπάρχοντος ευρετηρίου σε χρόνο πρακτικά ανεξάρτητο από το μέγεθος του, αξιοποιώντας τα ιδιαίτερα χαρακτηριστικά των NoSQL βάσεων δεδομένων. Ακόμα, προτείνεται ένας αλγόριθμος σύγκρισης μεταξύ των παλαιών και νέων εκδόσεων των τροποποιημένων κειμένων, ο οποίος ελαχιστοποιεί τις τροποποιήσεις που πρέπει να πραγματοποιηθούν στο ευρετήριο, επιταχύνοντας έτσι σημαντικά τη διαδικασία ενημέρωσης. Με τη χρήση των μεθόδων αυτών, καθίσταται εφικτή η ταχύτερη και συχνότερη ενημέρωση ανεστραμμένων ευρετηρίων που έχουν δημιουργηθεί από μεγάλες συλλογές κειμένων, με στόχο την επιστροφή ενημερωμένων αποτελεσμάτων στους τελικούς χρήστες. Για την αποδοτικότερη εκτέλεση των διαδικασιών δημιουργίας και ενημέρωσης του ευρετηρίου, προτείνεται η χρήση του Hadoop MapReduce, το οποίο αποτελεί μια υλοποίηση ανοικτού λογισμικού του MapReduce framework και είναι κατάλληλο για την κατανεμημένη επεξεργασία μεγάλου όγκου δεδομένων. Επιπρόσθετα, για την ταχύτερη επεξεργασία του μεγάλου φόρτου ερωτημάτων των χρηστών, προτείνεται η αποθήκευση του ευρετηρίου στην HBase, η οποία αποτελεί μια κατανεμημένη, NoSQL βάση δεδομένων που καθιστά δυνατή την αποθήκευση μεγάλου όγκου δεδομένων και την κατανομή του φορτίου ερωτημάτων στους κόμβους του συστήματος. el
dc.description.abstract By using distributed processing techniques, we can significantly reduce the time needed for the creation and update of indexes on large-scale datasets, such as those available on the Internet, taking advantage of the capabilities of modern architectures, such as shared-nothing architectures and the Cloud. At the same time, the distributed storage and management of such indexes allows us to process the increased query workload, which has arisen as a result of the explosive growth in the number of Internet users. In this thesis, we present a distributed architecture for creating and updating inverted indexes for large-scale document collections. In more detail, we present a methodology for the distributed creation and update of inverted indexes, which allows us to update an existing inverted index in time practically independent of its size, utilizing the characteristics of NoSQL databases. Moreover, we propose an algorithm which compares the old and new versions of the modified documents in order to minimize the changes needed in the index, and therefore accelerate the update process. By using these methods, it becomes possible to quickly and frequently update existing inverted indexes, created from large document collections, in order to provide fresh results to the users. For the efficient execution of these processes, we suggest the usage of Hadoop MapReduce, which is an open-source implementation of the MapReduce framework and is suitable for the distributed processing of large-scale datasets. Furthermore, in order to speed up the processing of users’ queries, we recommend the storage of the index in HBase, a distributed, NoSQL database which allows the storage of large volumes of data and the distribution of the query workload to the nodes of the cluster. en
dc.description.statementofresponsibility Παναγιώτης Χ. Αντωνόπουλος el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Ανεστραμμένο ευρετήριο el
dc.subject Κατανεμημένη επεξεργασία el
dc.subject Ενημέρωση el
dc.subject Αποθήκευση el
dc.subject Νεφελώδης υπολογισμός el
dc.subject Hadoop el
dc.subject MapReduce el
dc.subject HBase el
dc.subject NoSQL el
dc.subject Inverted index en
dc.subject Distributed Creation en
dc.subject Update en
dc.subject Storage en
dc.subject Cloud computing en
dc.subject Hadoop en
dc.subject MapReduce en
dc.subject HBase en
dc.subject NoSQL en
dc.title Σύστημα δεικτοδότησης με δυνατότητα ενημερώσεων για δεδομένα μεγάλης κλίμακας, χρησιμοποιώντας κατανεμημένες τεχνικές επεξεργασίας (MapReduce και NoSQL) el
dc.title.alternative An update enabled indexing system utilizing distributed processing techniques (MapReduce and NoSQL) for web-scale datasets en
dc.type bachelorThesis el (en)
dc.date.accepted 2011-07-18 -
dc.date.modified 2011-07-18 -
dc.contributor.advisorcommitteemember Σελλής, Τιμολέων el
dc.contributor.advisorcommitteemember Παπασπύρου, Νικόλαος el
dc.contributor.committeemember Κοζύρης, Νεκτάριος el
dc.contributor.committeemember Σελλής, Τιμολέων el
dc.contributor.committeemember Παπασπύρου, Νικόλαος el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων el
dc.date.recordmanipulation.recordcreated 2011-07-21 -
dc.date.recordmanipulation.recordmodified 2011-07-21 -


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής