dc.contributor.author | Παπαδημητρίου, Γεώργιος | el |
dc.contributor.author | Papadimitriou, Georgios | en |
dc.date.accessioned | 2018-04-23T10:20:48Z | |
dc.date.available | 2018-04-23T10:20:48Z | |
dc.date.issued | 2018-04-23 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/46869 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.15408 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc/3.0/gr/ | * |
dc.subject | Εντοπισμός ανωμαλιών | el |
dc.subject | Μη επιβλεπόμενος εντοπισμός ανωμαλιών | el |
dc.subject | Εισαγωγή ανωμαλιών | el |
dc.subject | Υπολογιστικοί κόμβοι | el |
dc.subject | Πόροι συστήματος | el |
dc.subject | Anomaly detection | en |
dc.subject | Unsupervised anomaly detection | en |
dc.subject | Compute nodes | en |
dc.subject | System Resources | en |
dc.subject | Anomaly injection | en |
dc.title | Εντοπισμός ανωμαλιών σε πόρους υπολογιστικών κόμβων | el |
heal.type | bachelorThesis | |
heal.classification | Computer systems | en |
heal.classification | Υπολογιστικά συστήματα | el |
heal.classificationURI | http://id.loc.gov/authorities/subjects/sh98003200 | |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2018-03-21 | |
heal.abstract | Public and private cloud infrastructures have become a very popular way of acquiring resources on demand and deploying computing clusters that perform complex computations, and most of the time on large amount of data. However, maintenance or recovering from failures can be the reason of significant service downtime and can impact economically both the cloud platform user and the service provider. The goal of this work is the identification of anomalous events on compute nodes, by monitoring their resource usage. In order to study this, we create a dataset that presents seasonality in its data, using the big data benchmark suite “HiBench”, where we inject resource anomalies at certain points. On this dataset we apply an unsupervised anomaly detection technique called Robust Principal Component Analysis, in order to identify the anomalies in the data set. Additionally, we reconstruct the resource usage data from the “Google Cluster Data” dataset on a per node basis, and we evaluate whether we can apply a similar technique. Finally, we implement a version of the algorithm in Apache Spark and evaluate its ability to scale by adding additional workers in the Spark cluster. From our tests, it turns out that the application of Robust PCA, as an anomaly detection technique, relies heavily on the existence of seasonality and its correct identification for the analysis. Moreover, this technique cannot be applied to the Google Cluster Data, due to lack of seasonality on the majority of the compute nodes and the extremely dynamic workload of the system. To conclude, the Apache Spark implementation seems to be scaling almost linearly in our tests, and this is because of the coarse grained approach we took in the solution of the problem. | en |
heal.abstract | Τα δημόσια και ιδιωτικά υπολογιστικά νέφη είναι πολύ δημοφιλής λύσεις απόκτησης πόρων και δημιουργίας συστάδων υπολογιστών για την εκτέλεση πολύπλοκων υπολογισμών και πολλές φορές πάνω σε μεγάλους όγκους δεδομένων. Ωστόσο η συντήρηση ή η αποκατάσταση ζημιών μπορεί να αποφέρει αρκετά μεγάλη σε διάρκεια διακοπή υπηρεσιών και να προκαλέσει οικονομικές ζημιές τόσο στον χρήστη του υπολογιστικού νέφους όσο και στον πάροχο. Στόχος της παρούσας διπλωματικής είναι ο εντοπισμός ανωμαλιών σε υπολογιστικούς κόμβους, παρακολουθώντας τη χρησιμοποίηση των πόρων τους. Για το σκοπό αυτό δημιουργούμε ένα σύνολο δεδομένων που παρουσιάζει περιοδικότητα, χρησιμοποιώντας τη σουίτα αξιολόγησης συστημάτων επεξεργασίας δεδομένων μεγάλου όγκου HiBench. Επίσης αξιολογούμε τον εντοπισμό ανωμαλιών σε δεδομένα από το σύνολο δεδομένων Google Cluster Data. Τέλος υλοποιούμε σε Apache Spark μια έκδοση εντοπισμού ανωμαλιών βασισμένη στον αλγόριθμο Robust PCA και αξιολογούμε την δυνατότητα κλιμάκωσής του. Από τα ευρήματά μας η εφαρμογή μιας μεθόδου, όπως του Robust PCA, για τον μη επιβλεπόμενο εντοπισμό ανωμαλιών σε δεδομένα χρονοσειρών, απαιτεί την ύπαρξη περιοδικότητας και στις περιπτώσεις που λείπει δημιουργούνται πολλές λανθασμένες ενδείξεις. Από την άλλη, η υλοποίηση σε Apache Spark παρέχει σχεδόν γραμμική επιτάχυνση με την αύξηση των εργατών, στον χρόνο υπολογισμού των πιθανών σημείων ανωμαλιών. | el |
heal.advisorName | Κοζύρης, Νεκτάριος | el |
heal.advisorName | Koziris, Nectarios | en |
heal.committeeMemberName | Κοζύρης, Νεκτάριος | el |
heal.committeeMemberName | Παπασπύρου, Νικόλαος | el |
heal.committeeMemberName | Γκούμας, Γεώργιος | el |
heal.committeeMemberName | Koziris, Nectarios | en |
heal.committeeMemberName | Papaspyrou, Nikolaos | en |
heal.committeeMemberName | Goumas, Georgios | en |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 94 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: