heal.abstract |
Στη δεύτερη δεκαετία του 21ου αιώνα, οι απαιτήσεις για λήψη αποφάσεων οδη-
γούμενη από δεδομένα είναι υψηλότερες από ποτέ. Είτε πρόκειται για ερμηνεία των
κινήσεων της αγοράς και των προτιμήσεων των καταναλωτών, με σκοπό την ανάπτυξη
μιας επιχείρησης και την μεγιστοποίηση των κερδών της, ή για την ανάλυση ιατρικών
δεδομένων εν μέσω μιας παγκόσμιας πανδημίας, με σκοπό την καταπολέμηση ενός ιού
και την ανάπτυξη μιας κατάλληλης θεραπείας, υπάρχει συλλογή ενός τεράστιου όγκου
δεδομένων που προορίζεται για αποθήκευση και επεξεργασία.
Σε μία περίοδο που ο χρόνος-προς-την-αγορά διαρκώς μειώνεται, ειδικά στην ευ-
ρύτερη αγορά του Λογισμικού, παρατηρείται μία πρωτοφανής αλλαγή στον τρόπο επε-
ξεργασίας αυτών των δεδομένων. Το μεγαλύτερο μέρος των προσπαθειών εστιάζει
στην παράλληλη επεξεργασία δεδομένων και την ανάπτυξη αλγορίθμων και συστη-
μάτων που υποστηρίζουν αυτή την προσέγγιση. Κρίνοντας ότι η δημιουργία και η
συντήρηση ιδιωτικών συστάδων υπολογιστών είναι ασύμφορη οικονομικά, οι χρήστες
στρέφονται σε περιβάλλοντα υπηρεσιών νέφους και χρησιμοποιούν την υποδομή που
έχουν δημιουργήσει εταιρείες-κολοσσοί του χώρου.
Ταυτόχρονα, με την αύξηση στην πολυπλοκότητα των συστημάτων και ειδικότε-
ρα όταν αυτά είναι απομακρυσμένα και κατανεμημένα, γίνεται εξαιρετικά δύσκολο να
επιχειρηματολογήσει κανείς για το τι είναι ανεπτυγμένο, καθώς και σε περίπτωση
σφάλματος να μεταβεί σε μία προηγούμενη ορθή κατάσταση. Για αυτό το λόγο, α-
ναπτύσσονται εργαλεία διαχείρισης που στηρίζονται στον κώδικα και επιτρέπουν τη
εφαρμογή όλων των δοκιμασμένων τεχνικών του στη διαχείριση υποδομής.
Σε αυτή τη διπλωματική εργασία, γίνεται μία προσπάθεια συνδυασμού των διαφο-
ρετικών αυτών απαιτήσεων, ωστόσο με τρόπο που να συμπληρώνονται μεταξύ τους.
Συγκεκριμένα, μετά από μία επαρκή θεωρητική ανάλυση των υπολογιστικών νεφών,
της Υποδομής ως Κώδικα και της παράλληλης επεξεργασίας δεδομένων, θα χρησιμο-
ποιηθεί το Terraform ώστε να αναπτυχθεί μία συστάδα υπολογιστών για το Spark
στο Amazon EC2 νέφος. Επιπλέον, θα αξιολογηθούν οι δυνατότητες που προσφέρει
το Spark για δυναμική ανάθεση εργασιών, με σκοπό την ελαχιστοποίηση σπατάλης
στους χρησιμοποιούμενους πόρους. |
el |