Οι σύγχρονες τάσεις στην σχεδίαση πολυπύρηνων επεξεργαστών επικεντρώνονται στην
επιθετική ενσωμάτωση πολλαπλών πυρήνων εντός του ίδιου κυκλώματος, αποσκοπώντας σε οφέλη επίδοσης και ισχύος μέσω του αυξημένου παραλληλισμού επιπέδου νήματος. Σε τέτοια περιβάλλοντα, η αξιοπιστία αποκτά ολοένα και αυξανόμενο ενδιαφέρον, καθώς οι αυξήσεις στον αριθμό πυρήνων οδηγούν στην δραστική μείωση του μέσου χρόνου αποτυχίας αυτών των συστημάτων
Οι σύγχρονες προσεγγίσεις σε πολυπήρυνα συστήματα και συστήματα υπολογιστικής υψηλών επιδόσεων χρσιμοποιούν μεθόδους Checkpoint/Restart (C/R) για να προσφέρουν ανοχή σε σφάλματα. Παρ' όλα αυτά, αυτές οι τεχνικές συχνά πραγματοποιούνται χειροκίνητα ή ανεξάρτητα απο την συνολική εικόνα της αξιοπιστίας του συστήματος. Συγκεκριμένα, σημαντικά ζητήματα παραβλέπονται, όπως η αυτόματη επίλυση σφαλμάτων, η ανίχνευση αλλοιώσεων δεδομένων, η αξιοποίηση της πλατφόρμας με επίγνωση των θερμικών χαρακτηριστικών της και η ελαχιστοποίηση του προκύπτοντος χρονίκού πλεονασμού.
Η προσέγγιση που προτείνεται σε αυτήν την διπλωματική εργασία θίγει αυτά τα ζητήματα με την παρουσίαση του Depman, ενός ενοποιημένου περιβάλλοντος εκτέλεσης που επιλύει συχνά εμφανιζόμενα προφίλ σφαλμάτων μέσω τεχνικών C/R και άλλων δράσεων επιπέδου συστήματος.
Το προκύπτον πλαίσιο
προσαρμόζεται στη μεταβλητότητα της αξιοπιστίας του συστήματος με σκοπό
την ελαχιστοποιήση του πλεονάζων χρόνου, προσφέροντας εναν υψηλό βαθμό
αξιοπιστίας στα διαχειριζόμενα συστήματα και εφαρμογές.
Το Depman ελέγχθηκε μέσω της χρήσης έγχυσης σφαλμάτων, επιτυγχάνοντας την ικανοποίηση των προδιαγραφών του. Το σχήμα προσαρμοζόμενης
βελτιστοποίησης του πλεονάζων χρόνου επέδειξε ενδεχόμενα οφέλη επίδοσης
και ενεργειακής κατανάλωσης σε συστήματα με χρονοεξαρτώμενους ρυθμούς
σφαλμάτων.
Recent trends in many-core multiprocessor design focus on the aggressive
integration of multiple cores on a single chip, aiming for performance and
power scalability benefits through increased thread-level parallelism. In
such environments, reliability is becoming an increasing concern, as increases
in the number of cores tend to drastically reduce the mean time to
failure of these systems.
Current approaches in many-core and High-Performance Computing (HPC)
systems utilize Checkpoint/Restart (C/R) methods to provide fault tolerance.
However, these methods are often performed manually or used
without addressing the overall dependability profile of the system. Specifically,
important concerns often are overlooked, such as automated error
resolution, detection of data corruption, thermal-aware chip usage and minimization
of time redundancy.
The approach proposed in this thesis addresses these concerns by introducing
Depman, a unified runtime environment that resolves common error
profiles through C/R and other system-level actions. The resulting framework
adapts to variabilities of the system's reliability in order to minimize
the total time overhead and provide a high degree of dependability to the
managed systems and applications.
Depman was tested through the use of fault injection, performing in accordance
to its specification. The adaptive time overhead optimization scheme
demonstrated potential for benefits in performance and energy consumption
in systems with time dependent failure rates.