Failure detection and recovery using consensus algorithms in a distributed resource management framework

Μασούρος, Δημοσθένης; Masouros, Dimosthenis

dc.contributor.author	Μασούρος, Δημοσθένης	el
dc.contributor.author	Masouros, Dimosthenis	en
dc.date.accessioned	2016-09-14T10:10:03Z
dc.date.available	2016-09-14T10:10:03Z
dc.date.issued	2016-09-14
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/43515
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.13285
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.subject	Σύστημα-σε-ψηφίδα	el
dc.subject	Πολυ-πύρηνο δίκτυο σε ψηφίδα	el
dc.subject	Εντοπισμός σφαλμάτων	el
dc.subject	Εντοπισμός αδιεξόδων	el
dc.subject	Ομοφωνία	el
dc.subject	System-on-chip	en
dc.subject	Multi-processor system-on-chip	en
dc.subject	Failure detection	en
dc.subject	Deadlock detection	en
dc.subject	Consensus	en
dc.subject	PAXOS	en
dc.subject	DRTRM	en
dc.title	Failure detection and recovery using consensus algorithms in a distributed resource management framework	en
heal.type	bachelorThesis
heal.classification	Embedded computer systems	en
heal.classificationURI	http://id.loc.gov/authorities/subjects/sh87006632
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2016-07-21
heal.abstract	Η παρούσα διπλωματική εργασία επικεντρώνεται στην ανίχνευση αδιεξόδων και σφαλμάτων καθώς και στην ανάνηψη σε περίπτωση που αυτά συμβούν σε κάποιο Πολυ-Πύρηνο Συστήμα σε Ψηφίδα. Συγκεκριμένα, εξετάζουμε συστήματα τα χρησιμοποιούν αρχιτεκτονική Δικτύου-σε-Ψηφίδα. Η τεχνολογία αυτή παρουσιάζει πολλές ομοιότητες με την ιδέα των κατανεμημένων συστημάτων κυρίως στον τρόπο επικοινωνίας και της ιδέας κατανομής πόρων. Για το λόγο αυτό, στόχος της παρούσας διπλωματικής είναι η υλοποίηση γνωστών αλγορίθμων στον τομέα των κατανεμημένων συστημάτων σε ένα πλαίσιο κατανομής πόρων το οποίο διαχειρίζεται εφαρμογές σε ένα σύστημα σε ψηφίδα. Στο κεφάλαιο 1, κάνουμε μία εισαγωγή πάνω στα κατανεμημένα συστήματα, στα συστήματα με αρχιτεκτονική δικτύου ψηφίδας καθώς και τις έννοιες της αξιοπιστίας, ανοχής σε σφάλματα και ομοφωνίας. Στο κεφάλαιο 2, παρουσιάζουμε εργασίες και υλοποιήσεις τεχνολογιών οι οποίες επικεντρώνονται στην ανάνηψη συστημάτων από σφάλματα. Στο κεφάλαιο 3, 4, 5 και 6 αναλύουμε τους τρόπους επικοινωνίας και τα είδη σφαλμάτων σε κατανεμημένα συστήματα καθώς τους τρόπους με τους οποίους μπορούμε να εντοπίσουμε αδιέξοδα και σφάλματα. Επίσης, παρουσιάζουμε ένα πλαίσιο κατανομής πόρων, γνωστό ως DRTRM, πάνω στο οποίο θα ενσωματώσουμε τους αλγορίθμους για εντοπισμό σφαλμάτων και αδιεξόδων καθώς και το πρωτόκολλο ανάνηψης σε περίπτωση σφάλματος PAXOS. Στο κεφάλαιο 7, αναλύουμε τη διαδικασία την οποία ακολουθήσαμε προκειμένου να ενσωματώσουμε τον PAXO καθώς και τους ανιχνευτές σφαλμάτων στο πλαίσιο κατανομής πόρων. Στο κεφάλαιο 8, εξετάζουμε διαφορετικά σενάρια σφαλμάτων και παρουσιάζουμε τα πειραματικά αποτελέσματα. Στο κεφάλαιο 9 συνοψίζουμε τα συμπεράσματά μας και προτείνουμε ιδέες για μελλοντική έρευνα.	el
heal.abstract	This diploma thesis focuses on deadlock and failure detection as well as recovery in case of failure on a Multi-Processor System-on-Chip (MPSoC). More precisely, we examine systems which utilize the Network-on-Chip (NoC) architecture. These types of systems share many similarities with a distributed system, specifically in the communication scheme and the allocation of resources. Thus, we implemented some popular algorithms which appear in distributed systems, on top of a resource management framework that manages applications on a MPSoC. In chapter 1, we introduce the class of distributed systems and systems with a NoC architecture and proceed with the basic concepts of reliability and consensus. In chapter 2, we present published works and real-life implementations which focus on recovery after failure. In chapters 3, 4, 5 and 6 we analyze the different communication methods and the types of failures that occur in distributed systems, as well as the ways in which we can detect failures and deadlocks. In addition, we present the DRTRM resource management framework, which was used to implement the deadlock and failure detection algorithms and the PAXOS protocol, which is used to recover in case of failure. In chapter 7, we give detailed information on how we merged PAXOS and detectors with the DRTRM framework. In chapter 8, we examine different failure scenarios and we present our theoretical and experimental results. Lastly, in chapter 9 we summarize our conclusions and propose ways and ideas for future research.	en
heal.advisorName	Σούντρης, Δημήτριος	el
heal.committeeMemberName	Σούντρης, Δημήτριος	el
heal.committeeMemberName	Πεκμεστζή, Κιαμάλ	el
heal.committeeMemberName	Οικονομάκος, Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Μικροϋπολογιστών και Ψηφιακών Συστημάτων VLSI	el
heal.academicPublisherID	ntua
heal.numberOfPages	125 σ.	el
heal.fullTextAvailability	true