HEAL DSpace

Σχεδιασμός και ανάπτυξη μηχανισμού επιβράβευσης μέσω Blockchain για ενισχυτική μάθηση (Reinforcement Learning)

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Δαβαράκης, Θεόδωρος - Θηρίμαχος
dc.date.accessioned 2021-07-02T09:28:21Z
dc.date.available 2021-07-02T09:28:21Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/53576
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.21274
dc.rights Default License
dc.subject Blockchain en
dc.subject Ethereum el
dc.subject Smart Contract el
dc.subject Machine Learning el
dc.subject Reinforcement Learning el
dc.subject Imitation Learning el
dc.title Σχεδιασμός και ανάπτυξη μηχανισμού επιβράβευσης μέσω Blockchain για ενισχυτική μάθηση (Reinforcement Learning) el
dc.contributor.department ΤΟΜΕΑΣ ΕΠΙΚΟΙΝΩΝΙΩΝ, ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ el
heal.type bachelorThesis
heal.classification Πληροφορική el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-07-29
heal.abstract Ο συνδυασμός της μηχανικής μάθησης με την τεχνολογία blockchain αποτελεί μία δύσκολη, απαιτητική αλλά και προκλητική διαδικασία. Ο χώρος έρευνας και πρακτικής υλοποίησης που ανοίγεται είναι ευρύτατος και υπό εξερεύνηση. Η κάθε μία τεχνολογία μπορεί να αντιμετωπίσει τα κενά της άλλης. Η μηχανική μάθηση μπορεί να χρησιμοποιήσει δεδομένα που είναι αποθηκευμένα σε Blockchain και σε κατανεμημένη υπολογιστική ισχύ. Με την σειρά του το Blockchain μπορεί να χρησιμοποιήσει την μηχανική μάθηση για να κεφαλαιοποιήσει δεδομένα που ελέγχονται από χρήστες ή/και να δημιουργήσει marketplaces για μοντέλα μηχανικής μάθησης. Στα πλαίσια της εργασίας προτείνεται ένας συνδυασμός της τεχνολογίας μηχανικής μάθησης και πιο συγκεκριμένα της ενισχυτικής μάθησης (reinforcement learning) και της μάθησης με απομίμηση (imitation learning) με την τεχνολογία blockchain. Η ενισχυτική μάθηση δίνει την δυνατότητα σε έναν software agent να αλληλοεπιδρά με το περιβάλλον του και να μαθαίνει - μέσω της διαδικασίας μαθαίνω από τα λάθη (trial and error) - βασιζόμενος αποκλειστικά στις δικές του ενέργειες, εμπειρίες και παρατηρήσεις. Ο software agent μαθαίνει μέσω της επιβράβευσης / αποθάρρυνσης που δέχεται από το περιβάλλον του. Ο σχεδιασμός του μηχανισμού επιβράβευσης είναι σημαντικός και σε πολύπλοκα συστήματα πραγματικά πολύ δύσκολος. Η πρόταση που γίνεται στα πλαίσια αυτής της εργασίας περιλαμβάνει τις έννοιες του άρτια εκπαιδευμένου software agent (Trainer agent) ο οποίος καταγράφει την συμπεριφορά του σε αρχεία επίδειξης (demo) και τα διαθέτει μέσω του blockchain σε άλλους software agents (Trainee agents) που αλληλοεπιδρούν σε ίδιο ή παρόμοιο περιβάλλον με αυτό του Trainer agent και θέλουν να εκπαιδευτούν. Η εκπαίδευση τους γίνεται με αλγορίθμους ενισχυτικής μάθησης (μέσω επιβράβευσης / αποθάρρυνσης) σε συνδυασμό με αλγορίθμους μάθησης με απομίμηση (μέσω αρχείων επίδειξης). Τα αρχεία επίδειξης ‘αποθηκεύονται΄ σε blockchain έξυπνα συμβόλαια (smart contracts) και στο τέλος, το blockchain επιβραβεύει τον Trainer agent ανάλογα με το πόσο βοήθησε στην βελτίωση των μοντέλων του Trainee agent. el
heal.advisorName Βαρβαρίγου, Θεοδώρα
heal.committeeMemberName Βαρβαρίγου, Θεοδώρα
heal.committeeMemberName Βαρβαρίγος, Εμμανουήλ
heal.committeeMemberName Παπαβασιλείου, Συμεών
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 101
heal.fullTextAvailability false


Files in this item

This item appears in the following Collection(s)

Show simple item record