dc.contributor.author |
Δαβαράκης, Θεόδωρος - Θηρίμαχος
|
|
dc.date.accessioned |
2021-07-02T09:28:21Z |
|
dc.date.available |
2021-07-02T09:28:21Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/53576 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.21274 |
|
dc.rights |
Default License |
|
dc.subject |
Blockchain |
en |
dc.subject |
Ethereum |
el |
dc.subject |
Smart Contract |
el |
dc.subject |
Machine Learning |
el |
dc.subject |
Reinforcement Learning |
el |
dc.subject |
Imitation Learning |
el |
dc.title |
Σχεδιασμός και ανάπτυξη μηχανισμού επιβράβευσης μέσω Blockchain για ενισχυτική μάθηση (Reinforcement Learning) |
el |
dc.contributor.department |
ΤΟΜΕΑΣ ΕΠΙΚΟΙΝΩΝΙΩΝ, ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Πληροφορική |
el |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2020-07-29 |
|
heal.abstract |
Ο συνδυασμός της μηχανικής μάθησης με την τεχνολογία blockchain αποτελεί μία δύσκολη, απαιτητική αλλά και προκλητική διαδικασία. Ο χώρος έρευνας και πρακτικής υλοποίησης που ανοίγεται είναι ευρύτατος και υπό εξερεύνηση. Η κάθε μία τεχνολογία μπορεί να αντιμετωπίσει τα κενά της άλλης. Η μηχανική μάθηση μπορεί να χρησιμοποιήσει δεδομένα που είναι αποθηκευμένα σε Blockchain και σε κατανεμημένη υπολογιστική ισχύ. Με την σειρά του το Blockchain μπορεί να χρησιμοποιήσει την μηχανική μάθηση για να κεφαλαιοποιήσει δεδομένα που ελέγχονται από χρήστες ή/και να δημιουργήσει marketplaces για μοντέλα μηχανικής μάθησης. Στα πλαίσια της εργασίας προτείνεται ένας συνδυασμός της τεχνολογίας μηχανικής μάθησης και πιο συγκεκριμένα της ενισχυτικής μάθησης (reinforcement learning) και της μάθησης με απομίμηση (imitation learning) με την τεχνολογία blockchain. Η ενισχυτική μάθηση δίνει την δυνατότητα σε έναν software agent να αλληλοεπιδρά με το περιβάλλον του και να μαθαίνει - μέσω της διαδικασίας μαθαίνω από τα λάθη (trial and error) - βασιζόμενος αποκλειστικά στις δικές του ενέργειες, εμπειρίες και παρατηρήσεις. Ο software agent μαθαίνει μέσω της επιβράβευσης / αποθάρρυνσης που δέχεται από το περιβάλλον του. Ο σχεδιασμός του μηχανισμού επιβράβευσης είναι σημαντικός και σε πολύπλοκα συστήματα πραγματικά πολύ δύσκολος. Η πρόταση που γίνεται στα πλαίσια αυτής της εργασίας περιλαμβάνει τις έννοιες του άρτια εκπαιδευμένου software agent (Trainer agent) ο οποίος καταγράφει την συμπεριφορά του σε αρχεία επίδειξης (demo) και τα διαθέτει μέσω του blockchain σε άλλους software agents (Trainee agents) που αλληλοεπιδρούν σε ίδιο ή παρόμοιο περιβάλλον με αυτό του Trainer agent και θέλουν να εκπαιδευτούν. Η εκπαίδευση τους γίνεται με αλγορίθμους ενισχυτικής μάθησης (μέσω επιβράβευσης / αποθάρρυνσης) σε συνδυασμό με αλγορίθμους μάθησης με απομίμηση (μέσω αρχείων επίδειξης). Τα αρχεία επίδειξης ‘αποθηκεύονται΄ σε blockchain έξυπνα συμβόλαια (smart contracts) και στο τέλος, το blockchain επιβραβεύει τον Trainer agent ανάλογα με το πόσο βοήθησε στην βελτίωση των μοντέλων του Trainee agent. |
el |
heal.advisorName |
Βαρβαρίγου, Θεοδώρα |
|
heal.committeeMemberName |
Βαρβαρίγου, Θεοδώρα |
|
heal.committeeMemberName |
Βαρβαρίγος, Εμμανουήλ |
|
heal.committeeMemberName |
Παπαβασιλείου, Συμεών |
|
heal.academicPublisher |
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
101 |
|
heal.fullTextAvailability |
false |
|