dc.contributor.author |
Κολυνδρίνη, Βασιλική-Μαρία
|
el |
dc.contributor.author |
Kolyndrini, Vasiliki-Maria
|
en |
dc.date.accessioned |
2024-01-22T10:15:19Z |
|
dc.date.available |
2024-01-22T10:15:19Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/58610 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.26306 |
|
dc.rights |
Default License |
|
dc.subject |
Classic Control Methods, Reinforcement Learning, CSTR Reactor, Temperature Control, Concentration Control |
el |
dc.title |
Ανάπτυξη συστημάτων αυτόματης ρύθμισης με
τεχνολογίες βαθιάς ενισχυτικής μάθησης |
el |
heal.type |
bachelorThesis |
|
heal.classification |
control engineering |
el |
heal.language |
el |
|
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2023-06 |
|
heal.abstract |
Η παρούσα διπλωματική εργασία επικεντρώνεται στην μελέτη και τον σχεδιασμό ενός συστήματος αυτόματου ελέγχου για έναν αντιδραστήρα με τη χρήση παραδοσιακών μεθόδων ρύθμισης και τεχνολογιών Ενισχυτικής Μάθησης (Reinforcement Learning, RL). Το σύστημα προς μελέτη αποτελείται από έναν αντιδραστήρα συνεχούς λειτουργίας και πλήρους ανάμιξης (Continuous Stirred Tank Reactor, CSTR) με ρυθμιζόμενες μεταβλητές τη θερμοκρασία και τη συγκέντρωση του ρεύματος του προϊόντος και μεταβλητές εκ χειρισμού την παροχή της τροφοδοσίας και την θερμοκρασία του ψυκτικού. Στόχος είναι η ανάπτυξη μιας στρατηγικής ελέγχου που να βελτιστοποιεί την απόδοση του αντιδραστήρα καθοδηγώντας τις δύο μεταβλητές ελέγχου στις επιθυμητές τους τιμές, ελαχιστοποιώντας παράλληλα τις αποκλίσεις και τις διαταραχές. Για να επιτευχθεί αυτό, χρησιμοποιούνται δύο
παραδοσιακοί ελεγκτές τύπου PI με αναλογικό και ολοκληρωτικό μέρος, ένας για τον έλεγχο της θερμοκρασίας και ένας για τον έλεγχο της συγκέντρωσης. Στο σύστημα ελέγχου ενσωματώνεται ένας RL πράκτορας που εκπαιδεύεται με χρήση κατάλληλου
αλγορίθμου ενισχυτικής μάθησης για να προσδιορίσει την βέλτιστη στρατηγική ελέγχου. Ο RL πράκτορας αλληλεπιδρά συνεχώς με το περιβάλλον του αντιδραστήρα και αποκτάει εμπειρία μέσα από τις ενέργειες που κάνει και την επίδραση που έχουν στην κατάσταση του συστήματος. Η αξιολόγηση των αποφάσεων του πράκτορα
γίνεται μέσω της συνάρτησης ανταμοιβής η οποία διαμορφώνεται κατάλληλα έτσι ώστε να αποτυπώνει τους στόχους της ρύθμισης. Μέσω ενός συστήματος επιβράβευσης και τιμωρίας, ο πράκτορας αναπροσαρμόζει την πολιτική του με στόχο να βελτιστοποίηση την απόδοσή του και την μεγιστοποίηση της μακροπρόθεσμης
ανταμοιβής του. Στην παρούσα εργασία, μελετήθηκαν δύο ξεχωριστές περιπτώσεις αλγορίθμων, μια που να βελτιώνει την απόδοση όταν οι ρυθμιστές PI πετυχαίνουν
τον στόχο τους και μια που να σταθεροποιεί το σύστημα στις επιθυμητές τιμές όταν οι PI οδηγούν σε ταλαντωτική συμπεριφορά. Τα αποτελέσματα δείχνουν πως η χρήση
αλγορίθμου μηχανικής μάθησης με κατάλληλη αρχιτεκτονική και ορθά σχεδιασμένη συνάρτηση ανταμοιβής μπορεί να βελτιώσει σημαντικά την ρύθμιση του συστήματος σε σύγκριση με παραδοσιακές μεθόδους ελέγχου που αγνοούν τις αλληλεπιδράσεις ανάμεσα στις μεταβλητές του συστήματος, μειώνοντας τον χρόνο αποκατάστασης και την υπέρβασης και εξαλείφοντας φαινόμενα ταλάντωσης. |
el |
heal.advisorName |
Σαρίμβεης, Χαράλαμπος |
el |
heal.committeeMemberName |
Βλυσίδης, Ανέστης |
el |
heal.committeeMemberName |
Δογάνης, Φίλιππος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Χημικών Μηχανικών. Τομέας Ανάλυσης, Σχεδιασμού και Ανάπτυξης Διεργασιών και Συστημάτων (ΙΙ) |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
88 σ. |
el |
heal.fullTextAvailability |
false |
|