dc.contributor.author | Χελιδώνη, Γεωργία![]() |
el |
dc.contributor.author | Chelidoni, Georgia![]() |
en |
dc.date.accessioned | 2025-04-04T07:31:07Z | |
dc.date.available | 2025-04-04T07:31:07Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/61622 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.29318 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Reinforcement Learning | en |
dc.subject | Ρύθμιση Διεργασιών | el |
dc.subject | Radial Basis Functions | en |
dc.title | Χρήση τεχνολογιών ενισχυτικής μάθησης για την λήψη αποφάσεων σε αυτόματα συστήματα ελέγχου διεργασιών | el |
heal.type | bachelorThesis | |
heal.classification | Χημική Μηχανική | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2024-10-03 | |
heal.abstract | Η παρούσα διπλωματική εργασία στοχεύει στην ανάπτυξη μιας καινοτόμας μεθοδολογίας αυτόματης ρύθμισης χρησιμοποιώντας τεχνολογίες ενισχυτικής μάθησης. Συγκεκριμένα, αναπτύχθηκε ένας Actor-only αλγόριθμος ενισχυτικής μάθησης με βάση το μοντέλο REINFORCE. Το μοντέλο αυτό περιλαμβάνει έναν πράκτορα (agent) ο οποίος παράγει τις ενέργειες, δηλαδή τις τιμές των μεταβλητών εκ χειρισμού που εφαρμόζονται στο σύστημα. Η πολιτική λήψης αποφάσεων του πράκτορα είναι ντετερμινιστική και για την εξαγωγή των ενεργειών χρησιμοποιείται ένα νευρωνικό δίκτυο ακτινικής βάσης (Radial Basis Functions, RBF) αποτελούμενο από τρία στρώματα. Για την αξιολόγηση των ενεργειών που παράγονται από τον πράκτορα επιστρατεύεται η συνάρτηση ανταμοιβής, η οποία διαμορφώνεται κατάλληλα ώστε να ανταποκρίνεται στις ανάγκες της ρύθμισης του συστήματος. Μέσω της αλληλεπίδρασης του πράκτορα με το περιβάλλον, βελτιστοποιείται η πολιτική του πράκτορα με στόχο την μεγιστοποίηση της μακροπρόθεσμης ανταμοιβής του. Ο προτεινόμενος αλγόριθμος εφαρμόστηκε σε τέσσερα συστήματα διεργασιών, αρχικά ένα γραμμικό και ένα μη γραμμικό σύστημα μιας δεξαμενής νερού με μία ρυθμιζόμενη μεταβλητή, την στάθμη της δεξαμενής, και μια μεταβλητή εκ χειρισμού, την ροή εισόδου νερού στην δεξαμενή. Στην συνέχεια η μελέτη επεκτάθηκε σε ένα σύστημα που αποτελείται από δύο συνδεδεμένες μεταξύ τους δεξαμενές νερού, όπου ρυθμιζόμενες μεταβλητές είναι η στάθμη κάθε δεξαμενής και μεταβλητές εκ χειρισμού αποτελούν οι τροφοδοσίες εισόδου των δεξαμενών. Ακολούθησε η μελέτη ενός πιο σύνθετου συστήματος διεργασιών, ενός αντιδραστήρα συνεχούς λειτουργίας και πλήρους ανάμειξης (Continuous Stirred Tank Reactor – CSTR), στον οποίο πραγματοποιείται μια εξώθερμη αντίδραση με ένα αντιδρών και ένα προϊόν. Σκοπός του αλγορίθμου ελέγχου σε αυτή την περίπτωση είναι η επιτυχής ρύθμιση της θερμοκρασίας και της συγκέντρωσης του αντιδρώντος στην έξοδο του αντιδραστήρα μεταβάλλοντας την παροχή τροφοδοσίας και την θερμοκρασία του ψυκτικού που χρησιμοποιείται. Τα αποτελέσματα από την εφαρμογή του συγκεκριμένου αλγορίθμου είναι ενθαρρυντικά για την περαιτέρω διερεύνηση των μεθόδων actor-only με την χρήση των νευρωνικών δικτύων ακτινικής βάσης στην ενισχυτική μάθηση. Πιο συγκεκριμένα, το μοντέλο ανταποκρίνεται επιτυχώς στις ανάγκες του συστήματος μίας δεξαμενής και στην περίπτωση του γραμμικού και σε αυτή του μη γραμμικού συστήματος καταφέρνοντας άμεσα σύγκλιση με τις επιθυμητές τιμές. Επιπλέον το μοντέλο θεωρείται επιτυχημένο στην περίπτωση των δύο συνδεδεμένων δεξαμενών καθώς και στο σύστημα του αντιδραστήρα CSTR για την περίπτωση των ευσταθών σημείων ισορροπίας της διεργασίας. Ωστόσο, στα ασταθή σημεία ισορροπίας του συστήματος, ο αλγόριθμος προκαλεί έντονη ταλαντωτική συμπεριφορά των ρυθμιζόμενων μεταβλητών. Σημαντικό χαρακτηριστικό του προτεινόμενου αλγόριθμου ενισχυτικής μάθησης είναι οι μικροί χρόνοι εκπαίδευσης, χωρίς την απαίτηση μεγάλου όγκου δεδομένων καταλήγοντας συγχρόνως σε μικρότερα νευρωνικά δίκτυα. Περαιτέρω διερεύνηση του μοντέλου και κατάλληλη διαμόρφωση της δομής του νευρωνικού δικτύου μπορεί να βοηθήσει στο να επιτευχθεί το επιθυμητό αποτέλεσμα και στα ασταθή σημεία ισορροπίας. | el |
heal.abstract | This diploma thesis focuses on the development of an innovative automated control system, using reinforcement learning technologies. Specifically, an Actor-only reinforcement learning algorithm based on the REINFORCE model has been developed. The model includes an Agent that generates the actions, represented by control variable values applied to the system. The agent’s decision-making policy is deterministic and a three-layer Radial Basis (RBF) neural network is used in order to generate the actions. To evaluate the actions produced by the agent, a reward function is employed, which is appropriately configured to respond to the requirements of the control system. Through the agent’s interaction with the environment, the agent’s policy is optimized to maximize its long-term reward. The proposed algorithm was applied to four process systems, initially a linear and a nonlinear system of water tank with one controlled variable, the tank level, and one manipulated variable, the inlet water flow to the tank. The study was then extended to another system consisting of two water tanks in series, where the controlled variables are the level of each tank and the manipulated variables are the inlet flows of the tanks. Afterwards, a more sophisticated system was examined, a Continuous Stirred Tank Reactor (CSTR), in which an exothermic reaction with a single reactant and a single product took place. The purpose of the control algorithm in this case, is to successfully control the temperature and the concentration of the reactant at the reactor outlet, while changing the feed flow rate and the coolant temperature. The results from the application of this algorithm are encouraging for further research of actor-only methods using radial basis neural networks in reinforcement learning. More specifically, the model successfully addresses the needs of the single-tank system in both linear and nonlinear cases by achieving immediate convergence to the desired values. In addition, the model is considered successful in the case of the two connected tanks, as well in the CSTR reactor system for the case of stable steady states of the process. However, during the unstable steady states of the system, the algorithm caused strong oscillatory behavior of the controlled variables. An important feature of the proposed algorithm is its ability to achieve short training times without requiring large amount of data and resulting in smaller neural networks. Overall, a further exploration of the model and appropriate configuration of the neural network structure could contribute to achieve the desired results, even at the unstable steady states. | en |
heal.advisorName | Σαρίμβεης, Χαράλαμπος | el |
heal.committeeMemberName | Καβουσανάκης, Μιχάλης | el |
heal.committeeMemberName | Λαμπρόπουλος, Κυριάκος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Χημικών Μηχανικών. Τομέας Ανάλυσης, Σχεδιασμού και Ανάπτυξης Διεργασιών και Συστημάτων (ΙΙ) | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 79 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: