Ανάπτυξη συστημάτων αυτόματης ρύθμισης με 
τεχνολογίες βαθιάς ενισχυτικής μάθησης

Κολυνδρίνη, Βασιλική-Μαρία; Kolyndrini, Vasiliki-Maria

dc.contributor.author	Κολυνδρίνη, Βασιλική-Μαρία	el
dc.contributor.author	Kolyndrini, Vasiliki-Maria	en
dc.date.accessioned	2024-01-22T10:15:19Z
dc.date.available	2024-01-22T10:15:19Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/58610
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.26306
dc.rights	Default License
dc.subject	Classic Control Methods, Reinforcement Learning, CSTR Reactor, Temperature Control, Concentration Control	el
dc.title	Ανάπτυξη συστημάτων αυτόματης ρύθμισης με τεχνολογίες βαθιάς ενισχυτικής μάθησης	el
heal.type	bachelorThesis
heal.classification	control engineering	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-06
heal.abstract	Η παρούσα διπλωματική εργασία επικεντρώνεται στην μελέτη και τον σχεδιασμό ενός συστήματος αυτόματου ελέγχου για έναν αντιδραστήρα με τη χρήση παραδοσιακών μεθόδων ρύθμισης και τεχνολογιών Ενισχυτικής Μάθησης (Reinforcement Learning, RL). Το σύστημα προς μελέτη αποτελείται από έναν αντιδραστήρα συνεχούς λειτουργίας και πλήρους ανάμιξης (Continuous Stirred Tank Reactor, CSTR) με ρυθμιζόμενες μεταβλητές τη θερμοκρασία και τη συγκέντρωση του ρεύματος του προϊόντος και μεταβλητές εκ χειρισμού την παροχή της τροφοδοσίας και την θερμοκρασία του ψυκτικού. Στόχος είναι η ανάπτυξη μιας στρατηγικής ελέγχου που να βελτιστοποιεί την απόδοση του αντιδραστήρα καθοδηγώντας τις δύο μεταβλητές ελέγχου στις επιθυμητές τους τιμές, ελαχιστοποιώντας παράλληλα τις αποκλίσεις και τις διαταραχές. Για να επιτευχθεί αυτό, χρησιμοποιούνται δύο παραδοσιακοί ελεγκτές τύπου PI με αναλογικό και ολοκληρωτικό μέρος, ένας για τον έλεγχο της θερμοκρασίας και ένας για τον έλεγχο της συγκέντρωσης. Στο σύστημα ελέγχου ενσωματώνεται ένας RL πράκτορας που εκπαιδεύεται με χρήση κατάλληλου αλγορίθμου ενισχυτικής μάθησης για να προσδιορίσει την βέλτιστη στρατηγική ελέγχου. Ο RL πράκτορας αλληλεπιδρά συνεχώς με το περιβάλλον του αντιδραστήρα και αποκτάει εμπειρία μέσα από τις ενέργειες που κάνει και την επίδραση που έχουν στην κατάσταση του συστήματος. Η αξιολόγηση των αποφάσεων του πράκτορα γίνεται μέσω της συνάρτησης ανταμοιβής η οποία διαμορφώνεται κατάλληλα έτσι ώστε να αποτυπώνει τους στόχους της ρύθμισης. Μέσω ενός συστήματος επιβράβευσης και τιμωρίας, ο πράκτορας αναπροσαρμόζει την πολιτική του με στόχο να βελτιστοποίηση την απόδοσή του και την μεγιστοποίηση της μακροπρόθεσμης ανταμοιβής του. Στην παρούσα εργασία, μελετήθηκαν δύο ξεχωριστές περιπτώσεις αλγορίθμων, μια που να βελτιώνει την απόδοση όταν οι ρυθμιστές PI πετυχαίνουν τον στόχο τους και μια που να σταθεροποιεί το σύστημα στις επιθυμητές τιμές όταν οι PI οδηγούν σε ταλαντωτική συμπεριφορά. Τα αποτελέσματα δείχνουν πως η χρήση αλγορίθμου μηχανικής μάθησης με κατάλληλη αρχιτεκτονική και ορθά σχεδιασμένη συνάρτηση ανταμοιβής μπορεί να βελτιώσει σημαντικά την ρύθμιση του συστήματος σε σύγκριση με παραδοσιακές μεθόδους ελέγχου που αγνοούν τις αλληλεπιδράσεις ανάμεσα στις μεταβλητές του συστήματος, μειώνοντας τον χρόνο αποκατάστασης και την υπέρβασης και εξαλείφοντας φαινόμενα ταλάντωσης.	el
heal.advisorName	Σαρίμβεης, Χαράλαμπος	el
heal.committeeMemberName	Βλυσίδης, Ανέστης	el
heal.committeeMemberName	Δογάνης, Φίλιππος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Χημικών Μηχανικών. Τομέας Ανάλυσης, Σχεδιασμού και Ανάπτυξης Διεργασιών και Συστημάτων (ΙΙ)	el
heal.academicPublisherID	ntua
heal.numberOfPages	88 σ.	el
heal.fullTextAvailability	false