HEAL DSpace

Ανάπτυξη συστημάτων αυτόματης ρύθμισης με τεχνολογίες βαθιάς ενισχυτικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κολυνδρίνη, Βασιλική-Μαρία el
dc.contributor.author Kolyndrini, Vasiliki-Maria en
dc.date.accessioned 2024-01-22T10:15:19Z
dc.date.available 2024-01-22T10:15:19Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58610
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26306
dc.rights Default License
dc.subject Classic Control Methods, Reinforcement Learning, CSTR Reactor, Temperature Control, Concentration Control el
dc.title Ανάπτυξη συστημάτων αυτόματης ρύθμισης με τεχνολογίες βαθιάς ενισχυτικής μάθησης el
heal.type bachelorThesis
heal.classification control engineering el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-06
heal.abstract Η παρούσα διπλωματική εργασία επικεντρώνεται στην μελέτη και τον σχεδιασμό ενός συστήματος αυτόματου ελέγχου για έναν αντιδραστήρα με τη χρήση παραδοσιακών μεθόδων ρύθμισης και τεχνολογιών Ενισχυτικής Μάθησης (Reinforcement Learning, RL). Το σύστημα προς μελέτη αποτελείται από έναν αντιδραστήρα συνεχούς λειτουργίας και πλήρους ανάμιξης (Continuous Stirred Tank Reactor, CSTR) με ρυθμιζόμενες μεταβλητές τη θερμοκρασία και τη συγκέντρωση του ρεύματος του προϊόντος και μεταβλητές εκ χειρισμού την παροχή της τροφοδοσίας και την θερμοκρασία του ψυκτικού. Στόχος είναι η ανάπτυξη μιας στρατηγικής ελέγχου που να βελτιστοποιεί την απόδοση του αντιδραστήρα καθοδηγώντας τις δύο μεταβλητές ελέγχου στις επιθυμητές τους τιμές, ελαχιστοποιώντας παράλληλα τις αποκλίσεις και τις διαταραχές. Για να επιτευχθεί αυτό, χρησιμοποιούνται δύο παραδοσιακοί ελεγκτές τύπου PI με αναλογικό και ολοκληρωτικό μέρος, ένας για τον έλεγχο της θερμοκρασίας και ένας για τον έλεγχο της συγκέντρωσης. Στο σύστημα ελέγχου ενσωματώνεται ένας RL πράκτορας που εκπαιδεύεται με χρήση κατάλληλου αλγορίθμου ενισχυτικής μάθησης για να προσδιορίσει την βέλτιστη στρατηγική ελέγχου. Ο RL πράκτορας αλληλεπιδρά συνεχώς με το περιβάλλον του αντιδραστήρα και αποκτάει εμπειρία μέσα από τις ενέργειες που κάνει και την επίδραση που έχουν στην κατάσταση του συστήματος. Η αξιολόγηση των αποφάσεων του πράκτορα γίνεται μέσω της συνάρτησης ανταμοιβής η οποία διαμορφώνεται κατάλληλα έτσι ώστε να αποτυπώνει τους στόχους της ρύθμισης. Μέσω ενός συστήματος επιβράβευσης και τιμωρίας, ο πράκτορας αναπροσαρμόζει την πολιτική του με στόχο να βελτιστοποίηση την απόδοσή του και την μεγιστοποίηση της μακροπρόθεσμης ανταμοιβής του. Στην παρούσα εργασία, μελετήθηκαν δύο ξεχωριστές περιπτώσεις αλγορίθμων, μια που να βελτιώνει την απόδοση όταν οι ρυθμιστές PI πετυχαίνουν τον στόχο τους και μια που να σταθεροποιεί το σύστημα στις επιθυμητές τιμές όταν οι PI οδηγούν σε ταλαντωτική συμπεριφορά. Τα αποτελέσματα δείχνουν πως η χρήση αλγορίθμου μηχανικής μάθησης με κατάλληλη αρχιτεκτονική και ορθά σχεδιασμένη συνάρτηση ανταμοιβής μπορεί να βελτιώσει σημαντικά την ρύθμιση του συστήματος σε σύγκριση με παραδοσιακές μεθόδους ελέγχου που αγνοούν τις αλληλεπιδράσεις ανάμεσα στις μεταβλητές του συστήματος, μειώνοντας τον χρόνο αποκατάστασης και την υπέρβασης και εξαλείφοντας φαινόμενα ταλάντωσης. el
heal.advisorName Σαρίμβεης, Χαράλαμπος el
heal.committeeMemberName Βλυσίδης, Ανέστης el
heal.committeeMemberName Δογάνης, Φίλιππος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Χημικών Μηχανικών. Τομέας Ανάλυσης, Σχεδιασμού και Ανάπτυξης Διεργασιών και Συστημάτων (ΙΙ) el
heal.academicPublisherID ntua
heal.numberOfPages 88 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής