dc.contributor.author | Βλαχογιαννόπουλος, Μάριος![]() |
el |
dc.contributor.author | Vlachogiannopoulos, Marios![]() |
en |
dc.date.accessioned | 2025-08-29T11:17:53Z | |
dc.date.available | 2025-08-29T11:17:53Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/62255 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.29951 | |
dc.description | Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Μοντέλα ακολουθούντος οχήματος | el |
dc.subject | Βαθιά ενισχυτική μάθηση | el |
dc.subject | Ενισχυτική μάθηση εκτός σύνδεσης | el |
dc.subject | Αρχιτεκτονική μετατροπέα | el |
dc.subject | Μετατροπέας αποφάσεων | el |
dc.subject | Car following models | en |
dc.subject | Deep reinforcement learning | en |
dc.subject | Offline reinforcement learning | en |
dc.subject | Transformer architecture | en |
dc.subject | Decision transformer | en |
dc.title | Μικροσκοπικά μοντέλα ακολουθούντος οχήματος με ενισχυτική μάθηση | el |
dc.title | Enhanced microscopic car-following models with context-aware reinforcement learning | en |
heal.type | masterThesis | |
heal.classification | Ενισχυτική μάθηση | el |
heal.classification | Reinforcement learning | en |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2025-02-27 | |
heal.abstract | Ο έλεγχος αυτόνομων οχημάτων σε δυναμικά κυκλοφοριακά περιβάλλοντα απαιτεί έξυπνη λήψη αποφάσεων που ισορροπεί μεταξύ ασφάλειας και αποδοτικότητας της κυκλοφορίας. Σε αυτή την εργασία, προτείνεται ένα μοντέλο ακολουθούντος οχήματος βασισμένο στην ενισχυτική μάθηση, το οποίο εκπαιδεύεται με offline τρόπο χρησιμοποιώντας πραγματικά δεδομένα τροχιών οχημάτων. Ο κύριος στόχος του μοντέλου είναι η διατήρηση ασφαλών αποστάσεων ακολούθησης, υιοθετώντας μια οδηγική συμπεριφορά που προσομοιάζει την ανθρώπινη. Επιπλέον, διερευνούνται μεθόδοι για τη βελτίωση της συνολικής απόδοσης του δικτύου μέσω της προσαρμογής του τρόπου οδήγησης. Μια βασική πρόκληση στην offline ενισχυτική μάθηση είναι η εκμάθηση βέλτιστων πολιτικών από υποβέλτιστες τροχιές, καθώς ο πράκτορας πρέπει να γενικεύσει πέρα από τους περιορισμούς του συνόλου δεδομένων. Τα αποτελέσματά μας δείχνουν ότι το προτεινόμενο σύστημα μαθαίνει με επιτυχία μια ασφαλή και σταθερή πολιτική οδήγησης, επιτυγχάνοντας σημαντικά καλύτερες επιδόσεις σε σχέση με τα δεδομένα εκπαίδευσης και υπερέχοντας σε όρους ασφάλειας. Ωστόσο, το προτεινόμενο μοντέλο κινήθηκε στα ίδια επίπεδα εξυπηρέτησης της κυκλοφορίας με αυτό του κλασικού θεωρητικού μοντέλου του Krauss. Για το λόγο αυτό προτείνεται ως μελλοντική έρευνα ο περαιτέρω πειραματισμός στη διαμόρφωση της κατάστασης και του σήματος ανταμοιβής εξυπηρέτησης. Για την αντιμετώπιση των προκλήσεων της offline ενισχυτικής μάθησης, διαμορφώνουμε το πρόβλημα ως πρόβλημα πρόβλεψης ακολουθίας και χρησιμοποιούμε έναν Decision Transformer, ο οποίος επιτρέπει στον πράκτορα να μαθαίνει αποτελεσματικές στρατηγικές οδήγησης χωρίς την ανάγκη εκτίμησης συναρτήσεων αξίας ή διαδικασίας online εξερεύνησης. Η προσέγγιση αυτή αξιοποιεί τον ισχυρό μηχανισμό αυτο-προσοχής των Transformers, προβλέποντας βέλτιστες ενέργειες με βάση ιστορικές τροχιές και επιθυμητές τιμές ανταμοιβής (return-to-go). Τα ευρήματα της εργασίας μας αναδεικνύουν τη δυναμική των Decision Transformers ως μοντέλα κατάλληλα για offline ενισχυτική μάθηση, προσφέροντας μια πολλά υποσχόμενη εναλλακτική έναντι των παραδοσιακών μεθόδων ενισχυτικής μάθησης, που βασίζονται σε συναρτήσεις αξίας ή αρχιτεκτονικές δράστη-κριτή, για την εκμάθηση ασφαλών και ανθρωποκεντρικών στρατηγικών οδήγησης. | el |
heal.abstract | Autonomous vehicle control in dynamic traffic environments requires intelligent decision making that balances safety and traffic efficiency. In this study, we propose a modular reinforcement learning based car-following model trained using offline RL on real-world vehicle trajectory data. The primary objective of the model is to maintain safe following distances while ensuring a driving behavior that aligns with human-like behaviour. Additionally, we explore methods to enhance network-wide traffic throughput through cooperative driving strategies. A key challenge in offline RL is learning optimal policies from suboptimal human demonstrations, as the agent must generalize beyond the limitations of the dataset. Our results demonstrate that the proposed system successfully learns a safe and stable driving policy, significantly improving safety metrics compared to the training dataset. However, the proposed model achieved similar throughput metrics compared to the theoretical model of Krauss, highlighting the need for further experimentation in state representation and reward function design. To address the challenges of offline RL, we model the problem as a sequence modeling task and employ a Decision Transformer, which enables the agent to learn effective driving strategies without the need for explicit value function estimation or online exploration. This approach leverages Transformer's powerful self-attention mechanism to predict optimal actions based on historical trajectories and desired return-to-go values. The findings of this thesis highlight the potential of Decision Transformers in data-driven car-following models, offering a promising alternative to traditional value-based or actor-critic RL methods for learning human-like and safe driving behaviors. | en |
heal.advisorName | Βλαχογιάννη, Ελένη | el |
heal.committeeMemberName | Βλαχογιάννη, Ελένη | el |
heal.committeeMemberName | Γιαννής, Γιώργος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 71 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: