HEAL DSpace

Αλγόριθμοι ενισχυτικής μάθησης για τη βελτίωση της οδηγικής συμπεριφοράς

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Kyriazopoulos, Vasilis en
dc.contributor.author Κυριαζόπουλος, Βασίλης el
dc.date.accessioned 2020-04-26T14:20:35Z
dc.date.available 2020-04-26T14:20:35Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/50239
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.17937
dc.rights Default License
dc.subject Οδική ασφάλεια el
dc.subject Ενισχυτική μάθηση el
dc.subject Προηγμένα συστήματα υποβοήθησης οδηγού el
dc.subject Αποφυγή συγκρούσεων el
dc.subject Ακολουθούντα οχήματα el
dc.subject Road safety en
dc.subject Reinforcement learning en
dc.subject Advanced driver assistance system en
dc.subject Collision avoidance en
dc.subject Car following en
dc.title Αλγόριθμοι ενισχυτικής μάθησης για τη βελτίωση της οδηγικής συμπεριφοράς el
dc.title Reinforcement learning algorithms for improving driving behavior en
heal.type bachelorThesis
heal.classification Μηχανική μάθηση el
heal.classification Οδική ασφάλεια el
heal.classification Κυκλοφοριακή ροή el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2019-10-23
heal.abstract Η ραγδαία ανάπτυξη της τεχνολογίας των μη επανδρωμένων αεροσκαφών τα τελευταία χρόνια έχει οδηγήσει σε σημαντικές προόδους στη συλλογή και επεξεργασία κυκλοφοριακών δεδομένων. Οι τροχιές των οχημάτων που προκύπτουν μπορούν να χρησιμοποιηθούν για την μικροσκοπική ανάλυση διαφόρων κυκλοφοριακών φαινομένων και την εξαγωγή συμπερασμάτων σχετικά με την οδική ασφάλεια. Στόχος της παρούσας Διπλωματικής Εργασίας είναι η δημιουργία ενός αλγορίθμου ενισχυτικής μάθησης για τη βελτίωση της οδηγικής συμπεριφοράς. Συγκεκριμένα, ένας πράκτορας αλληλοεπιδρά με το περιβάλλον της οδήγησης και κάθε χρονική στιγμή αναγνωρίζει το επίπεδο της οδικής ασφάλειας και προτείνει ενέργειες για την αποφυγή συγκρούσεων και τη βελτίωση της οδικής ασφάλειας. Στο πλαίσιο της βιβλιογραφικής ανασκόπησης αναδείχθηκαν τα πλεονεκτήματα και οι περιορισμοί της επιλεχθείσας μεθοδολογίας, καθώς και οι ελλείψεις των ερευνών με σχετικό αντικείμενο, έτσι ώστε να οριστεί πλήρως το τελικό θέμα. Από την έρευνα των συναφών εργασιών προέκυψε ότι η ενισχυτική μάθηση χρησιμοποιείται σε πολλά συστήματα αυτόματης οδήγησης καθώς είναι σε θέση να διαχειριστεί πολυδιάστατα περιβάλλοντα τα οποία δύσκολα περιγράφονται από καθορισμένο αριθμό καταστάσεων. Ακόμη, οι αλγόριθμοι που αποσκοπούν στη βελτίωση της οδικής ασφάλειας πολλές φορές δεν εκπαιδεύονται με πραγματικά δεδομένα και δεν λαμβάνουν υπόψιν τα πλευρικά οχήματα, τα οποία μπορεί να επηρεάσουν την συμπεριφορά του οδηγού. H συλλογή των δεδομένων πραγματοποιήθηκε σε κεντρικούς άξονες της Αθήνας στο πλαίσιο μιας έρευνας για την συλλογή δεδομένων σε ένα εκτεταμένο δίκτυο προκειμένου να αναδειχθούν τα ιδιαίτερα χαρακτηριστικά των ΣμηΕΑ και η δυνατότητα να ξεπεράσουν υφιστάμενους περιορισμούς στην παρακολούθηση και καταγραφή κυκλοφοριακών ροών. Κατά την διάρκεια του πειράματος, 10 ΣμηΕΑ τοποθετήθηκαν σε καθορισμένες θέσεις και κατέγραφαν την κυκλοφορία. Από τα βίντεο εξήχθησαν οι τροχιές των οχημάτων καθώς και διάφορα κυκλοφοριακά μεγέθη, τα οποία στην συνέχεια τροποποιήθηκαν για την εισαγωγή στον τελικό αλγόριθμο. Από τις συντεταγμένες, οι οποίες ήταν στο σύστημα WGS84, υπολογίστηκαν οι αποστάσεις μεταξύ του εξεταζόμενου και των κοντινότερων γύρω οχημάτων, καθώς με βάση τις αποστάσεις και τις ταχύτητες της γύρω κυκλοφορίας καθορίζεται η κατάσταση στην οποία βρίσκεται το οδικό περιβάλλον. Συνολικά χρησιμοποιήθηκαν 220000 παραδείγματα για εκπαίδευση και 54976 για έλεγχο των αποτελεσμάτων. Το περιβάλλον περιγράφεται από 72 καταστάσεις με βάση τον χρόνο για σύγκρουση (Time to Collision, TTC) του εξεταζόμενου με το προπορευόμενο όχημα, τον χρόνο για σύγκρουση του ακολουθούντος με το εξεταζόμενο όχημα και τις αποστάσεις των οχημάτων δεξιά και αριστερά του εξεταζόμενου. Ο χρόνος για σύγκρουση λαμβάνει υπόψιν και τον χρόνο αντίδρασης του οδηγού και θεωρείται κρίσιμος για τιμές μικρότερες των 3.9 δευτερολέπτων. Οι πλευρικές αποστάσεις εξετάζονται για κάθε συνδυασμό οχημάτων και θεωρούνται κρίσιμες όταν δεν υπερβαίνουν το 84.14% της κατανομής όλων των πλευρικών αποστάσεων του κάθε συνδυασμού οχημάτων. Οι διαθέσιμες ενέργειες είναι όλοι οι συνδυασμοί ενεργειών που μπορεί να κάνει ο οδηγός και διακρίνονται σε δύο επίπεδα επιτάχυνση/τίποτα/επιβράδυνση και αριστερά/τίποτα/δεξιά. Για την διαμόρφωση του τελικού αλγορίθμου Q-Μάθησης πραγματοποιήθηκαν δοκιμές για διάφορους συνδυασμούς παραμέτρων. Στον τελικό αλγόριθμο, ο εκπτωτικός παράγοντας είναι ίσος με 0.9, ο ρυθμός εκμάθησης είναι ίσος με 0.2 και ο βαθμός εξερεύνησης ίσος με 0.2. Με βάση αυτές τις παραμέτρους προέκυψε ο τελικός Πίνακας-Q ο οποίος παρουσιάζεται στην συνέχεια. Κατά τον έλεγχο ο αλγόριθμος έκανε 4 λάθη, αρκετά μικρός αριθμός πράγμα που σημαίνει ότι ο αλγόριθμος είναι σε θέση να ανταπεξέλθει σε πραγματικές συνθήκες και να χρησιμοποιηθεί εντός οχημάτων για τη βελτίωση της οδηγικής συμπεριφοράς. Από τα διάφορα στάδια εκπόνησης της παρούσας Διπλωματικής Εργασίας προέκυψαν αποτελέσματα άμεσα συνδεδεμένα με τον κύριο στόχο που είχε τεθεί αρχικά. Τα σημαντικότερα συμπεράσματα που προκύπτουν είναι τα εξής: Ο αλγόριθμος έχει την ικανότητα να μαθαίνει γρήγορα όπως προκύπτει και από το διάγραμμα της αξίας της μέσης μέγιστης ενέργειας όλων των καταστάσεων το οποίο συγκλίνει. Ένας αλγόριθμος ενισχυτικής μάθησης, για να γίνει αποδεκτός και να χρησιμοποιηθεί στην πράξη, θα πρέπει να φτάσει σε σύγκλιση κατά την διάρκεια της εκπαίδευσης. Η ταχύτητα με την οποία φτάνει στην σύγκλιση αποτελεί ένδειξη της ποιότητάς του. Συνεπώς ο αλγόριθμος που αναπτύχθηκε στα πλαίσια αυτής της Διπλωματικής Εργασίας μπορεί να θεωρηθεί ικανοποιητικός καθώς συγκλίνει αρκετά γρήγορα. Όλοι οι αλγόριθμοι ενισχυτικής μάθησης έχουν την ικανότητα να επεκταθούν και να συνεχίσουν να μαθαίνουν χωρίς να υπάρχει ανάγκη δημιουργίας ενός νέου αλγορίθμου από την αρχή σε αντίθεση με τα στατιστικά μοντέλα. Έτσι λοιπόν, ο αλγόριθμος που αναπτύχθηκε μπορεί να εκπαιδευτεί περαιτέρω για να είναι σε θέση να αντιμετωπίζει με καλύτερο τρόπο τις κρίσιμες καταστάσεις. Οι αλγόριθμοι μαθαίνουν ακόμα και κατά την διάρκεια της χρήσης τους αφότου ολοκληρωθεί η εκπαίδευση καθώς εκτίθενται σε καινούργιες καταστάσεις, βελτιώνοντας έτσι τις επιδόσεις τους και την εμπειρία. Η συγκεκριμένη Διπλωματική Εργασία αποτελεί μια από τις πρώτες έρευνες που λαμβάνουν υπόψιν και τα πλευρικά οχήματα κατά την διάρκεια της αξιολόγησης του επιπέδου ασφάλειας της οδικής κατάστασης. Οι περισσότερες μελέτες πάνω στο αντικείμενο των συστημάτων αποφυγής σύγκρουσης εστιάζουν στο μπροστά και στο πίσω όχημα αγνοώντας την επιρροή στην οδική ασφάλεια των πλευρικών οχημάτων. Ωστόσο, τα πλευρικά οχήματα μπορούν να επηρεάσουν τον τρόπο οδήγησης και να συμβάλλουν στην πρόκληση σύγκρουσης, είτε άμεσα με την εμπλοκή των ίδιων στην σύγκρουση, όπου το όχημα συγκρούεται με το πλευρικό, είτε έμμεσα επηρεάζοντας τον οδηγό λόγω της τοποθέτησης τους σε σχέση με το εξεταζόμενο όχημα. Ο αλγόριθμος είναι σε θέση να βελτιώσει την οδηγική συμπεριφορά, καθώς, με βάση τα πραγματικά δεδομένα των οδηγών, το μοντέλο θα απέφευγε κρίσιμες καταστάσεις όπως προκύπτει από την ανταμοιβή που πήρε ο πράκτορας κατά τον έλεγχο του τελικού αλγορίθμου. Έτσι αν τα οχήματα βρίσκονταν σε κρίσιμες καταστάσεις, ο αλγόριθμος θα τις αναγνώριζε και θα επέλεγε ενέργειες οι οποίες θα τις απέτρεπαν. Η ενισχυτική μάθηση αποτελεί κατάλληλη μέθοδο για την διαμόρφωση των αλγορίθμων για τα συστήματα υποβοήθησης οδηγού και τα συστήματα αυτόνομης οδήγησης. Οι μέθοδοι αυτοί είναι σε θέση να διαχειριστούν περιβάλλοντα τα οποία δεν είναι σαφώς ορισμένα και ο αριθμός των καταστάσεων στις οποίες μπορούν να βρεθούν είναι άπειρος καθώς αποτελούνται από πολλές διαστάσεις. Η οδήγηση αποτελεί μια πολύπλοκη διεργασία κατά την οποία πρέπει να ληφθούν υπόψιν διάφοροι παράγοντες για την επιλογή της βέλτιστης ενέργειας. Συνεπώς, οι αλγόριθμοι ενισχυτικής μάθησης είναι σε θέση να αντιμετωπίσουν τέτοιες διεργασίες όπως προκύπτει και από τα αποτελέσματα της παρούσας Διπλωματικής Εργασίας. Ο αλγόριθμος κατά την διάρκεια του ελέγχου έκανε 4 λάθη στις 54976 δοκιμές, τα οποία οφείλονται στο ότι ο αλγόριθμος κατά την εκπαίδευση δεν εκτέθηκε σε αυτές τις καταστάσεις επαρκώς έτσι ώστε να εντοπίσει την ιδανική ενέργεια. Τα λάθη είναι πολύ λίγα, καθώς ο αλγόριθμος έχει εκπαιδευτεί με χρήση μιας μεγάλης βάσης δεδομένων, συνεπώς έχει εκτεθεί σε ποικίλες καταστάσεις και έχει μάθει να τις διαχειρίζεται. Ένα σύστημα υποβοήθησης οδηγού θα πρέπει να παρουσιάζει ελάχιστα λάθη, καθώς τυχόν λάθος ενέργειες μπορεί να οδηγήσουν σε σύγκρουση. Η αξιοπιστία τέτοιον συστημάτων πρέπει να είναι υψηλή για να μπορέσουν να γίνουν δεκτά και να χρησιμοποιηθούν. Ο τελικός Πίνακας-Q περιέχει μερικά μηδενικά. Αυτό μπορεί να οφείλεται στο γεγονός ότι κατά την διάρκεια της εκπαίδευσης ο αλγόριθμος δεν εκτέθηκε σε ικανοποιητικό βαθμό σε αυτές τις καταστάσεις έτσι ώστε να δοκιμάσει τις διάφορες ενέργειες μέχρις ότου βρει την βέλτιστη που θα επιφέρει την μέγιστη ανταμοιβή. Ορισμένες καταστάσεις έχουν μηδενικά σε όλες τις ενέργειες. Αυτές οι καταστάσεις είναι αρκετά ακραίες και ο αλγόριθμος δεν είχε την ευκαιρία να εκτεθεί σε πολλές κρίσιμες καταστάσεις. Κατά την διάρκεια συλλογής των δεδομένων δεν παρατηρήθηκαν πολλές κρίσιμες καταστάσεις ή οριακές συγκρούσεις για να μάθει ο αλγόριθμος από αυτές και να επεκτείνει το εύρος των καταστάσεων το οποίο μπορεί να διαχειριστεί. Συνεπώς ο Πίνακας-Q περιέχει μηδενικά σε αυτές τις καταστάσεις και ο αλγόριθμος δεν θα ήταν σε θέση να επιλέξει την σωστή ενέργεια σε περίπτωση που βρισκόταν σε αυτές τις καταστάσεις. el
heal.advisorName Βλαχογιάννη, Ελένη el
heal.committeeMemberName Γιαννής, Γεώργιος el
heal.committeeMemberName Κεπαπτσόγλου, Κωνσταντίνος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Πολιτικών Μηχανικών. Τομέας Μεταφορών και Συγκοινωνιακής Υποδομής el
heal.academicPublisherID ntua
heal.numberOfPages 68 σ.
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής