HEAL DSpace

Συγκριτική μελέτη αλγορίθμων βαθιάς μηχανικής μάθησης για ανίχνευση αντικειμένων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Φαντάκης, Αναστάσιος el
dc.contributor.author Fantakis, Anastasios en
dc.date.accessioned 2019-09-06T10:40:22Z
dc.date.available 2019-09-06T10:40:22Z
dc.date.issued 2019-09-06
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/49198
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.16807
dc.rights Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ *
dc.subject Τεχνητή νοημοσύνη el
dc.subject Βαθιά μάθηση el
dc.subject Ανίχνευση αντικειμένων el
dc.subject Ανάλυση εικόνας el
dc.subject Νευρωνικά δίκτυα el
dc.subject Artifcial intelligence en
dc.subject You Only Look Once (YOLO) en
dc.subject Deep learning en
dc.subject Networks of Residual Networks (RoR) en
dc.subject Group normalization en
dc.title Συγκριτική μελέτη αλγορίθμων βαθιάς μηχανικής μάθησης για ανίχνευση αντικειμένων el
heal.type bachelorThesis
heal.classification Βαθιά Μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2019-05-10
heal.abstract Τις τελευταίες δεκαετίες έχει παρατηρηθεί ιδιαίτερη ανάπτυξη στην έρευνα των τεχνικών της όρασης υπολογιστών (computer vision) ενώ και η ραγδαία εξέλιξη στον τομέα της υπολογιστικής ισχύς έχει δώσει μεγάλη ώθηση στον τομέα της βαθιάς μάθησης (deep learning). Η ανάπτυξη αυτή έχει αποδώσει σημαντικό έργο με σκοπό, μεταξύ άλλων, στη διευκόλυνση της καθημερινότητας των πολιτών σε όλο τον κόσμο. Ένα επιμέρους τμήμα της όρασης υπολογιστών που αξιοποιεί τεχνικές βαθιάς μάθησης αποτελεί η ανίχνευση αντικειμένων (object detection), υποχώρος της ανάλυσης ει- κόνας. Η ανίχνευση αντικειμένων χρησιμοποιείται σε μια σειρά από εφαρμογές, όπως η αναγνώριση προσώπου και τα συστήματα ελέγχου οδικής κυκλοφορίας. Σκοπός της παρούσας διπλωματικής εργασίας είναι η συνοπτική παρουσίαση και σύγκριση βασι- κών αλγορίθμων στον χώρο της ανίχνευσης αντικειμένων αλλά και η βελτιστοποίησή τους με χρήση καινοτόμων τεχνικών από το πεδίο της βαθιάς μάθησης και της ανάλυσης εικόνας. Σε πρώτο στάδιο έγινε η ανάλυση των 2 διαφορετικών μεθόδων ανίχνευσης, δηλαδή αλγορίθμων δύο σταδίων και ενός σταδίου. Δύο χαρακτηριστικά παραδείγματα αυτών αποτελούν ο Faster R-CNN και ο You Only Look Once (YOLO). Για την εκπαίδευση χρησιμοποιήθηκε μια μικρή συλλογή δεδομένων, που είναι διαθέ- σιμη στον ιστότοπου Kaggle. Τα αποτελέσματα έδειξαν μεγάλο χάσμα κυρίως στο χρόνο εκπαίδευσης με τον αλγόριθμο YOLO να κυριαρχεί σε αυτό το κομμάτι. Σε επόμενο στάδιο, με βάση τον αλγόριθμο YOLO, επιβεβαιώσαμε τη σημασία των residual blocks στη χρήση τεχνικών βαθιάς μάθησης και επιχειρήσαμε την επέκταση τους. Αναλυτικότερα, δοκιμάσαμε το συνδυασμό της αρχιτεκτονικής του αλγορίθμου YOLO με την τεχνική των Residual Networks of Residual Networks (RoR). Επιπροσθέτως, έγινε δοκιμή της εκπαίδευσης του αλγορίθ- μου YOLO, με χρήση group normalization αντί batch normalization, μιας τεχνικής που στοχεύει στην άρση των περιορισμών εκπαίδευσης σε περιπτώσεις μικρού batch size. Για τους σκοπούς αυτούς, αξιοποιήθηκαν συλλογές δεδομένων που είναι διαθέσιμες από τον εκπαιδευτικό οργανισμό Udacity και πιο συγκεκριμένα που περιέχουν καταγραφή οδικής κυκλοφορίας. Τα αποτελέσματα έδειξαν μια αισθητή βελτίωση στην απόδοση του νέου δικτύου σε κάθε περίπτωση ανοίγοντας νέες προοπτικές για περαιτέρω μελέτη των νέων αυτών τεχνικών στο τομέα της ανάλυσης εικόνας. el
heal.abstract Over the last few decades, research into computer vision techniques has grown considerably, andrapiddevelopmentsincomputingpowerhaveboostedthefieldofdeeplearning.Thisdevelopmenthasattributedimportantworkwiththeaim,amongotherthings,offacilitatingtheeverydaylifeofcitizensaround the world. An individual segment of computer vision that utilizes deep learning techniques isobject detection, a sector of image analysis. Object detection is used in a number of applications, suchas facial recognition and road traffic control systems.The aim of this diploma thesis is to summarize and compare basic algorithms in the sector ofobject detection and to optimize them using innovative techniques from the field of deep learning andimage analysis. The first step was to analyze the two different detection methods, namely two-stageand one-stage algorithms. Two typical examples include Faster R-CNN and You Only Look Once(YOLO). A small collection of data, available on Kaggle, was used for training. The results showed alarge gap mainly in training time with the YOLO algorithm dominating this task.Inthenextstep,basedontheYOLOalgorithm,weconfirmedtheimportanceofresidualblocksintheuseofdeeplearningtechniquesandattemptedtoextendthem.Inmoredetail,wetestedthecombi-nation of the YOLO algorithm architecture with Residual Networks of Residual Networks (RoR). Inaddition, the YOLO algorithm was tested using group normalization instead of batch normalization,a technique aimed at confronting training limitations in small batch sizes. For these purposes, datacollections were utilized which are available from the Udacity educational organization and morespecifically containing road traffic records. The results showed a marked improvement in the per-formance of the new network in each case opening new perspectives for further study of these newtechniques in image analysis en
heal.advisorName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Τσανάκας, Παναγιώτης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 72 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα