dc.contributor.author | Φαντάκης, Αναστάσιος | el |
dc.contributor.author | Fantakis, Anastasios | en |
dc.date.accessioned | 2019-09-06T10:40:22Z | |
dc.date.available | 2019-09-06T10:40:22Z | |
dc.date.issued | 2019-09-06 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/49198 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.16807 | |
dc.rights | Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ | * |
dc.subject | Τεχνητή νοημοσύνη | el |
dc.subject | Βαθιά μάθηση | el |
dc.subject | Ανίχνευση αντικειμένων | el |
dc.subject | Ανάλυση εικόνας | el |
dc.subject | Νευρωνικά δίκτυα | el |
dc.subject | Artifcial intelligence | en |
dc.subject | You Only Look Once (YOLO) | en |
dc.subject | Deep learning | en |
dc.subject | Networks of Residual Networks (RoR) | en |
dc.subject | Group normalization | en |
dc.title | Συγκριτική μελέτη αλγορίθμων βαθιάς μηχανικής μάθησης για ανίχνευση αντικειμένων | el |
heal.type | bachelorThesis | |
heal.classification | Βαθιά Μάθηση | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2019-05-10 | |
heal.abstract | Τις τελευταίες δεκαετίες έχει παρατηρηθεί ιδιαίτερη ανάπτυξη στην έρευνα των τεχνικών της όρασης υπολογιστών (computer vision) ενώ και η ραγδαία εξέλιξη στον τομέα της υπολογιστικής ισχύς έχει δώσει μεγάλη ώθηση στον τομέα της βαθιάς μάθησης (deep learning). Η ανάπτυξη αυτή έχει αποδώσει σημαντικό έργο με σκοπό, μεταξύ άλλων, στη διευκόλυνση της καθημερινότητας των πολιτών σε όλο τον κόσμο. Ένα επιμέρους τμήμα της όρασης υπολογιστών που αξιοποιεί τεχνικές βαθιάς μάθησης αποτελεί η ανίχνευση αντικειμένων (object detection), υποχώρος της ανάλυσης ει- κόνας. Η ανίχνευση αντικειμένων χρησιμοποιείται σε μια σειρά από εφαρμογές, όπως η αναγνώριση προσώπου και τα συστήματα ελέγχου οδικής κυκλοφορίας. Σκοπός της παρούσας διπλωματικής εργασίας είναι η συνοπτική παρουσίαση και σύγκριση βασι- κών αλγορίθμων στον χώρο της ανίχνευσης αντικειμένων αλλά και η βελτιστοποίησή τους με χρήση καινοτόμων τεχνικών από το πεδίο της βαθιάς μάθησης και της ανάλυσης εικόνας. Σε πρώτο στάδιο έγινε η ανάλυση των 2 διαφορετικών μεθόδων ανίχνευσης, δηλαδή αλγορίθμων δύο σταδίων και ενός σταδίου. Δύο χαρακτηριστικά παραδείγματα αυτών αποτελούν ο Faster R-CNN και ο You Only Look Once (YOLO). Για την εκπαίδευση χρησιμοποιήθηκε μια μικρή συλλογή δεδομένων, που είναι διαθέ- σιμη στον ιστότοπου Kaggle. Τα αποτελέσματα έδειξαν μεγάλο χάσμα κυρίως στο χρόνο εκπαίδευσης με τον αλγόριθμο YOLO να κυριαρχεί σε αυτό το κομμάτι. Σε επόμενο στάδιο, με βάση τον αλγόριθμο YOLO, επιβεβαιώσαμε τη σημασία των residual blocks στη χρήση τεχνικών βαθιάς μάθησης και επιχειρήσαμε την επέκταση τους. Αναλυτικότερα, δοκιμάσαμε το συνδυασμό της αρχιτεκτονικής του αλγορίθμου YOLO με την τεχνική των Residual Networks of Residual Networks (RoR). Επιπροσθέτως, έγινε δοκιμή της εκπαίδευσης του αλγορίθ- μου YOLO, με χρήση group normalization αντί batch normalization, μιας τεχνικής που στοχεύει στην άρση των περιορισμών εκπαίδευσης σε περιπτώσεις μικρού batch size. Για τους σκοπούς αυτούς, αξιοποιήθηκαν συλλογές δεδομένων που είναι διαθέσιμες από τον εκπαιδευτικό οργανισμό Udacity και πιο συγκεκριμένα που περιέχουν καταγραφή οδικής κυκλοφορίας. Τα αποτελέσματα έδειξαν μια αισθητή βελτίωση στην απόδοση του νέου δικτύου σε κάθε περίπτωση ανοίγοντας νέες προοπτικές για περαιτέρω μελέτη των νέων αυτών τεχνικών στο τομέα της ανάλυσης εικόνας. | el |
heal.abstract | Over the last few decades, research into computer vision techniques has grown considerably, andrapiddevelopmentsincomputingpowerhaveboostedthefieldofdeeplearning.Thisdevelopmenthasattributedimportantworkwiththeaim,amongotherthings,offacilitatingtheeverydaylifeofcitizensaround the world. An individual segment of computer vision that utilizes deep learning techniques isobject detection, a sector of image analysis. Object detection is used in a number of applications, suchas facial recognition and road traffic control systems.The aim of this diploma thesis is to summarize and compare basic algorithms in the sector ofobject detection and to optimize them using innovative techniques from the field of deep learning andimage analysis. The first step was to analyze the two different detection methods, namely two-stageand one-stage algorithms. Two typical examples include Faster R-CNN and You Only Look Once(YOLO). A small collection of data, available on Kaggle, was used for training. The results showed alarge gap mainly in training time with the YOLO algorithm dominating this task.Inthenextstep,basedontheYOLOalgorithm,weconfirmedtheimportanceofresidualblocksintheuseofdeeplearningtechniquesandattemptedtoextendthem.Inmoredetail,wetestedthecombi-nation of the YOLO algorithm architecture with Residual Networks of Residual Networks (RoR). Inaddition, the YOLO algorithm was tested using group normalization instead of batch normalization,a technique aimed at confronting training limitations in small batch sizes. For these purposes, datacollections were utilized which are available from the Udacity educational organization and morespecifically containing road traffic records. The results showed a marked improvement in the per-formance of the new network in each case opening new perspectives for further study of these newtechniques in image analysis | en |
heal.advisorName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Τσανάκας, Παναγιώτης | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 72 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: