dc.contributor.author | Μελέτης, Παναγιώτης | el |
dc.contributor.author | Meletis, Panagiotis | en |
dc.date.accessioned | 2016-02-22T10:58:48Z | |
dc.date.available | 2016-02-22T10:58:48Z | |
dc.date.issued | 2016-02-22 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/42043 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.10651 | |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.subject | Τεχνικές βαθιάς μάθησης | el |
dc.subject | Συνελικτικά νευρωνικά δίκτυα | el |
dc.subject | Ειδική προσαρμογή | el |
dc.subject | Εντοπισμός προσώπων | el |
dc.subject | Επαύξηση συνόλου δεδομένων | el |
dc.subject | Deep learning | en |
dc.subject | Convolutional neural networks | en |
dc.subject | Fine-tuning | en |
dc.subject | Multiview face detection | en |
dc.subject | Dataset augmentation | en |
dc.title | Τεχνικές βαθιάς μάθησης και εφαρμογές στην ανίχνευση προσώπων σε εικόνες | el |
dc.title | Deep learning and applications to face detection in images | en |
heal.type | bachelorThesis | |
heal.classification | Νευρωνικά δίκτυα | el |
heal.classification | Neural networks | en |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2015-10-27 | |
heal.abstract | Τα τελευταία χρόνια η αφθονία της οπτικοακουστικής πληροφορίας και η ταχεία αύξηση των υπολογιστικών δυνατοτήτων των μηχανών έστρεψαν το ενδιαφέρον πολλών ερευνητών σε μεθόδους αντιμετώπισης προβλημάτων οδηγούμενες από μεγάλες ποσότητες δεδομένων. Ο προσανατολισμός αυτός, οδήγησε σε μεγάλη ανάπτυξη των Τεχνικών Βαθιάς Μάθησης και ιδιαίτερα του κλάδου των Συνελικτικών Νευρωνικών Δικτύων (ΣΝΔ). Τα Δίκτυα αυτά εμπνέονται από τη δομή και τη λειτουργικότητα του ανθρώπινου εγκεφάλου και έχουν τη δυνατότητα να αυτορρυθμίζουν τη βαρύτητα των συνδέσεών τους μέσω επιβλεπόμενης εκπαίδευσης σε πολύ μεγάλα σύνολα δεδομένων. Στόχοι της Διπλωματικής Εργασίας είναι η ανάλυση των σύγχρονων ΣΝΔ και η παρουσίαση των τελευταίων εξελίξεων, αλλά και η εφαρμογή ενός, τελευταίας τεχνολογίας, ΣΝΔ για τον εντοπισμό προσώπων σε εικόνες. Αρχικά, γίνεται αναφορά των βασικών στοιχείων της Μηχανικής Μάθησης, που είναι απαραίτητα για την ανάπτυξη των ΣΝΔ, ενώ μεγάλο μέρος της Εργασίας αφιερώνεται στην ανάλυση της αρχιτεκτονικής, των ιδιοτήτων και του τρόπου εκπαίδευσης των σύγχρονων ΣΝΔ. Η παρουσίαση γίνεται με υπόβαθρο το θεμελιώδες πρόβλημα της ταξινόμησης εικόνων και ως εφαρμογή υλοποιείται ένα σύστημα εντοπισμού προσώπων ανεξαρτήτου γωνίας λήψης σε εικόνες, με τη χρήση του επιτυχημένου ΣΝΔ ταξινόμησης AlexNet. Κατασκευάζεται, με έξυπνες τεχνικές επαύξησης, ένα σύνολο δεδομένων 1 εκατομμυρίου εικόνων από τις βάσεις δεδομένων AFLW και FaceScrub, που έχουν συνολικά 100,000 εικόνες. Το σύνολο αυτό χρησιμοποιείται για την ειδική προσαρμογή του προεκπαιδευμένου AlexNet από το σύνολο ILSVRC. Για τον εντοπισμό χρησιμοποιείται πολυκλιμακωτή ανάλυση εικόνων και το εξειδικευμένο AlexNet, ώστε να προκύψουν οι τοποθεσίες των προσώπων σε οποιαδήποτε κλίμακα. | el |
heal.abstract | In recent years the availability of abundant data and the increase of computational capacity and capability of machines, lead researchers to tackle computer vision problems through data-driven approaches. This trend fostered Deep Learning Techniques and particularly the branch of Convolutional Neural Networks (CNN), which is inspired by the structure and functionality of human brain. CNN are trained on large image datasets and take advantage of the deep hierachical structure of images. A first goal of this Diploma Thesis is to describe modern CNN architectures thoroughly and present recent developments in the field. A second goal is to employ a state-of-the-art CNN, originally designed for image classification, for multiview detection of faces in images. In the first part of the Thesis, essential background tools of Machine Learning, necessary to the deployment of CNNs, are discussed. In the next part, an extensive analysis of the architecture and the training procedure of CNNs is performed. Throughout the text, concepts are developed having the fundamental problem of classification on the background, as the outmost goal is to use the AlexNet CNN in order to achieve face localization. Clever dataset augmentation techniques are applied to AFLW and FaceScrub databases (total 100,000 images), to generate a training set of 1 million images, which is used to fine-tune a pretrained AlexNet model on ILSVRC. To achieve detection, a multiscale approach is adopted, so the fine-tuned AlexNet can infer the existence of faces in multiple scales. | en |
heal.advisorName | Κόλλιας, Στέφανος | el |
heal.committeeMemberName | Κόλλιας, Στέφανος | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 103 σ. | el |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: