HEAL DSpace

Τεχνικές βαθιάς μάθησης και εφαρμογές στην ανίχνευση προσώπων σε εικόνες

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μελέτης, Παναγιώτης el
dc.contributor.author Meletis, Panagiotis en
dc.date.accessioned 2016-02-22T10:58:48Z
dc.date.available 2016-02-22T10:58:48Z
dc.date.issued 2016-02-22
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/42043
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.10651
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Τεχνικές βαθιάς μάθησης el
dc.subject Συνελικτικά νευρωνικά δίκτυα el
dc.subject Ειδική προσαρμογή el
dc.subject Εντοπισμός προσώπων el
dc.subject Επαύξηση συνόλου δεδομένων el
dc.subject Deep learning en
dc.subject Convolutional neural networks en
dc.subject Fine-tuning en
dc.subject Multiview face detection en
dc.subject Dataset augmentation en
dc.title Τεχνικές βαθιάς μάθησης και εφαρμογές στην ανίχνευση προσώπων σε εικόνες el
dc.title Deep learning and applications to face detection in images en
heal.type bachelorThesis
heal.classification Νευρωνικά δίκτυα el
heal.classification Neural networks en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2015-10-27
heal.abstract Τα τελευταία χρόνια η αφθονία της οπτικοακουστικής πληροφορίας και η ταχεία αύξηση των υπολογιστικών δυνατοτήτων των μηχανών έστρεψαν το ενδιαφέρον πολλών ερευνητών σε μεθόδους αντιμετώπισης προβλημάτων οδηγούμενες από μεγάλες ποσότητες δεδομένων. Ο προσανατολισμός αυτός, οδήγησε σε μεγάλη ανάπτυξη των Τεχνικών Βαθιάς Μάθησης και ιδιαίτερα του κλάδου των Συνελικτικών Νευρωνικών Δικτύων (ΣΝΔ). Τα Δίκτυα αυτά εμπνέονται από τη δομή και τη λειτουργικότητα του ανθρώπινου εγκεφάλου και έχουν τη δυνατότητα να αυτορρυθμίζουν τη βαρύτητα των συνδέσεών τους μέσω επιβλεπόμενης εκπαίδευσης σε πολύ μεγάλα σύνολα δεδομένων. Στόχοι της Διπλωματικής Εργασίας είναι η ανάλυση των σύγχρονων ΣΝΔ και η παρουσίαση των τελευταίων εξελίξεων, αλλά και η εφαρμογή ενός, τελευταίας τεχνολογίας, ΣΝΔ για τον εντοπισμό προσώπων σε εικόνες. Αρχικά, γίνεται αναφορά των βασικών στοιχείων της Μηχανικής Μάθησης, που είναι απαραίτητα για την ανάπτυξη των ΣΝΔ, ενώ μεγάλο μέρος της Εργασίας αφιερώνεται στην ανάλυση της αρχιτεκτονικής, των ιδιοτήτων και του τρόπου εκπαίδευσης των σύγχρονων ΣΝΔ. Η παρουσίαση γίνεται με υπόβαθρο το θεμελιώδες πρόβλημα της ταξινόμησης εικόνων και ως εφαρμογή υλοποιείται ένα σύστημα εντοπισμού προσώπων ανεξαρτήτου γωνίας λήψης σε εικόνες, με τη χρήση του επιτυχημένου ΣΝΔ ταξινόμησης AlexNet. Κατασκευάζεται, με έξυπνες τεχνικές επαύξησης, ένα σύνολο δεδομένων 1 εκατομμυρίου εικόνων από τις βάσεις δεδομένων AFLW και FaceScrub, που έχουν συνολικά 100,000 εικόνες. Το σύνολο αυτό χρησιμοποιείται για την ειδική προσαρμογή του προεκπαιδευμένου AlexNet από το σύνολο ILSVRC. Για τον εντοπισμό χρησιμοποιείται πολυκλιμακωτή ανάλυση εικόνων και το εξειδικευμένο AlexNet, ώστε να προκύψουν οι τοποθεσίες των προσώπων σε οποιαδήποτε κλίμακα. el
heal.abstract In recent years the availability of abundant data and the increase of computational capacity and capability of machines, lead researchers to tackle computer vision problems through data-driven approaches. This trend fostered Deep Learning Techniques and particularly the branch of Convolutional Neural Networks (CNN), which is inspired by the structure and functionality of human brain. CNN are trained on large image datasets and take advantage of the deep hierachical structure of images. A first goal of this Diploma Thesis is to describe modern CNN architectures thoroughly and present recent developments in the field. A second goal is to employ a state-of-the-art CNN, originally designed for image classification, for multiview detection of faces in images. In the first part of the Thesis, essential background tools of Machine Learning, necessary to the deployment of CNNs, are discussed. In the next part, an extensive analysis of the architecture and the training procedure of CNNs is performed. Throughout the text, concepts are developed having the fundamental problem of classification on the background, as the outmost goal is to use the AlexNet CNN in order to achieve face localization. Clever dataset augmentation techniques are applied to AFLW and FaceScrub databases (total 100,000 images), to generate a training set of 1 million images, which is used to fine-tune a pretrained AlexNet model on ILSVRC. To achieve detection, a multiscale approach is adopted, so the fine-tuned AlexNet can infer the existence of faces in multiple scales. en
heal.advisorName Κόλλιας, Στέφανος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 103 σ. el
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα