HEAL DSpace

Κατηγοριοποίηση εικόνων με τεχνικές χωρικού ταιριάσματος και δεικτοδότησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Κόλλιας, Στέφανος el
dc.contributor.author Δελβινιώτη, Αγνή Δ. el
dc.contributor.author Delvinioti, Agni D. en
dc.date.accessioned 2013-01-15T09:25:14Z
dc.date.available 2013-01-15T09:25:14Z
dc.date.copyright 2012-10-30 -
dc.date.issued 2013-01-15
dc.date.submitted 2012-10-30 -
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/7328
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.10782
dc.description 90 σ. el
dc.description.abstract Στο πλαίσιο αυτής της Διπλωματικής εργασίας, εισάγουμε μια νέα μέθοδο κατηγοριοποίησης εικόνων, η οποία ενσωματώνει το χωρικό ταίριασμα και τη δεικτοδότηση στη διαδικασία ταξινόμησης. Το χωρικό ταίριασμα βασίζεται στο ταίριασμα πυραμίδας Hough (Hough pyramid matching (HPM), η δεικτοδότηση βασίζεται στη δομή του ανεστραμμένου αρχείου, όπως στην ανάκτηση εικόνων και η ταξινόμηση πραγματοποιείται με μια μηχανή διανυσμάτων υποστήριξης (support vector machine (SVM) ως ταξινομητή πολλών κλάσεων. Χρησιμοποιούμε την τεχνική HPM ως μέτρο ομοιότητας και κάνοντας λογικές υποθέσεις δείχνουμε ότι αποτελεί πυρήνας Mercer. Στην κατεύθυνση αυτή, το εκφράζουμε σαν ένα εσωτερικό γινόμενο σε έναν χώρο πολλών διαστάσεων, όπου οι εικόνες διαθέτουν μια κβαντισμένη αναπαράσταση των τοπικών χαρακτηριστικών τους και των περιγραφέων τους. Στη συνέχεια χρησιμοποιούμε αυτόν τον πυρήνα στην εκπαίδευση με SVM αντί για κάποιο γραμμικό πυρήνα, ο οποίος είναι η τυπική επιλογή με βάση το μοντέλο “σάκος οπτικών λέξεων” (bag of words) (BoW). Είναι η πρώτη φορά που μια συνάρτηση πυρήνας λαμβάνει υπόψιν τη χωρική διάταξη, διατηρώντας το αναλλοίωτο ως προς τη μετατόπιση, την κλίμακα και την περιστροφή. Στις περισσότερες περιπτώσεις, τεχνητές μεταβολές είναι ο μόνος τρόπος να επιτευχθεί το γεωμετρικό αναλλοίωτο, με μια εκθετική αύξηση του χρόνου εκπαίδευσης. Εκπαιδεύουμε ένα δυαδικό SVM ταξινομητή για κάθε κατηγορία ακολουθώντας την προσέγγιση “ένα έναντι των υπολοίπων” (one-versus-the-rest) και στη συνέχεια συνδυάζουμε τους μεμονωμένους ταξινομητές σε έναν ταξινομητή πολλών κλάσεων. Συγκριτικά με τον ταξινομητή του “πιο κοντινού γείτονα” (nearest neighbor) που χρησιμοποιούν για παράδειγμα οι μέθοδοι ανάκτησης εικόνων, εκμεταλλευόμαστε την αραιή αναπαράσταση των SVM: σε χρόνο ταξινόμησης, η εικόνα αναζήτησης ταιριάζεται με HPM με βάση μόνο τα διανύσματα υποστήριξης. Παρόλα αυτά, το ταίριασμα δε χρειάζεται να είναι εξαντλητικό. Τα διανύσματα υποστήριξης δεικτοδοτούνται με βάση ένα ανεστραμμένο αρχείο, και o HPM εφαρμόζεται μόνο σε ένα μικρό υποσύνολο, το οποίο έχει την υψηλότερη κατάταξη με βάση κάποιο βαθμωτό μέτρο, όπως για παράδειγμα με βάση το BoW. Η μέθοδος επομένως εφαρμόζεται εύκολα σε ταξινόμηση μεγάλης κλίμακας, ενώ η εκπαίδευση νέων κλάσεων δεν απαιτεί επανεκπαίδευση των ήδη υπαρχόντων. Λόγω της φύσης των τοπικών χαρακτηριστικών και της χρήσης τους σε ταίριασμα που διατηρεί το αναλλοίωτο, η μέθοδος είναι η πιο κατάληλη για αναγνώριση συγκεκριμένων αντικειμένων. Εμείς την εφαρμόζουμε σε αναγνώριση αξιοθέατων, διεξάγοντας πειράματα σε δικό μας σύνολο δεδομένων, το οποίο έχει κατασκευαστεί από το σύνολο δεδομένων World cities μέσω μιας ημιαυτόνομης διαδικασίας, η οποία συνδυάζει οπτική και γεωγραφική συσταδοποίηση. Συγκρίνουμε με έναν ταξινομητή αναφοράς (baseline), ο οποίος χρησιμοποιεί BoW και πετυχαίνουμε περισσότερο από διπλάσια αύξηση σε ακρίβεια για πειράματα μέχρι και 68 αξιοθέατων. el
dc.description.abstract In the framework of this Diploma thesis we introduce a new image categorization method, which integrates spatial matching and indexing in the classification process. Spatial matching is based on Hough pyramid matching (HPM); indexing is based on an inverted file structure as in image retrieval; and classification is carried out with a multiclass support vector machine (SVM) classifier. We use HPM as an image similarity measure and we show that under reasonable assumptions it is a Mercer kernel. We do so by explicitly expressing it as an inner product in a high dimensional space where images lie given an appropriate quantized representation of their local features and descriptors. We then use this kernel for SVM training instead of a linear kernel, which is a typical choice under the bag of words (BoW) model. It is the first time that a kernel function takes spatial configuration into account while being invariant to translation, scale and rotation. In most cases, artificial perturbations are the only way to achieve geometric invariance, with an exponential increase of training time. We train one binary SVM classifier for each category following an one-versus-the-rest strategy and then combine individual classifiers into one multiclass classifier. Comparing to nearest-neighbor classifier using e.g. image retrieval methods, we exploit the sparse representation of SVMs: at classification time, the query image is matched via HPM against the chosen support vectors only. However, matching need not be exhaustive. Support vectors are indexed into an inverted file, and HPM may be applied only to a small subset that is top-ranking according to any scalar similarity measure, e.g. based on BoW. The method therefore easily applies to large scale classification, while training for unseen classes does not require re-training for existing ones. Due to the nature of local features and their use in invariant matching, the method is most appropriate for specific object recognition. We apply it to landmark recognition, conducting experiments on our own dataset, constructed from the World cities dataset via a semiautomatic process that combines visual and geographical clustering. We compare to a baseline classifier using a BoW representation and achieve more than a twofold increase in accuracy on experiments of up to 68 landmarks. en
dc.description.statementofresponsibility Αγνή Δ. Δελβινιώτη el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Κατηγοριοποίηση εικόνων el
dc.subject Εκμάθηση με χρήση πυρήνων el
dc.subject Χωρικό ταίριασμα el
dc.subject Δεικτοδότηση el
dc.subject Ανάκτηση εικόνων el
dc.subject Αναγνώριση αξιοθέατων el
dc.subject Image categorization en
dc.subject Learning using kernels en
dc.subject Spatial matching en
dc.subject Indexing en
dc.subject Image retrieval en
dc.subject Landmark recognition en
dc.title Κατηγοριοποίηση εικόνων με τεχνικές χωρικού ταιριάσματος και δεικτοδότησης el
dc.title.alternative Image categorization using spatial matching and indexing en
dc.type bachelorThesis el (en)
dc.date.accepted 2012-10-02 -
dc.date.modified 2012-10-30 -
dc.contributor.advisorcommitteemember Σταφυλοπάτης, Ανδρέας-Γεώργιος el
dc.contributor.advisorcommitteemember Στάμου, Γεώργιος el
dc.contributor.committeemember Κόλλιας, Στέφανος el
dc.contributor.committeemember Σταφυλοπάτης, Ανδρέας-Γεώργιος el
dc.contributor.committeemember Στάμου, Γεώργιος el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Επεξεργασίας Εικόνας, Βίντεο και Πολυμέσων el
dc.date.recordmanipulation.recordcreated 2013-01-15 -
dc.date.recordmanipulation.recordmodified 2013-01-15 -


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής