Κατηγοριοποίηση εικόνων με τεχνικές χωρικού ταιριάσματος και δεικτοδότησης

Δελβινιώτη, Αγνή Δ.; Delvinioti, Agni D.

dc.contributor.advisor	Κόλλιας, Στέφανος	el
dc.contributor.author	Δελβινιώτη, Αγνή Δ.	el
dc.contributor.author	Delvinioti, Agni D.	en
dc.date.accessioned	2013-01-15T09:25:14Z
dc.date.available	2013-01-15T09:25:14Z
dc.date.copyright	2012-10-30	-
dc.date.issued	2013-01-15
dc.date.submitted	2012-10-30	-
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/7328
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.10782
dc.description	90 σ.	el
dc.description.abstract	Στο πλαίσιο αυτής της Διπλωματικής εργασίας, εισάγουμε μια νέα μέθοδο κατηγοριοποίησης εικόνων, η οποία ενσωματώνει το χωρικό ταίριασμα και τη δεικτοδότηση στη διαδικασία ταξινόμησης. Το χωρικό ταίριασμα βασίζεται στο ταίριασμα πυραμίδας Hough (Hough pyramid matching (HPM), η δεικτοδότηση βασίζεται στη δομή του ανεστραμμένου αρχείου, όπως στην ανάκτηση εικόνων και η ταξινόμηση πραγματοποιείται με μια μηχανή διανυσμάτων υποστήριξης (support vector machine (SVM) ως ταξινομητή πολλών κλάσεων. Χρησιμοποιούμε την τεχνική HPM ως μέτρο ομοιότητας και κάνοντας λογικές υποθέσεις δείχνουμε ότι αποτελεί πυρήνας Mercer. Στην κατεύθυνση αυτή, το εκφράζουμε σαν ένα εσωτερικό γινόμενο σε έναν χώρο πολλών διαστάσεων, όπου οι εικόνες διαθέτουν μια κβαντισμένη αναπαράσταση των τοπικών χαρακτηριστικών τους και των περιγραφέων τους. Στη συνέχεια χρησιμοποιούμε αυτόν τον πυρήνα στην εκπαίδευση με SVM αντί για κάποιο γραμμικό πυρήνα, ο οποίος είναι η τυπική επιλογή με βάση το μοντέλο “σάκος οπτικών λέξεων” (bag of words) (BoW). Είναι η πρώτη φορά που μια συνάρτηση πυρήνας λαμβάνει υπόψιν τη χωρική διάταξη, διατηρώντας το αναλλοίωτο ως προς τη μετατόπιση, την κλίμακα και την περιστροφή. Στις περισσότερες περιπτώσεις, τεχνητές μεταβολές είναι ο μόνος τρόπος να επιτευχθεί το γεωμετρικό αναλλοίωτο, με μια εκθετική αύξηση του χρόνου εκπαίδευσης. Εκπαιδεύουμε ένα δυαδικό SVM ταξινομητή για κάθε κατηγορία ακολουθώντας την προσέγγιση “ένα έναντι των υπολοίπων” (one-versus-the-rest) και στη συνέχεια συνδυάζουμε τους μεμονωμένους ταξινομητές σε έναν ταξινομητή πολλών κλάσεων. Συγκριτικά με τον ταξινομητή του “πιο κοντινού γείτονα” (nearest neighbor) που χρησιμοποιούν για παράδειγμα οι μέθοδοι ανάκτησης εικόνων, εκμεταλλευόμαστε την αραιή αναπαράσταση των SVM: σε χρόνο ταξινόμησης, η εικόνα αναζήτησης ταιριάζεται με HPM με βάση μόνο τα διανύσματα υποστήριξης. Παρόλα αυτά, το ταίριασμα δε χρειάζεται να είναι εξαντλητικό. Τα διανύσματα υποστήριξης δεικτοδοτούνται με βάση ένα ανεστραμμένο αρχείο, και o HPM εφαρμόζεται μόνο σε ένα μικρό υποσύνολο, το οποίο έχει την υψηλότερη κατάταξη με βάση κάποιο βαθμωτό μέτρο, όπως για παράδειγμα με βάση το BoW. Η μέθοδος επομένως εφαρμόζεται εύκολα σε ταξινόμηση μεγάλης κλίμακας, ενώ η εκπαίδευση νέων κλάσεων δεν απαιτεί επανεκπαίδευση των ήδη υπαρχόντων. Λόγω της φύσης των τοπικών χαρακτηριστικών και της χρήσης τους σε ταίριασμα που διατηρεί το αναλλοίωτο, η μέθοδος είναι η πιο κατάληλη για αναγνώριση συγκεκριμένων αντικειμένων. Εμείς την εφαρμόζουμε σε αναγνώριση αξιοθέατων, διεξάγοντας πειράματα σε δικό μας σύνολο δεδομένων, το οποίο έχει κατασκευαστεί από το σύνολο δεδομένων World cities μέσω μιας ημιαυτόνομης διαδικασίας, η οποία συνδυάζει οπτική και γεωγραφική συσταδοποίηση. Συγκρίνουμε με έναν ταξινομητή αναφοράς (baseline), ο οποίος χρησιμοποιεί BoW και πετυχαίνουμε περισσότερο από διπλάσια αύξηση σε ακρίβεια για πειράματα μέχρι και 68 αξιοθέατων.	el
dc.description.abstract	In the framework of this Diploma thesis we introduce a new image categorization method, which integrates spatial matching and indexing in the classification process. Spatial matching is based on Hough pyramid matching (HPM); indexing is based on an inverted file structure as in image retrieval; and classification is carried out with a multiclass support vector machine (SVM) classifier. We use HPM as an image similarity measure and we show that under reasonable assumptions it is a Mercer kernel. We do so by explicitly expressing it as an inner product in a high dimensional space where images lie given an appropriate quantized representation of their local features and descriptors. We then use this kernel for SVM training instead of a linear kernel, which is a typical choice under the bag of words (BoW) model. It is the first time that a kernel function takes spatial configuration into account while being invariant to translation, scale and rotation. In most cases, artificial perturbations are the only way to achieve geometric invariance, with an exponential increase of training time. We train one binary SVM classifier for each category following an one-versus-the-rest strategy and then combine individual classifiers into one multiclass classifier. Comparing to nearest-neighbor classifier using e.g. image retrieval methods, we exploit the sparse representation of SVMs: at classification time, the query image is matched via HPM against the chosen support vectors only. However, matching need not be exhaustive. Support vectors are indexed into an inverted file, and HPM may be applied only to a small subset that is top-ranking according to any scalar similarity measure, e.g. based on BoW. The method therefore easily applies to large scale classification, while training for unseen classes does not require re-training for existing ones. Due to the nature of local features and their use in invariant matching, the method is most appropriate for specific object recognition. We apply it to landmark recognition, conducting experiments on our own dataset, constructed from the World cities dataset via a semiautomatic process that combines visual and geographical clustering. We compare to a baseline classifier using a BoW representation and achieve more than a twofold increase in accuracy on experiments of up to 68 landmarks.	en
dc.description.statementofresponsibility	Αγνή Δ. Δελβινιώτη	el
dc.language.iso	el	en
dc.rights	ETDFree-policy.xml	en
dc.subject	Κατηγοριοποίηση εικόνων	el
dc.subject	Εκμάθηση με χρήση πυρήνων	el
dc.subject	Χωρικό ταίριασμα	el
dc.subject	Δεικτοδότηση	el
dc.subject	Ανάκτηση εικόνων	el
dc.subject	Αναγνώριση αξιοθέατων	el
dc.subject	Image categorization	en
dc.subject	Learning using kernels	en
dc.subject	Spatial matching	en
dc.subject	Indexing	en
dc.subject	Image retrieval	en
dc.subject	Landmark recognition	en
dc.title	Κατηγοριοποίηση εικόνων με τεχνικές χωρικού ταιριάσματος και δεικτοδότησης	el
dc.title.alternative	Image categorization using spatial matching and indexing	en
dc.type	bachelorThesis	el (en)
dc.date.accepted	2012-10-02	-
dc.date.modified	2012-10-30	-
dc.contributor.advisorcommitteemember	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
dc.contributor.advisorcommitteemember	Στάμου, Γεώργιος	el
dc.contributor.committeemember	Κόλλιας, Στέφανος	el
dc.contributor.committeemember	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
dc.contributor.committeemember	Στάμου, Γεώργιος	el
dc.contributor.department	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Επεξεργασίας Εικόνας, Βίντεο και Πολυμέσων	el
dc.date.recordmanipulation.recordcreated	2013-01-15	-
dc.date.recordmanipulation.recordmodified	2013-01-15	-