Στο πλαίσιο αυτής της Διπλωματικής εργασίας, εισάγουμε μια νέα μέθοδο κατηγοριοποίησης εικόνων, η οποία ενσωματώνει το χωρικό ταίριασμα και τη δεικτοδότηση στη διαδικασία ταξινόμησης. Το χωρικό ταίριασμα βασίζεται στο ταίριασμα πυραμίδας Hough (Hough pyramid matching (HPM), η δεικτοδότηση βασίζεται στη δομή του ανεστραμμένου αρχείου, όπως στην ανάκτηση εικόνων και η ταξινόμηση πραγματοποιείται με μια μηχανή διανυσμάτων υποστήριξης (support vector machine (SVM) ως ταξινομητή πολλών κλάσεων.
Χρησιμοποιούμε την τεχνική HPM ως μέτρο ομοιότητας και κάνοντας λογικές υποθέσεις δείχνουμε ότι αποτελεί πυρήνας Mercer. Στην κατεύθυνση αυτή, το εκφράζουμε σαν ένα εσωτερικό γινόμενο σε έναν χώρο πολλών διαστάσεων, όπου οι εικόνες διαθέτουν μια κβαντισμένη αναπαράσταση των τοπικών χαρακτηριστικών τους και των περιγραφέων τους. Στη συνέχεια χρησιμοποιούμε αυτόν τον πυρήνα στην εκπαίδευση με SVM αντί για κάποιο γραμμικό πυρήνα, ο οποίος είναι η τυπική επιλογή με βάση το μοντέλο “σάκος οπτικών λέξεων” (bag of words) (BoW). Είναι η πρώτη φορά που μια συνάρτηση πυρήνας λαμβάνει υπόψιν τη χωρική διάταξη, διατηρώντας το αναλλοίωτο ως προς τη μετατόπιση, την κλίμακα και την περιστροφή. Στις περισσότερες περιπτώσεις, τεχνητές μεταβολές είναι ο μόνος τρόπος να επιτευχθεί το γεωμετρικό αναλλοίωτο, με μια εκθετική αύξηση του χρόνου εκπαίδευσης.
Εκπαιδεύουμε ένα δυαδικό SVM ταξινομητή για κάθε κατηγορία ακολουθώντας την προσέγγιση “ένα έναντι των υπολοίπων” (one-versus-the-rest) και στη συνέχεια συνδυάζουμε τους μεμονωμένους ταξινομητές σε έναν ταξινομητή πολλών κλάσεων. Συγκριτικά με τον ταξινομητή του “πιο κοντινού γείτονα” (nearest neighbor) που χρησιμοποιούν για παράδειγμα οι μέθοδοι ανάκτησης εικόνων, εκμεταλλευόμαστε την αραιή αναπαράσταση των SVM: σε χρόνο ταξινόμησης, η εικόνα αναζήτησης ταιριάζεται με HPM με βάση μόνο τα διανύσματα υποστήριξης. Παρόλα αυτά, το ταίριασμα δε χρειάζεται να είναι εξαντλητικό. Τα διανύσματα υποστήριξης δεικτοδοτούνται με βάση ένα ανεστραμμένο αρχείο, και o HPM εφαρμόζεται μόνο σε ένα μικρό υποσύνολο, το οποίο έχει την υψηλότερη κατάταξη με βάση κάποιο βαθμωτό μέτρο, όπως για παράδειγμα με βάση το BoW. Η μέθοδος επομένως εφαρμόζεται εύκολα σε ταξινόμηση μεγάλης κλίμακας, ενώ η εκπαίδευση νέων κλάσεων δεν απαιτεί επανεκπαίδευση των ήδη υπαρχόντων.
Λόγω της φύσης των τοπικών χαρακτηριστικών και της χρήσης τους σε ταίριασμα που διατηρεί το αναλλοίωτο, η μέθοδος είναι η πιο κατάληλη για αναγνώριση συγκεκριμένων αντικειμένων. Εμείς την εφαρμόζουμε σε αναγνώριση αξιοθέατων, διεξάγοντας πειράματα σε δικό μας σύνολο δεδομένων, το οποίο έχει κατασκευαστεί από το σύνολο δεδομένων World cities μέσω μιας ημιαυτόνομης διαδικασίας, η οποία συνδυάζει οπτική και γεωγραφική συσταδοποίηση. Συγκρίνουμε με έναν ταξινομητή αναφοράς (baseline), ο οποίος χρησιμοποιεί BoW και πετυχαίνουμε περισσότερο από διπλάσια αύξηση σε ακρίβεια για πειράματα μέχρι και 68 αξιοθέατων.
In the framework of this Diploma thesis we introduce a new image categorization method, which integrates spatial matching and indexing in the classification process. Spatial matching is based on Hough pyramid matching (HPM); indexing is based on an inverted file structure as in image retrieval; and classification is carried out with a multiclass support vector machine (SVM) classifier.
We use HPM as an image similarity measure and we show that under reasonable assumptions it is a Mercer kernel. We do so by explicitly expressing it as an inner product in a high dimensional space where images lie given an appropriate quantized representation of their local features and descriptors. We then use this kernel for SVM training instead of a linear kernel, which is a typical choice under the bag of words (BoW) model. It is the first time that a kernel function takes spatial configuration into account while being invariant to translation, scale and rotation. In most cases, artificial perturbations are the only way to achieve geometric invariance, with an exponential increase of training time.
We train one binary SVM classifier for each category following an one-versus-the-rest strategy and then combine individual classifiers into one multiclass classifier. Comparing to nearest-neighbor classifier using e.g. image retrieval methods, we exploit the sparse representation of SVMs: at classification time, the query image is matched via HPM against the chosen support vectors only. However, matching need not be exhaustive. Support vectors are indexed into an inverted file, and HPM may be applied only to a small subset that is top-ranking according to any scalar similarity measure, e.g. based on BoW. The method therefore easily applies to large scale classification, while training for unseen classes does not require re-training for existing ones.
Due to the nature of local features and their use in invariant matching, the method is most appropriate for specific object recognition. We apply it to landmark recognition, conducting experiments on our own dataset, constructed from the World cities dataset via a semiautomatic process that combines visual and geographical clustering. We compare to a baseline classifier using a BoW representation and achieve more than a twofold increase in accuracy on experiments of up to 68 landmarks.