Στην παρούσα διπλωματική εργασία μελετάμε τεχνικές πάνω στην ανάκτηση εικόνων. Περιγράφουμε όλα τα στάδια της ανάκτησης, δίνοντας έμφαση στην κατασκευή λεξικών μέσω συσταδοποίησης των οπτικών χαρακτηριστικών. Στη συνέχεια αναφέρουμε τα προβλήματα που προκύπτουν λόγω της κβαντοποίησης των χαρακτηριστικών και παρουσιάζουμε κάποιες τεχνικές που τα απαλύνουν. Μια απο αυτές τις τεχνικές περιλαμβάνει τή χρήση συνώνυμων οπτικών λέξεων. Η εύρεση συνώνυμων οπτικών λέξεων προυποθέτει την κατασκευή συνόλων από όμοια χαρακτηριστικά. Για το σκοπό αυτό, αναπτύσσουμε μια καινοτόμο τεχνική κατασκευής συνόλων όμοιων χαρακτηριστικών από εικόνες που γνωρίζουμε τη γεωγραφική τους θέση. Αρχικά με δύο διαδοχικές συσταδοποιήσεις των εικόνων με βάση α) τη γεωγραφική θέση και β) τα οπτικά τους χαρακτηριστικά βρίσκουμε συστάδες από εικόνες που εμπεριέχουν το ίδιο αντικείμενο. Τα όμοια χαρακτηριστικά ανιχνεύονται μέσα σε αυτές τις συστάδες, συγκρίνοντας τις εικόνες της, με το κέντρο της κάθε συστάδας που αποτελεί την εικόνα αναφοράς. Βασισμένοι σε σύνολα από όμοια χαρακτηριστικά, κατασκευάζουμε τα συνώνυμα των οπτικών λέξεων και πραγματοποιούμε πειράματα στην ανάκτηση εικόνων με τη συλλογή Oxford Buildings.
In this diploma thesis we investigate large scale image retrieval. We describe the stages of image retrieval, giving emphasis in the visual vocabulary construction. Moreover, we mention the problems that arise due to quantization of the descriptors and introduce several techniques that appease them. More specific, one of these techniques introduces the use of synonym visual words. In order to discover the synonym visual word we should construct sets of matching image patches, called feature tracks. For this purpose, we develop a novel technique for constructing feature tracks. Given a collection of geo-tagged images, we cluster these images a) according to their locations and b) according to their visual features, hence we obtain view cluster: clusters with images that depict the same scene. Matching features are discovered, through geometric verification between the images in the cluster and the image reference (center of the cluster). Given the feature tracks, we can find matching visual words. Finally, we test and evaluate the performance of this technique implementing retrieval experiments in Oxford building dataset.