HEAL DSpace

Ανίχνευση τοπικών χαρακτηριστικών για ανάκτηση οπτικής πληροφορίας

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βαρυτιμίδης, Χρήστος el
dc.contributor.author Varytimidis, Christos en
dc.date.accessioned 2016-07-06T10:12:01Z
dc.date.available 2016-07-06T10:12:01Z
dc.date.issued 2016-07-06
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/43001
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.2205
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject τοπικά χαρακτηριστικά el
dc.subject ανάκτηση εικόνων el
dc.subject βαθιά νευρωνικά δίκτυα el
dc.subject α-σχήματα el
dc.subject όραση υπολογιστών el
dc.subject local features en
dc.subject image retrieval en
dc.subject deep neural networks en
dc.subject alpha-shapes en
dc.subject computer vision en
dc.title Ανίχνευση τοπικών χαρακτηριστικών για ανάκτηση οπτικής πληροφορίας el
dc.title Local feature detection for visual information retrieval en
dc.contributor.department Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.type doctoralThesis
heal.classification ΑΝΤΙΛΗΨΗ ΚΑΙ ΟΡΑΣΗ ΥΠΟΛΟΓΙΣΤΩΝ el
heal.classification Computer vision en
heal.classificationURI http://data.seab.gr/concepts/12c1c913dbe758d67c4c509a6768bdbc7905830c
heal.classificationURI http://id.loc.gov/authorities/subjects/sh85029549
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2016-03-02
heal.abstract Η ανάλυση εικόνων και βίντεο βασίζεται στην ανάπτυξη τεχνικών που εξάγουν οπτικά χαρακτηριστικά και δημιουργούν ενδιάμεσες αναπαραστάσεις, για την επίλυση της ανίχνευσης και αναγνώρισης αντικειμένων, της αναζήτησης και ανάκτησης εικόνων και άλλων σύνθετων προβλημάτων. Η εξαγωγή τοπικών χαρακτηριστικών για τον εντοπισμό περιοχών ενδιαφέροντος σε στατικές εικόνες και χωρο-χρονικών σημείων ενδιαφέροντος σε ακολουθίες εικόνων (βίντεο), καθώς και η περιγραφή με τοπικούς ή καθολικούς περιγραφείς, δημιουργούν συμπαγείς αναπαραστάσεις της οπτικής πληροφορίας και χρησιμοποιούνται σήμερα ευρύτατα στην περιοχή της όρασης υπολογιστών. Παρά το γεγονός ότι τα τελευταία χρόνια έχουν προταθεί πολλοί αλγόριθμοι εξαγωγής τοπικών χαρακτηριστικών, το πεδίο έρευνας είναι ανοιχτό στην ανάπτυξη και χρησιμοποίηση νέων μεθόδων που μπορούν να παράγουν αποτελεσματικές αναπαραστάσεις και καλύτερες αποδόσεις. Επίσης, η ραγδαία ανάπτυξη και οι πολύ καλές αποδόσεις βαθιών αρχιτεκτονικών νευρωνικών δικτύων τα τελευταία χρόνια οδήγησε σε ακόμη πιο αποδοτικές εφαρμογές των περιγραφέων σε εικόνες και βίντεο. Στην παρούσα διατριβή περιγράφονται νέοι αλγόριθμοι εξαγωγής τοπικών χαρακτηριστικών για στατικές εικόνες, οι οποίοι βασίζονται σε γεωμετρικές ιδιότητες των εικόνων. Συγκεκριμένα, χρησιμοποιούνται τα α-σχήματα για την περιγραφή ενός συνόλου σημείων που εξάγονται από την εικόνα. Δεδομένου του συνόλου σημείων, τα α-σχήματα περιγράφουν αντικείμενα της εικόνας σε διάφορες κλίμακες και με διαφορετικό βαθμό λεπτομέρειας. Για την δειγματοληψία σημείων της εικόνας προτείνονται κατ' αρχήν δύο οικογένειες μεθόδων: δειγματοληψία επί ακμών και δειγματοληψία με διάχυση σφάλματος. Για τη δειγματοληψία επί ακμών, πέρα από μια βασική προσέγγιση ομοιόμορφης δειγματοληψίας που εξάγει δείγματα με σταθερή πυκνότητα, προτείνεται μια μέθοδος ανομοιόμορφης δειγματοληψίας που με εξαγωγή τοπικού αφινικού σχήματος μεταβάλει τοπικά την πυκνότητα δειγματοληψίας. Για τη δειγματοληψία με διάχυση σφάλματος προτείνονται δύο διαφορετικές προσεγγίσεις με χρήση συνεχών συναρτήσεων της φωτεινότητας της εικόνας. Η πρώτη βασίζεται στη χρήση πρώτων παραγώγων της φωτεινότητας (μέτρο κλίσης), ενώ η δεύτερη στη χρήση δεύτερων παραγώγων (απόκριση Hessian). Στο πλαίσιο της ανάπτυξης του προτεινόμενου ανιχνευτή WαSH, εξετάζεται η χρήση διαφορετικών τριγωνοποιήσεων και α-σχημάτων και προτείνονται ανισοτροπικά σταθμισμένα α-σχήματα που εκμεταλλεύονται το τοπικό σχήμα της κάθε περιοχής της τριγωνοποίησης. Για την επιλογή περιοχών ενδιαφέροντος, παρουσιάζονται νέα μέτρα αξιολόγησης των διαφορετικών συνεκτικών συνιστωσών των α-σχημάτων. Ο αλγόριθμος εξαγωγής τοπικών χαρακτηριστικών αξιολογείται ποιοτικά και ποσοτικά, εξετάζοντας όλες τις προτεινόμενες παραλλαγές σε κάθε βήμα του αλγορίθμου. Ο προτεινόμενος ανιχνευτής εξάγει συγκριτικά μικρό αριθμό χαρακτηριστικών από περιοχές της εικόνας που αντιστοιχούν σε τμήματα αντικειμένων που επαναλαμβάνονται συχνά. Η απόδοσή του συγκρίνεται με αυτή των μεθόδων της αιχμής της τεχνολογίας, ξεπερνώντας τις στις περισσότερες περιπτώσεις. Στη συνέχεια της διατριβής, προτείνουμε έναν αλγόριθμο εξαγωγής εύρωστων αναπαραστάσεων από ακολουθίες εικόνων (βίντεο), με χρήση βαθιών νευρωνικών δικτύων. Αρχικά γίνεται κατάτμηση των βίντεο σε πλάνα, με μια νέα μέθοδο που βασίζεται σε αλγορίθμους πρότασης περιοχών που έχουν αυξημένη πιθανότητα να περιλαμβάνουν αντικείμενα. Εξάγουμε ένα καθολικό μέτρο της πιθανότητας εμφάνισης αντικειμένων σε καρέ βίντεο, και σηματοδοτούμε την αλλαγή πλάνου στα καρέ που εμφανίζεται μεγάλη διακύμανση του εξεταζόμενου μέτρου. Ο αλγόριθμος χρησιμοποιεί τους χάρτες χαρακτηριστικών που εξάγονται από βαθιά νευρωνικά δίκτυα που έχουν χρησιμοποιηθεί για αναγνώριση αντικειμένων σε εικόνες για την περιγραφή των καρέ. Έπειτα εξάγεται ένας καθολικός και συμπαγής περιγραφέας για όλο το πλάνο, συναθροίζοντας τις μέγιστες αποκρίσεις των περιγραφέων. Η επίδοση του αλγορίθμου αποτιμάται σε ένα πείραμα ανάκτησης ιατρικών βίντεο, όπου επιτυγχάνεται βελτίωση της απόδοσης έναντι μεθόδων που χρησιμοποιούν τοπικά χαρακτηριστικά. el
heal.abstract Low-level image analysis offers an intermediate image representation that is used by high-level computer vision algorithms (e.g. object detection and recognition, image and video retrieval, image matching). Local features extracted as regions of interest, or spatio-temporal interest points extracted from videos, combined with local descriptors, as well as global descriptors, offer a compact representation of visual information. Despite the fact that many local feature detectors have been proposed recently, this field of research is still open to new methods, as new and more complex application fields are introduced. Lately, the interest of the computer vision community has focused on deep neural networks, based on recent results in image classification tasks. We propose an new local feature detector, based on geometric constructions. In particular, we propose using α-shapes to describe the shape of a set of points sampled on an image. Given the point set, α-shapes describe image objects in different scales and with different level of detail. For image sampling, we propose two different approaches: sampling on image edges and sampling using error diffusion. For sampling image edges, we propose a method that exploits the local affine shape in order to adapt sampling density, as well as a baseline method that uses fixed density sampling. We also propose sampling using error diffusion on two different functions of image intensity. The first one is based on first-order derivatives of image intensity (grafient strength), while the second one is based on second-order derivatives (Hessian responce). We use different triangulations of the samples and different α-shapes, and propose the anisotropically weighted α-shapes that exploit the local shape of each simplex of the triangulation. For selecting regions of interest, we propose different importance measures for the connected components of α-shapes. We qualitatively and quantitatively evaluate the proposed local feature extraction algorithm, under all proposed variations for each algorithm step. Our detector extracts a relatively small number of features from image regions that correspond to highly repeatable object parts. Its performance exceeds the state-of-the-art in most cases. We also propose an efficient method for describing video clips, using deep neural networks. We segment videos in shots, using a novel method that exploits a global “objectness” measure. For describing video frames, we exploit neural networks feature maps, and then aggregate the responses to create a single descriptor for the video shot. We evaluate the proposed method on a surgical video retrieval experiment, where other methods based on local features are outperformed. en
heal.advisorName Κόλλιας, Στέφανος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Εμίρης, Ιωάννης el
heal.committeeMemberName Τσανάκας, Παναγιώτης el
heal.committeeMemberName Λουκάς, Κωνσταντίνος el
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 129
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα