HEAL DSpace

Visual Representation Learning for Document Image Recognition

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Ρετσινάς, Γιώργος el
dc.contributor.author Retsinas, Georgios K. en
dc.date.accessioned 2020-03-12T11:02:57Z
dc.date.available 2020-03-12T11:02:57Z
dc.date.issued 2020-03-12
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/49947
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.17645
dc.description.abstract Document Analysis and Recognition is a prominent research area which combines the fields of Computer Vision and Machine Learning and has a great impact to humanitarian studies, by unraveling information stored in collections of historical documents all over the world. In this PhD thesis, we focus on extracting and learning visual representations capable of successfully detecting and recognizing text in handwritten documents. The main intention behind the developed methodologies, presented in thesis, is the creation of efficient systems with minimal computational requirements, aiming towards real-time applications. During the thesis, we tackle document-related problems of increasing difficulty, while the main goal is the development of a effective word detection approach by focusing on the improvement of the extracted visual representation of text. Specifically we explore feature extraction techniques along with possible improvement modifications, based on the specific characteristics of text images (possible text deformations e.t.c). Typical handcrafted feature extraction methods are compared to generating visual representations either from manifold embedding techniques or from deep learning approaches, which both show superior performance. An important part of this thesis is the study of Convolutional Neural Networks (CNNs) for the word detection problem along with their generalization capability, i.e.if it is possible to generate transferable and discriminative deep features. To this end, we propose several modified architectures in order to create compact, yet well-performing, features. Furthermore, we present a novel deep learning approach that combines both spotting and recognition tasks, leading to superior performance, while we also tackle the problem of line-level spotting from deep features viewpoint. Finally, we address the more generic neural network compression problem, which is not limited to document-related tasks. Specifically, we design two different approaches for model compression, both achieving significant compression according to size-accuracy trade-off on different datasets and settings, including image classification and keyword spotting tasks. en
dc.rights Default License
dc.subject Document snalysis and recognition en
dc.subject Keyword spotting en
dc.subject Handwritten word representation en
dc.subject Deep learning en
dc.subject Neural network compression en
dc.subject Επεξεργασία και αναγνώριση κειμένων el
dc.subject Εντοπισμός λέξεων el
dc.subject Αναπαράσταση χειρόγραφων λέξεων el
dc.subject Βαθιά μάθηση el
dc.subject Συμπίεση νευρωνικών δικτύων el
dc.title Visual Representation Learning for Document Image Recognition en
dc.title Εκμάθηση Οπτικών Αναπαραστάσεων για Αναγνώριση σε Εικόνες Εγγράφων el
dc.contributor.department Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.type doctoralThesis
heal.classification Computer Science en
heal.classification Επιστήμη Υπολογιστών el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-02-27
heal.abstract Η ανάλυση και αναγνώριση εικόνων εγγραφών αποτελεί έναν σημαντικό τομέα ερευνάς που συνδυάζει του τομείς της Όρασης Υπολογιστών και Μηχανικής Μάθησης και έχει άμεση επίδραση στον κλάδο των ανθρωπιστικών σπουδών, καθώς είναι δυνατό να αποκτηθεί αυτοματοποιημένη πρόσβαση στην περικλείουσα πληροφορία μεγάλου όγκου ιστορικών εγγραφών. Στην παρούσα διδακτορική διατριβή, επικεντρωνόμαστε στην εξαγωγή και εκμάθηση οπτικών αναπαραστάσεων με σκοπό τον επιτυχή εντοπισμό και την αναγνώριση κειμένου σε χειρόγραφα έγγραφα. Κύριος γνώμονας των αναπτυχθέντων μεθοδολογιών είναι η δημιουργία αποδοτικών συστημάτων με ελαχιστοποιημένες υπολογιστικές απαιτήσεις. Στην πορεία της διατριβής, καταπιανόμαστε με προβλήματα κλιμακούμενης δυσκολίας και απαιτήσεων με τελικό στόχο ένα αποδοτικό σύστημα εντοπισμού λέξεων, εστιάζοντας στην βελτιστοποίηση των οπτικών αναπαραστάσεων από λέξεις. Συγκεκριμένα εξετάζουμε τεχνικές εξαγωγής χαρακτηριστικών, αλλά και τρόπους βελτιστοποίησης της απόδοσής τους, δεδομένου της ιδιομορφίας των εικόνων κειμένου. Κλασσικές τεχνικές εξαγωγής χαρακτηριστικών έρχονται σε αντιδιαστολή με την χρήση τεχνικών βαθιάς μάθησης ως μεθόδους για την παραγωγή αποδοτικών οπτικών αναπαραστάσεων. Ιδιαίτερη σημασία δίνεται στην μελέτη συνελικτικών νευρωνικών δικτύων και κάτω από ποίες συνθήκες είναι ικανά να παράγουν τέτοιες συμπαγείς αναπαραστάσεις, ικανές να γενικεύουν και εκτός του συνόλου εκπαίδευσης. Έχοντας μελετήσει διεξοδικά το πρόβλημα εξαγωγής οπτικών αναπαραστάσεων λέξεων, προτείναμε προσεγγίσεις για την εφαρμογή εντοπισμού λέξεων σε επίπεδο γραμμής για την αποφυγή της κατάτμησης ενός κειμένου σε λέξεις (η κατάτμηση σε γραμμές είναι ένα αρκετά μελετημένο πρόβλημα στην βιβλιογραφία), ενώ προτείναμε και έναν πρωτότυπο τρόπο να συνενώσουμε ένα σύστημα αναγνώρισης και εντοπισμού λέξεων. Τέλος, καταπιαστήκαμε με το γενικό και ευρύτερο θέμα της συμπίεσης νευρωνικών δικτύων, καθώς κατά την μελέτη μας σε τεχνικές βαθιάς μάθησης συχνά συναντήσαμε πολύπλοκα μοντέλα εκατομμυρίων παραμέτρων, ιδιαίτερα απαιτητικά σε πόρους. Σε αυτή την κατεύθυνση προτείναμε δυο εναλλακτικές προσεγγίσεις συμπίεσης, μια με χρήση κοινών βαρών και μια με αραιοποίηση των βαρών, που αξιολογήθηκαν σε δημοφιλείς βάσεις κατηγοριοποίησης εικόνων αλλά και σε εφαρμογές κειμένων. el
heal.advisorName Μαραγκός, Πέτρος
heal.committeeMemberName Γάτος, Βασίλειος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.committeeMemberName Γκούμας, Γεώργιος el
heal.committeeMemberName Κατσούρος, Βασίλειος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 220 σ.
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής