dc.contributor.author |
Ρετσινάς, Γιώργος
|
el |
dc.contributor.author |
Retsinas, Georgios K.
|
en |
dc.date.accessioned |
2020-03-12T11:02:57Z |
|
dc.date.available |
2020-03-12T11:02:57Z |
|
dc.date.issued |
2020-03-12 |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/49947 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.17645 |
|
dc.description.abstract |
Document Analysis and Recognition is a prominent research area which combines the fields of Computer Vision and Machine Learning and has a great impact to humanitarian studies, by unraveling information stored in collections of historical documents all over the world. In this PhD thesis, we focus on extracting and learning visual representations capable of successfully detecting and recognizing text in handwritten documents. The main intention behind the developed methodologies, presented in thesis, is the creation of efficient systems with minimal computational requirements, aiming towards real-time applications. During the thesis, we tackle document-related problems of increasing difficulty, while the main goal is the development of a effective word detection approach by focusing on the improvement of the extracted visual representation of text. Specifically we explore feature extraction techniques along with possible improvement modifications, based on the specific characteristics of text images (possible text deformations e.t.c). Typical handcrafted feature extraction methods are compared to generating visual representations either from manifold embedding techniques or from deep learning approaches, which both show superior performance. An important part of this thesis is the study of Convolutional Neural Networks (CNNs) for the word detection problem along with their generalization capability, i.e.if it is possible to generate transferable and discriminative deep features. To this end, we propose several modified architectures in order to create compact, yet well-performing, features. Furthermore, we present a novel deep learning approach that combines both spotting and recognition tasks, leading to superior performance, while we also tackle the problem of line-level spotting from deep features viewpoint. Finally, we address the more generic neural network compression problem, which is not limited to document-related tasks. Specifically, we design two different approaches for model compression, both achieving significant compression according to size-accuracy trade-off on different datasets and settings, including image classification and keyword spotting tasks. |
en |
dc.rights |
Default License |
|
dc.subject |
Document snalysis and recognition |
en |
dc.subject |
Keyword spotting |
en |
dc.subject |
Handwritten word representation |
en |
dc.subject |
Deep learning |
en |
dc.subject |
Neural network compression |
en |
dc.subject |
Επεξεργασία και αναγνώριση κειμένων |
el |
dc.subject |
Εντοπισμός λέξεων |
el |
dc.subject |
Αναπαράσταση χειρόγραφων λέξεων |
el |
dc.subject |
Βαθιά μάθηση |
el |
dc.subject |
Συμπίεση νευρωνικών δικτύων |
el |
dc.title |
Visual Representation Learning for Document Image Recognition |
en |
dc.title |
Εκμάθηση Οπτικών Αναπαραστάσεων για Αναγνώριση σε Εικόνες Εγγράφων |
el |
dc.contributor.department |
Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων |
el |
heal.type |
doctoralThesis |
|
heal.classification |
Computer Science |
en |
heal.classification |
Επιστήμη Υπολογιστών |
el |
heal.language |
el |
|
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2020-02-27 |
|
heal.abstract |
Η ανάλυση και αναγνώριση εικόνων εγγραφών αποτελεί έναν σημαντικό τομέα ερευνάς που συνδυάζει του τομείς της Όρασης Υπολογιστών και Μηχανικής Μάθησης και έχει άμεση επίδραση στον κλάδο των ανθρωπιστικών σπουδών, καθώς είναι δυνατό να αποκτηθεί αυτοματοποιημένη πρόσβαση στην περικλείουσα πληροφορία μεγάλου όγκου ιστορικών εγγραφών. Στην παρούσα διδακτορική διατριβή, επικεντρωνόμαστε στην εξαγωγή και εκμάθηση οπτικών αναπαραστάσεων με σκοπό τον επιτυχή εντοπισμό και την αναγνώριση κειμένου σε χειρόγραφα έγγραφα. Κύριος γνώμονας των αναπτυχθέντων μεθοδολογιών είναι η δημιουργία αποδοτικών συστημάτων με ελαχιστοποιημένες υπολογιστικές απαιτήσεις. Στην πορεία της διατριβής, καταπιανόμαστε με προβλήματα κλιμακούμενης δυσκολίας και απαιτήσεων με τελικό στόχο ένα αποδοτικό σύστημα εντοπισμού λέξεων, εστιάζοντας στην βελτιστοποίηση των οπτικών αναπαραστάσεων από λέξεις. Συγκεκριμένα εξετάζουμε τεχνικές εξαγωγής χαρακτηριστικών, αλλά και τρόπους βελτιστοποίησης της απόδοσής τους, δεδομένου της ιδιομορφίας των εικόνων κειμένου. Κλασσικές τεχνικές εξαγωγής χαρακτηριστικών έρχονται σε αντιδιαστολή με την χρήση τεχνικών βαθιάς μάθησης ως μεθόδους για την παραγωγή αποδοτικών οπτικών αναπαραστάσεων. Ιδιαίτερη σημασία δίνεται στην μελέτη συνελικτικών νευρωνικών δικτύων και κάτω από ποίες συνθήκες είναι ικανά να παράγουν τέτοιες συμπαγείς αναπαραστάσεις, ικανές να γενικεύουν και εκτός του συνόλου εκπαίδευσης. Έχοντας μελετήσει διεξοδικά το πρόβλημα εξαγωγής οπτικών αναπαραστάσεων λέξεων, προτείναμε προσεγγίσεις για την εφαρμογή εντοπισμού λέξεων σε επίπεδο γραμμής για την αποφυγή της κατάτμησης ενός κειμένου σε λέξεις (η κατάτμηση σε γραμμές είναι ένα αρκετά μελετημένο πρόβλημα στην βιβλιογραφία), ενώ προτείναμε και έναν πρωτότυπο τρόπο να συνενώσουμε ένα σύστημα αναγνώρισης και εντοπισμού λέξεων. Τέλος, καταπιαστήκαμε με το γενικό και ευρύτερο θέμα της συμπίεσης νευρωνικών δικτύων, καθώς κατά την μελέτη μας σε τεχνικές βαθιάς μάθησης συχνά συναντήσαμε πολύπλοκα μοντέλα εκατομμυρίων παραμέτρων, ιδιαίτερα απαιτητικά σε πόρους. Σε αυτή την κατεύθυνση προτείναμε δυο εναλλακτικές προσεγγίσεις συμπίεσης, μια με χρήση κοινών βαρών και μια με αραιοποίηση των βαρών, που αξιολογήθηκαν σε δημοφιλείς βάσεις κατηγοριοποίησης εικόνων αλλά και σε εφαρμογές κειμένων. |
el |
heal.advisorName |
Μαραγκός, Πέτρος |
|
heal.committeeMemberName |
Γάτος, Βασίλειος |
el |
heal.committeeMemberName |
Τζαφέστας, Κωνσταντίνος |
el |
heal.committeeMemberName |
Ποταμιάνος, Γεράσιμος |
el |
heal.committeeMemberName |
Γκούμας, Γεώργιος |
el |
heal.committeeMemberName |
Κατσούρος, Βασίλειος |
el |
heal.committeeMemberName |
Κόλλιας, Στέφανος |
el |
heal.academicPublisher |
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
220 σ. |
|
heal.fullTextAvailability |
false |
|