Morphological Diffusion for Handwritten Text Generation

Μπακάλης, Δημήτριος; Bakalis, Dimitrios

dc.contributor.author	Μπακάλης, Δημήτριος	el
dc.contributor.author	Bakalis, Dimitrios	en
dc.date.accessioned	2024-03-12T09:39:41Z
dc.date.available	2024-03-12T09:39:41Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/58987
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.26683
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Βαθιά Μάθηση	el
dc.subject	Γενετική Τεχνητή Νοημοσύνη	el
dc.subject	Μορφολογικά Μαθηματικά	el
dc.subject	Μοντέλα Διάχυσης	el
dc.subject	Παραγωγή Χειρόγραφου Κειμένου	el
dc.subject	Deep Learning	en
dc.subject	Generative AI	el
dc.subject	Morphological Mathematics	el
dc.subject	Diffusion Models	el
dc.subject	Handwritten Text Generation	el
dc.title	Morphological Diffusion for Handwritten Text Generation	en
heal.type	bachelorThesis
heal.classification	Όραση Υπολογιστών	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-10-20
heal.abstract	Η Γενετική Τεχνητή Νοημοσύνη βρίσκεται στην πρώτη γραμμή της σύγχρονης τεχνολογίας, επεκτείνοντας τα όρια του τι μπορούν να δημιουργήσουν και να φανταστούν οι υπολογιστικές μηχανές. Το συγκεκριμένο πεδίο αντιπροσωπεύει έναν επαναστατικό συνδυασμό της επιστήμης των υπολογιστών, της μηχανικής μάθησης και των νευρωνικών δικτύων, επιτρέποντας στους υπολογιστές να δημιουργούν πρωτότυπο περιεχόμενο, που μιμείται την ανθρώπινη δημιουργικότητα. Η ανάπτυξη της γενετικής τεχνητής νοημοσύνης έχει προκαλέσει μια επανάσταση σε διάφορους τομείς, από τη δημιουργία περιεχομένου και την ψυχαγωγία έως την υγεία και τη χρηματοοικονομία. Σε αυτήν τη διπλωματική, χρησιμοποιούμε μοντέλα διάχυσης, για να αντιμετωπίσουμε το περίπλοκο πρόβλημα της Παραγωγής Χειρόγραφου Κειμένου, εστιάζοντας στο να το συνθέσουμε βάσει περιεχομένου κειμένου και στυλ γραφής. Εμπνεόμενοι από πρόσφατες εργασίες στον τομέα των γενικευμένων διαχύσεων, παρουσιάζουμε μία νέα μη γραμμική διαδικασία διάχυσης βασισμένη σε έναν θεμελιώδη τελεστή των μορφολογικών μαθηματικών, την διαστολή. Αρχικά, παρουσιάζουμε τα πειράματά μας στα σύνολα δεδομένων MNIST και CIFAR-10, παρέχοντας ένα βασικό proof-of-concept για την προσέγγισή μας. Έπειτα, συγκρίνουμε τη μεθοδολογία μας με πρόσφατες εξελίξεις στις γενικευμένες διαχύσεις, αναδεικνύοντας μία ανταγωνιστική απόδοση. Επιπλέον, προτείνουμε μια διαδικασία δύο σταδίων, συμπληρωμένη από την ενσωμάτωση ενός Παραγωγικού Ανταγωνιστικού Δικτύου (GAN), ώστε να επιτρέψουμε τη παραγωγή εικόνων υπό συνθήκη για το σύνολο δεδομένων MNIST. Η αξία της συγκεκριμένης προσέγγισης αναδεικνύεται ιδιαίτερα από το γεγονός ότι υπερβαίνει τις κλασικές διαδικασίες διάχυσης, όταν αποτελούνται από έναν περιορισμένο αριθμό βημάτων. Στη συνέχεια, εστιάζουμε την προσοχή μας στο περίπλοκο πρόβλημα της Παραγωγής Χειρόγραφου Κειμένου. Θα επιχειρήσουμε να παρέχουμε περαιτέρω βελτιστοποιήσεις, ενισχύοντας το ήδη υπάρχον state-of-the-art μοντέλο με πιο αποδοτικούς αλγόριθμους παραγωγής εικόνων, όπως αναφέρεται στη βιβλιογραφία. Επιπλέον, βελτιστοποιούμε την αποτελεσματικότητα του μοντέλου με την εισαγωγή της έννοιας της μορφολογικής διάχυσης. Συγκεκριμένα, αποκλίνουμε από το συμβατικό γκαουσιανό πλαίσιο και τροποποιούμε τη συνάρτηση καταστροφής εικόνων της διαδικασίας διάχυσης, υιοθετώντας τη μορφολογική διάχυση. Αυτή η μετατροπή παρέχει ανταγωνιστικά αποτελέσματα σε σύγκριση με τα κορυφαία μοντέλα όσον αφορά την ποιότητα, ενώ, ταυτόχρονα, μειώνει σημαντικά τις υπολογιστικές απαιτήσεις κατά τη διάρκεια, τόσο της εκπαίδευσης, όσο και της διαδικασίας παραγωγής εικόνων.	el
heal.abstract	Generative Artificial Intelligence, often referred to simply as "Generative AI", stands at the forefront of modern technology, pushing the boundaries of what machines can create and imagine. This remarkable field represents a ground breaking fusion of computer science, machine learning, and neural networks, enabling computers to generate original content that mimics human creativity. The emergence of generative AI has sparked a revolution in various domains, from content creation and entertainment to healthcare and finance. It has given birth to powerful applications, such as natural language generation, style transfer in images, and autonomous creative agents that can inspire, inform, and entertain. In this thesis, we use Diffusion Models to address the intricate challenge of Handwritten Text Generation (HTG), with a focus on conditioning it on textual content and writing style. Drawing inspiration from recent breakthroughs in the realm of generalized diffusions, we introduce a novel non-linear diffusion process rooted in a fundamental operation of morphological mathematics, specifically, the dilation. We initially present our baseline experiments conducted on the MNIST and CIFAR-10 datasets, serving as a foundational proof-of-concept for our novel approach. We compare our methodology with recent advancements in generalized diffusions, shedding light on its comparative performance. Furthermore, we advocate for a two-stage approach, complemented by the inclusion of a Generative Adversarial Network (GAN), to facilitate conditional generation within the MNIST dataset. This approach proves its mettle by outperforming classic diffusion frameworks, when operating within a constrained number of timesteps. Subsequently, we pivot our focus towards the intricate task of Handwritten Text Generation. In a quest for optimization, we enhance the existing state-of-the-art model with more efficient sampling algorithms, as documented in the bibliography. Furthermore, we streamline the model’s efficiency by introducing the concept of morphological diffusion. Specifically, we deviate from the conventional Gaussian framework and modify the degradation function within the latent diffusion process to embrace morphological diffusion. This transformation yields competitive results, rivalling the state-of-the-art, all while significantly reducing the computational demands imposed during both training and sampling procedures.	en
heal.advisorName	Μαραγκός, Πέτρος	el
heal.committeeMemberName	Ποταμιάνος, Γεράσιμος	el
heal.committeeMemberName	Τζαφέστας, Κωνσταντίνος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	136 σ.	el
heal.fullTextAvailability	false