HEAL DSpace

Morphological Diffusion for Handwritten Text Generation

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μπακάλης, Δημήτριος el
dc.contributor.author Bakalis, Dimitrios en
dc.date.accessioned 2024-03-12T09:39:41Z
dc.date.available 2024-03-12T09:39:41Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58987
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26683
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Βαθιά Μάθηση el
dc.subject Γενετική Τεχνητή Νοημοσύνη el
dc.subject Μορφολογικά Μαθηματικά el
dc.subject Μοντέλα Διάχυσης el
dc.subject Παραγωγή Χειρόγραφου Κειμένου el
dc.subject Deep Learning en
dc.subject Generative AI el
dc.subject Morphological Mathematics el
dc.subject Diffusion Models el
dc.subject Handwritten Text Generation el
dc.title Morphological Diffusion for Handwritten Text Generation en
heal.type bachelorThesis
heal.classification Όραση Υπολογιστών el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-10-20
heal.abstract Η Γενετική Τεχνητή Νοημοσύνη βρίσκεται στην πρώτη γραμμή της σύγχρονης τεχνολογίας, επεκτείνοντας τα όρια του τι μπορούν να δημιουργήσουν και να φανταστούν οι υπολογιστικές μηχανές. Το συγκεκριμένο πεδίο αντιπροσωπεύει έναν επαναστατικό συνδυασμό της επιστήμης των υπολογιστών, της μηχανικής μάθησης και των νευρωνικών δικτύων, επιτρέποντας στους υπολογιστές να δημιουργούν πρωτότυπο περιεχόμενο, που μιμείται την ανθρώπινη δημιουργικότητα. Η ανάπτυξη της γενετικής τεχνητής νοημοσύνης έχει προκαλέσει μια επανάσταση σε διάφορους τομείς, από τη δημιουργία περιεχομένου και την ψυχαγωγία έως την υγεία και τη χρηματοοικονομία. Σε αυτήν τη διπλωματική, χρησιμοποιούμε μοντέλα διάχυσης, για να αντιμετωπίσουμε το περίπλοκο πρόβλημα της Παραγωγής Χειρόγραφου Κειμένου, εστιάζοντας στο να το συνθέσουμε βάσει περιεχομένου κειμένου και στυλ γραφής. Εμπνεόμενοι από πρόσφατες εργασίες στον τομέα των γενικευμένων διαχύσεων, παρουσιάζουμε μία νέα μη γραμμική διαδικασία διάχυσης βασισμένη σε έναν θεμελιώδη τελεστή των μορφολογικών μαθηματικών, την διαστολή. Αρχικά, παρουσιάζουμε τα πειράματά μας στα σύνολα δεδομένων MNIST και CIFAR-10, παρέχοντας ένα βασικό proof-of-concept για την προσέγγισή μας. Έπειτα, συγκρίνουμε τη μεθοδολογία μας με πρόσφατες εξελίξεις στις γενικευμένες διαχύσεις, αναδεικνύοντας μία ανταγωνιστική απόδοση. Επιπλέον, προτείνουμε μια διαδικασία δύο σταδίων, συμπληρωμένη από την ενσωμάτωση ενός Παραγωγικού Ανταγωνιστικού Δικτύου (GAN), ώστε να επιτρέψουμε τη παραγωγή εικόνων υπό συνθήκη για το σύνολο δεδομένων MNIST. Η αξία της συγκεκριμένης προσέγγισης αναδεικνύεται ιδιαίτερα από το γεγονός ότι υπερβαίνει τις κλασικές διαδικασίες διάχυσης, όταν αποτελούνται από έναν περιορισμένο αριθμό βημάτων. Στη συνέχεια, εστιάζουμε την προσοχή μας στο περίπλοκο πρόβλημα της Παραγωγής Χειρόγραφου Κειμένου. Θα επιχειρήσουμε να παρέχουμε περαιτέρω βελτιστοποιήσεις, ενισχύοντας το ήδη υπάρχον state-of-the-art μοντέλο με πιο αποδοτικούς αλγόριθμους παραγωγής εικόνων, όπως αναφέρεται στη βιβλιογραφία. Επιπλέον, βελτιστοποιούμε την αποτελεσματικότητα του μοντέλου με την εισαγωγή της έννοιας της μορφολογικής διάχυσης. Συγκεκριμένα, αποκλίνουμε από το συμβατικό γκαουσιανό πλαίσιο και τροποποιούμε τη συνάρτηση καταστροφής εικόνων της διαδικασίας διάχυσης, υιοθετώντας τη μορφολογική διάχυση. Αυτή η μετατροπή παρέχει ανταγωνιστικά αποτελέσματα σε σύγκριση με τα κορυφαία μοντέλα όσον αφορά την ποιότητα, ενώ, ταυτόχρονα, μειώνει σημαντικά τις υπολογιστικές απαιτήσεις κατά τη διάρκεια, τόσο της εκπαίδευσης, όσο και της διαδικασίας παραγωγής εικόνων. el
heal.abstract Generative Artificial Intelligence, often referred to simply as "Generative AI", stands at the forefront of modern technology, pushing the boundaries of what machines can create and imagine. This remarkable field represents a ground breaking fusion of computer science, machine learning, and neural networks, enabling computers to generate original content that mimics human creativity. The emergence of generative AI has sparked a revolution in various domains, from content creation and entertainment to healthcare and finance. It has given birth to powerful applications, such as natural language generation, style transfer in images, and autonomous creative agents that can inspire, inform, and entertain. In this thesis, we use Diffusion Models to address the intricate challenge of Handwritten Text Generation (HTG), with a focus on conditioning it on textual content and writing style. Drawing inspiration from recent breakthroughs in the realm of generalized diffusions, we introduce a novel non-linear diffusion process rooted in a fundamental operation of morphological mathematics, specifically, the dilation. We initially present our baseline experiments conducted on the MNIST and CIFAR-10 datasets, serving as a foundational proof-of-concept for our novel approach. We compare our methodology with recent advancements in generalized diffusions, shedding light on its comparative performance. Furthermore, we advocate for a two-stage approach, complemented by the inclusion of a Generative Adversarial Network (GAN), to facilitate conditional generation within the MNIST dataset. This approach proves its mettle by outperforming classic diffusion frameworks, when operating within a constrained number of timesteps. Subsequently, we pivot our focus towards the intricate task of Handwritten Text Generation. In a quest for optimization, we enhance the existing state-of-the-art model with more efficient sampling algorithms, as documented in the bibliography. Furthermore, we streamline the model’s efficiency by introducing the concept of morphological diffusion. Specifically, we deviate from the conventional Gaussian framework and modify the degradation function within the latent diffusion process to embrace morphological diffusion. This transformation yields competitive results, rivalling the state-of-the-art, all while significantly reducing the computational demands imposed during both training and sampling procedures. en
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 136 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα