dc.contributor.author | Μπακάλης, Δημήτριος | el |
dc.contributor.author | Bakalis, Dimitrios | en |
dc.date.accessioned | 2024-03-12T09:39:41Z | |
dc.date.available | 2024-03-12T09:39:41Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/58987 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.26683 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Βαθιά Μάθηση | el |
dc.subject | Γενετική Τεχνητή Νοημοσύνη | el |
dc.subject | Μορφολογικά Μαθηματικά | el |
dc.subject | Μοντέλα Διάχυσης | el |
dc.subject | Παραγωγή Χειρόγραφου Κειμένου | el |
dc.subject | Deep Learning | en |
dc.subject | Generative AI | el |
dc.subject | Morphological Mathematics | el |
dc.subject | Diffusion Models | el |
dc.subject | Handwritten Text Generation | el |
dc.title | Morphological Diffusion for Handwritten Text Generation | en |
heal.type | bachelorThesis | |
heal.classification | Όραση Υπολογιστών | el |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2023-10-20 | |
heal.abstract | Η Γενετική Τεχνητή Νοημοσύνη βρίσκεται στην πρώτη γραμμή της σύγχρονης τεχνολογίας, επεκτείνοντας τα όρια του τι μπορούν να δημιουργήσουν και να φανταστούν οι υπολογιστικές μηχανές. Το συγκεκριμένο πεδίο αντιπροσωπεύει έναν επαναστατικό συνδυασμό της επιστήμης των υπολογιστών, της μηχανικής μάθησης και των νευρωνικών δικτύων, επιτρέποντας στους υπολογιστές να δημιουργούν πρωτότυπο περιεχόμενο, που μιμείται την ανθρώπινη δημιουργικότητα. Η ανάπτυξη της γενετικής τεχνητής νοημοσύνης έχει προκαλέσει μια επανάσταση σε διάφορους τομείς, από τη δημιουργία περιεχομένου και την ψυχαγωγία έως την υγεία και τη χρηματοοικονομία. Σε αυτήν τη διπλωματική, χρησιμοποιούμε μοντέλα διάχυσης, για να αντιμετωπίσουμε το περίπλοκο πρόβλημα της Παραγωγής Χειρόγραφου Κειμένου, εστιάζοντας στο να το συνθέσουμε βάσει περιεχομένου κειμένου και στυλ γραφής. Εμπνεόμενοι από πρόσφατες εργασίες στον τομέα των γενικευμένων διαχύσεων, παρουσιάζουμε μία νέα μη γραμμική διαδικασία διάχυσης βασισμένη σε έναν θεμελιώδη τελεστή των μορφολογικών μαθηματικών, την διαστολή. Αρχικά, παρουσιάζουμε τα πειράματά μας στα σύνολα δεδομένων MNIST και CIFAR-10, παρέχοντας ένα βασικό proof-of-concept για την προσέγγισή μας. Έπειτα, συγκρίνουμε τη μεθοδολογία μας με πρόσφατες εξελίξεις στις γενικευμένες διαχύσεις, αναδεικνύοντας μία ανταγωνιστική απόδοση. Επιπλέον, προτείνουμε μια διαδικασία δύο σταδίων, συμπληρωμένη από την ενσωμάτωση ενός Παραγωγικού Ανταγωνιστικού Δικτύου (GAN), ώστε να επιτρέψουμε τη παραγωγή εικόνων υπό συνθήκη για το σύνολο δεδομένων MNIST. Η αξία της συγκεκριμένης προσέγγισης αναδεικνύεται ιδιαίτερα από το γεγονός ότι υπερβαίνει τις κλασικές διαδικασίες διάχυσης, όταν αποτελούνται από έναν περιορισμένο αριθμό βημάτων. Στη συνέχεια, εστιάζουμε την προσοχή μας στο περίπλοκο πρόβλημα της Παραγωγής Χειρόγραφου Κειμένου. Θα επιχειρήσουμε να παρέχουμε περαιτέρω βελτιστοποιήσεις, ενισχύοντας το ήδη υπάρχον state-of-the-art μοντέλο με πιο αποδοτικούς αλγόριθμους παραγωγής εικόνων, όπως αναφέρεται στη βιβλιογραφία. Επιπλέον, βελτιστοποιούμε την αποτελεσματικότητα του μοντέλου με την εισαγωγή της έννοιας της μορφολογικής διάχυσης. Συγκεκριμένα, αποκλίνουμε από το συμβατικό γκαουσιανό πλαίσιο και τροποποιούμε τη συνάρτηση καταστροφής εικόνων της διαδικασίας διάχυσης, υιοθετώντας τη μορφολογική διάχυση. Αυτή η μετατροπή παρέχει ανταγωνιστικά αποτελέσματα σε σύγκριση με τα κορυφαία μοντέλα όσον αφορά την ποιότητα, ενώ, ταυτόχρονα, μειώνει σημαντικά τις υπολογιστικές απαιτήσεις κατά τη διάρκεια, τόσο της εκπαίδευσης, όσο και της διαδικασίας παραγωγής εικόνων. | el |
heal.abstract | Generative Artificial Intelligence, often referred to simply as "Generative AI", stands at the forefront of modern technology, pushing the boundaries of what machines can create and imagine. This remarkable field represents a ground breaking fusion of computer science, machine learning, and neural networks, enabling computers to generate original content that mimics human creativity. The emergence of generative AI has sparked a revolution in various domains, from content creation and entertainment to healthcare and finance. It has given birth to powerful applications, such as natural language generation, style transfer in images, and autonomous creative agents that can inspire, inform, and entertain. In this thesis, we use Diffusion Models to address the intricate challenge of Handwritten Text Generation (HTG), with a focus on conditioning it on textual content and writing style. Drawing inspiration from recent breakthroughs in the realm of generalized diffusions, we introduce a novel non-linear diffusion process rooted in a fundamental operation of morphological mathematics, specifically, the dilation. We initially present our baseline experiments conducted on the MNIST and CIFAR-10 datasets, serving as a foundational proof-of-concept for our novel approach. We compare our methodology with recent advancements in generalized diffusions, shedding light on its comparative performance. Furthermore, we advocate for a two-stage approach, complemented by the inclusion of a Generative Adversarial Network (GAN), to facilitate conditional generation within the MNIST dataset. This approach proves its mettle by outperforming classic diffusion frameworks, when operating within a constrained number of timesteps. Subsequently, we pivot our focus towards the intricate task of Handwritten Text Generation. In a quest for optimization, we enhance the existing state-of-the-art model with more efficient sampling algorithms, as documented in the bibliography. Furthermore, we streamline the model’s efficiency by introducing the concept of morphological diffusion. Specifically, we deviate from the conventional Gaussian framework and modify the degradation function within the latent diffusion process to embrace morphological diffusion. This transformation yields competitive results, rivalling the state-of-the-art, all while significantly reducing the computational demands imposed during both training and sampling procedures. | en |
heal.advisorName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Ποταμιάνος, Γεράσιμος | el |
heal.committeeMemberName | Τζαφέστας, Κωνσταντίνος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 136 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: