dc.contributor.author | Δάρας, Ιωάννης | el |
dc.contributor.author | Daras, Giannis | en |
dc.date.accessioned | 2020-11-10T10:48:43Z | |
dc.date.available | 2020-11-10T10:48:43Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/51874 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.19572 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Μηχανισμός προσοχής | el |
dc.subject | Βαθειά μάθηση | el |
dc.subject | Δημιουργικά ανταγωνιστικά δίκτυα | el |
dc.subject | Αρραιότητα | el |
dc.subject | Μηχανική μάθηση | el |
dc.subject | Deep learning | en |
dc.subject | Machine learning | en |
dc.subject | Generative adversarial network | en |
dc.subject | Locality sensitive hashing | en |
dc.subject | Attention | en |
dc.title | Σχεδίαση αποδοτικών μηχανισμών προσοχής σε βαθειά νευρωνικά δίκτυα | el |
dc.title | Designing efficient attention mechanisms for deep neural networks | en |
heal.type | bachelorThesis | |
heal.classification | Βαθειά μάθηση | el |
heal.classification | Deep learning | en |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2020-06-13 | |
heal.abstract | Οι μηχανισμοί προσοχής χρησιμοποιούνται κατά κόρον σε βαθειά νευρωνικά δίκτυα κορυφαίων επιδόσεων στην Επεξεργασία Φυσικής Γλώσσας και στην Όραση Υπολογιστών. Παρά την ευρεία χρήση τους, οι μηχανισμοί προσοχής έχουν κάποιους σημαντικούς περιορισμούς, ο σημαντικότερος από τους οποίους είναι ότι έχουν τετραγωνική πολυπλοκότητα μνήμης και χρόνου ως προς το μέγεθος της εισόδου. Σε αυτή την διπλωματική, εξευρευνώνται διαφορετικοί τρόποι επίλυσης του συγκεκριμένου προβλήματος. Αρχικά προτείνουμε την επέκταση των μηχανισμών προσοχής σε πολλαπλά βήματα. Σε κάθε βήμα προσοχής, κάθε διάνυσμα ερώτησης (query vector) μοιράζει την προσοχή του σε ένα υποσύνολο των αρχικών διανυσμάτων απάντησης (key vectors) όπως ορίζεται από ένα προκαθορισμένο μοτίβο αρραιότητας. Προτείνουμε ένα πρωτότυπο θεωρητικό πλαίσιο ανάλυσης και σχεδίασης χρήσιμων μηχανισμών προσοχής πολλών βημάτων που βασίζεται σε Γράφους Ροής Πληροφορίας (Information Flow Graphs). Μέσα από αυτό το πλάισιο, δείχνουμε ότι είναι δυνατό να κατασκευαστούν πολυβηματικοί μηχανισμοί προσοχής με γραμμική πολυπλοκότητα βασισμένοι σε Υπερσυγκεντρωτές (Superconcentrators) γράφους. Συγκεκριμένα για εικόνες, προτείνουμε έναν νέο τοπικό και αρραιό μηχανισμό προσοχής με πολυπλοκότητα O(n\sqrt n) που διατηρεί την γεωμετρία των δισδιάστατων εικόνων και την τοπικότητα τους. Δείχνουμε ότι με απλή αντικατάσταση του κλασσικού μηχανισμού προσοχής με την δική μας κατασκευή παίρνουμε πολύ σημαντικές βελτιώσεις στην επίδοση του μοντέλου αλλά και ποιοτική βελτιώση στις εικόνες. Ακόμη, παρατηρούμε ότι οι κατανομές πιθανότητες που παράγονται στο εσωτερικό των μηχανισμών προσοχής δεν έχουν χρησιμοποιηθεί στην πράξη παρά την μεγάλη δυνητική τους ισχύ. Δείχνουμε ότι χρησιμοποιώντας αυτές τις κατανομές πιθανότητας μπορούμε να βοηθήσουμε την επίλυση μιας σειράς δύσκολων προβλημάτων όπως η αντιστροφή μεγάλων Δημιουργικών Ανταγωνιστικών Δικτύων (GANs). Τέλος, κάνουμε μια ανασκόπηση σε άλλες προτεινόμενες μεθόδους μείωσης της πολυπλοκότητας των μηχανισμών προσοχής που βασίζονται σε δυναμική αρραιόποιηση. Σημειώνουμε μια σειρά από περιορισμούς που οι προτεινόμενες μέθοδοι έχουν και συζητάμε πιθανούς τρόπους αντιμετώπισης τους. | el |
heal.abstract | Attention mechanism is widely used in state-of-the-art neural networks for Natural Language Processing and Computer Vision. Despite its popularity, attention has some major drawbacks, the most important of which is that it requires quadratic memory and time complexity. In this work, we explore different ways to address this problem. We first propose to extend attention to multiple steps. At each step, each query attends to a subset of the original keys specified by a pre-defined sparsity pattern. We introduce a novel theoretical framework for designing meaningful multiple steps attention models using Information Flow Graphs. Under this framework, we show that attention can be performed even in linear time when the connections between multiple sequential attention layers form a Superconcentrator graph. Specifically for images, we propose a new local sparse attention layer with O(n * \sqrt n) that preserves two-dimensional geometry and locality. We show that by just replacing the dense attention layer of SAGAN with our construction, we obtain very significant FID, Inception score and pure visual improvements. FID score is improved from 18.65 to 15.94 on ImageNet, keeping all other parameters the same. We also observe that until now the practical usefulness of the intrinsic probabilistic distribution computed in attention layers has been unexplored. We demonstrate that using this distribution we can effectively solve a wide variety of hard problems, such as inversion of large GANs. Finally, we review alternative ways of lowering the computational complexity of dense attention that are based on dynamic sparsity. We underline the limitations of the proposed approaches and we discuss potential ways to address them. | en |
heal.sponsor | Η διπλωματική υποστηρίχθηκε από το TensorFlow Research Cloud Program μέσω της δωρεάν ενοίκιασης TPUs για το μεγαλύτερο μέρος των πειραμάτων. Το Your Local GAN είχε την υποστήριξη των NSF Grants 1618689, DMS 1723052, CCF 1763702, AF 1901292 και δωρεών από Google, Western Digital και NVIDIA μέσω της συνεργασίας με το εργαστήριο του κ.Δημάκη. | el |
heal.sponsor | This thesis is supported by the TensorFlow Research Cloud Program, which kindly provided TPU Pods for the experiments throughout the research. The resulting paper, Your Local GAN, has been supported by NSF Grants 1618689, DMS 1723052, CCF 1763702, AF 1901292 and research gifts from Google, Western Digital and NVIDIA via the collaboration with Prof. Dimakis' laboratory. | en |
heal.advisorName | Ποταμιάνος, Αλέξανδρος | el |
heal.advisorName | Δημάκης, Αλέξανδρος | el |
heal.advisorName | Dimakis, Alexandros | en |
heal.advisorName | Potamianos, Alexandros | en |
heal.committeeMemberName | Δημάκης, Αλέξανδρος | el |
heal.committeeMemberName | Ποταμιάνος, Αλέξανδρος | el |
heal.committeeMemberName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Dimakis, Alexandros | en |
heal.committeeMemberName | Potamianos, Alexandros | en |
heal.committeeMemberName | Maragos, Petros | en |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 164 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: