HEAL DSpace

Σχεδίαση αποδοτικών μηχανισμών προσοχής σε βαθειά νευρωνικά δίκτυα

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Δάρας, Ιωάννης el
dc.contributor.author Daras, Giannis en
dc.date.accessioned 2020-11-10T10:48:43Z
dc.date.available 2020-11-10T10:48:43Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/51874
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.19572
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μηχανισμός προσοχής el
dc.subject Βαθειά μάθηση el
dc.subject Δημιουργικά ανταγωνιστικά δίκτυα el
dc.subject Αρραιότητα el
dc.subject Μηχανική μάθηση el
dc.subject Deep learning en
dc.subject Machine learning en
dc.subject Generative adversarial network en
dc.subject Locality sensitive hashing en
dc.subject Attention en
dc.title Σχεδίαση αποδοτικών μηχανισμών προσοχής σε βαθειά νευρωνικά δίκτυα el
dc.title Designing efficient attention mechanisms for deep neural networks en
heal.type bachelorThesis
heal.classification Βαθειά μάθηση el
heal.classification Deep learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-06-13
heal.abstract Οι μηχανισμοί προσοχής χρησιμοποιούνται κατά κόρον σε βαθειά νευρωνικά δίκτυα κορυφαίων επιδόσεων στην Επεξεργασία Φυσικής Γλώσσας και στην Όραση Υπολογιστών. Παρά την ευρεία χρήση τους, οι μηχανισμοί προσοχής έχουν κάποιους σημαντικούς περιορισμούς, ο σημαντικότερος από τους οποίους είναι ότι έχουν τετραγωνική πολυπλοκότητα μνήμης και χρόνου ως προς το μέγεθος της εισόδου. Σε αυτή την διπλωματική, εξευρευνώνται διαφορετικοί τρόποι επίλυσης του συγκεκριμένου προβλήματος. Αρχικά προτείνουμε την επέκταση των μηχανισμών προσοχής σε πολλαπλά βήματα. Σε κάθε βήμα προσοχής, κάθε διάνυσμα ερώτησης (query vector) μοιράζει την προσοχή του σε ένα υποσύνολο των αρχικών διανυσμάτων απάντησης (key vectors) όπως ορίζεται από ένα προκαθορισμένο μοτίβο αρραιότητας. Προτείνουμε ένα πρωτότυπο θεωρητικό πλαίσιο ανάλυσης και σχεδίασης χρήσιμων μηχανισμών προσοχής πολλών βημάτων που βασίζεται σε Γράφους Ροής Πληροφορίας (Information Flow Graphs). Μέσα από αυτό το πλάισιο, δείχνουμε ότι είναι δυνατό να κατασκευαστούν πολυβηματικοί μηχανισμοί προσοχής με γραμμική πολυπλοκότητα βασισμένοι σε Υπερσυγκεντρωτές (Superconcentrators) γράφους. Συγκεκριμένα για εικόνες, προτείνουμε έναν νέο τοπικό και αρραιό μηχανισμό προσοχής με πολυπλοκότητα O(n\sqrt n) που διατηρεί την γεωμετρία των δισδιάστατων εικόνων και την τοπικότητα τους. Δείχνουμε ότι με απλή αντικατάσταση του κλασσικού μηχανισμού προσοχής με την δική μας κατασκευή παίρνουμε πολύ σημαντικές βελτιώσεις στην επίδοση του μοντέλου αλλά και ποιοτική βελτιώση στις εικόνες. Ακόμη, παρατηρούμε ότι οι κατανομές πιθανότητες που παράγονται στο εσωτερικό των μηχανισμών προσοχής δεν έχουν χρησιμοποιηθεί στην πράξη παρά την μεγάλη δυνητική τους ισχύ. Δείχνουμε ότι χρησιμοποιώντας αυτές τις κατανομές πιθανότητας μπορούμε να βοηθήσουμε την επίλυση μιας σειράς δύσκολων προβλημάτων όπως η αντιστροφή μεγάλων Δημιουργικών Ανταγωνιστικών Δικτύων (GANs). Τέλος, κάνουμε μια ανασκόπηση σε άλλες προτεινόμενες μεθόδους μείωσης της πολυπλοκότητας των μηχανισμών προσοχής που βασίζονται σε δυναμική αρραιόποιηση. Σημειώνουμε μια σειρά από περιορισμούς που οι προτεινόμενες μέθοδοι έχουν και συζητάμε πιθανούς τρόπους αντιμετώπισης τους. el
heal.abstract Attention mechanism is widely used in state-of-the-art neural networks for Natural Language Processing and Computer Vision. Despite its popularity, attention has some major drawbacks, the most important of which is that it requires quadratic memory and time complexity. In this work, we explore different ways to address this problem. We first propose to extend attention to multiple steps. At each step, each query attends to a subset of the original keys specified by a pre-defined sparsity pattern. We introduce a novel theoretical framework for designing meaningful multiple steps attention models using Information Flow Graphs. Under this framework, we show that attention can be performed even in linear time when the connections between multiple sequential attention layers form a Superconcentrator graph. Specifically for images, we propose a new local sparse attention layer with O(n * \sqrt n) that preserves two-dimensional geometry and locality. We show that by just replacing the dense attention layer of SAGAN with our construction, we obtain very significant FID, Inception score and pure visual improvements. FID score is improved from 18.65 to 15.94 on ImageNet, keeping all other parameters the same. We also observe that until now the practical usefulness of the intrinsic probabilistic distribution computed in attention layers has been unexplored. We demonstrate that using this distribution we can effectively solve a wide variety of hard problems, such as inversion of large GANs. Finally, we review alternative ways of lowering the computational complexity of dense attention that are based on dynamic sparsity. We underline the limitations of the proposed approaches and we discuss potential ways to address them. en
heal.sponsor Η διπλωματική υποστηρίχθηκε από το TensorFlow Research Cloud Program μέσω της δωρεάν ενοίκιασης TPUs για το μεγαλύτερο μέρος των πειραμάτων. Το Your Local GAN είχε την υποστήριξη των NSF Grants 1618689, DMS 1723052, CCF 1763702, AF 1901292 και δωρεών από Google, Western Digital και NVIDIA μέσω της συνεργασίας με το εργαστήριο του κ.Δημάκη. el
heal.sponsor This thesis is supported by the TensorFlow Research Cloud Program, which kindly provided TPU Pods for the experiments throughout the research. The resulting paper, Your Local GAN, has been supported by NSF Grants 1618689, DMS 1723052, CCF 1763702, AF 1901292 and research gifts from Google, Western Digital and NVIDIA via the collaboration with Prof. Dimakis' laboratory. en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.advisorName Δημάκης, Αλέξανδρος el
heal.advisorName Dimakis, Alexandros en
heal.advisorName Potamianos, Alexandros en
heal.committeeMemberName Δημάκης, Αλέξανδρος el
heal.committeeMemberName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Dimakis, Alexandros en
heal.committeeMemberName Potamianos, Alexandros en
heal.committeeMemberName Maragos, Petros en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 164 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα