HEAL DSpace

Auto-Compressing Networks

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Δοροβάτας, Ευάγγελος el
dc.contributor.author Dorovatas, Evangelos en
dc.date.accessioned 2025-12-08T10:00:39Z
dc.date.available 2025-12-08T10:00:39Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/63016
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.30712
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Συνεχής μάθηση e
dc.subject Βαθιά μάθηση el
dc.subject Νευρωνικά δίκτυα el
dc.subject Μάθηση αναπαραστάσεων el
dc.subject Υπολλειματικά δίκτυα el
dc.subject Deep Learning en
dc.subject Neural Network en
dc.subject Representational Learning en
dc.subject Residual Network en
dc.title Auto-Compressing Networks en
dc.contributor.department Speech and Language Processing Group el
heal.type bachelorThesis
heal.classification Machine Learning en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-06-25
heal.abstract Deep neural networks with short residual connections have demonstrated remarkable success across domains, but increasing depth often introduces computational redundancy without corresponding improvements in representation quality, while potentially harming generalization in certain cases. In this work, we introduce Auto-Compressing Networks (ACNs), an architectural variant where additive long feedforward connections from each layer to the output replace traditional short residual connections. By analyzing the distinct dynamics induced by this modification, we reveal a unique property we coin as auto-compression—the ability of a network to organically compress information during training with gradient descent, through architectural design alone. Through auto-compression, information is dynamically "pushed" into early layers during training, enhancing their representational quality and revealing potential redundancy in deeper ones, resulting in a sparse yet powerful network at inference. We theoretically show that this property emerges from layer-wise training patterns present in ACNs, where layers are dynamically utilized during training based on task requirements. We also find that ACNs exhibit enhanced noise robustness compared to residual networks, superior performance in low-data settings, improved transfer learning capabilities, and mitigate catastrophic forgetting suggesting that they learn representations that generalize better despite using fewer parameters. Our results demonstrate up to 18% reduction in catastrophic forgetting and 30-80% architectural compression while maintaining accuracy across vision transformers, MLP-mixers, and BERT architectures. Furthermore, we demonstrate that when coupling ACNs with traditional pruning techniques, the compression gain persists and enables significantly better sparsity-performance trade-offs compared to conventional architectures. These findings establish ACNs as a practical approach to developing efficient neural architectures that automatically adapt their computational footprint to task complexity, while learning robust representations suitable for noisy real-world tasks and continual learning scenarios. en
heal.abstract Τα ϐαθιά νευρωνικά δίκτυα με υπολειμματικές συνδέσεις (Υπολλειματικά Νευρωνικά ∆ίκτυα - ΥΝ∆) έχουν επιδείξει αξιοσημείωτη επιτυχία σε διάφορους τομείς, αλλά η αύξηση του ϐάθους τους συχνά εισάγει υπολογιστικό κόστος χωρίς αντίστοιχες ϐελτιώσεις στην ποιότητα των αναπαραστάσεων που μαθαίνουν, ενώ σε ορισμένες περιπτώσεις μπορεί να επηρεάσει αρνητικά και την ικανότητα γενίκευσης του δικτύου. Σε αυτήν την εργασία, παρουσιάζουμε τα Αυτο-Συμπιεζόμενα ∆ίκτυα (ΑΣ∆), μια αρχιτεκτονική παραλλαγή των ΥΝ∆ όπου οι σύντομες υπολειμματικές συνδέσεις αντικαθιστόνται από προσθετικές μακρινές εμ- πρόσθιες συνδέσεις από κάθε στρώμα στην έξοδο. Αναλύοντας την δομή που επιφέρει αυτήν η τροποποίηση στο δίκτυο, αποκαλύπτουμε μια μοναδική ιδιότητα των ΑΣ∆ που ονομάζουμε αυτο-συμπίεση—την ικανότητα ενός δικτύου να συμπιέζει την πληροφορία κατά τη διάρκεια της εκπαίδευσης σε ένα υποσύνολο των συνολικών στρωμάτων του, αυτόματα μέσω αρχιτεκ- τονικού σχεδιασμού. Μέσω της αυτο-συμπίεσης, η πληροφορία συγκεντρώνεται δυναμικά στα πρώτα στρώματα κατά τη διάρκεια της εκπαίδευσης, ενισχύοντας την ποιότητα των ανα- παραστάσεων που μαθαίνουν και αποκαλύπτοντας πιθανό πλεονασμό στα ϐαθύτερα. Εξετά- Ϲοντας την αρχιτεκτονική, δείχνουμε ϑεωρητικά ότι αυτή η ιδιότητα προκύπτει από μοτίβα εκπαίδευσης στρώμα με στρώμα (layer-wise) στα ΑΣ∆, όπου τα στρώματα χρησιμοποιούν- ται δυναμικά κατά τη διάρκεια της εκπαίδευσης ϐάσει των απαιτήσεων του προβλήματος στο οποίο εκπαιδεύονται. Επιπλέον εξηγούμε μαθηματικά και δείχνουμε εμπειρικά ότι η αυτο-συμπίεση δεν συμβαίνει στα ΥΝ∆ ή στα απλα Εμπρόσθια Νευρωνικά ∆ίκτυα (ΕΝ∆). Στη συνέχεια, διαπιστώνουμε πειραματικά ότι τα ΑΣ∆ παρουσιάζουν ενισχυμένη ανθεκτικότητα στο ϑόρυβο σε σύγκριση με τα υπολειμματικά δίκτυα, ανώτερη επίδοση σε περιβάλλοντα χαμηλών δεδομένων, ϐελτιωμένες ικανότητες μεταφοράς μάθησης, και ξεχνούν σημαντικά λιγότερο (catastrophic forgetting), συγκεκριμένα έως και 18% λιγότερο, σε συνθήκες δι- αρκούς μάθησης, προτείνοντας ότι μαθαίνουν αναπαραστάσεις που γενικεύουν καλύτερα παρά τη χρήση λιγότερων παραμέτρων. Τα πειραματικά αποτελέσματά της παρούσας εργασίας δείχνουν 30-80% αρχιτεκτονική συμπίεση με διατήρηση υψηλής επίδοσης σε προβλήματα όρασης και ϕυσικής γλώσσας όταν τα ΑΣ∆ ενσωματώνονται σε διάφορες αρ- χιτεκτονικές όπως Vision transformers, MLP-mixers, και BERT. Επιπλέον, δείχνουμε ότι όταν συνδυάζουμε τα ΑΣ∆ με παραδοσιακές τεχνικές κλαδέματος (pruning), το κέρδος συμπίεσης διατηρείται και η αυτο-συμπίεση λειτουργεί συμπληρωματικά. Συνολικά, τα ευ- ϱήματα της παρούσας εργασίας καθιστούν τα ΑΣ∆ ως μια πρακτική προσέγγιση για την ανάπ- τυξη αποδοτι-κών νευρωνικών αρχιτεκτονικών που προσαρμόζουν αυτόματα το υπολογιστικό τους αποτύπωμα στην πολυπλοκότητα του εκάστοτε προβλήματος, ενώ μαθαίνουν εύρωστες αναπαραστάσεις κατάλληλες για απαιτητικά προβλήματα με ϑόρυβο αλλά και περιπτώσεις συνεχούς μάθησης. Diploma Thesis 7 el
heal.advisorName Αλέξανδρος Ποταμιάνος
heal.committeeMemberName Αθανάσιος Βουλόδημος,
heal.committeeMemberName Αθανάσιος Ροντογιάννης
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 111
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα