Auto-Compressing Networks

Δοροβάτας, Ευάγγελος; Dorovatas, Evangelos

dc.contributor.author	Δοροβάτας, Ευάγγελος	el
dc.contributor.author	Dorovatas, Evangelos	en
dc.date.accessioned	2025-12-08T10:00:39Z
dc.date.available	2025-12-08T10:00:39Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/63016
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.30712
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.subject	Συνεχής μάθηση	e
dc.subject	Βαθιά μάθηση	el
dc.subject	Νευρωνικά δίκτυα	el
dc.subject	Μάθηση αναπαραστάσεων	el
dc.subject	Υπολλειματικά δίκτυα	el
dc.subject	Deep Learning	en
dc.subject	Neural Network	en
dc.subject	Representational Learning	en
dc.subject	Residual Network	en
dc.title	Auto-Compressing Networks	en
dc.contributor.department	Speech and Language Processing Group	el
heal.type	bachelorThesis
heal.classification	Machine Learning	en
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2025-06-25
heal.abstract	Deep neural networks with short residual connections have demonstrated remarkable success across domains, but increasing depth often introduces computational redundancy without corresponding improvements in representation quality, while potentially harming generalization in certain cases. In this work, we introduce Auto-Compressing Networks (ACNs), an architectural variant where additive long feedforward connections from each layer to the output replace traditional short residual connections. By analyzing the distinct dynamics induced by this modification, we reveal a unique property we coin as auto-compression—the ability of a network to organically compress information during training with gradient descent, through architectural design alone. Through auto-compression, information is dynamically "pushed" into early layers during training, enhancing their representational quality and revealing potential redundancy in deeper ones, resulting in a sparse yet powerful network at inference. We theoretically show that this property emerges from layer-wise training patterns present in ACNs, where layers are dynamically utilized during training based on task requirements. We also find that ACNs exhibit enhanced noise robustness compared to residual networks, superior performance in low-data settings, improved transfer learning capabilities, and mitigate catastrophic forgetting suggesting that they learn representations that generalize better despite using fewer parameters. Our results demonstrate up to 18% reduction in catastrophic forgetting and 30-80% architectural compression while maintaining accuracy across vision transformers, MLP-mixers, and BERT architectures. Furthermore, we demonstrate that when coupling ACNs with traditional pruning techniques, the compression gain persists and enables significantly better sparsity-performance trade-offs compared to conventional architectures. These findings establish ACNs as a practical approach to developing efficient neural architectures that automatically adapt their computational footprint to task complexity, while learning robust representations suitable for noisy real-world tasks and continual learning scenarios.	en
heal.abstract	Τα ϐαθιά νευρωνικά δίκτυα με υπολειμματικές συνδέσεις (Υπολλειματικά Νευρωνικά ∆ίκτυα - ΥΝ∆) έχουν επιδείξει αξιοσημείωτη επιτυχία σε διάφορους τομείς, αλλά η αύξηση του ϐάθους τους συχνά εισάγει υπολογιστικό κόστος χωρίς αντίστοιχες ϐελτιώσεις στην ποιότητα των αναπαραστάσεων που μαθαίνουν, ενώ σε ορισμένες περιπτώσεις μπορεί να επηρεάσει αρνητικά και την ικανότητα γενίκευσης του δικτύου. Σε αυτήν την εργασία, παρουσιάζουμε τα Αυτο-Συμπιεζόμενα ∆ίκτυα (ΑΣ∆), μια αρχιτεκτονική παραλλαγή των ΥΝ∆ όπου οι σύντομες υπολειμματικές συνδέσεις αντικαθιστόνται από προσθετικές μακρινές εμ- πρόσθιες συνδέσεις από κάθε στρώμα στην έξοδο. Αναλύοντας την δομή που επιφέρει αυτήν η τροποποίηση στο δίκτυο, αποκαλύπτουμε μια μοναδική ιδιότητα των ΑΣ∆ που ονομάζουμε αυτο-συμπίεση—την ικανότητα ενός δικτύου να συμπιέζει την πληροφορία κατά τη διάρκεια της εκπαίδευσης σε ένα υποσύνολο των συνολικών στρωμάτων του, αυτόματα μέσω αρχιτεκ- τονικού σχεδιασμού. Μέσω της αυτο-συμπίεσης, η πληροφορία συγκεντρώνεται δυναμικά στα πρώτα στρώματα κατά τη διάρκεια της εκπαίδευσης, ενισχύοντας την ποιότητα των ανα- παραστάσεων που μαθαίνουν και αποκαλύπτοντας πιθανό πλεονασμό στα ϐαθύτερα. Εξετά- Ϲοντας την αρχιτεκτονική, δείχνουμε ϑεωρητικά ότι αυτή η ιδιότητα προκύπτει από μοτίβα εκπαίδευσης στρώμα με στρώμα (layer-wise) στα ΑΣ∆, όπου τα στρώματα χρησιμοποιούν- ται δυναμικά κατά τη διάρκεια της εκπαίδευσης ϐάσει των απαιτήσεων του προβλήματος στο οποίο εκπαιδεύονται. Επιπλέον εξηγούμε μαθηματικά και δείχνουμε εμπειρικά ότι η αυτο-συμπίεση δεν συμβαίνει στα ΥΝ∆ ή στα απλα Εμπρόσθια Νευρωνικά ∆ίκτυα (ΕΝ∆). Στη συνέχεια, διαπιστώνουμε πειραματικά ότι τα ΑΣ∆ παρουσιάζουν ενισχυμένη ανθεκτικότητα στο ϑόρυβο σε σύγκριση με τα υπολειμματικά δίκτυα, ανώτερη επίδοση σε περιβάλλοντα χαμηλών δεδομένων, ϐελτιωμένες ικανότητες μεταφοράς μάθησης, και ξεχνούν σημαντικά λιγότερο (catastrophic forgetting), συγκεκριμένα έως και 18% λιγότερο, σε συνθήκες δι- αρκούς μάθησης, προτείνοντας ότι μαθαίνουν αναπαραστάσεις που γενικεύουν καλύτερα παρά τη χρήση λιγότερων παραμέτρων. Τα πειραματικά αποτελέσματά της παρούσας εργασίας δείχνουν 30-80% αρχιτεκτονική συμπίεση με διατήρηση υψηλής επίδοσης σε προβλήματα όρασης και ϕυσικής γλώσσας όταν τα ΑΣ∆ ενσωματώνονται σε διάφορες αρ- χιτεκτονικές όπως Vision transformers, MLP-mixers, και BERT. Επιπλέον, δείχνουμε ότι όταν συνδυάζουμε τα ΑΣ∆ με παραδοσιακές τεχνικές κλαδέματος (pruning), το κέρδος συμπίεσης διατηρείται και η αυτο-συμπίεση λειτουργεί συμπληρωματικά. Συνολικά, τα ευ- ϱήματα της παρούσας εργασίας καθιστούν τα ΑΣ∆ ως μια πρακτική προσέγγιση για την ανάπ- τυξη αποδοτι-κών νευρωνικών αρχιτεκτονικών που προσαρμόζουν αυτόματα το υπολογιστικό τους αποτύπωμα στην πολυπλοκότητα του εκάστοτε προβλήματος, ενώ μαθαίνουν εύρωστες αναπαραστάσεις κατάλληλες για απαιτητικά προβλήματα με ϑόρυβο αλλά και περιπτώσεις συνεχούς μάθησης. Diploma Thesis 7	el
heal.advisorName	Αλέξανδρος Ποταμιάνος
heal.committeeMemberName	Αθανάσιος Βουλόδημος,
heal.committeeMemberName	Αθανάσιος Ροντογιάννης
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	111
heal.fullTextAvailability	false