| dc.contributor.author | Δοροβάτας, Ευάγγελος
|
el |
| dc.contributor.author | Dorovatas, Evangelos
|
en |
| dc.date.accessioned | 2025-12-08T10:00:39Z | |
| dc.date.available | 2025-12-08T10:00:39Z | |
| dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/63016 | |
| dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.30712 | |
| dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
| dc.subject | Συνεχής μάθηση | e |
| dc.subject | Βαθιά μάθηση | el |
| dc.subject | Νευρωνικά δίκτυα | el |
| dc.subject | Μάθηση αναπαραστάσεων | el |
| dc.subject | Υπολλειματικά δίκτυα | el |
| dc.subject | Deep Learning | en |
| dc.subject | Neural Network | en |
| dc.subject | Representational Learning | en |
| dc.subject | Residual Network | en |
| dc.title | Auto-Compressing Networks | en |
| dc.contributor.department | Speech and Language Processing Group | el |
| heal.type | bachelorThesis | |
| heal.classification | Machine Learning | en |
| heal.language | en | |
| heal.access | free | |
| heal.recordProvider | ntua | el |
| heal.publicationDate | 2025-06-25 | |
| heal.abstract | Deep neural networks with short residual connections have demonstrated remarkable success across domains, but increasing depth often introduces computational redundancy without corresponding improvements in representation quality, while potentially harming generalization in certain cases. In this work, we introduce Auto-Compressing Networks (ACNs), an architectural variant where additive long feedforward connections from each layer to the output replace traditional short residual connections. By analyzing the distinct dynamics induced by this modification, we reveal a unique property we coin as auto-compression—the ability of a network to organically compress information during training with gradient descent, through architectural design alone. Through auto-compression, information is dynamically "pushed" into early layers during training, enhancing their representational quality and revealing potential redundancy in deeper ones, resulting in a sparse yet powerful network at inference. We theoretically show that this property emerges from layer-wise training patterns present in ACNs, where layers are dynamically utilized during training based on task requirements. We also find that ACNs exhibit enhanced noise robustness compared to residual networks, superior performance in low-data settings, improved transfer learning capabilities, and mitigate catastrophic forgetting suggesting that they learn representations that generalize better despite using fewer parameters. Our results demonstrate up to 18% reduction in catastrophic forgetting and 30-80% architectural compression while maintaining accuracy across vision transformers, MLP-mixers, and BERT architectures. Furthermore, we demonstrate that when coupling ACNs with traditional pruning techniques, the compression gain persists and enables significantly better sparsity-performance trade-offs compared to conventional architectures. These findings establish ACNs as a practical approach to developing efficient neural architectures that automatically adapt their computational footprint to task complexity, while learning robust representations suitable for noisy real-world tasks and continual learning scenarios. | en |
| heal.abstract | Τα ϐαθιά νευρωνικά δίκτυα με υπολειμματικές συνδέσεις (Υπολλειματικά Νευρωνικά ∆ίκτυα - ΥΝ∆) έχουν επιδείξει αξιοσημείωτη επιτυχία σε διάφορους τομείς, αλλά η αύξηση του ϐάθους τους συχνά εισάγει υπολογιστικό κόστος χωρίς αντίστοιχες ϐελτιώσεις στην ποιότητα των αναπαραστάσεων που μαθαίνουν, ενώ σε ορισμένες περιπτώσεις μπορεί να επηρεάσει αρνητικά και την ικανότητα γενίκευσης του δικτύου. Σε αυτήν την εργασία, παρουσιάζουμε τα Αυτο-Συμπιεζόμενα ∆ίκτυα (ΑΣ∆), μια αρχιτεκτονική παραλλαγή των ΥΝ∆ όπου οι σύντομες υπολειμματικές συνδέσεις αντικαθιστόνται από προσθετικές μακρινές εμ- πρόσθιες συνδέσεις από κάθε στρώμα στην έξοδο. Αναλύοντας την δομή που επιφέρει αυτήν η τροποποίηση στο δίκτυο, αποκαλύπτουμε μια μοναδική ιδιότητα των ΑΣ∆ που ονομάζουμε αυτο-συμπίεση—την ικανότητα ενός δικτύου να συμπιέζει την πληροφορία κατά τη διάρκεια της εκπαίδευσης σε ένα υποσύνολο των συνολικών στρωμάτων του, αυτόματα μέσω αρχιτεκ- τονικού σχεδιασμού. Μέσω της αυτο-συμπίεσης, η πληροφορία συγκεντρώνεται δυναμικά στα πρώτα στρώματα κατά τη διάρκεια της εκπαίδευσης, ενισχύοντας την ποιότητα των ανα- παραστάσεων που μαθαίνουν και αποκαλύπτοντας πιθανό πλεονασμό στα ϐαθύτερα. Εξετά- Ϲοντας την αρχιτεκτονική, δείχνουμε ϑεωρητικά ότι αυτή η ιδιότητα προκύπτει από μοτίβα εκπαίδευσης στρώμα με στρώμα (layer-wise) στα ΑΣ∆, όπου τα στρώματα χρησιμοποιούν- ται δυναμικά κατά τη διάρκεια της εκπαίδευσης ϐάσει των απαιτήσεων του προβλήματος στο οποίο εκπαιδεύονται. Επιπλέον εξηγούμε μαθηματικά και δείχνουμε εμπειρικά ότι η αυτο-συμπίεση δεν συμβαίνει στα ΥΝ∆ ή στα απλα Εμπρόσθια Νευρωνικά ∆ίκτυα (ΕΝ∆). Στη συνέχεια, διαπιστώνουμε πειραματικά ότι τα ΑΣ∆ παρουσιάζουν ενισχυμένη ανθεκτικότητα στο ϑόρυβο σε σύγκριση με τα υπολειμματικά δίκτυα, ανώτερη επίδοση σε περιβάλλοντα χαμηλών δεδομένων, ϐελτιωμένες ικανότητες μεταφοράς μάθησης, και ξεχνούν σημαντικά λιγότερο (catastrophic forgetting), συγκεκριμένα έως και 18% λιγότερο, σε συνθήκες δι- αρκούς μάθησης, προτείνοντας ότι μαθαίνουν αναπαραστάσεις που γενικεύουν καλύτερα παρά τη χρήση λιγότερων παραμέτρων. Τα πειραματικά αποτελέσματά της παρούσας εργασίας δείχνουν 30-80% αρχιτεκτονική συμπίεση με διατήρηση υψηλής επίδοσης σε προβλήματα όρασης και ϕυσικής γλώσσας όταν τα ΑΣ∆ ενσωματώνονται σε διάφορες αρ- χιτεκτονικές όπως Vision transformers, MLP-mixers, και BERT. Επιπλέον, δείχνουμε ότι όταν συνδυάζουμε τα ΑΣ∆ με παραδοσιακές τεχνικές κλαδέματος (pruning), το κέρδος συμπίεσης διατηρείται και η αυτο-συμπίεση λειτουργεί συμπληρωματικά. Συνολικά, τα ευ- ϱήματα της παρούσας εργασίας καθιστούν τα ΑΣ∆ ως μια πρακτική προσέγγιση για την ανάπ- τυξη αποδοτι-κών νευρωνικών αρχιτεκτονικών που προσαρμόζουν αυτόματα το υπολογιστικό τους αποτύπωμα στην πολυπλοκότητα του εκάστοτε προβλήματος, ενώ μαθαίνουν εύρωστες αναπαραστάσεις κατάλληλες για απαιτητικά προβλήματα με ϑόρυβο αλλά και περιπτώσεις συνεχούς μάθησης. Diploma Thesis 7 | el |
| heal.advisorName | Αλέξανδρος Ποταμιάνος | |
| heal.committeeMemberName | Αθανάσιος Βουλόδημος, | |
| heal.committeeMemberName | Αθανάσιος Ροντογιάννης | |
| heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων | el |
| heal.academicPublisherID | ntua | |
| heal.numberOfPages | 111 | |
| heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: