Ανάπτυξη Αλγορίθμων Μάθησης για Βελτίωση
της Εκπαίδευσης και της Ερμηνείας
των Βαθιών Νευρωνικών Δικτύων

Ιωάννου, Γεώργιος

dc.contributor.author	Ιωάννου, Γεώργιος
dc.date.accessioned	2024-05-28T09:53:55Z
dc.date.available	2024-05-28T09:53:55Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/59525
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.27221
dc.rights	Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nd/3.0/gr/	*
dc.subject	Μηχανική Μάθηση	el
dc.subject	Νευρωνικά Δίκτυα	el
dc.subject	Βελτιστοποίηση	el
dc.subject	Στοχαστικοί Αλγόριθμοι	el
dc.subject	Ερμηνευσιμότητα	el
dc.subject	Machine Learning	en
dc.subject	Neural Networks	en
dc.subject	Optimization	en
dc.subject	Stochastic Methods	en
dc.subject	Interpretability	en
dc.title	Ανάπτυξη Αλγορίθμων Μάθησης για Βελτίωση της Εκπαίδευσης και της Ερμηνείας των Βαθιών Νευρωνικών Δικτύων	el
heal.type	doctoralThesis
heal.classification	Machine Learning	en
heal.classification	Μηχανική Μάθηση	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-12-11
heal.abstract	Τα τελευταία χρόνια το πεδίο της Μηχανικής Μάθησης έχει αναπτυχθεί σε μεγάλο βαθμό. Με την εξέλιξη και την αξιοποίηση σύγχρονων υπολογιστικών συστημάτων και καινούργιων τεχνολογιών ο τομέας της Μηχανικής Μάθησης κατάφερε να παρέχει λύσεις σε προβλήματα διαφόρων επιστημονικών πεδίων, καθώς και να έχει σημαντικό ρόλο στον τομέα της παραγωγής και της εργασίας. Κυριότερα, η ανάπτυξη της Βαθιάς Μηχανικής Μάθησης και των Νευρωνικών Δικτύων ευθύνεται για μέρος αυτής της επιτυχίας. Σε αυτή τη διατριβή ασχοληθήκαμε, κυρίως, με τα Βαθιά Νευρωνικά Δίκτυα και την λειτουργία τους. Αναλύσαμε διάφορους αλγορίθμους μάθησης και εντοπίσαμε προβλήματα που δυσχεραίνουν την καλή επίδοση ενός δικτύου. Μέσω της διατριβής προτείνονται αλγόριθμοι και μέθοδοι μάθησης νευρωνικών δικτύων, οι οποίοι αποσκοπούν στην καλύτερη εκπαίδευση και, κατά συνέπεια, στην βελτίωση των αποδόσεων των Βαθιών Νευρωνικών Δικτύων. Πιο συγκεκριμένα, στο πρώτο μέρος εξετάσαμε την τεχνική εκπαίδευσης με παρτίδες ενός νευρωνικού δικτύου. Εντρυφήσαμε στο πεδίο της Δυναμικής Επιλογής Παρτίδας και προτείναμε έναν αλγόριθμο που βασίζεται στην Μεροληπτική Δειγματοληψία. Σκοπός του είναι να επιλέγει δείγματα από το σύνολο δεδομένων που εμφανίζουν υψηλές τιμές σφάλματος και να τις εισάγει περισσότερες φορές στην διαδικασία της εκπαίδευσης. Δίνοντας έμφαση στα δύσκολα δείγματα το νευρωνικό δίκτυο καταφέρνει να εκπαιδευτεί γρηγορότερα και να έχει καλύτερες επιδόσεις. Για να αποδειχθεί η χρησιμότητα της μεθόδου, διεξήχθησαν μία σειρά από πειράματα σε διαφορετικά σύνολα δεδομένων. Τα αποτελέσματα δείχνουν ότι ο προτεινόμενος αλγόριθμος βελτιώνει την ταχύτητα σύγκλισης και πολλές φορές την μέγιστη επίδοση του δικτύου. Εκτός αυτού βελτιώνει τον χρόνο εκπαίδευσης και τον αριθμό των υπολογισμών ανά επανάληψη σε σχέση με άλλες τεχνικές της βιβλιογραφίας. Στο δεύτερο μέρος της διατριβής ασχοληθήκαμε με το πεδίο της Ανισορροπίας δεδομένων. Αυτό το φαινόμενο συναντάται συχνά στα πραγματικά σύνολα δεδομένων και αποτελεί ένα σημαντικό εμπόδιο στην ομαλή εκπαίδευση και γενίκευση των μοντέλων μηχανικής μάθησης. Περιγράψαμε και αναλύσαμε διάφορες μεθόδους και τεχνικές της βιβλιογραφίας πάνω σε αυτό το θέμα. Η μελέτη μας επικεντρώθηκε στις τεχνικές προσαρμογής του αλγορίθμου μάθησης με σκοπό την καταπολέμηση της ανισορροπίας. Προτείναμε την μέθοδο εκπαίδευσης νευρωνικών δικτύων με όνομα Θορυβώδης Επιλογή Παρτίδας με Επανεισαγωγές, η οποία επιλέγει δείγματα από τα δεδομένα με βάση κάποια κριτήρια και προσθέτει κατάλληλο θόρυβο. Με αυτόν τον τρόπο μπορεί το δίκτυο να εκπαιδεύεται εξίσου καλά σε κλάσεις δεδομένων με μικρό αριθμό δειγμάτων επιτυγχάνοντας υψηλότερες επιδόσεις. Μία σειρά από πειράματα σε ανισόρροπα σύνολα δεδομένων έδειξαν την βελτίωση που παρέχει η μέθοδος αυτή σε σχέση με άλλες. Επίσης, δείχνουμε ότι είναι ικανή να λειτουργήσει σε συνδυασμό με άλλες τεχνικές καταπολέμησης ανισορροπίας, όπως τεχνικές μετασχηματισμού δεδομένων. Μία άλλη θεματική που μελετήθηκε σε αυτή τη διατριβή είναι η ερευνητική περιοχή της βελτιστοποίησης. Στο πλαίσιο της εκπαίδευσης νευρωνικών δικτύων έχουν δημιουργηθεί μία πληθώρα από βελτιστοποιητές, καθένας από τους οποίους έχει τις ιδιαιτερότητές του. Εμβαθύναμε περισσότερο σε προσαρμοστικούς αλγόριθμους και προτείναμε μία μέθοδο βελτιστοποίησης, με όνομα \en{AdaLip}, η οποία κατασκευάζει διαφορετικό ρυθμό μάθησης ανά επίπεδο βασισμένη στην σταθερά του \en{Lipschitz}. Στοιχεία παρατέθηκαν για την ανάγκη διαφορετικής προσέγγισης των διαφορετικών επιπέδων και υποστηρίχθηκαν πειραματικά. Δοκιμάσαμε την μέθοδο μας σε ένα σύνολο προβλημάτων ταξινόμησης εικόνας και τα αποτελέσματα έδειξαν βελτιώσεις στην ταχύτητα σύγκλισης, στην συνολική επίδοση στο σύνολο εκπαίδευσης αλλά και πιο σταθερή γενίκευση. Η μέθοδος αυτή μπορεί να δουλέψει πάνω από ήδη υπάρχοντες βελτιστοποιητές και να καλυτερέψει τα αποτελέσματά τους. Τέλος, παρατέθηκε θεωρητική απόδειξη σύγκλισης του προτεινόμενου βελτιστοποιητή. Στο τελευταίο κομμάτι της διατριβής ασχοληθήκαμε με το πεδίο της ερμηνείας των νευρωνικών δικτύων. Η ερμηνευσιμότητα πραγματεύεται με την κατανόηση των νευρωνικών δικτύων και των προβλέψεών τους. Αρχικά, εξερευνούμε διάφορες τεχνικές ερμηνευσιμότητας και συγκρίνουμε τις επιδόσεις τους. Τα πειράματα βασίστηκαν πάνω σε ιατρικές εικόνες για ταξινόμηση του σταδίου της αμφιβληστροειδοπάθειας. Αυτό συνέβαλε στην βαθύτερη κατανόηση της λειτουργίας των μοντέλων αλλά και στην εξήγηση των περιοχών βλάβης των ιατρικών εικόνων. Επίσης, με την χρήση τέτοιων μεθόδων δείξαμε ότι είναι εφικτό να προσεγγιστεί και μία λύση στο πρόβλημα της κατάτμησης εικόνας. Εκτός από αυτό εμβαθύναμε περισσότερο στην λειτουργία των μεθόδων ερμηνευσιμότητας και συγκεκριμένα στις μεθόδους που χρησιμοποιούν σημεία αναφοράς. Δείξαμε ότι η χρήση σημείων αναφοράς εγκυμονεί πολλούς κινδύνους ανακρίβειας των σημασιών των προβλέψεων νευρωνικών δικτύων. Με βάση αυτή την αδυναμία τους προτείναμε ένα νέο επίπεδο που αποσκοπεί στο να βελτιώσει αυτά τα ζητήματα. Το προτεινόμενο Επίπεδο Διανυσματικής Αναπαράστασης με Αντίληψη Βάσης κατασκευάστηκε με σκοπό να ενσωματώνει μέσω της εκπαίδευσης την έννοια της βάσης ή σημείου αναφοράς. Έτσι, οι εκάστοτε αλγόριθμοι ερμηνευσιμότητας που λειτουργούν με σημεία αναφοράς μπορούν να χρησιμοποιούν το παραπάνω επίπεδο στις αρχιτεκτονικές του δικτύου και να δημιουργούν πιο ακριβείς ερμηνείες για τις διάφορες προβλέψεις. Αυτό το δείξαμε πειραματικά πάνω σε $4$ σύνολα δεδομένων πινάκων. Τα σύνολα πινάκων επιλέχθηκαν λόγω της μεγάλης ποικιλίας χαρακτηριστικών που διαθέτουν αλλά και επειδή σε αυτά παρατηρείται πιο συχνά το πρόβλημα των σημείων αναφοράς.	el
heal.abstract	In recent years the field of Machine Learning has been developed dramatically. With the progress and use of advanced hardware and computer systems, Machine Learning has given solutions in many scientific problems and is a vital part of some industries. Especially, Deep Learning and Deep Neural Networks are responsible for this great success. In this thesis we got involved, mainly, with Deep Neural Networks and their training process. We analyzed different learning algorithms and pinpointed problems that worsen the performance of neural networks. This dissertation proposes various algorithms and learning methods that intend to improve the training process and the general performance of Deep Neural Networks. Specifically, the first part revolves around the method of training a network with batches. We focused on the techniques of Online Batch Selection and proposed an algorithm that is based on Biased Sampling. The goal of the algorithm is to select samples with high loss values and add them in the training process more frequently. Emphasizing on the difficult samples the network is trained faster and has a better performance. To prove the usefulness of the proposed method, a series of experiments was inducted on different datasets. The results show that the algorithm improves the convergence speed and the best performance scores of the model. Apart from that, it improves the training time and the number of computations per iteration in comparison to other works in the literature. In the second part of the dissertation, we delved into the field of Imbalanced Datasets. This phenomenon is encountered often regarding real-world datasets and is a serious obstacle of the training process and the generalization of machine learning models. We described and analyzed various methods and techniques that are popular in the literature. Our work was centered around algorithm-based methods that tackle the problem of imbalance. We proposed a method of training neural networks, called NBSBS-R, that selects samples based on some criteria and adds a proper amount of noise. This way the network can learn the minority class just as well, while achieving better performance. An experimental framework is introduced that uses imbalanced datasets to test the new algorithm. The results showed an improvement in the generalization performance of the networks compared to other methods. Also, the experiments showed that the method is able to work together with other data-transformation techniques in order to build a better model overall. Another subject that was studied, was the field of optimization. There is a wide variety of optimizers that can be used to train a neural network, while each one of them has its own intricacies. We dived into adaptive optimizers and proposed an algorithm, called AdaLip, that constructs a learning rate per layer based on the Lipschitz constant. Various reasons were presented to show the need of the different approach of different layers and were supported experimentally. We tested our method on image classification datasets and the results showed imrovements in the convergence speed and the overall training performance. The proposed algorithm can work together with other optimizers and boost their performance scores. Finally, a theoretical proof of convergence of the new optimizer was presented. In the final part of the thesis, we delved into the field of interpreting neural networks. Interpretability is concerned with understanding neural networks and their predictions. Initially, we explored various interpretability techniques and compared their performances. The experiments were based on medical images for classifying the stages of retinopathy. This contributed to a deeper understanding of the model's functionality in relation to retinal images. We also showed that using interpretability techniques it becomes possible to tackle the problem of image segmantation. Furthermore, we delved deeper into the operation of interpretability methods, specifically those employing reference points. We demonstrated that the use of reference points entails many risks of inaccuracy in interpreting neural network predictions. Based on this limitation, we proposed a new layer aiming to improve these issues. The proposed Baseline-Aware Embedding layer was designed to incorporate the concept of a baseline or reference point through training. Thus, interpretability algorithms that operate with reference points can utilize this layer in network architectures to generate more accurate interpretations for various predictions. We demonstrated this experimentally on four tabular datasets, chosen for their diverse features and the common occurrence of reference point issues.	en
heal.advisorName	Σταφυλοπάτης, Ανδρέας-Γεώργιος
heal.committeeMemberName	Κουτσούρης, Διονύσιος-Δημήτριος
heal.committeeMemberName	Στάμου, Γεώργιος
heal.committeeMemberName	Κόλλιας, Στέφανος
heal.committeeMemberName	Νικήτα, Κωνσταντίνα
heal.committeeMemberName	Βουλόδημος, Αθανάσιος
heal.committeeMemberName	Αλεξανδρίδης, Γεώργιος
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος
heal.academicPublisher	Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.fullTextAvailability	false