Ευφυείς τεχνικές ανάλυσης δεδομένων βασισμένες σε μοντέλα του ανοσοποιητικού συστήματος

Λαναρίδης, Αριστείδης

dc.contributor.author	Λαναρίδης, Αριστείδης	el
dc.date.accessioned	2017-09-01T11:05:18Z
dc.date.available	2017-09-01T11:05:18Z
dc.date.issued	2017-09-01
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/45465
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.2768
dc.rights	Default License
dc.subject	μηχανική μάθηση	el
dc.subject	εξελικτικός αλγόριθμος	el
dc.subject	πολυκριτηριακή βελτιστοποίηση	el
dc.subject	ταξινόμηση προτύπων	el
dc.subject	τεχνητά ανοσοποιητικά συστήματα	el
dc.subject	machine learning	en
dc.subject	evolutionary algorithm	el
dc.subject	multiobjective optimization	el
dc.subject	pattern classification	el
dc.subject	artificial immune systems	el
dc.title	Ευφυείς τεχνικές ανάλυσης δεδομένων βασισμένες σε μοντέλα του ανοσοποιητικού συστήματος	el
dc.contributor.department	Εργαστήριο Ευφυών Συστημάτων	el
heal.type	doctoralThesis
heal.classification	ΕΥΦΥΗ ΣΥΣΤΗΜΑΤΑ	el
heal.classificationURI	http://data.seab.gr/concepts/aeeca99fc63e5f271c42e25accff2693ca5625d7
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2015-03-02
heal.abstract	Το ανοσοποιητικό σύστημα είναι ένα σύμπλεγμα μορίων, κυττάρων και οργάνων που έχει σκοπό να προστατέψει το οργανισμό από παθογόνα που εισβάλλουν σε αυτόν. Η ικανότητα αναγνώρισης των παθογόνων αυτών δεν είναι εγγενής, αλλά αποκτάται μέσω ενός πολύπλοκου μηχανισμού μάθησης, ο οποίος προσαρμόζει τα αντισώματα στην αναγνώριση συγκεκριμένου τύπου αντιγόνων. Παράλληλα ωστόσο, οι εισβάλλοντες μικροοργανισμοί μεταλλάσσονται με ταχείς ρυθμούς, και για να γίνεται αποτελεσματικά η αντιμετώπισή τους πρέπει ο μηχανισμός αυτός να είναι σε θέση να γενικεύσει την ικανότητα αναγνώρισης σε παθογόνα με παρόμοια, ελλιπή ή αλλοιωμένη μορφή. Ταυτόχρονα με αυτή την εξειδικευμένη απόκριση, το σύστημα πρέπει να ρυθμίζει την ποικιλότητα του πληθυσμού των αντισωμάτων του, ώστε να είναι ικανά, στο σύνολό τους, να αναγνωρίζουν ένα ευρύ φάσμα αντιγόνων, χωρίς παράλληλα να αναγνωρίζονται μεταξύ τους, ώστε να καθίσταται δυνατός ο διαχωρισμός των υγιών ιστών του οργανισμού από τα παθογόνα. Οι ιδιότητες αυτές της μάθησης, γενίκευσης, ανοχής σε θόρυβο, και διαχείρισης της ποικιλομορφίας είναι ιδιαίτερα χρήσιμες και για ένα σύστημα υπολογιστικής νοημοσύνης, και το ανοσοποιητικό σύστημα έχει αποτελέσει έμπνευση για μία αντίστοιχη κατηγορία αλγορίθμων, τα Τεχνητά Ανοσοποιητικά Συστήματα. Αντικείμενο της παρούσας διατριβής είναι η διερεύνηση αυτού του υπολογιστικού παραδείγματος, και η προσαρμογή του σε καίρια προβλήματα της υπολογιστικής νοημοσύνης. Το χαρακτηριστικότερο από αυτά τα προβλήματα είναι η ταξινόμηση προτύπων, με μεγάλο εύρος εφαρμογών που εκτείνονται από την όραση και την ταξινόμηση κειμένων μέχρι τη βιοπληροφορική. Στο πρόβλημα αυτό εστιάζει η πρώτη προτεινόμενη μεθοδολογία, δημιουργώντας έναν ταξινομητή προτύπων που βασίζεται σε κανόνες. Για τη μορφή των κανόνων προτείνεται δευτεροβάθμια επιφάνεια, βασισμένη στη γενίκευση της έλλειψης σε μεγαλύτερο αριθμό διαστάσεων με ασαφή συνάρτηση συμμετοχής. Για την αξιολόγηση των κανόνων αυτών ορίζεται κριτήριο το οποίο συνδυάζει το ποσοστό ορθών ταξινομήσεων, ώστε η ικανότητα αναγνώρισης να αυξάνεται με την πάροδο του χρόνου, και το πλήθος των προτύπων που καλύπτονται, ώστε να αποφεύγεται η δημιουργία μεγάλου πλήθους μικρών κανόνων η οποία οδηγεί σε φαινόμενα υπερεκπαίδευσης. Παράλληλα, στο κριτήριο ενσωματώνεται ο βαθμός στον οποίο έχει αντιμετωπιστεί το κάθε αντιγόνο ως εκείνη τη στιγμή, ενισχύοντας την αναζήτηση νέων περιοχών του χώρου προβλήματος. Επιπλέον, αξιοποιούνται οι μηχανισμοί του υπολογιστικού παραδείγματος για την αφαίρεση κανόνων που υστερούν ως προς τις επιδόσεις τους και υποβαθμίζουν τη συνολική ποιότητα του ταξινομητή, ή παρουσιάζουν μεγάλη ομοιότητα μεταξύ τους και δε συμβάλλουν στην ποικιλομορφία του. Τέλος, προτείνεται τρόπος αρχικοποίησης των κανόνων που βασίζεται στον βαθμό στον οποίο το κάθε πρότυπο έχει καλυφθεί ως εκείνη τη στιγμή, υποβοηθώντας την εξαντλητική κάλυψη του χώρου του προβλήματος. Ένα ακόμα σημαντικό πρόβλημα της υπολογιστικής νοημοσύνης αφορά τη βελτιστοποίηση συναρτήσεων. Ωστόσο, σε πολλά προβλήματα δεν επαρκεί η βελτιστοποίηση ενός μοναδικού ζητουμένου, αλλά εμφανίζονται πολλαπλά και συνήθως αντικρουόμενα κριτήρια. Σε τέτοια προβλήματα το ζητούμενο είναι η εύρεση ενός συνόλου λύσεων που αποτελούν βέλτιστους συμβιβασμούς μεταξύ των κριτηρίων αυτών, και το οποίο ονομάζεται μέτωπο \tl{Pareto} του προβλήματος. Η διαδικασίας εύρεσης των λύσεων αυτών χαρακτηρίζεται πολυκριτηριακή βελτιστοποίηση, και αποτελεί ένα από τα σημαντικότερα ερευνητικά θέματα, με πλήθος εφαρμογών που περιλαμβάνουν την μακροοικονομία, τη σχεδίαση μηχανών και τον αυτόματο έλεγχο. Οι υπάρχοντες αλγόριθμοι παρουσιάζουν μειωμένες επιδόσεις σε προβλήματα με μεγάλους χώρους απόφασης, ενώ παράλληλα καλύπτουν μικρό τμήμα του ιδανικού μετώπου σε κάποια προβλήματα, ενώ δεν αποδίδουν ικανοποιητικά το σχήμα του σε άλλα. Για την αντιμετώπιση των προβλημάτων αυτών προτείνεται μεθοδολογία που εξετάζει την επίδραση που έχει το εύρος τιμών της κάθε μεταβλητής του χώρου απόφασης στην τιμή της προς βελτιστοποίηση συνάρτησης, και στη συνέχεια καθορίζει τη μείωση του εύρους μετάλλαξης συναρτήσει του χρόνου κατά τρόπο που να επιτυγχάνεται ο επιθυμητός ρυθμός σύγκλισης στο αντικειμενικό χώρο του προβλήματος. Για την κατανομή των λύσεων προτείνεται κριτήριο που βασίζεται στην ατομική συνεισφορά κάθε λύσης στο συνολικό υπερ-όγκο που καλύπτει το προτεινόμενο μέτωπο. Το κριτήριο ορίζεται κατά τρόπο που να εξασφαλίζεται ότι αποδίδονται μεγαλύτερες τιμές σε λύσεις που βρίσκονται στα άκρα του μετώπου, ή είναι κρίσιμες για να αποδώσουν το σχήμα του. Οι επιδόσεις των προτεινόμενων μεθόδων αξιολογούνται με την χρήση δύο εκτενών συνόλων πειραμάτων. Για το πρόβλημα της ταξινόμησης προτύπων, επιλέγονται μία σειρά προβλημάτων αναφοράς που έχουν χρησιμοποιηθεί εκτενώς στη βιβλιογραφία, τα οποία επεκτείνονται ενσωματώνοντας και προβλήματα με πολύ μεγαλύτερο πλήθος χαρακτηριστικών και κατηγοριών. Η προτεινόμενη μέθοδος συγκρίνεται με τους χαρακτηριστικότερους αλγορίθμους που βασίζονται σε κανόνες, καθώς και με Μηχανές Διανυσμάτων Υποστήριξης, και οι επιδόσεις αξιολογούνται με τη χρήση πολλαπλών στατιστικών δοκιμών. Για το πρόβλημα της πολυκριτηριακής βελτιστοποίησης γίνεται χρήση των δύο γνωστότερων συνόλων προβλημάτων αξιολόγησης, στα οποία ωστόσο το πλήθος των μεταβλητών έχει αυξηθεί σημαντικά. Επιπλέον, εξετάζεται μία σειρά επιλεγμένων προβλημάτων με πολύ μεγαλύτερους χώρους απόφασης, στα οποία το ιδανικό μέτωπο είναι εξαιρετικά δύσκολο να καλυφθεί σε όλο του το εύρος. Το πειραματικό μέρος ολοκληρώνεται με την εφαρμογή της μεθόδου σε ένα μηχανολογικό πρόβλημα. Στο σύνολο τους, τα αποτελέσματα των πειραμάτων διαφωτίζουν τις επιλογές που έγιναν στη σχεδίαση των μεθοδολογιών και επιβεβαιώνουν ότι επιτυγχάνονται οι στόχοι στους οποίους εστιάζει η διατριβή.	el
heal.abstract	The immune system is a complex of molecules, cells and organs that aim at protecting the host organism from invading pathogens. The system's ability to recognise these pathogens is not innate, but can be acquired through a complex learning process, which adapts antibodies to recognizing specific types of antigens. However, the invading agents also evolve rapidly, and to combat them effectively the system must be able to generalize its recognition ability to similar, incomplete or corrupt forms of the antigen. In parallel to this antigen-specific response, the system must regulate the diversity of its antibody population so that they are able, as a whole, to recognize a wide array of pathogens while, at the same time, not recognize each other, in order to be able to disciminate the pathogens from the organism's own healthy tissues. These abilities of learning, generalization, noise-tolerance and diversity regulation are valuable to a computational intelligence system and, as a result, the immune system has become the source of inspiration for a corresponding family of algorithms, namely Artificial Immune Systems. The present PhD thesis aims at researching and extending this novel computational paradigm, and adapting it to core computational intelligence problems. The most important of these problems is pattern classification, with a wide array of applications that range from computer vision and document classification to bioinformatics. The first proposed method focuses on creating a rule-based pattern classifier. The rule form is based on a generalization of the ellipse to a larger number of dimensions, with a fuzzy membership function. For the evaluation of the rules, a metric is proposed that combines the classifier precision, so that the classification ability improves with time, and the pattern coverage, so as to avoid creating small rules which lead to overtraining. Moreover, the degree to which each pattern has been covered by the existing rules is incorporated into the metric, to aid the search of new areas of the problem space. The paradigm-specific mechanisms are employed to remove rules that are significantly inferior to the average quality of the network, or are too similar to other rules, undermining its diversity. Finally, an initialization method is proposed, based on the degree to which each pattern has been covered by existing rules, further aiding the exhaustive search of the problem space. Another core problem of computational intelligence regards function optimization. However, in many complex problems, multiple and usually conflicting objectives must be optimized simultaneously. In such problems, the optimization process aims at finding a set of solutions representing optimal trade-offs between these objectives, called the Pareto front of the problem. This process is called multi-objective optimization, and has a wide range of applications, including macroeconomics, optimal design, and control systems. Existing algorithms present reduced performance in problems with large decision spaces, while they cover a small portion of the ideal front in some problems and do not sufficiently approximate its shape in others. To deal with these problems, a method is proposed that examines the effect of the decision variables domain to the output of the function, and regulates the mutation range in order to achieve the desired covergence in the objective space. Regarding the distribution of solutions, a metric is proposed based on the individual contribution of each solution to the total hyper-volume covered by the front. The metric ensures that large values are assigned to boundary solutions, or solutions that are critical to approximating the shape of the front. The proposed methods are evaluated using two extended sets of experiments. The pattern classification algorithm is applied to a number of benchmark problems that have been used extensively in the literature, but are extended with the incorporation of problems with much larger number of attributes and classes. The proposed method is compared to the most representative rule-based classifiers, as well as Support Vector Machines, using multiple significance tests. The multiobjective optimization algorithm is evaluated using the two most commons sets of benchmark problems, while significantly increasing the number of their decision parameters. Moreover, the method is tested on a set of selected problems, with significantly larger problems spaces and ideal fronts that are extremely difficult to cover to their whole extent. Finally, the experiments are completed with the application of the method to an engineering problem. The results of the experiments justify the choices made and assert that the aims of the thesis are fulfilled.	en
heal.advisorName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Τσανάκας, Παναγιώτης	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Ματσόπουλος, Γεώργιος	el
heal.committeeMemberName	Κοντογιάννης, Κωνσταντίνος	el
heal.committeeMemberName	Σιδερίδης, Αλέξανδρος	el
heal.academicPublisher	Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	185
heal.fullTextAvailability	true