Σε μια εποχή όπου, ο αριθμός των συνόλων δεδομένων που μας περιβάλλει έχει πάρει τεράστιες διαστάσεις, καλούμαστε να αναλύσουμε αυτά τα σύνολα δεδομένων με σκοπό την εξαγωγή χρήσιμών πληροφοριών και την λήψη αποφάσεων. Λόγο του μεγέθους των δεδομένων καθώς και το ότι σύνολα δεδομένων από σύνολα δεδομένων διαφέρουν ως προς το μέγεθος το τύπο των παραμέτρων και την μορφή, καλούμαστε να βρούμε καινούργιες μεθόδους για αυτοματοποιημένη ανάλυση δεδομένων που θα έχουν ικανότητες βελτίωσης και προσαρμοστικότητας. Έτσι στρεφόμαστε στο τομέα της τεχνητής νοημοσύνης για τις κατάλληλες λύσεις και ειδικότερα στις μηχανές εκμάθησης. Ακριβέστερα στην παρούσα διπλωματική εργασία θα επικεντρωθούμε στις μεθόδους Bagging, Boosting και στις μηχανές διανυσματικής υποστήριξης (support vector machine SVM) καθώς επίσης και στο συνδυασμό των μηχανών διανυσματικής υποστήριξης με το Bagging και το Boosting.
Στο πρώτο κεφάλαιο παρουσιάζονται εκτενώς η εξόρυξη δεδομένων και οι μηχανές εκμάθησης, οι εφαρμογές που έχουν, οι υποκατηγορίες στις οποίες χωρίζονται και ο τρόπος λειτουργίας τους.
Στο δεύτερο κεφάλαιο γίνεται εκτενής ανάλυση των μηχανών διανυσματικής υποστήριξης. Ειδικότερα αναλύεται ο ακριβής τρόπος λειτουργίας τους παρουσιάζοντας το μαθηματικό υπόβαθρο πάνω στο οποίο είναι κατασκευασμένες, ενώ γίνεται η απόδειξη κάποιων βασικών σχέσεων. Στην συνέχεια με την χρήση της R γίνεται μια εφαρμογή σε πρόβλημα ταξινόμησης και σχολιασμός των αποτελεσμάτων.
Στο τρίτο κεφάλαιο παρουσιάζονται οι μέθοδοι Boosting και Bagging περιγράφοντας την γενική τους ιδέας, πλεονεκτήματα μειονεκτήματα και στο τι αποσκοπούν. Ακόμη παραθέτουμε και περιγράφουμε τις διάφορες παραλλαγές των αλγορίθμων τους. Στο τέλος και πάλι με την χρήση της R εφαρμόζουμε αυτές τις μεθόδους στο ίδιο σύνολο δεδομένων και κάνουμε μια σύγκριση των δύο μεθόδων.
Στο τέταρτο κεφάλαιο χρησιμοποιούμε Boosting και Bagging έχοντας ως βασικό ταξινομητή μηχανές διανυσματικής υποστήριξης. Γίνονται οι κατάλληλες τροποποιήσεις των αλγορίθμων και βλέπουμε την αποτελεσματικότητα των μεθόδων αυτών σε μια σειρά πειραμάτων εξάγοντας χρήσιμα αποτελέσματα και συμπεράσματα.
Στο πέμπτο κεφάλαιο γίνεται η εφαρμογή των πιο πάνω μεθόδων για την πρόβλεψη της κίνησης του χρηματιστηριακού δείκτη FTSE 100. Γίνεται ανάλυση των δεδομένων μας και με την χρήση καταλλήλων πακέτων στην R αφού εκπαιδεύσουμε τους αλγορίθμου μας προβλέπουμε την κίνηση του δείκτη μας. Τέλος γίνεται και πάλι σύγκριση των αποτελεσμάτων μας.
Στο έκτο και τελευταίο κεφάλαιο γίνεται ένας επίλογος όπου παραθέτουμε τα γενικά μας συμπεράσματα.
At a time when the numbers and sizes of datasets that surrounds us has gotten huge dimensions, we have to analyze it in order to extract useful information and decisions. Due to the huge size of datasets and the differences between the type of parameters and the form of these datasets, we are obliged to find new methods for automated analysis of data that will improve skills and adaptability. So we look into the fields of artificial intelligence for appropriate solutions and in particular on machines learning methods. More precisely in this degree thesis we will focus on methods of Bagging, Boosting and Support Vector Machines (SVM) as well as the combinations of support vector machines with Bagging and Boosting.
The first chapter presents an extensive data mining and machine learning applications, and it also presents the subcategories which this methods are divided and modus operandi.
The second chapter is an extensive analysis of support vector machines. As specifically discussed the precise mode, presents the mathematical background and the proof of some basic relations. Then, with the use of R, there is an application to a classification problem and a discussion of the results.
The third chapter presents the methods of Boosting and Bagging describing their general concept, their advantages and disadvantages and the aim of these methods. The chapter also lists and describes the various variants of algorithms. At the end with the use of R we apply these methods to the same data set and we make a comparison of two methods.
In the fourth chapter we use Boosting and Bagging having as base learner support vector machines. They make suitable modifications of the algorithms and we see the effectiveness of these methods in a series of experiments extracting useful results and conclusions.
The fifth chapter is the application of the above methods for predicting the movement of the stock index FTSE 100. By analyzing our data and with the use of suitable packages in R, we train our algorithms and then predicts the movement of our index. Finally we compare the results again.
The sixth and final chapter is an epilogue and it presents our general conclusions.