HEAL DSpace

Statistical techniques to identify and handle outliers in multivariate data

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Γρέντζελος, Χρήστος el
dc.contributor.author Grentzelos, Christos en
dc.date.accessioned 2020-12-07T08:55:05Z
dc.date.available 2020-12-07T08:55:05Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/52324
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.20022
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Εφαρμοσμένες Μαθηματικές Επιστήμες” el
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Outliers en
dc.subject Multivariate Data en
dc.subject Depth-based en
dc.subject Density-based en
dc.subject Distance-based en
dc.subject Έκτροπες παρατηρήσεις el
dc.subject Πολυδιάστατη περίπτωση el
dc.subject Βάθος el
dc.subject Πυκνότητα el
dc.subject Απόσταση el
dc.title Statistical techniques to identify and handle outliers in multivariate data en
dc.title Στατιστικές Μέθοδοι Ανίχνευσης Έκτροπων Παρατηρήσεων σε Πολυδιάστατα Δεδομένα el
heal.type masterThesis
heal.classification Μαθηματικά el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-06-25
heal.abstract Στην παρούσα εργασία, επικεντρωνόμαστε σε μεθόδους ανίχνευσης έκτροπων παρατηρήσεων σε πολυδιάστατο χώρο. Πιο αναλυτικά, μία έκτροπη παρατήρηση εκφράζει κάποιου είδους ανώμαλης συμπεριφοράς στο συνολικό σύνολο δεδομένων. Η κατανόηση αυτής της συμπεριφοράς και γενικότερα της φύσης των έκτροπων παρατηρήσεων δίνει μία καλύτερη εικόνα για την διαδικασία παραγωγής των δεδομένων. Επομένως, η ανίχνευση έκτροπων παρατηρήσεων, αποτελεί αναπόσπαστο κομμάτι στην στατιστική ανάλυση δεδομένων, το οποίο ρίχνει φως σε εκείνα τα σημεία που δεν συμμορφώνονται με τα υπόλοιπα δεδομένα. Μετά από μία σύντομη εισαγωγή, στο κεφάλαιο 2 παρουσιάζουμε κάποιες από τις ποικίλες μεθόδους που σχηματίστηκαν για την εύρεση μονοδιάστατων έκτροπων παρατηρήσεων. Επιπλέον αναδεικνύουμε πιθανά προβλήματα που μπορούν να προκληθούν κατά την εύρεση των έκτροπων παρατηρήσεων ακόμη και στο μονοδιάστατο χώρο. Τέλος, εφαρμόζουμε αυτές τις μεθόδους σε ένα σύνολο δεδομένων που έχει παραχθεί από την μονοδιάστατη κανονική κατανομή, προκειμένου να υπογραμμίσουμε αυτά τα προβλήματα και να συγκρίνουμε τα αποτελέσματα. Στα επόμενα κεφάλαια, παρουσιάζουμε διαφορετικές μεθόδους για πολυδιάστατα δεδομένα, βασισμένες σε διάφορα χαρακτηριστικά, τα βασικότερα από τα οποία είναι: Το βάθος, η απόσταση, η πυκνότητα, η κατανομή και η απόσταση Mahalanobis. Στο κεφάλαιο 3, γίνεται η παρουσίαση διαφορετικών εννοιών του βάθους και κάποιες από τις μεθόδους που βασίζονται στις αντίστοιχες έννοιες. Πιο αναλυτικά, συζητάμε την έννοια του βάθους όπως ορίστηκε από τον Tukey και τους αλγορίθμους IDODEPTH και FDC που βασίστηκαν σε αυτήν και την έννοια του βάθους όπως ορίστηκε από το Liu που αποτέλεσε την βάση για την Τροποποιημένη Ζώνη Βάθους (Modified Band Depth), την οποία εφαρμόζουμε σε πολυδιάστατα δείγματα. Στο κεφάλαιο 4, παρουσιάζουμε μεθόδους ανίχνευσης έκτροπων παρατηρήσεων, που βασίζονται στην απόσταση μεταξύ των δεδομένων. Επιπροσθέτως, παρουσιάζουμε τον πρώτο χρονικά ορισμό της έκτροπης παρατήρησης που προκύπτει εξαιτίας της απόστασης της από τα υπόλοιπα δεδομένα, όπως και τον ορισμό που χρησιμοποιείται πιο πολύ από τους σύγχρονους αλγορίθμους και βασίζεται στην k-οστή κοντινότερη γειτονιά. Στην συνέχεια, παρουσιάζουμε κάποιες μεθόδους που μειώνουν σημαντικά τον χρόνο ανίχνευσης εκείνων των έκτροπων παρατηρήσεων, προκειμένου οι αντίστοιχοι αλγόριθμοι να είναι αποτελεσματικοί και σε μεγαλύτερα σύνολα δεδομένων. Επιπλέον παρουσιάζουμε τον ορισμό του αντίστροφου k-οστού κοντινότερου γείτονα από τον Hautamaki. Τέλος, εφαρμόζουμε την μέθοδο που χρησιμοποιεί τον πρώτο χρονικά ορισμό, καθώς και δύο μεθόδους βασισμένες στον υπολογισμό των $k$ κοντινότερων αποστάσεων, όπως και την μέθοδο που βασίζεται στον ορισμό του Hautamaki. Στο κεφάλαιο 5, παραθέτουμε μεθόδους ανίχνευσης έκτροπων παρατηρήσεων που λαμβάνουν υπόψιν την τοπική πυκνότητα κάθε παρατήρησης. Παρουσιάζουμε την μέθοδο του τοπικού παράγοντα έκτροπης παρατήρησης (Local Outlier Factor), που χαρακτηρίζεται ως η βάση των πιο γνωστών μεθόδων πυκνότητας, μαζί με την εύρωστη επέκταση της εν ονόματι Robust Kernel Outlier Factor (RKOF). Στο ίδιο κεφάλαιο εφαρμόζουμε αυτές τις μεθόδους και συγκρίνουμε τα αποτελέσματα μεταξύ τους. Στο κεφάλαιο 6, αναπτύσσουμε μεθόδους οι οποίες αναδεικνύουν έκτροπες παρατηρήσεις με βάση την απόσταση Mahalanobis. Πιο συγκεκριμένα παρουσιάζουμε την κλασσική απόσταση Mahalanobis καθώς και μία πιο εύρωστη εκδοχή της. Η κύρια διαφορά τους βρίσκεται στο γεγονός πως η πρώτη υπολογίζεται για κάθε σημείο χρησιμοποιώντας τις εκτιμήσεις του μέσου και της διασποράς όταν όλες οι παρατηρήσεις έχουν ληφθεί υπόψιν, ενώ η δεύτερη χρησιμοποιεί εκείνες τις εκτιμήσεις που έχουν προέλθει από ένα «βέλτιστο» υπόσυνολο παρατηρήσεων. Εκτός από το ποσοστιμόριο της χ^2 κατανομής που συνήθως χρησιμοποιείται σαν φράγμα (απόστασεις που ξεπερνούν το οποίο, θεωρείται πως αντιστοιχούν σε έκτροπες παρατηρήσεις), παρουσιάζουμε την επέκταση του Filzmoser. Τέλος, δοκιμάζουμε αυτές τις μεθόδους και συγκρίνουμε τα αποτελέσματα. Στο 7ο κεφάλαιο, παρουσιάζουμε μεθόδους που βασίζονται στην υπόθεση πως τα εκάστοτε δεδομένα προέχονται από γνωστή κατανομή. Οι περισσότερες από αυτές τις μεθόδους είναι αποτελεσματικές σε δεδομένα τα οποία προσεγγίζουν την κανονική κατανομή. Επιπροσθέτως, συγκρίνουμε αυτές τις μεθόδους με την βοήθεια του πακέτου OutliersO3. Τέλος, στα κεφάλαια 8 και 9 εφαρμόζουμε όλες αυτές τις μεθόδους στα δεδομένα humus και dat αντίστοιχα. Δοκιμάζοντας όλες τις προαναφερθέντες μεθόδους σε διαφορετικά δεδομένα, λαμβάνουμε μια πληρέστερη εικόνα σχετικά με την ανίχνευση έκτροπων παρατηρήσεων, την οποία παραθέτουμε στο κεφάλαιο 10. el
heal.abstract In this thesis, we focus on methods for detecting outliers in a multivariate setting. Outliers are also referred to as abnormalities, discordants, deviants, or anomalies in the data mining and statistics literature. It can be said that an outlier generally exhibits some abnormality or some kind of out of the way behavior. Understanding the nature of outliers gives us a better insight into the data generation process. Outlier detection is an integral part of the data analysis that sheds light on objects that do not conform with the rest of the data. After a brief Introduction, in Chapter 2 we illustrate some of the various methods that were devised to deal with univariate samples. Moreover, we state the masking and swamping effect that, as we will discuss, can be difficult to handle even in univariate samples. Finally, we apply these methods to a normally distributed sample in order to demonstrate the masking effect and to compare their results. In the following chapters, we present different methods for multivariate data based on various characteristics, which can be grouped into five big categories: Depth-based methods, Distance-based methods, Density-based methods, methods based on Mahalanobis distance and Distribution-based methods. In Chapter 3, different notions of depth are presented and some of their corresponding detection methods. Throughout the chapter, we discuss the notion of depth originated by Tukey that the ISODEPTH and FDC algorithms were based on and the notion of Liu that led to the Modified Band Depth which we will apply to multivariate samples. In Chapter 4, we present outlier detection methods based on the distance between objects. Moreover, we present the first notion of outliers based on their distance, the DB outliers as well as the one that is currently used based on the k nearest neighbor distance. Moreover, we present some of the basic pruning methods that distance-based methods use in order to handle bigger datasets. In addition, we present the definition of a reverse k-nearest neighbor by Hautamaki et al. Finally, we apply the method that is used to find DB outliers, two methods computing k nearest distances of the objects along with the method based on Hautamaki's definition. In Chapter 5, density-based methods are listed, that take into account the local density of each observation. We present the Local Outlier Factor (LOF) method, that is the basis of the best-known density-based methods, along with a more robust extension of this notion known as the Robust Kernel Outlier Factor (RKOF) method. In the same chapter we apply these methods and compare their results. In Chapter 6 we develop methods that are based on the Mahalanobis distance. The classical Mahalanobis distance is presented as well as a more robust version of it. Their main difference is that the first computes each observation's distance based on the estimators of the mean and scatter when all of the observations are taken into consideration while the second uses the the estimated mean and scatter from a specific subset of observations. Apart from the chi^2 quartile that is usually used as a cutoff for these methods, we present Filzmoser's extension, the adaptive quartile. Finally, we test these methods and compare their results. In Chapter 7, we present methods that detect outliers based on a distributional assumption. Most of these methods are more efficient when normally distributed datasets are under examination. Moreover, we compare the methods that we present in this chapter with the help of package OutliersO3. Finally, in Chapters 8 and 9 we apply all these methods to the humus and dat datasets respectively. Testing these methods on different datasets gives us the opportunity to compare them and to build a more solid opinion about outlier detection, given in Chapter 10. en
heal.sponsor Erasmus Programme en
heal.advisorName Καρώνη, Χρυσηίς el
heal.advisorName Barranco-Chamorro, Inmaculada en
heal.committeeMemberName Moreno-Rebollo, Juan-Luis en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών el
heal.academicPublisherID ntua
heal.numberOfPages 107 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα