HEAL DSpace

Αναγνώριση προσωπικότητας από σπεκτογράμματα φωνής σε διαφορετικές χρονικές κλίμακες

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Παντελαίος, Νικόλαος el
dc.contributor.author Pantelaios, Nikolaos en
dc.date.accessioned 2018-09-07T11:07:14Z
dc.date.available 2018-09-07T11:07:14Z
dc.date.issued 2018-09-07
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/47550
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.15712
dc.rights Default License
dc.subject AI en
dc.subject Μηχανική μάθηση el
dc.subject Τεχνητή νοημοσύνη el
dc.subject Αναγνώριση προτύπων el
dc.subject Αναγνώριση φωνής el
dc.subject Σπεκτόγραμμα el
dc.subject Machine Learning en
dc.subject Pattern matching en
dc.subject Speech recognition en
dc.subject Spectogram en
dc.title Αναγνώριση προσωπικότητας από σπεκτογράμματα φωνής σε διαφορετικές χρονικές κλίμακες el
heal.type bachelorThesis
heal.classification Αναγνώριση φωνής el
heal.classification Τεχνητή νοημοσύνη el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2018-07-09
heal.abstract Ο κλάδος της ψυχολογίας έχει για πολλές δεκαετίες ασχοληθεί με την εύρεση ενός μοντέλου περιγραφής της Προσωπικότητας. Με τον όρο Προσωπικότητα αναφερόμαστε σε συγκεκριμένες δια- φορές σε χαρακτηριστικά πρότυπα σκέψης, αισθημάτων και συμπεριφοράς. H προσωπικότητα καθορίζει τους τρόπους που επικοινωνεί και αλληλεπιδρά το άτομο. Δεδομένου της σημασίας της για την επικοινωνία και την ανάπτυξη των διαπροσωπικών σχέσεων στη σημερινή εποχή της ραγδαίας τεχνολογικής ανάπτυξης, η μελέτη της Αναγνώρισης Προσωπικότητας κρίνεται πιο σημαντική από ποτέ. Υπάρχουν διάφοροι τρόποι αναπαράστασης της προσωπικότητας και οι πιο διαδεδομένοι από αυτούς δίνουν μια ικανή αναπαράσταση για την αποκωδικοποίηση της προσωπικότητας. Η μελέτη της Προσωπικότητας και ο συνολικός κλάδος που αυτή εντάσσεται, επικεντρώνεται στην εξαγωγή χαρακτηριστικών μέσα από προγραμματιστικά μοντέλα και κατα συνέπεια στην κατηγοριοποίηση τους στην αντίστοιχη κλάση. Οι διάφοροι αλγόριθμοι κατηγοριοποίησης έχουν εξελιχτεί στην πάροδο των χρόνων και οι πιο πρόσφατες τεχνικές συμπεριλαμβάνουν νευρωνικά δίκτυα τόσο απλούστερα, όσο και πολύπλοκα νευρωνικά δίκτυα με ανάδραση. Η μελέτη της Προσωπικότητας γίνεται με κάθε δυνατό μέσο, συγκεκριμένα από την ανάλυση ήχου, κειμένου, εικόνας, βίντεο και κάθε άλλου διαθέσιμου μέσου καθώς και συνδυασμού αυτών. Στην εργασία αυτή θα ασχοληθούμε με την Αναγνώριση Προσωπικότητας με την κατηγοριοποίηση αυτής να γίνεται μέσω ανάλυσης Σπεκτογραμμάτων που εξάγονται από το ηχητικό σήμα και με τη χρήση νευρωνικών δικτύων καταλήγουμε στην εκπαίδευση αυτών και στην τελική πρόβλεψη της Προσωπικότητας. Μετά την εξαγωγή Σπεκτογραμμάτων από τον ήχο, ακολουθεί η ανάλυση των Σπεκτογραμμάτων από Αυτόματους Κωδικοποιητές για την κατάλληλη μετατροπή τους που οδηγεί στα επόμενα στάδια ανάλυσης και μελέτης της εργασίας. Στην παρούσα εργασία μετά την εξαγωγή διαφορετικών χρονικών κλιμάκων από την αρχική είσοδο Σπεκτογραμμάτων , αυτές συνθέτονται, για την εξαγωγή περισσοτέρων χαρακτηριστικών. Με αυτή τη μέθοδο μπορούμε να κάνουμε μια προσέγγιση με καλά αποτελέσματα όσον αφορά την Αναγνώριση Προσωπικότητας. Στη συνέχεια εφαρμόζουμε τις ίδιες αυτές αρχιτεκτονικές και μεθόδους για την Αναγνώριση Συναισθήματος, για την καλύτερη επαλήθευση αυτών των μεθόδων αλλά και για τη σύγκριση των δύο κλάδων στο βαθμό που αυτό καθίσταται δυνατό. Συγκεκριμένα το μοντέλο που χρησιμοποιούμε διαχωρίζει τη διαδικασία σε στάδια. Στο πρώτο στάδιο εισάγουμε σαν είσοδο του δικτύου Σπεκτογράμματα που έχουν εξαχθεί από τη Φωνή και τα τροφοδοτούμε στον Αυτόματο Κωδικοποιητή. Εκπαιδεύοντας τον Κωδικοποιητή για διαφορετικές χρονικές Κλίμακες αποθηκεύουμε το εκπαιδευμένο δίκτυο για το επόμενο στάδιο. Διαχωρίζοντας τον Αυτόματο Κωδικοποιητή στο μεσαίο επίπεδο, καταλήγουμε στην εξαγωγή Χαρακτηριστικών από το αρχικό Σπεκτόγραμμα εισόδου. Αυτά τα Χαρακτηριστικά περνούν από τα επόμενα επίπεδα(από 3 - 5 επίπεδα) που είναι είτε Συνελικτικού Δικτύου επίπεδα, είτε επίπεδα πλήρως Συνδεδεμένου Δικτύου και στο τελευταίο στάδιο καταλήγουν στο επίπεδο εξόδου που καθορίζει τη δυαδική απόφαση για το κάθε δεδομένο εισόδου. Αν κάνουμε την διαδικασία εκπαίδευσης του Αυτόματου Κωδικοποιητή για διαφορετικές Κλίμακες, χρησιμοποιώντας διαφορετικά είδη πυρήνα, παίρνουμε εξαγωγή Χαρακτηριστικών σε διαφορετικές Χρονικές Κλίμακες και στη συνέχεια δοκιμάζουμε την συνένωση των διαφόρων κλιμάκων σε ένα είδος ιεραρχικού μοντέλου. Τα αποτελέσματα που παίρνουμε είναι για τα βασικά πειράματα στο μέσο όρο των 5 αξόνων της Προσωπικότητας στο 58:59%, χρησιμοποιώντας Μηχανές Υποστήριξης Διανυσμάτων καθώς και Ανάλυση Κυρίων Συνιστωσών. Στη συνέχεια τα αποτελέσματα για ένα απλό νευρωνικό δίκτυο δύo επιπέδων είναι στο 61:50% για το μέσο όρο των 5 αξόνων. Για διαφορετικές χρονικές Κλίμακες και Προεκπαίδευση στη βάση δεδομένων Αναγνώρισης Συναισθήματος, παίρνουμε μέσο όρο των 5 αξόνων της Προσωπικότητας 67:25%. Για εξαγωγή χαρακτηριστικών από Σπεκτογράμματα έχουμε μέσο όρο κλάσεων 63:15% και τελος, εφαρμόζοντας τις αρχιτεκτονικές συνένωσης διαφορετικών χρονικών Κλιμάκων παίρνουμε 68:51% για τους 5 άξονες της Προσωπικότητας. el
heal.abstract The field of phychology has for many decades studied Personality and the development of a model describing it. The term Personality refers to specific differences on characteristic patterns of thought, emotions and behaviour. Personality defines how a person communicates and interacts. Taking into account the significance of communication and the development of interpersonal relationships in to- day’s age of rapid technology development, studying Personality Recognition is more crucial than ever. There are many ways to represent Personality and the most important of them give the necessary tools to decode Personality. The study of Personality and the overall field it belongs to, focuses on feature extraction through programming models and consequently classifying it to the specified class. Various classifying algorithms have evolved over time kai most recent techniques include Neural Networks both simpler, as well as more complex neural networks with feedback. Studying Personality includes every possible input, specifically from speech analysis, to text, im- age, video and every other available mean analysis, as well as combination of either of them. On this current Thesis we are gonna focus on Personality Recognition, where its classification is decided by Spectrogram Analysis, produced by speech with the help of neural networks and resulting to their train- ing and the final Personality Classification. Immediately after Spectrogram Extraction from speech, the Spectrogram Analysis from Autoencoders follows, for their appropriate conversion which leads to next analysis stages of this project. Then, after extracting different time scales from initial Spec- trogram input, they are combined together, for further feature extraction. This method leads to good results in Personality Recognition. Moreover, we apply the same architectures and methods for Emotion Recognition, for a further technique verification as well as a comparison between the two fields, as far as this is possible. Particularly, the model we are using distills separates the process in stages. In the first stage, we feed our Autoencoder with Spectograms, extracted from Speech data. By training the Autoencoder for different time scales, we save our network for the next stages. By cutting the Autoencoder in the middle layer, we manage to extract features from the initial Spectogram input. These features come through the next layers ( 3 - 5 layers), which are either Convolutional or Fully-Connected Layers and in the last stage they connect to the output layer which defines the binary classification for every input data. Following the Autoencoder training process, we extract Features in different time scales and consequently we apply concatenation of the different time scales in a way that a hierarchical model is constructed. The results we end up with for our basic experiments are 58 59% , using SVM and PCA. Af- terwards, using a simple Neural Network of 2 hidden layers we have for the mean value of the 5 Personality Axes a 61 50% classification result. Using Transfer Learning and pretraining our network on IEMOCAP dataset, we have 67 25% for the OCEAN values of Personality. Using Feature Ex- traction and a single timescale, our classification results are 63 15% and finally, by using different timescales concatenation the classification results rise to 68 51% for the 5 Personality axes. en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Στάμου, Γιώργος el
heal.committeeMemberName Ποταμιάνος, Αλέξανδρος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 63 σ. el
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής