dc.contributor.author | Αναστασίου, Γεώργιος | el |
dc.contributor.author | Anastasiou, Georgios | en |
dc.date.accessioned | 2015-12-04T12:45:37Z | |
dc.date.available | 2015-12-04T12:45:37Z | |
dc.date.issued | 2015-12-04 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/41755 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.9784 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Επεξεργασία σήματος | el |
dc.subject | Μηχανική μάθηση | el |
dc.subject | Ακουστική προσοχή | el |
dc.subject | Επεξεργασία εικόνας | el |
dc.subject | Καμπύλη σημαντικότητας | el |
dc.subject | Signal processing | en |
dc.subject | Machine learning | en |
dc.subject | Auditory attention | en |
dc.subject | Image processing | en |
dc.subject | Saliency curve | en |
dc.title | Αυτόματη ανίχνευση σημαντικών ηχητικών γεγονότων | el |
heal.type | bachelorThesis | |
heal.classification | Πληροφορική | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2015-07-20 | |
heal.abstract | Στην παρούσα διπλωματική εργασία εξετάζεται η υπολογιστική προσέγγιση της ακουστικής προσοχής του ανθρώπου, και συγκεκριμένα η αυτόματη ανίχνευση ήχων που ενεργοποιούν τον κάτωθεν μηχανισμό της προσοχής (bottom-up). Ενεργοποίηση του κάτωθεν μηχανισμού της προσοχής παρατηρείται όταν οι ήχοι γίνονται αυθόρμητα αντιληπτοί από τους ανθρώπους, ανεξάρτητα από την βούληση τους. Ήχοι που κατέχουν αυτή την ιδιότητα θα ονομάζονται σημαντικοί (salient). Στόχος, επομένως, αυτής της εργασίας είναι η αυτόματη ανίχνευση σημαντικών ήχων (γεγονότων) σε αρχεία ήχου. Προς επίτευξη αυτού του σκοπού, αρχικά παρουσιάζεται το μοντέλο των Kayser et al. το οποίο ανιχνεύει σημαντικά ηχητικά γεγονότα μέσω της επεξεργασίας του φασματογραφήματος του ήχου. Η έξοδος του μοντέλου είναι ένας διδιάστατος χάρτης σημαντικότητας, από τον οποίο υπολογίζεται καμπύλη σημαντικότητας και πραγματοποιείται ταξινόμηση των ηχητικών σκηνών. Επίσης, χρησιμοποιείται η έννοια του gist μιας σκηνής από τη βιβλιογραφία αντίληψης εικόνων και δομούνται διανύσματα από τον χάρτη τα οποία ταξινομούνται με τον αλγόριθμο kNN. Παρατηρείται συσχέτιση της εξόδου του μοντέλου με βασικούς μηχανισμούς της ακουστικής αντίληψης. Στη συνέχεια προτείνεται μία τροποποίηση του μοντέλου των Kayser et al, όπου το φασματογράφημα αντικαθίσταται από μονοδιάστατα χαρακτηριστικά που εξάγονται σε πλαίσιο βραχέως χρόνου από το ηχητικό σήμα. Γίνεται προσαρμογή κάθε σταδίου του μοντέλου για το χειρισμό μονοδιάστατων καμπυλών. Η έξοδος του μοντέλου είναι μία καμπύλη σημαντικότητας με βάση την οποία χαρακτηρίζονται οι σκηνές ως σημαντικές ή μη. Με χρήση των χαρακτηριστικών, δημιουργούνται ιστογράμματα σε αναλογία με τη μέθοδο bag-of-words στην Όραση Υπολογιστών, και χειριζόμενα αυτά ως διανύσματα πραγματοποιείται ταξινόμηση των ηχητικών σκηνών με χρήση SVM. Το τροποποιημένο μοντέλο υπερβαίνει σε απόδοση το αρχικό των Kayser et al. Επίσης δοκιμάζονται τα κλασσικά χαρακτηριστικά της βιβλιογραφίας, MFCC και AM-FM, στο πρόβλημα ανίχνευσης σημαντικών γεγονότων. Επιπλέον, πραγματοποιείται μια υψηλότερου επιπέδου προσέγγιση και εξάγονται διαφορετικά χαρακτηριστικά για τα σημεία του ηχητικού σήματος που εμφανίζεται φωνή από αυτά στα οποία δεν εμφανίζεται. Τέλος προτείνονται μελλοντικές κατευθύνσεις για έρευνα και επέκταση αυτής της εργασίας. Τα πειράματα γίνονται σε ηχητικά σήματα που προέρχονται από βάση δεδομένων που περιέχει αποσπάσματα από κινηματογραφικές ταινίες. Ως βάση αναφοράς χρησιμοποιούνται ανθρώπινες επισημειώσεις της σημαντικότητας. Δηλαδή, άτομα που άκουσαν τα ηχητικά αρχεία, σημείωσαν ποια μέρη τους φάνηκαν σημαντικά. | el |
heal.advisorName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Ποταμιάνος, Γερασιμος | el |
heal.committeeMemberName | Φωτεινέα, Ευίτα-Σταυρούλα | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 131 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: