HEAL DSpace

Αυτόματη ανίχνευση σημαντικών ηχητικών γεγονότων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Αναστασίου, Γεώργιος el
dc.contributor.author Anastasiou, Georgios en
dc.date.accessioned 2015-12-04T12:45:37Z
dc.date.available 2015-12-04T12:45:37Z
dc.date.issued 2015-12-04
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/41755
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.9784
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Επεξεργασία σήματος el
dc.subject Μηχανική μάθηση el
dc.subject Ακουστική προσοχή el
dc.subject Επεξεργασία εικόνας el
dc.subject Καμπύλη σημαντικότητας el
dc.subject Signal processing en
dc.subject Machine learning en
dc.subject Auditory attention en
dc.subject Image processing en
dc.subject Saliency curve en
dc.title Αυτόματη ανίχνευση σημαντικών ηχητικών γεγονότων el
heal.type bachelorThesis
heal.classification Πληροφορική el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2015-07-20
heal.abstract Στην παρούσα διπλωματική εργασία εξετάζεται η υπολογιστική προσέγγιση της ακουστικής προσοχής του ανθρώπου, και συγκεκριμένα η αυτόματη ανίχνευση ήχων που ενεργοποιούν τον κάτωθεν μηχανισμό της προσοχής (bottom-up). Ενεργοποίηση του κάτωθεν μηχανισμού της προσοχής παρατηρείται όταν οι ήχοι γίνονται αυθόρμητα αντιληπτοί από τους ανθρώπους, ανεξάρτητα από την βούληση τους. Ήχοι που κατέχουν αυτή την ιδιότητα θα ονομάζονται σημαντικοί (salient). Στόχος, επομένως, αυτής της εργασίας είναι η αυτόματη ανίχνευση σημαντικών ήχων (γεγονότων) σε αρχεία ήχου. Προς επίτευξη αυτού του σκοπού, αρχικά παρουσιάζεται το μοντέλο των Kayser et al. το οποίο ανιχνεύει σημαντικά ηχητικά γεγονότα μέσω της επεξεργασίας του φασματογραφήματος του ήχου. Η έξοδος του μοντέλου είναι ένας διδιάστατος χάρτης σημαντικότητας, από τον οποίο υπολογίζεται καμπύλη σημαντικότητας και πραγματοποιείται ταξινόμηση των ηχητικών σκηνών. Επίσης, χρησιμοποιείται η έννοια του gist μιας σκηνής από τη βιβλιογραφία αντίληψης εικόνων και δομούνται διανύσματα από τον χάρτη τα οποία ταξινομούνται με τον αλγόριθμο kNN. Παρατηρείται συσχέτιση της εξόδου του μοντέλου με βασικούς μηχανισμούς της ακουστικής αντίληψης. Στη συνέχεια προτείνεται μία τροποποίηση του μοντέλου των Kayser et al, όπου το φασματογράφημα αντικαθίσταται από μονοδιάστατα χαρακτηριστικά που εξάγονται σε πλαίσιο βραχέως χρόνου από το ηχητικό σήμα. Γίνεται προσαρμογή κάθε σταδίου του μοντέλου για το χειρισμό μονοδιάστατων καμπυλών. Η έξοδος του μοντέλου είναι μία καμπύλη σημαντικότητας με βάση την οποία χαρακτηρίζονται οι σκηνές ως σημαντικές ή μη. Με χρήση των χαρακτηριστικών, δημιουργούνται ιστογράμματα σε αναλογία με τη μέθοδο bag-of-words στην Όραση Υπολογιστών, και χειριζόμενα αυτά ως διανύσματα πραγματοποιείται ταξινόμηση των ηχητικών σκηνών με χρήση SVM. Το τροποποιημένο μοντέλο υπερβαίνει σε απόδοση το αρχικό των Kayser et al. Επίσης δοκιμάζονται τα κλασσικά χαρακτηριστικά της βιβλιογραφίας, MFCC και AM-FM, στο πρόβλημα ανίχνευσης σημαντικών γεγονότων. Επιπλέον, πραγματοποιείται μια υψηλότερου επιπέδου προσέγγιση και εξάγονται διαφορετικά χαρακτηριστικά για τα σημεία του ηχητικού σήματος που εμφανίζεται φωνή από αυτά στα οποία δεν εμφανίζεται. Τέλος προτείνονται μελλοντικές κατευθύνσεις για έρευνα και επέκταση αυτής της εργασίας. Τα πειράματα γίνονται σε ηχητικά σήματα που προέρχονται από βάση δεδομένων που περιέχει αποσπάσματα από κινηματογραφικές ταινίες. Ως βάση αναφοράς χρησιμοποιούνται ανθρώπινες επισημειώσεις της σημαντικότητας. Δηλαδή, άτομα που άκουσαν τα ηχητικά αρχεία, σημείωσαν ποια μέρη τους φάνηκαν σημαντικά. el
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Ποταμιάνος, Γερασιμος el
heal.committeeMemberName Φωτεινέα, Ευίτα-Σταυρούλα el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 131 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα