HEAL DSpace

Οπτικοακουστική μοντελοποίηση προσοχής και πολυ-αισθητηριακή κατανόηση ακουστικής σκηνής

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Τσιάμη, Αντιγόνη Ε. el
dc.contributor.author Tsiami, Antigoni en
dc.date.accessioned 2020-12-11T11:12:21Z
dc.date.available 2020-12-11T11:12:21Z
dc.date.issued 2020-12-11
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/52472
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.20170
dc.description.abstract Στη διατριβή αυτή μελετάται η δυνατότητα ανάπτυξης ενός μοντέλου οπτικοακουστικής προσοχής/εμφάνειας βασισμένου σε ευρήματα από συμπεριφορικά πειράματα, το οποίο προβλέπει τα σημεία εστίασης του ανθρώπινου ματιού σε μια δισδιάστατη οπτικοακουστική σκηνή. Η μελέτη αυτή πραγματοποιείται με δύο τρόπους: με τεχνικές επεξεργασίας σήματος και με βαθιά νευρωνικά δίκτυα. Όσον αφορά τις τεχνικές επεξεργασίας σήματος, διερευνώνται διάφορες τεχνικές σύμμειξης οπτικής και ακουστικής εμφάνειας με ήδη υπάρχοντα μοντέλα. Τα δημιουργούμενα οπτικοακουστικά μοντέλα επαληθεύονται τόσο με ευρήματα από συμπεριφορικά πειράματα, όσο και με δεδομένα οφθαλμοκινητικής παρακολούθησης αλλά και δεδομένα fMRI. Τα αποτελέσματα τόσο από τα συμπεριφορικά πειράματα όσο και από τα πειράματα με οφθαλμοκινητικά δεδομένα υποδεικνύουν ότι η οπτικοακουστική μοντελοποίηση βελτιώνει την επίδοση του συστήματος πρόβλεψης σημείων εστίασης του ματιού. Όσον αφορά τα βαθιά νευρωνικά δίκτυα, παρουσιάζεται ένα χωρο-χρονικό οπτικοακουστικό δίκτυο εμφάνειας, το οποίο περιέχει ένα οπτικό δίκτυο εμφάνειας, ένα δίκτυο ακουστικών αναπαραστάσεων, μία μονάδα εντοπισμού του ήχου στο βίντεο και μία μονάδα σύμμειξης της οπτικής και της ακουστικής εμφάνειας. Όλα αυτά ενσωματώνονται κάτω από ένα ενιαίο δίκτυο το οποίο εκπαιδεύεται end-to-end. Το δίκτυο αξιολογείται σε βάσεις οφθαλμοκινητικών δεδομένων. Τα αποτελέσματα των συγκρίσεων με άλλες μεθόδους υποδεικνύουν την αποτελεσματικότητα της μοντελοποίησης, ανοίγοντας το δρόμο για την εκτίμηση εμφάνειας «in-the-wild». Παράλληλα έχει πραγματοποιηθεί έρευνα στην κατανόηση ακουστικής σκηνής και συγκεκριμένα έχει αναπτυχθεί ένα σύστημα εντοπισμού ομιλητή, ένα σύστημα αναγνώρισης φωνής στα Ελληνικά και στα Αγγλικά και ένα σύστημα διαλόγου και κατανόησης λόγου. Τα συστήματα έχουν προσαρμοστεί και εφαρμοστεί είτε σε περιβάλλοντα έξυπνου σπιτιού ή/και σε περιβάλλοντα αλληλεπίδρασης ανθρώπων/παιδιών και ρομπότ με πολλαπλούς αισθητήρες. Επίσης, γίνεται αξιολόγησή τους σε κατάλληλες βάσεις δεδομένων. Τέλος, εκτός από την ανάπτυξη νέων αλγοριθμικών μεθόδων για τα παραπάνω προβλήματα, σημαντικό μέρος της διατριβής αποτελεί και η συλλογή νέων μεγάλων βάσεων δεδομένων: Συλλέχθηκε μία βάση με δεδομένα οφθαλμοκινητικής παρακολούθησης από 37 βίντεο και 20 συμμετέχοντες, καθώς και μία πολυκαναλική βάση με δεδομένα φωνής στα Ελληνικά από 20 ομιλητές. el
dc.rights Default License
dc.subject Αναγνώριση φωνής el
dc.subject Μηχανική μάθηση el
dc.subject Οπτικοακουστική προσοχή el
dc.subject Πολυ-αισθητηριακά σήματα el
dc.subject Βαθιά νευρωνικά δίκτυα el
dc.subject Speech recognition en
dc.subject Sudiovisual attention modeling en
dc.subject Machine learning en
dc.subject Deep learning en
dc.subject Multi-sensory signal processing en
dc.title Οπτικοακουστική μοντελοποίηση προσοχής και πολυ-αισθητηριακή κατανόηση ακουστικής σκηνής el
dc.title.alternative Audiovisual saliency modeling and multisensory auditory scene understanding en
dc.contributor.department Σήματα, Έλεγχος και Ρομποτική - Εργαστήριο Όρασης Υπολογιστών, Κατανόησης Λόγου και Επεξεργασίας Σημάτων el
heal.type doctoralThesis
heal.classification Επεξεργασία σημάτων el
heal.classification Μηχανική μάθηση el
heal.classification Machine learning en
heal.classification Signal processing en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2019-12-19
heal.abstract The scope of this work is the investigation and development of a 2D computational audiovisual saliency model based on behavioral findings that will be able to produce accurate human fixation predictions in a 2D audiovisual scene, i.e. in videos. The investigation is carried out with two different ways: with signal processing techniques and with deep learning techniques. Regarding the former, several fusion schemes between visual and auditory saliency models are being investigated, and the resulting models are behaviorally validated through comparisons with results from behavioral experiments and evaluated with audiovisual human eye-tracking data and fMRI data. Results from both behavioral and eye-tracking experiments indicate that audiovisual saliency modeling indeed improves saliency estimation performance. Regarding deep learning techniques, a new spatio-temporal audiovisual saliency network is developed, that includes a visual saliency network, an audio representation network, a sound localization module, and an audiovisual saliency fusion module. All modules are integrated under a single network that is trained end-to-end. The network performance is evaluated in several eye-tracking databases and results from comparisons with other methods highlight the effectiveness of the presented network, that opens the way for estimating saliency ``in-the-wild". In parallel, research has been carried out in the direction of auditory scene understanding. Specifically, a speaker localization system has been developed, as well as a baseline distant speech recognition system in Greek and English and a speech understanding/dialog system. These systems have been adapted and applied either to a smart home environment and/or to a multi-sensory human/child - robot interaction application. They are also evaluated through experiments in appropriate databases. Finally, except for the development and evaluation of new algorithmic methods to successfully address the above problems, an important contribution of this thesis lies in the collection of two new databases: An audiovisual human eye-tracking database employing 20 subjects and 37 videos has been collected, as well as a multi-channel speech database in Greek with data from 20 speakers. en
heal.advisorName Μαραγκός, Πέτρος el
heal.advisorName Maragos, Petros en
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.committeeMemberName Φωτεινέα, Ευίτα-Σταυρούλα el
heal.committeeMemberName Τσανάκας, Παναγιώτης el
heal.committeeMemberName Βατάκη, Αργυρώ el
heal.committeeMemberName Daniilidis, Kostas en
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 157 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής