Εντοπισμός θέσης πηγής και αποθορυβοποίηση σημάτων ομιλίας με πολυκαναλική επεξεργασία

Σκορδίλης, Ζήσης-Ιάσων Ε.; Skordilis, Zisis-Iason E.

Εντοπισμός θέσης πηγής και αποθορυβοποίηση σημάτων ομιλίας με πολυκαναλική επεξεργασία

Σκορδίλης, Ζήσης-Ιάσων Ε.; Skordilis, Zisis-Iason E.

URI: https://dspace.lib.ntua.gr/xmlui/handle/123456789/8454
http://dx.doi.org/10.26240/heal.ntua.13178

Ημερομηνία: 2013-07-23

Περίληψη:

Η παρούσα διπλωματική εργασία έχει ως αντικείμενο τον εντοπισμό θέσης πηγής ακουστικού σήματος και την αποθορυβοποίηση ομιλίας με πολυκαναλική επεξεργασία. Για το πρόβλημα του εντοπισμού θέσης πηγής, προτείνεται μία νέα μέθοδος ελαχίστων τετραγώνων για τη βέλτιστη εκτίμηση της θέσης πηγής από τις κατευθύνσεις άφιξης (Direction of Arrival, DOA) του σήματος πηγής σε ζεύγη μικροφώνων. Η κατεύθυνση άφιξης υπολογίζεται εκτιμώντας τη διαφορά χρόνου άφιξης (Time Difference of Arrival, TDOA) του σήματος πηγής στο εκάστοτε ζεύγος μικροφώνων. Για την εκτίμηση TDOA χρησιμοποιείται η μέθοδος μετρικού συνοχής φασης ετεροφάσματος (Crosspower-spectrum Phase Coherence Measure, CSP-CM) με βελτιώσεις στην ακρίβεια και την υπολογιστική πολυπλοκότητά της. Η προτεινόμενη μέθοδος εντοπισμού θέσης με ελάχιστα τετράγωνα καταλήγει σε εκτίμηση κλειστής μορφής για τη θέση της πηγής, συνεπώς είναι υπολογιστικά αποδοτική και κατάλληλη για εφαρμογές πραγματικού χρόνου. Για το πρόβλημα της πολυκαναλικής αποθορυβοποίησης σημάτων, γίνεται μελέτη της επίδρασης της γεωμετρίας της συστοιχίας μικροφώνων στην αποτελεσματικότητα πολυκαναλικού συστήματος αποθορυβοποίησης με MVDR beamforming και post-filtering. Για το σκοπό αυτό, έγινε συλλογή βάσης δεδομένων με πολυκαναλικές ηχογραφήσεις σε πραγματικές συνθήκες για εξαγωνικές και γραμμικές διατάξεις της συστοιχίας μικροφώνων σε διάχυτο (diffuse) και εντοπισμένο (localized) θόρυβο. Για τη συλλογή της βάσης, χρησιμοποιήθηκε συστοιχία με μικρόφωνα MEMS, τα οποία είναι μία νέα τεχνολογία φορητών μικροφώνων πολύ μικρών διαστάσεων. Πέραν της πειραματικής αυτής μελέτης, προτείνεται μία θεωρητική βελτίωση στη μέθοδο εκτίμησης των παραμέτρων του post-filter για το χρησιμοποιηθέν σύστημα πολυκαναλικής αποθορυβοποίησης, όμως αποδεικνύεται ότι στην πράξη αυτή δε βελτιώνει την έξοδο του post-filter.

This thesis focuses on the problems of source localization and speech enhancement through multichannel signal processing. For the source localization problem, a novel least-squares (LS) method for estimating the source location from the Direction of Arrival (DOA) of the source signal to microphone pairs is proposed. To calculate the DOA, the Time Difference of Arrival (TDOA) of the source signal to the respective microphone pair is first estimated. The TDOA estimation is carried out using the Crosspower-Spectrum Phase Coherence Measure (CSP-CM) with some improvements to its computational efficiency and its accuracy. The proposed LS source localization method yields a closed-form source location estimator and is therefore efficient and suitable for real-time applications. For the multichannel speech enhancement problem, the effect of the microphone array geometry on the efficacy of a multichannel speech enhancement system with MVDR beamforming and post-filtering is studied. To this end, a multichannel database was formed by collecting real recorded data for hexagonal and linear arrangements of the microphone array in diffuse and localized noise fields. For the data collection, a microphone array consisting of MEMS (MicroElectroMechanical Systems) microphones, which are a newly developed technology of highly compact sensors, was used. Besides this experimental study, a theoretical improvement on the post-filter parameter estimation method of the multichannel speech enhancement system employed is proposed, however it is shown that in practice this does not improve the post-filter output.