HEAL DSpace

Μηχανική μάθηση για την εκτίμηση της ποιότητας της ομιλίας με συνδυασμό πληροφορίας ήχου και κειμένου

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Ελευθερίου, Σοφία el
dc.contributor.author Eleftheriou, Sofia Jr en
dc.date.accessioned 2021-09-21T10:15:18Z
dc.date.available 2021-09-21T10:15:18Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/53870
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.21568
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μηχανική μάθηση el
dc.subject Αυτόματη αξιολόγηση el
dc.subject Ποιότητα ομιλίας el
dc.subject Ηχητικό σήμα el
dc.subject Machine learning en
dc.subject Κείμενο el
dc.subject Automatic assessment en
dc.subject Speech quality en
dc.subject Audio signal en
dc.subject Text en
dc.title Μηχανική μάθηση για την εκτίμηση της ποιότητας της ομιλίας με συνδυασμό πληροφορίας ήχου και κειμένου el
dc.title Machine Learning for Assessing the Quality of Speech with a Combination of Audio and Text Information en
heal.type bachelorThesis
heal.classification Μηχανική Μάθηση el
heal.classification Machine Learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-07-08
heal.abstract To θέμα της παρούσας διπλωματικής εργασίας είναι η αυτόματη αξιολόγηση της ποιότητας της ομιλίας μέσω τεχνικών μηχανική μάθησης. Για τον σκοπό αυτό γίνεται ανάλυση τόσο του ηχητικού σήματος της ομιλίας, όσο και του κειμένου της. Οι δυο αυτές προσεγγίσεις αποδίδουν διαφορετικού είδους πληροφορίες, οι οποίες στην συνέχεια μπορούν να χρησιμοποιηθούν αυτοτελώς ή και να συνδυαστούν ώστε να επιτευχθεί ο τελικός στόχος της αξιολόγησης. Η ποιότητα της ομιλίας είναι μια υποκειμενική γνώμη, βασισμένη στην αίσθηση του ακροατή πάνω στην ομιλία που άκουσε. Επομένως, η αντικειμενική αξιολόγηση της ποιότητας της ομιλίας αποτελεί μία πρόκληση, ιδίως όταν δεν υπάρχει καθαρή αναφορά (που ονομάζεται επίσης μη παρεμβατική ή μεμονωμένη αξιολόγηση ποιότητας ομιλίας). Η ανάγκη για «χρυσή» αναφορά περιορίζει σημαντικά τη δυνατότητα εφαρμογής τέτοιων εργαλείων αξιολόγησης σε σενάρια του πραγματικού κόσμου. Ωστόσο, τα ανθρώπινα όντα μπορούν εύκολα να αξιολογήσουν την ποιότητα της ομιλίας χωρίς καμία αναφορά. Με άλλα λόγια, η ανθρώπινη αντίληψη ακρόασης μπορεί να αντιμετωπιστεί ως λειτουργία χαρτογράφησης για να αντιστοιχίσει οποιαδήποτε ομιλία σε αντίστοιχο δείκτη ποιότητας. Για την εξαγωγή των χαρακτηριστικών χρησιμοποιούνται τόσο χαρακτηριστικά υψηλού επιπέδου, όπως ο αριθμός παύσεων, οι λέξεις ανά δευτερόλεπτο, η μέση διάρκεια σιωπής κ.α., όσο και χαρακτηριστικά που προκύπτουν από μοντέλα-ταξινομητές τμημάτων ήχου ή κειμένου, οι οποίοι προβλέπουν ετικέτες όπως το συναίσθημα, το σθένος και την διέγερση. Στην συνέχεια, λαμβάνοντας τον μέσο όρο των προβλέψεων αυτών για όλα τα τμήματα, καταλήγουμε σε χαρακτηριστικά που αφορούν τον συνολικό ήχο ή κείμενο (δηλαδή την συνολική ομιλία). Συνδυάζοντας τα παραπάνω χαρακτηριστικά από ήχο και κείμενο, χρησιμοποιούμε τελικούς ταξινομητές επιπέδου εγγραφής, οι οποίοι αξιολογούν την ομιλία σε διαφορετικούς άξονες (εκφραστικότητα, ευκολία παρακολούθησης και διασκέδαση). Για τους ταξινομητές τμημάτων χρησιμοποιήθησαν ανοιχτού τύπου σύνολα δεδομένων, ενώ για τους τελικούς ταξινομητές εγγραφής, ακολουθήθηκε διαδικασία συλλογής και επισημείωσης δεδομένων, καθώς επίσης και συνάθροισης/συμφωνίας των επισημειώσεων. el
heal.abstract The subject of this dissertation is the automatic evaluation of the quality of speech through machine learning techniques. For this purpose, both the audio signal of the speech and its text are analyzed. These two approaches provide different types of information, which can then be used independently or combined to achieve the final goal of the evaluation. The quality of speech is a subjective opinion, based on the listener's sense of the speech he heard. Therefore, objective assessment of speech quality is a challenge, especially when there is no clear reporting (also called non-invasive or individual speech quality assessment). The need for "golden" reporting significantly limits the applicability of such evaluation tools to real-world scenarios. However, human beings can easily evaluate the quality of speech without any reference. In other words, human listening perception can be treated as a mapping function to match any speech to a corresponding quality index. High-level features such as number of pauses, words per second, average silence duration, etc. are used to extract the features, as well as features derived from audio or text segment classifier models that provide labels, such as emotion, valence and arousal. Then, taking the average of these predictions of all the segments, we come to characteristics related to the total sound or text (ie the total speech). Combining the above features from audio and text, we use final recording level classifiers, which evaluate speech in different axes (expressiveness, ease of following and enjoyment). For the segment classifiers, open-source data sets were used, while for the final recording level classifiers, a data collection and annotation procedure was followed, as well as an aggregation/agreement of the annotations. en
heal.advisorName Κόλλιας, Στέφανος el
heal.advisorName Γιαννακόπουλος, Θεόδωρος el
heal.advisorName Kollias, Stefanos Jr en
heal.advisorName Giannakopoulos, Theodoros Jr en
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Στάμου, Γιώργος el
heal.committeeMemberName Kollias, Stefanos Jr en
heal.committeeMemberName Stafilopatis, Andreas,Georgios Jr en
heal.committeeMemberName Stamou, Giorgos Jr en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 390 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα