HEAL DSpace

Αναγνώριση προθέσεως και προσωπικότητας ομιλητών σε διαλόγους χρησιμοποιώντας βαθιά νευρωνικά δίκτυα

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Παπαλαμπίδη, Πηνελόπη el
dc.contributor.author Papalampidi, Pinelopi en
dc.date.accessioned 2018-07-20T08:26:12Z
dc.date.available 2018-07-20T08:26:12Z
dc.date.issued 2018-07-20
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/47361
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.15291
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Dialogue act en
dc.subject Διαλογική πράξη el
dc.subject Personality recognition en
dc.subject Hierarchical attention network en
dc.subject Transfer learning en
dc.subject Dialogue systems en
dc.subject Αναγνώριση προσωπικότητας el
dc.subject Δίκτυο ιεραρχικής προσοχής el
dc.subject Μεταφορά μάθησης el
dc.subject Συστήματα διαλόγου el
dc.title Αναγνώριση προθέσεως και προσωπικότητας ομιλητών σε διαλόγους χρησιμοποιώντας βαθιά νευρωνικά δίκτυα el
dc.title Tracking intent and personality traits of speakers in spoken dialogues using deep learning en
heal.type bachelorThesis
heal.classification Τεχνητή νοημοσύνη el
heal.classification Μηχανική μάθηση el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2018-06-25
heal.abstract Στα πλαίσια αυτής της διατριβής, εξετάζουμε δύο σημαντικά ζητήματα αποσκοπώντας στη βελτίωση της απόδοσης των συστημάτων διαλόγου στο γενικότερο πλαίσιο της αλληλεπίδρασης ανθρώπου-μηχανής. Το πρώτο ζήτημα, η ταξινόμηση των διαλογικών πράξεων, είναι συνήθως το πιο θεμελιώδες στην επεξεργασία του διαλόγου. Επιτρέπει στα συστήματα διαλόγου να επιλέγουν την καταλληλότερη απάντηση από ένα σύνολο πιθανών απαντήσεων βασιζόμενα στις επικοινωνιακές προθέσεις του χρήστη εκείνη τη στιγμή. Το δεύτερο ζήτημα, η αναγνώριση της προσωπικότητας, στοχεύει στην περαιτέρω βελτίωση των συστημάτων διαλόγου, προκειμένου να προσαρμόζονται με επιτυχία στη συμπεριφορά ενός μεμονωμένου χρήστη. Αυτή η προσαρμογή συμβάλλει στην ανάπτυξη εξατομικευμένων συστημάτων διαλόγου. Οι διαλογικές πράξεις θεωρούνται ως οι ελάχιστες γλωσσικές μονάδες επικοινωνιακών προθέσεων στο πλαίσιο του διαλόγου. Ωστόσο, τα χρησιμοποιούμενα σχήματα επισήμανσης για την αναγνώριση διαλογικών πράξεων εξαρτώνται από το πρόβλημα και τον τομέα κάθε συνόλου δεδομένων. Σε αυτήν την εργασία, προτείνουμε μια μέθοδο για την επιτυχή αναγνώριση των προθέσεων ενός ομιλητή ανεξάρτητα από το πρόβλημα του διαλόγου και τη λεπτομερειακότητα του συνόλου των ετικετών των διαλογικών πράξεων που χρησιμοποιήθηκαν. Για το σκοπό αυτό, εφαρμόζουμε ένα μοντέλο βαθιάς μάθησης για την αναγνώριση των διαλογικών πράξεων με βάση τη σημασιολογική εκπροσώπηση της τρέχουσας φράσης καθώς και την ιστορία του διαλόγου μέχρι στιγμής. Σε αυτήν την αρχιτεκτονική, προτείνουμε την επέκταση των γενικών διανυσμάτων λέξεων (word embeddings), που χρησιμοποιούνται για την αρχικοποίηση του στρώματος ενσωμάτωσης (embedding layer) του αντίστοιχου νευρικού δικτύου, με πληροφορίες σχετικά με τις διαλογικές πράξεις. Συγκεκριμένα, πρώτα εξαγάγουμε αυτόματα ένα σύνολο λέξεων-κλειδιών που θεωρούνται αντιπροσωπευτικές για κάθε ετικέτα διαλογικής πράξης, σχηματίζοντας ένα σημασιολογικό χώρο για κάθε ετικέτα. Στη συνέχεια, υπολογίζουμε τη σημασιολογική ομοιότητα μεταξύ κάθε λέξης και κάθε ετικέτας διαλογικής πράξης, υπολογίζοντας την ομοιότητα μεταξύ κάθε λέξης και του αντίστοιχου συνόλου λέξεων-κλειδιών. Τέλος, επεκτείνουμε τα γενικά διανύσματα λέξεων με τα διανύσματα λέξεων που δημιουργήσαμε και τα οποία περιέχουν πληροφορία σχετική με τις διαλογικές πράξεις. Τα τελικά ενισχυμένα διανύσματα λέξεων τροφοδοτούνται στο νευρωνικό μοντέλο μας. Αξιολογούμε την προσέγγισή μας σε ένα σύνολο δεδομένων που χρησιμοποιείται συνήθως για την ταξινόμηση των διαλογικών πράξεων και επιτυγχάνουμε συγκρίσιμα αποτελέσματα με το state-of-the-art μοντέλο. Στη συνέχεια, αντιμετωπίζουμε το πρόβλημα της αυτόματης αναγνώρισης της προσωπικότητας. Τα χαρακτηριστικά της προσωπικότητας περιγράφονται με το Big Five μοντέλο, που προέρχεται από ψυχολογικές μελέτες. Αυτό το μοντέλο θεωρείται επαρκές για να περιγράψει την ανθρώπινη προσωπικότητα σε διάφορες γλώσσες και πολιτισμούς. Σε αυτή την εργασία υιοθετούμε την υπόθεση ότι τα χαρακτηριστικά της προσωπικότητας εξαρτώνται και από το πλαίσιο μιας δεδομένης κατάστασης και επομένως σχετίζονται με τη συμπεριφορική και συναισθηματική κατάσταση καθώς και με τις προθέσεις του ατόμου. Στην πραγματικότητα, συσχετίζουμε για πρώτη φορά το πρόβλημα της αναγνώρισης προθέσεων των ομιλητών με το πρόβλημα της αναγνώρισης της προσωπικότητας. Στόχος μας είναι να ενσωματώσουμε τη γνώσησυναισθημάτων και προθέσεων στο πρόβλημα της αυτόματης αναγνώρισης της προσωπικότητας. Προτείνουμε μια καινοφανή προσαρμογή δύο γνωστών μεθόδων μεταφοράς νευρωνικής μάθησης για την ενσωμάτωση πληροφοριών σχετικών με τα συναισθημάτα και τις προθέσεις των ατόμων σε επίπεδο προτάσεων στην αναγνώριση της προσωπικότητας τους σε επίπεδο εγγράφου. Τα μοντέλα μας βασίζονται σε δίκτυα ιεραρχικής προσοχής. Κατ 'αρχάς, εκπαιδεύουμε ένα μοντέλο σε ένα πρόβλημα πηγής (source task) (συγκεκριμένα, συναίσθημα, πρόθεση ή και τα δύο μέσω της μάθησης πολλαπλών εργασιών). Στη συνέχεια, χρησιμοποιούμε τον κωδικοποιητή του προεκπαιδευμένου μοντέλου για την τελειοποίηση του προβλήματος στόχου (target task) ή ως εξολκέα χαρακτηριστικών επιπέδου προτάσεων. Η προτεινόμενη προσέγγιση επιτυγχάνει state-of-the-art αποτελέσματα σε δύο σύνολα δεδομένων αναγνώρισης προσωπικότητας. Επίσης, αξιολογούμε την ενσωμάτωση των ψυχογλωσσικών χαρακτηριστικών, εξαγώμενων από λεξικά, στο μοντέλο μας, όπως έχει ήδη προταθεί στη βιβλιογραφία. Τέλος, διεξάγουμε μια ανάλυση σχετικά με τη συμβολή των διαφόρων πηγών πληροφοριών στο πρόβλημα και επικυρώνουμε την αρχική μας υπόθεση σχετικά με την συμβολή του προβλήματος της αναγνώρισης πρόθεσης στο πρόβλημα στόχο. el
heal.abstract In this work, we address two important issues related to the improvement of the performance of dialogue systems in terms of human-machine interaction. The first issue, dialogue act classification, is typically the most fundamental in dialogue processing. It allows the dialogue systems to select the most appropriate response from a set of possible generated replies based on the communicative intentions of the user at that moment. The second issue, personality recognition, aims at the further improvement of the dialogue systems in order to successfully adapt to an individual user's behavior. This adaptation assists in developing personalized dialogue systems. Dialogue acts are considered as the minimal linguistic units of communicative intentions in terms of dialogues. However, the utilized annotation schemes for dialogue act recognition are dependent on the task and domain of each dataset. In this work, we propose a method for successfully recognizing the intentions of an interlocutor independently from the task of the dialogue and the granularity of the dialogue act tag-set utilized. For this purpose, we implement a deep learning model for recognizing the dialogue acts based on the semantic representation of the current utterance as well as the history of the dialogue so far. In this architecture, we propose the expansion of generic word embeddings, that are used for initializing the embedding layer of the respective neural network, with dialogue act-specific information. Specifically, first we automatically extract a set of keywords that is considered representative for each dialogue act tag, forming a semantical subspace for each tag. Next, we compute the semantic similarity between each word and each dialogue act tag, by computing the similarity between each word and the respective set of keywords. Finally, we concatenate the generic word embeddings with the custom word vectors and fed them to our neural model. We evaluate our approach in a dataset commonly used for dialogue act classification and achieve results comparable with the state-of-the-art. Next, we address the problem of automatic personality recognition. Personality traits are described with the Big Five model, derived from psychological studies. This model is considered sufficient for outlining the human personality across different languages and cultures. In this work, we adopt the hypothesis that the personality traits are nevertheless dependent on the context of a given situation and hence, related to the behavioral and emotional state as well as the intention of the individual. In fact, we first introduce the relevance of intent recognition to the personality recognition problem. We aim at incorporating emotion and intent knowledge to the automatic personality recognition problem. We propose a novel adaptation of two well-known neural transfer learning methods for incorporating sentence-level emotion and intent information to document-level personality recognition. Our models are based on hierarchical attention networks. First, we train a model on a sentence-level source task (i.e. emotion, intent or both via multi-task learning). Next, we utilize the encoder of the pretrained model for fine-tuning on the target task or as a sentence-level feature extractor. The suggested approach achieves state-of-the-art results in two personality datasets. We also evaluate the incorporation of lexicon-based psycholinguistic features to our model, as already suggested in the literature. Finally, we conduct an analysis on the contribution of different information sources to the problem and validate our initial assumption. en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Στάμου, Γιώργος el
heal.committeeMemberName Gustafson, Joakim el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 102 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα