HEAL DSpace

Πολυτροπική κατανόηση βίντεο με τεχνικές ασθενώς επιβλεπόμενης μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μπουρίτσας, Γιώργος el
dc.contributor.author Bouritsas, Giorgos en
dc.date.accessioned 2017-10-30T12:17:35Z
dc.date.available 2017-10-30T12:17:35Z
dc.date.issued 2017-10-30
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/45856
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.14419
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Αυτόματη κατανόηση βίντεο el
dc.subject Πολυτροπική κατανόηση γεγονότων el
dc.subject Ασθενώς επιβλεπόμενη μάθηση el
dc.subject Μάθηση πολλαπλών παραδειγμάτων el
dc.subject Πιθανοτικές ετικέτες el
dc.subject Διακριτική ομαδοποίηση el
dc.subject Σημασιολογία κειμένου el
dc.subject Σημασιολογική ομοιότητα el
dc.subject Αναγνώριση προσώπου el
dc.subject Αναγνώριση δράσεων el
dc.subject Ασαφή σύνολα el
dc.subject Κυρτός προγραμματισμός el
dc.subject Automatic video understanding en
dc.subject Multimodal event understanding en
dc.subject Weakly supervised learning en
dc.subject Multiple instance learning en
dc.subject Probabilistic labels en
dc.subject Discriminative clustering en
dc.subject Text semantics en
dc.subject Semantic similarity en
dc.subject Face recognition en
dc.subject Action recognition en
dc.subject Fuzzy sets en
dc.subject Convex programming en
dc.title Πολυτροπική κατανόηση βίντεο με τεχνικές ασθενώς επιβλεπόμενης μάθησης el
dc.title Multimodal video understanding using weakly supervised learning techniques en
heal.type bachelorThesis
heal.classification Computer vision en
heal.classification Machine learning en
heal.classification Αντίληψη και όραση υπολογιστών el
heal.classification Προχωρημένη μηχανική μάθηση el
heal.classification Επεξεργασία φυσικής γλώσσας el
heal.classification Natural language processing (Computer science) en
heal.classificationURI http://id.loc.gov/authorities/subjects/sh85029549
heal.classificationURI http://id.loc.gov/authorities/subjects/sh85079324
heal.classificationURI http://data.seab.gr/concepts/12c1c913dbe758d67c4c509a6768bdbc7905830c
heal.classificationURI http://data.seab.gr/concepts/d5cf140063d31fceb414be6c8dcb4654ffd3efcf
heal.classificationURI http://data.seab.gr/concepts/1b4fc9fc425985188ba7b60404a8ffd79a9f080f
heal.classificationURI http://id.loc.gov/authorities/subjects/sh88002425
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2017-07-18
heal.abstract Στην παρούσα διπλωματική αντιμετωπίζουμε το πρόβλημα της αυτόματης κατανόησης βίντεο χρησιμοποιώντας κειμενικούς υπαινιγμούς ως μορφές ασθενούς επίβλεψης. Συγκεκριμένα, αν και υπάρχει μεγάλος όγκος βίντεο που συνοδεύονται από περιγραφικό κείμενο, δεν είναι πάντα εύκολο να αξιοποιηθεί η επίβλεψη που μας παρέχει, λόγω της χωροχρονικής ανακρίβειας των περιγραφών, αλλά και της δυσκολίας στην κατανόηση της σημασιολογίας τους. Για κάθε κατηγορία οπτικών αντικειμένων υπό αναγνώριση, τα ερωτήματα που προκύπτουν είναι δύο: (i) Ποιο είναι το χωροχρονικό τμήμα του βίντεο στο οποίο αναφέρεται κάθε περιγραφή; (ii) Ποια είναι η ετικέτα που υπαινίσσεται κάθε περιγραφή; Απαντάμε στο πρώτο με Μάθηση Πολλαπλών Παραδειγμάτων και στο δεύτερο με Μάθηση Πιθανοτικών Ετικετών. Ακόμα, εισάγουμε την έννοια των Ασαφών Συνόλων Πολλαπλών Παραδειγμάτων για να μοντελοποιήσουμε τις διαφορετικές χρονικές επικαλύψεις μεταξύ των κειμενικών υπαινιγμών και των οπτικών αντικειμένων. Επίσης, εξερευνούμε τις δυνατότητες βελτίωσης της κατανόησης ενσωματώνοντας πληροφορία από άλλα υπό αναγνώριση οπτικά αντικείμενα και από τιςπροβλέψεις ενός προεκπαιδευμένου ταξινομητή. Τέλος, διατυπώνουμε μαθηματικά όλες αυτές τις μορφές ασθενούς επίβλεψης επεκτείνοντας έναν παλαιότερο φορμαλισμό διακριτικής ομαδοποίησης μέσω κυρτού προγραμματισμού. Οι πτυχές του βίντεο που επιχειρούνται να κατανοηθούν είναι οι ανθρώπινοι χαρακτήρες και οι δράσεις που εκτελούν, αν και η μοντελοποίηση δεν περιορίζεται σε αυτές. Αφού εντοπιστούν τα αντικείμενα αυτά στο βίντεο, αναπαρίστανται μέσω χαρακτηριστικών βαθιάς μάθησης. Για να εξάγουμε τις ασθενείς ετικέτες από το κείμενο καθορίζουμε εκ των προτέρων ένα σταθερό σύνολο για κάθε μία από τις 2 περιπτώσεις και στη συνέχεια χρησιμοποιούμε ταίριασμα κανονικών εκφράσεων για τους χαρακτήρες και υπολογισμό σημασιολογικής ομοιότητας για τις δράσεις. Αξιολογούμε τις μεθόδους μας, αφενός για την αναγνώριση προσώπου και για αφετέρου για την αναγνώριση δράσεων, σε ρεαλιστικά περιβάλλοντα και συγκεκριμένα σε 6 ταινίες της νεοεισαχθείσας στη διεθνή βιβλιογραφία βάσης COGNIMUSE, συνοδευόμενες από τα σενάρια και τους υπότιτλούς τους. el
heal.abstract In this thesis we address the problem of automatic video understanding using textual cues as forms of weak supervision. Specifically, despite the fact that a huge amount of video data accompanied by a descriptive text are available, it is not always easy to exploit the supervision the text provides. The reason is the spatio-temporal imprecision of the descriptions, as well as the adversity to understand their semantics The questions that are raised for each category of visual objects are the following: (i) To which spatio-temporal video region does each textual description refer? (ii) Which label is implied by each textual description? We address the former as a Multiple Instance Learning problem and the latter as a Probabilistic Label Learning one. We also introduce the concept of Fuzzy Multiple Instance Sets to model the variations in the temporal overlap between the textual cues and the visual objects. In addition, we explore the capabilities of improvement of the understanding procedure incorporating information created by the recognition of other categories of visual objects, as well as the prediction of a pre-trained classifier. All this forms of weak supervision are formulated using a discriminative clustering framework which is optimized with a convex relaxation. The video content that we wish to retrieve comprises the human characters and the actions they perform. After detecting the objects in the video sequence, we represent them in a feature space using deep learning architectures. To extract the weak labels from the text we define the label set beforehand and then we apply either regular expression matching (concerning the characters) or semantic similarity calculation (concerning the actions). We validate our methods, with respect to the characters and the actions, in the challenging and realistic setting of 6 movies of the newly introduced database COGNIMUSE, accompanied by their scripts and subtitles. en
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 149 σ. el
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα