Η ραγδαία αύξηση του όγκου των διαθέσιμων ψηφιακών εγγράφων τα τελευταία χρόνια δημιουργεί την ανάγκη δημιουργίας συστημάτων οργάνωσης και διαχείρισής τους. Η κειμενική πληροφορία με τη μορφή ψηφιακών εγγράφων αποτελεί μία τεράστια πηγή πληροφοριών που αναπτύσσεται μέρα με τη μέρα λόγω και της εξάπλωσης του Παγκόσμιου Ιστού, ο οποίος σήμερα διαθέτει μεγάλες ποσότητες ελεύθερου κειμένου. Ο όγκος των διαθέσιμων εγγράφων απαιτεί αποδοτικές τεχνικές αποθήκευσης και αναπαράστασής τους στον υπολογιστή καθώς και αποτελεσματικές μεθόδους οργάνωσης, διαχείρισης, αναζήτησης και επεξεργασίας. Η συνεισφορά της διατριβής εντάσσεται στην περιοχή της αποδοτικής και πιο πλήρους αναπαράστασης εγγράφων και της αποτελεσματικής ανάλυσης προβλημάτων που σχετίζονται με τα έγγραφα (οργάνωση, ομαδοποίηση κτλ).
Η χρήση της γλώσσας είναι εξαιρετικά πολύπλοκη, κάτι το οποίο δημιουργεί διάφορα προβλήματα στην προσπάθεια αναπαράστασης εγγράφων στον υπολογιστή: Τα νοήματα που κρύβονται σε ένα κείμενο λόγω των σχέσεων που υπάρχουν ανάμεσα στις λέξεις, η πληροφορία που υπονοείται λόγω πρότερης ή εκ φύσεως γνώσης, παρομοιώσεις, μεταφορές κτλ είναι μερικά από τα προβλήματα που ανακύπτουν και σε συνδυασμό με την υπολογιστική πολυπλοκότητα που εισάγεται λόγω του μεγάλου όγκου των εγγράφων δεν έχουν επιτρέψει μέχρι σήμερα να βρεθεί ένα σταθερό και αποδοτικό μοντέλο αναπαράστασης.
Στα πλαίσια της διατριβής εξετάζονται οι βασικές μονάδες αναπαράστασης των εγγράφων (συλλαβές, λέξεις, προτάσεις/φράσεις) και πιο συγκεκριμένα το μοντέλο του χώρου διανυσμάτων (Vector Space Model, VSM), το οποίο χρησιμοποιείται ευρέως για την αναπαράσταση εγγράφων. Οι λέξεις αποτελούν την κυριότερη μονάδα αναπαράστασης εγγράφων και παρά τα μειονεκτήματα που παρουσιάζουν ως μονάδα αναπαράστασης (μεγάλος χώρος αναζήτησης, διάσπαση ομάδων λέξεων κτλ) παραμένουν έως και σήμερα στο επίκεντρο των περισσοτέρων μοντέλων. Εξάλλου, δεν είναι τυχαίο πως οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό λειτουργούν βάσει λέξεων-κλειδιών. Βάσει της ιδέας του ότι οποιαδήποτε ομοιότητα ή σχέση μεταξύ εγγράφων μπορεί να αναχθεί στον καθορισμό της σχέσης των λέξεων που τα αποτελούν και βάσει της παρατήρησης πως η αναζήτηση με λέξεις-κλειδιά παραμένει ο κυριότερος τρόπος αναζήτησης, η διατριβή προτείνει μία μέθοδο προσδιορισμού της σημασιολογικής σχέσης λέξεων. Στόχος είναι να βρεθεί ένα βαθμωτό μέτρο που θα ποσοτικοποιεί την οποιαδήποτε σχέση (συνωνυμία, υπερωνυμία, αντωνυμία κτλ) υπάρχει μεταξύ δύο οποιωνδήποτε λέξεων και γιαυτό το σκοπό αξιοποιεί την πληροφορία που παρέχεται από το ιεραρχικό λεξικό WordNet καθώς και τα λεξικο-συντακτικά πρότυπα που εξάγονται από τα αποτελέσματα αναζήτησης για τις εν λόγω λέξεις που επιστρέφονται από κάποια μηχανή αναζήτησης.
Αναγνωρίζοντας τις αδυναμίες ενός μοντέλου αναπαράστασης με λέξεις αλλά και των περιορισμών που θέτει ένα βαθμωτό μέτρο συσχέτισης λέξεων, το επόμενο βήμα της διατριβής είναι η εισαγωγή ενός νέου μοντέλου αναπαράστασης που δε θα βασίζεται στις λέξεις του εγγράφου, αλλά θα εισάγει σημασιολογικό περιεχόμενο στην αναπαράσταση βάσει των εννοιών (concepts) (οι οποίες μπορεί να αποτελούνται από παραπάνω της μιας λέξης). Για το σκοπό αυτό αξιοποιείται η Wikipedia που λόγω του αυξανόμενου όγκου της και της δομής της (ιεραρχική δόμηση, πλήρεις καλογραμμένες προτάσεις, κατατοπιστικοί τίτλοι άρθρων κτλ) παρέχει πολλές δυνατότητες ενίσχυσης της σημασιολογίας των εγγράφων, μέσω χαρακτηριστικών που κατασκευάζονται από γνωρίσματα τα οποία εξάγονται από τη Wikipedia. Το μοντέλο που παρουσιάζεται οδηγεί σε αναπαραστάσεις τόσο πιο πλούσιες (σημασιολογικά) όσο και πιο συμπιεσμένες (από άποψη απαιτήσεων χώρου) σε σχέση με το κλασσικό μοντέλο VSM.
Αφού πλέον υπάρχει διαθέσιμο ένα καλύτερο μοντέλο αναπαράστασης εγγράφων, η διατριβή πηγαίνει στο επόμενο επίπεδο και δεν εξετάζει πλέον τις σχέσεις ανάμεσα στις λέξεις του εγγράφου, αλλά τα θέματα με τα οποία ασχολούνται μεγάλες συλλογές εγγράφων, προτείνοντας δύο μεθοδολογίες ομαδοποίησης εγγράφων βάσει του περιεχομένου τους. Και στις δύο μεθοδολογίες κυρίαρχο ρόλο διαδραματίζει το μοντέλο αναπαράστασης εγγράφων βάσει της Wikipedia χρησιμοποιώντας τα χαρακτηριστικά που έχουν κατασκευαστεί. Η πρώτη μεθοδολογία βασίζεται στις πιο σημαντικές έννοιες της συλλογής των εγγράφων που εξετάζεται και δημιουργεί γρήγορα και αποδοτικά μία ιεραρχική δενδρική δομή ομάδων στις οποίες κατανέμονται τα έγγραφα βάσει του περιεχομένου τους. Η δομή είναι κατευθυνόμενη από το χρήστη ως προς το βάθος και το πλάτος του δέντρου (και συνακόλουθα ελέγχονται και οι θεματικές περιοχές στις οποίες χωρίζονται τα έγγραφα). Η δεύτερη μεθοδολογία αξιοποιεί τους Αυτο-Οργανούμενους Χάρτες (Self Organizing Maps, SOM) ως εργαλείο για την ομαδοποίηση εγγράφων. Μέσα από τρία βήματα υλοποιείται η εκπαίδευση ενός Αυτο-Οργανούμενου Χάρτη, τροποποιημένου τόσο ως προς την αρχικοποίηση και τη δημιουργία του πλέγματος των νευρώνων (που γίνεται βάσει μιας διαδικασίας που βασίζεται στο μοντέλο αναπαράστασης με χρήση της Wikipedia), όσο και ως προς τη διαδικασία της εκπαίδευσης, επιταχύνοντάς τη καταλυτικά. Στο τέλος της εκπαίδευσης παρέχεται η δυνατότητα ιεραρχικής ομαδοποίησης των παρόμοιων νευρώνων του Χάρτη σε ομάδες, ενώ η οπτικοποίηση δίνει με ακρίβεια την τοπολογική σχέση των ομάδων (θεματικών περιοχών).
Η ουσιαστική συμβολή της διατριβής συνοψίζεται στη δυνατότητα χρήσης ευφυών τεχνικών με αξιοποίηση διαφόρων πηγών γνώσης, ώστε να βελτιωθούν ζητήματα που έχουν να κάνουν με την αποδοτική αναπαράσταση και αντιμετώπιση ζητημάτων ανάλυσης των ολοένα και μεγαλύτερων σε όγκο εγγράφων. Κάθε μεθοδολογία που αναπτύχθηκε αξιολογήθηκε πειραματικά με χρήση συνόλων δεδομένων, τα οποία χρησιμοποιούνται ευρέως από την επιστημονική κοινότητα ενώ έγιναν και συγκρίσεις με τις σημαντικότερες μεθόδους στο κάθε πεδίο έρευνας.
The rapid proliferation of digital text documents during the last years raises the need to create efficient organization and management systems. The textual content of digital documents is a huge source of information that grows every day, assisted by the global growth of the Internet, which contains large quantities of plain text. The size of available documents demands efficient ways to store and represent information using computers, as well as efficient methods for its organization, management, search and editing. The contribution of this PhD thesis rests in the fields of efficient and more thorough representation of documents and the efficient analysis of problems related with them (organization, classification etc.)
The use of language is particularly complicated and creates various problems in the attempt to represent documents using computers. The meanings and senses that exist latently in a document because of the context, the relations between the words, the implied information (derived from natural or earlier knowledge), metaphors etc. are some of the problems that emerge, which, combined with the computational complexity that is introduced by the large size of documents, have not allowed for a stable and efficient way of representation to be found until today.
In this PhD thesis we examine the basic units of document representation (syllables, words, phrases/sentences) and specifically the Vector Space Model (VSM) which is widely used for document representation based on words. Words are the main unit of document representation and, despite the drawbacks (large search space, breaking of multi-words etc.) introduced, they still are the base of most models. It is no random fact that World Wide Web search engines utilize keywords. Based on the idea that documents consist of words and therefore, every similarity or relation between documents can be reduced to the determination of the relation between the words that consist them and given the observation that searching with keywords is the main way of searching, this PhD thesis proposes a method of determining the semantic relation between words. The main goal is to find a scalar measure that quantifies any relation (synonym, antonym, hypernym etc.) between any two words. For this reason, the method utilizes the information provided by the hierarchical dictionary WordNet as well as the lexico-syntactic patterns extracted from the search results returned by a search engine using those words.
Recognizing the weaknesses of a representation model based on words as well as the limitations that are bound by the scalar measurement of word relatedness, the next step in this PhD thesis is the introduction of a new representation model, which is not based on document words, but rather includes semantics in the representation, based on its named entities-concepts (which can contain more than one word). Wikipedia is utilized for this purpose, since its increasing size and rich structure (hierarchical organization, full well-written sentences, informative article headers etc.) provide many capabilities to enhance the document semantics with characteristics created by attributes derived from Wikipedia. The presented model leads to representations not only richer, but also more compressed ones, compared to the VSM model.
The introduction of a better representation mode allows the PhD thesis to examine not only the relations between the words-senses of a document, but also the topics appearing in large document collections through the proposal of two document clustering techniques (according to their content). In both techniques the Wikipedia based representation model plays an important role utilizing the constructed features. The first technique is based on the most important concepts of the document collection examined and creates fast and efficiently a hierarchical tree structure of the groups that documents are clustered to, according to their content. The depth and width of the tree structure is fully controlled by the user. The second technique utilizes Self Organizing Maps (SOM) as a tool for document clustering. Self Organizing Map's initialization and initial neuron structure (grid) is modified to the original SOM algorithm (utilizing the Wikipedia based representation model) and training is carried out in three steps in accelerated time compared to the original process. At the end of training, user has the possibility to hierarchically organize similar neurons of the map.
The actual contribution of this PhD thesis is summarized in the possibility of using intelligent techniques and utilizing various source of knowledge in order to improve aspects or solve problems related to the efficient representation and analysis of the growing in size documents. In order to derive useful conclusions, at every stage of the research and for each proposed method the results of appropriately designed and performed experiments and comparisons are provided, which do not focus only on the overall evaluation of the methodologies, but, in parallel, intend to justify the particular choices and to prove their merits.