HEAL DSpace

Πληροφοριακό Σύστηµα Ενηµέρωσης ∆ικτύου βιβλιογραφικών Αναφορών από τον Ιστό µε τεχνικές εξαγωγής πληροφορίας, τεχνολογίας λογισµικού καΙ ταιριάσματος όμοιων εγγραφών (el)

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Παπαδάκης, Γεώργιος
dc.contributor.author Papadakis, Georgios
dc.date.accessioned 2025-07-03T10:50:16Z
dc.date.available 2025-07-03T10:50:16Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62121
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.29817
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject βιβλιογραφικές αναφορές el
dc.subject Δημοσιεύσεις el
dc.subject Διαδίκτυο el
dc.subject Αλγόριθμοι el
dc.subject Δεδομένα el
dc.subject Τεχνολογία λογισμικού el
dc.subject information extraction en
dc.subject citation matching en
dc.subject name disambiguation en
dc.subject split citation problem en
dc.subject string distance metrics en
dc.title Πληροφοριακό Σύστηµα Ενηµέρωσης ∆ικτύου βιβλιογραφικών Αναφορών από τον Ιστό µε τεχνικές εξαγωγής πληροφορίας, τεχνολογίας λογισµικού καΙ ταιριάσματος όμοιων εγγραφών (el) el
dc.contributor.department Τομεας Τεχολογιας Πληροφορικής και Υπολογιστών el
heal.type bachelorThesis el
heal.classification εξαγωγή πληροφορίας el
heal.language el el
heal.access free el
heal.recordProvider ntua el
heal.publicationDate 2007-09-01
heal.abstract Η αξιολόγηση του ερευνητικού τους έργου και ο προσδιορισµός της απήχησης που αυτό έχει απασχολούσε ανέκαθεν τους επιστήµονες. Στα µέσα της δεκαετίας του 1950 προτάθηκε για το σκοπό αυτό η µέθοδος των βιβλιογραφικών αναφορών (citations), η οποία στις µέρες µας είναι καθολικά αποδεκτή ως η πιο αξιόπιστη. Απαιτείται ωστόσο ιδιαίτερη προσπάθεια και κόπος για να καταφέρει κανείς να συγκεντρώσει τα citations για όλες τις δηµοσιευµένες εργασίες του, ακόµα και στην σηµερινή εποχή του ∆ιαδικτύου. Χρειάζεται άλλωστε να συνδυάσει πληροφορίες από πλήθος ετερογενών πηγών. Είναι εποµένως επιτακτική η ανάγκη για αυτοµατοποίηση της διαδικασίας αυτής. Από τις ιδιαίτερα αξιόλογες προσπάθειες που έχουν γίνει προς αυτή την κατεύθυνση, καµία δεν έχει καταφέρει να λύσει επιτυχώς το σύνολο των προβληµάτων που πρέπει να αντιµετωπίσει µια προσπάθεια αυτοµατοποίησης. Σε αυτά συγκαταλέγονται η ελεύθερη πρόσβαση και επεξεργασία (parsing) των πρωτογενών πηγών πληροφοριών (εκδοτικοί οίκοι κλπ), το ταίριασµα των διαφορετικών βιβλιογραφικών αναφορών που αναφέρονται στην ίδια δηµοσίευση (citation matching) και ο εντοπισµός των διαφορετικών επιστηµόνων που συµµετέχουν στη συγγραφή ενός συνόλου δηµοσιεύσεων (name disambiguation). Για την ακρίβεια, το name disambiguation επιµερίζεται στον εντοπισµό εκείνων των ονοµάτων που, παρ’ όλο που ταυτίζονται, αντιστοιχούν στην πραγµατικότητα σε διαφορετικούς επιστήµονες (mixed citation problem) και των ονοµάτων που, παρ’ όλο που διαφέρουν, αντιστοιχούν στην πραγµατικότητα στον ίδιο επιστήµονα (split citation problem). Αντικείµενο αυτής της διπλωµατικής είναι η ανάπτυξη, µε βάση τις αρχές της τεχνολογίας λογισµικού, ενός συστήµατος ανάλυσης βιβλιογραφικών αναφορών που αντιµετωπίζει το σύνολο των παραπάνω προβληµάτων (στην περίπτωσή µας βέβαια το πρώτο πρόβληµα ανάγεται στην εξαγωγή πληροφορίας από ακαδηµαϊκές µηχανές αναζήτησης). Σε αυτό το πλαίσιο αναπτύχθηκαν πρωτότυποι αλγόριθµοι για την επίλυση τόσο του citation matching όσο και του name disambiguation. Οι αλγόριθµοι αυτοί βασίζονται στις τεχνικές ταιριάσµατος όµοιων εγγραφών και διαφοροποιούνται από τους προτεινόµενους στη βιβλιογραφία, καθώς δεν προορίζονται για εφαρµογή σε ένα περιορισµένο σύνολο δεδοµένων. Αντίθετα, στόχος είναι να χρησιµοποιηθούν σε µια εφαρµογή πραγµατικού χρόνου, ώστε να επιτυγχάνουν σε αποδεκτό χρόνο υψηλή απόδοση σε οποιαδήποτε δεδοµένα. Αν και είναι εξαιρετικά δύσκολο να υπολογιστεί η αποτελεσµατικότητα και η αξιοπιστία µιας τέτοιας εφαρµογής, τα πρώτα αποτελέσµατα είναι ικανοποιητικά, αφήνοντας παράλληλα αρκετά περιθώρια βελτίωσης. el
heal.abstract The evaluation of their research work and its effect has always been one of scholars’ great concerns. In the middle 50s a new evaluation method based on citations was proposed. Nowadays this method is widely accepted as the most reliable one. However, gathering a scholar’s citations constitutes a particularly laborious task, even in the current Internet era, as one needs to correctly combine information from miscellaneous sources. There exists therefore an urgent need for automating this process. Numerous remarkable efforts have been made to cover this need, none of which has managed though to solve all related problems. Among these problems are the necessary free access to and parsing of primary information sources (e.g. publishers), citation matching (i.e. indentifying citations that actually refer to the same paper) and name disambiguation. Name disambiguation refers to the task of identifying the unique authors that contribute to a set of papers and is further separated to the following problems: mixed citation problem, caused by the fact that different scholars may have identical names, and split citation problem, induced by the various names under which a unique scholar appears. This thesis aims to develop an information system according to software engineering principles that copes with all of the aforementioned problems (in our case however the first one is reduced to extracting information from academic search engines). In this context we developed algorithms that deal with citation matching as well as name disambiguation based on record linkage techniques and string distance metrics. These algorithms differ from those proposed so far in literature in that they are not appropriate just for a limited dataset. They are instead made appropriate for a real time application that should process any data successfully and in a reasonable time. Although estimating the accuracy and reliability of such an application is a fairly difficult task, the first results are encouraging enough. Moreover, we plan to improve the algorithms and enrich the application with some necessary new features in the future. en
heal.sponsor ΕΜΠ el
heal.advisorName Σελλής, Τιµολέων
heal.committeeMemberName Σελλής, Τιµολέων
heal.committeeMemberName Βασιλείου, Ιωάννης
heal.committeeMemberName Κοζύρης, Νεκτάριος
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 70 σ.
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα