HEAL DSpace

Μία μέθοδος δειγματοληψίας με διευθύνσεις πρωτοκόλλου Ίντερνετ για την εξόρυξη δεδομένων από τον Παγκόσμιο Ιστό και το Διαδίκτυο

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Αφράτη, Φώτω el
dc.contributor.author Λεκέας, Παρασκευάς Β. el
dc.contributor.author Lekeas, Paraskevas V. en
dc.date.accessioned 2007-08-22T08:16:23Z
dc.date.available 2007-08-08T08:16:23Z
dc.date.available 2007-08-08T08:16:23Z
dc.date.copyright 2007-08-08
dc.date.issued 2007-08-22T08:16:23Z
dc.date.submitted 2007-08-08
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/490
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.150
dc.description 105 σ. el
dc.description.abstract Ο παγκόσμιος ιστός (web) και η τεχνολογική του πλατφόρμα, το διαδίκτυο (Internet), είναι δύο μεγάλα και πολύπλοκα δίκτυα τα οποία δεν μπορούν να μελετηθούν με άλλο τρόπο παρά μόνο με παρατηρήσεις και μετρήσεις. Για το λόγο αυτό υπάρχει ανάγκη εύρεσης μεθόδων εξαγωγής στατιστικών δειγμάτων από τα πολύπλοκα αυτά δίκτυα (κεφάλαιο 1). Δύο μέθοδοι κυρίως υπάρχουν για εξαγωγή δειγμάτων. Η πρώτη μέθοδος ονομάζεται δειγματοληψία με random walk και βασίζεται στην έννοια των τυχαίων περιπάτων (random walk). Αυτή η μέθοδος, χρησιμοποιώντας τη συνεκτικότητα του web γράφου, κατασκευάζει σχεδόν ομοιόμορφα και τυχαία δείγματά του βάσει της κατανομής ισορροπίας του περιπάτου. Η δεύτερη μέθοδος, η οποία είναι και το κύριο αντικείμενο της διατριβής, ονομάζεται δειγματοληψία με IP (IP sampling) και σύμφωνα με αυτήν ένα δείγμα του web προκύπτει εάν πάρουμε ένα δείγμα από IP διευθύνσεις και κρατήσουμε όσες από αυτές ανήκουν σε web hosts (κεφάλαιο 2). Συνήθως η δειγματοληψία με IP εφαρμόζεται σε όλο το χώρο διευθύνσεων του Internet (IPv4 - Internet Protocol version 4), οπότε και προκύπτει ένα αντιπροσωπευτικό δείγμα του. Σε αυτή τη διατριβή εφαρμόσαμε την πιο πάνω μέθοδο για συγκεκριμένα domains του Internet (π.χ. .gr, .uk) συμβουλευόμενοι τις βάσεις δεδομένων των ηπειρωτικών ληξίαρχων (RIR - Regional Internet Registries) που είναι υπεύθυνοι για το Ιnternet των αντίστοιχων γεωγραφικών περιοχών. Για το σκοπό αυτό υλοποιήσαμε ένα δειγματολήπτη ο οποίος παίρνει σαν είσοδο το “χάρτη” με τις IP διευθύνσεις στις οποίες θέλουμε να κάνουμε δειγματοληψία, επιλέγει το δείγμα των IP διευθύνσεων και το “φιλτράρει” κρατώντας μόνο τις web σελίδες. Δοκιμάσαμε το δειγματολήπτη σε διάφορα domains και είδαμε ότι είναι αρκετά αξιόπιστος, π.χ. κάνοντας δειγματοληψία στο .gr υπολογίσαμε το μέγεθος του ελληνικού web και το βρήκαμε σε συμφωνία με τρίτες πηγές (κεφάλαιο 3). Στη συνέχεια χρησιμοποιήθηκε ο δειγματολήπτης για εξαγωγή δειγμάτων και επεξεργασία τους. Έτσι, έγινε δειγματοληψία στο .uk και από το δείγμα αποδείχθηκε ότι ο τρόπος γραφής των hostname συνδέεται με αναπαράσταση χωρικής και χρονικής πληροφορίας. Συγκεκριμένα υπολογίστηκε η γεωγραφική κατανομή της υποδομής, η κατανομή της κυκλοφορίας Internet και ο ρυθμός ανάπτυξης διαφόρων ISPs (Internet Service Providers) που δραστηριοποιούντο στην περιοχή της δειγματοληψίας από δείγματα hostname (κεφάλαιο 4). Δοκιμάστηκε, επίσης, ο δειγματολήπτης έτσι ώστε να μην εξάγει δείγματα από τους IP χάρτες αλλά να τους διατρέχει εξαντλητικά. Η πιο πάνω δοκιμή έγινε στο .jo domain όπου και υπολογίστηκε ο αριθμός των web server του. Τέλος, ο δειγματολήπτης χρησιμοποιήθηκε σαν crawler διατρέχοντας ολόκληρα web site και επαληθεύοντας κατανομές power law για τους out-degree αυτών (κεφάλαιο 5). el
dc.description.statementofresponsibility Παρασκευάς Β. Λεκέας el
dc.format.extent 175 bytes
dc.format.extent 2526329 bytes
dc.format.mimetype text/xml
dc.format.mimetype application/pdf
dc.language.iso el en
dc.rights PolicyETDFree.xml en
dc.subject Δειγματοληψία el
dc.subject Παγκόσμιος Ιστός el
dc.subject Ίντερνετ el
dc.subject Πρωτόκολλο el
dc.subject Εξόρυξη Δεδομένων el
dc.subject Sampling en
dc.subject Web en
dc.subject Internet en
dc.subject IP en
dc.subject Protocol en
dc.subject IP address en
dc.title Μία μέθοδος δειγματοληψίας με διευθύνσεις πρωτοκόλλου Ίντερνετ για την εξόρυξη δεδομένων από τον Παγκόσμιο Ιστό και το Διαδίκτυο el
dc.title.alternative An IP sampling method for Web and Internet mining en
dc.type doctoralThesis el (en)
dc.date.accepted 2004-01-11
dc.date.modified 2007-08-08
dc.contributor.advisorcommitteemember Αφράτη, Φώτω el
dc.contributor.advisorcommitteemember Αναγνώστου, Μιλτιάδης el
dc.contributor.advisorcommitteemember Παπακωνσταντίνου, Γεώργιος el
dc.contributor.committeemember Αφράτη, Φώτω el
dc.contributor.committeemember Αναγνώστου, Μιλτιάδης el
dc.contributor.committeemember Παπακωνσαντίνου, Γεώργιος el
dc.contributor.committeemember Σελλής, Τιμολέων el
dc.contributor.committeemember Λούμος, Βασίλειος el
dc.contributor.committeemember Κολέτσος, Γεώργιος el
dc.contributor.committeemember Γεργατσούλης, Εμμανουήλ el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής el
dc.date.recordmanipulation.recordcreated 2007-08-22
dc.date.recordmanipulation.recordmodified 2007-08-22


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής