Abstract:
Ο παγκόσμιος ιστός (web) και η τεχνολογική του πλατφόρμα, το διαδίκτυο (Internet), είναι δύο μεγάλα και πολύπλοκα δίκτυα τα οποία δεν μπορούν να μελετηθούν με άλλο τρόπο παρά μόνο με παρατηρήσεις και μετρήσεις. Για το λόγο αυτό υπάρχει ανάγκη εύρεσης μεθόδων εξαγωγής στατιστικών δειγμάτων από τα πολύπλοκα αυτά δίκτυα (κεφάλαιο 1). Δύο μέθοδοι κυρίως υπάρχουν για εξαγωγή δειγμάτων. Η πρώτη μέθοδος ονομάζεται δειγματοληψία με random walk και βασίζεται στην έννοια των τυχαίων περιπάτων (random walk). Αυτή η μέθοδος, χρησιμοποιώντας τη συνεκτικότητα του web γράφου, κατασκευάζει σχεδόν ομοιόμορφα και τυχαία δείγματά του βάσει της κατανομής ισορροπίας του περιπάτου. Η δεύτερη μέθοδος, η οποία είναι και το κύριο αντικείμενο της διατριβής, ονομάζεται δειγματοληψία με IP (IP sampling) και σύμφωνα με αυτήν ένα δείγμα του web προκύπτει εάν πάρουμε ένα δείγμα από IP διευθύνσεις και κρατήσουμε όσες από αυτές ανήκουν σε web hosts (κεφάλαιο 2). Συνήθως η δειγματοληψία με IP εφαρμόζεται σε όλο το χώρο διευθύνσεων του Internet (IPv4 - Internet Protocol version 4), οπότε και προκύπτει ένα αντιπροσωπευτικό δείγμα του. Σε αυτή τη διατριβή εφαρμόσαμε την πιο πάνω μέθοδο για συγκεκριμένα domains του Internet (π.χ. .gr, .uk) συμβουλευόμενοι τις βάσεις δεδομένων των ηπειρωτικών ληξίαρχων (RIR - Regional Internet Registries) που είναι υπεύθυνοι για το Ιnternet των αντίστοιχων γεωγραφικών περιοχών. Για το σκοπό αυτό υλοποιήσαμε ένα δειγματολήπτη ο οποίος παίρνει σαν είσοδο το “χάρτη” με τις IP διευθύνσεις στις οποίες θέλουμε να κάνουμε δειγματοληψία, επιλέγει το δείγμα των IP διευθύνσεων και το “φιλτράρει” κρατώντας μόνο τις web σελίδες. Δοκιμάσαμε το δειγματολήπτη σε διάφορα domains και είδαμε ότι είναι αρκετά αξιόπιστος, π.χ. κάνοντας δειγματοληψία στο .gr υπολογίσαμε το μέγεθος του ελληνικού web και το βρήκαμε σε συμφωνία με τρίτες πηγές (κεφάλαιο 3). Στη συνέχεια χρησιμοποιήθηκε ο δειγματολήπτης για εξαγωγή δειγμάτων και επεξεργασία τους. Έτσι, έγινε δειγματοληψία στο .uk και από το δείγμα αποδείχθηκε ότι ο τρόπος γραφής των hostname συνδέεται με αναπαράσταση χωρικής και χρονικής πληροφορίας. Συγκεκριμένα υπολογίστηκε η γεωγραφική κατανομή της υποδομής, η κατανομή της κυκλοφορίας Internet και ο ρυθμός ανάπτυξης διαφόρων ISPs (Internet Service Providers) που δραστηριοποιούντο στην περιοχή της δειγματοληψίας από δείγματα hostname (κεφάλαιο 4). Δοκιμάστηκε, επίσης, ο δειγματολήπτης έτσι ώστε να μην εξάγει δείγματα από τους IP χάρτες αλλά να τους διατρέχει εξαντλητικά. Η πιο πάνω δοκιμή έγινε στο .jo domain όπου και υπολογίστηκε ο αριθμός των web server του. Τέλος, ο δειγματολήπτης χρησιμοποιήθηκε σαν crawler διατρέχοντας ολόκληρα web site και επαληθεύοντας κατανομές power law για τους out-degree αυτών (κεφάλαιο 5).