HEAL DSpace

Advanced web scraping in the modern web

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Τσεριώτης, Άδωνις el
dc.contributor.author Tseriotis, Adonis en
dc.date.accessioned 2025-09-09T06:37:53Z
dc.date.available 2025-09-09T06:37:53Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62389
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.30085
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc/3.0/gr/ *
dc.subject Web Scraping en
dc.subject Εξαγωγή Δεδομένων el
dc.subject Αντιμετώπιση Bots el
dc.subject Μηχανική Μάθηση για Εξαγ- ωγή Δεδομένων el
dc.subject Μεγάλα Γλωσσικά Μοντέλα για Εξαγωγή Δεδομένων el
dc.subject Τεχνητή Νοημοσύνη el
dc.subject No-Code Web Scraping en
dc.subject Προγραμματισμένη Εξαγωγή Δεδομένων el
dc.subject Ανίχνευση Bots el
dc.subject Αυτο- προσαρμοζόμενες Τεχνικές Εξαγωγής el
dc.subject Αντίμετρα Ανίχνευσης Scraping el
dc.title Advanced web scraping in the modern web en
dc.contributor.department softlab el
heal.type bachelorThesis
heal.classification Web scraping en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-02-28
heal.abstract Η παρούσα εργασία εξετάζει το web scraping, μια διαδικασία αυτοματοποιημένης εξαγωγής δεδομένων από ιστοσελίδες, εστιάζοντας στις τεχνικές, τις προκλήσεις και τις καινοτόμες λύσεις που καθορίζουν το σύγχρονο περιβάλλον συλλογής δεδομένων. Με την αυξανόμενη πολυπλοκότητα των διαδικτυακών τεχνολογιών και την εφαρμογή μηχανισμών αποτροπής αυτοματοποιημένης πρόσβασης, απαιτούνται προηγμένες στρατηγικές για την αποτελεσματική και ηθικά αποδεκτή συλλογή πληροφορίας. Η εργασία αναλύει τις θεμελιώδεις μεθόδους scraping, όπως η ανάλυση HTML μέσω HTTP αιτημάτων, η χρήση headless browsers και η αναχαίτιση δικτυακών αιτημάτων, συγ- κρίνοντας τα πλεονεκτήματα και τα μειονεκτήματά τους. Παράλληλα, εξετάζονται οι τεχνικές προστασίας των ιστοσελίδων, όπως το browser fingerprinting, η ανάλυση μοτίβων κίνησης, οι CAPTCHA προκλήσεις και η απόκρυψη δεδομένων μέσω δυναμικών αποδόσεων περιεχομέ- νου. Η εισαγωγή της τεχνητής νοημοσύνης (ΑΙ) και των μεγάλων γλωσσικών μοντέλων (LLMs) στο web scraping αποτελεί μία από τις πιο καινοτόμες προσεγγίσεις. Η χρήση μηχανικής μάθησης επιτρέπει την ανάπτυξη αυτοπροσαρμοζόμενων εξαγωγέων δεδομένων, την αυτόματη αναγνώριση δομών δεδομένων και την έξυπνη παράκαμψη ανιχνευτικών μηχανισμών. Ως πρακτική εφαρμογή, η εργασία παρουσιάζει την πλατφόρμα ”soniq”, ένα ανοιχτού κώδικα, no-code εργαλείο scraping που αξιοποιεί AI για την αυτοματοποίηση και βελτιστοποίηση της συλλογής δεδομένων. Η πλατφόρμα ενσωματώνει LLM-assisted schema inference, προ- γραμματισμένη εξαγωγή δεδομένων και προηγμένη διαχείριση proxies, επιτρέποντας στους χρήστες να πραγματοποιούν scraping χωρίς εξειδικευμένες τεχνικές γνώσεις. Η εργασία καταλήγει σε μια συζήτηση για τις μελλοντικές προοπτικές στον χώρο του web scraping, εστιάζοντας στη δημιουργία ευφυών, ανθεκτικών και ηθικά αποδεκτών scraping pipelines, τη διασύνδεση με data warehouses για προηγμένη ανάλυση δεδομένων, και τη χρήση αποκεντρωμένων αρχιτεκτονικών για μεγαλύτερη ανωνυμία και ανθεκτικότητα. Τα ευρήματα αυτής της μελέτης αναδεικνύουν τη σημασία της τεχνολογικής καινοτομίας και της δημοκρατικοποίησης της πρόσβασης στα δεδομένα, ενισχύοντας τη διαφάνεια και την αποτελεσματικότητα της συλλογής πληροφοριών στον σύγχρονο ψηφιακό κόσμο. el
heal.advisorName Βεσκούκης, Βασίλειος el
heal.committeeMemberName Παπασπύρου, Νικόλαος el
heal.committeeMemberName Παρασκευοπούλου, Ζωή el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 114 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα