dc.contributor.author |
Ασπράγκαθος, Σωτήριος
|
el |
dc.contributor.author |
Aspragkathos, Sotirios
|
en |
dc.date.accessioned |
2025-07-30T10:34:38Z |
|
dc.date.available |
2025-07-30T10:34:38Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/62229 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.29925 |
|
dc.rights |
Default License |
|
dc.subject |
Ακμές |
el |
dc.subject |
Ευθύγραμμα τμήματα |
el |
dc.subject |
Edges |
en |
dc.subject |
Line segments |
en |
dc.subject |
Edge Detection |
en |
dc.subject |
Ανίχνευση ακμών |
el |
dc.subject |
Φωτογραμμετρία |
el |
dc.subject |
Όραση Υπολογιστών |
el |
dc.subject |
Photogrammetry |
en |
dc.subject |
Computer Vision |
en |
dc.title |
Σύγχρονες μέθοδοι εξαγωγής ακμών σε εικόνες |
el |
dc.title |
Modern methods for extracting edges in images |
en |
heal.type |
bachelorThesis |
|
heal.classification |
Φωτογραμμετρία |
el |
heal.classification |
Photogrammetry |
en |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2025-02-24 |
|
heal.abstract |
Η ανίχνευση και η περιγραφή χαρακτηριστικών σημείων σε εικόνες αποτελεί βασικό πρόβλημα
του τομέα της φωτογραμμετρίας και της όρασης υπολογιστών σε εφαρμογές σε όπως η ανίχνευση
και αναγνώριση αντικειμένων, η αναγνώριση μοτίβων σε εικόνες, η πλοήγηση ρομπότ και αυτόνομων
οχημάτων, η δημιουργία νεφών σημείων από αλγορίθμους SfM αλλά και σε εφαρμογές επαυξημέ-
νης πραγματικότητας. Στην συγκεκριμένη εργασία συγκρίνονται αλγόριθμοι εξαγωγής ακμών και ευ-
θυγράμμων τμημάτων από εικόνες. Η σύγκριση υλοποιείται μεταξύ παραδοσιακών αλγορίθμων και
αλγορίθμων βαθιάς μάθησης οι οποίοι βασίζονται σε νευρωνικά δίκτυα και εκπαιδεύονται σε μεγάλα
σετ εικόνων. Οι παραδοσιακές μέθοδοι βασίζονται κυρίως σε φίλτρα και μετασχηματισμούς τα οποία
είναι ικανά να εντοπίζουν απότομες αλλαγές στις εντάσεις, δηλαδή στην φωτεινότητα, των εικονο-
στοιχείων και έτσι να εντοπίζουν τις ακμές στις εικόνες. Οι μέθοδοι αυτές εμφανίζουν ικανοποιητικά
αποτελέσματα σε απλές εικόνες και δεν απαιτούν μεγάλη υπολογιστική ισχύ, όμως δυσκολεύονται σε
εικόνες με πολυπλοκότερες δομές και θόρυβο ή δύσκολες συνθήκες φωτισμού. Οι μέθοδοι που βα-
σίζονται στην βαθιά μάθηση στηρίζονται στα νευρωνικά δίκτυα και συγκεκριμένα στα CNNs, τα οποία
έχουν την ικανότητα να μαθαίνουν μοτίβα και χαρακτηριστικά από τα δεδομένα με τα οποία εκπαι-
δεύονται. Επειδή αυτή η εκπαίδευση υλοποιείται σε μεγάλα και πολύπλοκα σετ δεδομένων, αυτές οι
μέθοδοι εμφανίζουν ανθεκτικότητα σε εικόνες με σύνθετα και ποικίλα χαρακτηριστικά και σε εικόνες με
θόρυβο, αποκρύψεις και ιδιαίτερες συνθήκες φωτισμού. Το αρνητικό όμως είναι ότι απαιτούν μεγάλα
σετ δεδομένων για να εκπαιδευτούν κατάλληλα και επίσης μεγάλη υπολογιστική ισχύ.
Στην εργασία αυτή, αρχικά αναλύεται το θεωρητικό υπόβαθρο και κάποιες βασικές έννοιες για
την ανάλυση της εργασίας. Αναλυτικότερα, γίνεται αναφορά και επεξήγηση σε έννοιες της ψηφιακής
εικόνας, όπως αριθμητικές λειτουργίες εικόνων, ιστόγραμμα, συνέλιξη, φίλτρα και γεωμετρικοί μετα-
σχηματισμοί. Έπειτα αναφέρονται έννοιες που αφορούν το edge detection και υλοποιείται μια αρχική
ανάλυση στους παραδοσιακούς αλγορίθμους και στις μεθοδολογίες που βασίζονται στην βαθιά μά-
θηση. Επιπρόσθετα αναλύονται τομείς όπως η Μηχανική και η Βαθιά μάθηση, τα νευρωνικά δίκτυα
και τα συνελικτικά νευρωνικά δίκτυα. Μετέπειτα, υλοποιείται εκτενής παρουσίαση και επεξήγηση των
παραδοσιακών μεθόδων και συγκεκριμένα των Sobel edge detector, Canny edge detector, Hough
transform και Line Segment Dtector (LSD). Οι δύο πρώτες μεθοδολογίες υπολογίζουν τα gradients
κάθε εικονοστοιχείου σε μια εικόνα και με βάση αυτήν εντοπίζονται τα εικονοστοιχεία μεταξύ των
οποίων υπάρχουν έντονες αλλαγές. Κατά αυτόν τον τρόπο παράγουν edge maps, δηλαδή εικόνες με
ακμές (edges). Ο Hough transform είναι ένας αλγόριθμος με τον οποίο πραγματοποιείται μετάβαση
από εικονοστοιχεία ακμών σε συνεχή ευθύγραμμα τμήματα δηλαδή line segments. Ο LSD, είναι ένας
ανιχνευτής ευθυγράμμων τμημάτων που έχει sub-pixel ακρίβεια και δεν χρειάζεται parameter tuning,
δηλαδή ρύθμιση παραμέτρων από τον χρήστη.
Αμέσως μετά, αναλύονται και περιγράφοντα οι αλγόριθμοι βαθιάς μάθησης DeepLSD, HAWPv3,
SOLD2 και DexiNed. Ο DeepLSD, αποτελεί συνδυασμό των παραδοσιακών μεθόδων με μεθόδους
βαθιάς μάθησης ώστε να υπάρχει ένας μοντέλο ανίχνευσης ακμών με ακρίβεια και ανθεκτικότητα
που να μην χρειάζεται Ground Truth lines για την εκπαίδευση του. Ο HAWPv3, είναι μια μέθοδος
γεωμετρικής ανάλυσης δισδιάστατων εικόνων που περιέχουν wireframes (γεωμετρικές αναπαραστά-
σεις που χρησιμοποιούνται για να απεικονίσουν αντικείμενα ή σκηνές) τα οποία σχηματίζονται από
line segments και από τα junctions τους, δηλαδή από γραμμές και τις συνδέσεις τους. Ο SOLD2, είναι
ένας αλγόριθμος που επιτρέπει την από κοινού ανίχνευση και περιγραφή γραμμικών τμημάτων σε ένα
ενιαίο βαθύ δίκτυο. Επειδή υλοποιείται με self-supervised learning δεν χρειάζονται Ground Truth lines
για την εκπαίδευση του δικτύου. Τέλος αναλύεται και ο αλγόριθμος DexiNed ο οποίος είναι ανιχνευτής
ακμών βασισμένος στη βαθιά μάθηση, που παράγει λεπτούς edge maps που φαίνονται φυσικοί στο ανθρώπινο μάτι.
Στο τελικό στάδιο, υλοποιείται η αξιολόγηση των αλγορίθμων και συγκεκριμένα των LSD, DeepLSD,
HAWPv3, SOLD2 και Hough σε low-level metrics σε δυο σετ δεδομένων. Οι μετρητικές που χρησι-
μοποιήθηκαν για την αξιολόγηση δεν απαιτούν GT δεδομένα. Ακόμα υλοποιήθηκε και πείραμα με
δεδομένα ενός πραγματικού προβλήματος.
Τέλος, η εργασία παρουσιάζει μια συνολική αποτίμηση της διαδικασίας, τα συμπεράσματα της
αξιολόγησης των αλγορίθμων αλλά και τις διορθώσεις και ιδέες για μελλοντική έρευνα. |
el |
heal.abstract |
Feature detection and extraction in images are key problems in the fields of photogrammetry and
computer vision, with applications such as object detection, pattern recognition, robot and autonomous
vehicle navigation, point cloud generation from SfM algorithms, and augmented reality. In this study,
a comparison is made between edges and lines extraction algorithms from images. The comparison
focuses on traditional algorithms and deep learning algorithms which are based on neural networks
and are trained on large image datasets. Traditional methods rely on filters and transforms, that
are capable of detecting changes at pixels intensities, i.e. brightness. These methods are reliable
for simple images and require minimal computing power, but struggle to give satisfactory results
with images with complex structures, noise, or challenging lighting conditions. Deep learning-based
methods rely on neural networks, particularly CNNs, which have the ability to learn patterns and
features, from training data. As these algorithms are trained on large and complex datasets, they
exhibit robustness to complex images, as well as, to images with noise, occlusions and challenging
lighting conditions. However, the downside is that they require large datasets for proper training, along
with large computational power and resources.
In this work, the theoretical background and some fundamental concepts are initially analyzed,
such as point operators, histograms, convolution, filters and geometric transformations. Then concepts
of edge detection are introduced, followed by an initial analysis on traditional algorithms and methodologies
based on deep learning.Additionally, neural networks are described and areas such as Machine and
Deep learning, neural networks and Convolutional neural networks are analyzed. Later,an extensive
presentation and analysis of the traditional methods is conducted, specifically, the Sobel edge detector,
the Canny edge detector, the Hough transform and the Line Segment Detector (LSD). The first two
methodologies calculate the gradient of each pixel in an image to detect image gradients. In this
way they produce edge maps, i.e. images with edges. The Hough transform is an algorithm that
transitions from edge pixels to continuous line segments. LSD is a line segment detector that has
sub-pixel accuracy and does not need parameter tuning, i.e. setting parameters by the user.
Next, deep learning algorithms such as DeepLSD, HAWPv3, SOLD2 and DexiNed are analyzed.
DeepLSD, is a combination of traditional methods with deep learning approaches that provides an
edge detection model with accuracy and robustness without requiring ground truth lines for training.
HAWPv3,is a method for geometric analysis of 2D images containing wireframes formed by line
segments and junctions, i.e. their connections. SOLD2, is an algorithm that enables detection and
description of line segments at the same time, within a single deep network. As it is implemented using self-supervised learning, there is no requirement for ground truth lines to train the network.
Finally, the DexiNed algorithm is a deep learning-based edge detector that produces fine edge maps
that look natural to the human eye.
In the final stage, an evaluation of the algorithms is conducted, specifically LSD, DeepLSD, HAWPv3,
SOLD2 and Hough using low-level metrics on two datasets. The metrics used for the evaluation do
not require GT data. Additionally, an experiment was carried out with real-problem data.
Finally, the paper presents an overall assessment of the process, the conclusions from the algorithms
evaluation and recommendations for corrections and ideas for future research. |
en |
heal.advisorName |
Pateraki, Maria
|
en |
heal.committeeMemberName |
Doulamis, Anastasios
|
en |
heal.committeeMemberName |
Karantzalos, Konstantinos
|
en |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Αγρονόμων και Τοπογράφων Μηχανικών. Τομέας Τοπογραφίας. Εργαστήριο Φωτογραμμετρίας |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
110 σ. |
el |
heal.fullTextAvailability |
false |
|
heal.fullTextAvailability |
false |
|