Το scraping στο Web περιλαμβάνει τη συλλογή πληροφοριών με τη μορφή δεδομένων από ιστότοπους ή σελίδες. Παρόλο που η δική σας μπορεί να μην είναι συνειδητή πράξη, έχετε επίσης ξύσει τον ιστό με τον ένα ή τον άλλο τρόπο, ενώ συλλέγετε πληροφορίες. Αλλά αυτό είναι συνήθως λεπτό.

Η απόξεση ιστού ή η απόξεση οθόνης είναι γενικά μια σκόπιμη πράξη και οι επαγγελματίες αυτοματοποιούν το σχεδιασμό για να λάβουν τεράστια δεδομένα. Είτε αντιγράφοντας κείμενα σε έναν ιστότοπο με μη αυτόματο τρόπο, χρησιμοποιώντας ειδικά εργαλεία, είτε γράφοντας σενάρια απόξεσης ιστού, οι ξύστρες Ιστού μερικές φορές χτυπούν σκληρά σε έναν ιστότοπο κάνοντας πολλά αιτήματα ταυτόχρονα.

Όμως, ενώ πολλές επιχειρήσεις αξιοποιούν τώρα το web scraping για να οδηγήσουν σε ανταγωνιστικό πλεονέκτημα, είναι πραγματικά νόμιμο;

Ποιοι ιστότοποι πρέπει και δεν πρέπει να ξύσετε;

Το Διαδίκτυο είναι ένα σύνολο πληροφοριών, δίνοντας στους ανθρώπους πρόσβαση σε παλιά και σε πραγματικό χρόνο δεδομένα. Η απόξεση ιστού ή η απόξεση οθόνης υπήρχε εδώ και αρκετό καιρό. Αλλά πόσο πρέπει να το χρησιμοποιήσετε και σε ποιους ιστότοπους μπορείτε να αποκόψετε;

Ορισμένοι ιστότοποι είναι αυστηροί με προγράμματα ανίχνευσης ιστού ή ξύστρες οθόνης και τους αποκλείουν εντελώς. Είναι λοιπόν προφανές ότι δεν πρέπει να αποκόψετε τέτοιες ιστοσελίδες. Αλλά οι άνθρωποι το κάνουν ακόμα.

Δυστυχώς, δεν υπάρχει τίποτα άλλο που μπορούν να κάνουν τέτοιοι ιστότοποι για να το σταματήσουν εκτός από την αποκατάσταση των κενών τους.

Πριν διαγράψετε έναν ιστότοπο, ιδανικά, θα πρέπει να ελέγξετε εάν επιτρέπει ανίχνευση ή όχι. Συνήθως, μπορείτε να το βρείτε αυτό ελέγχοντας το αρχείο robots.txt του ιστότοπου. Μπορείτε να το κάνετε πληκτρολογώντας "[διεύθυνση URL ιστότοπου] /robots.txt".

Ένα robots.txt ορίζει συνήθως κανόνες για διάφορους ανιχνευτές ή πράκτορες χρηστών. Ωστόσο, αυτοί οι κανόνες διαφέρουν, ανάλογα με τον σχετικό ιστότοπο. Ενώ ορισμένοι ιστότοποι επιτρέπουν την ανίχνευση σε όλες τις σελίδες, ορισμένοι προσδιορίζουν τις σελίδες που μπορεί να ανιχνεύσει ένα bot και ορισμένοι αποκλείουν τα προγράμματα ανίχνευσης.

Ένας ιστότοπος που αποκλείει την ανίχνευση όλων των παραγόντων χρηστών σε όλες τις σελίδες ορίζει συνήθως τους ακόλουθους κανόνες:

πράκτορας χρήστη: *
Απαγόρευση: /

Ένα αρχείο robots.txt που αποκλείει την ανίχνευση όλων των bots σε ορισμένους καταλόγους ή σελίδες συνήθως μοιάζει με αυτό:

πράκτορας χρήστη: *
Απαγόρευση: / URL στη σελίδα 1
Απαγόρευση: / URL στη σελίδα 2

Εάν το robots.txt δεν επιτρέπει τη σελίδα που θέλετε να ανιχνεύσετε, τότε πιθανότατα μπορείτε να την ξύσετε. Διαφορετικά, θα πρέπει να υποχωρήσετε ή να ζητήσετε τη συγκατάθεση του διαχειριστή. Μπορούν να σας παραχωρήσουν πρόσβαση.

Επιπλέον, ορισμένοι ιστότοποι δηλώνουν ρητά εάν επιτρέπουν την ανίχνευση ή όχι στους όρους χρήσης τους. Κάποιοι το δηλώνουν ακόμη και στην κορυφή του robots.txt. Πάντα να το ελέγχετε επίσης για να βεβαιωθείτε ότι κάνετε το σωστό.

Πώς γίνεται κατάχρηση Ιστού

Επομένως, εάν έχετε λάβει ανεπιθύμητα μηνύματα ηλεκτρονικού ταχυδρομείου ή SMS από ιστότοπους ή άτομα που δεν έχετε παράσχει ποτέ τα προσωπικά σας στοιχεία, τότε πιθανότατα έχετε διαγραφεί κάπου. Και ως επί το πλείστον, είναι μέσω μιας από τις λαβές κοινωνικών μέσων σας.

Τούτου λεχθέντος, το web scraping μερικές φορές είναι κάτι παραπάνω από απλή συλλογή δεδομένων που αποδίδονται στο προσκήνιο. Εάν χρησιμοποιηθεί κακόβουλα, μπορεί να οδηγήσει σε διαρροή προσωπικών και διαβαθμισμένων πληροφοριών.

Ενώ οι περισσότερες πλατφόρμες κοινωνικών μέσων μαζικής ενημέρωσης σε αυτό, τα ανιχνευτικά ρομπότ εξακολουθούν να έχουν πρόσβαση στα προφίλ των ατόμων και τα στοιχεία επικοινωνίας τους διαρρέουν και αφαιρούνται.

Το Facebook, για παράδειγμα, έχει αναφερθεί ότι έχει ευπάθειες που διέρρευσε τα στοιχεία επικοινωνίας των χρηστών στο παρελθόν, παρόλο που οι χρήστες τα διατηρούν απόρρητα.

Ομοίως, το LinkedIn υπέστη πρόσφατα παραβίαση ασφαλείας που είχε ως αποτέλεσμα τη διαρροή προσωπικών δεδομένων ανήκει σε πάνω από 500 εκατομμύρια λογαριασμούς. Κατά συνέπεια, αυτή η ευπάθεια είχε ως αποτέλεσμα την κοινή χρήση πολλών διευθύνσεων email και αριθμών τηλεφώνου χωρίς τη συγκατάθεση των κατόχων προφίλ.

Είναι παράνομη η απόσυρση ενός ιστότοπου;

Δεν υπήρξε ποτέ συμπέρασμα σχετικά με τη νομιμότητα της απόξεσης ιστού. Αντίθετα, η εστίαση είναι στο πώς λειτουργεί ένα πρόγραμμα ανίχνευσης κατά περίπτωση και σε τι χρησιμοποιούν τα συλλεγόμενα δεδομένα για να επιτύχουν.

Έτσι, αντί να καταλήγουμε στη νομιμότητά του, η απόξεση, όταν γίνεται κακόβουλα, είναι παράνομη. Αλλά αν γίνει με σύνεση, δεν είναι παράνομο.

Όμως, όπως αναμενόταν, φαίνεται να υπάρχει μια πιο αυστηρή πολιτική σχετικά με την απόσυρση και τη χρήση δεδομένων κοινωνικών μέσων δεδομένου ότι το απόρρητο των χρηστών είναι τόσο σημαντικό. Ωστόσο, όλα εξακολουθούν να βασίζονται στον τρόπο με τον οποίο οι άνθρωποι αποσύρουν τα δεδομένα.

ο Ιστολόγιο νόμου Διαδικτύου και κοινωνικών μέσων ανέλυσε την περίπτωση των hiQ Labs, μιας εταιρείας απομάκρυνσης δεδομένων που κέρδισε αγωγή εναντίον του LinkedIn το 2019, αφού προσπάθησε να αποκλείσει τα hiQ Labs από τη συλλογή δεδομένων των χρηστών του LinkedIn που είναι διαθέσιμα στο κοινό.

Με τα εργαστήρια hiQ που ισχυρίζονται ότι ο νόμος περί απάτης και κατάχρησης υπολογιστών (CFAA) απαγορεύει μόνο τη μη εξουσιοδοτημένη πρόσβαση, το η απόφαση επιβεβαίωσε ότι τα δεδομένα του LinkedIn ήταν διαθέσιμα στο κοινό, οπότε όποιος τα ξύπνησε το έκανε επειδή είναι προσιτός.

Εκτός αυτού, τα hiQ Labs χρησιμοποίησαν μόνο τα αποκομμένα δεδομένα για να παρέχουν λύσεις ανάλυσης σε εταιρείες, ώστε να μπορούν να λαμβάνουν καλύτερες αποφάσεις πρόσληψης.

Αντίθετα, Το Facebook μήνυσε πρόσφατα προγραμματιστές επεκτάσεων Chrome που ξόδεψε τα προφίλ των χρηστών του Facebook χωρίς τη συγκατάθεσή τους.

Ομοίως, α Η ιστοσελίδα copycat μήνυσε από το Facebook για την απόσυρση πληροφοριών προφίλ πολλών χρηστών Instagram και στη συνέχεια τη χρήση αυτών για τη δημιουργία κλώνων. Σύμφωνα με αυτήν την έκθεση, το Facebook στη συνέχεια προχώρησε περαιτέρω για να λάβει μόνιμη δικαστική απόφαση εναντίον του δράστη.

Αυτές είναι μερικές περιπτώσεις όπου οι άνθρωποι μπορεί να χρησιμοποίησαν παράνομη απόξεση ιστού. Οι εν λόγω εταιρείες συγκέντρωσαν ψεύτικα τα δεδομένα των χρηστών του Facebook, χωρίς τη συγκατάθεση των χρηστών του. Έτσι, παραβίασε τις πολιτικές απορρήτου.

Έτσι, ενώ η απόσυρση ιστού μπορεί να απογοητεύσει τον ιστότοπο από τον οποίο λαμβάνει δεδομένα, κανένας γενικός κανόνας δεν εμποδίζει τους ανθρώπους να πάρουν ό, τι θέλουν, αρκεί να μην παραβιάζουν εντελώς τους νόμους του Διαδικτύου.

Είναι το Scraping Ιστού συνώνυμο με το Hacking;

Υπάρχουν μερικοί μύθοι που περιβάλλουν το web scraping. Ένα από αυτά είναι η πεποίθηση ότι η απόσυρση ενός ιστότοπου σημαίνει ότι τον έχετε παραβιάσει. Παρόλο που η πειρατεία μπορεί τελικά να οδηγήσει σε απόσυρση δεδομένων, ο ισχυρισμός ότι ο ίδιος ο όρος σημαίνει ότι η παραβίαση ενός ιστότοπου δεν είναι αλήθεια.

Η απόσυρση Ιστού μπορεί να περιλαμβάνει τη χρήση του ειδικά εργαλεία ανίχνευσης ή απόξεσης, Διεπαφές προγραμματισμού εφαρμογών (API) ή σενάρια απόξεσης ιστού για τη λήψη δεδομένων από έναν ιστότοπο. Σε αντίθεση με το hacking, δεν θέτει σε κίνδυνο τον ιστότοπο που διαγράφει ούτε διαταράσσει την εμπειρία των χρηστών του.

Σχετιζομαι με: Τι είναι το Scraping Ιστού; Πώς να συλλέξετε δεδομένα από ιστότοπους

Έτσι, ενώ η εισβολή περιλαμβάνει μη εξουσιοδοτημένη πρόσβαση, συνήθως στη βάση δεδομένων ενός ιστότοπου, η σάρωση ιστού στοχεύει μόνο δεδομένα που είναι ήδη ορατά στη διεπαφή. Παρόλο που οι χρήστες μπορούν να χρησιμοποιήσουν το web scraping κακόβουλα, εξακολουθεί να μην είναι συνώνυμο με το hacking.

Επιπλέον, σε αντίθεση με το web scraping, η σκόπιμη και ανήθικη πειρατεία είναι παράνομη.

Ποια είναι τα θετικά του Scraping Ιστού;

Το web scraping έχει πολλά θετικά και ακόμη και ορισμένες εταιρείες τεχνολογίας προσφέρουν τώρα τα δεδομένα τους δωρεάν μέσω API. Αυτές οι πληροφορίες συνήθως δεν επαρκούν για την αξιολόγηση των τάσεων των επιχειρήσεων και τη λήψη αποφάσεων.

Έτσι, οι εταιρείες λαμβάνουν τώρα περισσότερα δεδομένα με την απόσπαση του ιστού για τη βελτίωση των πρακτικών και την αύξηση των πωλήσεων. Επιπλέον, οι επιστήμονες δεδομένων τροφοδοτούν αλγόριθμους μηχανικής εκμάθησης με δεδομένα που συλλέγονται μέσω απόξεσης οθόνης.

Τέτοια δεδομένα μπορούν να είναι εικόνες που χρησιμοποιούνται στην αναγνώριση εικόνας, απλά κείμενα για ανάλυση συναισθημάτων ή απευθείας δεδομένα προϊόντος για την ευφυΐα της αγοράς και την ανάλυση συμπεριφοράς καταναλωτή.

Σχετιζομαι με: Μοναδικοί τρόποι λήψης συνόλων δεδομένων για το πρόγραμμα μηχανικής εκμάθησης

Έτσι το web scraping είναι ακόμα πιο χρήσιμο, διότι αν έχετε πρόσβαση σε πληροφορίες που δεν έχει ο ανταγωνιστής σας, μπορείτε να τους νικήσετε.

Ενώ ορισμένοι ιστότοποι απογοητεύονται από τις ξύστρες ιστού, ορισμένες, ακόμη και υπηρεσίες ηλεκτρονικού εμπορίου, δεν με νοιάζουν αν αποσύρετε τα δεδομένα τους ή όχι. Γίγαντες Ιστού όπως το eBay και το Salesforce ξεκίνησαν το API τους το 2000, προσφέροντας στους προγραμματιστές πρόσβαση σε δημόσια δεδομένα για πρώτη φορά.

Πρέπει πραγματικά να ξύσετε τον Ιστό;

Έχουμε διαπιστώσει ότι η απόσυρση ιστού δεν είναι παράνομη όταν γίνεται με τον σωστό τρόπο. Αλλά αυτό που κάνετε με τα δεδομένα που διαγράφετε είναι επίσης ανησυχητικό. Επομένως, αντί να το καταχραστείτε, χρησιμοποιήστε το για να αντλήσετε περισσότερες πληροφορίες που βοηθούν εσάς και άλλους να λάβετε ενημερωμένες αποφάσεις.

Ωστόσο, το web scraping ως δεξιότητα σάς δίνει πρόσβαση σε μεγάλα κομμάτια δεδομένων στο Διαδίκτυο, τα οποία μπορούν να βοηθήσουν εσάς ή την εταιρεία σας να παραμείνετε πάνω από την επιχειρηματική θέση. Ως επιστήμονας δεδομένων, διευρύνει ακόμη περισσότερο το πεδίο εφαρμογής σας και βελτιώνει την κωδικοποίηση και τις τεχνικές σας δεξιότητες.

Για παράδειγμα, το Python είναι μία από τις γλώσσες προγραμματισμού που σας βοηθούν να αποκόψετε εύκολα έναν ιστότοπο με τη βιβλιοθήκη Beautiful Soup ή το Scrapy framework.

ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
Ξύστε έναν ιστότοπο με αυτό το όμορφο μάθημα σούπας Python

Ενδιαφέρεστε για το ξύσιμο ιστού; Δείτε πώς μπορείτε να αποκόψετε έναν ιστότοπο για περιεχόμενο και πολλά άλλα με τη βιβλιοθήκη Beautiful Soup Python.

Διαβάστε Επόμενο

Σχετικά θέματα
  • Ασφάλεια
  • Προγραμματισμός
  • Διαδικτυακή ασφάλεια
  • Διαγραφή Ιστού
Σχετικά με τον Συγγραφέα
Idowu Omisola (Δημοσιεύθηκαν 71 άρθρα)

Το Idowu είναι παθιασμένο με οτιδήποτε έξυπνη τεχνολογία και παραγωγικότητα. Στον ελεύθερο χρόνο του, παίζει με την κωδικοποίηση και αλλάζει στη σκακιέρα όταν βαριέται, αλλά αγαπά επίσης να ξεφεύγει από τη ρουτίνα κάποτε. Το πάθος του για να δείξει στους ανθρώπους το δρόμο γύρω από τη σύγχρονη τεχνολογία τον παρακινεί να γράφει περισσότερα.

Περισσότερα από το Idowu Omisola

Εγγραφείτε στο Newsletter μας

Εγγραφείτε στο ενημερωτικό δελτίο μας για τεχνικές συμβουλές, κριτικές, δωρεάν ebook και αποκλειστικές προσφορές!

Ένα ακόμη βήμα…!

Επιβεβαιώστε τη διεύθυνση email σας στο email που μόλις σας στείλαμε.

.