Η εξαγωγή δεδομένων είναι ένα μεγάλο μέρος της εργασίας σε νέα και καινοτόμα έργα. Πώς όμως παίρνετε στα χέρια σας τα μεγάλα δεδομένα από όλο το Διαδίκτυο;
Η χειροκίνητη συλλογή δεδομένων αποκλείεται. Είναι πολύ χρονοβόρο και δεν αποφέρει ακριβή ή ολοκληρωμένα αποτελέσματα. Αλλά μεταξύ ειδικού λογισμικού απόξεσης ιστού και αποκλειστικού API ενός ιστότοπου, ποια διαδρομή εξασφαλίζει την καλύτερη ποιότητα δεδομένων χωρίς να θυσιάζεται η ακεραιότητα και η ηθική;
Τι είναι η συλλογή δεδομένων Ιστού
Η συλλογή δεδομένων είναι η διαδικασία εξαγωγής δημοσίως διαθέσιμων δεδομένων απευθείας από διαδικτυακούς ιστότοπους. Αντί να βασίζεστε μόνο σε επίσημες πηγές πληροφοριών, όπως προηγούμενες μελέτες και έρευνες που πραγματοποιήθηκαν από μεγάλες εταιρείες και αξιόπιστα ιδρύματα, η συλλογή δεδομένων σας επιτρέπει να λάβετε τη συλλογή δεδομένων στη δική σας χέρια.
Το μόνο που χρειάζεστε είναι ένας ιστότοπος που προσφέρει δημόσια τον τύπο των δεδομένων που αναζητάτε, ένα εργαλείο για να τα εξαγάγετε και μια βάση δεδομένων για να τα αποθηκεύσετε.
Το πρώτο και το τελευταίο βήμα είναι αρκετά απλά. Στην πραγματικότητα, μπορείτε να επιλέξετε έναν τυχαίο ιστότοπο μέσω Google και να αποθηκεύσετε τα δεδομένα σας σε ένα υπολογιστικό φύλλο Excel. Η εξαγωγή δεδομένων είναι εκεί που τα πράγματα γίνονται δύσκολα.
Διατηρώντας το νόμιμο και ηθικό
Όσον αφορά τη νομιμότητα, εφόσον δεν χρησιμοποιείτε τεχνικές black-hat για να έχετε στα χέρια σας τα δεδομένα ή να παραβιάσετε την πολιτική απορρήτου του ιστότοπου, είστε σαφείς. Θα πρέπει επίσης να αποφύγετε οτιδήποτε παράνομο με τα δεδομένα που συλλέγετε, όπως αδικαιολόγητες καμπάνιες μάρκετινγκ και επιβλαβείς εφαρμογές.
Η συλλογή ηθικών δεδομένων είναι ένα ελαφρώς πιο περίπλοκο ζήτημα. Πρώτα απ 'όλα, πρέπει να σέβεστε τα δικαιώματα του κατόχου της ιστοσελίδας ως προς τα δεδομένα τους. Εάν διαθέτουν πρότυπα αποκλεισμού ρομπότ σε ορισμένα ή σε όλα τα μέρη του ιστότοπού τους, αποφύγετε το.
Αυτό σημαίνει ότι δεν θέλουν κανέναν να διαγράφει τα δεδομένα του χωρίς ρητή άδεια, ακόμη και αν είναι δημόσια διαθέσιμα. Επιπλέον, πρέπει να αποφύγετε τη λήψη πολλών δεδομένων ταυτόχρονα, καθώς αυτό θα μπορούσε να καταστρέψει τους διακομιστές του ιστότοπου και να σας επισημάνει ως Επίθεση DDoS.
Η απόξεση ιστού είναι τόσο κοντά όσο μπορείτε να πάρετε τα θέματα συλλογής δεδομένων στα χέρια σας. Είναι η πιο προσαρμόσιμη επιλογή και κάνουν τη διαδικασία εξαγωγής δεδομένων απλή και φιλική προς το χρήστη, ενώ παράλληλα σας παρέχουν απεριόριστη πρόσβαση στο σύνολο των διαθέσιμων δεδομένων ενός ιστότοπου.
Εργαλεία απόξεσης ιστού, ή ξύστρες ιστού, είναι λογισμικό που αναπτύχθηκε για εξαγωγή δεδομένων. Έρχονται συχνά σε γλώσσες προγραμματισμού φιλικές προς τα δεδομένα, όπως Python, Ruby, PHP και Node.js.
Οι ξύστρες ιστού φορτώνουν και διαβάζουν αυτόματα ολόκληρο τον ιστότοπο. Με αυτόν τον τρόπο, δεν έχουν πρόσβαση μόνο σε δεδομένα επιφανειακού επιπέδου, αλλά μπορούν επίσης να διαβάσουν τον κώδικα HTML ενός ιστότοπου, καθώς και στοιχεία CSS και Javascript.
Μπορείτε να ρυθμίσετε το ξύστρα σας να συλλέγει έναν συγκεκριμένο τύπο δεδομένων από πολλούς ιστότοπους ή να του δώσετε εντολή να διαβάσει και να αντιγράψει όλα τα δεδομένα που δεν είναι κρυπτογραφημένα ή προστατευμένα από ένα αρχείο Robot.txt.
Οι ξύστρες ιστού λειτουργούν μέσω διακομιστών μεσολάβησης για να αποφύγουν τον αποκλεισμό από την ασφάλεια του ιστότοπου και την τεχνολογία προστασίας από ανεπιθύμητα μηνύματα και anti-bot. Χρησιμοποιούν διακομιστές μεσολάβησης για να αποκρύψουν την ταυτότητά τους και να καλύψουν τη διεύθυνση IP τους για να εμφανίζονται σαν κανονική επισκεψιμότητα χρηστών.
Αλλά σημειώστε ότι για να είστε εντελώς κρυφός κατά την απόξεση, πρέπει να ρυθμίσετε το εργαλείο σας για την εξαγωγή δεδομένων με πολύ πιο αργό ρυθμό - που ταιριάζει με την ταχύτητα ενός χρήστη.
Ευκολία στη χρήση
Παρά το γεγονός ότι βασίζεται σε πολύπλοκες γλώσσες προγραμματισμού και βιβλιοθήκες, τα εργαλεία απόξεσης ιστού είναι εύχρηστα. Δεν απαιτούν από εσάς να είστε ειδικός προγραμματισμού ή επιστήμης δεδομένων για να αξιοποιήσετε στο έπακρο.
Επιπλέον, οι ξύστρες ιστού προετοιμάζουν τα δεδομένα για εσάς. Οι περισσότεροι ξύστρες ιστού μετατρέπουν αυτόματα τα δεδομένα σε φιλικές προς το χρήστη μορφές. Το μεταγλωττίζουν επίσης σε έτοιμα προς χρήση πακέτα με δυνατότητα λήψης για εύκολη πρόσβαση.
Εξαγωγή δεδομένων API
Το API σημαίνει Διεπαφή προγραμματισμού εφαρμογών. Αλλά δεν είναι ένα εργαλείο εξαγωγής δεδομένων όσο είναι μια δυνατότητα που οι ιδιοκτήτες ιστότοπων και λογισμικού μπορούν να επιλέξουν να εφαρμόσουν. Τα API λειτουργούν ως ενδιάμεσος, επιτρέποντας σε ιστότοπους και λογισμικό να επικοινωνούν και να ανταλλάσσουν δεδομένα και πληροφορίες.
Σήμερα, οι περισσότεροι ιστότοποι που χειρίζονται τεράστιους όγκους δεδομένων διαθέτουν ειδικό API, όπως το Facebook, το YouTube, το Twitter, ακόμη και η Wikipedia. Αλλά ενώ ένας ξύστρας ιστού είναι ένα εργαλείο που σας επιτρέπει να περιηγείστε και να ξύνετε τις πιο απομακρυσμένες γωνίες ενός ιστότοπου για δεδομένα, τα API είναι δομημένα στην εξαγωγή δεδομένων τους.
Πώς λειτουργεί η εξαγωγή δεδομένων API;
Τα API δεν ζητούν από τους συλλέκτες δεδομένων να σέβονται το απόρρητό τους. Το εφαρμόζουν στον κώδικά τους. Τα API αποτελούνται από κανόνες που δημιουργούν δομή και θέτουν περιορισμούς στην εμπειρία του χρήστη. Ελέγχουν τον τύπο δεδομένων που μπορείτε να εξαγάγετε, ποιες πηγές δεδομένων είναι ανοικτές για συλλογή και τον τύπο συχνότητας των αιτημάτων σας.
Μπορείτε να σκεφτείτε τα API ως προσαρμοσμένο πρωτόκολλο επικοινωνίας ενός ιστότοπου ή μιας εφαρμογής. Έχει ορισμένους κανόνες που πρέπει να τηρούνται και πρέπει να μιλά τη γλώσσα του πριν επικοινωνήσετε μαζί του.
Πώς να χρησιμοποιήσετε ένα API για εξαγωγή δεδομένων
Για να χρησιμοποιήσετε ένα API, χρειάζεστε ένα αξιοπρεπές επίπεδο γνώσης στη γλώσσα ερωτήματος που χρησιμοποιεί ο ιστότοπος για να ζητήσει δεδομένα χρησιμοποιώντας σύνταξη. Η πλειοψηφία των ιστότοπων χρησιμοποιεί JavaScript Object Notation, ή JSON, στα API τους, οπότε χρειάζεστε κάποιους για να βελτιώσετε τις γνώσεις σας εάν πρόκειται να βασιστείτε σε API.
Δεν τελειώνει όμως εκεί. Λόγω του μεγάλου όγκου δεδομένων και των διαφορετικών στόχων που έχουν συχνά οι άνθρωποι, τα API συνήθως στέλνουν ακατέργαστα δεδομένα. Παρόλο που η διαδικασία δεν είναι περίπλοκη και απαιτεί μόνο κατανόηση των βάσεων δεδομένων σε αρχάριο επίπεδο, θα χρειαστεί να μετατρέψετε τα δεδομένα σε CVS ή SQL προτού μπορέσετε να κάνετε κάτι με αυτό.
Ευτυχώς, δεν είναι όλα άσχημα χρησιμοποιώντας ένα API.
Δεδομένου ότι είναι ένα επίσημο εργαλείο που προσφέρεται από τον ιστότοπο, δεν χρειάζεται να ανησυχείτε για τη χρήση διακομιστή μεσολάβησης ή για να αποκλείσετε τη διεύθυνση IP σας. Και αν ανησυχείτε ότι μπορεί να ξεπεράσετε κάποιες ηθικές γραμμές και να απορρίψετε δεδομένα που δεν σας επιτρεπόταν, τα API σας δίνουν μόνο πρόσβαση στα δεδομένα που θέλει να δώσει ο κάτοχος.
Ανάλογα με το τρέχον επίπεδο δεξιοτήτων, τους ιστότοπους -στόχους και τους στόχους σας, μπορεί να χρειαστεί να χρησιμοποιήσετε τόσο API όσο και εργαλεία απόξεσης ιστού. Εάν ένας ιστότοπος δεν διαθέτει ειδικό API, η χρήση ενός ξύστη ιστού είναι η μόνη σας επιλογή. Αλλά, οι ιστότοποι με API-ειδικά αν χρεώνουν για πρόσβαση στα δεδομένα-συχνά καθιστούν σχεδόν αδύνατη την απόρριψη χρησιμοποιώντας εργαλεία τρίτων.
Πιστωτική εικόνα: Joshua Sortino/Ξεπλύνετε
Σκέφτεστε να αγοράσετε ένα tablet Android; Ακολουθούν λόγοι για να εξεταστούν εναλλακτικά δισκία, καθώς και μερικές προτάσεις δισκίων.
Διαβάστε Επόμενο
- Η τεχνολογία εξηγείται
- Προγραμματισμός
- Μεγάλα δεδομένα
- Συλλογή δεδομένων
- Ανάπτυξη διαδικτύου
Η Anina είναι ανεξάρτητος συγγραφέας τεχνολογίας και ασφάλειας διαδικτύου στο MakeUseOf. Άρχισε να γράφει στην ασφάλεια στον κυβερνοχώρο πριν από 3 χρόνια με την ελπίδα να γίνει πιο προσιτή στον μέσο άνθρωπο. Λατρεύω να μαθαίνω νέα πράγματα και ένα τεράστιο σπασίκλα αστρονομίας.
Εγγραφείτε στο newsletter μας
Εγγραφείτε στο ενημερωτικό μας δελτίο για τεχνικές συμβουλές, κριτικές, δωρεάν ebooks και αποκλειστικές προσφορές!
Κάντε κλικ εδώ για εγγραφή