Τα ανεπαρκή δεδομένα είναι συχνά ένα από τα σημαντικότερα μειονεκτήματα για τα περισσότερα έργα επιστήμης δεδομένων. Ωστόσο, η γνώση του τρόπου συλλογής δεδομένων για οποιοδήποτε έργο θέλετε να ξεκινήσετε είναι μια σημαντική δεξιότητα που πρέπει να αποκτήσετε ως επιστήμονας δεδομένων.

Οι επιστήμονες δεδομένων και οι μηχανικοί μηχανικής μάθησης χρησιμοποιούν τώρα σύγχρονες τεχνικές συλλογής δεδομένων για να αποκτήσουν περισσότερα δεδομένα για την κατάρτιση αλγορίθμων. Εάν σκοπεύετε να ξεκινήσετε το πρώτο σας έργο επιστήμης δεδομένων ή μηχανικής μάθησης, πρέπει να έχετε τη δυνατότητα να λάβετε δεδομένα επίσης.

Πώς μπορείτε να κάνετε τη διαδικασία εύκολη για τον εαυτό σας; Ας ρίξουμε μια ματιά σε μερικές σύγχρονες τεχνικές που μπορείτε να χρησιμοποιήσετε για τη συλλογή δεδομένων.

Γιατί χρειάζεστε περισσότερα δεδομένα για το Πρόγραμμα Επιστήμης Δεδομένων

Οι αλγόριθμοι μηχανικής μάθησης εξαρτώνται από τα δεδομένα για να γίνουν πιο ακριβείς, ακριβείς και προβλέψιμοι. Αυτοί οι αλγόριθμοι εκπαιδεύονται χρησιμοποιώντας σύνολα δεδομένων. Η διαδικασία προπόνησης μοιάζει λίγο με τη διδασκαλία ενός μικρού παιδιού για το όνομα ενός αντικειμένου για πρώτη φορά, επιτρέποντάς τους να το αναγνωρίσουν μόνοι τους όταν το δουν στη συνέχεια.

Τα ανθρώπινα όντα χρειάζονται μόνο λίγα παραδείγματα για να αναγνωρίσουν ένα νέο αντικείμενο. Αυτό δεν ισχύει για μια μηχανή, καθώς χρειάζεται εκατοντάδες ή χιλιάδες παρόμοια παραδείγματα για να εξοικειωθούν με ένα αντικείμενο.

Αυτά τα παραδείγματα ή εκπαιδευτικά αντικείμενα πρέπει να έχουν τη μορφή δεδομένων. Στη συνέχεια, ένας ειδικός αλγόριθμος μηχανικής μάθησης τρέχει μέσω αυτού του συνόλου δεδομένων που ονομάζεται εκπαιδευτικό σύνολο - και μαθαίνει περισσότερα για να γίνει πιο ακριβής.

Αυτό σημαίνει ότι εάν δεν παρέχετε αρκετά δεδομένα για να εκπαιδεύσετε τον αλγόριθμό σας, ενδέχεται να μην έχετε το σωστό αποτέλεσμα στο τέλος του έργου σας, επειδή το μηχάνημα δεν διαθέτει επαρκή δεδομένα για να μάθετε.

Επομένως, είναι απαραίτητο να λάβετε επαρκή δεδομένα για να βελτιώσετε την ακρίβεια του αποτελέσματός σας. Ας δούμε μερικές σύγχρονες στρατηγικές που μπορείτε να χρησιμοποιήσετε για να το πετύχετε παρακάτω.

1. Αφαίρεση δεδομένων απευθείας από μια ιστοσελίδα

Η απόσυρση ιστού είναι ένας αυτοματοποιημένος τρόπος λήψης δεδομένων από τον Ιστό. Στην πιο βασική του μορφή, το web scraping μπορεί να περιλαμβάνει αντιγραφή και επικόλληση των στοιχείων σε έναν ιστότοπο σε ένα τοπικό αρχείο.

Ωστόσο, το web scraping περιλαμβάνει επίσης τη σύνταξη ειδικών σεναρίων ή τη χρήση αποκλειστικών εργαλείων για την άμεση απόσυρση δεδομένων από μια ιστοσελίδα. Θα μπορούσε επίσης να περιλαμβάνει πιο εμπεριστατωμένη συλλογή δεδομένων Διεπαφές προγραμματισμού εφαρμογών (API) όπως το Serpstack.

Σχεδίαση χρήσιμων δεδομένων από τα αποτελέσματα αναζήτησης με το Serpstack API

Με το serpstack API, μπορείτε εύκολα να συλλέξετε πληροφορίες από τις σελίδες αποτελεσμάτων του Google και άλλων μηχανών αναζήτησης.

Αν και ορισμένοι πιστεύουν ότι η απόσυρση ιστού μπορεί να οδηγήσει σε απώλεια πνευματικής ιδιοκτησίας, αυτό μπορεί να συμβεί μόνο όταν οι άνθρωποι το κάνουν κακόβουλα. Η απόσυρση ιστού είναι νόμιμη και βοηθά τις επιχειρήσεις να λαμβάνουν καλύτερες αποφάσεις συγκεντρώνοντας πληροφορίες για τους πελάτες και τους ανταγωνιστές τους.

Σχετιζομαι με: Τι είναι το Scraping Ιστού; Πώς να συλλέξετε δεδομένα από ιστότοπους

Για παράδειγμα, μπορείτε να γράψετε ένα σενάριο για τη συλλογή δεδομένων από διαδικτυακά καταστήματα για σύγκριση τιμών και διαθεσιμότητας. Αν και μπορεί να είναι λίγο πιο τεχνικό, μπορείτε επίσης να συλλέξετε ακατέργαστα μέσα όπως αρχεία ήχου και εικόνες στον Ιστό.

Ρίξτε μια ματιά στον παρακάτω κώδικα για να ρίξετε μια ματιά στο web scraping με την Python's όμορφη σούπα4 Βιβλιοθήκη ανάλυσης HTML.

από bs4 εισαγωγή BeautifulSoup
από urllib.request εισαγωγή urlopen
url = "Εισαγάγετε την πλήρη διεύθυνση URL της ιστοσελίδας προορισμού εδώ"
targetPage = urlopen (url)
htmlReader = targetPage.read (). αποκωδικοποίηση ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
εκτύπωση (webData.get_text ())

Πριν από την εκτέλεση του παραδείγματος κώδικα, θα πρέπει να εγκαταστήσετε τη βιβλιοθήκη. Δημιουργήστε ένα εικονικό περιβάλλον από τη γραμμή εντολών σας και εγκαταστήστε τη βιβλιοθήκη εκτελώντας pip εγκαταστήστε το όμορφοsoup4.

2. Μέσω Φόρμας Ιστού

Μπορείτε επίσης να αξιοποιήσετε διαδικτυακές φόρμες για τη συλλογή δεδομένων. Αυτό είναι πιο χρήσιμο όταν έχετε μια ομάδα στόχων ατόμων από τα οποία θέλετε να συλλέξετε τα δεδομένα.

Ένα μειονέκτημα της αποστολής φορμών ιστού είναι ότι ενδέχεται να μην συλλέγετε όσα δεδομένα θέλετε. Είναι πολύ βολικό για μικρά έργα επιστημονικής πληροφορίας ή σεμινάρια, αλλά μπορεί να αντιμετωπίσετε περιορισμούς προσπαθώντας να προσεγγίσετε μεγάλο αριθμό ανώνυμων ατόμων.

Παρόλο που υπάρχουν πληρωμένες online υπηρεσίες συλλογής δεδομένων, δεν συνιστώνται για άτομα, καθώς είναι ως επί το πλείστον πολύ ακριβά - εκτός αν δεν σας πειράζει να ξοδέψετε κάποια χρήματα στο έργο.

Υπάρχουν διάφορες φόρμες ιστού για τη συλλογή δεδομένων από άτομα. Ένα από αυτά είναι τα έντυπα Google, στα οποία μπορείτε να αποκτήσετε πρόσβαση μεταβαίνοντας forms.google.com. Μπορείς χρησιμοποιήστε τις Φόρμες Google για να συλλέξετε στοιχεία επικοινωνίας, δημογραφικά δεδομένα και άλλα προσωπικά στοιχεία.

Μόλις δημιουργήσετε μια φόρμα, το μόνο που χρειάζεται να κάνετε είναι να στείλετε το σύνδεσμο στο κοινό-στόχο σας μέσω αλληλογραφίας, SMS ή οποιουδήποτε διαθέσιμου μέσου.

Ωστόσο, οι φόρμες Google είναι μόνο ένα παράδειγμα δημοφιλών φορμών ιστού. Υπάρχουν πολλές εναλλακτικές λύσεις που κάνουν εξαιρετικές εργασίες συλλογής δεδομένων επίσης.

Μπορείτε επίσης να συλλέξετε δεδομένα μέσω καταστημάτων κοινωνικής δικτύωσης όπως Facebook, LinkedIn, Instagram και Twitter. Η λήψη δεδομένων από τα μέσα κοινωνικής δικτύωσης είναι λίγο πιο τεχνική από οποιαδήποτε άλλη μέθοδο. Είναι πλήρως αυτοματοποιημένο και περιλαμβάνει τη χρήση διαφορετικών εργαλείων API.

Τα μέσα κοινωνικής δικτύωσης μπορεί να είναι δύσκολο να εξαχθούν δεδομένα, καθώς είναι σχετικά οργανωμένα και υπάρχει τεράστιο ποσό από αυτά. Ο σωστά οργανωμένος, αυτός ο τύπος συνόλου δεδομένων μπορεί να είναι χρήσιμος σε έργα επιστήμης δεδομένων που περιλαμβάνουν ανάλυση συναισθημάτων στο διαδίκτυο, ανάλυση τάσεων αγοράς και επωνυμία στο διαδίκτυο.

Για παράδειγμα, το Twitter είναι ένα παράδειγμα πηγής δεδομένων κοινωνικών μέσων όπου μπορείτε να συλλέξετε ένα μεγάλο όγκο συνόλων δεδομένων με αυτό tweepy Πακέτο Python API, το οποίο μπορείτε να εγκαταστήσετε με το pip εγκαταστήστε το tweepy εντολή.

Για ένα βασικό παράδειγμα, το μπλοκ κώδικα για την εξαγωγή Tweets αρχικής σελίδας Twitter μοιάζει με αυτό:

εισαγωγή tweepy
εισαγωγή re
myAuth = tweepy. OAuthHandler (επικολλήστε το κλειδί καταναλωτή εδώ, επικολλήστε το κλειδί καταναλωτή_δενικών εδώ)
auth.set_access_token (επικολλήστε το access_token εδώ, επικολλήστε το access_token_secret εδώ)
έλεγχος ταυτότητας = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
για στόχους στο target_tweet:
εκτύπωση (targets.text)

Μπορείτε να επισκεφθείτε το docs.tweepy.org ιστοσελίδα για πρόσβαση στο tweepy τεκμηρίωση για περισσότερες λεπτομέρειες σχετικά με τον τρόπο χρήσης του. Για να χρησιμοποιήσετε το API του Twitter, πρέπει να υποβάλετε αίτηση για λογαριασμό προγραμματιστή μεταβαίνοντας στο προγραμματιστής.twitter.com δικτυακός τόπος.

Το Facebook είναι μια άλλη ισχυρή πλατφόρμα κοινωνικών μέσων για τη συλλογή δεδομένων. Χρησιμοποιεί ένα ειδικό τελικό σημείο API που ονομάζεται Facebook Graph API. Αυτό το API επιτρέπει στους προγραμματιστές να συλλέγουν δεδομένα σχετικά με τη συμπεριφορά συγκεκριμένων χρηστών στην πλατφόρμα του Facebook. Μπορείτε να αποκτήσετε πρόσβαση στην τεκμηρίωση του Facebook Graph API στη διεύθυνση προγραμματιστές.facebook.com για να μάθετε περισσότερα για αυτό.

Μια λεπτομερής εξήγηση της συλλογής δεδομένων κοινωνικών μέσων με το API δεν εμπίπτει στο πεδίο αυτού του άρθρου. Εάν ενδιαφέρεστε να μάθετε περισσότερα, μπορείτε να δείτε την τεκμηρίωση κάθε πλατφόρμας για αναλυτικές γνώσεις σχετικά με αυτές.

Εκτός από τη σύνταξη σεναρίων για σύνδεση σε ένα τελικό σημείο API, τα δεδομένα κοινωνικών μέσων συλλέγουν εργαλεία τρίτων όπως Ειδικός ξύσιμο και πολλά άλλα είναι επίσης διαθέσιμα. Ωστόσο, τα περισσότερα από αυτά τα εργαλεία Ιστού διατίθενται σε τιμή.

4. Συλλογή προϋφιστάμενων συνόλων δεδομένων από επίσημες πηγές

Μπορείτε επίσης να συλλέξετε προϋπάρχοντα σύνολα δεδομένων από έγκυρες πηγές. Αυτή η μέθοδος περιλαμβάνει την επίσκεψη σε επίσημες τράπεζες δεδομένων και τη λήψη επαληθευμένων συνόλων δεδομένων από αυτές. Σε αντίθεση με το web scraping και άλλες επιλογές, αυτή η επιλογή είναι ταχύτερη και απαιτεί ελάχιστες ή καθόλου τεχνικές γνώσεις.

Τα σύνολα δεδομένων σε αυτούς τους τύπους πηγών είναι συνήθως διαθέσιμα σε μορφές CSV, JSON, HTML ή Excel. Μερικά παραδείγματα έγκυρων πηγών δεδομένων είναι Παγκόσμια Τράπεζα, UNData, και πολλά άλλα.

Ορισμένες πηγές δεδομένων ενδέχεται να κάνουν τα τρέχοντα δεδομένα ιδιωτικά για να αποτρέψουν την πρόσβαση του κοινού σε αυτά. Ωστόσο, τα αρχεία τους είναι συχνά διαθέσιμα για λήψη.

Περισσότερες επίσημες πηγές δεδομένων για το πρόγραμμα μηχανικής εκμάθησης

Αυτή η λίστα θα σας δώσει ένα καλό σημείο εκκίνησης για να εργαστείτε διαφορετικά είδη δεδομένων στα έργα σας.

  • Ανοιχτή πύλη δεδομένων ΕΕ
  • Σύνολα δεδομένων Kaggle
  • Αναζήτηση συνόλων δεδομένων Google
  • Κόμβος δεδομένων
  • Μητρώο Ανοικτών Δεδομένων στο AWS
  • Οργανισμός Ευρωπαϊκής Κυβέρνησης - Δεδομένα και Χάρτες
  • Microsoft Research Open Data
  • Awesome Public Datasets Repository στο GitHub
  • Δεδομένα. Κυβέρνηση: Το σπίτι των ανοιχτών δεδομένων της κυβέρνησης των ΗΠΑ

Υπάρχουν πολλές περισσότερες πηγές από αυτό και η προσεκτική αναζήτηση θα σας ανταμείψει με δεδομένα τέλεια για τα δικά σας έργα επιστήμης δεδομένων.

Συνδυάστε αυτές τις σύγχρονες τεχνικές για καλύτερα αποτελέσματα

Η συλλογή δεδομένων μπορεί να είναι κουραστική όταν τα διαθέσιμα εργαλεία για την εργασία είναι περιορισμένα ή δύσκολα κατανοητά. Ενώ οι παλαιότερες και οι συμβατικές μέθοδοι εξακολουθούν να λειτουργούν καλά και είναι αναπόφευκτες σε ορισμένες περιπτώσεις, οι σύγχρονες μέθοδοι είναι ταχύτερες και πιο αξιόπιστες.

Ωστόσο, αντί να βασίζεστε σε μία μόνο μέθοδο, ένας συνδυασμός αυτών των σύγχρονων τρόπων συλλογής των δεδομένων σας έχει τη δυνατότητα να αποφέρει καλύτερα αποτελέσματα.

ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
5 Εργαλεία λογισμικού ανάλυσης δεδομένων που μπορείτε να μάθετε γρήγορα

Θέλετε να μπείτε στην ανάλυση δεδομένων; Εδώ είναι μερικά εργαλεία που πρέπει να μάθετε.

Σχετικά θέματα
  • Προγραμματισμός
  • Πύθων
  • Μεγάλα δεδομένα
  • Μηχανική εκμάθηση
  • Συλλογή δεδομένων
  • Ανάλυση δεδομένων
Σχετικά με τον Συγγραφέα
Idowu Omisola (Δημοσιεύθηκαν 45 άρθρα)

Το Idowu είναι παθιασμένο με οτιδήποτε έξυπνη τεχνολογία και παραγωγικότητα. Στον ελεύθερο χρόνο του, παίζει με την κωδικοποίηση και αλλάζει στη σκακιέρα όταν βαριέται, αλλά αγαπά επίσης να ξεφεύγει από τη ρουτίνα κάποτε. Το πάθος του για να δείξει στους ανθρώπους το δρόμο γύρω από τη σύγχρονη τεχνολογία τον παρακινεί να γράφει περισσότερα.

Περισσότερα από το Idowu Omisola

Εγγραφείτε στο Newsletter μας

Εγγραφείτε στο ενημερωτικό δελτίο μας για τεχνικές συμβουλές, κριτικές, δωρεάν ebook και αποκλειστικές προσφορές!

Ένα ακόμη βήμα…!

Επιβεβαιώστε τη διεύθυνση email σας στο email που μόλις σας στείλαμε.

.