Για να αναλύσετε ένα σύνολο δεδομένων, πρέπει πρώτα να κατανοήσετε τα δεδομένα. Μερικές φορές, μπορεί να μην έχετε πρόχειρη γνώση ενός συνόλου δεδομένων, εμποδίζοντάς σας να αξιοποιήσετε στο έπακρο. Ως αναλυτής δεδομένων, μπορείτε να χρησιμοποιήσετε την Εξερευνητική ανάλυση δεδομένων (EDA) για να αποκτήσετε γνώση του συνόλου δεδομένων σας πριν από τη εις βάθος ανάλυση.
Η διερευνητική ανάλυση δεδομένων (EDA) διερευνά ένα σύνολο δεδομένων για να αποκτήσει σημαντικές πληροφορίες. Η διαδικασία εκτέλεσης του EDA περιλαμβάνει την αναζήτηση πληροφοριών σχετικά με τη δομή και τα περιεχόμενα ενός συνόλου δεδομένων.
Εγκατάσταση του πακέτου Gota
Το πακέτο Gota είναι το πιο δημοφιλές για ανάλυση δεδομένων στο Go? είναι σαν το Πακέτο Python Pandas αλλά για το Go. Το πακέτο Gota περιέχει πολλές μεθόδους για την ανάλυση συνόλων δεδομένων και την ανάγνωση μορφών JSON, CSV και HTML.
Εκτελέστε αυτήν την εντολή στο τερματικό σας στον κατάλογο όπου έχετε προετοιμάσει ένα αρχείο λειτουργικής μονάδας Go:
πηγαίνω πάρτε -u github.com/πηγαίνω-gota/gota
Η εντολή θα εγκαταστήσει το Gota στον τοπικό κατάλογο, έτοιμο για να εισαγάγετε το πακέτο για να το χρησιμοποιήσετε.
Ακριβώς όπως τα Panda, το Gota υποστηρίζει λειτουργίες σειρών και πλαισίων δεδομένων. Υπάρχουν δύο υποπακέτα στο πακέτο Gota: η σειρά και το πακέτο δεδομένων πλαισίου. Μπορείτε να εισάγετε είτε το ένα είτε και τα δύο, ανάλογα με τις ανάγκες σας.
εισαγωγή (
"github.com/πηγαίνω-gota/gota/σειρά"
"github.com/πηγαίνω-gota/gota/dataframe"
)
Ανάγνωση συνόλου δεδομένων με χρήση του πακέτου Gota
Μπορείτε να χρησιμοποιήσετε οποιοδήποτε αρχείο CSV θέλετε, αλλά τα ακόλουθα παραδείγματα δείχνουν αποτελέσματα από ένα σύνολο δεδομένων Kaggle, που περιέχει δεδομένα τιμής φορητού υπολογιστή.
Το Gota σάς επιτρέπει να διαβάζετε μορφές αρχείων CSV, JSON και HTML για να δημιουργήσετε πλαίσια δεδομένων χρησιμοποιώντας το Διαβάστε το CSV, ReadJSON, και ReadHTML μεθόδους. Δείτε πώς φορτώνετε ένα αρχείο CSV σε ένα αντικείμενο πλαισίου δεδομένων:
αρχείο, err := os. Open("/path/to/csv-file.csv")
αν λάθος!= μηδέν {
fmt. Println ("σφάλμα ανοιχτού αρχείου")
}
dataFrame := πλαίσιο δεδομένων. ReadCSV(αρχείο)
fmt. Println (dataFrame)
Μπορείτε να χρησιμοποιήσετε το Ανοιξε μέθοδος του os πακέτο για να ανοίξετε ένα αρχείο CSV. Η μέθοδος ReadCSV διαβάζει το αντικείμενο αρχείου και επιστρέφει ένα αντικείμενο πλαισίου δεδομένων.
Όταν εκτυπώνετε αυτό το αντικείμενο, η έξοδος είναι σε μορφή πίνακα. Μπορείτε να χειριστείτε περαιτέρω το αντικείμενο του πλαισίου δεδομένων χρησιμοποιώντας τις διάφορες μεθόδους που παρέχει η Gota.
Το αντικείμενο θα εκτυπώσει μερικές από τις στήλες μόνο εάν ένα σύνολο δεδομένων έχει περισσότερες από μια τιμή συνόλου.
Ανάκτηση της διάστασης του συνόλου δεδομένων
Οι διαστάσεις ενός πλαισίου δεδομένων είναι ο αριθμός των γραμμών και στηλών που περιέχει. Μπορείτε να λάβετε αυτές τις διαστάσεις χρησιμοποιώντας το Dims μέθοδος του αντικειμένου του πλαισίου δεδομένων.
var σειρές, στήλες = dataFrame. Dims()
Αντικαταστήστε μια από τις μεταβλητές με μια κάτω παύλα για να λάβετε μόνο την άλλη διάσταση. Μπορείτε επίσης να υποβάλετε ερώτημα για τον αριθμό των γραμμών και στηλών μεμονωμένα, χρησιμοποιώντας το Nrow και Ncol μεθόδους.
var σειρές = Πλαίσιο δεδομένων. Nrow()
var στήλες = dataFrame. Ncol()
Ανάκτηση των τύπων δεδομένων στηλών
Θα χρειαστεί να γνωρίζετε τους σύνθετους τύπους δεδομένων στις στήλες ενός συνόλου δεδομένων για να το αναλύσετε. Μπορείτε να τα φέρετε χρησιμοποιώντας το Τύποι μέθοδος του αντικειμένου του πλαισίου δεδομένων σας:
var τύποι = Πλαίσιο δεδομένων. Τύποι()
fmt. Println (τύποι)
Η μέθοδος Τύποι επιστρέφει ένα slice που περιέχει τους τύπους δεδομένων της στήλης:
Ανάκτηση των ονομάτων στηλών
Θα χρειαστείτε τα ονόματα στηλών για να επιλέξετε συγκεκριμένες στήλες για λειτουργίες. Μπορείτε να χρησιμοποιήσετε το Ονόματα τρόπος για να τα παραλάβετε.
var στήληΟνόματα := dataFrame. Ονόματα()
fmt. Println (Ονόματα στηλών)
Η μέθοδος Names επιστρέφει ένα τμήμα των ονομάτων των στηλών.
Έλεγχος για τιμές που λείπουν
Μπορεί να έχετε ένα σύνολο δεδομένων που περιέχει μηδενικές ή μη αριθμητικές τιμές. Μπορείτε να ελέγξετε για τέτοιες τιμές χρησιμοποιώντας το HasNaN και IsNaN μέθοδοι ενός αντικειμένου σειράς:
aCol := dataFrame. Col("display_size")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()
Το HasNan ελέγχει εάν μια στήλη περιέχει μηδενικά στοιχεία. Το IsNaN επιστρέφει ένα κομμάτι δυαδικών σημείων που αντιπροσωπεύουν εάν κάθε τιμή στη στήλη είναι ένας αριθμός.
Πραγματοποίηση Περιγραφικής Στατιστικής Ανάλυσης
Περιγραφική στατιστική ανάλυση σας βοηθά να κατανοήσετε την κατανομή των αριθμητικών στηλών. Χρησιμοποιώντας το Περιγράφω μέθοδο, μπορείτε να δημιουργήσετε μια περιγραφική στατιστική ανάλυση του συνόλου δεδομένων σας:
περιγραφή := dataFrame. Περιγράφω()
fmt. Println (περιγραφή)
Η μέθοδος Περιγραφή επιστρέφει μετρήσεις όπως ο μέσος όρος, η τυπική απόκλιση και οι μέγιστες τιμές των στηλών σε ένα σύνολο δεδομένων. Τα συνοψίζει σε μορφή πίνακα.
Μπορείτε επίσης να είστε συγκεκριμένοι και να εστιάσετε σε στήλες και μετρήσεις επιλέγοντας μια συγκεκριμένη στήλη και, στη συνέχεια, υποβάλλοντας ερώτημα για τη μέτρηση που θέλετε. Θα πρέπει πρώτα να ανακτήσετε τη σειρά που αντιπροσωπεύει μια συγκεκριμένη στήλη και, στη συνέχεια, να χρησιμοποιήσετε τις μεθόδους της όπως:
aCol := dataFrame. Col("display_size")
var μέσος = aCol. Σημαίνω()
var διάμεσος = aCol. Διάμεσος()
var ελάχιστο = aCol. Min()
var Standard Deviation = aCol. StdDev()
var μέγιστο = aCol. Μέγιστη()
var quantiles25 = aCol. Ποσοστό (25.0)
Αυτές οι μέθοδοι αντικατοπτρίζουν τα αποτελέσματα από την περιγραφική στατιστική ανάλυση που εκτελεί το Describe.
Ανάκτηση των στοιχείων σε μια στήλη
Μία από τις τελικές εργασίες που θα θέλετε να εκτελέσετε είναι να ελέγξετε τις τιμές σε μια στήλη για μια γενική επισκόπηση. Μπορείτε να χρησιμοποιήσετε το Εγγραφές μέθοδος προβολής των τιμών μιας στήλης.
aCol := dataFrame. Col("μάρκα")
fmt. Println (aCol. Εγγραφές ())
Αυτή η μέθοδος επιστρέφει ένα slice από συμβολοσειρές που περιέχει τις τιμές στην επιλεγμένη στήλη:
Εξαγωγή Gota Dataframe σε αρχείο
Εάν επιλέξετε να προχωρήσετε περισσότερο και να χρησιμοποιήσετε το πακέτο Gota για πλήρη ανάλυση δεδομένων, θα πρέπει να αποθηκεύσετε δεδομένα σε αρχεία. Μπορείτε να χρησιμοποιήσετε το Γράψτε CSV και Γράψτε JSON μεθόδους πλαισίου δεδομένων για εξαγωγή αρχείων. Οι μέθοδοι λαμβάνουν ένα αρχείο που θα δημιουργήσετε χρησιμοποιώντας το os του πακέτου Δημιουργώ μέθοδος.
Δείτε πώς μπορείτε να εξαγάγετε ένα πλαίσιο δεδομένων χρησιμοποιώντας το πακέτο Gota.
dataFrame := πλαίσιο δεδομένων. ReadCSV(αρχείο)
outputFile, err := os. Create("output.csv")αν λάθος!= μηδέν {
κούτσουρο. Μοιραία (λάθος)
}err = Πλαίσιο δεδομένων. WriteCSV(outputFile)
αν λάθος!= μηδέν {
κούτσουρο. Fatalln("Παρουσιάστηκε σφάλμα κατά την εγγραφή των περιεχομένων του πλαισίου δεδομένων στο αρχείο")
}
ο πλαίσιο δεδομένων η μεταβλητή είναι μια αναπαράσταση του πλαισίου δεδομένων. Όταν χρησιμοποιείτε το Δημιουργώ μέθοδος του os πακέτο, δημιουργεί ένα νέο, κενό αρχείο με το καθορισμένο όνομα και επιστρέφει το αρχείο. Η μέθοδος WriteCSV λαμβάνει την παρουσία του αρχείου και επιστρέφει ένα σφάλμα ή μηδέν αν δεν υπάρχει λάθος.
Η διερευνητική ανάλυση δεδομένων είναι σημαντική
Η κατανόηση των δεδομένων και των συνόλων δεδομένων είναι απαραίτητη για τους αναλυτές δεδομένων και τους ειδικούς της μηχανικής εκμάθησης. Είναι μια κρίσιμη λειτουργία στον κύκλο εργασίας τους και η διερευνητική ανάλυση δεδομένων είναι μία από τις τεχνικές που χρησιμοποιούν για να το επιτύχουν αυτό.
Υπάρχουν περισσότερα στο πακέτο Gota. Μπορείτε να το χρησιμοποιήσετε για διάφορες συναρτήσεις διαμάχης δεδομένων με τον ίδιο τρόπο που θα χρησιμοποιούσατε τη βιβλιοθήκη Python Pandas για ανάλυση δεδομένων. Ωστόσο, το Gota δεν υποστηρίζει τόση λειτουργικότητα όσο τα Panda.