Οι συγκεντρωτικοί πίνακες συνεχίζουν να είναι από τα πιο σεβαστά και ευρέως χρησιμοποιούμενα εργαλεία στο MS Excel. Είτε είστε αναλυτής δεδομένων, μηχανικός δεδομένων ή απλώς τακτικός χρήστης, το πιθανότερο είναι ότι έχετε ήδη μια καλή θέση για το MS Excel.
Ωστόσο, υπάρχει ένα αυξανόμενο πεδίο για την αναπαραγωγή των εργαλείων και των βοηθητικών προγραμμάτων του MS Excel, ειδικά στην Python. Γνωρίζατε ότι μπορείτε να δημιουργήσετε εκτεταμένους συγκεντρωτικούς πίνακες στα DataFrames της Python με μερικές γραμμές κώδικα;
Ναι, αυτό είναι σωστό; αν σας ενδιαφέρει, δείτε πώς μπορείτε να το κάνετε.
Προαπαιτούμενα για τη δημιουργία συγκεντρωτικών πινάκων
Όπως κάθε άλλη γλώσσα προγραμματισμού, ακόμη και η Python χρειάζεται να πληροίτε μερικές προϋποθέσεις για να μπορέσετε να προχωρήσετε στην κωδικοποίηση.
Για να έχετε την πιο βελτιστοποιημένη εμπειρία κατά τη δημιουργία του πρώτου σας συγκεντρωτικού πίνακα στην Python, ορίστε τι θα χρειαστείτε:
- Python IDE: Οι περισσότεροι κωδικοί Python έχουν ένα ολοκληρωμένο περιβάλλον ανάπτυξης (IDE) προεγκατεστημένο στο σύστημά τους. Υπάρχουν αρκετές IDE συμβατά με Python στην αγορά, συμπεριλαμβανομένων των Jupyter Notebook, Spyder, PyCharm και πολλών άλλων.
- Δειγμα δεδομένων: Για παράδειγμα, εδώ είναι ένα δείγμα δεδομένων στο οποίο μπορείτε να εργαστείτε. Εναλλακτικά, μη διστάσετε να τροποποιήσετε αυτούς τους κωδικούς απευθείας στα ζωντανά δεδομένα σας.
Σύνδεσμος δείγματος δεδομένων:Δείγμα Superstore
Εισαγωγή των Βασικών Βιβλιοθηκών
Δεδομένου ότι η Python λειτουργεί με την έννοια των βιβλιοθηκών τρίτων, πρέπει να εισαγάγετε το Πάντα βιβλιοθήκη για τη δημιουργία pivots.
Μπορείτε να χρησιμοποιήσετε Pandas για να εισάγετε ένα αρχείο Excel στην Python και αποθηκεύστε τα δεδομένα σε ένα DataFrame. Για να εισαγάγετε Panda, χρησιμοποιήστε το εισαγωγή εντολή με τον εξής τρόπο:
εισαγωγή τα πάντα όπως και πδ
Πώς να δημιουργήσετε Pivots στην Python
Δεδομένου ότι η βιβλιοθήκη είναι πλέον διαθέσιμη, πρέπει να εισαγάγετε το αρχείο Excel στην Python, η οποία είναι η βάση για τη δημιουργία και τη δοκιμή pivots στην Python. Αποθηκεύστε τα εισαγόμενα δεδομένα σε ένα DataFrame με τον ακόλουθο κώδικα:
# Δημιουργήστε ένα νέο DataFrame
# αντικαταστήστε με τη δική σας διαδρομή εδώ
μονοπάτι = "C://Users//user/OneDrive//Desktop//"
# μπορείτε να ορίσετε το όνομα αρχείου εδώ
αρχείο = "Δείγμα - Superstore.xls"
df = pd.read_excel (διαδρομή + αρχείο)
df.κεφάλι()
Οπου:
- df: Όνομα μεταβλητής για την αποθήκευση των δεδομένων DataFrame
- pd: Βιβλιοθήκη Alias for Pandas
- read_excel(): Η λειτουργία Pandas για την ανάγνωση ενός αρχείου Excel στην Python
- μονοπάτι: Η τοποθεσία όπου είναι αποθηκευμένο το αρχείο Excel (Sample Superstore)
- αρχείο: Όνομα αρχείου προς εισαγωγή
- κεφάλι(): Εμφανίζει τις πρώτες πέντε σειρές του DataFrame, από προεπιλογή
Ο παραπάνω κώδικας εισάγει το αρχείο Excel στην Python και αποθηκεύει τα δεδομένα σε ένα DataFrame. Τέλος, το κεφάλι Η λειτουργία εμφανίζει τις πέντε πρώτες σειρές δεδομένων.
Αυτή η λειτουργία είναι βολική για να διασφαλίσετε ότι τα δεδομένα εισάγονται σωστά στην Python.
Ποια πεδία συγκεντρωτικού πίνακα υπάρχουν στην Python;
Όπως το αντίστοιχο του Excel, ένας συγκεντρωτικός πίνακας έχει παρόμοιο σύνολο πεδίων στην Python. Εδώ είναι μερικά πεδία που πρέπει να γνωρίζετε:
- Δεδομένα: Το πεδίο δεδομένων αναφέρεται στα δεδομένα που είναι αποθηκευμένα σε ένα Python DataFrame
- Αξίες: Δεδομένα στηλών που χρησιμοποιούνται σε ένα pivot
- Δείκτης: Στήλες ευρετηρίου για ομαδοποίηση των δεδομένων
- Στήλες: Οι στήλες βοηθούν στη συγκέντρωση των υπαρχόντων δεδομένων μέσα σε ένα DataFrame
Σκοπός πίσω με χρήση της συνάρτησης ευρετηρίου
Δεδομένου ότι η συνάρτηση ευρετηρίου είναι το κύριο στοιχείο ενός συγκεντρωτικού πίνακα, επιστρέφει τη βασική διάταξη των δεδομένων. Με άλλα λόγια, μπορείτε να ομαδοποιήσετε τα δεδομένα σας με το δείκτης λειτουργία.
Ας υποθέσουμε ότι θέλετε να δείτε ορισμένες συγκεντρωτικές τιμές για τα προϊόντα που αναφέρονται στο Τμήμα στήλη. Μπορείτε να υπολογίσετε ένα προκαθορισμένο άθροισμα (μέση τιμή) στην Python ορίζοντας την καθορισμένη στήλη ως τιμή anindex.
df.pivot_table (ευρετήριο = "Τμήμα")
Οπου:
- df:DataFrame που περιέχει τα δεδομένα
- συγκεντρωτικός πίνακας:Συνάρτηση συγκεντρωτικού πίνακα στην Python
- δείκτης: Ενσωματωμένη συνάρτηση για τον ορισμό μιας στήλης ως ευρετηρίου
- Τμήμα: Στήλη για χρήση ως τιμή ευρετηρίου
Τα ονόματα των μεταβλητών της Python έχουν διάκριση πεζών-κεφαλαίων, επομένως αποφύγετε τη μετάβαση από τα προκαθορισμένα ονόματα μεταβλητών που αναφέρονται σε αυτόν τον οδηγό.
Πώς να χρησιμοποιήσετε τις τιμές πολλαπλών δεικτών
Όταν θέλετε να χρησιμοποιήσετε πολλές στήλες ευρετηρίου, μπορείτε να ορίσετε τα ονόματα των στηλών σε α λίστα εντός της συνάρτησης ευρετηρίου. Το μόνο που έχετε να κάνετε είναι να καθορίσετε τα ονόματα των στηλών σε ένα σύνολο αγκύλες ([ ]), όπως φαίνεται παρακάτω:
df.pivot_table (ευρετήριο = ["Κατηγορία", "Υποκατηγορία"])
Η συνάρτηση περιστροφής δημιουργεί εσοχές στη στήλη ευρετηρίου στην έξοδο. Η Python εμφανίζει το σημαίνω όλων των αριθμητικών τιμών σε σχέση με κάθε τιμή δείκτη.
Μάθετε να περιορίζετε τις τιμές στην έξοδο
Εφόσον η Python επιλέγει όλες τις αριθμητικές στήλες από προεπιλογή, μπορείτε να περιορίσετε τις τιμές για να τροποποιήσετε τα αποτελέσματα που εμφανίζονται στην τελική έξοδο. Χρησιμοποιήστε το αξίες λειτουργία για να ορίσετε τις στήλες που θέλετε να δείτε.
df.pivot_table (ευρετήριο = ["Περιοχή", "Κατηγορία", "Υποκατηγορία"], τιμές = "Εκπτώσεις")
Στην τελική έξοδο, θα υπάρχουν τρεις στήλες ευρετηρίου και οι μέσες τιμές για τη στήλη Πωλήσεις θα τοποθετούνται σε κάθε στοιχείο.
Καθορισμός συγκεντρωτικών συναρτήσεων στον Συγκεντρωτικό Πίνακα
Τι συμβαίνει όταν δεν θέλετε να υπολογίσετε τις μέσες τιμές από προεπιλογή; Ο συγκεντρωτικός πίνακας έχει πολλές άλλες λειτουργίες, οι οποίες εκτείνονται πέρα από τον υπολογισμό ενός απλού μέσου όρου.
Δείτε πώς να γράψετε τον κώδικα:
df.pivot_table (ευρετήριο = ["Κατηγορία"], τιμές = "Εκπτώσεις", aggfunc = [άθροισμα, μέγιστο, ελάχ., len])
Οπου:
- άθροισμα: Υπολογίζει το άθροισμα των τιμών
- Μέγιστη: Υπολογίζει τη μέγιστη τιμή
- min: Υπολογίζει τη μέγιστη τιμή
- len: Υπολογίζει το πλήθος των τιμών
Μπορείτε επίσης να ορίσετε καθεμία από αυτές τις συναρτήσεις σε ξεχωριστές γραμμές κώδικα.
Πώς να προσθέσετε μεγάλα σύνολα στον συγκεντρωτικό πίνακα
Κανένα στοιχείο δεδομένων δεν είναι πλήρες χωρίς τα γενικά σύνολα. Για να υπολογίσετε και να εμφανίσετε τα συνολικά σύνολα ανά στήλη δεδομένων, χρησιμοποιήστε το περιθώρια και περιθώρια_όνομα λειτουργία.
df.pivot_table (ευρετήριο = ["Κατηγορία"], τιμές = "Εκπτώσεις", aggfunc = [sum, max, min, len], margins=True, margins_name='Μεγάλα Σύνολα')
Οπου:
- περιθώρια: Συνάρτηση για τον υπολογισμό του γενικού συνόλου
- margins_name: Καθορίστε το όνομα της κατηγορίας στη στήλη ευρετηρίου (για παράδειγμα, Μεγάλα σύνολα)
Τροποποιήστε και χρησιμοποιήστε τον Τελικό Κώδικα
Ακολουθεί το τελικό σύντομο κώδικα:
εισαγωγή τα πάντα όπως και πδ
# αντικαταστήστε με τη δική σας διαδρομή εδώ
μονοπάτι = "C://Users//user/OneDrive//Desktop//"
# μπορείτε να ορίσετε το όνομα αρχείου εδώ
αρχείο = "Δείγμα - Superstore.xls"
df = pd.read_excel (διαδρομή + αρχείο)
df.pivot_table (ευρετήριο = ["Περιοχή", "Κατηγορία", "Υποκατηγορία"], τιμές = "Εκπτώσεις",
aggfunc = [άθροισμα, μέγιστο, ελάχιστο, len],
περιθώρια=Αληθής,
περιθώρια_όνομα='Μεγάλα Σύνολα')
Δημιουργία συγκεντρωτικών πινάκων στην Python
Όταν χρησιμοποιείτε Συγκεντρωτικούς πίνακες, οι επιλογές είναι απλά ατελείωτες. Η Python σάς επιτρέπει να χειρίζεστε εύκολα τεράστιες συστοιχίες δεδομένων χωρίς να ανησυχείτε για ασυμφωνίες δεδομένων και καθυστερήσεις συστήματος.
Δεδομένου ότι οι λειτουργίες της Python δεν περιορίζονται στη συμπύκνωση δεδομένων σε pivots, μπορείτε να συνδυάσετε πολλά βιβλία εργασίας και φύλλα του Excel, ενώ εκτελείτε μια σειρά σχετικών λειτουργιών με την Python.
Με την Python, υπάρχει πάντα κάτι νέο στον ορίζοντα.