Τα μεγάλα περιουσιακά στοιχεία δεδομένων είναι ακατάστατα, ειδικά όταν πρέπει να τα αντλήσετε από ιστότοπους, διακομιστές ή άλλες πηγές δεδομένων.

Οι εφαρμογές που βασίζονται σε UI, όπως το MS Excel, είναι καλές για την αντιμετώπιση απλών συνόλων δεδομένων, αλλά μπορεί να δυσκολεύονται όταν τα δεδομένα γίνονται μεγαλύτερα. Αυτός είναι ένας καλός λόγος για να μετακομίσετε στην Python για να πραγματοποιήσετε πιο σύνθετες λειτουργίες που βασίζονται σε δεδομένα.

Η βιβλιοθήκη τρίτου μέρους της Python, Pandas, σας βοηθά να ταξινομήσετε γρήγορα τα υπάρχοντα σύνολα δεδομένων σας. Αν θέλετε να ταξινομήσετε τα δεδομένα σας σε Python, αυτό το άρθρο εξετάζει μερικούς τρόπους για να επιτύχετε αυτήν την εργασία.

Προϋποθέσεις για τη χρήση της Python για την ταξινόμηση δεδομένων

Πριν ταξινομήσετε τα δεδομένα σας στην Python, πρέπει να φροντίσετε μερικές προϋποθέσεις:

  • Λήψη ενός Python IDE. Μπορείτε να χρησιμοποιήσετε α IDE συμβατό με Python, όπως το Jupyter Notebook, το PyCharm και το Spyder, μεταξύ άλλων. Καθένα από αυτά είναι συμβατό με όλες τις εκδόσεις Python.
  • Εγκαταστήστε τα πάντα. Θα χρειαστείτε το πακέτο pandas που μπορείτε εγκαταστήστε χρησιμοποιώντας PIP ή τη μέθοδο που προτιμάτε.
  • Δείγμα δεδομένων. Λήψη α δείγμα συνόλου δεδομένων για να εξασκηθείτε στους αναγραφόμενους κωδικούς. Εναλλακτικά, μπορείτε να χρησιμοποιήσετε αυτές τις διαδικασίες στα αποκλειστικά δεδομένα σας.

Εισαγωγή της Βιβλιοθήκης Pandas στην Python

Το Pandas είναι μια βιβλιοθήκη Python τρίτου κατασκευαστή που μπορείτε να χρησιμοποιήσετε για να χειριστείτε Excel, CSV και άλλες μορφές δεδομένων.

Για να εργαστείτε με ένα δείγμα αρχείου Excel, ξεκινήστε εισάγοντας τη βιβλιοθήκη pandas. Μετά από αυτό, θα χρησιμοποιήσετε το διαδικασία εισαγωγής για την ανάγνωση των δεδομένων του Excel στην Python.

Για να εισαγάγετε τη βιβλιοθήκη

εισαγωγή τα πάντα όπως και πδ

Δημιουργήστε ένα νέο DataFrame για να φορτώσετε τα δεδομένα του Excel

αρχείο = "Δείγμα - Superstore.xls"
df = pd.read_excel (αρχείο)
df.κεφάλι()

Οπου:

  • df είναι ένα αντικείμενο DataFrame που αποθηκεύει τα εισαγόμενα δεδομένα.
  • πδ είναι ένα ψευδώνυμο για τη βιβλιοθήκη Pandas.
  • read_excel είναι μια μέθοδος για την ανάγνωση του αρχείου Excel στην Python.
  • αρχείο είναι μια διαδρομή προς το αρχείο Excel.
  • κεφάλι είναι μια μέθοδος που επιστρέφει τις πέντε πρώτες σειρές από το DataFrame.

Μόλις το πρόγραμμά σας φορτώσει τα δεδομένα, μπορείτε να χρησιμοποιήσετε τις πολλές διαθέσιμες μεθόδους DataFrame για να τα ταξινομήσετε με διάφορους τρόπους.

1. Ταξινόμηση κατά μία στήλη σε ένα DataFrame

Δεδομένου ότι τα δεδομένα σας θα έχουν πολλές σειρές και στήλες, συχνά θα θέλετε να ταξινομήσετε τα δεδομένα με βάση μια συγκεκριμένη στήλη ή στήλες.

Η Python ταξινομεί τα δεδομένα σε αύξουσα σειρά από προεπιλογή. Εάν θέλετε να αλλάξετε τη σειρά ταξινόμησης, πρέπει να την αναφέρετε ρητά στον κώδικά σας.

Ταξινόμηση κατά μία στήλη (αύξουσα σειρά)

df.sort_values ​​(κατά = "Κωδικός πελάτη")

Ταξινόμηση κατά μία στήλη (φθίνουσα σειρά)

Ρυθμίστε το ανερχόμενος παράμετρος σε Ψευδής για να ταξινομήσετε τη στήλη σας με φθίνουσα σειρά.

df.sort_values ​​(κατά = "Κωδικός πελάτη", αύξουσα=Λάθος)

Οπου:

  • df είναι ένα αντικείμενο DataFrame που περιέχει τα δεδομένα.
  • sort_values είναι μια μέθοδος ταξινόμησης κατά τιμές δεδομένων.
  • με είναι μια παράμετρος για τον ορισμό του ονόματος της στήλης.
  • ανερχόμενος είναι μια παράμετρος για τον καθορισμό της σειράς ταξινόμησης.

2. Ταξινόμηση πολλαπλών στηλών σε ένα DataFrame

Εάν το απαιτούν οι απαιτήσεις σας, μπορείτε επίσης να ταξινομήσετε τα DataFrame σας με βάση πολλές στήλες ταυτόχρονα. Σε ένα τέτοιο σενάριο, πρέπει να ορίσετε τις αναφορές στηλών σε μια λίστα.

Ταξινόμηση κατά πολλαπλές στήλες Αύξουσα

df.sort_values ​​(από = ["Κωδικός πελάτη", "Πόλη"])

Ταξινόμηση κατά πολλαπλές στήλες Φθίνουσα

Χρησιμοποιήστε τη λειτουργία αύξουσα = Λάθος για να ταξινομήσετε τις στήλες σας με φθίνουσα σειρά. Θυμηθείτε, πρέπει να καθορίσετε τα ονόματα των στηλών σε μια λίστα για να τα ταξινομήσετε ταυτόχρονα.

df.sort_values ​​(από = ["Κωδικός πελάτη", "Πόλη"], αύξουσα = Λάθος)

Ταξινόμηση κατά πολλαπλές στήλες σε διαφορετικές σειρές ταξινόμησης

Με τα βασικά της ταξινόμησης εκτός διαδρομής, τι συμβαίνει όταν θέλετε να ταξινομήσετε μια στήλη με φθίνουσα σειρά και μια άλλη με αύξουσα σειρά; Πρέπει να τροποποιήσετε ελαφρώς τον κώδικά σας για να ενσωματώσετε αυτές τις απαιτήσεις.

Για παράδειγμα, για να ταξινομήσετε το Περιοχή και Πόλη στήλες σε φθίνουσα και αύξουσα σειρά, αντίστοιχα:

df.sort_values ​​(από = ["Περιοχή", "Πόλη"], αύξουσα = [Λάθος, Σωστό])

Η εξήγηση αυτού του κώδικα είναι απλή. ορίζετε το όνομα DataFrame και περνάτε το sort_values συνάρτηση μαζί με τα ονόματα στηλών σε μια λίστα. Θα πρέπει να χρησιμοποιήσετε Boolean τιμές για να καθορίσετε τη σειρά ταξινόμησης.

Η κλήση της συνάρτησης με αυτόν τον τρόπο σημαίνει ότι η Python θα ταξινομήσει κατά τη στήλη Περιοχή του DataFrame με φθίνουσα σειρά, πρώτα. Στη συνέχεια, οι σειρές με πανομοιότυπη Περιοχή θα ταξινομηθούν περαιτέρω κατά τη στήλη Πόλη, με αύξουσα σειρά.

3. Πώς να ταξινομήσετε τις στήλες σε ένα DataFrame κατά ευρετήριο

Η μεταβλητή ευρετηρίου είναι η προεπιλεγμένη τιμή που έχει εκχωρηθεί σε κάθε σειρά μέσα σε ένα πλαίσιο δεδομένων Python. Μπορείτε να ορίσετε τις τιμές ευρετηρίου ή να αφήσετε την Python να ορίσει μια τιμή ευρετηρίου από μόνη της.

Για να ταξινομήσετε τα δεδομένα με βάση την τιμή ευρετηρίου τους, μπορείτε να χρησιμοποιήσετε το ταξινόμηση_ευρετηρίου λειτουργία. Αυτή η συνάρτηση ταξινομεί με βάση το ευρετήριο και όχι με οποιεσδήποτε τιμές που περιέχονται στο αρχικό σύνολο δεδομένων.

df.sort_index()

Όπως και με τα sort_values, μπορείτε να περάσετε ένα ανερχόμενος παράμετρο για να καθορίσετε την κατεύθυνση της ταξινόμησης. Για παράδειγμα, περάστε μια τιμή του Ψευδής για να ταξινομήσετε τα δεδομένα με φθίνουσα σειρά:

df.sort_index (αύξουσα = Ψευδής)

4. Ταξινόμηση στηλών σε DataFrame αντί για γραμμές

Αντί να ταξινομήσετε τις σειρές σε ένα DataFrame, μπορείτε να ταξινομήσετε τις στήλες του. Μπορείτε να το κάνετε καλώντας τη μέθοδο sort_index και περνώντας την άξονας παράμετρος με τιμή 1:

df.sort_index (άξονας=1)

Αυτό το βήμα ταξινομεί το DataFrame, κατά στήλες, σε αύξουσα σειρά. Για να ταξινομήσετε τις στήλες του DataFrame με φθίνουσα σειρά, μπορείτε να καθορίσετε τη σειρά ταξινόμησης στο βήμα ταξινόμησης.

df.sort_index (άξονας=1, αύξουσα = Ψευδής)

5. Τροποποίηση του DataFrame κατά την ταξινόμηση

Οι δύο μέθοδοι ταξινόμησης λειτουργούν επιστρέφοντας ένα αντίγραφο των αρχικών δεδομένων, στη νέα ταξινόμηση. Για να εξοικονομήσετε χώρο αποθήκευσης ή απλά για να γράψετε πιο συνοπτικό κώδικα, μπορείτε να τροποποιήσετε τα αρχικά δεδομένα DataFrame. Κάθε μέθοδος δέχεται ένα στη θέση boolean παράμετρος που τροποποιεί τα δεδομένα αντί να επιστρέφει ένα τροποποιημένο αντίγραφο.

df.sort_values ​​(από = ["Κωδικός πελάτη", "Πόλη"], αύξουσα = False, inplace = True)

Εκμάθηση ταξινόμησης δεδομένων στην Python

Η Python αναπαράγει πολλές από τις ενσωματωμένες συναρτήσεις του Excel με μερικές γραμμές κώδικα. Από τις διαδικασίες ταξινόμησης μέχρι τη δημιουργία περίπλοκων πινάκων Συγκεντρωτικών πινάκων στα δεδομένα σας, τα ονομάζετε και μπορείτε να το κάνετε στην Python.

Εάν είστε ακόμα νέος στην Python και μαθαίνετε τα σχοινιά, αυτά τα βήματα θα βελτιώσουν τις δεξιότητές σας κωδικοποίησης σχετικά εύκολα.