Εάν χρησιμοποιείτε Python, ακόμη και για τις πιο απλές εργασίες, πιθανότατα γνωρίζετε τη σημασία των βιβλιοθηκών τρίτων. Η βιβλιοθήκη Pandas, με την εξαιρετική της υποστήριξη για DataFrames, είναι μια τέτοια βιβλιοθήκη.
Μπορείτε να εισαγάγετε πολλούς τύπους αρχείων στο Python DataFrames και να δημιουργήσετε διάφορες εκδόσεις για να αποθηκεύσετε διαφορετικά σύνολα δεδομένων. Αφού εισαγάγετε τα δεδομένα σας χρησιμοποιώντας DataFrames, μπορείτε να τα συγχωνεύσετε για να εκτελέσετε λεπτομερή ανάλυση.
Αντιμετώπιση των Βασικών
Πριν ξεκινήσετε τη συγχώνευση, πρέπει να έχετε DataFrames για συγχώνευση. Για σκοπούς ανάπτυξης, μπορείτε να δημιουργήσετε ορισμένα εικονικά δεδομένα για να πειραματιστείτε.
Δημιουργήστε τα DataFrames στην Python
Ως πρώτο βήμα, εισαγάγετε τη βιβλιοθήκη Pandas στο αρχείο Python σας. Το Pandas είναι μια βιβλιοθήκη τρίτου μέρους που χειρίζεται DataFrames στην Python. Μπορείτε να χρησιμοποιήσετε το εισαγωγή δήλωση για χρήση της βιβλιοθήκης, ως εξής:
εισαγωγή τα πάντα όπως και πδ
Μπορείτε να αντιστοιχίσετε ένα ψευδώνυμο στο όνομα της βιβλιοθήκης για να συντομεύσετε τις αναφορές του κώδικα.
Πρέπει να δημιουργήσετε λεξικά, τα οποία μπορείτε να μετατρέψετε σε DataFrames. Για καλύτερα αποτελέσματα, δημιουργήστε δύο μεταβλητές λεξικού—dict1 και dict2-για την αποθήκευση συγκεκριμένων τμημάτων πληροφοριών:
dict1 = {"ταυτότητα χρήστη": ["001", "002", "003", "004", "005"],
"FName": ["Γιάννης", "Ακέφαλο καρφί", "Ρον", "Ρόαλντ", "Κρις"],
"LName": ["Harley", "Κοέν", "Dahl", "Χάρινγκτον", "Kerr-Hislop"]}
dict2 = {"ταυτότητα χρήστη": ["001", "002", "003", "004"], "Ηλικία": [15, 28, 34, 24]}
Θυμηθείτε, πρέπει να έχετε ένα κοινό στοιχείο και στις δύο τιμές του λεξικού, ώστε να λειτουργεί ως το πρωτεύον κλειδί για το συνδυασμό των DataFrames σας αργότερα.
Μετατρέψτε τα λεξικά σας σε DataFrames
Για να μετατρέψετε τις τιμές του λεξικού σας σε DataFrames, μπορείτε να χρησιμοποιήσετε την ακόλουθη μέθοδο:
df1 = pd. DataFrame (dict1)
df2 = pd. DataFrame (dict2)
Ορισμένα IDE σάς επιτρέπουν να ελέγχετε τις τιμές εντός του DataFrame αναφέροντας τη συνάρτηση DataFrame και πατώντας Εκτέλεση/Εκτέλεση. Υπάρχουν πολλά IDE συμβατά με Python, ώστε να μπορείτε να επιλέξετε και να επιλέξετε αυτό που είναι πιο εύκολο για εσάς να μάθετε.
Μόλις είστε ικανοποιημένοι με τα περιεχόμενα των DataFrames σας, μπορείτε να προχωρήσετε στο βήμα συγχώνευσης.
Συνδυασμός πλαισίων με τη συνάρτηση συγχώνευσης
Η συνάρτηση συγχώνευσης είναι η πρώτη συνάρτηση Python που μπορείτε να χρησιμοποιήσετε για να συνδυάσετε δύο DataFrames. Αυτή η συνάρτηση λαμβάνει τα ακόλουθα προεπιλεγμένα ορίσματα:
pd.merge (DataFrame1, DataFrame2, how= τύποςτουσυγχώνευση)
Οπου:
- πδ είναι ένα ψευδώνυμο για τη βιβλιοθήκη Pandas.
- συγχώνευση είναι η συνάρτηση που συγχωνεύει DataFrames.
- DataFrame1 και DataFrame2 είναι τα δύο DataFrames προς συγχώνευση.
- πως ορίζει τον τύπο συγχώνευσης.
Ορισμένα επιπλέον προαιρετικά ορίσματα είναι διαθέσιμα, τα οποία μπορείτε να χρησιμοποιήσετε όταν έχετε μια πολύπλοκη δομή δεδομένων.
Μπορείτε να χρησιμοποιήσετε διαφορετικές τιμές για την παράμετρο πώς να ορίσετε τον τύπο συγχώνευσης που θα πραγματοποιηθεί. Αυτοί οι τύποι συγχώνευσης θα είναι οικείοι αν το έχετε χρησιμοποίησε την SQL για να ενώσει πίνακες βάσης δεδομένων.
Αριστερή συγχώνευση
Ο αριστερός τύπος συγχώνευσης διατηρεί ανέπαφες τις τιμές του πρώτου DataFrame και εξάγει τις τιμές που ταιριάζουν από το δεύτερο DataFrame.
Δεξιά συγχώνευση
Ο σωστός τύπος συγχώνευσης διατηρεί ανέπαφες τις τιμές του δεύτερου DataFrame και εξάγει τις τιμές που ταιριάζουν από το πρώτο DataFrame.
Εσωτερική συγχώνευση
Ο τύπος εσωτερικής συγχώνευσης διατηρεί τις τιμές που ταιριάζουν και από τα δύο DataFrame και καταργεί τις μη αντιστοιχισμένες τιμές.
Εξωτερική Συγχώνευση
Ο εξωτερικός τύπος συγχώνευσης διατηρεί όλες τις αντίστοιχες και μη τιμές και ενοποιεί τα DataFrames μαζί.
Πώς να χρησιμοποιήσετε τη συνάρτηση Concat
ο συγκατ Η συνάρτηση είναι μια ευέλικτη επιλογή σε σύγκριση με ορισμένες από τις άλλες συναρτήσεις συγχώνευσης της Python. Με τη συνάρτηση concat, μπορείτε να συνδυάσετε DataFrames κάθετα και οριζόντια.
Ωστόσο, το μειονέκτημα της χρήσης αυτής της συνάρτησης είναι ότι από προεπιλογή απορρίπτει τυχόν μη αντιστοιχισμένες τιμές. Όπως ορισμένες άλλες σχετικές συναρτήσεις, αυτή η συνάρτηση έχει μερικά ορίσματα, από τα οποία μόνο μερικά είναι απαραίτητα για μια επιτυχημένη συνένωση.
concat (πλαίσια δεδομένων, άξονας=0, ένωση='εξωτερικός'/’εσωτερικός’)
Οπου:
- συγκατ είναι η συνάρτηση που ενώνει τα DataFrames.
- πλαίσια δεδομένων είναι μια ακολουθία DataFrames προς συνένωση.
- άξονας αντιπροσωπεύει την κατεύθυνση συνένωσης, το 0 είναι οριζόντιο, το 1 είναι κατακόρυφο.
- Συμμετοχή καθορίζει είτε μια εξωτερική είτε μια εσωτερική ένωση.
Χρησιμοποιώντας τα παραπάνω δύο DataFrames, μπορείτε να δοκιμάσετε τη συνάρτηση concat ως εξής:
# ορίστε τα πλαίσια δεδομένων σε μορφή λίστας
df_merged_concat = pd.concat([df1, df2])
# εκτυπώστε τα αποτελέσματα της συνάρτησης Concat
Τυπώνω(df_merged_concat)
Η απουσία ορισμάτων άξονα και ένωσης στον παραπάνω κώδικα συνδυάζει τα δύο σύνολα δεδομένων. Η έξοδος που προκύπτει έχει όλες τις καταχωρήσεις, ανεξάρτητα από την κατάσταση αντιστοίχισης.
Ομοίως, μπορείτε να χρησιμοποιήσετε πρόσθετα ορίσματα για να ελέγξετε την κατεύθυνση και την έξοδο της συνάρτησης concat.
Για να ελέγξετε την έξοδο με όλες τις αντίστοιχες καταχωρήσεις:
# Συνένωση όλων των τιμών που ταιριάζουν μεταξύ των δύο πλαισίων δεδομένων με βάση τις στήλες τους
df_merged_concat = pd.concat([df1, df2], axis=1, join = 'εσωτερικός')
Τυπώνω(df_merged_concat)
Το αποτέλεσμα περιέχει όλες τις τιμές που ταιριάζουν μόνο μεταξύ των δύο DataFrames.
Συγχώνευση DataFrames με Python
Τα DataFrames αποτελούν αναπόσπαστο μέρος της Python, λαμβάνοντας υπόψη την ευελιξία και τη λειτουργικότητά τους. Λαμβάνοντας υπόψη τις πολύπλευρες χρήσεις τους, μπορείτε να τα χρησιμοποιήσετε εκτενώς για να εκτελέσετε μια ποικιλία εργασιών με μεγάλη ευκολία.
Εάν εξακολουθείτε να μαθαίνετε για τα Python DataFrames, δοκιμάστε να εισαγάγετε ορισμένα αρχεία Excel και, στη συνέχεια, συνδυάστε τα με διαφορετικές προσεγγίσεις.