Χρησιμοποιήστε τη βιβλιοθήκη PandasAI Python για να αξιοποιήσετε τη δύναμη της τεχνητής νοημοσύνης και των μεγάλων μοντέλων γλώσσας για την εκτέλεση εργασιών ανάλυσης δεδομένων.
Το Pandas είναι η πιο κυρίαρχη βιβλιοθήκη για τον χειρισμό συνόλων δεδομένων και πλαισίων δεδομένων. Αυτό ήταν ο κανόνας εδώ και πολύ καιρό. Αλλά με την πρόοδο στην τεχνητή νοημοσύνη, μια νέα βιβλιοθήκη ανοιχτού κώδικα που ονομάζεται PandasAI αναπτύσσεται που προσθέτει δυνατότητες παραγωγής τεχνητής νοημοσύνης στα Panda.
Το PandasAI δεν αντικαθιστά το Pandas. Αντίθετα, παρέχει τις παραγωγικές του δυνατότητες AI. Με αυτόν τον τρόπο, μπορείτε να πραγματοποιήσετε ανάλυση δεδομένων συνομιλώντας με το PandasAI. Στη συνέχεια, αφαιρεί τι συμβαίνει στο παρασκήνιο και σας παρέχει την έξοδο του ερωτήματός σας.
Εγκατάσταση του PandasAI
PandasAI είναι διαθέσιμο μέσω PyPI (Python Package Index). Δημιουργήστε ένα νέο εικονικό περιβάλλον εάν χρησιμοποιείτε τοπικό IDE. Επειτα χρησιμοποιήστε τον διαχειριστή πακέτων pip για να το εγκαταστήσετε.
pip install pandasai
Ενδέχεται να αντιμετωπίσετε ένα σφάλμα διένεξης εξάρτησης παρόμοιο με αυτό που εμφανίζεται παρακάτω, εάν χρησιμοποιείτε το Google Colab.
Μην υποβαθμίζετε την έκδοση IPython. Απλώς επανεκκινήστε το χρόνο εκτέλεσης και εκτελέστε ξανά το μπλοκ κώδικα. Αυτό θα λύσει το ζήτημα.
Ο πλήρης πηγαίος κώδικας είναι διαθέσιμος σε α Αποθετήριο GitHub.
Κατανόηση του συνόλου δεδομένων δείγματος
Το δείγμα δεδομένων που θα χειριστείτε με το PandasAI είναι το σύνολο δεδομένων για τις τιμές στέγασης της Καλιφόρνια από το Kaggle. Αυτό το σύνολο δεδομένων περιέχει πληροφορίες σχετικά με τη στέγαση από την απογραφή του 1990 στην Καλιφόρνια. Έχει δέκα στήλες που παρέχουν στατιστικά στοιχεία για αυτά τα σπίτια. Η κάρτα δεδομένων για να σας βοηθήσει να μάθετε περισσότερα σχετικά με αυτό το σύνολο δεδομένων είναι διαθέσιμη στο Kaggle. Παρακάτω είναι οι πέντε πρώτες σειρές του συνόλου δεδομένων.
Κάθε στήλη αντιπροσωπεύει ένα ενιαίο στατιστικό στοιχείο ενός σπιτιού.
Σύνδεση του PandasAI στο μοντέλο της μεγάλης γλώσσας
Για να συνδέσετε το PandasAI σε ένα μοντέλο μεγάλης γλώσσας (LLM) όπως αυτό του OpenAI, χρειάζεστε πρόσβαση στο κλειδί API του. Για να αποκτήσετε ένα, προχωρήστε στο Πλατφόρμα OpenAI. Στη συνέχεια, συνδεθείτε στον λογαριασμό σας. Επιλέγω API κάτω από τη σελίδα επιλογών που εμφανίζεται στη συνέχεια.
Μετά από αυτό, κάντε κλικ στο προφίλ σας και επιλέξτε το Προβολή κλειδιών API επιλογή. Στη σελίδα που εμφανίζεται κάντε επόμενο κλικ Δημιουργήστε νέο μυστικό κλειδί κουμπί. Τέλος, ονομάστε το κλειδί API σας.
Το OpenAI θα δημιουργήσει το κλειδί API σας. Αντιγράψτε το όπως θα το χρειαστείτε ενώ συνδέετε το PandasAI με το OpenAI. Βεβαιωθείτε ότι κρατάτε το κλειδί μυστικό, καθώς οποιοσδήποτε έχει πρόσβαση σε αυτό μπορεί να πραγματοποιεί κλήσεις στο OpenAI εκ μέρους σας. Στη συνέχεια, το OpenAI θα χρεώσει τον λογαριασμό σας για τις κλήσεις.
Τώρα που έχετε το κλειδί API, δημιουργήστε ένα νέο σενάριο Python και επικολλήστε τον παρακάτω κώδικα. Δεν θα χρειαστεί να αλλάξετε αυτόν τον κωδικό, καθώς τις περισσότερες φορές θα βασίζεστε σε αυτόν.
εισαγωγή τα πάντα όπως και πδ
από pandasai εισαγωγή PandasAI# Αντικαταστήστε με το σύνολο δεδομένων ή το πλαίσιο δεδομένων σας
df = pd.read_csv("/content/housing.csv")# Δημιουργήστε ένα LLM
από pandasai.llm.openai εισαγωγή OpenAI
llm = OpenAI(api_token="το διακριτικό σας API")
pandas_ai = PandasAI(llm)
Ο παραπάνω κώδικας εισάγει και PandasAI και Pandas. Στη συνέχεια διαβάζει ένα σύνολο δεδομένων. Τέλος, εγκαινιάζει το OpenAI LLM.
Είστε πλέον έτοιμοι να συνομιλήσετε με τα δεδομένα σας.
Εκτέλεση απλών εργασιών χρησιμοποιώντας το PandasAI
Για να υποβάλετε ερώτημα στα δεδομένα σας, περάστε το πλαίσιο δεδομένων σας και την προτροπή σας στην παρουσία της κλάσης PandasAI. Ξεκινήστε εκτυπώνοντας τις πέντε πρώτες σειρές του συνόλου δεδομένων σας.
pandas_ai (df, prompt="Ποιες είναι οι πρώτες πέντε σειρές του συνόλου δεδομένων;")
Η έξοδος της παραπάνω προτροπής είναι η εξής:
Αυτή η έξοδος είναι πανομοιότυπη με αυτή της επισκόπησης δεδομένων προηγουμένως. Αυτό δείχνει ότι το PandasAI παράγει σωστά αποτελέσματα και είναι αξιόπιστο.
Στη συνέχεια, ελέγξτε τον αριθμό των στηλών που υπάρχουν στο σύνολο δεδομένων σας.
pandas_ai (df, prompt=«Πόσες στήλες υπάρχουν στο σύνολο δεδομένων; ')
Επιστρέφει 10 που είναι ο σωστός αριθμός στηλών στο σύνολο δεδομένων California Housing.
Έλεγχος εάν λείπουν τιμές στο σύνολο δεδομένων.
pandas_ai (df, prompt='Υπάρχουν τιμές που λείπουν στο σύνολο δεδομένων;')
Το PandasAI επιστρέφει ότι το συνολικά_υπνοδωμάτια Η στήλη έχει 207 τιμές που λείπουν, κάτι που είναι και πάλι σωστό.
Υπάρχουν πολλές απλές εργασίες που μπορείτε να επιτύχετε χρησιμοποιώντας το PandasAI, δεν περιορίζεστε στις παραπάνω.
Εκτέλεση σύνθετων ερωτημάτων με χρήση του PandasAI
Το PandasAI δεν υποστηρίζει μόνο απλές εργασίες. Μπορείτε επίσης να το χρησιμοποιήσετε για να πραγματοποιήσετε σύνθετα ερωτήματα στο σύνολο δεδομένων. Για παράδειγμα, στο σύνολο δεδομένων στέγασης, εάν θέλετε να προσδιορίσετε τον αριθμό των σπιτιών που βρίσκονται σε ένα νησί, έχουν αξία πάνω από 100.000 δολάρια και έχουν περισσότερα από 10 δωμάτια που μπορείτε να χρησιμοποιήσετε την προτροπή παρακάτω.
pandas_ai (df, prompt= "Πόσα σπίτια έχουν αξία μεγαλύτερη από 100.000,"
"Βρίσκεστε σε νησί και τα συνολικά υπνοδωμάτια είναι περισσότερα από 10;")
Η σωστή έξοδος είναι πέντε. Αυτό είναι το ίδιο αποτέλεσμα που βγάζει το PandasAI.
Τα σύνθετα ερωτήματα μπορεί να χρειαστούν λίγο χρόνο για να γράψει και να διορθώσει ο αναλυτής δεδομένων. Η παραπάνω προτροπή απαιτεί μόνο δύο γραμμές φυσικής γλώσσας για να ολοκληρώσει την ίδια εργασία. Απλά πρέπει να έχετε κατά νου τι ακριβώς θέλετε να πετύχετε και η PandasAI θα φροντίσει για τα υπόλοιπα.
Σχεδίαση γραφημάτων με χρήση του PandasAI
Τα γραφήματα αποτελούν ζωτικό μέρος οποιασδήποτε διαδικασίας ανάλυσης δεδομένων. Βοηθά τους αναλυτές δεδομένων να οπτικοποιήσουν τα δεδομένα με φιλικό προς τον άνθρωπο τρόπο. Το PandasAI διαθέτει επίσης μια δυνατότητα σχεδίασης γραφημάτων. Απλά πρέπει να περάσετε το πλαίσιο δεδομένων και τις οδηγίες.
Ξεκινήστε δημιουργώντας ένα ιστόγραμμα για κάθε στήλη στο σύνολο δεδομένων. Αυτό θα σας βοηθήσει να οπτικοποιήσετε την κατανομή των μεταβλητών.
pandas_ai (df, prompt= "Σχεδιάστε ένα ιστόγραμμα για κάθε στήλη στο σύνολο δεδομένων")
Η έξοδος είναι η εξής:
Το PandasAI μπόρεσε να σχεδιάσει το ιστόγραμμα όλων των στηλών χωρίς να χρειάζεται να περάσει τα ονόματά τους στην προτροπή.
Το PandasAI μπορεί επίσης να σχεδιάσει γραφήματα χωρίς να του λέτε ρητά ποιο γράφημα να χρησιμοποιήσει. Για παράδειγμα, μπορεί να θέλετε να μάθετε τη συσχέτιση των δεδομένων στο σύνολο δεδομένων στέγασης. Για να το πετύχετε αυτό, μπορείτε να περάσετε μια προτροπή ως εξής:
pandas_ai (df, prompt= "Σχεδιάστε τη συσχέτιση στο σύνολο δεδομένων")
Το PandasAI σχεδιάζει έναν πίνακα συσχέτισης όπως φαίνεται παρακάτω:
Η βιβλιοθήκη επιλέγει έναν θερμικό χάρτη και σχεδιάζει έναν πίνακα συσχέτισης.
Μεταβίβαση σε πολλαπλά πλαίσια δεδομένων στην παρουσία του PandasAI
Η εργασία με πολλαπλά πλαίσια δεδομένων μπορεί να είναι δύσκολη. Ειδικά για ένα άτομο που είναι νέο στην ανάλυση δεδομένων. Το PandasAI γεφυρώνει αυτό το χάσμα, καθώς το μόνο που χρειάζεται να κάνετε είναι να περάσετε και τα δύο πλαίσια δεδομένων και να αρχίσετε να χρησιμοποιείτε προτροπές για να χειρίζεστε τα δεδομένα.
Δημιουργήστε δύο πλαίσια δεδομένων χρησιμοποιώντας Pandas.
εργαζόμενοι_δεδομένα = {
'Ταυτότητα Υπαλλήλου': [1, 2, 3, 4, 5],
'Ονομα': ['Γιάννης', 'Εμμα', 'Λιάμ', 'Ολίβια', 'Γουλιέλμος'],
'Τμήμα': ['HR', 'Εκπτώσεις', 'ΤΟ', 'Εμπορία', 'Χρηματοδότηση']
}μισθοί_δεδομένα = {
'Ταυτότητα Υπαλλήλου': [1, 2, 3, 4, 5],
'Μισθός': [5000, 6000, 4500, 7000, 5500]
}
υπάλληλοι_df = πδ. DataFrame (Employees_data)
μισθοί_δφ = πδ. DataFrame (salaries_data)
Μπορείτε να κάνετε το PandasAI μια ερώτηση που να καλύπτει και τα δύο πλαίσια δεδομένων. Πρέπει μόνο να περάσετε και τα δύο πλαίσια δεδομένων στην παρουσία του PandasAI.
pandas_ai([υπάλληλοι_df, μισθοί_df], «Ποιος υπάλληλος έχει τον μεγαλύτερο μισθό;»)
Επιστρέφει Ολίβια που είναι και πάλι η σωστή απάντηση.
Η εκτέλεση ανάλυσης δεδομένων δεν ήταν ποτέ πιο εύκολη, το PandasAI σάς επιτρέπει να συνομιλείτε με τα δεδομένα σας και να τα αναλύετε με ευκολία.
Κατανόηση της τεχνολογίας που τροφοδοτεί το PandasAI
Το PandasAI απλοποιεί τη διαδικασία ανάλυσης δεδομένων, εξοικονομώντας έτσι πολύ χρόνο για τους αναλυτές δεδομένων. Αλλά αφαιρεί αυτό που συμβαίνει στο παρασκήνιο. Πρέπει να εξοικειωθείτε με τη γενετική τεχνητή νοημοσύνη, ώστε να μπορείτε να έχετε μια επισκόπηση του τρόπου λειτουργίας του PandasAI κάτω από την κουκούλα. Αυτό θα σας βοηθήσει επίσης να παρακολουθείτε τις πιο πρόσφατες καινοτομίες στον τομέα της γενετικής τεχνητής νοημοσύνης.