Το OpenAI's Whisper είναι μια νέα λύση με τεχνητή νοημοσύνη που μπορεί να μετατρέψει τη φωνή σας σε κείμενο. Το καλύτερο από όλα, έρχεται με μηδενικό κόστος.
Ωστόσο, υπάρχει μια ατάκα: είναι πιο δύσκολη η εγκατάσταση και η χρήση από το μέσο βοηθητικό πρόγραμμα των Windows. Ειδικά αν θέλετε να χρησιμοποιήσετε τους Tensor Cores της GPU της Nvidia για να του δώσετε μια ωραία ώθηση.
Μην στεναχωριέσαι όμως. Γι' αυτό είμαστε εδώ! Διαβάστε παρακάτω για να μάθετε πώς να το εγκαταστήσετε και να το χρησιμοποιήσετε, αλλά και, εάν είστε κάτοχος ενός, για να εκμεταλλευτείτε το Whisper τη GPU της Nvidia.
Τι είναι το Whisper του OpenAI;
Το ChatGPT είναι στη μόδα στις μέρες μας, και το έχουμε ήδη δει πώς μπορείτε να χρησιμοποιήσετε το ChatGPT από το OpenAI. Κι όμως, δεν είναι το μόνο ενδιαφέρον έργο του OpenAI.
Με την υποστήριξη της βαθιάς μάθησης και των νευρωνικών δικτύων, το Whisper είναι ένα σύστημα επεξεργασίας φυσικής γλώσσας που μπορεί να «κατανοήσει» την ομιλία και να τη μεταγράψει σε κείμενο. Αλλά είναι επίσης το δικό του πράγμα, κάθεται σε ένα σημείο ακριβώς ανάμεσα σε όλες τις παρόμοιες λύσεις:
- Το Whisper είναι μια λύση τεχνητής νοημοσύνης «εκπαιδευμένη» στη φυσική γλώσσα. Οπότε, είναι καλύτερο στην κατανόηση της «κανονικής» ανθρώπινης ομιλίας παρά παλαιότερων λύσεων.
- Το Whisper δεν συνοδεύεται από διεπαφή, ούτε μπορεί να εγγράψει ήχο. Μπορεί να λάβει μόνο υπάρχοντα αρχεία ήχου και να εξάγει αρχεία κειμένου.
- Δεδομένου ότι είναι καλό στο να «βγάζει νόημα στη γλώσσα», το Whisper έχει επίσης την υπερδύναμη της αυτόματης μετάφρασης σε ένα μόνο βήμα.
- Το Whisper δεν είναι διαδικτυακή υπηρεσία και μπορεί να λειτουργήσει εντελώς εκτός σύνδεσης.
- Εάν διαθέτετε μια σχετικά σύγχρονη Nvidia GPU (GTX970 ή νεότερη), το Whisper μπορεί να τρέξει σε "λειτουργία επιτάχυνσης υλικού" για να αυξήσει την ταχύτητά του.
- Δεν απαιτείται εγγραφή, αγορά άδειας ή αγορά συνδρομής.
Γιατί δεν υποστηρίζονται οι GPU της AMD;
Για να είναι οι GPU χρήσιμες για περισσότερα από γραφικά, θα πρέπει να λειτουργούν ως πλήρως προγραμματιζόμενοι επεξεργαστές. Αυτός είναι ο λόγος για τον οποίο η Nvidia δημιούργησε το CUDA, που επίσημα θεωρείται «μια παράλληλη πλατφόρμα υπολογιστών και μοντέλο προγραμματισμού». Για να μάθετε περισσότερα σχετικά με το CUDA και το σχετικό υλικό ("CUDA πυρήνες"), διαβάστε το άρθρο μας σχετικά τι είναι οι πυρήνες CUDA και πώς βελτιώνουν τα παιχνίδια στον υπολογιστή.
Το CUDA είναι αποκλειστική τεχνολογία Nvidia, συμβατό μόνο με GPU της Nvidia. Οι πλησιέστερες εναλλακτικές λύσεις για το υλικό της AMD είναι το OpenCL και το Radeon Compute Platform. Για να μάθετε περισσότερα σχετικά με τον τρόπο σύγκρισης των λύσεων κάθε εταιρείας, ανατρέξτε στο άρθρο μας AMD Compute Units vs. Πυρήνες Nvidia CUDA.
Σε σύγκριση με τις εναλλακτικές, το CUDA θεωρείται πιο ώριμο, πιο αποδοτικό και πιο εύκολο στη χρήση. Έτσι, οι περισσότεροι προγραμματιστές στοχεύουν μόνο το CUDA, το οποίο, με τη σειρά του, σημαίνει ότι το λογισμικό τους εκμεταλλεύεται μόνο τις δυνατότητες υλικού στις GPU της Nvidia. Και αυτό περιλαμβάνει το Whisper.
Πώς να κατεβάσετε και να εγκαταστήσετε το Whisper
Δυστυχώς, το Whisper δεν είναι μια αυτόνομη εφαρμογή που μπορείτε να κάνετε λήψη, εγκατάσταση και εκτέλεση. Βασίζεται σε άλλο λογισμικό, το οποίο πρέπει επίσης να εγκατασταθεί.
Για τα Windows, για να είναι απλός αυτός ο οδηγός, θα χρησιμοποιήσουμε εκτενώς το Chocolatey για την εγκατάσταση των περισσότερων από τα απαραίτητα εξαρτήματα λογισμικού. Ελέγξτε τον οδηγό μας ο πιο γρήγορος τρόπος εγκατάστασης λογισμικού Windows για περισσότερες πληροφορίες σχετικά με το Chocolatey.
Για Linux και Mac, η διαδικασία εγκατάστασης (εξαιρουμένης της μεταβλητής διαδρομής των Windows και των εύχρηστων ομαδικών αρχείων που θα δημιουργήσουμε) θα πρέπει να είναι παρόμοια.
- Για να εγκαταστήσετε και να χρησιμοποιήσετε το Whisper, πρέπει να έχετε Πύθων και είναι ΚΟΥΚΟΥΤΣΙ εργαλείο που εγκαταστάθηκε και προστέθηκε στη μεταβλητή "Διαδρομή" των Windows. Για πληροφορίες σχετικά με αυτό, ανατρέξτε στο άρθρο μας στο πώς να εγκαταστήσετε το Python PIP σε Windows, Mac και Linux.
- Εγκαθιστώ FFMPEG μέσω Chocolatey με αυτήν την εντολή:
Επίσης, εγκαταστήστε την έκδοση Python με:choco εγκαθιστώ ffmpeg
pip3 εγκαθιστώ python-ffmpeg
- Τέλος, εγκαταστήστε το Whisper από τη σελίδα του Github με:
pip3 εγκατάσταση git+https://github.com/openai/whisper.git
Λήψη της έκδοσης με δυνατότητα CUDA του Whisper
Αν και το Whisper δεν χρησιμοποιεί GPU της Nvidia, το δάδα Το πακέτο στο οποίο βασίζεται προσφέρει μια έκδοση με επιτάχυνση CUDA. Η χρήση αυτής αντί της "απλής" έκδοσης μπορεί να βοηθήσει το Whisper να ολοκληρώσει τις μεταγραφές του πολύ πιο γρήγορα με τη βοήθεια της GPU της Nvidia.
Για να έχετε Whisper χρησιμοποιήστε τους πυρήνες CUDA της GPU Nvidia:
- Εάν έχετε ήδη εγκαταστήσει την έκδοση "vanilla" του φακού, απεγκαταστήστε και καθαρίστε τα υπολείμματά του με:
Μόλις ολοκληρωθεί, ακολουθήστε το με:pip3 απεγκατάσταση δάδα
κουκούτσι κρύπτηκαθαρίζω
- Εγκαταστήστε την έκδοση με δυνατότητα CUDA του φακού με:
pip3 εγκαθιστώ πυρσός torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
- Για να ελέγξετε εάν το Whisper μπορεί να χρησιμοποιήσει τη GPU Nvidia, χρησιμοποιήστε:
Πρέπει να δεις (προεπιλογή: cuda) αντί (προεπιλογή: cpu).ψίθυρος --βοήθεια | findstr -i pytorch
Τι να κάνετε εάν το Torch δεν εγκατασταθεί
Εάν αντιμετωπίσετε το σφάλμα "δεν βρέθηκε έκδοση" κατά την εγκατάσταση του φακού, ίσως χρειαστεί να εγκαταστήσετε μια παλαιότερη έκδοση της Python παράλληλα με την τρέχουσα.
Χρησιμοποιήστε αυτήν την εντολή για να το κάνετε αυτό:
choco εγκαθιστώ Πύθων --έκδοση OLDER_VERSION --δίπλα-δίπλα
Αντικαταστήστε το "OLDER_VERSION" με μια έκδοση, όπως η 3.10.
Στη συνέχεια, χρησιμοποιήστε τη διαδρομή της δευτερεύουσας έκδοσης για όλες τις "γενικές" εντολές Whisper (π.χ. "c:\Python310\Scripts\pip.exe" αντί απλώς "pip").
Πώς να ηχογραφήσετε τη φωνή σας
Μπορείτε να χρησιμοποιήσετε οποιαδήποτε εφαρμογή εγγραφής ήχου για να μετατρέψετε τη φωνή σας σε αρχείο WAV ή MP3. Τα Windows περιλαμβάνουν μια τέτοια εφαρμογή—για περισσότερες πληροφορίες σχετικά, βλ πώς να χρησιμοποιήσετε την εφαρμογή Εγγραφή φωνής των Windows 10.
Για μια πιο ολοκληρωμένη επιλογή, δοκιμάστε Θράσος. Μάθετε πώς να το κάνετε με τον οδηγό μας πώς να χρησιμοποιήσετε το Audacity για την εγγραφή ήχου σε Windows και Mac.
Πώς να ξεκινήσετε τη μεταγραφή με Whisper
Αν και το Whisper δεν συνοδεύεται από ένα φιλικό προς το χρήστη GUI, η χρήση του είναι εξαιρετικά απλή.
Ας πούμε ότι έχουμε το αρχείο LatestNote.mp3 που περιέχει ομιλία στα ελληνικά, σε φάκελο c:\MyAudioFiles, και θέλετε να το μεταφράσετε στα αγγλικά και να το μεταγράψετε σε αρχείο κειμένου.
- Ξεκινάμε τρέχοντας Γραμμή εντολών ή PowerShell.
- "Αλλάζουμε τον κατάλογο" όπου είναι αποθηκευμένο το αρχείο ήχου με αυτήν την εντολή:
CD C:\MyAudioFiles
- Απελευθερώνουμε το Whisper στο αρχείο με:
ψίθυρος--μοντέλοβάση--Γλώσσαγρ--έργομεταφράζωΤελευταία Σημείωση.mp3
Μετά την επεξεργασία, το αρχείο κειμένου (με το όνομα "LatestNote.mp3.txt") θα εμφανιστεί στον ίδιο φάκελο. Ανοίξτε το σε ένα πρόγραμμα επεξεργασίας κειμένου όπως Μπλοκ ΣΗΜΕΙΩΣΕΩΝ για να δείτε το μεταφρασμένο κείμενο.
Χρησιμοποιήσαμε ένα παράδειγμα μετάφρασης επειδή η αγγλική μεταγραφή είναι ακόμη πιο απλή: το μόνο που χρειάζεται είναι να "χάσετε" τις σημαίες "--language" και "-task". Έτσι, για απλή μεταγραφή, η παραπάνω εντολή θα ήταν:
ψίθυρος--μοντέλοβάσηΤελευταία Σημείωση.mp3
Η σημαία "μοντέλο" απαιτείται επειδή το Whisper χρησιμοποιεί μία από τις διάφορες επιλογές. Ας τις επεκτείνουμε για να σας βοηθήσουμε να επιλέξετε το καλύτερο για τις ανάγκες σας.
Ποιο μοντέλο να διαλέξω;
Το Whisper προσφέρει διάφορα μοντέλα γλώσσας. Όσο μεγαλύτερο είναι το μοντέλο, τόσο βελτιωνόταν η ακρίβειά του, αλλά και τόσο υψηλότερες οι απαιτήσεις υλικού του. Αυτοί είναι:
- Μικροσκοπικός.
- Βάση.
- Μικρό.
- Μεσαίο.
- Μεγάλο.
Οι περισσότεροι ομιλητές της μητρικής αγγλικής γλώσσας θα πρέπει να είναι εντάξει με το μικροσκοπικός ή βάση μοντέλα. Οι μη μητρικοί ομιλητές της αγγλικής γλώσσας ενδέχεται να δουν καλύτερα αποτελέσματα με μεγαλύτερα μοντέλα, όπως π.χ μικρό και Μεσαίο.
Σημειώστε, ωστόσο, ότι τα μεσαία και μεγάλα μοντέλα απαιτούν πάνω από 8 GB VRAM (δηλαδή, τη "μνήμη της GPU σας").
Για να επιλέξετε ένα από αυτά, καθορίστε το μοντέλο μετά τον διακόπτη "--model" στην εντολή:
ψίθυρος --μοντέλο μικροσκοπικό/μικρό/μεσαίο/μεγάλο [αρχείο]
Για παράδειγμα:
ψίθυρος--μοντέλομικρόMy_Voice_Note.mp3
Πώς να βελτιστοποιήσετε τη μεταγραφή σας
Το να χρειάζεται να πληκτρολογείτε ολόκληρη την εντολή Whisper κάθε φορά που θέλετε να μεταγράψετε κάποιο ήχο μπορεί γρήγορα να γίνει βαρετό. Ας δημιουργήσουμε ένα αρχείο μαζικής πρόσβασης παγκοσμίως για να απλοποιήσουμε τη διαδικασία.
- Τρέξιμο Εξερεύνηση των Windows και επισκεφτείτε τη μονάδα δίσκου C:.
- Δημιουργήστε ένα φάκελο για τα σενάρια σας και αντιγράψτε τη διαδρομή του στο Πρόχειρο.
- Στο μενού Έναρξη των Windows, αναζητήστε "διαδρομή" και επιλέξτε Επεξεργαστείτε τις μεταβλητές περιβάλλοντος συστήματος.
- Βρες το Μονοπάτι μεταβλητή κάτω από Μεταβλητές χρήστη για το YOUR_USERNAME. Κάντε διπλό κλικ πάνω του για να το επεξεργαστείτε. Κάντε κλικ στο Νέοςκαι επικολλήστε τη διαδρομή στο φάκελο scripts σας. Κάντε κλικ στο Εντάξει για αποδοχή των αλλαγών.
- Επιστρέψτε στον φάκελο σεναρίων στην Εξερεύνηση των Windows. Δημιουργήστε ένα νέο αρχείο δέσμης εκεί με το όνομα "wht.bat". "Μέσα" του, τοποθετήστε αυτήν την εντολή:
ψίθυρος --model tiny --language en %1
- Δημιουργήστε δύο ακόμη ομαδικά αρχεία, "whs" και "whm".
- Τοποθετήστε αυτό μέσα στο πρώτο σενάριο:
ψίθυρος --model small --language en %1
- Τοποθετήστε αυτό μέσα στο δεύτερο:
ψίθυρος --model medium --language en %1
Συγχαρητήρια, τώρα έχετε τρία σενάρια για εύκολη χρήση των μικροσκοπικών, μικρών και μεσαίων μοντέλων του Whisper με τα αρχεία ήχου σας! Για να μεταγράψετε οποιοδήποτε αρχείο ήχου σε κείμενο:
- Εντοπίστε το αρχείο με Εξερεύνηση αρχείων των Windows.
- Κάντε δεξί κλικ σε ένα κενό σημείο και επιλέξτε Άνοιγμα στο τερματικό.
- Πληκτρολογήστε αυτήν την εντολή, αντικαθιστώντας το "wht" με "whs" ή "whm" για να χρησιμοποιήσετε τα μοντέλα μικρής ή μεσαίας γλώσσας:
τιYOUR_AUDIO_FILE.mp3
Πληκτρολογώντας με την ταχύτητα του ήχου με Whisper
Ακόμη και οι πιο γρήγοροι δακτυλογράφοι δεν μπορούν να ταιριάξουν με την ταχύτητα με την οποία μιλάμε. Ωστόσο, μέχρι πρόσφατα, η ομιλία αντί για την πληκτρολόγηση δεν ήταν η βέλτιστη για τη δημιουργία εγγράφων.
Οι περισσότερες λύσεις φωνής σε κείμενο παρήγαγαν μέτρια αποτελέσματα. Θα μπορούσατε να βρείτε μερικές λύσεις που αξίζει να δοκιμάσετε, αλλά ήταν περίπλοκες στη χρήση ή δαπανηρές. Ευτυχώς, ο Whisper τα άλλαξε όλα αυτά.
Μετά τα παραπάνω βήματα, θα πρέπει να είστε έτοιμοι να μεταγράψετε ή να μεταφράσετε τη φωνή σας με υψηλή ακρίβεια, χρησιμοποιώντας μόνο μία εντολή.