Οι κατασκευαστές του ChatGPT έχουν ένα άλλο εργαλείο που στοχεύει να αφαιρέσει το φορτίο από τα δάχτυλά σας.
Οι ίδιοι άνθρωποι πίσω από το ChatGPT δημιούργησαν ένα άλλο εργαλείο βασισμένο σε AI που μπορείτε να χρησιμοποιήσετε σήμερα για να ενισχύσετε την παραγωγικότητά σας. Αναφερόμαστε στο Whisper, μια λύση φωνής σε κείμενο που επισκίασε όλες τις παρόμοιες λύσεις που είχαν προηγηθεί.
Μπορείτε να χρησιμοποιήσετε το Whisper στα προγράμματά σας ή στη γραμμή εντολών. Και όμως, αυτό ανατρέπει τον ίδιο του τον σκοπό: την πληκτρολόγηση χωρίς πληκτρολόγιο. Εάν χρειάζεται να πληκτρολογήσετε για να το χρησιμοποιήσετε, γιατί να το χρησιμοποιήσετε για να αποφύγετε την πληκτρολόγηση; Ευτυχώς, μπορείτε τώρα να χρησιμοποιήσετε το Whisper μέσω ενός γραφικού περιβάλλοντος εργασίας επιφάνειας εργασίας. Ακόμα καλύτερα, μπορεί επίσης να μεταγράψει τη φωνή σας σχεδόν σε πραγματικό χρόνο. Ας δούμε πώς μπορείτε να πληκτρολογήσετε με τη φωνή σας χρησιμοποιώντας το Whisper Desktop.
Τι είναι το Whisper του OpenAI;
Το Whisper του OpenAI είναι ένα σύστημα αυτόματης αναγνώρισης ομιλίας (ASR για συντομία) ή, για να το θέσω απλά, είναι μια λύση για τη μετατροπή της προφορικής γλώσσας σε κείμενο.
Ωστόσο, σε αντίθεση με τα παλαιότερα συστήματα υπαγόρευσης και μεταγραφής, το Whisper είναι μια λύση τεχνητής νοημοσύνης που εκπαιδεύεται σε περισσότερες από 680.000 ώρες ομιλίας σε διάφορες γλώσσες. Το Whisper προσφέρει απαράμιλλη ακρίβεια και, αρκετά εντυπωσιακό, όχι μόνο είναι πολύγλωσσο, αλλά μπορεί επίσης να μεταφράζει μεταξύ των γλωσσών.
Το πιο σημαντικό, είναι δωρεάν και διαθέσιμο ως ανοιχτού κώδικα. Χάρη σε αυτό, πολλοί προγραμματιστές έχουν διαχωρίσει τον κώδικά του στα δικά τους έργα ή έχουν δημιουργήσει εφαρμογές που βασίζονται σε αυτόν, όπως το Whisper Desktop.
Εάν προτιμάτε την έκδοση "βανίλια" του Whisper και την ευελιξία του τερματικού αντί για άβολα γραφικά περιβάλλοντα χρήστη, δείτε το άρθρο μας στο πώς να μετατρέψετε τη φωνή σας σε κείμενο με το Whisper του OpenAI για Windows.
Είναι το Whisper και το Whisper Desktop το ίδιο;
Παρά το επίσημο όνομά του, το Whisper Desktop είναι ένα GUI τρίτου κατασκευαστή για το Whisper, που δημιουργήθηκε για όλους όσους προτιμούν να κάνουν κλικ σε κουμπιά αντί να πληκτρολογούν εντολές.
Το Whisper Desktop είναι μια αυτόνομη λύση που δεν βασίζεται σε μια υπάρχουσα εγκατάσταση Whisper. Ως μπόνους, χρησιμοποιεί μια εναλλακτική, βελτιστοποιημένη έκδοση του Whisper, επομένως θα πρέπει να έχει καλύτερη απόδοση από την αυτόνομη έκδοση.
Βρίσκεστε στο άλλο άκρο του φάσματος και αντί να αναζητάτε έναν ευκολότερο τρόπο χρήσης του Whisper από το τερματικό, αναζητάτε τρόπους να το εφαρμόσετε στις δικές σας λύσεις; Να χαίρεσαι, για Το OpenAI έχει ανοίξει την πρόσβαση στα ChatGPT και Whisper API.
Λήψη και εγκατάσταση του Whisper Desktop
Αν και το Whisper Desktop είναι πιο εύκολο στη χρήση από το αυτόνομο Whisper, η εγκατάστασή του είναι πιο περίπλοκη από το επανειλημμένο κλικ στο Επόμενο σε έναν οδηγό.
- Επίσκεψη Η επίσημη σελίδα Github του Whisper Desktop. Κοιτάξτε στα δεξιά και κάντε κλικ στην πιο πρόσφατη έκδοση κάτω Εκδόσεις.
- Κάτω από Περιουσιακά στοιχεία, Κάντε κλικ WhisperDesktop.zip και κατεβάστε το στον υπολογιστή σας.
- Εξαγάγετε το ληφθέν αρχείο σε έναν φάκελο και χρησιμοποιήστε το διαχειριστή αρχείων σας για να το επισκεφτείτε. Μέσα θα βρείτε την εφαρμογή Whisper Desktop. Κάντε διπλό κλικ πάνω του για να το εκτελέσετε.
- Χρειάζεστε επίσης ένα μοντέλο γλώσσας Whisper GCML δυαδική μορφή. Το Whisper Desktop θα σας παρέχει δύο συνδέσμους για την απόκτηση ενός. Παραλείψτε τον δεύτερο σύνδεσμο για τη δημιουργία του δικού σας μοντέλου, καθώς είναι μια πιο περίπλοκη διαδικασία. Κάντε κλικ στο Αγκαλιασμένο πρόσωπο για να ανοίξετε αυτήν τη σελίδα στο προεπιλεγμένο πρόγραμμα περιήγησής σας, από όπου μπορείτε να κάνετε λήψη ενός έτοιμου προς χρήση αρχείου.
- Η έκδοση του Whisper Desktop που χρησιμοποιήσαμε κατά τη σύνταξη αυτού του άρθρου παρείχε έναν σύνδεσμο προς ένα απαρχαιωμένο αποθετήριο στο Hugging Face. Εάν αντιμετωπίζετε το ίδιο πρόβλημα, παρατηρήστε έναν σύνδεσμο προς ένα νέα τοποθεσία. Κάντε κλικ σε αυτό για να επισκεφθείτε το νέο αποθετήριο.
- Κάντε κλικ στον σύνδεσμο που θα σας μεταφέρει στο διαθέσιμο μοντέλα.
- Από αυτήν τη λίστα, κάντε κλικ σε ένα από τα δύο ggml-medium.bin ή ggml-medium.en.bin, ανάλογα με το αν θέλετε πολύγλωσση ή μόνο αγγλική υποστήριξη στο Whisper.
- Επιτέλους, θα έπρεπε να έχετε φτάσει στον προορισμό σας. Παρατηρήστε τη γραμμή που αναφέρει ότι αυτό το αρχείο είναι αποθηκευμένο με το Git LFS και είναι πολύ μεγάλο για να εμφανιστεί, αλλά μπορείτε ακόμα να το κατεβάσετε. Κάντε κλικ στο Κατεβάστε να κάνει ακριβώς αυτό.
- Όταν ολοκληρωθεί η λήψη του αρχείου, χρησιμοποιήστε τον αγαπημένο σας διαχειριστή αρχείων (το File Explorer θα κάνει) για να μετακινήσετε το αρχείο μοντέλου γλώσσας που έχετε λάβει στον ίδιο φάκελο με το Whisper Desktop.
Μεταγραφή με Whisper Desktop
Η μεταγραφή με το Whisper Desktop είναι εύκολη, αλλά μπορεί να χρειαστείτε ένα ή δύο κλικ για να χρησιμοποιήσετε την εφαρμογή.
Επανάληψη του Whisper Desktop. Χάνει (ακόμα) τη σωστή διαδρομή προς το μοντέλο γλώσσας που κατεβάσατε; Κάνε κλικ στο κουμπί με τις τρεις τελείες στα δεξιά του πεδίου και επιλέξτε χειροκίνητα το αρχείο που κατεβάσατε από το Hugging Face.
Από αυτό το σημείο, μπορείτε επίσης να χρησιμοποιήσετε το αναπτυσσόμενο μενού δίπλα στο Υλοποίηση Μοντέλου για να επιλέξετε εάν θέλετε να εκτελέσετε το Whisper στη GPU σας (GPU), τόσο στην CPU όσο και στην GPU (Υβρίδιο), ή μόνο στην CPU (Αναφορά).
ο Προχωρημένος Το κουμπί οδηγεί σε περισσότερες επιλογές που επηρεάζουν τον τρόπο εκτέλεσης του Whisper στο υλικό σας. Ωστόσο, επειδή το κουμπί δηλώνει ξεκάθαρα ότι είναι προχωρημένοι, σας προτείνουμε να τα τροποποιήσετε μόνο εάν αντιμετωπίζετε προβλήματα ή γνωρίζετε τι κάνετε. Ο ορισμός των εσφαλμένων τιμών επιλογών εδώ μπορεί να επιβάλει ποινή απόδοσης ή να καταστήσει την εφαρμογή αχρησιμοποίητη.
Κάντε κλικ στο OK για να μετακινηθείτε στην κύρια διεπαφή της εφαρμογής.
Εάν έχετε ήδη μια ηχογράφηση της φωνής σας που θέλετε να μετατρέψετε σε γραπτό κείμενο, κάντε κλικ στο Μεταγραφή αρχείου και επιλέξτε το. Ωστόσο, θα χρησιμοποιήσουμε το Whisper Desktop για ζωντανή μεταγραφή για αυτό το άρθρο.
Οι επιλογές που προσφέρονται είναι απλές. Μπορείτε να επιλέξετε το Γλώσσα Το Whisper θα χρησιμοποιήσει, επιλέξτε αν θέλετε μεταφράζω μεταξύ γλωσσών και ενεργοποιήστε την εφαρμογή Κονσόλα εντοπισμού σφαλμάτων.
Οι περισσότεροι αγγλόφωνοι χρήστες μπορούν να παραλείψουν με ασφάλεια αυτές τις επιλογές και να διασφαλίσουν μόνο ότι έχει επιλεγεί η σωστή είσοδος ήχου από το αναπτυσσόμενο μενού δίπλα στο Συσκευή λήψης.
Συγουρεύομαι Αποθήκευση σε αρχείο κειμένου και Προσθήκη σε αυτό το αρχείο είναι ενεργοποιημένα ώστε το Whisper Desktop να αποθηκεύει την έξοδο του σε ένα αρχείο χωρίς να αντικαθιστά το περιεχόμενό του. Χρησιμοποιήστε το κουμπί με τις τρεις τελείες στα δεξιά του πεδίου διαδρομής του αρχείου για να ορίσετε το εν λόγω αρχείο κειμένου.
Κάντε κλικ στο Πιάνω για να ξεκινήσετε τη μεταγραφή της ομιλίας σας σε κείμενο.
Το Whisper Desktop θα σας δείξει τρεις ενδείξεις για το πότε ανιχνεύει φωνητική δραστηριότητα, πότε μεταγράφει ενεργά και πότε η διαδικασία έχει σταματήσει.
Μπορείτε να συνεχίσετε να μιλάτε για όσο χρόνο θέλετε και θα πρέπει περιστασιακά να βλέπετε τις δύο πρώτες ενδείξεις να αναβοσβήνουν ενώ η εφαρμογή μετατρέπει τη φωνή σας σε κείμενο. Κάντε κλικ Να σταματήσει όταν είναι έτοιμο.
Το αρχείο κειμένου που επιλέξατε θα πρέπει να ανοίξει στον προεπιλεγμένο επεξεργαστή κειμένου, να περιέχει σε γραπτή μορφή όλα όσα είπατε μέχρι να κάνετε κλικ Να σταματήσει.
Θα πρέπει να σημειώσουμε ότι μπορείτε επίσης να κάνετε το αντίθετο από αυτό που είδαμε εδώ: να μετατρέψετε οποιοδήποτε κείμενο σε ομιλία. Με αυτόν τον τρόπο μπορείτε να ακούτε οτιδήποτε σαν να ήταν ένα podcast αντί να κουράζετε τα μάτια σας να στραβώνουν τις οθόνες. Για περισσότερες πληροφορίες σχετικά με αυτό, ανατρέξτε στο άρθρο μας μερικά από τα καλύτερα δωρεάν διαδικτυακά εργαλεία για λήψη μετατροπής κειμένου σε ομιλία ως ήχο MP3.
Συμβουλές φωνητικής πληκτρολόγησης Whisper Desktop
Αν και το Whisper Desktop μπορεί να είναι σωτήριο, δίνοντάς σας τη δυνατότητα να γράφετε με τη φωνή σας πολύ πιο γρήγορα από ό, τι θα μπορούσατε να πληκτρολογήσετε, απέχει πολύ από το τέλειο.
Κατά τη διάρκεια της δοκιμής μας, διαπιστώσαμε ότι μπορεί περιστασιακά να τραυλίζει, να παραλείπει κάποιες λέξεις, να αποτυγχάνει να μεταγράψει μέχρι να διακόψτε και επανεκκινήστε τη διαδικασία χειροκίνητα ή κολλήστε σε έναν βρόχο και συνεχίστε να μεταγράφετε ξανά την ίδια φράση επανειλημμένα.
Πιστεύουμε ότι πρόκειται για προσωρινές δυσλειτουργίες που θα διορθωθούν, καθώς το αυτόνομο Whisper δεν παρουσιάζει τα ίδια προβλήματα.
Εκτός από αυτά τα μικρά χτυπήματα, η μετατροπή της φωνής σας σε κείμενο θα πρέπει να είναι εύκολη με το Whisper Desktop. Ωστόσο, κατά τη διάρκεια των δοκιμών μας, διαπιστώσαμε ότι μπορεί να αποδώσει ακόμα καλύτερα αν...
- Αντί να προφέρει μόνο δύο ή τρεις λέξεις και μετά να σταματήσει, ο Whisper μπορεί να σας καταλάβει καλύτερα αν συνεχίσετε περισσότερο. Προσπαθήστε να του δώσετε τουλάχιστον μια ολόκληρη πρόταση κάθε φορά.
- Για τον ίδιο λόγο, αποφύγετε την επανειλημμένη έναρξη και διακοπή της διαδικασίας μεταγραφής.
- Κάθε φορά που συνειδητοποιείτε ότι κάνατε ένα λάθος, αγνοήστε το και συνεχίστε. Η φόρτωση και η εκφόρτωση του μοντέλου γλώσσας φαίνεται να είναι το πιο χρονοβόρο μέρος της διαδικασίας με την τρέχουσα κατάσταση του Whisper και το διαθέσιμο υλικό μας. Έτσι, είναι πιο γρήγορο να συνεχίσετε να μιλάτε και στη συνέχεια να διορθώνετε τα λάθη σας.
- Όπως και με την αυτόνομη έκδοση του Whisper, είναι καλύτερο να χρησιμοποιήσετε το βέλτιστο μοντέλο γλώσσας για το διαθέσιμο υλικό σας. Μπορείτε να χρησιμοποιήσετε μέχρι το Μεσαίο μοντέλο εάν η GPU σας διαθέτει 8 GB VRAM. Για λιγότερη VRAM, προτιμήστε τα μικρότερα μοντέλα. Επιλέξτε μόνο το λίγο πιο ακριβές αλλά και πολύ πιο απαιτητικό μεγάλο μοντέλο εάν χρησιμοποιείτε GPU με 16 GB VRAM ή περισσότερο.
- Να θυμάστε ότι όσο μεγαλύτερο είναι το μοντέλο γλώσσας, τόσο πιο αργή είναι η διαδικασία μεταγραφής. Μην πάτε για ένα μοντέλο μεγαλύτερο από αυτό που χρειάζεται. Πιθανότατα θα διαπιστώσετε ότι το Whisper Desktop μπορεί ήδη να σας «καταλαβαίνει» τις περισσότερες φορές με τα μεσαία ή μικρότερα μοντέλα, με μόνο ένα ή δύο σφάλματα ανά παράγραφο.
Πληκτρολογείτε ακόμα; Χρησιμοποιήστε τη φωνή σας με Whisper
Παρά το γεγονός ότι απαιτείται λίγος χρόνος για τη ρύθμιση, όπως θα δείτε όταν το δοκιμάσετε, το Whisper Desktop αποδίδει πολύ καλύτερα από τις περισσότερες εναλλακτικές λύσεις, με πολύ μεγαλύτερη ακρίβεια και καλύτερη ταχύτητα.
Αφού αρχίσετε να το χρησιμοποιείτε για να πληκτρολογείτε με τη φωνή σας, το πληκτρολόγιό σας μπορεί να μοιάζει με λείψανο από παλιά παλιά χρόνια.