Το OpenAI έδωσε στο ChatGPT τη δυνατότητα να μιλάει χρησιμοποιώντας μια συνθετική φωνή και θα έρθει σύντομα στο smartphone σας.

Το ChatGPT πρόκειται να γίνει μια διαδραστική εμπειρία παραγωγής AI. Το OpenAI αποκάλυψε ότι το κορυφαίο chatbot τεχνητής νοημοσύνης στον κόσμο θα μπορεί να μιλάει και να απαντά σε ερωτήματα των χρηστών χρησιμοποιώντας μια συνθετική, πιθανώς δημιουργημένη από AI, φωνή.

Μαζί με τη νέα φωνή του, το ChatGPT θα μπορεί επίσης να ανταποκρίνεται και να συζητά συγκεκριμένες εικόνες που έχουν ανέβει σε αυτό ή έχουν τραβήξει κατά τη χρήση της εφαρμογής ChatGPT για Android ή iOS. Η λειτουργία αναγνώρισης εικόνας ακούγεται παρόμοια με το Google Lens και άλλες εφαρμογές που χρησιμοποιούν νευρωνικά δίκτυα για την ακριβή ανίχνευση δεδομένων και πληροφοριών.

Το OpenAI δίνει φωνή στο ChatGPT

Στις 25 Σεπτεμβρίου 2023, προγραμματιστής ChatGPT Το OpenAI αποκάλυψε θα έδινε μια φωνή στο παγκόσμιο κορυφαίο chatbot τεχνητής νοημοσύνης. Οι χρήστες του ChatGPT μπορούν να μιλήσουν απευθείας στο chatbot και να του ζητήσουν να μιλήσει, επιτρέποντας ουσιαστικά στο ChatGPT να συνομιλεί απευθείας με φωνή για πρώτη φορά.

instagram viewer

Το παράδειγμα κλιπ του OpenAI παρουσιάζει μια γυναίκα που ζητά από το ChatGPT να δημιουργήσει μια μοναδική ιστορία πριν τον ύπνο, στην οποία το ChatGPT απαντά δεόντως με μια γυναικεία συνθετική φωνή.

Σύμφωνα με Ενσύρματο, το νέο μοντέλο μετατροπής κειμένου σε ομιλία αναπτύχθηκε εσωτερικά. Μπορεί να δημιουργήσει ήχο "όπως ανθρώπινο" από κείμενο και μερικά δευτερόλεπτα δείγματος ομιλίας (χρησιμοποιώντας το μοντέλο OpenAI Whisper) και μιλήστε σε διάφορους τόνους και στυλ. Μπορείτε να βρείτε μια σειρά από δείγματα φωνής στο Το ιστολόγιο του OpenAI.

Ορισμένες εταιρείες χρησιμοποιούν ήδη το νέο μοντέλο φωνής του OpenAI. Για παράδειγμα, το Spotify χρησιμοποιεί το μοντέλο κειμένου σε ομιλία του OpenAI για να μεταφράζει podcast σε διαφορετικές γλώσσες, συνδυάζοντας τη μεταφραστική ικανότητα της γλώσσας του ChatGPT με τη νέα του ικανότητα ομιλίας.

Το νέο μοντέλο κειμένου σε ομιλία του ChatGPT είναι διαθέσιμο μόνο σε συνδρομητές Plus και Enterprise που χρησιμοποιούν την επίσημη Εφαρμογές Android και iOS και αναμένεται να κυκλοφορήσουν εντός των επόμενων δύο εβδομάδων (ξεκινώντας από τις 25 Σεπτεμβρίου, 2023). Επιπλέον, η νέα λειτουργία φωνής περιορίζεται αρχικά στα αγγλικά, αν και θα περιμέναμε να αλλάξει γρήγορα.

Το ChatGPT μπορεί να αναγνωρίζει και να αναλύει εικόνες και φωτογραφίες

Το δεύτερο μέρος της ενημέρωσης ChatGPT του OpenAI είναι η δυνατότητα ανάλυσης και συζήτησης εικόνων που έχουν μεταφορτωθεί στο εργαλείο. Η επιλογή ανάλυσης οπτικής εικόνας εμφανίστηκε στα βίντεο ενημέρωσης GPT-4, αλλά δεν έχει συζητηθεί πολύ από τότε (Εκτός από το ChatGPT Code Interpreter).

Τώρα, το ChatGPT αποκτά λειτουργικότητα παρόμοια με το Google Lens. Μπορείτε να ανεβάσετε μια εικόνα στο ChatGPT ή να τραβήξετε μια φωτογραφία χρησιμοποιώντας την κάμερα του smartphone σας στην εφαρμογή ChatGPT και θα αναλύσει την εικόνα, προσθέτοντας περισσότερο περιβάλλον όπου απαιτείται.

Το να το αποκαλούμε "παρόμοιο με το Google Lens" αδικεί, πραγματικά. Η δυνατότητα συνομιλίας εμπρός και πίσω σχετικά με την εικόνα για να αποκτήσετε περισσότερες πληροφορίες και το πλαίσιο, την καθιστά εξαιρετικά χρήσιμη για ένα ευρύ φάσμα ρυθμίσεων. Ωστόσο, είναι σημαντικό να σημειωθούν τα ψιλά γράμματα, με το OpenAI να καθιστά σαφές ότι έχει περιορίσει την «ικανότητα του ChatGPT να αναλύει και να κάνει άμεσες δηλώσεις για τους ανθρώπους» για λόγους απορρήτου και ακρίβειας. Ωστόσο, θα μπορούσε ένα εργαλείο "Who Is This" με υποστήριξη OpenAI να είναι στα σκαριά για το μέλλον; (Ας ελπίσουμε όχι!)

Όπως το νέο μοντέλο μετατροπής κειμένου σε ομιλία, το OpenAI θα κυκλοφορήσει την αναγνώριση εικόνας τις επόμενες δύο εβδομάδες, αν και θα είναι διαθέσιμο σε όλες τις πλατφόρμες, όχι μόνο στην εφαρμογή ChatGPT.

Απόρρητο, ασφάλεια και άλλα ζητήματα

Οι συνέπειες ενός ChatGPT που λειτουργεί με φωνή είναι έντονες. Σίγουρα, είναι συναρπαστικό. Ωστόσο, η δυνατότητα δημιουργίας μιας μοναδικής σύνθεσης φωνής χρησιμοποιώντας μόνο ένα σύντομο απόσπασμα ως παράδειγμα έχει σημαντικά ζητήματα απορρήτου και ασφάλειας. Η δυνατότητα για κακόβουλους παράγοντες να εκμεταλλευτούν αυτά τα εργαλεία είναι τεράστια, και όπως συμβαίνει με οποιοδήποτε εργαλείο δημιουργίας τεχνητής νοημοσύνης, μόλις το τζίνι βγει από το μπουκάλι, δεν θα επιστρέψει καθόλου. Καμία ρύθμιση τεχνητής νοημοσύνης από κυβερνήσεις ή ηγέτες σκέψης δεν μπορεί να ανατρέψει την παλίρροια.

Ακόμη και η προειδοποίηση του OpenAI για το θέμα φαίνεται να ξεφεύγει από το προφανές παρά το γεγονός ότι αναφέρει τα ζητήματα:

Ωστόσο, αυτές οι δυνατότητες παρουσιάζουν επίσης νέους κινδύνους, όπως η πιθανότητα κακόβουλων παραγόντων να υποδύονται δημόσια πρόσωπα ή να διαπράττουν απάτη. Αυτός είναι ο λόγος που χρησιμοποιούμε αυτήν την τεχνολογία για να τροφοδοτήσουμε μια συγκεκριμένη περίπτωση χρήσης—τη φωνητική συνομιλία.

Δεδομένου ότι αυτή είναι η κορυφή του παγόβουνου, αναμένετε ώθηση ενάντια στη νέα φωνή του ChatGPT, ειδικά μια φορά υπάρχει μια προβλέψιμη αύξηση στους δυσάρεστους τίτλους που υποστηρίζουν ότι το ChatGPT χρησιμοποιείται για τη διάπραξη απάτης και έτσι επί.

Το OpenAI κάνει το ChatGPT την εφαρμογή Go-To AI

Όσο το OpenAI προσθέτει φιλικές προς τον χρήστη λειτουργίες στο ChatGPT, τόσο περισσότερο γίνεται η πιο δημοφιλής εφαρμογή τεχνητής νοημοσύνης. Ως ο πρώτος που απέκτησε ευρεία φήμη κατά την αρχική άνθηση της τεχνητής νοημοσύνης, το ChatGPT εξακολουθεί να ηγείται του δρόμου και είναι το μόνο η εφαρμογή κάποια χρήση, παρά τον ανταγωνισμό από εταιρείες όπως το Google Bard (και ενδεχομένως το Google Gemini) και το Anthropic's Ο Κλοντ.

Εφόσον το OpenAI μπορεί να συνεχίσει να προσθέτει λειτουργίες που κάνουν το ChatGPT πιο εύκολο στη χρήση, θα κρατά τους ανθρώπους κολλητούς και θα ωθεί όλο και πιο κοντά στον στόχο του για ένα πραγματικά πολυτροπικό εργαλείο AI.