Η αναγνώριση φωνής είναι φοβερή, αλλά πώς έγινε τόσο καλή;

Η τεχνολογία αναγνώρισης φωνής έχει πλούσια ιστορία ανάπτυξης που την οδήγησε σε αυτό που είναι σήμερα. Βρίσκεται στον πυρήνα της σύγχρονης ζωής, δίνοντάς μας τη δυνατότητα να κάνουμε εργασίες μόνο μιλώντας σε μια συσκευή. Λοιπόν, πώς εξελίχθηκε αυτή η εκπληκτική τεχνολογία με τα χρόνια; Ας ΡΙΞΟΥΜΕ μια ΜΑΤΙΑ.

1952: The Audrey System

Το πρώτο βήμα στην αναγνώριση φωνής έγινε στις αρχές της δεκαετίας του 1950. Τα εργαστήρια Bell ανέπτυξαν την πρώτη μηχανή που μπορούσε να καταλάβει την ανθρώπινη φωνή το 1952 και ονομάστηκε Σύστημα Audrey. Το όνομα Audrey ήταν ένα είδος συρρίκνωσης της φράσης Automatic Digit Recognition. Ενώ αυτό ήταν μια σημαντική καινοτομία, είχε ορισμένους σημαντικούς περιορισμούς.

Το πιο σημαντικό, η Audrey μπορούσε να αναγνωρίσει μόνο τα αριθμητικά ψηφία 0-9, χωρίς λέξεις. Η Audrey θα έδινε ανατροφοδότηση όταν ο ομιλητής έλεγε έναν αριθμό ανάβοντας 1 από τους 10 λαμπτήρες, ο καθένας που αντιστοιχεί σε ένα ψηφίο.

Πίστωση εικόνας: metamorworks/Shutterstock.com

Ενώ μπορούσε να καταλάβει τους αριθμούς με ακρίβεια 90%, η Audrey περιορίστηκε σε έναν συγκεκριμένο τύπο φωνής. Αυτός είναι ο λόγος για τον οποίο το μόνο άτομο που θα το χρησιμοποιούσε πραγματικά ήταν ο HK Davis, ένας από τους προγραμματιστές. Όταν μιλήθηκε ένας αριθμός, ο ομιλητής θα πρέπει να περιμένει τουλάχιστον 300 χιλιοστά του δευτερολέπτου πριν πει τον επόμενο.

instagram viewer

Όχι μόνο περιορίστηκε στη λειτουργικότητα, αλλά περιορίστηκε και στη χρησιμότητα. Δεν χρησιμοποιήθηκε πολύ για ένα μηχάνημα που μπορούσε να καταλάβει μόνο αριθμούς. Μια πιθανή χρήση ήταν η κλήση αριθμών τηλεφώνου, αλλά ήταν πολύ πιο γρήγορη και ευκολότερη η κλήση των αριθμών με το χέρι. Αν και η Audrey δεν είχε μια χαριτωμένη ύπαρξη, εξακολουθεί να αποτελεί ένα μεγάλο ορόσημο στα ανθρώπινα επιτεύγματα.

Σχετίζεται με: Πώς να χρησιμοποιήσετε τη φωνητική πληκτρολόγηση στο Microsoft Word

1962: Shoebox της IBM

Μια δεκαετία μετά την Audrey, η IBM προσπάθησε να αναπτύξει ένα σύστημα αναγνώρισης φωνής. Στην Παγκόσμια Έκθεση του 1962, η IBM παρουσίασε ένα σύστημα αναγνώρισης φωνής με το όνομα Showbox. Όπως η Audrey, η κύρια δουλειά της ήταν η κατανόηση των ψηφίων 0-9, αλλά μπορούσε επίσης να καταλάβει έξι λέξεις: συν, μείον, ψευδές, συνολικό, υποσύνολο και απενεργοποίηση.

Το Shoebox ήταν ένα μαθηματικό μηχάνημα που μπορούσε να κάνει απλά αριθμητικά προβλήματα. Όσον αφορά τα σχόλια, αντί για φώτα, το Shoebox μπόρεσε να εκτυπώσει τα αποτελέσματα σε χαρτί. Αυτό το έκανε χρήσιμο ως αριθμομηχανή, αν και ο ομιλητής θα έπρεπε να κάνει παύση μεταξύ κάθε αριθμού/λέξης.

1971: Αυτόματη αναγνώριση κλήσεων της IBM

Μετά τα Audrey και Shoebox, άλλα εργαστήρια σε όλο τον κόσμο ανέπτυξαν τεχνολογία αναγνώρισης φωνής. Ωστόσο, δεν ξεκίνησε μέχρι τη δεκαετία του 1970, όταν το 1971, η IBM έφερε την πρώτη εφεύρεση του είδους της στην αγορά. Ονομάστηκε αυτόματο σύστημα αναγνώρισης κλήσεων. Ταν το πρώτο σύστημα αναγνώρισης φωνής που χρησιμοποιήθηκε μέσω του τηλεφωνικού συστήματος.

Οι μηχανικοί καλούν και συνδέονται με έναν υπολογιστή στο Raleigh της Βόρειας Καρολίνας. Ο καλών θα έλεγε τότε μία από τις 5.000 λέξεις στο λεξιλόγιό του και θα έπαιρνε μια «προφορική» απάντηση ως απάντηση.

Σχετίζεται με: Πώς να χρησιμοποιήσετε τη φωνητική υπαγόρευση σε Mac

1976: Harpy

Στις αρχές της δεκαετίας του 1970, το Υπουργείο Άμυνας των ΗΠΑ ενδιαφέρθηκε για την αναγνώριση φωνής. Η DARPA (Defense Advanced Research Projects Agency) ανέπτυξε το πρόγραμμα Speech Understanding Research (SUR) το 1971. Αυτό το πρόγραμμα παρείχε χρηματοδότηση σε πολλές εταιρείες και πανεπιστήμια για να βοηθήσει την έρευνα και την ανάπτυξη για την αναγνώριση φωνής.

Το 1976, λόγω του SUR, το Πανεπιστήμιο Carnegie Mellon ανέπτυξε το σύστημα Harpy. Αυτό ήταν ένα μεγάλο άλμα στην τεχνολογία αναγνώρισης φωνής. Τα συστήματα μέχρι εκείνο το σημείο ήταν σε θέση να κατανοήσουν λέξεις και αριθμούς, αλλά η Χάρπι ήταν μοναδική στο ότι μπορούσε να κατανοήσει πλήρεις προτάσεις.

Είχε ένα λεξιλόγιο περίπου 1.011 λέξεων, το οποίο, σύμφωνα με δημοσίευση του ΣΙ. Lowerre και R. Reddy, ισοδυναμεί με περισσότερες από ένα τρισεκατομμύριο διαφορετικές πιθανές προτάσεις. Στη συνέχεια, η δημοσίευση αναφέρει ότι η Harpy μπορούσε να καταλάβει λέξεις με ακρίβεια 93,77%.

Η δεκαετία του 1980 ήταν μια κομβική περίοδος για την τεχνολογία αναγνώρισης φωνής, καθώς αυτή είναι η δεκαετία όπου η φωνή τεχνολογία αναγνώρισης, καθώς αυτή ήταν η δεκαετία που μυηθήκαμε στη μέθοδο Hidden Markov (HMM). Η κύρια κινητήρια δύναμη πίσω από το HMM είναι πιθανότητα.

Κάθε φορά που ένα σύστημα καταγράφει ένα φώνημα (το μικρότερο στοιχείο της ομιλίας), υπάρχει μια συγκεκριμένη πιθανότητα ποια θα είναι η επόμενη. Το HMM χρησιμοποιεί αυτές τις πιθανότητες για να καθορίσει ποιο φώνημα πιθανότατα θα ακολουθήσει και θα σχηματίσει τις πιο πιθανές λέξεις. Τα περισσότερα συστήματα αναγνώρισης φωνής σήμερα εξακολουθούν να χρησιμοποιούν το HMM για την κατανόηση της ομιλίας.

Δεκαετία 1990: Η αναγνώριση φωνής φτάνει στην αγορά καταναλωτών

Από τη δημιουργία της τεχνολογίας αναγνώρισης φωνής, έχει ξεκινήσει ένα ταξίδι για να βρει χώρο στην καταναλωτική αγορά. Στη δεκαετία του 1980, η IBM παρουσίασε ένα πρωτότυπο υπολογιστή που μπορούσε να κάνει υπαγόρευση ομιλίας σε κείμενο. Ωστόσο, μόνο στις αρχές της δεκαετίας του 1990 οι άνθρωποι άρχισαν να βλέπουν εφαρμογές όπως αυτή στα σπίτια τους.

Το 1990, η Dragon Systems παρουσίασε το πρώτο λογισμικό υπαγόρευσης ομιλίας σε κείμενο. Ονομάστηκε Dragon Dictate και αρχικά κυκλοφόρησε για Windows. Αυτό το πρόγραμμα αξίας $ 9,000 ήταν επαναστατικό για να φέρει την τεχνολογία αναγνώρισης φωνής στις μάζες, αλλά υπήρχε ένα ελάττωμα. Το λογισμικό που χρησιμοποιήθηκε διακριτή υπαγόρευση, σημαίνει ότι ο χρήστης πρέπει να κάνει παύση μεταξύ κάθε λέξης για να το πάρει το πρόγραμμα.

Το 1996, η IBM συνέβαλε ξανά στη βιομηχανία με το Medspeak. Αυτό ήταν επίσης ένα πρόγραμμα υπαγόρευσης ομιλίας σε κείμενο, αλλά δεν έπασχε από διακριτική περιγραφή, όπως έκανε το Dragon Dictate. Αντ 'αυτού, αυτό το πρόγραμμα θα μπορούσε να υπαγορεύει συνεχή ομιλία, γεγονός που το έκανε πιο συναρπαστικό προϊόν.

Σχετίζεται με: Πώς να χρησιμοποιήσετε τον Βοηθό Google με ακουστικά

2010: Ένα κορίτσι με το όνομα Siri

Κατά τη διάρκεια της δεκαετίας του 2000, η τεχνολογία αναγνώρισης φωνής αυξήθηκε σε δημοτικότητα. Εφαρμόστηκε σε περισσότερο λογισμικό και υλικό από ποτέ, και ένα κρίσιμο βήμα στην εξέλιξη της αναγνώρισης φωνής ήταν ο Siri, ο ψηφιακός βοηθός. Το 2010, μια εταιρεία με το όνομα Siri παρουσίασε τον εικονικό βοηθό ως εφαρμογή iOS.

Εκείνη την εποχή, το Siri ήταν ένα εντυπωσιακό λογισμικό που μπορούσε να υπαγορεύσει αυτό που έλεγε ο ομιλητής και να δώσει μια μορφωμένη και πνευματώδη απάντηση. Αυτό το πρόγραμμα ήταν τόσο εντυπωσιακό που η Apple απέκτησε την εταιρεία την ίδια χρονιά και έδωσε μια μικρή αναθεώρηση στη Siri, ωθώντας την προς τον ψηφιακό βοηθό που γνωρίζουμε σήμερα.

Μέσω της Apple η Siri πήρε την εμβληματική φωνή της (φωνή της Susan Benett) και μια σειρά από νέα χαρακτηριστικά. Χρησιμοποιεί επεξεργασία φυσικής γλώσσας για τον έλεγχο των περισσότερων λειτουργιών του συστήματος.

Η δεκαετία του 2010: Οι Big 4 Assηφιακοί Βοηθοί

Ως έχει, τέσσερις μεγάλοι ψηφιακοί βοηθοί κυριαρχούν στην αναγνώριση φωνής και στο πρόσθετο λογισμικό.

Siri υπάρχει σχεδόν σε όλα τα προϊόντα της Apple: iPhone, iPod, iPad και την οικογένεια υπολογιστών Mac.
Βοηθός Google είναι παρούσα στις περισσότερες από τις 3 δισεκατομμύρια + συσκευές Android στην αγορά. Επιπλέον, οι χρήστες μπορούν να χρησιμοποιήσουν εντολές σε πολλές υπηρεσίες Google, όπως το Google Home.
Amazon Alexa δεν έχει πολύ αφιερωμένη πλατφόρμα όπου ζει, αλλά εξακολουθεί να είναι ένας εξέχων βοηθός. Είναι διαθέσιμο για λήψη και χρήση σε συσκευές Android, συσκευές Apple. και ακόμη και επιλεγμένους φορητούς υπολογιστές Lenovo
Bixby είναι η νεότερη εγγραφή στη λίστα ψηφιακών βοηθών. Είναι ο οικιακός ψηφιακός βοηθός της Samsung και υπάρχει ανάμεσα στα τηλέφωνα και τα tablet της εταιρείας.

Μια προφορική ιστορία

Η αναγνώριση φωνής έχει προχωρήσει πολύ από τις μέρες της Audrey. Έχει κάνει μεγάλα κέρδη σε πολλούς τομείς. για παράδειγμα, σύμφωνα με Clear Bridge Mobile, ο ιατρικός τομέας επωφελήθηκε από chatbots με φωνητική λειτουργία κατά τη διάρκεια της πανδημίας το 2020. Από την ικανότητα κατανόησης αριθμών έως την κατανόηση διαφορετικών παραλλαγών πλήρων προτάσεων, η αναγνώριση φωνής αποδεικνύεται ότι είναι μία από τις πιο χρήσιμες τεχνολογίες της σύγχρονης εποχής μας.

ΜερίδιοΤιτίβισμαΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ

Πώς λειτουργεί η αναγνώριση φωνής;

Χρησιμοποιούμε την αναγνώριση φωνής συνεχώς, αλλά πώς λειτουργεί;

Διαβάστε Επόμενο

Σχετικά θέματα

Η τεχνολογία εξηγείται
Siri
Βοηθός Google
Alexa
Bixby
Φωνητικές εντολές

Σχετικά με τον Συγγραφέα

Άρθουρ Μπράουν (Δημοσιεύθηκαν 31 άρθρα)

Ο Άρθουρ είναι δημοσιογράφος τεχνολογίας και μουσικός που ζει στην Αμερική. Βρίσκεται στον κλάδο για σχεδόν μια δεκαετία, έχοντας γράψει για διαδικτυακές εκδόσεις όπως τα Android Headlines. Έχει βαθιά γνώση Android και ChromeOS. Παράλληλα με τη συγγραφή ενημερωτικών άρθρων, είναι επίσης έμπειρος στην αναφορά τεχνολογικών ειδήσεων.

Περισσότερα από τον Arthur Brown

Εγγραφείτε στο newsletter μας

Εγγραφείτε στο ενημερωτικό μας δελτίο για τεχνικές συμβουλές, κριτικές, δωρεάν ebooks και αποκλειστικές προσφορές!

Κάντε κλικ εδώ για εγγραφή

About Technology - denizatm.com

Η αναγνώριση φωνής είναι φοβερή, αλλά πώς έγινε τόσο καλή;

1952: The Audrey System

1962: Shoebox της IBM

1971: Αυτόματη αναγνώριση κλήσεων της IBM

1976: Harpy

Δεκαετία 1990: Η αναγνώριση φωνής φτάνει στην αγορά καταναλωτών

2010: Ένα κορίτσι με το όνομα Siri

Η δεκαετία του 2010: Οι Big 4 Assηφιακοί Βοηθοί

Μια προφορική ιστορία

Εγγραφείτε στο newsletter μας

Κατηγορίες

Recent Post

Πώς να αλλάξετε τη φωτεινότητα του φακού στο Android

Πώς να αλλάξετε τη σελίδα έναρξης της Διαχείρισης εργασιών στα Windows 11

Retroid Pocket 3+: Η ρετρό κονσόλα παιχνιδιών σε μέγεθος τσάντας