Διαφήμιση

Μπορούμε να μιλήσουμε σχεδόν με όλα τα gadget μας τώρα, αλλά ακριβώς πώς λειτουργεί; Όταν ρωτάς "Ποιο τραγούδι είναι αυτό;" ή να πει "Call Mom", ένα θαύμα της σύγχρονης τεχνολογίας συμβαίνει. Και παρόλο που αισθάνεται ότι είναι στην κορυφή, αυτή η ιδέα να μιλάς σε συσκευές πηγαίνει πίσω δεκαετίες - σχεδόν όσο τα jetpacks στην επιστημονική φαντασία!

Σήμερα, το μεγαλύτερο μέρος της προσοχής που δίνεται στους υπολογιστές που βασίζονται σε φωνή είναι στα smartphones. Η Apple, η Amazon, η Microsoft και η Google βρίσκονται στην κορυφή της αλυσίδας, καθένα από τα οποία προσφέρει τον δικό της τρόπο να μιλάει με ηλεκτρονικά. Ξέρατε ποιοι είναι: Siri, Alexa, Cortana, και το όνομα "Ok, Google". Αυτό δημιουργεί μια μεγάλη ερώτηση ...

Πώς μια συσκευή παίρνει προφορικά λόγια και τα μετατρέπει σε εντολές που μπορεί να καταλάβει; Στην ουσία, καταλήγει σε αντιστοίχιση προτύπων και πραγματοποίηση προβλέψεων με βάση αυτά τα πρότυπα. Πιο συγκεκριμένα, η αναγνώριση φωνής είναι μια σύνθετη εργασία που προέρχεται από Ακουστική Μοντελοποίηση και Μοντελοποίηση γλωσσών.

instagram viewer

Ακουστική Μοντελοποίηση: Κυματομορφές & Τηλέφωνα

κυματομορφή

Η ακουστική μοντελοποίηση είναι η διαδικασία λήψης κυματομορφής ομιλίας και η ανάλυση της χρησιμοποιώντας στατιστικά μοντέλα. Η πιο συνηθισμένη μέθοδος για αυτό είναι Κρυμμένο μοντελοποίηση Markov, το οποίο χρησιμοποιείται σε αυτό που ονομάζεται προτυποποίηση προφοράς να σπάσει την ομιλία σε συστατικά μέρη που ονομάζονται τηλέφωνα (να μην συγχέεται με τις πραγματικές συσκευές τηλεφώνου). Η Microsoft υπήρξε κορυφαίος ερευνητής στον τομέα αυτό εδώ και πολλά χρόνια.

Hidden Markov Modeling: Πιθανότητες

Το κρυφό μοντέλο μοντέλο είναι ένα πρότυπο μαθηματικό μοντέλο όπου η τρέχουσα κατάσταση καθορίζεται με την ανάλυση της παραγωγής. Η Wikipedia έχει ένα καλό παράδειγμα χρησιμοποιώντας δύο φίλους.

Φανταστείτε δύο φίλους - Τοπικό φίλο και απομακρυσμένο φίλο - που ζουν σε διαφορετικές πόλεις. Ο Τοπικός φίλος θέλει να καταλάβει ποιος είναι ο καιρός για τον οποίο ζει το Remote Friend, αλλά ο Remote Friend θέλει μόνο να μιλήσει για αυτό που έκανε εκείνη την ημέρα: να περπατήσει, να ψωνίσει ή να καθαρίσει. Η πιθανότητα κάθε δραστηριότητας ανάλογα με τον καιρό της ημέρας.

Κρυμμένο μοντελοποίηση Markov

Προσποιείτε ότι αυτή είναι η μόνη διαθέσιμη πληροφορία. Με αυτό, ο Τοπικός φίλος μπορεί να βρει τάσεις σχετικά με το πώς αλλάζει ο καιρός από μέρα σε μέρα και χρησιμοποιώντας αυτές τις τάσεις, αυτή μπορεί να αρχίσει να κάνει εκπαιδευμένες εικασίες σχετικά με το πώς ο σημερινός καιρός θα βασίζεται στη δραστηριότητα του φίλου της χθες. (Μπορείτε να δείτε ένα διάγραμμα του συστήματος παραπάνω.)

Εάν θέλετε ένα πιο περίπλοκο παράδειγμα, ελέγξτε έξω αυτό το παράδειγμα στο Matlab. Στην αναγνώριση φωνής, αυτό το μοντέλο συγκρίνει ουσιαστικά κάθε τμήμα της κυματομορφής με αυτό που έρχεται πριν και τι έρχεται μετά και εναντίον λεξικού κυματομορφών για να καταλάβουμε τι λέγεται.

Ουσιαστικά, εάν κάνετε έναν "ουδέτερο" ήχο, θα ελέγξει τον ήχο ενάντια στους πιό πιθανοί ήχους που συνήθως έρχονται πριν και μετά από αυτό. Ίσως αυτό να σημαίνει τον έλεγχο του ήχου "e", του "στο" ήχου και ούτω καθεξής. Όταν το πρότυπο ταιριάζει σωστά, τότε έχει ολόκληρη τη λέξη σας. Πρόκειται για υπερβολική απλούστευση, αλλά μπορείτε να δείτε Η όλη εξήγηση της Microsoft εδώ.

Μοντελοποίηση γλώσσας: Περισσότερο από ήχο

Η ακουστική μοντελοποίηση συμβάλλει πολύ στην κατανόηση του υπολογιστή σας, αλλά τι γίνεται με τις ομώνυμες και περιφερειακές παραλλαγές της προφοράς; Αυτό είναι όπου η γλωσσική μοντελοποίηση μπαίνει στο παιχνίδι. Η Google έχει αναλάβει πολλές έρευνες σε αυτόν τον τομέα, κυρίως μέσω της χρήσης του N-Gram Μοντελοποίηση.

Όταν η Google προσπαθεί να καταλάβει την ομιλία σας, αυτό βασίζεται σε μοντέλα που προέρχονται από την τεράστια τράπεζά της Voice Search και τις μεταγραφές του YouTube. Όλες αυτές οι απίστευτα λανθασμένες λεζάντες βίντεο βοήθησαν πραγματικά την Google να εξελίξει τα λεξικά τους. Επίσης, χρησιμοποίησαν τους αναχωρημένους GOOG-411 να συλλέξει πληροφορίες για το πώς μιλούν οι άνθρωποι.

shutterstock_70757203

Όλη αυτή η συλλογή γλωσσών δημιούργησε μια τεράστια ποικιλία προφορών και διαλέκτων, που έκαναν για ένα στιβαρό λεξικό λέξεων και πώς ακούγονται. Αυτό επιτρέπει σε αγώνες που έχουν πολύ μειωμένο ρυθμό σφάλματος από ό, τι η ωμική αντιστοίχιση δυνάμεων βάσει ακαθάριστων πιθανοτήτων. Μπορείτε να διαβάσετε ένα σύντομο χαρτί περιγράφοντας τις μεθόδους τους εδώ.

Ενώ η Google είναι ηγέτης στον τομέα αυτό, υπάρχουν και άλλα μαθηματικά μοντέλα που αναπτύσσονται, συμπεριλαμβανομένου του συνεχούς χώρου μοντέλα και μοντέλα γλωσσών θέσης, τα οποία είναι πιο προηγμένες τεχνικές που προέρχονται από την έρευνα στην τεχνητή νοημοσύνη. Αυτές οι μέθοδοι βασίζονται στην αναπαραγωγή του είδους λογικής που κάνουν οι άνθρωποι όταν ακούνε ο ένας τον άλλον. Αυτά είναι πολύ πιο προηγμένα τόσο από την άποψη της τεχνολογίας πίσω από αυτά, αλλά και από τα μαθηματικά και τον προγραμματισμό που απαιτούνται για τη χαρτογράφηση αυτών των μοντέλων.

N-Gram Μοντελοποίηση: Η πιθανότητα πληροί τη μνήμη

Το N-gram Modeling λειτουργεί με βάση τις πιθανότητες, αλλά χρησιμοποιεί ένα υπάρχον λεξικό λέξεων για να δημιουργήσει ένα διακλαδισμένο δέντρο των δυνατοτήτων, το οποίο στη συνέχεια εξομαλύνεται για λόγους αποτελεσματικότητας. Κατά κάποιο τρόπο, αυτό σημαίνει ότι η Μοντελοποίηση N-Gram απομακρύνει πολύ από την αβεβαιότητα στο προαναφερθέν Κρυμμένο Μάρκο Μοντελοποίηση.

Όπως σημειώθηκε παραπάνω, η δύναμη αυτής της μεθόδου προέρχεται από το να έχει ένα μεγάλο λεξικό λόγια και χρήση, όχι μόνο πρωτόγονο ήχους. Αυτό δίνει στο πρόγραμμα την ικανότητα να λέει τη διαφορά μεταξύ ομοφώνων, όπως "beat" και "τεύτλων". Είναι συμφραζόμενη, πράγμα που σημαίνει ότι όταν μιλάτε για σκορ χθες το βράδυ, το πρόγραμμα δεν τραβάει λόγια για το μπορς.

Αλλά αυτά τα μοντέλα στην πραγματικότητα δεν είναι τα καλύτερα για τη γλώσσα, κυρίως λόγω των προβλημάτων με τις πιθανότητες των λέξεων σε μεγαλύτερες φράσεις. Καθώς προσθέτετε περισσότερες λέξεις σε μια πρόταση, αυτό το μοντέλο παίρνει ένα κομμάτι, καθώς οι πρώτες λέξεις σας είναι απίθανο να έχουν φορτώσει όλα όσα χρειάζονται για την πλήρη σκέψη σας.

Ωστόσο, είναι απλό και εύκολο στην εφαρμογή, καθιστώντας το ένα μεγάλο αγώνα για μια εταιρεία όπως η Google που απολαμβάνει να ρίχνει servers σε υπολογιστικά προβλήματα. Μπορείτε να κάνετε περαιτέρω ανάγνωση στο N-gram Modelieng στο University of Washington, ή μπορείτε να παρακολουθήσετε ένα διάλεξη στη Coursera.

Φωνάζοντας στα σύννεφα: Εφαρμογές και συσκευές

Όποιος χρησιμοποιεί το Siri γνωρίζει την απογοήτευση μιας αργής σύνδεσης δικτύου. Αυτό οφείλεται στο γεγονός ότι οι εντολές σας προς το Siri στέλνονται μέσω του δικτύου για να αποκωδικοποιηθούν από την Apple. Το τηλέφωνο Cortana για Windows απαιτεί επίσης να λειτουργεί σωστά η σύνδεση δικτύου. Αντίθετα, όμως, η Echo του Amazon είναι απλά ένα ηχείο Bluetooth χωρίς κανένα Internet.

Γιατί η διαφορά; Επειδή το Siri και η Cortana χρειάζονται διακομιστές βαρέως τύπου για να αποκωδικοποιήσουν την ομιλία σας. Θα μπορούσε να γίνει στο τηλέφωνο ή στο tablet σας; Σίγουρα, θα σκοτώνατε την απόδοση και τη διάρκεια ζωής της μπαταρίας στη διαδικασία. Είναι πολύ πιο λογικό να ξεφορτωθεί την επεξεργασία σε ειδικά μηχανήματα.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Σκεφτείτε με αυτό τον τρόπο: η εντολή σας είναι ένα αυτοκίνητο κολλημένο στη λάσπη. Θα μπορούσατε πιθανώς να το σπρώξετε με αρκετό χρόνο και προσπάθεια, αλλά θα χρειαστούν ώρες και θα σας εξαντλήσουν. Αντ 'αυτού, ονομάζετε οδική βοήθεια και τραβούν το αυτοκίνητό σας μέσα σε λίγα λεπτά. Το μειονέκτημα είναι ότι πρέπει να κάνετε την κλήση και να περιμένετε για αυτά, αλλά είναι ακόμα ταχύτερη και λιγότερη φορολόγηση.

Επιτραπέζια μοντέλα όπως η Nuance τείνουν να χρησιμοποιούν τοπικούς πόρους λόγω του ισχυρότερου υλικού. Μετά από όλα, με τα λόγια του Steve Jobs, σας Η επιφάνεια εργασίας είναι φορτηγό. (Αυτό το κάνει λίγο ανόητο που χρησιμοποιεί το OS X διακομιστές για την επεξεργασία τους. Έτσι, όταν χρειάζεται να επεξεργαστείτε τη γλώσσα και τη φωνή, είναι ήδη εξοπλισμένο αρκετά καλά για να το χειριστεί μόνη της.

Από την άλλη πλευρά, το Android επιτρέπει στους προγραμματιστές να συμπεριλαμβάνουν την αναγνώριση ομιλίας εκτός σύνδεσης στις εφαρμογές τους. Η Google αρέσει να προχωράει στην τεχνολογία και μπορείτε να ποντάρετε ότι οι άλλες πλατφόρμες θα αποκτήσουν αυτή την ικανότητα καθώς το υλικό τους θα γίνει πιο ισχυρό. Κανείς δεν του αρέσει όταν η κακή κάλυψη ή η κακή λήψη δέχεται τη συσκευή τους.

Αρχίστε να χρησιμοποιείτε τις εντολές φωνής τώρα

Τώρα που γνωρίζετε τις θεμελιώδεις έννοιες, πρέπει να παίζετε με τις διάφορες συσκευές σας. Δοκιμάστε το νέο φωνητική πληκτρολόγηση στα Έγγραφα Google Πώς η φωνητική πληκτρολόγηση είναι η νέα καλύτερη λειτουργία των Εγγράφων GoogleΗ αναγνώριση φωνής έχει βελτιωθεί με άλματα τα τελευταία χρόνια. Νωρίτερα αυτή την εβδομάδα, η Google εισήγαγε τελικά τη φωνητική πληκτρολόγηση στα Έγγραφα Google. Αλλά είναι καλό; Ας ανακαλύψουμε! Διαβάστε περισσότερα . Όπως και αν η σουίτα γραφείου Web δεν ήταν ήδη αρκετά ισχυρή, ο φωνητικός έλεγχος σάς επιτρέπει να υπαγορεύσετε και να μορφοποιήσετε τελείως τα έγγραφά σας. Αυτό επεκτείνεται στην ισχυρή τεχνολογία που έχουν ήδη σχεδιαστεί για το Chrome και το Android.

Άλλες ιδέες περιλαμβάνουν τη δημιουργία του Mac για χρήση φωνητικών εντολών Πώς να χρησιμοποιήσετε τις εντολές ομιλίας στο Mac σας Διαβάστε περισσότερα και να ρυθμίσετε το δικό σας Amazon Echo με αυτοματοποιημένο checkout Πώς η Amazon Echo μπορεί να κάνει το σπίτι σας ένα έξυπνο σπίτιΗ έξυπνη οικιακή τεχνολογία είναι ακόμα στις πρώτες της μέρες, αλλά ένα νέο προϊόν από το Amazon που ονομάζεται "Echo" μπορεί να βοηθήσει να το φέρει στο mainstream. Διαβάστε περισσότερα . Ζήστε στο μέλλον και αγκαλιάστε να μιλάτε με τα gadget σας - ακόμα κι αν απλά παραγγέλνετε περισσότερες χαρτοπετσέτες. Εάν είστε έτοιμος για smartphone, έχουμε επίσης εκπαιδευτικά σεμινάρια για Siri 8 πράγματα που πιθανώς δεν συνειδητοποίησε ότι θα μπορούσε να κάνει το SiriΤο Siri έχει γίνει ένα από τα καθοριστικά χαρακτηριστικά του iPhone, αλλά για πολλούς ανθρώπους, δεν είναι πάντα το πιο χρήσιμο. Ενώ μερικά από αυτά οφείλονται στους περιορισμούς της φωνητικής αναγνώρισης, η περίεργη χρήση της ... Διαβάστε περισσότερα , Cortana 6 πιο cool πράγματα που μπορείτε να ελέγξετε με την Cortana στα Windows 10Η Cortana μπορεί να σας βοηθήσει να πάτε hands-free στα Windows 10. Μπορείτε να την αφήσετε να κάνει αναζήτηση στα αρχεία σας και στον ιστό, να κάνει υπολογισμούς ή να τραβήξει την πρόγνωση του καιρού. Εδώ καλύπτουμε μερικές από τις πιο δροσερές ικανότητες της. Διαβάστε περισσότερα , και Android Εντάξει, Google: 20 χρήσιμα πράγματα που μπορείτε να πείτε στο τηλέφωνο Android σαςΟ Βοηθός Google μπορεί να σας βοηθήσει να κάνετε πολλά στο τηλέφωνό σας. Εδώ είναι ένα σωρό βασικές αλλά χρήσιμες OK εντολές Google για να δοκιμάσετε. Διαβάστε περισσότερα .

Ποια είναι η αγαπημένη σας χρήση του φωνητικού ελέγχου; Ενημερώστε μας στα σχόλια.

Συντελεστές εικόνας: T-flex μέσω του Shutterstock, Terencehonles μέσω του Ιδρύματος Wikimedia, Κράτος της Αριζόνα, Σχέδια Cienpies μέσω του Shutterstock

Ο Michael δεν χρησιμοποίησε έναν Mac όταν ήταν καταδικασμένοι, αλλά μπορεί να κωδικοποιήσει το Applescript. Έχει πτυχίο στην Πληροφορική και στα Αγγλικά. γράφει για Mac, iOS και video games για λίγο. και είναι ένας μαϊμού IT για πάνω από μια δεκαετία, που ειδικεύεται σε scripting και virtualization.