Η ανίχνευση φράσεων είναι μόνο μέρος της διαδικασίας.

Φωνάζοντας "Ok Google" από όλη την αίθουσα για να αλλάξετε τη μουσική ή να σβήσετε τα φώτα σε ένα δωμάτιο σίγουρα αισθάνεστε απίστευτο, αλλά αυτή η φαινομενικά απλή διαδικασία τροφοδοτείται από έναν περίπλοκο ιστό τεχνολογιών που λειτουργούν πίσω από το σκηνές.

Σχεδόν κάθε σημαντικός εικονικός βοηθός στην αγορά έχει μια φράση κλήσης που χρησιμοποιείτε για να ξυπνήσετε τον βοηθό και να συνομιλήσετε. Πώς καταλαβαίνουν όμως οι βοηθοί φωνής πότε τους μιλάτε;

Πώς λειτουργεί η ανίχνευση φράσεων;

Όπως αναφέρθηκε παραπάνω, κάθε φωνητικός βοηθός έχει μια "φράση ενεργοποίησης" ή μια λέξη αφύπνισης που χρησιμοποιείτε για να αφυπνίσετε τον βοηθό και να δώσετε περαιτέρω εντολές. Η διαδικασία ανίχνευσης αυτής της φράσης είναι λίγο πολύ η ίδια με κάθε βοηθό, εκτός από μικρές αποχρώσεις. Τούτου λεχθέντος, αυτές οι αποχρώσεις μπορεί να σημαίνουν τη διαφορά μεταξύ της απλής έκφρασης της εντολής αφύπνισης και της πολλαπλής φωνής της φορές μόνο για να συνεχίσει να κοιμάται ο βοηθός, κάτι που μπορεί να είναι πραγματικά ενοχλητικό μερικές φορές, ειδικά αν κοιμάστε

χρησιμοποιώντας τον φωνητικό βοηθό σας για να ηρεμήσετε.

Πίστωση εικόνας: graphicsstudio/Vecteezy

Γενικά, τα περισσότερα «έξυπνα» ηχεία έχουν ένα μικρό κύκλωμα του οποίου η μόνη δουλειά είναι να ανιχνεύει την εντολή αφύπνισης και μετά να θέτει σε λειτουργία το υπόλοιπο υλικό. Το μεγαλύτερο μέρος της επεξεργασίας γίνεται στο cloud, αλλά η ανίχνευση φράσης είναι στη συσκευή για προφανείς λόγους απορρήτου. Ο εντοπισμός φράσεων στα τηλέφωνα λειτουργεί λίγο πολύ με τον ίδιο τρόπο.

Οι λεπτομέρειες είναι ως επί το πλείστον κρυφές, αλλά αυτά τα συστήματα ανίχνευσης χρησιμοποιούν μηχανική μάθηση και βαθιά νευρωνικά δίκτυα (DNN) για να εκπαιδεύσουν μοντέλα AI ώστε να ανιχνεύουν τη φωνή σας και να σχηματίζουν ένα κλειδί. Αυτό το κλειδί χρησιμοποιείται στη συνέχεια για να επαληθεύσει πότε έχετε πει μια συγκεκριμένη φράση και οτιδήποτε άλλο αποστέλλεται στο cloud για περαιτέρω επεξεργασία.

Βοηθός Google

Τα τηλέφωνα που υποστηρίζουν τον εντοπισμό "OK Google" συνήθως συνοδεύονται από ένα σύστημα εντοπισμού λέξεων-κλειδιών (KWS) που εντοπίζει τη φράση και, στη συνέχεια, διορθώνει το υπόλοιπο ερώτημά σας στο cloud. Δεδομένου ότι οι κινητές συσκευές έχουν περιορισμένη υπολογιστική ισχύ, καθώς και περιορισμούς στη διάρκεια ζωής της μπαταρίας, αυτά τα συστήματα δεν είναι συνήθως τόσο καλά όσο αυτά που θα βρείτε στα ηχεία Google Nest.

Αυτό το σύστημα KWS στη συσκευή λαμβάνει συνεχώς ήχο από τα μικρόφωνα της συσκευής και ξεκινά μια σύνδεση με τον διακομιστή όταν ανιχνεύει μια φράση ενεργοποίησης. Η Google χρησιμοποιεί επίσης τη Συμφραζόμενη Αυτόματη Αναγνώριση Ομιλίας (ASR) από την πλευρά του διακομιστή για να βελτιώσει τη συνολική ακρίβεια του συστήματος KWS της. Μπορείτε να διαβάσετε περισσότερα για αυτό στο Ερευνητικό έγγραφο της Google [PDF].

Siri

Το Siri λειτουργεί το ίδιο με το Google Assistant όσον αφορά την ανίχνευση "Hey Siri". Η Apple είναι απροσδόκητα ανοιχτή για το πώς λειτουργεί το σύστημα, το οποίο περιλαμβάνει έναν "πολύ μικρό" αναγνωριστικό ομιλίας που τρέχει στο παρασκήνιο και ακούει μόνο αυτές τις δύο λέξεις. Αυτός ο ανιχνευτής χρησιμοποιεί ένα DNN για να μετατρέψει το ακουστικό μοτίβο της φωνής σας που καταγράφεται σε κάθε εμφάνιση σε κατανομή πιθανότητας στους ήχους ομιλίας, δημιουργώντας ουσιαστικά μια βαθμολογία εμπιστοσύνης.

Το iPhone ή το Apple Watch σας το κάνει αυτό αλλάζοντας τη φωνή σας σε μια ροή δειγμάτων κυματομορφής με ρυθμό 16.000 ανά δευτερόλεπτο. Αυτό στη συνέχεια περιορίζεται σε μια ακολουθία καρέ που καλύπτουν ένα φάσμα ήχου περίπου 0,01 δευτερολέπτων. Στη συνέχεια, συνολικά 20 από αυτά τα πλαίσια τροφοδοτούνται στο μοντέλο ανίχνευσης, το οποίο μετατρέπει αυτά τα μοτίβα σε πιθανότητα.

Πίστωση εικόνας: μήλο

Εάν το σύστημα καθορίσει με αρκετή σιγουριά ότι είπατε "Hey Siri", η Siri ξυπνά και στέλνει τα υπόλοιπα του ερωτήματος στο σύννεφο, όπου πραγματοποιείται περαιτέρω ανάλυση και λαμβάνει οποιαδήποτε ενέργεια ζητήσατε εκτελούνται.

Φυσικά, προστίθενται πρόσθετα μέτρα για τη διασφάλιση της απόδοσης της μνήμης και της μπαταρίας. Ο Always On Processor (AOP) του iPhone σας έχει πρόσβαση στα μικρόφωνα της συσκευής (σε iPhone 6S και μεταγενέστερα) για αυτόν ακριβώς τον λόγο και ένα μικρό μέρος της επεξεργαστικής του ισχύος δεσμεύεται για την εκτέλεση του DNN. Η Apple κάνει μια βαθιά βουτιά σε ολόκληρο το σύστημα στον ιστότοπο μηχανικής εκμάθησης, μηχανική μάθηση.μήλο.

Alexa

Όπως το Google Assistant και το Siri, η Alexa επίσης δεν διαθέτει το μεγαλύτερο μέρος της επεξεργαστικής της ισχύος σε κανένα από τα ηχεία Echo που μπορείτε να αγοράσετε. Αντίθετα, οι ομιλητές χρησιμοποιούν αυτό που η Amazon αποκαλεί Automatic Speech Recognition (ASR) που ουσιαστικά μετατρέπει τις προφορικές λέξεις σε κείμενο, επιτρέποντας στο υποκείμενο σύστημα να τις ερμηνεύει και να ενεργεί ανάλογα.

Το ASR αποτελεί τη βασική βάση του πώς λειτουργεί η Alexa. Για άλλη μια φορά, υπάρχει ένα ενσωματωμένο σύστημα που ακούει τις αφυπνιστικές λέξεις, σε αυτήν την περίπτωση, "Alexa", "Amazon", "Echo" ή "Computer" και ενεργοποιεί το υπόλοιπο σύστημα όταν η λέξη αφύπνισης που έχει προκαθοριστεί από τον χρήστη είναι εντοπιστεί. Μπορείτε ακόμη και αφυπνίστε τη συσκευή σας Alexa χρησιμοποιώντας "Hey Disney" αν θέλεις.

Όπως και ο Βοηθός Google, μπορείτε να εκπαιδεύσετε το υποκείμενο μοντέλο AI της Alexa για να ανιχνεύει καλύτερα τη φωνή σας. Αυτή η διαδικασία περιλαμβάνει τη δημιουργία ενός "κλειδιού" βασικής γραμμής με το οποίο συγκρίνεται η προφορική λέξη αφύπνισης και όταν βρεθεί μια αντιστοιχία, η συσκευή ανταποκρίνεται ανάλογα.

Οι Βοηθοί φωνής ακούνε πάντα;

Όπως πιθανότατα μπορείτε ήδη να μαντέψετε, ναι, είναι. Δεν υπάρχει περίπτωση να μπορέσουν να ανιχνεύσουν τις αφυπνιστικές λέξεις διαφορετικά. Ωστόσο, δεν χρειάζεται ακόμα να πετάξετε όλα τα έξυπνα ηχεία σας λόγω ανησυχιών σχετικά με το απόρρητο.

Ακούγοντας όλα όσα λένε οι χρήστες, στέλνοντάς τα πίσω σε έναν απομακρυσμένο διακομιστή και αναλύοντας (ή αποθηκεύοντάς τα) απαιτεί τεράστιο υλικό και οικονομικούς πόρους σε σημείο που δεν βγάζει νόημα από πρακτικό προοπτική. Προσθέστε σε αυτό τις τεράστιες ανησυχίες για το απόρρητο που αντιμετωπίζουν ήδη εταιρείες όπως η Google, η Apple και η Amazon, και η ιδέα δεν έχει νόημα.

Αυτό επηρεάζει επίσης σε μεγάλο βαθμό την απόδοση και τη διάρκεια ζωής της μπαταρίας των τηλεφώνων με τις λειτουργίες ανίχνευσης λέξης αφύπνισης, κυρίως τα Google Pixel και τα iPhone. Εάν το τηλέφωνό σας ακούει συνεχώς αυτό που λέτε και στέλνει αυτόν τον ήχο πίσω σε έναν απομακρυσμένο διακομιστή, θα τροφοδοτήσει την μπαταρία σας και θα χτυπήσει την απόδοση της συσκευής.

Ποιος έχει τον πιο αποτελεσματικό εντοπισμό φράσεων και γιατί;

Δεν είναι εύκολο να συγκρίνει κανείς αντικειμενικά ποιος εικονικός βοηθός έχει την καλύτερη ανίχνευση φράσεων αντικειμενικά, καθώς όλοι χρησιμοποιούν ελαφρώς διαφορετικές υλοποιήσεις της ίδιας συνολικής ιδέας. Ωστόσο, η Google φαίνεται να έχει πιο συνεπή ανίχνευση φράσης λόγω της πρώτης εκκίνησης του Google Assistant σε σύγκριση με το Siri και την Alexa.

Παρά το γεγονός ότι οι εφαρμογές που χρησιμοποιούν μοντέλα μεγάλων γλωσσών (LLM) όπως το ChatGPT και το Bing Chat γίνονται mainstream, το Google Assistant διατηρεί τη θέση του ως ένα από τα πιο δημοφιλείς εικονικοί βοηθοί απλώς και μόνο επειδή είναι ένα πάτημα μακριά σε κάθε συσκευή Android, από έξυπνες τηλεοράσεις μέχρι στερεοφωνικά συστήματα αυτοκινήτου και φυσικά smartphone.

Η Siri και η Alexa έχουν να καλύψουν τη διαφορά σε αυτό το τμήμα, αλλά όσον αφορά την ανίχνευση φράσεων, δεν είναι τόσο μακριά. Ωστόσο, θα έχετε περισσότερες πιθανότητες να ξυπνήσετε τον Βοηθό Google στο Pixel σας από όλη την αίθουσα από ό, τι θα κάνατε με το Siri στο iPhone σας, αν και μπορείτε ενισχύστε τις δυνατότητες του Siri με τη λειτουργία Super Siri. Δεδομένου ότι η Alexa χρησιμοποιείται ως επί το πλείστον στη σειρά ηχείων Echo της Amazon, έχει ένα μικρό πλεονέκτημα εδώ, δεδομένου ότι αυτά τα ηχεία έχουν σχεδιαστεί για να μπορούν να πάρουν τη φωνή του χρήστη.

Το AI είναι τόσο τρομακτικό όσο και βολικό

Η κλήση του βοηθού AI μόνο με τη φωνή σας μπορεί να είναι πολύ χρήσιμη. Για ένα χαρακτηριστικό που ενσωματώνεται απρόσκοπτα στη ζωή μας, πολλά συμβαίνουν στα παρασκήνια που οι περισσότεροι από εμάς συχνά δεν τα σκεφτόμαστε.

Τούτου λεχθέντος, αυτή η ευκολία φέρνει μαζί της και την ανησυχία της συσκευής σας να ακούει πάντα αυτό που λέτε. Μέχρι στιγμής, οι συσκευές αναγνώρισης ομιλίας στη συσκευή και οι λέξεις αφύπνισης βρίσκονται ανάμεσα σε αυτό που ακούει ο εικονικός σας βοηθός και σε αυτό που λέτε.