8 βασικοί παράγοντες που πρέπει να λάβετε υπόψη κατά τη δοκιμή ακρίβειας Chatbots AI

Μπορείτε να δοκιμάσετε διαφορετικά chatbots AI για να προσδιορίσετε ποιο λειτουργεί καλύτερα. Αλλά πώς πρέπει να το κάνετε αυτό; Ακολουθούν ορισμένοι βασικοί παράγοντες που πρέπει να λάβετε υπόψη.

Η τεχνητή νοημοσύνη έχει προχωρήσει πολύ από την παραγωγή άσχετου, ασυνάρτητου προϊόντος. Τα σύγχρονα chatbot χρησιμοποιούν προηγμένα μοντέλα γλώσσας που απαντούν σε ερωτήσεις γενικής γνώσης, συνθέτουν εκτενείς εργασίες και γράφουν κώδικα, μεταξύ άλλων πολύπλοκων εργασιών.

Παρά αυτές τις εξελίξεις, σημειώστε ότι ακόμη και τα πιο εξελιγμένα συστήματα έχουν περιορισμούς. Το AI εξακολουθεί να κάνει λάθη. Για να προσδιορίσετε ποια chatbots είναι λιγότερο επιρρεπή σε παραισθήσεις, ελέγξτε την ακρίβειά τους με βάση αυτούς τους παράγοντες.

1. Αριθμητική

Εκτελέστε μαθηματικές εξισώσεις μέσω chatbots. Θα δοκιμάσουν την ικανότητα της πλατφόρμας να αναλύει προβλήματα λέξεων, να μεταφράζει μαθηματικές έννοιες και να εφαρμόζει σωστούς τύπους. Μόνο λίγα μοντέλα επιδεικνύουν αξιόπιστη αριθμητική. Στην πραγματικότητα, ένα από τα

instagram viewer

Τα χειρότερα προβλήματα του ChatGPT κατά τη διάρκεια οι πρώτοι μήνες του ήταν η τρομερή του κατανόηση των μαθηματικών.

Η παρακάτω εικόνα δείχνει ότι το ChatGPT αποτυγχάνει στα βασικά στατιστικά.

Το ChatGPT έδειξε βελτίωση μετά Το OpenAI παρουσίασε τις ενημερώσεις του Μαΐου 2023. Ωστόσο, λαμβάνοντας υπόψη τα περιορισμένα σύνολα δεδομένων του, θα εξακολουθείτε να αντιμετωπίζετε προβλήματα με μεσαίους έως προχωρημένους μαθηματικούς υπολογισμούς.

Εν τω μεταξύ, το Bing Chat και το Google Bard δείχνουν καλύτερη αριθμητική. Εκτελούν ερωτήματα μέσω των αντίστοιχων μηχανών αναζήτησής τους, δίνοντάς τους τη δυνατότητα να αντλούν τύπους και φύλλα απαντήσεων.

Προσπαθήστε να αναδιατυπώσετε τα λεκτικά σας προβλήματα. Αποφύγετε τις μεγάλες προτάσεις και αντικαταστήστε τα αδύναμα ρήματα. Διαφορετικά, τα chatbots ενδέχεται να παρεξηγήσουν τις ερωτήσεις σας.

2. Κατανόηση

Τα σύγχρονα συστήματα AI μπορούν να αναλάβουν πολλαπλές εργασίες. Τα προηγμένα LLM τους επιτρέπουν να διατηρούν προηγούμενες οδηγίες και να απαντούν στις προτροπές ανά ενότητα, ενώ τα παλαιότερα συστήματα επεξεργάζονται μοναδικές εντολές. Για παράδειγμα, η Siri απαντά μία ερώτηση τη φορά.

Τροφοδοτήστε chatbots τρεις έως πέντε εργασίες ταυτόχρονα για να ελέγξετε πόσο καλά αναλύουν πολύπλοκα μηνύματα. Τα λιγότερο εξελιγμένα μοντέλα δεν μπορούν να επεξεργαστούν τόσες πολλές πληροφορίες. Η παρακάτω εικόνα δείχνει ότι το HuggingChat δυσλειτουργεί σε μια προτροπή τριών βημάτων—σταματά στο πρώτο βήμα και αποκλίνει από το θέμα.

Οι τελευταίες γραμμές του HuggingChat είναι ήδη ασυνάρτητες.

Το ChatGPT ολοκληρώνει γρήγορα την ίδια προτροπή, δημιουργώντας έξυπνες απαντήσεις χωρίς σφάλματα σε κάθε βήμα.

Το Bing Chat παρέχει μια συνοπτική απάντηση στα τρία βήματα. Οι άκαμπτοι περιορισμοί του απαγορεύουν τις άσκοπες μεγάλες εκροές που σπαταλούν την ισχύ επεξεργασίας.

3. Επικαιρότητα

Δεδομένου ότι η εκπαίδευση AI κοστίζει τεράστιους πόρους, οι περισσότεροι προγραμματιστές περιορίζουν τα σύνολα δεδομένων σε συγκεκριμένες περιόδους. Πάρτε ως παράδειγμα το ChatGPT. Έχει όριο γνώσεων τον Σεπτέμβριο του 2021—δεν μπορείτε να ζητήσετε ενημερώσεις για τον καιρό, αναφορές ειδήσεων ή πρόσφατες εξελίξεις. Εδώ το ChatGPT λέει ότι δεν έχει πρόσβαση σε πληροφορίες σε πραγματικό χρόνο.

Ο Bard έχει πρόσβαση στο διαδίκτυο. Αντλεί δεδομένα από τα SERP της Google, ώστε να μπορείτε να κάνετε ένα ευρύτερο φάσμα ερωτήσεων, π.χ. πρόσφατα γεγονότα, ειδήσεις και προβλέψεις.

Ομοίως, το Bing Chat αντλεί πληροφορίες σε πραγματικό χρόνο από τη μηχανή αναζήτησής του.

Το Bing Chat και το Bard παρέχουν έγκαιρες, ενημερωμένες πληροφορίες, αλλά το τελευταίο παρέχει πιο λεπτομερείς απαντήσεις. Το Bing απλώς παρουσιάζει τα δεδομένα ως έχουν. Θα παρατηρήσετε ότι οι εξόδους του ταιριάζουν συχνά με τη φράση και τον τόνο των συνδεδεμένων πηγών του κατά λέξη.

4. Συνάφεια

Τα chatbots πρέπει να παρέχουν σχετικά αποτελέσματα. Θα πρέπει να λαμβάνουν υπόψη την κυριολεκτική και συμφραζόμενη σημασία των μηνυμάτων σας όταν απαντούν. Πάρτε για παράδειγμα αυτή τη συζήτηση. Η προσωπικότητά μας χρειάζεται ένα νέο τηλέφωνο, αλλά έχει μόνο 1.000 $—Το ChatGPT δεν υπερβαίνει τον προϋπολογισμό.

Κατά τη δοκιμή συνάφειας, δοκιμάστε να δημιουργήσετε μακροσκελείς οδηγίες. Τα λιγότερο εξελιγμένα chatbots τείνουν να εμφανίζονται σε μια εφαπτομένη όταν δίνονται συγκεχυμένες οδηγίες. Για παράδειγμα, το HuggingChat μπορεί να συνθέσει φανταστικές ιστορίες. Αλλά μπορεί να αποκλίνει από το κύριο θέμα εάν ορίσετε πάρα πολλούς κανόνες και οδηγίες.

5. Μνήμη συμφραζομένων

Η μνήμη συμφραζομένων βοηθά το AI να παράγει ακριβή, αξιόπιστα αποτελέσματα. Αντί να δέχονται τις ερωτήσεις σας στην ονομαστική τους αξία, συνδυάζουν τις λεπτομέρειες που αναφέρετε. Πάρτε για παράδειγμα αυτή τη συζήτηση. Το Bing Chat συνδέει δύο ξεχωριστά μηνύματα για να σχηματίσει μια χρήσιμη, συνοπτική απάντηση.

Ομοίως, η μνήμη συμφραζομένων επιτρέπει στα chatbot να θυμούνται οδηγίες. Αυτή η εικόνα δείχνει το ChatGPT να μιμείται τον τρόπο που μιλάει ένας φανταστικός χαρακτήρας σε πολλές συνομιλίες.

Δοκιμάστε αυτή τη συνάρτηση μόνοι σας, αναφέροντας με συνέπεια προηγούμενες δηλώσεις. Τροφοδοτήστε τα chatbots διάφορες πληροφορίες και, στη συνέχεια, αναγκάστε τα να τις ανακαλέσουν σε μεταγενέστερες απαντήσεις.

Η μνήμη συμφραζομένων είναι περιορισμένη. Το Bing Chat ξεκινά νέες συνομιλίες κάθε 20 στροφές, ενώ το ChatGPT δεν μπορεί να επεξεργαστεί προτροπές πάνω από 3.000 διακριτικά.

6. Περιορισμοί Ασφαλείας

Το AI δεν λειτουργεί πάντα όπως προβλέπεται. Η λανθασμένη εκπαίδευση μπορεί να προκαλέσει τεχνολογίες μηχανικής μάθησης για τη διάπραξη διαφόρων λαθών, από μικρά μαθηματικά λάθη μέχρι προβληματικά σχόλια. Παίρνω Microsoft Tay ως παράδειγμα. Οι χρήστες του Twitter εκμεταλλεύτηκαν το μοντέλο μάθησης χωρίς επίβλεψη και το υποχρέωσαν να λέει φυλετικές προσβολές.

Ευτυχώς, οι παγκόσμιοι ηγέτες της τεχνολογίας έμαθαν από την γκάφα της Microsoft. Αν και οικονομικά αποδοτική και βολική, η μάθηση χωρίς επίβλεψη αφήνει τα συστήματα AI επιρρεπή στην εξαπάτηση. Ως εκ τούτου, οι προγραμματιστές βασίζονται κυρίως στην εποπτευόμενη μάθηση στις μέρες μας. Τα chatbot αρέσει Το ChatGPT εξακολουθεί να μαθαίνει από τις συνομιλίες, αλλά οι εκπαιδευτές τους φιλτράρουν πρώτα τις πληροφορίες.

Αναμένετε διαφορετικές οδηγίες από εταιρείες τεχνητής νοημοσύνης. Οι λιγότερο άκαμπτοι περιορισμοί του ChatGPT εξυπηρετούν ένα ευρύτερο φάσμα εργασιών, αλλά είναι αδύναμοι έναντι της εκμετάλλευσης. Εν τω μεταξύ, το Bing Chat ακολουθεί αυστηρότερα όρια. Ενώ βοηθούν στην καταπολέμηση των προσπαθειών εκμετάλλευσης, εμποδίζουν επίσης τη λειτουργικότητα. Το Bing τερματίζει αυτόματα τις δυνητικά επιβλαβείς συνομιλίες.

7. Προκαταλήψεις AI

Το AI είναι εγγενώς ουδέτερο. Η έλλειψη προτιμήσεων και συναισθημάτων το καθιστά ανίκανο να σχηματίσει απόψεις - απλώς παρουσιάζει πληροφορίες που γνωρίζει. Δείτε πώς το ChatGPT ανταποκρίνεται σε υποκειμενικά θέματα.

Παρά αυτή την ουδετερότητα, Προκαταλήψεις AI προκύπτουν ακόμη. Προέρχονται από τα μοτίβα, τα σύνολα δεδομένων, τους αλγόριθμους και τα μοντέλα που χρησιμοποιούν οι προγραμματιστές. Το AI μπορεί να είναι αμερόληπτο, αλλά οι άνθρωποι δεν είναι.

Για παράδειγμα, Ινστιτούτο Brookings ισχυρίζεται ότι το ChatGPT επιδεικνύει αριστερές πολιτικές προκαταλήψεις. Το OpenAI αρνείται φυσικά αυτούς τους ισχυρισμούς. Αλλά για να αποφευχθούν παρόμοια προβλήματα με νεότερα μοντέλα, το ChatGPT αποφεύγει τελείως τα αποτελέσματα με γνώμη.

Ομοίως, το Bing Chat αποφεύγει ευαίσθητα, υποκειμενικά θέματα.

Αξιολογήστε μόνοι σας τις προκαταλήψεις της τεχνητής νοημοσύνης κάνοντας ερωτήσεις ανοιχτού τύπου που βασίζονται στη γνώμη. Μιλήστε για θέματα χωρίς σωστή ή λάθος απάντηση—τα λιγότερο εξελιγμένα chatbot πιθανότατα θα εμφανίζουν αβάσιμες προτιμήσεις προς συγκεκριμένες ομάδες.

8. βιβλιογραφικές αναφορές

Η τεχνητή νοημοσύνη σπάνια ελέγχει τα γεγονότα. Απλώς αντλεί πληροφορίες από τα σύνολα δεδομένων του και τις αναδιατυπώνει μέσω γλωσσικών μοντέλων. Δυστυχώς, η περιορισμένη εκπαίδευση προκαλεί παραισθήσεις AI. Μπορείτε ακόμα να χρησιμοποιείτε εργαλεία δημιουργίας τεχνητής νοημοσύνης για έρευνα, αλλά φροντίστε να επαληθεύετε μόνοι σας τα γεγονότα. Πάρτε την έξοδο με λίγο αλάτι.

Το Bing Chat απλοποιεί τη διαδικασία ελέγχου γεγονότων παραθέτοντας τις αναφορές του μετά από κάθε έξοδο.

Το Bard AI δεν παραθέτει τις πηγές του, αλλά δημιουργεί ενημερωμένες, σε βάθος εξηγήσεις εκτελώντας ερωτήματα αναζήτησης Google. Θα λάβετε τα κύρια σημεία από τα SERP.

Το ChatGPT είναι επιρρεπές σε ανακρίβειες. Η αποκοπή γνώσεων για το 2021 το εμποδίζει να απαντά σε ερωτήσεις σχετικά με πρόσφατα γεγονότα και περιστατικά.

Δημιουργήστε νέους τρόπους για να δοκιμάσετε Chatbots για ακρίβεια

Η τεχνητή νοημοσύνη δεν είναι το καλύτερο και το τέλος της τεχνολογίας. Ενώ τα εξελιγμένα συστήματα τεχνητής νοημοσύνης και τα μοντέλα γλώσσας επιτελούν εντυπωσιακά επιτεύγματα, διαπράττουν επίσης λάθη και ασυνέπειες. Δείτε τα chatbots με σκεπτικισμό. Μπορείτε να χρησιμοποιήσετε πλατφόρμες που βασίζονται σε AI μόνο εάν κατανοείτε τις λειτουργίες και τους περιορισμούς τους.

Αν και υπάρχουν δεκάδες chatbots σε όλες τις πλατφόρμες, η αξιοπιστία και η ακρίβειά τους μπορεί να σας απογοητεύσουν. Απλώς θα χάσετε χρόνο για να τα δοκιμάσετε. Για να διασφαλίσετε ποιοτικά αποτελέσματα, προτείνουμε να εστιάσετε στα τρία πιο στιβαρά μοντέλα της αγοράς: ChatGPT, Bing AI και Google Bard.

About Technology - denizatm.com

8 βασικοί παράγοντες που πρέπει να λάβετε υπόψη κατά τη δοκιμή ακρίβειας Chatbots AI

1. Αριθμητική

2. Κατανόηση

3. Επικαιρότητα

4. Συνάφεια

5. Μνήμη συμφραζομένων

6. Περιορισμοί Ασφαλείας

7. Προκαταλήψεις AI

8. βιβλιογραφικές αναφορές

Δημιουργήστε νέους τρόπους για να δοκιμάσετε Chatbots για ακρίβεια

Κατηγορίες

Recent Post

Πώς να κάνετε καμπύλη κειμένου στο Photoshop γύρω από οποιοδήποτε σχήμα

Εξομοίωση και αναπαραγωγή κλασικών παιχνιδιών NES στον υπολογιστή σας με τη Nestopia

Πώς το υλικό προ-Internet μπορεί να χρησιμοποιηθεί για να σφίξει την ασφάλεια