Ανησυχείτε μήπως τα chatbots τεχνητής νοημοσύνης αποκόπτουν τον ιστότοπό σας για περιεχόμενο; Ευτυχώς, μπορείτε να τους αποκλείσετε από το να το κάνουν. Να πώς.

Όπως έχουν τα πράγματα, τα chatbot τεχνητής νοημοσύνης έχουν δωρεάν άδεια για να ξύνουν τον ιστότοπό σας και να χρησιμοποιούν το περιεχόμενό του χωρίς την άδειά σας. Ανησυχείτε μήπως το περιεχόμενό σας αποκόπτεται από τέτοια εργαλεία;

Τα καλά νέα είναι ότι μπορείτε να σταματήσετε την πρόσβαση των εργαλείων τεχνητής νοημοσύνης στον ιστότοπό σας, αλλά υπάρχουν ορισμένες προειδοποιήσεις. Εδώ, σας δείχνουμε πώς να αποκλείσετε τα ρομπότ χρησιμοποιώντας το αρχείο robots.txt για τον ιστότοπό σας, καθώς και τα πλεονεκτήματα και τα μειονεκτήματα του να το κάνετε.

Πώς τα AI Chatbots έχουν πρόσβαση στο περιεχόμενό σας στον ιστό;

Τα chatbot AI εκπαιδεύονται χρησιμοποιώντας πολλαπλά σύνολα δεδομένων, μερικά από τα οποία είναι ανοιχτού κώδικα και διαθέσιμα στο κοινό. Για παράδειγμα, το GPT3 εκπαιδεύτηκε χρησιμοποιώντας πέντε σύνολα δεδομένων, σύμφωνα με μια ερευνητική εργασία που δημοσιεύτηκε από το OpenAI:

instagram viewer
  1. Common Crawl (60% βάρος στην προπόνηση)
  2. WebText2 (22% βάρος στην προπόνηση)
  3. Βιβλία 1 (8% βάρος στην προπόνηση)
  4. Βιβλία2 (8% βάρος στην προπόνηση)
  5. Wikipedia (3% βάρος στην προπόνηση)

Κοινή ανίχνευση περιλαμβάνει petabytes (χιλιάδες TB) δεδομένων από ιστότοπους που συλλέγονται από το 2008, παρόμοια με τον τρόπο με τον οποίο ο αλγόριθμος αναζήτησης της Google ανιχνεύει περιεχόμενο ιστού. Το WebText2 είναι ένα σύνολο δεδομένων που δημιουργήθηκε από το OpenAI, το οποίο περιέχει περίπου 45 εκατομμύρια ιστοσελίδες που συνδέονται με αναρτήσεις του Reddit με τουλάχιστον τρεις θετικές ψήφους.

Έτσι, στην περίπτωση του ChatGPT, το ρομπότ AI δεν έχει πρόσβαση και δεν ανιχνεύει τις ιστοσελίδες σας απευθείας – όχι ακόμα, ούτως ή άλλως. Ωστόσο, το OpenAI ανακοίνωση ενός προγράμματος περιήγησης ιστού που φιλοξενείται από το ChatGPT έχει εκφράσει ανησυχίες ότι αυτό θα μπορούσε να αλλάξει.

Εν τω μεταξύ, οι ιδιοκτήτες ιστότοπων θα πρέπει να παρακολουθούν άλλα chatbot AI, καθώς περισσότερα από αυτά κυκλοφορούν στην αγορά. Ο Μπαρντ είναι το άλλο μεγάλο όνομα στον χώρο και πολύ λίγα είναι γνωστά τα σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευσή του. Προφανώς, γνωρίζουμε ότι τα ρομπότ αναζήτησης της Google ανιχνεύουν συνεχώς ιστοσελίδες, αλλά αυτό δεν σημαίνει απαραίτητα ότι ο Bard έχει πρόσβαση στα ίδια δεδομένα.

Γιατί ανησυχούν ορισμένοι ιδιοκτήτες ιστοτόπων;

Η μεγαλύτερη ανησυχία για τους ιδιοκτήτες ιστότοπων είναι ότι τα ρομπότ AI όπως το ChatGPT, το Bard και το Bing Chat υποτιμούν το περιεχόμενό τους. Τα ρομπότ AI χρησιμοποιούν υπάρχον περιεχόμενο για να δημιουργήσουν τις απαντήσεις τους, αλλά και να μειώσουν την ανάγκη πρόσβασης των χρηστών στην αρχική πηγή. Αντί οι χρήστες να επισκέπτονται ιστότοπους για πρόσβαση σε πληροφορίες, μπορούν απλώς να ζητήσουν από την Google ή το Bing να δημιουργήσουν μια περίληψη των πληροφοριών που χρειάζονται.

Όταν πρόκειται για chatbots AI στην αναζήτηση, η μεγάλη ανησυχία για τους ιδιοκτήτες ιστότοπων είναι η απώλεια επισκεψιμότητας. Στην περίπτωση του Bard, το bot AI σπάνια περιλαμβάνει παραπομπές στις γενετικές απαντήσεις του, λέγοντας στους χρήστες από ποιες σελίδες λαμβάνει τις πληροφορίες του.

Έτσι, εκτός από την αντικατάσταση των επισκέψεων στον ιστότοπο με απαντήσεις τεχνητής νοημοσύνης, ο Bard αφαιρεί σχεδόν κάθε πιθανότητα ο ιστότοπος προέλευσης να λαμβάνει επισκεψιμότητα – ακόμα κι αν ο χρήστης θέλει περισσότερες πληροφορίες. Το Bing Chat, από την άλλη πλευρά, συνδέεται πιο συχνά με πηγές πληροφοριών.

Με άλλα λόγια, ο τρέχων στόλος των εργαλείων παραγωγής τεχνητής νοημοσύνης είναι χρησιμοποιώντας το έργο των δημιουργών περιεχομένου να αντικαταστήσει συστηματικά την ανάγκη για δημιουργούς περιεχομένου. Τελικά, πρέπει να ρωτήσεις τι κίνητρο αφήνει αυτό στους ιδιοκτήτες ιστοτόπων να συνεχίσει να δημοσιεύει περιεχόμενο. Και, κατ' επέκταση, τι συμβαίνει με τα bots AI όταν οι ιστότοποι σταματούν να δημοσιεύουν το περιεχόμενο στο οποίο βασίζονται για τη λειτουργία τους;

Πώς να αποκλείσετε τα Bots AI από τον ιστότοπό σας

Εάν δεν θέλετε τα bots AI να χρησιμοποιούν το περιεχόμενό σας στον ιστό, μπορείτε να τα αποκλείσετε από την πρόσβαση στον ιστότοπό σας χρησιμοποιώντας το robots.txt αρχείο. Δυστυχώς, πρέπει να αποκλείσετε κάθε μεμονωμένο bot και να το καθορίσετε με το όνομά τους.

Για παράδειγμα, το bot Common Crawl ονομάζεται CCBot και μπορείτε να το αποκλείσετε προσθέτοντας τον ακόλουθο κώδικα στο αρχείο robots.txt:

Χρήστης-πράκτορας: CCBot
Απαγόρευση: /

Αυτό θα αποκλείσει την ανίχνευση του Common Crawl στον ιστότοπό σας στο μέλλον, αλλά δεν θα αφαιρέσει δεδομένα που έχουν ήδη συλλεχθεί από προηγούμενες ανιχνεύσεις.

Εάν ανησυχείτε για τις νέες προσθήκες του ChatGPT που έχουν πρόσβαση στο περιεχόμενό σας στον ιστό, το OpenAI έχει ήδη δημοσιεύσει οδηγίες για τον αποκλεισμό του bot του. Σε αυτήν την περίπτωση, το bot του ChatGPT ονομάζεται ChatGPT-User και μπορείτε να το αποκλείσετε προσθέτοντας τον ακόλουθο κώδικα στο αρχείο robots.txt:

Χρήστης-πράκτορας: ChatGPT-User
Απαγόρευση: /

Ωστόσο, ο αποκλεισμός των bots AI της μηχανής αναζήτησης από την ανίχνευση του περιεχομένου σας είναι ένα άλλο πρόβλημα. Καθώς η Google είναι πολύ μυστική σχετικά με τα δεδομένα εκπαίδευσης που χρησιμοποιεί, είναι αδύνατο να προσδιορίσετε ποια ρομπότ θα χρειαστεί να αποκλείσετε και αν θα σέβονται καν τις εντολές στο robots.txt αρχείο (πολλοί ανιχνευτές δεν το κάνουν).

Πόσο αποτελεσματική είναι αυτή η μέθοδος;

Αποκλεισμός bots AI στο δικό σας robots.txt Το αρχείο είναι η πιο αποτελεσματική μέθοδος που είναι διαθέσιμη αυτή τη στιγμή, αλλά δεν είναι ιδιαίτερα αξιόπιστη.

Το πρώτο πρόβλημα είναι ότι πρέπει να προσδιορίσετε κάθε ρομπότ που θέλετε να αποκλείσετε, αλλά ποιος μπορεί να παρακολουθεί κάθε ρομπότ τεχνητής νοημοσύνης που βγαίνει στην αγορά; Το επόμενο ζήτημα είναι ότι οι εντολές στο δικό σας robots.txt αρχείο είναι μη υποχρεωτικές οδηγίες. Ενώ το Common Crawl, το ChatGPT και πολλά άλλα ρομπότ σέβονται αυτές τις εντολές, πολλά ρομπότ δεν το κάνουν.

Η άλλη μεγάλη προειδοποίηση είναι ότι μπορείτε να αποκλείσετε μόνο τα bots AI από το να εκτελούν μελλοντικές ανιχνεύσεις. Δεν μπορείτε να αφαιρέσετε δεδομένα από προηγούμενες ανιχνεύσεις ή να στείλετε αιτήματα σε εταιρείες όπως το OpenAI για τη διαγραφή όλων των δεδομένων σας.

Δυστυχώς, δεν υπάρχει απλός τρόπος να αποκλείσετε όλα τα bot AI από την πρόσβαση στον ιστότοπό σας και ο μη αυτόματος αποκλεισμός κάθε μεμονωμένου bot είναι σχεδόν αδύνατος. Ακόμα κι αν παρακολουθείτε τα πιο πρόσφατα ρομπότ τεχνητής νοημοσύνης που περιφέρονται στον ιστό, δεν υπάρχει καμία εγγύηση ότι όλα θα τηρούν τις εντολές στο robots.txt αρχείο.

Το πραγματικό ερώτημα εδώ είναι αν τα αποτελέσματα αξίζουν την προσπάθεια και η σύντομη απάντηση είναι (σχεδόν σίγουρα) όχι.

Υπάρχουν επίσης πιθανά μειονεκτήματα στον αποκλεισμό των bots AI από τον ιστότοπό σας. Πάνω απ 'όλα, δεν θα μπορείτε να συλλέξετε σημαντικά δεδομένα για να αποδείξετε εάν εργαλεία όπως το Bard ωφελούν ή βλάπτουν τη στρατηγική μάρκετινγκ αναζήτησης.

Ναι, μπορείτε να υποθέσετε ότι η έλλειψη αναφορών είναι επιβλαβής, αλλά μαντεύετε μόνο εάν δεν έχετε τα δεδομένα επειδή αποκλείσατε τα ρομπότ AI από την πρόσβαση στο περιεχόμενό σας. Ήταν μια παρόμοια ιστορία όταν η Google παρουσίασε για πρώτη φορά επιλεγμένα αποσπάσματα για να αναζητήσετε.

Για σχετικά ερωτήματα, η Google εμφανίζει ένα απόσπασμα περιεχομένου από ιστοσελίδες στη σελίδα αποτελεσμάτων, απαντώντας στην ερώτηση του χρήστη. Αυτό σημαίνει ότι οι χρήστες δεν χρειάζεται να κάνουν κλικ σε έναν ιστότοπο για να λάβουν την απάντηση που αναζητούν. Αυτό προκάλεσε πανικό μεταξύ των ιδιοκτητών ιστότοπων και των ειδικών SEO που βασίζονται στη δημιουργία επισκεψιμότητας από ερωτήματα αναζήτησης.

Ωστόσο, το είδος των ερωτημάτων που ενεργοποιούν τα επιλεγμένα αποσπάσματα είναι γενικά αναζητήσεις χαμηλής αξίας όπως "what is X" ή "what's the weather like in New York". Όποιος θέλει λεπτομερείς πληροφορίες ή ένα ολοκληρωμένο δελτίο καιρού θα συνεχίσει να κάνει κλικ και εκείνοι που δεν το θέλουν ποτέ δεν ήταν εξαρχής τόσο πολύτιμοι.

Μπορεί να διαπιστώσετε ότι πρόκειται για μια παρόμοια ιστορία με εργαλεία παραγωγής τεχνητής νοημοσύνης, αλλά θα χρειαστείτε τα δεδομένα για να το αποδείξετε.

Μην βιάζεστε σε τίποτα

Οι ιδιοκτήτες ιστότοπων και οι εκδότες είναι κατανοητό ότι ανησυχούν για την τεχνολογία AI και απογοητεύονται από την ιδέα των ρομπότ να χρησιμοποιούν το περιεχόμενό τους για να δημιουργήσουν άμεσες απαντήσεις. Ωστόσο, δεν είναι η ώρα για βιαστικές κινήσεις αντεπίθεσης. Η τεχνολογία AI είναι ένας τομέας που κινείται γρήγορα και τα πράγματα θα συνεχίσουν να εξελίσσονται με γρήγορους ρυθμούς. Εκμεταλλευτείτε αυτήν την ευκαιρία για να δείτε πώς εξελίσσονται τα πράγματα και να αναλύσετε τις πιθανές απειλές και ευκαιρίες που φέρνει η τεχνητή νοημοσύνη στο τραπέζι.

Το τρέχον σύστημα που βασίζεται στην εργασία των δημιουργών περιεχομένου για την αντικατάστασή τους δεν είναι βιώσιμο. Είτε εταιρείες όπως η Google και το OpenAI αλλάξουν την προσέγγισή τους είτε οι κυβερνήσεις θεσπίσουν νέους κανονισμούς, κάτι πρέπει να δώσει. Ταυτόχρονα, οι αρνητικές επιπτώσεις των chatbots AI στη δημιουργία περιεχομένου γίνονται όλο και πιο εμφανείς, τις οποίες οι ιδιοκτήτες ιστότοπων και οι δημιουργοί περιεχομένου μπορούν να χρησιμοποιήσουν προς όφελός τους.