Το GPTBot μάλλον δεν είναι αυτό που νομίζετε.

Βασικά Takeaways

  • Το GPTBot του OpenAI είναι ένας ανιχνευτής Ιστού που έχει σχεδιαστεί για τη συλλογή δεδομένων από δημόσιους ιστότοπους, ο οποίος στη συνέχεια χρησιμοποιείται για την εκπαίδευση και τη βελτίωση μοντέλων τεχνητής νοημοσύνης όπως το GPT-4 και το ChatGPT.
  • Μερικοί από τους μεγαλύτερους ιστότοπους στο διαδίκτυο μπλοκάρουν το GPTBot επειδή έχει πρόσβαση και χρησιμοποιεί περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα χωρίς άδεια ή αποζημίωση στους δημιουργούς.
  • Ενώ οι ιστότοποι μπορούν να χρησιμοποιούν εργαλεία όπως το robots.txt για να προσπαθήσουν να αποκλείσουν το GPTBot, δεν υπάρχουν εγγυήσεις ότι το OpenAI θα συμμορφωθεί, δίνοντάς τους τον έλεγχο της πρόσβασης σε δεδομένα που προστατεύονται από πνευματικά δικαιώματα.

Τον Αύγουστο του 2023, το OpenAI, η δύναμη της τεχνητής νοημοσύνης που πιστώθηκε με την ανάπτυξη του ChatGPT, ανακοίνωσε το GPTBot, ένα πρόγραμμα ανίχνευσης ιστού που έχει σχεδιαστεί για να διασχίζει τον Ιστό και να συλλέγει δεδομένα.

instagram viewer

Λίγο μετά από αυτήν την ανακοίνωση, μερικοί από τους μεγαλύτερους ιστότοπους στο Διαδίκτυο απέκλεισαν το bot από την πρόσβαση στον ιστότοπό τους. Μα γιατί? Τι είναι το GPTBot του OpenAI; Γιατί το φοβούνται οι μεγάλοι ιστότοποι και γιατί προσπαθούν να το μπλοκάρουν;

Τι είναι το GPTBot του OpenAI;

Το GPTBot είναι ένας ανιχνευτής ιστού που δημιουργήθηκε από την OpenAI για αναζήτηση στο Διαδίκτυο και συλλογή πληροφοριών για τους στόχους ανάπτυξης AI του OpenAI. Είναι προγραμματισμένο να ανιχνεύει δημόσιους ιστότοπους και να στέλνει τα δεδομένα πίσω στους διακομιστές του OpenAI. Στη συνέχεια, το OpenAI χρησιμοποιεί αυτά τα δεδομένα για να εκπαιδεύσει και να βελτιώσει τα μοντέλα τεχνητής νοημοσύνης του, με στόχο τη δημιουργία ολοένα και πιο προηγμένων συστημάτων τεχνητής νοημοσύνης. Για τη δημιουργία εξελιγμένων μοντέλων τεχνητής νοημοσύνης όπως το GPT-4 ή τα θυγατρικά του προϊόντα όπως το ChatGPT, τα προγράμματα ανίχνευσης ιστού είναι σχεδόν απαραίτητα.

Η εκπαίδευση ενός μοντέλου AI απαιτεί τεράστιο όγκο δεδομένων και ένας από τους πιο αποτελεσματικούς τρόπους συλλογής αυτών των δεδομένων είναι η ανάπτυξη εργαλείων όπως οι ανιχνευτές Ιστού. Τα προγράμματα ανίχνευσης μπορούν να περιηγούνται συστηματικά στον ιστό, να ακολουθούν συνδέσμους για να ευρετηριάσουν μεγάλους όγκους ιστοσελίδων και να εξάγουν βασικά δεδομένα όπως κείμενο, εικόνες και μεταδεδομένα που ταιριάζουν με ένα προκαθορισμένο μοτίβο.

Αυτά τα δεδομένα μπορούν στη συνέχεια να δομηθούν και να τροφοδοτηθούν σε μοντέλα τεχνητής νοημοσύνης για να εκπαιδεύσουν τις ικανότητες επεξεργασίας φυσικής γλώσσας ή τις ικανότητες δημιουργίας εικόνας ή να τους εκπαιδεύσουν για άλλες εργασίες τεχνητής νοημοσύνης. Με σειρά λέξεων, οι ανιχνευτές ιστού συγκεντρώνουν τα δεδομένα που επιτρέπουν σε εργαλεία όπως το ChatGPT ή το DALL-E να κάνουν αυτό που κάνουν.

Οι ανιχνευτές Ιστού δεν είναι μια νέα έννοια. Υπάρχουν πιθανώς εκατομμύρια από αυτούς που ανιχνεύουν τα δισεκατομμύρια ιστοσελίδες που είναι διαθέσιμες στο διαδίκτυο σήμερα. Και υπάρχουν τουλάχιστον από τις αρχές της δεκαετίας του '90. Το GPTBot είναι μόνο ένας από αυτούς τους ανιχνευτές που ανήκουν στο OpenAI. Λοιπόν, τι προκαλεί τη διαμάχη γύρω από αυτό το συγκεκριμένο πρόγραμμα ανίχνευσης ιστού;

Γιατί οι ιστότοποι μεγάλης τεχνολογίας αποκλείουν το GPTBot;

Σύμφωνα με Business Insider, μερικοί από τους μεγαλύτερους ιστότοπους στο διαδίκτυο μπλοκάρουν ενεργά τον ανιχνευτή του OpenAI στον ιστότοπό τους. Επομένως, εάν ο απώτερος στόχος του GPTBot είναι να προωθήσει την ανάπτυξη τεχνητής νοημοσύνης, γιατί μερικοί από τους μεγαλύτερους ιστότοπους στο διαδίκτυο, ορισμένοι από τους οποίους έχουν επωφεληθεί με τον ένα ή τον άλλο τρόπο από την τεχνητή νοημοσύνη, είναι εναντίον του;

Λοιπόν, εδώ είναι το θέμα. Από την αναζωπύρωση των τεχνολογιών τεχνητής νοημοσύνης το 2022, έχουν γίνει πολλές συζητήσεις σχετικά με το δικαίωμα των εταιρειών τεχνητής νοημοσύνης να χρησιμοποιούν, σχεδόν χωρίς όρια, δεδομένα που προέρχονται από το διαδίκτυο, σημαντικό μέρος των οποίων προστατεύεται νομικά από πνευματική ιδιοκτησία. Δεν υπάρχει σαφής νόμος που να διέπει τον τρόπο με τον οποίο αυτές οι εταιρείες συλλέγουν και χρησιμοποιούν δεδομένα για δικό τους κέρδος.

Έτσι, βασικά, προγράμματα ανίχνευσης όπως το GPTBot ανιχνεύουν τον ιστό, αρπάζουν τη δημιουργική εργασία των ανθρώπων με τη μορφή κειμένου, εικόνων ή άλλων μορφών μέσα και να τα χρησιμοποιήσει για εμπορικούς σκοπούς χωρίς να λάβει άδεια, άδεια ή να παρέχει αποζημίωση στο πρωτότυπο δημιουργοί.

Είναι μια άγρια ​​δύση εκεί έξω και οι εταιρείες τεχνητής νοημοσύνης αρπάζουν ό, τι μπορούν. Μεγάλοι ιστότοποι όπως οι Quora, CNN, New York Times, Business Insider και Amazon δεν είναι πολύ ευχαριστημένοι που περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα συλλέγεται από αυτά τα προγράμματα ανίχνευσης, έτσι ώστε το OpenAI να μπορεί να έχει οικονομικό όφελος από αυτό δαπάνη.

Αυτός είναι ο λόγος για τον οποίο αυτοί οι ιστότοποι αναπτύσσουν το "robots.txt", μια μέθοδο δεκαετιών για τον αποκλεισμό προγραμμάτων ανίχνευσης ιστού. Σύμφωνα με OpenAI, το GPTBot θα υπακούει στις οδηγίες για την ανίχνευση ή την αποφυγή ανίχνευσης ιστοτόπων με βάση τους κανόνες που είναι ενσωματωμένοι στο robots.txt, ένα μικρό αρχείο κειμένου που λέει στους ανιχνευτές ιστού πώς να συμπεριφέρονται σε έναν ιστότοπο. Εάν έχετε έναν δικό σας ιστότοπο και θα θέλατε να σταματήσετε το GPTBot να αρπάξει τα δεδομένα σας, δείτε πώς μπορείτε αποκλείστε τα προγράμματα ανίχνευσης του OpenAI από το να σκάσουν τον ιστότοπό σας.

Μπορούν οι ιστότοποι να σταματήσουν πραγματικά το GPTBot;

Ενώ προγράμματα ανίχνευσης όπως το GPTBot είναι απαραίτητα για τη συλλογή των τεράστιων ποσοτήτων δεδομένων που απαιτούνται για εκπαιδεύστε προηγμένα συστήματα τεχνητής νοημοσύνης, υπάρχουν βάσιμες ανησυχίες σχετικά με τα πνευματικά δικαιώματα και τη δίκαιη χρήση που δεν μπορούν αγνόησε.

Σίγουρα, υπάρχουν απλά εργαλεία όπως το robots.txt που μπορούν να χρησιμοποιηθούν για την προστασία από αυτό, αλλά αν το GPTBot υπακούει στις οδηγίες σε αυτό το αρχείο είναι αποκλειστικά στη διακριτική ευχέρεια του OpenAI. Δεν υπάρχουν εγγυήσεις ότι θα το κάνουν, και δεν υπάρχει άμεσος αλάνθαστος τρόπος να πει κανείς αν το έχουν κάνει. Στον αγώνα για να κρατήσει το GPTBot μακριά από δεδομένα που προστατεύονται από πνευματικά δικαιώματα, το OpenAI κρατά τους άσσους, τουλάχιστον προς το παρόν.