Αυτό το μεγάλο γλωσσικό μοντέλο έχει εκπαιδευτεί στον σκοτεινό ιστό για την αξιολόγηση των απειλών για την ασφάλεια στον κυβερνοχώρο. Εδώ είναι τι πρέπει να ξέρετε.
Η δημοτικότητα των μεγάλων γλωσσικών μοντέλων (LLM) αυξάνεται στα ύψη, με νέα να μπαίνουν συνεχώς στη σκηνή. Αυτά τα μοντέλα, όπως το ChatGPT, συνήθως εκπαιδεύονται σε διάφορες πηγές διαδικτύου, συμπεριλαμβανομένων άρθρων, ιστότοπων, βιβλίων και μέσων κοινωνικής δικτύωσης.
Σε μια άνευ προηγουμένου κίνηση, μια ομάδα Νοτιοκορεατών ερευνητών ανέπτυξε το DarkBERT, ένα LLM που εκπαιδεύεται σε σύνολα δεδομένων που λαμβάνονται αποκλειστικά από τον σκοτεινό ιστό. Στόχος τους ήταν να δημιουργήσουν ένα εργαλείο τεχνητής νοημοσύνης που ξεπερνά τα υπάρχοντα μοντέλα γλώσσας και βοηθά τους ερευνητές απειλών, τις αρχές επιβολής του νόμου και τους επαγγελματίες της κυβερνοασφάλειας στην καταπολέμηση των απειλών στον κυβερνοχώρο.
Τι είναι το DarkBERT;
Το DarkBERT είναι ένα μοντέλο κωδικοποιητή που βασίζεται σε μετασχηματιστή και βασίζεται στην αρχιτεκτονική RoBERTa. Το LLM εκπαιδεύτηκε σε εκατομμύρια σκοτεινές ιστοσελίδες, συμπεριλαμβανομένων δεδομένων από φόρουμ πειρατείας, ιστοσελίδες απάτης και άλλες διαδικτυακές πηγές που σχετίζονται με παράνομες δραστηριότητες.
Ο όρος Ο "σκοτεινός ιστός" αναφέρεται σε μια κρυφή ενότητα Διαδικτύου μη προσβάσιμο μέσω τυπικών προγραμμάτων περιήγησης ιστού. Η υποενότητα είναι γνωστή για το ότι φιλοξενεί ανώνυμους ιστότοπους και αγορές που είναι διαβόητες για παράνομες δραστηριότητες, όπως το εμπόριο κλεμμένων δεδομένων, ναρκωτικών και όπλων.
Για να εκπαιδεύσουν τον DarkBERT, οι ερευνητές κέρδισαν πρόσβαση στον σκοτεινό ιστό μέσω του δικτύου Tor και συλλέχθηκαν ακατέργαστα δεδομένα. Φιλτράρησαν προσεκτικά αυτά τα δεδομένα χρησιμοποιώντας τεχνικές όπως η αποδιπλόγραφη, η εξισορρόπηση κατηγοριών και η προεπεξεργασία δημιουργήστε μια εκλεπτυσμένη βάση δεδομένων σκοτεινού ιστού, η οποία στη συνέχεια τροφοδοτήθηκε στη RoBERTa κατά τη διάρκεια περίπου 15 ημερών για τη δημιουργία DarkBERT.
Πιθανές χρήσεις του DarkBERT στην ασφάλεια στον κυβερνοχώρο
Το DarkBERT έχει μια αξιοσημείωτη κατανόηση της γλώσσας των εγκληματιών του κυβερνοχώρου και διαπρέπει στον εντοπισμό συγκεκριμένων πιθανών απειλών. Μπορεί να ερευνήσει τον σκοτεινό ιστό και να εντοπίσει και να επισημάνει με επιτυχία απειλές για την ασφάλεια στον κυβερνοχώρο, όπως διαρροές δεδομένων και ransomware, καθιστώντας το ένα δυνητικά χρήσιμο εργαλείο για την καταπολέμηση των απειλών στον κυβερνοχώρο.
Για να αξιολογήσουν την αποτελεσματικότητα του DarkBERT, οι ερευνητές το συνέκριναν με δύο διάσημα μοντέλα NLP, το BERT και το RoBERTa, αξιολογώντας την απόδοσή τους σε τρεις κρίσιμες περιπτώσεις χρήσης που σχετίζονται με την ασφάλεια στον κυβερνοχώρο, η έρευνα, Δημοσιεύτηκε στις arxiv.org, υποδηλώνει.
1. Παρακολούθηση Φόρουμ Dark Web για δυνητικά επιβλαβή νήματα
Η παρακολούθηση φόρουμ σκοτεινού ιστού, τα οποία χρησιμοποιούνται συνήθως για την ανταλλαγή παράνομων πληροφοριών, είναι ζωτικής σημασίας για τον εντοπισμό δυνητικά επικίνδυνων νημάτων. Ωστόσο, η μη αυτόματη αναθεώρηση αυτών μπορεί να είναι χρονοβόρα, καθιστώντας την αυτοματοποίηση της διαδικασίας επωφελής για τους ειδικούς σε θέματα ασφάλειας.
Οι ερευνητές εστίασαν σε δυνητικά επιζήμιες δραστηριότητες σε φόρουμ hacking, επινοώντας κατευθυντήριες γραμμές σχολιασμού για αξιοσημείωτα νήματα, συμπεριλαμβανομένης της κοινής χρήσης εμπιστευτικών δεδομένων και της διανομής κρίσιμων κακόβουλων προγραμμάτων ή τρωτά σημεία.
Το DarkBERT ξεπέρασε άλλα μοντέλα γλώσσας όσον αφορά την ακρίβεια, την ανάκληση και τη βαθμολογία F1, αναδεικνύοντας την ανώτερη επιλογή για τον εντοπισμό αξιοσημείωτων νημάτων στον σκοτεινό ιστό.
2. Εντοπισμός τοποθεσιών που φιλοξενούν εμπιστευτικές πληροφορίες
Οι χάκερ και οι ομάδες ransomware χρησιμοποιούν τον σκοτεινό ιστό για να δημιουργήσουν ιστότοπους διαρροής, όπου δημοσιεύουν εμπιστευτικά δεδομένα που έχουν κλαπεί από οργανισμούς που αρνούνται να συμμορφωθούν με τις απαιτήσεις για λύτρα. Άλλοι εγκληματίες του κυβερνοχώρου απλώς ανεβάζουν ευαίσθητα δεδομένα που διέρρευσαν, όπως κωδικούς πρόσβασης και οικονομικές πληροφορίες, στον σκοτεινό ιστό με σκοπό να τα πουλήσουν.
Στη μελέτη τους, οι ερευνητές συνέλεξαν δεδομένα από διαβόητες ομάδες ransomware και ανέλυσε ιστότοπους διαρροής ransomware που δημοσιεύουν ιδιωτικά δεδομένα οργανισμών. Το DarkBERT ξεπέρασε τα άλλα μοντέλα γλώσσας όσον αφορά τον εντοπισμό και την ταξινόμηση τέτοιων ιστότοπων, δείχνοντας ότι κατανοεί τη γλώσσα που χρησιμοποιείται σε υπόγεια φόρουμ πειρατείας στον σκοτεινό ιστό.
Το DarkBERT αξιοποιεί τη λειτουργία γεμίσματος μάσκας, ένα εγγενές χαρακτηριστικό των μοντέλων γλώσσας της οικογένειας BERT, για τον ακριβή εντοπισμό λέξεων-κλειδιών που σχετίζονται με παράνομες δραστηριότητες, συμπεριλαμβανομένων των πωλήσεων ναρκωτικών στο σκοτεινό ιστό.
Όταν η λέξη "MDMA" καλύφθηκε σε μια σελίδα πωλήσεων ναρκωτικών, το DarkBERT δημιούργησε λέξεις που σχετίζονται με ναρκωτικά, ενώ άλλα μοντέλα πρότειναν γενικές λέξεις και όρους που δεν σχετίζονται με ναρκωτικά, όπως διάφορα επαγγέλματα.
Η ικανότητα του DarkBERT να εντοπίζει λέξεις-κλειδιά που σχετίζονται με παράνομες δραστηριότητες μπορεί να είναι πολύτιμη για την παρακολούθηση και την αντιμετώπιση αναδυόμενων απειλών στον κυβερνοχώρο.
Είναι το DarkBERT προσβάσιμο στο ευρύ κοινό;
Το DarkBERT δεν είναι προς το παρόν διαθέσιμο στο κοινό, αλλά οι ερευνητές είναι ανοιχτοί σε αιτήματα χρήσης του για ακαδημαϊκούς σκοπούς.
Αξιοποιήστε τη δύναμη της τεχνητής νοημοσύνης για τον εντοπισμό και την πρόληψη απειλών
Το DarkBERT έχει προεκπαιδευτεί σε δεδομένα σκοτεινού ιστού και ξεπερνά τα υπάρχοντα μοντέλα γλώσσας σε πολλαπλές περιπτώσεις χρήσης κυβερνοασφάλειας, τοποθετώντας τον εαυτό του ως κρίσιμο εργαλείο για την προώθηση της έρευνας του σκοτεινού ιστού.
Το σκοτεινό web εκπαιδευμένο AI έχει τη δυνατότητα να χρησιμοποιηθεί για διάφορες εργασίες ασφάλειας στον κυβερνοχώρο, συμπεριλαμβανομένου του εντοπισμού ιστότοπων που πωλούν διαρροές εμπιστευτικά δεδομένα, παρακολούθηση φόρουμ σκοτεινού ιστού για τον εντοπισμό παράνομης ανταλλαγής πληροφοριών και εντοπισμός λέξεων-κλειδιών που σχετίζονται με τον κυβερνοχώρο απειλές.
Αλλά θα πρέπει πάντα να θυμάστε ότι, όπως και άλλα LLM, το DarkBERT είναι ένα έργο σε εξέλιξη και η απόδοσή του μπορεί να βελτιωθεί μέσω συνεχούς εκπαίδευσης και τελειοποίησης.