Τι είναι οι αντίθετες επιθέσεις κατά μοντέλων AI και πώς μπορείτε να τις σταματήσετε;

Τα μοντέλα τεχνητής νοημοσύνης είναι τόσο καλά όσο τα δεδομένα που περιέχονται σε αυτά. Αυτό καθιστά αυτά τα δεδομένα πιθανό στόχο επιθέσεων.

Οι εξελίξεις στην τεχνητή νοημοσύνη είχαν σημαντική επίδραση σε διάφορους τομείς. Αυτό έχει προκαλέσει ανησυχία σε αρκετούς λάτρεις της τεχνολογίας. Καθώς αυτές οι τεχνολογίες επεκτείνονται σε διαφορετικές εφαρμογές, μπορούν να οδηγήσουν σε αύξηση των αντίθετων επιθέσεων.

Τι είναι οι αντίθετες επιθέσεις στην τεχνητή νοημοσύνη;

Οι αντίθετες επιθέσεις εκμεταλλεύονται προδιαγραφές και τρωτά σημεία στα μοντέλα τεχνητής νοημοσύνης. Καταστρέφουν τα δεδομένα από τα οποία έχουν μάθει τα μοντέλα τεχνητής νοημοσύνης και αναγκάζουν αυτά τα μοντέλα να παράγουν ανακριβή αποτελέσματα.

Φανταστείτε ότι ένας φαρσέρ αλλάζει πλακάκια σκραμπλ που είναι διατεταγμένα ως ανανάς για να γίνουν «applepine». Αυτό είναι παρόμοιο με αυτό που συμβαίνει σε επιθέσεις αντιπάλου.

Πριν από μερικά χρόνια, η λήψη μερικών εσφαλμένων απαντήσεων ή εξόδων από ένα μοντέλο AI ήταν ο κανόνας. Το αντίστροφο συμβαίνει τώρα, καθώς οι ανακρίβειες έχουν γίνει η εξαίρεση, με τους χρήστες AI να περιμένουν σχεδόν τέλεια αποτελέσματα.

instagram viewer

Όταν αυτά τα μοντέλα τεχνητής νοημοσύνης εφαρμόζονται σε σενάρια πραγματικού κόσμου, οι ανακρίβειες μπορεί να αποβούν μοιραίες, καθιστώντας τις αντίπαλες επιθέσεις πολύ επικίνδυνες. Για παράδειγμα, τα αυτοκόλλητα σε πινακίδες κυκλοφορίας μπορούν να μπερδέψουν ένα αυτόνομο αυτοκίνητο με αυτόματη οδήγηση και να το αναγκάσουν να μετακινηθεί στην κυκλοφορία ή απευθείας σε ένα εμπόδιο.

Τύποι αντίθετων επιθέσεων

Υπάρχουν διάφορες μορφές αντίπαλων επιθέσεων. Με την αυξανόμενη ενσωμάτωση της τεχνητής νοημοσύνης σε καθημερινές εφαρμογές, αυτές οι επιθέσεις πιθανότατα θα γίνουν χειρότερες και πιο περίπλοκες.

Ωστόσο, μπορούμε χονδρικά να ταξινομήσουμε τις επιθέσεις αντιπάλου σε δύο τύπους με βάση το πόσα γνωρίζει ο παράγοντας απειλής για το μοντέλο AI.

1. Επιθέσεις White Box

Σε επιθέσεις λευκού κουτιού, οι φορείς απειλών έχουν πλήρη γνώση της εσωτερικής λειτουργίας του μοντέλου AI. Γνωρίζουν τις προδιαγραφές, τα δεδομένα εκπαίδευσης, τις τεχνικές επεξεργασίας και τις παραμέτρους του. Αυτή η γνώση τους επιτρέπει να δημιουργήσουν μια επίθεση αντιπάλου ειδικά για το μοντέλο.

Το πρώτο βήμα σε μια επίθεση λευκού κουτιού είναι η αλλαγή των αρχικών δεδομένων εκπαίδευσης, αλλοιώνοντάς τα με τον ελάχιστο δυνατό τρόπο. Τα τροποποιημένα δεδομένα θα εξακολουθούν να είναι πολύ παρόμοια με τα αρχικά, αλλά αρκετά σημαντικά ώστε το μοντέλο AI να δίνει ανακριβή αποτελέσματα.

Δεν είναι μόνο αυτό. Μετά την επίθεση, ο παράγοντας απειλής αξιολογεί την αποτελεσματικότητα του μοντέλου δίνοντάς του αντίθετα παραδείγματα—παραμορφωμένες εισόδους που έχουν σχεδιαστεί για να κάνουν το μοντέλο να κάνει λάθη— και αναλύει την έξοδο. Όσο πιο ανακριβές είναι το αποτέλεσμα, τόσο πιο επιτυχημένη είναι η επίθεση.

2. Επιθέσεις μαύρου κουτιού

Σε αντίθεση με τις επιθέσεις λευκού κουτιού, όπου ο ηθοποιός της απειλής γνωρίζει για την εσωτερική λειτουργία του μοντέλου AI, οι δράστες επιθέσεις μαύρου κουτιού δεν έχω ιδέα πώς λειτουργεί το μοντέλο. Παρατηρούν απλώς το μοντέλο από τυφλό σημείο, παρακολουθώντας τις τιμές εισόδου και εξόδου του.

Το πρώτο βήμα σε μια επίθεση μαύρου κουτιού είναι να επιλέξετε τον στόχο εισόδου που θέλει να ταξινομήσει το μοντέλο AI. Στη συνέχεια, ο παράγοντας απειλής δημιουργεί μια κακόβουλη έκδοση της εισόδου προσθέτοντας προσεκτικά δημιουργημένο θόρυβο, διαταραχές στα δεδομένα αόρατα στο ανθρώπινο μάτι αλλά ικανά να προκαλέσουν το μοντέλο AI δυσλειτουργία.

Η κακόβουλη έκδοση τροφοδοτείται στο μοντέλο και παρατηρείται η έξοδος. Τα αποτελέσματα που δίνονται από το μοντέλο βοηθούν τον παράγοντα απειλής να συνεχίσει να τροποποιεί την έκδοση μέχρι να είναι αρκετά βέβαιος ότι θα ταξινομήσει εσφαλμένα τα δεδομένα που τροφοδοτούνται σε αυτήν.

Τεχνικές που χρησιμοποιούνται σε αντίθετες επιθέσεις

Οι κακόβουλες οντότητες μπορούν να χρησιμοποιήσουν διαφορετικές τεχνικές για να πραγματοποιήσουν επιθέσεις αντιπάλου. Εδώ είναι μερικές από αυτές τις τεχνικές.

1. Δηλητηρίαση

Οι επιτιθέμενοι μπορούν να χειραγωγήσουν (δηλητηριάσουν) ένα μικρό μέρος των δεδομένων εισόδου ενός μοντέλου AI για να θέσουν σε κίνδυνο τα σύνολα δεδομένων εκπαίδευσης και την ακρίβειά του.

Υπάρχουν διάφορες μορφές δηλητηρίασης. Ένα από τα κοινά ονομάζεται δηλητηρίαση κερκόπορτας, όπου επηρεάζονται πολύ λίγα δεδομένα προπόνησης. Το μοντέλο AI συνεχίζει να δίνει αποτελέσματα υψηλής ακρίβειας έως ότου «ενεργοποιηθεί» για να δυσλειτουργήσει κατά την επαφή με συγκεκριμένες σκανδάλες.

2. Υπεκφυγή

Αυτή η τεχνική είναι μάλλον θανατηφόρα, καθώς αποφεύγει τον εντοπισμό παρακολουθώντας το σύστημα ασφαλείας του AI.

Τα περισσότερα μοντέλα AI είναι εξοπλισμένα με συστήματα ανίχνευσης ανωμαλιών. Οι τεχνικές φοροδιαφυγής χρησιμοποιούν αντίθετα παραδείγματα που ακολουθούν απευθείας αυτά τα συστήματα.

Αυτή η τεχνική μπορεί να είναι ιδιαίτερα επικίνδυνη για κλινικά συστήματα όπως αυτόνομα αυτοκίνητα ή μοντέλα ιατρικών διαγνωστικών. Αυτά είναι πεδία όπου οι ανακρίβειες μπορεί να έχουν σοβαρές συνέπειες.

3. Μεταβιβασιμότητα

Οι φορείς απειλών που χρησιμοποιούν αυτήν την τεχνική δεν χρειάζονται προηγούμενη γνώση των παραμέτρων του μοντέλου AI. Χρησιμοποιούν επιθέσεις αντιπάλου που ήταν επιτυχείς στο παρελθόν εναντίον άλλων εκδόσεων του μοντέλου.

Για παράδειγμα, εάν μια επίθεση αντιπάλου κάνει ένα μοντέλο ταξινομητή εικόνας να μπερδέψει μια χελώνα με τουφέκι, η ακριβής επίθεση θα μπορούσε να προκαλέσει το ίδιο σφάλμα σε άλλα μοντέλα ταξινομητή εικόνων. Τα άλλα μοντέλα θα μπορούσαν να είχαν εκπαιδευτεί σε διαφορετικό σύνολο δεδομένων και ακόμη και να έχουν διαφορετική αρχιτεκτονική, αλλά θα μπορούσαν να πέσουν θύματα της επίθεσης.

4. Παρένθετη μητρότητα

Αντί να κυνηγάει τα συστήματα ασφαλείας του μοντέλου χρησιμοποιώντας τεχνικές αποφυγής ή προηγουμένως επιτυχημένες επιθέσεις, ο παράγοντας της απειλής θα μπορούσε να χρησιμοποιήσει ένα υποκατάστατο μοντέλο.

Με αυτήν την τεχνική, ο παράγοντας απειλής δημιουργεί μια πανομοιότυπη εκδοχή του μοντέλου στόχου, ένα υποκατάστατο μοντέλο. Τα αποτελέσματα, οι παράμετροι και οι συμπεριφορές ενός υποκατάστατου πρέπει να είναι πανομοιότυπα με το αρχικό μοντέλο που έχει αντιγραφεί.

Το υποκατάστατο θα υποβληθεί τώρα σε διάφορες επιθέσεις αντιπάλου έως ότου κάποιος αναγκάσει να παράγει ένα ανακριβές αποτέλεσμα ή να εκτελέσει μια εσφαλμένη ταξινόμηση. Στη συνέχεια, αυτή η επίθεση θα χρησιμοποιηθεί στον αρχικό στόχο AI.

Πώς να σταματήσετε τις αντίθετες επιθέσεις

Η άμυνα από επιθέσεις αντιπάλου μπορεί να είναι περίπλοκη και χρονοβόρα καθώς οι φορείς απειλών χρησιμοποιούν διάφορες μορφές και τεχνικές. Ωστόσο, τα ακόλουθα βήματα μπορούν να αποτρέψουν και να σταματήσουν επιθέσεις αντιπάλου.

1. Εκπαίδευση σε αντίθεση

Το πιο αποτελεσματικό βήμα που μπορεί να αποτρέψει επιθέσεις αντιπάλου είναι η εκπαίδευση αντιπάλου, η εκπαίδευση μοντέλων και μηχανών τεχνητής νοημοσύνης χρησιμοποιώντας παραδείγματα αντιπάλου. Αυτό βελτιώνει την ευρωστία του μοντέλου και του επιτρέπει να είναι ανθεκτικό στις παραμικρές διαταραχές εισόδου.

2. Τακτικός Έλεγχος

Είναι απαραίτητο να ελέγχετε τακτικά για αδυναμίες στο σύστημα ανίχνευσης ανωμαλιών ενός μοντέλου AI. Αυτό περιλαμβάνει τη σκόπιμη τροφοδοσία του μοντέλου με αντίθετα παραδείγματα και την παρακολούθηση της συμπεριφοράς του μοντέλου στα κακόβουλα δεδομένα.

3. Εξυγίανση δεδομένων

Αυτή η μέθοδος περιλαμβάνει τον έλεγχο για κακόβουλες εισόδους που τροφοδοτούνται στο μοντέλο. Μετά την ταυτοποίησή τους, πρέπει να αφαιρεθούν αμέσως.

Αυτά τα δεδομένα μπορούν να αναγνωριστούν χρησιμοποιώντας επικύρωση εισόδου, η οποία περιλαμβάνει τον έλεγχο των δεδομένων για μοτίβα ή υπογραφές προηγουμένως γνωστών παραδειγμάτων αντιπάλου.

4. Ενημερώσεις ασφαλείας

Θα ήταν δύσκολο να κάνετε λάθος με ενημερώσεις και ενημερώσεις κώδικα ασφαλείας. Ασφάλεια πολλαπλών επιπέδων όπως τείχη προστασίας, προγράμματα κατά του κακόβουλου λογισμικού και συστήματα ανίχνευσης και πρόληψης εισβολών μπορεί να βοηθήσει στον αποκλεισμό των εξωτερικών παρεμβολών από παράγοντες απειλών που θέλουν να δηλητηριάσουν ένα μοντέλο τεχνητής νοημοσύνης.

Οι αντίθετες επιθέσεις θα μπορούσαν να είναι ένας άξιος αντίπαλος

Η έννοια των αντίθετων επιθέσεων παρουσιάζει πρόβλημα για προχωρημένη μάθηση και μηχανική μάθηση.

Ως αποτέλεσμα, τα μοντέλα τεχνητής νοημοσύνης πρέπει να οπλίζονται με άμυνες, όπως εκπαίδευση σε αντιπάλους, τακτικούς ελέγχους, εξυγίανση δεδομένων και σχετικές ενημερώσεις ασφαλείας.

About Technology - denizatm.com