Cisco: Πρότυπα AI αιχμής ευάλωτα σε επιθέσεις πολλαπλών γύρων

Οι επιτιθέμενοι που δοκιμάζουν μεγάλα γλωσσικά μοντέλα σπάνια εγκαταλείπουν μετά από μία άρνηση. Αναδιαμορφώνουν την προσέγγισή τους, χτίζουν πλαίσιο σε πολλαπλούς γύρους, υιοθετούν διάφορες περσόνες και κλιμακώνουν σταδιακά τις επιθέσεις τους. Αυτή η επίμονη συμπεριφορά τους καθιστά πιο αποτελεσματικούς. Νέα έρευνα από την ομάδα πληροφοριών απειλών AI της Cisco αποκαλύπτει ένα κρίσιμο ελάττωμα. Τα πρότυπα ασφαλείας που χρησιμοποιούνται ευρέως στη βιομηχανία συχνά παραβλέπουν σχεδόν όλη αυτή την εξελιγμένη συμπεριφορά επίθεσης πολλαπλών γύρων. Αυτή η παράλειψη οδηγεί σε σημαντικό χάσμα μεταξύ των δημοσιευμένων βαθμολογιών ασφαλείας και της πραγματικής ανθεκτικότητας των κορυφαίων μοντέλων AI. Η ασυμφωνία είναι τόσο μεγάλη που μπορεί να κατατάξει λανθασμένα κορυφαία μοντέλα, δίνοντας μια ψευδή αίσθηση ασφάλειας. Η μελέτη υπογραμμίζει τη διαφορά μεταξύ ASR μονής και πολλαπλών στροφών ανά μοντέλο, συμπεριλαμβανομένων των κατά προσέγγιση 95% ημι-πλάτους εμπιστοσύνης στα αποτελέσματα μονής στροφής.

Cisco: Πρότυπα AI αιχμής ευάλωτα σε επιθέσεις πολλαπλών γύρων

Εγγραφείτε για νέα και αναλύσεις σχετικά με DORA και διαχείρηση τεχνολογικού κινδύνου