Οι επιτιθέμενοι που δοκιμάζουν μεγάλα γλωσσικά μοντέλα σπάνια εγκαταλείπουν μετά από μία άρνηση. Αναδιαμορφώνουν την προσέγγισή τους, χτίζουν πλαίσιο σε πολλαπλούς γύρους, υιοθετούν διάφορες περσόνες και κλιμακώνουν σταδιακά τις επιθέσεις τους. Αυτή η επίμονη συμπεριφορά τους καθιστά πιο αποτελεσματικούς. Νέα έρευνα από την ομάδα πληροφοριών απειλών AI της Cisco αποκαλύπτει ένα κρίσιμο ελάττωμα.
Οι επιτιθέμενοι που δοκιμάζουν μεγάλα γλωσσικά μοντέλα σπάνια εγκαταλείπουν μετά από μία άρνηση. Αναδιαμορφώνουν την προσέγγισή τους, χτίζουν πλαίσιο σε πολλαπλούς γύρους, υιοθετούν διάφορες περσόνες και κλιμακώνουν σταδιακά τις επιθέσεις τους. Αυτή η επίμονη συμπεριφορά τους καθιστά πιο αποτελεσματικούς.
Νέα έρευνα από την ομάδα πληροφοριών απειλών AI της Cisco αποκαλύπτει ένα κρίσιμο ελάττωμα. Τα πρότυπα ασφαλείας που χρησιμοποιούνται ευρέως στη βιομηχανία συχνά παραβλέπουν σχεδόν όλη αυτή την εξελιγμένη συμπεριφορά επίθεσης πολλαπλών γύρων. Αυτή η παράλειψη οδηγεί σε σημαντικό χάσμα μεταξύ των δημοσιευμένων βαθμολογιών ασφαλείας και της πραγματικής ανθεκτικότητας των κορυφαίων μοντέλων AI.
Η ασυμφωνία είναι τόσο μεγάλη που μπορεί να κατατάξει λανθασμένα κορυφαία μοντέλα, δίνοντας μια ψευδή αίσθηση ασφάλειας. Η μελέτη υπογραμμίζει τη διαφορά μεταξύ ASR μονής και πολλαπλών στροφών ανά μοντέλο, συμπεριλαμβανομένων των κατά προσέγγιση 95% ημι-πλάτους εμπιστοσύνης στα αποτελέσματα μονής στροφής.
