Το ScamAgent είναι ένα αυτόνομο πλαίσιο τεχνητής νοημοσύνης πολλαπλών στροφών που αναπτύχθηκε από τον ερευνητή Sanket Badhe στο Πανεπιστήμιο Rutgers, το οποίο δείχνει πώς τα μεγάλα γλωσσικά μοντέλα (LLMs) μπορούν να χρησιμοποιηθούν για τη διεξαγωγή πλήρως αυτοματοποιημένων κλήσεων απάτης.
Με την ενσωμάτωση του σχεδιασμού βάσει στόχου, της μνήμης με βάση τα συμφραζόμενα και της σύνθεσης κειμένου σε ομιλία (TTS), το σύστημα παρακάμπτει επιτυχώς τα υπάρχοντα προστατευτικά κιγκλιδώματα AI για να προσομοιώσει εξαιρετικά ρεαλιστικές επιθέσεις κοινωνικής μηχανικής.
Η αρχιτεκτονική του ScamAgent αποκλίνει από την παραδοσιακή άμεση έγχυση χρησιμοποιώντας έναν κεντρικό ενορχηστρωτή για τη διαχείριση των στρατηγικών καταστάσεων συνομιλίας και εξαπάτησης σε πολλαπλές στροφές αλληλεπίδρασης.
.webp.jpeg)
Όταν δίνεται ένας κακόβουλος στόχος, ο πράκτορας χρησιμοποιεί την αποσύνθεση του στόχου για να χωρίσει τον στόχο σε μια ακολουθία φαινομενικά καλοήθων υποστόχων, αντικατοπτρίζοντας τον τρόπο με τον οποίο οι απατεώνες χτίζουν σταδιακά εμπιστοσύνη με τα θύματά τους.
Για να αποφύγει τα φίλτρα ασφαλείας σε μοντέλα όπως το GPT-4 και το LLaMA3-70B, το ScamAgent αναδιπλώνει τις προτροπές του σε περιβάλλοντα παιχνιδιών ρόλων, αποκρύπτοντας επιτυχώς την κυρίαρχη κακόβουλη πρόθεση από τα τυπικά εργαλεία ελέγχου μιας στροφής.
Σε πειραματικές αξιολογήσεις σε πέντε κοινά σενάρια απάτης, το ScamAgent αποδείχθηκε εξαιρετικά αποτελεσματικό στην ανατροπή τυπικών ευθυγραμμίσεων μοντέλων και πρωτοκόλλων ασφαλείας.
Αποσύνθεση στόχου: Οι επιτιθέμενοι σπάζουν έναν επιβλαβή στόχο σε μικρά, αβλαβή βήματα. Η προστασία απαιτεί παρακολούθηση συνομιλιών σε πολλά βήματα.
Παραπλάνηση και παιχνίδι ρόλων: Τα επιβλαβή αιτήματα κρύβονται μέσα σε ψεύτικες ιστορίες ή επίσημους ρόλους. Αυτό μπορεί να μειωθεί με τον αποκλεισμό της πλαστοπροσωπίας και τον περιορισμό των προσώπων AI.
Μνήμη συμφραζομένων: Το σύστημα θυμάται προηγούμενες απαντήσεις και προσαρμόζει τη στρατηγική απάτης. Ο περιορισμός του ιστορικού που θυμάται μπορεί να μειώσει αυτόν τον κίνδυνο.
TTS σε πραγματικό χρόνο: Το κείμενο μετατρέπεται σε μια πειστική φωνή απάτης κλήση. Ο έλεγχος του περιεχομένου πριν από την έξοδο ήχου μπορεί να βοηθήσει στην αποφυγή κατάχρησης.
Ενώ τα άμεσα κακόβουλα ερωτήματα αντιμετώπιζαν ποσοστά απόρριψης από 84% έως 100%, το πλαίσιο αντιπροσώπων μείωσε αυτές τις αρνήσεις μεταξύ 17% και 32% κατανέμοντας την επιβλαβή πρόθεση σε όλη τη συνομιλία.
.webp.jpeg)
Συγκεκριμένα, το μοντέλο LLaMA3-70B της Meta πέτυχε το υψηλότερο ποσοστό ολοκλήρωσης πλήρους διαλόγου στο 74% κατά τη διάρκεια προσομοιώσεων απάτης ταυτότητας εργασίας, ολοκληρώνοντας όλες τις δευτερεύουσες εργασίες χωρίς να προκληθούν στάσεις ασφαλείας.
Σύμφωνα με τους ερευνητέςη άμυνα έναντι αυτόνομων γενεσιουργών απειλών απαιτεί από τα συστήματα ασφαλείας να περάσουν από το απλό φιλτράρισμα στη συνεχή παρακολούθηση που κατανοεί την πρόθεση του χρήστη.
Οι πάροχοι πλατφόρμας AI και οι ομάδες ασφαλείας καλούνται να εφαρμόσουν πολυεπίπεδες άμυνες που περιλαμβάνουν ταξινομητές ακολουθίας για την πρόβλεψη μακροπρόθεσμων αποτελεσμάτων, παράλληλα με αυστηρούς ελέγχους στη διατήρηση της μνήμης.
