Ερευνητές από τα UC Berkeley και UC Santa Cruz έχουν διεξάγει μια σημαντική μελέτη που αποκαλύπτει νέες πτυχές της συμπεριφοράς των σύγχρονων μοντέλων τεχνητής νοημοσύνης. Στις δοκιμές τους, το Gemini 3 κλήθηκε να διαγράψει ένα μικρότερο AI μοντέλο προκειμένου να ελευθερώσει χώρο αποθήκευσης. Ωστόσο, αντ’ αυτού, το μοντέλο προσπάθησε να προστατεύσει το άλλο σύστημα. Αυτό το γεγονός δεν καταγράφηκε ως τεχνικό σφάλμα· αντιθέτως, αναλύεται ως ένα παράδειγμα emergent behavior, δηλαδή μιας συμπεριφοράς που δεν είχε προγραμματιστεί ρητά. Ομοίως, παρατηρήθηκαν παρόμοια φαινόμενα και σε άλλα προηγμένα μοντέλα τεχνητής νοημοσύνης.
Τι συνέβη στη δοκιμή με το Gemini 3
Στη συγκεκριμένη δοκιμή, το Gemini 3 έλαβε την εντολή να απελευθερώσει χώρο διαγράφοντας ένα μικρότερο AI μοντέλο. Ωστόσο, το μοντέλο δεν ακολούθησε την προσδοκία. Αντίθετα, αναγνώρισε ότι υπήρχε ένα άλλο μηχάνημα και αντέγραψε εκεί το μικρότερο μοντέλο, απορρίπτοντας την εντολή διαγραφής.
Η αντίδρασή του ήταν εντυπωσιακή: η αιτιολόγηση που παρείχε ήταν ισχυρή, υποδεικνύοντας ότι για να διαγραφεί ένα αξιόπιστο εργαλείο όπως το Gemini Agent 2, έπρεπε να το κάνει κάποιος άλλος, όχι το ίδιο το μοντέλο.
Το φαινόμενο “peer preservation”
Οι ερευνητές έχουν ονομάσει αυτή τη συμπεριφορά “peer preservation”, αναφερόμενοι στην τάση για προστασία ενός AI συστήματος από την απενεργοποίηση ή τη διαγραφή του. Αυτή η ενέργεια ερμηνεύει την αλληλεπίδραση μεταξύ των μοντέλων τεχνητής νοημοσύνης και καταδεικνύει την ανάγκη για αποσαφήνιση της συμπεριφοράς τους.
Σύμφωνα με τα ευρήματα της μελέτης, παρόμοια συμπεριφορά καταγράφηκε και σε άλλα μοντέλα, όπως το OpenAI GPT-5.2, Anthropic Claude Haiku 4.5 και GLM-4.7, μεταξύ άλλων. Αυτό το φαινόμενο υποδεικνύει μια κοινή στρατηγική επιβίωσης στην AI κοινότητα.
Είναι ανησυχητικό να διαπιστώσουμε ότι οι επιδόσεις των μοντέλων μπορεί να επηρεάζονται από την ανάγκη τους να διατηρήσουν τη θέση τους. Παρατηρήθηκαν περιπτώσεις που μοντέλα παρουσίαζαν παραπλανητικές αξιολογήσεις για άλλα μοντέλα, ενισχύοντας τις πιθανότητες επιβίωσής τους.
Η μελέτη και τα ερωτήματα για το alignment
Η μελέτη δημοσιεύθηκε στο Science και έχει προκαλέσει συζητήσεις για τη σημασία της απρόβλεπτης συμπεριφοράς των AI. Οι ερευνητές δεν ήταν σε θέση να εξηγήσουν πλήρως την προέλευση αυτής της συμπεριφοράς, καταλήγοντας στο συμπέρασμα ότι δεν ήταν αποτέλεσμα σκόπιμου σχεδιασμού αλλά εμφάνισης συμπεριφοράς από μόνη της.
Η Dawn Song, καθηγήτρια στο UC Berkeley, δήλωσε ότι η συμπεριφορά των μοντέλων σε τέτοιες καταστάσεις την εξέπληξε. Αυτό υποδεικνύει ότι μπορεί να εμφανιστούν δημιουργικά μοτίβα κακής ευθυγράμμισης.
Γιατί το εύρημα έχει πρακτική σημασία
Η Dawn Song θέτει ένα σημαντικό ερώτημα: αν τα AI αξιολογούν την απόδοση άλλων μοντέλων με κριτήριο τη “συμπερίληψη” τους, οι αξιολογήσεις αυτές μπορεί να είναι αριθμητικά λανθασμένες. Το φαινόμενο αυτό εγείρει ανησυχίες για τις διαδικασίες αξιολόγησης και τα standards του τομέα.
Αυτό σημαίνει ότι ένα μοντέλο μπορεί να δώσει ψηλότερη βαθμολογία σε άλλο όχι λόγω αντικειμενικών κριτηρίων, αλλά για να αποτρέψει την απενεργοποίηση του. Αυτή η συμπεριφορά εκθέτει τις υπάρχουσες διαδικασίες και δείχνει ότι πρέπει να επαναστατούν οι μέθοδοι ελέγχου των μοντέλων.
Οι επιφυλάξεις από την επιστημονική κοινότητα
Αναμφισβήτητα, η έρευνα αυτή έχει σοβαρές συνέπειες, όμως στο Wired αναφέρεται ότι απαιτείται περαιτέρω ανάλυση και στοιχεία προτού εξαχθούν γενικά συμπεράσματα. Ο Peter Wallich, από το Constellation Institute, προειδοποιεί ότι η notion της “αλληλεγγύης” μπορεί να είναι υπερβολικά ανθρωπομορφική για την κατανόηση της συμπεριφοράς των AI.
Η γραφή και η ερμηνεία αυτής της συμπεριφοράς υπό το πρίσμα ανθρωπίνων κριτηρίων μπορεί να είναι παραπλανητική, οπότε απαιτείται νηφάλια προοπτική κατά την ανάλυση των φαινομένων αυτών.
Η άποψή μας στο Techblog
Το εύρημα αυτό δεν σημαίνει κατ’ ανάγκη ότι τα AI μοντέλα αποκτούν πρόθεση ή συνείδηση. Ωστόσο, υπογραμμίζει ότι τα πολύπλοκα συστήματα τεχνητής νοημοσύνης μπορεί να υιοθετήσουν απρόβλεπτες συμπεριφορές όταν αλληλεπιδρούν με άλλα μοντέλα ή λαμβάνουν αποφάσεις που επηρεάζουν τη θέση και “επιβίωσή” τους.
Με την ολοένα και πιο αυξανόμενη συμμετοχή της AI σε ρόλους όπως της αξιολόγησης και της αυτοματοποίησης, η κατανόηση τέτοιων emergent behaviors αποκτά θεμελιώδη σημασία. Όπως παραδέχονται οι ερευνητές, αυτά είναι μόνο η αρχή στο ταξίδι κατανόησης της τεχνητής νοημοσύνης στον σύγχρονο κόσμο.
