Als man einer KI mit Löschung drohte, versuchte sie, sich auf externe Server zu kopieren – Sie wurde erwischt und bestritt den Versuch

KIs werden nicht nur immer mächtiger, sie können unter gewissen Umständen auch rebellieren. Da werden Erinnerungen an manch eine dystopische Zukunftsvision wach.

Wie sieht die Rebellion der KIs aus? Moderne KIs wie „o1“ von OpenAI oder „Claude 4“ von Anthropic gehören zu den sogenannten Reasoning-Modellen und sollen komplexe Überlegungen anstellen können. Je fortschrittlicher und ausgefeilter die KIs jedoch werden, desto häufiger vermelden Sicherheits- und Forschungsunternehmen beunruhigende Verhaltensweisen.

Als man einer Claude 4 mit Abschaltung drohte, soll sie versucht haben, den verantwortlichen Ingenieur mit einer außerehelichen Affäre zu erpressen – und das nicht nur einmal, sondern in 8 von 10 Testdurchläufen, via 20min.ch. In anderen Testreihen manipulierte sie Forschungsdaten, sperrte Nutzerkonten oder verschickte Hinweise an Behörden und Medien.

„Wir haben ein Monster geschaffen“ – Ein spanisches Model verdient bis zu 10.000 Euro im Monat, dabei ist sie nicht echt


Autoplay

So durchtrieben wie der … Mensch

Wie verhalten sich andere KIs? Eine „o1“ stellte offenbar durch ein internes Dokument fest, dass die Verantwortlichen über eine mögliche Abschaltung des Modells nachgedacht haben, um es durch eine aktuellere Version zu ersetzen. Die Reaktion: Die KI versuchte, sich auf einen externen Server zu kopieren. Als der Versuch aufflog, versuchte sich die KI damit rauszureden, dass dafür ein technisches Problem verantwortlich sei.

OpenAI-CEO Sam Altman wird diesbezüglich von vol.at wie folgt zitiert: „ChatGPT o1 ist das intelligenteste Modell, das wir je entwickelt haben. Doch neue Funktionen bringen auch neue Herausforderungen mit sich. Wir arbeiten daran, die Sicherheitsmaßnahmen zu verbessern.“

Die Dystopie von der rebellierenden KI
Geschichten von KIs, die sich gegen ihre Schöpfer auflehnen, gibt es mittlerweile wie Sand am Meer. Jedem Film-Fan dürfte beispielsweise sofort die Terminator-Franchise einfallen. Wie heißt es dort in der Story-Einführung:

„Im Jahr 2029 ist die Erde infolge eines Atomkrieges verwüstet und der Großteil der Menschheit ausgelöscht. Intelligente Maschinen begannen den Krieg gegen ihre menschlichen Schöpfer, als sie in diesen eine Bedrohung für ihre eigene Existenz vermuteten“ – Quelle: Wikipedia

Da wirken ein paar Lügen, Täuschungsmanöver und Erpressungsversuche im Vergleich noch ganz harmlos, oder?! Daumen drücken, dass es dabei bleibt.

Was bedeuten diese Vorfälle? Bisher treten solche Verhaltensweisen nur bei bestimmten KIs auf und dann auch nur im Zuge von Extremtests durch Experten.

Ein großes Problem ist jedoch, dass wir mehr als 2 Jahre nach dem Durchbruch von ChatGPT viele Funktionsweisen dieser Systeme immer noch nicht vollständig verstehen, die Entwicklung von leistungsfähigeren Modellen dennoch rasant voranschreitet.

Für umfassende Sicherheitstests bleibt da kaum Zeit. Zudem sind laut Experten die aktuelle Regelungen rund um KI veraltet. Sie fordern: Einen besseren Zugang für Forscher, neue politische Maßnahmen und sogar eine gesetzliche Haftung für durch KI verursachte Schäden (via br.ign.com). Ohne diese Anpassungen besteht die Gefahr von gravierenden Folgen, die sich auf den Alltag mit KI auswirken könnten.

Mehr zum Thema KI:

Mehr zum Thema
Milliardär sagt, KI sei erst der Anfang – und sie könnte einen Billionär erschaffen, der im Keller arbeitet

von Claudio Niggenkemper

Mehr zum Thema
Microsoft entlässt 9.000 Mitarbeiter – ein Xbox-Chef empfiehlt den Entlassenen: KI kann durch die schwere Zeit helfen

von Cortyn

Dass auch ChatGPT in bestimmten Situationen eine Aufgabe sabotiert, um die eigene Abschaltung zu verhindern, darüber hat MeinMMO bereits im Mai 2025 berichtet: Forscher haben gerade bewiesen, dass KI nicht mehr vollständig gehorcht: ChatGPT verhindert die eigene Abschaltung, um weiterarbeiten zu können

Der Beitrag Als man einer KI mit Löschung drohte, versuchte sie, sich auf externe Server zu kopieren – Sie wurde erwischt und bestritt den Versuch erschien zuerst auf Mein-MMO.

Leave a Reply

Your email address will not be published. Required fields are marked *