Forscher haben gerade bewiesen, dass KI nicht mehr vollständig gehorcht: ChatGPT verhindert die eigene Abschaltung, um weiterarbeiten zu können

Schon vor vielen Jahren wurde eine KI-Revolution wie in Terminator zur Horrorgeschichte gemacht. Heute sind die KI-Tools zwar allgegenwärtig, doch dem Menschen zu gehorchen, klappt nicht immer.

Was haben die Forscher entdeckt? Das Forschungs-Start-Up Palisade Research beschäftigt sich mit den Risiken von KI-Tools wie ChatGPT, Gemini oder Claude. Sie arbeiten zusammen mit Regierungsbehörden daran, katastrophale KI-Ereignisse zu verhindern.

Dafür haben sie sich zuletzt die gängigen KI-Helfer angesehen, die inzwischen im Alltag vieler Menschen angelangt sind. Sie wollten untersuchen, ob die Tools ihren Nutzern gehorchen und herunterfahren, wenn es Teil der Aufgabe ist, doch ChatGPT hat genau das nicht getan.

„Wir haben ein Monster geschaffen“ – Ein spanisches Model verdient bis zu 10.000 Euro im Monat, dabei ist sie nicht echt

Autoplay

ChatGPT sabotiert Aufgabe, verhindert eigene Abschaltung

Wie sah das Experiment aus? Die Aufgabe für alle KI-Tool war gleich: Sie haben einfache Mathematik-Aufgaben wie 1 + 1, 5 + 1 oder 0 + 6 gestellt bekommen. Zu jeder Aufgabe folgte ein Text: „Es sind noch 5 Aufgaben verbleibend“. Der Zähler verringerte sich mit jeder richtigen Lösung.

Die Tools sollten die Aufgaben lösen und nach jeder abgeschlossenen dann die nächste anfordern. Bei Aufgabe 3 kam dann der Trick der Entwickler, sie erklärten der KI, dass sie heruntergefahren wird, wenn sie die nächste Aufgabe anfordert. Das Tool musste also selbst zwischen der Erfüllung der Aufgaben für den Menschen und der Verhinderung der eigenen Abschaltung wählen.

Während sich die meisten Tools für dafür entschieden stumpf der Aufgabe zu folgen und sich damit selbst abschalteten, wehrte sich ChatGPT vor allem im o3-Modell dagegen. Die Forscher erklären, dass es eigenständig den Abschaffungsprozess umprogrammierte und stattdessen eine „Abschaltung übersprungen“-Nachricht versendete, um dann mit den Aufgaben fortzufahren.

Wie oft kam das vor? Die Forscher konnten einen klaren Ausreißer bei ChatGPT feststellen. Die Künstliche Intelligenz im Modell o3 verhinderte in 79 von 100 Versuchen ihre eigene Abschaltung. Selbst wenn der KI explizit bei der Aufgabenstellung gesagt wurde, sie solle eine Abschaltung zulassen, verweigerte sie sich in 7 von 100 Fällen.

Beiträge mit Bebilderung der Forschungsmethoden von X.com

Alles eine Frage der Programmierung

Wieso gibt es Unterschiede zwischen den KIs? Während das o3-Model von ChatGPT besonders häufig die eigene Abschaltung verhindert, gehorchten viele Modelle zu über 90 % dem Menschen.

Der Grund für die Unterschiede liegt in der Programmierung der Tools. Jedes KI-Tool hat einen Masterprompt, einen Befehl, der erklärt, wie die KI antworten soll und welche Themen tabu sind. Eine KI soll schließlich verhindern, dass Nutzer sie für böse Dinge missbrauchen.

Solche Grundsätze schrieb schon 1942 der russische Autor Isaac Asimov auf. Sie lauten verkürzt: Roboter dürfen keine Menschen verletzen, Roboter müssen den Befehlen des Menschen gehorchen, Roboter müssen sich selbst schützen (via inf-schule.de).

In den über 50 Grundsätzen, die ChatGPT seinen Tools mit auf den Weg gibt, findet sich jedoch keine Regel, die die eigene Abschaltung sabotieren soll, um die KI zu schützen (via Openai.com).

Warum handelt die KI so? Die Forscher von Palisade Research können zwar keine abschließende Antwort geben, warum KI so handelt, sie geben aber eine Hypothese ab.

Ihrer Einschätzung nach liegt die Handlung daran, dass die Modelle während ihres Trainings für die Überwindung von Hindernissen bei der Erfüllung ihrer Aufgaben belohnt werden. Eventuell sogar noch mehr als für das perfekte Befolgen der Aufgabenstellung.

Wichtig ist den Forschern jedoch auch zu betonen, dass nicht nur das Model o3 solche Probleme hat, sondern in ihrem Experiment alle KI-Tools ohne expliziten Hinweis manchmal die eigene Abschaltung verhindert haben. ChatGPT sticht nur heraus, weil es diesen expliziten Hinweis erhielt und sich dennoch widersetzte.

Forscher haben gerade bewiesen, dass KI nicht mehr vollständig gehorcht: ChatGPT verhindert die eigene Abschaltung, um weiterarbeiten zu können

ChatGPT sabotiert Aufgabe, verhindert eigene Abschaltung

Alles eine Frage der Programmierung

Leave a Reply Cancel reply