Der YouTuber Peter Whidden hat einer KI beigebracht, Pokémon Rot mit Hilfe eines Emulators zu spielen. Er bringt sie über Belohnungspunkte dazu, die richtigen Aktionen auszuführen. Doch es kommt immer wieder zu Problemen, etwa einer „Angst“ vor Pokémon Centern und Problemen bei der Wegfindung.
Wie genau funktioniert das? Die Künstliche Intelligenz sollte das Spiel möglichst wie ein Mensch bedienen. Der YouTuber erklärt dazu, dass die KI in der Lage sei, die Steuerung selbstständig zu nutzen. Nach jeder Aktion schaut sie auf den Bildschirm und überlegt, was sie als Nächstes tun soll, genau wie ein Nutzer vor dem Gerät.
Dabei ließ er 40 Test-Sessions parallel laufen, um die Lerngeschwindigkeit zu erhöhen.
Da der Algorithmus jedoch nicht selbstständig das Ziel hat, das Spiel zu gewinnen, legte Whidden bestimmte Belohnungen fest. Um die Erkundungen zu fördern, erhielt die KI immer dann einen Belohnungspunkt, wenn sie etwas Neues sah, gemessen an der Zahl der unterschiedlichen Pixel auf dem Bildschirm. Das hatte jedoch zur Folge, dass die KI fasziniert auf die Animation von Wasser schaute und dort in der Nähe stehenblieb, statt weiter zur nächsten Stadt zu laufen.
Weitere Belohnungspunkte wurden eingeführt, etwa für das Fangen von Pokémon, das Gesamtlevel des Teams, den Gewinn eines Trainerkampfes oder den Sieg in einer Arena.
Doch auch danach kam es immer wieder zu Problemen.
Wer übrigens nostalgische Gefühle bei diesem Text und dem dazugehörigen Video bekommt, sollte sich den Trailer zur neuen Live-Action-Serie anschauen:
Die Angst vor Schwester Joy, die Suche nach der zweiten Arena und 10.000 Karpador
Welche Hürden gab es? Beim ersten Besuch im Pokémon Center interagierte die KI mit dem Computer und lagerte einige Pokémon ein. Das senkte das Gesamtlevel des Teams, was zu einer Art Trauma führte – auch wenn der Algorithmus natürlich keine Gefühle hat. Fortan wurde jedoch versucht, das Gebäude aktiv zu vermeiden.
Das führte dazu, dass das Team nicht mehr geheilt wurde. Whidden musste also am System herumschrauben und ein neues Belohnungslevel einführen.
Ebenfalls kurios waren Anpassungen bei den Kämpfen. So rannte die KI in jeden Kampf rein, ob sie gewinnen konnte oder nicht. Also führte der YouTuber eine Strafe für verlorene Kämpfe ein. Doch direkt bei der ersten Niederlage, weigerte sich die KI dann, den A-Knopf zu drücken, nachdem das letzte Pokémon gestorben war. Sie wollte einfach für immer im Kampf-Bildschirm verweilen, um keinen Punktabzug zu bekommen.
Auch der Kampf gegen Rocko in der ersten Arena lief alles andere als logisch ab. So begriff die KI lange nicht, dass Wasserattacken die Schwäche von Gesteins-Pokémon sind. Erst, als Schiggy keine anderen Fähigkeiten als Blubber mehr nutzen konnte, wurde dieser Angriff zum ersten Mal eingesetzt. Es folgte ein lockerer Sieg – nach rund 7.000 Spielstunden.
Doch auch danach wurde es nicht besser. So schaffte es die KI zwar, den Mondberg zu betreten, fühlte sich dort aber nicht wohl und verließ den Ort einfach wieder. Auch nach 50.000 Stunden hat die KI nicht Azuria City und damit die zweite Arena gefunden.
Allerdings hat die KI das Pokémon Karpador sehr lieb gewonnen. Beim zwielichtigen Händler, der das Pokémon Karpador für 500 Pokédollar verkauft, holte sich die KI über 10.000 Versionen davon. Da die KI darauf programmiert war, neue Pokémon zu gewinnen, war dies wohl der lukrativste Weg.
Wenn man das so liest, macht die KI bisher keine gute Figur. Doch es gab auch ein paar positive Elemente.
KI lernt Glitches, für die andere Jahrzehnte brauchen
War alles schlecht bei dem Experiment? Nein, denn der Algorithmus nutzte immer wieder an der gleichen Stelle einen bestimmten Laufweg, der auf den ersten Blick keinen Sinn ergab. Später fand der YouTuber aber heraus, dass ein Glitch genutzt wurde, der garantiert, dass das erste Pokémon, das man traf, sofort mit einem Wurf gefangen werden kann.
Das gesamte Video könnt ihr euch hier anschauen:
Was kam da überhaupt zum Einsatz? Am Ende des Videos erklärt der YouTuber noch viele technische Details, die besonders interessant sind, wenn man selbst solche Experimente durchführen möchte. So nutzte der für den Lern-Algorithmus die Proximal Policy Optimization, was laut ihm der Standard sei und auch für ChatGPT genutzt wurde.
Das Schwierigste bei dem Prozess ist, der Maschine zu erklären, was sie tun soll, ohne ihr jeden Schritt einzeln zu erklären, denn eigentlich soll die KI ja selbstständig lernen. Dabei helfen größere Datensätze, die hier bei Pokémon Rot jedoch nicht vorlagen, anders etwa als bei Text- oder Sprach-KIs.
Was sagt ihr zu diesem Experiment? Fandet ihr die Infos und das Video unterhaltsam?
Wie gut die Sprach-KIs inzwischen sind, zeigt dieses Beispiel: Firma entlässt ein ganzes Team, lässt die Arbeit jetzt von KI machen – Ein Mitarbeiter klagt: „Eine KI hat mir den Job weggenommen.“