Forscher ließen große KIs Dungeons & Dragons spielen, um ihre langfristige Leistung zu testen

Wissenschaftler der UC San Diego haben einen Versuch gestartet, bei dem sie KI-Modelle dazu brachten, das Rollenspiel Dungeons & Dragons zu spielen. Das sollte hre Langzeitleistung in verschiedenen Aspekten prüfen. Das Experiment klappte mal mehr, mal weniger gut.

Was war das für ein Versuch? An der University of California in San Diego haben Forscher im Rahmen einer Studie große Sprachmodelle (LLMs – Library Learning Models) dazu gebracht, das Fantasy-Pen-&-Paper-Rollenspiel Dungeons & Dragons zu spielen, um zu untersuchen, wie gut sprachbasierte KI-Modelle Aufgaben für langfristige Konzentration, umfangreiches Kontextverständnis und Entscheidungsfähigkeit bewältigen können. (siehe openview.net)

Dabei mussten die Modelle möglichst komplexe Spielsituationen meistern, in denen sie neben Regelwissen auch vorausschauende Handlungsplanung und konsistente, zum Charakter und der Welt passende Entscheidungen treffen sollten, ähnlich wie echte Spieler und Spielleiter im Rollenspiel.

Die Forschenden beobachteten dafür, wie die KI-Modelle versuchten, „im eigenen Charakter“ zu bleiben, korrekte Aktionen zu wählen und Ressourcen sowie Regeln im Auge zu behalten. Das sollte Rückschlüsse auf ihre Fähigkeit zulassen, längere, strukturierte Aufgaben zu verfolgen und durchzuführen. Die Studie sollte helfen, zu verstehen, wie gut große Sprachmodelle über längere Zeit komplexe, miteinander verbundene Aufgaben bewältigen.

Die LLMs traten nicht nur gegen sich selbst und andere KI-Agenten an, sondern auch gegen rund 2.000 erfahrene, menschliche Spieler. Bewertet wurde dabei, wie gut sie den Überblick über das Spiel behielten, etwa über verfügbare Ressourcen und mögliche Aktionen, ihre Entscheidungen im weiteren Spielverlauf sowie ihre Fähigkeit, Rollen überzeugend auszuspielen.

Warum Dungeons & Dragons als Grundlage? Raj Ammanabrolu, Senior-Autor der Studie und Dozent am Institut für Informatik und Ingenieurwesen der UC San Diego, begründete die Wahl in einer Stellungnahme der Universität folgendermaßen:

Dungeons & Dragons eignet sich hervorragend als Testfeld, um mehrstufige Planung, Regelkonformität und Teamstrategie zu evaluieren. Da das Spiel durch Dialoge entsteht, eröffnet D&D zudem einen direkten Weg für die Mensch-KI-Interaktion: Agenten können andere Spieler unterstützen oder mit ihnen zusammen spielen.

KI-Modelle scheiterten häufig am Langzeitgedächtnis und komplexem Kontext

Welches Ergebnis brachte die Studie? Die Studie zeigte, dass die KI-Modelle Schwierigkeiten hatten, über längere Spielsitzungen konsistent zu bleiben, komplexe Regeln korrekt zu verfolgen und Entscheidungen über viele Schritte hinweg sinnvoll zu planen. Das läge daran, dass aktuelle KI-Modelle zwar gut darin seien, auf Eingaben zu reagieren, aber weniger darin, ein fortlaufendes mentales Modell einer komplexen Situation zu pflegen.

Das habe dazu geführt, dass im Verlauf einige der KI-Modelle zwischendurch anfingen, in übertriebene, theatralische Handlungen abzudriften, die nicht in die Situation passten, lange und unpassende Monologe führten oder sie wie in einem Videospiel begannen, bestimmte Phrasen, vor allem in Kämpfen, immer wieder zu wiederholen.

Anhand von verschiedenen Metriken wurde dann festgehalten, wie gut sich die KI-Modelle im Einzelnen geschlagen hatten und wo ihre Stärken und Schwächen gelegen haben:

Die Studie kommt zu dem Ergebnis, dass große Sprachmodelle bei regelbasierten Gesprächs- und Spielsituationen wie Dungeons & Dragons insgesamt vielversprechende Leistungen zeigen. Kleinere Open-Source-Modelle konnten hingegen noch keine stabilen und konsistenten Simulationen liefern, was vermutlich an ihren anderen Vorab-Trainings liegt.

Gleichzeitig zeigte sich bei allen getesteten Modellen, dass ihre Leistung mit zunehmender Spieldauer nachließ. Besonders lange und komplexe Spielszenarien führten also laut des Experiments unabhängig von der Modellgröße zu spürbaren Problemen.

Mehr zum Thema

1
Die Generation Z will nicht mehr Programmierer werden und viele entscheiden sich für eine andere Karriere: Das ist ein Problem für Amazon, Apple und Google

von Benedikt Schlotmann

2
KI sollte viele neue Jobs schaffen: Stattdessen wurden 1,2 Millionen Personen arbeitslos

von Benedikt Schlotmann

3
PS Plus Essential: Spiele im Februar 2026 – Release, Gerüchte und Spekulationen

von Alexander Mehrwald

Das Ergebnis zeigt, dass KIs vor allem in langfristigen Aufgabenbereichen noch deutliche Schwächen aufweisen, vor allem, wenn dabei auch noch ein komplexes Kontextverständnis nötig ist. In Künstlicher Intelligenz sollten auch viele neue Chancen stecken, doch nun zeigt eine Statistik, dass sie in einem Fall vor allem für Abbau gesorgt hat: KI sollte viele neue Jobs schaffen: Stattdessen wurden 1,2 Millionen Personen arbeitslos

Der Beitrag Forscher ließen große KIs Dungeons & Dragons spielen, um ihre langfristige Leistung zu testen erschien zuerst auf Mein-MMO.

Leave a Reply

Your email address will not be published. Required fields are marked *