ChatGPT als Gedankenbremse – Wie KI das Lernen erschweren kann

Immer mehr Studien deuten auf problematische Einflüsse von Künstlicher Intelligenz auf das Lernen hin

Künstliche Intelligenz (KI) hat in den letzten Jahren gezeigt, dass sie die Welt der Bildung grundlegend verändern wird. Und auch wenn die revolutionäre Technik enorme Potentiale für innovatives, individuelles Lernen und für eine signifikante Arbeitsentlastung der Lehrkräfte bietet, birgt sie auch ernstzunehmende Risiken. Aktuelle Studien beleuchten inzwischen, wie KI das Lernen negativ beeinträchtigen kann. Ein Überblick.

Kognitives Offloading: KI beeinträchtigt kritisches Denken

Eine Studie von Michael Gerlich (2025) von der Swiss Business School weist darauf hin, dass die Fähigkeit zum kritischen Denken durch die Nutzung von KI beeinträchtigt werden könnte. Gerlich ließ 666 Personen befragen, die häufig KI-Tools wie ChatGPT nutzen. Dabei ergab sich eine klare negative Korrelation: Junge Erwachsene zwischen 17 und 25 Jahren, die sich stark auf KI-Tools stützen, erzielten signifikant schlechtere Ergebnisse beim sogenannten “Halpern Critical Thinking Assessment”, einem standardisierten Test zur Messung der Fähigkeiten im kritischen Denken.

Dieser Effekt wird auf das sogenannte “kognitive Offloading” zurückgeführt – die Verlagerung geistiger Prozesse auf externe Hilfsmittel. Gerlich schreibt: “Übermäßige Abhängigkeit von externen Hilfsmitteln kann zu einem Rückgang interner kognitiver Fähigkeiten führen, wie etwa der Gedächtnisleistung und den Fähigkeiten zur kritischen Analyse.” Dieser Befund lasse Zweifel aufkommen, wie sich die ständige Nutzung von Technologie langfristig auf unsere kognitiven Fähigkeiten auswirkt. Zwar könne kognitives Auslagern auch “eine nützliche Strategie zur Bewältigung der kognitiven Belastung und zur Steigerung der Produktivität” sein, andererseits “könnte es die Entwicklung und Erhaltung kritischer kognitiver Fähigkeiten untergraben, insbesondere wenn Individuen zu stark von externen Werkzeugen abhängig werden.” (Gerlich, 2025) Mit anderen Worten: Je häufiger und intensiver KI genutzt wird, desto mehr scheinen die eigenen Denkprozesse zu verschleißen.

Negative Effekte auf die Prüfungsleistung

Diese Vermeidung gewisser kognitiver Anstrengungen kann sich auch ganz konkret in Prüfungsergebnissen zeigen, wie eine aktuelle Untersuchung von Janik Ole Wecks und Kolleginnen und Kollegen von der Universität Bremen (2024) zeigt. Sie untersuchten die Essays von 193 Studierenden einer Einführungsklasse im Fach Finanzbuchhaltung. Studierende, die generative KI für ihre Studienarbeiten nutzen, schnitten in der Prüfung durchschnittlich 6,71 Punkte (von 100) schlechter ab als ihre Kommilitoninnen und Kommilitonen, dies entspricht einem Rückgang von etwa 15 Prozent im Vergleich zum Durchschnitt der Gruppe, die keine KI nutzte.

Die Forscherinnen und Forscher stellten dabei einen "lernhemmenden Mechanismus" fest: Die KI beeinflusste den Lernprozess der Studierenden derart, dass sie von einer aktiveren Auseinandersetzung mit dem Stoff absahen. Besonders betroffen waren leistungsstarke Studierende, die durch die Nutzung der KI auf den Einsatz der eigenen eigentlich starken Analyse- und Verarbeitungsskills verzichteten. Die Autorinnen und Autoren der Studie argumentieren, dass KI hier als „Krücke“ fungiere und den Lernerfolg behindern könne, da wichtige kognitive Prozesse umgangen würden: “Wenn Studierende generative KI einen Aufsatz zu einem komplexen und herausfordernden Thema schreiben lassen, anstatt sich mit dem Inhalt auseinanderzusetzen, ihn zu durchdringen und den Aufsatz selbst zu verfassen, verschwenden sie die Gelegenheit, zu lernen und die damit verbundenen Belohnungen des eigenen Nachdenkens zu erfahren“, schreiben die Autorinnen und Autoren der Studie (Wecks et al., 2024).

Unkontrollierter Einsatz führt zu oberflächlichem Lernen

Eine weitere spannende Studie, die dieses Ausbleiben tieferer Lernprozesse anspricht, wurde im türkischen Schulsystem durchgeführt. Dort untersuchte Hamsa Bastani mit Kolleginnen und Kollegen (2023) die Auswirkungen generativer KI auf die Lernleistung in Mathematikklassen. Rund 1000 Schülerinnen und Schüler wurden dafür in drei Gruppen eingeteilt:

  • Gruppe „GPT Base“: Diese Gruppe hatte uneingeschränkten Zugang zu GPT-4, ohne dass Lernfördermaßnahmen oder eine Anleitung zur Nutzung der KI bereitgestellt wurden. Die Schülerinnen und Schüler konnten GPT-4 frei nutzen, um Antworten auf ihre Mathematikaufgaben zu erhalten.
  • Gruppe „GPT Tutor“: In dieser Gruppe hatten die Schülerinnen und Schüler ebenfalls Zugang zu GPT-4, jedoch war dieser Zugang strukturiert und unterstützt. Anstatt die KI nur als Hilfsmittel für schnelle Lösungen zu verwenden, wurden die Schülerinnen und Schüler durch spezifische lernfördernde Maßnahmen dazu angeregt, sich aktiv mit dem Lernstoff auseinanderzusetzen. GPT-4 stellte nicht nur Lösungen bereit, sondern stellte auch Fragen, gab Hinweise und förderte das kritische Denken der Schülerinnen und Schüler. So wurde sichergestellt, dass die Schülerinnen und Schüler tiefere kognitive Prozesse durchliefen und das Material besser verinnerlichten.
  • Kontrollgruppe: Diese Gruppe hatte keinen Zugang zu KI-Tools und arbeitete ausschließlich mit traditionellen Lernmethoden.

Während der Lernphase zeigte die Gruppe „GPT Base“, die unkontrollierten Zugang zur KI hatte, eine kurzfristige Leistungssteigerung von 48 Prozent im Vergleich zur Kontrollgruppe: Der Einsatz von GPT-4 erleichterte den Schülerinnen und Schülern also anfangs das Lösen der Mathematikaufgaben. In einer nachfolgenden Prüfung ohne KI-Unterstützung jedoch fiel diese Gruppe um 17 Prozent hinter die Kontrollgruppe zurück. Diese Leistungseinbuße lässt darauf schließen, dass die Schülerinnen und Schüler der Gruppe „GPT Base“ sich stark auf die KI verlassen hatten und dadurch weniger tiefgehendes Verständnis des Lernstoffs entwickelten. Die „GPT Tutor“-Gruppe hingegen schnitt stabil ab und zeigte kontinuierlich gute Leistungen. Durch die strukturierte Nutzung von GPT-4 konnten diese Schülerinnen und Schüler das Gelernte besser behalten und eine nachhaltigere Leistung erzielen, da sie aktiv dazu angeregt wurden, sich mit dem Material auseinanderzusetzen. Der unkontrollierte Einsatz von generativer KI, wie in der „GPT Base“-Gruppe, trug also zu einem weniger tiefgreifenden Verständnis des Lernstoffs bei. Die Forschenden schreiben: “Während generative KI-Tools wie ChatGPT Aufgaben für Menschen erheblich erleichtern können, gehen sie mit dem Risiko einher, unser Lernen eben jener Fähigkeiten zu verschlechtern, die erforderlich sind, um Aufgaben zu lösen.” (Bastani 2023)

Auch frühere technologische Erfindungen wie die Tastatur oder der Taschenrechner hätten die Bedeutung der Handschrift und des Kopfrechnens bereits verringert, schreiben die Forschenden weiter. Dennoch seien Künstliche Intelligenzen wie ChatGPT etwas anderes. “Erstens sind die Fähigkeiten von ChatGPT im Vergleich zu früheren Beispielen erheblich breiter und intellektueller”, man habe in den Experimenten eine Vielzahl mathematischer Themen abgedeckt, “die grundlegende Fähigkeiten umfassen, die für viele wissensintensive Berufe erforderlich sind.” Zweitens sei ChatGPT “äußerst unzuverlässig” und liefere oft falsche Antworten. “Unsere Ergebnisse deuten darauf hin, dass Schüler entweder nicht in der Lage sind, diese Fehler zu erkennen oder nicht bereit sind, die nötige Anstrengung zu unternehmen, um die Richtigkeit zu überprüfen.” Allerdings: Die „GPT Tutor“-Gruppe verdeutlicht, dass der strukturierte und unterstützende Einsatz von KI das Lernen vertiefen und eine nachhaltige Lernleistung fördern kann. Das zeige, dass “erheblicher Aufwand erforderlich” sei, damit generative KI “die Bildung positiv fördert, anstatt sie zu verringern”, so die Autorinnen und Autoren. (Bastani et al., 2023).

Weniger Flow, weniger Selbstwirksamkeit, weniger Lernleistung

Auch eine Studie aus Taiwan signalisiert ähnliche problematische Effekte beim Einsatz von KI zum Lernen. Die Forschenden untersuchten 153 Schülerinnen und Schüler aus sechs Klassen an einer taiwanesischen Schule, die KI dafür einsetzten, Programmieren zu lernen. Die Schülerinnen und Schüler wurden dafür zufällig in zwei Gruppen eingeteilt: eine Experimentalgruppe, die ChatGPT zur Unterstützung nutzte, und eine Kontrollgruppe, die mit traditionellen Methoden unterrichtet wurde. Beide Gruppen wurden von derselben Lehrkraft instruiert, die gleiche Materialien verwendete und denselben Lehrplan verfolgte. Die Intervention mit ChatGPT fand über drei Wochen statt, ChatGPT half den Schülerinnen und Schülern in dieser Zeit bei Syntaxfragen, Codeüberprüfung und Konzeptualisierungen. Nach mehreren Tests zeigte sich, dass die Experimentalgruppe eine signifikant niedrigere Flow-Erfahrung im Vergleich zur Kontrollgruppe hatte, was darauf hindeutet, dass Schülerinnen und Schüler, die ChatGPT verwendeten, weniger in den Lernprozess vertieft waren. Auch die Selbstwirksamkeit der Experimentalgruppe war signifikant geringer: Die Schülerinnen und Schüler gaben an, nach der Nutzung von ChatGPT weniger Vertrauen in ihre Fähigkeiten zu haben, Programmieraufgaben zu meistern. Schließlich zeigten entsprechende Prüfungen, dass außerdem die Lernleistung der Experimentalgruppe signifikant schlechter war.

In den Interviews der Studie äußerten viele Schülerinnen und Schüler, dass ChatGPT nicht so hilfreich war, wie sie erwartet hatten. Einige fanden es nützlich, da es "immer verfügbar" war und eine flexible Hilfe bot, jedoch berichteten auch viele, dass ChatGPT fehlerhafte Antworten lieferte oder dass die Antworten nicht immer verständlich waren. Einige Schülerinnen und Schüler bevorzugten die herkömmliche Methode des Lernens, weil Lehrkräfte schneller auf Fragen reagieren konnten und in der Lage waren, Fehler zu korrigieren.

“Dieses unerwartete Ergebnis unterstreicht die Notwendigkeit einer rigoroseren Untersuchung der Herausforderungen, die beim Einsatz von Generativer KI als Lernhilfe/Tutor auftreten”, schlussfolgern die Autorinnen und Autoren. Die Ergebnisse würden die Notwendigkeit hervorheben, “gleichzeitig die kognitiven, interaktiven und affektiven Dimensionen der Studierenden während des Lernprozesses zu berücksichtigen.” (Yang et al., 2024).

Was bedeutet das für das Lernen in der Schule?

Die Ergebnisse dieser und ähnlicher Studien werfen wichtige Fragen auf, wie der Einsatz von KI-Tools in Schulen sinnvoll gestaltet werden kann, ohne die kognitiven und motivationalen Fähigkeiten der Schülerinnen und Schüler zu beeinträchtigen. Die Erkenntnisse der Forschenden legen nahe, dass der unreflektierte oder unstrukturierte Einsatz von KI das Lernen eher behindern als unterstützen kann. Besonders prägnant erscheint die Gefahr des kognitiven Offloadings – oder wie es unser Kolumnist Florian Nuxoll genannt hat: Skill Skippings. Wenn also Schülerinnen und Schüler ihre Denkprozesse auf externe Hilfsmittel wie KI-Tools verlagern und so die Entwicklung ihrer eigenen kognitiven Fähigkeiten auf der Strecke bleibt. Dies könnte langfristig zu einer Schwächung des kritischen Denkens, Reflexion und der Problemlösungsfähigkeiten führen.

Für Schulen ist der Einsatz von KI demnach nicht nur als ein Werkzeug zur Effizienzsteigerung zu sehen, es bedarf großer Sorgfalt, wenn Künstliche Intelligenz in den Unterricht integriert wird. Schülerinnen und Schüler sollten nicht nur lernen, mit KI-Tools umzugehen, die Schule muss auch darauf achten, dass diese Werkzeuge die aktive Auseinandersetzung mit dem Lernstoff nicht behindern oder gar ersetzen. Insbesondere bei komplexen Aufgaben wie dem Schreiben von Essays oder der Lösung von mathematischen Aufgaben muss gewährleistet sein, dass die KI als Unterstützung dient und nicht als Ersatz für den eigenen Lernprozess.