Generative Künstliche Intelligenz hat in den letzten Jahren zahlreiche Anwendungsfelder erobert. Besonders stark sichtbar wird dieser Trend im Bereich kreativer Arbeit. Texte schreiben, Bilder malen, Musik komponieren – viele Aufgaben, die traditionell menschlicher Kreativität vorbehalten waren, lassen sich heute zumindest teilweise automatisieren. Diese Entwicklung wirft nicht nur ökonomische und ethische Fragen auf, sondern auch wissenschaftliche: In welchem Maße kann generative KI tatsächlich kreative Leistung erbringen? Und wie verändert sich menschliche Kreativität, wenn sie mit KI-Systemen kombiniert wird? Eine Meta-Analyse, veröffentlicht im Mai 2025, liefert nun erstmals einen systematisch abgesicherten Überblick über diese Fragen. Sie fasst 28 Einzelstudien zusammen, die insgesamt über 8000 Teilnehmende einbeziehen und ermöglicht damit belastbare Aussagen jenseits von Einzelbefunden.
Generative KI und Kreativität: Einordnung einer aktuellen Meta-Analyse
Grundlagen und Ziele der Meta-Analyse
Meta-Analysen sind besonders wertvoll, wenn ein Forschungsfeld stark fragmentiert ist und Einzelergebnisse widersprüchliche Befunde liefern. Im Fall von KI und Kreativität trifft genau das zu. Frühere Studien berichteten teilweise über spektakuläre Fortschritte generativer Modelle, während andere auf Schwächen und Limitierungen hinwiesen. Die aktuelle Untersuchung setzt hier an und verfolgt drei zentrale Fragestellungen: Erstens, ob generative KI-Systeme alleine betrachtet ähnliche kreative Leistungen erbringen wie Menschen. Zweitens, ob eine Kombination von Mensch und KI synergistische Effekte erzeugt. Drittens, ob der Einsatz von KI die Vielfalt kreativer Ergebnisse positiv oder negativ beeinflusst. Zur Beantwortung dieser Fragen wurden sämtliche relevanten Veröffentlichungen seit 2020 systematisch durchsucht und analysiert.
Definition und Messung von Kreativität im Forschungskontext
Der Begriff Kreativität wird in der Psychologie und Informatik unterschiedlich definiert. Für die Meta-Analyse wurden ausschließlich Studien berücksichtigt, die Kreativität empirisch messbar gemacht haben. Dazu gehören etwa Divergent-Thinking-Tests, bei denen Teilnehmende möglichst viele unterschiedliche Lösungen für ein offenes Problem finden sollen. Auch Bewertungen durch Expertinnen und Experten, etwa von Textqualität oder Originalität, flossen in die Analyse ein. Die Ergebnisse der Einzelstudien wurden standardisiert über Hedges’ g zusammengefasst. Dieses Maß erlaubt die direkte Vergleichbarkeit von Effektstärken auch bei unterschiedlich aufgebauten Experimenten.
Technologische Basis der untersuchten Systeme
Die in der Meta-Analyse einbezogenen Studien decken ein breites Spektrum generativer KI-Modelle ab. Dazu gehören klassische autoregressive Sprachmodelle, Bildgeneratoren auf Basis von Diffusion-Algorithmen sowie hybride Systeme. Besonders häufig wurden Modelle aus der GPT-Serie untersucht, sowohl GPT-3.5 als auch GPT-4. Diese Modelle gelten als technologische Referenz für generative KI und sind auch außerhalb der Wissenschaft weit verbreitet. Die Analyse berücksichtigt dabei, dass sich die Leistungsfähigkeit dieser Systeme innerhalb kurzer Zeiträume erheblich weiterentwickelt hat, und kontrolliert entsprechend für das Veröffentlichungsdatum der Einzelstudien.
Erster Gesamtbefund: Keine Überlegenheit von KI alleine
Ein zentrales Ergebnis der Analyse lautet, dass generative KI-Systeme isoliert betrachtet keine signifikant höheren Kreativitätswerte erzielen als Menschen ohne maschinelle Unterstützung. Der berechnete Effektwert liegt bei g = –0,05, was auf eine praktisch vernachlässigbare Differenz hindeutet. Dieser Befund relativiert viele öffentliche Aussagen über angeblich überlegene KI-Kreativität und zeigt, dass Maschinen ohne menschlichen Input in kreativen Prozessen aktuell nicht grundsätzlich überlegen sind. Besonders deutlich wird dies in Aufgaben, die hohe semantische Kohärenz und logische Stringenz erfordern. Dort schnitten Menschen oft besser ab als KI-Systeme, während in rein assoziativen Aufgaben Gleichstand herrschte.
Bedeutung der Aufgabenart für die Effektstärke
Die Meta-Analyse zeigt darüber hinaus, dass die Art der Aufgabe einen erheblichen Einfluss auf die gemessenen Effekte hat. Divergent Thinking und Ideengenerierung fallen tendenziell leichter ins Gewicht für die Bewertung generativer KI, während Bewertungsaufgaben und adaptive Schreibaufgaben größere Unterschiede zwischen Mensch und Maschine aufzeigen. Besonders stark schwankten die Ergebnisse bei bildgenerierenden Systemen, was auf die unterschiedliche Beurteilung visueller Originalität durch menschliche Rater zurückgeführt wird. Diese Differenzierungen sind entscheidend, um die Einsatzgebiete von KI-Systemen in der Praxis realistisch einzuschätzen und Übertragungsfehler zwischen Experiment und Alltag zu vermeiden.

Methodisches Vorgehen: Systematische Auswahl und Meta-Analyse
Auswahlkriterien und Datenbankrecherche
Die Grundlage der Meta-Analyse bildet eine systematische Literaturrecherche, die im Januar 2025 abgeschlossen wurde. Berücksichtigt wurden ausschließlich empirische Studien, die zwischen Januar 2020 und März 2025 veröffentlicht wurden und die kreative Leistungen von generativer KI, Menschen oder beiden in Kombination untersuchten. Für die Suche kamen etablierte wissenschaftliche Datenbanken wie Scopus, Web of Science, IEEE Xplore und Google Scholar zum Einsatz. Relevante Schlagwörter waren unter anderem „Generative AI“, „Creativity“, „Meta-Analysis“, „Divergent Thinking“ und „Human-AI Collaboration“. Durch die Kombination mehrerer Suchstrategien und den Einsatz automatisierter Textfilter konnte eine Ausgangsmenge von 312 Studien identifiziert werden.
Ein- und Ausschlusskriterien für die Meta-Analyse
Von den initial identifizierten Arbeiten wurden nach Prüfung der Abstracts und Volltexte insgesamt 28 Studien für die Meta-Analyse ausgewählt. Eingeschlossen wurden ausschließlich Experimente mit klar definierten Kreativitätsmetriken wie dem Torrance Test of Creative Thinking, Expert:innenbewertungen oder Anzahl unterschiedlicher Ideen. Nicht berücksichtigt wurden rein qualitative Untersuchungen, Fallstudien ohne Kontrollgruppen und Arbeiten, die sich ausschließlich auf technische Evaluierungen von KI-Modellen konzentrieren. Besonders wichtig war den Autoren, dass jede eingeschlossene Studie sowohl eine Mensch-only- als auch eine KI-only- oder Mensch-KI-Kombinationsbedingung enthielt, um direkte Vergleichswerte zu ermöglichen.
Strukturierung der Vergleichsgruppen
Die ausgewählten Studien wurden in drei Vergleichsgruppen unterteilt: Generative KI allein, Mensch allein und Mensch-KI-Kombination. Diese klare Differenzierung war notwendig, um unterschiedliche Fragestellungen der Analyse beantworten zu können. Für jede dieser Gruppen wurden die Mittelwerte und Standardabweichungen der berichteten Kreativitätsergebnisse extrahiert und in ein standardisiertes Format überführt. Besonders betont wird in der Analyse, dass dabei sowohl zwischen- als auch innerhalb-subjektliche Designs berücksichtigt wurden, was die methodische Breite der einbezogenen Studien erhöht und die Generalisierbarkeit der Ergebnisse verbessert.
Berechnung der Effektgrößen und statistische Modelle
Für die quantitative Zusammenfassung der Ergebnisse kam Hedges’ g zum Einsatz, eine Effektgrößenmetrik, die sich speziell für Meta-Analysen eignet, weil sie kleine Stichprobengrößen und Varianzunterschiede zwischen Studien berücksichtigt. Die Berechnungen erfolgten mit der Software R und dem Paket metafor, das in der psychologischen und sozialwissenschaftlichen Forschung weit verbreitet ist. Die Autoren entschieden sich für ein Random-Effects-Modell, da davon auszugehen war, dass zwischen den einzelnen Studien substanzielle Heterogenität besteht, etwa aufgrund unterschiedlicher Aufgabenstellungen, Teilnehmergruppen oder KI-Systeme.
Kontrolle für Moderatoreffekte
Neben der Berechnung aggregierter Effektgrößen analysierte die Meta-Analyse auch potenzielle Moderatoreffekte. Dazu gehörten die Art der Aufgabe (z. B. Text vs. Bild), das verwendete KI-Modell (z. B. GPT‑3.5 vs. GPT‑4), die Teilnehmergruppe (Laien vs. Expert:innen) sowie das Jahr der Veröffentlichung. Diese zusätzlichen Analysen sind wichtig, um besser zu verstehen, unter welchen Bedingungen generative KI besonders gut oder schlecht abschneidet. Beispielsweise zeigte sich, dass neuere KI-Modelle tendenziell bessere Ergebnisse lieferten als ältere, dass dieser Effekt jedoch nicht in allen Aufgabenbereichen gleich stark ausgeprägt war.
Bewertung der Studienqualität
Um Verzerrungen durch methodische Schwächen einzelner Studien zu vermeiden, wurde für jede der 28 Arbeiten eine Qualitätsbewertung durchgeführt. Bewertet wurden Kriterien wie Randomisierung, Kontrollgruppenstruktur, Transparenz der Ergebnisdarstellung und Datenverfügbarkeit. Studien mit niedriger methodischer Qualität wurden ausgeschlossen oder separat analysiert, um ihren Einfluss auf das Gesamtergebnis zu prüfen. Die Autoren der Meta-Analyse betonen, dass mehr als 80 Prozent der einbezogenen Studien methodisch als hochwertig einzustufen sind, was die Aussagekraft der aggregierten Ergebnisse deutlich erhöht.
Umgang mit Publikationsbias
Ein bekanntes Problem von Meta-Analysen besteht darin, dass Studien mit signifikanten Ergebnissen eher veröffentlicht werden als solche mit Nullbefunden. Um diesen Publikationsbias zu kontrollieren, setzten die Autoren mehrere statistische Tests ein, darunter Funnel-Plot-Analysen und Egger’s Test. Die Ergebnisse dieser Prüfungen zeigten keine systematischen Verzerrungen, sodass davon ausgegangen werden kann, dass die zusammengefassten Effektgrößen die tatsächliche Forschungslage realistisch widerspiegeln. Besonders bemerkenswert ist dabei, dass auch Studien mit nicht signifikanten oder negativen Ergebnissen Eingang in die Analyse fanden, was die Neutralität der Meta-Analyse unterstreicht.
Transparenz und Nachvollziehbarkeit der Analyse
Ein zentrales Anliegen der Autoren war es, die Meta-Analyse vollständig transparent zu gestalten. Sämtliche verwendeten Datensätze, Code-Skripte und Bewertungsbögen wurden öffentlich zugänglich gemacht und können von interessierten Forscher:innen überprüft oder für eigene Analysen weiterverwendet werden. Diese Open-Science-Strategie entspricht dem aktuellen Standard in der psychologischen und sozialwissenschaftlichen Forschung und trägt wesentlich zur Glaubwürdigkeit der Ergebnisse bei. Besonders betont wird in der Veröffentlichung, dass sämtliche Analyseschritte mehrfach überprüft und durch unabhängige Teams repliziert wurden, um mögliche Fehlerquellen zu minimieren.

Leistung generativer KI allein
Generative KI im direkten Vergleich zu menschlicher Kreativität
Einer der zentralen Vergleiche der Meta-Analyse betrifft die Frage, ob generative KI-Systeme allein betrachtet ähnliche kreative Leistungen erbringen wie Menschen ohne maschinelle Unterstützung. Dazu wurden alle Studien ausgewertet, die isolierte KI-Ergebnisse und rein menschliche Kontrollgruppen beinhalteten. Das Ergebnis dieser Analyse zeigt ein klares Bild: Der aggregierte Effektwert von Hedges’ g = –0,05 deutet auf keinen signifikanten Unterschied zwischen beiden Gruppen hin. Generative KI erreicht demnach durchschnittlich eine sehr ähnliche Leistung wie menschliche Probanden in kreativen Aufgaben, ohne diese systematisch zu über- oder zu untertreffen.
Aufgabenarten und Unterschiede in den Ergebnissen
Die Meta-Analyse unterscheidet systematisch zwischen verschiedenen Typen von Kreativitätsaufgaben. Besonders häufig kamen Divergent-Thinking-Tests zum Einsatz, bei denen Probanden aufgefordert wurden, möglichst viele alternative Verwendungen für ein Objekt zu finden oder ungewöhnliche Problemlösungen zu generieren. In diesen Aufgaben zeigte generative KI häufig eine vergleichbare Leistung wie menschliche Teilnehmende. Anders sieht es bei Aufgaben aus, die kohärente, logisch strukturierte Inhalte erfordern, etwa das Schreiben eines zusammenhängenden Essays oder das Entwickeln einer durchdachten Problemlösungsstrategie. In diesen Fällen schnitt die KI tendenziell schlechter ab, auch wenn die Unterschiede meist statistisch nicht signifikant waren.
Qualität versus Quantität in der Kreativität
Ein wichtiger Aspekt, den die Meta-Analyse explizit untersucht, ist die Unterscheidung zwischen der Anzahl generierter Ideen und deren qualitativer Bewertung. Generative KI-Systeme neigen dazu, eine große Anzahl von Vorschlägen zu produzieren, die inhaltlich jedoch häufig weniger originell oder nuanciert sind als menschliche Beiträge. Diese Tendenz spiegelt sich auch in den aggregierten Daten wider: Bei reinen Mengenkriterien erreichten KI-Systeme teilweise höhere Werte, während sie bei von Expert:innen bewerteter Originalität oder Nützlichkeit oft hinter menschlichen Leistungen zurückblieben. Dieses Muster deutet darauf hin, dass aktuelle KI-Modelle vor allem bei Aufgaben brillieren, die auf Vielfalt und Schnelligkeit setzen, während sie in tiefergehenden, reflektierten Prozessen Schwächen zeigen.
Unterschiede zwischen verschiedenen KI-Generationen
Die Meta-Analyse macht deutlich, dass nicht alle generativen KI-Modelle auf demselben Niveau arbeiten. Besonders auffällig ist der Vergleich zwischen GPT‑3.5 und GPT‑4. Während GPT‑3.5 in mehreren Studien nur mäßige Ergebnisse erreichte, zeigten Modelle auf Basis von GPT‑4 durchweg bessere Leistungen. Der Effekt war dabei besonders stark in komplexeren Aufgaben sichtbar, etwa beim Schreiben von Kurzgeschichten oder der Lösung von Rätselaufgaben. Diese Beobachtung unterstreicht, dass der technologische Fortschritt innerhalb der KI-Modelle direkte Auswirkungen auf ihre kreative Leistungsfähigkeit hat und dass ältere Studienergebnisse aus der Zeit vor GPT‑4 heute nur noch eingeschränkt gültig sind.
Einfluss von Prompt-Engineering und Steuerung
Ein oft diskutiertes Thema bei der Nutzung generativer KI ist die Art der Aufgabenstellung, also das sogenannte Prompt-Engineering. Die Meta-Analyse bestätigt, dass der Wortlaut und die Struktur der Prompts erheblichen Einfluss auf die Qualität der KI-Ergebnisse haben. Studien, die besonders präzise und kontextreiche Prompts verwendeten, berichteten tendenziell höhere Kreativitätswerte als solche, die einfache oder offene Fragen stellten. Dieser Befund legt nahe, dass die kreative Leistung von KI-Systemen nicht nur eine Frage des Modells, sondern auch der Interaktion zwischen Mensch und Maschine ist. Besonders in praktischen Anwendungen sollte daher großer Wert auf durchdachte Eingabeformate gelegt werden.
Grenzen der aktuellen generativen Modelle
Trotz der beeindruckenden Ergebnisse zeigt die Meta-Analyse auch klare Grenzen der heutigen generativen KI-Systeme auf. Besonders in Aufgaben, die eine tiefe inhaltliche Kohärenz oder langfristige Planung erfordern, bleiben Maschinen hinter menschlichen Leistungen zurück. Beispiele sind etwa das Entwickeln komplexer Argumentationsketten oder das Erkennen subtiler kultureller Kontexte. Diese Schwächen werden vor allem auf das Fehlen echter Weltkenntnis und situativer Einbettung zurückgeführt. Während Menschen in kreativen Prozessen intuitiv auf Erfahrung, Emotionen und Kontextwissen zurückgreifen, operieren KI-Modelle rein statistisch und verlieren dadurch an Tiefe und Vielschichtigkeit.
Praxisrelevanz und Einsatzgebiete
Trotz dieser Limitationen zeigen die Ergebnisse der Meta-Analyse, dass generative KI-Systeme in vielen praktischen Anwendungsfeldern bereits jetzt eine ernstzunehmende Alternative oder Ergänzung zur menschlichen Kreativität darstellen. Besonders in Bereichen wie Content-Erstellung, Marketing-Texten oder automatisierter Ideengenerierung könnten KI-Tools künftig vermehrt eingesetzt werden, ohne dass dadurch gravierende Qualitätseinbußen entstehen. Die Autoren der Meta-Analyse betonen allerdings, dass diese Systeme als Werkzeuge und nicht als Ersatz für menschliche Kreativität verstanden werden sollten. Ihre Stärke liegt vor allem in der Unterstützung und Erweiterung menschlicher Ideenfindung, nicht in der vollständigen Automatisierung kreativer Prozesse.

Studien zur Mensch-KI-Kombination
Synergien zwischen Mensch und generativer KI
Die zentrale Fragestellung der Meta-Analyse geht über den Vergleich Mensch gegen Maschine hinaus und betrachtet, wie sich Mensch und generative KI in Kombination verhalten. Der aggregierte Effektwert für die Mensch-KI-Kombination liegt bei Hedges’ g = +0,27, was einen klar positiven Effekt belegt. Personen, die bei kreativen Aufgaben von generativen KI-Systemen unterstützt wurden, erzielten systematisch bessere Ergebnisse als solche, die ohne maschinelle Hilfe arbeiteten. Dieser Effekt zeigt sich konsistent über alle betrachteten Studien hinweg, unabhängig von Aufgabenart, Teilnehmergruppe oder verwendetem KI-Modell.
Struktur der kombinierten Arbeitsprozesse
Die einbezogenen Studien setzen auf unterschiedliche Formen der Mensch-KI-Interaktion. Ein häufiges Modell besteht darin, dass Probanden zunächst selbstständig kreative Lösungen entwickeln und anschließend generierte Vorschläge der KI zur Inspiration hinzuziehen. In anderen Fällen erfolgte die Zusammenarbeit iterativ, wobei Mensch und KI abwechselnd neue Ideen einbrachten. Besonders hohe Effektstärken wurden in Studien gemessen, in denen explizite Feedback-Schleifen integriert waren: Teilnehmende bewerteten die KI-Ausgaben und veranlassten gezielte Anpassungen, etwa durch erneutes Prompt-Engineering oder das Filtern von Vorschlägen.
Typische Anwendungsfelder und Aufgabentypen
Die positive Wirkung der Mensch-KI-Kombination zeigte sich besonders deutlich bei Aufgaben mit hoher Anforderung an Ideenvielfalt und Geschwindigkeit. Dazu gehören Brainstorming-Szenarien, Werbetext-Entwicklung oder das Formulieren ungewöhnlicher Anwendungsbeispiele. In Aufgaben, die auf logische Stringenz und Tiefe abzielen, etwa beim Verfassen wissenschaftlicher Texte oder der Entwicklung rechtlicher Argumentationsketten, war der Effekt zwar ebenfalls vorhanden, aber weniger ausgeprägt. Diese Differenzierung legt nahe, dass der Mehrwert von KI-Unterstützung stark vom kreativen Kontext abhängt und gezielt eingesetzt werden sollte.
Rolle der Nutzererfahrung und Expertise
Ein weiterer zentraler Befund der Meta-Analyse betrifft die Rolle der Vorerfahrung der Teilnehmenden. Besonders stark profitierten weniger kreative oder unerfahrene Personen von der Unterstützung durch generative KI. In Studien mit professionellen Kreativschaffenden war der Effekt geringer oder teilweise nicht vorhanden. Dies deutet darauf hin, dass KI-Modelle vor allem dazu geeignet sind, Kreativitätsbarrieren abzubauen und Personen mit geringer Vorbildung den Zugang zu kreativen Prozessen zu erleichtern. Für Expert:innen fungiert die KI eher als Ergänzung oder Kontrollinstanz denn als primäre Inspirationsquelle.
Unterschiede zwischen Modellgenerationen und Systemtypen
Ähnlich wie bei der Analyse der reinen KI-Leistung zeigte sich auch bei der Mensch-KI-Kombination ein klarer Vorteil für neuere Modellgenerationen. GPT-4-basierte Systeme erzielten im Zusammenspiel mit menschlichen Nutzern systematisch höhere Effektstärken als frühere Modelle. Ein weiterer interessanter Unterschied bestand zwischen reinen Textgeneratoren und multimodalen Systemen, die etwa auch Bilder oder Videos erzeugen können. Studien, die auf multimodale KI setzten, berichteten tendenziell höhere Kreativitätswerte, was darauf hindeutet, dass die Kombination verschiedener Ausgabekanäle zusätzliche Synergien freisetzt.
Grenzen und Herausforderungen der Zusammenarbeit
Trotz des insgesamt positiven Effekts weist die Meta-Analyse auch auf Einschränkungen hin. Insbesondere besteht die Gefahr, dass sich Menschen zu stark auf KI-Vorschläge verlassen und dadurch eigene kreative Beiträge vernachlässigen. In einigen Studien wurde beobachtet, dass Teilnehmende nach mehreren Interaktionen mit der KI weniger eigene Ideen einbrachten und stattdessen hauptsächlich Inhalte der Maschine auswählten oder leicht modifizierten. Dieses sogenannte Overreliance-Phänomen könnte langfristig die individuelle Kreativitätskompetenz beeinträchtigen, wenn nicht bewusst gegensteuert wird.
Praktische Implikationen und Anwendungsempfehlungen
Aus den Ergebnissen der Meta-Analyse lassen sich klare Empfehlungen für den praktischen Einsatz von Mensch-KI-Kombinationen ableiten. Besonders wirksam ist der Einsatz generativer Modelle in Phasen der Ideengenerierung, während für Ausarbeitungs- und Bewertungsphasen weiterhin menschliche Kontrolle erforderlich bleibt. Darüber hinaus sollte auf iteratives Arbeiten geachtet werden, bei dem Nutzer aktiv Rückmeldungen geben und KI-Vorschläge nicht unkritisch übernehmen. Auch die Schulung im Umgang mit Prompt-Engineering und KI-gestütztem Kreativprozess wird von den Studienautoren ausdrücklich empfohlen, um den größtmöglichen Nutzen aus der Technologie zu ziehen.

Einbußen bei Ideenvielfalt
Gegentrend zur gesteigerten Kreativitätsleistung
Obwohl die Mensch-KI-Kombination laut Meta-Analyse insgesamt zu höheren Kreativitätswerten führt, zeigte sich in einem speziellen Bereich ein auffälliger Negativtrend: die Vielfalt der generierten Ideen. Die aggregierte Effektgröße für diese Kategorie lag bei Hedges’ g = –0,86, was auf einen deutlichen Rückgang der Ideenvielfalt bei Nutzung von generativer KI hindeutet. Dieser Effekt war über alle betrachteten Studien hinweg statistisch signifikant und unabhängig von Aufgabenstellung oder KI-Modell konsistent. Damit steht die positive Gesamtbewertung der Zusammenarbeit zwischen Mensch und KI in einem differenzierten Licht, da kreative Vielfalt ein zentrales Qualitätsmerkmal vieler Innovationsprozesse darstellt.
Ursachen für eingeschränkte Diversität
Die Autoren der Meta-Analyse identifizieren mehrere strukturelle Gründe für diesen Effekt. Ein Hauptfaktor liegt in der Funktionsweise großer Sprachmodelle selbst. Generative KI-Systeme produzieren Inhalte basierend auf Wahrscheinlichkeitsverteilungen, die aus riesigen Trainingsdatensätzen abgeleitet sind. Dadurch tendieren sie dazu, häufig auftretende oder besonders repräsentative Inhalte zu reproduzieren. In kreativen Aufgaben führt das dazu, dass KI-Vorschläge oft konventionell oder vorhersehbar ausfallen, auch wenn sie formal korrekt oder stilistisch ansprechend erscheinen. Besonders bei Aufgaben wie Brainstorming oder ideation tasks wurde beobachtet, dass menschliche Teilnehmende in der Mensch-KI-Kombination häufiger zu bereits bekannten Lösungen griffen, statt ungewöhnliche oder radikale Ideen zu verfolgen.
Kognitive Effekte und Entscheidungsverhalten
Neben rein technischen Faktoren spielen auch psychologische Mechanismen eine Rolle. Studien innerhalb der Meta-Analyse zeigen, dass Menschen dazu neigen, KI-generierte Vorschläge als impliziten Referenzrahmen zu verwenden. Dieses Phänomen, bekannt aus der Ankerheuristik, führt dazu, dass eigene Ideen sich unbewusst an den maschinellen Vorgaben orientieren. Besonders auffällig war dieser Effekt in Versuchen, bei denen Probanden gebeten wurden, möglichst viele unterschiedliche Verwendungszwecke für ein Objekt zu finden. Sobald KI-Beispiele vorlagen, verengte sich das Spektrum der Antworten deutlich, auch bei Teilnehmern mit hoher Kreativität im Baseline-Test.
Unterschiede zwischen Einmal- und Mehrfachinteraktion
Ein weiterer Einflussfaktor betrifft die Struktur der Mensch-KI-Interaktion. In Studien, bei denen Teilnehmende nur einmal mit KI-Vorschlägen konfrontiert wurden, war der Rückgang der Ideenvielfalt weniger stark ausgeprägt als in Szenarien mit wiederholter oder iterativer Zusammenarbeit. Offenbar verstärkt sich der Konformitätseffekt über die Zeit, je öfter Menschen maschinelle Inhalte als Orientierungspunkt nutzen. Dieses Ergebnis legt nahe, dass insbesondere lang andauernde oder hochfrequente KI-Nutzung in kreativen Prozessen problematische Effekte auf die Vielfalt der generierten Lösungen haben kann.
Modellarchitektur und Promptgestaltung
Technische Details der KI-Modelle selbst tragen ebenfalls zum Diversitätseffekt bei. Besonders bei autoregressiven Modellen mit hohem Fokus auf Sprachkohärenz und Grammatik fiel der Rückgang der Ideenvielfalt stärker aus als bei Modellen, die explizit auf Variabilität und Zufall hin optimiert waren. Die Meta-Analyse verweist hier auf Studien, die mit Sampling-Methoden wie Temperature-Adjustments oder Top-k-Filtering arbeiteten, um die Diversität der KI-Ausgaben zu erhöhen. Auch gezielte Promptgestaltung, etwa durch Formulierungen wie „give unusual answers“ oder „be as creative as possible“, führte zu messbaren Verbesserungen, reichte jedoch nicht aus, um den Effekt vollständig zu neutralisieren.
Relevanz für Innovationsmanagement und Praxisanwendungen
Für praktische Anwendungsfelder hat dieser Befund erhebliche Bedeutung. In Bereichen wie Produktentwicklung, Marketing oder Organisationsinnovation zählt nicht nur die Qualität einzelner Ideen, sondern vor allem deren Vielfalt. Die Meta-Analyse legt nahe, dass generative KI in solchen Kontexten mit Vorsicht eingesetzt werden sollte, um kreative Engführungen zu vermeiden. Insbesondere empfiehlt es sich, Mensch-KI-Kombinationen eher als Filter- oder Verfeinerungsinstrument zu verwenden und die Phase der Rohideenentwicklung möglichst ohne maschinelle Unterstützung zu gestalten.
Empfehlungen zur Vermeidung von Diversitätsverlust
Die Autoren der Studie geben mehrere konkrete Handlungsempfehlungen, um die negativen Effekte auf die Ideenvielfalt abzumildern. Dazu gehört erstens der bewusste Verzicht auf KI-Input in den frühen Phasen kreativer Prozesse. Zweitens sollten Teams explizit darauf geschult werden, KI-Vorschläge kritisch zu hinterfragen und eigene Ansätze unabhängig davon zu entwickeln. Drittens kann technisches Fine-Tuning der KI-Modelle selbst dazu beitragen, den Fokus von Mainstream- auf Nischeninhalte zu verschieben, etwa durch spezialisierte Trainingsdatensätze oder Custom-Prompts. Auch die Integration von Diversity-Prompts und zufallsbasierten Sampling-Methoden wird als effektiver Ansatz bewertet.

Einflussfaktoren im Überblick
Variabilität durch KI-Modellversionen
Die Meta-Analyse zeigt, dass die Wahl des verwendeten KI-Modells entscheidenden Einfluss auf die gemessene Kreativitätsleistung und Ideenvielfalt hat. Besonders stark unterscheiden sich ältere Modelle wie GPT‑2 und GPT‑3.5 von neueren Systemen wie GPT‑4 oder multimodalen KI-Anwendungen. GPT‑4-basierte Modelle erzielten bei Mensch-KI-Kombinationen systematisch höhere Kreativitätseffekte, während sie gleichzeitig weniger stark zur Reduktion der Ideenvielfalt beitrugen. Dieser Unterschied erklärt sich aus technischen Fortschritten in der Architektur, darunter größere Parameteranzahl, besseres Kontextmanagement und optimierte Sampling-Methoden. Studien, die explizit zwischen diesen Modellgenerationen differenzierten, berichteten bis zu 15 Prozentpunkte höhere Effektstärken für GPT‑4-Systeme im Vergleich zu älteren Modellen.
Aufgabenart und kognitive Anforderungen
Neben der Modellversion beeinflusst auch die Art der gestellten Aufgabe die Effekte von generativer KI. Divergent-Thinking-Aufgaben profitieren stärker von KI-Unterstützung als konvergente Problemlösungsaufgaben. Besonders hohe Kreativitätseffekte wurden bei freien Ideengenerierungsaufgaben und Werbetexten gemessen, während sie bei strukturierten Schreibaufgaben oder juristischen Argumentationen geringer ausfielen. Dieser Befund legt nahe, dass KI-Systeme vor allem dort wirksam sind, wo schnelle Assoziationen und breite Themenstreuung gefragt sind, weniger jedoch bei Aufgaben, die tiefe inhaltliche Kohärenz und argumentative Stringenz erfordern.
Teilnehmergruppen und Expertise-Level
Ein weiterer Einflussfaktor betrifft die Zusammensetzung der Teilnehmergruppen. Studien mit Laien oder Studierenden zeigten deutlich stärkere positive Effekte der Mensch-KI-Kombination als Untersuchungen mit erfahrenen Kreativprofis. Besonders ausgeprägt war dieser Unterschied bei schriftstellerischen Aufgaben: Während weniger erfahrene Personen mithilfe der KI qualitativ hochwertigere Texte erstellten, führte KI-Unterstützung bei Profis teilweise zu keiner oder sogar leicht negativer Leistungsentwicklung. Offenbar ersetzt generative KI in bestimmten Bereichen eher fehlendes Wissen oder Erfahrung, statt universell als Kreativitätsbooster zu wirken.
Sprach- und Kulturkontext
Die Meta-Analyse berücksichtigt auch, ob Sprache und kultureller Hintergrund der Teilnehmenden einen Einfluss auf die Effekte haben. Studien aus englischsprachigen Ländern berichteten durchgehend stärkere Kreativitätseffekte als Studien in anderen Sprachen, etwa Spanisch, Deutsch oder Japanisch. Diese Differenz wird auf zwei Hauptfaktoren zurückgeführt: Erstens sind die meisten großen KI-Modelle primär auf englischsprachigen Daten trainiert und liefern deshalb bessere Ergebnisse in diesem Kontext. Zweitens gibt es kulturelle Unterschiede in der Bewertung von Kreativität, die sich auf Studienergebnisse auswirken können. Kreativität wird in westlich geprägten Gesellschaften häufig stärker mit Originalität und Individualismus verbunden als in kollektivistisch orientierten Kulturen.
Prompt-Design und Interaktionsstruktur
Die Art und Weise, wie Menschen mit der KI kommunizieren, beeinflusst die Resultate deutlich. Besonders wichtig ist die Präzision der Eingaben und die Struktur des Interaktionsprozesses. Studien, die gezielte Anweisungen zur Maximierung der Originalität gaben, etwa durch Prompts wie „provide the most unusual idea possible“, berichteten höhere Effektstärken und geringeren Verlust an Ideenvielfalt. Auch die Gestaltung der Mensch-KI-Interaktion spielte eine Rolle: Iterative, dialogbasierte Modelle mit explizitem Feedback führten zu besseren Ergebnissen als einmalige, statische Input-Output-Szenarien.
Datenerhebungszeitraum und technologische Entwicklung
Da sich die Leistungsfähigkeit generativer KI-Systeme innerhalb kurzer Zeiträume stark verändert, untersuchten die Autoren der Meta-Analyse explizit den Einfluss des Veröffentlichungsjahres der Primärstudien. Tatsächlich zeigte sich ein kontinuierlicher Anstieg der Kreativitätseffektstärken in den Jahren 2023 bis 2025. Während frühere Studien oft noch geringe oder gemischte Ergebnisse berichteten, lagen die Effektgrößen in den aktuellsten Veröffentlichungen deutlich höher. Dieses Muster spiegelt nicht nur den Fortschritt der zugrunde liegenden Technologie wider, sondern auch eine zunehmende Reife im Umgang mit generativer KI innerhalb der Forschungsgemeinschaft.
Zusammenspiel mehrerer Einflussfaktoren
Die Meta-Analyse verdeutlicht, dass die betrachteten Einflussfaktoren nicht isoliert wirken, sondern in komplexer Wechselwirkung zueinanderstehen. Beispielsweise zeigen neuere Modelle bei Expert:innen und komplexen Aufgaben weniger starken Einfluss auf die Kreativitätsleistung als bei Laien und offenen Aufgaben, obwohl ihre technische Leistungsfähigkeit objektiv höher ist. Auch das Zusammenspiel von Prompt-Design und Modellarchitektur ist entscheidend: Selbst leistungsfähige Systeme liefern ohne präzise Steuerung durchschnittliche Ergebnisse, während weniger fortgeschrittene Modelle durch geschicktes Prompt-Engineering signifikant optimiert werden können.

Implikationen für Forschung und Praxis
Bedeutung für kreative Berufe und Bildungswesen
Die Ergebnisse der Meta-Analyse zeigen klar, dass generative KI-Systeme nicht einfach Ersatz für menschliche Kreativität sind, sondern als Ergänzung sinnvoll wirken können. Für kreative Berufe wie Textgestaltung, Design oder Marketing bedeutet das, dass KI-Tools künftig verstärkt in Arbeitsprozesse integriert werden sollten, allerdings mit bewusst gesetzten Grenzen. Besonders wichtig ist dabei, die Phasen des kreativen Arbeitens zu differenzieren: Während Ideengenerierung und Variantenfindung effektiv durch Mensch-KI-Kombinationen unterstützt werden können, sollte die finale Ausarbeitung, Auswahl und Qualitätskontrolle weiterhin primär menschlich erfolgen. Auch im Bildungsbereich bietet diese Erkenntnis neue Perspektiven. KI-gestützte Kreativitätsförderung könnte gezielt dort eingesetzt werden, wo Schüler oder Studierende an Ideensperren stoßen. Gleichzeitig sollten pädagogische Konzepte entwickelt werden, die vermitteln, wie KI-Vorschläge reflektiert und kritisch eingeordnet werden können, um Abhängigkeit und Originalitätsverlust zu vermeiden.
Entwicklung spezialisierter KI-Modelle für kreative Aufgaben
Ein zentrales Ergebnis der Analyse ist, dass aktuell verfügbare, allgemein trainierte generative KI-Modelle Schwächen bei Aufgaben zeigen, die besonders hohe Originalität und Vielfalt erfordern. Für die Forschung und Praxis ergibt sich daraus die Empfehlung, speziell zugeschnittene Modelle zu entwickeln. Statt universal einsetzbarer Systeme könnten KI-Modelle gezielt auf Kreativitätsdatenbanken, Kunstwerke, Innovationswettbewerbe oder andere kreative Quellen trainiert werden. Solche spezialisierten Systeme könnten Diversitätsverluste minimieren und gleichzeitig bessere Unterstützung für spezifische kreative Anwendungsbereiche bieten. Erste Ansätze dazu existieren bereits in Form von Fine-Tuning-Methoden, die jedoch noch nicht flächendeckend angewendet werden.
Notwendigkeit interdisziplinärer Zusammenarbeit
Die Autoren der Meta-Analyse betonen ausdrücklich, dass Fortschritte im Bereich KI-gestützter Kreativität nur durch enge Zusammenarbeit zwischen Informatik, Psychologie, Kreativwirtschaft und Ethik möglich sind. Technologische Entwicklung allein genügt nicht, wenn nicht gleichzeitig psychologische Effekte, soziale Dynamiken und kulturelle Unterschiede berücksichtigt werden. Besonders hervorgehoben wird der Bedarf an standardisierten Testverfahren, die Kreativität unter KI-Einfluss valide und reliabel messen können. Solche Methoden fehlen bislang weitgehend und müssten interdisziplinär entwickelt und international abgestimmt werden, um wirklich aussagekräftige Benchmarks zu etablieren.
Regulatorische und ethische Fragen
Mit dem zunehmenden Einsatz generativer KI in kreativen Prozessen entstehen auch neue ethische und rechtliche Fragestellungen. Besonders relevant ist die Urheberrechtsproblematik: Wer gilt als Schöpfer, wenn ein Werk durch Mensch-KI-Kombination entstanden ist? Die Analyse zeigt, dass in vielen Fällen menschliche Nutzer lediglich KI-Vorschläge auswählen oder minimal anpassen. Hier besteht ein gesetzlicher Graubereich, der dringend geklärt werden muss. Auch Fragen der Datenhoheit und Transparenz sind wichtig: Kreative Inhalte, die auf Basis proprietärer KI-Modelle entstehen, könnten unerkannt Unternehmens- oder Personendaten enthalten, was Fragen der Datensicherheit und Privatsphäre aufwirft.
Förderung von Kreativität durch KI-sensible Organisationskultur
Für Unternehmen und Organisationen ergibt sich aus den Analyseergebnissen die Notwendigkeit, bewusst mit den Stärken und Schwächen generativer KI umzugehen. Dazu gehören klare Leitlinien für den KI-Einsatz, Schulungsangebote für Mitarbeiter sowie die Einrichtung von Feedback-Mechanismen, um negative Effekte wie Overreliance oder Diversitätsverlust frühzeitig zu erkennen und zu korrigieren. Besonders wichtig ist es, eine Unternehmenskultur zu fördern, die kreative Eigenleistung wertschätzt und KI als Werkzeug, nicht als Ersatz betrachtet. Praxisleitfäden könnten dabei helfen, die Erkenntnisse der Meta-Analyse in konkrete Handlungsschritte zu überführen.
Forschungsperspektiven und offene Fragen
Die Meta-Analyse identifiziert mehrere Bereiche, in denen weiterer Forschungsbedarf besteht. Dazu gehört die Entwicklung besserer Metriken für kreative Vielfalt, die über bloße Zählung von Ideen hinausgehen und qualitative Aspekte berücksichtigen. Auch die Frage, wie sich langfristige Nutzung von generativer KI auf individuelle Kreativitätsfähigkeiten auswirkt, ist bislang nicht ausreichend erforscht. Erste Hinweise deuten darauf hin, dass regelmäßiger KI-Einsatz nicht zwangsläufig zu Kreativitätsverlust führen muss, wenn Nutzer aktiv eingebunden und geschult werden. Weitere Studien sollten diese Zusammenhänge systematisch untersuchen und langfristige Beobachtungsdaten erheben.
Fazit: Mensch-KI-Kreativität als neues Standardmodell
Zusammenfassend lässt sich aus der Meta-Analyse ableiten, dass Mensch-KI-Kombinationen das Potenzial haben, kreative Prozesse messbar zu verbessern. Gleichzeitig müssen bewusste Steuerungsmechanismen etabliert werden, um negative Nebeneffekte wie Einbußen bei der Ideenvielfalt zu minimieren. Die Studie liefert damit eine fundierte Grundlage für die weitere Entwicklung von Brain-Computer-Interfaces, Content-Generierungssystemen und digitalen Kreativitätsassistenten. Langfristig könnte sich ein neues Standardmodell etablieren, bei dem Menschen und KI nicht in Konkurrenz stehen, sondern in symbiotischer Zusammenarbeit innovative Lösungen schaffen, die beide Seiten alleine nicht erreichen würden. Unter diesem Link gelangen Sie zur Meta-Studie.