Dieser Artikel bietet einen systematischen Überblick darüber, wie große Sprachmodelle (LLMs) ähnlich ChatGPT die Testung und Verifikation autonomer intelligenter Systeme (AIS) fördern. Basierend auf den neuesten Fortschritten im generativen Schließen integriert diese Studie Belege aus 120 peer-reviewten Publikationen und untersucht vier Schlüsselbereiche: Testfallegenerierung, Schwachstellenerkennung, formale Verifikation und Echtzeitüberwachung. Durch vergleichende Analysen von Fuzz-Testing, symbolischer Ausführung und Reinforcement Learning zeigt die Arbeit auf, dass LLMs die Automatisierung, semantische Abdeckung und Anpassungsfähigkeit verbessern, dabei jedoch Einschränkungen hinsichtlich Benchmark-Integrität, Erklärbarkeit und Ressourceneffizienz aufweisen. Die Übersicht stellt eine strukturierte Tabelle vor, die repräsentative Datensätze, spezielle Anwendungsbereiche sowie vergleichende Erkenntnisse zwischen traditionellen Testmethoden und LLM-basierten Ansätzen zusammenfasst. Es werden zentrale Herausforderungen wie fehlende Benchmarks, mangelnde Erklärbarkeit und ethische Risiken analysiert sowie aufstrebende Forschungsrichtungen wie hybride Verifikationsrahmen und Datenqualitätsverbesserung erörtert. Ziel der Studie ist es, die konzeptionelle und praktische Lücke zwischen KI-Sicherheitsengineering und großmodellentwickeltem Schließen zu überbrücken und einen Fahrplan für die Integration von LLMs in zukünftige AIS-Verifikationsprozesse bereitzustellen.