В данной статье систематически рассматривается, как большие языковые модели (LLMs) наподобие ChatGPT способствуют тестированию и верификации автономных интеллектуальных систем (AIS). Основываясь на последних достижениях в генеративном выводе, исследование интегрирует данные из 120 рецензируемых публикаций, охватывая четыре ключевых области: генерация тестовых сценариев, обнаружение уязвимостей, формальная верификация и мониторинг в реальном времени. Путем сравнительного анализа fuzz-тестирования, символьного исполнения и усиленного обучения выявляются возможности LLMs по повышению автоматизации, семантического охвата и адаптивности, а также ограничения в области полноты бенчмарков, интерпретируемости и эффективности использования ресурсов. Обзор включает структурированную таблицу, суммирующую репрезентативные датасеты, специфические прикладные области и сравнительные выводы между традиционными методами тестирования и методами на базе LLM. Рассматриваются основные вызовы, включая отсутствие бенчмарков, недостаток объяснимости и этические риски, а также исследуются новые направления, такие как гибридные верификационные фреймворки и повышение качества данных. Цель исследования — преодолеть концептуальный и практический разрыв между инженерией безопасности ИИ и выводом больших моделей, предоставляя дорожную карту интеграции LLM в будущие процессы верификации AIS.