Modelos de lenguaje grandes tipo ChatGPT para pruebas y verificación de sistemas inteligentes autónomos: revisión sistemática

Dun Li ,  

Ruiguan Lin ,  

Zisheng Wang ,  

Yan-Fu Li ,  

摘要

Este artículo presenta una revisión sistemática sobre cómo los grandes modelos de lenguaje (LLMs) similares a ChatGPT promueven las pruebas y la verificación de sistemas inteligentes autónomos (AIS). Basado en los avances recientes en razonamiento generativo, este estudio integra evidencia de 120 publicaciones revisadas por pares, examinando cuatro áreas clave: generación de escenarios de prueba, detección de vulnerabilidades, verificación formal y monitoreo en tiempo real. Mediante un análisis comparativo de pruebas fuzz, ejecución simbólica y aprendizaje reforzado, el artículo revela que los LLMs mejoran la automatización, la cobertura semántica y la adaptabilidad, mientras presentan limitaciones en integridad de benchmarks, explicabilidad y eficiencia de recursos. La revisión introduce una tabla estructurada que resume conjuntos de datos representativos, aplicaciones específicas y conocimientos comparativos entre métodos de prueba tradicionales y basados en LLM. Se analizan los principales desafíos, incluyendo la ausencia de benchmarks, la falta de explicabilidad y los riesgos éticos, y se exploran direcciones emergentes como marcos de verificación híbridos y mejora de la calidad de datos. Este estudio busca cerrar la brecha conceptual y práctica entre la ingeniería de seguridad en IA y el razonamiento de grandes modelos, ofreciendo una hoja de ruta para integrar LLM en futuros procesos de verificación AIS.

关键词

ChatGPT;Modelos de lenguaje grandes;Sistemas inteligentes autónomos;Pruebas;Verificación;Seguridad IA

阅读全文