В исследовании использовалась формальная верификация Z3 SMT для анализа 3500 образцов кода, сгенерированных различными большими языковыми моделями. Анализ показал, что более половины сгенерированного кода содержала по крайней мере одну доказанную уязвимость, причем многие имели эксплуатируемые слабые места. Примечательно, что ни одна модель не показала менее 48% уязвимого кода, а стандартные отраслевые инструменты безопасности пропустили большинство выявленных недостатков. Несмотря на то, что модели часто распознавали свои ошибки во время проверки, они все равно производили значительное количество ошибочного кода.
reddit.com
Broken by Default: I formally proved that LLM-generated C/C++ code is broken by default — 55.8% vulnerable, 97.8% invisible to existing tools
