이 연구는 다양한 대형 언어 모델이 생성한 3,500개의 코드 샘플을 분석하기 위해 Z3 SMT 형식 검증을 사용했습니다. 분석 결과, 생성된 코드의 반 이상이 적어도 하나의 확인된 취약성을 포함하고 있으며, 많은 코드가 악용 가능한 약점을 가지고 있는 것으로 나타났습니다. 주목할 점은, 어떤 모델도 48% 미만의 취약한 코드를 생성하지 않았으며, 산업 표준 보안 도구는 식별된 대부분의 결함을 놓쳤습니다. 모델이 검토 중에 자체 오류를 인식하는 경우가 많았음에도 불구하고, 여전히 상당한 양의 버그가 있는 코드를 생성했습니다.
reddit.com
Broken by Default: I formally proved that LLM-generated C/C++ code is broken by default — 55.8% vulnerable, 97.8% invisible to existing tools
