기본적으로 고장난 것: 나는 공식적으로 LLM이 생성한 C/C++ 코드가 기본적으로 고장난다는 것을 증명했습니다. 55.8%는 취약하고, 97.8%는 기존 도구에 감지되지 않습니다.

이 연구는 다양한 대형 언어 모델이 생성한 3,500개의 코드 샘플을 분석하기 위해 Z3 SMT 형식 검증을 사용했습니다. 분석 결과, 생성된 코드의 반 이상이 적어도 하나의 확인된 취약성을 포함하고 있으며, 많은 코드가 악용 가능한 약점을 가지고 있는 것으로 나타났습니다. 주목할 점은, 어떤 모델도 48% 미만의 취약한 코드를 생성하지 않았으며, 산업 표준 보안 도구는 식별된 대부분의 결함을 놓쳤습니다. 모델이 검토 중에 자체 오류를 인식하는 경우가 많았음에도 불구하고, 여전히 상당한 양의 버그가 있는 코드를 생성했습니다.