この研究では、Z3 SMT形式検証を用いて、様々な大規模言語モデルによって生成された3,500個のコードサンプルを分析しました。分析の結果、生成されたコードの半数以上が少なくとも1つの証明された脆弱性を含んでおり、多くは悪用可能な弱点を持っていることが明らかになりました。特筆すべきは、どのモデルも脆弱なコードの割合が48%を下回ることはなく、業界標準のセキュリティツールでは特定された欠陥のほとんどを見逃していたことです。モデルはレビュー中に自身の誤りを認識することが多かったにもかかわらず、依然としてかなりの量のバグのあるコードを生成していました。
reddit.com
Broken by Default: I formally proved that LLM-generated C/C++ code is broken by default — 55.8% vulnerable, 97.8% invisible to existing tools
