デフォルトで壊れている：LLM生成のC/C++コードはデフォルトで壊れていることを正式に証明しました — 55.8%が脆弱で、既存のツールでは97.8%が見えない

この研究では、Z3 SMT形式検証を用いて、様々な大規模言語モデルによって生成された3,500個のコードサンプルを分析しました。分析の結果、生成されたコードの半数以上が少なくとも1つの証明された脆弱性を含んでおり、多くは悪用可能な弱点を持っていることが明らかになりました。特筆すべきは、どのモデルも脆弱なコードの割合が48%を下回ることはなく、業界標準のセキュリティツールでは特定された欠陥のほとんどを見逃していたことです。モデルはレビュー中に自身の誤りを認識することが多かったにもかかわらず、依然としてかなりの量のバグのあるコードを生成していました。