对话风险累积:超越单轮大语言模型检查的状态感知护栏 笔记