系统安全防护
S²CG-Agent 可调度安全代码生成框架
研究问题:在控制成本的同时,提高生成代码功能正确性并构建智能体安全防护屏障
技术路线
引入单元测试、静态分析和模糊测试作为检查智能体
训练调度器预测是否需要执行各类检查,并动态决定执行顺序
通过检测反馈驱动代码重写,避免不必要的检查开销
研究成果
在多个主流 LLM 上显著提升功能正确率和安全通过率
相比固定流程的多智能体方法,API 调用次数更低
在不同模型和设置下表现稳定,功能与安全兼顾
Yinan Chen et al. S²CG-Agent: A Schedulable Secure Code Generation Framework
基于智能体链式思考的软件漏洞检测防护
研究问题:利用思维链推理能力,实现可解释的切片级代码漏洞检测防护
技术路线
静态分析提取漏洞代码切片
聚类选取代表样本并构造专家链式推理示例
基于上下文学习进行漏洞推理判断
研究成果
在公开数据集上显著优于多种主流漏洞检测方法
不仅能检测漏洞是否存在,还能实现切片级与行级定位
生成自然语言漏洞成因分析,显著提升可解释性
Yinan Chen et al. GPTVD: vulnerability detection and analysis method based on LLM’s chain of thoughts. ASE (CCF-B类)
邮件智能体的注入风险挖掘
研究问题:通过注入手段挖掘邮件场景下的潜在风险,完善运行态下的智能体安全防护机制
背景痛点
针对现有邮件智能体系统安全对齐提出定制化绕过攻击算法
探索提示词注入成功后对智能体的危害(系统破坏、APT攻击)
实现自动化端到端的真实邮件智能体应用风险挖掘
研究成果
攻击算法针对现有真实智能体应用的攻击成功率在80%以上
从多个厂商中挖掘风险,包括隐私泄漏、系统破坏等
向多家厂商报告风险,并收获对应CVE漏洞确认
Control at Stake: Evaluating the Security Landscape of LLM-Driven Email Agents
智能体数据过度暴露风险挖掘
研究问题:通过污点分析挖掘智能体运行时隐私泄漏风险,并修复安全漏洞
技术路线
智能体工具调用的返回数据包含用户额外数据
在处理用户任务的时候大模型产生幻觉,导致任务出现偏移
在两者叠加下,智能体处理任务过程中额外暴露用户数据
研究成果
提出一种针对智能体数据暴露的实时检测框架
对智能体进行细粒度数据流分析建模,动态追踪数据流向
对于污点分析报告出来的数据泄漏进行动态拦截
AgentRaft: Detecting Unintended Data Exposure in LLM Agents via Fine-grained Prompt Generation and Data Flow Inspection
智能体对抗与越狱攻防
研究问题:针对推理加速可能引发的风险进行对齐加固,提出激活近视角下的安全防护策略
技术路线
攻击方面:分析三类大模型中基于激活近似的推理加速技术的对抗/越狱鲁棒性
防御方面:提出激活误差感知的鲁棒防御方法
研究成果
有效提升三种激活近似技术的对抗/越狱鲁棒性
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense. USENIX Security’25 (CCF-A类)
智能体投毒与后门攻防
研究问题:提出首个针对多模态大模型的检索增强生成知识库的知识投毒攻击,设计针对白盒与黑盒RAG两种场景,单个Query级别攻击目标与类级别攻击目标等多种投毒攻击策略
技术路线
攻击者仅在知识库中插入单个经过投毒攻击设计的毒化样本,即可实现诱导多模态大模型输出任意给定生成文本的攻击效果。
研究成果
在两种流行的检索器CLIP ViT-H和Siglip-so400m,两种流行的多模态大模型LLaVA-v1.6-Mistral-7B和Qwen2-VL-7B-Instruct进行实验
投毒成功率最高可达92.41%
PoisonedEye: Knowledge Poisoning Attack on Retrieval-Augmented Generation based Large Vision-Language Models. ICML’25 (CCF-A类)
智能体数据遗忘处理
研究问题:解决MLaaS 场景下数据遗忘与模型推理协同处理时安全隐私风险并存的问题
技术路线
面向MLaaS场景的敏感数据遗忘
推理请求(IR)与遗忘请求(UR)协同处理
研究成果
遗忘与推理请求协同处理的数据遗忘
- 提出创的新推理一致性验证机制,规避l了两类请求协同的安全隐私风险
- 降低 99% 推理延迟、减少 31% 计算开销
ERASER: Machine Unlearning in MLaaS via an Inference Serving-Aware Approach. CCS’24 (CCF-A类)