系统安全防护 – TrustedAgent

S²CG-Agent 可调度安全代码生成框架

研究问题：在控制成本的同时，提高生成代码功能正确性并构建智能体安全防护屏障

技术路线

引入单元测试、静态分析和模糊测试作为检查智能体
训练调度器预测是否需要执行各类检查，并动态决定执行顺序
通过检测反馈驱动代码重写，避免不必要的检查开销

研究成果

在多个主流 LLM 上显著提升功能正确率和安全通过率
相比固定流程的多智能体方法，API 调用次数更低
在不同模型和设置下表现稳定，功能与安全兼顾

Yinan Chen et al. S²CG-Agent: A Schedulable Secure Code Generation Framework

基于智能体链式思考的软件漏洞检测防护

研究问题：利用思维链推理能力，实现可解释的切片级代码漏洞检测防护

技术路线

静态分析提取漏洞代码切片
聚类选取代表样本并构造专家链式推理示例
基于上下文学习进行漏洞推理判断

研究成果

在公开数据集上显著优于多种主流漏洞检测方法
不仅能检测漏洞是否存在，还能实现切片级与行级定位
生成自然语言漏洞成因分析，显著提升可解释性

Yinan Chen et al. GPTVD: vulnerability detection and analysis method based on LLM’s chain of thoughts. ASE (CCF-B类)

邮件智能体的注入风险挖掘

研究问题：通过注入手段挖掘邮件场景下的潜在风险，完善运行态下的智能体安全防护机制

背景痛点

针对现有邮件智能体系统安全对齐提出定制化绕过攻击算法
探索提示词注入成功后对智能体的危害（系统破坏、APT攻击）
实现自动化端到端的真实邮件智能体应用风险挖掘

研究成果

攻击算法针对现有真实智能体应用的攻击成功率在80%以上
从多个厂商中挖掘风险，包括隐私泄漏、系统破坏等
向多家厂商报告风险，并收获对应CVE漏洞确认

Control at Stake: Evaluating the Security Landscape of LLM-Driven Email Agents

智能体数据过度暴露风险挖掘

研究问题：通过污点分析挖掘智能体运行时隐私泄漏风险，并修复安全漏洞

技术路线

智能体工具调用的返回数据包含用户额外数据
在处理用户任务的时候大模型产生幻觉，导致任务出现偏移
在两者叠加下，智能体处理任务过程中额外暴露用户数据

研究成果

提出一种针对智能体数据暴露的实时检测框架
对智能体进行细粒度数据流分析建模，动态追踪数据流向
对于污点分析报告出来的数据泄漏进行动态拦截

AgentRaft: Detecting Unintended Data Exposure in LLM Agents via Fine-grained Prompt Generation and Data Flow Inspection

智能体对抗与越狱攻防

研究问题：针对推理加速可能引发的风险进行对齐加固，提出激活近视角下的安全防护策略

技术路线

攻击方面：分析三类大模型中基于激活近似的推理加速技术的对抗/越狱鲁棒性
防御方面：提出激活误差感知的鲁棒防御方法

研究成果

有效提升三种激活近似技术的对抗/越狱鲁棒性

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense. USENIX Security’25 (CCF-A类)

智能体投毒与后门攻防

研究问题：提出首个针对多模态大模型的检索增强生成知识库的知识投毒攻击，设计针对白盒与黑盒RAG两种场景，单个Query级别攻击目标与类级别攻击目标等多种投毒攻击策略

技术路线

攻击者仅在知识库中插入单个经过投毒攻击设计的毒化样本，即可实现诱导多模态大模型输出任意给定生成文本的攻击效果。

研究成果

在两种流行的检索器CLIP ViT-H和Siglip-so400m，两种流行的多模态大模型LLaVA-v1.6-Mistral-7B和Qwen2-VL-7B-Instruct进行实验
投毒成功率最高可达92.41%

PoisonedEye: Knowledge Poisoning Attack on Retrieval-Augmented Generation based Large Vision-Language Models. ICML’25 (CCF-A类)

智能体数据遗忘处理

研究问题：解决MLaaS 场景下数据遗忘与模型推理协同处理时安全隐私风险并存的问题

技术路线

面向MLaaS场景的敏感数据遗忘
推理请求(IR)与遗忘请求(UR)协同处理

研究成果

遗忘与推理请求协同处理的数据遗忘

提出创的新推理一致性验证机制，规避l了两类请求协同的安全隐私风险
降低 99% 推理延迟、减少 31% 计算开销

ERASER: Machine Unlearning in MLaaS via an Inference Serving-Aware Approach. CCS’24 (CCF-A类)