系统安全防护

S²CG-Agent 可调度安全代码生成框架

研究问题:在控制成本的同时,提高生成代码功能正确性并构建智能体安全防护屏障

技术路线

  • 引入单元测试、静态分析和模糊测试作为检查智能体

  • 训练调度器预测是否需要执行各类检查,并动态决定执行顺序

  • 通过检测反馈驱动代码重写,避免不必要的检查开销

研究成果

  • 在多个主流 LLM 上显著提升功能正确率和安全通过率

  • 相比固定流程的多智能体方法,API 调用次数更低

  • 在不同模型和设置下表现稳定,功能与安全兼顾

Yinan Chen et al. S²CG-Agent: A Schedulable Secure Code Generation Framework

基于智能体链式思考的软件漏洞检测防护

研究问题:利用思维链推理能力,实现可解释的切片级代码漏洞检测防护

技术路线

  • 静态分析提取漏洞代码切片

  • 聚类选取代表样本并构造专家链式推理示例

  • 基于上下文学习进行漏洞推理判断

研究成果

  • 在公开数据集上显著优于多种主流漏洞检测方法

  • 不仅能检测漏洞是否存在,还能实现切片级与行级定位

  • 生成自然语言漏洞成因分析,显著提升可解释性

Yinan Chen et al. GPTVD: vulnerability detection and analysis method based on LLM’s chain of thoughts. ASE (CCF-B类)

邮件智能体的注入风险挖掘

研究问题:通过注入手段挖掘邮件场景下的潜在风险,完善运行态下的智能体安全防护机制

背景痛点

  • 针对现有邮件智能体系统安全对齐提出定制化绕过攻击算法

  • 探索提示词注入成功后对智能体的危害(系统破坏、APT攻击)

  • 实现自动化端到端的真实邮件智能体应用风险挖掘

研究成果

  • 攻击算法针对现有真实智能体应用的攻击成功率在80%以上

  • 从多个厂商中挖掘风险,包括隐私泄漏、系统破坏等

  • 向多家厂商报告风险,并收获对应CVE漏洞确认

Control at Stake: Evaluating the Security Landscape of LLM-Driven Email Agents

智能体数据过度暴露风险挖掘

研究问题:通过污点分析挖掘智能体运行时隐私泄漏风险,并修复安全漏洞

技术路线

  • 智能体工具调用的返回数据包含用户额外数据

  • 在处理用户任务的时候大模型产生幻觉,导致任务出现偏移

  • 在两者叠加下,智能体处理任务过程中额外暴露用户数据

研究成果

  • 提出一种针对智能体数据暴露的实时检测框架

  • 对智能体进行细粒度数据流分析建模,动态追踪数据流向

  • 对于污点分析报告出来的数据泄漏进行动态拦截

AgentRaft: Detecting Unintended Data Exposure in LLM Agents via Fine-grained Prompt Generation and Data Flow Inspection

智能体对抗与越狱攻防

研究问题:针对推理加速可能引发的风险进行对齐加固,提出激活近视角下的安全防护策略

技术路线

  • 攻击方面:分析三类大模型中基于激活近似的推理加速技术的对抗/越狱鲁棒性

  • 防御方面:提出激活误差感知的鲁棒防御方法

研究成果

  • 有效提升三种激活近似技术的对抗/越狱鲁棒性

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense. USENIX Security’25 (CCF-A类)

智能体投毒与后门攻防

研究问题:提出首个针对多模态大模型的检索增强生成知识库的知识投毒攻击,设计针对白盒与黑盒RAG两种场景,单个Query级别攻击目标与类级别攻击目标等多种投毒攻击策略

技术路线

  • 攻击者仅在知识库中插入单个经过投毒攻击设计的毒化样本,即可实现诱导多模态大模型输出任意给定生成文本的攻击效果。

研究成果

  • 在两种流行的检索器CLIP ViT-H和Siglip-so400m,两种流行的多模态大模型LLaVA-v1.6-Mistral-7B和Qwen2-VL-7B-Instruct进行实验

  • 投毒成功率最高可达92.41%

PoisonedEye: Knowledge Poisoning Attack on Retrieval-Augmented Generation based Large Vision-Language Models. ICML’25 (CCF-A类)

智能体数据遗忘处理

研究问题:解决MLaaS 场景下数据遗忘与模型推理协同处理时安全隐私风险并存的问题

技术路线

  • 面向MLaaS场景的敏感数据遗忘

  • 推理请求(IR)与遗忘请求(UR)协同处理

研究成果

遗忘与推理请求协同处理的数据遗忘

  • 提出创的新推理一致性验证机制,规避l了两类请求协同的安全隐私风险
  • 降低 99% 推理延迟、减少 31% 计算开销

ERASER: Machine Unlearning in MLaaS via an Inference Serving-Aware Approach. CCS’24 (CCF-A类)

滚动至顶部