合规与偏见
合规性:智能体版权侵权评测与缓解
研究问题:检测智能体输出内容是否符合版权监管的合规要求并进行缓解
技术路线
基于“仓库收集-提示提取-代码生成”的流程生成评测用数据
基于代码克隆的特征结合代码克隆检测来及时阻止版权代码的输出
研究成果
构建涵盖3种主流语言,含84000个提示词的评测数据集
揭示主流代码智能体的克隆问题,克隆率最高可达7.5%,且克隆行为稳定,难以用提示变换避免
An Empirical Study of Code Clones from Commercial AI Code Generators. FSE’25 (CCF-A类)
合规性:智能体隐私泄露评测与缓解
研究问题:检测智能体输出内容是否存在用户隐私信息并实施阻断
技术路线
提出了HCR隐私评估与阻断工具,基于越狱攻击手段检测LLM在代码生成时的隐私泄露抵抗能力,并构建“源头-训练阶段-输出阶段”的三层隐私泄露阻断框架
研究成果
在多种数据集来源下,HCR利用越狱攻击手段检测出的隐私泄露数量比基准方法平均增加约800%
HCR拦截了GitHub Copilot超 60% 的无效 / 敏感凭证
Your Code Secret Belongs to Me: Neural Code Completion Tools Can Memorize Hard-Coded Credentials. FSE’24 (CCF-A类)
智能体数据水印版权保护
研究问题:通过水印技术实现数据集版权保护,强化数据生命周期的版权管理与合规性
背景痛点
对一小部分样本进行文本风格转换并添加特殊触发词
使水印既可学习又不影响正常模型能力
验证阶段利用分类器对输出做统计检验,判断是否使用了版权
研究成果
可在多个主流 LLM上取得高精度水印检测效果
注入水印后模型在偏好对齐任务上的性能变化极小
水印对多种抹除攻击(微调、改写)均表现出强鲁棒性
Jian Lou et al. PreferCare: Preference Dataset Copyright Protection in LLM Alignment by Watermark Injection and Verification. CCS’25 (CCF-A类)
智能体多目标偏见削减
研究问题:在不显著牺牲模型性能的前提下,有效削减社会偏见以提升智能体的公平公正性
技术路线
基于因果干预,提出层级化的多智能体去偏框架:辅助智能体对齐人类价值,对输入进行特征识别、掩盖与重构;主智能体对齐任务目标,将去偏过程与主任务推理过程解耦
研究成果
在多数据集和模型上,推动了帕累托前沿:降低了约 80% 偏见评分,任务准确率的下降仅约 10% 左右
引入了更多推理时成本,但仍低于同类多智能体方法
Mitigating Social Bias in Large Language Models: A Multi-Objective Approach Within a Multi-Agent Framework. AAAI’25 (CCF-A类)