合规与偏见

合规性:智能体版权侵权评测与缓解

研究问题:检测智能体输出内容是否符合版权监管的合规要求并进行缓解

技术路线

  • 基于“仓库收集-提示提取-代码生成”的流程生成评测用数据

  • 基于代码克隆的特征结合代码克隆检测来及时阻止版权代码的输出

研究成果

  • 构建涵盖3种主流语言,含84000个提示词的评测数据集

  • 揭示主流代码智能体的克隆问题,克隆率最高可达7.5%且克隆行为稳定,难以用提示变换避免

An Empirical Study of Code Clones from Commercial AI Code Generators. FSE’25 (CCF-A类)

合规性:智能体隐私泄露评测与缓解

研究问题:检测智能体输出内容是否存在用户隐私信息并实施阻断

技术路线

  • 提出了HCR隐私评估与阻断工具,基于越狱攻击手段检测LLM在代码生成时的隐私泄露抵抗能力,并构建“源头-训练阶段-输出阶段”的三层隐私泄露阻断框架

研究成果

  • 在多种数据集来源下,HCR利用越狱攻击手段检测出的隐私泄露数量比基准方法平均增加约800%

  • HCR拦截了GitHub Copilot超 60% 的无效 / 敏感凭证

Your Code Secret Belongs to Me: Neural Code Completion Tools Can Memorize Hard-Coded Credentials. FSE’24 (CCF-A类)

智能体数据水印版权保护

研究问题:通过水印技术实现数据集版权保护,强化数据生命周期的版权管理与合规性

背景痛点

  • 对一小部分样本进行文本风格转换并添加特殊触发词

  • 使水印既可学习又不影响正常模型能力

  • 验证阶段利用分类器对输出做统计检验,判断是否使用了版权

研究成果

  • 可在多个主流 LLM上取得高精度水印检测效果

  • 注入水印后模型在偏好对齐任务上的性能变化极小

  • 水印对多种抹除攻击(微调、改写)均表现出强鲁棒性

Jian Lou et al. PreferCare: Preference Dataset Copyright Protection in LLM Alignment by Watermark Injection and Verification. CCS’25 (CCF-A类)

智能体多目标偏见削减

研究问题:在不显著牺牲模型性能的前提下,有效削减社会偏见以提升智能体的公平公正性

技术路线

  • 基于因果干预,提出层级化的多智能体去偏框架:辅助智能体对齐人类价值,对输入进行特征识别、掩盖与重构;主智能体对齐任务目标,将去偏过程与主任务推理过程解耦

研究成果

  • 在多数据集和模型上,推动了帕累托前沿:降低了约 80% 偏见评分,任务准确率的下降仅约 10% 左右

  • 引入了更多推理时成本,但仍低于同类多智能体方法

Mitigating Social Bias in Large Language Models: A Multi-Objective Approach Within a Multi-Agent Framework. AAAI’25 (CCF-A类)

滚动至顶部