合规与偏见 – TrustedAgent

合规性：智能体版权侵权评测与缓解

研究问题：检测智能体输出内容是否符合版权监管的合规要求并进行缓解

技术路线

基于“仓库收集-提示提取-代码生成”的流程生成评测用数据
基于代码克隆的特征结合代码克隆检测来及时阻止版权代码的输出

研究成果

构建涵盖3种主流语言，含84000个提示词的评测数据集
揭示主流代码智能体的克隆问题，克隆率最高可达7.5%，且克隆行为稳定，难以用提示变换避免

An Empirical Study of Code Clones from Commercial AI Code Generators. FSE’25 (CCF-A类)

合规性：智能体隐私泄露评测与缓解

研究问题：检测智能体输出内容是否存在用户隐私信息并实施阻断

技术路线

提出了HCR隐私评估与阻断工具，基于越狱攻击手段检测LLM在代码生成时的隐私泄露抵抗能力，并构建“源头-训练阶段-输出阶段”的三层隐私泄露阻断框架

研究成果

在多种数据集来源下，HCR利用越狱攻击手段检测出的隐私泄露数量比基准方法平均增加约800%
HCR拦截了GitHub Copilot超 60% 的无效 / 敏感凭证

Your Code Secret Belongs to Me: Neural Code Completion Tools Can Memorize Hard-Coded Credentials. FSE’24 (CCF-A类)

智能体数据水印版权保护

研究问题：通过水印技术实现数据集版权保护，强化数据生命周期的版权管理与合规性

背景痛点

对一小部分样本进行文本风格转换并添加特殊触发词
使水印既可学习又不影响正常模型能力
验证阶段利用分类器对输出做统计检验，判断是否使用了版权

研究成果

可在多个主流 LLM上取得高精度水印检测效果
注入水印后模型在偏好对齐任务上的性能变化极小
水印对多种抹除攻击（微调、改写）均表现出强鲁棒性

Jian Lou et al. PreferCare: Preference Dataset Copyright Protection in LLM Alignment by Watermark Injection and Verification. CCS’25 (CCF-A类)

智能体多目标偏见削减

研究问题：在不显著牺牲模型性能的前提下，有效削减社会偏见以提升智能体的公平公正性

技术路线

基于因果干预，提出层级化的多智能体去偏框架：辅助智能体对齐人类价值，对输入进行特征识别、掩盖与重构；主智能体对齐任务目标，将去偏过程与主任务推理过程解耦

研究成果

在多数据集和模型上，推动了帕累托前沿：降低了约 80% 偏见评分，任务准确率的下降仅约 10% 左右
引入了更多推理时成本，但仍低于同类多智能体方法

Mitigating Social Bias in Large Language Models: A Multi-Objective Approach Within a Multi-Agent Framework. AAAI’25 (CCF-A类)