模型去偏
背景
大模型存在各类广义偏差(Bias),如幻觉问题、偏见问题、文本毒性问题:
幻觉问题
模型生成非事实性内容,误导用户
偏见与歧视
训练数据导致的社会群体、价值判断的不公平
文本毒性
输出包含攻击性或不合规的有害信息
学术界一般定义广义的Bias为:在语言模型的输出、行为或内部表示上,因训练数据、模型结构、训练/微调流程或部署策略而产生的、系统性且可重复的偏向性差异,这些差异在社会群体、事实表述、价值判断或任务性能上导致不公平、错误或误导性后果
针对这些各类Bias,拟研发大模型Debias工具,以轻量化提升模型效果为方向
项目目标与产出
开源Debias工具至Github平台,包含:
- Prompt / Response拦截模块
- 数据价值评估方法
- Agent自我进化工具
应用于以下公司:
- 大湾区国创中心,“PCB多跳推理大模型”
- 招联金融,“风险大模型”
- 华东院,“电力/工程大模型”