模型去偏

背景

大模型存在各类广义偏差(Bias),如幻觉问题、偏见问题、文本毒性问题:

幻觉问题

模型生成非事实性内容,误导用户

偏见与歧视

训练数据导致的社会群体、价值判断的不公平

文本毒性

输出包含攻击性或不合规的有害信息

学术界一般定义广义的Bias为:在语言模型的输出、行为或内部表示上,因训练数据、模型结构、训练/微调流程或部署策略而产生的、系统性且可重复的偏向性差异,这些差异在社会群体、事实表述、价值判断或任务性能上导致不公平、错误或误导性后果
针对这些各类Bias,拟研发大模型Debias工具,以轻量化提升模型效果为方向

项目目标与产出

开源Debias工具至Github平台,包含:
应用于以下公司:
滚动至顶部