跳至内容
背景
高质量数据是大模型能力的基石,被视为数据要素的‘价值放大器’。然而,面对来源不明、版权风险高悬及潜在的‘投毒’威胁,传统的处理方式已难以为继。我们聚焦于大模型训练数据的全生命周期治理,提出从数据集选型评估、高价值语料筛选到异常数据追踪的一体化解决方案,旨在净化数据源头,保障模型微调与生成过程的合规性、纯净性与高效性。
核心技术
大模型是数据要素的价值放大器,然而大模型在微调与生成过程中仍面临语料来源不明、语义风险难追踪等问题。提出数据集选型评估方法,识别数据集潜在版权风险;提出数据价值评估与高价值数据选择方法,识别高价值语料并提升大模型微调中的数据高效性;提出异常/投毒/污染数据识别与追踪机制,保障训练数据的纯净性与可信性。