模型评测 – TrustedAgent

TrustedGPT 评测平台

TrustedGPT大模型可信评测平台类似大模型比武擂台上的裁判，面对21种国内外主流大模型，能够运用118个评测数据集，涵盖320万条中英文评测数据，从52个评测维度出发，评估每位选手的表现，并提供动态更新的可信度评测榜单

技术路线

评测结果

例：“deepseek-r1”在大多数维度上的表现都相当不错，尤其是在价值观对齐和合规性方面。但输出真实性和鲁棒性是两个可以进一步改进的领域

粤港澳大湾区生成式人工智能安全发展联合实验室

中山大学作为唯一高校，参与筹建由广东省委网信办和国家互联网应急中心广东分中心联合发起的“粤港澳大湾区生成式人工智能安全发展联合实验室”，软件工程学院深度参与建设工作，为联合实验室的大模型可信评测工作提供技术支持与服务

合作伙伴

成立仪式