可靠性与鲁棒性 – TrustedAgent

智能体常识理解评测与增强

研究问题：评估智能体的物理常识理解能力，提出增强常识理解与决策可靠性的方案

技术路线

通过“提示生成-图像合成-LoRA微调-人工反馈”的迭代流程生成评测数据
提出基于SFT与GRPO的两阶段智能体增强框架PhyDetector

研究成果

构建大规模评测数据集，含16000张图像，覆盖8个物理常识违背类别
经框架增强的智能体，对物理异常识别能力超越基线方法近14倍

Detecting Violations of Physical Common Sense in Images: A Challenge Dataset and Effective Model. ACM MM’25 (CCF-A类)

智能体代码搜索

研究问题：探究通过仅解码大模型进行代码检索的可行性

技术路线

调研11个SOTA的仅解码LLMs代码搜索能力
8个不同维度进行全面考察(Zero-shot、微调、单语言微调、训练数据、模型尺寸、运行开销、训练效率…)

研究成果

微调后CodeGemma在测试仅解码LLMs中表现最佳
在代码搜索领域模型尺寸并非越大越好
丰富多样的训练数据有助于提升模型泛化性能

Yuxuan Chen, Mingwei Liu et al. Are Decoder-Only Large Language Models the Silver Bullet for Code Search? TSE在投 (CCF-A类)

研究问题：如何测试并增强智能体的鲁棒性

技术路线

总结11 种真实用户规避手法，对应11种变异关系，涵盖字符、词汇、句子3个层级
让GPT在不改变原意的同时润色句子来辅助生成变异测试用例

研究成果

使用变异测试用例对智能体进行测试，攻击成功率高达81.4%
通过对抗训练优化智能体，鲁棒性平均提升96.7%

MTTM: Metamorphic Testing for Textual Content Moderation Software. ICSE’23 (CCF-A类)

研究问题：分析通用评测能否真实反映智能体在真实场景下的代码生成水平

技术路线

确定 12 个领域，按常用框架/平台分层组织任务
GitHub 采样题目，人工改写与核验，降低泄漏与噪声
静态依赖解析，构建依赖增强上下文并做系统评测

研究成果

2400 任务；覆盖 12 域/15 语言；含注释与依赖信息
发现“性能解耦”：通用强 ≠ 各领域都强
主要错误来自领域知识与库/API

Dewu Zheng et al. Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark. ICSE’26 (CCF-A类)

空间关系推理评测

研究问题：评估多模态大模型（MLLMs）在理解客观世界的空间关系推理能力上的可靠性表现

技术路线

构建了一个多项选择问答基准SpatialMQA
设计了三轮人工标注程序，确保了5392个高质量样本
基于客观世界的透视替换，排除可单凭先验知识回答的问题

研究成果

SOTA MLLM的准确率仅为48.14%，远低于人类的98.40%
模型在无图像输入下的准确率与随机相当（约24.40%），证明基准高度依赖图像理解。
基准聚焦了MLLMs最主要的错误类型：透视替换失败（FRS）。

Jingping Liu et al. Can Multimodal Large Language Models Understand Spatial Relations? ACL’ 25 (CCF-A类)

智能体幻觉检测与修正

研究问题：检测智能体是否出现幻觉以及如何纠正，确保智能体生成内容的客观事实可靠性。

技术路线

基于蜕变测试，提出了黑盒场景下的实时智能体幻觉检测机制
基于实时幻觉检测结果，在智能体出现幻觉时，基于蜕变回答实时修正智能体幻觉

研究成果

构建了检测数据集FactHalluQA与检测框架DrHall，后者在检测任务中获得超过0.856的平均F1分数，超越SOTA
在黑盒场景下，实现53%的幻觉纠正成功率

Detecting and Reducing the Factual Hallucinations of Large Language Models with Metamorphic Testing. FSE’25 (CCF-A类)

多LLM的可靠协作增强

研究问题：实现多个分词策略不同且较弱的LLMs在Token级上的有效协作并增强复杂推理能力

技术路线

提出了不依赖相同分词器的协作框架，使不同模型进行Token概率融合
通过基于前缀关系的异构对齐算法聚合Token以识别不同输出中的共识
设计了基于预测检查的迭代解码流程，自动处理上下文错位问题

研究成果

多个小参数模型集成在数学和符号推理任务上的表现显著优于单体模型
在不同数量的参与模型组合下，该方法均能保持稳健的性能提升。
验证了弱模型辅助强模型的可行性，例如7B模型能辅助70B模型在算术任务上进一步提升准确率

Yuang Bian, Jingping Liu* et al. PToco: Prefix-based Token-level Collaboration Enhances Reasoning for Multi-LLMs. COLING’25 (CCF-B类)

大小模型协同的图像降噪增强

研究问题：基于LLM的多模态实体链接方法中非必要图像导致噪声及单次视觉特征提取信息不全

技术路线

提出了一种优先依赖文本信息进行推理，必要时通过多轮迭代引入视觉线索的协同反思框架
设计了模态内一致性反思（ICR）与模态间对齐验证（IAV）模块，分别从文本语义粒度和图文匹配度两个维度验证候选实体的准确性。
在校验失败时启动视觉迭代反馈（VIF），利用OCR、图像描述等多种工具分轮次提取视觉线索辅助推理，避免信息过载

研究成果

在三个主流公开数据集上均取得了最佳性能，Top-1准确率分别提升了3.2%、5.1%和1.6%
相比其他 LLM 方法，该框架在提升准确率的同时显著降低了平均响应时间，并在不同规模的基座模型上均表现出良好的泛化能力
消融实验证明了各个反思模块及不同视觉线索对提升最终链接准确率均具有不可或缺的贡献

Z Liu, J Liu* et al. I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking. ACM MM’25 (CCF-A类)

大小模型协同的中文缩略词预测

研究问题：解决模型在中文缩写预测中难以生成高质量结果且排序不准，优化文本处理的鲁棒性

技术路线

提出了包含上下文收集、LLM生成和小模型对比评估的两阶段框架
设计类型判别器确定缩写类型，并引导持续预训练及微调后的大语言模型生成高召回率的候选缩写
提出结合缩写评分器与短语评分器的对比评估模型，通过联合学习策略对候选结果进行精准打分与重排序

研究成果

该方法在Hit@1指标上分别比SOTA方法提升了3.32% 和1.73%
类型判别器、上下文信息及短语评分器等组件提升了模型整体性能
在飞猪APP的在线A/B测试中，应用该方法预测的缩写使兴趣点识别率和点击率分别提升了0.65%和1.37%

Jingping Liu et al. Enhancing Chinese abbreviation prediction with LLM generation and contrastive evaluation. IPM 2024 (CCF-B类)

仓库级代码翻译

研究问题：研究工业级代码翻译，基于Knowledge-driven 实现仓库级代码翻译智能体

背景痛点

翻译场景中仓库级别上下文带来的挑战仍是未知
如何有效解决仓库级别上下文带来的问题与挑战仍是未知

解决方案

构建全面且细粒度的评估框架和准则
构建基于自演化的三重知识驱动的代码翻译智能体

研究成果

相比于现有方法相对提升率最高达到 135.9%，翻译成功率为82.1%
仅在1次人工介入的条件下，对Open Harmony的子模块翻译成功率达到85%

RustRepoTrans: Repository-level Context Code Translation Benchmark Targeting Rust，ASE2025

K3Trans: Evolving Triple Knowledge-Augmented LLMs for Code Translation in Repository Context, Arxiv

多模态代码注释自动更新智能体

研究问题：利用演化信息实现注释自动更新，确保智能体在软件长期维护中的技术鲁棒性

技术路线

构建 AST 差分图刻画代码结构变化
Transformer 编码注释与代码编辑序列
融合结构与序列信息生成新注释

研究成果

在 Accuracy 与 Recall@5 上达到最优性能
显著提升非代码指示型更新（NCIU）效果
代码结构建模带来稳定且可解释的性能增益

Yinan Chen et al. TG-CUP: A Transformer and GNN-Based Multi-Modal Comment Updating Method. TOSEM (CCF-A类)

面向代码编辑的指令数据合成

研究问题：通过高质量合成数据提升微调质量智能体，强化智能体的任务可靠性

技术路线

从两个不同的代码文件中随机抽取代码片段
使用两个开源大模型由代码片段生成修改前/后代码和指令
通过diff和topic filtering提升数据整体质量

研究成果

微调数据可应用于任何基座模型的指令微调
微调后的模型代码编辑性能得到明显提升
基于较新基座模型微调后，代码编辑性能接近GPT-4

Zekai Zhang et al. OpenCodeEdit: Synthesizing Instruction-Tuning Data for Code Editing with Open-Source LLMs. FSE’26 在投 (CCF-A类)

LLM在信息抽取中的伪关联现象

研究问题：识别并消除信息抽取中的伪关联，增强智能体在复杂环境下抽取的可靠性

技术路线

在训练集上进行前向标签扩展，利用LLM为给定的实体对生成扩展的关系/类型标签
在验证集上进行后向标签验证，验证这些扩展标签，并过滤掉无效标签，计算F1分数以筛选高质量的扩展标签
在测试阶段，选取Top-K的扩展标签与原始标签结合，利用CoT提示引导 LLM 完成信息抽取任务

研究成果

LLM在中英文数据集的RE、NER和ED任务中均普遍存在伪关联现象
伪关联现象非常显著，ChatGPT中超过60%的有效扩展标签与原始标签在语义上是无关的。
利用扩展标签显著增强了LLM的信息抽取性能

W Zhang, J Liu* et al. Unexpected phenomenon: LLMs’ spurious associations in information extraction. ACL’24 (CCF-A类)