工业Text2SQL工具 研究背景 目标:实现混合模态的ORC识别 实现混合模态、大型图纸的ORC识别,并自动提取元素完成表格填充 挑战 元素多样:图 / 表 / 文字 混排、结构复杂、层级多 背景/图纸模糊 看不清、噪点多、对比度低、干扰严重 表格跨行、跨页 数据被切断、需要逻辑连接、长文档处理 技术方案 方案一 标准OCR:基础文字识别能力版面恢复:图、表元素定位VLM:图、表内容提取 方案二 外框识别信息聚类自动机器学习表格识别