工业Text2SQL工具

研究背景

目标:实现混合模态的ORC识别

实现混合模态、大型图纸的ORC识别,并自动提取元素完成表格填充

挑战

元素多样:图 / 表 / 文字

混排、结构复杂、层级多

背景/图纸模糊

看不清、噪点多、对比度低、干扰严重

表格跨行、跨页

数据被切断、需要逻辑连接、长文档处理

技术方案

方案一

  • 标准OCR:基础文字识别能力
  • 版面恢复:图、表元素定位
  • VLM:图、表内容提取

方案二

  • 外框识别
  • 信息聚类
  • 自动机器学习
  • 表格识别
滚动至顶部