CN114937279A - 基于rpa和ai实现ia的bom识别方法及装置 - Google Patents

基于rpa和ai实现ia的bom识别方法及装置 Download PDF

Info

Publication number
CN114937279A
CN114937279A CN202210636992.1A CN202210636992A CN114937279A CN 114937279 A CN114937279 A CN 114937279A CN 202210636992 A CN202210636992 A CN 202210636992A CN 114937279 A CN114937279 A CN 114937279A
Authority
CN
China
Prior art keywords
candidate
bom
line segment
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210636992.1A
Other languages
English (en)
Inventor
刘海龙
黄安
王尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Laiye Technology Beijing Co Ltd
Original Assignee
Laiye Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Laiye Technology Beijing Co Ltd filed Critical Laiye Technology Beijing Co Ltd
Priority to CN202210636992.1A priority Critical patent/CN114937279A/zh
Publication of CN114937279A publication Critical patent/CN114937279A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/36Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Nonlinear Science (AREA)
  • Image Analysis (AREA)

Abstract

本公开提出一种基于RPA和AI实现IA的BOM识别方法及装置,其中,方法包括:获取目标图像;从目标图像中,确定至少一个目标BOM区域;针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM;从至少一个候选BOM中确定目标BOM,由此,可实现智能自动化地从目标图像中定位并识别出BOM,代替了人工操作,提升了BOM内容识别效率和准确率。

Description

基于RPA和AI实现IA的BOM识别方法及装置
技术领域
本公开涉及人工智能(Artificial Intelligence,简称AI)、机器人流程自动化(Robotic Process Automation,简称RPA)和智能自动化Intelligent Automation,简称IA)领域,尤其涉及一种基于RPA和AI实现IA的BOM识别方法及装置。
背景技术
机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门技术科学。
智能自动化(Intelligent Automation,IA)是一系列从机器人流程自动化到人工智能的技术总称,将RPA与光学字符识别(Optical Character Recognition,OCR)、智能字符识别(Intelligent Character Recognition,ICR)、流程挖掘(Process Mining)、深度学习(Deep Learning,DL)、机器学习(Machine Learning,ML)、自然语言处理(NaturalLanguage Processing,NLP)、语音识别(Automatic Speech Recognition,ASR)、语音合成(Text To Speech,TTS)、计算机视觉(Computer Vision,CV)等多种AI技术相结合,以创建能够思考、学习及自适应的端到端的业务流程,涵盖从流程发现、流程自动化,到通过自动而持续的数据收集、理解数据的含义,使用数据来管理和优化业务流程的整个历程。
目前,为了满足下游制造企业将物料清单(Bill of Material,简称BOM)提取录入生产、采购***,以及在多个设计版本BOM之间进行比较、核验等需求,需要从图纸中识别得到BOM。相关技术中,通过人工识别得到BOM,并将识别出的BOM录入表格,但是,通过人工的方式识别BOM,不仅费时,而且容易出错。
发明内容
本公开旨在至少在一定程度上解决上述技术中的技术问题之一。
为此,本公开提出一种基于RPA和AI实现IA的BOM识别方法及装置,以实现从目标图像中智能自动化地定位并识别出BOM,代替了人工操作,提升了BOM识别效率和准确率。
本公开第一方面实施例提出了一种基于机器人流程自动化RPA和人工智能AI实现智能自动化IA的物料清单BOM识别方法,包括:获取目标图像;从所述目标图像中,确定至少一个目标BOM区域;针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM;从至少一个候选BOM中确定目标BOM。
本公开第二方面实施例提出了一种基于机器人流程自动化RPA和人工智能AI实现智能自动化IA的物料清单BOM识别装置,包括:获取模块,用于获取目标图像;第一确定模块,用于从目标图像中,确定至少一个目标BOM区域;识别模块,用于针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM;第二确定模块,用于从至少一个候选BOM中确定目标BOM。
本公开第三方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本公开上述第一方面实施例所述的方法。
本公开第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本公开上述第一方面实施例所述的方法。
本公开第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本公开上述第一方面实施例所述的方法。
本公开实施例所提供的技术方案包含如下的有益效果:
本公开的技术方案,通过获取目标图像;从目标图像中,确定至少一个目标BOM区域;针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM;从至少一个候选BOM中确定目标BOM,由此,对目标图像中的目标BOM区域中进行表格识别,并从识别得到的候选BOM中确定目标BOM,可实现智能自动化地从目标图像中定位并识别出BOM,代替了人工操作,提升了BOM内容识别效率和准确率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为本公开一个实施例的图纸中BOM区域的分布示意图;
图2是本公开一个实施例的基于RPA和AI实现IA的BOM识别方法的流程图;
图3是本公开另一个实施例的基于RPA和AI实现IA的BOM识别方法的流程图;
图4是本公开一个实施例的目标图像中的各横线段的像素点示意图;
图5是本公开一个实施例的目标图像中的各竖线段的像素点示意图;
图6是本公开一个实施例的一个区域中的横线段集合示意图;
图7是本公开一个实施例的一个区域中的竖线段集合示意图;
图8是本公开一个实施例的一个区域的参考表格示意图;
图9是本公开一个实施例的参考表格对应的面积最大的连通区域的示意图;
图10是本公开一个实施例的确定目标BOM区域的流程示意图;
图11是本公开另一个实施例的基于RPA和AI实现IA的BOM识别方法的流程图;
图12是本公开另一个实施例的基于RPA和AI实现IA的BOM识别方法的流程图;
图13是本公开另一个实施例的基于RPA和AI实现IA的BOM识别方法的流程图;
图14是本公开一个实施例的基于RPA和AI实现IA的BOM识别装置的结构示意图;
图15是根据一示例性实施例示出的一种用于基于RPA和AI实现IA的物料清单BOM识别方法的电子设备的框图。
具体实施方式
下面详细描述本申请/公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请/公开,而不能理解为对本申请/公开的限制。
目前,计算机辅助设计(Computer Aided Design,简称CAD)技术已经广泛应用在制造业中,在设计过程中,物料清单(Bill of Material,简称BOM)通常可由CAD***自动遍历获取设计图纸中的产品结构信息而生成,并以表格形式布局呈现于图纸上。设计公司通过CAD***中产出的设计BOM,是生产企业进行制造、管理、采购活动的基础数据来源。
由于设计公司为保护其知识版权免受侵害,将设计CAD转换成了图像格式对外提供,另外,按照很多行业的现有行业规范,具备正式法律效力的图纸是必须要经过盖章或者签字的,而经过打印、盖章签字、再次扫描之后的图纸文件,只能是图像格式而非原始的CAD文件格式了。因此,在很多情况下,制造企业的生产和采购部门拿到电子文件格式的设计CAD图纸时,已经不是原始设计格式(如dwg)的图纸,而只有图像(如jpg,png等格式,或者纯图像格式的pdf文件)格式的文件。为了满足下游制造企业将物料清单(Bill of Material,简称BOM)的内容提取录入生产、采购***,以及在多个设计版本BOM之间进行比较、核验等需求,需要从图纸中识别得到BOM的内容。
相关技术中,从设计图纸图像中,将BOM识别出来主要包括以下两种方法:第一种方法是,完全由人工识别得到BOM,并将识别出的BOM录入表格;第二种方法是,设法利用各种各样的通用OCR***提供的表格识别的能力;但是,第一种完全由人工识别得到BOM,并将识别出的BOM录入表格,不仅费时,而且容易出错;由于一张图纸上的内容很丰富,通用OCR***的表格识别难以区分设计图纸中的表格和其他内容,BOM区域和其他表格区域。另外,如图1所示,随着一张设计图中零部件数量的增长,BOM区域会被拆成若干部分,按照一定的顺序出现在图纸右下角图例的上方和左侧,并通常与图例表格部分完全粘连在一起。人工截取BOM各区域,分多次送入OCR***的表格识别是一种可能的处理方法,但是选择截取这个步骤仍然要涉及较多的人工操作,在需要自动化的处理大量图纸的场景下,比如构建RPA流程时仍显得不够便利。
针对上述问题,本公开提出一种基于RPA和AI实现IA的BOM识别方法及装置。
下面参考附图描述本公开实施例的基于RPA和AI实现IA的BOM识别方法及装置。在具体描述本公开实施例之前,为了便于理解,首先对常用技术词进行介绍:
“目标图像”:是指扫描CAD图纸得到的图像,其格式可为:JPG、PNG或PDF等格式;
“候选横线段集合”:是指从目标图像中识别得到的横线段的集合;
“候选竖线段集合”:是指从目标图像中识别得到的竖线段的集合;
“候选横线段子集合”:是指目标图像中不同区域中的横线段的集合;
“候选竖线段子集合”:是指目标图像中不同区域中的竖线段的集合;
“参考表格”:是指同一区域中候选横线段子集合与对应的候选竖线段子集合合并后得到的表格;
“候选BOM区域”:是指参考表格中面积最大的连通区域的外接矩形对应的区域;
“目标BOM区域”,是指候选BOM区域中的横线的数量大于或等于第一设定数量阈值,且竖线段的数量大于或等于第二设定数量阈值的区域;
“第一元素窗口”,是指设定水平矩形窗口,比如,目标图像的宽度为w,设定水平矩形窗口的宽度=w/40,高度为1;
“第二元素窗口”,是指设定垂直矩形窗口,比如,目标图像的高度为h,设定垂直矩形窗口的高度=h/80,宽度为1;
“候选BOM”,是指从目标BOM区域中识别得到的表格;
“目标BOM”,是指从候选BOM中识别得到的BOM,比如,候选BOM中包含图例内容和BOM,目标BOM是指候选BOM中去除图例内容后的,仅包含BOM;
“光学字符识别(Optical Character Recognition,简称OCR)”,是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
参照下面的描述和附图,将清楚本申请/公开的实施例的这些和其他方面。在这些描述和附图中,具体公开了本申请/公开的实施例中的一些特定实施方式,来表示实施本申请/公开的实施例的原理的一些方式,但是应当理解,本申请/公开的实施例的范围不受此限制。相反,本申请/公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图2是本公开一个实施例的基于RPA和AI实现IA的BOM识别方法的流程图。
本公开实施例提供的一种可能的实现方式中,本公开以该于RPA和AI实现IA的BOM识别方法被配置于基于RPA和AI实现IA的BOM识别装置中来举例说明,该基于RPA和AI实现IA的BOM识别装置可以应用于任一具有计算能力的电子设备中。
其中,该电子设备可以是个人电脑、移动终端等,移动终端例如为手机、平板电脑、个人数字助理等具有各种操作***的硬件设备。
在本公开实施例的另一种可能的实现方式中,该基于RPA和AI实现IA的BOM识别装置,可应用于RPA机器人,其中,该RPA机器人可以运行在任一具有计算能力的电子设备中。
如图2所示,该方法可包括以下步骤:
步骤201,获取目标图像。
在本公开实施例中,目标图像可为设计图纸的图像,可对设计图纸进行图像扫描,以获取目标图像,其中,目标图像的格式可为JPG、PNG或PDF等。
步骤202,从目标图像中,确定至少一个目标BOM区域。
作为本公开实施例的一种可能的实现方式,可从目标图像中确定至少一个候选BOM区域,从至少一个候选BOM区域中,确定至少一个目标BOM区域,其中,候选BOM区域可为该区域中参考表格中面积最大的连通区域的外接矩形对应的区域,参考表格是指该区域中的横线段的集合与竖线段的集合合并得到的表格。
步骤203,针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM。
作为本公开实施例的一种可能的实现方式,可基于OCR对至少一个目标BOM区域中任一目标BOM区域进行表格识别,以得到至少一个候选BOM。其中,表格识别可包括表格中的各单元格识别以及各单元格的内容识别。
步骤204,从至少一个候选BOM中确定目标BOM。
由于候选BOM中可包含BOM以及除BOM之外的其内容,其中,除BOM之外的其内容比如可为图例内容。
在本公开实施例中,从至少一个候选BOM中识别出BOM,将识别出的BOM作为目标BOM内容。比如,可将各候选BOM中的图例内容舍弃,得到对应的目标BOM。
综上,通过获取目标图像;从目标图像中,确定至少一个目标BOM区域;针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM;从至少一个候选BOM中确定目标BOM,由此,通过自动对目标图像中的目标BOM区域中进行表格识别,并从识别得到的候选BOM中确定目标BOM,可实现智能自动化地从目标图像中定位并识别出BOM,代替了人工操作,提升了BOM识别效率和准确率。
为了从目标图像中,可准确地确定至少一个目标BOM区域,如图3所示,图3是本公开另一个实施例的基于RPA和AI实现IA的BOM识别方法的流程图,在本公开实施例中,可根据参考表格中的面积最大的连通区域对应的外接矩形,确定各参考表格对应的候选BOM区域,从候选BOM区域中,确定至少一个目标BOM区域,图3所示实施例可包括如下步骤:
步骤301,获取目标图像。
步骤302,从目标图像中,识别出目标图像对应的候选横线段集合与候选竖线段集合。
可选地,以设定水平矩形窗口作为第一元素窗口,对目标图像进行第一滤波处理,以得到第一图像,其中,第一图像包括目标图像中的各个候选横线段的像素点;以设定垂直矩形窗口作为第二元素窗口,对目标图像进行第二滤波处理,以得到第二图像,其中,第二图像包括目标图像中的各个候选竖线段的像素点;根据第一图像中各像素点的坐标,确定各候选横线段的第一外接矩形坐标,其中,第一外接矩形坐标用于指示各候选横线段的端点坐标;根据第二图像中各像素的坐标,确定各候选竖线段的第二外接矩形坐标,其中,第二外接矩形坐标用于指示各候选竖线段的端点坐标;根据各候选横线段的第一外接矩形坐标,确定候选横线段集合,并根据各候选竖线段的第二外接矩形坐标,确定候选竖线段集合。
也就是说,为了便于显示目标图像中的候选横线段集合以及候选竖线段集合,可将目标图像转换为单通道灰度图像,并进行自适应二值化,在二值化图像上以设定水平矩形窗口作为第一元素窗口,对二值化后的目标图像进行形态学滤波处理(如,先腐蚀后膨胀),得到第一图像,即,如图4所示,可在过滤掉目标图像中文字像素,第一图像中仅保留目标图像中的各横线段的像素点;同理,在二值化图像上以设定垂直矩形窗口作为第二元素窗口,对二值化后的目标图像进行形态学滤波处理(先腐蚀后膨胀),得到第二图像,即,如图5所示,可在过滤掉目标图像中文字像素,第二图像中仅保留目标图像中的各竖线段的像素点。进一步地,根据第一图像中各像素点的坐标,可确定各候选横线段的第一外接矩形坐标;根据第二图像中各像素的坐标,确定各候选竖线段的第二外接矩形坐标。
接着,作为一种示例,可根据各候选横线段的第一外接矩形坐标,从各候选横线段中删除与目标图像的边界横框线段匹配的最长候选横线段,确定候选横线段集合,候选横线段集合可记为allRow;同时,根据各候选竖线段的第二外接矩形坐标,从各候选竖线段中删除与目标图像的边界竖框线段匹配的最长候选竖线段,可确定候选竖线段集合,候选竖线段集合可记为allCow。
其中,以目标图像的宽度和高度分别为w和h为例,设定水平矩形窗口的尺寸可为[w′,1](如,w′=w/80),设定垂直矩形窗口的尺寸可为[1,h′](如,h′=h/80),需要说明的是,可预先建立目标图像的像素坐标系,以目标图像的左上角为像素坐标系原点,第一外接矩形坐标可为{(x1,y1),(x2,y1),(x1,y2),(x2,y2)},第二外接矩形坐标可为{(x3,y3),(x4,y3),(x3,y4),(x4,y4)}。
步骤303,从候选横线段集合与候选竖线段集合中,按照设定方向,依次确定各候选横线段子集合和各候选竖线段子集合。
其中,候选横线段子集合中包括位于同一区域的多个横线段,目标竖线段集合中包括位于同一区域的多个竖线段。
需要了解的是,由于包含BOM的区域通常按照设定方向(比如,从右至左),分成若干竖栏布局在图纸图像中,因此,可从候选横线段集合与候选竖线段集合中,按照设定方向,依次确定各候选横线段子集合和各候选竖线段子集合。
作为一种示例,可根据设定方向,依次确定各横坐标起始点以及与各横坐标起始点对应的各纵坐标结束点,从候选横线段集合中,根据各横坐标起始点,确定各候选横线段子集合;从候选竖线段集合中,根据各纵坐标结束点,确定各候选竖线段子集合。
比如,可从候选横线段集合中,按照设定方向,先确定首个区域的横坐标起始点,如,目标图像的宽度和高度分别为w和h,设定方向为从右至左,筛选出起始点横坐标x1满足x1>wth(如,wth=w/3)的横线段,作为第一个区域中的横线段集合(如图6所示);同理,可从候选竖线段集合中,先确定首个区域纵坐标结束点,如,筛选出结束点纵坐标y1满足y1>hth(如,hth=h/2)的竖线段,作为首个区域中的竖线段集合(如图7所示),由此,可从候选横线段集合中以及候选竖线段集合中,筛选出目标图像中首个(右下角)区域中的候选横线段子集合以及候选竖线段子集合。其中,需要说明的是,图6和图7中的虚线框仅作图像区域示意,实际应用中并不存在。
需要了解的是,由于图纸图像中多个包含BOM的区域,各个区域因为排布了一致的序号、编号、材料、数量以及备注信息,每个区域的宽度大致相同,因此,下一个区域的横坐标起始点可为首个区域的横坐标起始点与该首个区域的宽度的差值(如首个区域的宽度dw,首个区域的横坐标起始点为x1,下一个区域的横坐标起始点为x1-dw),下一个区域的纵坐标结束点可与首个区域的纵坐标结束点相同,进而,根据各区域的横坐标起始点以及对应的纵坐标结束点,可确定各候选横线段子集合和各候选竖线段子集合。其中,区域的宽度可通过首个区域中的候选横线段子集合中,多条候选横线段中的每个候选横线段的最大横坐标以及最小横坐标的差值确定。作为一种示例,为了使区域的宽度更加准确,可为首个区域中多条候选横线段中每条横线段对应的横坐标差值进行相加,将相加结果与多条候选横线段的数量进行相比,将相比结果作区域的宽度。
步骤304,将各候选横线段子集合与各候选横线段子集合位于同一区域的各候选竖线段子集合进行合并,以得至少一个参考表格。
进一步地,如图8所示,将各区域中的候选横线段子集合与对应区域的候选竖线段子集合进行合并,可得到各区域中的参考表格。其中,需要说明的是,图8中的虚线框仅作图像区域示意,实际应用中并不存在。
步骤305,对至少一个参考表格中的各参考表格,根据各参考表格中的面积最大的连通区域对应的外接矩形,确定各参考表格对应的候选BOM区域。
进而,如图9所示,对各区域对应的参考表格,确定各参考表格中的连通区域,并确定将连通区域中面积最大的连通区域的外接矩形(如,图9中黑色区域),并将各参考表格中面积最大的连通区域的外接矩形,作为各参考表格对应的候选BOM区域。其中,需要说明的是,图9中的虚线框仅作图像区域示意,实际应用中并不存在。
步骤306,根据各候选BOM区域对应的横线段数量以及竖线段数量,确定至少一个目标BOM区域。
需要了解的是,如果候选BOM区域中的横线段数量以及竖线段数量都超过一定的阈值,则认为该候选BOM区域可构成一个合理的BOM区域;如果候选BOM区域中的横线段数量或竖线段数量过少,可认为无法组成有效的BOM,则候选BOM区域不能成为合理的BOM区域。
作为本公开实施例的一种可能的实现方式,获取任一候选BOM区域中的横线段数量以及竖线段数量;在任一候选BOM区域中的横线段的数量大于或等于第一设定数量阈值,并且任一候选BOM区域中的竖线段的数量大于或等于第二设定数量阈值时,将任一候选BOM区域,作为目标BOM区域。
需要说明的是,作为本公开实施例的一种可能的实现方式,如图10所示,可先从候选横线段集合中,按照设定方向,确定首个区域对应的候选横线段子集合以及候选竖线段子集合,并将首个区域的候选横线段子集合以及候选竖线段子集合进行合并,得到对应的参考表格,从而,将参考表格中面积最大的连通区域的外接矩形作为候选BOM区域,并确定该候选BOM区域中横线段的数量是否大于或等于第一设定数量阈值,竖线段的数量是否大于等于第二设定数量阈值,在该候选BOM区域中的横线段的数量大于或等于第一设定数量阈值,并且该候选BOM区域中的竖线段的数量大于或等于第二设定数量阈值时,将该候选BOM区域,作为首个目标BOM区域。
接着,根据首个目标BOM区域的位置坐标,确定下一个区域的位置坐标,比如,首个目标BOM区域的位置坐标为{(Bleft,Btop),(Bright,Btop),(Bright,Bbottom),(Bleft,Bbottom)},该首个目标BOM区域的宽度dw=Bright-Bleft;下一个区域的位置坐标为{(Bleft-dw,Btop),(Bright-dw,Btop),(Bright-dw,Bbottom),(Bleft-dw,Bbottom)}。
接着,根据该下一个区域中的横坐标起始点以及纵坐标结束点,确定下一个区域中的候选横线段子集合以及候选竖线段子集合,并根据该下一个区域的候选横线段子集合以及候选竖线段子集合进行合并,得到该下一个区域对应的参考表格,从而,将参考表格中面积最大的连通区域的外接矩形作为下一个候选BOM区域,并确定该下一个候选BOM区域中横线段的数量是否大于或等于第一设定数量阈值,竖线段的数量是否大于等于第二设定数量阈值,在该下一个候选BOM区域中的横线段的数量大于或等于第一设定数量阈值,并且该下一个候选BOM区域中的竖线段的数量大于或等于第二设定数量阈值时,将该下一个候选BOM区域,作为下一个目标BOM区域。如此循环下去,直至候选区域中的横线段数量小于第一设定数量阈值,或候选区域中的竖线段数量小于第二设定数量阈值,该流程结束时,即可获取目标图像中的所有的目标BOM区域。
步骤307,针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM。
步骤308,从至少一个候选BOM中确定目标BOM。
需要说明的是,步骤301、步骤307至308的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,根据目标图像中候选横线段集合中的各候选横线段子集合以及各候选竖线段子集合,可确定各个区域中的参考表格,根据参考表格中的面积最大的连通区域对应的外接矩形,可确定对应的候选BOM区域,并对候选BOM区域中的横线段数量以及竖线段数量进行验证,可确定候选BOM区域是否为目标BOM。
为了准确地确定目标BOM区域中的候选BOM,如图11所示,图11是本公开另一个实施例的基于RPA和AI实现IA的BOM识别方法的流程图,在本公开实施例中,可采用图像分割网络确定任一目标BOM区域中的多个单元格,采用文本检测网络确定任一目标BOM区域中的多个文本片段,根据任一目标BOM区域中的多个单元格以及对应的多个文本片段,确定任一目标BOM区域中的候选BOM,图11所示实施例可包括如下步骤:
步骤1101,获取目标图像。
步骤1102,从目标图像中,确定至少一个目标BOM区域。
步骤1103,将任一目标BOM区域分别输入至图像分割网络和文本检测网络,以得到图像分割网络输出的任一目标BOM区域中的多个单元格,以及文本检测网络输出的任一目标BOM区域中的多个文本片段。
在本公开实施例中,可将任一目标BOM区域分别输入至图像分割网络和文本检测网络,图像分割网络可分割任一目标BOM区域的图像中的表格线,得到任一目标BOM区域中的多个单元格,文本检测网络可输出任一目标BOM区域中的多个文本片段。其中,需要说明的是,图像分割网络可为Unet,U2Net等网络,文本检测网络可为可微的二值化网络(Differentiable BinarizationNetworking,简称DBNet)。
步骤1104,对各目标BOM区域中的多个单元格中的各单元格以及与各单元格位置对应的文本片段进行合并,以得到各单元格对应的文本片段。
进一步地,根据各目标BOM区域中的多个单元格中的各单元格的位置以及各文本片段的位置,将各目标BOM区域中的多个单元格中的各单元格以及与各单元格对应的文本片段进行合并,可得到每个单元格对应的文本片段,并对每个单元格进行索引记录。
此外,在多个文本片段中的任一文本片段的位置与多个相邻单元格的位置重合时,即多个文本片段中的任一文本片段跨越了至少相邻两个单元格,可确定至少两个相邻单元格中的分隔线,并根据分隔线的位置,对任一文本片段进行分割,得到多个文本子片段,根据多个文本子片段的位置与多个相邻单元格的位置,对多个文本子片段与多个相邻单元格进行合并。
步骤1105,采用文本识别网络对各目标BOM区域中的各单元格对应的文本片段进行内容识别,以得到各单元格对应的文本内容。
作为本公开实施例的一种可能的实现方式,可采用文本识别网络对各目标BOM区域中的各单元格对应的文本片段进行内容识别,可得到各单元格的文本内容。其中,文本识别网络可为卷积循环神经网络(Convolutional Recurrent Neural Network,简称CRNN)。
步骤1106,将各目标BOM区域中的各单元格以及各单元格对应的文本内容,可确定各目标BOM区域对应的候选BOM。
进而,将各个目标BOM区域中的各单元格以及各单元格对应的文本内容进行组合,即可得到各目标BOM区域对应的候选BOM。
举例而言,如图12所示,图12是本公开另一个实施例的基于RPA和AI实现IA的BOM内容识别方法的流程图,第一步,输入为含有有线表格区域的一张图像(候选BOM表格的图像);
第二步,用经过训练的图像分割网络(如Unet,U2Net等)分割图像中的表格线,获取单元格结构;
第三步,用一个文本检测网络(如DBNet)检测图像中的文本片段(文本行),得到若干文本片段;
第四步,将第二步和第三步处理的结果进行合并,得到被每个表格单元格包含的文本片段,并记录该索引。如果发现某个文本片段跨越了某条表格线,则由该表格线将该文本片段切分成两个文本子片段,分别归属于两个不同的相邻单元格;
第五步,对经过第四步处理的每个文本行片段,用一个文本识别网络(如,CRNN)识别该行文本的内容,多个文本片段可以组成一个批次,在一次推理过程中完成识别,以提高识别速度;
第六步,将表格单元格结构,以及表格单元格中的文本片段识别结果组合,即可给出输入图像的表格识别结果。
步骤1107,从至少一个候选BOM中确定目标BOM。
需要说明的是,步骤1101至1102、步骤1107的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过将任一目标BOM区域分别输入至图像分割网络和文本检测网络,以得到图像分割网络输出的任一目标BOM区域中的多个单元格,以及文本检测网络输出的任一目标BOM区域中的多个文本片段;对各目标BOM区域中的多个单元格中的各单元格以及与各单元格位置对应的文本片段进行合并,以得到各单元格对应的文本片段;采用文本识别网络对各目标BOM区域中的各单元格对应的文本片段进行内容识别,以得到各单元格对应的文本内容;将各目标BOM区域中的各单元格以及各单元格对应的文本内容,可确定各目标BOM区域对应的候选BOM,由此,通过图像分割网络和文本检测网络,得到各目标BOM区域中的多个单元格,以及各单元格对应的文本内容,从而可确定各目标BOM区域中的候选BOM。
由于候选BOM中可包含除BOM之外的其内容,因此,可对候选BOM中的BOM进行识别,以确定目标BOM,图13是本公开另一个实施例的基于RPA和AI实现IA的BOM识别方法的流程图,在本公开实施例中,基于OCR,对候选BOM进行BOM表头识别,以确定至少一个目标子BOM的表头所处的位置,进而,根据设定内容方向以及至少一个目标子BOM的表头中各目标子BOM的表头所处的位置,以确定各目标子BOM,根据各目标子BOM,可确定目标BOM,图13所示实施例可包括如下步骤:
步骤1301,获取目标图像。
步骤1302,从目标图像中,确定至少一个目标BOM区域。
步骤1303,针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM。
步骤1304,基于自然语言处理技术NLP,对候选BOM进行BOM表头识别,以确定至少一个目标子BOM的表头所处的位置。
需要了解的是,由于表头中通常含有固定的文本字段,比如,表头中通常含有“编号、序号、材料、数量”等字段,基于自然语言处理技术(Natural Language Processing,简称NLP),根据设定表头文本,对候选BOM进行BOM表头识别,以得到至少一个目标子BOM的表头所处的位置。
步骤1305,根据设定内容方向以及至少一个目标子BOM的表头中各目标子BOM的表头所处的位置,以确定各目标子BOM。
作为本公开实施例的一种可能的实现方式,在确定至少一个目标子BOM的表头所处的位置后,可按照设定内容方向(从下至上的顺序),确定各目标子BOM,其中,第一个目标子BOM的表头所处的位置向下的区域可为图例区域,可舍弃图例区域对应的表格识别结果。
步骤1306,对各目标子BOM进行合并,以确定目标BOM。
进而,将各目标子BOM进行合并,以确定目标BOM,比如,将多个目标子BOM按照从右至左,同一个目标子BOM内条目按照从下至上的顺序进行排列、合并,以得到目标BOM。
需要说明的是,步骤1301至1303的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,可从候选BOM中根据设定内容方向以及各目标子BOM的表头所处的位置,确定各目标子BOM,进而,对各目标子BOM进行合并,可确定目标BOM。
本公开实施例的基于RPA和AI实现IA的BOM识别方法,通过获取目标图像;从所述目标图像中,确定至少一个目标BOM区域;针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM;从候选BOM中确定目标BOM。由此,通过自动对目标图像中的目标BOM区域中进行表格识别,并从识别得到的候选BOM中确定目标BOM,可实现智能自动化地从目标图像中定位并识别出BOM,代替了人工操作,提升了BOM识别效率和准确率。
与上述图2至图13实施例提供的基于RPA和AI实现IA的BOM识别方法相对应,本公开还提供一种基于RPA和AI实现IA的BOM识别装置,由于本公开实施例提供的基于RPA和AI和实现IA的BOM识别装置与上述图2至图13实施例提供的基于RPA和AI实现IA的BOM识别方法相对应,因此在基于RPA和AI实现IA的BOM识别方法的实施方式也适用于本公开实施例提供的基于RPA和AI实现IA的BOM识别装置,在本公开实施例中不再详细描述。
图14是本公开一个实施例的基于RPA和AI实现IA的BOM识别装置的结构示意图。
如图14所示,该基于RPA和AI实现IA的BOM识别装置1400,包括:获取模块1410、第一确定模块1420、识别模块1430和第二确定模块1440。
其中,获取模块1410,用于获取目标图像;第一确定模块1420,用于从目标图像中,确定至少一个目标BOM区域;识别模块1430,用于针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM;第二确定模块1440,用于从至少一个候选BOM中确定目标BOM。
作为本公开实施例的一种可能的实现方式,基于RPA和AI实现IA的BOM识别装置1400应用于RPA机器人。
作为本公开实施例的一种可能的实现方式,第一确定模块1420,还用于:从目标图像中,识别出目标图像对应的候选横线段集合与候选竖线段集合;从候选横线段集合与所述候选竖线段集合中,按照设定方向,依次确定各候选横线段子集合和各候选竖线段子集合,其中,候选横线段子集合中包括位于同一区域的多个横线段,目标竖线段集合中包括位于同一区域的多个竖线段;将各候选横线段子集合与各候选横线段子集合位于同一区域的各候选竖线段子集合进行合并,以得至少一个参考表格;对至少一个参考表格中的各参考表格,根据各参考表格中的面积最大的连通区域对应的外接矩形,确定各参考表格对应的候选BOM区域;根据各候选BOM区域对应的横线段数量以及竖线段数量,确定至少一个目标BOM区域。
作为本公开实施例的一种可能的实现方式,第一确定模块1420,还用于:以设定水平矩形窗口作为第一元素窗口,对目标图像进行第一滤波处理,以得到第一图像,其中,第一图像包括目标图像中的各个候选横线段的像素点;以设定垂直矩形窗口作为第二元素窗口,对目标图像进行第二滤波处理,以得到第二图像,其中,第二图像包括目标图像中的各个候选竖线段的像素点;根据第一图像中各像素点的坐标,确定各候选横线段的第一外接矩形坐标,其中,第一外接矩形坐标用于指示各候选横线段的端点坐标;根据第二图像中各像素的坐标,确定各候选竖线段的第二外接矩形坐标,其中,第二外接矩形坐标用于指示各候选竖线段的端点坐标;根据各候选横线段的第一外接矩形坐标,确定候选横线段集合,并根据各候选竖线段的第二外接矩形坐标,确定候选竖线段集合。
作为本公开实施例的一种可能的实现方式,第一确定模块1420,还用于:根据各候选横线段的第一外接矩形坐标,从各候选横线段中删除与目标图像的边界横框线段匹配的最长候选横线段,并根据各候选竖线段的第二外接矩形坐标,从各候选竖线段中删除与目标图像的边界竖框线段匹配的最长候选竖线段;根据删除最长候选横线段后的各候选横线段,确定候选横线段集合,并根据删除最长候选竖线段后的各所述候选竖线段,确定候选竖线段集合。
作为本公开实施例的一种可能的实现方式,第一确定模块1420,还用于:获取各候选BOM区域中的任一候选BOM区域中的横线段数量以及竖线段数量;在任一候选BOM区域中的横线段的数量大于或等于第一设定数量阈值,并且任一候选BOM区域中的竖线段的数量大于或等于第二设定数量阈值时,将任一候选BOM区域,作为目标BOM区域。
作为本公开实施例的一种可能的实现方式,第一确定模块1420,还用于:根据设定方向,依次确定各横坐标起始点以及与各横坐标起始点对应的各纵坐标结束点;从候选横线段集合中,根据各横坐标起始点,确定各候选横线段子集合;从候选竖线段集合中,根据各纵坐标结束点,确定各候选竖线段子集合。
作为本公开实施例的一种可能的实现方式,识别模块1430,还用于:将任一目标BOM区域分别输入至图像分割网络和文本检测网络,以得到图像分割网络输出的任一目标BOM区域中的多个单元格,以及文本检测网络输出的任一目标BOM区域中的多个文本片段;对各目标BOM区域中的多个单元格中的各单元格以及与各单元格位置对应的文本片段进行合并,以得到各单元格对应的文本片段;采用文本识别网络对各目标BOM区域中的各所述单元格对应的文本片段进行内容识别,以得到各单元格对应的文本内容;根据各目标BOM区域中的各单元格以及各单元格对应的文本内容,确定各目标BOM区域对应的候选BOM。
作为本公开实施例的一种可能的实现方式,基于RPA和AI实现IA的BOM识别装置1400还包括:第三确定模块、分割模块和处理模块。
其中,第三确定模块,用于在多个文本片段中的任一文本片段的位置与多个相邻单元格的位置重合时,确定多个相邻单元格中的至少一个分隔线,其中,分隔线用于分隔多个相邻单元格;分割模块,用于根据至少一个分隔线的位置,对任一文本片段进行分割,以得到多个文本子片段;处理模块,用于根据多个文本子片段的位置与所述多个相邻单元格的位置,对多个文本子片段与多个相邻单元格进行合并。
作为本公开实施例的一种可能的实现方式,第二确定模块,还用于基于自然语言处理技术NLP,对候选BOM进行BOM表头识别,以确定至少一个目标子BOM的表头所处的位置;根据设定内容方向以及至少一个目标子BOM的表头中各目标子BOM的表头所处的位置,以确定各目标子BOM;对各目标子BOM进行合并,以确定目标BOM。
本公开实施例的基于RPA和AI实现IA的物料清单BOM识别装置,通过获取目标图像;从目标图像中,确定至少一个目标BOM区域;针对至少一个目标BOM区域中任一目标BOM区域,对任一目标BOM区域进行表格识别,以得到至少一个候选BOM;从候选BOM中确定目标BOM。由此,通过自动对目标图像中的目标BOM区域中进行表格识别,并从识别得到的候选BOM中确定目标BOM,可实现智能自动化地从目标图像中定位并识别出BOM,代替了人工操作,提升了BOM识别效率和准确率。
为了实现上述实施例,本公开实施例还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如前述任一方法实施例所述的基于RPA和AI实现IA的BOM识别方法。
为了实现上述实施例,本公开实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述任一方法实施例所述的基于RPA和AI实现IA的BOM识别方法。
为了实现上述实施例,本公开实施例还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如前述任一方法实施例所述的基于RPA和AI实现IA的BOM识别。
为了实现上述实施例,本申请还提出一种电子设备,如图15所示,图15是根据一示例性实施例示出的一种用于基于RPA和AI实现IA的BOM识别方法的电子设备的框图。
如图15所示,上述电子设备1500包括:
存储器1510及处理器1520,连接不同组件(包括存储器1510和处理器1520)的总线1530,存储器1510存储有计算机程序,当处理器1520执行所述程序时实现本公开实施例所述的基于RPA和AI实现IA的BOM识别方法。
总线1530表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
电子设备1500典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备1500访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器1510还可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)1540和/或高速缓存存储器1550。电子设备1500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***1560可以用于读写不可移动的、非易失性磁介质(图15未显示,通常称为“硬盘驱动器”)。尽管图15中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线1530相连。存储器1510可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块1570的程序/实用工具1580,可以存储在例如存储器1510中,这样的程序模块1570包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块1570通常执行本公开所描述的实施例中的功能和/或方法。
电子设备1500也可以与一个或多个外部设备1590(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备1500交互的设备通信,和/或与使得该电子设备1500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1592进行。并且,电子设备1500还可以通过网络适配器1593与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图15所示,网络适配器1593通过总线1530与电子设备1500的其它模块通信。应当明白,尽管图15中未示出,可以结合电子设备1500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器1520通过运行存储在存储器1510中的程序,从而执行各种功能应用以及数据处理。
需要说明的是,本实施例的电子设备的实施过程和技术原理参见图2至图13对本公开实施例的基于RPA和AI实现IA的BOM识别方法的解释说明,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种基于机器人流程自动化RPA和人工智能AI实现智能自动化IA的物料清单BOM识别方法,其特征在于,包括:
获取目标图像;
从所述目标图像中,确定至少一个目标BOM区域;
针对所述至少一个目标BOM区域中任一目标BOM区域,对所述任一目标BOM区域进行表格识别,以得到至少一个候选BOM;
从所述至少一个候选BOM中确定目标BOM。
2.根据权利要求1所述的方法,其特征在于,所述方法由RPA机器人执行。
3.根据权利要求1所述的方法,其特征在于,所述从所述目标图像中,确定至少一个目标BOM区域,包括:
从所述目标图像中,识别出所述目标图像对应的候选横线段集合与候选竖线段集合;
从所述候选横线段集合与所述候选竖线段集合中,按照设定方向,依次确定各候选横线段子集合和各候选竖线段子集合,其中,所述候选横线段子集合中包括位于同一区域的多个横线段,目标竖线段集合中包括位于同一区域的多个竖线段;
将各所述候选横线段子集合与各所述候选横线段子集合位于同一区域的各所述候选竖线段子集合进行合并,以得至少一个参考表格;
对所述至少一个参考表格中的各参考表格,根据各所述参考表格中的面积最大的连通区域对应的外接矩形,确定各参考表格对应的候选BOM区域;
根据各所述候选BOM区域对应的横线段数量以及竖线段数量,确定至少一个目标BOM区域。
4.根据权利要求3所述的方法,其特征在于,所述从所述目标图像中,识别出所述目标图像对应的候选横线段集合与候选竖线段集合,包括:
以设定水平矩形窗口作为第一元素窗口,对所述目标图像进行第一滤波处理,以得到第一图像,其中,第一图像包括所述目标图像中的各个候选横线段的像素点;
以设定垂直矩形窗口作为第二元素窗口,对所述目标图像进行第二滤波处理,以得到第二图像,其中,第二图像包括所述目标图像中的各个候选竖线段的像素点;
根据所述第一图像中各像素点的坐标,确定各候选横线段的第一外接矩形坐标,其中,所述第一外接矩形坐标用于指示各所述候选横线段的端点坐标;
根据所述第二图像中各像素的坐标,确定各候选竖线段的第二外接矩形坐标,其中,所述第二外接矩形坐标用于指示各所述候选竖线段的端点坐标;
根据各所述候选横线段的第一外接矩形坐标,确定候选横线段集合,并根据各所述候选竖线段的第二外接矩形坐标,确定候选竖线段集合。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述候选横线段的第一外接矩形坐标,确定候选横线段集合,并根据各所述候选竖线段的第二外接矩形坐标,确定候选竖线段集合,包括:
根据各所述候选横线段的第一外接矩形坐标,从各所述候选横线段中删除与所述目标图像的边界横框线段匹配的最长候选横线段,并根据各所述候选竖线段的第二外接矩形坐标,从各所述候选竖线段中删除与所述目标图像的边界竖框线段匹配的最长候选竖线段;
根据删除所述最长候选横线段后的各所述候选横线段,确定候选横线段集合,并根据删除所述最长候选竖线段后的各所述候选竖线段,确定候选竖线段集合。
6.根据权利要求3所述的方法,其特征在于,所述根据各所述候选BOM区域对应的横线段数量以及竖线段数量,确定至少一个目标BOM区域,包括:
获取各所述候选BOM区域中的任一候选BOM区域中的横线段数量以及竖线段数量;
在所述任一候选BOM区域中的横线段的数量大于或等于第一设定数量阈值,并且所述任一候选BOM区域中的竖线段的数量大于或等于第二设定数量阈值时,将所述任一候选BOM区域,作为目标BOM区域。
7.根据权利要求3所述的方法,其特征在于,所述从所述候选横线段集合与所述候选竖线段集合中,按照设定方向,依次确定各目标横线段集合和各目标竖线段集合,包括:
根据所述设定方向,依次确定各横坐标起始点以及与各所述横坐标起始点对应的各纵坐标结束点;
从所述候选横线段集合中,根据各横坐标起始点,确定各候选横线段子集合;
从所述候选竖线段集合中,根据各纵坐标结束点,确定各候选竖线段子集合。
8.根据权利要求1-7中的任一项所述的方法,其特征在于,所述针对所述至少一个目标BOM区域中任一目标BOM区域,对所述任一目标BOM区域进行表格识别,以得到至少一个候选BOM,包括:
将所述任一目标BOM区域分别输入至图像分割网络和文本检测网络,以得到所述图像分割网络输出的所述任一目标BOM区域中的多个单元格,以及所述文本检测网络输出的所述任一目标BOM区域中的多个文本片段;
对各所述目标BOM区域中的多个单元格中的各单元格以及与各单元格位置对应的文本片段进行合并,以得到各所述单元格对应的文本片段;
采用文本识别网络对各所述目标BOM区域中的各所述单元格对应的文本片段进行内容识别,以得到各所述单元格对应的文本内容;
根据各所述目标BOM区域中的各所述单元格以及各所述单元格对应的文本内容,确定各所述目标BOM区域对应的候选BOM。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在多个文本片段中的任一文本片段的位置与多个相邻单元格的位置重合时,确定所述多个相邻单元格中的至少一个分隔线,其中,所述分隔线用于分隔多个相邻单元格;
根据所述至少一个分隔线的位置,对所述任一文本片段进行分割,以得到多个文本子片段;
根据多个文本子片段的位置与所述多个相邻单元格的位置,对所述多个文本子片段与所述多个相邻单元格进行合并。
10.根据权利要求1-7中任一项所述的方法,其特征在于,所述从所述至少一个候选BOM的中确定目标BOM,包括:
基于自然语言处理技术NLP,对所述至少一个候选BOM进行BOM表头识别,以确定至少一个目标子BOM的表头所处的位置;
根据设定内容方向以及所述至少一个目标子BOM的表头中各所述目标子BOM的表头所处的位置,以确定各目标子BOM;
对各所述目标子BOM进行合并,以确定目标BOM。
11.一种基于机器人流程自动化RPA和人工智能AI的实现智能自动化IA物料清单BOM识别装置,其特征在于,包括:
获取模块,用于获取目标图像;
第一确定模块,用于从所述目标图像中,确定至少一个目标BOM区域;
识别模块,用于针对所述至少一个目标BOM区域中任一目标BOM区域,对所述任一目标BOM区域进行表格识别,以得到至少一个候选BOM;
第二确定模块,用于从所述至少一个候选BOM中确定目标BOM。
12.根据权利要求11所述的装置,其中,所述第一确定模块,还用于:
从所述目标图像中,识别出所述目标图像对应的候选横线段集合与候选竖线段集合;
从所述候选横线段集合与所述候选竖线段集合中,按照设定方向,依次确定各候选横线段子集合和各候选竖线段子集合,其中,所述候选横线段子集合中包括位于同一区域的多个横线段,目标竖线段集合中包括位于同一区域的多个竖线段;
将各所述候选横线段子集合与各所述候选横线段子集合位于同一区域的各所述候选竖线段子集合进行合并,以得至少一个参考表格;
对所述至少一个参考表格中的各参考表格,根据各所述参考表格中的面积最大的连通区域对应的外接矩形,确定各参考表格对应的候选BOM区域;
根据各所述候选BOM区域对应的横线段数量以及竖线段数量,确定至少一个目标BOM区域。
13.根据权利要求12所述的装置,其特征在于,所述第一确定模块,还用于:
以设定水平矩形窗口作为第一元素窗口,对所述目标图像进行第一滤波处理,以得到第一图像,其中,第一图像包括所述目标图像中的各个候选横线段的像素点;
以设定垂直矩形窗口作为第二元素窗口,对所述目标图像进行第二滤波处理,以得到第二图像,其中,第二图像包括所述目标图像中的各个候选竖线段的像素点;
根据所述第一图像中各像素点的坐标,确定各候选横线段的第一外接矩形坐标,其中,所述第一外接矩形坐标用于指示各所述候选横线段的端点坐标;
根据所述第二图像中各像素的坐标,确定各候选竖线段的第二外接矩形坐标,其中,所述第二外接矩形坐标用于指示各所述候选竖线段的端点坐标;
根据各所述候选横线段的第一外接矩形坐标,确定候选横线段集合,并根据各所述候选竖线段的第二外接矩形坐标,确定候选竖线段集合。
14.根据权利要求13所述的装置,其特征在于,所述第一确定模块,还用于:
根据各所述候选横线段的第一外接矩形坐标,从各所述候选横线段中删除与所述目标图像的边界横框线段匹配的最长候选横线段,并根据各所述候选竖线段的第二外接矩形坐标,从各所述候选竖线段中删除与所述目标图像的边界竖框线段匹配的最长候选竖线段;
根据删除所述最长候选横线段后的各所述候选横线段,确定候选横线段集合,并根据删除所述最长候选竖线段后的各所述候选竖线段,确定候选竖线段集合。
15.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-10中任一所述的方法。
16.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-10中任一所述的方法。
CN202210636992.1A 2022-06-07 2022-06-07 基于rpa和ai实现ia的bom识别方法及装置 Pending CN114937279A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210636992.1A CN114937279A (zh) 2022-06-07 2022-06-07 基于rpa和ai实现ia的bom识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210636992.1A CN114937279A (zh) 2022-06-07 2022-06-07 基于rpa和ai实现ia的bom识别方法及装置

Publications (1)

Publication Number Publication Date
CN114937279A true CN114937279A (zh) 2022-08-23

Family

ID=82867272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210636992.1A Pending CN114937279A (zh) 2022-06-07 2022-06-07 基于rpa和ai实现ia的bom识别方法及装置

Country Status (1)

Country Link
CN (1) CN114937279A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110037A (zh) * 2023-04-11 2023-05-12 深圳市华图测控***有限公司 一种基于视觉识别的图书盘点方法、装置和终端设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110037A (zh) * 2023-04-11 2023-05-12 深圳市华图测控***有限公司 一种基于视觉识别的图书盘点方法、装置和终端设备
CN116110037B (zh) * 2023-04-11 2023-06-23 深圳市华图测控***有限公司 一种基于视觉识别的图书盘点方法、装置和终端设备

Similar Documents

Publication Publication Date Title
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
CN105184292B (zh) 自然场景图像中手写体数学公式结构分析与识别方法
US6600834B1 (en) Handwriting information processing system with character segmentation user interface
CN101453575B (zh) 一种视频字幕信息提取方法
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
JPH0750483B2 (ja) 文書画像追加情報の蓄積方法
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN103927535A (zh) 一种汉字书写识别方法及装置
CN114937279A (zh) 基于rpa和ai实现ia的bom识别方法及装置
CN116245882A (zh) 电路板电子元件检测方法、装置及计算机设备
Yang et al. Semi-automatic ground truth generation for chart image recognition
JP2005216203A (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置
WO2024055864A1 (zh) 结合rpa和ai实现ia的分类模型的训练方法及装置
JPH10171922A (ja) 罫線消去装置及び記録媒体
CN109145916B (zh) 一种图像文字识别切割方法及一种存储设备
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
CN114445840A (zh) 表格文本的处理方法、装置、电子设备和可读介质
JP3435374B2 (ja) 文字読取装置および文字認識方法
Peng et al. Document image matching based on component blocks
JP2007213255A (ja) 表認識装置、及びコンピュータプログラム
JP7317886B2 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination