CN113705560A - 基于图像识别的数据提取方法、装置、设备及存储介质 - Google Patents

基于图像识别的数据提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113705560A
CN113705560A CN202111020530.9A CN202111020530A CN113705560A CN 113705560 A CN113705560 A CN 113705560A CN 202111020530 A CN202111020530 A CN 202111020530A CN 113705560 A CN113705560 A CN 113705560A
Authority
CN
China
Prior art keywords
target
picture
recognition
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111020530.9A
Other languages
English (en)
Inventor
彭采薇
杨栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN202111020530.9A priority Critical patent/CN113705560A/zh
Publication of CN113705560A publication Critical patent/CN113705560A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)

Abstract

本申请涉及人工智能及数字医疗技术领域,揭示了一种基于图像识别的数据提取方法、装置、介质及设备,其中方法包括:获取目标图片,对所述目标图片进行图像识别,并根据段落格式提取所述目标图片中的若干个目标文本段;通过ALBERT识别模型对所述目标文本段进行语义识别,得到语义识别结果;根据所述语义识别结果对所述目标文本段进行标注,得到所述目标文本段对应的第一标注信息;获取第一标准模板,根据预设的规则建立所述第一标准模板与所述第一标注信息之间的对应关系,并根据所述对应关系将所述目标文本段填入所述第一标准模板的文本填充位中;实现了数据的结构化排列,从而提高医疗合同的核对效率并降低核对过程的错误率。

Description

基于图像识别的数据提取方法、装置、设备及存储介质
技术领域
本申请涉及到人工智能及数字医疗技术领域,特别是涉及到一种基于图像识别的数据提取方法、装置、介质及设备。
背景技术
医疗项目的开启通常是基于医院、制药公司双方或多方共同的目标为前提实现的,因此在医疗项目之初就需要约定关于医疗数据授权的主体、使用的时间、方式、范围和应用场景。由于医疗项目场景种类繁多,且市面上缺乏标准化规范,通常是由参与方通过协议或合同等方式对这些内容进行约定。
然而自行约定的合同通常格式不一,医疗数据管理人员需要通过人工校对的方式对这些冗长且繁杂的合同内容进行核对、分解,在维护组织的数据资产管理中对其进行维护,并花费巨大的时间成本对其进行核对才能保证医疗数据资产的合规和安全,导致核对效率低,且错误率较高。
发明内容
本申请的主要目的为提供一种基于图像识别的数据提取方法、装置、介质及设备,旨在解决现有技术中医疗合同的核对效率低且错误率较高的技术问题。
为了实现上述发明目的,本申请提出一种基于图像识别的数据提取方法,所述方法包括:
获取目标图片,对所述目标图片进行图像识别,并根据段落格式提取所述目标图片中的若干个目标文本段;
通过ALBERT识别模型对所述目标文本段进行语义识别,得到语义识别结果;
根据所述语义识别结果对所述目标文本段进行标注,得到所述目标文本段对应的第一标注信息;
获取第一标准模板,根据预设的规则建立所述第一标准模板与所述第一标注信息之间的对应关系,并根据所述对应关系将所述目标文本段填入所述第一标准模板的文本填充位中。
进一步的,所述通过ALBERT识别模型对所述目标文本段进行语义识别之前,还包括:
在数据库中选取若干个训练关键词,其中,所述训练关键词为指定应用领域的常用词;
建立ALBERT初始模型,其中,所述ALBERT初始模型内置有命名实体识别算法;
采用所述训练关键词对所述ALBERT初始模型进行训练,得到所述ALBERT识别模型。
进一步的,所述对所述目标图片进行图像识别,包括:
对所述目标图片进行版面分析,识别所述目标图片中的正文信息和非正文信息;
对所述目标图片中包含的所述非正文信息进行轮廓描绘,得到非正文区域;
对所述非正文区域进行裁剪后,得到包含所述正文信息的裁剪图片,对所述裁剪图片进行图像识别。
进一步的,所述对所述目标图片进行图像识别,还包括:
对所述目标图片进行二值化处理,得到二值化图片;
识别所述二值化图片中的段落轮廓,若所述段落轮廓中存在相邻两条边的夹角度数超过预设的夹角阈值范围,对所述段落轮廓在所述目标图片中对应的部分进行角度校正处理,直至所述段落轮廓中相邻两条边的夹角均满足所述夹角阈值范围,得到角度校正图片;
对所述角度校正图片进行图像识别。
进一步的,所述对所述目标图片进行图像识别,还包括:
对每一个所述图片碎片进行编号,并记录所述编号的排列位置;
识别并删除所述图片碎片中的空白碎片,根据所述编号对除所述空白碎片外的所述图片碎片进行位置还原,并对位置还原后的所述图片碎片进行图像识别。
进一步的,所述对所述目标文本段进行语义识别,得到语义识别结果,包括:
获取书面时间特征格式集,其中,所述书面时间特征格式集中包括若干个用于书面表达的时间格式;
在所述目标文本段中识别与所述时间格式相符的特征信息,并将所述特征信息作为时间信息。
进一步的,所述对所述目标图片进行图像识别之后,还包括:
获取所述目标图片中的签名图像;
通过神经网络模型提取所述签名图像中的签名图像特征;
将所述签名图像特征与预设的标准签名的标准图像特征进行特征比对,若所述签名图像特征与所述标准图像特征的特征相似度大于预设的特征阈值,判定所述目标图片中的内容有效,若所述签名图像特征与所述标准图像特征的特征相似度不大于预设的特征阈值,判定所述目标图片中的内容无效。
本申请还提出了一种基于图像识别的数据提取装置,包括:
文本段提取模块,用于获取目标图片,对所述目标图片进行图像识别,并根据段落格式提取所述目标图片中的若干个目标文本段;
语义识别模块,语义通过ALBERT识别模型对所述目标文本段进行语义识别,得到语义识别结果;
第一标注模块,语义根据所述语义识别结果对所述目标文本段进行标注,得到所述目标文本段对应的第一标注信息;
文本重构模块,用于获取第一标准模板,根据预设的规则建立所述第一标准模板与所述第一标注信息之间的对应关系,并根据所述对应关系将所述目标文本段填入所述第一标准模板的文本填充位中。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于图像识别的数据提取方法、装置、介质及设备,通过获取目标图片来获得需要识别的数据,以便于对纸质文档或没有word格式的电子文档进行数据提取,提高了泛用性,并扩大了适用范围;通过对目标图片进行图像识别,并根据目标图片中的段落格式对文本内容进行分段提取,以便于区分不同目标文本段的独立含义,避免无法文本分段导致不同含义的文本信息混合在一起导致语义识别错误的问题;通过对各个目标文本段进行语义识别,从而得到较为准确的语义识别结果,以便于区分各个目标文本段的功能语义,并且ALBERT模型识别还能够通过贡献所有层的所有参数,实现跨层参数共享,减小了Embedding的计算量,从而进一步提升了参数计算效率;通过语义识别结果对目标文本段进行标注,从而实现对各个目标文本段属性的准确区分;根据第一标准模板将各个目标文本段由非结构化数据转换为第一标准模板对应的结构化排列,以便于对各个目标文本段进行核验,提高了核验效率和准确性。
附图说明
图1为本申请一实施例的基于图像识别的数据提取方法的流程示意图;
图2为本申请一具体实施方式的基于图像识别的数据提取方法的流程示意图;
图3为本申请一实施例的基于图像识别的数据提取装置的结构示意框图;
图4为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,为了实现上述发明目的,本申请提出一种基于图像识别的数据提取方法,所述方法包括:
S1:获取目标图片,对所述目标图片进行图像识别,并根据段落格式提取所述目标图片中的若干个目标文本段;
S2:通过ALBERT识别模型对所述目标文本段进行语义识别,得到语义识别结果;
S3:根据所述语义识别结果对所述目标文本段进行标注,得到所述目标文本段对应的第一标注信息;
S4:获取第一标准模板,根据预设的规则建立所述第一标准模板与所述第一标注信息之间的对应关系,并根据所述对应关系将所述目标文本段填入所述第一标准模板的文本填充位中。
本实施例通过获取目标图片来获得需要识别的数据,以便于对纸质文档或没有word格式的电子文档进行数据提取,提高了泛用性,并扩大了适用范围;通过对目标图片进行图像识别,并根据目标图片中的段落格式对文本内容进行分段提取,以便于区分不同目标文本段的独立含义,避免无法文本分段导致不同含义的文本信息混合在一起导致语义识别错误的问题;通过对各个目标文本段进行语义识别,从而得到较为准确的语义识别结果,以便于区分各个目标文本段的功能语义,并且ALBERT模型识别还能够通过贡献所有层的所有参数,实现跨层参数共享,减小了Embedding的计算量,从而进一步提升了参数计算效率;通过语义识别结果对目标文本段进行标注,从而实现对各个目标文本段属性的准确区分;根据第一标准模板将各个目标文本段由非结构化数据转换为第一标准模板对应的结构化排列,以便于对各个目标文本段进行核验,提高了核验效率和准确性。
对于步骤S1,本实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***;其中,上述相关的数据可以是医疗合同、医疗协议等通常由医院、医药公司、患者等参与各方自行拟定的没有固定模板的数据;当校验人员需要对一个或多个医疗合同或协议进行校验时,若医疗合同为纸质文档,可以将纸质的合同或协议预先扫描至计算机中,或通过相机等设备将纸质的合同或协议采集为图片的形式发送至计算机中,若原合同或协议即为pdf或图片状态,则可以直接发起上传指令,并根据预设的上传窗口将pdf或图片状态的合同或协议进行上传,以便于本发明根据上传指令去获取目标图片,该目标图片即pdf或图片状态的合同或协议。本发明通过根据上传指令获取目标图片,从而获得需要识别的数据,以便于对纸质文档或没有word格式的电子文档进行数据提取,提高了泛用性,并扩大了适用范围。
当获取到目标图片后,通过OCR(光学字符识别,Optical CharacterRecognition)等图像识别的方式对目标图片中的文本进行提取,从而实现了图片到文字的转换。由于在实际的合同或协议中,通常会使用分段、分行、标号等方式罗列不同的条款,因此,本发明采用分段提取的方式,根据目标图片中的段落格式,分别提取若干的目标文本段;具体来说,一个段落的开头通常存在两个字符宽度的空白间距,标号的段落的开头通常是由数字与特定符号的组合,或字母与特定符号的组合,例如“1.”,“1、”,“(1)”,“1)”,“a.”等,即可以通过此类段落格式进行分段提取,从而得到若干个目标文本段;本发明通过对目标图片进行图像识别,并根据目标图片中的段落格式对文本内容进行分段提取,以便于区分不同目标文本段的独立含义,避免无法文本分段导致不同含义的文本信息混合在一起导致语义识别错误的问题。
对于步骤S2,由于原合同或协议的格式往往不完全一致,难以通过目标文本段在原合同或协议中的位置明确每一个目标文本段的含义,因此需要对各个目标文本段进行语义识别;具体来说,可以采用ALBERT(ALiteBidirectional Encoder Representationsfrom Transformers,简化双向编码器)识别模型进行语义识别,由于词嵌入是学习上下文无关的表示,而隐藏层嵌入是学习上下文相关的表示,识别模型的表征能力很大一部分来自于使用上下文为学习过程提供上下文相关的表征信号;因此,将词嵌入大小E从隐藏层大小H分离出来,能够更高效地利用总体的模型参数,通常来说,H要远远大于E;然而对于ALBERT识别模型而言,其对词嵌入参数进行了因式分解,将它们分解为两个小矩阵,不再将one-hot向量直接映射到大小为H的隐藏空间,而是先将它们映射到一个低维词嵌入空间E,然后再映射到隐藏空间;通过上述,ALBERT识别模型可以将词嵌入参数从O(V×H)降低到O(V×E+E×H),示例性地,以ALBert_xxlarge为例,若V=30000,H=4096,E=128,那么原计算方法下的词嵌入参数的总数量为V*H=30000*4096=1.23亿个参数,ALBERT识别模型下的词嵌入参数总数量则为V*E+E*H=30000*128+128*4096=384万+52万=436万,词嵌入相关的参数变化前是变换后的28倍,由此可见,当H远远大于E时,参数量存在明显的减小。此外,ALBERT模型识别模型还能够通过贡献所有层的所有参数,实现跨层参数共享,减小了Embedding的计算量,从而进一步提升了参数计算效率。
对于步骤S3,在医疗合同或协议中,通常存在如下几种需要着重核对的信息:授权主体、授权时间、授权数据、授权使用范围,当识别到各个目标文本段的语义后,即可根据其各自的语义进行标注;示例性地,若识别到一个目标文本段包含“公司”、”有限公司“、”机构“、“医院”、“医疗保障局”等字样或相似字样,则可以判定该目标文本段为授权主体,将该目标文本段的第一标注信息设定为“授权主体”;若识别到“授权区域”、“在...省份内”等字样或相似字样,则可以判定该目标文本字段为授权范围,将该目标文本段的第一标注信息设定为“授权区域”;本实施例通过语义识别结果对目标文本段进行标注,从而实现对各个目标文本段属性的准确区分。
对于步骤S4,上述第一标准模板即便于计算机和校验人员进行信息核对的模板,第一标准模板中通常包括授权主体、授权时间、授权数据和授权使用范围等内容的文本填充位,第一标注信息可以包括授权者、被授权者、授权时间点、授权时间段、授权实验数据、授权医疗数据、授权仪器数据、授权使用地区、授权使用医院等;基于上述第一标准模板和第一标注信息,预设的规则可以为,将授权者、被授权者对应为授权主体,将授权时间点、授权时间段对应为授权时间,将授权实验数据、授权医疗数据、授权仪器数据对应为授权数据,将授权使用地区、授权使用医院对应为授权使用范围,从而得到第一标准模板与第一标注信息之间的对应关系;
因此,在得到上述目标文本段对应的第一标注信息后,可以基于上述预设的规则建立的对应关系,将第一标注信息对应的目标文本段填入上述第一标准模板的文本填充位,以使各个目标文本段由非结构化数据转换为第一标准模板对应的结构化排列。可以理解地,将不同格式的合同或协议统一为上述第一标准模板后,对于计算机而言,能够直接按照第一标准模板中的位置关系逐一进行文本校验,对应校验人员而言,也可以按照第一标准模板中的位置关系直观地进行文本复核;示例性地,若第一标准模板中,各个信息的排布顺序为“1、授权主体:xxx;2、授权时间:xxxx.xx.xx;3、授权数据:xxx;4、授权使用范围:xxx~xxx”;则计算机可以按照“授权主体-授权时间-授权数据-授权使用范围”的顺序进行逐一识别,避免了由于格式不统一导致“将授权使用范围识别为授权数据”等类似错误,而校验人员也能够按照“授权主体-授权时间-授权数据-授权使用范围”的顺序进行逐一复核,由于人在处理大量数据时候容易产生思维惯性,因此按照统一的顺序进行数据结构化,能够利用人的思维惯性,提高了校验人员的复核效率,降低了学习成本;当将所述目标文本段填入所述第一标准模板的文本填充位后,可以将数据存储为JSON格式,以便于校验完成后,响应于***接收到的确认操作,自动获取该批次数据的JSON格式元数据,并通过数据中台资产管理功能,控制数据的使用范围、时间和应用场景。
在一个实施例中,所述通过ALBERT识别模型对所述目标文本段进行语义识别S4之前,还包括:
S401:在数据库中选取若干个训练关键词,其中,所述训练关键词为指定应用领域的常用词;
S402:建立ALBERT初始模型,其中,所述ALBERT初始模型内置有命名实体识别算法;
S403:采用所述训练关键词对所述ALBERT初始模型进行训练,得到所述ALBERT识别模型。
本实施例通过预设医疗领域的关键词对ALBERT初始模型进行训练,得到ALBERT识别模型,使得ALBERT识别模型更加适用于医疗合同或协议的语义识别;通过ALBERT识别模型内置的命名实体识别算法对这些目标文本段进行语义或词组的相似度进行分析,从而得到较为准确的语义识别结果。
对于步骤S401,为了得到更加具有针对性和专业性的ALBERT识别模型,本实施例采用了选取指定应用领域中的常用词作为训练关键词的方法,示例性地,若指定应用领域为车辆领域,则训练的关键词为与车辆相关的常用词;而当指定的应用领域为医疗合同或协议领域时,由于实际的医疗合同或协议撰写用语对数据授权范围的表达方式有很多种,因此可以选取医疗合同或协议领域中常用的“数据授权用途为”,“数据用于xx项目”等词组作为该应用领域的训练关键词,除此之外,授权主体的表达方式通常也有“公司”、”有限公司“、”机构“、“医院”、“医疗保障局”等不同形式的常用词,因此,可以选取“公司”、”有限公司“、”机构“、“医院”、“医疗保障局”等词语作为该应用领域的训练关键词。为了提高对这类专业性较强且出现形式不规则的词语的识别精确度,本实施例采用指定应用领域内的常用词作为训练关键词,并通过训练关键词对模型进行预训练。在具体的实施方式中,上述指定应用领域的常用词可以是人为输入上述数据库的,也可以是云服务器在数据库中存储的的医疗合同或协议的常用词语搭配。
对于步骤S402,通过上述关键词训练得到ALBERT识别后,可根据关键字识别的位置和内容,识别上述目标文本段的属性,通过命名实体识别(Named Entity Recognition,NER)的方法来对这些目标文本段进行语义或词组的相似度进行分析,最终实现文本的结构化。命名实体识别是NLP中一项可以用于信息提取、句法分析基础功能。
在一个实施例中,参照图2,所述对所述目标图片进行图像识别S1,包括:
S11:对所述目标图片进行版面分析,识别所述目标图片中的正文信息和非正文信息;
S12:对所述目标图片中包含的所述非正文信息的进行轮廓描绘,得到非正文区域;
S13:对所述非正文区域进行裁剪后,得到包含所述正文信息的裁剪图片,对所述裁剪图片进行图像识别。
本实施例通过对非正文区域进行裁剪,以使后续识别模型仅识别正文信息,提高了识别效率,摒除了非正文信息的干扰,提高了识别的准确性。
对于步骤S11,在日常的合同或协议中,有时会在封面、页眉、页脚等位置标有公司LOGO、公司名称等与合同或协议的正文内容无关的信息,如果将每一个目标图片中的页眉、页脚等都进行识别,则会导致不必要的文本提取,增加了文本计算量,因此,本实施例在文本提取之前,先根据目标图片的版面分析结果,将封面、页眉、页脚均作为非正文信息,将位于版面中部且与目标图片的四边相距较远的部分作为正文信息。在具体的实施方式中,可以根据图片尺寸预设边框距离,以A4尺寸为例,可以将距离上边框和下边框2cm的位置分别作为页眉和页脚,因此,可以通过版面分析得到目标图片的尺寸,当尺寸为210mm×297mm时,判定该目标图片为A4尺寸,当尺寸为148mm×210mm时,判定该目标图片为A5尺寸,并依次类推,最终根据目标图片的尺寸和边框距离,将靠近上下边框的页眉和页脚识别为非正文信息。
对于步骤S12,对非正文信息所在的部分进行轮廓划分,示例性地,可以通过宽为边框距离,长为目标图片的宽度的矩形选框分别选中包含所有非正文信息的区域,即页眉和页脚部分,并且对划分出来的页眉和页脚的非正文区域进行裁剪,使得剩下的包含有正文信息的裁剪图片具有较高的正文信息量占比,提高了识别的有效性,并且摒除了非正文信息的干扰,提高了识别的准确性。
在一个实施例中,所述对所述目标图片进行图像识别S1,还包括:
S14:对所述目标图片进行二值化处理,得到二值化图片;
S15:识别所述二值化图片中的段落轮廓,若所述段落轮廓中存在相邻两条边的夹角度数超过预设的夹角阈值范围,对所述段落轮廓在所述目标图片中对应的部分进行角度校正处理,直至所述段落轮廓中相邻两条边的夹角均满足所述夹角阈值范围,得到角度校正图片;
S16:对所述角度校正图片进行图像识别。
本实施例在图像识别之前,先对目标图片进行二值化处理,从而使图像变得较为简单,减小数据量,凸显出关注度较高的目标的轮廓,通过角度校正,得到变形程度较小的文字,从而提高后续图像识别的准确性。
对于步骤S14,由于合同或协议通常是打印为纸质版之后由参与方签字或盖章后生效的,当需要对纸质版的合同或协议进行校验时,往往需要将其拍照上传或扫描至计算机中,然而受拍摄环境和扫描机器质量的影响,计算机接收到的图片存在内容不清晰,或者拍摄角度较倾斜,导致难以清楚识别文本的情况;为了解决上述问题,本实施例在图像识别之前,先对目标图片进行预处理;具体来说,先对目标图片进行二值化处理,从而使图像变得较为简单,减小数据量,凸显出关注度较高的目标的轮廓;在二值化处理后,由于存在文本的位置通常为黑色,不存在文本的位置通常为白色,因此可通过颜色的分界来进行段落轮廓识别。
对于步骤S15,当拍摄角度过于倾斜时,拍摄出来的文字部分的段落轮廓有可能呈现梯形、平行四边形或其它不规则的四边形,此时需要对文本进行角度校正,以使识别模型能够识别到角度较正的文字;具体来说,相邻两边的夹角度数越接近90°,识别效果越好,因此,预设的夹角阈值范围可以为85°~95°,当夹角度数小于85°时,可以以该夹角的顶端为中心,将四边形中与该顶端相邻的两个端点向外拉伸,直至该夹角的度数满足不小于85°,当夹角度数大于95°时,可以对四边形中与该夹角的顶端相邻的两个端点进行固定,将该夹角的顶端向内推,将直至该夹角的度数满足不大于95°,从而完成角度校正,得到变形程度较小的文字,从而提高后续图像识别的准确性。
在一个实施例中,所述对所述目标图片进行图像识别S1,还包括:
S17:对所述目标图片进行切割,得到若干个图片碎片;
S18:对每一个所述图片碎片进行编号,并记录所述编号的排列位置;
S19:识别并删除所述图片碎片中的空白碎片,根据所述编号对除所述空白碎片外的所述图片碎片进行位置还原,并对位置还原后的所述图片碎片进行图像识别。
本实施例通过对目标图片进行切割并剔除空白碎片,减小了后续图像识别的计算量。
对于步骤S18,在图像识别之前,先对目标图片进行行列切割,得到若干个图片碎片,为了避免图片碎片的顺序打乱导致识别失败,此时需记录碎片编号以及编号的排列位置,示例性地,若行列切割得到九个图片碎片,可以按照第一行的三列分别为“123”,第二行的三列分别为“456”,第三行的三列分别为“789”的排列位置进行记录。
对于步骤S19,将不存在像素点的图片碎片作为空白碎片,并对空白碎片进行删除,避免图片过大造成识别效率较低的问题,删除空白碎片后,根据上述编号还原剩余的图片碎片的位置,具体来说,若编号为5、6、8和9的图片碎片为空白碎片,则按照第一行的三列分别为“123”,第二行的第一列为“4”,第三行的第一列为“7”的位置对剩余的图片碎片进行还原。
在一个实施例中,所述对所述目标文本段进行语义识别,得到语义识别结果S3,包括:
S31:获取书面时间特征格式集,其中,所述书面时间特征格式集中包括若干个用于书面表达的时间格式;
S32:在所述目标文本段中识别与所述时间格式相符的特征信息,并将所述特征信息作为时间信息。
本实施例通过书面时间特征格式集在目标文本段中识别相符的特征信息,从而实现目标文本段中时间信息的准确提取。
对于步骤S31,对于时间信息,其撰写格式往往与其它包含详细语义的对话不相同,在合同中,有可能存在“2020.07.01”的写法,也有可能存在“2020.7.1”、“2020-07-01”、“8th March,2020”、“du8 March,2020”等等写法,因此,为了避免将时间信息与其它语句的语义混淆,本实施例通过先获取书面时间特征格式集,其中包含上述的各种用于书面表达的时间格式,示例性地,可以为“年份+分隔符+月份+分隔符+日期”、“日期+月份+分隔符+年份”的格式。
对于步骤S32,当识别到目标图片中存在满足上述任意一种格式的文本时,将该文本判定为时间信息。
在一个实施例中,所述对所述目标图片进行图像识别S1之后,还包括:
S121:获取所述目标图片中的签名图像;
S122:通过神经网络模型提取所述签名图像中的签名图像特征;
S123:将所述签名图像特征与预设的标准签名的标准图像特征进行特征比对,若所述签名图像特征与所述标准图像特征的特征相似度大于预设的特征阈值,判定所述目标图片中的内容有效,若所述签名图像特征与所述标准图像特征的特征相似度不大于预设的特征阈值,判定所述目标图片中的内容无效。
本实施例通过对目标图片中的签名图像与标准签名的特征进行比对,从而判定目标图片中的签名是否为本人签名,提高了医疗合同或协议的安全性。
对于步骤S121,通过OCR(光学字符识别,Optical Character Recognition)等图像识别,获取目标图片中的签名图像。
对于步骤S122,通过卷积神经网络模型对签名图像中的签名图像特征进行特征提取,生成特征向量序列。
对于步骤S123,当需要进行签名核对时,可以先获取该目标图片对应的医疗合同或协议各方的真实签名作为标准签名,并预先通过卷积神经网络模型对标准签名进行特征提取,得到标准图像特征,以便于将标准图像特征与签名图像特征进行比对,当上述两个特征的相似度小于预设的阈值时,则判定该签名非本人签名,即该医疗合同或协议存在伪造风险,因此判定目标图片中的内容无效,并发出告警。
参照图3,本申请还提出了一种基于图像识别的数据提取装置,包括:
文本段提取模块100,用于获取目标图片,对所述目标图片进行图像识别,并根据段落格式提取所述目标图片中的若干个目标文本段;
语义识别模块200,语义通过ALBERT识别模型对所述目标文本段进行语义识别,得到语义识别结果;
第一标注模块300,语义根据所述语义识别结果对所述目标文本段进行标注,得到所述目标文本段对应的第一标注信息;
文本重构模块400,用于获取第一标准模板,根据预设的规则建立所述第一标准模板与所述第一标注信息之间的对应关系,并根据所述对应关系将所述目标文本段填入所述第一标准模板的文本填充位中。
本实施例通过获取目标图片来获得需要识别的数据,以便于对纸质文档或没有word格式的电子文档进行数据提取,提高了泛用性,并扩大了适用范围;通过对目标图片进行图像识别,并根据目标图片中的段落格式对文本内容进行分段提取,以便于区分不同目标文本段的独立含义,避免无法文本分段导致不同含义的文本信息混合在一起导致语义识别错误的问题;通过对各个目标文本段进行语义识别,从而得到较为准确的语义识别结果,以便于区分各个目标文本段的功能语义,并且ALBERT模型识别还能够通过贡献所有层的所有参数,实现跨层参数共享,减小了Embedding的计算量,从而进一步提升了参数计算效率;通过语义识别结果对目标文本段进行标注,从而实现对各个目标文本段属性的准确区分;根据第一标准模板将各个目标文本段由非结构化数据转换为第一标准模板对应的结构化排列,以便于对各个目标文本段进行核验,提高了核验效率和准确性。
在一个实施例中,还包括模型训练模块500,用于:
在数据库中选取若干个训练关键词,其中,所述训练关键词为指定应用领域的常用词;
建立ALBERT初始模型,其中,所述ALBERT初始模型内置有命名实体识别算法;
采用所述训练关键词对所述ALBERT初始模型进行训练,得到所述ALBERT识别模型。
在一个实施例中,所述文本段提取模块100,还用于:
对所述目标图片进行版面分析,识别所述目标图片中的正文信息和非正文信息;
对所述目标图片中包含的所述非正文信息进行轮廓描绘,得到非正文区域;
对所述非正文区域进行裁剪后,得到包含所述正文信息的裁剪图片,对所述裁剪图片进行图像识别。
在一个实施例中,所述文本段提取模块100,还用于:
对所述目标图片进行二值化处理,得到二值化图片;
识别所述二值化图片中的段落轮廓,若所述段落轮廓中存在相邻两条边的夹角度数超过预设的夹角阈值范围,对所述段落轮廓在所述目标图片中对应的部分进行角度校正处理,直至所述段落轮廓中相邻两条边的夹角均满足所述夹角阈值范围,得到角度校正图片;
对所述角度校正图片进行图像识别。
在一个实施例中,所述文本段提取模块100,还用于:
对所述目标图片进行切割,得到若干个图片碎片;
对每一个所述图片碎片进行编号,并记录所述编号的排列位置;
识别并删除所述图片碎片中的空白碎片,根据所述编号对除所述空白碎片外的所述图片碎片进行位置还原,并对位置还原后的所述图片碎片进行图像识别。
在一个实施例中,所述文本段提取模块100,还用于:
获取书面时间特征格式集,其中,所述书面时间特征格式集中包括若干个用于书面表达的时间格式;
在所述目标文本段中识别与所述时间格式相符的特征信息;
将所述特征信息识别为时间信息。
在一个实施例中,还包括签名校对模块600,用于:
获取所述目标图片中的签名图像;
通过神经网络模型提取所述签名图像中的签名图像特征;
将所述签名图像特征与预设的标准签名的标准图像特征进行特征比对,若所述签名图像特征与所述标准图像特征的特征相似度大于预设的特征阈值,判定所述目标图片中的内容有效,若所述签名图像特征与所述标准图像特征的特征相似度不大于预设的特征阈值,判定所述目标图片中的内容无效。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于图像识别的数据提取方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于图像识别的数据提取方法。所述基于图像识别的数据提取方法,包括:获取目标图片,对所述目标图片进行图像识别,并根据段落格式提取所述目标图片中的若干个目标文本段;通过ALBERT识别模型对所述目标文本段进行语义识别,得到语义识别结果;根据所述语义识别结果对所述目标文本段进行标注,得到所述目标文本段对应的第一标注信息;获取第一标准模板,根据预设的规则建立所述第一标准模板与所述第一标注信息之间的对应关系,并根据所述对应关系将所述目标文本段填入所述第一标准模板的文本填充位中。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于图像识别的数据提取方法,包括步骤:获取目标图片,对所述目标图片进行图像识别,并根据段落格式提取所述目标图片中的若干个目标文本段;通过ALBERT识别模型对所述目标文本段进行语义识别,得到语义识别结果;根据所述语义识别结果对所述目标文本段进行标注,得到所述目标文本段对应的第一标注信息;获取第一标准模板,根据预设的规则建立所述第一标准模板与所述第一标注信息之间的对应关系,并根据所述对应关系将所述目标文本段填入所述第一标准模板的文本填充位中。
上述执行的基于图像识别的数据提取方法,本实施例通过获取目标图片来获得需要识别的数据,以便于对纸质文档或没有word格式的电子文档进行数据提取,提高了泛用性,并扩大了适用范围;通过对目标图片进行图像识别,并根据目标图片中的段落格式对文本内容进行分段提取,以便于区分不同目标文本段的独立含义,避免无法文本分段导致不同含义的文本信息混合在一起导致语义识别错误的问题;通过对各个目标文本段进行语义识别,从而得到较为准确的语义识别结果,以便于区分各个目标文本段的功能语义,并且ALBERT模型识别还能够通过贡献所有层的所有参数,实现跨层参数共享,减小了Embedding的计算量,从而进一步提升了参数计算效率;通过语义识别结果对目标文本段进行标注,从而实现对各个目标文本段属性的准确区分;根据第一标准模板将各个目标文本段由非结构化数据转换为第一标准模板对应的结构化排列,以便于对各个目标文本段进行核验,提高了核验效率和准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于图像识别的数据提取方法,其特征在于,所述方法包括:
获取目标图片,对所述目标图片进行图像识别,并根据段落格式提取所述目标图片中的若干个目标文本段;
通过ALBERT识别模型对所述目标文本段进行语义识别,得到语义识别结果;
根据所述语义识别结果对所述目标文本段进行标注,得到所述目标文本段对应的第一标注信息;
获取第一标准模板,根据预设的规则建立所述第一标准模板与所述第一标注信息之间的对应关系,并根据所述对应关系将所述目标文本段填入所述第一标准模板的文本填充位中。
2.根据权利要求1所述的基于图像识别的数据提取方法,其特征在于,所述通过ALBERT识别模型对所述目标文本段进行语义识别之前,还包括:
在数据库中选取若干个训练关键词,其中,所述训练关键词为指定应用领域的常用词;
建立ALBERT初始模型,其中,所述ALBERT初始模型内置有命名实体识别算法;
采用所述训练关键词对所述ALBERT初始模型进行训练,得到所述ALBERT识别模型。
3.根据权利要求1所述的基于图像识别的数据提取方法,其特征在于,所述对所述目标图片进行图像识别,包括:
对所述目标图片进行版面分析,识别所述目标图片中的正文信息和非正文信息;
对所述目标图片中包含的所述非正文信息进行轮廓描绘,得到非正文区域;
对所述非正文区域进行裁剪后,得到包含所述正文信息的裁剪图片,对所述裁剪图片进行图像识别。
4.根据权利要求1所述的基于图像识别的数据提取方法,其特征在于,所述对所述目标图片进行图像识别,还包括:
对所述目标图片进行二值化处理,得到二值化图片;
识别所述二值化图片中的段落轮廓,若所述段落轮廓中存在相邻两条边的夹角度数超过预设的夹角阈值范围,对所述段落轮廓在所述目标图片中对应的部分进行角度校正处理,直至所述段落轮廓中相邻两条边的夹角均满足所述夹角阈值范围,得到角度校正图片;
对所述角度校正图片进行图像识别。
5.根据权利要求1所述的基于图像识别的数据提取方法,其特征在于,所述对所述目标图片进行图像识别,还包括:
对所述目标图片进行切割,得到若干个图片碎片;
对每一个所述图片碎片进行编号,并记录所述编号的排列位置;
识别并删除所述图片碎片中的空白碎片,根据所述编号对除所述空白碎片外的所述图片碎片进行位置还原,并对位置还原后的所述图片碎片进行图像识别。
6.根据权利要求1所述的基于图像识别的数据提取方法,其特征在于,所述对所述目标文本段进行语义识别,得到语义识别结果,包括:
获取书面时间特征格式集,其中,所述书面时间特征格式集中包括若干个用于书面表达的时间格式;
在所述目标文本段中识别与所述时间格式相符的特征信息,并将所述特征信息作为时间信息。
7.根据权利要求1所述的基于图像识别的数据提取方法,其特征在于,所述对所述目标图片进行图像识别之后,还包括:
获取所述目标图片中的签名图像;
通过神经网络模型提取所述签名图像中的签名图像特征;
将所述签名图像特征与预设的标准签名的标准图像特征进行特征比对,若所述签名图像特征与所述标准图像特征的特征相似度大于预设的特征阈值,判定所述目标图片中的内容有效,若所述签名图像特征与所述标准图像特征的特征相似度不大于预设的特征阈值,判定所述目标图片中的内容无效。
8.一种基于图像识别的数据提取装置,其特征在于,包括:
文本段提取模块,用于获取目标图片,对所述目标图片进行图像识别,并根据段落格式提取所述目标图片中的若干个目标文本段;
语义识别模块,语义通过ALBERT识别模型对所述目标文本段进行语义识别,得到语义识别结果;
第一标注模块,语义根据所述语义识别结果对所述目标文本段进行标注,得到所述目标文本段对应的第一标注信息;
文本重构模块,用于获取第一标准模板,根据预设的规则建立所述第一标准模板与所述第一标注信息之间的对应关系,并根据所述对应关系将所述目标文本段填入所述第一标准模板的文本填充位中。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111020530.9A 2021-09-01 2021-09-01 基于图像识别的数据提取方法、装置、设备及存储介质 Pending CN113705560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111020530.9A CN113705560A (zh) 2021-09-01 2021-09-01 基于图像识别的数据提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111020530.9A CN113705560A (zh) 2021-09-01 2021-09-01 基于图像识别的数据提取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113705560A true CN113705560A (zh) 2021-11-26

Family

ID=78658731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111020530.9A Pending CN113705560A (zh) 2021-09-01 2021-09-01 基于图像识别的数据提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113705560A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189193A (zh) * 2023-04-25 2023-05-30 杭州镭湖科技有限公司 一种基于样本信息的数据存储可视化方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189193A (zh) * 2023-04-25 2023-05-30 杭州镭湖科技有限公司 一种基于样本信息的数据存储可视化方法和装置
CN116189193B (zh) * 2023-04-25 2023-11-10 杭州镭湖科技有限公司 一种基于样本信息的数据存储可视化方法和装置

Similar Documents

Publication Publication Date Title
CN107239666B (zh) 一种对医疗影像数据进行脱敏处理的方法及***
CN109543690B (zh) 用于提取信息的方法和装置
US11195006B2 (en) Multi-modal document feature extraction
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN111651992A (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN112862024B (zh) 一种文本识别方法及***
CN111914597B (zh) 一种文档对照识别方法、装置、电子设备和可读存储介质
CN109446345A (zh) 核电文件校验处理方法以及***
CN112883980B (zh) 一种数据处理方法及***
CN110866457A (zh) 一种电子保单的获得方法、装置、计算机设备和存储介质
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
US20210149931A1 (en) Scalable form matching
CN112396055A (zh) 文本提取方法、装置、电子设备及存储介质
CN114821612B (zh) 一种证券期货场景下pdf文档的信息抽取方法和***
CN112699646A (zh) 数据处理方法、装置、设备及介质
CN113705560A (zh) 基于图像识别的数据提取方法、装置、设备及存储介质
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
CN117454426A (zh) 一种理赔资料信息脱敏采集方法、装置及***
CN113837169B (zh) 文本数据处理方法、装置、计算机设备及存储介质
CN116343210A (zh) 档案数字化的管理方法及装置
US11335108B2 (en) System and method to recognise characters from an image
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
US11715310B1 (en) Using neural network models to classify image objects
CN114170029A (zh) 一种数据处理方法、装置、计算机设备及存储介质
US20220067107A1 (en) Multi-section sequential document modeling for multi-page document processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220524

Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Block H, 666 Beijing East Road, Huangpu District, Shanghai 200000

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right