CN113822280B - 文本识别方法、装置、***和非易失性存储介质 - Google Patents

文本识别方法、装置、***和非易失性存储介质 Download PDF

Info

Publication number
CN113822280B
CN113822280B CN202010561370.8A CN202010561370A CN113822280B CN 113822280 B CN113822280 B CN 113822280B CN 202010561370 A CN202010561370 A CN 202010561370A CN 113822280 B CN113822280 B CN 113822280B
Authority
CN
China
Prior art keywords
text
text blocks
determining
word
paths
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010561370.8A
Other languages
English (en)
Other versions
CN113822280A (zh
Inventor
罗楚威
高飞宇
张诗禹
郑琪
王永攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010561370.8A priority Critical patent/CN113822280B/zh
Publication of CN113822280A publication Critical patent/CN113822280A/zh
Application granted granted Critical
Publication of CN113822280B publication Critical patent/CN113822280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种文本识别方法、装置、***和非易失性存储介质。其中,该方法包括:获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系;确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词;输出分词。本发明解决了由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题。

Description

文本识别方法、装置、***和非易失性存储介质
技术领域
本发明涉及文本识别领域,具体而言,涉及一种文本识别方法、装置、***和非易失性存储介质。
背景技术
目前,在进行文本识别时,可以采用光学字符识别(Optical CharacterRecognition,简称为OCR)定位模型实现文字定位算法。
但是,由于上述模型不稳定、图像质量较低、处理对象随机等,会导致模型给出的语义单元非常不固定,比如,同样的字符,有的时候会在一个文本框内,有的时候却会分为多个文本框。
在同类图片上也有很大概率会出现类似位置文本块分布完全不同,比如,有的合为一块,有的却会拆分为多块,从而使得下游的算法受困于文本块分布。同时,OCR文字定位模型给定的文本块横行、竖行、斜行常常根据文字距离给定或者与标注人员的标注理解相关,在距离完全一致的情况下模型也难以判断如何成行,从而存在由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本识别方法、装置、***和非易失性存储介质,以至少解决由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题。
根据本发明实施例的一个方面,提供了一种文本识别方法。该方法可以包括:获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系;确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词;输出分词。
根据本发明实施例的另一方面,还提供了另一种文本识别方法。该方法可以包括:获取待检测图像数据,其中,待检测图像数据中包括文字信息;获取待检测图像数据中的文字分布信息,其中,该文字分布信息包括:文本块以及文本块之间的相对位置信息;基于相对位置信息对各个文本块进行组合,得到多个组合词;对多个组合词进行语义分析,并依据语义分析结果和预设字典中的分词进行匹配;依据匹配结果对多个组合词进行筛选,得到待检测图像数据的分词结果;输出分词结果。
根据本发明实施例的另一方面,还提供了一种文本识别装置。该装置可以包括:获取模块,用于获取待检测图像数据,其中,待检测图像数据中包括文字信息;定位模块,用于对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;第一确定模块,用于基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系;第二确定模块,用于确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词;识别模块,用于输出分词。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质。该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明实施例的文字识别方法文本识别装置。
根据本发明实施例的另一方面,还提供了一种文本识别***。该***包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系;确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词;输出分词。
在本发明实施例中,获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系;确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词;输出分词。也就是说,本申请可以是基于语义和空间位置关系的二维文本分词算法,将二维文本分词问题定义为基于至少两个相邻文本块之间的关联关系将至少两个相邻文本块组成一个分词的问题,可以将二维文本进行构图,转化为了一个基于空间位置和文本语义的图的问题,然后基于构成的图获取最终分词,从而将文字定位的文本块根据语义合理的成行、成块,并且保持鲁棒性,解决了由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题,达到了提高对文本进行识别的效率的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种用于实现文本识别方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例的一种文本识别方法的流程图;
图3是根据本发明实施例的另一种文本识别方法的流程图;
图4是根据本发明实施例的一种文本识别的示意图;
图5是根据本发明实施例的一种单字空间8领域空间位置的示意图;
图6是根据本发明实施例的一种图分词算法流程的示意图;
图7是根据本发明实施例的一种文本识别装置的示意图;以及
图8是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
分词,指将连续的字序列按照一定的规范重新组合成词序列的过程;
OCR,是指电子设备(例如,扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;
减枝,将构成的路径大图根据语义进行拆分,拆分成若干个小图的方法;
8领域空间位置关系,一个文本与位于其左上方位、上方位、右上方位、右方位、右下方位、下方位、左下方位、左方位的文本之间的位置关系。
实施例1
根据本发明实施例,还提供了一种文本识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是根据本发明实施例的一种用于实现文本识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本识别方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的文本识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在图1所示的运行环境下,本申请提供了如图2所示的文本识别方法。需要说明的是,该实施例的文本识别方法可以由图1所示实施例的移动终端执行。
图2是根据本发明实施例的一种文本识别方法的流程图。如图2所示,该方法可以包括以下步骤:
步骤S202,获取待检测图像数据,其中,待检测图像数据中包括文字信息。
在本发明上述步骤S202提供的技术方案中,待检测图像数据可以是待进行文本识别的原始图像的数据,可以通过图像采集设备对包含文字信息的对象进行拍摄得到,其中,拍摄得到的待检测图像数据包括文字信息,该文字信息可以是需要识别出的文字,包括二维文本,该二维文本也可以称为二维空间文本。
需要说明的是,该实施例对包含文字信息的待检测图像数据以及所适用的应用场景不做具体限制,比如,可以是包含文字信息的票据图像数据、传单图像数据、广告图像数据等。
步骤S204,对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息。
在本发明上述步骤S204提供的技术方案中,在获取待检测图像数据之后,可以对待检测图像数据中的文字进行定位识别,从而得到多个文本块以及多个文本块的空间位置信息。其中,文本块可以称为文本框,为待检测图像数据的语义单元,至少包括一个文字,文本块包括的文字的数量可以根据具体所采用的定位识别算法而确定,在文本块包括一个文字的情况下,该文本块也可以称为单子文本块。该实施例的多个文本块的空间位置信息可以是文本块中的文字所处的位置关系,该位置关系可以是8领域空间位置关系中的位置关系,比如,右方位、右下方位、下方位、左下方位。
可选地,该实施例可以根据文字定位识别算法和识别将文本块定位拆分为单字,可以获取单字的文本块和对应的识别结果。
步骤S206,基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系。
在本发明上述步骤S206提供的技术方案中,在对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息之后,可以基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系。
在该实施例中,多个文本块中至少两个相邻文本块之间的关联关系也即至少两个相邻文本块之间进行连接的连接关系,比如,基于多个文本块的空间位置信息确定文本块与其右方位的相邻文本块、右下方位的相邻文本块、下方位的相邻文本块、左下方位的相邻文本块进行连接的连接关系。
在该实施例中,由于一个文本块根据排版规则,其可能与8领域空间位置中的8个方位中的一部分方位的文本块构成上述关联关系,比如,与8领域空间位置中的右方位、右下方位、下方位、左下方位的文本块构成上述关联关系,因而,该实施例可以根据文本块在上述8领域中的右方位的文本、右下方位的文本、下方位的文本、左下方位的文本块进行连接,确定多个文本块中至少两个相邻文本块之间的关联关系。
步骤S208,确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词。
在本发明上述步骤S208提供的技术方案中,在基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系之后,确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词。
在该实施例中,预设条件可以为基于关联关系预先设置的允许将上述至少两个相邻文本组成一个分词的条件,可以是基于关联关系确定包含多个文本块中的全部文本块的路径来建立预设条件,比如,当上述至少两个相邻文本组成的分词属于包含多个文本块中的全部文本块的路径中的目标路径时,就可以确定关联关系是满足预设条件的,进而将至少两个相邻文本块组成一个分词。
步骤S210,输出分词。
在本发明上述步骤S210提供的技术方案中,在确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词之后,输出分词,可以是将分词输出至显示器上进行显示,或者通过语音设备进行播放,此处不做具体限制。
在相关技术中,只针对一维序列文本进行分词,而无法直接对二维图片上的文本进行图分词,而该实施例通过上述步骤202至步骤S212,获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系;确定所述关联关系满足预设条件,将所述至少两个相邻文本块组成一个分词;输出分词。也就是说,该实施例可以是基于语义和空间位置关系的二维文本分词算法,将二维文本分词问题定义为基于至少两个相邻文本块之间的关联关系将至少两个相邻文本块组成一个分词的问题,可以将二维文本进行构图,转化为了一个基于空间位置和文本语义的图的问题,然后基于构成的图获取最终分词,从而将文字定位的文本块根据语义合理的成行、成块,并且保持鲁棒性,解决了由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题,达到了提高对文本进行识别的效率的技术效果。
下面结合优选的实施方式对本发明实施例的上述方法进行进一步介绍。
作为一种可选的实施方式,确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词,包括:基于关联关系确定包含多个文本块中的全部文本块的路径,得到多条路径,其中,每条路径中具有关联关系的两个相邻文本块组成一个分词;确定多条路径中的目标路径,在至少两个相邻文本组成的分词属于目标路径中的分词时,确定关联关系满足预设条件,并将至少两个相邻文本块组成一个分词。
在该实施例中,基于关联关系可以将多个文本块构成图结构,基于该图结构确定包含全部文本块的多条路径,从而包含该多条路径的图结构也可以称为路径大图,可以将文本块和与其相邻的文本块进行连接,将构成图的边确定为上述多条路径。在该实施例中,一条路径中具有关联关系的两个相邻文本块可以组成一个分词,该分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。
在基于关联关系确定包含多个文本块中的全部文本块的路径,得到多条路径之后,可以是确定多条路径中的目标路径,然后判断至少两个相邻文本组成的分词是否属于目标路径中的分词,如果判断出至少两个相邻文本组成的分词属于目标路径中的分词,则可以确定关联关系满足预设条件,可以将至少两个相邻文本块组成一个分词。
在该实施例中,可以对多条路径进行语义分析,从中分析出符合字典语义的目标路径,而筛除掉其它不可能的路径,进而可以将目标路径对应的分词结果作为待检测图像数据中的文字信息的最终分词。
需要说明的是,该实施例的上述两个文本块相邻是建立路径所必需的,也即,任意相邻的两个文本块建立连接,从而形成分词路径;另外,上述相邻也是保证分词效果的一个手段,也即,相邻的文本块组成分词,如果不相邻,此时组成的分词也是不符合实际情况的(因为图像数据中的文字位置是固定的,再进行定位识别时,识别出的文字相邻才是符合实际情况的)。
作为一种可选的实施方式,在确定多条路径中的目标路径之前,该方法还包括:对多条路径按照预设规则进行筛选,得到指定数量的路径;从指定数量的路径中确定目标路径。
在该实施例中,在确定多条路径中的目标路径之前,可以先确定预设规则,该预设规则为用于对多条路径进行筛选的规则,比如,该预设规则为对多条路径进行语义分析,确定符合字典语义的路径,然后从多条路径中筛选出符合字典语义的路径。可选地,该实施例对多条路径按照预设规则进行筛选,从而得到指定数量的路径,该指定数量的路径可以为符合字典语义的路径,然后从指定数量的路径中进一步确定出目标路径,以将目标路径对应的分词结果作为待检测图像数据中的文字信息的分词结果。
作为一种可选的实施方式,指定数量的路径中各个路径的节点是不重合的,其中,每个节点对应一个文本块。
在该实施例中,上述指定数量的路径中各个路径具有节点,该节点可以对应一个文本块,比如,该文本块包含一个文字,则一个节点可以对应一个文字。因而,该实施例的预设规则可以包括使得指定数量的路径中各个路径的节点不重合的规则,其中,指点数量的路径中各个路径可以对应一个小图,也即,该实施例为对构成的多条路径的路径大图根据语义进行拆分,拆分成若干不相干的各个小图的减枝方案,然后在小图上根据预设字典进行判定,以达到在拆分后的图中寻找最大概率组合路径的图分词,获取最终分词结果的目的。
作为一种可选的实施方式,对多条路径按照预设规则进行筛选,得到指定数量的路径,包括:确定多条路径中的各个分词;确定各个分词与预设字典中的分词的语义相似度;确定各个分词中语义相似度小于预设阈值的分词;将确定的分词中各个文字之间的关联关系删除,得到指定数量的路径。
按照传统中文分词寻找最大概率路径的动态规划的方法在二维文本上并不能实现。由于一维文本序列遍历的路径只有一条,即为从左到右,不会出现多路交叉的情况。在不考虑深层语义层面的问题的情况下,在分词歧义发生时,可以找到唯一解,并且此时也是全局唯一解。但是,在从一维文本变为二维文本之后,局部的取唯一的情况有很大概率不会是全局唯一的,同时可能需要遍历到图的很深的层次才会发现此时不是全局唯一的形态,此时最关键的问题是如何寻找最合适的分词。二维文本虽然可能不太会面临深层次的语义理解的歧义问题,但是还存在空间上的组合歧义问题。另外,直接在多条路径所构成的大图上进行路径穷举,但穷举的可能性太多,在有限时间内难以计算完全,从而无法实际应用。
可选地,在该实施例中,在实现对多条路径按照预设规则进行筛选,得到指定数量的路径时,可以先确定各条路径中的各个分词,然后在预设字典中确定各个分词与预设字典中的分词的语义相似度,判断各个分词中是否有语义相似度小于预设阈值的分词,其中,预设阈值为用于确定各个分词是否符合字典语义的临界语义相似度,如果判断出各个分词中有语义相似度小于预设阈值的分词,则可以将语义相似度小于预设阈值的分词中各个文字之间的关联关系删除,进而得到指定数量的路径。
作为一种可选的实施方式,从指定数量的路径中确定目标路径,包括:对于指定数量的路径中的每条路径,统计每条路径中与预设字典中的分词匹配的各个分词的出现次数;依据出现次数和预设字典中所有分词的出现次数,确定每条路径中与预设字典中的分词匹配的各个分词的出现概率;基于各个分词的出现概率确定每条路径的路径概率,并将指定数量的路径中路径概率最大的路径作为目标路径,其中,所述路径概率为每条路径中各个分词的出现概率之和。
在该实施例中,在实现从指定数量的路径中确定目标路径时,可以是对于指定数量的路径中的每条路径,先统计每条路径中与预设字典中的分词匹配的各个分词的出现次数,其中,预设字典为一个统计字典,可以是确定每条路径中的各个分词,比如,从任意一个根节点出发,沿路径进行分词,然后确定各个分词与预设字典中的分词是否匹配,确定与预设字典中的分词相匹配的各个分词的出现次数,比如,龟苗,3次;龟裂,34次;龟鉴,2次;龟鳖,3次;龟鹤遐寿,3次;龟龄鹤算,3次;龟龙片甲,3次;龟龙麟凤,3次等,进而依据出现次数和预设字典中所有分词的出现次数,确定每条路径中与预设字典中的分词匹配的各个分词的出现概率,可以是将各个分词的出现次数与预设字典中所有分词的出现次数之和的比值作为出现概率。可选地,该实施例对于指定数量的路径中的每条路径,根据预设字典的统计计算一次概率,并记录下这个路径,如果下次还会经过这个路径的话,则不必重新计算概率,然后继续沿路径进行搜寻,当组成完成预设词典中的词后便记录下来,当整个图的路径都走过一次后,则停止搜寻。
在确定每条路径中与预设字典中的分词匹配的各个分词的出现概率之后,可以基于各个分词的出现概率确定每条路径的路径概率,比如,将每条路径中各个分词的概率和确定为每条路径的路径概率,进而将指定数量的路径中路径概率最大的路径作为目标路径,该目标路径也可以称为最大概率组合路径。可选地,该实施例计算每次搜索后得到不同的路径概率的和,取最大概率路径和对应的分词结果,将其作为最终分词结果,从而实现了根据预设字典进行最大概率路径组合判定,获取最终分词结果的目的。
需要说明的是,该实施例在各个路径的分词过程中,可能会出现预设字典中没有的分词,则它的出现次数可以算为1,在除以预设字典中所有分词的出现次数之和之后,概率是个极小值。
作为一种可选的实施方式,步骤S204,对待检测图像数据中的文字进行定位识别,包括:采用光学字符识别OCR方式识别待检测图像数据中的单字所在区域,得到多个文本块,以及多个文本块的空间位置信息。
在该实施例中,在实现对待检测图像数据中的文字进行定位识别时,可以采用光学字符识别OCR方式识别待检测图像数据中的单字所在区域,得到多个文本块,这样每个文本块可以包括一个文字。可选地,该实施例可以采用OCR方式识别多个文本块的空间位置信息。
作为一种可选的实施方式,步骤S206,基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系,包括:对于多个文本块中的任意一个文本块,建立文本块与位于文本块不同方向的相邻文本块之间的连接关系,其中,具有连接关系的两个相邻文本块具有关联关系。
在该实施例中,在实现基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系时,可以是先从多个文本块中选择出任意一个文本块,如果位于该文本块不同方向的相邻位置具有文本块,则可以建立该文本块与位于该文本块不同方向的相邻文本块之间的连接关系,比如,如果位于该文本块的右方位具有文本,右下方位具有文本、下方位具有文本、左下方位具有文本,则可以建立该文本块与位于该文本块的右方位的相邻文本块、右下方位的相邻文本块、下方位的相邻文本块、左下方位的相邻文本块之间的连接关系,进而具有连接关系的两个向量文本块之间具有关联关系。
本发明实施例还提供了另一种文本识别方法。获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息确定多个文本块中任意两个相邻文本块之间的关联关系;基于关联关系确定包含多个文本块中的全部文本块的路径,得到多条路径,其中,每条路径中具有关联关系的两个相邻文本块组成一个分词;确定多条路径中的目标路径,将目标路径对应的分词结果作为待检测图像数据中的文字信息的分词结果;输出分词结果。
在该实施例中,待检测图像数据可以是待进行文本识别的原始图像的数据,可以通过图像采集设备对包含文字信息的对象进行拍摄得到,其中,拍摄得到的待检测图像数据包括文字信息,该文字信息可以是需要识别出的文字。
在获取待检测图像数据之后,可以对待检测图像数据中的文字进行定位识别,从而得到多个文本块以及多个文本块的空间位置信息。其中,文本块为待检测图像数据的语义单元,至少包括一个文字,文本块包括的文字的数量可以根据具体所采用的定位识别算法而确定。该实施例的多个文本块的空间位置信息可以是文本块中的文字所处的位置关系,该位置关系可以是8领域空间位置关系中的位置关系,比如,右方位、右下方位、下方位、左下方位。
可选地,该实施例可以根据文字定位识别算法和识别将文本块定位拆分为单字,可以获取单字的文本块和对应的识别结果。
在该实施例中,多个文本块中至少两个相邻文本块之间的关联关系也即至少两个相邻文本块之间进行连接的连接关系,比如,基于文本块的空间位置信息确定该文本块与右方位的相邻文本块、右下方位的相邻文本块、下方位的相邻文本块、左下方位的相邻文本块进行连接的连接关系。
在该实施例中,由于一个文本块根据排版规则,其可能与8领域空间位置中的8个方位中的一部分方位的文本块构成上述关联关系,比如,与8领域空间位置中的右方位、右下方位、下方位、左下方位的文本块构成上述关联关系,因而,该实施例可以根据文本块在上述8领域中的右方位的文本、右下方位的文本、下方位的文本、左下方位的文本块进行连接,确定多个文本块中至少两个相邻文本块之间的关联关系。
在该实施例中,基于关联关系可以将多个文本块构成图结构,基于该图结构确定包含全部文本块的多条路径,从而包含该多条路径的图结构也可以称为路径大图,可以将文本块和与其相邻的文本块进行连接,将构成图的边确定为上述多条路径。在该实施例中,路径中具有关联关系的两个相邻文本块可以组成一个分词,该分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。
在基于关联关系确定包含多个文本块中的全部文本块的路径,得到多条路径之后,可以是确定多条路径中的目标路径,将目标路径对应的分词结果作为待检测图像数据中的文字信息的分词结果。
在该实施例中,可以对多条路径进行语义分析,从中分析出符合字典语义的目标路径,而筛除掉其它不可能的路径,进而将目标路径对应的分词结果作为待检测图像数据中的文字信息的最终分词结果。
在将目标路径对应的分词结果作为待检测图像数据中的文字信息的分词结果之后,输出分词结果,可以是将分词结果输出至显示器上进行显示,或者通过语音设备进行播放,此处不做具体限制。
本发明实施例还提供了另一种文本识别方法。
图3是根据本发明实施例的另一种文本识别方法的流程图。如图3所示,该方法可以包括以下步骤:
步骤S302,获取待检测图像数据,其中,待检测图像数据中包括文字信息。
在本发明上述步骤S302提供的技术方案中,待检测图像数据可以是待进行文本识别的原始图像的数据,可以通过图像采集设备对包含文字信息的对象进行拍摄得到,其中,拍摄得到的待检测图像数据包括文字信息,该文字信息可以是需要识别出的文字,包括二维文本。
步骤S304,获取待检测图像数据中的文字分布信息,其中,该文字分布信息包括:文本块以及文本块之间的相对位置信息。
在本发明上述步骤S304提供的技术方案中,在获取待检测图像数据之后,可以获取待检测图像数据中的文字分布信息,其可以包括文本块以及多个文本块之间的相对位置信息,该相对位置信息可以是多个文本块的相对空间位置信息。其中,每个文本块为待检测图像数据的语义单元,至少包括一个文字,每个文本块包括的文字的数量可以根据具体所采用的定位识别算法而确定,多个文本块的空间位置信息可以是每个文本块中的文字所处的位置关系,该位置关系可以是8领域空间位置关系中的位置关系,比如,右方位、右下方位、下方位、左下方位。
可选地,该实施例可以根据文字定位识别算法和识别将文本块定位拆分为单字,可以获取单字的文本块和对应的识别结果。
步骤S306,基于相对位置信息对各个文本块进行组合,得到多个组合词。
在本发明上述步骤S306提供的技术方案中,在获取待检测图像数据中的文字分布信息之后,可以基于相对位置信息对各个文本块进行组合,得到多个组合词。
在该实施例中,基于相对位置信息对各个文本块进行组合,可以是先基于相对位置信息确定各个文本块之间的关联关系,比如,基于每个文本块之间的相对位置信息确定每个文本块与右方位的相邻文本块、右下方位的相邻文本块、下方位的相邻文本块、左下方位的相邻文本块进行连接的连接关系,然后基于连接关系对各个文本块进行组合,得到多个组合词,每个组合词可以用于构成文本块的一条路径。
在该实施例中,由于一个文本块根据排版规则,其可能与8领域空间位置中的8个方位中的一部分方位的文本块构成上述关联关系,比如,与8领域空间位置中的右方位、右下方位、下方位、左下方位的文本块构成上述关联关系,因而,该实施例可以根据每个文本块在上述8领域中的右方位的文本、右下方位的文本、下方位的文本、左下方位的文本块进行组合,从而得到多个组合词。
步骤S308,对多个组合词进行语义分析,并依据语义分析结果和预设字典中的分词进行匹配。
在本发明上述步骤S308提供的技术方案中,在基于相对位置信息对各个文本块进行组合,得到多个组合词之后,对多个组合词进行语义分析,并依据语义分析结果和预设字典中的分词进行匹配。
在该实施例中,对多个组合词进行语义分析,可以是在预设字典中对多个组合词进行语义分析,得到语义分析结果,然后依据语义分析结果和预设字典中的分词进行匹配。可选地,该实施例统计每个组合词中与预设字典中的分词匹配的各个分词的出现次数,依据出现次数和预设字典中所有分词的出现次数,确定每个组合词中与预设字典中的分词匹配的各个分词的出现概率。
步骤S310,依据匹配结果对多个组合词进行筛选,得到待检测图像数据的分词结果。
在本发明上述步骤S310提供的技术方案中,在对多个组合词进行语义分析,并依据语义分析结果和预设字典中的分词进行匹配之后,可以依据匹配结果对多个组合词进行筛选,得到待检测图像数据的分词结果。
在该实施例中,对于每个组合词,先统计每个组合词中与预设字典中的分词匹配的各个分词的出现次数,其中,预设字典为一个统计字典,可以是确定每个组合词中的各个分词,然后确定各个分词与预设字典中的分词是否匹配,确定与预设字典中的分词相匹配的各个分词的出现次数,进而依据出现次数和预设字典中所有分词的出现次数,确定每条路径中与预设字典中的分词匹配的各个分词的出现概率,可以是将各个分词的出现次数与预设字典中所有分词的出现次数之和的比值作为出现概率。
在确定每个组合词中与预设字典中的分词匹配的各个分词的出现概率之后,可以基于出现概率对多个组合词进行筛选,可以是基于各个分词的出现概率确定每个组合词对应的路径的路径概率,并将多个组合词对应的多个路径概率中路径概率最大的路径作为目标路径,进而将目标路径对应的分词结果作为待检测图像数据中的文字信息的分词结果。
步骤S312,输出分词结果。
在本发明上述步骤S312提供的技术方案中,在将目标路径对应的分词结果作为待检测图像数据中的文字信息的分词结果之后,输出分词结果,可以是将分词结果输出至显示器上进行显示,或者通过语音设备进行播放,此处不做具体限制。
本申请上述步骤S302至步骤S312,获取待检测图像数据,其中,待检测图像数据中包括文字信息;获取待检测图像数据中的文字分布信息,其中,该文字分布信息包括:文本块以及文本块之间的相对位置信息;基于相对位置信息对各个文本块进行组合,得到多个组合词;对多个组合词进行语义分析,并依据语义分析结果和预设字典中的分词进行匹配;依据匹配结果对多个组合词进行筛选,得到待检测图像数据的分词结果;输出分词结果,可以解决由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题,进而达到了提高对文本进行识别的效率的技术效果。
在相关技术中,只针对一维序列文本进行分词,无法直接对二维文本进行图分词。该实施例通过将二维文本图分词问题定义为全图中搜索最大概率组合路径的问题,将二维文本进行构图,转化为了一个基于空间位置和文本语义的图的问题。然后将构成的路径大图根据语义进行拆分,拆分成若干个小图进行减枝,最终在各个独立的小图上进行最大概率路径组合判定,获取最终分词结果,将文字定位的文本块根据语义合理的成行、成块,并且保持鲁棒性,从而解决了由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题,进而达到了提高对文本进行识别的效率的技术效果。
实施例2
下面结合优选的实施方式对本发明实施例的上述文本识别方法进行进一步介绍。
在相关技术中,OCR文字定位模型由于模型不稳定、图像质量较低、处理对象随机等原因,导致模型给出的语义单元非常不固定,比如,同样的字符,有时在一个文本块内,有时候却分为多个文本块。在同类图片上也有很大概率会出现类似位置文本块分布完全不同,比如,有的合为一块,有的拆分为多块,从而使得下游的算法受困于文本块分布。同时,OCR文字定位模型给定的文本块横行、竖行、斜行常常根据文字距离给定或与标注人员的标注理解相关,在距离完全一致时模型也难以判断如何成行,从而存在难以成行的困扰。该实施例将以词为级别获取OCR后的二维文本连接以及重新组合文本定位算法的基本单元的问题,将其定义为图分词问题。
上述图分词是OCR卡证结构化、卡证匹配等下游任务的基础。
在相关技术中,主流的分词***、服务的处理对象都为一维文本序列,常用的算法为最大匹配算法和基于机器学习的方法,但是仍然无法处理二维文本。
该实施例针对二维文本,通过提出的二维文本图分词算法方案,用于重新组合文本定位的基本单元以及合理文字成行,可以解决上述由于文字定位算法的文本块语义单元不固定,以及文字难以成行、错误成行的问题。
图4是根据本发明实施例中的一种文本识别的示意图。如图4所示,获取原始图像,该原始图像可以包括“购货单位”、“名称:”、“纳税人识别号:”、“地址、电话:”、“开户行及账号:”。该实施例用OCR文字定位识别算法对原始图像进行定位识别,得到OCR文字定位结果,该OCR文字定位结果包括定位的文本块以及相应的识别结果,可以包括“购名”、“称:”、“货”、“纳税人识别号:”、“单”、“地址、”、“电话:”、“位”、“开户行及账号:”。可选地,该实施例然后根据OCR文字定位和识别将文字定位拆分为单字,获取单字的文本块和识别结果,然后根据图分词算法将文本块进行合理的成行、重组,得到原始图像的分词结果。
图5是根据本发明实施例的一种单字空间8领域空间位置的示意图。在该实施例中,根据单字文本位置以及图5所示的单字空间8领域空间位置关系,也即,根据文本自身的位置与位于其左上方位、上方位、右上方位、右方位、右下方位、下方位、左下方位、左方位的文本之间的位置关系,将文字构成图结构。图6是根据本发明实施例的一种图分词算法流程的示意图。如图6中的(1)所示,图6(1)的顶点为每个单子文本块的位置,由于一个文字根据排版,仅可能与图5所示的8领域中的右方位、右下方位、下方位、左下方位的文本进行连接,所以构成图的边即为这些可能的路径。
按照传统中文分词寻找最大概率路径的动态规划的在二维文本上并不能走通。由于一维文本序列遍历的路径只有一条,也即,从左到右,并不会出现多路交叉的情况。在不考虑深层语义层面的问题的情况下,在分词歧义发生时,可以找到局部唯一解,并且此时也是全局唯一。但是,在从一维变为二维之后,局部的唯一情况大概率不会是全局唯一,同时可能需要遍历到图的很深的层次才会发现此时不是全局唯一的形态,此时如何寻找最合适的分词也是比较困难的问题(二维文本可能不太会面临深层次的语义理解的歧义问题,但是存在空间上的组合歧义问题。)直接穷举所有可能性可以解决,但数量太大,无法实际应用。
在该实施例中,可以将构成的路径大图根据语义进行拆分,拆分成若干个小图的减枝方法。如图6中的(2)所示,根据语义,只有实线箭头表示的路径是符合字典语义的,其它路径为不可能的路径,也即,可以将图6中的(2)中虚线箭头表示的路径删除,从而得到图6中的(3)。此时,可以得到2个节点不重合的相互独立的小图,如图6中的(4),粗线箭头表示的路径可以构成一个小图,细线箭头表示的路径构成另一个小图。然后以分别在这两个小图上根据字典进行最大概率路径组合判定,进而获取最终分词结果。
该实施例通过将二维文本图分词问题定义为全图中搜索最大概率组合路径的问题,将二维文本进行构图,转化为了一个基于空间位置和文本语义的图的问题。然后将构成的路径大图根据语义进行拆分,拆分成若干个小图进行减枝,最终在各个独立的小图上进行最大概率路径组合判定,获取最终分词结果,实现了将文字定位的文本块根据语义合理的成行、成块,并且保持鲁棒性的目的,从而解决了由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题,进而达到了提高对文本进行识别的效率的技术效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例3
根据本发明实施例,还提供了一种用于实施上述文本识别方法的文本识别装置。需要说明的是,该实施例的文本识别方法可以用于执行本发明实施例的文本识别方法。
图7是根据本发明实施例的一种文本识别装置的示意图。如图7所示,该实施例的文本识别装置70可以包括:获取模块71、定位模块72、第一确定模块73、第二确定模块74和识别模块75。
获取模块71,用于获取待检测图像数据,其中,待检测图像数据中包括文字信息。
定位模块72,用于对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息。
第一确定模块73,用于基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系。
第二确定模块74,用于确定所述关联关系满足预设条件,将所述至少两个相邻文本块组成一个分词。
识别模块75,用于输出分词。
此处需要说明的是,上述获取模块71、定位模块72、第一确定模块73、第二确定模块74和识别模块75对应于实施例1中的步骤S202至步骤S210,五个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例4
本发明的实施例可以提供一种文本识别***,该文本识别***可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述文本识别***也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的文本识别方法中以下步骤的程序代码:获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息确定多个文本块中至少两个相邻文本块之间的关联关系;确定所述关联关系满足预设条件,将所述至少两个相邻文本块组成一个分词;输出分词。
可选地,图8是根据本发明实施例的一种计算机终端的结构框图。如图8所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器802、存储器804和传输装置806。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的文本识别方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本识别方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息确定多个文本块中至少两个相邻文本块之间的关联关系;确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词;输出分词。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:基于关联关系确定包含多个文本块中的全部文本块的路径,得到多条路径,其中,每条路径中具有关联关系的两个相邻文本块组成一个分词;确定多条路径中的目标路径,在至少两个相邻文本组成的分词属于目标路径中的分词时,确定关联关系满足预设条件,并将至少两个相邻文本块组成一个分词。
可选地,上述处理器还可以执行如下步骤的程序代码:确定多条路径中的目标路径之前,对多条路径按照预设规则进行筛选,得到指定数量的路径;从指定数量的路径中确定目标路径。
可选地,上述处理器还可以执行如下步骤的程序代码:确定多条路径中的各个分词;确定各个分词与预设字典中的分词的语义相似度;确定各个分词中语义相似度小于预设阈值的分词;将确定的分词中各个文字之间的关联关系删除,得到指定数量的路径。
可选地,上述处理器还可以执行如下步骤的程序代码:对于指定数量的路径中的每条路径,统计每条路径中与预设字典中的分词匹配的各个分词的出现次数;依据出现次数和预设字典中所有分词的出现次数,确定每条路径中与预设字典中的分词匹配的各个分词的出现概率;基于各个分词的出现概率确定每条路径的路径概率,并将指定数量的路径中路径概率最大的路径作为目标路径,其中,路径概率为每条路径中各个分词的出现概率之和。
可选地,上述处理器还可以执行如下步骤的程序代码:采用光学字符识别OCR方式识别待检测图像数据中的单字所在区域,得到多个文本块,以及多个文本块的空间位置信息。
可选地,上述处理器还可以执行如下步骤的程序代码:对于多个文本块中的任意一个文本块,建立文本块与位于文本块不同方向的相邻文本块之间的连接关系,其中,具有连接关系的两个相邻文本块具有关联关系。
作为另一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息确定多个文本块中任意两个相邻文本块之间的关联关系;基于关联关系确定包含多个文本块中的全部文本块的路径,得到多条路径,其中,每条路径中具有关联关系的两个相邻文本块组成一个分词;确定多条路径中的目标路径,将目标路径对应的分词结果作为待检测图像数据中的文字信息的分词结果;输出分词结果。
作为另一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待检测图像数据,其中,待检测图像数据中包括文字信息;获取待检测图像数据中的文字分布信息,其中,该文字分布信息包括:文本块以及文本块之间的相对位置信息;基于相对位置信息对各个文本块进行组合,得到多个组合词;对多个组合词进行语义分析,并依据语义分析结果和预设字典中的分词进行匹配;依据匹配结果对多个组合词进行筛选,得到待检测图像数据的分词结果;输出分词结果。
采用本发明实施例,提供了一种文本识别的方案。通过获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息确定多个文本块中至少两个相邻文本块之间的关联关系;确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词;输出分词,也就是说,本申请可以是基于语义和空间位置关系的二维文本分词算法,将二维文本分词问题定义为基于至少两个相邻文本块之间的关联关系将至少两个相邻文本块组成一个分词的问题,可以将二维文本进行构图,转化为了一个基于空间位置和文本语义的图的问题,然后基于构成的图获取最终分词,从而将文字定位的文本块根据语义合理的成行、成块,并且保持鲁棒性,解决了由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题,达到了提高对文本进行识别的效率的技术效果。
本领域普通技术人员可以理解,图8所示的结构仅为示意,计算机终端A也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图8其并不对上述计算机终端的结构造成限定。例如,计算机终端A还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的文本识别方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系;确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词;输出分词。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:基于关联关系确定包含多个文本块中的全部文本块的路径,得到多条路径,其中,每条路径中具有关联关系的两个相邻文本块组成一个分词;确定多条路径中的目标路径,在至少两个相邻文本组成的分词属于目标路径中的分词时,确定关联关系满足预设条件,并将至少两个相邻文本块组成一个分词。可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:确定多条路径中的目标路径之前,对多条路径按照预设规则进行筛选,得到指定数量的路径;从指定数量的路径中确定目标路径。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:确定多条路径中的各个分词;确定各个分词与预设字典中的分词的语义相似度;确定各个分词中语义相似度小于预设阈值的分词;将确定的分词中各个文字之间的关联关系删除,得到指定数量的路径。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:对于指定数量的路径中的每条路径,统计每条路径中与预设字典中的分词匹配的各个分词的出现次数;依据出现次数和预设字典中所有分词的出现次数,确定每条路径中与预设字典中的分词匹配的各个分词的出现概率;基于各个分词的出现概率确定每条路径的路径概率,并将指定数量的路径中路径概率最大的路径作为目标路径,其中,路径概率为每条路径中各个分词的出现概率之和。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:采用光学字符识别OCR方式识别待检测图像数据中的单字所在区域,得到多个文本块,以及多个文本块的空间位置信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:对于多个文本块中的任意一个文本块,建立文本块与位于文本块不同方向的相邻文本块之间的连接关系,其中,具有连接关系的两个相邻文本块具有关联关系。
作为另一种可选的示例,存储介质被设置为存储用于执行以下步骤的程序代码:获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息确定多个文本块中任意两个相邻文本块之间的关联关系;基于关联关系确定包含多个文本块中的全部文本块的路径,得到多条路径,其中,每条路径中具有关联关系的两个相邻文本块组成一个分词;确定多条路径中的目标路径,将目标路径对应的分词结果作为待检测图像数据中的文字信息的分词结果;输出分词结果。
作为另一种可选的示例,存储介质被设置为存储用于执行以下步骤的程序代码:获取待检测图像数据,其中,待检测图像数据中包括文字信息;获取待检测图像数据中的文字分布信息,其中,该文字分布信息包括:文本块以及文本块之间的相对位置信息;基于相对位置信息对各个文本块进行组合,得到多个组合词;对多个组合词进行语义分析,并依据语义分析结果和预设字典中的分词进行匹配;依据匹配结果对多个组合词进行筛选,得到待检测图像数据的分词结果;输出分词结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文本识别方法,其特征在于,包括:
获取待检测图像数据,其中,所述待检测图像数据中包括文字信息;
对所述待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;
基于所述空间位置信息,确定所述多个文本块中至少两个相邻文本块之间的关联关系;
确定所述关联关系满足预设条件,将所述至少两个相邻文本块组成一个分词,包括:基于所述关联关系确定包含所述多个文本块中的全部文本块的路径,得到多条路径,其中,每条路径中具有所述关联关系的两个相邻文本块组成一个分词;确定所述多条路径中的目标路径,在所述至少两个相邻文本组成的分词属于所述目标路径中的分词时,确定所述关联关系满足预设条件,并将所述至少两个相邻文本块组成一个分词;
输出所述分词。
2.根据权利要求1所述的方法,其特征在于,确定所述多条路径中的目标路径之前,所述方法还包括:
对所述多条路径按照预设规则进行筛选,得到指定数量的路径;
从所述指定数量的路径中确定所述目标路径。
3.根据权利要求2所述的方法,其特征在于,所述指定数量的路径中各个路径的节点是不重合的,其中,每个节点对应一个文本块。
4.根据权利要求2所述的方法,其特征在于,对所述多条路径按照预设规则进行筛选,得到指定数量的路径,包括:
确定所述多条路径中的各个分词;
确定所述各个分词与预设字典中的分词的语义相似度;确定所述各个分词中所述语义相似度小于预设阈值的分词;
将确定的分词中各个文字之间的关联关系删除,得到所述指定数量的路径。
5.根据权利要求2所述的方法,其特征在于,从所述指定数量的路径中确定所述目标路径,包括:
对于所述指定数量的路径中的每条路径,统计所述每条路径中与预设字典中的分词匹配的各个分词的出现次数;
依据所述出现次数和所述预设字典中所有分词的出现次数,确定所述每条路径中与预设字典中的分词匹配的各个分词的出现概率;
基于所述各个分词的出现概率确定每条路径的路径概率,并将所述指定数量的路径中路径概率最大的路径作为所述目标路径,其中,所述路径概率为每条路径中各个分词的出现概率之和。
6.根据权利要求1所述的方法,其特征在于,基于所述空间位置信息,确定所述多个文本块中至少两个相邻文本块之间的关联关系,包括:
对于所述多个文本块中的任意一个文本块,建立所述文本块与位于所述文本块不同方向的相邻文本块之间的连接关系,其中,具有连接关系的两个相邻文本块具有所述关联关系。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,对所述待检测图像数据中的文字进行定位识别,包括:
采用光学字符识别OCR方式识别所述待检测图像数据中的单字所在区域,得到所述多个文本块,以及所述多个文本块的空间位置信息。
8.一种文本识别装置,其特征在于,包括:
获取模块,用于获取待检测图像数据,其中,所述待检测图像数据中包括文字信息;
定位模块,用于对所述待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;
第一确定模块,用于基于所述空间位置信息,确定所述多个文本块中至少两个相邻文本块之间的关联关系;
第二确定模块,用于确定所述关联关系满足预设条件,将所述至少两个相邻文本块组成一个分词,包括:基于所述关联关系确定包含所述多个文本块中的全部文本块的路径,得到多条路径,其中,每条路径中具有所述关联关系的两个相邻文本块组成一个分词;确定所述多条路径中的目标路径,在所述至少两个相邻文本组成的分词属于所述目标路径中的分词时,确定所述关联关系满足预设条件,并将所述至少两个相邻文本块组成一个分词;
识别模块,用于输出所述分词。
9.一种非易失性存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的文本识别方法。
10.一种文本识别***,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取待检测图像数据,其中,所述待检测图像数据中包括文字信息;
对所述待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;
基于所述空间位置信息,确定所述多个文本块中至少两个相邻文本块之间的关联关系;
确定所述关联关系满足预设条件,将所述至少两个相邻文本块组成一个分词,包括:基于所述关联关系确定包含所述多个文本块中的全部文本块的路径,得到多条路径,其中,每条路径中具有所述关联关系的两个相邻文本块组成一个分词;确定所述多条路径中的目标路径,在所述至少两个相邻文本组成的分词属于所述目标路径中的分词时,确定所述关联关系满足预设条件,并将所述至少两个相邻文本块组成一个分词;
输出所述分词。
CN202010561370.8A 2020-06-18 2020-06-18 文本识别方法、装置、***和非易失性存储介质 Active CN113822280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010561370.8A CN113822280B (zh) 2020-06-18 2020-06-18 文本识别方法、装置、***和非易失性存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010561370.8A CN113822280B (zh) 2020-06-18 2020-06-18 文本识别方法、装置、***和非易失性存储介质

Publications (2)

Publication Number Publication Date
CN113822280A CN113822280A (zh) 2021-12-21
CN113822280B true CN113822280B (zh) 2024-07-09

Family

ID=78924424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010561370.8A Active CN113822280B (zh) 2020-06-18 2020-06-18 文本识别方法、装置、***和非易失性存储介质

Country Status (1)

Country Link
CN (1) CN113822280B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492143A (zh) * 2018-09-21 2019-03-19 平安科技(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质
CN111008559A (zh) * 2019-10-31 2020-04-14 浙江数链科技有限公司 一种面单识别结果的排版方法、***及计算机设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171061B2 (en) * 2002-07-12 2007-01-30 Xerox Corporation Systems and methods for triage of passages of text output from an OCR system
US7106905B2 (en) * 2002-08-23 2006-09-12 Hewlett-Packard Development Company, L.P. Systems and methods for processing text-based electronic documents
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN110569830B (zh) * 2019-08-01 2023-08-22 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110442744B (zh) * 2019-08-09 2022-11-04 泰康保险集团股份有限公司 提取图像中目标信息的方法、装置、电子设备及可读介质
CN111144402A (zh) * 2019-11-27 2020-05-12 深圳壹账通智能科技有限公司 Ocr识别准确率的计算方法、装置、设备以及存储介质
CN111079768A (zh) * 2019-12-23 2020-04-28 北京爱医生智慧医疗科技有限公司 一种基于ocr的文字图像识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492143A (zh) * 2018-09-21 2019-03-19 平安科技(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质
CN111008559A (zh) * 2019-10-31 2020-04-14 浙江数链科技有限公司 一种面单识别结果的排版方法、***及计算机设备

Also Published As

Publication number Publication date
CN113822280A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN108717543B (zh) 一种***识别方法及装置、计算机存储介质
CN111178355B (zh) ***识别方法、装置和存储介质
EP3869385A1 (en) Method for extracting structural data from image, apparatus and device
CN108563559A (zh) 一种验证码的测试方法、装置、终端设备及存储介质
CN109116129B (zh) 终端检测方法、检测设备、***及存储介质
CN110738219A (zh) 图像中线条提取方法和装置、存储介质及电子装置
CN111310826B (zh) 样本集的标注异常检测方法、装置及电子设备
CN110288755A (zh) 基于文本识别的***检验方法、服务器及存储介质
WO2015002719A1 (en) Method of improving contrast for text extraction and recognition applications
CN108460346A (zh) 指纹识别方法及装置
CN111598076B (zh) 一种标签图像中日期检测处理方法及装置
CN113420756A (zh) 证件图像的识别方法和装置、存储介质及电子装置
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
WO2020156553A1 (zh) 二维码定位框识别方法、装置、电子设备及存储介质
CN113822280B (zh) 文本识别方法、装置、***和非易失性存储介质
CN106663212A (zh) 文字识别装置、文字识别方法以及程序
JP7449505B2 (ja) 情報処理システム
CN112286780A (zh) 识别算法的测试方法、装置、设备及存储介质
JP2016045837A (ja) 情報処理装置、画像判定方法、及びプログラム
CN115063784A (zh) 票据图像的信息提取方法和装置、存储介质及电子设备
CN113486638A (zh) 表格的重构方法和装置、存储介质及电子装置
CN109583453B (zh) 图像的识别方法和装置、数据的识别方法、终端
CN113936288A (zh) 倾斜文本方向分类方法、装置、终端设备和可读存储介质
CN114782725B (zh) 一种对比用户界面图像差异的方法、装置以及存储介质
CN112183540A (zh) 标签参数的提取方法和装置、存储介质、电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant