CN116363659A - 手写多行字符分割方法、装置及设备 - Google Patents
手写多行字符分割方法、装置及设备 Download PDFInfo
- Publication number
- CN116363659A CN116363659A CN202310341510.4A CN202310341510A CN116363659A CN 116363659 A CN116363659 A CN 116363659A CN 202310341510 A CN202310341510 A CN 202310341510A CN 116363659 A CN116363659 A CN 116363659A
- Authority
- CN
- China
- Prior art keywords
- height
- strokes
- row
- value
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 230000002159 abnormal effect Effects 0.000 claims abstract description 18
- 238000007621 cluster analysis Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19107—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2455—Discrimination between machine-print, hand-print and cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本发明公开一种手写多行字符分割方法、装置及设备,分割方法包括:设置当前文本的预估高度、宽高阈值、偏移量矩阵,预估高度为所有的笔画数量位置的高度的第一比例值,宽高阈值为所有的笔画的平均宽度和高度中的更大值,偏移量矩阵为当前对象最小X轴值减去预估高度,以及最大X轴值加上预估高度范围内对比对象所包含笔画的正矩形;对文本执行分割操作中的一种或多种,分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。本发明不改变原本书写的笔迹,对手写多行字符进行精确高效的分割,使得手写文本具有更为规范、整洁的排版。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种手写多行字符分割方法、装置及设备。
背景技术
随着科技的发展,人们越来越***常的移动设备的打字聊天,现有技术可以模拟现实中的文本手写,即在同一篇幅中手写,在手写板或触屏上的落笔会直接映射到文本中,类似绘画。
因此,为了更好的识别文本中的每个字符,现有技术存在手写字符分割技术,主要用于分离手写文本中的字母和数字的技术。它可以帮助计算机识别和解释手写文本,为机器学习和自然语言处理应用提供支持。它的主要原理是使用各种数据处理技术来分析手写字符的形状,大小,拼写,连续性等特征,并根据这些特征识别出每个字符。
但是,现有技术中,缺少对文本中的分割整理,即缺少不能在保留用户的笔迹的同时,将异常笔画、字符行间距等进行调整的方法。
发明内容
鉴于以上技术问题,本发明提供了一种手写多行字符分割方法、装置及设备,该方法可以对文本中的手写多行字符进行分割整理,提升行分割的准确率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出了一种手写多行字符分割方法,应用于对文本进行识别,所述文本中包括多行手写字符,所述字符由一个或多个笔画组成,每一所述笔画可被读取,所述分割方法包括:
设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的所述笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前对象最小X轴值减去预估高度,以及最大X轴值加上预估高度范围内对比对象所包含笔画的正矩形;
基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
进一步的,所述删除异常笔画包括删除具有以下情况之一的所述笔画:
宽、高皆大于5倍所述宽高阈值;
高度大于7倍所述宽高阈值;
高度大于3.75倍预估高度。
进一步的,所述预分割包括将具有以下情况之一的所述笔画分割至下一行中:
当前行所有的所述笔画的X轴最大值减去现有所述笔画的X轴最大值大于所述预估高度;
现有所述笔画的Y轴最小值减去当前行所有的所述笔画的Y轴最大值大于2倍所述预估高度;
现有所述笔画的Y轴最小值大于所述偏移量矩阵的Y轴最大值。
进一步的,所述孤立点、倒笔单独为一行,包括:
不属于所有的所述笔画包含点Y轴值正太分布置信区间面积为95.449974%中的所述笔画,单独为一行。
所述过大行再分割包括:
在已分类的行中,若行高大于2倍所述预估高度,基于密度聚类分析,对其进行按类数分行。
进一步的,所述重新行排序包括:将行外接矩形中心值更小的行排前面。
进一步的,所述空间合并包括:对相邻两行所述字符进行对比,在具有以下情况之一时,将相邻的两行合并;
当前行的Y轴最小值大于对比行的Y轴最小值,且当前行的Y轴最大值小于于对比行的Y轴最大值;
当前行、对比行中有一个小于0.9倍所述预估高度,且当前行、对比行重叠高度与两行高度对比率大于0.85;
当前行、对比行的重叠高度都大于0.9倍两行高度,且当前行、对比行的的重叠位置的高度都大于0.9倍两行重叠位置的合并高度。
进一步的,所述行中间词间距过大分为多行,包括:
同一行中,若两个所述字符之间的距离大于5倍所述预估高度,则以两个所述字符的中间作为分割线分割为两行。
进一步的,所述判断整篇是否是单字,包括:
若整篇所述文本是多行的,且整篇宽度大于其高度的2倍,则不是单字;
若整篇所述文本的高度大于其宽度的2倍,则是单字。
根据本公开的第二方面,提供一种手写多行字符分割装置,包括:预设模块,所述预设模块用于设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前所述字符的最小X轴值减去所述预估高度,及最大X轴值加上所述预估高度所形成的正矩形;执行模块,所述执行模块用于基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
根据本公开的第三方面,提供一种手写多行字符分割设备,包括:设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的所述笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前所述字符的最小X轴值减去所述预估高度,及最大X轴值加上所述预估高度所形成的正矩形;基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
本公开的技术方案具有以下有益效果:
根据手写多行字符分割方法,首先删除异常笔画,避免异常笔画影响分割以及之后的识别结果,使用预分割粗略分割笔画为多行。再使用孤立点、倒笔为一行,过大行再分割,重新行排序,空间合并,行中间词间距过大分为多行等提升行分割准确率。最后根据整篇是否为单字判断来确定是否需要添加第二种分割方式。
本发明不改变原本书写的笔迹,对手写多行字符进行精确高效的分割,使得手写文本具有更为规范、整洁的排版。
附图说明
图1为本说明书实施例中的一种手写多行字符分割方法的流程图;
图2为说明书实施例中的待操作的文本示意图;
图3为图2中删除异常笔画后的文本示意图;
图4为说明书实施例中的又一待操作的文本示意图;
图5为图4进行分割操作后的文本示意图;
图6为说明书实施例中的判断整篇是否是单字的一种结果示意图;
图7为说明书实施例中的判断整篇是否是单字的另一种结果示意图;
图8为说明书实施例中的一种手写多行字符分割装置的结构图;
图9为本说明书实施例中一种用于实现手写多行字符分割方法的终端设备;
图10为本说明书实施例中一种用于实现手写多行字符分割方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,本说明书实施例提供一种手写多行字符分割方法,该方法的执行主体可以为终端设备,其中的终端设备可以如手机、平板电脑、个人计算机等。该方法应用于对文本进行识别,所述文本中包括多行手写字符,所述字符由一个或多个笔画组成,每一所述笔画可被读取。该方法具体可以包括以下步骤S101~S102:
在步骤S101中,设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的所述笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前对象最小X轴值减去预估高度,以及最大X轴值加上预估高度范围内对比对象所包含笔画的正矩形。
其中,在预估高度中,笔画的高度可以是指每个笔画所覆盖的垂直高度,即从笔画的最高点到最低点的距离。所有笔画数量位置的笔画高度可以是所有笔画的平均高度。第一比例值可以是0.89。则预估高度为0.89*所有笔画数量位置的笔画高度。
在宽高阈值中,笔画的宽度和高度可以是指每个笔画所覆盖的水平宽度和垂直高度。所有笔画的平均宽度和平均高度可能是指将所有笔画的宽度和高度分别相加并除以笔画数量得到的平均值,平均宽度和高度中的更大值是指,平均宽度和平均高度中,哪个值更大,则宽高阈值为该值。
在偏移量矩阵中,当前字符最小X轴值可以是指当前对象在水平方向上最左边的笔画的X轴坐标值。最大X轴值可以是指当前对象在水平方向上最右边的笔画的X轴坐标值。对比对象:指参考对象,也就是当前对象需要与其进行比较的对象,其中,当前对象可以是当前字符,对比对象即为与当前字符进行对比的其他字符,如相邻字符;当前对象也可以是当前的一行字符。正矩形:指矩形中所有角都为直角的矩形。
具体在本发明实施例中,将当前对象的最小X轴值减去预估高度,得到当前对象的左边界值。将当前对象的最大X轴值加上预估高度,得到当前对象的右边界值。然后判断当前对象与参考对象是否存在水平重叠部分:如果当前对象的右边界值小于参考对象的左边界值,或者当前对象的左边界值大于参考对象的右边界值,则不存在水平重叠部分;如果当前对象的右边界值大于等于参考对象的左边界值,且当前对象的左边界值小于等于参考对象的右边界值,则存在水平重叠部分。如果存在水平重叠部分,则将参考对象中所有笔画所组成的正矩形向右移动当前对象左边界值与参考对象左边界值之间的距离,即得到偏移量矩阵。如果不存在水平重叠部分,则偏移量矩阵为0。通过计算偏移量矩阵,可以帮助将手写文本中的笔画或行文本按照正确的顺序组合起来,从而实现自动文本分割和识别。
在步骤S102中,基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
分割操作的具体细节由以下实施方式所得。
在一实施方式中,在所述删除异常笔画包括删除具有以下情况之一的所述笔画:
宽、高皆大于5倍所述宽高阈值;高度大于7倍所述宽高阈值;高度大于3.75倍预估高度。
其中如图2所示,图2的异常笔画为两条穿过字符的斜线,通过删除异常笔画的操作,将两个斜线识别出来后删除。在现有技术的电子手写记录中,每一条笔画都有相应的记录,在识别该笔画异常后,可以将该笔画直接删除。删除异常笔画后,如图3所示。
在一实施方式中,所述预分割可以由条件1-3触发:
条件1:当前行所有的所述笔画的X轴最大值减去现有所述笔画的X轴最大值大于所述预估高度;条件2:现有所述笔画的Y轴最小值减去当前行所有的所述笔画的Y轴最大值大于2倍所述预估高度;条件3:现有所述笔画的Y轴最小值大于所述偏移量矩阵的Y轴最大值。
如图4所示,若当前行的笔画同时满足若满足条件1和条件3,或者同时满足条件2和条件3,则当前笔画属于下一行的。
在一实施方式中,所述孤立点、倒笔单独为一行,包括:不属于所有的所述笔画包含点Y轴值正太分布置信区间面积为95.449974%中的所述笔画,单独为一行。
具体的,如图5所示,图5是对图4进行孤立点、倒笔单独为一行的操作的结果。孤立点是指不与其他笔画相连的一个或多个离散的笔画点,在手写字符中,这些点通常是由于书写不规范或手颤等原因而产生的。倒笔则是指书写时手的运动方向与常规方向相反的笔画。例如,常规情况下我们在写直线时是从上往下,而倒笔则是从下往上,或者写圆弧时是顺时针,而倒笔则是逆时针等。这些倒笔笔画的存在也会影响到字符的识别。
如果一个笔画的Y轴坐标不在当前行中所有笔画的Y轴坐标的正态分布置信区间(95.449974%)内,那么这个笔画就被认为不属于当前行,被单独作为一行处理。
在一实施方式中,所述过大行再分割包括:在已分类的行中,若行高大于2倍所述预估高度,基于密度聚类分析,对其进行按类数分行。
具体的,请继续参阅图5,图5是对图4进行过大行再分割操作的结果。当中,如果某一行的高度大于预估高度的两倍,就会将这一行进行再分割。具体的再分割方法是使用密度聚类分析,将该行中的笔画聚类成几类,然后将不同类别的笔画划分到不同的行中。如果存在几类笔画,则分为几行。这样可以有效地避免一些过大的行影响整个文本的识别效果。
在一实施方式中,所述重新行排序包括:将行外接矩形中心值更小的行排前面。
其中,请继续参阅图5,图5是对图4进行重新行排序操作后的结果。当中,行外接矩形中心值更小的行排前面,是将中心位置较上方的行排在中心位置较下方的行之前,使得整篇文本的上下结构更加清晰,使得整篇文本看起来更加自然、流畅。
在一实施方式中,请继续参阅图5,图5是对图4进行空间合并操作后的结果,当中,所述空间合并包括:对相邻两行所述字符进行对比,在具有以下情况之一时,将相邻的两行合并;
当前行的Y轴最小值大于对比行的Y轴最小值,且当前行的Y轴最大值小于于对比行的Y轴最大值;
当前行、对比行中有一个小于0.9倍所述预估高度,且当前行、对比行重叠高度与两行高度对比率大于0.85;
当前行、对比行的重叠高度都大于0.9倍两行高度,且当前行、对比行的的重叠位置的高度都大于0.9倍两行重叠位置的合并高度。
在一实施方式中,请继续参阅图5,图5是对图4进行行中间词间距过大分为多行操作后的结果,所述行中间词间距过大分为多行,包括:
同一行中,若两个所述字符之间的距离大于5倍所述预估高度,则以两个所述字符的中间作为分割线分割为两行。
在一实施方式中,如图6和图7所示,图6和图7是经过“判断整篇是否是单字”操作后的两种结果,所述判断整篇是否是单字,包括:
若整篇所述文本是多行的,且整篇宽度大于其高度的2倍,则不是单字;
若整篇所述文本的高度大于其宽度的2倍,则是单字。
基于同样的思路,如图8所示,本公开的示例性实施方式还提供了一种手写多行字符分割装置800,包括预设模块801,所述预设模块801用于设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前所述字符的最小X轴值减去所述预估高度,及最大X轴值加上所述预估高度所形成的正矩形;执行模块802,所述执行模块802用于基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
采用上述手写多行字符分割装置800,首先删除异常笔画,避免异常笔画影响分割以及之后的识别结果,使用预分割粗略分割笔画为多行。再使用孤立点、倒笔为一行,过大行再分割,重新行排序,空间合并,行中间词间距过大分为多行等提升行分割准确率。最后根据整篇是否为单字判断来确定是否需要添加第二种分割方式。
手写多行字符分割装置800不改变原本书写的笔迹,对手写多行字符进行精确高效的分割,使得手写文本具有更为规范、整洁的排版。
上述装置中各模块/单元的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
基于同样的思路,本说明书实施例还提供一种手写多行字符分割设备,如图9所示。
手写多行字符分割设备可以为上述实施例提供的终端设备或服务器。
手写多行字符分割设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元。存储在存储器902的应用程序可以包括一个或一个以上程序模块(图示未示出),这样的程序模块包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。更进一步地,处理器901可以设置为与存储器902通信,在手写多行字符分割设备上执行存储器902中的一系列计算机可执行指令。手写多行字符分割设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上I/O接口(输入输出接口)905,一个或多个外部设备906(例如键盘、手绘板、蓝牙设备等)通信,还可与一个或一个以上使得用户能与该设备交互的设备通信,和/或与使得该设备能与一个或一个以上其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过I/O接口905进行。并且,设备还可以通过有线或无线接口904与一个或一个以上网络(例如局域网(LAN)通讯。
具体在本实施例中,手写多行字符分割设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对手写多行字符分割设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的所述笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前对象最小X轴值减去预估高度,以及最大X轴值加上预估高度范围内对比对象所包含笔画的正矩形;
基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
基于同样的思路,本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图10所示,描述了根据本公开的示例性实施方式的用于实现上述方法的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言一诸如Java、C++等,还包括常规的过程式程序设计语言一诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施方式的方法。
此外,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种手写多行字符分割方法,其特征在于,应用于对文本进行识别,所述文本中包括多行手写字符,所述字符由一个或多个笔画组成,每一所述笔画可被读取,所述分割方法包括:
设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的所述笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前对象最小X轴值减去预估高度,以及最大X轴值加上预估高度范围内对比对象所包含笔画的正矩形;
基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
2.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述删除异常笔画包括删除具有以下情况之一的所述笔画:
宽、高皆大于5倍所述宽高阈值;
高度大于7倍所述宽高阈值;
高度大于3.75倍预估高度。
3.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述预分割包括将具有以下情况之一的所述笔画分割至下一行中:
当前行所有的所述笔画的X轴最大值减去现有所述笔画的X轴最大值大于所述预估高度;
现有所述笔画的Y轴最小值减去当前行所有的所述笔画的Y轴最大值大于2倍所述预估高度;
现有所述笔画的Y轴最小值大于所述偏移量矩阵的Y轴最大值。
4.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述孤立点、倒笔单独为一行,包括:
不属于所有的所述笔画包含点Y轴值正太分布置信区间面积为95.449974%中的所述笔画,单独为一行。
所述过大行再分割包括:
在已分类的行中,若行高大于2倍所述预估高度,基于密度聚类分析,对其进行按类数分行。
5.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述重新行排序包括:将行外接矩形中心值更小的行排前面。
6.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述空间合并包括:对相邻两行所述字符进行对比,在具有以下情况之一时,将相邻的两行合并;
当前行的Y轴最小值大于对比行的Y轴最小值,且当前行的Y轴最大值小于于对比行的Y轴最大值;
当前行、对比行中有一个小于0.9倍所述预估高度,且当前行、对比行重叠高度与两行高度对比率大于0.85;
当前行、对比行的重叠高度都大于0.9倍两行高度,且当前行、对比行的的重叠位置的高度都大于0.9倍两行重叠位置的合并高度。
7.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述行中间词间距过大分为多行,包括:
同一行中,若两个所述字符之间的距离大于5倍所述预估高度,则以两个所述字符的中间作为分割线分割为两行。
8.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述判断整篇是否是单字,包括:
若整篇所述文本是多行的,且整篇宽度大于其高度的2倍,则不是单字;
若整篇所述文本的高度大于其宽度的2倍,则是单字。
9.一种手写多行字符分割装置,包括:
预设模块,所述预设模块用于设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前所述字符的最小X轴值减去所述预估高度,及最大X轴值加上所述预估高度所形成的正矩形;
执行模块,所述执行模块用于基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
10.一种手写多行字符分割设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前所述字符的最小X轴值减去所述预估高度,及最大X轴值加上所述预估高度所形成的正矩形;
基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310341510.4A CN116363659A (zh) | 2023-03-31 | 2023-03-31 | 手写多行字符分割方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310341510.4A CN116363659A (zh) | 2023-03-31 | 2023-03-31 | 手写多行字符分割方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116363659A true CN116363659A (zh) | 2023-06-30 |
Family
ID=86936288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310341510.4A Pending CN116363659A (zh) | 2023-03-31 | 2023-03-31 | 手写多行字符分割方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363659A (zh) |
-
2023
- 2023-03-31 CN CN202310341510.4A patent/CN116363659A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6628442B2 (ja) | テキスト画像処理方法および装置 | |
US11886799B2 (en) | Determining functional and descriptive elements of application images for intelligent screen automation | |
CN109614944B (zh) | 一种数学公式识别方法、装置、设备及可读存储介质 | |
US10664695B2 (en) | System and method for managing digital ink typesetting | |
US9697423B1 (en) | Identifying the lines of a table | |
US9904847B2 (en) | System for recognizing multiple object input and method and product for same | |
WO2020063314A1 (zh) | 字符切分识别方法、装置、电子设备、存储介质 | |
US20210357710A1 (en) | Text recognition method and device, and electronic device | |
US8515175B2 (en) | Storage medium, apparatus and method for recognizing characters in a document image using document recognition | |
CN111062365A (zh) | 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质 | |
CN108701215B (zh) | 用于识别多对象结构的***和方法 | |
CN108734161B (zh) | 冠字号区域的识别方法、装置、设备及存储介质 | |
CN111507330A (zh) | 习题识别方法、装置、电子设备及存储介质 | |
US11636666B2 (en) | Method and apparatus for identifying key point locations in image, and medium | |
US9367237B2 (en) | Shaping device | |
US11055526B2 (en) | Method, system and apparatus for processing a page of a document | |
US20150139547A1 (en) | Feature calculation device and method and computer program product | |
CN113887375A (zh) | 一种文本识别方法、装置、设备及存储介质 | |
CN113553428A (zh) | 文档分类方法、装置及电子设备 | |
US20150186718A1 (en) | Segmentation of Overwritten Online Handwriting Input | |
JP2018067298A (ja) | 手書き内容編集装置および手書き内容編集方法 | |
CN116363659A (zh) | 手写多行字符分割方法、装置及设备 | |
CN114663902B (zh) | 文档图像处理方法、装置、设备和介质 | |
US20230343125A1 (en) | Handwriting Recognition Method and Apparatus, Handwriting Recognition System and Interactive Display | |
CN113128496B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |