公式主体定位方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及数字出版领域,尤其涉及一种公式主体定位方法、装置、设备及计算机可读存储介质。
背景技术
现有的电子文档中一般除了文本以外,还包括公式等内容,因此,在对电子文档进行处理的过程中,还需要对电子文档中的公式进行定位以及识别。
现有的公式识别方法一般都是对电子文档进行识别,确定公式所在的位置,对该位置的公式进行整体定位。
但是,对于电子文档中的公式而言,由于在布局上存在条件、分段、二维、嵌套等关系,因此,采用上述定位方法定位效果欠佳。举例来说,大量文献中的公式带有后续处理无用的符号信息;而对于多行公式或者方程组公式,整体定位结果不易于检索;对于内嵌公式来说,定位结果中往往包含上下文信息;一些复杂文档中存在图表形式的伪公式,因此,针对上述情况来说,采用整体定位公式的方法获得的公式中往往包含较多的噪声。
发明内容
本发明提供一种公式主体定位方法、装置、设备及计算机可读存储介质,用于解决现有的公式识别方法定位效果欠佳,获得的公式中往往包含较多的噪声的技术问题。
本发明的第一个方面是提供一种公式主体定位方法,包括:
获取初步定位获得的公式整体数据;
对所述公式整体数据进行分割,获得至少一行公式行数据;
针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
本发明的另一个方面是提供一种公式主体定位装置,包括:
获取模块,用于获取初步定位获得的公式整体数据;
分割模块,用于对所述公式整体数据进行分割,获得至少一行公式行数据;
聚类模块,用于针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
去除模块,用于去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
本发明的又一个方面是提供一种公式主体定位设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如上述的公式主体定位方法。
本发明的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的公式主体定位方法。
本发明提供的公式主体定位方法、装置、设备及计算机可读存储介质,通过获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。从而能够精准地定位到公式主体信息,噪声较低,便于后续的检索、识别操作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的公式主体定位方法的流程示意图;
图2为本发明实施例二提供的公式主体定位方法的流程示意图;
图3为本发明实施例提供的公式整体数据图;
图4为本发明实施例提供的分行后的公式行数据图;
图5为本发明实施例三提供的公式主体定位方法的流程示意图;
图6为本发明实施例提供的连通域提取图;
图7为本发明提供的连通域合并图;
图8为本发明实施例四提供的公式主体定位方法的流程示意图;
图9为本发明实施例五提供的公式主体定位装置的结构示意图;
图10为本发明实施例六提供的公式主体定位设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
现有的公式识别方法一般都是对电子文档进行识别,确定公式所在的位置,对该位置的公式进行整体定位。但是,对于电子文档中的公式而言,由于在布局上存在条件、分段、二维、嵌套等关系,因此,采用上述定位方法定位效果欠佳。举例来说,大量文献中的公式带有后续处理无用的符号信息;而对于多行公式或者方程组公式,整体定位结果不易于检索;对于内嵌公式来说,定位结果中往往包含上下文信息;一些复杂文档中存在图表形式的伪公式,因此,针对上述情况来说,采用整体定位公式的方法获得的公式中往往包含较多的噪声。为了解决上述技术问题,本发明提供了一种公式主体定位方法、装置、设备及计算机可读存储介质。
需要说明的是,本申请提供公式主体定位方法、装置、设备及计算机可读存储介质可运用在对各种文件进行公式定位的场景中。
图1为本发明实施例一提供的公式主体定位方法的流程示意图,如图1所示,所述方法包括:
步骤101、获取初步定位获得的公式整体数据;
步骤102、对所述公式整体数据进行分割,获得至少一行公式行数据;
步骤103、针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
步骤104、去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
本实施例的执行主体为公式主体定位装置。公式主体定位装置可以获取初步定位获得的公式整体数据,其中,该公式整体数据中可以包括多个公式主体以及非公式主体信息等,该公式整体数据的获取可以采用现有任意一种公式定位方法,本发明在此不做限制。获取到公式整体数据之后,由于现有的公式定位方法往往存在噪声,因此,为了提高后续公式定位精度,首先,需要对该公式整体数据进行预处理,其中,预处理包括滤波去躁、二值化以及倾斜矫正等。由于公式整体数据中包括至少一行、至少一个公式主体,因此,为了实现对每一个公式主体的定位,首先需要对该公式整体数据进行分割,将其分割为至少一行公式行数据。可以理解的是,每一行公式行数据中也可以包括至少一个公式主体,因此,针对每一个公式行数据,可以对其进行聚类操作,获取至少一个待选公式主体。需要说明的是,由于待选公式主体中可能包括非公式主体信息,其中,该非公式主体信息可以包括条件词汇以及其他文本,因此,需要对待选公式主体中的非公式主体信息进行去除,获得公式主体。通过上述方法,能够获得至少一个独立的公式主体,从而便于后续的检索以及识别步骤。
本实施例提供的公式主体定位方法,通过获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。从而能够精准地定位到公式主体信息,噪声较低,便于后续的检索、识别操作。
图2为本发明实施例二提供的公式主体定位方法的流程示意图,图3为本发明实施例提供的公式整体数据图,图4为本发明实施例提供的分行后的公式行数据图,在上述任一实施例的基础上,如图2-图4所示,所述方法包括:
步骤201、获取初步定位获得的公式整体数据;
步骤202、对所述公式整体数据进行水平投影;
步骤203、对水平投影值大于预设的合并阈值的公式整体数据进行分割,获得分割后的公式整体数据;
步骤204、计算所述分割后的公式主体数据的投影区间间隔,将投影区间间隔小于预设的分割阈值的分割后的公式主体数据进行合并,获得所述至少一行公式行数据;
步骤205、针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
步骤206、去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
在本实施例中,获取到公式整体数据之后,由于公式整体数据中包括至少一行、至少一个公式主体,因此,为了实现对每一个公式主体的定位,首先需要对该公式整体数据进行分割,将其分割为至少一行公式行数据。具体地,可以对该公式整体数据进行水平投影,对水平投影值连续大于预设的合并阈值的公式整体数据进行分割,获得分割后的公式整体数据。进一步地,例如矩阵、分式等公式主体,往往两行数据中具有间隔,为了保证公式主体的完整性,可以计算分割后的公式主体数据的投影区间间隔,将投影区间间隔小于预设的分割阈值的分割后的公式主体数据进行合并,获得至少一行公式行数据。通过将水平投影值与预设的合并阈值进行比较,并根据比较结果实现分割,从而能够提高分割精度。通过将投影区间间隔与预设的分割阈值进行比较,并根据比较结果实现合并,从而能够保证公式主体的完整性。其中,公式整体数据如图3所示,该公式整体数据中包括两行公式行数据,因此,对该公式整体数据进行分割后,能够得到两行公式行数据,从而便于后续对公式主体进行定位。
本实施例提供的公式主体定位方法,通过对所述公式整体数据进行水平投影,对水平投影值大于预设的合并阈值的公式整体数据进行分割,获得至少一行公式行数据,从而能够便于后续对公式主体进行定位,提高公式主体定位的精确度。
图5为本发明实施例三提供的公式主体定位方法的流程示意图,图6为本发明实施例提供的连通域提取图,图7为本发明提供的连通域合并图,在上述任一实施例的基础上,如图5-图7所示,所述方法包括:
步骤301、获取初步定位获得的公式整体数据;
步骤302、对所述公式整体数据进行分割,获得至少一行公式行数据;
步骤303、针对每一行公式行数据,按照预设的空间顺序,从所述公式行数据中选取初始种子像素;
步骤304、针对各初始种子像素,将与所述初始种子像素相邻并与所述初始种子像素具有相同性质的像素以及所述初始种子像素进行连通,获得至少一个连通域;
步骤305、针对任意两个连通域,判断所述任意两个连通域的几何中心距离是否小于预设的阈值;
步骤306、若是,则合并所述任意两个连通域,获得至少一个待选公式主体;
步骤307、去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
在本实施例中,由于每一行公式行数据中也可以包括至少一个公式主体,因此,针对每一个公式行数据,可以对其进行聚类操作,获取至少一个待选公式主体。具体地,可以选择生长聚类方法实现对公式行数据的聚类操作。针对每一行公式行数据,可以按照预设的空间顺序,从该公式行数据中选取初始子像素。针对各初始子像素,将于该初始子像素相邻并与初始子像素具有相同性质的像素以及初始种子像素进行连通,获得至少一个连通域。针对任意两个连通域,如果两个连通域之间的几何中心距离小于预设的阈值,则表征其属于同一个待选公式主体,因此,可以判断任意两个连通域的几何中心距离是否小于预设的阈值,若是,则对两个连通域进行合并,获得待选公式主体。如图6所示,可以根据初始子像素进行连通,实现连通域的提取,如图7所示,可以对各连通域进行合并,获得至少一个待选公式主体。
本实施例提供的公式主体定位方法,通过针对每一行公式行数据,按照预设的空间顺序,从所述公式行数据中选取初始种子像素,针对各初始种子像素,将与所述初始种子像素相邻并与所述初始种子像素具有相同性质的像素以及所述初始种子像素进行连通,获得至少一个连通域,针对任意两个连通域,判断所述任意两个连通域的几何中心距离是否小于预设的阈值,若是,则合并所述任意两个连通域,获得至少一个待选公式主体,从而能够为公式主体的定位提供基础。
图8为本发明实施例四提供的公式主体定位方法的流程示意图,在上述任一实施例的基础上,如图8所示,所述方法包括:
步骤401、获取初步定位获得的公式整体数据;
步骤402、对所述公式整体数据进行分割,获得至少一行公式行数据;
步骤403、针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
步骤404、将所述待选公式主体与预设的条件词汇表进行比对,判断所述待选公式主体中是否包含所述条件词汇表中的任一条件词汇;
步骤405、若是,则对所述待选公式主体中的条件词汇进行去除。
在本实施例中,由于待选公式主体中包括非公式主体信息,其中,非公式主体信息可以为连接各公式主体的条件词汇,例如if、or等,因此,可以预先建立条件词汇表,该条件词汇表中包括多个条件词汇,因此,获取到待选公式主体之后,可以首先将该待选公式主体与预设的条件词汇表进行比对,判断该待选公式主体中是否包含该条件词汇表中的任一条件词汇,若是,则可以对待选公式主体中的条件词汇进行去除。可选地,若该待选公式主体中不包含该条件词汇表中的任一条件词汇,则表征该待选公式主体中不包含条件词汇,此时可以不对待选公式主体进行处理。
本实施例提供的公式主体定位方法,通过将所述待选公式主体与预设的条件词汇表进行比对,判断所述待选公式主体中是否包含所述条件词汇表中的任一条件词汇,若是,则对所述待选公式主体中的条件词汇进行去除,从而能够提高公式定位的精准度。
可选地,待选公式主体中除条件词汇以外,还可以包括其他非公式主体信息,因此,在上述任一实施例的基础上,所述方法包括:
获取初步定位获得的公式整体数据;
对所述公式整体数据进行分割,获得至少一行公式行数据;
针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
根据所述各待选公式主体中数据的外形以及内容特征,确定所述待选公式主体中的公式主体以及非公式主体信息;
去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
在本实施例中,待选公式主体中除条件词汇以外,还可以包括其他非公式主体信息,因此,获取到待选公式主体之后,根据所述各待选公式主体中数据的外形以及内容特征,确定所述待选公式主体中的公式主体以及非公式主体信息,去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
本实施例提供的公式主体定位方法,通过根据所述各待选公式主体中数据的外形以及内容特征,确定所述待选公式主体中的公式主体以及非公式主体信息;去除所述待选公式主体中的非公式主体信息,获得所述公式主体,从而能够提高公式定位的精准度。
需要说明的是,上述两个实施例可以单独实施,也可以结合实施,当其单独实施时,具体实施方式可参照上述两个实施例,当其结合实施时,首先可以根据预设的条件词汇表实现对待选公式主体中条件词汇的去除,进一步地,针对去除条件词汇的待选公式主体,可以根据各待选公式主体中数据的外形以及内容特征,确定待选公式主体中的公式主体以及非公式主体信息;去除待选公式主体中的非公式主体信息,从而能够进一步地提高定位到的公式主体的精准度。
图9为本发明实施例五提供的公式主体定位装置的结构示意图,如图9所示,所述公式主体定位装置包括:
获取模块51,用于获取初步定位获得的公式整体数据;
分割模块52,用于对所述公式整体数据进行分割,获得至少一行公式行数据;
聚类模块53,用于针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
去除模块54,用于去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
在本实施例中,可以获取初步定位获得的公式整体数据,其中,该公式整体数据中可以包括多个公式主体以及非公式主体信息等,该公式整体数据的获取可以采用现有任意一种公式定位方法,本发明在此不做限制。获取到公式整体数据之后,由于现有的公式定位方法往往存在噪声,因此,为了提高后续公式定位精度,首先,需要对该公式整体数据进行预处理,其中,预处理包括滤波去躁、二值化以及倾斜矫正等。由于公式整体数据中包括至少一行、至少一个公式主体,因此,为了实现对每一个公式主体的定位,首先需要对该公式整体数据进行分割,将其分割为至少一行公式行数据。可以理解的是,每一行公式行数据中也可以包括至少一个公式主体,因此,针对每一个公式行数据,可以对其进行聚类操作,获取至少一个待选公式主体。需要说明的是,由于待选公式主体中可能包括非公式主体信息,其中,该非公式主体信息可以包括条件词汇以及其他文本,因此,需要对待选公式主体中的非公式主体信息进行去除,获得公式主体。通过上述方法,能够获得至少一个独立的公式主体,从而便于后续的检索以及识别步骤。
本实施例提供的公式主体定位装置,通过获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。从而能够精准地定位到公式主体信息,噪声较低,便于后续的检索、识别操作。
进一步地,在上述任一实施例的基础上,所述分割模块包括:
投影单元,用于对所述公式整体数据进行水平投影;
分割单元,用于对水平投影值大于预设的合并阈值的公式整体数据进行分割,获得分割后的公式整体数据;
合并单元,用于计算所述分割后的公式主体数据的投影区间间隔,将投影区间间隔小于预设的分割阈值的分割后的公式主体数据进行合并,获得所述至少一行公式行数据。
进一步地,在上述任一实施例的基础上,所述聚类模块包括:
选取单元,用于针对每一行公式行数据,按照预设的空间顺序,从所述公式行数据中选取初始种子像素;
连通单元,用于针对各初始种子像素,将与所述初始种子像素相邻并与所述初始种子像素具有相同性质的像素以及所述初始种子像素进行连通,获得至少一个连通域;
判断单元,用于针对任意两个连通域,判断所述任意两个连通域的几何中心距离是否小于预设的阈值;
合并单元,用于若是,则合并所述任意两个连通域,获得至少一个待选公式主体。
进一步地,在上述任一实施例的基础上,所述去除模块包括:
比对单元,用于将所述待选公式主体与预设的条件词汇表进行比对,判断所述待选公式主体中是否包含所述条件词汇表中的任一条件词汇;
第一去除单元,用于若是,则对所述待选公式主体中的条件词汇进行去除。
进一步地,在上述任一实施例的基础上,所述去除模块包括:
确定单元,用于根据所述各待选公式主体中数据的外形以及内容特征,确定所述待选公式主体中的公式主体以及非公式主体信息;
第二去除单元,用于去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
图10为本发明实施例六提供的公式主体定位设备的结构示意图,如图10所示,所述公式主体定位设备,包括:存储器61,处理器62;
存储器61;用于存储所述处理器62可执行指令的存储器61;
其中,所述处理器62被配置为由所述处理器62执行如上述的公式主体定位方法。
本发明又一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的公式主体定位方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。