CN110399601B - 一种识别文档顺序的方法、装置、存储介质及电子设备 - Google Patents
一种识别文档顺序的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110399601B CN110399601B CN201910684298.5A CN201910684298A CN110399601B CN 110399601 B CN110399601 B CN 110399601B CN 201910684298 A CN201910684298 A CN 201910684298A CN 110399601 B CN110399601 B CN 110399601B
- Authority
- CN
- China
- Prior art keywords
- sentence
- sentences
- candidate
- position information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 77
- 230000015654 memory Effects 0.000 claims description 23
- 210000002569 neuron Anatomy 0.000 claims description 8
- 230000002093 peripheral effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种识别文档顺序的方法、装置、存储介质及电子设备,其中,该方法包括:提取目标文档中的每个字,将相邻的一个或多个字连成句子,并确定句子的位置信息;根据句子的语义信息和句子的位置信息生成句子的句子向量;将目标文档中的一个句子作为目标句子,从其他句子中选取出多个候选句子,确定具有最高上下句概率的候选句子;重复上述过程,直至确定所有句子的上下句关系,并生成文档顺序。通过本发明实施例提供的识别文档顺序的方法、装置、存储介质及电子设备,无需人工总结阅读顺序规则,可直接确定文档顺序,节省人力;基于包含语义信息和位置信息的句子向量确定两个句子之间的上下句概率,可显著提高上下句判定的准确率。
Description
技术领域
本发明涉及识别文档顺序的技术领域,具体而言,涉及一种识别文档顺序的方法、装置、存储介质及电子设备。
背景技术
目前,由于各种各样的原因,书籍文档(包括电子文档)中的排放布局方式越来越多样化,越来越复杂,而机器一般自动化按顺序理解文档,文档复杂的排版布局会导致顺序理解出错的问题。
传统的方案是基于人类总结的特定规律进行顺序分析的手段,避免机器理解时顺序出错。但是传统手段需要对每一种布局规律都人为的进行总结,消耗人力;此外,由于人力有限,且排版布局方式越来越多,无法达到高精度和高泛化性的问题。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种识别文档顺序的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种识别文档顺序的方法,包括:
提取目标文档中的每个字,并分别确定每个所述字在所述目标文档中的位置信息;
根据所述字的位置信息,将在预设方向上相邻的一个或多个字连成句子,并根据连成所述句子的字的位置信息确定所述句子的位置信息;
确定每个所述句子的语义信息,根据所述句子的语义信息和所述句子的位置信息生成所述句子的句子向量;
将所述目标文档中的一个句子作为目标句子,根据所述目标句子的位置信息与其他句子的位置信息,从其他句子中选取出多个候选句子;
根据所述目标句子的句子向量和所述候选句子的句子向量确定具有最高上下句概率的候选句子,并将所述具有最高上下句概率的候选句子作为所述目标句子的下一句;
将所述具有最高上下句概率的候选句子作为目标句子,重复上述过程,直至确定所述目标文档中所有句子的上下句关系,并生成所述目标文档的文档顺序。
第二方面,本发明实施例还提供了一种识别文档顺序的装置,包括:
字提取模块,用于提取目标文档中的每个字,并分别确定每个所述字在所述目标文档中的位置信息;
句子生成模块,用于根据所述字的位置信息,将在预设方向上相邻的一个或多个字连成句子,并根据连成所述句子的字的位置信息确定所述句子的位置信息;
句子向量生成模块,用于确定每个所述句子的语义信息,根据所述句子的语义信息和所述句子的位置信息生成所述句子的句子向量;
上下句关系确定模块,用于将所述目标文档中的一个句子作为目标句子,根据所述目标句子的位置信息与其他句子的位置信息,从其他句子中选取出多个候选句子;根据所述目标句子的句子向量和所述候选句子的句子向量确定具有最高上下句概率的候选句子,并将所述具有最高上下句概率的候选句子作为所述目标句子的下一句;
文档顺序生成模块,用于将所述具有最高上下句概率的候选句子作为目标句子,重复上述过程,直至确定所述目标文档中所有句子的上下句关系,并生成所述目标文档的文档顺序。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的识别文档顺序的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的识别文档顺序的方法。
本发明实施例上述第一方面提供的方案中,首先基于目标文档中字的位置确定文档中的句子,并以句子为单位生成包含该句子的语义信息和位置信息的句子向量,进而基于句子向量可以确定每个句子所对应的下一句。该方式无需人工总结阅读顺序规则,无需人工干预,使用端到端的方法可直接确定文档顺序,节省人力;基于包含语义信息和位置信息的句子向量确定两个句子之间的上下句概率,所确定的上下句概率更加准确,可显著提高上下句判定的准确率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种识别文档顺序的方法的流程图;
图2示出了本发明实施例所提供的识别文档顺序的方法中,确定具有最高上下句概率的候选句子的具体方法流程图;
图3示出了本发明实施例所提供的孪生网络的结构示意图;
图4示出了本发明实施例所提供的一种识别文档顺序的装置的结构示意图;
图5示出了本发明实施例所提供的用于执行识别文档顺序的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种识别文档顺序的方法,参见图1所示,包括:
步骤101:提取目标文档中的每个字,并分别确定每个字在目标文档中的位置信息。
本发明实施例中,目标文档即为需要识别文档中句子顺序的文档,该目标文档具体可以为文本格式(例如txt、word、pdf等)的文档,也可以为包含文字的图片等。同时,本发明实施例在提取出目标文档中的所有字的同时,还确定每个字在该目标文档中的位置,即位置信息;该位置信息具体可以为坐标值的形式,比如字的质心位置的坐标值,或者该字四个角的坐标值等。其中,可利用OCR(Optical Character Recognition,光学字符识别)技术或其他解析工具来提取出目标文档中的字以及每个字的位置信息。
步骤102:根据字的位置信息,将在预设方向上相邻的一个或多个字连成句子,并根据连成句子的字的位置信息确定句子的位置信息。
本发明实施例中,可以预先设置一个距离阈值,若两个字之间的距离小于该距离阈值,则确定这两个字是相邻的。其中,该距离阈值可根据目标文档的实际情况而定。此外,也可以通过其他方式来确定两个字是否相邻,本实施例中对此不做限定。
同时,为了避免将某个字四周的所有相邻的字均连成一个句子,本实施例中选取在预设方向上相邻的字。一般情况下,现代的文字都是横向书写的,该预设方向一般为横向方向;即将一横排中相邻的一个或多个字连成句子。
需要说明的是,此处的“句子”是由多个字组成的集合,该“句子”与传统意义上的句子并不相同;本实施例中的“句子”只是在预设方向上某个区域的文字,该“句子”可能是传统意义上的一个完整的句子,也可能是传统意义上的多个句子,还可能是传统意义上不完整的一个句子,具体是由该目标文档的排版以及内容决定的。
本发明实施例中,在确定目标文档的句子后,即可根据该句子中字的位置信息确定句子的位置信息。具体的,上述步骤102中“根据连成句子的字的位置信息确定句子的位置信息”包括:
步骤A1:根据连成句子的字的位置信息确定句子的关键点的位置信息,关键点是位于句子***位置的点。
本发明实施例中,首先确定句子的关键点,该关键点是位于句子***位置的点。本实施例中,***位置指的是句子四周边界的位置;具体的,可以将该句子看作一个矩形,矩形的周边所在的位置即为***位置。句子的关键点具体可以为句子边界的四个角。
步骤A2:将所有关键点的位置信息作为预设的自动编码器网络的输入,将自动编码器网络的隐含层的向量化输出作为句子的位置信息;隐含层的神经元的数量不小于关键点的数量。
本发明实施例中,利用预先训练好的自动编码器网络来确定句子整体的位置信息,且句子的位置信息是向量化的信息。具体的,传统自动编码器网络(Auto Encoder)一般用于数据降维,本实施例中增加自动编码器网络的隐含层的神经元的数量,且神经元的数量不小于关键点的数量,之后直接从隐含层中提取出位置特征,即只利用自动编码器网络的编码(encoding)部分,并将该提取出来的位置特征作为句子的位置信息。利用更多数量的神经元可以提取出更多的位置特征,使得后续识别文档顺序时可以更加准确。具体的,可通过一层全连接的深度神经网络进行编码,实现对句子的位置信息的提取以及向量化。
此外,也可通过其他方式来确定该句子向量化的位置信息,例如分别对每个关键点的位置信息进行向量化,并组合为该句子的向量化的位置信息。
步骤103:确定每个句子的语义信息,根据句子的语义信息和句子的位置信息生成该句子的句子向量。
本发明实施例中,每个句子是有连续的字组成的,句子具有相应的语义含义,即语义信息。在提取出句子的语义信息后,即可生成包含语义信息和位置信息的句子向量。具体的,句子的语义信息为向量化的信息,句子的位置信息也是向量化的信息,将句子的语义信息和句子的位置信息进行拼接,即可生成包含句子的语义信息和句子的位置信息的句子向量。
可选的,上述步骤103“确定每个句子的语义信息”包括:
步骤B1:对句子进行分词处理,确定句子每个分词的词向量。
步骤B2:将句子的所有词向量作为预设的长短期记忆网络的输入,将长短期记忆网络的向量化输出作为句子的语义信息。
本发明实施例中,可基于分词模型对句子进行分词处理,确定每个句子的分词;之后使用深度学习中的词向量技术将每一个词进行向量化表示,即确定每个分词的词向量。其中,可基于Word2vec等词向量模型确定每个分词的词向量。在确定词向量后,基于预先训练好的长短期记忆网络(Long Short Term Memory,LSTM)进行编码,从而可以得到该句子向量化的语义信息。
步骤104:将目标文档中的一个句子作为目标句子,根据目标句子的位置信息与其他句子的位置信息,从其他句子中选取出多个候选句子。
本发明实施例中,首先从目标文档中选取一个目标句子,以该目标句子为开始确定句子之间的上下句关系。其中,在最开始时可以将文档最顶端或左上角的句子作为目标句子。之后根据句子的位置信息即可选取出该目标句子的候选句子。该候选句子可能是该目标句子的下一个句子。本领域技术人员可以理解,“目标句子”本质上也是该目标文档中的一个句子,命名为“目标句子”只是为了方便后续描述。
可选的,上述步骤104中“从其他句子中选取出多个候选句子”包括:
步骤C1:在未确定上下句关系的句子中选取与目标句子在横向方向或纵向方向上相邻的句子作为候选句子。
本发明实施例中,一般情况下,与目标句子相邻的句子可能是该目标句子的下一句,即可能是一个候选句子。具体的,将在横向方向上与目标句子相邻的句子作为候选句子,以及/或者,将在纵向方向上与目标句子相邻的句子作为候选句子。此外,由于句子都是按照从上往下、从左往右的方式排列,可以将该目标句子下方以及右方的相邻的句子作为候选句子。
步骤C2:根据句子的位置信息对目标文档中的所有句子进行分组,将每一组中未确定上下句关系的首个句子作为候选句子。
本发明实施例中,目标文档中的句子一般是成组存在的,比如左右分栏的文档,其可分为左右两组。同一分组中的句子是相靠近的,即可基于句子的位置信息实现对句子的分组。具体的,可通过聚类算法实现句子分组。对于每一组中的首个句子,其可能是其他分组中最后一个句子的下一句,故本实施例中将该首个句子也作为候选句子。
可选的,一般情况下,当该目标句子的下方具有相邻的句子时,一般下方的句子就是该目标句子的下一句;故可以在目标句子的下方不存在相邻的句子时,再执行步骤C2。
此外,本实施例中当确定某个句子的下一句时,则该句子即是已经确认了上下句关系的句子,否则该句子是未确定上下句关系的句子。从未确定上下句关系的句子中挑选候选句子,可以减小候选句子的数量,从而降低后续的处理量,提高处理效率。
步骤105:根据目标句子的句子向量和候选句子的句子向量确定具有最高上下句概率的候选句子,并将具有最高上下句概率的候选句子作为目标句子的下一句。
本发明实施例中,目标句子与候选句子之间设有上下句概率,即该候选句子是该目标句子的下一句的概率(或者该目标句子是该候选句子的上一句的概率)。该上下句概率越高,说明相应的候选句子越可能是该目标句子的下一句,即可以将具有最高上下句概率的候选句子作为目标句子的下一句,即可以确定该目标句子的上下句关系。
同时,本实施例中基于包含语义信息和位置信息的句子向量确定两个句子(即目标句子和候选句子)之间的上下句概率,所确定的上下句概率更加准确,即可以更加准确地确定目标句子的下一句是哪个句子。例如,句子A为目标句子,句子B、C、D是三个候选句子,句子B位于句子A的左侧,句子C位于句子A的下侧,句子D位于句子A的右侧;且句子A与句子B可以连成一个句子,句子A与句子C也可以连成一个句子。由于下一句一般位于当前句子的下方、右方或右上方等,此时基于句子的句子向量即可确定句子C最有可能是句子A的下一句。若仅仅基于语义信息或者位置信息,有时并不能准确确定目标句子的下一句。
步骤106:将具有最高上下句概率的候选句子作为目标句子,重复上述过程,直至确定目标文档中所有句子的上下句关系,并生成目标文档的文档顺序。
本发明实施例中,在确定目标句子的下一句之后,即可将该下一句作为新的目标句子,重复上述的步骤104-步骤105的过程,直至确定所有句子的上下句关系,从而可以确定该文档的文档顺序。
本发明实施例提供的一种识别文档顺序的方法,首先基于目标文档中字的位置确定文档中的句子,并以句子为单位生成包含该句子的语义信息和位置信息的句子向量,进而基于句子向量可以确定每个句子所对应的下一句。该方式无需人工总结阅读顺序规则,无需人工干预,使用端到端的方法可直接确定文档顺序,节省人力;基于包含语义信息和位置信息的句子向量确定两个句子之间的上下句概率,所确定的上下句概率更加准确,可显著提高上下句判定的准确率。
在上述实施例的基础上,参加图2所示,上述步骤105中“确定具有最高上下句概率的候选句子”包括:
步骤1051:选取两个候选句子作为待定候选句子,根据目标句子的句子向量和两个待定候选句子的句子向量确定具有较高上下句概率的待定候选句子,并将具有较高上下句概率的待定候选句子作为有效候选句子。
步骤1052:将有效候选句子与其他未被选取过的一个候选句子作为两个待定候选句子,重复上述确定具有较高上下句概率的待定候选句子的过程,直至遍历所有的候选句子,并将最终确定的有效候选句子作为具有最高上下句概率的候选句子。
本发明实施例中,当只存在两个候选句子时,基于步骤1051即可将所确定的具有较高上下句概率的待定候选句子作为具有最高上下句概率的候选句子;当存在超过两个的候选句子时,即可按照上述步骤1051-1052的过程,通过依次两两比较两个候选句子,最终确定具有最高上下句概率的候选句子。本实施例中,通过依次两两比较的方式最终确定具有最高上下句概率的候选句子,可以更加准确地选取出具有较高上下句概率的候选句子。
此外,在确定最终的有效候选句子之后,单独计算目标句子与该有效候选句子之间的上下句概率,若该上下句概率高于预设阈值,则将该最终确定的有效候选句子作为具有最高上下句概率的候选句子。由于目标句子可能是某段落的最后一句,而候选句子是下一段落的第一句,二者在语义上的关联可能不大,即该目标句子不存在下一句;此时可以在其他句子中重新选取目标句子,继续上述过程。
可选的,也可对候选句子两两分组,同步确定每一组中的有效候选句子,之后再对有效候选句子作为待定候选句子进行两两分组,再次同步确定每一组中的有效候选句子,直至最终确定具有最高上下句概率的候选句子。
在上述实施例的基础上,步骤1051“确定具有较高上下句概率的待定候选句子”包括:
步骤D1:预设训练过的孪生网络,孪生网络包括第一孪生子网络、第二孪生子网络和第三孪生子网络,且所述第二孪生子网络和第三孪生子网络具有相同的参数。
步骤D2:将目标句子的句子向量作为第一孪生子网络的输入,将两个待定候选句子的句子向量分别作为第二孪生子网络和第三孪生子网络的输入,根据孪生网络的输出确定具有较高上下句概率的待定候选句子。
本发明实施例中的孪生网络与传统的了孪生网络并不相同。本实施例中的孪生网络包含三个子网络,即第一孪生子网络、第二孪生子网络和第三孪生子网络,三个子网络分别输入作为上句的目标句子的句子向量、可能作为下句的一个候选句子的句子向量、可能作为下句的另一个候选句子的句子向量,该孪生网络的输出即为哪个候选句子具有更高的上下句概率。该孪生网络的结构可参见图3所示;其中,用于输入两个候选句子的孪生子网络相同,即第二孪生子网络和第三孪生子网络具有相同的参数。
在图3中,对于目标句子A,挑选出两个可能是下句的候选句子B和候选句子C,将三个句子的句子向量分别输入值三个孪生子网络中,即将目标句子A的句子向量V_A送入代表上句的第一孪生子网络,将候选句子B、C的句子向量V_B、V_C分别送入使用代表下句的第二孪生子网络和第三孪生子网络。该孪生网络计算A与B、A与C之间的上下句概率,输出候选句子B相比于候选句子C更可能为目标句子A的下句的概率值,该概率值大于50%,则认为候选句子B为目标句子A的下句,否则候选句子C为目标句子A的下句。基于孪生网络可以更加准确地确定具有较高上下句概率的候选句子。
本发明实施例提供的一种识别文档顺序的方法,首先基于目标文档中字的位置确定文档中的句子,并以句子为单位生成包含该句子的语义信息和位置信息的句子向量,进而基于句子向量可以确定每个句子所对应的下一句。该方式无需人工总结阅读顺序规则,无需人工干预,使用端到端的方法可直接确定文档顺序,节省人力;基于包含语义信息和位置信息的句子向量确定两个句子之间的上下句概率,所确定的上下句概率更加准确,可显著提高上下句判定的准确率。利用更多数量的神经元可以提取出更多的位置特征,使得后续识别文档顺序时可以更加准确。利用孪生网络,通过依次两两比较的方式最终确定具有最高上下句概率的候选句子,可以更加准确地选取出具有较高上下句概率的候选句子。
以上详细介绍了识别文档顺序的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种识别文档顺序的装置,参见图4所示,包括:
字提取模块41,用于提取目标文档中的每个字,并分别确定每个所述字在所述目标文档中的位置信息;
句子生成模块42,用于根据所述字的位置信息,将在预设方向上相邻的一个或多个字连成句子,并根据连成所述句子的字的位置信息确定所述句子的位置信息;
句子向量生成模块43,用于确定每个所述句子的语义信息,根据所述句子的语义信息和所述句子的位置信息生成所述句子的句子向量;
上下句关系确定模块44,用于将所述目标文档中的一个句子作为目标句子,根据所述目标句子的位置信息与其他句子的位置信息,从其他句子中选取出多个候选句子;根据所述目标句子的句子向量和所述候选句子的句子向量确定具有最高上下句概率的候选句子,并将所述具有最高上下句概率的候选句子作为所述目标句子的下一句;
文档顺序生成模块45,用于将所述具有最高上下句概率的候选句子作为目标句子,重复上述过程,直至确定所述目标文档中所有句子的上下句关系,并生成所述目标文档的文档顺序。
在上述实施例的基础上,所述句子生成模块42根据连成所述句子的字的位置信息确定所述句子的位置信息包括:
根据连成所述句子的字的位置信息确定所述句子的关键点的位置信息,所述关键点是位于所述句子***位置的点;
将所有所述关键点的位置信息作为预设的自动编码器网络的输入,将所述自动编码器网络的隐含层的向量化输出作为所述句子的位置信息;所述隐含层的神经元的数量不小于所述关键点的数量。
在上述实施例的基础上,所述句子向量生成模块43确定每个所述句子的语义信息包括:
对所述句子进行分词处理,确定所述句子每个分词的词向量;
将所述句子的所有词向量作为预设的长短期记忆网络的输入,将所述长短期记忆网络的向量化输出作为所述句子的语义信息。
在上述实施例的基础上,所述句子向量生成模块43根据所述句子的语义信息和所述句子的位置信息生成所述句子的句子向量包括:
将所述句子的语义信息和所述句子的位置信息进行拼接,生成包含所述句子的语义信息和所述句子的位置信息的句子向量。
在上述实施例的基础上,所述上下句关系确定模块44从其他句子中选取出多个候选句子包括:
在未确定上下句关系的句子中选取与所述目标句子在横向方向或纵向方向上相邻的句子作为候选句子;
根据句子的位置信息对所述目标文档中的所有句子进行分组,将每一组中未确定上下句关系的首个句子作为候选句子。
在上述实施例的基础上,所述上下句关系确定模块44确定具有最高上下句概率的候选句子包括:
选取两个候选句子作为待定候选句子,根据所述目标句子的句子向量和两个所述待定候选句子的句子向量确定具有较高上下句概率的待定候选句子,并将具有较高上下句概率的待定候选句子作为有效候选句子;
将所述有效候选句子与其他未被选取过的一个候选句子作为两个待定候选句子,重复上述确定具有较高上下句概率的待定候选句子的过程,直至遍历所有的候选句子,并将最终确定的有效候选句子作为具有最高上下句概率的候选句子。
在上述实施例的基础上,所述上下句关系确定模块44确定具有较高上下句概率的待定候选句子包括:
预设训练过的孪生网络,所述孪生网络包括第一孪生子网络、第二孪生子网络和第三孪生子网络,且所述第二孪生子网络和第三孪生子网络具有相同的参数;
将所述目标句子的句子向量作为所述第一孪生子网络的输入,将两个所述待定候选句子的句子向量分别作为所述第二孪生子网络和所述第三孪生子网络的输入,根据所述孪生网络的输出确定具有较高上下句概率的待定候选句子。
本发明实施例提供的一种识别文档顺序的装置,首先基于目标文档中字的位置确定文档中的句子,并以句子为单位生成包含该句子的语义信息和位置信息的句子向量,进而基于句子向量可以确定每个句子所对应的下一句。该方式无需人工总结阅读顺序规则,无需人工干预,使用端到端的方法可直接确定文档顺序,节省人力;基于包含语义信息和位置信息的句子向量确定两个句子之间的上下句概率,所确定的上下句概率更加准确,可显著提高上下句判定的准确率。利用更多数量的神经元可以提取出更多的位置特征,使得后续识别文档顺序时可以更加准确。利用孪生网络,通过依次两两比较的方式最终确定具有最高上下句概率的候选句子,可以更加准确地选取出具有较高上下句概率的候选句子。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的识别文档顺序的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图5示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的识别文档顺序的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种识别文档顺序的方法,其特征在于,包括:
提取目标文档中的每个字,并分别确定每个所述字在所述目标文档中的位置信息;
根据所述字的位置信息,将在预设方向上相邻的一个或多个字连成句子,并根据连成所述句子的字的位置信息确定所述句子的位置信息;
确定每个所述句子的语义信息,根据所述句子的语义信息和所述句子的位置信息生成所述句子的句子向量;
将所述目标文档中的一个句子作为目标句子,根据所述目标句子的位置信息与其他句子的位置信息,从其他句子中选取出多个候选句子;
根据所述目标句子的句子向量和所述候选句子的句子向量确定具有最高上下句概率的候选句子,并将所述具有最高上下句概率的候选句子作为所述目标句子的下一句;
将所述具有最高上下句概率的候选句子作为目标句子,重复上述根据所述目标句子的位置信息与其他句子的位置信息,从其他句子中选取出多个候选句子,根据所述目标句子的句子向量和所述候选句子的句子向量确定具有最高上下句概率的候选句子,并将所述具有最高上下句概率的候选句子作为所述目标句子的下一句的过程,直至确定所述目标文档中所有句子的上下句关系,并生成所述目标文档的文档顺序。
2.根据权利要求1所述的方法,其特征在于,所述根据连成所述句子的字的位置信息确定所述句子的位置信息包括:
根据连成所述句子的字的位置信息确定所述句子的关键点的位置信息,所述关键点是位于所述句子***位置的点;
将所有所述关键点的位置信息作为预设的自动编码器网络的输入,将所述自动编码器网络的隐含层的向量化输出作为所述句子的位置信息;所述隐含层的神经元的数量不小于所述关键点的数量。
3.根据权利要求1所述的方法,其特征在于,所述确定每个所述句子的语义信息包括:
对所述句子进行分词处理,确定所述句子每个分词的词向量;
将所述句子的所有词向量作为预设的长短期记忆网络的输入,将所述长短期记忆网络的向量化输出作为所述句子的语义信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述句子的语义信息和所述句子的位置信息生成所述句子的句子向量包括:
将所述句子的语义信息和所述句子的位置信息进行拼接,生成包含所述句子的语义信息和所述句子的位置信息的句子向量。
5.根据权利要求1所述的方法,其特征在于,所述从其他句子中选取出多个候选句子包括:
在未确定上下句关系的句子中选取与所述目标句子在横向方向或纵向方向上相邻的句子作为候选句子;
根据句子的位置信息对所述目标文档中的所有句子进行分组,将每一组中未确定上下句关系的首个句子作为候选句子。
6.根据权利要求1-5任一所述的方法,其特征在于,所述确定具有最高上下句概率的候选句子包括:
选取两个候选句子作为待定候选句子,根据所述目标句子的句子向量和两个所述待定候选句子的句子向量确定具有较高上下句概率的待定候选句子,并将具有较高上下句概率的待定候选句子作为有效候选句子;
将所述有效候选句子与其他未被选取过的一个候选句子作为两个待定候选句子,重复上述确定具有较高上下句概率的待定候选句子的过程,直至遍历所有的候选句子,并将最终确定的有效候选句子作为具有最高上下句概率的候选句子。
7.根据权利要求6所述的方法,其特征在于,所述确定具有较高上下句概率的待定候选句子包括:
预设训练过的孪生网络,所述孪生网络包括第一孪生子网络、第二孪生子网络和第三孪生子网络,且所述第二孪生子网络和第三孪生子网络具有相同的参数;
将所述目标句子的句子向量作为所述第一孪生子网络的输入,将两个所述待定候选句子的句子向量分别作为所述第二孪生子网络和所述第三孪生子网络的输入,根据所述孪生网络的输出确定具有较高上下句概率的待定候选句子。
8.一种识别文档顺序的装置,其特征在于,包括:
字提取模块,用于提取目标文档中的每个字,并分别确定每个所述字在所述目标文档中的位置信息;
句子生成模块,用于根据所述字的位置信息,将在预设方向上相邻的一个或多个字连成句子,并根据连成所述句子的字的位置信息确定所述句子的位置信息;
句子向量生成模块,用于确定每个所述句子的语义信息,根据所述句子的语义信息和所述句子的位置信息生成所述句子的句子向量;
上下句关系确定模块,用于将所述目标文档中的一个句子作为目标句子,根据所述目标句子的位置信息与其他句子的位置信息,从其他句子中选取出多个候选句子;根据所述目标句子的句子向量和所述候选句子的句子向量确定具有最高上下句概率的候选句子,并将所述具有最高上下句概率的候选句子作为所述目标句子的下一句;
文档顺序生成模块,用于将所述具有最高上下句概率的候选句子作为目标句子,重复所述上下句关系确定模块所执行的上述过程,直至确定所述目标文档中所有句子的上下句关系,并生成所述目标文档的文档顺序。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-7任意一项所述的识别文档顺序的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任意一项所述的识别文档顺序的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910684298.5A CN110399601B (zh) | 2019-07-26 | 2019-07-26 | 一种识别文档顺序的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910684298.5A CN110399601B (zh) | 2019-07-26 | 2019-07-26 | 一种识别文档顺序的方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110399601A CN110399601A (zh) | 2019-11-01 |
CN110399601B true CN110399601B (zh) | 2023-07-07 |
Family
ID=68325161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910684298.5A Active CN110399601B (zh) | 2019-07-26 | 2019-07-26 | 一种识别文档顺序的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399601B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688606A (zh) * | 2021-07-30 | 2021-11-23 | 达观数据(苏州)有限公司 | 一种自动化进行文档报告写作的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350656A (ja) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
CN107193792A (zh) * | 2017-05-18 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的生成文章的方法和装置 |
CN107766325A (zh) * | 2017-09-27 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 文本拼接方法及其装置 |
CN108664465A (zh) * | 2018-03-07 | 2018-10-16 | 珍岛信息技术(上海)股份有限公司 | 一种自动生成文本方法以及相关装置 |
-
2019
- 2019-07-26 CN CN201910684298.5A patent/CN110399601B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350656A (ja) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
CN107193792A (zh) * | 2017-05-18 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的生成文章的方法和装置 |
CN107766325A (zh) * | 2017-09-27 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 文本拼接方法及其装置 |
CN108664465A (zh) * | 2018-03-07 | 2018-10-16 | 珍岛信息技术(上海)股份有限公司 | 一种自动生成文本方法以及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110399601A (zh) | 2019-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6710483B2 (ja) | 損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体 | |
CN110825857B (zh) | 多轮问答识别方法、装置、计算机设备及存储介质 | |
CN111814466A (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
CN110866402B (zh) | 一种命名实体识别的方法、装置、存储介质及电子设备 | |
CN109446885B (zh) | 一种基于文本的元器件识别方法、***、装置和存储介质 | |
CN112380853B (zh) | 业务场景交互方法、装置、终端设备及存储介质 | |
CN110362832B (zh) | 一种段落合并的方法、装置、存储介质及电子设备 | |
CN112949476B (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN112307820B (zh) | 文本识别方法、装置、设备和计算机可读介质 | |
CN112633423B (zh) | 文本识别模型的训练方法、文本识别方法、装置及设备 | |
JP4834351B2 (ja) | 文字認識装置及び文字認識方法 | |
CN110399601B (zh) | 一种识别文档顺序的方法、装置、存储介质及电子设备 | |
CN115527244A (zh) | 一种指纹图像匹配方法、装置、计算机设备及存储介质 | |
CN115546809A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN109871544B (zh) | 基于中文病历的实体识别方法、装置、设备及存储介质 | |
CN113408536A (zh) | 票据的金额识别方法、装置、计算机设备及存储介质 | |
CN117216279A (zh) | Pdf文件的文本提取方法、装置、设备及存储介质 | |
CN115578736A (zh) | 证件信息提取方法、装置、存储介质及设备 | |
CN115797955A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN111027325B (zh) | 一种模型生成方法、实体识别方法、装置及电子设备 | |
CN109902724B (zh) | 基于支持向量机的文字识别方法、装置和计算机设备 | |
CN108304540B (zh) | 一种文本数据识别方法、装置及相关设备 | |
Xiu et al. | Towards whole-book recognition | |
US20140289264A1 (en) | One pass submatch extraction | |
CN110928987A (zh) | 基于神经网络混合模型的法律条文检索方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |