CN110728143A

CN110728143A - 用于文档关键语句识别的方法与设备

Info

Publication number: CN110728143A
Application number: CN201910900141.1A
Authority: CN
Inventors: 翟光景; 田进太; 赵庆平; 刘益东
Original assignee: Shanghai Midu Information Technology Co Ltd
Current assignee: Shanghai Midu Information Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-24

Abstract

本申请的目的是提供一种文档关键语句识别的方法与设备。与现有技术相比，本申请通过基于文档中的文字内容对文档进行分词处理，获得所述文档对应的多个词条；计算每个词条的词条重要性分值，确定词条重要性分值排名靠前的M个词条，其中，M为预设值；对所述文档进行分句处理，获得关于该文档的句子集合；遍历所述句子集合，将包含所述M个词条中的一个或多个的句子筛选出来；基于所述M个词条的词条重要性分值，计算筛选出来的句子的句子重要性分值，确定句子重要性分值最高的一个或多个句子作为文档关键语句，通过这种方式能够准确的识别文档的关键语句，便于了解文档内容。

Description

用于文档关键语句识别的方法与设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种用于文档关键语句识别的技术。

背景技术

由于公开网站中存在着海量的文档数据，而对于文档来说，通常存在着能够表征该文档信息的中心句，即文档中的关键语句，如果能够对关键语句进行提取则能够很快的了解文档信息，有助于对文档的分享或者归类等等，但是现有技术中未有对文档的关键语句进行识别的技术。

发明内容

本申请的目的是提供一种用于文档关键语句识别的方法与设备。

根据本申请的一个方面，提供了一种用于文档关键语句识别的方法，其中，该方法包括：

基于文档中的文字内容对文档进行分词处理，获得所述文档对应的多个词条；

计算每个词条的词条重要性分值，确定词条重要性分值排名靠前的M个词条，其中，M为预设值；

对所述文档进行分句处理，获得关于该文档的句子集合；

遍历所述句子集合，将包含所述M个词条中的一个或多个的句子筛选出来；

基于所述M个词条的词条重要性分值，计算筛选出来的句子的句子重要性分值，确定句子重要性分值最高的一个或多个句子作为文档关键语句。

进一步地，其中，所述基于文档中的文字内容对文档进行分词处理，获得所述文档对应的多个词条包括：

获取所述文档的标题和正文；

基于所述文档的标题和正文的文字内容分别对其进行分词处理，获得多个标题词条及正文词条；

其中，所述方法还包括：

对所述标题词条增加预设的权重，以对增加权重后的标题词条计算词条重要性分值。

进一步地，其中，所述方法还包括：

对筛选出来的句子作语义分析，根据语义分析结果为筛选出来的句子分别赋予预设的权重值；

其中，所述基于所述M个词条的词条重要性分值，计算筛选出来的句子的句子重要性分值，确定句子重要性分值最高的一个或多个句子作为文档关键语句包括：

基于所述M个词条的重要性分值以及所述预设的权重值，计算筛选出来的句子的句子重要性分值，确定句子重要性分值最高的一个或多个句子作为文档关键语句。

进一步地，其中，所述方法还包括：

获取公开的D篇文档作为基础语料集合，其中，所述D为预设值；

对所述基础语料集合中的文档进行分词处理，获得基础词条；

其中，所述基于文档中的文字内容对文档进行分词处理，获得所述文档对应的多个词条包括：

基于文档中的文字内容对文档进行分词处理，并基于所述基础词条，获得所述文档对应的多个词条。

进一步地，其中，所述计算每个词条的重要性分值公式为：

f_i＝tf_i,j乘以idf_i，其中，

，其中，n代表词条在文档中出现的次数，D为基础语料的数目，|{j∶t_i∈d_j}|代表基础语料中包含该词条的文件的数目。

进一步地，其中，所述基于所述M个词条的词条重要性分值，计算筛选出来的句子的句子重要性分值对应的计算公式为：

F_i＝句子中包含的M个词条中的一个或多个词条的词条重要性分值之和进一步地，其中，基于所述M个词条的重要性分值以及所述预设的权重值，计算筛选出来的句子的句子重要性分值对应的计算公式为：

S_i＝F_i+E_i，其中，E_i代表第i个句子预设的权重值。

根据本申请的另一方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述方法的操作。

根据本申请的再一方面，还提供了一种用于文档关键语句识别的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。

与现有技术相比，本申请通过基于文档中的文字内容对文档进行分词处理，获得所述文档对应的多个词条；计算每个词条的词条重要性分值，确定词条重要性分值排名靠前的M个词条，其中，M为预设值；对所述文档进行分句处理，获得关于该文档的句子集合；遍历所述句子集合，将包含所述M个词条中的一个或多个的句子筛选出来；基于所述M个词条的词条重要性分值，计算筛选出来的句子的句子重要性分值，确定句子重要性分值最高的一个或多个句子作为文档关键语句，通过这种方式能够准确的识别文档的关键语句，便于了解文档内容。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用于文档关键语句识别的方法流程图；

图2示出根据本申请一个优选实施例的一种用于分词处理的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为更进一步阐述本申请所采取的技术手段及取得的效果，下面结合附图及较佳实施例，对本申请的技术方案，进行清楚和完整的描述。

图1示出本申请一个方面提供的一种用于文档关键语句识别的方法流程图。所述方法在设备1执行，该方法包括以下步骤：

S11基于文档中的文字内容对文档进行分词处理，获得所述文档对应的多个词条；

S12计算每个词条的词条重要性分值，确定词条重要性分值排名靠前的M个词条，其中，M为预设值；

S13对所述文档进行分句处理，获得关于该文档的句子集合；

S14遍历所述句子集合，将包含所述M个词条中的一个或多个的句子筛选出来；

S15基于所述M个词条的词条重要性分值，计算筛选出来的句子的句子重要性分值，确定句子重要性分值最高的一个或多个句子作为文档关键语句。

在该实施例中，在所述步骤S11中，设备1基于文档中的文字内容对文档进行分词处理，获得所述文档对应的多个词条。

在本申请中，所述设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。在此，具体的设备1在本申请中不做任何限定。

具体地，设备1获取所述文档的全部文字内容，并基于文字内容对文档进行分词处理，具体的分词方式可以基于现有的分词方式进行分词，另外，将来可能出现的分词方式如适用于本申请也应包含在本申请的保护范围内，在此，以引用的方式包含于此。

如图2示出本申请一个优选实施例的一种用于分词处理的方法流程图。其中，第一步，会进行变量初始化，其中，S1为待切分字串，S2为将要输出的切分后的词串，其中，设置了切分的词串的最大词长MaxLen，以对切出的词串的长度进行控制。

优选地，其中，所述步骤S11包括：获取所述文档的标题和正文；基于所述文档的标题和正文的文字内容分别对其进行分词处理，获得多个标题词条及正文词条；

其中，所述方法还包括：对所述标题词条增加预设的权重，以对增加权重后的标题词条计算词条重要性分值。

在该实施例中，可以对文档的标题和正文分别进行分词处理，由于标题部分的分词对于文档来说可能更具有重要性，因此，对于标题分词后获得的词条增加预设的权重，例如，假设标题分词后的频次为n，若增加预设的权重a后，变为a与n之乘积，其中，a为大于1的数字，在此，对于a的具体数值不做具体限定。

继续在该实施例中，在所述步骤S12中，设备1计算每个词条的词条重要性分值，确定词条重要性分值排名靠前的M个词条，其中，M为预设值。

具体地，设备1可以统计切分出的每个词条的出现频次，可以通过出现频次来表征词条的词条重要性分值，例如，可以直接每个词条的出现频次作为词条重要性分值，也可以将对频次归一化后的数值作为词条重要性分值，在此，不做具体限定。在计算出词条的词条重要性分值后，选出排名靠前的M个词条，在此，M可以预设，具体数值不做限定。

继续在该实施例中，在所述步骤S13中，设备1对所述文档进行分句处理，获得关于该文档的句子集合。具体地，可以按照标点符号对文档进行分句处理，例如，基于逗号或者句号或者其他标点符号对一个句子进行分句处理，获得关于该文档的句子集合。

继续在该实施例中，在所述步骤S14中，设备1遍历所述句子集合，将包含所述M个词条中的一个或多个的句子筛选出来。具体地，对文档进行分句处理后，对每个句子进程匹配查找，查看句子中是否包含上述M个词条中的一个或多个，若句子中包含所述M个词条中的一个或多个，则将所述句子筛选出来。

继续在该实施例中，在所述步骤S15中，设备1基于所述M个词条的词条重要性分值，计算筛选出来的句子的句子重要性分值，确定句子重要性分值最高的一个或多个句子作为文档关键语句。

具体地，所述句子重要性分值可以基于词条的重要性分值之和，例如，若某个句子包含M个词条中的P个，其中，P为小于M的数值，则将该P个词条的词条重要性分值相加即可得到该句子的句子重要性分值。

将所有的句子的句子重要性分值计算出来后进行排序，将句子重要性分值最高的一个或多个句子作为文档关键语句。

优选地，其中，所述方法还包括：S16(未示出)对筛选出来的句子作语义分析，根据语义分析结果为筛选出来的句子分别赋予预设的权重值；

其中，所述步骤S15包括：

在该实施例中，还会将筛选出来的句子做语义分析，例如，分析句子中是否包含主谓宾等等，然后根据根据语义分析结果为筛选出来的句子分别赋予预设的权重值。例如，将有主谓宾的句子预设权重值为Q，将只有主谓的句子预设权重值为Y，其他情况的预设权重值为0，其中，Q>Y，且对具体数值不做限定。在此，上述权重赋值的情况仅为举例，其他现有的或者今后可能出现的赋值情况，如适用于本申请也应包含在本申请的保护范围内，在此，以引用的方式包含于此。

在该实施例中，对于句子重要性分值的计算除了基于所述M个词条的重要性分值，还会基于每个句子的预设的权重值，例如，将每个句子中包含的M个词条中的一个或多个的词条重要性分值相加之后，再与所述权重值相乘即可得到该句子的句子重要性分值，在此，所述权重值大于一，或者，将每个句子中包含的M个词条中的一个或多个的词条重要性分值相加之后，再与所述权重值相加即可得到该句子的句子重要性分值。在此，所述句子重要性分值的计算方式仅为举例，其他现有的或者今后可能出现的计算方式如适用于本申请，也应包含在本申请的保护范围内，在此，以引用的方式包含于此。

优选地，其中，所述方法还包括：S17(未示出)获取公开的D篇文档作为基础语料集合，其中，所述D为预设值；对所述基础语料集合中的文档进行分词处理，获得基础词条；

其中，所述步骤S11包括：基于文档中的文字内容对文档进行分词处理，并基于所述基础词条，获得所述文档对应的多个词条。

在该实施例中，会通过获取公开的文档来进行分词处理，获得基础词条库，例如，收集各大新闻网站的新闻和资讯共计30万条，来作为基础语料集合，通过对这些基础语料集合来进行分词处理，获得基础词条，也即够造出词条词典，以便于后续对文档进行分词。在此，对于D的具体数值不做限定，其中，D越大构建的基础词条库越好、越全面。其中，分词处理的流程图可以如图2所示。

在本申请的一实施例中，对于识别文档中的关键语句包括如下步骤：

步骤一：准备基础语料，例如，收集各大新闻网站的新闻和资讯共计D条；

步骤二：对基础语料进行分词处理，处理流程如图2所示，其中，分词结果记为集合W，W＝{{d₁,(w₁,w₂,w₃,...w_n)},{d₂,(w₁,w₂,w₃,...w_n)}...{d_n,(w₁,w₂,w₃,...w_n)}}，其中d_i表示文档，w_i表示词条；

步骤三：设需要进行关键词识别的文档为X，首先对X按照图2分别对标题和正文进行分词处理，分词结果记为：

标题分词结果:W_t＝{(w_t1,n₁),(w_t2,n₂),..(w_tn,n_n)}、

正文分词结果:W_c＝{(w_c1,n₁),(w_c2,n₂),..(w_cn,n_n)}

其中w_i为词条，n_i为该词的词频。

步骤四：对W_t增加权重a，即增加预设权重a后的标题分词结果为：W_ta＝{(w_t1,a*n₁),(w_t2,a*n₂),..(w_tn,a*n_n)}；

步骤五：利用加权后的W_ta与W_c计算X中每个词条的词条重要性分值，其中，词条重要性分值公式为：

f_i＝tf_i,j乘以idf_i，其中，

，其中，n代表词条在文档中出现的次数，D为基础语料的数目，|{j：t_i∈d_j}|代表基础语料中包含该词条的文件的数目。

从中确定M个词条重要性分值最高的top_m个词条top_m＝{(w_t1，f₁)，(w_t2，f₂),...(w_tm，f_m)}其中w_i为词条，f_i为对应的词条的词条重要性分值；

步骤六：对文档X按照标点符号进行分句处理，获得句子集合S，遍历S，将句子中包含任何一个或多个top_m中的词条时筛选出来，筛选出的句子集合记为S_t；

步骤七：对S_t中的每个句子S_i计算其在文档中的句子重要性分值F_i

F_i＝句子中包含的M个词条中的一个或多个词条的词条重要性分值之和，计算结果集记为S_tf＝{(S₁，F₁)，(S₂，F₂)，...(S_n，F_n)}；

步骤八：对S_t中的每个句子S_i进行语义分析。S_i中主谓宾都有的设定为权重Q，只有主谓的设定权重为Y，其中，Q>Y，其他情况设定权重为0。设S_i对应的权重为E_i，则S_t的权重集合为S_te＝{(S₁，Ε₁)，(S₂，Ε₂)，...(S_n，Ε_n)}；

步骤九：基于所述M个词条的重要性分值以及所述预设的权重值，计算筛选出来的句子的句子重要性分值，得到：S_tfe＝{(S₁，Ε₁+F₁)，(S₂，Ε₂+F₂)，...(S_n，Ε_n+F_n)}，将其中句子重要性分值最高的一个或多个句子确定为文档的关键语句。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述方法。

本申请实施例还提供了一种用于文档关键语句识别的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行前述方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：基于文档中的文字内容对文档进行分词处理，获得所述文档对应的多个词条；

计算每个词条的词条重要性分值，确定词条重要性分值排名靠前的M个词条，其中，M为预设值；对所述文档进行分句处理，获得关于该文档的句子集合；遍历所述句子集合，将包含所述M个词条中的一个或多个的句子筛选出来；基于所述M个词条的词条重要性分值，计算筛选出来的句子的句子重要性分值，确定句子重要性分值最高的一个或多个句子作为文档关键语句。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于文档关键语句识别的方法，其中，该方法包括：

对所述文档进行分句处理，获得关于该文档的句子集合；

2.根据权利要求1所述的方法，其中，所述基于文档中的文字内容对文档进行分词处理，获得所述文档对应的多个词条包括：

获取所述文档的标题和正文；

其中，所述方法还包括：

3.根据权利要求1或2所述的方法，其中，所述方法还包括：

4.根据权利要求1至3中任一项所述的方法，其中，所述方法还包括：

5.根据权利要求4所述的方法，其中，所述计算每个词条的重要性分值公式为：

f_i＝tf_i,j乘以idf_i，其中，

，

其中，n代表词条在文档中出现的次数，D为基础语料的数目，|{j：t_i∈d_j}|代表基础语料中包含该词条的文件的数目。

6.根据权利要求5所述的方法，其中，所述基于所述M个词条的词条重要性分值，计算筛选出来的句子的句子重要性分值对应的计算公式为：

F_i＝句子中包含的M个词条中的一个或多个词条的词条重要性分值之和。

7.根据权利要求6所述的方法，其中，基于所述M个词条的重要性分值以及所述预设的权重值，计算筛选出来的句子的句子重要性分值对应的计算公式为：

S_i＝F_i+E_i，其中，E_i代表第i个句子预设的权重值。

8.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。

9.一种用于文档关键语句识别的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至7中任一项所述方法的操作。