CN106502987A

CN106502987A - 一种基于种子句子的句子模板召回的方法和设备

Info

Publication number: CN106502987A
Application number: CN201610950727.5A
Authority: CN
Inventors: 姚佳
Original assignee: Shenzhen City Artificial Intelligence Technology Co Secluded Orchid In A Deserted Valley
Current assignee: Guangdong Hui He science and Technology Development Co., Ltd.
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2017-03-15
Anticipated expiration: 2036-11-02
Also published as: CN106502987B

Abstract

本发明提出了一种基于种子句子的句子模板召回的方法和设备，具体的，该方法包括：获取数量超过一定数值的与种子句子相关的语料，并确定语料中每个句子的依存句法树；根据依存句法树的结构相似度，基于种子句子的依存句法树的树形结构对语料中每个句子进行召回，确定召回后的句子；对召回后的句子与种子句子进行相关度计算，确定各召回后的句子与种子句子的相关度；基于相关度选取召回的句子作为句子模板。以此使得本发明至少具有以下一个特点：召回句子类型的高丰富度；召回句子基本不存在语法错误；召回句子的组成成分的高丰富度；召回句子的语义偏差很小；召回句子的自带模板化，不需要人工模板化。

Description

一种基于种子句子的句子模板召回的方法和设备

技术领域

本发明涉及信息处理领域，特别涉及一种基于种子句子的句子模板召回的方法和设备。

背景技术

现有技术中，针对句子模板的相似计算中，大多均是根据词的相似度进行计算的。但是根据词的相似度计算，由于只是部分词的替换，因此新召回的句子的与种子句子往往极其相似；这样，会导致召回句子的多样性很差；而且，由于只是对句子中的词进行相似替换，而替换后的词是不是也通用在同样的句子下，在此情况下，召回来的句子很可能是不对的。

发明内容

针对现有技术中的缺陷，本发明提出了一种基于种子句子的句子模板召回的方法和设备，用以克服现有技术中的缺陷。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种基于种子句子的句子模板召回的方法，包括：

获取数量超过一定数值的与种子句子相关的语料，并确定所述语料中每个句子的依存句法树；

根据依存句法树的结构相似度，基于所述种子句子的依存句法树的树形结构对所述语料中每个句子进行召回，将召回的句子设置为初始句子模板；

对各所述初始句子模板进行与所述种子句子的相关度计算，确定各所述初始句子模板与所述种子句子的相关度；

基于所述相关度选取初始句子模板作为句子模板。

在一个具体的实施例中，所述确定所述语料中每个句子的依存句法树，包括：

对所述语料中的每个句子进行依存句法分析，确定每个所述句子的依存句法树。

在一个具体的实施例中，所述相关度包括：结构相关度、语义相关度、词性相关度；

对各所述初始句子模板进行与所述种子句子的相关度计算，确定各所述初始句子模板与所述种子句子的相关度，包括：

对各所述初始句子模板进行与所述种子句子的结构相关度计算，确定各所述初始句子模板与所述种子句子的结构相关度；

对所述初始句子模板进行与所述种子句子的语义相关度计算，确定各所述初始句子模板与所述种子句子的语义相关度；

对所述初始句子模板进行与所述种子句子的词性相关度计算，确定各所述初始句子模板与所述种子句子的词性相关度。

所述基于所述相关度选取初始句子模板作为句子模板，包括：

针对各初始句子模板，判断与所述种子句子的结构相关度、语义相关度、词性相关度的数值总和是否大于设置的阈值；

若判断结果为是，选取所述召回的初始句子模板作为句子模板。

在一个具体的实施例中，所述阈值基于所述种子句子进行设置。

本发明实施例还提出了一种基于种子句子的句子模板召回的设备，包括：

获取模块，用于获取数量超过一定数值的与种子句子相关的语料；

第一确定模块，用于确定所述语料中每个句子的依存句法树；

第二确定模块，用于根据依存句法树的结构相似度，基于所述种子句子的依存句法树的树形结构对所述语料中每个句子进行召回，将召回的句子设置为初始句子模板；

第三确定模块，用于对各所述初始句子模板进行与所述种子句子的相关度计算，确定各所述初始句子模板与所述种子句子的相关度；

选取模块，用于基于所述相关度选取初始句子模板作为句子模板。

在一个具体的实施例中，所述第一确定模块，用于：

所述第三确定模块，用于：

所述选取模块，用于：

与现有技术相比，本发明提出了一种基于种子句子的句子模板召回的方法和设备，具体的，该方法包括：获取数量超过一定数值的与种子句子相关的语料，并确定所述语料中每个句子的依存句法树；根据依存句法树的结构相似度，基于所述种子句子的依存句法树的树形结构对所述语料中每个句子进行召回，将召回的句子设置为初始句子模板；对各所述初始句子模板进行与所述种子句子的相关度计算，确定各所述初始句子模板与所述种子句子的相关度；基于所述相关度选取初始句子模板作为句子模板。以此使得本发明至少具有以下一个特点：召回句子类型的高丰富度；召回句子基本不存在语法错误；召回句子的组成成分的高丰富度；召回句子的语义偏差很小；召回句子的自带模板化，不需要人工模板化。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种基于种子句子的句子模板召回的方法的流程示意图；

图2为本发明实施例提出的一种依存句法树的示意图；

图3为本发明实施例提出的一种基于所述相关度选取初始句子模板作为句子模板的方法的流程示意图；

图4为本发明实施例提出的一种基于种子句子的句子模板召回的方法的流程示意图

图5为本发明实施例提出的一种基于种子句子的句子模板召回的设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和出示的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体的，本发明提出了以下具体的实施例：

实施例1

本发明实施例1提出了一种基于种子句子的句子模板召回的方法，如图1所示，包括以下步骤：

步骤101、获取数量超过一定数值的与种子句子相关的语料；

具体的，相关可以为领域相关，例如种子句子为“今天的湘菜很好吃”属于美食领域，由此可以获取数量超过一定数值的为美食领域的语料；当然，其他领域的也是同样的，例如还可以为新闻句子，也即属于新闻领域等等。此外具体的数量越多越好，只有下限，而没有上限，获取的数量越多，召回的句子模板就越多，越准确。

步骤102、确定所述语料中每个句子的依存句法树；

具体的，步骤102，也即确定所述语料中每个句子的依存句法树，包括：

具体的，依存句法是由法国语言学家L.Tesniere最先提出。具体的依存句法分析是将句子分析成一颗依存句法树，通过依存句法树描述出各个词语之间的依存关系，也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。

一个具体的应用场景中，例如句子“会议宣布了首批资深院士名单。”的依存句法树如图2所示：

从图2可以看出，词“宣布”支配“会议”、“了”和“名单”，故可以将这些支配词作为“宣布”的搭配词。

具体的，步骤101以及步骤102，可以获取大量待匹配召回的句子，然后对句子进行依存句法分析，这样就可以得到大量待匹配召回的句子模板，也即各个句子块，其中的核心就是依存句法分析，可以自动将句子进行分块，也就保证了我们无需人工进行句子的模板化、模块化。

步骤103、根据依存句法树的结构相似度，基于所述种子句子的依存句法树的树形结构对所述语料中每个句子进行召回，将召回的句子设置为初始句子模板；

在一个具体的实施例中，对种子句子也进行同样的依存句法分析，然后可以得到种子句子的依存句法树，也即代表实际所需要的句子模板的树形结构(具体的，可能由于所需要的不是完整的句子，如此会导致种子句子存在有多个树型结构，但是这多个树形结构可以保证均是在同一个句子树中)；然后根据种子句子的树型结构对语料中的每个句子进行相似召回，以此保证了初步召回的句子模板(也即初始句子模板)中，与种子句子在结构上呈现一定的相似性，也就保证了句子的丰富度与种子句子模板的丰富度有一定程度上是一致的。

步骤104、对各所述初始句子模板进行与所述种子句子的相关度计算，确定各所述初始句子模板与所述种子句子的相关度；

所述相关度包括：结构相关度、语义相关度、词性相关度；

具体的，该步骤是对初始句子模板与种子句子进行更深层次的相似计算，为例避免语义偏差过大。分别要去重新计算种子句子与初始句子模板的结构相似性(也就是与种子句子在结构上相似程度的计算分值)、语义相似性(也就是与种子句子的语义相似性)、词性相似性(与种子句子的词性组成相似性，关于词性，例如可以有形容词，名词，副词等等分类)。

其中，关于结构相关度的计算，首先判断种子句子的树形结构是否在待召回的模板的树形结构中；如果在，就是相似(1.0)；如果不在，就是不相似。而针对不相似的，可以再进行种子句子模板树形结构的树拆分(直接按照叶子结点各种拆分)，看拆分出来的树(即根到叶子结点的路径与深度)是否在待召回的模板的树形结构中，看有多少比例p在里面，相似度即为0.5*p。这样就得到了结构相关度。

关于语义相关度：利用word2vec直接去计算两个句子的词义相关度，两两计算，计算均值。其中，Word2vec为一用来产生词嵌入的模型。这些模型为浅层和双层神经网络，用来训练以重新建构语言学之词文本，网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词的顺序是不重要的，训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。

关于词性相关度，直接得到两个句子模板的词性，看种子句子模板中的词性，有多少比例p在待召回的句子中，词性相关度即为p。

步骤105、基于所述相关度选取初始句子模板作为句子模板。

具体的，所述相关度包括：结构相关度、语义相关度、词性相关度；

具体的，步骤105，也即所述基于所述相关度选取初始句子模板作为句子模板，如图3所示，包括以下步骤：

步骤1051、针对各初始句子模板，判断与所述种子句子的结构相关度、语义相关度、词性相关度的数值总和是否大于设置的阈值；具体的，所述阈值可以是基于所述种子句子进行设置的。

步骤1052、若判断结果为是，选取所述召回的初始句子模板作为句子模板。当然若是判断结果为否，则直接丢弃。

具体的，在一个具体的实施例中，本方案的一个具体方案的流程示意图可以如图4所示，本发明多角度考虑了句子模板的结构相似性，保证句子结构上相似，使得句子模板的丰富度得到一定的保证；语义相似性，保证句子语义上是相似的，保证了召回来的句子模板在语义上不会出现大量的偏差；词性相似性，保证句子的结构词性组成上相似的，保证了召回来的句子模板在结构组成上不会有大偏差。

在基于词替换句子模板召回中，存在多样性不足、可能语法错误等问题，而本发明实施例中通过结构相似性进行召回，即召回了大量的类似结果的句子模板，也就是说保证了召回句子的多样性；另外，由于本发明直接在真实语料中进行召回的，也就保证了召回来的句子本身是不存在语法问题的；以此规避了基于词替换的句子模板召回存在的缺陷。

此外，在本发明中，利用依存句法分析进行句子结构分析句子，保证了召回的句子模板中，丰富度可与种子句子模板的丰富度是相当的；本方案在句子模板的结构相似性、语义相似性、词性相似性上进行多角度考虑，更加充分的保证了召回来的句子的语义是更为一致的，也就保证了召回句子模板的语义偏差大大削弱；而且，本方案利用了依存句法分析，直接根据种子句子模板进行召回，而且召回来的句子在结构上与种子句子模板是一致的，而且也有召回句子模板的句法树，这样也就直接到了召回句子的模板结构特性，根本不需要再进行人工重新模板化的问题。

实施例2

本发明实施例2还提出了一种基于种子句子的句子模板召回的设备，如图5所示，包括：

获取模块201，用于获取数量超过一定数值的与种子句子相关的语料；

第一确定模块202，用于确定所述语料中每个句子的依存句法树；

第二确定模块203，用于根据依存句法树的结构相似度，基于所述种子句子的依存句法树的树形结构对所述语料中每个句子进行召回，将召回的句子设置为初始句子模板；

第三确定模块204，用于对各所述初始句子模板进行与所述种子句子的相关度计算，确定各所述初始句子模板与所述种子句子的相关度；

选取模块205，用于基于所述相关度选取初始句子模板作为句子模板。

在一个具体的实施例中，所述第一确定模块202，用于：

所述第三确定模块204，用于：

所述选取模块205，用于：

与现有技术相比，本发明提出了一种基于种子句子的句子模板召回的方法和设备，具体的，该方法包括：获取数量超过一定数值的与种子句子相关的语料，并确定所述语料中每个句子的依存句法树；根据依存句法树的结构相似度，基于所述种子句子的依存句法树的树形结构对所述语料中每个句子进行召回，确定召回后的句子；对召回后的句子与所述种子句子进行相关度计算，确定各召回后的句子与所述种子句子的相关度；基于所述相关度选取召回的句子作为句子模板。以此使得本发明至少具有以下一个特点：召回句子类型的高丰富度；召回句子基本不存在语法错误；召回句子的组成成分的高丰富度；召回句子的语义偏差很小；召回句子的自带模板化，不需要人工模板化。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，该模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、***或装置，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于种子句子的句子模板召回的方法，其特征在于，包括：

基于所述相关度选取初始句子模板作为句子模板。

2.如权利要求1所述的方法，其特征在于，所述确定所述语料中每个句子的依存句法树，包括：

3.如权利要求1所述的方法，其特征在于，所述相关度包括：结构相关度、语义相关度、词性相关度；

4.如权利要求1所述的方法，其特征在于，所述相关度包括：结构相关度、语义相关度、词性相关度；

5.如权利要求4所述的方法，其特征在于，所述阈值基于所述种子句子进行设置。

6.一种基于种子句子的句子模板召回的设备，其特征在于，包括：

7.如权利要求6所述的设备，其特征在于，所述第一确定模块，用于：

8.如权利要求6所述的设备，其特征在于，所述相关度包括：结构相关度、语义相关度、词性相关度；

所述第三确定模块，用于：

9.如权利要求6所述的设备，其特征在于，所述相关度包括：结构相关度、语义相关度、词性相关度；

所述选取模块，用于：

10.如权利要求9所述的设备，其特征在于，所述阈值基于所述种子句子进行设置。