CN112559691B

CN112559691B - 语义相似度的确定方法及确定装置、电子设备

Info

Publication number: CN112559691B
Application number: CN202011530931.4A
Authority: CN
Inventors: 陈海波; 唐光远; 罗琴; 张俊杰; 李润静
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-11-14
Anticipated expiration: 2040-12-22
Also published as: CN112559691A

Abstract

本发明公开了一种语义相似度的确定方法及确定装置、电子设备。其中，该方法包括：采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构；将目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度；分别对待比较语句进行分词处理，得到多个语句关键词；确定语句关键词之间的关键词相似度；将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。本发明解决了相关技术中在确定文本语义相似度时，容易受到语句长度限制，文本相似度检测的准确度低的技术问题。

Description

语义相似度的确定方法及确定装置、电子设备

技术领域

本发明涉及文本分析技术领域，具体而言，涉及一种语义相似度的确定方法及确定装置、电子设备。

背景技术

相关技术中，自然语言处理是文本分析方面的重要内容，通过自然语言处理能够了解到文本相似度或者文本中各个语句之间的相似度，文本相似度计算是自然语言处理领域中一项重要议题，在文本分类、智能问答、信息检索、抄袭检测等任务上都需要文本相似度计算做支撑。目前，常见的深度学习类方法需要依赖大型语料库以及额外的辅助信息来进行训练，耗费时间长，但在某些领域下，例如工业领域中工艺技术文档，涉及技术保密，大规模数据集并不好获取，且很多应用需要实时计算，这种情况下，由于缺少大规模领域语料库，无法进行网络训练，也就无法进行文本相似度计算；另外，基于词重叠的方法，例如，Jaccard相似度系数法、IDF重叠法等计算文本语句相似度时，只考虑词的相似度，而忽略了语法结构；而基于距离的语义相似度计算法，例如Shortest Path法、Weighted Links法、CCSK法，虽然考虑了语法结构，但在句子长度非常敏感，句子较长情况下，精度较差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语义相似度的确定方法及确定装置、电子设备，以至少解决相关技术中在确定文本语义相似度时，容易受到语句长度限制，文本相似度检测的准确度低的技术问题。

根据本发明实施例的一个方面，提供了一种语义相似度的确定方法，包括：采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，所述依存句法树用于指示语句单位内成分之间的关联关系和句法结构；将所述目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度；分别对所述待比较语句进行分词处理，得到多个语句关键词；确定语句关键词之间的关键词相似度；将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。

可选地，在采用依存句法树分别抽取待比较语句中的目标句法块集合之前，所述确定方法还包括：确定每个待比较语句中的词语数量；引入与所述词语数量对应的根节点的节点集；确定待比较语句中各词语之间的关联关系，得到依存关系边集；基于所述根节点的节点集和所述依存关系边集，构建表示依存句法树的二元组。

可选地，在特征向量空间中计算待比较语句之间的句法相似度的步骤，包括：抽取所述待比较语句的句法结构和句法块；将所述句法块中的单词在所述特征向量空间中进行转换，得到词向量；拼接所有的词向量，得到语句向量；基于所述语句向量，计算待比较语句之间的句法相似度。

可选地，分别对所述待比较语句进行分词处理，得到多个语句关键词的步骤，包括：采用预设语言技术平台，对所述待比较语句中的词性进行标注处理，得到词性标注结果；基于所述词性标注结果，对所述待比较语句进行分词处理，输出分词序列和词性序列；基于所述分词序列和词性序列，得到多个语句关键词。

可选地，确定语句关键词之间的关键词相似度的步骤，包括：根据词性标注结果，将语句关键词映射至预设可重叠圆形树图HCT，以定位所述待比较语句的直接概念节点；根据所述直接概念节点在所述预设可重叠圆形树图HCT中的树图位置，扩展所述语句关键词的上下语义概念节点，以得到与所述直接概念节点对应的扩展概念节点集合，其中，所述扩展概念节点集合内至少包括：直接概念节点的父节点和子节点；基于所述直接概念节点和所述扩展概念节点集合，计算语句关键词之间的关键词相似度。

可选地，基于所述直接概念节点和所述扩展概念节点集合，计算语句关键词之间的关键词相似度的步骤，包括：采用广度优先遍历方式，遍历所述直接概念节点和所述扩展概念节点集合，形成所述预设可重叠圆形树图HCT的词语概念向量；基于所述词语概念向量，计算语句关键词之间的关键词相似度。

可选地，将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度的步骤，包括：确定对应于句法相似度的第一权重因子；确定对应于关键词相似度的第二权重因子；基于句法相似度、第一权重因子、关键词相似度和第二权重因子，计算待比较语句之间的语义相似度。

根据本发明实施例的另一方面，还提供了一种语义相似度的确定方法，包括：采用依存句法树抽取待比较语句中的目标句法块集合，其中，所述依存句法树用于指示语句单位内成分之间的关联关系和句法结构；确定所述目标句法块集合中包含的各个句法块的特征向量，并基于所述各个句法块的特征向量确定待比较语句之间的句法相似度；分别对所述待比较语句进行分词处理，得到多个语句关键词；确定语句关键词之间的关键词相似度；依据所述句法相似度和所述关键词相似度共同确定待比较语句之间的语义相似度。

根据本发明实施例的另一方面，还提供了一种语义相似度的确定装置，包括：第一抽取单元，用于采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，所述依存句法树用于指示语句单位内成分之间的关联关系和句法结构；第一映射单元，用于将所述目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度；第一分词单元，用于分别对所述待比较语句进行分词处理，得到多个语句关键词；第一确定单元，用于确定语句关键词之间的关键词相似度；第二确定单元，用于将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。

可选地，所述语义相似度的确定装置还包括：第一确定模块，用于在采用依存句法树分别抽取待比较语句中的目标句法块集合之前，确定每个待比较语句中的词语数量；引入与所述词语数量对应的根节点的节点集；第二确定模块，用于确定待比较语句中各词语之间的关联关系，得到依存关系边集；第一构建模块，用于基于所述根节点的节点集和所述依存关系边集，构建表示依存句法树的二元组。

可选地，所述第一映射单元包括：第一抽取模块，用于抽取所述待比较语句的句法结构和句法块；第一转换模块，用于将所述句法块中的单词在所述特征向量空间中进行转换，得到词向量；第一拼接模块，用于拼接所有的词向量，得到语句向量；第一计算模块，用于基于所述语句向量，计算待比较语句之间的句法相似度。

可选地，所述第一分词单元包括：第一标注模块，用于采用预设语言技术平台，对所述待比较语句中的词性进行标注处理，得到词性标注结果；第一分词模块，用于基于所述词性标注结果，对所述待比较语句进行分词处理，输出分词序列和词性序列；第三确定模块，用于基于所述分词序列和词性序列，得到多个语句关键词。

可选地，所述第一确定单元包括：第一映射模块，用于根据词性标注结果，将语句关键词映射至预设可重叠圆形树图HCT，以定位所述待比较语句的直接概念节点；第一扩展模块，用于根据所述直接概念节点在所述预设可重叠圆形树图HCT中的树图位置，扩展所述语句关键词的上下语义概念节点，以得到与所述直接概念节点对应的扩展概念节点集合，其中，所述扩展概念节点集合内至少包括：直接概念节点的父节点和子节点；第二计算模块，用于基于所述直接概念节点和所述扩展概念节点集合，计算语句关键词之间的关键词相似度。

可选地，所述第二计算模块包括：第一遍历子模块，用于采用广度优先遍历方式，遍历所述直接概念节点和所述扩展概念节点集合，形成所述预设可重叠圆形树图HCT的词语概念向量；计算子模块，用于基于所述词语概念向量，计算语句关键词之间的关键词相似度。

可选地，所述第二确定单元包括：第四确定模块，用于确定对应于句法相似度的第一权重因子；确定对应于关键词相似度的第二权重因子；第三计算模块，用于基于句法相似度、第一权重因子、关键词相似度和第二权重因子，计算待比较语句之间的语义相似度。

根据本发明实施例的另一方面，还提供了一种语义相似度的确定装置，包括：第二抽取单元，用于采用依存句法树抽取待比较语句中的目标句法块集合，其中，所述依存句法树用于指示语句单位内成分之间的关联关系和句法结构；第三确定单元，用于确定所述目标句法块集合中包含的各个句法块的特征向量，并基于所述各个句法块的特征向量确定待比较语句之间的句法相似度；第二分词单元，用于分别对所述待比较语句进行分词处理，得到多个语句关键词；第四确定单元，用于确定语句关键词之间的关键词相似度；第五确定单元，用于依据所述句法相似度和所述关键词相似度共同确定待比较语句之间的语义相似度。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的语义相似度的确定方法。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的语义相似度的确定方法。

本发明实施例中，采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构，将目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度，分别对待比较语句进行分词处理，得到多个语句关键词，确定语句关键词之间的关键词相似度，将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。在该实施例中，可以不受语句长度限制，适应任何句长下的语义相似度计算，能够提升多文本语义关键信息的提取精度，从而解决相关技术中在确定文本语义相似度时，容易受到语句长度限制，文本相似度检测的准确度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语义相似度的确定方法的流程图；

图2是根据本发明实施例中的另一种可选的分析语句的语义相似度的示意图；

图3是根据本发明实施例的另一种可选的语义相似度的确定方法的流程图；

图4是根据本发明实施例的一种可选的语义相似度的确定装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明可应用于各种需要进行文本语义、句子语义相似度计算的环境中，例如，语音对答、文本分类、信息检索、抄袭检测等实施任务所在的环境，尤其是对于涉及数据保密方面(例如工业背景下，新技术工艺方法的制定，常需查找比对以往技术文档所需操作规范、使用物料等，或自动生成通用技术文档)，在无法获得大量训练数据或者缺失训练数据的情况下，能够高精度的进行文本相似度计算。

本发明中，在文本语义计算和语句语义计算方面，处理语义相似度计算的电子设备硬件要求低，无需等待深度学习网络模型训练时间，实时且高精度的查找出最匹配信息。即不需要依赖大型语料库训练，可根据依存句法树，来做快速的领域关键词相似度计算。下面结合各个实施例来详细说明本发明。

实施例一

根据本发明实施例，提供了一种语义相似度的确定方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的语义相似度的确定方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构；

步骤S104，将目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度；

步骤S106，分别对待比较语句进行分词处理，得到多个语句关键词；

步骤S108，确定语句关键词之间的关键词相似度；

步骤S110，将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。

通过上述步骤，可以采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构，将目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度，分别对待比较语句进行分词处理，得到多个语句关键词，确定语句关键词之间的关键词相似度，将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。在该实施例中，可以不受语句长度限制，适应任何句长下的语义相似度计算，能够提升多文本语义关键信息的提取精度，从而解决相关技术中在确定文本语义相似度时，容易受到语句长度限制，文本相似度检测的准确度低的技术问题。

下面结合上述各实施步骤对本发明实施例进行详细说明。

本发明实施例，可在依存句法树的基础上，抽取目标句法块，映射到相应的高维度特征向量空间中，在高维特征空间中计算句法的相似度。

可选的，在采用依存句法树分别抽取待比较语句中的目标句法块集合之前，确定方法还包括：确定每个待比较语句中的词语数量；引入与词语数量对应的根节点的节点集；确定待比较语句中各词语之间的关联关系，得到依存关系边集；基于根节点的节点集和依存关系边集，构建表示依存句法树的二元组。

待比较语句的数量可以为多个，例如，两个语句、三个语句等。本发明实施例中以两个待比较语句进行示意性说明，该待比较语句可以为一个文本中的两个语句，或者两个文本中各自抽取的待比较语句，待比较语句的句长并不限定。

本发明实施例中，可通过依存句法分析法，构建出依存句法树，得到语句单位内成分之间的依存关系并揭示其句法结构。

例如，设定依存句法树中句子S＝{m₁,m₂,……,m_n}，由n个词组成，句子S的依存句法树可表示为一个二元组T＝(V,E)，V＝{root，m₁,m₂,……,m_n}为引入根节点的节点集，E＝{e₁,……,e_m}为词与词之间依存关系边集。e_i＝(m_i,m_j,tag)，tag为两个词语之间的某种依存关系。通过一个二元组表示对应于语句的依存句法树。

步骤S102，采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构。

本发明实施例涉及的目标句法块可以是指语句的主要句法块(Syntactic-block)，在依存句法树的基础上，抽取主要句法块(Syntactic-block)，映射到相应的高维度特征向量空间中，在高维特征空间中计算句法的相似度。例如，抽取目标句法块包括：主语块、谓语块和宾语块，主语块包含主语词和主语修饰词；谓语块和宾语块同理。

语句单位内成分之间的关联关系可以是包括但不限于：词与词之间的先后关系、词语之间的文字重复率、词语之间的句法关系。上述的句法结构可以包括但不限于：主谓宾结构等。

步骤S104，将目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度。

本发明实施例中，在特征向量空间中计算待比较语句之间的句法相似度的步骤，包括：抽取待比较语句的句法结构和句法块；将句法块中的单词在特征向量空间中进行转换，得到词向量；拼接所有的词向量，得到语句向量；基于语句向量，计算待比较语句之间的句法相似度。

通过抽取任意句长的句法结构，尤其是在句子较长的情况下，也可以完整抽取句子主谓宾这种主要语法结构，并在Syntactic block基础上进行句法的相似度计算。在抽取句法块后，可以将句法块中的词转为词向量，即对每个目标句法块中的单词在向量空间中进行转换，形成加权和形式的单词向量。将主语块向量、谓语块向量和宾语块向量进行拼接形成句向量，再计算两个待比较语句之间的语法相似度。

步骤S106，分别对待比较语句进行分词处理，得到多个语句关键词。

可选的，分别对待比较语句进行分词处理，得到多个语句关键词的步骤，包括：采用预设语言技术平台，对待比较语句中的词性进行标注处理，得到词性标注结果；基于词性标注结果，对待比较语句进行分词处理，输出分词序列和词性序列；基于分词序列和词性序列，得到多个语句关键词。

本发明实施例涉及的预设语言技术平台可以为LTP，使用LTP对句子中词性进行标注，LTP基于结构化感知器，以最大熵原则建模，给定句子分词序列X求其Score函数最大值对应的词性序列Y。

步骤S108，确定语句关键词之间的关键词相似度。

作为本发明可选的实施例，确定语句关键词之间的关键词相似度的步骤，包括：根据词性标注结果，将语句关键词映射至预设可重叠圆形树图HCT，以定位待比较语句的直接概念节点；根据直接概念节点在预设可重叠圆形树图HCT中的树图位置，扩展语句关键词的上下语义概念节点，以得到与直接概念节点对应的扩展概念节点集合，其中，扩展概念节点集合内至少包括：直接概念节点的父节点和子节点；基于直接概念节点和扩展概念节点集合，计算语句关键词之间的关键词相似度。

将语句关键词映射至预设可重叠圆形树图HCT，来定位句子的直接概念节点，然后根据直接概念节点在HCT中的位置进行扩展，查找该节点的父节点和子节点形成扩展概念节点集合，根据树的优先遍历列形成基于领域HCT树的概念向量。

可选的，基于直接概念节点和扩展概念节点集合，计算语句关键词之间的关键词相似度的步骤，包括：采用广度优先遍历方式，遍历直接概念节点和扩展概念节点集合，形成预设可重叠圆形树图HCT的词语概念向量；基于词语概念向量，计算语句关键词之间的关键词相似度。

在本发明实施例中，将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度的步骤，包括：确定对应于句法相似度的第一权重因子；确定对应于关键词相似度的第二权重因子；基于句法相似度、第一权重因子、关键词相似度和第二权重因子，计算待比较语句之间的语义相似度。

句法相似度和多个领域词相似度加权求和，输出两个待比较语句的语义相似度。

通过上述实施例，可以在依存句法树的基础上，抽取目标句法块，并映射到相应的特征向量空间中，在特征向量空间中计算句法的相似度，根据词性标注，将领域内的关键词映射到HCT树，并扩充上下语义概念节点，相比于单纯词重叠角度计算相似度，更加充分利用了其语义信息，并利用树的优先遍历形成词的概念向量，来计算领域关键词的相似度，最后将句法相似度和关键词相似度加权求和，得到语义文本相似度。

本发明实施例在得到语句之间的相似度后，重复该语句之间的文本相似度求取过程，以获得文本之间的语义相似度。

下面结合另一种可选的实施方式来说明本发明实施例。

本发明实施例中，以求取句子S1和句子S2的语义相似度为例进行示意说明。

图2是根据本发明实施例中的另一种可选的分析语句的语义相似度的示意图，如图2所示，通过对语句S1和语句S2进行LTP分词和词性标注，然后分别通过依存句法树进行句法相似度分析，以及通过HTC树进行词相似度分析，在通过依存句法树进行句法相似度分析时，先进行依存句法分析，构建对应于语句的依存句法树，并通过主要句法块(Syntactic-block)抽取规则，最后将各个词向量拼接为句向量，最后计算得到句法相似度；在通过HTC树进行词相似度分析时，可以通过邻域HCT树，形成扩展概念节点集合，然后基于HCT树进行广度优先遍历，形成基于领域HCT树的概念向量c₁，c₂，最后计算得到邻域词相似度，然后加权求和句法相似度以及邻域词相似度，得到语义文本相似度。下面进行详细说明。

例如，句S1为：导线A端套一个VRL-03V塑壳、VR型号保持器和SV系列插针。

句S2为：塑壳VRL-3、VR-3保持器、SV23-P6插针作为一个组件串在导线一端。

然后通过下述方式，判断两个句子之间的相似度。

第一步，使用LTP对句子中词性进行标注，LTP基于结构化感知器，以最大熵原则建模，给定句子序列X求其Score函数最大值对应的Y序列如下：

Score(Y,X)＝∑sαsΦs(Y,X)；Y＝argmaxS(Y,X)，其中，Φs(Y,X)为本地特征函数。

通过词性标注和分词操作，可以输出分词序列和词性序列。

例如，输出分词序列SY1：[[‘导线’,’A’,’端’,’套’,’一个’,’VRL-03V’,’塑壳’,’、’,’VR’,’型号’,‘保持器’,‘和’,‘SV’,‘系列’,‘插针’,’。’]]；

输出词性序列SY2：

[[‘n’,‘ws’,‘n’,‘v’,‘m’,‘ws’,‘n’,‘wp’,‘ws’,‘n’,‘n’,‘c’,‘ws’,’n’,‘n’,‘wp’]]；

分词序列Sy1为：[[’塑壳’,’VRL-3’,’、’,’VR-3’,’保持器’,’、’,’SV23-P6’,’插针’,’作为’,’一个’,’组件’,’串’,’在’,’导线’,’一端’,’。’]]；

词性序列Sy2：

[[’n’,’ws’,’wp’,’ws’,’n’,’wp’,’ws’,’n’,’v’,’m’,’n’,’v’,’p’,’n’,’n’,’wp’]]。

第二步，通过依存句法分析法，构建出依存句法树，得到句子单位内成分之间的依存关系，并揭示其句法结构。

依存句法树构建方式如下：

句子S＝{m1,m2,……,mn}由n个词组成，句子S的依存句法树可表示为一个二元组T＝(V,E)，V＝{root，m1,m2,……,mn}为引入根节点的节点集，E＝{e1,……,em}为词与词之间依存关系边集。ei＝(mi,mj,tag)，tag为两个词之间的某种依存关系。

第三步，建立基于Syntactic block的句法结构的相似性度量模型。这是一种新的句法结构相似性度量模型，Syntactic block可以抽取任意句长的句法结构，尤其是在句子较长的情况下，也可以完整抽取句子主谓宾这种主要语法结构，并在Syntactic block基础上进行句法的相似度计算。

在使用上述的相似度度量模型时，包括1)，构建Syntactic block，即主语块、谓语块和宾语块。主语块包含主语词和主语修饰词；谓语块和宾语块同理。主谓宾词及修饰词提取规则如下：

主语词：m_s＝{e_i[0]|e_i∈E∧e_i[2]＝″SBV″}；

谓语词：

m_p＝{e_i[1]|e_i∈E∧e_i[2]＝″SBV|F0B″}∩{e_i[θ]|e_i∈E∧e_i[2]＝″VOB|IOB″}；

宾语词：m_o＝{e_i[1]|e_i∈E∧e_i[2]＝″VOB|IOB″}∩{e_i[0]|e_i∈E∧e_i[2]＝″F0B″}；

主语修饰词：q_s＝{e_i[0]|e_i∈E∧e_i[1]＝m_s}；

谓语修饰词：q_p＝{e_i[0]|e_i∈E∧e_i[1]＝m_p}；

宾语修饰词：q_o＝{e_i[0]|e_i∈E∧e_i[1]＝m_o}；

主语块、谓语块和宾语块表示如下：

主语块B_s＝m_s∩q_s，谓语块B_p＝m_p∩q_p，宾语块B_o＝m_o∩q_o

2)，将句法块中的词转为词向量，即对每个Syntactic block中的单词在向量空间中进行转换，形成加权和形式的单词向量Ws、Wp、Wo。

3)，将主语块向量、谓语块向量和宾语块向量进行拼接形成句向量，再计算两个句子的语法相似度。

SW＝[α_s，W_s，α_pW_p，α_oW_o]；

句子相似度计算：

第四步，建立基于领域HCT树结构的词相似度度量模型，通过该词相似度度量模型确定语句中邻域词相似度。

在第一步LTP分词的基础上，抽取出外来词，即设置抽取规则{word|word∈SY2∧SY2＝“ws”}。

T₁＝{A，VRL-03V，VR，SV}；

T₂＝{VRL-3，VR-3，SV23-P6}；

将T₁和T₂映射到领域HCT树来定位句子的直接概念节点。

根据直接概念节点在HCT中的位置进行扩展，查找该节点的父节点和子节点形成扩展概念节点集合。

根据树的广度优先遍历列形成基于领域HCT树的概念向量c₁，c₂。

计算领域关键词相似度，公式如下：

第五步，句法相似度和多个领域词相似度加权求和，输出句子S1和句子S2的语义相似度。

其中，式中λ0为句子相似度权重因子(即上述实施例中的第一权重因子)，λi为概念相似度权重因子(即上述实施例中的第二权重因子)。

通过上述实施方式，可构建基于Syntactic-block的句法相似度计算模型以及词相似度计算模型，不受句子长度的限制，适应任何句长下的相似度计算，从领域知识角度出发，建立多个领域关键词的HCT树，不需要依赖大型语料库训练，快速完成语句的语义相似度计算，能够提升文本相似度检测的准确度，提升多文本语义关键信息提取的精度。

下面结合另一种可选的实施方式来说明本发明。

图3是根据本发明实施例的另一种可选的语义相似度的确定方法的流程图，如图3所示，该确定方法还包括：

步骤S302，采用依存句法树抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构；

步骤S304，确定目标句法块集合中包含的各个句法块的特征向量，并基于各个句法块的特征向量确定待比较语句之间的句法相似度；

步骤S306，分别对待比较语句进行分词处理，得到多个语句关键词；

步骤S308，确定语句关键词之间的关键词相似度；

步骤S310，依据句法相似度和关键词相似度共同确定待比较语句之间的语义相似度。

通过上述步骤，可以采用依存句法树抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构，确定目标句法块集合中包含的各个句法块的特征向量，并基于各个句法块的特征向量确定待比较语句之间的句法相似度，分别对待比较语句进行分词处理，得到多个语句关键词，确定语句关键词之间的关键词相似度，依据句法相似度和关键词相似度共同确定待比较语句之间的语义相似度。在该实施例中，可以不受语句长度限制，适应任何句长下的语义相似度计算，能够提升多文本语义关键信息的提取精度，从而解决相关技术中在确定文本语义相似度时，容易受到语句长度限制，文本相似度检测的准确度低的技术问题。

下面结合另一种可选的实施例来说明本发明。

实施例二

本发明实施例涉及了一种语义相似度的确定装置，该确定装置中包括了多个实施单元，每个实施单元对应于上述实施例一中第一个实施方式的各实施步骤。

图4是根据本发明实施例的一种可选的语义相似度的确定装置的示意图，如图4所示，该确定装置可以包括：第一抽取单元41，第一映射单元43，第一分词单元45，第一确定单元47，第二确定单元49，其中，

第一抽取单元41，用于采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构；

第一映射单元43，用于将目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度；

第一分词单元45，用于分别对待比较语句进行分词处理，得到多个语句关键词；

第一确定单元47，用于确定语句关键词之间的关键词相似度；

第二确定单元49，用于将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。

上述语义相似度的确定装置，可以通过第一抽取单元41采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构，通过第一映射单元43将目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度，通过第一分词单元45分别对待比较语句进行分词处理，得到多个语句关键词，通过第一确定单元47确定语句关键词之间的关键词相似度，通过第二确定单元49将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。在该实施例中，可以不受语句长度限制，适应任何句长下的语义相似度计算，能够提升多文本语义关键信息的提取精度，从而解决相关技术中在确定文本语义相似度时，容易受到语句长度限制，文本相似度检测的准确度低的技术问题。

可选的，语义相似度的确定装置还包括：第一确定模块，用于在采用依存句法树分别抽取待比较语句中的目标句法块集合之前，确定每个待比较语句中的词语数量；引入与词语数量对应的根节点的节点集；第二确定模块，用于确定待比较语句中各词语之间的关联关系，得到依存关系边集；第一构建模块，用于基于根节点的节点集和依存关系边集，构建表示依存句法树的二元组。

可选的，第一映射单元包括：第一抽取模块，用于抽取待比较语句的句法结构和句法块；第一转换模块，用于将句法块中的单词在特征向量空间中进行转换，得到词向量；第一拼接模块，用于拼接所有的词向量，得到语句向量；第一计算模块，用于基于语句向量，计算待比较语句之间的句法相似度。

可选的，第一分词单元包括：第一标注模块，用于采用预设语言技术平台，对待比较语句中的词性进行标注处理，得到词性标注结果；第一分词模块，用于基于词性标注结果，对待比较语句进行分词处理，输出分词序列和词性序列；第三确定模块，用于基于分词序列和词性序列，得到多个语句关键词。

可选的，第一确定单元包括：第一映射模块，用于根据词性标注结果，将语句关键词映射至预设可重叠圆形树图HCT，以定位待比较语句的直接概念节点；第一扩展模块，用于根据直接概念节点在预设可重叠圆形树图HCT中的树图位置，扩展语句关键词的上下语义概念节点，以得到与直接概念节点对应的扩展概念节点集合，其中，扩展概念节点集合内至少包括：直接概念节点的父节点和子节点；第二计算模块，用于基于直接概念节点和扩展概念节点集合，计算语句关键词之间的关键词相似度。

可选的，第二计算模块包括：第一遍历子模块，用于采用广度优先遍历方式，遍历直接概念节点和扩展概念节点集合，形成预设可重叠圆形树图HCT的词语概念向量；计算子模块，用于基于词语概念向量，计算语句关键词之间的关键词相似度。

可选的，第二确定单元包括：第四确定模块，用于确定对应于句法相似度的第一权重因子；确定对应于关键词相似度的第二权重因子；第三计算模块，用于基于句法相似度、第一权重因子、关键词相似度和第二权重因子，计算待比较语句之间的语义相似度。

根据本发明实施例的另一方面，还提供了一种语义相似度的确定装置，包括：第二抽取单元，用于采用依存句法树抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构；第三确定单元，用于确定目标句法块集合中包含的各个句法块的特征向量，并基于各个句法块的特征向量确定待比较语句之间的句法相似度；第二分词单元，用于分别对待比较语句进行分词处理，得到多个语句关键词；第四确定单元，用于确定语句关键词之间的关键词相似度；第五确定单元，用于依据句法相似度和关键词相似度共同确定待比较语句之间的语义相似度。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的语义相似度的确定方法。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的语义相似度的确定方法。

上述的语义相似度的确定装置还可以包括处理器和存储器，上述第一抽取单元41，第一映射单元43，第一分词单元45，第一确定单元47，第二确定单元49等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，依存句法树用于指示语句单位内成分之间的关联关系和句法结构；将目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度；分别对待比较语句进行分词处理，得到多个语句关键词；确定语句关键词之间的关键词相似度；将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语义相似度的确定方法，其特征在于，包括：

采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，所述依存句法树用于指示语句单位内成分之间的关联关系和句法结构；

将所述目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度，包括：抽取所述待比较语句的句法结构和句法块；将所述句法块中的单词在所述特征向量空间中进行转换，得到词向量；拼接所有的词向量，得到语句向量；基于所述语句向量，计算待比较语句之间的句法相似度；

分别对所述待比较语句进行分词处理，得到多个语句关键词，包括：采用预设语言技术平台，对所述待比较语句中的词性进行标注处理，得到词性标注结果；基于所述词性标注结果，对所述待比较语句进行分词处理，输出分词序列和词性序列；基于所述分词序列和词性序列，得到多个语句关键词；

确定语句关键词之间的关键词相似度，包括：根据词性标注结果，将语句关键词映射至预设可重叠圆形树图HCT，以定位所述待比较语句的直接概念节点；根据所述直接概念节点在所述预设可重叠圆形树图HCT中的树图位置，扩展所述语句关键词的上下语义概念节点，以得到与所述直接概念节点对应的扩展概念节点集合，其中，所述扩展概念节点集合内至少包括：直接概念节点的父节点和子节点；基于所述直接概念节点和所述扩展概念节点集合，计算语句关键词之间的关键词相似度；

将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。

2.根据权利要求1所述的确定方法，其特征在于，在采用依存句法树分别抽取待比较语句中的目标句法块集合之前，所述确定方法还包括：

确定每个待比较语句中的词语数量；

引入与所述词语数量对应的根节点的节点集；

确定待比较语句中各词语之间的关联关系，得到依存关系边集；

基于所述根节点的节点集和所述依存关系边集，构建表示依存句法树的二元组。

3.根据权利要求1所述的确定方法，其特征在于，基于所述直接概念节点和所述扩展概念节点集合，计算语句关键词之间的关键词相似度的步骤，包括：

采用广度优先遍历方式，遍历所述直接概念节点和所述扩展概念节点集合，形成所述预设可重叠圆形树图HCT的词语概念向量；

基于所述词语概念向量，计算语句关键词之间的关键词相似度。

4.根据权利要求1所述的确定方法，其特征在于，将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度的步骤，包括：

确定对应于句法相似度的第一权重因子；

确定对应于关键词相似度的第二权重因子；

基于句法相似度、第一权重因子、关键词相似度和第二权重因子，计算待比较语句之间的语义相似度。

5.一种语义相似度的确定装置，其特征在于，包括：

第一抽取单元，用于采用依存句法树分别抽取待比较语句中的目标句法块集合，其中，所述依存句法树用于指示语句单位内成分之间的关联关系和句法结构；

第一映射单元，用于将所述目标句法块集合中包含的各个句法块分别映射至特征向量空间中，并在特征向量空间中计算待比较语句之间的句法相似度，所述第一映射单元包括：第一抽取模块，用于抽取所述待比较语句的句法结构和句法块；第一转换模块，用于将所述句法块中的单词在所述特征向量空间中进行转换，得到词向量；第一拼接模块，用于拼接所有的词向量，得到语句向量；第一计算模块，用于基于所述语句向量，计算待比较语句之间的句法相似度；

第一分词单元，用于分别对所述待比较语句进行分词处理，得到多个语句关键词，所述第一分词单元包括：第一标注模块，用于采用预设语言技术平台，对所述待比较语句中的词性进行标注处理，得到词性标注结果；第一分词模块，用于基于所述词性标注结果，对所述待比较语句进行分词处理，输出分词序列和词性序列；第三确定模块，用于基于所述分词序列和词性序列，得到多个语句关键词；

第一确定单元，用于确定语句关键词之间的关键词相似度，所述第一确定单元包括：第一映射模块，用于根据词性标注结果，将语句关键词映射至预设可重叠圆形树图HCT，以定位所述待比较语句的直接概念节点；第一扩展模块，用于根据所述直接概念节点在所述预设可重叠圆形树图HCT中的树图位置，扩展所述语句关键词的上下语义概念节点，以得到与所述直接概念节点对应的扩展概念节点集合，其中，所述扩展概念节点集合内至少包括：直接概念节点的父节点和子节点；第二计算模块，用于基于所述直接概念节点和所述扩展概念节点集合，计算语句关键词之间的关键词相似度；

第二确定单元，用于将句法相似度和关键词相似度加权求和，得到待比较语句之间的语义相似度。

6.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至4中任意一项所述的语义相似度的确定方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至4中任意一项所述的语义相似度的确定方法。