CN109684458A

CN109684458A - 一种语句向量的计算方法及装置

Info

Publication number: CN109684458A
Application number: CN201811620274.5A
Authority: CN
Inventors: 雷少东; 刘世明
Original assignee: Beijing Pingzero Digital Technology Co Ltd
Current assignee: Beijing Pingzero Digital Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-04-26

Abstract

本申请提供了一种语句向量的计算方法及装置，其中，所述方法包括：采集文本中的单条语句；根据预设语义分析规则，确定所述单条语句的语义信息，所述语义信息至少包括：主题、主题权重、各主题所包含的关键词以及各关键词在对应主题内的关键词权重；根据所述语义信息，计算各所述关键词在集合全部所述主题所对应的关键词中的参考权重；根据所述参考权重和预设筛选阈值，确定目标关键词；根据所述目标关键词及各所述目标关键词所对应的参考权重，计算语句向量。本申请提供的语句向量的计算方法及装置，能够有效提升文本间相似度的计算质量，令语义相似的语句距离较近，反之，语义不相似的语句距离较远。

Description

一种语句向量的计算方法及装置

技术领域

本申请涉及文本信息处理技术领域，尤其涉及一种语句向量的计算方法及装置。

背景技术

随着以微博、微信为代表的社交网络的飞速发展，文本信息获得了***性地增长，文本信息在传播扩散、广告营销、品牌口碑建设等领域的利用价值日益显著。通过发掘与某一话题相似性较高的网络文本信息所对应的用户信息，在广告投放、品牌推广等应用场景具有巨大价值，在找到用户信息之前，首先需要找到相似度高的网络文本信息，文本信息的相似度是以文本信息中各语句向量为基础判断的，因此，获得高质量的语句向量是准确判断相似度至关重要的基础。

现有语句向量的计算方法，是将语句拆分为各个词，通过简单拼接全部词的词向量，例如，叠加等方式，进而获得语句向量。但是发明人在具体应用过程中发现如下问题。现有获得语句向量的方法仅为将语句中的全部词语对应的词向量简单拼接，缺乏代表与重点，因此，令相似性计算过程，工作量大，且准确度和代表性低。例如，语句为“我喜欢吃苹果”，则需要拆分为“我”、“喜欢”、“吃”、“苹果”四个词，并通过Word Embedding(词嵌入)获得各个词的词向量，对应于现有语句向量计算方法，需要将四个词的词向量无重点拼接。事实上，每个词均有各自突出的维度，即对语句的贡献度，例如，“我”突出人称，“喜欢”突出取向，“吃”突出动作，“苹果”突出作用物。给定文本也具有其突出的维度，例如，仅突出人称与作用物，则取向与动作就变为次要维度，因此在对比语句与给定文本的相似度时，需要突出对比人称与作用物。但是现有语句向量计算方法，默认每个词对语句的贡献度相等，例如，语句中包含n个词，则每个词的贡献度占比均为1/n，显然，这与实际情况存在巨大差异。

发明内容

本申请提供了一种语句向量的计算方法及装置，能够有效提升文本间相似度的计算质量，令语义相似的语句距离较近，反之，语义不相似的语句距离较远。

本申请第一方面提供了一种语句向量的计算方法，包括：

采集文本中的单条语句；

根据预设语义分析规则，确定所述单条语句的语义信息，所述语义信息至少包括：主题、主题权重、各主题所包含的关键词以及各关键词在对应主题内的关键词权重；

根据所述语义信息，计算各所述关键词在集合全部所述主题所对应的关键词中的参考权重；

根据所述参考权重和预设筛选阈值，确定目标关键词；

根据所述目标关键词及各所述目标关键词所对应的参考权重，计算语句向量。

可选地，所述根据预设语义分析规则，确定所述单条语句的语义信息的具体步骤包括：

设定主题数目为大于0的任意整数，并设定所述主题为第一先验分布，所述各主题所包含的关键词为第二先验分布；

根据所述第一先验分布，确定各关键词所对应的主题编号；

根据所述第二先验分布和所述主题编号，确定各关键词在对应主题内的关键词权重。

可选地，所述根据所述语义信息，计算各所述关键词在集合全部所述主题所对应的关键词中的参考权重的具体步骤包括：

根据所述主题权重和预设权重阈值，确定目标主题；

确定所述目标主题所对应的待计算关键词；

计算所述待计算关键词对应的关键词权重和所述目标主题对应的主题权重的乘积，确定参考权重。

可选地，所述根据参考权重和预设筛选阈值，确定目标关键词的具体步骤包括：

按照参考权重从大到小的顺序，排列所述待计算关键词；

确定所述参考权重大于所述预设筛选阈值的待计算关键词为目标关键词。

可选地，所述根据所述目标关键词及各所述目标关键词所对应的参考权重，计算语句向量，还包括：

计算各所述目标关键词的词向量；

根据所述词向量，计算所述目标关键词中未登录关键词的数量与所述目标关键词总数量的比值；

如果所述比值大于预设比值阈值，则语句向量为0；

如果所述比值小于或者等于预设比值阈值，则根据各所述关键词的词向量及各所述关键词所对应的参考权重，计算语句向量。

第二方面，本申请提供了一种语句向量的计算装置，其特征在于，所述装置包括：

采集单元，用于采集文本中的单条语句；

语义分析单元，用于根据预设语义分析规则，确定所述单条语句的语义信息，所述语义信息至少包括：主题、主题权重、各主题所包含的关键词以及各关键词在对应主题内的关键词权重；

权重计算单元，用于根据所述语义信息，计算各所述关键词在集合全部所述主题所对应的关键词中的参考权重；

筛选单元，用于根据所述参考权重和预设筛选阈值，确定目标关键词；

语句向量计算单元，用于根据所述目标关键词及各所述目标关键词所对应的参考权重，计算语句向量。

可选地，所述语义分析单元包括：

设定单元，用于设定主题数目为大于0的任意整数，并设定所述主题为第一先验分布，所述各主题所包含的关键词为第二先验分布；

编号确定单元，用于根据所述第一先验分布，确定各关键词所对应的主题编号；

关键词权重计算单元，用于根据所述第二先验分布和所述主题编号，确定各关键词在对应主题内的关键词权重。

可选地，所述权重计算单元包括：

主题筛选单元，用于根据所述主题权重和预设权重阈值，确定目标主题；

待计算关键词确定单元，用于确定所述目标主题所对应的待计算关键词；

参考权重计算单元，用于计算所述待计算关键词对应的关键词权重和所述目标主题对应的主题权重的乘积，确定参考权重。

可选地，所述筛选单元包括：

排序单元，用于按照参考权重从大到小的顺序，排列所述待计算关键词；

目标关键词确定单元，用于确定所述参考权重大于所述预设筛选阈值的待计算关键词为目标关键词。

可选地，所述语句向量计算单元，还包括：

词向量计算单元，用于计算各所述目标关键词的词向量；

占比计算单元，用于根据所述词向量，计算所述目标关键词中未登录关键词的数量与所述目标关键词总数量的比值；

第一判断单元，用于如果所述比值大于预设比值阈值，则语句向量为0；

第二判断单元，用于如果所述比值小于或者等于预设比值阈值，则根据各所述关键词的词向量及各所述关键词所对应的参考权重，计算语句向量。

由以上技术可知，本申请提供了一种语句向量的计算方法及装置，其中计算方法包括：采集文本中的单条语句；根据预设语义分析规则，确定所述单条语句的语义信息，所述语义信息至少包括：主题、主题权重、各主题所包含的关键词以及各关键词在对应主题内的关键词权重；根据所述语义信息，计算各所述关键词在集合全部所述主题所对应的关键词中的参考权重；根据所述参考权重和预设筛选阈值，确定目标关键词；根据所述目标关键词及各所述目标关键词所对应的参考权重，计算语句向量。使用时，确定需要进行后续相似度对比等操作的文本，所述文本至少为单条语句，将文拆分为若干单条语句，以单条语句作本方法的实施基础。分析各单条语句中的语义信息，例如主题数量、主题内容、主题权重，并划分单条语句至词层级，分析获得各主题下的关键词及关键词在各自主题中的权重。通过某一关键词在其所在主题中的权重，以及该关键词所在主题在语句中的权重，能够计算获得该关键词在语句中的权重，即参考权重。根据预设筛选阈值，从全部关键词中筛选出参考权重符合筛选阈值的关键词，即目标关键词，作为单条语句的代表，为后续计算语句向量作词基础。根据确定的目标关键词以及各目标关键词所对应的参考权重，能够准确根据各目标关键词在单条语句中的贡献度，按比例叠加计算出语句向量。可见，本申请提供的语句向量计算方法，无需将语句中的全部关键词作为计算基础，仅需选取具有代表性的目标关键词即可；且会根据目标关键词在语句中的真实贡献度，按比例叠加计算语句向量，令语句向量的计算不仅效率高，且准确度高。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语句向量的计算方法的流程图；

图2为本申请实施例提供的一种确定语义信息的方法的流程图；

图3为本申请实施例提供的一种计算参考权重的方法的流程图；

图4为本申请实施例提供的一种确定目标关键词的方法的流程图；

图5为本申请实施例提供的一种判断语句向量的方法的流程图；

图6为本申请实施例提供的一种语句向量的计算装置的结构示意图；

图7为本申请实施例提供的一种语义分析单元的结构示意图；

图8为本申请实施例提供的一种权重计算单元的结构示意图；

图9为本申请实施例提供的一种筛选单元的结构示意图；

图10为本申请实施例提供的一种带有判断单元的计算装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，

本申请实施例提供了一种语句向量的计算方法，其特征在于，所述方法包括：

S100、采集文本中的单条语句；

文本通常由若干语句构成，可见语句向量是文本的基础，在分析文本信息时，如判断文本与给定文本之间的相似度等操作，实际上，对比的是各语句之间的相似度。因此，想要分析文本，首先需要确定文本中各单条语句的语句向量。本实施例中的文本至少为单条语句，将文拆分为若干单条语句，以单条语句作本方法的实施基础。

S200、根据预设语义分析规则，确定所述单条语句的语义信息，所述语义信息至少包括：主题、主题权重、各主题所包含的关键词以及各关键词在对应主题内的关键词权重；

分析各单条语句中的语义信息，例如主题数量、主题内容、主题权重，并划分单条语句至词层级，分析获得各主题下的关键词及关键词在各自主题中的权重。通过某一关键词在其所在主题中的权重，以及该关键词所在主题在语句中的权重，能够计算获得该关键词在语句中的权重，即参考权重。

具体地，

S201、设定主题数目为大于0的任意整数，并设定所述主题为第一先验分布，所述各主题所包含的关键词为第二先验分布；

S202、根据所述第一先验分布，确定各关键词所对应的主题编号；

S203、根据所述第二先验分布和所述主题编号，确定各关键词在对应主题内的关键词权重。

例如，对于待计算的单条语句，首先设定主题数目为k，k为大于0的任意整数，如1，2，3......，则所有的关键词分布就是基于k个主题展开的。设定单条语句内主题的先验分布为第一先验分布，且为Dirichlet分布，即对于单条语句d，其主题分布θ_d为公式(1)，

其中，θ_d为第一先验分布，为第一先验分布的超参数，是一个k维向量。

设定各主题中的关键词的先验分布为第二先验分布，且为Dicichlet分布，则对于任一主题t，其关键词分布β_t为公式(2)，

其中，β_t为第二先验分布，为第二先验分布的超参数，是一个v维向量，v为词汇表中所有词的个数。

对于单条语句中的第t个主题中的第n个关键词，可以根据公式(3)从主题分布θ_d中得到它的主题编号分布，

z_dn＝multi(θ_d) (3)

其中，z_dn为主题编号分布。

可以从主题分布中根据公式(4)得到第t个主题中的第n个关键词的分布，

w_dn＝multi(β_zdn) (4)

S300、根据所述语义信息，计算各所述关键词在集合全部所述主题所对应的关键词中的参考权重；

通过某一关键词在其所在主题中的权重，以及该关键词所在主题在语句中的权重，能够计算获得该关键词在语句中的权重，即参考权重。

具体地，

S301、根据所述主题权重和预设权重阈值，确定目标主题；

S302、确定所述目标主题所对应的待计算关键词；

S303、计算所述待计算关键词对应的关键词权重和所述目标主题对应的主题权重的乘积，确定参考权重。

单条语句中会包含多个主题，而本实施例提供的计算方法，需要找到具有代表性的主题，而非针对全部主题进行计算。因此，在对比各主题权重与预设权重阈值之后，选择满足预设权重阈值的权重所对应的主题为代表语句进行后续计算的主题，即目标主题。其中，预设权重阈值可以是根据给定的查询文本所设定的，或者根据经验值所设定的等。

找到目标主题下所对应的关键词，即为待计算关键词。

各待计算关键词均有其在各自主题中对应的关键词权重，并且其所在主题也有在语句中对应的权重，根据这两个权重能够计算获得各待计算关键词在单条语句中的权重，即参考权重。

例如，假设S为一个语句样本，S中有m个主题，其中根据预设权重阈值筛选后得到k个目标主题，w′_k为第k个主题的权重，为第k个主题下主题词，为第k个主题下主题词的权重。则根据公式(5)计算第k个主题中第j个关键词的权重

通过公式(5)，能够准确获得各关键词在整体语句中的权重，即贡献度，为定向计算语句向量作基础。

S400、根据所述参考权重和预设筛选阈值，确定目标关键词；

根据预设筛选阈值，从全部关键词中筛选出参考权重符合筛选阈值的关键词，即目标关键词，作为单条语句的代表，为后续计算语句向量作词基础。

具体地，

S401、按照参考权重从大到小的顺序，排列所述待计算关键词；

S402、确定所述参考权重大于所述预设筛选阈值的待计算关键词为目标关键词。

将待计算关键词以对应的参考权重为基础，按照从大到小的顺序进行排列。并且按照顺序依次与预设筛选阈值进行比较，筛选大于预设筛选阈值的参考权重所对应的待计算关键词为可代表整体语句的关键词，即目标关键词。其中，预设筛选阈值可以是关键词数量、也可以是权重数值等。本实施例提供的方法所计算的语句向量，是一个将不相关，即权重小的关键词剔除，仅留取相关度较高，即权重大的关键词作为代表，计算整体语句向量的过程。在保证计算准确度的基础上，能够减少词汇计算量，从而提高整体计算效率。

S500、根据所述目标关键词及各所述目标关键词所对应的参考权重，计算语句向量。

根据预设筛选阈值，从全部关键词中筛选出参考权重符合筛选阈值的关键词，即目标关键词，作为单条语句的代表，为后续计算语句向量作词基础。根据确定的目标关键词以及各目标关键词所对应的参考权重，能够准确根据各目标关键词在单条语句中的贡献度，按比例叠加计算出语句向量。

例如，根据预设筛选阈值筛选前m个关键词为目标关键词，此时，weight′_m为目标关键词对应的关键词权重，根据公式(6)对目标关键词做归一化处理，

N_w′_m＝Norm(weight′_m) (6)，

word′_m为关键词对应的词向量，根据公式(7)计算语句向量，

其中，V为语句向量。

本实施例还提供一种优化方案，

S501、计算各所述目标关键词的词向量；

S502、根据所述词向量，计算所述目标关键词中未登录关键词的数量与所述目标关键词总数量的比值；

S503、如果所述比值大于预设比值阈值，则语句向量为0；

S504、如果所述比值小于或者等于预设比值阈值，则根据各所述关键词的词向量及各所述关键词所对应的参考权重，计算语句向量。

基于word embedding计算各目标关键词的词向量，获得目标关键词的总数量，但是在词汇库中，存在并未出现在训练语料中的，无法获取词向量的未登录关键词，同时获取全部未登录关键词的数量，通过计算未登录关键词与全部目标关键词的数量比，能够获得未登录关键词在语句中的占比。可见，占比越高，则最终计算所得的语句向量的准确度越低；相反的，占比越低，则最终计算所得的语句向量的准确度越高。为了保证语句向量的计算准确度，需要严格控制未登录关键词的数量。本实施例提供的方法，能直接赋值未登录关键词占比大于预设比值阈值的语句向量为0向量，从而剔除该语句，不作为后续判断整体文本信息的代表语句。而未登录关键词占比符合预设比值阈值范围的，则按照正常步骤计算语句向量。

可见，本申请提供的语句向量计算方法，无需将语句中的全部关键词作为计算基础，仅需选取具有代表性的目标关键词即可；且会根据目标关键词在语句中的真实贡献度，按比例叠加计算语句向量，令语句向量的计算不仅效率高，且准确度高。

本申请实施例还提供了一种语句向量的计算装置，其特征在于，所述装置包括：

采集单元1，用于采集文本中的单条语句；

语义分析单元2，用于根据预设语义分析规则，确定所述单条语句的语义信息，所述语义信息至少包括：主题、主题权重、各主题所包含的关键词以及各关键词在对应主题内的关键词权重；

权重计算单元3，用于根据所述语义信息，计算各所述关键词在集合全部所述主题所对应的关键词中的参考权重；

筛选单元4，用于根据所述参考权重和预设筛选阈值，确定目标关键词；

语句向量计算单元5，用于根据所述目标关键词及各所述目标关键词所对应的参考权重，计算语句向量。

可选地，所述语义分析单元2包括：

设定单元21，用于设定主题数目为大于0的任意整数，并设定所述主题为第一先验分布，所述各主题所包含的关键词为第二先验分布；

编号确定单元22，用于根据所述第一先验分布，确定各关键词所对应的主题编号；

关键词权重计算单元23，用于根据所述第二先验分布和所述主题编号，确定各关键词在对应主题内的关键词权重。

可选地，所述权重计算单元3包括：

主题筛选单元31，用于根据所述主题权重和预设权重阈值，确定目标主题；

待计算关键词确定单元32，用于确定所述目标主题所对应的待计算关键词；

参考权重计算单元33，用于计算所述待计算关键词对应的关键词权重和所述目标主题对应的主题权重的乘积，确定参考权重。

可选地，所述筛选单元4包括：

排序单元41，用于按照参考权重从大到小的顺序，排列所述待计算关键词；

目标关键词确定单元42，用于确定所述参考权重大于所述预设筛选阈值的待计算关键词为目标关键词。

可选地，所述语句向量计算单元5，还包括：

词向量计算单元51，用于计算各所述目标关键词的词向量；

占比计算单元52，用于根据所述词向量，计算所述目标关键词中未登录关键词的数量与所述目标关键词总数量的比值；

第一判断单元53，用于如果所述比值大于预设比值阈值，则语句向量为0；

第二判断单元54，用于如果所述比值小于或者等于预设比值阈值，则根据各所述关键词的词向量及各所述关键词所对应的参考权重，计算语句向量。

由以上技术方案可知，本申请一方面提供了一种语句向量的计算方法，包括：采集文本中的单条语句；根据预设语义分析规则，确定所述单条语句的语义信息，所述语义信息至少包括：主题、主题权重、各主题所包含的关键词以及各关键词在对应主题内的关键词权重；根据所述语义信息，计算各所述关键词在集合全部所述主题所对应的关键词中的参考权重；根据所述参考权重和预设筛选阈值，确定目标关键词；根据所述目标关键词及各所述目标关键词所对应的参考权重，计算语句向量。一方面提供了一种语句向量的计算装置，其特征在于，所述装置包括：采集单元1，用于采集文本中的单条语句；语义分析单元2，用于根据预设语义分析规则，确定所述单条语句的语义信息，所述语义信息至少包括：主题、主题权重、各主题所包含的关键词以及各关键词在对应主题内的关键词权重；权重计算单元3，用于根据所述语义信息，计算各所述关键词在集合全部所述主题所对应的关键词中的参考权重；筛选单元4，用于根据所述参考权重和预设筛选阈值，确定目标关键词；语句向量计算单元5，用于根据所述目标关键词及各所述目标关键词所对应的参考权重，计算语句向量。

使用时，确定需要进行后续相似度对比等操作的文本，所述文本至少为单条语句，将文拆分为若干单条语句，以单条语句作本方法的实施基础。分析各单条语句中的语义信息，例如主题数量、主题内容、主题权重，并划分单条语句至词层级，分析获得各主题下的关键词及关键词在各自主题中的权重。通过某一关键词在其所在主题中的权重，以及该关键词所在主题在语句中的权重，能够计算获得该关键词在语句中的权重，即参考权重。根据预设筛选阈值，从全部关键词中筛选出参考权重符合筛选阈值的关键词，即目标关键词，作为单条语句的代表，为后续计算语句向量作词基础。根据确定的目标关键词以及各目标关键词所对应的参考权重，能够准确根据各目标关键词在单条语句中的贡献度，按比例叠加计算出语句向量。可见，本申请提供的语句向量计算方法，无需将语句中的全部关键词作为计算基础，仅需选取具有代表性的目标关键词即可；且会根据目标关键词在语句中的真实贡献度，按比例叠加计算语句向量，令语句向量的计算不仅效率高，且准确度高。

值得注意的是，具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的用户身份的服务提供方法或用户注册方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random accessmemory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语句向量的计算方法，其特征在于，所述方法包括：

采集文本中的单条语句；

根据所述参考权重和预设筛选阈值，确定目标关键词；

2.根据权利要求1所述的方法，其特征在于，所述根据预设语义分析规则，确定所述单条语句的语义信息的具体步骤包括：

根据所述第一先验分布，确定各关键词所对应的主题编号；

3.根据权利要求1所述的方法，其特征在于，所述根据所述语义信息，计算各所述关键词在集合全部所述主题所对应的关键词中的参考权重的具体步骤包括：

根据所述主题权重和预设权重阈值，确定目标主题；

确定所述目标主题所对应的待计算关键词；

4.根据权利要求3所述的方法，其特征在于，所述根据参考权重和预设筛选阈值，确定目标关键词的具体步骤包括：

按照参考权重从大到小的顺序，排列所述待计算关键词；

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标关键词及各所述目标关键词所对应的参考权重，计算语句向量，还包括：

计算各所述目标关键词的词向量；

如果所述比值大于预设比值阈值，则语句向量为0；

6.一种语句向量的计算装置，其特征在于，所述装置包括：

采集单元，用于采集文本中的单条语句；

7.根据权利要求6所述的装置，其特征在于，所述语义分析单元包括：

8.根据权利要求6所述的装置，其特征在于，所述权重计算单元包括：

9.根据权利要求8所述的装置，其特征在于，所述筛选单元包括：

10.根据权利要求6所述的装置，其特征在于，所述语句向量计算单元，还包括：

词向量计算单元，用于计算各所述目标关键词的词向量；