CN104424279A

CN104424279A - 一种文本的相关性计算方法和装置

Info

Publication number: CN104424279A
Application number: CN201310388496.XA
Authority: CN
Inventors: 赫南; 张文斌; 姚伶伶; 王莉峰; 何琪; 张博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2015-03-18
Anticipated expiration: 2033-08-30
Also published as: CN104424279B

Abstract

本发明实施方式提出一种文本的相关性计算方法和装置。方法包括：接收第一字符串和第二字符串；计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值；基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。本发明实施方式提高了相关性判定的准确率，节约了存储空间并降低了成本。

Description

一种文本的相关性计算方法和装置

技术领域

本发明实施方式涉及互联网应用技术领域，更具体地，涉及一种文本的相关性计算方法和装置。

背景技术

随着计算机技术和网络技术的飞速发展，互联网（Internet）在人们的日常生活、学习和工作中发挥的作用也越来越大。互联网上的各种应用层出不穷。

搜索广告是互联网广告生态***中一项非常重要的业务，它依附于搜索引擎，本质上是基于关键词的售卖匹配。广告主在商业推广的数据库中，除了提供用于展示的广告标题、描述之外，还要附加一些与该广告具有一定相关性的关键词（即购买词），并指定匹配类型及出价以及定向匹配目标流量（即符合检索意图的用户）。在经典的匹配流程中，购买词形成了对广告的直接索引。当用户的查询词与广告主的购买词“匹配”，相关性达到一定程度，即认为满足了广告触发的初选条件（这里假设先忽略其他定向及过滤环节），可以拉取对应的广告（标题、描述）出来做进一步的后续精选，例如点击率预估、广告排序、展示策略选择等。

在检索（Retrieve）阶段，广告***会利用用户的查询串，使用多种在线、离线的策略做购买词匹配。这里找到的购买词都是广告主在填写物料时指定的、与广告标题及描述相关的短文本。在线上***中度量查询词（query）与候选购买词（bidterm）的相关性的本质是短文本之间的相关性。

传统上有很多基于字符串字面匹配的方法，离线在线的评估方法也有差别，都存在一定的局限性。Google的Sahami等人提出利用短文本的网页搜索结果作为语义扩展，在此基础上计算短文本之间的语义相关性，比单纯的基于词的效果更好。马萨诸塞大学的Metzler和Microsoft的Dumais等人也尝试了多种短文本表示的方法用于计算语义相关性。

然而，传统的基于文档中词向量空间模型的计算方法，在短文本上面临特征稀疏的问题。同时，由于短文本的分词结果依赖于语言模型，并不能保证不同词切分的一致，也会在一定程度上加剧向量的稀疏。因此，传统的基于文档中词向量空间模型的计算方法，具有相关性判定准确率不高的缺点。

而且，在传统的基于文档中词向量空间模型的计算方法中，需要大量存储空间来储存词向量，因此还浪费了存储空间并提高了成本。

发明内容

本发明实施方式提出一种文本的相关性计算方法，以提高相关性判定的准确率。

本发明实施方式提出一种文本的相关性计算装置，以提高相关性判定的准确率。

本发明实施方式的技术方案如下：

一种文本的相关性计算方法，该方法包括：

接收第一字符串和第二字符串；

计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值；

基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。

一种文本的相关性计算装置，该装置包括字符串接收单元、相关性特征值计算单元和相关性特征值拟合单元，其中：

字符串接收单元，用于接收第一字符串和第二字符串；

相关性特征值计算单元，用于计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值；

相关性特征值拟合单元，用于基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。

从上述技术方案可以看出，在本发明实施方式中，接收第一字符串和第二字符串；计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值；基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。由此可见，本发明实施方式避免了基于文档中词向量空间模型的计算方法，因此避免了特征稀疏的问题，从而提高了相关性判定的准确率，而且节约了存储空间并降低了成本。

而且，本发明实施方式提出基于编辑距离、最长公共子序列等字符串层面的文本相关性作为基础特征，它们能从多个维度表达短串间文本相似度，能够较好处理很多短文本不规范、分词不准或不一致的情况。

另外，本发明实施方式提出基于文本分类、概率隐含语义分析的相关性特征，可以充分挖掘短文本与构成短文本的单词之间的隐含关系，从而计算两个短文本之间的类别联系和主题联系，形成对文本相关性的特征补充。

还有，本发明实施方式提出了基于词的网页搜索结果的相关性特征，依赖的词典资源数目可控，单机存储空间、计算速度都有很大幅度的改进，使得在线实现短串间的轻量级语义相关性计算成为可能。

附图说明

图1为根据本发明实施方式文本的相关性计算方法流程图；

图2为根据本发明实施方式的相关性计算装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

在各种应用中，经常会涉及到两个短文本的相关性计算。两个短文本的相关性指二者在语义上存在的关联程度，但不一定在字面上相似。相关性是一个比相似度（Similarity）更广泛的概念，在很多产品和***中都具有重要意义。短文本是指长度较短的字符串，比如在某些网络应用中不超过38个汉字等。

购买词（Bidterm）是竞价广告***中广告主提交的用于竞价的购买词；查询词(Query)是搜索引擎中用户提交的搜索关键词。查询词和购买词一般都是长度较短的文本字符串，可以把所有的查询词和购买词统称为短文本。

图1为根据本发明实施方式文本的相关性计算方法流程图。

如图1所示，该方法包括：

步骤101：接收第一字符串和第二字符串。

在这里，第一字符串和第二字符串优选均为短文本。比如，第一字符串和第二字符串分别可以是查询词、购买词等等。

步骤102：计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值。

文本层面的相关性特征主要度量短串之间的文本相似度。文本层面的相关性特征只利用到了短串的文本信息，可以通过高效的优化算法即时计算得到。

比如，可以计算第一字符串与第二字符串基于编辑距离的相关性特征值，和/或计算第一字符串与第二字符串基于最长公共子序列的相关性特征值。

语义层面的相关性特征主要度量短串之间的概念、意义的相似度。

在一个实施方式中，计算第一字符串与第二字符串的语义相关性特征值包括：

构建行业类别特征词词典（比如一级行业类别特征词词典）；

针对第一字符串，根据行业类别特征词词典获取每个词所属的类别分布，然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加，以得到第一字符串类别分布；针对第二字符串，根据行业类别特征词词典获取每个词所属的类别分布，然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加，以得到第二字符串类别分布；

计算第一字符串和第二字符串的类别分布的余弦夹角相似度，以得到第一字符串和第二字符串的语义相关性特征值。

优选地，所述构建行业类别特征词词典包括：

基于人工标注的行业类别特征词集合，采用全文匹配分类方式对各个网页进行分类；

对于拥有分类属性的网页进行全文切词，抽取类别特征词，并将所抽取的类别特征词合并入所述行业类别特征词集合，以构建行业类别特征词词典。

针对第一字符串，获取每个词所属的主题分布，然后将该第一字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加，以得到该第一字符串的主题分布；针对第二字符串，获取每个词所属的主题分布，然后将该第二字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加，以得到该第二字符串的主题分布；

计算第一字符串和第二字符串的主题分布的余弦夹角相似度，以得到第一字符串和第二字符串的语义相关性特征值。

在一个实施方式中，计算第一字符串与第二字符串的语义相关性特征值包括：计算第一字符串与第二字符串基于统计机器翻译的相关性特征值。

在一个实施方式中，计算第一字符串与第二字符串的语义相关性特征值包括：计算第一字符串与第二字符串基于网页搜索结果的词粒度的语义相关性特征值。

实际上，可以同时采用多种计算方式计算第一字符串与第二字符串的文本相关性特征值。比如可以计算第一字符串与第二字符串基于编辑距离的相关性特征值，并计算第一字符串与第二字符串基于最长公共子序列的相关性特征值，再将基于编辑距离的相关性特征值以及基于最长公共子序列的相关性特征值同时作为计算出的文本相关性特征值以参与步骤103的拟合计算。

类似地，可以同时采用多种计算方式计算第一字符串与第二字符串的语义相关性特征值。

比如：计算第一字符串与第二字符串的语义相关性特征值包括下列中的至少一个：

计算第一字符串与第二字符串的基于编辑距离的相关性特征值；计算第一字符串与第二字符串的基于最长公共子序列的相关性特征值；计算第一字符串与第二字符串的基于文本分类的相关性特征值；计算第一字符串与第二字符串的基于概率潜在语义分析（PLSA）的主题相关性特征值；计算第一字符串与第二字符串的基于统计机器翻译的相关性特征值；计算第一字符串与第二字符串基于网页搜索结果的词粒度的相关性特征值。

然后将所有计算出的语义相关性特征值参与步骤103的拟合计算。

步骤103：基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。

在这里，针对计算出的第一字符串与第二字符串的文本相关性特征值以及语义相关性特征值，构建特征向量；

利用所述特征向量构建训练样例，并针对所述训练样例使用二分类逻辑回归模型做训练，分别得到文本相关性特征值的权重、语义相关性特征值的权重以及偏置；

利用文本相关性特征值的权重、文本相关性特征值、语义相关性特征值的权重、语义相关性特征值以及偏置，计算所述相关性特征值。

下面更详细地描述本发明实施方式的文本的相关性计算方法。

本发明解决的问题形式定义如下：

给定两个短文本T₁、T₂，计算反映其语义关联程度的语义相关性R(T₁,T₂)，其中R(T₁,T₂)∈[0,1]。

对于一个短文本T，其字符串长度用|T|表示，其分词结果表示为T=t₁t₂...t_n；则T₁、T₂的分词结果分别为T₁=t₁₁t₁₂...t_1n，T₂=t₂₁t₂₂...t_2n。

首先对两个短文本分别计算多维度的相关性特征，然后使用逻辑回归模型将多个维度的相关性特征分值拟合成一个最终的语义相关性得分。

具体如下：

对于计算俩个短文本之间的文本相关性特征值，即计算文本层面的相关性特征，由于文本层面的相关性特征主要度量短串之间的文本相似度，只利用到了短串的文本信息，因此可以通过高效的优化算法即时计算得到。

比如：

（1）、基于编辑距离的相关性计算文本相关性特征值

编辑距离（Edit Distance），又称Levenshtein距离，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。

两个短文本T₁、T₂的编辑距离EditDist(T₁,T₂)，可以通过时间复杂度O(|T₁|*|T₂|)的动态规划算法计算得到。

两个短文本基于编辑距离的相关性特征计算公式如下：

R_{ed} (T_{1}, T_{2}) = 1 - \frac{2 EditDist (T_{1}, T_{2})}{| T_{1} | + | T_{2} |} .

（2）、基于最长公共子序列的相关性计算文本相关性特征值

一个字符串的子序列是指可以由该字符串删除一些字符后得到的子串（sub-string）。

两个字符串的最长公共子序列是其所有相同的子序列中最长的一个。两个短文本T₁、T₂的最长公共子序列LCS(T₁,T₂)，可以通过时间复杂度O(|T₁|*|T₂|)的动态规划算法计算得到。

两个短文本基于最长公共子序列的相关性特征计算公式如下：

R_{lcs} (T_{1}, T_{2}) = \frac{2 LCS (T_{1}, T_{2})}{| T_{1} | + | T_{2} |} .

对于计算俩个短文本之间的语义相关性特征值，即计算语义层面的相关性特征主要度量短串之间的概念、意义的相似度。

可以采用如下方式计算俩个短文本之间的语义相关性特征值：

（1）、基于文本分类的相关性特征计算语义相关性特征值

示范性地，本发明实施方式对短文本分类主要采用了基于特征词的方法，其基本流程为：

首先基于人工标注的初始的一级行业类别特征词集合（该集合中包括少量的人工标注的一级行业类别特征词），对数以亿计的网页采用全文匹配的分类方式，对每个网页进行分类；

对于拥有分类属性的网页进行全文切词，抽取类别特征词，计算抽取的类别特征词对于所属类别的权重贡献（即权重向量），然后将这些从网页中抽取的类别特征词合并入一级行业类别特征词集合中；

待全部网页特征词抽取完毕，就自动得到了一个全面的一级行业类别特征词集合，从而构建得到一级行业类别特征词词典。该词典用公式描述为：p(c|w)，其中c表示类别，w表示单词，也就是说每个词都有一个类别分布。

给定两个短文本T₁、T₂，对于每个短文本，可以根据p(c|w)获取每个词所属的类别分布，然后将该短文本各个词的类别分布乘以该词的全局IDF权重再累加，最后得到该短文本的类别分布p(c|T)。

利用cosine公式，得到两个短文本T₁、T₂的文本分类相似度为：

R_{category} (T_{1}, T_{2}) = \frac{p (c | T_{1}) \cdot p (c | T_{2})}{| | p (c | T_{1}) | | | | p (c | T_{2}) | |} .

（2）、基于PLSA的主题相关性特征计算语义相关性特征值

PLSA模型是一种非监督的机器学习模型，用于识别文档中潜在的主题（Topic）信息，挖掘文档潜在的语义联系。PLSA模型认为在用户创作文档时，首先选择的是文档的主题信息分布，而后根据文档的主题分布选择合适的词，从而形成一篇完整的文档。用数学语言描述如下:

选定一篇文档的概率为p(d),每篇文档以概率p(z|d)属于一个主题，而给定一个主题，每个词以概率p(w|z)产生。将这个过程形成联合的概率模型表达式为：

p(d,w)=p(d)p(w|d)

p(w|d)=∑_z∈Zp(w|z)p(z|d)；

给定两个短文本T₁、T₂，对于每个短文本，可以根据p(z|w)获取每个词所属的主题分布，然后将该短文本所有词的主题分布乘于该词的全局IDF权重再累加，则得到该短文本的主题分布p(z|T)。

利用cosine公式，得到两个短文本的PLSA相似度为：

R_{plsa} (T_{1}, T_{2}) = \frac{p (z | T_{1}) \cdot p (z | T_{2})}{| | p (z | T_{1}) | | | | p (z | T_{2}) | |} .

（3）、基于统计机器翻译的相关性特征计算语义相关性特征值

在统计机器翻译领域中双语句对的翻译概率思想，可以很自然地想到用于对短文本进行相关性建模。

给定两个短文本T₁、T₂，设给定T₂，T₁出现的概率为P(T₁|T₂)，即似然度（likelihood）。

显然，T₁、T₂越相关，其似然度越大。由于文本千差万别，直接对其似然度进行建模较为困难，应用贝叶斯公式重写如下：

P (T_{1} | T_{2}) = \frac{P (T_{2} | T_{1}) P (T_{1})}{P (T_{2})};

其中，P(T₂|T₁)为机器翻译中的翻译模型；表示T₁翻译为T₂的概率；P(T₁)和P(T₂)分别为T₁和T₂的语言模型；分别刻画的是T₁和T₂是否为一个合法短文本的概率。

基于BOW模型假设，则

P (T_{2} | T_{1}) = \underset{j}{Π} P (t_{2 j} | T_{1}) = \underset{j}{Π} \underset{i}{Σ} P (t_{2 j} | t_{1 i});

其中P(t_2j|t_1i)为词t_1i到t_2j的翻译概率，即词对齐词典。词对之间的翻译概率可使用EM算法在平行语料上训练得到。

在具体应用中，翻译模型和语言模型，都可以利用大规模的网页搜索日志和广告主购买词，利用开源的机器翻译软件moses训练得到。

两个短文本T₁、T₂基于机器翻译模型的相关性特征计算公式，设计如下：

R_{mt} (T_{1}, T_{2}) = \frac{P (T_{1} | T_{2}) + P (T_{2} | T_{1})}{2} .

在统计机器翻译领域，这种方法对不同语言之间的翻译映射效果很好。但在单一语言（例如同是中文短串）之间，实验表明翻译词典覆盖率有限，提升覆盖率需要增加的平行语料的数目较大。本发明实施方式借鉴机器翻译的思想，构造了一个短文本之间的相关性特征。

（4）、基于网页搜索结果的词粒度的相关性特征计算语义相关性特征值

上面基于机器翻译的相关性特征计算的核心是词对齐词典，受这种词粒度映射关系的启发，本发明实施方式进一步提出基于词的网页搜索结果的相关性特征，刻画短文本间的相关性。

给定一个词，从其网页搜索结果中抽取出TF-IDF值最大的N个特征词（实际***中N取64），把这些特征词的TF-IDF值构成的特征向量V(t)=(w₁,w₂...w_n)作为对该词语义的表征。则两个词t₁、t₂基于词的网页搜索结果的相关性计算公式定义如下：

R_{bow} (t_{1}, t_{2}) = \frac{V (t_{1}) \cdot V (t_{2})}{| | V (t_{1}) | | \times | | V (t_{2}) | |};

两个短文本T₁、T₂基于词的网页搜索结果的相关性特征计算公式，设计如下：

R_{bow} (T_{1}, T_{2}) = \frac{\underset{i}{Σ} \max_{j} (R_{bow} (t_{1 i}, t_{2 j})) + \underset{j}{Σ} \max_{i} (R_{bow} (t_{1 i}, t_{2 j}))}{2};

基于词粒度的特征，只需要存储常见的词的TF-IDF特征向量，就可以极大地减小磁盘空间的开销，不需要存储海量的长检索串了。每个检索串都可以用更细粒度的词的特征来表达，短文本之间的相关性，可以上面的公式进行度量。

按照上述算法，可以计算得到多个相关性特征值（包括文本相关和/或语义相关），然后可以将这些相关性特征值融合起来构成一个总的相关性特征值。

具体包括：

根据前述，可以为短串间计算得到多个不同维度的相关性特征值，具体选择的特征包括但不局限于：编辑距离、最长公共子序列、分类、PLSA主题模型、基于词粒度的相关性等，最后使用逻辑回归模型将所有的相关性特征值拟合成一个总的语义相关性分值。

语义相关性模型的训练语料的样例一般是两个短文本和编辑给出的相关性分值，希望模型输出的是一个0到1之间的相关性分值。然而，逻辑回归是一个分类模型，要求训练语料的样例是特征向量和一个类别标签，模型输出的也是一个类别标签。

本发明实施方式包括：：

对每对编辑标注的短文本计算前述的多个相关性特征分值，组成的一个特征向量；

用每个特征向量构成M个训练样例，设编辑打分为S(S∈[0,1])，则将其中个样例的类别标记为1，其余样例标记为0；

采用二分类逻辑回归模型训练得到各个相关性特征的权值w₁,w₂...w_n和偏置b；

对于给定两个短文本T₁、T₂，先计算其前述的多个相关性特征分值R₁,R₂...R_n，然后利用Sigmoid函数计算得到最终的相关性分值为

R (T_{1}, T_{2}) = \frac{1}{1 + e^{- (\underset{i}{Σ} R_{i} W_{i} + b)}};

Sigmoid函数的输入域为(-∞,+∞)，输出域为[0,1]，非常适合用于计算相关性分值。

可以将本发明实施方式应用到多种领域中，比如可以应用到搜索广告实际的检索***中，利用逻辑回归模型对购买词做初选，并根据短串间的相关性分值，设置一定的阈值进行过滤，保留与查询串语义最相关的购买词作为候选。

综上所述，在传统的基于文档中词向量空间模型的计算方法中，在短文本上面临特征稀疏的问题。同时，由于短文本的分词结果依赖于语言模型，并不能保证不同词切分的一致，也会在一定程度上加剧向量的稀疏。

针对该问题，本发明实施方式提出基于编辑距离、最长公共子序列等字符串层面的文本相关性作为基础特征，它们能从多个维度表达短串间文本相似度，能够较好处理很多短文本不规范、分词不准或不一致的情况。

而且，传统基于字面相似的相关性计算方法，主要利用传统的BOW(bag-of-words)模型，一般建立在特征独立假设的基础上，按照特征向量的匹配情况来度量短文本的相关性，但在实际运用中，很多时候特征之间存在着很多的关联关系，特别在遇到一词多义和一义多词等情况时，语义上会有偏移，导致关联计算不准确。

针对该问题，本发明实施方式提出基于文本分类、概率隐含语义分析的相关性特征。它可以充分挖掘短文本与构成短文本的单词之间的隐含关系，从而计算两个短文本之间的类别联系和主题联系，形成对文本相关性的特征补充。

而且，传统的基于短文本网页搜索结果的计算方法，本质上是利用外部资源形成对短串的字面扩展。从效果上看，扩展结果严重依赖于所选择的搜索引擎等产品的相关性质量。从性能上看，其依赖的搜索结果数目巨大，每个短串都需要存储对应的结果，对下载和计算速度要求很高；两个同义但字面有略微差异，甚至词序不同的短文本，搜索结果也可能大不相同，且需要分别存储。此外，索引结果也是会定期更新的，相应存储的扩展结果也需要随之变化，如何保证扩展质量不下降，如何平衡数据更新的更新开销，都是不能回避的问题。

本发明实施方式提出了基于词的网页搜索结果的相关性特征，依赖的词典资源数目可控，单机存储空间、计算速度都有很大幅度的改进，使得在线实现短串间的轻量级语义相关性计算成为可能。

基于上述详细分析，本发明实施方式还提出了一种文本的相关性计算装置。

图2为根据本发明实施方式文本的相关性计算装置结构图。

如图2所示，该装置包括字符串接收单元201、相关性特征值计算单元202和相关性特征值拟合单元203，其中：

字符串接收单元201，用于接收第一字符串和第二字符串；

相关性特征值计算单元202，用于计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值；

相关性特征值拟合单元203，用于基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。

在一个实施方式中：

相关性特征值计算单元202，用于计算第一字符串与第二字符串基于编辑距离的相关性特征值，和/或计算第一字符串与第二字符串基于最长公共子序列的相关性特征值。

在一个实施方式中：

相关性特征值计算单元，用于构建一级行业类别特征词词典；针对第一字符串，根据一级行业类别特征词词典获取每个词所属的类别分布，然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加，以得到第一字符串类别分布；针对第二字符串，根据一级行业类别特征词词典获取每个词所属的类别分布，然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加，以得到第二字符串类别分布；计算第一字符串和第二字符串的类别分布的余弦夹角相似度，以得到第一字符串和第二字符串的语义相关性特征值。

在一个实施方式中：

相关性特征值计算单元202，用于基于人工标注的一级行业类别特征词集合，采用全文匹配分类方式对各个网页进行分类；对于拥有分类属性的网页进行全文切词，抽取类别特征词，并将所抽取的类别特征词合并入所述一级行业类别特征词集合，以构建一级行业类别特征词词典。

在一个实施方式中：

相关性特征值计算单元202，用于针对第一字符串，获取每个词所属的主题分布，然后将该第一字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加，以得到该第一字符串的主题分布；针对第二字符串，获取每个词所属的主题分布，然后将该第二字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加，以得到该第二字符串的主题分布；计算第一字符串和第二字符串的主题分布的余弦夹角相似度，以得到第一字符串和第二字符串的语义相关性特征值。

在一个实施方式中：

相关性特征值计算单元202，用于计算第一字符串与第二字符串基于统计机器翻译的相关性特征值，和/或计算第一字符串与第二字符串基于网页搜索结果的词粒度的语义相关性特征值。

在一个实施方式中：

相关性特征值拟合单元202，用于针对计算出的第一字符串与第二字符串的文本相关性特征值以及语义相关性特征值，构建特征向量；利用所述特征向量构建训练样例，并针对所述训练样例使用二分类逻辑回归模型做训练，分别得到文本相关性特征值的权重、语义相关性特征值的权重以及偏置；利用文本相关性特征值的权重、文本相关性特征值、语义相关性特征值的权重、语义相关性特征值以及偏置，计算所述相关性特征值。

在一个实施方式中：

相关性特征值计算单元202，用于计算执行下列中的至少一个：

计算第一字符串与第二字符串的基于编辑距离的相关性特征值；

计算第一字符串与第二字符串的基于最长公共子序列的相关性特征值；

计算第一字符串与第二字符串的基于文本分类的相关性特征值；

计算第一字符串与第二字符串的基于概率潜在语义分析PLSA的主题相关性特征值；

计算第一字符串与第二字符串的基于统计机器翻译的相关性特征值；

计算第一字符串与第二字符串基于网页搜索结果的词粒度的相关性特征值。

实际上，可以通过多种形式来具体实施本发明实施方式所提出的文本的相关性计算方法。比如，可以遵循一定规范的应用程序接口，将文本的相关性计算方法编写为安装到服务器中的插件程序，也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时，可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的文本的相关性计算方法。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的文本的相关性计算方法存储在各种存储介质上。这些存储介质包括但是不局限于：软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒（Memory Stick）、xD卡等。

另外，还可以将本发明实施方式所提出的文本的相关性计算方法应用到基于闪存（Nand flash）的存储介质中，比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。

综上所述，在本发明实施方式中，在本发明实施方式中，接收第一字符串和第二字符串；计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值；基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。由此可见，本发明实施方式避免了基于文档中词向量空间模型的计算方法，因此避免了特征稀疏的问题，从而提高了相关性判定的准确率，而且节约了存储空间并降低了成本。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本的相关性计算方法，其特征在于，该方法包括：

接收第一字符串和第二字符串；

2.根据权利要求1所述的文本的相关性计算方法，其特征在于，所述计算第一字符串与第二字符串的文本相关性特征值包括：

计算第一字符串与第二字符串基于编辑距离的相关性特征值，和/或计算第一字符串与第二字符串基于最长公共子序列的相关性特征值。

3.根据权利要求1所述的文本的相关性计算方法，其特征在于，所述计算第一字符串与第二字符串的语义相关性特征值包括：

构建行业类别特征词词典；

4.根据权利要求3所述的文本的相关性计算方法，其特征在于，

所述构建行业类别特征词词典包括：

5.根据权利要求1所述的文本的相关性计算方法，其特征在于，

所述计算第一字符串与第二字符串的语义相关性特征值包括：

6.根据权利要求1所述的文本的相关性计算方法，其特征在于，

所述计算第一字符串与第二字符串的语义相关性特征值包括：计算第一字符串与第二字符串基于统计机器翻译的相关性特征值。

7.根据权利要求1所述的文本的相关性计算方法，其特征在于，

所述计算第一字符串与第二字符串的语义相关性特征值包括：计算第一字符串与第二字符串基于网页搜索结果的词粒度的语义相关性特征值。

8.根据权利要求1-7中任一项所述的文本的相关性计算方法，其特征在于，所述基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成相关性特征值包括：

针对计算出的第一字符串与第二字符串的文本相关性特征值以及语义相关性特征值，构建特征向量；

9.根据权利要求1-7中任一项所述的文本的相关性计算方法，其特征在于，

所述计算第一字符串与第二字符串的语义相关性特征值包括下列中的至少一个：

10.一种文本的相关性计算装置，其特征在于，该装置包括字符串接收单元、相关性特征值计算单元和相关性特征值拟合单元，其中：

字符串接收单元，用于接收第一字符串和第二字符串；

11.根据权利要求10所述的文本的相关性计算装置，其特征在于，

相关性特征值计算单元，用于计算第一字符串与第二字符串基于编辑距离的相关性特征值，和/或计算第一字符串与第二字符串基于最长公共子序列的相关性特征值。

12.根据权利要求10所述的文本的相关性计算装置，其特征在于，

相关性特征值计算单元，用于构建行业类别特征词词典；针对第一字符串，根据行业类别特征词词典获取每个词所属的类别分布，然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加，以得到第一字符串类别分布；针对第二字符串，根据行业类别特征词词典获取每个词所属的类别分布，然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加，以得到第二字符串类别分布；计算第一字符串和第二字符串的类别分布的余弦夹角相似度，以得到第一字符串和第二字符串的语义相关性特征值。

13.根据权利要求12所述的文本的相关性计算装置，其特征在于，

相关性特征值计算单元，用于基于人工标注的行业类别特征词集合，采用全文匹配分类方式对各个网页进行分类；对于拥有分类属性的网页进行全文切词，抽取类别特征词，并将所抽取的类别特征词合并入所述行业类别特征词集合，以构建行业类别特征词词典。

14.根据权利要求10所述的文本的相关性计算装置，其特征在于，

相关性特征值计算单元，用于针对第一字符串，获取每个词所属的主题分布，然后将该第一字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加，以得到该第一字符串的主题分布；针对第二字符串，获取每个词所属的主题分布，然后将该第二字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加，以得到该第二字符串的主题分布；计算第一字符串和第二字符串的主题分布的余弦夹角相似度，以得到第一字符串和第二字符串的语义相关性特征值。

15.根据权利要求10所述的文本的相关性计算装置，其特征在于，

相关性特征值计算单元，用于计算第一字符串与第二字符串基于统计机器翻译的相关性特征值，和/或计算第一字符串与第二字符串基于网页搜索结果的词粒度的语义相关性特征值。

16.根据权利要求10-15中任一项所述的文本的相关性计算装置，其特征在于，

相关性特征值拟合单元，用于针对计算出的第一字符串与第二字符串的文本相关性特征值以及语义相关性特征值，构建特征向量；利用所述特征向量构建训练样例，并针对所述训练样例使用二分类逻辑回归模型做训练，分别得到文本相关性特征值的权重、语义相关性特征值的权重以及偏置；利用文本相关性特征值的权重、文本相关性特征值、语义相关性特征值的权重、语义相关性特征值以及偏置，计算所述相关性特征值。

17.根据权利要求10-15中任一项所述的文本的相关性计算装置，其特征在于，

相关性特征值计算单元，用于计算执行下列中的至少一个：