CN102246169A

CN102246169A - 为搜索词分配指标权重

Info

Publication number: CN102246169A
Application number: CN2009801502892A
Authority: CN
Inventors: 刘宸
Original assignee: Motorola Mobility LLC
Current assignee: Motorola Solutions Inc; Motorola Mobility LLC
Priority date: 2008-12-15
Filing date: 2009-12-14
Publication date: 2011-11-16
Also published as: KR20110095338A; US20100153366A1; WO2010075015A3; EP2377053A2; WO2010075015A2

Abstract

公开了为文档(300)中潜在的搜索词分配(206)指标权重(320)，所述指标权重(320)基于词的文本和声学两个方面。在一个实施例中，传统的基于文本的权重(302，304)被分配(200)给潜在的搜索词。这个权重(302，304)可以是TF-IDF(“词频率-逆向文档频率”)、TF-DV(“词频率辨别值”)、或者任何其他基于文本的权重(302，304)。然后，对于同一词计算(202)发音重音权重(318)。该基于文本的权重(302，304)和该发音重音权重(318)被算术组合(204)成该词的最终指标权重(320)。当输入基于语音的搜索字符串时，该组合的指标权重(320)用于(206)确定每篇文档(300)中的每个搜索词的重要性。预计计算发音重音(318)的若干可能性。在一些实施例中，对于文档(300)中的词的对，基于音位间距离计算词间发音距离(306)。

Description

为搜索词分配指标权重

技术领域

本申请主要涉及计算机为媒介的搜索工具，特别涉及为文档中的搜索词分配指标权重。

背景技术

在通常的搜索情形中，用户键入搜索字符串。该字符串提交给搜索引擎分析。在分析过程中，字符串中许多词而不是全部词都变为“搜索词”(例如“a”和“the”没有变为搜索词并且通常会被忽略)。然后搜索引擎查找包含该搜索词的适当的文档并且将那些适当的文档的列表示出为“命中”以用于用户浏览。

给出一个搜索词，查找包含该搜索词的合适的文档是一个精密而复杂的过程。与简单地拉出所有包含该搜索词的文档不同，智能搜索引擎首先预处理在其集合中的所有文档。对每篇文档，搜索引擎准备文档中包含和文档中重要的可能搜索词的列表。关于文档中的词的重要性(称为其的“指标权重”)，有很多已知的度量。一个常见的度量为“词频率-逆向文档频率”(“TF-IDF”)。简单地，该指标权重与词在文档中出现的次数成比例并且与包含该词的集合中文档的数目成反比。例如，词“这个”可能在文档中出现多次。然而，“这个”也出现在集合中几乎每篇文档中，而因此它的TF-IDF非常低。另一方面，因为集合可能只有几篇包含词“鲸鱼”的文档，则词“鲸鱼”在其中反复出现的文档对于鲸鱼有些论述，因此，对于该文档，“鲸鱼”具有高的TF-IDF。

因此，智能搜索引擎没有简单地列出包含用户的搜索词的所有文档，而是仅仅列出那些包含具有相对高的TF-IDF(或者搜索引擎使用的任何其他的词重要性度量)的那些文档。以这种方式，智能搜索引擎将最有可能满足用户需要的那些文档放在接近返回的文档列表的顶部。

然而，当用户是说出搜索字符串而不是键入时该情形并不有效。在通常的情形中，用户的小型个人通信装置(比如蜂窝电话或者个人数字助理)没有足够空间用于全键盘。相反，具有限制性的键盘，该键盘可能具有很多很小的按键，这些按键对于触摸打字来说太小；或者键盘具有几个按键，每个按键代表若干字母或者符号。用户发现限制性键盘不适合用于输入复杂的搜索查询，因此用户转向基于语音的搜索。

在这里，用户说出搜索查询。语音至文本引擎将说出的查询转换为文本。获得的文本查询然后如上所述地由标准的基于文本的搜索引擎处理。

虽然该处理适用于大多数情况，但是基于语音的搜索产生了新的问题。特别是，公知技术是单纯地基于文档的文本方面来给文档中的词分配指标权重的。

发明内容

本发明针对解决以上及其他考虑，可以参照说明书、附图和权利要求理解本发明。根据本发明的方面，文档中的潜在搜索词被分配有基于词的文本和声学两方面的指标权重。

在一实施例中，传统的基于文本的权重被分配给潜在的搜索词。该权重可以是TF-IDF、TF-DV(词频率-辨别值)或者是任何其他基于文本的权重。然后，对于同一词计算发音重音权重。基于文本的权重和发音重音权重被算术地组合成用于该词的最终的指标权重。当输入基于语音的搜索字符串时，该组合的指标权重用于确定每篇文档中每个搜索词的重要性。

正因为存在很多已知的用于计算基于文本的指标权重的可能性，因此预期用于计算发音重音的几种可能性。在一些实施例中，对于文档中的词的对，基于音位间距离计算词间发音距离。能够使用数据驱动和基于语音学技术来计算音位间距离。下面将描述该过程的详细情况和其他可能性。

附图说明

虽然所附权利要求书特别地阐明了本发明的特征，但是可以通过下面的结合附图的详细说明更好地理解本发明及其目的和优点：

图1是可以实施本发明的代表性环境的概述；

图2是给搜索词分配指标权重的示例方法的流程图；

图3是示出可以如何计算指标权重的数据流图；

图4a和4b是根据本发明计算的指标权重的性能和先前技术的指标权重的性能的比较的试验结果的表格。

具体实施方式

参考附图，其中相同的附图标记表示相同的元件，本发明被示出为在适合的环境中实施。下面的描述基于本发明的实施例并且不应该视为在这里没有详细描述的替代实施例方面限制了本发明。

在图1中，用户102想进行搜索。不管什么原因，用户102选择说出他的搜索查询至他的个人通信装置104而不是键入该搜索查询。用户102的语音输入被处理(在装置104上本地处理或者在远程搜索服务器106上处理)为文本查询。该文本查询被提交给搜索引擎(再一次说明：本地地或者远程地)。搜索结果在装置104的显示屏上展示给用户102。通信网络100使得装置104能够在适当的情况下访问该远程搜索服务器106，并且在用户102的指导下在搜索结果中取回“命中”。

为了使得能够快速地返回搜索结果，在输入搜索查询前预处理集合中的文档。分析集合中每篇文档中的潜在搜索词，并且给每篇文档中每个潜在的搜索词分配指标权重。根据本发明的方面，指标权重基于文档的传统的基于文本的考虑和特别对于语音查询的考虑(即：基于声学考虑)。通常，分配指标权重的预搜索工作在远程搜索服务器106上进行。

当用户102将语音搜索查询输入至他的个人通信装置104中时，分析该查询中的搜索词并且将其与预先分配给集合中文档中的搜索词的指标权重进行比较。基于指标权重，合适的文档被作为命中返回给用户102。为了将最合适的文档放置在命中的返回列表的高处，至少部分地基于搜索词的指标权重对命中进行排序。

图2示出了本发明方法的实施例。图3示出了数据如何在本发明的实施例中流动。在下面的论述中一起考虑这两个图。

步骤200应用公知技术来计算最终复合指标权重的第一组成部分。这里，基于文本的指标权重被分配给文档中的每个潜在搜索词。虽然已知并且能够使用多个基于文本的指标权重，但是下述示例描述了公知的TF-IDF指标权重。应用公知技术，文档集合中的文档(图3中300)首先被预处理以移除垃圾、清除标点、将屈折(或有时是派生)词减少到词干、基本或者词根形式，并且过滤掉停止词。然后每篇文档被转换为词向量。词向量用于计算文档的TF(词频率)和文档集合的IDF(逆向文档频率)。具体地，TF(图3中302)是特定文档d_q里的词t_m的归一化计数：

{TF}_{mq} = \frac{n_{mq}}{\underset{k}{Σ} n_{kq}}

其中n_mq是文档d_q里词t_m出现的次数，而分母是文档d_q里所有词出现的次数。文档集合中的词t_m的IDF(图3中304)是：

{IDF}_{m} = \ln \frac{| D |}{| {d_{q} : t_{m} &Element; d_{q}} |}

其中|D|是集合中的文档的总数，而分母表示出现词t_m的文档数目。然后TF-IDF权重是：

TF-IDF_mq＝TF_mq·IDF_m

这测量了词t_m对于文档集合中的文档d_q来说有多重要。不同的实施例能够用其他基于文本的指标权重，例如TF-DV来代替TF-IDF。

在步骤202中计算最终复合指标权重的第二个组成部分。此处，基于语音的指标权重(称作“发音重音”)被分配给文档中的每个潜在的搜索词。概括地说，词典(图3中308)首先被用于将每个词翻译为其语音学发音。其次，基于音位间距离(316)计算词间发音距离(306)。然后，对于该词，计算该词的发音重音(318)。

能够使用若干公知技术来估算该音位间距离(“IPD”)。这些技术通常属于数据驱动类技术或者基于语音学类。

为了使用数据驱动方法估算该IPD，假定一定量的语音数据可用于音位识别测试。然后，使用开放式音位语法从识别结果推导音位混淆矩阵。该音位***表示为{p_i|i＝1，…，I}，其中I是***中音位的总数。该混淆矩阵中每个元素标识为C(p_j|p_i)，其表示当音位p_i被识别为p_j时的情况数目。然后，当p_j＝p_i时，上述识别是正确的，并且当p_j≠p_i时是不正确的。在一些实施例中，停顿和无声模型包含在音位***中。在这些实施例中，混淆矩阵也提供关于每个音位的删除(当p_j＝停顿或者无声)和***(当p_i＝停顿或者无声)的信息。音位p_i被识别为p_j的倾向性被定义为：

d (p_{j} | p_{i}) = \frac{C (p_{j} | p_{i})}{Σ_{j = 1}^{I} C (p_{j} | p_{i})}

注意这个量表征了两个音位p_i和p_j间的接近度，但是严格的说它不是一个距离度量，因为它不是对称的，即：

d(p_j|p_i)≠d(p_i|p_j)

基于语音学的技术仅从语音学知识来估算IPD。在单纯语音学领域中的音位间的定量关系的表征是公知的。通常该关系将每个音位表示为向量，其中每个元素对应区别的语音学特征，例如：

f(p_i)＝[v_i(l)]^T

其中l＝1，…，L，这里向量包括一共L个元素或者特征，当特征存在时每个元素取1的值或者当特征不存在时取零的值。认识到特征的差别对于音位区别有帮助，利用权重因数来修改特征。从语言中每个特征的相对频率获得权重。让c(p_i)表示音位p_i的出现计数，则音位p_i贡献的每个特征l的频率是c(p_i)v_i(l)，并且所有音位贡献的每个特征l的频率是

从语言中所有音位获得的权重是：

W＝diag{w(1)，…，w(l)，…，w(L)}

其中每个特定特征l的权重是：

w (l) = \frac{Σ_{i = 1}^{I} c (p_{i}) v_{i} (l)}{Σ_{l^{'} = 1}^{L} Σ_{i = 1}^{I} c (p_{i}) v_{i} (l^{'})}, l = 1, \cdot \cdot \cdot, L

并且其中diag(向量)是对角矩阵，其中向量的元素作为对角元素。估算的两个音位p_i和p_j间的音位距离计算如下：

d (p_{j} | p_{i}) = {| | W [f (p_{i}) - f (p_{j})] | |}_{1} = Σ_{l = 1}^{L} w (l) | v_{i} (l) - v_{j} (l) |

其中i＝1，…，I，并且j＝1，…，I。音位和无声或者停顿之间的距离被人为地变为：

d (sil | p_{i}) = d (p_{i} | sil) = \underset{j}{avg} d (p_{j} | p_{i})

无论如何计算IPD(图3中的316)，下一步骤是计算词间发音混淆度或者词间发音距离(306)。在估算词t_m在发音上与另一个词t_n混淆的可能性时，本发明的实施例可以使用公知的Levenshtein距离的修改版本。该Levenshtein距离测量两个文本串间的编辑距离。起初，通过将一个文本串转换为另一个所需的最小操作数来给出该距离，这里操作指的是单独字符的***、删除或者替换。在本发明的修改版本中，在任意两个词t_m和t_n的发音间，即音位的串之间测量该Levenshtein距离。音位p_i的***、删除或者替换与惩罚成本Q相关联。两个发音串

和

间的修改后的Levenshtein距离是：

D (t_{n} | t_{m}) = LD (P_{t_{m}}, P_{t_{n}}; Q (p_{j} | p_{i}) : p_{i} &Element; P_{t_{m}}, p_{j} &Element; P_{t_{n}})

这里LD代表Levenshtein距离并且可以用自下而上的动态编程算法实现。这个距离是将要比较的两个词的发音串以及成本Q的函数。成本可以由上面论述的IPD来表示。即：

Q(p_j|p_i)＝d(p_j|p_i)

这不是概率，并且因此D(t_n|t_m)被称为词t_m被识别为词t_n的倾向性或者可能性。当t_n＝t_m时，该识别是正确的，并且当t_n≠t_m时，该识别是不正确的。

基于上述，词t_m的发音重音(318)(或者鲁棒性)的特征为：

R_{m} = \underset{t_{n} &Element; S (t_{m})}{avg} D (t_{n} | t_{m}) - D (t_{m} | t_{m})

在上述度量中，第一个词测量词t_m与听觉上最接近的词的组S(t_m)混淆的平均倾向性，因此：

D(t_n|t_m)≤D(t_n′|t_m)，

&ForAll; t_{n} &Element; S (t_{m})

&ForAll; t_{n^{'}} &NotElement; S (t_{m})

在我们的测试中，我们控制S(t_m)以对于每个t_m包括五个最易混淆的词。存在着下述情况，即声学模型组不适合识别一些词t_m以致于R_m＜0。在这个情况下，设置R_m＝0。通过变换可以增强发音重音：

PP_m＝F(R_m)

其中增强函数F()可以有几种形式。在测试中，我们使用幂函数：

PP_m＝(R_m)^r

这个幂参数r是大于零的自然数并且用于增强与现有的TF-IDF相关的发音重音。在我们的测试中，通常满足1≤r≤5。

在图2中的步骤204，基于文本的指标权重(来自步骤200)和发音重音(来自步骤202)算术地组合以创建新的指标权重。例如，当基于文本的指标权重是TF-IDF时，最终的权重为TF-IDF-PP权重(图3中320)：

(TF-IDF-PP)_mq＝TF_mq·IDF_m·PP_m

该新的权重将用于基于语音的搜索(步骤206)。

对从Enron电子邮件数据库随机选择的500封电子邮件进行测试。过滤掉电子邮件头、非字母字符和标点符号。通过包含818个词的停止词列表进一步筛选电子邮件。在清除和过滤后，该500封电子邮件包含总共52,448个词，其中8,358个唯一词。

对于语音识别，使用文本无关声学模型组并且包含三态HMM。该特征是常规的13个倒谱系数、13个一阶倒谱导数系数和13个二阶倒谱导数系数。在关键词的语音识别中，使用双连词语言模型。在语音识别结果中，对于每个词t_m获得词准确度A(t_m)。因此，进行文档d_q的成功定位的可能性可以估算为：

A (d_{q}) = \underset{m}{Π} A (t_{m})

注意的是，乘法是对与指标权重关联的词列表的顶子集进行的。然后可以如下地获得集合中所有文档的平均准确度：

A = \underset{q}{Σ} A (d_{q})

图4a的表示出了比较TF-IDF和TF-IDF-PP的搜素性能，其中PP是利用数据驱动的IPD获得的。图4a的表示出了相对于TF-IDF的利用TF-IDF-PP改进的平均搜索准确度和搜索步骤的平均数目。能够理解的是，在当前搜索测试中，TF-IDF可以不必提供最小搜索步骤，因为全局地获得每个词的IDF，而在搜索测试中，在第一步骤后的搜索是局部的。我们还对由于搜索步骤的减少而在搜索准确度中获得多少的益处进行了一些大概的估计。通过使用我们的语音识别器的平均性能达到90％词准确度，步骤的平均数目从2.30减少到2.25将仅导致平均搜索准确度从78.29％变化到78.47％。因此，我们可以说平均搜索准确度的改进很大程度上由于使用了声学上更鲁棒的词作为关键词。图4a表中的结果示出当从语音识别器的音位混淆矩阵获得发音重音因数PP时，通过使用TF-IDF-PP代替TF-IDF作为指标权重而获得了显著的改进。效益随着参数r即重音的增强而增加，而当r大时，例如，r＞5时，其饱和。通过使用新的指标权重，我们获得搜索准确度的平均5个百分点的提高。

图4b的表示出了另一测试结果。这里，从语音学知识(图3中的314)获得发音重音因数。测试示出了搜索准确度的类似改进。该改进略小于图4a表中示出的结果。

与仅利用文本信息的现有的TF-IDF权重相比，本发明的方法提供了考虑文本领域和声学领域中的信息的指标。该策略导致对于基于语音的搜索的更好的选择。如图4a和4b的实验结果中所示，新的度量的搜索效率比标准的TF-IDF度量高了5个百分点。

鉴于可以应用本发明的原理的很多可能实施例，应了解的是，这里参考附图描述的实施例仅仅是示例性的而不应理解为限制本发明的范围。例如，其他基于文本的和基于语音的度量可以用于计算最终指标权重。因此，这里描述的本发明意在包含所有落入所附权利要求及其等同物的范围内的实施例。

Claims

1.一种用于为文档(300)中搜索词分配指标权重(320)的方法，所述文档(300)在文档(300)集合中，该方法包括：

计算(200)文档(300)中搜索词的基于文本的指标权重(302，304)

计算(202)搜索词的发音重音(318)；以及

将指标权重(320)分配给文档(300)中的搜索词，所述指标权重(320)至少部分地基于所计算的基于文本的指标权重(302，304)和所计算的发音重音(318)的算术组合(204)。

2.根据权利要求1的方法，其中，计算文档中搜索词的基于文本的指标权重包括：

计算文档中搜索词的词频率；

计算文档集合中所述搜索词的逆文档频率；以及

通过算术地组合所计算的词频率和所计算的逆向文档频率来计算文档中搜索词的基于文本的指标权重。

3.根据权利要求1的方法，其中，计算文档中搜索词的基于文本的指标权重包括：

计算文档中搜索词的词频率；

计算文档集合中所述搜索词的辨别值；以及

通过算术地组合所计算的词频率和所计算的辨别值来计算文档中搜索词的基于文本的指标权重。

4.根据权利要求1的方法，其中，计算搜索词的发音重音包括：

将文档集合中的文档中的词翻译成语音学发音；

计算翻译的词的对之间的词间发音距离，所述计算至少部分地基于音位间距离；以及

计算搜索词发音重音，所述计算至少部分地基于词间发音距离。

5.根据权利要求4的方法，进一步包括：

计算音位间距离，所述计算至少部分地基于从由数据驱动技术和基于语音学技术组成的组中选择的技术。

6.根据权利要求5的方法，其中，所述数据驱动技术包括：

推导音位混淆矩阵，所述推导至少部分地基于利用开放式音位语法的音位识别。

7.根据权利要求5的方法，其中，所述基于语音学技术包括：

将第一和第二音位中的每一个表示为向量，每个向量元素对应于各音位的区别语音学特征；

对向量元素加权重，所述加权重至少部分地基于语言中的每个特征的相对频率，所述语言包括所述第一和第二音位；以及

估算所述第一和第二音位间的音位间距离，所述估算至少部分地基于所述第一和第二音位的向量。

8.根据权利要求4的方法，其中，计算翻译的词的对之间的词间发音距离包括计算翻译的词的对之间的词间发音混淆度。

9.根据权利要求4的方法，其中，计算搜索词发音重音包括对所述搜索词和另一词之间的词间发音距离的听觉上最接近所述搜索词的一组词取平均值。

10.一种语音至文本搜索指标服务器(106)，包括：

存储器，被构造为存储分配给文档(300)中搜索词的指标权重(320)，所述文档(300)在文档(300)集合中；以及

处理器，其可操作地耦接到所述存储器并且被构造为：计算(200)文档(300)中搜索词的基于文本的指标权重(302，304)，计算(202)搜索词的发音重音(318)，以及为文档(300)中搜索词分配(206)指标权重(320)，所述指标权重(320)至少部分地基于所计算的基于文本的指标权重(302，304)和所计算的发音重音(318)的算术组合(204)。