CN102246169A - 为搜索词分配指标权重 - Google Patents

为搜索词分配指标权重 Download PDF

Info

Publication number
CN102246169A
CN102246169A CN2009801502892A CN200980150289A CN102246169A CN 102246169 A CN102246169 A CN 102246169A CN 2009801502892 A CN2009801502892 A CN 2009801502892A CN 200980150289 A CN200980150289 A CN 200980150289A CN 102246169 A CN102246169 A CN 102246169A
Authority
CN
China
Prior art keywords
document
search word
speech
calculate
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009801502892A
Other languages
English (en)
Inventor
刘宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Motorola Mobility LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Publication of CN102246169A publication Critical patent/CN102246169A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了为文档(300)中潜在的搜索词分配(206)指标权重(320),所述指标权重(320)基于词的文本和声学两个方面。在一个实施例中,传统的基于文本的权重(302,304)被分配(200)给潜在的搜索词。这个权重(302,304)可以是TF-IDF(“词频率-逆向文档频率”)、TF-DV(“词频率辨别值”)、或者任何其他基于文本的权重(302,304)。然后,对于同一词计算(202)发音重音权重(318)。该基于文本的权重(302,304)和该发音重音权重(318)被算术组合(204)成该词的最终指标权重(320)。当输入基于语音的搜索字符串时,该组合的指标权重(320)用于(206)确定每篇文档(300)中的每个搜索词的重要性。预计计算发音重音(318)的若干可能性。在一些实施例中,对于文档(300)中的词的对,基于音位间距离计算词间发音距离(306)。

Description

为搜索词分配指标权重
技术领域
本申请主要涉及计算机为媒介的搜索工具,特别涉及为文档中的搜索词分配指标权重。
背景技术
在通常的搜索情形中,用户键入搜索字符串。该字符串提交给搜索引擎分析。在分析过程中,字符串中许多词而不是全部词都变为“搜索词”(例如“a”和“the”没有变为搜索词并且通常会被忽略)。然后搜索引擎查找包含该搜索词的适当的文档并且将那些适当的文档的列表示出为“命中”以用于用户浏览。
给出一个搜索词,查找包含该搜索词的合适的文档是一个精密而复杂的过程。与简单地拉出所有包含该搜索词的文档不同,智能搜索引擎首先预处理在其集合中的所有文档。对每篇文档,搜索引擎准备文档中包含和文档中重要的可能搜索词的列表。关于文档中的词的重要性(称为其的“指标权重”),有很多已知的度量。一个常见的度量为“词频率-逆向文档频率”(“TF-IDF”)。简单地,该指标权重与词在文档中出现的次数成比例并且与包含该词的集合中文档的数目成反比。例如,词“这个”可能在文档中出现多次。然而,“这个”也出现在集合中几乎每篇文档中,而因此它的TF-IDF非常低。另一方面,因为集合可能只有几篇包含词“鲸鱼”的文档,则词“鲸鱼”在其中反复出现的文档对于鲸鱼有些论述,因此,对于该文档,“鲸鱼”具有高的TF-IDF。
因此,智能搜索引擎没有简单地列出包含用户的搜索词的所有文档,而是仅仅列出那些包含具有相对高的TF-IDF(或者搜索引擎使用的任何其他的词重要性度量)的那些文档。以这种方式,智能搜索引擎将最有可能满足用户需要的那些文档放在接近返回的文档列表的顶部。
然而,当用户是说出搜索字符串而不是键入时该情形并不有效。在通常的情形中,用户的小型个人通信装置(比如蜂窝电话或者个人数字助理)没有足够空间用于全键盘。相反,具有限制性的键盘,该键盘可能具有很多很小的按键,这些按键对于触摸打字来说太小;或者键盘具有几个按键,每个按键代表若干字母或者符号。用户发现限制性键盘不适合用于输入复杂的搜索查询,因此用户转向基于语音的搜索。
在这里,用户说出搜索查询。语音至文本引擎将说出的查询转换为文本。获得的文本查询然后如上所述地由标准的基于文本的搜索引擎处理。
虽然该处理适用于大多数情况,但是基于语音的搜索产生了新的问题。特别是,公知技术是单纯地基于文档的文本方面来给文档中的词分配指标权重的。
发明内容
本发明针对解决以上及其他考虑,可以参照说明书、附图和权利要求理解本发明。根据本发明的方面,文档中的潜在搜索词被分配有基于词的文本和声学两方面的指标权重。
在一实施例中,传统的基于文本的权重被分配给潜在的搜索词。该权重可以是TF-IDF、TF-DV(词频率-辨别值)或者是任何其他基于文本的权重。然后,对于同一词计算发音重音权重。基于文本的权重和发音重音权重被算术地组合成用于该词的最终的指标权重。当输入基于语音的搜索字符串时,该组合的指标权重用于确定每篇文档中每个搜索词的重要性。
正因为存在很多已知的用于计算基于文本的指标权重的可能性,因此预期用于计算发音重音的几种可能性。在一些实施例中,对于文档中的词的对,基于音位间距离计算词间发音距离。能够使用数据驱动和基于语音学技术来计算音位间距离。下面将描述该过程的详细情况和其他可能性。
附图说明
虽然所附权利要求书特别地阐明了本发明的特征,但是可以通过下面的结合附图的详细说明更好地理解本发明及其目的和优点:
图1是可以实施本发明的代表性环境的概述;
图2是给搜索词分配指标权重的示例方法的流程图;
图3是示出可以如何计算指标权重的数据流图;
图4a和4b是根据本发明计算的指标权重的性能和先前技术的指标权重的性能的比较的试验结果的表格。
具体实施方式
参考附图,其中相同的附图标记表示相同的元件,本发明被示出为在适合的环境中实施。下面的描述基于本发明的实施例并且不应该视为在这里没有详细描述的替代实施例方面限制了本发明。
在图1中,用户102想进行搜索。不管什么原因,用户102选择说出他的搜索查询至他的个人通信装置104而不是键入该搜索查询。用户102的语音输入被处理(在装置104上本地处理或者在远程搜索服务器106上处理)为文本查询。该文本查询被提交给搜索引擎(再一次说明:本地地或者远程地)。搜索结果在装置104的显示屏上展示给用户102。通信网络100使得装置104能够在适当的情况下访问该远程搜索服务器106,并且在用户102的指导下在搜索结果中取回“命中”。
为了使得能够快速地返回搜索结果,在输入搜索查询前预处理集合中的文档。分析集合中每篇文档中的潜在搜索词,并且给每篇文档中每个潜在的搜索词分配指标权重。根据本发明的方面,指标权重基于文档的传统的基于文本的考虑和特别对于语音查询的考虑(即:基于声学考虑)。通常,分配指标权重的预搜索工作在远程搜索服务器106上进行。
当用户102将语音搜索查询输入至他的个人通信装置104中时,分析该查询中的搜索词并且将其与预先分配给集合中文档中的搜索词的指标权重进行比较。基于指标权重,合适的文档被作为命中返回给用户102。为了将最合适的文档放置在命中的返回列表的高处,至少部分地基于搜索词的指标权重对命中进行排序。
图2示出了本发明方法的实施例。图3示出了数据如何在本发明的实施例中流动。在下面的论述中一起考虑这两个图。
步骤200应用公知技术来计算最终复合指标权重的第一组成部分。这里,基于文本的指标权重被分配给文档中的每个潜在搜索词。虽然已知并且能够使用多个基于文本的指标权重,但是下述示例描述了公知的TF-IDF指标权重。应用公知技术,文档集合中的文档(图3中300)首先被预处理以移除垃圾、清除标点、将屈折(或有时是派生)词减少到词干、基本或者词根形式,并且过滤掉停止词。然后每篇文档被转换为词向量。词向量用于计算文档的TF(词频率)和文档集合的IDF(逆向文档频率)。具体地,TF(图3中302)是特定文档dq里的词tm的归一化计数:
TF mq = n mq Σ k n kq
其中nmq是文档dq里词tm出现的次数,而分母是文档dq里所有词出现的次数。文档集合中的词tm的IDF(图3中304)是:
IDF m = ln | D | | { d q : t m ∈ d q } |
其中|D|是集合中的文档的总数,而分母表示出现词tm的文档数目。然后TF-IDF权重是:
TF-IDFmq=TFmq·IDFm
这测量了词tm对于文档集合中的文档dq来说有多重要。不同的实施例能够用其他基于文本的指标权重,例如TF-DV来代替TF-IDF。
在步骤202中计算最终复合指标权重的第二个组成部分。此处,基于语音的指标权重(称作“发音重音”)被分配给文档中的每个潜在的搜索词。概括地说,词典(图3中308)首先被用于将每个词翻译为其语音学发音。其次,基于音位间距离(316)计算词间发音距离(306)。然后,对于该词,计算该词的发音重音(318)。
能够使用若干公知技术来估算该音位间距离(“IPD”)。这些技术通常属于数据驱动类技术或者基于语音学类。
为了使用数据驱动方法估算该IPD,假定一定量的语音数据可用于音位识别测试。然后,使用开放式音位语法从识别结果推导音位混淆矩阵。该音位***表示为{pi|i=1,…,I},其中I是***中音位的总数。该混淆矩阵中每个元素标识为C(pj|pi),其表示当音位pi被识别为pj时的情况数目。然后,当pj=pi时,上述识别是正确的,并且当pj≠pi时是不正确的。在一些实施例中,停顿和无声模型包含在音位***中。在这些实施例中,混淆矩阵也提供关于每个音位的删除(当pj=停顿或者无声)和***(当pi=停顿或者无声)的信息。音位pi被识别为pj的倾向性被定义为:
d ( p j | p i ) = C ( p j | p i ) Σ j = 1 I C ( p j | p i )
注意这个量表征了两个音位pi和pj间的接近度,但是严格的说它不是一个距离度量,因为它不是对称的,即:
d(pj|pi)≠d(pi|pj)
基于语音学的技术仅从语音学知识来估算IPD。在单纯语音学领域中的音位间的定量关系的表征是公知的。通常该关系将每个音位表示为向量,其中每个元素对应区别的语音学特征,例如:
f(pi)=[vi(l)]T
其中l=1,…,L,这里向量包括一共L个元素或者特征,当特征存在时每个元素取1的值或者当特征不存在时取零的值。认识到特征的差别对于音位区别有帮助,利用权重因数来修改特征。从语言中每个特征的相对频率获得权重。让c(pi)表示音位pi的出现计数,则音位pi贡献的每个特征l的频率是c(pi)vi(l),并且所有音位贡献的每个特征l的频率是
Figure BPA00001390955300062
从语言中所有音位获得的权重是:
W=diag{w(1),…,w(l),…,w(L)}
其中每个特定特征l的权重是:
w ( l ) = Σ i = 1 I c ( p i ) v i ( l ) Σ l ′ = 1 L Σ i = 1 I c ( p i ) v i ( l ′ ) , l = 1 , · · · , L
并且其中diag(向量)是对角矩阵,其中向量的元素作为对角元素。估算的两个音位pi和pj间的音位距离计算如下:
d ( p j | p i ) = | | W [ f ( p i ) - f ( p j ) ] | | 1 = Σ l = 1 L w ( l ) | v i ( l ) - v j ( l ) |
其中i=1,…,I,并且j=1,…,I。音位和无声或者停顿之间的距离被人为地变为:
d ( sil | p i ) = d ( p i | sil ) = avg j d ( p j | p i )
无论如何计算IPD(图3中的316),下一步骤是计算词间发音混淆度或者词间发音距离(306)。在估算词tm在发音上与另一个词tn混淆的可能性时,本发明的实施例可以使用公知的Levenshtein距离的修改版本。该Levenshtein距离测量两个文本串间的编辑距离。起初,通过将一个文本串转换为另一个所需的最小操作数来给出该距离,这里操作指的是单独字符的***、删除或者替换。在本发明的修改版本中,在任意两个词tm和tn的发音间,即音位的串之间测量该Levenshtein距离。音位pi的***、删除或者替换与惩罚成本Q相关联。两个发音串
Figure BPA00001390955300073
Figure BPA00001390955300074
间的修改后的Levenshtein距离是:
D ( t n | t m ) = LD ( P t m , P t n ; Q ( p j | p i ) : p i ∈ P t m , p j ∈ P t n )
这里LD代表Levenshtein距离并且可以用自下而上的动态编程算法实现。这个距离是将要比较的两个词的发音串以及成本Q的函数。成本可以由上面论述的IPD来表示。即:
Q(pj|pi)=d(pj|pi)
这不是概率,并且因此D(tn|tm)被称为词tm被识别为词tn的倾向性或者可能性。当tn=tm时,该识别是正确的,并且当tn≠tm时,该识别是不正确的。
基于上述,词tm的发音重音(318)(或者鲁棒性)的特征为:
R m = avg t n ∈ S ( t m ) D ( t n | t m ) - D ( t m | t m )
在上述度量中,第一个词测量词tm与听觉上最接近的词的组S(tm)混淆的平均倾向性,因此:
D(tn|tm)≤D(tn′|tm),
∀ t n ∈ S ( t m )
∀ t n ′ ∉ S ( t m )
在我们的测试中,我们控制S(tm)以对于每个tm包括五个最易混淆的词。存在着下述情况,即声学模型组不适合识别一些词tm以致于Rm<0。在这个情况下,设置Rm=0。通过变换可以增强发音重音:
PPm=F(Rm)
其中增强函数F()可以有几种形式。在测试中,我们使用幂函数:
PPm=(Rm)r
这个幂参数r是大于零的自然数并且用于增强与现有的TF-IDF相关的发音重音。在我们的测试中,通常满足1≤r≤5。
在图2中的步骤204,基于文本的指标权重(来自步骤200)和发音重音(来自步骤202)算术地组合以创建新的指标权重。例如,当基于文本的指标权重是TF-IDF时,最终的权重为TF-IDF-PP权重(图3中320):
(TF-IDF-PP)mq=TFmq·IDFm·PPm
该新的权重将用于基于语音的搜索(步骤206)。
对从Enron电子邮件数据库随机选择的500封电子邮件进行测试。过滤掉电子邮件头、非字母字符和标点符号。通过包含818个词的停止词列表进一步筛选电子邮件。在清除和过滤后,该500封电子邮件包含总共52,448个词,其中8,358个唯一词。
对于语音识别,使用文本无关声学模型组并且包含三态HMM。该特征是常规的13个倒谱系数、13个一阶倒谱导数系数和13个二阶倒谱导数系数。在关键词的语音识别中,使用双连词语言模型。在语音识别结果中,对于每个词tm获得词准确度A(tm)。因此,进行文档dq的成功定位的可能性可以估算为:
A ( d q ) = Π m A ( t m )
注意的是,乘法是对与指标权重关联的词列表的顶子集进行的。然后可以如下地获得集合中所有文档的平均准确度:
A = Σ q A ( d q )
图4a的表示出了比较TF-IDF和TF-IDF-PP的搜素性能,其中PP是利用数据驱动的IPD获得的。图4a的表示出了相对于TF-IDF的利用TF-IDF-PP改进的平均搜索准确度和搜索步骤的平均数目。能够理解的是,在当前搜索测试中,TF-IDF可以不必提供最小搜索步骤,因为全局地获得每个词的IDF,而在搜索测试中,在第一步骤后的搜索是局部的。我们还对由于搜索步骤的减少而在搜索准确度中获得多少的益处进行了一些大概的估计。通过使用我们的语音识别器的平均性能达到90%词准确度,步骤的平均数目从2.30减少到2.25将仅导致平均搜索准确度从78.29%变化到78.47%。因此,我们可以说平均搜索准确度的改进很大程度上由于使用了声学上更鲁棒的词作为关键词。图4a表中的结果示出当从语音识别器的音位混淆矩阵获得发音重音因数PP时,通过使用TF-IDF-PP代替TF-IDF作为指标权重而获得了显著的改进。效益随着参数r即重音的增强而增加,而当r大时,例如,r>5时,其饱和。通过使用新的指标权重,我们获得搜索准确度的平均5个百分点的提高。
图4b的表示出了另一测试结果。这里,从语音学知识(图3中的314)获得发音重音因数。测试示出了搜索准确度的类似改进。该改进略小于图4a表中示出的结果。
与仅利用文本信息的现有的TF-IDF权重相比,本发明的方法提供了考虑文本领域和声学领域中的信息的指标。该策略导致对于基于语音的搜索的更好的选择。如图4a和4b的实验结果中所示,新的度量的搜索效率比标准的TF-IDF度量高了5个百分点。
鉴于可以应用本发明的原理的很多可能实施例,应了解的是,这里参考附图描述的实施例仅仅是示例性的而不应理解为限制本发明的范围。例如,其他基于文本的和基于语音的度量可以用于计算最终指标权重。因此,这里描述的本发明意在包含所有落入所附权利要求及其等同物的范围内的实施例。

Claims (10)

1.一种用于为文档(300)中搜索词分配指标权重(320)的方法,所述文档(300)在文档(300)集合中,该方法包括:
计算(200)文档(300)中搜索词的基于文本的指标权重(302,304)
计算(202)搜索词的发音重音(318);以及
将指标权重(320)分配给文档(300)中的搜索词,所述指标权重(320)至少部分地基于所计算的基于文本的指标权重(302,304)和所计算的发音重音(318)的算术组合(204)。
2.根据权利要求1的方法,其中,计算文档中搜索词的基于文本的指标权重包括:
计算文档中搜索词的词频率;
计算文档集合中所述搜索词的逆文档频率;以及
通过算术地组合所计算的词频率和所计算的逆向文档频率来计算文档中搜索词的基于文本的指标权重。
3.根据权利要求1的方法,其中,计算文档中搜索词的基于文本的指标权重包括:
计算文档中搜索词的词频率;
计算文档集合中所述搜索词的辨别值;以及
通过算术地组合所计算的词频率和所计算的辨别值来计算文档中搜索词的基于文本的指标权重。
4.根据权利要求1的方法,其中,计算搜索词的发音重音包括:
将文档集合中的文档中的词翻译成语音学发音;
计算翻译的词的对之间的词间发音距离,所述计算至少部分地基于音位间距离;以及
计算搜索词发音重音,所述计算至少部分地基于词间发音距离。
5.根据权利要求4的方法,进一步包括:
计算音位间距离,所述计算至少部分地基于从由数据驱动技术和基于语音学技术组成的组中选择的技术。
6.根据权利要求5的方法,其中,所述数据驱动技术包括:
推导音位混淆矩阵,所述推导至少部分地基于利用开放式音位语法的音位识别。
7.根据权利要求5的方法,其中,所述基于语音学技术包括:
将第一和第二音位中的每一个表示为向量,每个向量元素对应于各音位的区别语音学特征;
对向量元素加权重,所述加权重至少部分地基于语言中的每个特征的相对频率,所述语言包括所述第一和第二音位;以及
估算所述第一和第二音位间的音位间距离,所述估算至少部分地基于所述第一和第二音位的向量。
8.根据权利要求4的方法,其中,计算翻译的词的对之间的词间发音距离包括计算翻译的词的对之间的词间发音混淆度。
9.根据权利要求4的方法,其中,计算搜索词发音重音包括对所述搜索词和另一词之间的词间发音距离的听觉上最接近所述搜索词的一组词取平均值。
10.一种语音至文本搜索指标服务器(106),包括:
存储器,被构造为存储分配给文档(300)中搜索词的指标权重(320),所述文档(300)在文档(300)集合中;以及
处理器,其可操作地耦接到所述存储器并且被构造为:计算(200)文档(300)中搜索词的基于文本的指标权重(302,304),计算(202)搜索词的发音重音(318),以及为文档(300)中搜索词分配(206)指标权重(320),所述指标权重(320)至少部分地基于所计算的基于文本的指标权重(302,304)和所计算的发音重音(318)的算术组合(204)。
CN2009801502892A 2008-12-15 2009-12-14 为搜索词分配指标权重 Pending CN102246169A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/334,842 2008-12-15
US12/334,842 US20100153366A1 (en) 2008-12-15 2008-12-15 Assigning an indexing weight to a search term
PCT/US2009/067815 WO2010075015A2 (en) 2008-12-15 2009-12-14 Assigning an indexing weight to a search term

Publications (1)

Publication Number Publication Date
CN102246169A true CN102246169A (zh) 2011-11-16

Family

ID=42241753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801502892A Pending CN102246169A (zh) 2008-12-15 2009-12-14 为搜索词分配指标权重

Country Status (5)

Country Link
US (1) US20100153366A1 (zh)
EP (1) EP2377053A2 (zh)
KR (1) KR20110095338A (zh)
CN (1) CN102246169A (zh)
WO (1) WO2010075015A2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651015A (zh) * 2012-03-30 2012-08-29 梁宗强 为搜索药品分配权重方法和模块
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和***
CN105893397A (zh) * 2015-06-30 2016-08-24 北京爱奇艺科技有限公司 一种视频推荐方法及装置
CN105893533A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN106383910A (zh) * 2016-10-09 2017-02-08 合网络技术(北京)有限公司 搜索词权重的确定方法、网络资源的推送方法及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996488B2 (en) * 2008-12-17 2015-03-31 At&T Intellectual Property I, L.P. Methods, systems and computer program products for obtaining geographical coordinates from a textually identified location
KR101850886B1 (ko) * 2010-12-23 2018-04-23 네이버 주식회사 감소 질의를 추천하는 검색 시스템 및 방법
JP5753769B2 (ja) * 2011-11-18 2015-07-22 株式会社日立製作所 音声データ検索システムおよびそのためのプログラム
US8983840B2 (en) * 2012-06-19 2015-03-17 International Business Machines Corporation Intent discovery in audio or text-based conversation
CN103678365B (zh) 2012-09-13 2017-07-18 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及***
US10049656B1 (en) 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
US20150286780A1 (en) * 2014-04-08 2015-10-08 Siemens Medical Solutions Usa, Inc. Imaging Protocol Optimization With Consensus Of The Community
CN105354321A (zh) * 2015-11-16 2016-02-24 中国建设银行股份有限公司 一种查询数据处理方法和装置
CN105975459B (zh) * 2016-05-24 2018-09-21 北京奇艺世纪科技有限公司 一种词项的权重标注方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1343337B (zh) * 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
GB0015233D0 (en) * 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
JP2005148199A (ja) * 2003-11-12 2005-06-09 Ricoh Co Ltd 情報処理装置、画像形成装置、プログラム、及び記憶媒体
US20050283357A1 (en) * 2004-06-22 2005-12-22 Microsoft Corporation Text mining method
US20080215313A1 (en) * 2004-08-13 2008-09-04 Swiss Reinsurance Company Speech and Textual Analysis Device and Corresponding Method
US20080040342A1 (en) * 2004-09-07 2008-02-14 Hust Robert M Data processing apparatus and methods
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
KR100843329B1 (ko) * 2006-07-31 2008-07-03 (주)에어패스 모바일 지식 검색 서비스 시스템
JP5010885B2 (ja) * 2006-09-29 2012-08-29 株式会社ジャストシステム 文書検索装置、文書検索方法および文書検索プログラム
US20080162125A1 (en) * 2006-12-28 2008-07-03 Motorola, Inc. Method and apparatus for language independent voice indexing and searching
TWI336048B (en) * 2007-05-11 2011-01-11 Delta Electronics Inc Input system for mobile search and method therefor
US7945441B2 (en) * 2007-08-07 2011-05-17 Microsoft Corporation Quantized feature index trajectory
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651015A (zh) * 2012-03-30 2012-08-29 梁宗强 为搜索药品分配权重方法和模块
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和***
CN103020213B (zh) * 2012-12-07 2015-07-22 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和***
CN105893397A (zh) * 2015-06-30 2016-08-24 北京爱奇艺科技有限公司 一种视频推荐方法及装置
CN105893397B (zh) * 2015-06-30 2019-03-15 北京爱奇艺科技有限公司 一种视频推荐方法及装置
CN105893533A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN106383910A (zh) * 2016-10-09 2017-02-08 合网络技术(北京)有限公司 搜索词权重的确定方法、网络资源的推送方法及装置
CN106383910B (zh) * 2016-10-09 2020-02-14 合一网络技术(北京)有限公司 搜索词权重的确定方法、网络资源的推送方法及装置

Also Published As

Publication number Publication date
KR20110095338A (ko) 2011-08-24
US20100153366A1 (en) 2010-06-17
WO2010075015A3 (en) 2010-08-26
EP2377053A2 (en) 2011-10-19
WO2010075015A2 (en) 2010-07-01

Similar Documents

Publication Publication Date Title
CN102246169A (zh) 为搜索词分配指标权重
EP1482415B1 (en) System and method for user modelling to enhance named entity recognition
AU2002333063B2 (en) Character string identification
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及***
CN107180084B (zh) 词库更新方法及装置
CN101785050B (zh) 语音识别用对照规则学习***以及语音识别用对照规则学习方法
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
CN102314876B (zh) 语音检索的方法和***
Gandhe et al. Using web text to improve keyword spotting in speech
CN114266256A (zh) 一种领域新词的提取方法及***
CN110347833B (zh) 一种多轮对话的分类方法
JP5360414B2 (ja) キーワード抽出モデル学習システム、方法およびプログラム
Audhkhasi et al. Keyword search using modified minimum edit distance measure
Su et al. Improved TF-IDF weight method based on sentence similarity for spoken dialogue system
CN109298796B (zh) 一种词联想方法及装置
CN115331675A (zh) 一种处理用户语音的方法及装置
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法
JP2005284209A (ja) 音声認識方式
Salah et al. Generating domain-specific sentiment lexicons for opinion mining
JP3913626B2 (ja) 言語モデル生成方法、その装置及びそのプログラム
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
TWI603320B (zh) 全域對話系統
CN117077688B (zh) 基于自然语言处理的信息分析方法及***
JP5700566B2 (ja) スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
Udagedara et al. Language model-based spell-checker for sri lankan names and addresses

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111116