CN101636732A

CN101636732A - 用于语言独立语音索引和搜索的方法和装置

Info

Publication number: CN101636732A
Application number: CN200780048241A
Authority: CN
Inventors: 马长学; 李飞鹏
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2006-12-28
Filing date: 2007-10-30
Publication date: 2010-01-27
Also published as: EP2126752A1; KR20090111825A; US20080162125A1; WO2008082764A1

Abstract

公开了一种用于移动通信设备中的语言独立语音搜索的方法和装置。该方法可以包括从移动通信设备的用户接收搜索查询(4200)，将搜索查询中的话音部分转换成至少涵盖一种语言的语言表示(4300)，基于该语言表示生成搜索音素网格(4400)，从搜索音素网格中提取查询特征(4500)，基于提取的查询特征生成查询特征向量(4600)，使用查询特征向量和来自索引数据库的索引特征向量来执行粗搜索(4700)，使用粗搜索结果和存储在索引数据库中的索引音素网格来执行精搜索(4800)，以及向对话管理者输出精搜索结果(4900)。

Description

用于语言独立语音索引和搜索的方法和装置

技术领域

[0001]本发明涉及移动通信设备，并且特别涉及移动通信设备中的语音索引和搜索。

背景技术

[0002]移动通信设备，诸如蜂窝电话，是被所有语言的人们所使用的非常普遍的通信设备。该设备的使用已扩展到远远超出了纯粹的语音通信。现在用户能够使用移动通信设备作为语音记录器来记录注解、对话、消息等。用户还可以利用语音在设备上对诸如照片、视频和应用程序这样的内容进行注释。

[0003]虽然这些能力已经得到扩展，但在移动通信设备上对存储的音频内容进行搜索的能力是有限的。由于难以用按钮导航内容，因此移动通信设备用户可能会发现能够迅速找到语音注释的内容、存储的语音记录的对话、注解和消息是有用的。

发明内容

[0004]公开了一种用于移动通信设备中的语言独立语音索引和搜索的方法和装置。该方法可以包括从移动通信设备的用户接收搜索查询，将搜索查询中的话音部分转换成语言表示，基于该语言表示生成搜索音素网格，从搜索音素网格中提取查询特征，基于提取的特征生成查询特征向量，使用查询特征向量和来自索引数据库的索引特征向量来执行粗搜索，使用粗搜索结果和存储在索引数据库中的索引音素网格来执行精搜索，并且向对话管理者输出精搜索结果。

附图说明

[0005]为了描述可以得到本发明上述的和其他的优点和特征的方式，通过参考附图中示出的本发明的特定实施例，提供了上文简述的本发明的更详细的描述。可以理解的是这些附图仅仅描述了本发明的典型实施例，并且因而并不被视为限定本发明的范围，通过使用附图，可以通过其他的特征和细节来描述和解释本发明，其中：

[0006]图1说明了根据本发明的可能实施例的移动通信设备的示例性图示；

[0007]图2说明了根据本发明的可能实施例的示例性移动通信设备的方框图；

[0008]图3说明了根据本发明的可能实施例的索引和语音搜索引擎的示例性方框图；以及

[0009]图4是说明根据本发明的一个可能实施例的一个可能的语音搜索过程的示例性流程图。

具体实施方式

[0010]本发明的其他特点和优势将在下面的描述中阐明，并且通过描述部分地将变得明显，或可通过本发明的实践而被了解。本发明的特点和优势可以通过所附权利要求中所特别指出的设备及组合的方式来实现和获得。通过下面的描述和所附权利要求，本发明的这些和其他特点将变得更加全面明显，或如这里所阐述的，可以通过发明实践而被了解。

[0011]下面详细讨论了本发明的各种实施例。虽然讨论了具体实现方式，但应该理解，这样做仅出于说明的目的。本领域技术人员将认识到，在没有脱离本发明的精神和范围的前提下，可以使用其他组件和配置。

[0012]本发明包括多种实施例，诸如方法、装置以及与本发明基本概念相关的其他实施例。

[0013]本发明涉及语言独立索引和搜索过程，其可用于移动设备上的语音注释内容和语音消息的快速检索。语音注释或语音消息可以转换成音素网格，以及由从语音注释或语音消息中自动提取的一元文法(unigram)和二元文法(bigram)特征向量来索引。语音消息或注释被分割，并且每个音频片段可由调制特征向量表示，其组分是音素网格的一元文法和二元文法统计。该一元文法统计可以是音素网格的音素频率计数。该二元文法统计可以是两个连续音素的频率计数。搜索过程可能涉及两个阶段：粗搜索，其查找索引并迅速返回一组候选语音注释或语音消息；以及精搜索，其通过使用动态编程将查询语音的最佳路径与候选注释或消息的音素网格进行比较。

[0014]图1说明了根据本发明的可能实施例的移动通信设备110的示例性图示。虽然图1将移动通信设备110示出为无线电话，但移动通信设备110可代表具有内部或外部记录和或存储音频的能力的任何移动或便携设备，包括移动电话、蜂窝电话、无线的无线电装置、便携计算机、膝上型电脑、MP3播放器、卫星无线电装置、***、数字视频记录器(DVR)、电视机顶盒等。

[0015]图2说明了根据本发明的可能实施例的具有语音搜索引擎270的示例性移动通信设备110的方框图。示例性移动通信设备110可以包括总线210、处理器220、存储器230、天线240、收发信机250、通信接口260、语音搜索引擎270、索引引擎280和输入/输出(I/O)设备290。总线210可以允许移动通信设备110各组件之间的通信。

[0016]处理器220可以包括解释并执行指令的至少一个常规处理器或微处理器。存储器230可以是随机存取存储器(RAM)或另一类型的动态存储设备，其存储由处理器220执行的信息和指令。存储器230还可以包括只读存储器(ROM)，其可以包括常规ROM设备，或者另一类型的静态存储设备，其存储用于处理器220的静态信息和指令。

[0017]收发信机250可以包括一个或多个发射机和接收机。该收发信机250可以包括足够的功能，以与任何网络或通信站接驳，并且可以本领域技术人员所知的任何方式由硬件或软件来定义。该处理器220可与收发信机250协同操作以支持通信网络内的操作。

[0018]输入/输出设备(I/O设备)290可以包括允许用户向移动通信设备110输入信息的一个或多个常规输入机制，诸如麦克风、触摸屏、键区、键盘、鼠标、笔、触笔、语音识别设备、按钮等。输出设备可以包括向用户输出信息的一个或多个常规机制，包括显示器、打印机、一个或多个扬声器、存储介质，诸如存储器、磁或光盘和盘驱动器等，和/或用于以上的接口。

[0019]通信接口260可以包括经由通信网络促进通信的任何机制。例如，通信接口260可以包括调制解调器。可替换地，通信接口260可以包括用于协助收发信机250经由无线连接与其他设备和/或***进行通信的其他机制。

[0020]下面将参考图3更详细地讨论语音搜索引擎270和索引引擎280的功能。

[0021]移动通信设备110可以响应于处理器220通过执行包含在计算机可读介质中的指令序列来执行这些功能，所述计算机可读介质诸如，例如存储器230。可以经由通信接口260将这些指令从另一计算机可读介质，诸如存储设备，或从分离的设备读取到存储器230中。

[0022]如图1-2所示的移动通信设备110和相关讨论的意图是对可在其中实现本发明的合适的通信和处理环境提供简洁的、一般的描述。虽然不需要，但是将至少部分地在由移动通信设备110，诸如通信服务器或者通用计算机执行计算机可执行指令，诸如程序模块的一般背景下描述本发明。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、对象、组件、数据结构等。此外，本领域技术人员将意识到，可以在具有许多类型的通信设备和计算机***配置的通信网络环境中实践本发明的其他实施例，所述许多类型的通信设备和计算机***配置包括蜂窝设备、移动通信设备、个人计算机、手持设备、多处理器***、基于微处理器的或可编程消费电子设备等等。

[0023]图3说明了根据本发明的可能实施例的具有索引引擎280和语音搜索引擎270的语音搜索***300的示例性方框图。索引引擎280可以包括音频数据库320、索引自动话音识别器(ASR)330、索引音素网格生成器340、索引特征向量生成器345和索引数据库310。语音搜索引擎270可以包括搜索ASR 350、搜索音素网格生成器360、搜索特征向量生成器370、粗搜索模块380及精搜索模块390。

[0024]在索引引擎280中，音频数据库320可以包含音频记录，诸如语音邮件、会话、注解、消息、注释等，其被输入至索引ASR 330中。索引ASR 330可以识别输入音频，并且可以呈现识别结果。

[0025]识别结果可以是普遍的语言表示的形式，其涵盖移动通信设备用户选择的语言。举例来说，中国用户可以选择中文和英文作为通信设备的语言。美国用户可以选择英文和西班牙文作为用于设备的语言。在任何情况下，用户可以选择至少一种语言来使用。通用语言表示可以包括音素表示、音节表示、语素表示、单词表示等。

[0026]语言表示然后被输入到索引音素网格生成器340。索引音素网格生成器340生成诸如音素的语言表示的网格，代表话音流。网格由一系列连接的节点和边缘组成。每个边缘可以利用作为假设可能性的对数的得分来表示音素。每个边缘两端的节点指音素的开始时间和结束时间。在两个节点之间可以发生多个边缘(假设)，并且从开始到结束的最可能路径是所谓的“最佳路径”。

[0027]索引特征向量生成器345从生成的音素网格中提取索引项或者“特征”。例如，可根据这些特征的可能性(正确性)来提取这些特征。然后索引特征向量生成器345将每个提取的索引项(特征)映射到特征在其中出现的音素网格，并且在索引数据库310中存储结果向量。

[0028]在移动通信设备110中索引数据库310存储音素网格、特征向量和用于所有音频记录、消息、特征、功能、文件、内容、事件等的索引。当音频记录被添加到和/或存储在移动通信设备110中时，可以根据上述过程来对它们进行处理和索引。

[0029]出于说明的目的，下面将参考图1-3中所示的框图描述语音搜索引擎270及其对应的过程。

[0030]图4是说明根据本发明的可能实施例的一个可能语音搜索过程的示例性流程图。该过程开始于步骤4100，并继续到步骤4200，在步骤4200语音搜索引擎270从移动通信设备110的用户接收搜索查询。在步骤4300，语音搜索引擎270的搜索ASR 350将搜索查询中的话音部分转换成语言表示。在步骤4400，搜索音素网格生成器360基于该语言表示生成搜索音素网格。

[0031]在步骤4500，搜索特征向量生成器370从生成的搜索音素网格中提取查询特征。在步骤4600，搜索特征向量生成器370基于提取的查询特征生成查询特征向量，使得搜索查询具有与存储在索引数据库310中的索引音素网格和索引特征向量相同的表示形式。

[0032]在步骤4700，粗搜索模块380使用查询特征向量和来自索引数据库310的索引特征向量来执行粗搜索。对于给定的搜索查询，粗搜索模块380首先计算查询特征向量和例如索引数据库310中的所有索引的音频文件的索引特征向量之间的余弦距离，所述音频文件诸如消息，并且根据余弦距离的大小对消息分级。一组头等候选消息，通常是4到5倍于最终搜索结果的量，将被返回用于更细的搜索。在实践中，粗搜索模块380可以通过在树结构中对消息进行排序来优化该过程，使得用于在搜索查询和目标音频消息之间进行匹配的计算可进一步被减少。

[0033]在步骤4800，精搜索模块390使用粗搜索结果和存储在索引数据库310中的索引音素网格来执行精搜索。精搜索在搜索查询最佳路径和来自索引数据库310的候选消息的音素网格之间进行准确比较。

[0034]为了节省计算成本，精搜索模块390根据他们的最佳路径的长度将查询消息分类成长和短消息。对长消息来说，尽管存在高音素错误率，但查询和目标最佳路径之间的匹配可以足够可靠。编辑距离可用来测量两个最佳路径之间的相似性。然而，对短消息来说，由于高音素错误率，因此最佳路径可能不可靠，并且查询最佳路径和整个目标索引音素网格之间的完全匹配是必要的。

[0035]在步骤4900，语音搜索引擎270的精搜索模块390向对话管理者输出精搜索结果。该对话管理者然后可以进一步与用户进行交互。该过程进行到步骤4500，并结束。

[0036]在本发明范围内的实施例也可包括用于承载或具有计算机可执行指令或存储于其上的数据结构的计算机可读介质。这种计算机可读介质可以是可以被一般用途或特殊用途的计算机访问的任何可用介质。通过示例，而不是限制，这种计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备或可以用于通过计算机可执行指令或数据结构形式来承载或存储所需的程序代码手段的任何其他介质。当通过网络或其他通信连接(硬连线的、无线的或其组合)将信息传送或提供给计算机时，该计算机适当地将该连接看作计算机可读介质。因此，任何这样的连接都可适当地被称为计算机可读介质。上述组合也应被包括在计算机可读介质的范围内。

[0037]计算机可执行指令包括，例如，导致一般用途计算机、特殊用途计算机、或特殊用途处理设备来执行某种功能或一组功能的指令和数据。计算机可执行指令还包括由单机或网络环境中的计算机执行的程序模块。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和数据结构等。计算机可执行的指令、相关联的数据结构和程序模块代表用于执行此处公开的方法的步骤的程序代码手段的示例。这种可执行指令的特定序列或相关联的数据结构代表用于实现这些步骤中所描述的功能的对应行为的示例。

[0038]虽然上述描述可以包含具体细节，但他们不应被理解为以任何方式限制权利要求。所描述的发明实施例的其他配置是本发明范围的一部分。例如，本发明的原理可以适用于每个单独的用户，其中每个用户可以单独部署这样的***。这使每个用户能够利用本发明的益处，即使大量的可能应用中的任何一个应用都不需要此处描述的功能。换句话说，在图2-3中可能有多个语音搜索引擎270的实例，每个以各种可能方式处理内容。这不必是一个由所有终端用户使用的***。因此，仅应由所附的权利要求和他们的合法等效内容来限定本发明，而不是任何给定的具体示例。

权利要求书(按照条约第19条的修改)

1.一种用于在移动通信设备中进行语言独立语音索引和搜索的方法，所述方法包括：

从所述移动通信设备的用户接收搜索查询；

将所述搜索查询中的话音部分转换成语言表示；

基于所述语言表示生成搜索音素网格；

从所生成的搜索音素网格中提取查询特征；

基于所提取的查询特征生成查询特征向量；

使用所生成的查询特征向量和来自索引数据库的索引特征向量来执行粗搜索，其中所述索引数据库存储索引特征向量的索引，该索引特征向量的索引来自在所述移动通信设备上存储的音频文件的索引音素网格；

使用所述粗搜索的结果和存储在所述索引数据库中的所述索引音素网格来执行精搜索；

向对话管理者输出所述精搜索的结果。

2.如权利要求1所述的方法，其中，所述语言表示是下述各项中的至少一个：至少一种语言的单词、语素、音节和音素。

3.如权利要求1所述的方法，其中，所述搜索查询涉及存储在所述移动通信设备上的音频文件。

4.如权利要求3所述的方法，其中，所述音频文件是音频记录、语音邮件、记录的会话、注解、消息和注释中的一个。

5.如权利要求1所述的方法，其中，所述粗搜索基于所述搜索查询生成多个候选音频文件。

6.如权利要求5所述的方法，其中，所述精搜索从所述粗搜索结果中生成最佳候选。

7.如权利要求1所述的方法，其中，所述移动通信设备是下述之一：移动电话、蜂窝电话、无线的无线电装置、便携计算机、膝上型电脑、MP3播放器、卫星无线电装置、***、数字视频记录器(DVR)和电视机顶盒。

8.一种用于在移动通信设备中进行语言独立语音搜索的装置，所述装置包括：

索引数据库，所述索引数据库存储索引特征向量的索引，该索引特征向量的索引来自在所述移动通信设备上存储的音频文件的索引音素网格；以及

语音搜索引擎，所述语音搜索引擎从所述移动通信设备的用户接收搜索查询，将所述搜索查询的话音部分转换成语言表示，基于所述语言表示生成搜索音素网格，从所生成的搜索音素网格中提取查询特征，基于所提取的查询特征生成查询特征向量，使用所述查询特征向量和来自所述索引数据库的所述索引特征向量来执行粗搜索，使用所述粗搜索的结果和存储在所述索引数据库中的所述索引音素网格来执行精搜索，以及向对话管理者输出所述精搜索的结果。

9.如权利要求8所述的装置，其中，所述语言表示是下述各项中的至少一个：至少一种语言的单词、语素、音节和音素。

10.如权利要求8所述的装置，其中，所述搜索查询涉及存储在所述移动通信设备上的音频文件。

11.如权利要求10所述的装置，其中，所述音频文件是音频记录、语音邮件、记录的会话、注解、消息和注释中的一个。

12.如权利要求8所述的装置，其中，由所述语音搜索引擎执行的所述粗搜索基于所述搜索查询生成多个候选音频文件。

13.如权利要求12所述的装置，其中，由所述语音搜索引擎执行的所述精搜索从所述粗搜索结果中生成最佳候选。

14.如权利要求8所述的装置，其中，所述移动通信设备是下述之一：移动电话、蜂窝电话、无线的无线电装置、便携计算机、膝上型电脑、MP3播放器、卫星无线电装置、***、数字视频记录器(DVR)和电视机顶盒。

15.一种用于在移动通信设备中进行语言独立语音搜索的装置，所述装置包括：

索引数据库，所述索引数据库存储索引特征向量的索引，该索引特征向量的索引来自在所述移动通信设备上存储的音频文件的索引音素网格；

搜索自动话音识别器，所述搜索自动话音识别器从所述移动通信设备的用户接收搜索查询以及将所述搜索查询中的话音部分转换成语言表示；

搜索音素网格生成器，所述搜索音素网格生成器基于所述语言表示生成搜索音素网格；

搜索特征向量生成器，所述搜索特征向量生成器从所述搜索音素网格中提取查询特征以及基于所提取的查询特征生成查询特征向量；

粗搜索模块，所述粗搜索模块使用所述查询特征向量和来自所述索引数据库的所述索引特征向量来执行粗搜索；以及

精搜索模块，所述精搜索模块使用所述粗搜索的结果和存储在所述索引数据库中的所述索引音素网格来执行精搜索，以及向对话管理者输出所述精搜索的结果。

16.如权利要求15所述的装置，其中，所述语言表示是下述各项中的至少一个：至少一种语言的单词、语素、音节和音素。

17.如权利要求15所述的装置，其中，所述搜索查询涉及存储在所述移动通信设备上的音频文件。

18.如权利要求17所述的装置，其中，所述音频文件是音频记录、语音邮件、记录的会话、注解、消息和注释中的一个。

19.如权利要求15所述的装置，其中，所述粗搜索模块基于所述搜索查询生成多个候选音频文件，以及所述精搜索模块从所述粗搜索结果中生成最佳候选。

20.如权利要求15所述的装置，其中，所述移动通信设备是下述之一：移动电话、蜂窝电话、无线的无线电装置、便携计算机、膝上型电脑、MP3播放器、卫星无线电装置、***、数字视频记录器(DVR)和电视机顶盒。

Claims

1.一种用于在移动通信设备中进行语言独立语音索引和搜索的方法，包括：

从所述移动通信设备的用户接收搜索查询；

将所述搜索查询中的话音部分转换成语言表示；

基于所述语言表示生成搜索音素网格；

从所生成的搜索音素网格中提取查询特征；

基于所提取的查询特征生成查询特征向量；

向对话管理者输出所述精搜索结果。

8.一种用于在移动通信设备中进行语言独立语音搜索的装置，包括：

语音搜索引擎，所述语音搜索引擎从所述移动通信设备的用户接收搜索查询，将所述搜索查询的话音部分转换成语言表示，基于所述语言表示生成搜索音素网格，从所生成的搜索音素网格中提取查询特征，基于所提取的查询特征生成查询特征向量，使用所述查询特征向量和来自所述索引数据库的所述索引特征向量来执行粗搜索，使用所述粗搜索的结果和存储在所述索引数据库中的所述索引音素网格来执行精搜索，以及向对话管理者输出所述精搜索结果。

15.一种用于在移动通信设备中进行语言独立语音搜索的装置，包括：

精搜索模块，所述精搜索模块使用所述粗搜索的结果和存储在所述索引数据库中的所述索引音素网格来执行精搜索，以及向对话管理者输出所述精搜索结果。