CN107526826A

CN107526826A - 语音搜索处理方法、装置及服务器

Info

Publication number: CN107526826A
Application number: CN201710773346.9A
Authority: CN
Inventors: 杜念冬; 马赛; 谢延
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2017-12-29
Anticipated expiration: 2037-08-31
Also published as: CN107526826B

Abstract

本发明提出一种语音搜索处理方法、装置及服务器，其中，该方法包括：获取语音搜索语句；分别根据N种语言模型，对所述搜索语句进行识别的同时，对所述搜索语句所属的语言类型进行判断，其中每种语言模型分别对应一种类型的语言，N为大于1的正整数；在确定所述搜索语句属于第i种类型的语言时，获取所述第i种类型的语言模型对应的识别结果；根据所述识别结果进行搜索。由此，实现了对语音搜索语句的识别及搜索，提高了语音搜索处理的效率，减少了用户的等待时间，改善了用户体验。

Description

语音搜索处理方法、装置及服务器

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音搜索处理方法、装置及服务器。

背景技术

随着互联网和信息技术的发展，越来越多的用户通过互联网搜索各种信息。

目前的具有多语言搜索功能的搜索引擎，在为用户进行搜索时，在获取到搜索语句后，通常先根据常用的语言种类，对搜索语句进行识别，然后对识别结果的准确性进行判断，若准确性较低，则切换语言类型后，对搜索语句进行重新识别，直至确定的识别结果的准确性较高，再根据确定的识别结果进行搜索。

这种搜索方式，对搜索语句的语音类型的判决过程复杂，耗时长，进而导致搜索处理过程耗时长，搜索效率低，用户体验差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种语音搜索处理方法，实现了对语音搜索语句的识别及搜索，提高了语音搜索处理的效率，减少了用户的等待时间，改善了用户体验。

本发明还提出一种语音搜索处理装置。

本发明还提出一种服务器。

本发明还提出一种计算机可读存储介质。

本发明第一方面实施例提出了一种语音搜索处理方法，包括：获取语音搜索语句；分别根据N种语言模型，对所述搜索语句进行识别的同时，对所述搜索语句所属的语言类型进行判断，其中每种语言模型分别对应一种类型的语言，N为大于1的正整数；在确定所述搜索语句属于第i种类型的语言时，获取所述第i种类型的语言模型对应的识别结果；根据所述识别结果进行搜索。

本发明实施例的语音搜索处理方法，首先获取语音搜索语句，然后分别根据N种语言模型，对搜索语句进行识别的同时，对搜索语句所属的语言类型进行判断，在确定搜索语句属于第i种类型的语言时，获取第i种类型的语言模型对应的识别结果，最后根据识别结果进行搜索。由此，实现了对语音搜索语句的识别及搜索，提高了语音搜索处理的效率，减少了用户的等待时间，改善了用户体验。

本发明第二方面实施例提出了一种语音搜索处理装置，包括：第一获取模块，用于获取语音搜索语句；判断模块，用于分别根据N种语言模型，对所述搜索语句进行识别的同时，对所述搜索语句所属的语言类型进行判断，其中每种语言模型分别对应一种类型的语言，N为大于1的正整数；第二获取模块，用于在确定所述搜索语句属于第i种类型的语言时，获取所述第i种类型的语言模型对应的识别结果；搜索模块，用于根据所述识别结果进行搜索。

本发明实施例的语音搜索处理装置，首先获取语音搜索语句，然后分别根据N种语言模型，对搜索语句进行识别的同时，对搜索语句所属的语言类型进行判断，在确定搜索语句属于第i种类型的语言时，获取第i种类型的语言模型对应的识别结果，最后根据识别结果进行搜索。由此，实现了对语音搜索语句的识别及搜索，提高了语音搜索处理的效率，减少了用户的等待时间，改善了用户体验。

本发明第三方面实施例提出了一种服务器，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当所述处理器执行所述程序时实现如第一方面所述的语音搜索处理方法。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的语音搜索处理方法。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的语音搜索处理方法的流程图；

图2是本发明另一个实施例的语音搜索处理方法的流程图；

图3是本发明一个实施例的语音搜索处理装置的结构示意图；

图4是本发明另一个实施例的语音搜索处理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

目前的具有多语言搜索功能的搜索引擎，在为用户进行搜索时，在获取到搜索语句后，通常先根据常用的语言种类，对搜索语句进行识别，然后对识别结果的准确性进行判断，若准确性较低，则切换语言类型后，对搜索语句进行重新识别，直至确定的识别结果的准确性较高，再根据确定的识别结果进行搜索。这种搜索方式，对搜索语句的语音类型的判决过程复杂，耗时长，进而导致搜索处理过程耗时长，搜索效率低，用户体验差。

本发明各实施例针对上述问题，提出一种语音搜索处理方法，在获取到语音搜索语音后，分别根据多种语言模型，对搜索语音进行识别的同时，对搜索语句所属的语言类型进行判断，其中，每种语言模型对应一种类型的语言，在确定搜索语句所属的语言时，获取与该语言类型对应的语言模型的识别结果，从而根据识别结果进行搜索。由此，实现了对语音搜索语句的识别及搜索，提高了语音搜索处理的效率，减少了用户的等待时间，改善了用户体验。

下面参考附图描述本发明实施例的语音搜索处理方法、装置及服务器。

图1是本发明一个实施例的语音搜索处理方法的流程图。

如图1所示，该语音搜索处理方法包括：

步骤101，获取语音搜索语句。

其中，本发明实施例提供的语音搜索处理方法的执行主体为本发明实施例提供的语音搜索处理装置，该装置可以被配置在任意具有搜索功能的服务器中，以对获取的语音搜索语句进行搜索。

具体的，可以在终端中预先设置麦克风等语音输入设备，从而在用户需要搜索信息时，终端可以通过语音输入设备，获取用户输入的语音搜索语句，并将搜索语句发送给语音搜索处理装置。

步骤102，分别根据N种语言模型，对搜索语句进行识别的同时，对搜索语句所属的语言类型进行判断，其中每种语言模型分别对应一种类型的语言，N为大于1的正整数。

其中，N种语言模型，可以包括现有的所有类型的语言分别对应的语言模型，也可以包括根据需要确定的多种语言模型，此处不作限制。

可以理解的是，分别根据N种语言模型，对搜索语句进行识别之前，还需要确定N种语言模型。具体的，可以根据多种方式，确定N种语言模型。

比如，可以根据历史搜索日志进行确定，即，在步骤102之前，还可以包括：根据历史搜索日志，确定N种语言模型。

其中，历史搜索日志，可以是用户利用终端进行搜索时的历史搜索记录或其它历史搜索记录，此处不作限制。

具体的，可以根据历史搜索记录，确定终端所属的用户进行搜索时，经常会用哪些类型的语言进行搜索，从而根据各语言类型的搜索语句分别对应的搜索频率，确定要对搜索语句进行识别的N种语言模型。

具体实现时，可以预先设置N的值，在确定不同语言类型的搜索语句分别对应的搜索频率后，可以将语言类型按搜索频率从高到低的顺序排序，从而将排在前面的N种语言类型分别对应的语言模型，确定为要对搜索语句进行识别的N种语言模型。

举例来说，假设N为2，根据一段时间内的历史搜索记录，确定终端所属的用户利用中文进行搜索的频率为200，利用英文进行搜索的频率为300，利用韩文进行搜索的频率为10。则可以根据中文、英文、韩文分别对应的搜索频率，将中文和英文类型的语言模型，确定为要对搜索语句进行识别的2种语言模型。

或者，可以预先设置搜索频率阈值，从而在确定了不同语言类型的搜索语句分别对应的搜索频率后，可以将搜索频率大于预设阈值的语言类型对应的语言模型，确定为要对搜索语句进行识别的语言模型。

另外，可以根据终端的历史使用信息，确定要对搜索语句进行识别的N种语言模型。其中，历史使用信息，可以是用户对终端中的各应用的使用信息，终端在一段时间内经常所在的位置信息，等等。

举例来说，假设根据终端所在的位置信息，确定用户经常往返于美国和中国，而美国和中国对应的用户的常用语言类型为英文和中文，则可以将中文和英文分别对应的语言模型，确定为要对搜索语句进行识别的语言模型。

具体实现时，可以通过以下步骤102a-102b，对搜索语句所属的语言类型进行判断。

步骤102a，确定搜索语句的特征向量。

其中，特征向量，用来表征获取到的语音搜索语句的特征。

具体的，语音搜索处理装置获取到语音搜索语句后，可以通过梅尔倒谱系数、线性预测倒谱系数、多媒体内容描述接口等等多种方法，确定获取到的语音搜索语句的特征向量。

步骤102b，根据特征向量与预设的各语言类型模型的匹配度，确定搜索语句所属的语言类型。

具体的，可以预先根据大量的各种类型语言的历史语料，分别训练得到各语言类型模型，从而在确定获取的语音搜索语句的特征向量后，可以将特征向量输入各语言类型模型进行校验打分，并将得分最高的语言类型模型，即与特征向量的匹配度最高的语言类型模型对应的语言类型，确定为搜索语句所属的语言类型。

步骤103，在确定搜索语句属于第i种类型的语言时，获取第i种类型的语言模型对应的识别结果。

步骤104，根据识别结果进行搜索。

具体的，可以预先设置不同语言类型的搜索语句，对应不同的资源库，从而在根据搜索语句所属的语言类型，获取与语言类型对应的语言模型的识别结果后，可以在与语言类型对应的资源库中进行搜索。

需要说明的是，在每种语言类型对应的资源库中进行搜索时，可以是普通搜索，即在对应语言类型的非结构化资源库中进行搜索；也可以是垂直搜索，即在对应语言类型的结构化资源库中进行搜索。

可以理解的是，本发明实施例提供的语音搜索处理方法，通过将对搜索语句所属的语言类型进行判断的过程，与对搜索语句进行识别的过程同时进行，可以提高语音搜索处理的效率，减少用户的等待时间。且通过同时根据N种语言模型，对搜索语句进行识别，在确定搜索语句所属的语言类型后，从多种识别结果中获取与语言类型对应的语言模型的识别结果，可以保证对语音搜索语句的识别结果的准确性和可靠性。

另外，在本发明实施例中，也可以先对搜索语句所属的语言类型进行判断，然后根据判断出的语言类型对应的语言模型，对搜索语句进行识别，以获取识别结果，从而根据与语言类型对应的语言模型的识别结果进行搜索。

通过上述分析可知，在获取到语音搜索语音后，分别根据多种语言模型，对搜索语音进行识别的同时，可以对搜索语句所属的语言类型进行判断，在确定搜索语句所属的语言时，再获取与该语言类型对应的语言模型的识别结果，从而根据识别结果进行搜索。在实际运用中，对搜索语句所属的语言类型进行判断时，可以仅根据搜索语句的部分片段进行判断，下面结合图2，针对上述情况进行具体说明。

图2是本发明另一个实施例的语音搜索处理方法的流程图。

如图2所示，该方法包括：

步骤201，获取语音搜索语句。

其中，上述步骤201的具体实现过程及原理，可以参照上述实施例的详细描述，此处不作赘述。

步骤202，根据预设的规则，从搜索语句中截取预设长度的片段。

其中，预设的规则，用于指规定从搜索语句中截取预设长度的片段的规则。

步骤203，分别根据N种语言模型，对搜索语句进行识别的同时，根据预设长度的片段，对搜索语句所属的语言类型进行判断。

其中，每种语言模型分别对应一种类型的语言，N为大于1的正整数。

预设长度，可以根据需要任意设置，只要保证利用预设长度的片段能够判断出搜索语句所属的语言类型即可。具体的，预设长度可以设置为固定长度，如3秒(s)、4s等等；也可以根据搜索语句的长度等因素进行具体设置，如设置为搜索语句长度的1/3，等等，此处不作限制。

具体的，可以通过以下步骤203a-203b，根据预设长度的片段，对搜索语句所属的语言类型进行判断。

步骤203a，根据预设长度的片段，确定搜索语句的特征向量。

具体的，语音搜索处理装置获取到预设长度的片段后，可以通过梅尔倒谱系数、线性预测倒谱系数、多媒体内容描述接口等等多种方法，确定语音搜索语句的特征向量。

步骤203b，根据特征向量与预设的各语言类型模型的匹配度，确定搜索语句所属的语言类型。

具体的，可以预先根据大量的各种类型语言的历史语料，分别训练得到各语言类型模型，从而在确定语音搜索语句的特征向量后，可以将特征向量输入各语言类型模型进行校验打分，并将得分最高的语言类型模型，即与特征向量的匹配度最高的语言类型模型对应的语言类型，确定为搜索语句所属的语言类型。

需要说明的是，分别根据N种语言模型，对搜索语句进行识别的过程，可以参照上述实施例的具体描述，此处不再赘述。另外，步骤202和步骤203可以同时进行。

步骤204，在确定搜索语句属于第i种类型的语言时，获取第i种类型的语言模型对应的识别结果。

步骤205，根据识别结果进行搜索。

其中，上述步骤204-205的具体实现过程及原理，可以参照上述实施例的详细描述，此处不作赘述。

可以理解的是，由于根据语言模型，对搜索语句进行识别时，需要利用完整的语言进行识别，而对搜索语句所属的语言类型进行判断时，通过从搜索语句中截取预设长度的片段进行判断，因此，判断过程的耗时很短，在语言模型对搜索语句的识别结束之前，即可判断出搜索语句所属的语言类型。那么，在本发明实施例中，确定搜索语句所属的语言类型后，还可以停止其它语言类型对应的语言模型的识别过程。即，在步骤204中，确定搜索语句属于第i种类型的语言之后，还可以包括：

结束根据其它N-1种语言模型，对搜索语句进行识别的过程。

具体的，确定搜索语句所属的语言类型后，通过停止其它语言类型对应的语言模型的识别过程，可以减少资源的浪费。

本发明实施例的语音搜索处理方法，在获取语音搜索语句后，可以根据预设的规则，从搜索语句中截取预设长度的片段，然后在分别根据N种语言模型，对搜索语句进行识别的同时，根据预设长度的片段，对搜索语句所属的语言类型进行判断，从而在确定搜索语句属于第i种类型的语言时，可以获取第i种类型的语言模型对应的识别结果，以根据识别结果进行搜索。由此，实现了对语音搜索语句的识别及搜索，提高了语音搜索处理的效率，减少了用户的等待时间，改善了用户体验。

图3是本发明一个实施例的语音搜索处理装置的结构示意图。

如图3所示，该语音搜索处理装置包括：

第一获取模块31，用于获取语音搜索语句；

判断模块32，用于分别根据N种语言模型，对搜索语句进行识别的同时，对搜索语句所属的语言类型进行判断，其中每种语言模型分别对应一种类型的语言，N为大于1的正整数；

第二获取模块33，用于在确定搜索语句属于第i种类型的语言时，获取第i种类型的语言模型对应的识别结果；

搜索模块34，用于根据识别结果进行搜索。

具体的，本实施例提供的语音搜索处理装置，可以被配置在任意具有搜索功能的服务器中，用于执行如上述实施例所示的语音搜索处理方法，以对获取的语音搜索语句进行搜索。

在本申请实施例一种可能的实现形式中，上述判断模块32，包括：

第一确定单元，用于确定搜索语句的特征向量；

第二确定单元，用于根据特征向量与预设的各语言类型模型的匹配度，确定搜索语句所属的语言类型。

在本申请实施例另一种可能的实现形式中，上述第一确定单元，具体用于：

根据预设的规则，从搜索语句中截取预设长度的片段；

根据预设长度的片段，确定搜索语句的特征向量。

需要说明的是，前述对语音搜索处理方法实施例的解释说明也适用于该实施例的语音搜索处理装置，此处不再赘述。

如图4所示，在图3的基础上，该语音搜索处理装置，还包括：

确定模块41，用于根据历史搜索日志，确定N种语言模型。

结束模块42，用于结束根据其它N-1种语言模型，对搜索语句进行识别的过程。

本发明第三方面实施例提出了一种服务器，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当上述处理器执行所述程序时实现如前述实施例中的语音搜索处理方法。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，当该程序被处理器执行时实现如前述实施例中的语音搜索处理方法。

本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如前述实施例中的语音搜索处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音搜索处理方法，其特征在于，包括：

获取语音搜索语句；

分别根据N种语言模型，对所述搜索语句进行识别的同时，对所述搜索语句所属的语言类型进行判断，其中每种语言模型分别对应一种类型的语言，N为大于1的正整数；

在确定所述搜索语句属于第i种类型的语言时，获取所述第i种类型的语言模型对应的识别结果；

根据所述识别结果进行搜索。

2.如权利要求1所述的方法，其特征在于，所述根据N种语言模型，对所述搜索语句进行识别之前，还包括：

根据历史搜索日志，确定所述N种语言模型。

3.如权利要求1所述的方法，其特征在于，所述对所述搜索语句所属的语言类型进行判断，包括：

确定所述搜索语句的特征向量；

根据所述特征向量与预设的各语言类型模型的匹配度，确定所述搜索语句所属的语言类型。

4.如权利要求3所述的方法，其特征在于，所述确定所述搜索语句的特征向量，包括：

根据预设的规则，从所述搜索语句中截取预设长度的片段；

根据所述预设长度的片段，确定所述搜索语句的特征向量。

5.如权利要求1-4任一所述的方法，其特征在于，所述确定所述搜索语句属于第i种类型的语言之后，还包括：

结束根据其它N-1种语言模型，对所述搜索语句进行识别的过程。

6.一种语音搜索处理装置，其特征在于，包括：

第一获取模块，用于获取语音搜索语句；

判断模块，用于分别根据N种语言模型，对所述搜索语句进行识别的同时，对所述搜索语句所属的语言类型进行判断，其中每种语言模型分别对应一种类型的语言，N为大于1的正整数；

第二获取模块，用于在确定所述搜索语句属于第i种类型的语言时，获取所述第i种类型的语言模型对应的识别结果；

搜索模块，用于根据所述识别结果进行搜索。

7.如权利要求6所述的装置，其特征在于，还包括：

确定模块，用于根据历史搜索日志，确定所述N种语言模型。

8.如权利要求6所述的装置，其特征在于，所述判断模块，包括：

第一确定单元，用于确定所述搜索语句的特征向量；

第二确定单元，用于根据所述特征向量与预设的各语言类型模型的匹配度，确定所述搜索语句所属的语言类型。

9.如权利要求8所述的装置，其特征在于，所述第一确定单元，具体用于：

根据预设的规则，从所述搜索语句中截取预设长度的片段；

根据所述预设长度的片段，确定所述搜索语句的特征向量。

10.如权利要求6-9任一所述的装置，其特征在于，还包括：

结束模块，用于结束根据其它N-1种语言模型，对所述搜索语句进行识别的过程。

11.一种服务器，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一所述的语音搜索处理方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的语音搜索处理方法。