CN107016994B

CN107016994B - 语音识别的方法及装置

Info

Publication number: CN107016994B
Application number: CN201610057651.3A
Authority: CN
Inventors: 李宏言
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2020-05-08
Anticipated expiration: 2036-01-27
Also published as: CN107016994A

Abstract

本申请提供了一种语音识别的方法及装置。其中，该方法包括：利用基于汉字的语音识别，对待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的汉字识别结果的汉字序列；利用基于拼音的语音识别，对所述待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的拼音识别结果的拼音序列；根据识别出的所述汉字序列和所述拼音序列，确定特定命名实体列表中的各个候选命名实体与所述待识别命名实体语音的相似度；根据所述各个候选命名实体与所述待识别命名实体语音的相似度，从所述特定命名实体列表中确定所述待识别命名实体语音的语音识别结果。本申请提高了对命名实体语音的识别的准确性。

Description

语音识别的方法及装置

技术领域

本申请涉及语音识别领域，尤其涉及一种语音识别的方法及装置。

背景技术

现有的语音识别技术一般利用由语言模型和声学模型构成的语音识别网络对语音进行识别。其中，声学模型是通过将训练语音数据库利用训练算法进行模型训练后产生，在进行语音识别时将待识别的语音的特征参数同声学模型进行匹配以得到识别结果。语言模型是通过对训练文本数据库进行语法、语义分析，经过基于统计模型训练而产生，语言模型能够结合语法和语义的知识，描述词之间的内在关系。

命名实体(Named Entity，NE)是指具有实体意义的一些特定名称，常见有人名、地名、机构名、歌曲名等，也可以有时间、日期、数量短语等。在现有的语音识别***中对命名实体的识别准确率较低，一些场景中常常需要对命名实体进行进一步识别，例如，歌曲名称，联系人姓名等。这是由于命名实体的长度一般比较短(例如，歌曲名称“默”)，因此难以有效地结合语言模型和声学模型进行识别，导致识别的准确率较低。并且，很多命名实体之间有一定混淆性，例如，“河南”和“荷兰”语音相近，如果不结合上下文难以准确识别出是哪一个；还有一些命名实体不符合语言规律，例如，使用网络流行语作为歌曲名称，例如，歌曲名称“何弃疗”。上述的两种情况更增加了对特定类型的命名实体进行语音识别的难度。

发明内容

本申请的一个目的是提高对命名实体语音的识别的准确性。

根据本申请的一个实施例，提供了一种语音识别的方法，一种语音识别的方法，该方法包括以下步骤：

利用基于汉字的语音识别，对待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的汉字识别结果的汉字序列；

利用基于拼音的语音识别，对所述待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的拼音识别结果的拼音序列；

根据识别出的所述汉字序列和所述拼音序列，确定特定命名实体列表中的各个候选命名实体与所述待识别命名实体语音的相似度；

根据所述各个候选命名实体与所述待识别命名实体语音的相似度，从所述特定命名实体列表中确定所述待识别命名实体语音的语音识别结果。

根据本申请的一个实施例，一种人名语音搜索方法，包括：

将待识别语音命令与预先存储的语音命令模板进行匹配，从而获取出该待识别语音命令中的待识别人名语音；

利用基于汉字的语音识别，对待识别人名语音进行语音识别，以识别出作为所述待识别人名语音的汉字识别结果的汉字序列；

利用基于拼音的语音识别，对所述待识别人名语音进行语音识别，以识别出作为所述待识别人名语音的拼音识别结果的拼音序列；

根据识别出的所述汉字序列和所述拼音序列，确定特定人名列表中的各个候选人名与所述待识别人名语音的相似度；

根据所述各个候选人名与所述待识别人名语音的相似度，从所述特定人名列表中确定所述待识别人名语音的语音识别结果。

根据本申请的一个实施例，提供了一种歌曲语音搜索方法，包括：

将待识别语音命令与预先存储的语音命令模板进行匹配，从而获取出该待识别语音命令中的待识别歌名语音；

利用基于汉字的语音识别，对待识别歌名语音进行语音识别，以识别出作为所述待识别歌名语音的汉字识别结果的汉字序列；

利用基于拼音的语音识别，对所述待识别歌名语音进行语音识别，以识别出作为所述待识别歌名语音的拼音识别结果的拼音序列；

根据识别出的所述汉字序列和所述拼音序列，确定特定歌名列表中的各个候选歌名与所述待识别歌名语音的相似度；

根据所述各个候选歌名与所述待识别歌名语音的相似度，从所述特定歌名列表中确定所述待识别歌名语音的语音识别结果。

根据本申请的一个实施例，提供了一种通过语音建立通信连接的方法，包括：

根据识别出的所述汉字序列和所述拼音序列，确定用户通讯录中的各个人名与所述待识别人名语音的相似度；

根据所述各个候选人名与所述待识别人名语音的相似度，从所述用户通讯录中确定所述待识别人名语音的语音识别结果；

向确定的作为语音识别结果的用户通讯录中的用户发起通信连接。

与现有技术相比，本申请的实施例具有以下优点：

本申请实施例在对待识别命名实体语音进行常规的语音识别得到汉字形式的识别结果的基础上，还进行拼音识别，得到拼音形式的识别结果，并根据识别出的汉字识别结果和拼音识别结果，在特定命名实体列表中确定待识别命名实体的最终的语音识别结果，而不仅仅依赖于汉字形式的识别结果在特定命名实体列表中确定最终的语音识别结果，提高了对命名实体语音的识别的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请一个实施例提供的语音识别的方法的流程图；

图2为语音识别目前通用的体系构架示意图；

图3为本申请一个实施例确定候选命名实体与待识别命名实体语音的相似度的一个具体流程图；

图4为本申请另一个实施例的语音识别的方法的流程图；

图5为本申请一个实施例的人名语音搜索方法的流程图；

图6为本申请一个实施例的歌曲语音搜索方法的流程图；

图7为本申请一个实施例的通过语音建立通信连接的方法的流程图；

图8为本申请一个实施例的语音识别装置的框图；

图9为本申请一个实施例的相似度确定单元的一个具体框图；

图10为本申请另一个实施例的语音识别装置的框图；

图11为本申请一个实施例的人名语音搜索装置的框图；

图12为本申请一个实施例的歌曲语音搜索装置的框图；

图13为本申请一个实施例的通过语音建立通信连接的装置的框图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在上下文中所称“计算机设备”，也称为“电脑”，是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备，其可以包括处理器与存储器，由处理器执行在存储器中预存的存续指令来执行预定处理过程，或是由ASIC、FPGA、DSP等硬件执行预定处理过程，或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。

所述计算机设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本申请，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本申请，也应包含在本申请保护范围以内，并以引用方式包含于此。

后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

在详述本申请实施例的详细过程之前，先对现有技术的语音识别作一下简单介绍。图2是一个现有技术中的语音识别的体系结构的示意图。如图2所示，通常根据大量的语音数据和文本数据分别建立语音数据库和文本数据库，通过从语音数据提取语音特征，训练声学模型，利用文本数据训练语言模型。当接收到输入的待识别语音时，通过提取该语音的特征，通过声学模型识别出音节，通过查询字典中音节与文本的可能映射关系，利用语言模型进行语音解码，通过相应的搜索算法，输出该语音对应的文本。

下面结合附图对本申请作进一步详细描述。

本申请实施例总体应用于已经获取到待识别语音中包含的待识别命名实体语音的情形。例如，针对一款智能音箱产品中的歌曲搜索的应用，通常为了搜索歌曲，用户可能发出的语音命令有“我想听......”、“请给我找......”、“我想听......这首歌曲”、“请给我找......这首歌曲”等。把用户可能发出的所有命令的格式作成命令模板，如上述“我想听......”、“请给我找......”、“我想听......这首歌曲”、“请给我找......这首歌曲”等。当用户发出语音命令，如“我想听《张三的歌》”时，将用户的语音命令进行初步语音识别，即图2中经过声学模型和语言模型的识别，与存储的命令模板进行匹配。一般来说，初步语音识别对于模板中的通用词汇，例如“我想听”是不会识别错误的，只是对于“张三的歌”，由于当初在训练声学模型和文本模型时用的语音和文本可能都侧重于通用词汇，很少用人名、歌名等专用词汇训练，因此对于“张三的歌”的语音，识别其为哪几个字比较困难。通过初步语音识别，识别出用户的语音命令中的通用词汇，将这些识别出的通用词汇与存储的命令模板进行匹配，从而找到待识别命名实体语音。如“我想听《张三的歌》”与“我想听......”匹配，则待识别命名实体语音为“张三的歌”的语音。本申请实施例下面的过程用于识别该语音所对应的命名实体，即到底是“张三的歌”，还是“章三的歌”、“张三的哥”等。

参考图1，在步骤S110中，利用基于汉字的语音识别，对所述待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的汉字识别结果的汉字序列。

所述基于汉字的语音识别即利用文本数据库中的文本数据训练语言模型时用的是文本的汉字序列的语音识别。也就是说，在图2所示的语音识别体系结构中，利用文本数据库中的文本数据训练图2中的语言模型时用的是文本的汉字序列。

利用该基于汉字的语音识别，对待识别命名实体语音进行识别，所输出的识别结果为一串汉字序列。例如，对于命名实体“张三”的语音，输出识别结果为汉字序列“张三”。

参考图1，在步骤S120中，利用基于拼音的语音识别，对所述待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的拼音识别结果的拼音序列。

所述基于拼音的语音识别即利用文本数据库中的文本数据训练语言模型时用的是文本的拼音序列的语音识别。也就是说，在图2所示的语音识别体系结构中，利用文本数据库中的文本数据训练图2中的语言模型时用的是文本的拼音序列。

汉语拼音是国际普遍承认的汉语普通话拉丁转写标准，主要用于给汉字注音。汉语拼音采用国际通用的26个拉丁字母，分声母和韵母。汉语的语音单位主要包括音节和音素。汉语中一个汉字就可以是一个音节，即把声母加上韵母或者单独一个韵母就可以成为一个音节。音素根据语音的自然属性(物理属性和生理属性)划分出来的最小语音单位。

本申请实施例基于汉语拼音方案建立基于拼音的语音识别网络。所述基于拼音的语音识别网络由声学模型和基于拼音的语言模型构成。其中，声学模型可以为与前述基于汉字的语音识别网络中的声学模型相同。基于拼音的语言模型可以为基于音节的语言模型或基于音素的语言模型。因此，步骤S120包括以下几种具体实施方式：

在第一种实施方式中，所述基于拼音的语音识别为音节识别。所述拼音序列为音节序列。

在该第一种实施方式中，步骤120具体为对所述待识别命名实体语音进行音节识别，以识别出作为所述待识别命名实体语音的音节识别结果的音节序列。

也就是说，利用声学模型与该基于音节的语言模型构成的音节识别网络对所述待识别命名实体语音进行音节识别，以识别出作为所述待识别命名实体语音的音节识别结果的音节序列。例如，对于命名实体“张三”的语音，通过音节识别网络进行音节识别后输出音节序列“zhang san”。

在第二种实施方式中，所述基于拼音的语音识别为用于音素识别。所述拼音序列包括音素序列。在第二种实施方式中，步骤120具体为对所述待识别命名实体语音进行音素识别，以识别出作为所述待识别命名实体语音的音素识别结果的音素序列。

也即是说，利用声学模型与所述基于音素的语音模型构成的音素识别网络对所述待识别命名实体语音进行音素识别，以识别出作为所述待识别命名实体语音的音素识别结果的音素序列。例如，对于命名实体“张三”的语音，通过该音素识别网络进行音素识别后输出音素序列“zh ang s an”。

基于第二种实施方式，在第三种实施方式中，步骤S120可以进一步包括：

对识别出的音素序列中的韵母音素进行声调识别，以识别出作为所述待识别命名实体语音的声调识别结果的声调序列。

普通话中有四个声调，通常叫四声，分别为阴平(第一声)，如bā；阳平(第二声)，如bá；上声(第三声)，如bǎ；去声(第四声)，如bà。在语音识别技术中，一般还会加上轻声(第五声)。对识别出的音素序列中的韵母进行识别，并将识别出的声调添加到该音素序列中，可以得到一串声调序列，将该声调序列作为所述待识别命名实体语音的声调识别结果。其中，识别出的韵母的声调可以标注于该韵母的后面，从而，标注后得到作为所述待识别命名实体语音的声调识别结果的声调序列。例如，将通过音素识别后得到的音素序列“zh ang san”进行声调识别后得到声调序列“zh ang1 s an1”。

在第四种实施方式中，所述基于拼音的语音识别包括音节识别和音素识别，所述拼音序列包括音节序列和音素序列。

在第四种实施方式中，步骤S120具体包括：

对所述待识别命名实体语音进行音节识别，以识别出作为所述待识别命名实体语音的音节识别结果的音节序列；以及

对所述待识别命名实体语音进行音素识别，以识别出作为所述待识别命名实体语音的音素识别结果的音素序列。

对所述待识别命名实体语音进行音节识别，以及对所述待识别命名实体语音进行音素识别的具体描述也可参考前述第一种实施方式和第二实施方式中的描述。

基于第四种实施方式，在第五种实施方式中，步骤S120进一步包括：

该步骤的详细描述可参考第三种实施方式中对识别出的音素序列中的韵母音素进行声调识别的描述，此处不加赘述。

参考图1，在步骤S130中，根据识别出的所述汉字序列和所述拼音序列，确定特定命名实体列表中的各个候选命名实体与所述待识别命名实体的相似度。

相似度即候选命名实体与待识别命名实体相似的程度，其可以通过多种度量来计算，其中在一种具体实施方式中，根据所述各个候选命名实体所对应的汉字序列与识别出的所述汉字序列的编辑距离，以及所述各个候选命名实体所对应的拼音序列与识别出的所述拼音序列的编辑距离来确定各个候选命名实体与所述待识别命名实体的相似度。

如图3所示，步骤S130具体包括以下步骤：

步骤S131，确定特定命名实体列表中的各个候选命名实体所对应的汉字序列与识别出的所述汉字序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的汉字序列编辑距离。

编辑距离算法(Edit-distance based algorithm，EDA)是衡量两个字符串的匹配程度的算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。利用编辑距离算法来计算特定命名实体列表中的各个候选命名实体所对应的汉字序列与识别出的所述汉字序列的编辑距离。汉字序列的编辑距离的计算中，字符具体为汉字。例如，候选命名实体是“张三的歌”，识别出的汉字序列是“章三歌”，则“章三歌”的“章”要替换成“张”，并加入“的”才能变成“张三的歌”，“章三歌”和“张三的歌”的汉字序列编辑距离为2。

步骤S132，确定特定命名实体列表中的各个候选命名实体所对应的拼音序列与识别出的所述拼音序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的拼音序列编辑距离。

与步骤S131中相同，利用编辑距离算法来计算特定命名实体列表中的各个候选命名实体所对应的拼音序列与识别出的所述拼音序列的编辑距离，以作为各个候选命名实体与所述待识别命名实体语音的拼音序列编辑距离。

对应于步骤S120的第一种实施方式，所述拼音序列编辑距离为所述特定命名实体列表中的各个候选命名实体与所述待识别命名实体语音的识别结果的音节序列编辑距离，则利用编辑距离算法计算所述特定命名实体列表中的各个候选命名实体所对应的音节序列与识别出的音节序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体的音节序列编辑距离。即前述编辑距离算法中的字符在这里是音节。例如，候选命名实体所对应的音节序列为“zhang san de ge”，识别出的音节序列是zhang shang ge”，其中“zhang shang ge”要变成“zhang san de ge”，首先要把“shang”变成“san”，然后再加入“de”，即2个音节的变化，编辑距离为2。

对应于步骤S120的第二种实施方式，所述拼音序列编辑距离为所述特定命名实体列表中的各个候选命名实体与所述待识别命名实体语音的识别结果的音素序列编辑距离，则利用编辑距离算法计算所述特定命名实体列表中各个候选命名实体所对应的音素序列与识别出的音素序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的音素序列编辑距离。即前述编辑距离算法中的字符在这里是音素。例如，候选命名实体所对应的音素序列为“zh ang s an d e g e”，识别出的音节序列是“zh ang sh ang ge”，其中“zh ang sh ang g e”要变成“zh ang s an d e g e”，首先要把“sh”变成“s”，把“ang”变成“an”，然后再加入“d”和“e”，即4个音节的变化，编辑距离为4。对应于步骤S120的第三种实施方式，所述拼音序列编辑距离包括所述各个候选命名实体与所述待识别命名实体语音的识别结果的音素序列编辑距离和声调序列编辑距离，则

利用编辑距离算法计算所述特定命名实体列表中各个候选命名实体所对应的音素序列与识别出的音素序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的音素序列编辑距离；以及

利用编辑距离算法计算所述特定命名实体列表中各个候选命名实体所对应的声调序列与识别出的声调序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的声调序列编辑距离。

所述特定命名实体列表中各个候选命名实体所对应的音素序列与识别出的音素序列的编辑距离的计算方式如上所述。所述特定命名实体列表中各个候选命名实体所对应的声调序列与识别出的声调序列的编辑距离的计算中，前述编辑距离算法中的字符在这里是声调。例如，候选命名实体所对应的声调序列为“zhang1 san1”，识别出的声调序列是“zhang1 san2”，其中“zhang1san2”要变成“zhang1 san1”，只需要变化“san”的声调，编辑距离为1。

对应于步骤S120的第四种实施方式，所述拼音序列编辑距离包括所述各个候选命名实体与所述待识别命名实体语音的识别结果的音节序列编辑距离和音素序列编辑距离，则

利用编辑距离算法计算所述特定命名实体列表中各个候选命名实体所对应的音节序列与识别出的音节序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的音节序列编辑距离；以及

利用编辑距离算法计算所述特定命名实体列表中各个候选命名实体所对应的音素序列与识别出的音素序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的音素序列编辑距离。所述特定命名实体列表中各个候选命名实体所对应的音节序列与识别出的音节序列的编辑距离、所述特定命名实体列表中各个候选命名实体所对应的音素序列与识别出的音素序列的编辑距离的计算方式如上所述。

对应于步骤S120的第五种实施方式，所述拼音序列编辑距离包括所述各个候选命名实体与所述待识别命名实体的音节序列编辑距离、音素序列编辑距离和声调序列编辑距离，则

利用编辑距离算法计算所述特定命名实体列表中各个候选命名实体所对应的音节序列与识别出的音节序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的音节序列编辑距离；

利用编辑距离算法计算所述特定命名实体列表中各个候选命名实体所对应的声调序列与识别出的声调序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的声调序列编辑距离。所述特定命名实体列表中各个候选命名实体所对应的音节序列与识别出的音节序列的编辑距离、所述特定命名实体列表中各个候选命名实体所对应的音素序列与识别出的音素序列的编辑距离、所述特定命名实体列表中各个候选命名实体所对应的声调序列与识别出的声调序列的编辑距离的计算方式如上所述。

步骤S133，根据所述各个候选命名实体与所述待识别命名实体的汉字序列编辑距离和拼音序列编辑距离，计算所述各个候选命名实体与所述待识别命名实体的总体编辑距离。

总体编辑距离可以是加权平均编辑距离、平均编辑距离、编辑距离的加权和、编辑距离的和等。

如果总体编辑距离是加权平均编辑距离，可以预先设置所述汉字序列编辑距离和所述拼音序列编辑距离各自对应的预定权重。在进行待识别命名实体语音的语音识别时，可以按照该预定权重，对特定命名实体列表中的各个候选命名实体与所述待识别命名实体的汉字序列编辑距离和拼音序列编辑距离进行加权处理，将得到的加权平均值作为所述特定命名实体列表中的各个候选命名实体与所述待识别命名实体语音的总体编辑距离。

作为总体编辑距离的一种特例，就是各预定权重相等的情形，也就是总体编辑距离是平均编辑距离的情况。

另外，还可以让总体编辑距离等于候选命名实体与所述待识别命名实体的汉字序列编辑距离和拼音序列编辑距离的加权和或和等。

在总体编辑距离是加权平均值的情况下，对应于步骤S120的第一种或第二种实施方式，根据所述各个候选命名实体与所述待识别命名实体的识别结果的汉字序列编辑距离对应的权重和音节序列编辑距离对应的权重或音素序列编辑距离对应的权重，对所述汉字序列编辑距离与所述音节序列编辑距离进行加权处理，或者对所述汉字序列编辑距离与所述音素序列编辑距离进行加权处理，得到的加权平均值作为所述特定命名实体列表中的各个候选命名实体与所述待识别命名实体语音的总体编辑距离。

在总体编辑距离是加权平均值的情况下，对应于步骤S120的第三种实施方式，根据所述各个候选命名实体与所述待识别命名实体的识别结果的汉字序列编辑距离对应的权重、音素序列编辑距离对应的权重和声调序列编辑距离对应的权重，对所述汉字序列编辑距离、所述音素序列编辑距离和所述声调序列编辑距离进行加权处理，以得到它们的加权平均值作为所述各个候选命名实体与该待识别命名实体语音的总体编辑距离。

在总体编辑距离是加权平均值的情况下，对应于步骤S120的第四种实施方式，根据所述各个候选命名实体与所述待识别命名实体的识别结果的汉字序列编辑距离对应的权重、音节序列编辑距离对应的权重和音素序列编辑距离对应的权重，对所述汉字序列编辑距离、所述音节序列编辑距离和所述音素序列编辑距离进行加权处理，以得到它们的加权平均值作为所述各个候选命名实体与该待识别命名实体语音的总体编辑距离。

在总体编辑距离是加权平均值的情况下，对应于步骤S120的第五种实施方式，根据所述各个候选命名实体与所述待识别命名实体的识别结果的汉字序列编辑距离对应的权重、音节序列编辑距离对应的权重、音素序列编辑距离对应的权重和声调序列编辑距离对应的权重，对所述汉字序列编辑距离、所述音节序列编辑距离、所述音素序列编辑距离和所述声调序列编辑距离进行加权处理，以得到它们的加权平均值作为所述各个候选命名实体与该待识别命名实体语音的总体编辑距离。

步骤S134，将计算得到的所述各个候选命名实体与所述待识别命名实体语音的总体编辑距离与预定常数之和的倒数，作为所述各个候选命名实体与所述待识别命名实体语音的相似度。

由于编辑距离越小，相似度越高，因此，将各个候选命名实体与所述待识别命名实体语音的总体编辑距离与预定常数之和的倒数作为它们的相似度。由于可能存在总体编辑距离为0的情况，因此需要预先设定一个常数，从而将所述总体编辑距离与该预定常数之和作为相似度的分母部分。该预定常数优选地设置为1，则相似度＝1/(d+1)，其中d为候选命名实体与待识别命名实体的总体编辑距离。例如，某个候选命名实体与所述待识别命名实体的总体编辑距离为1，则它们的相似度为1/(1+1)＝1/2。

参考图1，在步骤S140中，根据所述各个候选命名实体与所述待识别命名实体语音的相似度，从所述特定命名实体列表中确定所述待识别命名实体语音的语音识别结果。

具体而言，将所述特定命名实体列表中与所述待识别命名实体语音的识别结果的相似度最大的候选命名实体作为所述待识别命名实体语音的语音识别结果。实际上，也就是将所述特定命名实体列表中与所述待识别命名实体语音的识别结果的总体编辑距离最小的候选命名实体作为所述待识别命名实体语音的语音识别结果。

本申请实施例在对待识别命名实体进行常规的语音识别得到汉字形式的识别结果的基础上，还进行拼音识别，得到拼音形式的识别结果，并根据识别出的汉字识别结果和拼音识别结果，在特定命名实体列表中确定待识别命名实体最终的语音识别结果，提高了对命名实体语音识别的准确性。

另外，为了进一步提高对命名实体语音识别的准确性，所述基于汉字的语音识别中用到的语言模型可以是用所述特定命名实体列表中的各个候选命名实体对应的汉字序列以及通用训练文本库中的文本的汉字序列共同训练而生成的。

一般的基于汉字的语音识别的体系结构中(如图2所示)，其用到的语言模型仅仅是用通用训练文本库中的文本的汉字序列训练出来的。由于通用训练文本库中的文本一般很少有命名实体，如人名、地名等，这样的语音识别的体系结构对于命名实体的识别来说，准确性差。但本申请的实施例中，可以用所述特定命名实体列表中的各个候选命名实体对应的汉字序列以及通用训练文本库中的文本的汉字序列共同训练语言模型，就进一步提高了命名实体语音识别的准确性。

另外，为了进一步提高对命名实体语音识别的准确性，所述音节识别用到的语言模型可以是用对所述特定命名实体列表中的各个候选命名实体进行音节展开得到的音节序列、和对通用训练文本库中的文本进行音节展开得到的音节序列训练而生成的。所述音素识别用到的语言模型可以是用对所述特定命名实体列表中的各个候选命名实体进行音素展开得到的音素序列、和对通用训练文本库中的文本进行音素展开得到的音素序列训练而生成的。这样，与仅仅用通用训练文本库中的文本进行音节展开得到的音节序列训练语言模型、或仅仅用通用训练文本库中的文本进行音素展开得到的音素序列训练语言模型相比，由于训练时加入了所述特定命名实体列表中的各个候选命名实体，就进一步提高了命名实体语音识别的准确性。

参考图4，基于上述任意实施例，可选地，该语音识别方法1还包括获取待识别语音中包含的待识别命名实体语音的步骤S100。

在实际的应用场景中，用户下达语音命令时通常是说一句话，并不是只发出一个命名实体的语音。例如，用户发出“我要听《张三的歌》”的语音。因此，需要识别出用户发出的语音中哪一部分为待识别命名实体语音。

如前所述，在一种具体实施方式中，可以对包含待识别命名实体语音的待识别语音进行初步语音识别，根据识别的结果与预先存储的命令模板进行匹配，从而确定出所述语音中哪一部分是待识别命名实体语音。

如图5所示，本申请一个实施例提供了一种人名语音搜索方法2，包括：S200、将待识别语音命令与预先存储的语音命令模板进行匹配，从而获取出该待识别语音命令中的待识别人名语音；S210、利用基于汉字的语音识别，对待识别人名语音进行语音识别，以识别出作为所述待识别人名语音的汉字识别结果的汉字序列；S220、利用基于拼音的语音识别，对所述待识别人名语音进行语音识别，以识别出作为所述待识别人名语音的拼音识别结果的拼音序列；S230、根据识别出的所述汉字序列和所述拼音序列，确定特定人名列表中的各个候选人名与所述待识别人名语音的相似度；S240、根据所述各个候选人名与所述待识别人名语音的相似度，从所述特定人名列表中确定所述待识别人名语音的语音识别结果。

与图4相比，图5的实施例仅是将命名实体具体化为人名的一个方案，因此对其各步骤具体实现不赘述。这里，特定人名列表可以是公司所有员工列表，通过图5的实施例，就达到了通过简单的语音交互来语音搜索公司员工的效果，可以用于公司电话的自动转接等情形。

如图6所示，本申请的一个实施例提供了一种歌曲语音搜索方法3，包括：S300、将待识别语音命令与预先存储的语音命令模板进行匹配，从而获取出该待识别语音命令中的待识别歌名语音；S310、利用基于汉字的语音识别，对待识别歌名语音进行语音识别，以识别出作为所述待识别歌名语音的汉字识别结果的汉字序列；S320、利用基于拼音的语音识别，对所述待识别歌名语音进行语音识别，以识别出作为所述待识别歌名语音的拼音识别结果的拼音序列；S330、根据识别出的所述汉字序列和所述拼音序列，确定特定歌名列表中的各个候选歌名与所述待识别歌名语音的相似度；S340、根据所述各个候选歌名与所述待识别歌名语音的相似度，从所述特定歌名列表中确定所述待识别歌名语音的语音识别结果。

与图4相比，图6的实施例仅是将命名实体具体化为歌名的一个方案，因此对其各步骤具体实现不赘述。该方案可以用于智能音箱产品中的歌曲搜索。这里，特定歌名列表可以是音箱中存储的所有歌曲的歌名列表。通过图6的实施例，就达到了通过简单的语音交互来搜索音箱中的歌曲，从而实现语音自动点播的效果。

如图7所示，本申请的一个实施例提供了一种通过语音建立通信连接的方法5，包括：S200、将待识别语音命令与预先存储的语音命令模板进行匹配，从而获取出该待识别语音命令中的待识别人名语音；S210、利用基于汉字的语音识别，对待识别人名语音进行语音识别，以识别出作为所述待识别人名语音的汉字识别结果的汉字序列；S220、利用基于拼音的语音识别，对所述待识别人名语音进行语音识别，以识别出作为所述待识别人名语音的拼音识别结果的拼音序列；S230、根据识别出的所述汉字序列和所述拼音序列，确定用户通讯录中的各个人名与所述待识别人名语音的相似度；S240、根据所述各个候选人名与所述待识别人名语音的相似度，从所述用户通讯录中确定所述待识别人名语音的语音识别结果；S250、向确定的作为语音识别结果的用户通讯录中的用户发起通信连接。

图7的实施例的步骤S200-S240与图5的实施例类似，故不赘述。步骤S250可以包括向确定的作为语音识别结果的用户通讯录中的用户发起通话连接请求或向确定的作为语音识别结果的用户通讯录中的用户发送短信。

该方案例如可以用在车载语音自动通信产品中。这里，用户通讯录可以是用户终端中存储的通讯录。这样，达到了在司机开车时不用用手拨打手机只是通过简单说一句话就可以自动通话或发短信的效果。

如图8所示，本申请的一个实施例提供了一种语音识别的装置4，该装置4包括：

第一识别单元410，用于利用基于汉字的语音识别，对待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的汉字识别结果的汉字序列；

第二识别单元420，用于利用基于拼音的语音识别，对所述待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的拼音识别结果的拼音序列；

相似度确定单元430，用于根据识别出的所述汉字序列和所述拼音序列，确定特定命名实体列表中的各个候选命名实体与所述待识别命名实体语音的相似度；

识别结果确定单元440，用于根据所述各个候选命名实体与所述待识别命名实体语音的相似度，从所述特定命名实体列表中确定所述待识别命名实体语音的语音识别结果。

可选地，所述基于汉字的语音识别中用到的语言模型是用所述特定命名实体列表中的各个候选命名实体对应的汉字序列以及通用训练文本库中的文本的汉字序列共同训练而生成的。

可选地，所述基于拼音的语音识别为音节识别，所述拼音序列包括音节序列。第二识别单元进一步用于：对所述待识别命名实体语音进行音节识别，以识别出作为所述待识别命名实体语音的音节识别结果的音节序列。

可选地，所述基于拼音的语音识别为音素识别，所述拼音序列包括音素序列。第二识别单元进一步用于：对所述待识别命名实体语音进行音素识别，以识别出作为所述待识别命名实体语音的音素识别结果的音素序列。

可选地，所述基于拼音的语音识别包括音节识别和音素识别，所述拼音序列包括音节序列和音素序列。第二识别单元进一步用于：对所述待识别命名实体语音进行音节识别，以识别出作为所述待识别命名实体语音的音节识别结果的音节序列；以及对所述待识别命名实体语音进行音素识别，以识别出作为所述待识别命名实体语音的音素识别结果的音素序列。

可选地，第二识别单元进一步用于：

可选地，如图9所示，相似度确定单元430包括：

汉字序列编辑距离确定子单元431，用于确定特定命名实体列表中的各个候选命名实体所对应的汉字序列与识别出的所述汉字序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的汉字序列编辑距离；

拼音序列编辑距离确定子单元432，用于确定特定命名实体列表中的各个候选命名实体所对应的拼音序列与识别出的所述拼音序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的拼音序列编辑距离；

总体编辑距离确定子单元433，用于根据所述各个候选命名实体与所述待识别命名实体语音的汉字序列编辑距离和拼音序列编辑距离，计算所述各个候选命名实体与所述待识别命名实体语音的总体编辑距离；

相似度确定子单元434，用于将计算得到的所述各个候选命名实体与所述待识别命名实体语音的总体编辑距离与预定常数之和的倒数，作为所述各个候选命名实体与所述待识别命名实体语音的相似度。

可选地，所述音节识别用到的语言模型是用对所述特定命名实体列表中的各个候选命名实体进行音节展开得到的音节序列、和对通用训练文本库中的文本进行音节展开得到的音节序列训练而生成的。

可选地，所述音素识别用到的语言模型是用对所述特定命名实体列表中的各个候选命名实体进行音素展开得到的音素序列、和对通用训练文本库中的文本进行音素展开得到的音素序列训练而生成的。

可选地，如图10所示，该装置4还包括：

获取单元400，用于获取待识别语音中包含的待识别命名实体语音。

参考图11，根据本申请的一个实施例，提供了一种人名语音搜索装置6，包括：

待识别人名语音获取单元610，用于将待识别语音命令与预先存储的语音命令模板进行匹配，从而获取出该待识别语音命令中的待识别人名语音；

第一待识别人名语音识别单元620，用于利用基于汉字的语音识别，对待识别人名语音进行语音识别，以识别出作为所述待识别人名语音的汉字识别结果的汉字序列；

第二待识别人名语音识别单元630，用于利用基于拼音的语音识别，对所述待识别人名语音进行语音识别，以识别出作为所述待识别人名语音的拼音识别结果的拼音序列；

待识别人名相似度确定单元640，用于根据识别出的所述汉字序列和所述拼音序列，确定特定人名列表中的各个候选人名与所述待识别人名语音的相似度；

待识别人名语音识别结果确定单元650，用于根据所述各个候选人名与所述待识别人名语音的相似度，从所述特定人名列表中确定所述待识别人名语音的语音识别结果。

参考图12，根据本申请的一个实施例，提供了一种歌曲语音搜索装置7，包括：

待识别歌名语音获取单元710，用于将待识别语音命令与预先存储的语音命令模板进行匹配，从而获取出该待识别语音命令中的待识别歌名语音；

第一待识别歌名语音识别单元720，用于利用基于汉字的语音识别，对待识别歌名语音进行语音识别，以识别出作为所述待识别歌名语音的汉字识别结果的汉字序列；

第二待识别歌名语音识别单元730，用于利用基于拼音的语音识别，对所述待识别歌名语音进行语音识别，以识别出作为所述待识别歌名语音的拼音识别结果的拼音序列；

待识别歌名相似度确定单元740，用于根据识别出的所述汉字序列和所述拼音序列，确定特定歌名列表中的各个候选歌名与所述待识别歌名语音的相似度；

待识别歌名语音识别结果确定单元750，用于根据所述各个候选歌名与所述待识别歌名语音的相似度，从所述特定歌名列表中确定所述待识别歌名语音的语音识别结果。

参考图13，根据本申请的一个实施例，提供了一种通过语音建立通信连接的装置8，包括：

待识别人名相似度确定单元640，用于根据识别出的所述汉字序列和所述拼音序列，确定用户通讯录中的各个人名与所述待识别人名语音的相似度；

待识别人名语音识别结果确定单元650，用于根据所述各个候选人名与所述待识别人名语音的相似度，从所述用户通讯录中确定所述待识别人名语音的语音识别结果；

通信连接发起单元660，用于向确定的作为语音识别结果的用户通讯录中的用户发起通信连接。

可选地，通信连接发起单元进一步用于向确定的作为语音识别结果的用户通讯录中的用户发起通话连接请求或向确定的作为语音识别结果的用户通讯录中的用户发送短信。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，本申请的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

虽然前面特别示出并且描述了示例性实施例，但是本领域技术人员将会理解的是，在不背离权利要求书的精神和范围的情况下，在其形式和细节方面可以有所变化。

Claims

1.一种语音识别的方法，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于汉字的语音识别中用到的语言模型是用所述特定命名实体列表中的各个候选命名实体对应的汉字序列以及通用训练文本库中的文本的汉字序列共同训练而生成的。

3.根据权利要求1所述的方法，其特征在于，所述基于拼音的语音识别为音节识别，所述拼音序列包括音节序列，

利用基于拼音的语音识别对所述待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的拼音识别结果的拼音序列的步骤包括：

对所述待识别命名实体语音进行音节识别，以识别出作为所述待识别命名实体语音的音节识别结果的音节序列。

4.根据权利要求1所述的方法，其特征在于，所述基于拼音的语音识别为音素识别，所述拼音序列包括音素序列，

5.根据权利要求1所述的方法，其特征在于，所述基于拼音的语音识别包括音节识别和音素识别，所述拼音序列包括音节序列和音素序列，

利用基于拼音的语音识别对所述待识别命名实体进行语音识别，以识别出作为所述待识别命名实体语音的拼音识别结果的拼音序列的步骤还包括：

6.根据权利要求4或5所述的方法，其特征在于，利用基于拼音的语音识别对所述待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的拼音识别结果的拼音序列的步骤还包括:

7.根据权利要求1所述的方法，其特征在于，根据识别出的所述汉字序列和所述拼音序列，确定特定命名实体列表中的各个候选命名实体与所述待识别命名实体语音的相似度的步骤包括：

确定特定命名实体列表中的各个候选命名实体所对应的汉字序列与识别出的所述汉字序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的汉字序列编辑距离；

确定特定命名实体列表中的各个候选命名实体所对应的拼音序列与识别出的所述拼音序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的拼音序列编辑距离；

根据所述各个候选命名实体与所述待识别命名实体语音的汉字序列编辑距离和拼音序列编辑距离，计算所述各个候选命名实体与所述待识别命名实体语音的总体编辑距离；

将计算得到的所述各个候选命名实体与所述待识别命名实体语音的总体编辑距离与预定常数之和的倒数，作为所述各个候选命名实体与所述待识别命名实体语音的相似度。

8.根据权利要求3或5所述的方法，其特征在于，所述音节识别用到的语言模型是用对所述特定命名实体列表中的各个候选命名实体进行音节展开得到的音节序列、和对通用训练文本库中的文本进行音节展开得到的音节序列训练而生成的。

9.根据权利要求4或5所述的方法，其特征在于，所述音素识别用到的语言模型是用对所述特定命名实体列表中的各个候选命名实体进行音素展开得到的音素序列、和对通用训练文本库中的文本进行音素展开得到的音素序列训练而生成的。

10.根据权利要求1所述的方法，其特征在于，还包括：

获取待识别语音中包含的待识别命名实体语音。

11.一种人名语音搜索方法，其特征在于，包括：

12.一种歌曲语音搜索方法，其特征在于，包括：

13.一种通过语音建立通信连接的方法，其特征在于，包括：

根据所述用户通讯录中的各个人名与所述待识别人名语音的相似度，从所述用户通讯录中确定所述待识别人名语音的语音识别结果；

14.根据权利要求13所述的方法，其特征在于，所述发起通信连接包括向确定的作为语音识别结果的用户通讯录中的用户发起通话连接请求或向确定的作为语音识别结果的用户通讯录中的用户发送短信。

15.一种语音识别的装置，该装置包括：

第一识别单元，用于利用基于汉字的语音识别，对待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的汉字识别结果的汉字序列；

第二识别单元，用于利用基于拼音的语音识别，对所述待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的拼音识别结果的拼音序列；

相似度确定单元，用于根据识别出的所述汉字序列和所述拼音序列，确定特定命名实体列表中的各个候选命名实体与所述待识别命名实体语音的相似度；

识别结果确定单元，用于根据所述各个候选命名实体与所述待识别命名实体语音的相似度，从所述特定命名实体列表中确定所述待识别命名实体语音的语音识别结果。

16.根据权利要求15所述的装置，其特征在于，所述基于汉字的语音识别中用到的语言模型是用所述特定命名实体列表中的各个候选命名实体对应的汉字序列以及通用训练文本库中的文本的汉字序列共同训练而生成的。

17.根据权利要求15所述的装置，其特征在于，所述基于拼音的语音识别为音节识别，所述拼音序列包括音节序列，

第二识别单元进一步用于：

18.根据权利要求15所述的装置，其特征在于，所述基于拼音的语音识别为音素识别，所述拼音序列包括音素序列，

第二识别单元进一步用于：

19.根据权利要求15所述的装置，其特征在于，所述基于拼音的语音识别包括音节识别和音素识别，所述拼音序列包括音节序列和音素序列，

第二识别单元进一步用于：

20.根据权利要求18或19所述的装置，其特征在于，第二识别单元进一步用于：

21.根据权利要求15所述的装置，其特征在于，相似度确定单元包括：

汉字序列编辑距离确定子单元，用于确定特定命名实体列表中的各个候选命名实体所对应的汉字序列与识别出的所述汉字序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的汉字序列编辑距离；

拼音序列编辑距离确定子单元，用于确定特定命名实体列表中的各个候选命名实体所对应的拼音序列与识别出的所述拼音序列的编辑距离，以作为所述各个候选命名实体与所述待识别命名实体语音的拼音序列编辑距离；

总体编辑距离确定子单元，用于根据所述各个候选命名实体与所述待识别命名实体语音的汉字序列编辑距离和拼音序列编辑距离，计算所述各个候选命名实体与所述待识别命名实体语音的总体编辑距离；

相似度确定子单元，用于将计算得到的所述各个候选命名实体与所述待识别命名实体语音的总体编辑距离与预定常数之和的倒数，作为所述各个候选命名实体与所述待识别命名实体语音的相似度。

22.根据权利要求17或19所述的装置，其特征在于，所述音节识别用到的语言模型是用对所述特定命名实体列表中的各个候选命名实体进行音节展开得到的音节序列、和对通用训练文本库中的文本进行音节展开得到的音节序列训练而生成的。

23.根据权利要求18或19所述的装置，其特征在于，所述音素识别用到的语言模型是用对所述特定命名实体列表中的各个候选命名实体进行音素展开得到的音素序列、和对通用训练文本库中的文本进行音素展开得到的音素序列训练而生成的。

24.根据权利要求15所述的装置，其特征在于，还包括：

获取单元，用于获取待识别语音中包含的待识别命名实体语音。

25.一种人名语音搜索装置，其特征在于，包括：

待识别人名语音获取单元，用于将待识别语音命令与预先存储的语音命令模板进行匹配，从而获取出该待识别语音命令中的待识别人名语音；

第一待识别人名语音识别单元，用于利用基于汉字的语音识别，对待识别人名语音进行语音识别，以识别出作为所述待识别人名语音的汉字识别结果的汉字序列；

第二待识别人名语音识别单元，用于利用基于拼音的语音识别，对所述待识别人名语音进行语音识别，以识别出作为所述待识别人名语音的拼音识别结果的拼音序列；

待识别人名相似度确定单元，用于根据识别出的所述汉字序列和所述拼音序列，确定特定人名列表中的各个候选人名与所述待识别人名语音的相似度；

待识别人名语音识别结果确定单元，用于根据所述各个候选人名与所述待识别人名语音的相似度，从所述特定人名列表中确定所述待识别人名语音的语音识别结果。

26.一种歌曲语音搜索装置，其特征在于，包括：

待识别歌名语音获取单元，用于将待识别语音命令与预先存储的语音命令模板进行匹配，从而获取出该待识别语音命令中的待识别歌名语音；

第一待识别歌名语音识别单元，用于利用基于汉字的语音识别，对待识别歌名语音进行语音识别，以识别出作为所述待识别歌名语音的汉字识别结果的汉字序列；

第二待识别歌名语音识别单元，用于利用基于拼音的语音识别，对所述待识别歌名语音进行语音识别，以识别出作为所述待识别歌名语音的拼音识别结果的拼音序列；

待识别歌名相似度确定单元，用于根据识别出的所述汉字序列和所述拼音序列，确定特定歌名列表中的各个候选歌名与所述待识别歌名语音的相似度；

待识别歌名语音识别结果确定单元，用于根据所述各个候选歌名与所述待识别歌名语音的相似度，从所述特定歌名列表中确定所述待识别歌名语音的语音识别结果。

27.一种通过语音建立通信连接的装置，其特征在于，包括：

待识别人名相似度确定单元，用于根据识别出的所述汉字序列和所述拼音序列，确定用户通讯录中的各个人名与所述待识别人名语音的相似度；

待识别人名语音识别结果确定单元，用于根据所述用户通讯录中的各个人名与所述待识别人名语音的相似度，从所述用户通讯录中确定所述待识别人名语音的语音识别结果；

通信连接发起单元，用于向确定的作为语音识别结果的用户通讯录中的用户发起通信连接。

28.根据权利要求27所述的装置，其特征在于，通信连接发起单元进一步用于向确定的作为语音识别结果的用户通讯录中的用户发起通话连接请求或向确定的作为语音识别结果的用户通讯录中的用户发送短信。