CN105931642A

CN105931642A - 语音识别方法、设备及***

Info

Publication number: CN105931642A
Application number: CN201610375073.8A
Authority: CN
Inventors: 汤跃忠
Original assignee: Beijing Linglong Technology Co Ltd
Current assignee: iFlytek Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2016-09-07
Anticipated expiration: 2036-05-31
Also published as: CN105931642B

Abstract

本发明提供了一种语音识别方法、设备和***。该方法包括：获取用户的语音输入；选择语音数据库来识别用户输入的语音，并输出作为结果的识别输出；使用领域判定来从所述识别输出中选择一个或多个候选最优识别输出；以及以用户的个性标识信息作为判定条件来判定所述一个或多个候选最优识别输出中的最优识别输出。上述方案在不增加响应时间的条件下，提高了语音识别的准确率。

Description

语音识别方法、设备及***

技术领域

本发明涉及语音识别领域，具体涉及一种语音识别方法、设备及***。

背景技术

随着智能设备的应用普及，语音识别***成为信息应用的新的手段，同时，通过语音识别***，可以实现设备的智能控制。

在语音识别***的使用中，用户体验成为众多***所聚焦的重点。对于语音识别***的应用，响应时间和判定的准确率成为用户体验提升的核心内容。而目前的判定形式中，大多采用特定的数据模型进行语音数据的判定。这种判定形式采用通用的***进行所有的语音环境的判定。而这种判定形式必然会加大语音识别的工作负载，延长响应判定时间，从而降低用户的体验。

在本领域中，常见的自动语音识别***(ASR)通过识别引擎***来进行语音输入的识别。语音识别***的引擎模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。语言模型主要分为规则模型和统计模型两种，其用概率统计的方法来揭示语言单位内在的统计规律。上述引擎单元通过知识领域判定，完成语音输入的识别输出。

有多种方式可通过对通用***增加特定的用户信息标示，从而进行特定范围的语音判定，从而提高响应时间，提高判定准确率。本领域中常见的形式是：设定针对不同方言，口音形式设定的数据库分类，从而可以在初始的判定阶段，将语音输入进行***分类，实现较快速的响应时间。在上述数据库的额选定形式中可以增加特定的信息标识。该信息标识可以来自用户端。标识信息可以通过对用户的语音输入信息进行加工而获取到。同样的标识信息可以通过其他方式进行获取，例如通过用户的位置信息，移动设备的信号源等。将上述信息作为用户的标识信息输入到ASR***中，从而辅助用户的数据的选定判别，提高响应时间，降低误判率。

但是上述形式虽然增加了用户的标识信息，但是上述信息仅仅是通过针对语言类型，位置信息的输入，来帮助***进行语言数据库的选定。这种形式在降低响应时间的同时，在最终的识别结果输出中，并不能够通过上述标识信息的运用的得到相应用户的目的性输出，即，识别效率不高。

因此需要一种识别方法，其能够在获得响应时间提升的情况下提高用户的识别效率。

发明内容

为了解决上述问题，本发明实施例提供了一种语音识别方法、设备及***，以在不增加响应时间的条件下，提高了语音识别的准确率。

根据本发明的一个方案，提供了一种语音识别方法，包括：获取用户的语音输入；选择语音数据库来识别用户输入的语音，并输出作为结果的识别输出；使用领域判定来从所述识别输出中选择一个或多个候选最优识别输出；以及以用户的个性标识信息作为判定条件来判定所述一个或多个候选最优识别输出中的最优识别输出。

根据本发明的另一方案，提供了一种语音识别设备，包括：语音获取单元，用于获取用户的语音输入；语音识别单元，用于选择语音数据库来识别用户输入的语音，并输出作为结果的识别输出；第一判定单元，用于使用领域判定来从所述识别输出中选择一个或多个候选最优识别输出；以及第二判定单元，用于以用户的个性标识信息作为判定条件来判定所述一个或多个候选最优识别输出中的最优识别输出。

根据本发明的第三方案，提供了一种语音识别***，包括：上述的语音识别设备；以及与所述语音识别设备通信连接的客户端设备。

上述方案通过使用用户的特定信息标识进行语音识别的二级结果判定，并将该判定结果作为最终结果进行输出，实现了语音识别判定输出的多级输出，同时新增加的判定输出的判定范围采用领域判定的输出结果作为输入。因此，可以仅保留少量结果来用于最终的判定，因此，上述方案并不会增加***的负荷，可以在不降低响应时间的前提下更加精准地判定语音识别的输出结果。

附图说明

通过下面结合附图对发明进行的详细描述，将使本发明的上述特征和优点更加明显，其中：

图1是根据本发明的实施例的语音识别方法的示意性流程图；

图2提供了根据本发明的实施例利用用户的籍贯信息进行语音识别的方法的流程图；

图3示出了根据本发明实施例的另一语音识别方法的流程图；

图4是示出根据本发明的实施例的用于实现语音识别方法的语音识别设备的示意性框图；以及

图5示出了根据本发明实施例的语音识别***的示意性框图。

具体实施方式

下面，参考附图详细说明本发明的优选实施方式。在附图中，虽然示于不同的附图中，但相同的附图标记用于表示相同的或相似的组件。为了清楚和简明，包含在这里的已知的功能和结构的详细描述将被省略，以避免使本发明的主题不清楚。

图1示出了根据本发明的实施例的语音识别方法的示意性流程图。

如图1所示，在步骤S01中，获取用户的语音输入。

在一些示例中，可通过用户正在使用的客户端设备(例如，该客户端设备的语音接收单元，如麦克风等)获取用户的语音输入。然后与该客户端设备通信连接的语音识别设备可以从客户端设备获取语音输入。

在此，用户所使用的客户端设备可以用户的移动电话、固定终端、PDA(个人数字助理)、笔记本电脑、上网本、平板电脑等，然而本发明不限于此，而是可使用本领域技术人员可想到的任何移动或非移动的设备来作为客户端设备。

本申请中所述的语音识别设备在一些实现中可被称为服务器、云端服务器、远程终端等等，然而本发明同样不限于此，本发明中的语音识别设备可以是能够用于实现发明技术方案的任何设备，而不管其是移动的还是非移动的，也不管其在具体实现中的名称是什么。

在一些示例中，用户的语音信息可以通过客户端设备的麦克风等单元进行读取。该用户的语音信息可被转化为电子信号并进行存储，例如，用户可通过电子设备的麦克风***进行语音输入：“播放音乐剧”、“播放戏曲”、“我想听越剧”等。

甚至在一些示例中，例如在语音识别设备位于用户本地的情况下，也可以不使用客户端设备，用户可在语音识别设备(例如，其麦克风)处直接输入语音。

在步骤S02处，选择语音数据库来识别用户输入的语音，并输出作为结果的识别输出。

在一些示例中，可选择要使用的语音数据库，并根据所选择的语音数据库，利用语音识别引擎的声学模型和语言模型等进行语音的识别，并输出识别结果。

在步骤S03中，使用领域判定来从识别输出中选择一个或多个候选最优识别输出。

可通过领域判定选择最优选的候选输出结果进行输出。在输出中可包含多个待选定的输出结果；例如多个待选定的结果可以是“我想听越剧”、“我想听粤剧”等多个结果。当然，在一些情况下，也可以仅输出一个输出结果。

可选地，在步骤S04中，检测用户的个性标识信息。

该步骤可在步骤S03与接下来将要详细阐述的步骤S05之间执行，但本发明不限于此，该步骤也可在执行步骤S05之前的任何时候执行。例如，在用户多次使用该语音识别设备的情况下，也可以存储用户在之前使用语音识别设备时检测到的个性标识信息，并在本次识别中使用所存储的个性标识信息。

个性标识信息例如可以包括用户的地理位置信息、用户所使用移动设备的当前连接信号源、用户的籍贯以及可个性化标识用户的其他本领域技术人员周知的信息。用户的地理位置信息可以通过多种方式进行获取。该信息的采集可以是用多种方式的结合，或单独采用一种方式进行获取，例如可以包括：通过用户的网络连接IP地址进行获取，例如当用户使用连接云端服务器的智能语音设备，可以通过用户网络信息的检测，获得用户的所在地址为“浙江省绍兴市”；或者可以通过用户的移动设备相关联的基站位置进行确定；也可以通过用户的移动设备的GPS***，进行用户的地理位置定位来获取。可使用上述多种获取方式中的一种，也可以使用多种获取方式的任意组合来避免误判(例如当互联网用户使用代理服务器时，难以通过网络信息判定用户的位置)。

在步骤S05中，以用户的个性标识信息作为判定条件来判定该一个或多个候选最优识别输出中的最优识别输出。

将上述用户的个性标识信息作为判定条件，来对多个候选最优识别输出进行进一步判定，通过小范围的检索识别，判定上述多个候选最优识别输出中最适合的最优识别输出。例如，在步骤S03中确定的候选最优识别输出是“我想听粤剧”与“我想听越剧”，而例如通过上述步骤S04获得的用户的地理信息位置是“浙江省绍兴市”，则通过将上述信息作为判定条件，对步骤S03中确定的候选最优识别输出进行低样本容量的检索，从而可以确定输出结果是“我想听越剧”。

由上可见，通过用户个性标识信息与识别输出之间的关联性提高了识别的准确率。而上述方法中，在步骤S05中，仅仅在小范围识别领域中进行再次的识别判定，因此，该判定形式不会在整体的响应时间上带来过大的负荷，因此，上述方式保证了在响应时间基本不会增加的前提下，提高用户语音输入的识别率，从而获得较高的用户体验。

在另一个例子中，如果用户通过智能语音***输入“我想听鸿雁”，通过***进行判定，可以得出概率较大的组合为“鸿雁”或者“红艳”，而上述两者可以作为多个最优组合的输出形式，并在最终的选定形式数据库中增加个性化标识进行***判定，依据所获取的不同的个性化标识，最终导向不同的结果输出，从而在较大程度上提高用户的体验，精准识别用户需求。

而当用户的输入信息明确导向例如地理信息位置时，在上述多个候选最优结果判定输出后，可以避免小样本的检索形式，而是将用户所识别的地理信息标示直接作为判定信息，与多个最优解进行比较输出，从而更快得到结果的输出：例如用户输入“朝阳天气”，则在输出的多个朝阳地区中，通过用户识别的地理信息标识进行选定。上述方式进一步简化了识别模式，但是上述方式，仅仅限定在多个最优解全部导向为相同个性标识信息(例如地理信息)的条件下。

也可能存在步骤S03中输出的候选识别输出的数目仅为1的情况。在该情况下，可绕过步骤S05的处理。然而在其他一些示例中，也可以使用步骤S05来判定步骤S03的该一个候选识别输出是否适合，并丢弃明显不适合的识别输出，再次提示用户输入语音。

在判定最优识别输出最后，在步骤S06中，输出该最优的识别输出。在此可采用的输出方式可包括但不限于声音、图像、文本或本领域使用来输出信息的其他任何方式，本发明不对此进行限制。

以上对技术方案的描述中使用用户的地理位置信息作为用户的个性标识信息的示例，然而也可以使用其他个性标识信息。例如用户的籍贯信息等。

在使用用户的籍贯信息的情况下，可通过用户语音输入的方言、口音来进行判定，从而确定用户籍贯信息。图2提供了根据本发明的实施例利用用户的籍贯信息进行语音识别的方法的流程图。

在图2所示的步骤S01获取用户的语音输入时，可通过所获取的用户的语音识别用户的方言和/或口音属性，以判定用户的籍贯信息(步骤S07)。

在获取上述籍贯信息后，在步骤S05中使用该籍贯信息作为用户的个性标识信息来进行最优输出结果的判定。

例如在步骤S02中，可通过语音识别***判定上述语音的方言属性，判定结果例如是“浙江方言”。

然后可以在步骤S05中将上述“浙江方言”属性作为判定条件，对步骤S03中选择的多个候选最优结果进行进一步判定。例如在所需判定的候选最优结果是“我想听越剧”与“我想听粤剧”时，则可通过判定条件“浙江方言”，判定为最终的输出结果为“我想听越剧”。

上述将籍贯信息作为用户的个性标识信息来执行判定的方式可以避免通过设备关联得到地理信息标识所导致的判断错误，例如，当用户是浙江籍贯且当前在广东的情况下使用上述语音识别设备时可能产生的错误。

以上分别参考图1和图2描述了使用地理位置信息和籍贯信息作为用户的个性标识信息的情况。然而在一些示例中，也可以将上述两种情况相结合以得到更加准确的判定结果。例如，可以将用户的籍贯信息和用户的地理位置信息结合起来作为个性标识信息使用。

具体实施例三、具体实施方式三为将上述实施例一与二进行结合的形式，其中，可以在具体方式中，综合使用籍贯信息的判定以及地理位置信息的判定，将上述两者的判定结果进行比对，并将比对结果作为S05中的判定标识信息。例如，在两者的判定结果相同(如，都是浙江)的情况下，将该判定结果作为判定标识信息。然而在另一些实施例中，如果两者的判定结果不同，可例如根据***设定或用户设置给予籍贯判定或地理位置判定更高的优先级。或者在另一些实施例中，在具有更多个性标识信息的情况下，也可结合该更多的个性标识信息来进行判定，例如，为不同的标识信息分配不同的权重，并选择总得分最大的判定结果。本发明的技术方案可以采用本领域技术人员容易想到的任何其他使用多种不同个性标识信息的判定方法，在此不再赘述。

以上示例中仅在步骤S05的判定中使用用户的个性标识信息，然而在一些示例中，也可以在步骤S02的语音识别中使用用户的个性标识信息。图3示出了根据本发明实施例的另一语音识别方法的流程图。

如图3所示，在步骤S01中，获取用户的语音输入。

在接下来的步骤中，检测用户的个性标识信息。例如可根据用户的语音输入检测用户的籍贯信息，或通过其他方式检测用户的地理位置信息等，本发明不对此进行限制。当然，如前所述，该检测步骤可以在使用个性标识信息(在本示例中，在步骤S02之前)之前的任何时候执行。在一些情况下，甚至可以使用已存储的之前已获取的个性标识信息。

然后，在步骤S02的语音识别步骤中，将上述个性标识信息作为步骤S02中数据库选择的标准，以加快语音识别的进行；

在后续步骤中，使用同样的方式进行数据识别，并在S05中，再次使用上述个性标识信息，进行小样本的判定，最终精准获取输出数据。

在上述示例中两次使用了个性标识信息，上述标识信息在第一次使用中的作用是进行语音判定数据库的选择(例如通过特定的地理信息标识来选择语音识别中使用的数据库)，而第二次使用地理信息标识是用来在候选最优结果中选择合适的判定输出，因为即便选择了合适的语音数据库，依据概率组合同样会出现并不合适的输出信息，因此，可以通过用户的个性标识信息(例如籍贯信息，或者上述的地理信息标识)进行最优结果的筛选。

图4是示出根据本发明的实施例的用于实现上述语音识别方法的语音识别设备的示意性框图。如图4所示，该语音识别设备可包括语音获取单元410，用于获取用户的语音输入；语音识别单元420，用于选择语音数据库来识别用户输入的语音，并输出作为结果的识别输出；第一判定单元430，用于使用领域判定来从识别输出中选择一个或多个候选最优识别输出；以及第二判定单元440，用于以用户的个性标识信息作为判定条件来判定该一个或多个候选最优识别输出中的最优识别输出。

在一些示例中，语音识别单元420还可用于：根据所选择的语音数据库，利用语音识别引擎的声学模型和语言模型来识别用户输入的语音。

在一些示例中，该语音识别设备还可包括：信息检测单元450，用于检测用户的个性标识信息。

在一些示例中，该语音识别设备还可包括存储器460，用于存储信息检测单元450检测到的个性标识信息。此外，该存储器也可以存储语音识别设备在进行语音识别时所使用到的任何数据，例如上述语音数据库等，本发明不对此进行限制。

本发明中所述的用户的个性标识信息可包括用户的地理位置信息、用户所使用移动设备的当前连接信号源和用户的籍贯中的一项或多项。且如前所述，本发明中用户的个性标识信息不限于此，而是可以是本领域中用于个性化地标识用户的任何信息。

在一些示例中，信息检测单元450还用于：通过在进行用户输入的语音的识别时识别用户的方言和/或口音属性来获取用户的籍贯。

在一些示例中，语音识别单元420还用于：使用用户的个性标识信息来选择用于语音识别的语音数据库。

以上以模块/单元的形式描述了根据本发明实施例的语音识别设备的示意性框图。然而需要注意的是，该模块/单元中的一个或多个可以通过一个或多个具体硬件实现。此外，图4仅是为了解释本发明的技术方案而采用的一个示意性的框图。在实际的实现中，还可以包括更多或更少的模块/单元。例如，在一些实现中，还可以包括用于输出信息的输出设备，如扬声器、显示器等。而在一些实现中，还可以包括各种存储设备，以存储在实现本发明的技术方案中所需的数据/程序或所产生的数据/程序等，本发明不受其限制。

图5示出了根据本发明实施例的语音识别***的示意性框图。如图5所示，该语音识别***包括根据图4所示的语音识别***云端服务器(或称为语音识别设备)以及与语音识别设备通信连接的客户端语音智能设备(或称为客户端设备)。如前所述，当用户与语音识别设备共处一地时，也可以省略客户端设备。用户可直接在语音识别设备处输入语音。

图5中所示的语音识别设备的语音识别处理与参考图1、图2和图3描述的处理相同，在此不再赘述。

此外，需要注意的是，本发明实施例所记载的技术方案在不冲突的情况下可以任意组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，电可以采用硬件加软件功能单元的形式实现。

上面的描述仅用于实现本发明的实施方式，本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均应该属于本发明的权利要求来限定的范围，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种语音识别方法，包括：

获取用户的语音输入；

选择语音数据库来识别用户输入的语音，并输出作为结果的识别输出；

使用领域判定来从所述识别输出中选择一个或多个候选最优识别输出；以及

以用户的个性标识信息作为判定条件来判定所述一个或多个候选最优识别输出中的最优识别输出。

2.根据权利要求1所述的语音识别方法，其中，所述选择语音数据库来识别用户输入的语音包括：

根据所选择的语音数据库，利用语音识别引擎的声学模型和语言模型来识别用户输入的语音。

3.根据权利要求1所述的语音识别方法，还包括：

检测用户的所述个性标识信息。

4.根据权利要求3所述的语音识别方法，其中，用户的所述个性标识信息包括用户的地理位置信息、用户所使用移动设备的当前连接信号源和用户的籍贯中的一项或多项。

5.根据权利要求4所述的语音识别方法，其中，通过在进行用户输入的语音的识别时识别用户的方言和/或口音属性来获取所述用户的籍贯。

6.根据权利要求1所述的语音识别方法，还包括：

使用用户的所述个性标识信息来选择用于语音识别的语音数据库。

7.一种语音识别设备，包括：

语音获取单元，用于获取用户的语音输入；

语音识别单元，用于选择语音数据库来识别用户输入的语音，并输出作为结果的识别输出；

第一判定单元，用于使用领域判定来从所述识别输出中选择一个或多个候选最优识别输出；以及

第二判定单元，用于以用户的个性标识信息作为判定条件来判定所述一个或多个候选最优识别输出中的最优识别输出。

8.根据权利要求7所述的语音识别设备，其中，所述语音识别单元还用于：

9.根据权利要求7所述的语音识别设备，还包括：

信息检测单元，用于检测用户的所述个性标识信息。

10.根据权利要求9所述的语音识别设备，其中，用户的所述个性标识信息包括用户的地理位置信息、用户所使用移动设备的当前连接信号源和用户的籍贯中的一项或多项。

11.根据权利要求10所述的语音识别设备，其中，所述信息检测单元还用于：通过在进行用户输入的语音的识别时识别用户的方言和/或口音属性来获取所述用户的籍贯。

12.根据权利要求7所述的语音识别设备，其中，所述语音识别单元还用于：

13.一种语音识别***，包括：

根据权利要求7至12中任一项所述的语音识别设备；以及

与所述语音识别设备通信连接的客户端设备。