WO2019169536A1

WO2019169536A1 - 一种电子设备进行语音识别方法及电子设备

Info

Publication number: WO2019169536A1
Application number: PCT/CN2018/078056
Authority: WO
Inventors: 隋志成; 李艳明
Original assignee: 华为技术有限公司
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2019-09-12
Also published as: CN111373473B; CN111373473A

Abstract

一种电子设备进行语音识别方法及电子设备，涉及终端技术领域，能够提升终端在本地进行语音指令识别时的灵活性。方法包括：将接收的语音指令转换为文本，之后通过至少两个子领域分类器对文本进行领域识别，得到领域识别结果，其中，领域识别结果用于表示文本所属的领域，再通过文本所属的领域对应的对话引擎对文本进行处理，确定文本对应的电子设备需要执行的功能。适用于语音识别过程。

Description

一种电子设备进行语音识别方法及电子设备

技术领域

本申请涉及终端技术领域，尤其涉及一种电子设备进行语音识别方法及电子设备。

背景技术

随着终端技术的发展，尤其是语音识别技术的普及，目前，用户可以通过向终端输入语音指令以调用终端执行相应功能。以上述终端为手机为例，用户可以通过手机输入一段语音，之后手机将这一段语音发送至云端，以使云端将这段语音转成文本，并对该文本进行处理，得到处理结果。之后云端将处理结果返回至手机，以使手机根据该处理结果执行与该处理结果匹配的功能。

由此可见，上述实现过程主要依赖于云端的处理能力。也就意味着，对于终端无法与云端实现数据交互的情况而言，终端难以依据输入的语音指令执行相应功能。为了解决上述问题，目前，终端中增加了对语音指令进行识别、处理的功能，在终端通过语音识别技术将语音转换成文本后，终端可以通过模板匹配的方式对该文本进行处理，以确定终端需要调用的功能，即上述处理结果。其中，模板匹配指的是，终端将得到的文本与已有模板进行匹配，并确定出能够完全匹配该文本的模板。之后终端可以根据模板与功能之间的对应关系，确定与该模板对应的功能，并由终端执行该功能。

但对于上述实现方式而言，需要确保得到的文本与模板完全匹配。比如，模板规定了文本的结构为“时间+地点+做什么”，那么在该文本的结构满足“时间+地点+做什么”的结构时，终端才能确定该文本与模板匹配。对于该文本的结构为“地点+时间+做什么”的结构时，由于模板结构与文本结构无法完全匹配，导致终端因无法找到与该文本匹配的模板，而无法确定与该文本匹配的功能，也就导致用户无法通过输入语音指令的方式调用终端执行该功能。

发明内容

本申请实施例提供一种电子设备进行语音识别方法及电子设备，以提升终端在本地进行语音指令识别时的灵活性。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，本申请实施例提供一种电子设备进行语音识别方法。该方法包括：将接收的语音指令转换为文本。之后通过至少两个子领域分类器对文本进行领域识别，得到领域识别结果。其中，领域识别结果用于表示文本所属的领域。再通过文本所属的领域对应的对话引擎对文本进行处理，确定文本对应的电子设备需要执行的功能。采用上述方式实现语音识别过程，能够有效对文本进行领域的区分，之后更有针对性的完成基于领域的文本识别过程，从而确定电子设备需要执行的功能，加强了语音识别的准确性。并且，上述实现过程可以在电子设备的本地进行。也就意味着，即便是在电子设备无法接入网络的过程中，也能够在不借助云端处理能力的基础上，实现针对语音指令的识别，从而增加了语音识别的灵活性。

在一种示例性的实现方式中，在将语音指令转换为文本之后，可以将文本与预存文本进行匹配。当文本与预存文本匹配成功时，确定预存文本对应的领域为文本的领域识别结果。在上述实现方式中，预先匹配能够减少后续通过子领域分类器进行领域识别所消耗的资源。上述匹配过程可以对文本进行初步筛选，若转换后的文本符合常用句式，那么可以直接基于已有的预存文本和领域之间的对应关系，在不需要子领域分类器参与的情况下，准确识别出该文本所属的领域，从而完成基于语音指令的领域识别过程。

在一种示例性的实现方式中，通过至少两个子领域分类器对文本进行并行领域识别，得到领域识别结果，具体可以实现为：当文本与预存文本匹配失败时，通过至少两个子领域分类器对文本进行并行领域识别，得到领域识别结果。考虑到文本也会存在不符合常用句式的情况，那么在该文本经过初步筛选后，就可以由子领域分类器对该文本进行领域识别。需要说明的是，子领域分类器对文本进行领域识别的过程可以实现为多个子领域分类器对文本进行并行的领域识别，即至少存在两个子领域分类器同时对文本进行领域识别，以节省领域识别所占用的时间。

在一种示例性的实现方式中，电子设备包括N个子领域分类器组，其中，每个组有不同的优先级，N为大于或等于2的正整数。通过至少两个子领域分类器对文本进行并行领域识别，得到领域识别结果，可以具体实现为：通过N个子领域分类器组中最高优先级组中的子领域分类器对文本进行领域识别。若最高优先级组中的子领域分类器识别出文本所属的领域，则将最高优先级组中的子领域分类器识别出文本所属的领域作为领域识别结果；若最高优先级组中的子领域分类器未识别出文本所属的领域，则通过N个子领域分类器组中下一优先级组中的子领域分类器对文本进行领域识别，直至：识别出文本所属的领域，并将识别出的领域作为领域识别结果；或文本已经过N个子领域分类器组中所有子领域分类器进行领域识别。其中，N个子领域分类器组中的至少一个组中包括至少两个子领域分类器。

在上述实现过程中，各个优先级组中的子领域分类器是按照一定先后顺序对文本进行识别的。上述实现过程中，一旦经过某一优先级组中的子领域分类器的领域识别后得到领域识别结果，可以将得到的领域识别结果返回，而无需将文本交由下一级优先级组中的子领域分类器进行领域识别，从而在能够确保得到准确的领域识别结果的基础上，动用较少的子领域分类器。

在一种示例性的实现方式中，N个子领域分类器组的至少一个组中的至少两个子领域分类器对文本并行进行领域识别。在本申请实施例的一种示例性的实现方式中，各个优先级组中不一定全部都包括多个子领域分类器，即至少存在一个优先级组中包括多个子领域分类器即可。需要说明的是，并行对文本进行领域识别的子领域分类器的数量越多，得出的领域识别结果越准确。

在一种示例性的实现方式中，N个子领域分类器组中，低优先级组中的子领域分类器的领域识别准确率低于高优先级组中的子领域分类器的领域识别准确率。由于高优先级组中的子领域分类器进行领域识别的准确率，高于低优先级组中子领域分类器进行领域识别的准确率。因此，上述层层递进的领域识别过程，能够有效降低领域识别准确率较低的子领域分类器的工作压力，且进一步提升了领域识别整体过程的准确率。

在一种示例性的实现方式中，N个子领域分类器组中的至少一个组包括第一子领域分类器和第二子领域分类器。当第一子领域分类器对文本进行领域识别后得到第一领域识别结果，且第二子领域分类器对文本进行领域识别后得到第二领域识别结果时，确定第一领域识别结果和第二领域识别结果中的至少一项为领域识别结果；或确定第一领域识别结果和第二领域识别结果均为领域识别结果。由此可见，对于同一优先级组中多个子领域分类器均得到领域识别结果的情况而言，可以基于预先设置的规则或是已经配置好的汇总决策方式，对领域识别结果进行选择，比如，选其中一个领域识别结果作为最终的领域识别结果，或是选择其中的多个或是全部的领域识别结果作为最终的领域识别结果，在此对于规则或是决策的方式不予限定。

在一种示例性的实现方式中，至少两个子领域分类器中的每一个对文本进行领域识别，可以实现为：对文本进行命名实体识别NER，并确定识别出的内容中的公用特征。之后按照预设规则，将公用特征进行替换。其中，预设规则包括不同类别的公用特征对应的替换内容。再对完成替换的文本进行特征提取，并确定每个特征的权重，根据每个特征的权重，计算文本的值。并且，当文本的值大于阈值时，确定文本属于本子领域分类器对应的领域。需要说明的是，采用公用特征替换的方式，能够减少计算文本的值是所占用的计算资源，且能够有效减少功用特征对领域识别过程产生的影响，从而提升对文本进行领域识别的准确率。

在一种示例性的实现方式中，在将文本通过至少两个子领域分类器对文本进行并行领域识别之前，可以预先对至少两个子领域分类器进行训练。其中，对每个子领域分类器进行训练的过程如下：

生成子领域分类器的正负样本。需要说明的是，每个子领域分类器均可以有自己独立的正负样本，其中，正负样本包括正例训练样本集合和负例训练样本集合。正例训练样本集合中的样本为属于该子领域分类器对应领域的样本，负例训练样本集合中的样本为不属于该子领域分类器对应领域的样本。

对正负样本进行NER和规则提取，并对经NER处理过的正负样本进行公用特征替换。其中，公用特征指的是在计算文本的值时，会对该值产生影响的内容，但该特征的存在并不会对文本所属的领域产生影响，在本申请实施例的一种实现方式中，公用特征包括但不限于时间、地点等词语，可以预先设置。在本申请实施例中，可以将公用特征替换为符号等，在此不予限定。规则包括但不限于诸如“搜索……的图片”等句式。需要说明的是，对正负样本进行NER，可以为规则提取和公用特征替换的前提。即通过NER识别出正负样本中的地点、时间、句式等，之后将句式作为规则，将时间、地点等作为公用特征，并完成公用特征与符号之间的替换。

停用词等去噪。也就意味着，在对子领域分类器进行训练的过程中，对于正负样本而言，为了降低正负样本中诸如“啊”、“呀”等语气词以及“；”、“、”等符号对识别过程产生的干扰，需要将这些停用词识别出来，并在领域识别过程中忽略这些停用词。

提取特征生成训练语料特征库，并根据权重计算文本对应的值。其中，训练语料特征库用于存储特征与权重之间的对应关系。

子领域分类器训练，并对错误领域识别结果的影响评估，之后修改正负样本。

上述训练过程能够动态调整正负样本的分布情况，从而提升子领域分类器的识别准确率。

第二方面，本申请实施例提供一种电子设备。该电子设备可以实现上述方法实施例中所实现的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个上述功能相应的模块。

第三方面，本申请实施例提供一种电子设备。该电子设备的结构中包括存储器，一个或多个处理器。其中，存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令。上述一个或多个处理器在读取并执行所述计算机指令的过程中，使得该电子设备实现第一方面及其各种示例性的实现方式任一项所述的方法。

第四方面，本申请实施例提供一种可读存储介质，包括指令。当该指令在电子设备上运行时，使得该电子设备执行上述第一方面及其各种示例性的实现方式任一项所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，该计算机程序产品包括软件代码，该软件代码用于执行上述第一方面及其各种示例性的实现方式任一项所述的方法。

附图说明

图1为本申请实施例提供的一种终端的结构示意图；

图2为本申请实施例提供的一种示例性的方法流程示意图；

图3为本申请实施例提供的一种示例性的手机处理语音指令的方法流程图；

图4为本申请实施例提供的一种示例性的领域识别的多分类***的示意图；

图5为本申请实施例提供的一种采用如图4所示的***进行文本领域识别的实现流程示意图；

图6为本申请实施例提供的一种在已知文本所属领域的情况下，对子领域分类器进行训练的方法流程图；

图7为本申请实施例提供的一种对子领域分类器的正负样本进行调整的训练方法流程图；

图8为本申请实施例提供的一种电子设备的结构示意图；

图9为本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

本申请实施例可以用于一种电子设备，该电子设备可以为终端，比如，笔记本电脑、智能手机、虚拟现实(Virtual Reality，VR)设备、增强现实技术(Augmented Reality，AR)、车载设备、智能可穿戴设备等设备。该终端可以至少设置有显示屏、输入设备和处理器，以终端100为例，如图1所示，该终端100中包括处理器101、存储器102、摄像头103、RF电路104、音频电路105、扬声器106、话筒107、输入设备108、其他输入设备109、显示屏110、触控面板111、显示面板112、输出设备113、以及电源114等部件。其中，显示屏110至少由作为输入设备的触控面板111和作为输出设备的显示面板112组成。需要说明的是，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置，在此不做限定。

下面结合图1对终端100的各个构成部件进行具体的介绍：

射频(Radio Frequency，RF)电路104可用于收发信息或通话过程中，信号的接收和发送，比如，若该终端100为手机，那么该终端100可以通过RF电路104，将基站发送的下行信息接收后，传送给处理器101处理；另外，将涉及上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路104还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System for Mobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Divi sion Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器102可用于存储软件程序以及模块，处理器101通过运行存储在存储器102的软件程序以及模块，从而执行终端100的各种功能应用以及数据处理。存储器102可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如，声音播放功能、图像播放功能等)等；存储数据区可存储根据终端100的使用所创建的数据(比如，音频数据、视频数据等)等。此外，存储器102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其他输入设备109可用于接收输入的数字或字符信息，以及产生与终端100的用户设置以及功能控制有关的键信号输入。具体地，其他输入设备109可包括但不限于物理键盘、功能键(比如，音量控制按键、开关按键等)、轨迹球、鼠标、操作杆、光鼠(光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸)等中的一种或多种。其他输入设备109还可以包括终端100内置的传感器，比如，重力传感器、加速度传感器等，终端100还可以将传感器所检测到的参数作为输入数据。

显示屏110可用于显示由用户输入的信息或提供给用户的信息以及终端100的各种菜单，还可以接受用户输入。此外，显示面板112可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板112；触控面板111，也称为触摸屏、触敏屏等，可收集用户在其上或附近的接触或者非接触操作(比如，用户使用手指、触笔等任何适合的物体或附件在触控面板111上或在触控面板111附近的操作，也可以包括体感操作；该操作包括单点控制操作、多点控制操作等操作类型)，并根据预先设定的程式驱动相应的连接装置。需要说明的是，触控面板111还可以包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位、姿势，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成处理器101能够处理的信息，再传送给处理器101，并且，还能接收处理器101发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板111，也可以采用未来发展的任何技术实现触控面板111。一般情况下，触控面板111可覆盖显示面板112，用户可以根据显示面板112显示的内容(该显示内容包括但不限于软键盘、虚拟鼠标、虚拟按键、图标等)，在显示面板112上覆盖的触控面板111上或者附近进行操作，触控面板111检测到在其上或附近的操作后，传送给处理器101以确定用户输入，随后处理器101根据用户输入，在显示面板112上提供相应的视觉输出。虽然在图1中，触控面板111与显示面板112是作为两个独立的部件来实现终端100的输入和输出功能，但是在某些实施例中，可以将触控面板111与显示面板112集成，以实现终端100的输入和输出功能。

RF电路104、扬声器106，话筒107可提供用户与终端100之间的音频接口。音频电路105可将接收到的音频数据转换后的信号，传输到扬声器106，由扬声器106转换为声音信号输出；另一方面，话筒107可以将收集的声音信号转换为信号，由音频电路105接收后转换为音频数据，再将音频数据输出至RF电路104以发送给诸如另一终端的设备，或者将音频数据输出至存储器102，以便处理器101结合存储器102中存储的内容进行进一步的处理。另外，摄像头103可以实时采集图像帧，并传送给处理器101处理，并将处理后的结果存储至存储器102和/或将处理后的结果通过显示面板112呈现给用户。

处理器101是终端100的控制中心，利用各种接口和线路连接整个终端100的各个部分，通过运行或执行存储在存储器102内的软件程序和/或模块，以及调用存储在存储器102内的数据，执行终端100的各种功能和处理数据，从而对终端100进行整体监控。需要说明的是，处理器101可以包括一个或多个处理单元；处理器101还可以集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面(User Interface，UI)和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器101中。

终端100还可以包括给各个部件供电的电源114(比如，电池)，在本申请实施例中，电源114可以通过电源管理***与处理器101逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗等功能。

此外，图1中还存在未示出的部件，比如，终端100还可以包括蓝牙模块等，在此不予赘述。

下面以上述终端100为手机为例，对本申请实施例进行阐述。

目前，在手机将接收到的语音指令发送至云端后，云端通过语音识别技术，将语音指令转换成文本，之后对文本进行处理，以确定手机需要执行的与该文本对应的功能，即处理结果。其中，云端对文本进行处理的过程，可以实现为云端将文本与模板中设置好的内容进行逐条匹配，最终得到处理结果；或是，云端提取文本中的关键字、关键词，之后基于该关键字、关键词来得出处理结果。之后云端将该处理结果返回给手机，由手机实现与该处理结果对应的功能。

由此可见，语音指令转换成文本的过程，以及后续针对文本的处理过程，可以发生在云端，而手机只需要将接收到的语音指令发送至云端，并在云端完成语音指令的处理后，接收云端发送的处理结果，并针对该处理结果执行相应功能。

在上述实现过程中，手机与云端之间可以通过网络实现数据传输，那么对于手机无法连网的情况而言，也就无法保证手机能够准确、有效地执行与语音指令对应的功能。

此外，无论手机是否需要通连网来实现对语音指令的处理，对于云端采用模板匹配的方式完成文本处理的情况，以及手机在本地采用模板匹配的方式完成文本处理的情况而言，考虑到模板大部分是人工数据得到的，生成较多的模板往往会占用大量的人力、物力；并且，模板在生成后是固定不变的，当语音指令的结构与模板结构不能完全匹配时，会增加处理过程的失败率，即采用模板进行文本处理的过程，灵活度较差，且由于需要将文本与较多的模板进行匹配，往往耗费的时间较长。同样的，对于采用提取关键字、关键词的方式对文本进行处理，也会出现类似的问题。

在对文本进行模板匹配的过程中，当文本内容涉及多个领域时，容易产生歧义，即识别率较低。比如，文本为“你好用英语怎么说”，涉及到翻译，还涉及到语言设置，云端将文本识别为“设置语言”；文本为“翻译一下打开护眼模式”，涉及到翻译，还涉及到模式启动，云端将文本识别为“打开护眼模式”；文本为“帮我记一下餐厅的地理位置”，涉及到位置信息，还涉及到记录，云端将文本识别为“全球定位***(Global Positioning System，GPS)”；文本为“发微博说字体很大”，涉及到字体，还涉及到字体调整，云端将文本识别为“字体”；文本为“提醒我明天下午开飞行模式”，涉及到时间，还涉及到模式启动，云端将文本识别为“打开飞行模式”等。由此可见，在文本中涉及多个领域时，云端或是手机很难准确确定出文本对应的功能。

其中，领域指的是文本的类型。该类型的划分可以依据文本所处的语言环境，在本申请实施例中，可以将领域作为文本类别，在对文本进行处理的过程中，一个领域对应一个类型的任务，即属于同一领域的文本作为同一类型的任务交由同一对话引擎进行处理。上述对话引擎对文本进行处理的过程，可以包括通过自然语言处理(Natural Language Process，NLP)技术对文本进行解析，从而输出处理结果。其中，该处理结果可以包括需要手机实现的功能的代码，以使手机调用相应功能，具体实现方式可以为该对话引擎用于对该领域的文本进行解析，确定该文本对应的需执行的功能，该对话引擎也可以生成与该需执行的功能相应的指令代码；所述指令代码为机器可以识别并执行对应功能的代码。

该代码可以是二进制形式的代码，也可以是诸如<play><wangfei><song>(对用户输入的语音指令“我要听王菲的音乐”生成的指令代码)的高级语言代码，本申请不做限定。

为了解决上述问题，本申请实施例提供一种语音识别方法。如图2所示，为本申请实施例提供的一种示例性的方法流程示意图。在手机通过用户语音入口接收到语音指令后，采用语音识别技术，将语音指令转换为文本，之后由终端对该文本进行领域识别，再将经过领域识别得到的领域识别结果反馈给与该领域识别结果对应的对话引擎进行处理，最终将得到的处理结果反馈给手机。

需要说明的是，对于用户通过第三方应用或是***应用提供的入口输入语音指令的情况而言，对话引擎可以将处理结果反馈给提供入口的应用，以使该提供入口的应用实现诸如界面切换等功能；对于用户通过手机的***级显示界面提供的入口输入语音指令的情况而言，由于用户输入语音指令时，手机可以处于主界面或是诸如设置界面等***级显示界面，而并非手机中应用的运行界面，因此，对话引擎可以将处理结果反馈给手机的***，以使该手机的***实现诸如运行某一应用、调整显示界面字体大小等功能。比如，手机呈现给用户的界面为手机的主界面，用户通过输入“打开游戏应用”的语音指令来运行该游戏应用。手机在对该语音指令完成语音识别及后续处理后，将处理结果反馈给手机的***，由手机的***启动该游戏应用。

其中，上述***应用包括但不限于手机出厂时预装的具备接收语音指令功能的应用程序；上述第三方应用包括但不限于用户从诸如应用供应等平台上下载、安装的具备接收语音指令功能的应用程序，以及通过手机中其他应用实现调用功能的应用程序等，在此不予限定。在本申请实施例中，***级显示界面指的是手机中除应用的运行界面以外的界面，比如，手机的主界面、设置界面等；应用的运行界面包括但不限于应用启动过程中或是启动后通过手机呈现给用户的界面，比如，应用的加载界面、应用的设置界面等。

上述领域识别的过程中，所指的领域包括但不限于设置(setting)、免打扰(noDisturb)、图库(gallery)、翻译(translate)、股票(stock)、天气(weather)、计算(calculator)及百科(baike)等领域。

在本申请实施例中，可以通过对文本中关键词的识别，或是采用模板匹配的方式，或是通过子领域分类器的处理，将通过语音识别转换过来的文本归类于预设的类别中，而该预设的类别包括但不限于上述例举的领域。其中，关键词识别、模板匹配的实现方式可以参考现有技术中针对文本进行领域识别的实现方式，在此不予赘述；子领域分类器可以被设置在图2所示的领域识别的多分类***中，该子领域分类器的作用等，会在后文提出，在此不予赘述。

图2中所示的领域识别的多分类***的目的在于，对手机已经完成转换的文本，进行领域识别，并输出对应的领域识别结果。之后手机会按照领域识别结果，将该文本交由与该领域识别结果对应的对话引擎进行处理，并得到处理结果，以使手机按照处理结果的指示调用相应功能。

其中，用户语音入口可以为诸如语音助手等通用入口，还可以为手机中***应用或是第三方应用的局部入口。比如，以***应用为例，用户在图库内输入语音，以使手机在图库中完成搜索图片的功能。

如图3所示，为本申请实施例提供的一种示例性的手机处理语音指令的方法流程图。以用户通过语音指令打开手机的Wi-Fi功能为例，用户输入的语音指令为“打开Wi-Fi”，该语音指令经过语音识别后，得到内容为“打开Wi-Fi”的文本。手机对该文本进行领域识别，确认该文本所属的领域为设置领域，将该文本发送至设置领域对应的对话引擎进行处理，即手机将经过领域识别后得到的领域识别结果，发送至设置领域对应的本地多领域语义理解对话引擎，由该对话引擎进行处理，之后手机依据处理结果执行相应功能。在本申请实施例中，对话引擎还可以将手机执行相应功能后的执行结果通过语音播放，或是弹出对话框等方式，提示用户，手机已依据用户输入的语音指令完成相应功能的执行。比如，在图3所示的示例中，手机可以通过语音播放的方式播放“Wi-Fi已打开”，或是弹出包括诸如“Wi-Fi已打开”的字样来提示用户。

与现有技术中手机在本地实现领域识别的过程相比，本申请实施例中进行领域识别的方式与现有技术不同。现有技术中，对语音指令的处理过程，主要依赖于模板匹配，因此，当文本结构与模板结构存在差异时，手机就无法得到准确的处理结果。而在本申请实施例中，引入了领域识别及对话引擎，其中，领域识别过程不仅考虑到了模板匹配、关键词提取，还可以采用并行多子领域分类器共同工作的方式，在多领域中筛选出一个或是多个与文本对应的领域，并将该文本交由筛选出的各个领域对应的对话引擎进行处理。这样对于文本结构与模板结果不能完全匹配的情况而言，手机仍然能够对该文本进行进一步的分析、处理。需要说明的是，对于涉及到多领域的文本而言，手机能够从多领域的角度对该文本进行处理，而不仅仅是将该文本推送至一个领域对应的对话引擎进行处理。由此可见，采用本申请实施例提供的语音识别过程，能够有效对文本进行领域的区分，之后更有针对性的完成基于领域的文本识别过程，从而确定电子设备需要执行的功能，加强了语音识别的准确性。并且，实现过程可以在电子设备的本地进行。也就意味着，即便是在电子设备无法接入网络的过程中，也能够在不借助云端处理能力的基础上，实现针对语音指令的识别，从而增加了语音识别的灵活性。

需要说明的是，图3所示的示例为手机对话***交互过程，即用户输入语音指令，经过手机的处理，执行与该语音指令对应的功能，并且通过语音播放或是显示的方式，将手机执行该功能的结果反馈给用户。其中，用户输入的语音指令与手机输出的语音播放内容或是显示结果，行程对话***的交互。也就意味着，手机输出的语音播放或是显示结果，为手机对用户提供的一种示例性的应答方式，以在手机执行相应功能的过程中或是之后，回应用户输入的语音指令。

如图4所示，为本申请实施例提供的一种示例性的领域识别的多分类***。领域识别的多分类***的目的在于，依据文本完成对该文本的领域识别。在领域识别过程中，该***可以被划分为三层，这三层分别为控制层、分类器层和算法层。

下面针对该***中涉及的各个层，对每一层的功能、作用等进行说明。

在一种示例性的实例中，控制层包括如下几个部分：文本快速全精度匹配、域调度、分类决策，以及数据装载机。

其中，文本快速全精度匹配，指的是针对常用的短语、句式等，比如，常用及歧义的固定说法，控制层可以直接将文本的领域进行划分，而无需通过分类器层对该文本进行进一步的处理。在本申请实施例中，用于文本快速全精度匹配的模板，可以预先设置，具体设置方式可以参考现有的人工模板，比如，背景技术中描述的模板匹配方式中所涉及的模板，在此不予赘述。

域调度的功能，包括针对分类器层各个优先级内子领域分类器的调度，比如，经过文本快速全精度匹配后未成功确定文本所属的领域，那么域调度可以调度优先级1中各个子领域分类器对该文本进行处理，并在优先级1中各个子领域分类器无法确定文本所属领域的情况下，继续调度优先级2中各个子领域分类器对该文本进行处理，直至确定出文本所属领域或是分类器层所有子领域分类器均已对该文本进行处理且未确定文本所属领域。此外，对于单个子领域分类器而言，域调度还可以用于调用子领域分类器所涉及的算法、规则、模式等。

其中，算法、规则和模式等均用于子领域分类器对文本进行处理过程中使用。在本申请实施例中，当文本与该规则匹配时，或是文本满足规则时，分类器层返回领域识别结果；当文本与该模式匹配时，或是文本满足模式时，可以确定该文本会存在较大几率属于该模式对应的领域。在本申请的一个实施方式中，规则与本文的对应，对于确定文本所属领域起着决定性作用，而模式与文本的对应，则是增加了确定文本所属领域的准确性，具体实现方式会在后文提及的具体实例中说明，在此不予赘述。

也就意味着，域调度用于衔接控制层与分类器层，在文本经过全文本精度匹配未得到结果后，按照分类器层的优先级由高到低的顺序，依次实现各个优先级中子领域分类器的调度，且在调度子领域分类器进行文本处理的过程中，根据子领域分类器的需求，调度相应的算法、规则、模式等。

分类决策，即汇总决策，主要目的在于当控制层经过文本快速全精度匹配后未确定文本所属领域的情况下，结合分类器层各优先级得到的处理结果，确定出文本所属领域或是确定文本不存在所属的领域。

比如，在优先级1中各个子领域分类器对文本进行处理后，确定文本属于领域1和领域2，那么分类决策就可以用于规定文本经过同一优先级中的所有子领域分类器处理后，得到的领域识别结果中包括多个领域时，如何确定文本所属领域。在本申请实施例中，分类决策可以规定此时文本属于其中一个领域或是多个领域，即分类决策可以规定文本属于领域1、属于领域2，或是属于领域1和领域2。

再比如，在优先级1中各个子领域分类器对文本进行处理后，未确定出文本所属的领域，而在优先级2中各个子领域分类器对文本进行处理后，确定出文本属于领域1，那么分类决策就可以通过汇总优先级1和优先级2中各个子领域分类器得到的领域识别结果来确定文本所属领域，即分类决策汇总优先级1中不存在文本所属领域，而优先级2中存在文本所属的领域1，最终确定文本属于领域1为文本的领域识别结果。

在本申请实施例中，手机在语音指令的识别过程中，可以生成一个实例，这个实例可以为待处理的任务，该任务为手机对语音指令转换为的文本进行领域识别。在分类器层的同一优先级中，多个子领域分类器可以同时处理相同的实例，即手机同时执行多个任务，以实现对文本的领域识别。

数据装载机，用于从手机本地、网络侧或是诸如服务器等第三方设备，获取算法层所需的各种库的数据、分类器层中子领域分类器的模型，以及配置信息。其中，子领域分类器，指的是各个领域对应的分类器；配置信息包括但不限于各个模型的初始化参数等。

此外，控制层作为该***中与手机其他部件进行交互的层，控制层可以从手机获取完成语音识别得到的文本，且在***对该文本进行处理后，能够将领域识别结果，即分类结果，反馈给手机。

由此可见，控制层负责外部业务交互接口、初始化数据和模型加载、领域分类任务调度、子领域分类器分类任务的分发，以及最终返回的所有分类结果的汇总决策。

在一种示例性的实例中，分类器层包括多个优先级，比如，优先级1(priority1)、优先级2(priority2)、优先级3(priority3)。其中，优先级1大于优先级2，大于优先级3。在每个优先级中，可以设置一个或是多个类的实例，即子领域分类器。比如，优先级1中的类的实例11、类的实例12，以及类的实例13。

分类器层，用于实现文本的分类。在实际分类过程中，分类器层支持多级多实例任务分类，即如上段描述，在分类器层包括多个优先级的分类器组，在不同优先级的分类器组中，存在多个并列的子领域分类器，这多个并列的子领域分类器能够同时执行，以使文本的领域分类过程实现汇总决策。

在单个子领域分类器中，包括规则、模式(pattern)、命名实体识别(Named Entity Recognition，NER)，以及预测部分，从而实现子领域特征的提取和领域识别。需要说明的是，同一条文本，在同一优先级中的不同子领域分类器中，可以具备相同的子领域特征，还可以得到不同的领域识别结果。

其中，子领域特征包括但不限于文本中的关键词，也就意味着，在不同领域中，同一关键词可以表示相同或是不同含义，在本申请实施例中，该关键词可以对领域识别结果产生影响；领域识别结果指的是经过子领域分类器对文本进行的处理，可以初步预测文本可能属于的领域，比如，属于同一优先级的两个子领域分类器在经过对同一文本进行处理后，一个子领域分类器确定该文本属于领域1，而另一个子领域分类器确定该文本属于领域2，那么这两个子领域分类器得到了不同的领域识别结果，即文本属于领域1，以及文本属于领域2。

另外，对于不同优先级的分类器组而言，相邻两个优先级的分类器组之间是串行关系。对于分类器层中优先级较高的优先级1而言，在优先级1中的子领域分类器得到有效的领域识别结果的情况下，可以将该领域识别结果通过控制层反馈给手机；在优先级1中的子领域分类器未得到有效的领域识别结果的情况下，可以将该文本传递至串行的优先级2中的各个子领域分类器进行处理，依次类推，直至得到有效的领域识别结果位置。在该文本在分类器层中遍历各个优先级之后仍未得到领域识别结果，那么可以将未得到领域识别结果这一分类结果，反馈给手机。其中，有效的领域识别结果，指的是在某一优先级中，能够确定出该文本所属的领域，那么所确定出的领域就是有效的领域识别结果。

需要说明的是，位于分类器层的优先级数量，以及处于同一优先级中子领域分类器的数量，在本申请实施例中不予限定。另外，可以预先定义每个子领域分类器对应的领域。并且，在后续***的使用过程中，可以对各个子领域分类器对应的领域进行调整，其中，上述调整包括但不限于子领域分类器所在优先级的调整，子领域分类器对应领域的调整，子领域分类器数量的增减等。比如，将一个子领域分类器从一个优先级移动至另一个优先级，将位于不同优先级中的子领域分类器进行对调等。

在实际配置过程中，可以将领域识别精度较高的领域，对应到高优先级的子领域分类器中；将性能较好的模型，对应到高优先级的子领域分类器中。对于需要被识别领域的文本而言，由于高优先级的子领域分类器的识别精度较高，且使用的模型性能较好，就能使文本优先通过精准度较高且时效性较高的识别。当该文本在最高优先级的子领域分类器中就能够识别到领域时，该***可以将该领域识别结果返回给手机。也就意味着，在高优先级的子领域分类器经过领域识别后，未得到有效的领域识别结果，那么可以将该文本交由下一级的子领域分类器进行领域识别，直至得到有效的领域识别结果或是该文本已经经过了每一级子领域分类器的处理。其中，有效的领域识别结果，指的是该***确定出文本对应的领域；最高优先级的子领域分类器，指的是诸如图4优先级1中的各个子领域分类器，即子领域分类器11、子领域分类器12和子领域分类器13。需要说明的是，在分类器层，可以按照子领域分类器所在组的优先级从高到低的顺序，依次对文本进行识别。当然，当该文本在某一子领域分类器所在组中识别出领域，就可以结束本次针对文本的领域识别过程。

在一种示例性的实例中，算法层，用于提供算法、模型。其中，模型指的是诸如规则(rule)库、命名实体(Named Entity,NE)库，以及特征(feature)库的数据库。算法层所提供的算法，同样可以以数据库的形式体现，比如，算法模型库。在该算法模型库中，包括多种算法。

需要说明的是，在调用上述各种算法之前，控制层的数据装载机需要将该算法相关的内容加载到***中，从而供分类器层各个子领域分类器的灵活调用。

如图5所示，为采用如图4所示的***进行文本领域识别的实现流程示意图。

手机将文本输入图4所示的***后，***先在控制层对该文本进行文本快速全精度匹配，在能够成功为文本确定出领域的情况下，直接将得到的领域作为识别结果；在无法成功为文本确定出领域的情况下，可以继续通过分类器层对文本进行进一步的处理。

上述对文本进行进一步处理，可以实现为按照分类器层各个子领域分类器所属优先级组从高到低的顺序，依次对文本进行领域识别。在对文本进行识别的过程中，无论该文本在哪个优先级组中进行领域识别，只要识别到与文本对应的领域，就将该领域作为领域识别结果反馈给手机，且不再将文本交由下一优先级组进行处理。

如图5所示，***针对优先级1进行分类任务调度，即调用子领域分类器11、子领域分类器12及子领域分类器13，对输入到***中的文本进行并行的领域识别。其中，并行的领域识别，指的是子领域分类器11、子领域分类器12及子领域分类器13同时对文本进行领域识别，或是按照一定时间顺序对文本进行领域识别，之后每个子领域分类器输出一个领域识别结果，并由优先级1对应的分类决策实现针对输出的3个领域识别结果，进行判决，以确定反馈给手机的领域识别结果，或是将文本输入下一优先级组。

对于将文本输入下一优先级组的情况而言，***会继续针对优先级2进行分类任务调度，即调用子领域分类器21、子领域分类器22及子领域分类器23，对输入到***中的文本进行并行的领域识别。其中，并行的领域识别过程的实现可以参考上段的描述。同理，***在优先级2针对文本完成领域识别后，可以将文本输入优先级3对应的各个子领域分类器，进行领域识别，还可以直接将得到的有效的领域识别结果反馈给手机。其中，有效的领域识别结果，指的是通过控制层的文本全精度匹配，得到文本的领域；或是通过分类器层中某一个或是多个优先级组的处理，得到文本的领域；或是在文本通过控制层和分类器层每个优先级的处理后，未得到文本的领域的结果。

在本申请实施例中，***进行文本领域识别的过程，会在得到有效的领域识别结果时结束，或是，在分类器层中每个优先级组对文本进行领域识别后，均无法得到有效的领域识别结果时结束。

需要说明的是，当同一优先级组中的各个子领域分类器同时对文本进行领域识别时，由于领域确定的判别过程在同一时间段内，由多个子领域分类器共同运行，因此，可以有效节省判别过程所占用的时间。而当同一优先级组中各个子领域分类器按照一定时间顺序对文本进行领域识别时，由于在一段时间内，有一个子领域分类器运行，因此，能够确保***在该一段时间内，占用较少的资源供单个子领域分类器运行，从而保证手机中存在足够的资源供其他***或是程序调用。

参照图4所示的***及图5所示的方法流程，可以得知，相比较于现有技术中云端实现语音识别的方案而言，本申请实施例提供的***的可扩展性较高、灵活性较强、准确率较高，且更精细化。

扩展性较高，指的是该***能够支持未来新垂类的任意扩展，而已有的模型，也就是本申请实施例提出的***，不需要重新建立。上述垂类，指的是本申请实施例中涉及的不同领域的类别，比如，设置、免打扰、图库、翻译、股票、天气、计算及百科等领域。也就意味着，后续使用过程中，可以结合不同应用场景的需要，在分类器层增加其他领域对应的子领域分类器。

灵活性较强，指的是根据当前及未来垂类的特定，不同优先级组可以灵活调整，比如，单个优先级组中子领域分类器的增减，多个优先级组之间子领域分类器的调换等，在此不予限定。这样能够保证分类器层经过汇总决策后得到相对准确的领域识别结果。

准确率较高，指的是针对单个子领域分类器而言，可以结合该子领域分类器对应领域的特征，采用特定的分析、计算方式对文本进行处理，比如，数字、停用词(stopword)的处理，二元法(bi-gram)、三元法(tri-gram)的选择，特征提取范围、方式等。由于在不同子领域分类器中采用相同或是不同的处理方式，能够更具有针对性，因此，准确率相对较高。

更精细化，指的是对训练数据的筛选，以及对子领域分类器进行更有针对性的训练、优化，能够使子领域分类器对文本的领域识别过程更加精细，以达到更准确的领域识别。

下面结合示例性的实例，对上述***对文本进行领域识别的过程进行阐述。

在本申请实施例中，可以预先配置分类器层中各个子领域分类器对应的领域。比如，可以按照子领域分类器的领域识别准确率从高到低的顺序，将领域识别准确率较高的子领域分类器放置在优先级较高的分组中，比如优先级1中，将领域识别准确率较低的子领域分类器放置在优先级较低的分组中，比如优先级3中。在一种示例性的实现方式中，手机可以将分类准确度最高的自有垂类分类任务放入优先级1，将属于与应用对接的垂类分类任务放入优先级2，将最难识别的垂类任务放入优先级3。

其中，与应用对接的任务经过优先级组内的子领域分类器处理后，无论得出的领域划分结果是该优先级组内的哪个子领域分类器，对于语音指令的处理过程影响不大，或是几乎不会产生影响。由于设置于优先级2中的子领域分类器对应于应用，而同一应用下的不同领域的文本处理过程，通常是交由该应用对应的对话引擎进行处理。也就意味着，文本归属于该应用对应的任意一个领域，最终都会交由相同的对话引擎进行处理。因此，在本申请实施例的一个实现方式中，与应用对接的垂类分类任务可以被视为对领域识别准确率要求较低的任务，因为无论最终得到的领域识别结果为哪个领域，只要有效的领域识别结果产生在优先级2中，那么该文本最终都会交由同一对话引擎进行处理，并不会影响处理结果。

比如，优先级2中包括子领域分类器21、子领域分类器22和子领域分类器23，其中，子领域分类器21对应领域为股票、子领域分类器22对应领域为翻译、子领域分类器23对应领域为计算，而股票、翻译和计算对应同一个应用，也就对应着同一个对话引擎。也就意味着，在优先级2中，无论文本被确定为属于股票、翻译和计算中的哪个领域，最终手机均会将文本推送至同一对话引擎进行处理。由此可见，优先级2对文本进行领域识别得到的领域识别结果无论在优先级2中涉及的哪个领域，都不会影响后续对话引擎进行文本处理的处理结果。

需要说明的是，优先级2中的各个子领域分类器对应的领域，也可以对应两个或是三个对话引擎，但往往存在多个子领域分类器对应的领域，对应同一个对话引擎的情况。

其中，垂类分类任务，由领域对应的子领域分类器来执行；自有垂类分类任务对应的子领域分类器，可以包括但不限于手机自带功能所属功能对应的子领域分类器，比如，设置、免打扰及图库领域对应的子领域分类器；第三方对接的垂类分类任务对应的子领域分类器，可以包括但不限于手机中已安装的应用程序，或是诸如小程序等无需下载、安装即可以直接调用的程序等所能实现功能对应的子领域分类器，比如，股票、翻译、计算及天气领域对应的子领域分类器；最难识别的垂类任务对应的子领域分类器，可以包括但不限于根据关键词难以确定领域识别结果的领域对应的子领域分类器，比如，百科等具有搜索功能的领域对应的子领域分类器。

由此可见，在一种示例性的实现方式中，分类器层中各个子领域分类器的分布情况如下：

优先级1：设置、免打扰及图库领域各自对应的子领域分类器；

优先级2：股票、翻译、计算及天气领域各自对应的子领域分类器；

优先级3：百科领域对应的子领域分类器。

比如，当输入到上述***的文本为“我要设置一个免打扰”时，控制层通过文本快速全精度匹配未得到有效的领域识别结果。在将该文本交由分类器层处理时，经过优先级1中各个子领域分类器的并行处理，得到有效的领域识别结果，即该文本对应的领域为免打扰。之后***将得到的领域识别结果反馈给手机。上述示例的表现形式如下：

用户输入的语音对应的文本：我要设置一个免打扰

过程：[我要设置一个免打扰]<nodisturb,priority1>

从优先级1中的子领域分类器得到有效的领域识别结果后，直接返回给手机。

领域识别结果：[nodisturb]return from<priority1>

需要说明的是，上述领域识别过程，涉及到控制器层，以及分类器层优先级1中各个子领域分类器的处理。

再比如，当输入到上述***的文本为“看一下股市”时，控制层通过文本快速全精度匹配未得到有效的领域识别结果。在将该文本交由分类器层处理时，经过优先级1中各个子领域分类器的并行处理，得到的领域识别结果为其他(other)。将该文本交由下一个优先级的子领域分类器进行处理。之后经过优先级2中各个子领域分类器的并行处理，得到有效的领域识别结果，即该文本对应的领域为股票。之后***将得到的领域识别结果反馈给手机。上述示例的表现形式如下：

用户输入的语音对应的文本：看一下股市

过程：[看一下股市]<other,priority1>

从优先级1中的子领域分离器未得到有效的领域识别结果，得到的领域识别结果为other，将文本交由优先级2中的子领域分类器进行处理。

[看一下股市]<stock,priority2>

从优先级2中的子领域分类器得到有效的领域识别结果后，直接返回给手机。

领域识别结果：[stock]return from<priority2>

需要说明的是，上述领域识别过程，涉及到控制器层，以及分类器层优先级1、优先级2中各个子领域分类器的处理。

在本申请实施例中，若优先级2中包括百科对应的子领域分类器，那么从优先级2中的子领域分类器得到的领域识别结果，包括股票和百科，或是股票和百科中的一项，那么返回给手机的领域识别结果存在较大的出错几率。由此可见，分类器层中，对子领域分类器的优先级划分十分重要。对于容易产生歧义，或是难易分辨的领域而言，可以将该领域对应的子领域分类器放置到优先级较低的分组。这样在高优先级的分组得到有效的领域识别结果后，无需将文本输入到低优先级的分组中进行领域识别，也就降低了低优先级的领域识别压力。

再比如，当输入到上述***的文本为“查询五粮液”时，控制层通过文本快速全精度匹配未得到有效的领域识别结果。在将该文本交由分类器层处理时，经过优先级1中各个子领域分类器的并行处理，得到的领域识别结果为other。将该文本交由下一个优先级的子领域分类器进行处理，即将该文本交由优先级2中各个子领域分类器进行并行处理，得到的领域识别结果仍为other。之后将该文本再交由下一个优先级的子领域分类器进行处理，经过优先级3中各个子领域分类器的并行处理，得到有效的领域识别结果，即该文本对应的领域为百科。之后***将得到的领域识别结果反馈给手机。上述示例的表现形式如下：

用户输入的语音对应的文本：查询五粮液

过程：[查询五粮液]<other,priority1>

[查询五粮液]<other,priority2>

从优先级2中的子领域分离器未得到有效的领域识别结果，得到的领域识别结果为other，将文本交由优先级3中的子领域分类器进行处理。

[查询五粮液]<baike,priority3>

从优先级3中的子领域分类器得到有效的领域识别结果后，直接返回给手机。

领域识别结果：[baike]return from<priority3>

需要说明的是，上述领域识别过程，涉及到控制器层，以及分类器层优先级1、优先级2、优先级3中各个子领域分类器的处理。另外，这条文本的歧义较大，存在一定几率被识别为股票、百科及other。在本申请实施例中，将文本最容易识别到的领域放置在分类器层的最低优先级中，这样能够有效减小各个优先级组之间的抵触，且降低了上层高优先级的子领域分类器的识别压力。

在上述实现过程中，手机可以充分利用本地用户数据，在手机不与云端进行数据交互的情况下，手机可以有效的进行领域识别。其中，本地用户数据，指的是存储在手机本地的数据，比如，存储在手机存储器中的数据。该数据包括但不限于***中涉及的各个库中包含的内容。由此可见，手机节省了与云端之间进行数据交互所耗费的时间，并且，在领域识别过程中，处于同一优先级的多个子领域分类器可以同时完成识别操作，也能有效节省领域识别过程耗费的时间。

在本申请实施例中，可以依据不同领域类别的特点，以及各个子领域分类器对应模型的准确率和性能，对分类器层的优先级进行划分。对于常用的说法或是容易产生歧义的固定说法，可以将上述说法设置在控制层的文本全精度匹配过程，有效提高领域识别的处理效率，节省领域识别过程占用的时间。除上述说法以外的说法，可以按照优先级从高到低的顺序，依次进入不同优先级的子领域识别分类器进行多领域并行的领域识别过程，进一步提高了领域识别过程的处理效率，节省了处理时间。需要说明的是，上述优先级的划分，还能够使分类效果较差的子领域分类器得到有效的利用，即放置到优先级较低的组中。

在上述***中，子领域分类器的识别能力会影响领域识别结果，而子领域分类器的训练又会影响到子领域分类器的识别能力，因此，子领域分类器的训练显得尤为重要。

如图6所示，为本申请实施例提供的一种示例性的在已知文本所属领域的情况下，对子领域分类器进行训练的方法流程图。其中，该方法流程包括S201至S208。

S201、输入文本。

S202、通过规则对文本进行筛选。

在本申请实施例中，规则可以为诸如[^(搜|查|看|告诉|打开).{1,12}(的股)$]形式的句式。其中，“^”作为规则的起始符，表示以“搜”、“查”、“看”、“告诉”或是“打开”为起始关键词，在间隔1至12个字后，接着作为结束关键词的“的股”二字的文本，而“$”作为规则的结束符，表示以“的股”结束。

起始关键词指的是，在文本中的第一个字为“搜”、“查”、“看”，或是文本中的第一个词为“告诉”或是“打开”，就认为被搜到的内容为起始关键词；结束关键词指的是，在文本中的最后一个词为“的股”。

需要说明的是，起始符与结束符作为句式中可选的符号出现，并不作为对本申请实施例的限定。比如，规则可以为[(搜|查|看|告诉|打开).{1,12}(的股)]形式的句式。那么，该句式表示以“搜”、“查”、“看”、“告诉”或是“打开”为起始关键词，在间隔1至12个字后，接着作为结束关键词的“的股”二字的文本。其中，在该文本中的第一个字不一定为“搜”、“查”、“看”，或是在该文本中的第一个词不一定为“告诉”或是“打开”，而是在该文本中存在“搜”、“查”、“看”、“告诉”或是“打开”。并且，在文本中，“搜”、“查”、“看”、“告诉”或是“打开”之后间隔1至12个字后，存在“的股”二字，而“的股”并不一定作为该文本中出现的最后一个词。

也就意味着，在规则中，可以包括起始符，或是结束符，或是同时包括起始符和结束符，在此不予限定。

S203、当文本满足规则时，返回领域识别结果。

参照上文描述，对于能够匹配上规则的文本，可以直接确定该文本所属领域，从而确定领域识别结果，并返回。

S204、当文本不满足规则时，对文本进行NER，并完成公用特征替换。

其中，公用特征指的是在计算文本的值时，会对该值产生影响的内容，但该特征的存在并不会对文本所属的领域产生影响，在本申请实施例的一种实现方式中，公用特征包括但不限于时间、地点等词语，可以预先设置。在本申请实施例中，可以将公用特征替换为符号等，在此不予限定。

在本申请实施例的一个实现方式中，对文本进行NER，可以将文本中诸如时间、地点等词语识别出来，之后将识别出的内容作为公用特征，并使用预先设置的符号等对公用特征进行调换。

S205、对完成替换的文本进行特征提取。

特征提取指的是，按照二元法、三元法等方式对完成替换的文本进行词语提取，比如，按照二元法对完成替换的文本进行词语提取，得到多组两个字组成的词语，或是一个字一个符号组成的组合，或是两个符号组成的组合等。

S206、计算每个特征的权重。

需要说明的是，根据特征计算权重的方式可以参考现有技术中诸如二元法、三元法的实现方式。

比如，以二元法为例，将经二元法拆分后得到的各个特征对应的数值输入到模型中，模型经过诸如线性回归(Linear Regression，LR)等算法的计算，输出与特征数量对应的权重，即一个特征对应一个权重。其中，对于输入模型的参数而言，不同特征对应的数值不同，可以预先设置，具体设置方式在此不予限定。在本申请实施例中，对于模型计算的方式可以参考现有技术中提供的算法，比如，上述LR算法，在此不予赘述。

S207、根据权重计算文本对应的值。

根据特征的权重计算出经过替换的文本的值，即输入的文本的值。具体计算方式可以参考现有技术的实现方式，比如，可以采用将文本中所有特征的权重求和的方式，得到与文本对应的值，或是通过对各个特征的权重进行处理后进行求和的方式，得到与文本对应的值等，在此不予限定。

S208、根据计算得到的值，以及已知的领域识别结果，对子领域分类器进行调整。

由于上述S201至S208是根据已知领域的文本对子领域分类器进行训练，因此，可以依据子领域分类器得到的识别结果，以及文本实际所属领域，对子领域分类器进行调整。其中，调整子领域分类器的方式包括但不限于对子领域分类器中正负样本进行调整。需要说明的是，调整正负样本会影响到特征的权重，最终影响计算出的文本对应的值，从而影响领域识别结果。

在完成调整过程后，手机可以继续使用相同的文本，再次经过同一子领域分类器的处理，直至得到正确的领域识别结果为止。即在子领域分类器的训练过程中，上述S201至S208所示内容为重复的过程，直至达到训练目的为止。

如图7所示，为本申请实施例提供的一种示例性的对子领域分类器的正负样本进行调整的训练方法流程图。其中，该方法流程包括S301至S310。

S301、生成子领域分类器的正负样本。

在本申请实施例中，每个子领域分类器均可以有自己独立的正负样本，其中，正负样本包括正例训练样本集合和负例训练样本集合。正例训练样本集合中的样本为属于该子领域分类器对应领域的样本，负例训练样本集合中的样本为不属于该子领域分类器对应领域的样本。

S302、对正负样本进行NER和规则提取。

比如，正负样本的文本内容为“搜天安门的照片”，经过NER后，识别到“天安门”，并且通过规则提取，提取到的规则为[^(搜).{1,10}(的照片)$]形式的句式。这样，可以将经过NER后得到的“天安门”作为公用特征，而将[^(搜).{1,10}(的照片)$]作为规则。

S303、完成公用特征替换。

在本申请实施例的一个实现方式中，可以预先定义将诸如天安门等地名替换为#，那么完成公用特征替换的文本内容为“搜#的照片”。

其中，S302和S303可以参考上文S202至S205的描述，在此不予赘述。

需要说明的是，对正负样本进行NER，可以为规则提取和公用特征替换的前提。即通过NER识别出正负样本中的地点、时间、句式等，之后将句式作为规则，将时间、地点等作为公用特征，并完成公用特征与符号之间的替换。

S304、停用词等去噪。

在本申请实施例中，停用词指的是对领域识别不存在决定性作用的字、词或是符号，但这些字、词或是符号的存在，往往可以对领域识别结果的准确性产生影响，比如，“；”、“，”等。将这些停用词识别出来，并在领域识别过程中忽略这些停用词。

S305、提取特征生成训练语料特征库。

其中，训练语料特征库用于记载S206中经计算得到的特征与权重之间的对应关系。

S306、根据权重计算文本对应的值。

S307、子领域分类器训练。

具体训练过程可以参考S201至S207的实现过程，在此不予赘述。

S308、错误领域识别结果的影响评估。

S309、修改正负样本。

上述S308和S309，与S208的目的相似，在本申请实施例中，修改正负样本可以作为S208的一种示例性的实现方式。

下面结合示例性的实例，针对上述***对子领域分类器的训练过程，对正负样本的调整过程进行阐述。

在一种示例性的实现方式中，以股票领域对应的子领域分类器为例，训练样本及该样本经过***处理后得到的领域识别结果，包括如下内容：

***对训练样本1及训练样本2的第一轮处理结果如下：

训练样本1

用户输入的语音指令对应的文本：同花顺股市

领域识别结果：[stock]return from<priority2>

训练样本2

用户输入的语音指令对应的文本：同花顺炒股票

领域识别结果：[stock]return from<priority2>

在本申请实施例中，“同花顺”不仅为上市公司的名称，还为某一款应用的名称，其中，这款应用是用于炒股的。训练样本1中，用户试图查询同花顺的股票；而训练样本2中，用户是想打开名称为同花顺的应用，进行炒股。因此，训练样本1得到的领域识别结果是准确的，而训练样本2得到的领域识别结果是错误的。

下面以二元法为例，将用户输入的语音指令转换后得到的文本按照二元法进行划分，得到多组由两个字组成的特征。

训练样本1中，各个特征及与每个特征对应的权重，如下：

同花：0.33474357

花顺：0.23474357

顺股：0.30918131

股市：1.57149447

文本的值：0.33474357+0.23474357+0.30918131+1.57149447＝2.45016292

训练样本2中，各个特征及与每个特征对应的权重，如下：

同花：0.33474357

花顺：0.23474357

顺炒：-0.34392488

炒股：-1.34392488

股票：1.99415611

文本的值：

0.33474357+0.23474357-0.34392488-1.34392488+1.99415611＝1.87579349

需要说明的是，特征的权重可以是正数、负数或是0。在本申请实施例中，特征的权重取值越大，则表示其对其所在的文本识别成所在子领域(本例中为“股票”领域)的贡献就越大。

在本申请实施例的一个实现方式中，以1.5作为文本的值的阈值，当文本中所有特征的权重之和大于或是等于1.5时，确认该文本属于股票领域；当本文中所有特征的权重之和小于1.5时，确认该文本不属于股票领域。由于训练样本1中涉及到的每个特征的权重均为正数，因此，能够根据权重计算出正确的领域识别结果，即领域为股票。而在训练样本2中，由于噪声“炒”的存在，且与“炒”结合的特征“顺炒”和“炒股”的负的权重值的绝对值太小，导致训练样本2经过各个特征的权重求和后，得到大于阈值的正数，因此，该文本仍然会被误识别为股票领域。

为了纠正第一轮处理过程中的误识别的问题，在进行第二轮处理过程之前，***依据训练样本1识别正确而训练样本2识别错误的结果，对正负样本进行调整。删除正样本中带[同花顺]的内容，并在负样本中增加[同花顺]和[炒股票]。

需要说明的是，通常情况下，在正样本中增加的内容所涉及到的特征对应的权重的取值会有所增加，而在正样本中删除的内容所涉及到的特征对应的权重的取值会有所减少；同样的，在负样本中增加的内容所涉及到的特征对应的权重的取值会有所减少，而在负样本中删除的内容所涉及到的特征对应的权重的取值会有所增加。

比如，在正样本中删除带[同花顺]的内容，那么特征“同花”、“花顺”分别对应的权重的取值会有所减少。而在负样本中增加[同花顺]，会使特征“同花”、“花顺”分别对应的权重的取值进一步减少。

但是对于在负样本中增加[炒股票]而言，在本申请实施例的一种实现方式中，并未影响特征“炒股”和“股票”分别对应的权重。未产生影响的原因可以为正样本及负样本中带[炒股票]的内容的样本容量较大，导致在负样本中增加一个[炒股票]的样本后对负样本的影响较小，比如，正样本中带[炒股票]的内容的样本数量为两万个，负样本中带[炒股票]的内容的样本数量为一万个，而增加一个[炒股票]的负样本后，并不会对庞大数据量的正样本及负样本产生影响，因此，对特征“炒股”、“股票”分别对应的权重产生的影响几乎为零，也就不会改变“炒股”、“股票”分别对应的权重的取值。因此，在本申请实施例的一个实现方式中，上述删除正样本中带[同花顺]的内容，并在负样本中增加[同花顺]和[炒股票]，会使特征“同花”、“花顺”分别对应的权重的取值减小，而不会影响特征“炒股”、“股票”分别对应的权重的取值。

需要说明的是，上述情况为一种示例性的实现方式，不作为对本申请实施例的限定。

经第一次正负样本的调整后，训练样本1中，各个特征及与每个特征对应的权重，如下：

同花：-0.34743574

花顺：-0.34743574

顺股：0.30918131

股市：1.57149447

文本的值：-0.34743574-0.34743574+0.30918131+1.57149447＝1.1858043

经第一次正负样本的调整后，训练样本2中，各个特征及与每个特征对应的权重，如下：

同花：-0.34743574

花顺：-0.34743574

顺炒：-0.34392488

炒股：-1.34392488

股票：1.99415611

文本的值：

-0.34743574-0.34743574-0.34392488-1.34392488+1.99415611＝-0.38856513

经过第一次正负样本的调整后，由于正负样本的改变，导致了部分或是全部特征的权重的变化，因此，也会在一定程度上影响处理结果。即训练样本1和训练样本2中文本的值均小于1.5，也就意味着，两个训练样本均被识别为不属于股票领域。需要说明的是，对于同一个特征而言，在该特征属于正样本时，该特征对应的权重越大；在该特征属于负样本时，该特征对应的权重越小；在该特征同时属于正样本和负样本时，则根据包含该特征的正样本、负样本的数量，来权衡该特征的权重取值。

在经过第一次正负样本的调整后，***对训练样本1及训练样本2的第二轮处理结果如下：

训练样本1

用户输入的语音指令对应的文本：同花顺股市

领域识别结果：[other]return from<priority3>

训练样本2

用户输入的语音指令对应的文本：同花顺炒股票

领域识别结果：[other]return from<priority3>

其中，训练样本1得到的领域识别结果是错误的，而训练样本2得到的领域识别结果是正确的。需要说明的是，在训练样本输入时可以将训练样本对应的正确的领域识别结果输入，这样手机可以根据已知的正确的领域，结合输出的领域识别结果，自动调整正负样本；或者，在输出领域识别结果后，人为判断该领域识别结果是否正确，并在结果产生错误的情况下，触发手机自动调整正负样本。

因此，***会再次自动调整正负样本，即***第二次自动调整正负样本。***在第一次调整正负样本的基础上，重新调整正样本中的[同花顺]，比如，增加正样本中包括[同花顺]的内容。这样就能有效提高特征“同花”、“花顺”分别对应的权重的取值。

经第二次正负样本的调整后，训练样本1中，各个特征及与每个特征对应的权重，如下：

同花：-0.03474357

花顺：-0.03474357

顺股：0.30918131

股市：1.57149447

文本的值：-0.03474357-0.03474357+0.30918131+1.57149447＝1.81118864

经第二次正负样本的调整后，训练样本2中，各个特征及与每个特征对应的权重，如下：

同花：-0.03474357

花顺：-0.03474357

顺炒：-0.34392488

炒股：-1.34392488

股票：1.99415611

文本的值：

-0.03474357-0.03474357-0.34392488-1.34392488+1.99415611＝-0.76318079

经过第二次正负样本的调整后，***对训练样本1及训练样本2的第三轮处理结果如下：

训练样本1

用户输入的语音对应的文本：同花顺股市

领域识别结果：[stock]return from<priority2>

训练样本2

用户输入的语音对应的文本：同花顺炒股票

领域识别结果：[other]return from<priority3>

在本申请实施例中，***结合每一轮领域识别结果的正确或是错误，对正负样本进行调整，直至训练样本1和训练样本2都得到正确的领域识别结果为止。由此可见，训练样本的数量越多，那么经过调整后的正负样本集合的准确性越高。

为了减少停用词、数字、地点名称等内容对领域识别过程带来的干扰，在本申请实施例中，还可以通过识别句式的方式来确定领域识别结果，或是通过干扰项替代的方式，简化领域识别过程。这样不仅可以提升领域识别过程的准确度，还可以进一步节省领域识别过程占用的时间。

在一种示例性的实现方式中，对于子领域分类器难以识别的句式，或是容易对领域识别结果产生较大影响的句式，可以预先基于句式设置规则，供控制层的文本全精度匹配过程使用。

比如，实例1至3经过语音识别得到的文本内容及通过***进行领域识别后得到的领域识别结果如下：

实例1：

用户输入的语音指令对应的文本：查询一下方大炭素的股

领域识别结果：股票

实例2：

用户输入的语音指令对应的文本：查询一下南京港和江铜CWB1的股票600160

领域识别结果：股票

实例3：

用户输入的语音指令对应的文本：搜一下昨天在北京拍的图片

领域识别结果：图库

针对实例1所示的文本，可以预先设置句式为“查询……的股”，这样在用户输入错误或是语音识别产生遗漏时，只要文本中包括该句式，就能够使***准确识别出该句式，并依据该句式对文本所述的领域进行区分，从而得到准确的领域识别结果。

比如，规则可以预先设置为[^(搜|查|看|告诉|打开).{1,12}(的股)$]，供***对文本进行快读的识别、匹配，并将得到的领域识别结果反馈给手机。其中，句式“[^(搜|查|看|告诉|打开).{1,12}(的股)$]”的含义可以参考上文描述，在此不予赘述。

在一种示例性的实现方式中，对于上述规则无法匹配的文本，仍然需要分类器层进行处理。

以实例3为例，在本申请实施例中，可以将“搜……的图片”作为模式。这样对于图库领域而言，该图库领域对应的子领域分类器中涉及的规则可以包括该模式，也就意味着在文本识别的过程中，当子领域分类器识别到该模式，就可以反馈有效的领域识别结果，即该文本的领域为图库。

以实例2为例，可以预先为***设置公用特征，以防止该公用特征造成的领域识别不准确的问题。在***对该文本进行处理时，可以先将文本中连续6位的数字进行替换，比如，将[600160]替换为@，这样该文本的内容为“查询一下南京港和江铜CWB1的股票@”。之后***可以调用NER提取该文本中的NE信息作为公用特征，比如，将[南京港]定义为一个“普通公司名称”实体，将该实体替换为#；将[江铜CWB1]定义为一个“上市公司名称代号”实体，将该实体替换为@。那么该文本的内容为“查询一下#和@的股票@”。

同理，可以将文本中的时间替换为$，将地点替换为#，那么实例3中的文本的内容为“搜一下$在#拍的图片”。

在完成上述替换过程之后，实例2中各个特征及与每个特征对应的权重，如下：

查询：0.1067646020633481

询一：-0.10021895439172483

一下：-0.215034710246020433

下#：0.1067646020633481

#和：null

其中，null表示特征“#和”对领域识别结果没有影响，或是该特征的权重为0。

和@：0.12009207293891772

@股：0.304457783445201952

股票：1.1114948005328673

票@：0.3067646020633481

在完成上述替换过程之后，实例3中各个特征及与每个特征对应的权重，如下：

搜一：0.3835541240544907

一下：-0.2517062504931636

下$：0.14542119078470123

$在：0.094333521958256

在#：0.19608161704432386

#拍：-0.006875871484002316

拍的：0.5827998208565368

的图：0.26154773801450293

图片：0.17497209951796067

+:1.4622835953886275

其中，特征“+”表示经过替换后的文本满足子领域分类器中定义的模式，因此，在计算文本对应的值时，经过替换后的文本满足子领域分类器中定义的模式，而得到权重加成，以提高领域识别的准确率。

经过替换后的文本对应的值：3.04241158392

由此可见，由于上述替换过程，替换了诸如时间、地点等公用特征，而公用特征往往包括至少两个字，也就意味着，在完成替换之后，得到的特征与权重的对应关系的数量有所减少。尤其是对于文本中涉及较多公用特征的情况而言，这样的替换方式，能够有效简化子领域分类器的计算过程，从而提升子领域分类器的工作效率。并且，这样的替换方式，能够有效降低公用特征对于领域识别带来的干扰。

下面举例几个不同领域中，基于语音指令得到的语音播放内容或是显示结果。

用户输入的语音指令对应的文本：把字体调大一点

应答：好的，已为您调整

手机将经过语音识别后得到的内容为“把字体调大一点”的文本，进行领域识别，得到的领域识别结果为，该文本属于设置领域。之后手机将该文本发送至与设置领域对应的对话引擎进行处理。需要说明的是，在手机给予用户应答时，手机已应用户的要求将字体调大。

用户输入的语音指令对应的文本：请帮我设一个今天下午两点到三点的免打扰，老王除外

应答：免打扰已开启，从14:00到15:00，老王除外

手机将经过语音识别后得到的内容为“请帮我设一个今天下午两点到三点的免打扰，老王除外”的文本，进行领域识别，得到的领域识别结果为，该文本属于免打扰领域。之后手机将该文本发送至与免打扰领域对应的对话引擎进行处理。需要说明的是，在手机给予用户应答时，手机已应用户的要求设置了免打扰的开启时间，且确保了在免打扰的时间段内，针对老王的来电等，依旧会提示用户。

用户输入的语音指令对应的文本：请帮我百度一下范冰冰的图片

应答：跳转到百度显示范冰冰的相关照片

手机将经过语音识别后得到的内容为“请帮我百度一下范冰冰的图片”的文本，进行领域识别，得到的领域识别结果为，该文本属于图库领域。之后手机将该文本发送至与图库领域对应的对话引擎进行处理。需要说明的是，在手机给予用户应答时，手机已应用户的要求完成图片搜索，即当前已经通过百度向用户呈现相关照片。

用户输入的语音指令对应的文本：筷子用英语怎么说

应答：chopsticks

手机将经过语音识别后得到的内容为“筷子用英语怎么说”的文本，进行领域识别，得到的领域识别结果为，该文本属于翻译领域。之后手机将该文本发送至与翻译领域对应的对话引擎进行处理。需要说明的是，在手机给予用户应答时，手机已经按照用户的需求完成“筷子”一词的翻译。

用户输入的语音指令对应的文本：今天天气怎么样

应答：上海今天小雨，7℃～10℃，空气质量指数88，空气还可以，请记得带伞

手机将经过语音识别后得到的内容为“今天天气怎么样”的文本，进行领域识别，得到的领域识别结果为，该文本属于天气领域。之后手机将该文本发送至与天气领域对应的对话引擎进行处理。需要说明的是，在手机给予用户应答时，手机已经结合用户当前所处的地理位置，确定了该地理位置的天气情况。

用户输入的语音指令对应的文本：万科的股票

应答：万科A现在39.42元，跌幅0.86％，已休市

手机将经过语音识别后得到的内容为“万科的股票”的文本，进行领域识别，得到的领域识别结果为，该文本属于股票领域。之后手机将该文本发送至与股票领域对应的对话引擎进行处理。需要说明的是，在手机给予用户应答时，手机已确定用户索要了解的股票情况。

用户输入的语音指令对应的文本：2的13次方等于多少

应答：2的13次方等于8192

手机将经过语音识别后得到的内容为“2的13次方等于多少”的文本，进行领域识别，得到的领域识别结果为，该文本属于计算领域。之后手机将该文本发送至与计算领域对应的对话引擎进行处理。需要说明的是，在手机给予用户应答时，手机已通过计算的方式，确定出用户期望得到的计算结果。

用户输入的语音指令对应的文本：姚明的身高

应答：姚明，1980年9月12日出生于上海市徐汇区，祖籍江苏省苏州市吴江区震泽镇，前中国职业篮球运动员，司职中锋，现任中职联公司董事长兼总经理。1998年4月，姚明入选王非执教的国家队，开始篮球生涯。2001夺得CBA常规赛MVP，2002年夺得CBA总冠军以及总决赛MVP，分别3次当选CBA篮板王以及盖帽王，2次当选CBA扣篮王。

手机将经过语音识别后得到的内容为“姚明的身高”的文本，进行领域识别，得到的领域识别结果为，该文本属于百科领域。之后手机可以将提取到的关键字在百科中搜索，并将搜索到结果呈现给用户，与此同时，手机可以将搜索到的相关内容选择性地呈现给用户。需要说明的是，在手机给予用户应答时，手机已搜索到姚明的身高及其他相关信息。

其中，上述各个实例中，应答的方式包括但不限于通过文字提示的方式或是语音提示的方式，在此不予限定。

本申请实施例可以根据上述方法实施例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图8所示，为上述实施例中所涉及的电子设备进行语音识别装置的一种示例性的结构示意图。电子设备进行语音识别装置400包括：接收模块401、转换模块402、第一领域识别模块403、处理模块404、第二领域识别模块405、控制模块406、子领域分类器407。其中，子领域分类器407包括命名实体识别模块4071、替换模块4072、提取模块4073、计算模块4074，以及领域确定模块4075。需要说明的是，在该电子设备400中包括至少一个子领域分类器407，在此不予限定。

其中，接收模块401用于支持电子设备400接收语音指令。比如，用户通过文本对应的电子设备输入的语音指令，即如图4所示的语音输入。转换模块402用于支持电子设备400将语音指令转换为文本，比如，如图4所示的将输入的语音通过语音识别的方式转换为文本。第一领域识别模块403用于支持电子设备400通过至少两个子领域分类器对文本进行识别，得到领域识别结果。比如，如图4所示的分类器层中各个优先级(即子领域分类器组)中的子领域分类器对文本进行识别，比如，优先级1中子领域分类器11、子领域分类器12和子领域分类器13对进行并行的文本识别。处理模块404用于支持电子设备400通过文本所属领域对应的对话引擎对文本进行处理，以确定文本对应的电子设备需要执行的功能，以及用于支持电子设备400实现本文所描述的技术的其它过程等。第二子领域识别模块405用于支持电子设备400将文本域运存文本进行匹配，比如，如图4所示的控制层中文本快速全精度匹配，在文本与预存文本匹配成功时，确定预存文本对应的领域为文本的领域识别结果；在文本和预存文本的匹配失败时，再将文本输入到分类器层，由第一领域识别模块403通过至少两个子领域分类器对文本进行领域识别，以得到领域识别结果。

在本申请实施例的一个实现方式中，第一领域识别模块包括N个子领域分类器组，其中，每个组有不同的优先级，N为大于或等于2的正整数。N个子领域分类器组中的至少一个组中包括至少两个子领域分类器。每个子领域分类器用于确认所述文本是否属于本子领域分类器对应的领域。控制模块406用于支持电子设备400控制N个子领域分类器组中最高优先级组中的子领域分类器对文本进行领域识别，比如，如图4所示，控制分类器层中最高优先级组，即优先级1中的子领域分类器对文本进行领域识别。若最高优先级组中的子领域分类器识别出文本所属的领域，则将最高优先级组中的子领域分类器识别出文本所属的领域作为领域识别结果；若最高优先级组中的子领域分类器未识别出文本所属的领域，则通过N个子领域分类器组中下一优先级组中的子领域分类器对文本进行领域识别，比如，如图4所示，在文本经过优先级1中的子领域分类器进行领域识别后未得到领域识别结果，那么将由优先级2中的子领域分类器对文本进行领域识别，直至：识别出文本所属的领域，并将识别出的领域作为领域识别结果；或文本已经过N个子领域分类器组中所有子领域分类器进行领域识别。比如，如图4所示，文本经过分类器层的优先级1、优先级2和优先级3中的所有子领域分类器的领域识别后未得到领域识别结果，那么结束本次对语音指令的处理过程。

控制模块406还用于当第一子领域分类器对文本进行领域识别后得到第一领域识别结果，且第二子领域分类器对文本进行领域识别后得到第二领域识别结果时，确定第一领域识别结果和第二领域识别结果中的至少一项为领域识别结果，或是确定第一领域识别结果和第二领域识别结果均为领域识别结果。以图4所示的优先级1为例，当子领域分类器11得到第一领域识别结果，子领域分类器12得到第二领域识别结果时，控制模块406执行上述过程。需要说明的是，此时，若子领域分类器13得到第三领域识别结果，那么控制模块406确定第一领域识别结果、第二领域识别结果和第三领域识别结果中的至少一个领域识别结果为文本的领域识别结果。

在子领域分类器407中，NER模块用于支持电子设备400对文本进行NER，并确定识别出的内容中的公用特征。替换模块4072用于支持电子设备400按照预设规则对文本中的功用特征进行替换。提取模块4073用于支持电子设备400对完成替换的文本进行特征提取，并确定每个特征的权重。计算模块4074用于支持电子设备400根据每个特征的权重，计算文本的值。领域确定模块4075用于支持电子设备400当文本的值大于阈值时，确定文本属于本子领域分类器对应的领域。其中，子领域分类器407可以为如图4所示的分类器层中涉及的任意一个子领域分类器。

在本申请实施例的一个实现方式中，电子设备400还可以包括存储模块408、通信模块409以及显示模块410中的至少一项。其中，存储模块408用于支持电子设备400存储电子设备的程序代码和数据；通信模块409可以支持电子设备400中各个模块之间进行数据交互，和/或支持电子设备400与诸如服务器、其他电子设备等之间的通信；显示模块410可以支持电子设备400将语音指令的处理结果通过文字、图形等方式呈现给用户，或是在语音识别过程中，选择性地向用户呈现语音识别的过程等，在此不予限定。

其中，接收模块401、通信模块409可以实现为收发器；转换模块402、第一领域识别模块403、处理模块404、第二领域识别模块405、控制模块406和子领域分类器407可以实现为处理器；存储模块408可以实现为存储器；显示模块410可以实现为显示器。

在本申请实施例的一个实现方式中，上述处理器也可以为控制器，例如可以是CPU，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。上述收发器还可以实现为收发电路或通信接口等。

如图9所示，电子设备50可以包括：处理器51、收发器52、存储器53、显示器54，以及总线55。其中，收发器52、存储器53及显示器54为可选部件，即电子设备50可以包括上述可选部件中的一项或是多想。处理器51、收发器52、存储器53、显示器54通过总线55相互连接；总线55可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以部署在同一设备中，或者，处理器和存储介质也可以作为分立组件部署在于不同的设备中。

本申请实施例提供一种可读存储介质，包括指令。当该指令在电子设备上运行时，使得该电子设备执行上述的方法。

本申请实施例提供一种计算机程序产品，该计算机程序产品包括软件代码，该软件代码用于执行上述的方法。

以上所述的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

一种电子设备进行语音识别的方法，其特征在于，所述方法包括：

将接收的语音指令转换为文本；

通过至少两个子领域分类器对所述文本进行领域识别，得到领域识别结果，所述领域识别结果用于表示所述文本所属的领域；

通过所述文本所属的领域对应的对话引擎对所述文本进行处理，确定所述文本对应的所述电子设备需要执行的功能。
根据权利要求1所述的方法，其特征在于，在所述将接收的语音指令转换为文本之后，所述方法还包括：

将所述文本与预存文本进行匹配；

当所述文本与所述预存文本匹配成功时，确定所述预存文本对应的领域为所述文本的领域识别结果。
根据权利要求2所述的方法，其特征在于，所述通过至少两个子领域分类器对所述文本进行领域识别，得到领域识别结果，具体为：

当所述文本与所述预存文本匹配失败时，通过至少两个子领域分类器对所述文本进行领域识别，得到领域识别结果。
根据权利要求1至3中任意一项所述的方法，其特征在于，所述电子设备包括N个子领域分类器组，其中，每个组有不同的优先级，N为大于或等于2的正整数；

所述通过至少两个子领域分类器对所述文本进行领域识别，得到领域识别结果，具体为：

通过所述N个子领域分类器组中最高优先级组中的子领域分类器对所述文本进行领域识别；

若所述最高优先级组中的子领域分类器识别出所述文本所属的领域，则将所述最高优先级组中的子领域分类器识别出所述文本所属的领域作为所述领域识别结果；

若所述最高优先级组中的子领域分类器未识别出所述文本所属的领域，则通过所述N个子领域分类器组中下一优先级组中的子领域分类器对所述文本进行领域识别，直至：

识别出所述文本所属的领域，并将识别出的领域作为所述领域识别结果；或

所述文本已经过所述N个子领域分类器组中所有子领域分类器进行领域识别；

所述N个子领域分类器组中的至少一个组中包括至少两个子领域分类器。
根据权利要求4所述的方法，其特征在于，所述N个子领域分类器组的至少一个组中的至少两个子领域分类器对所述文本并行进行领域识别。
根据权利要求4或5所述的方法，其特征在于，所述N个子领域分类器组中，低优先级组中的子领域分类器的领域识别准确率低于高优先级组中的子领域分类器的领域识别准确率。
根据权利要求4至6中任意一项所述的方法，其特征在于，所述N个子领域分类器组中的至少一个组包括第一子领域分类器和第二子领域分类器，所述方法还包括：

当所述第一子领域分类器对所述文本进行领域识别后得到第一领域识别结果，且所述第二子领域分类器对所述文本进行领域识别后得到第二领域识别结果时，

确定所述第一领域识别结果和所述第二领域识别结果中的至少一项为所述领域识别结果；或

确定所述第一领域识别结果和所述第二领域识别结果均为所述领域识别结果。
根据权利要求1至5中任意一项所述的方法，其特征在于，所述至少两个子领域分类器中的至少一个对所述文本进行领域识别，包括：

对所述文本进行命名实体识别NER，并确定识别出的内容中的公用特征；

按照预设规则，将所述公用特征进行替换，所述预设规则包括不同类别的公用特征对应的替换内容；

对完成替换的文本进行特征提取，并确定每个特征的权重；

根据所述每个特征的权重，计算所述文本的值；

当所述文本的值大于阈值时，确定所述文本属于本子领域分类器对应的领域。
一种电子设备，其特征在于，所述电子设备包括：

接收模块，用于接收语音指令；

转换模块，将所述接收模块接收的所述语音指令转换为文本；

第一领域识别模块，用于通过至少两个子领域分类器对所述转换模块经转换得到的所述文本进行领域识别，得到领域识别结果，所述领域识别结果用于表示所述文本所属的领域；

处理模块，用于通过所述第一领域识别模块确定的所述文本所属的领域对应的对话引擎对所述文本进行处理，确定所述文本对应的所述电子设备需要执行的功能。
根据权利要求9所述的电子设备，其特征在于，所述电子设备还包括：

第二领域识别模块，用于将所述文本与预存文本进行匹配，在所述文本与所述预存文本匹配成功时，确定所述预存文本对应的领域为所述文本的领域识别结果。
根据权利要求10所述的电子设备，其特征在于，所述第一领域识别模块，具体用于：

当所述第二领域识别模块对所述文本和所述预存文本的匹配失败时，通过至少两个子领域分类器对所述文本进行领域识别，得到领域识别结果。
根据权利要求9至11中任意一项所述的电子设备，其特征在于，所述第一领域识别模块包括：

N个子领域分类器组，其中，每个组有不同的优先级，N为大于或等于2的正整数；所述N个子领域分类器组中的至少一个组中包括至少两个子领域分类器；每个子领域分类器用于确认所述文本是否属于本子领域分类器对应的领域；

控制模块，用于：

控制所述N个子领域分类器组中最高优先级组中的子领域分类器对所述文本进行领域识别；

若所述最高优先级组中的子领域分类器识别出所述文本所属的领域，则将所述最高优先级组中的子领域分类器识别出所述文本所属的领域作为所述领域识别结果；

若所述最高优先级组中的子领域分类器未识别出所述文本所属的领域，则通过所述N个子领域分类器组中下一优先级组中的子领域分类器对所述文本进行领域识别，直至：

识别出所述文本所属的领域，并将识别出的领域作为所述领域识别结果；或

所述文本已经过所述N个子领域分类器组中所有子领域分类器进行领域识别。
根据权利要求12所述的电子设备，其特征在于，所述N个子领域分类器组的至少一个组中的至少两个子领域分类器对所述文本并行进行领域识别。
根据权利要求12或13所述的电子设备，其特征在于，所述N个子领域分类器组中，低优先级组中的子领域分类器的领域识别准确率低于高优先级组中的子领域分类器的领域识别准确率。
根据权利要求12至14中任意一项所述的电子设备，其特征在于，所述N个子领域分类器组中的至少一个组包括第一子领域分类器和第二子领域分类器，

当所述第一子领域分类器对所述文本进行领域识别后得到第一领域识别结果，且所述第二子领域分类器对所述文本进行领域识别后得到第二领域识别结果时，

所述控制模块，还用于：

确定所述第一领域识别结果和所述第二领域识别结果中的至少一项为所述领域识别结果；或

确定所述第一领域识别结果和所述第二领域识别结果均为所述领域识别结果。
根据权利要求9至13中任意一项所述的电子设备，其特征在于，所述子领域分类器包括：

命名实体识别NER模块，用于对所述文本进行NER，并确定识别出的内容中的公用特征；

替换模块，用于按照预设规则，将所述识别模块确定的所述公用特征进行替换，所述预设规则包括不同类别的公用特征对应的替换内容；

提取模块，用于对所述替换模块完成替换的文本进行特征提取，并确定每个特征的权重；

计算模块，用于根据所述提取模块确定的所述每个特征的权重，计算所述文本的值；

领域确定模块，用于当所述文本的值大于阈值时，确定所述文本属于本子领域分类器对应的领域。
一种电子设备，包括存储器，一个或多个处理器，多个应用程序，以及一个或多个程序；其中，所述一个或多个程序被存储在所述存储器中；其特征在于，所述一个或多个处理器在执行所述一个或多个程序时，使得所述电子设备实现如权利要求1至8中任意一项所述的方法。
一种可读存储介质，其特征在于，所述可读存储介质中存储有指令，当所述指令在电子设备上运行时，使得所述电子设备执行上述权利要求1至8中任意一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括软件代码，所述软件代码用于执行上述权利要求1至8中任意一项所述的方法。