CN108174030A

CN108174030A - 定制化语音控制的实现方法、移动终端及可读存储介质

Info

Publication number: CN108174030A
Application number: CN201711438727.8A
Authority: CN
Inventors: 刘佳明
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-15
Anticipated expiration: 2037-12-26
Also published as: CN108174030B

Abstract

本发明公开了一种定制化语音控制的实现方法、移动终端及计算机可读存储介质，该定制化语音控制的实现方法包括：终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征；终端对测试语言特征和测试声学特征进行特征训练，以获得测试语言因子和测试声学因子；终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射，以生成实现终端语音控制的定制映射表。本发明将用户的语音特征与标准语音库进行关联，使终端在用户发音不准确的情况能准确识别用户的语音数据，构建用户个人的语音识别库，提高对用户个人语音的特征解析能力，提高终端的语音识别率。

Description

定制化语音控制的实现方法、移动终端及可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种定制化语音控制的实现方法、移动终端及计算机可读存储介质。

背景技术

随着移动终端技术的普及和语音识别技术的快速发展，现如今越来越多的人们拥有了智能手机，并且可通过智能手机的语音交互功能满足生活和学习工作中的各种功能需求。

但是，现如今智能手机的语音识别功能普遍存在一个功能缺陷，即语音识别功能只能识别标准的语音，而对不标准的语音容易产生识别错误或识别失败。例如，用户可能受到地区、方言或生理习惯等各方面的影响，使得用户的普通话发音不是非常标准。这将会造成智能手机无法准确无误地识别用户所发出的语音指令，从而降低智能手机的语音识别率，极大地伤害了用户的语音交互体验。

因此，如何通过针对用户个人的发音提高语音识别率，提高用户的语音交互体验，是当前亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种定制化语音控制的实现方法、移动终端及计算机可读存储介质，旨在解决传统的语音识别技术无法适配个人的发音特征，导致移动终端的语音识别率低下，进而影响用户的语音交互体验的技术问题。

为实现上述目的，本发明实施例提供一种定制化语音控制的实现方法，所述定制化语音控制的实现方法应用于移动终端，所述定制化语音控制的实现方法包括：

终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征；

终端对测试语言特征和测试声学特征进行特征训练，以获得测试语言因子和测试声学因子；

终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射，以生成实现终端语音控制的定制映射表。

可选地，所述终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射，以生成实现终端语音控制的定制映射表的步骤包括：

终端分别为测试语言因子和测试声学因子设置测试语言标识和测试声学标识；

终端获取标准语音库中分别与测试语言因子和测试声学因子相互映射的标准语言因子和标准声学因子；

终端分别为标准语言因子和标准声学因子设置标准语言标识和标准声学标识；

终端将测试语言标识和测试声学标识分别与相互映射的标准语言标识和标准声学标识相互关联，生成实现终端语音控制的定制映射表。

可选地，所述终端对测试语言特征和测试声学特征进行特征训练，以获得测试语言因子和测试声学因子的步骤包括：

终端将测试语言特征中的音节进行语义训练，以获得测试语言因子；

终端将测试声学特征中的音调和音色进行语音训练，以获得测试声学因子。

可选地，所述终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射的步骤之后还包括：

终端提取接收到的语音数据中的语言特征和声学特征，并获取语言特征与测试语言因子的第一相似度，以及声学特征与测试声学因子的第二相似度；

当终端检测到第一相似度大于第一阈值，且第二相似度大于第二阈值时，获取语言标识和声学标识分别在定制映射表中对应的标准语言标识和标准声学标识；

终端根据标准语言标识和标准声学标识，获取对应的标准语言因子和标准声学因子。

可选地，所述终端根据标准语言标识和标准声学标识，获取对应的标准语言因子和标准声学因子的步骤之后还包括：

当终端检测到第二相似度小于警戒阈值时，启动终端的访客模式。可选地，

可选地，所述终端提取接收到的语音数据中的语言特征和声学特征，并获取语言特征与测试语言因子的第一相似度，以及声学特征与测试声学因子的第二相似度的步骤之后还包括：

当终端检测到第一相似度小于或等于第一阈值时，输出无法识别的提示信息。

可选地，所述终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征的步骤包括：

终端按预设次数采集用户输入的测试语音数据；

终端对测试语音数据进行滤波处理，以获得降噪过的测试语音数据；

终端提取所有降噪后的测试语音数据中的测试语言特征和测试声学特征。

可选地，所述终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征的步骤之后还包括：

当终端检测到测试语言特征和/或测试声学特征无法进行特征训练时，根据用户输入的标准音节进行特征映射。

本发明还提供一种移动终端，所述移动终端包括：存储器、处理器，通信总线以及存储在所述存储器上的语音定制方法定制化语音控制的实现程序，

所述通信总线用于实现处理器与存储器间的通信连接；

所述处理器用于执行所述语音定制方法定制化语音控制的实现程序，以实现以下步骤：

终端按预设次数采集用户输入的测试语音数据；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于：

本发明的技术方案中，通过终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征；终端对测试语言特征和测试声学特征进行特征训练，以获得测试语言因子和测试声学因子；终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射，以生成实现终端语音控制的定制映射表。本发明解决了传统的语音识别技术无法适配个人的发音特征，导致移动终端的语音识别率低下，进而影响用户的语音交互体验的技术问题。通过采集用户的语音特征，并与标准语音库进行关联，使得移动终端即使是在用户发音不准确的情况下，依旧能够准确识别用户语音数据的内容，从而构建了专属于用户个人所有的语音智能识别库，提高移动终端对用户个人的语音数据的特征解析能力，进而提高移动终端的语音识别率。

附图说明

图1为本发明各个实施例的一种移动终端的硬件结构示意图；

图2为本发明实施例提供的一种通信网络***架构图；

图3为本发明定制化语音控制的实现方法中终端对测试语言特征和测试声学特征进行特征训练的设计示意图；

图4为本发明定制化语音控制的实现方法终端对实际语音数据进行识别匹配的设计示意图；

图5为本发明定制化语音控制的实现方法终端建立定制映射关系的设计示意图；

图6为本发明定制化语音控制的实现方法一较佳实施例的流程示意图；

图7为本发明定制化语音控制的实现方法步骤S30的细化流程示意图；

图8为本发明定制化语音控制的实现方法又一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本发明各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

在移动终端中，处理器110用于执行存储器109中存储的语音定制方法定制化语音控制的实现程序，实现以下步骤：

进一步地，所述终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射，以生成实现终端语音控制的定制映射表的步骤包括：

进一步地，所述终端对测试语言特征和测试声学特征进行特征训练，以获得测试语言因子和测试声学因子的步骤包括：

进一步地，所述终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射的步骤之后还包括：

进一步地，所述终端根据标准语言标识和标准声学标识，获取对应的标准语言因子和标准声学因子的步骤之后还包括：

当终端检测到第二相似度小于警戒阈值时，启动终端的访客模式。进一步地，

进一步地，所述终端提取接收到的语音数据中的语言特征和声学特征，并获取语言特征与测试语言因子的第一相似度，以及声学特征与测试声学因子的第二相似度的步骤之后还包括：

进一步地，所述终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征的步骤包括：

终端按预设次数采集用户输入的测试语音数据；

进一步地，所述终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征的步骤之后还包括：

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理***与处理器110逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

为了便于理解本发明实施例，下面对本发明的移动终端所基于的通信网络***进行描述。

请参阅图2，图2为本发明实施例提供的一种通信网络***架构图，该通信网络***为通用移动通信技术的LTE***，该LTE***包括依次通讯连接的UE(User Equipment，用户设备)201，E-UTRAN(Evolved UMTS Terrestrial Radio Access Network，演进式UMTS陆地无线接入网)202，EPC(Evolved Packet Core，演进式分组核心网)203和运营商的IP业务204。

具体地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，eNodeB2021连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(Mobility Management Entity，移动性管理实体)2031，HSS(Home Subscriber Server，归属用户服务器)2032，其它MME2033，SGW(Serving Gate Way，服务网关)2034，PGW(PDN Gate Way，分组数据网络网关)2035和PCRF(Policy andCharging Rules Function，政策和资费功能实体)2036等。其中，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem，IP多媒体子***)或其它IP业务等。

虽然上述以LTE***为例进行了介绍，但本领域技术人员应当知晓，本发明不仅仅适用于LTE***，也可以适用于其他无线通信***，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络***等，此处不做限定。

基于上述移动终端硬件结构以及通信网络***，提出本发明方法各个实施例。

本发明提供一种定制化语音控制的实现方法，所述定制化语音控制的实现方法应用于移动终端，在定制化语音控制的实现方法第一实施例中，参照图6，所述定制化语音控制的实现方法包括：

步骤S10，终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征；

在现实生活中，移动终端的语音识别功能可以识别用户的标准语音指令。但若是用户因地区、方言或生理习惯等各方面的影响，使得普通话的发音并不是很标准，则会影响到终端的语音识别功能，降低终端的语音识别正确率，给用户带来不良的语音交互体验。

本实施例将通过为用户配置专属的个人定制语音识别功能，使得移动终端能够根据用户语音数据的发音特征进行针对性的语音识别，从而解析出正确的语音指令。终端需要根据用户的发音特征进行有效解析，因此需要先录入用户在正常情况下的发音特征，为避免因录入次数过少导致出现识别误差，终端通过预设次数进行测试语音数据的录入。所述测试语音数据指的是用于终端解析识别用户的语音特征的测试数据，所述测试语音数据可以是用户根据终端提供的标准发音表输入的语音特征数据。测试语音数据虽然是根据标准发音表中的内容发出的语音数据，但由于与用户个人的发音相互结合，因此会包含用户个人的语音发音特征，可作为终端进行解析匹配的参考数据。例如，标准发音表给出的是“啊”，“哦”，“额”，而用户所输入的测试语音数据可能会变成“哈”，“吼”，“嘿”；或者标准发音表给出的是“吃肉”，而用户所输入的测试语音数据可能会变成“吃又”等等。

具体地，终端通过预设次数采集录入用户输入的测试语音数据，并根据测试语音数据提取出该段测试语音数据中的测试语音特征和测试声学特征。

所述测试语言特征指的是测试语音数据中的音节等数据，而测试声学特征指的是测试语音数据中的音调、音色等数据。例如，测试语音数据为“哈”，那么提取出来的测试语音特征为“h a”，当然由于具体情况，发音者不一定发出“h a”，若用户发出的是“f a”音，那么测试语音特征即为“f a”，测试声学特征则是发音者发出声音时的音调音色等数据。

例如上述“啊”正确的音节数据为“a”，而对应的“哈”的音节数据为“ha”，可以得知，用户在发出“a”音时，会增加一个“h”的前缀音；或者上述“吃肉”正确的音节数据为“chirou”，而“吃又”的音节数据为“chi you”，可以得知，用户在发出“rou”音时，会将“rou”中的“r”音替换成“y”音。而这种变音过程，即为本实施例终端所获取的测试语音特征。

步骤S11，终端按预设次数采集用户输入的测试语音数据；

步骤S12，终端对测试语音数据进行滤波处理，以获得降噪过的测试语音数据；

步骤S13，终端提取所有降噪后的测试语音数据中的测试语言特征和测试声学特征。

由于用户录入个人的语音数据时不免会受到周围环境的影响，例如噪音影响或者录音设备存在一定硬件瑕疵等，在录入用户输入的测试语音数据之后，终端得到的测试语音数据中可能存在有噪音干扰。

为解决这一问题，终端提供了降噪处理单元。所述降噪处理单元可用于为测试语音数据进行滤波处理，滤波处理中包括对测试语音数据进行降噪，噪音会对测试语言特征和测试声学特征最终的提取效果产生一定的负面影响。因此，移动终端通过滤波处理，以对测试语音数据中进行过滤、隔离或者柔化，从而减少或消除离散的噪音数据，使得测试语音数据更加符合提取效果，最终获得降噪后的测试语音数据中的测试语言特征和测试声学特征。

步骤S20，终端对测试语言特征和测试声学特征进行特征训练，以获得测试语言因子和测试声学因子；

在获取到测试语言特征和测试声学特征之后，终端将对其进行特征训练，以获得测试语言因子和测试声学因子。所述特征训练指的是对所获得的测试语言特征和测试声学特征进行归纳总结，换句话说，是将测试语言特征和测试声学特征所代表的特征以一个稳定范围进行限定，而这个稳定范围即为测试语言因子和测试声学因子。所述测试语言因子和测试声学因子代表着该段语音数据中的发音特征，由于用户针对同一个音节的发音可能存在细小的误差，而特征训练即是对这一细小误差进行兼容，使得测试语言因子和测试声学因子能够最大限度地修正这一细小误差，避免识别失败。

具体地，参照图3，所述终端对测试语言特征和测试声学特征进行特征训练，以获得测试语言因子和测试声学因子的步骤包括：

步骤S21，终端将测试语言特征中的音节进行语义训练，以获得测试语言因子；

所述特征训练包括语义训练和语音训练，其中语义训练主要是针对测试语言特征进行训练，训练的对象为测试语言特征中的音节。通过对多次采集的同一个语音字节的解析处理，可将该语音字节进行归纳统一，从而得到一个稳定的语音字节。例如标准发音表中为“hua”(音同花)，而终端所获取到的音节为“fa”(音同发)，终端即可将“hua”音与“fa”音进行语义关联，从而在检测到“chu hua”的音节时，可自动将“chu hua”中的“hua”音关联到“fa”音，进而辅助识别该段语音数据的实际音节为“chu fa”(出发)。这个关联建立过程即为语义训练，关联结果即为测试语言因子。

步骤S22，终端将测试声学特征中的音调和音色进行语音训练，以获得测试声学因子。

所述语音训练主要是针对测试声学特征进行训练，训练的对象为测试声学特征中的音调、音色。

所述音调具体指的是用户发出所述测试语音数据时的发音频率。一般地，每个人的嗓音不一样，因此即使是同一个发音，不同的人也会发出不同的音调，例如男人的嗓音较为低沉，而女人的嗓音较为高亢，这是由于嗓音的粗细决定的。而嗓音在短期内不会有太大的变化，因此可根据音调来确定用户个人的发音特征。所述音色指的是发声体根据其材料、结构或属性发出的具有辨识度的特征，例如胡琴、钢琴、吉他、笛子等乐器发出的声音，即使音调、响度都相同，也可以分辨出来。通过分辨音色，可确定到具体的发声体。由于每个人的音色受其声带不同的影响，因此终端可通过音色分辨测试语音数据的发音特性，如同我们闭着眼也能听出是哪位熟人在讲话一样。

语音训练，即是对用户发出的音调音色进行归纳，以获得一个稳定的音域，该音域代表着用户的发音习惯，是用户个人的发音特征，能够判断某段语音数据是否属于用户发出的判别性参考数据，即测试声学因子。

步骤S30，终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射，以生成实现终端语音控制的定制映射表。

在获取到测试语言因子和测试声学因子之后，终端依旧无法将具有用户个人发音特色的测试语言因子和测试声学因子与标准语音库对接起来，也就无法使得终端的语音识别功能正常识别用户的语音数据。因此，终端需要将具有代表性质的测试语言因子和测试声学因子同时与标准的语音库进行关联，以便构建起用户个人的语音发音特征和标准发音之间的映射关系，这样终端即可在得到用户的测试语音数据的基础上，查询到标准语音库中对应的标准语音，以便对语音的正确识别。

参照图5和图7，具体地，所述终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射，以生成实现终端语音控制的定制映射表的步骤还包括：

步骤S31，终端分别为测试语言因子和测试声学因子设置测试语言标识和测试声学标识；

步骤S32，终端获取标准语音库中分别与测试语言因子和测试声学因子相互映射的标准语言因子和标准声学因子；

假设直接在测试语言因子和测试声学因子、以及标准语言因子和标准声学因子之间建立映射关系，那么后续语音识别功能都需要将测试语音因子和测试声学因子分别标准语音库中的标准语言因子和标准声学因子进行比对匹配，这个过程需要花费一定的时间和功耗，这对终端的续航以及用户的体验存在一定的影响。

为此，本实施例分别为测试语言因子和测试声学因子设置了测试语言标识和测试声学标识。所述测试语言标识和测试声学标识指的是分别与测试语言因子和测试声学因子相互对应的标识信息。终端可根据原先的标准发音表对号入座，获取到标准语音对应的标准语言因子和标准声学因子。

步骤S33，终端分别为标准语言因子和标准声学因子设置标准语言标识和标准声学标识。

同样地，标准语言因子和标准声学因子也设置有对应的标准语言标识和标准声学标识。

步骤S34，终端将测试语言标识和测试声学标识分别与相互映射的标准语言标识和标准声学标识相互关联，生成实现终端语音控制的定制映射表。

在同时获取到终端的测试语言标识和测试声学标识以及对应的标准语音库的保准语言标识和标准声学标识之后，终端将把测试语言标识和测试声学标识分别与相互映射的标准语言标识和标准声学标识相互关联起来，形成一一映射关系，这样终端可在确定测试语言因子和测试声学因子之后，通过对应的测试语言标识和测试声学标识直接对应到标准语音库中的标准语言标识和标准声学标识，从而获取到映射的标准语言因子和标准声学因子。而不用在终端获取到测试语言因子和测试声学因子之后与标准语音库中的所有标准语言因子和标准声学因子进行一一比对，省略了繁琐的匹配过程。

进一步地，在本发明定制化语音控制的实现方法第一实施例的基础上，提出定制化语音控制的实现方法第二实施例，参照图8，所述第二实施例与第一实施例之间的区别在于，

所述终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射，以生成实现终端语音控制的定制映射表的步骤之后还包括：

步骤S40，终端提取接收到的语音数据中的语言特征和声学特征，并获取语言特征与测试语言因子的第一相似度，以及声学特征与测试声学因子的第二相似度；

参照图4，终端建立定制映射表之后，即可针对用户输入的语音数据进行拾音。终端可通过麦克风等收音单元获取到用户的语音数据，并解析提取出语音数据中的语言特征和声学特征。所述语言特征和声学特征分别与上述测试语言特征和测试声学特征的定义一样，区别在于语言特征和声学特征是作为实际数据源，而测试语言特征和测试声学特征是作为测试数据源。在本实施例中，终端可通过语言特征与终端中的测试语言因子进行比对，从而获取到语言特征与测试语言因子的第一相似度；同理终端还可通过声学特征与测试声学因子进行比对，获取到声学特征与测试声学因子的第二相似度。所述相似度主要指的是两个比较数据之间在波形图、离散图等数据示意图上的数据的趋同程度。

步骤S50，当终端检测到第一相似度大于第一阈值，且第二相似度大于第二阈值时，获取语言标识和声学标识分别在定制映射表中对应的标准语言标识和标准声学标识；

在本实施例中，终端设置了第一阈值和第二阈值。所述第一阈值是对第一相似度的限定，而第二阈值是对第二相似度的限定。由于第一相似度决定着终端对语音数据的音节分辨能力和语义分辨能力，因此只有在第一相似度大于第一阈值时，终端才可以确定该语言特征为有效可识别的语言特征。同时，第二相似度决定着终端对语音数据的定制识别能力，只有第二相似度大于第二阈值，终端才可以确定该声学特征属于终端的所有者。第二阈值的限定是对用户个人身份的验证。

只有在第一相似度大于第一阈值且第二相似度大于第二阈值时，终端才会获取语言识别和声学识别分别在定制映射表中的对应的标准语言标识和标准声学标识。

步骤S60，终端根据标准语言标识和标准声学标识，获取对应的标准语言因子和标准声学因子。

由于标准语言标识和标识声学标识属于一个标识信息，分别关联着对应的标准语言因子和标准声学因子。因此，终端可根据标准语言标识和标准声学标识，最终获取到所需的标准语言因子和标准声学因子。

可选地，在步骤终端根据标准语言标识和标准声学标识，获取对应的标准语言因子和标准声学因子之后还包括：

步骤S70，当终端检测到第二相似度小于警戒阈值时，启动终端的访客模式。

在现实生活场景中，第二相似度可代表发音者个人语音特征与终端中保存的测试数据的匹配程度，也就是终端接收的语音数据能够匹配上测试数据，因此第二相似度具有标志性的个人认证功能，即使第二相似度大于第二阈值，也需要进行进一步的安全认证。

本实施例设置了一个警戒阈值，所述警戒阈值指的是第二相似度的警戒门限值。第二相似度大于第二阈值，代表着第二相似度超过了最低匹配值，但还需要进一步确认，因为相似度也是有范围的，例如99％的相似度和85％的相似度虽然都同样达到标准，但显然99％的相似度更加精确。而警戒阈值便是对第二相似度进行精确度的验证。反映到现实生活中，双胞胎的声音很可能非常相似，只存在些许细微的差异，假设不对这细微的差异进行验证比对，那么双胞胎均可以对终端进行任意语音操作，这将使得语音定制失去效用。终端设置警戒阈值，当终端检测到第二相似度小于警戒阈值时，即可启动终端的访客模式。所述访客模式指的是终端可自由操作，但对于部分预设功能则呈现禁用状态。

这样，终端作为私人电子产品，可避免某些关键核心功能被随意操作，从而为私人的移动终端的语音识别功能增加安全认证流程，以便移动终端智能识别当前终端的持有者是否是终端的拥有者，降低了移动终端的安全风险，进而保障终端信息的安全，避免终端拥有者的隐私被泄露以及财产损失。

进一步地，在本发明定制化语音控制的实现方法第二实施例的基础上，提出定制化语音控制的实现方法第三实施例，所述第三实施例与第二实施例之间的区别在于，所述终端提取接收到的语音数据中的语言特征和声学特征，并获取语言特征与测试语言因子的第一相似度，以及声学特征与测试声学因子的第二相似度的步骤之后还包括：

步骤S80，当终端检测到第一相似度小于或等于第一阈值时，输出无法识别的提示信息。

在现实生活中，假设他人获取到用户的终端，并通过语音输入进行功能操作，那么终端同样会对第一相似度和第二相似度进行判断比对。由于终端已绑定认证了终端所有者的语音特征，因此若第一相似度的比对失败，如当终端检测到第一相似度小于或等于第一阈值时，则证明发音者并不能清楚地向终端输入有效语音数据，此时终端只需输出无法识别的提示信息。

进一步地，在本发明定制化语音控制的实现方法第三实施例的基础上，提出定制化语音控制的实现方法第四实施例，所述第四实施例与第三实施例之间的区别在于，所述终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征的步骤之后还包括：

步骤S90，当终端检测到测试语言特征和/或测试声学特征无法进行特征训练时，根据用户输入的词汇进行特征映射。

在现实生活中，某些语音数据在标准语音库中无法查询到相应的音节，例如某些没有记载的方言或民族语言，应用人口非常少。那么这些语音数据没有成型的数据库记载，也就无法查询到相应的音节，导致终端无法进行特征匹配训练。此时，用户可通过输入标准音节来查询到该测试语言特征和/或测试声学特征在标准语音库中标准字节所对应的词汇，从而完成特征映射。具体地，假设用户输入的测试语言特征为“n i a”，而该测试语言特征无法进行训练，因为在标准语音库中并没有拼音为“nia”的音节，因此需要特地为该测试语言特征进行特征映射，方法为通过用户为该测试语言特征进行语义赋予。终端可输入相关的词汇以形成特征映射，例如“nia”音在A方言中表示“你的”的意思。那么用户可通过输入“你的”的语义，为“nia”做特征映射，从而将“nia”音与“你的”相互映射，完成语音定制步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于：

本发明计算机可读存储介质具体实施方式与上述定制化语音控制的实现方法和移动终端各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种定制化语音控制的实现方法，其特征在于，所述定制化语音控制的实现方法应用于移动终端，所述定制化语音控制的实现方法包括：

2.如权利要求1所述的定制化语音控制的实现方法，其特征在于，所述终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射，以生成实现终端语音控制的定制映射表的步骤包括：

3.如权利要求2所述的定制化语音控制的实现方法，其特征在于，所述终端对测试语言特征和测试声学特征进行特征训练，以获得测试语言因子和测试声学因子的步骤包括：

4.如权利要求2所述的定制化语音控制的实现方法，其特征在于，所述终端将测试语言因子和测试声学因子分别与标准语音库中的标准语言因子和标准声学因子相互映射的步骤之后还包括：

5.如权利要求4所述的定制化语音控制的实现方法，其特征在于，所述终端根据标准语言标识和标准声学标识，获取对应的标准语言因子和标准声学因子的步骤之后还包括：

当终端检测到第二相似度小于警戒阈值时，启动终端的访客模式。

6.如权利要求4所述的定制化语音控制的实现方法，其特征在于，

所述终端提取接收到的语音数据中的语言特征和声学特征，并获取语言特征与测试语言因子的第一相似度，以及声学特征与测试声学因子的第二相似度的步骤之后还包括：

7.如权利要求1所述的定制化语音控制的实现方法，其特征在于，所述终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征的步骤包括：

终端按预设次数采集用户输入的测试语音数据；

8.如权利要求1至7任一项所述的定制化语音控制的实现方法，其特征在于，所述终端按预设次数采集用户输入的测试语音数据，并提取所有测试语音数据中的测试语言特征和测试声学特征的步骤之后还包括：

9.一种移动终端，其特征在于，所述移动终端包括：存储器、处理器，通信总线以及存储在所述存储器上的语音定制方法定制化语音控制的实现程序，

所述通信总线用于实现处理器与存储器间的通信连接；

所述处理器用于执行所述语音定制方法定制化语音控制的实现程序，以实现如权利要求1至8中任一项所述的定制化语音控制的实现方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音定制方法定制化语音控制的实现程序，所述语音定制方法定制化语音控制的实现程序被处理器执行时实现如权利要求1至8中任一项所述的定制化语音控制的实现方法的步骤。