CN110895938A

CN110895938A - 语音校正***及语音校正方法

Info

Publication number: CN110895938A
Application number: CN201811140684.XA
Authority: CN
Inventors: 陈怡玲; 宋志伟; 简佑丞; 陈冠中
Original assignee: Quanta Computer Inc
Current assignee: Quanta Computer Inc
Priority date: 2018-09-13
Filing date: 2018-09-28
Publication date: 2020-03-20
Anticipated expiration: 2038-09-28
Also published as: US20200090639A1; TW202011384A; US11069341B2; CN110895938B

Abstract

本公开提供一种语音校正***及语音校正方法，该语音校正***包含：一存储装置、一音频接收器以及一处理装置。处理装置包含一语音辨识引擎以及一判断模块。存储装置存储一数据库。音频接收器接收一指令语音。语音辨识引擎辨识指令语音中的一关键语音，并产生对应关键语音的一候选字汇列表及一音转码。候选字汇列表包含关键语音对应到的一候选字汇及候选字汇对应到的一字汇分数。判断模块判断字汇分数是否大于一分数阈值，若字汇分数大于分数阈值，则将字汇分数所对应的候选字汇存储至数据库，若候选字汇列表中的所有字汇分数皆不大于分数阈值，则将音转码存储至数据库。

Description

语音校正***及语音校正方法

技术领域

本发明涉及一种接收语音的***，特别涉及一种语音校正***及语音校正方法。

背景技术

近年来，随着电子装置的发展，电子装置例如为手机、平板、车用导航***等等电子产品，使用者将信息输入至电子装置的方式越来越多元，例如，使用者以语音方式，将信息输入至电子装置。目前的语音软件(例如Google、微软所开发的语音软件)大部分是在接收语音后，经过云端服务器或语言分析引擎或模型进行运算，以找出媒合此语音的一或多个字汇，并利用使用者接口询问此一或多个字汇是否为使用者所述的内容，藉此让使用者确认是否正确，若使用者确认正确，则直接输出正确的字汇，若使用者确认所有媒合字汇皆错误，则输入正确的字汇于语言分析引擎内，重新训练语音分析机制。

然而，此种语音***的缺点为需要一直询问使用者，才能使***修改语言分析模型并进行校正，造成使用者的不便。

由此可见，上述现有的方式，显然仍存在不便与缺陷，而有待加以进一步改进。

发明内容

为了解决上述的问题，本公开内容的一方面提供了一种语音校正***，包含：一存储装置、一音频接收器以及一处理装置。处理装置包含一语音辨识引擎以及一判断模块。存储装置存储一数据库。音频接收器接收一指令语音。语音辨识引擎辨识指令语音中的一关键语音，并产生对应关键语音的一候选字汇列表及一音转码；其中候选字汇列表包含关键语音对应到的一候选字汇及候选字汇对应到的一字汇分数。判断模块判断字汇分数是否大于一分数阈值，若字汇分数大于分数阈值，则将字汇分数所对应的候选字汇存储至数据库，若候选字汇列表中的所有字汇分数皆不大于分数阈值，则将音转码存储至数据库。

本发明的另一方面是提供一种语音校正方法包含：接收一指令语音，辨识该指令语音中的一关键语音，并产生对应关键语音的一候选字汇列表及一音转码；其中候选字汇列表包含关键语音对应到的一候选字汇及该候选字汇对应到的一字汇分数；以及判断字汇分数是否大于一分数阈值，若字汇分数大于分数阈值，则将字汇分数所对应的候选字汇存储至一数据库，若该候选字汇列表中的所有字汇分数皆不大于分数阈值，则将音转码存储至数据库。

本发明所示的语音校正***及语音校正方法，能在输入语音指令时，随着使用者口音不同或是输入的是新种类的字汇，进行关键语音的辨识，当语音校正***辨识不出来字汇时，可藉由音转码作记录，使得语音校正***的响应能让使用者也听得懂，由于所有字汇都可以存储在使用者自身的电子装置上，即应用程序的本地端，无需将语音上传云端进行比对，因此可以提供不同使用者定制化的语音字汇辨识效果，由于无需将关键语音上传云端进行比对，只需在应用程序的本地端与数据库的内容作比对，故提升了关键语音与字汇比对的效率。

附图说明

图1是依照本发明一实施例绘示语音校正***的方块图。

图2是根据本发明的一实施例绘示一种语音校正方法的示意图。

图3是根据本发明的一实施例绘示一种语音校正方法的示意图。

图4是根据本发明的一实施例绘示一种语音校正方法的示意图。

【符号说明】

100：语音校正***

10：存储装置

20：音频接收器

30：处理装置

31：语音辨识引擎

35：判断模块

37：分析模块

39：比对模块

200、300、400：语音校正方法

SIG1、SIG2、SIG3：指令语音

LST1、LST3：候选字汇列表

LST2、LST4：音转表

LST5：比对结果列表

DB：数据库

OBJ：输出结果

具体实施方式

以下说明为完成发明的较佳实现方式，其目的在于描述本发明的基本精神，但并不用以限定本发明。实际的发明内容必须参考之后的权利要求范围。

必须了解的是，使用于本说明书中的“包含”、“包括”等词，用以表示存在特定的技术特征、数值、方法步骤、作业处理、元件和/或组件，但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、元件、组件，或以上的任意组合。

在权利要求中使用如“第一”、"第二"、"第三"等词用来修饰权利要求中的元件，并非用来表示之间具有优先权顺序，先行关系，或者是一个元件先于另一个元件，或者是执行方法步骤时的时间先后顺序，仅用来区别具有相同名字的元件。

请参照图1～3，图1是依照本发明一实施例绘示语音校正***100的方块图。图2是根据本发明的一实施例绘示一种语音校正方法200的示意图。图3是根据本发明的一实施例绘示一种语音校正方法300的示意图。

如图1所示，语音校正***100包含一存储装置10、一音频接收器20及一处理装置30。其中，处理装置30包含一语音辨识引擎31及一判断模块35。在一实施例中，处理装置30还包含一分析模块37及一比对模块39。

在一实施例中，存储装置10可被实作为只读存储器、快闪存储器、软盘、硬盘、光盘、随身碟、磁带、可由网络存取的数据库或本领域技术人员可轻易思及具有相同功能的存储介质。在一实施例中，存储装置10用以存储数据库DB(如图2所示)。

在一实施例中，音频接收器20用以接收一语音指令。在一实施例中，音频接收器20可以是一麦克风或其他具有收音功能的装置。

在一实施例中，处理装置30可以是任何具有运算功能的电子装置。在一实施例中，语音辨识引擎31、判断模块35、分析模块37及比对模块39可以各别或合并由集成电路如微控制单元(micro controller)、微处理器(microprocessor)、数字信号处理器(digitalsignal processor)、特殊应用集成电路(application specific integrated circuit，ASIC)或一逻辑电路来实施。

在一实施例中，请参图2，音频接收器20用以接收一音频指令，分析模块37用以接收来自音频接收器20的指令语音SIG1。

在此例中，指令语音SIG1为“Put an Apple”，当音频接收器20接收到此指令语音SIG1后，会将此指令语音SIG1传送到分析模块37，接着，分析模块37对指令语音SIG1进行前处理，以取得一关键语音。在一实施例中，指令语音可包含指令以及关键语音。指令是指使用者欲进行的操作，其已先定义于语音校正***100中，例如***开发者将指令定义并存储于存储装置10，例如为“Put”、“Get”、“Open”…等。关键语音则非***所预先定义，关键语音是指使用者想要进行操作的对象，例如为“Apple”、“Orange”、“frige”，换句话说，关键语音可以是指令语音中除指令“Put”以外的字汇。

在一实施例中，当指令语音SIG1为“open frige”，其代表的涵义为致能(enable)一应用程序，此应用程序例如为冰箱管理应用程序。在一实施例中，使用者可以通过对冰箱管理应用程序(例如安装于手机、平板、计算机…等)以输入指令语音SIG1。在一实施例中，指令语音SIG1可以是一连串的语音，例如为“Put an Apple”、“Put an Orange”、“finish”(代表关闭此应用程序)，藉此，使用者可以在自身的电子装置上(本地端，例如为手机)记录冰箱中的食物类别、行为(即指令)和/或数量。然而，本发明并不限于应用于冰箱管理***，也可以应用在其他管理***。

在一实施例中，分析模块37对指令语音SIG1进行的前处理是运用去噪声、分析音节、提取断句等已知的技术，以萃取指令和/或关键语音，故此处不赘述。

接着，关键语音被传送至语音辨识引擎31，语音辨识引擎31用以辨识指令语音中的关键语音，并产生对应关键语音的一候选字汇列表LST1及一音转码(例如图2所示的：“Aipo”)；其中候选字汇列表LST1包含关键语音对应到的候选字汇(例如图2所示的：“Apple”、“Applet”、“Apply”及“Pineapple”)及候选字汇对应到的字汇分数(例如：“Apple”对应到的字汇分数为0.987、“Applet”对应到的字汇分数为0.941、“Apply”对应到的字汇分数为0.903及“Pineapple”对应到的字汇分数为0.862)；字汇分数越高代表字汇与关键语音的符合程度越高。

在另一实施例中，如图3所示，分析模块37由音频接收器20接收一指令语音SIG2，在此例中，指令语音SIG2为“Put Toufu”(使用者可能是想输入中式食材的一种食物“豆腐”，其发音为“Toufu”)，分析模块37对指令语音SIG2进行前处理，以取得指令和/或关键语音。接着，关键语音被传送至语音辨识引擎31，语音辨识引擎31用以辨识指令语音中的关键语音，并产生对应关键语音的一候选字汇列表LST3及一音转码(例如图3所示的：“Toufu”)；其中候选字汇列表LST3包含关键语音对应到的候选字汇(例如图3所示的：“Tofu”及“Kungfu”)及候选字汇对应到的字汇分数(例如：“Tofu”对应到的字汇分数为0.932、“Kungfu”对应到的字汇分数为0.895)。

在一实施例中，语音辨识引擎31可以选用已知的语音辨识程序(例如为Googlespeech API、微软的Azure)实现，音转码也可以选用已知的语音辨识程序产生。

在一实施例中，语音辨识引擎31包含至少一语音辨识程序。在一实施例中，音转码与候选字汇列表LST1可以由相同或不同的语音辨识程序以产生。

在一实施例中，音转码为一罗马拼音或其他自然语言拼音法，语音辨识引擎31产生对应音转码的一语音代码(例如在图2中，音转码“Apio”的对应语音代码为“0x13c”，又例如在图3中，音转码“Toufu”的对应语音代码为“0x254”)，语音代码的产生有利于其他部分的程序撰写。

在一实施例中，图2所示的音转码与对应其的语音代码可以存储于一音转表LST2中。在一实施例中，图3所示的音转码与对应其的语音代码可以存储于音转表LST4中。

在一实施例中，判断模块35用以判断字汇分数是否大于一分数阈值(例如为0.95)，若字汇分数大于分数阈值，则将字汇分数所对应的候选字汇存储至数据库DB，若候选字汇列表LST1中的所有字汇分数皆不大于分数阈值，则将音转码存储至数据库DB。

在一例子中，如图2所示，当语音校正***100设定分数阈值为0.95时，判断模块35判断候选字汇列表LST1中每个字汇分数是否大于分数阈值，候选字汇列表LST1中“Apple”对应到的字汇分数为0.987大于分数阈值，因此，判断模块35将“Apple”写入数据库DB中。

在另一例子中，如图3所示，当语音校正***100设定分数阈值为0.95时，判断模块35判断候选字汇列表LST3中每个字汇分数是否大于分数阈值，当判断模块35判断候选字汇列表LST3中所有字汇分数皆不大于分数阈值，则判断模块35将音转码“Toufu”写入数据库DB中。

在一实施例中，字汇候选名单LST1包含关键语音对应到的多个候选字汇，且此些候选字汇各自对应到一字汇分数，判断模块35判断此些字汇分数中是否存在至少一大于分数阈值者，若判断模块35判断此些字汇分数之中存在该至少一大于分数阈值者，则将至少一大于分数阈值者中最大值所对应的候选字汇存储至数据库DB。

举例而言，如图2所示，当语音校正***100设定分数阈值为0.90时，候选字汇列表LST1中“Apple”对应到的字汇分数为0.987、“Applet”对应到的字汇分数为0.941、“Apply”对应到的字汇分数为0.903皆大于分数阈值(0.90)，则判断模块35将此些大于分数阈值的字汇分数的最大值者(0.987)所对应的候选字汇“Apple”写入数据库DB中。

在一实施例中，当音频接收器20接收到多次不同的指令语音，可以将最后判断模块35所判断出的候选字汇都存入数据库DB中，例如先执行图2所示的流程得到“Apple”的输出结果，再接着执行图3所示的流程得到“Toufu”的输出结果，最终在数据库DB中会存储“Apple”及“Toufu”两笔数据。

在一实施例中，分数阈值可以依实际***环境调整。

接着，请参阅图4，图4是根据本发明的一实施例绘示一种语音校正方法400的示意图。在图4中，当音频接收器20接收到指令语音SIG3，例如为“Get Toufu”时，音频接收器20将指令语音SIG3传送到分析模块37，以进行前处理，当分析模块37完成前处理后，分析模块37将关键语音传送到比对模块39，比对模块39接收此关键语音，将此关键语音与数据库DB中的候选字汇及音转码，即数据库DB中的所有字汇及音转码，例如图4所示的“Apple”、“Orange”、“Cherry”…“Toufu”)作比对，以产生一比对结果列表LST5，比对结果列表LST5包含候选字汇及音转码各自对应的一比对分数(例如“Apple”对应的比对分数为0.553、“Orange”对应的比对分数为0.436、“Cherry”对应的比对分数为0.287…“Toufu”对应的比对分数为0.989)，接着，判断模块35判断各比对分数是否大于一比对阈值(例如为0.95)，并输出此些比对分数中大于比对阈值的最大者所对应的候选字汇或音转码。在此例中，“Toufu”对应的比对分数(例如为0.989)大于比对阈值(例如为0.95)，故输出结果OBJ为“Toufu”。

在另一实施例中，若数据库DB中有多个字汇的比对分数(例如分别为，0.97、0.98、0.99)大于比对阈值(例如为0.95)，则判断模块35选取比对分数的值最大者(即0.99)所对应的字汇作为输出结果。

在一实施例中，比对阈值可以依实际***环境调整。

藉此，当使用者重复讲述到相同的关键语音时，若数据库DB中已存储此关键语音所对应的字汇，则语音校正***100可以快速地对应到正确的输出结果OBJ，若数据库DB中尚未存储此关键语音所对应的字汇，则可应用图2所述的语音校正方法200，将新的关键语音定义至数据库DB中。

在一实施例中，此语音校正方法200、300可应用于手机或其他电子产品的应用程序中，例如，应用于一冰箱管理应用程序时，当使用者对着手机说“Put an Apple”，则数据库DB中可写入已知的水果“Apple”。即便使用者对手机说的是无法被辨识的字汇(例如使用者有特殊口音或是欲输入的字汇较为冷门)，数据库DB仍可存入音转码，例如“Toufu”；藉此，无论语音校正***100通过语音辨识引擎31可辨识或不可辨识的字汇，都可以被记录至数据库DB中，且无需使用者多次确认。此外，当使用者重复讲述到相同的关键语音时，若数据库DB中已存储此关键语音所对应的字汇，则语音校正***100可以快速地对应到正确的输出结果。

本发明所示的语音校正***及语音校正方法，能在输入语音指令时，随着使用者口音不同或是输入的是新种类的字汇，进行关键语音的辨识，当语音校正***辨识不出来字汇时，可藉由音转码作记录，使得语音校正***的响应能让使用者也听得懂，由于所有字汇都可以存储在使用者自身的电子装置上，即应用程序的本地端，无需将语音上传云端服务器进行比对，因此可以提供不同使用者定制化的语音字汇辨识效果，此外，由于无需将关键语音上传云端进行比对，只需在应用程序的本地端与数据库的内容作比对，故提升了关键语音与字汇比对的效率。

Claims

1.一种语音校正***，包含：

存储装置，用以存储数据库；以及

音频接收器，用以接收指令语音；

处理装置，包含：

语音辨识引擎，用以辨识该指令语音中的关键语音，并产生对应该关键语音的候选字汇列表及音转码；其中该候选字汇列表包含该关键语音对应到的候选字汇及该候选字汇对应到的字汇分数；以及

判断模块，用以判断该字汇分数是否大于分数阈值，若该字汇分数大于该分数阈值，则将该字汇分数所对应的该候选字汇存储至该数据库，若该候选字汇列表中的所有该字汇分数皆不大于该分数阈值，则将该音转码存储至该数据库。

2.如权利要求1所述的语音校正***，其中该字汇候选名单包含该关键语音对应到的多个候选字汇，且这些候选字汇各自对应到字汇分数，该判断模块判断这些字汇分数中是否存在至少一大于该分数阈值者，若该判断模块判断这些字汇分数之中存在该至少一大于该分数阈值者，则将该至少一大于该分数阈值者中的最大值所对应的该候选字汇存储至该数据库。

3.如权利要求1所述的语音校正***，其中该音转码为罗马拼音或自然语言拼音。

4.如权利要求1所述的语音校正***，其中该处理装置还包含：

比对模块，用以接收另一关键语音，并将该另一关键语音与该数据库中的该候选字汇及该音转码作比对，以产生比对结果列表，该比对结果列表包含该候选字汇及该音转码各自对应的比对分数。

5.如权利要求4所述的语音校正***，其中该判断模块判断各这些比对分数是否大于比对阈值，并输出这些比对分数中大于该比对阈值的最大者所对应的该候选字汇或该音转码。

6.一种语音校正方法，包含：

接收指令语音，辨识该指令语音中的关键语音，并产生对应该关键语音的候选字汇列表及音转码；其中该候选字汇列表包含该关键语音对应到的候选字汇及该候选字汇对应到的字汇分数；以及

判断该字汇分数是否大于分数阈值，若该字汇分数大于该分数阈值，则将该字汇分数所对应的该候选字汇存储至数据库，若该候选字汇列表中的所有该字汇分数皆不大于该分数阈值，则将该音转码存储至该数据库。

7.如权利要求6所述的语音校正方法，其中该字汇候选名单包含该关键语音对应到的多个候选字汇，且这些候选字汇各自对应到字汇分数，该语音校正方法还包含：

判断这些字汇分数中是否存在至少一大于该分数阈值者，若该判断模块判断这些字汇分数之中存在该至少一大于该分数阈值者，则将该至少一大于该分数阈值者中的最大值所对应的该候选字汇存储至该数据库。

8.如权利要求6所述的语音校正方法，其中该音转码为罗马拼音或自然语言拼音。

9.如权利要求6所述的语音校正方法，还包含：

接收另一关键语音，并将该另一关键语音与该数据库中的该候选字汇及该音转码作比对，以产生比对结果列表，该比对结果列表包含该候选字汇及该音转码各自对应的比对分数。

10.如权利要求9所述的语音校正方法，还包含：

判断各这些比对分数是否大于比对阈值，并输出这些比对分数中大于该比对阈值的最大者所对应的该候选字汇或该音转码。