CN111292764A

CN111292764A - 辨识***及辨识方法

Info

Publication number: CN111292764A
Application number: CN201811628418.1A
Authority: CN
Inventors: 简婉轩; 沈子岚
Original assignee: Nuvoton Technology Corp
Current assignee: Nuvoton Technology Corp
Priority date: 2018-11-20
Filing date: 2018-12-28
Publication date: 2020-06-16
Anticipated expiration: 2038-12-28
Also published as: TWI682325B; CN111292764B; US11216729B2; US20200160179A1; TW202020730A

Abstract

本发明提供了一种辨识***及辨识方法，该辨识方法，包含：接收一训练语音或接收一训练图像；以及撷取训练语音中的多个语音特征，或撷取训练图像中的多个图像特征；其中，当撷取出此些语音特征后，依据此些语音特征产生一特定数量的多个语音参数，将此些语音参数输入一深度神经网络，以产生一辨识模型；其中，当撷取出此些图像特征后，依据此些图像特征产生特定数量的多个图像参数，并将些图像参数输入深度神经网络，以产生辨识模型。

Description

辨识***及辨识方法

技术领域

本发明是关于一种辨识***及辨识方法，特别是关于一种可以辨识声音或图像的辨识***及辨识方法。

背景技术

一般而言，在辨识图像(image)或声音时，可以用隐藏式马可夫模型(HiddenMarkov Models，HMM)，此演算法通过对大量语音与图像数据进行数据统计，建立识别字的统计模型，然后从待识别语音和图像中分别提取特征，并将此些特征与统计模型中的多个参数比对，以获得多个候选结果及其对应的比对分数，并选择比对分数较高者所对应的候选结果，作为辨识结果。

然而，此演算法若要达到辨识图像和/或声音两者，使用的统计模型应分属两个***，所需的储存空间较高，亦无法以单一统计模型辨识出图像和/或声音。

发明内容

为了解决上述的问题，本发明内容的一态样提供了一种辨识***，包含：一收音器、一摄像机以及一第一处理器。收音器用以接收一训练语音。摄像机用以接收一训练图像。第一处理器用以撷取训练语音中的多个语音特征，或撷取训练图像中的多个图像特征。其中，当第一处理器撷取出此些语音特征后，依据此些语音特征产生一特定数量的多个语音参数，将此些语音参数输入一深度神经网络(Deep Neural Networks，DNN)，以产生一辨识模型，当第一处理器撷取出此些图像特征后，依据此些图像特征产生特定数量的多个图像参数，并将此些图像参数输入深度神经网络，以产生辨识模型。

本发明的另一态样提供一种辨识方法，包含：接收一训练语音或接收一训练图像；以及撷取训练语音中的多个语音特征，或撷取训练图像中的多个图像特征；其中，当撷取出此些语音特征后，依据此些语音特征产生一特定数量的多个语音参数，将此些语音参数输入一深度神经网络，以产生一辨识模型；其中，当撷取出此些图像特征后，依据此些图像特征产生特定数量的多个图像参数，并将此些图像参数输入所述深度神经网络，以产生辨识模型。

藉由本案所述的辨识***及辨识方法，在训练辨识模型的阶段，能够接收训练语音或是训练图像，藉由将撷取出来的语音特征或是图像特征转换成一维特征集(例如为一数列)，并将此一维特征集代入深度神经网络，以产生辨识模型。本案只需一个辨识***，即可产生语音、图像或其两者的辨识结果，因此，本案所述的辨识***及辨识方法可大幅降低运算量，且当同时以训练语音及训练图像进行辨识模型的训练时，可提升辨识模型在预测新增数据时的准确度，故能够达到精准地预测新增数据的类型的效果。

附图说明

图1A为依照本发明一实施例绘示辨识***的方块图；

图1B为依照本发明一实施例绘示辨识***的方块图；

图2为根据本发明的一实施例绘示一种辨识方法的流程图；

图3为依照本发明一实施例绘示辨识方法的一例。

附图标记说明

100：第一电子装置；

10：收音器；

20：摄像机；

30：第一处理器；

40：第二处理器；

50：储存装置；

150：第一处理器；

LK：通信连结；

200：辨识方法；

210～240、310～353：步骤。

具体实施方式

以下说明为完成发明的较佳实现方式，其目的在于描述本发明的基本精神，但并不用以限定本发明。实际的发明内容必须参考权利要求范围。

必须了解的是，使用于本说明书中的“包含”、“包括”等词，用以表示存在特定的技术特征、数值、方法步骤、作业处理、器件以和/或组件，但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、器件、组件，或以上的任意组合。

在请求项中使用如“第一”、“第二”、“第三”等词用来修饰权利要求中的器件，并非用来表示之间具有优先权顺序，先行关系，或者是一个器件先于另一个器件，或者是执行方法步骤时的时间先后顺序，仅用来区别具有相同名字的器件。

请参照图1A～1B、图2，图1A为依照本发明一实施例绘示辨识***的方块图。图1B为根据本发明的一实施例绘示一种辨识***的示意图。图2为根据本发明的一实施例绘示一种辨识方法200的流程图。

在图1A中，辨识***包含一第一电子装置100，第一电子装置100包含收音器10、摄像机20及第一处理器30。在一实施例中，第一电子装置100例如为台式机电脑、笔记本电脑或其他具有运算功能的装置。在一实施例中，第一电子装置100可以是位于云端***中的一服务器或是一远端服务器。

在一实施例中，收音器10可以是一麦克风或具有收音功能的电子装置。

在一实施例中，摄像机20可以是由至少一电荷耦合器件(Charge CoupledDevice；CCD)或一互补式金属氧化物半导体(Complementary Metal-OxideSemiconductor；CMOS)感测器所组成。

在一实施例中，第一处理器30可以被实施为微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signal processor)、特殊应用集成电路(application specific integrated circuit，ASIC)或一逻辑电路。

在一实施例中，辨识***更包含一储存装置(未绘示)，用以储存第一处理器30的运算结果，储存装置可被实作为只读存储器、快闪存储器、软盘、硬盘、光盘、U盘、磁带、可由网络存取的数据库或熟悉此技艺者可轻易思及具有相同功能的储存媒体。

在图1B中，辨识***更包含一第二电子装置150，第一电子装置100与第二电子装置150之间藉由一通信连结LK(例如为无线网络、有线网络或其他通信方式)以传输信息。在一实施例中，第二电子装置150包含一第二处理器40及一储存装置50。在一实施例中，第二电子装置150例如为语音盒子或其他可接收语音或图像的电子装置。

在一实施例中，第二处理器40可以被实施为微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signal processor)、特殊应用集成电路(application specific integrated circuit，ASIC)或一逻辑电路。在一实施例中，第一处理器30的运算能力高于第二处理器40。

在一实施例中，储存装置50可被实作为只读存储器、快闪存储器、软盘、硬盘、光盘、U盘、磁带、可由网络存取的数据库或熟悉此技艺者可轻易思及具有相同功能的储存媒体。

以下请参阅图2叙述本发明的辨识方法200的流程，辨识方法200中所提及的硬件可以由图1A或图1B中的对应硬件以实现。

在步骤210中，藉由收音器10接收一训练语音或藉由摄像机20接收一训练图像。例如，收音器10接收到的训练语音为“零”的发音和/或是摄像机20拍摄到具有“0”图样的训练图像。

在一实施例中，第一电子装置100可同时或是先后接收一或多个训练图像(例如依序输入一组具有“0”到“9”图样的训练图像)和/或一或多个训练语音(例如依序输入一组具有“零”到“九”发音的训练语音)，在后续步骤中，仅先针对一笔训练图像或是一个训练语音进行处理，例如，先将训练语音为“零”的发音和/或将训练图像“0”交由第一处理器30继续进行步骤220，并以相同步骤依序处理其他训练图像和/或训练语音(例如，接着将训练语音为“壹”的发音和/或将训练图像“1”送往下个步骤220)。

在一实施例中，第一电子装置100只需要接收到一个训练语音或是一个训练图像即可进行后续步骤，不需接收到训练语音及训练图像两者。

在步骤220中，第一处理器30撷取训练语音中的多个语音特征，或撷取训练图像中的多个图像特征。在一实施例中，当第一处理器30接收到训练语音时，撷取训练语音中的多个语音特征，当第一处理器30接收到训练图像时，撷取训练语音中的多个图像特征，当第一处理器30接收到训练图像及训练语音时，依据接收到的顺序以撷取出图像特征及语音特征。

在一实施例中，第一处理器30执行梅尔倒频谱系数(Mel-scale FrequencyCepstral Coefficients，MFCC)演算法以撷取训练语音中的此些语音特征。然本发明并不限于应用梅尔倒频谱系数演算法，亦可依***实际实作方式采用其他撷取语音特征的演算法。

在一实施例中，第一处理器30分析训练图像中的每个像素，以取得此些图像特征。例如，第一处理器30可以获取训练图像中每个点的像素值，将每个像素值都视为图像特征。然本发明并不限于此，亦可依***实际实作方式采用其他撷取图像特征的演算法。

在步骤230中，当撷取出此些语音特征后，第一处理器30依据此些语音特征产生一特定数量的多个语音参数，第一处理器30载入深度神经网络的程序，将此些语音参数输入一深度神经网络(Deep Neural Networks，DNN)并执行深度神经网络的演算法程序；由于深度神经网络为已知技术，为一种让电脑可以自行分析数据找出特征值的演算法，故此处不赘述之。当撷取出此些图像特征后，第一处理器30依据此些图像特征产生特定数量的多个图像参数，并将此些图像参数输入深度神经网络。

在一实施例中，当第一处理器30撷取出此些语音特征后，第一处理器30依据此些语音特征产生特定数量的语音参数(例如为250个)，并将此些语音参数以一维特征集的方式呈现之。

在一实施例中，当第一处理器30撷取出此些图像特征后，第一处理器30将此些图像特征进行一化减运算以产生特定数量的图像参数(例如为250个)，并将此些图像参数以一维特征集的方式呈现之。

在一实施例中，无论第一处理器30处理的是语音特征或是图像特征，其输出的语音参数或图像参数的数量都会是预设的特定数量(例如为250个)。其中，特定数量的设定并不限于此，亦可以例如为300、500或1000，可依据***实作时进行调整。

在一实施例中，当第一处理器30处理的是图像特征时，化减运算为将图像中所有像素分成多个群组(例如原始图像为28*28为784个像素，将每三个像素分为一组，多余无法成为一组的像素，则自成一组)，并取出各群组中的一中间值作为图像参数的其中的一者(例如，某一组中的像素值为100、150、200，则取像素值150为图像参数的其中的一者，舍去100及200此两个像素值)，或是计算各群组的一平均值作为图像参数的其中的一者(例如，某一组中的像素值为100、150、200，则将此三者像素值取平均，得到平均值150，则取像素值150为图像参数的其中的一者)，藉此可以化简图像特征的数量，以得到所需数量的图像参数(例如，在此例子特定数量可以设定为262个)，并将此些图像参数以一维特征集的方式(例如为数列)呈现之，第一处理器30并将此些图像参数以一维特征集的方式代入深度神经网络，并执行深度神经网络的演算法程序。

其中，化减运算的方法并不限于此，可依据***实作时进行调整。此外，语音特征亦可以进行化简运算，其方式与图像特征的化简运算相似，故此处不赘述之。

在步骤240中，第一处理器30应用深度神经网络建立辨识模型。由于深度神经网络为已知技术，本案仅是应用深度神经网络建立辨识模型，故此处不赘述之。

在一实施例中，当第一处理器30处理此些语音参数时，第一处理器30将此些语音参数及一训练答案(例如，答案为“零”的发音)输入深度神经网络，并执行深度神经网络的演算法程序，以产生辨识模型。

在一实施例中，当第一处理器30处理此些图像参数时，将此些图像参数及训练答案(例如，答案为“0”的图像)输入深度神经网络，以产生辨识模型。

在一实施例中，上述步骤210～240可以重复进行，以训练辨识模型，提升辨识模型的辨识率，当训练完成辨识模型后，第一处理器30通过通信连结LK将辨识模型传送至第二电子装置150，第二电子装置150可将辨识模型储存于储存装置50中。接着，第二处理器40用以撷取一新增数据(例如，使用者念出一新增语音“零”和/或手写一新增图像“0”)的多个新增特征，选取特定数量的此些新增特征作为多个新增参数(例如为250个)，将此些新增参数代入第二电子装置150中的辨识模型，以辨识新增数据，并产生一预测结果(例如，产生预测结果为：使用者念出了“零”或是使用者提供了包含“0”的图像)。

在一实施例中，在选取特定数量的此些新增特征作为多个新增参数的步骤中，此处所述的特定数量与步骤230所述的特定数量是相同的(例如皆设置为250)，故辨识模型可以在不修改架构的情况下预测新数据的类型(即产生预测结果)。

在一实施例中，第二处理器40(例如为语音盒子中的微处理器)的运算能力不及第一处理器30(例如为服务器中的处理器)，通过上述步骤，第一处理器30可接收大量训练数据(如训练语音或训练图像)并执行大量运算，以完成辨识模型的训练，并将完成训练的辨识模型传送给第二电子装置150，使得第二处理器40在接收新增数据后，直接应用辨识模型进行辨识，大幅减低了第二处理器40所需要的运算量。

换言之，第一处理器30可根据训练数据(如训练语音和/或训练图像)的类型，将训练数据转换成一维特征集，此一维特征集中包含特定数量的参数。例如，在一维特征集之中包含250个语音参数，在另一个一维特征集之中包含250个图像参数，两者一维特征集中的参数数量相同，由于图像参数及语音参数的数量相同，无论输入的是图像参数或语音参数，对于深度神经网络而言，深度神经网络都是接收到250笔数值，无须考虑此250笔数值为图像参数或语音参数，即可进行运算。因此，本发明可达到在同一个辨识***上做到可接收两种以上训练数据(如训练语音或训练图像)，并加以辨识的效果。

由此可知，无论辨识***收到的是训练语音或是训练图像，都可以藉由将撷取出来的语音特征或是图像特征转换成一维特征集(例如为一数列)，并将此一维特征集代入深度神经网络，以产生辨识模型。因此，本案只需一个辨识***，即可产生语音、图像或其两者的辨识结果。

请参阅图3，图3为依照本发明一实施例绘示辨识方法的一例。其中，步骤310～318是由第一电子装置100执行，步骤350～353是由第二电子装置150执行。在一实施例中，步骤310～318为辨识模型的训练阶段，藉由输入大量的训练数据(训练语音和/或训练图像)以产生辨识率高于一准确度门槛值(例如准确率为98％)的辨识模型，步骤350～353为应用辨识模型以预测出一新增数据(例如为手写“0”的图像)所属的类型(例如预测为数字“0”)。以下更具体地说明图3中的各个步骤。

在步骤310中，收音器10接收一训练语音。

在步骤311中，第一处理器30撷取训练语音中的多个语音特征。

在步骤312中，摄像机20接收一训练图像。

在步骤313中，第一处理器30撷取训练图像中的多个图像特征。

在一实施例中，当辨识***同时接收到训练语音及训练图像时，步骤310～311与步骤312～313的执行顺序可以互换。在一实施例中，第一处理器30仅执行步骤310～311或步骤312～313其中之一，视使用者输入的是训练语音或是训练图像而定。

在步骤314中，第一处理器30产生一特定数量的多个语音参数或影音参数。关于语音参数和/或影音参数的产生方式如图2步骤230的对应段落所述，故此处不再赘述之。

在步骤315中，第一处理器30设置一训练答案。例如，当训练语音为对应“零”的发音时，将训练语音的设置答案设为“零”的发音，和/或当训练图像为“0”的图像时，将训练图像的设置答案设为“0”的图像。

在步骤316中，第一处理器30将语音参数或图像特征输入一深度神经网络，并执行深度神经网络的演算法程序。关于此步骤的细部内容如图2步骤230的对应段落所述，故此处不再赘述。

在步骤317中，第一处理器30产生辨识模型。

在步骤318中，第一处理器30将深度神经网络输出的一分析结果代入一修正准确度模型，藉此判断深度神经网络输出的分析结果所对应的一辨识率是否大于一准确度门槛值，若第一处理器30判断深度神经网络输出的分析结果所对应的辨识率不大于准确度门槛值，则应用一梯度下降演算法修正辨识模型中的一权重值及一偏权值。例如，第一处理器30判断深度神经网络输出的分析结果所对应的辨识率为60％，其不大于准确度门槛值98％时，则应用梯度下降演算法修正辨识模型中的权重值(weights)及偏权值(bias)。其中，应用梯度下降演算法调整深度神经网络中的权重值及偏权值为本领域的已知技术，故此处不赘述之。另外，本案并不限于采用梯度下降演算法，任何可以调整深度神经网络的辨识率的演算法皆可考虑采用于辨识***中。

其中，修正准确度模型包含多组参数及函式，其可以采用已知的修正准确度模型，故此处不赘述之。

在一实施例中，第一处理器30在训练辨识模型的阶段，可藉由多次执行步骤310～318，输入不同或相同的训练数据(如训练语音和/或训练图像)，以提升辨识模型的准确度。

在一实施例中，第一处理器30可将辨识模型储存于第一电子装置100中。

接着，第一处理器30将辨识模型传送到第二处理器40。

在步骤350中，第二处理器40接收一新增数据。

在步骤351中，第二处理器40撷取新增数据的多个新增特征，并选取特定数量的此些新增特征作为多个新增参数。

在步骤352中，第二处理器40将此些新增参数代入辨识模型。

在步骤353中，第二处理器40产生一预测结果。

虽然本案已以实施例揭露如上，然其并非用以限定本案，任何熟习此技艺者，在不脱离本案的精神和范围内，当可作各种的更动与润饰，因此本案的保护范围当以权利要求限定的范围为准。

Claims

1.一种辨识***，其特征在于，所述***包含：

一收音器，用以接收一训练语音；

一摄像机，用以接收一训练图像；以及

一第一处理器，用以撷取所述训练语音中的多个语音特征，或撷取所述训练图像中的多个图像特征；

其中，当所述第一处理器撷取出所述语音特征后，依据所述语音特征产生一特定数量的多个语音参数，将所述语音参数输入一深度神经网络，以产生一辨识模型；

其中，当所述第一处理器撷取出所述图像特征后，依据所述图像特征产生所述特定数量的多个图像参数，并将所述图像参数输入所述深度神经网络，以产生所述辨识模型。

2.根据权利要求1所述的辨识***，其特征在于，还包含：

一第二处理器，用以撷取一新增数据的多个新增特征，选取所述特定数量的所述新增特征作为多个新增参数，将所述新增参数代入所述辨识模型，以辨识所述新增数据，并产生一预测结果。

3.根据权利要求1所述的辨识***，其特征在于，所述第一处理器执行梅尔倒频谱系数演算法以撷取所述训练语音中的所述语音特征，依据所述语音特征产生所述特定数量的所述个语音参数，并将所述语音参数以一维特征集的方式呈现之。

4.根据权利要求1所述的辨识***，其特征在于，所述第一处理器分析所述训练图像中的每个像素，以取得所述图像特征，并将所述图像特征进行一化减运算以产生所述特定数量的所述图像参数，并将所述图像参数以一维特征集的方式呈现之。

5.根据权利要求4所述的辨识***，其特征在于，所述化减运算为将所述像素分成多个群组，并取出各所述群组中的一中间值作为所述图像参数的其中的一者，或是计算各所述群组的一平均值作为所述图像参数的其中的一者。

6.根据权利要求1所述的辨识***，其特征在于，所述第一处理器将所述语音参数及一训练答案输入所述深度神经网络，以产生所述辨识模型，或所述第一处理器将所述图像参数及所述训练答案输入所述深度神经网络，以产生所述辨识模型。

7.根据权利要求1所述的辨识***，其特征在于，所述第一处理器判断所述深度神经网络输出的一分析结果所对应的一辨识率是否大于一准确度门槛值，若所述第一处理器判断所述深度神经网络网络输出的所述分析结果所对应的所述辨识率不大于所述准确度门槛值，则应用一梯度下降演算法修正所述辨识模型中的一权重值及一偏权值。

8.一种辨识方法，其特征在于，所述方法包含：

接收一训练语音或接收一训练图像；以及

撷取所述训练语音中的多个语音特征，或撷取所述训练图像中的多个图像特征；

其中，当撷取出所述语音特征后，依据所述语音特征产生一特定数量的多个语音参数，将所述语音参数输入一深度神经网络，以产生一辨识模型；

其中，当撷取出所述图像特征后，依据所述图像特征产生所述特定数量的多个图像参数，并将所述图像参数输入所述深度神经网络，以产生所述辨识模型。

9.根据权利要求8所述的辨识方法，其特征在于，还包含：

撷取一新增数据的多个新增特征，选取所述特定数量的所述新增特征作为多个新增参数，将所述新增参数代入所述辨识模型，以辨识所述新增数据，并产生一预测结果。

10.根据权利要求8所述的辨识方法，其特征在于，还包含：

分析所述训练图像中的每个像素，以取得所述图像特征，并将所述图像特征进行一化减运算以产生所述特定数量的所述图像参数，并将所述图像参数以一维特征集的方式呈现。