CN111292764A - 辨识***及辨识方法 - Google Patents

辨识***及辨识方法 Download PDF

Info

Publication number
CN111292764A
CN111292764A CN201811628418.1A CN201811628418A CN111292764A CN 111292764 A CN111292764 A CN 111292764A CN 201811628418 A CN201811628418 A CN 201811628418A CN 111292764 A CN111292764 A CN 111292764A
Authority
CN
China
Prior art keywords
image
parameters
features
training
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811628418.1A
Other languages
English (en)
Other versions
CN111292764B (zh
Inventor
简婉轩
沈子岚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuvoton Technology Corp
Original Assignee
Nuvoton Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuvoton Technology Corp filed Critical Nuvoton Technology Corp
Publication of CN111292764A publication Critical patent/CN111292764A/zh
Application granted granted Critical
Publication of CN111292764B publication Critical patent/CN111292764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种辨识***及辨识方法,该辨识方法,包含:接收一训练语音或接收一训练图像;以及撷取训练语音中的多个语音特征,或撷取训练图像中的多个图像特征;其中,当撷取出此些语音特征后,依据此些语音特征产生一特定数量的多个语音参数,将此些语音参数输入一深度神经网络,以产生一辨识模型;其中,当撷取出此些图像特征后,依据此些图像特征产生特定数量的多个图像参数,并将些图像参数输入深度神经网络,以产生辨识模型。

Description

辨识***及辨识方法
技术领域
本发明是关于一种辨识***及辨识方法,特别是关于一种可以辨识声音或图像的辨识***及辨识方法。
背景技术
一般而言,在辨识图像(image)或声音时,可以用隐藏式马可夫模型(HiddenMarkov Models,HMM),此演算法通过对大量语音与图像数据进行数据统计,建立识别字的统计模型,然后从待识别语音和图像中分别提取特征,并将此些特征与统计模型中的多个参数比对,以获得多个候选结果及其对应的比对分数,并选择比对分数较高者所对应的候选结果,作为辨识结果。
然而,此演算法若要达到辨识图像和/或声音两者,使用的统计模型应分属两个***,所需的储存空间较高,亦无法以单一统计模型辨识出图像和/或声音。
发明内容
为了解决上述的问题,本发明内容的一态样提供了一种辨识***,包含:一收音器、一摄像机以及一第一处理器。收音器用以接收一训练语音。摄像机用以接收一训练图像。第一处理器用以撷取训练语音中的多个语音特征,或撷取训练图像中的多个图像特征。其中,当第一处理器撷取出此些语音特征后,依据此些语音特征产生一特定数量的多个语音参数,将此些语音参数输入一深度神经网络(Deep Neural Networks,DNN),以产生一辨识模型,当第一处理器撷取出此些图像特征后,依据此些图像特征产生特定数量的多个图像参数,并将此些图像参数输入深度神经网络,以产生辨识模型。
本发明的另一态样提供一种辨识方法,包含:接收一训练语音或接收一训练图像;以及撷取训练语音中的多个语音特征,或撷取训练图像中的多个图像特征;其中,当撷取出此些语音特征后,依据此些语音特征产生一特定数量的多个语音参数,将此些语音参数输入一深度神经网络,以产生一辨识模型;其中,当撷取出此些图像特征后,依据此些图像特征产生特定数量的多个图像参数,并将此些图像参数输入所述深度神经网络,以产生辨识模型。
藉由本案所述的辨识***及辨识方法,在训练辨识模型的阶段,能够接收训练语音或是训练图像,藉由将撷取出来的语音特征或是图像特征转换成一维特征集(例如为一数列),并将此一维特征集代入深度神经网络,以产生辨识模型。本案只需一个辨识***,即可产生语音、图像或其两者的辨识结果,因此,本案所述的辨识***及辨识方法可大幅降低运算量,且当同时以训练语音及训练图像进行辨识模型的训练时,可提升辨识模型在预测新增数据时的准确度,故能够达到精准地预测新增数据的类型的效果。
附图说明
图1A为依照本发明一实施例绘示辨识***的方块图;
图1B为依照本发明一实施例绘示辨识***的方块图;
图2为根据本发明的一实施例绘示一种辨识方法的流程图;
图3为依照本发明一实施例绘示辨识方法的一例。
附图标记说明
100:第一电子装置;
10:收音器;
20:摄像机;
30:第一处理器;
40:第二处理器;
50:储存装置;
150:第一处理器;
LK:通信连结;
200:辨识方法;
210~240、310~353:步骤。
具体实施方式
以下说明为完成发明的较佳实现方式,其目的在于描述本发明的基本精神,但并不用以限定本发明。实际的发明内容必须参考权利要求范围。
必须了解的是,使用于本说明书中的“包含”、“包括”等词,用以表示存在特定的技术特征、数值、方法步骤、作业处理、器件以和/或组件,但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、器件、组件,或以上的任意组合。
在请求项中使用如“第一”、“第二”、“第三”等词用来修饰权利要求中的器件,并非用来表示之间具有优先权顺序,先行关系,或者是一个器件先于另一个器件,或者是执行方法步骤时的时间先后顺序,仅用来区别具有相同名字的器件。
请参照图1A~1B、图2,图1A为依照本发明一实施例绘示辨识***的方块图。图1B为根据本发明的一实施例绘示一种辨识***的示意图。图2为根据本发明的一实施例绘示一种辨识方法200的流程图。
在图1A中,辨识***包含一第一电子装置100,第一电子装置100包含收音器10、摄像机20及第一处理器30。在一实施例中,第一电子装置100例如为台式机电脑、笔记本电脑或其他具有运算功能的装置。在一实施例中,第一电子装置100可以是位于云端***中的一服务器或是一远端服务器。
在一实施例中,收音器10可以是一麦克风或具有收音功能的电子装置。
在一实施例中,摄像机20可以是由至少一电荷耦合器件(Charge CoupledDevice;CCD)或一互补式金属氧化物半导体(Complementary Metal-OxideSemiconductor;CMOS)感测器所组成。
在一实施例中,第一处理器30可以被实施为微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signal processor)、特殊应用集成电路(application specific integrated circuit,ASIC)或一逻辑电路。
在一实施例中,辨识***更包含一储存装置(未绘示),用以储存第一处理器30的运算结果,储存装置可被实作为只读存储器、快闪存储器、软盘、硬盘、光盘、U盘、磁带、可由网络存取的数据库或熟悉此技艺者可轻易思及具有相同功能的储存媒体。
在图1B中,辨识***更包含一第二电子装置150,第一电子装置100与第二电子装置150之间藉由一通信连结LK(例如为无线网络、有线网络或其他通信方式)以传输信息。在一实施例中,第二电子装置150包含一第二处理器40及一储存装置50。在一实施例中,第二电子装置150例如为语音盒子或其他可接收语音或图像的电子装置。
在一实施例中,第二处理器40可以被实施为微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signal processor)、特殊应用集成电路(application specific integrated circuit,ASIC)或一逻辑电路。在一实施例中,第一处理器30的运算能力高于第二处理器40。
在一实施例中,储存装置50可被实作为只读存储器、快闪存储器、软盘、硬盘、光盘、U盘、磁带、可由网络存取的数据库或熟悉此技艺者可轻易思及具有相同功能的储存媒体。
以下请参阅图2叙述本发明的辨识方法200的流程,辨识方法200中所提及的硬件可以由图1A或图1B中的对应硬件以实现。
在步骤210中,藉由收音器10接收一训练语音或藉由摄像机20接收一训练图像。例如,收音器10接收到的训练语音为“零”的发音和/或是摄像机20拍摄到具有“0”图样的训练图像。
在一实施例中,第一电子装置100可同时或是先后接收一或多个训练图像(例如依序输入一组具有“0”到“9”图样的训练图像)和/或一或多个训练语音(例如依序输入一组具有“零”到“九”发音的训练语音),在后续步骤中,仅先针对一笔训练图像或是一个训练语音进行处理,例如,先将训练语音为“零”的发音和/或将训练图像“0”交由第一处理器30继续进行步骤220,并以相同步骤依序处理其他训练图像和/或训练语音(例如,接着将训练语音为“壹”的发音和/或将训练图像“1”送往下个步骤220)。
在一实施例中,第一电子装置100只需要接收到一个训练语音或是一个训练图像即可进行后续步骤,不需接收到训练语音及训练图像两者。
在步骤220中,第一处理器30撷取训练语音中的多个语音特征,或撷取训练图像中的多个图像特征。在一实施例中,当第一处理器30接收到训练语音时,撷取训练语音中的多个语音特征,当第一处理器30接收到训练图像时,撷取训练语音中的多个图像特征,当第一处理器30接收到训练图像及训练语音时,依据接收到的顺序以撷取出图像特征及语音特征。
在一实施例中,第一处理器30执行梅尔倒频谱系数(Mel-scale FrequencyCepstral Coefficients,MFCC)演算法以撷取训练语音中的此些语音特征。然本发明并不限于应用梅尔倒频谱系数演算法,亦可依***实际实作方式采用其他撷取语音特征的演算法。
在一实施例中,第一处理器30分析训练图像中的每个像素,以取得此些图像特征。例如,第一处理器30可以获取训练图像中每个点的像素值,将每个像素值都视为图像特征。然本发明并不限于此,亦可依***实际实作方式采用其他撷取图像特征的演算法。
在步骤230中,当撷取出此些语音特征后,第一处理器30依据此些语音特征产生一特定数量的多个语音参数,第一处理器30载入深度神经网络的程序,将此些语音参数输入一深度神经网络(Deep Neural Networks,DNN)并执行深度神经网络的演算法程序;由于深度神经网络为已知技术,为一种让电脑可以自行分析数据找出特征值的演算法,故此处不赘述之。当撷取出此些图像特征后,第一处理器30依据此些图像特征产生特定数量的多个图像参数,并将此些图像参数输入深度神经网络。
在一实施例中,当第一处理器30撷取出此些语音特征后,第一处理器30依据此些语音特征产生特定数量的语音参数(例如为250个),并将此些语音参数以一维特征集的方式呈现之。
在一实施例中,当第一处理器30撷取出此些图像特征后,第一处理器30将此些图像特征进行一化减运算以产生特定数量的图像参数(例如为250个),并将此些图像参数以一维特征集的方式呈现之。
在一实施例中,无论第一处理器30处理的是语音特征或是图像特征,其输出的语音参数或图像参数的数量都会是预设的特定数量(例如为250个)。其中,特定数量的设定并不限于此,亦可以例如为300、500或1000,可依据***实作时进行调整。
在一实施例中,当第一处理器30处理的是图像特征时,化减运算为将图像中所有像素分成多个群组(例如原始图像为28*28为784个像素,将每三个像素分为一组,多余无法成为一组的像素,则自成一组),并取出各群组中的一中间值作为图像参数的其中的一者(例如,某一组中的像素值为100、150、200,则取像素值150为图像参数的其中的一者,舍去100及200此两个像素值),或是计算各群组的一平均值作为图像参数的其中的一者(例如,某一组中的像素值为100、150、200,则将此三者像素值取平均,得到平均值150,则取像素值150为图像参数的其中的一者),藉此可以化简图像特征的数量,以得到所需数量的图像参数(例如,在此例子特定数量可以设定为262个),并将此些图像参数以一维特征集的方式(例如为数列)呈现之,第一处理器30并将此些图像参数以一维特征集的方式代入深度神经网络,并执行深度神经网络的演算法程序。
其中,化减运算的方法并不限于此,可依据***实作时进行调整。此外,语音特征亦可以进行化简运算,其方式与图像特征的化简运算相似,故此处不赘述之。
在步骤240中,第一处理器30应用深度神经网络建立辨识模型。由于深度神经网络为已知技术,本案仅是应用深度神经网络建立辨识模型,故此处不赘述之。
在一实施例中,当第一处理器30处理此些语音参数时,第一处理器30将此些语音参数及一训练答案(例如,答案为“零”的发音)输入深度神经网络,并执行深度神经网络的演算法程序,以产生辨识模型。
在一实施例中,当第一处理器30处理此些图像参数时,将此些图像参数及训练答案(例如,答案为“0”的图像)输入深度神经网络,以产生辨识模型。
在一实施例中,上述步骤210~240可以重复进行,以训练辨识模型,提升辨识模型的辨识率,当训练完成辨识模型后,第一处理器30通过通信连结LK将辨识模型传送至第二电子装置150,第二电子装置150可将辨识模型储存于储存装置50中。接着,第二处理器40用以撷取一新增数据(例如,使用者念出一新增语音“零”和/或手写一新增图像“0”)的多个新增特征,选取特定数量的此些新增特征作为多个新增参数(例如为250个),将此些新增参数代入第二电子装置150中的辨识模型,以辨识新增数据,并产生一预测结果(例如,产生预测结果为:使用者念出了“零”或是使用者提供了包含“0”的图像)。
在一实施例中,在选取特定数量的此些新增特征作为多个新增参数的步骤中,此处所述的特定数量与步骤230所述的特定数量是相同的(例如皆设置为250),故辨识模型可以在不修改架构的情况下预测新数据的类型(即产生预测结果)。
在一实施例中,第二处理器40(例如为语音盒子中的微处理器)的运算能力不及第一处理器30(例如为服务器中的处理器),通过上述步骤,第一处理器30可接收大量训练数据(如训练语音或训练图像)并执行大量运算,以完成辨识模型的训练,并将完成训练的辨识模型传送给第二电子装置150,使得第二处理器40在接收新增数据后,直接应用辨识模型进行辨识,大幅减低了第二处理器40所需要的运算量。
换言之,第一处理器30可根据训练数据(如训练语音和/或训练图像)的类型,将训练数据转换成一维特征集,此一维特征集中包含特定数量的参数。例如,在一维特征集之中包含250个语音参数,在另一个一维特征集之中包含250个图像参数,两者一维特征集中的参数数量相同,由于图像参数及语音参数的数量相同,无论输入的是图像参数或语音参数,对于深度神经网络而言,深度神经网络都是接收到250笔数值,无须考虑此250笔数值为图像参数或语音参数,即可进行运算。因此,本发明可达到在同一个辨识***上做到可接收两种以上训练数据(如训练语音或训练图像),并加以辨识的效果。
由此可知,无论辨识***收到的是训练语音或是训练图像,都可以藉由将撷取出来的语音特征或是图像特征转换成一维特征集(例如为一数列),并将此一维特征集代入深度神经网络,以产生辨识模型。因此,本案只需一个辨识***,即可产生语音、图像或其两者的辨识结果。
请参阅图3,图3为依照本发明一实施例绘示辨识方法的一例。其中,步骤310~318是由第一电子装置100执行,步骤350~353是由第二电子装置150执行。在一实施例中,步骤310~318为辨识模型的训练阶段,藉由输入大量的训练数据(训练语音和/或训练图像)以产生辨识率高于一准确度门槛值(例如准确率为98%)的辨识模型,步骤350~353为应用辨识模型以预测出一新增数据(例如为手写“0”的图像)所属的类型(例如预测为数字“0”)。以下更具体地说明图3中的各个步骤。
在步骤310中,收音器10接收一训练语音。
在步骤311中,第一处理器30撷取训练语音中的多个语音特征。
在步骤312中,摄像机20接收一训练图像。
在步骤313中,第一处理器30撷取训练图像中的多个图像特征。
在一实施例中,当辨识***同时接收到训练语音及训练图像时,步骤310~311与步骤312~313的执行顺序可以互换。在一实施例中,第一处理器30仅执行步骤310~311或步骤312~313其中之一,视使用者输入的是训练语音或是训练图像而定。
在步骤314中,第一处理器30产生一特定数量的多个语音参数或影音参数。关于语音参数和/或影音参数的产生方式如图2步骤230的对应段落所述,故此处不再赘述之。
在步骤315中,第一处理器30设置一训练答案。例如,当训练语音为对应“零”的发音时,将训练语音的设置答案设为“零”的发音,和/或当训练图像为“0”的图像时,将训练图像的设置答案设为“0”的图像。
在步骤316中,第一处理器30将语音参数或图像特征输入一深度神经网络,并执行深度神经网络的演算法程序。关于此步骤的细部内容如图2步骤230的对应段落所述,故此处不再赘述。
在步骤317中,第一处理器30产生辨识模型。
在步骤318中,第一处理器30将深度神经网络输出的一分析结果代入一修正准确度模型,藉此判断深度神经网络输出的分析结果所对应的一辨识率是否大于一准确度门槛值,若第一处理器30判断深度神经网络输出的分析结果所对应的辨识率不大于准确度门槛值,则应用一梯度下降演算法修正辨识模型中的一权重值及一偏权值。例如,第一处理器30判断深度神经网络输出的分析结果所对应的辨识率为60%,其不大于准确度门槛值98%时,则应用梯度下降演算法修正辨识模型中的权重值(weights)及偏权值(bias)。其中,应用梯度下降演算法调整深度神经网络中的权重值及偏权值为本领域的已知技术,故此处不赘述之。另外,本案并不限于采用梯度下降演算法,任何可以调整深度神经网络的辨识率的演算法皆可考虑采用于辨识***中。
其中,修正准确度模型包含多组参数及函式,其可以采用已知的修正准确度模型,故此处不赘述之。
在一实施例中,第一处理器30在训练辨识模型的阶段,可藉由多次执行步骤310~318,输入不同或相同的训练数据(如训练语音和/或训练图像),以提升辨识模型的准确度。
在一实施例中,第一处理器30可将辨识模型储存于第一电子装置100中。
接着,第一处理器30将辨识模型传送到第二处理器40。
在步骤350中,第二处理器40接收一新增数据。
在步骤351中,第二处理器40撷取新增数据的多个新增特征,并选取特定数量的此些新增特征作为多个新增参数。
在步骤352中,第二处理器40将此些新增参数代入辨识模型。
在步骤353中,第二处理器40产生一预测结果。
藉由本案所述的辨识***及辨识方法,在训练辨识模型的阶段,能够接收训练语音或是训练图像,藉由将撷取出来的语音特征或是图像特征转换成一维特征集(例如为一数列),并将此一维特征集代入深度神经网络,以产生辨识模型。本案只需一个辨识***,即可产生语音、图像或其两者的辨识结果,因此,本案所述的辨识***及辨识方法可大幅降低运算量,且当同时以训练语音及训练图像进行辨识模型的训练时,可提升辨识模型在预测新增数据时的准确度,故能够达到精准地预测新增数据的类型的效果。
虽然本案已以实施例揭露如上,然其并非用以限定本案,任何熟习此技艺者,在不脱离本案的精神和范围内,当可作各种的更动与润饰,因此本案的保护范围当以权利要求限定的范围为准。

Claims (10)

1.一种辨识***,其特征在于,所述***包含:
一收音器,用以接收一训练语音;
一摄像机,用以接收一训练图像;以及
一第一处理器,用以撷取所述训练语音中的多个语音特征,或撷取所述训练图像中的多个图像特征;
其中,当所述第一处理器撷取出所述语音特征后,依据所述语音特征产生一特定数量的多个语音参数,将所述语音参数输入一深度神经网络,以产生一辨识模型;
其中,当所述第一处理器撷取出所述图像特征后,依据所述图像特征产生所述特定数量的多个图像参数,并将所述图像参数输入所述深度神经网络,以产生所述辨识模型。
2.根据权利要求1所述的辨识***,其特征在于,还包含:
一第二处理器,用以撷取一新增数据的多个新增特征,选取所述特定数量的所述新增特征作为多个新增参数,将所述新增参数代入所述辨识模型,以辨识所述新增数据,并产生一预测结果。
3.根据权利要求1所述的辨识***,其特征在于,所述第一处理器执行梅尔倒频谱系数演算法以撷取所述训练语音中的所述语音特征,依据所述语音特征产生所述特定数量的所述个语音参数,并将所述语音参数以一维特征集的方式呈现之。
4.根据权利要求1所述的辨识***,其特征在于,所述第一处理器分析所述训练图像中的每个像素,以取得所述图像特征,并将所述图像特征进行一化减运算以产生所述特定数量的所述图像参数,并将所述图像参数以一维特征集的方式呈现之。
5.根据权利要求4所述的辨识***,其特征在于,所述化减运算为将所述像素分成多个群组,并取出各所述群组中的一中间值作为所述图像参数的其中的一者,或是计算各所述群组的一平均值作为所述图像参数的其中的一者。
6.根据权利要求1所述的辨识***,其特征在于,所述第一处理器将所述语音参数及一训练答案输入所述深度神经网络,以产生所述辨识模型,或所述第一处理器将所述图像参数及所述训练答案输入所述深度神经网络,以产生所述辨识模型。
7.根据权利要求1所述的辨识***,其特征在于,所述第一处理器判断所述深度神经网络输出的一分析结果所对应的一辨识率是否大于一准确度门槛值,若所述第一处理器判断所述深度神经网络网络输出的所述分析结果所对应的所述辨识率不大于所述准确度门槛值,则应用一梯度下降演算法修正所述辨识模型中的一权重值及一偏权值。
8.一种辨识方法,其特征在于,所述方法包含:
接收一训练语音或接收一训练图像;以及
撷取所述训练语音中的多个语音特征,或撷取所述训练图像中的多个图像特征;
其中,当撷取出所述语音特征后,依据所述语音特征产生一特定数量的多个语音参数,将所述语音参数输入一深度神经网络,以产生一辨识模型;
其中,当撷取出所述图像特征后,依据所述图像特征产生所述特定数量的多个图像参数,并将所述图像参数输入所述深度神经网络,以产生所述辨识模型。
9.根据权利要求8所述的辨识方法,其特征在于,还包含:
撷取一新增数据的多个新增特征,选取所述特定数量的所述新增特征作为多个新增参数,将所述新增参数代入所述辨识模型,以辨识所述新增数据,并产生一预测结果。
10.根据权利要求8所述的辨识方法,其特征在于,还包含:
分析所述训练图像中的每个像素,以取得所述图像特征,并将所述图像特征进行一化减运算以产生所述特定数量的所述图像参数,并将所述图像参数以一维特征集的方式呈现。
CN201811628418.1A 2018-11-20 2018-12-28 辨识***及辨识方法 Active CN111292764B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW107141171 2018-11-20
TW107141171A TWI682325B (zh) 2018-11-20 2018-11-20 辨識系統及辨識方法

Publications (2)

Publication Number Publication Date
CN111292764A true CN111292764A (zh) 2020-06-16
CN111292764B CN111292764B (zh) 2023-12-29

Family

ID=69942488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811628418.1A Active CN111292764B (zh) 2018-11-20 2018-12-28 辨识***及辨识方法

Country Status (3)

Country Link
US (1) US11216729B2 (zh)
CN (1) CN111292764B (zh)
TW (1) TWI682325B (zh)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) * 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US20220254006A1 (en) * 2019-07-11 2022-08-11 Lg Electronics Inc. Artificial intelligence server
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11514926B2 (en) * 2020-06-23 2022-11-29 Amazon Technologies, Inc. Low power mode for speech capture devices
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005038774A1 (en) * 2003-10-22 2005-04-28 Auckland University Of Technology Adaptive sound and image learning system and method
CN101472066A (zh) * 2007-12-27 2009-07-01 华晶科技股份有限公司 影像撷取装置的近端控制方法及应用该方法的影像撷取装置
US20110071830A1 (en) * 2009-09-22 2011-03-24 Hyundai Motor Company Combined lip reading and voice recognition multimodal interface system
TW201117110A (en) * 2009-11-10 2011-05-16 Inst Information Industry Behavior recognition system and recognition method by combining image and speech, and the computer
CN102074232A (zh) * 2009-11-25 2011-05-25 财团法人资讯工业策进会 结合影音的行为辨识***及其辨识方法
TW201238326A (en) * 2011-03-04 2012-09-16 Tung-Fa Wu Real-time interactive 3D entertainment device and 3D replication
CN106355171A (zh) * 2016-11-24 2017-01-25 深圳凯达通光电科技有限公司 一种视频监控联网***
US20170148430A1 (en) * 2015-11-25 2017-05-25 Samsung Electronics Co., Ltd. Method and device for recognition and method and device for constructing recognition model
TW201807619A (zh) * 2016-08-26 2018-03-01 原相科技股份有限公司 基於深度學習架構的圖像辨識方法及系統
CN108536278A (zh) * 2017-03-03 2018-09-14 财团法人资讯工业策进会 辨识***及辨识方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11321609B2 (en) * 2016-10-19 2022-05-03 Samsung Electronics Co., Ltd Method and apparatus for neural network quantization

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005038774A1 (en) * 2003-10-22 2005-04-28 Auckland University Of Technology Adaptive sound and image learning system and method
CN101472066A (zh) * 2007-12-27 2009-07-01 华晶科技股份有限公司 影像撷取装置的近端控制方法及应用该方法的影像撷取装置
US20110071830A1 (en) * 2009-09-22 2011-03-24 Hyundai Motor Company Combined lip reading and voice recognition multimodal interface system
TW201117110A (en) * 2009-11-10 2011-05-16 Inst Information Industry Behavior recognition system and recognition method by combining image and speech, and the computer
CN102074232A (zh) * 2009-11-25 2011-05-25 财团法人资讯工业策进会 结合影音的行为辨识***及其辨识方法
TW201238326A (en) * 2011-03-04 2012-09-16 Tung-Fa Wu Real-time interactive 3D entertainment device and 3D replication
US20170148430A1 (en) * 2015-11-25 2017-05-25 Samsung Electronics Co., Ltd. Method and device for recognition and method and device for constructing recognition model
TW201807619A (zh) * 2016-08-26 2018-03-01 原相科技股份有限公司 基於深度學習架構的圖像辨識方法及系統
CN106355171A (zh) * 2016-11-24 2017-01-25 深圳凯达通光电科技有限公司 一种视频监控联网***
CN108536278A (zh) * 2017-03-03 2018-09-14 财团法人资讯工业策进会 辨识***及辨识方法

Also Published As

Publication number Publication date
TWI682325B (zh) 2020-01-11
CN111292764B (zh) 2023-12-29
US11216729B2 (en) 2022-01-04
US20200160179A1 (en) 2020-05-21
TW202020730A (zh) 2020-06-01

Similar Documents

Publication Publication Date Title
CN111292764B (zh) 辨识***及辨识方法
US20240038218A1 (en) Speech model personalization via ambient context harvesting
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US10679643B2 (en) Automatic audio captioning
US20170358306A1 (en) Neural network-based voiceprint information extraction method and apparatus
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
Zhou et al. A compact representation of visual speech data using latent variables
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN113035231B (zh) 关键词检测方法及装置
KR100729316B1 (ko) 학습 장치 및 학습 방법, 인식 장치 및 인식 방법, 및기록 매체
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质
JP7360814B2 (ja) 音声処理装置及び音声処理プログラム
CN113192530B (zh) 模型训练、嘴部动作参数获取方法、装置、设备及介质
CN110570877A (zh) 手语视频生成方法、电子设备及计算机可读存储介质
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
JP4864783B2 (ja) パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
CN114283791A (zh) 一种基于高维声学特征的语音识别方法及模型训练方法
CN115700871A (zh) 模型训练和语音合成方法、装置、设备及介质
JPH08123469A (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP4345156B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
Michael et al. Preliminary Evaluation of Convolutional Neural Network Acoustic Model for Iban Language Using NVIDIA NeMo
JP4340939B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
CN112951270A (zh) 语音流利度检测的方法、装置和电子设备
JP7287442B2 (ja) 情報処理装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant