CN107808659A - 智能语音信号模式识别***装置 - Google Patents

智能语音信号模式识别***装置 Download PDF

Info

Publication number
CN107808659A
CN107808659A CN201711253194.6A CN201711253194A CN107808659A CN 107808659 A CN107808659 A CN 107808659A CN 201711253194 A CN201711253194 A CN 201711253194A CN 107808659 A CN107808659 A CN 107808659A
Authority
CN
China
Prior art keywords
voice
signal
typing
sound
present
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711253194.6A
Other languages
English (en)
Inventor
宫文峰
张泽辉
刘志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201711253194.6A priority Critical patent/CN107808659A/zh
Publication of CN107808659A publication Critical patent/CN107808659A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种智能语音信号模式识别***装置,包含有框体10,所述框体10设置有腔体,在框体10中设置有语音采集模块1、语音识别模块2、中央处理器3、无线信号收发装置4、显示屏8、存储器33、网络模块31、内存卡32、扬声器35和电源9,语音采集模块1包含有话筒11、无线对讲机12和固定录音器13,语音识别模块2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23,语音信号由语音采集模块1采集,采集到的信号由语音识别模块2处理,数据信号由存储器33保存,人机交互的操作流程以及结果的输出的可视化由显示屏8显示,因此,人们识别语音信号更方便。

Description

智能语音信号模式识别***装置
技术领域
本发明公开了一种智能语音信号模式识别***装置,属于智能电子产品技术领域,具体地说是装备了语音采集模块、语音识别模块、控制***及扬声器为一体的一种智能语音信号模式识别***装置。
背景技术
在人们的日常生活中,存在着各种各样的语号信号,如人们的交流发出的语音信号、机器运作产生的声音、播放音乐发出的声音、汽车鸣笛产生的声音等,语音信号几乎充斥了整个生活环境周围,有些时候人们希望准确的获悉和识别一组语音信号中是由哪些对象发出的。在常见的声音信号中,人们往往可以辨别出不同的声音是由什么物体发出的,但是当多种对象同时发出声音时,尤其是多个同类对象同时发声时,或者录音环境嘈杂,人们很难区别哪种声音是由哪个物体发出的,例如,在一组多人辩论现象的录音中,讲话的人数较多时,人们很难通过听录音而区分出哪些话是哪个辩手说的。因此,人们通常需要一种能够识别语音的装置。
在本发明之前,市面上也存在一些识别语音的产品,倒如一些语音输入软件等,但是大多是识别语音中的文字或字母,或者是对简单的单一语音进行配对识别,也有的可以通过对着手机等产品说话,手机识别语音语义后完成某些任务,如打电话搜索等简单任务,但是无法实现对语音特征的区别,不能准确的识别区分出相似语音或相同的词语是由哪个人或对象说出的类似问题。因此,不便于人们的灵活使用。
发明内容
为了克服上述技术缺点,本发明的目的是提供一种智能语音信号模式识别***装置,可以方便的识别和记录语音信号及提出特征参数,并通过对现有信号进行对未知语音信号进行智能模式识别、分类和提取。
为达到上述目的,本发明采取的技术方案是:包含有框体10,框体10设置有腔体,在框体10中设置有语音采集模块1、语音识别模块2、中央处理器3、无线信号收发装置4、显示屏8、存储器33、网络模块31、内存卡32、扬声器35和电源9,语音采集模块1包含有话筒11、无线对讲机12和固定录音器13,语音识别模块2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23,语音信号由语音采集模块1采集,采集到的信号由语音识别模块2处理,数据信号由存储器33保存,人机交互的操作流程以及结果的输出的可视化由显示屏8显示,扬声器35设置为对操作步骤进行语音提示及播报识别结果,网络模块31设置为将本发明与互联网云平台进行连接,中央处理器3设置为对整个***装置的程序控制及数据运算,无线信号收发装置4设置为对无线对讲机12、智能手机、网络模块31所产生的无线电信号进行接收、发射及将本发明与互联网无线连接,内存卡32设置为将已录制的外部语音数据读入本发明数据库中。
本发明设计了,语音输入单元20设置为包含有“语音录入模式”和“语音测试模式”两种类型,可通过语音采集模块1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音,在“语音录入模式”中,语音输入单元20设置为一次只能对一个人或一个对象进行语音录入,其特征在于,录入的语音为一段5~30秒的音频信号,本发明采用多状态语音录入策略,其特征在于,录入的语音中可包含有正常讲话、唱歌或者高/中/低音的多状态组合语音,显示器8实时显示语音波形及完成进度条,录入语音完毕后需要进行数据标记,标记方法采用人工手动标记,如采集完张三的声音,即在本发明显示屏8显示的对话框中备注:“张三的声音”,保存即可,录入的语音保存在存储器33中,在“语音测试模式”下,本发明通过语音采集模块1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音,测试语音采集过程为实时采集,没有任何人数、对象和时间的限制。
本发明设计了,语音输入单元20设置为与语音采集模块1相连接,话筒11通过音频线连接到语音采集模块1,无线对讲机12通过无线电信号与语音采集模块1连接。
本发明设计了,语音采集模块1还可采用智能手机进行语音信号输入,通过用手机与本发明语音采集模块1匹配连接,匹配方式包括蓝牙、红外线、WIFI以及扫描二维码进行连接,实现语音录入,相当于把手机当成无线语筒使用,更方便于多人群语音互动。
本发明设计了,语音预处理单元21把语音采集模块1采集到的语音信号转变为电信号,即将模拟信号转变为数字信号,然后进行常规的信号处理,包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。
本发明设计了,语音信号特征提取单元22设置为从原始语音信号中提取出反映语音本质的主要特征参数,形成特征向量xi,xi=(xi1,xi2,…xij,…,xin)T,xij表示第i个对象或个人的第j个语音特征值,特征参数提取方法优选的采用频率倒谱系数法(MFCC),还可采用谱包络法、LPC内插法、LPC求根法、希尔伯特变换法等得到声学特征,提取特征后得到的特征向量***将自动保存到模式类数据库中,一个对象或人的所有声音特征对应一个模式类,若录入N个人或对象的语音后,即得到N个模式类,若每个模式类有n个特征参数,即可构成n维特征空间,即标记后的特征信号集可记为D={(x1,y1),(x2,y2),…(xi,yi),…,(xN,yN)},其中xi∈χ=Rn,xi表示所录入的第i个对象或人的语音特征信号,yi∈Y={1,2,…,N},yi表示第i个人或对象,N表示第N个人或对象的数字编号,标记后的语音特征数据构成模式类数据库,并存储在本发明的存储器33中。
本发明设计了,特征匹配判别分类单元23设置为采用智能的多类分类器,分类器的学习算法设置为采用改进的神经网络分类算法,通过对已录入并标记的语音特征信号集作为训练数据,让网络模型对训练数据进行学习,得到分类规则,完成分类器的训练;然后利用已经训练好的分类器对未知的测试语音信号进行智能分类和识别;当测试信号提取特征后,本发明会自动进行特征匹配,将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入并标记好的样本语音特征参数进行特征匹配,并计算测试语音信号与所有已录入的样本语音信号的相似度,然后把测试语音信号划分到与其相似度最高的那一样本信号模式类别中,最后本发明向外界输出识别结果,“这是XXX的声音”类似的报告,例如,如果本发明已存储了张三的语音特征信号,当张三对着本发明说话或唱歌时,本发明会自动计算出张三的测试语音特征参数与已录入并标记过的张三的录入语音信号最相似,经过识别,自动输出“这是张三的声音”。
本发明设计了,多类分类器采用的多层人工神经网络结构,其特征是,网络的一端定义为输入层,另一端定义为输出层,输入层与输出层中间的部分定义为隐含层,输入层用于接收外界的输入信号,重新将输入信号发送给隐含层的所有神经元,经隐含层计算后将结果传递给输出层,输出层从隐含层接收信号,计算后输出分类结果,即识别的结果,本发明优选的隐含层的层数设置为1~200层。
本发明设计了,改进的人工神经网络分类算法训练的过程包含步骤1~7。
步骤1:网络初始化。根据语音信号录入的个数,不断更新算法数据库,当录入了N个对象的语音信号时,即构成N个模式类,得到样本空间(X,Y),第i组样本即(Xi,Yi),Xi表示对第i个对象所提取的特征向量集合,Yi表示所标记的第i个对象;根据***输入输出序列(X,Y)确定网络输入层结点数n、隐含层结点数l、输出层结点数m,其中n值由输入信号特征提取中对应特征值的个数确定,m值由存储的语音模式类的个数确定,l的参照值为其中a的取值范围为0~10,由模型自动计算确定,初始化输入层与隐含层的神经元之间的连接权值ωij和隐含层与输出层神经元之间的连接权值ωjk,初始化隐含层阈值a和输出层阈值b,给定学习率η和神经元激励函数。
步骤2:计算隐含层的输出。根据输入变更X,输入层与隐含层的神经元的连接权值ωij,以及隐含层阈值a,计算隐含层输出H;记第j个隐含层结点的输出为Hjj=1,2,…,l,其中l为隐含层结点数,f为隐含层激励函数,所述激励函数有多种,本发明优选的采用f(x)=(1+e-x)-1
步骤3:计算输出层的输出。根据隐含层输出H,隐含层与输出层神经元之间的连接权值ωjk,以及输出层阈值b,计算输出层输出O,记第k个输出层结点的输出为Okk=1,2,…,m,其中m为输出层结点数,bk为输出层第k个结点的阈值,Hj为隐含层第j个结点的输出值。
步骤4:计算预测误差。根据网络预测得到的输出O和期望输出Y(真值),计算网络预测总误差e,ek为第k个输出层结点产生的误差,
步骤5:更新权值。根据网络预测总误差e更新网络连接权值ωjk和ωij,ωjk +=ωjk+η·Hj·Ek,其中j=1,2,…,l,k=1,2,…,m,η为学习率,Ek表示输出层结点的网络总误差对输出层网络结点k的灵敏度, 其中i=1,2,…,n,j=1,2,…,l。
步骤6:阈值更新。根据网络预测总误差e更新隐含层阈值a和输出层阈值b,j=1,2,…,l;bk +=bk+η·Ek,k=1,2,…,m。
步骤7:判断算法迭代是否收敛,若没收敛返回步骤2,本发明优选的最小误差为0.001时结束迭代。
本发明设计了,语音采集模块1内置有语音采集卡,用于收集和处理采集到的语音信号。
本发明设计了,固定录音器13采用防风式麦克风。
本发明设计了,显示屏8采用带背景灯的触摸屏或LED显示屏。
在本发明中,固定录音器13可以设置多个,布置在本发明外壳处,用于增加语音录制强度。
本发明对已录入并标记好的语音信号具有长期存储功能,凡是存储在本发明语音模式类数据库中的语音信号,本发明都可随时调取与未知测试语音进行对比识别。
本发明的使用流程是,先打开电源开关5,然后***自动运行,显示屏8点亮并显示操作界面,人们可以选择“语音录入模式”和“语音测试模式”两种功能。
(1)当选择语音录入时,中央处理器3会控制语音输入单元20进入“语音录入模式”,显示屏8和扬声器35会同时提示“现在是语音录入模式,请说话”类似的提示,人们可通过语音采集模块1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音;为保证本发明能够准确识别和量化被识别对象的语音特征,因此在“语音录入模式”阶段每次只能对一个人或一个对象进行语音录入,由于同一人在说话和唱歌时发出的声音信号数据会存在一定的特征偏差,因此,为提高语音信号识别的准确度,本发明采用多状态语音录入策略,即录入的语音中可包含正常讲话、唱歌或者高/中/低音及其他状态下的多状态组合声音,录音时长为5~30秒,显示器8会显示语音实时波形及完成进度条,如果录制的语音不理想可以删除再次录入,录入语音完毕后需要进行数据标记,标记方法采用人工手动标记,如采集完张三的声音,即在本发明显示屏8显示的对话框中备注:“张三的声音”,保存即可,录入的语音存储在本发明的存储器33中。
(2)语音信号录入完毕后,本发明的控制***自动将已标记的语音信号送入语音预处理单元21,语音预处理单元21把语音采集模块1采集到的语音信号转变为电信号,即将模拟信号转变为数字信号,然后进行常规的信号处理,包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。
(3)本发明的控制***自动把已预处理后语音信号送入信号特征提取单元22,语音信号特征提取单元22从预处理后的语音信号中提取出反映语音本质的特征参数,得到特征向量xi,特征参数提取方法优选的采用频率倒谱系数法(MFCC),还可采用谱包络法、LPC内插法、LPC求根法、希尔伯特变换法等得到声学特征,提取特征后得到的特征向量***自动保存到模式类别库中,一个人的所有声音特征对应一个模式类,若录入N个人语音后,即得到N个模式类,若每个模式类有n个特征参数,从而得到一人对应语音信号模式类的数据库,所有的数据都存储在本发明的存储器33中,至此,语言信号录入模式内容完毕。
(4)语音录入完毕后,可进行语音测试,当进行语音测试时,只需要在显示屏8的操作界面中选择“语音测试模式”即可,中央处理器3会控制语音输入单元20进入“语音测试模式”,显示屏8和扬声器35会同时提示“语音测试中…”类似的提示,这时人们不取要做任何操作,本发明会通过语音采集模块1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音,测试语音采集过程为实时采集,没有任何时间限制和人数的限制。
(5)在“语音测试模式”下采集到的语音数据,本发明***装置会自动地对测试语音信号进行预处理和特征提取,将采集到的语音测试信号转化为电信号,并进行常规的滤波、去除噪音、加窗函数及端点检测后进行信号特征提取。
(6)测试信号提取特征后,本发明会自动进行特征匹配,将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入的已标记好的样本语音特征参数进行特征匹配,并计算测试语音信号与所有已录入的原始语音信号的相似度,并把测试语音信号分到与其相似度最高的那一模式类别中,最后本发明向外界输出,“这是XXX的声音”类似的报告,例如,如果本发明已存储了张三的语音特征信号,当张三对着本发明说话或唱歌时,本发明经过识别,会自动输出“这是张三的声音”。
当本发明在公共场合测试时,由于测试环境中,同一时间段可能存在多个对象同时说话,即采集到的语音信号是宽带混叠的信号,为防止本发明对此时采集的语音信号特征提取时出错,本发明采用的策略在于,运用智能算法,先匹配和识别出单个人说话时的语音特征参数并进行标识和存储,然后***再对共同说话时的语音信号进行自动筛选和分离,最后输出识别结果并报告“现在是张三、李四、王五……共同的声音”类似的提示,并提示存在XX个语音未能识别,关闭***时按下电源关闭键6。
本发明还设计了,***装置还可以向人们输出对多人交流环境下的识别结果清单,包含测试环境下有多少人或对象在现场说话的数量,以及筛选并播放从多人同时说话的录音中识别分离出每个人所讲的内容,而过滤掉其他人的声音和环境音。
当测试语音信号中出现了本发明未存储的标本语音信号特征时,本发明会自动记录未知的该语音信号特征,以提醒人们是否标记并存储该对象的语音信号。
附图说明
图1为本发明的结构示意图。
图2为本发明的***框架图。
图3为本发明的多层人工神经网络示意图。
图4为本发明的语音信号改进的神经网络分类算法流程图。
具体实施方式
附图1为本发明的一个实施例,结合附图1~附图4具体说明本实施例,包含有框体10,框体10设置有腔体,在框体10中设置有语音采集模块1、语音识别模块2、中央处理器3、无线信号收发装置4、显示屏8、存储器33、网络模块31、内存卡32、扬声器35和电源9,语音采集模块1包含有话筒11、无线对讲机12和固定录音器13,语音识别模块2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23,语音信号由语音采集模块1采集,采集到的信号由语音识别模块2处理,数据信号由存储器33保存,人机交互的操作流程以及结果的输出的可视化由显示屏8显示,扬声器35设置为对操作步骤进行语音提示及播报识别结果,网络模块31设置为将本发明与互联网云平台进行连接,中央处理器3设置为对整个***装置的程序控制及数据运算,无线信号收发装置4设置为对无线对讲机12、智能手机、网络模块31所产生的无线电信号进行接收、发射及将本发明与互联网无线连接,内存卡32设置为将已录制的外部语音数据读入本发明数据库中。
在本实施例中,语音输入单元20设置为包含有“语音录入模式”和“语音测试模式”两种类型,可通过语音采集模块1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音,在“语音录入模式”中,语音输入单元20设置为一次只能对一个人或一个对象进行语音录入,其特征在于,录入的语音为一段5~30秒的音频信号,本发明采用多状态语音录入策略,其特征在于,录入的语音中可包含有正常讲话、唱歌或者高/中/低音的多状态组合语音,显示器8实时显示语音波形及完成进度条,录入语音完毕后需要进行数据标记,标记方法采用人工手动标记,如采集完张三的声音,即在本发明显示屏8显示的对话框中备注:“张三的声音”,保存即可,录入的语音保存在存储器33中,在“语音测试模式”下,本发明通过语音采集模块1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音,测试语音采集过程为实时采集,没有任何人数、对象和时间的限制。
在本实施例中,语音输入单元20设置为与语音采集模块1相连接,话筒11通过音频线连接到语音采集模块1,无线对讲机12通过无线电信号与语音采集模块1连接。
在本实施例中,语音采集模块1还可采用智能手机进行语音信号输入,通过用手机与本发明语音采集模块1匹配连接,匹配方式包括蓝牙、红外线、WIFI以及扫描二维码进行连接,实现语音录入,相当于把手机当成无线语筒使用,更方便于多人群语音互动。
在本实施例中,语音预处理单元21把语音采集模块1采集到的语音信号转变为电信号,即将模拟信号转变为数字信号,然后进行常规的信号处理,包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。
在本实施例中,语音信号特征提取单元22设置为从原始语音信号中提取出反映语音本质的主要特征参数,形成特征向量xi,xi=(xi1,xi2,…xij,…,xin)T,xij表示第i个对象或个人的第j个语音特征值,特征参数提取方法优选的采用频率倒谱系数法(MFCC),还可采用谱包络法、LPC内插法、LPC求根法、希尔伯特变换法等得到声学特征,提取特征后得到的特征向量***将自动保存到模式类数据库中,一个对象或人的所有声音特征对应一个模式类,若录入N个人或对象的语音后,即得到N个模式类,若每个模式类有n个特征参数,即可构成n维特征空间,即标记后的特征信号集可记为D={(x1,y1),(x2,y2),…(xi,yi),…,(xN,yN)},其中xi∈χ=Rn,xi表示所录入的第i个对象或人的语音特征信号,yi∈Y={1,2,…,N},yi表示第i个人或对象,N表示第N个人或对象的数字编号,标记后的语音特征数据构成模式类数据库,并存储在本发明的存储器33中。
在本实施例中,特征匹配判别分类单元23设置为采用智能的多类分类器,分类器的学习算法设置为采用改进的神经网络分类算法,通过对已录入并标记的语音特征信号集作为训练数据,让网络模型对训练数据进行学习,得到分类规则,完成分类器的训练;然后利用已经训练好的分类器对未知的测试语音信号进行智能分类和识别;当测试信号提取特征后,本发明会自动进行特征匹配,将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入并标记好的样本语音特征参数进行特征匹配,并计算测试语音信号与所有已录入的样本语音信号的相似度,然后把测试语音信号划分到与其相似度最高的那一样本信号模式类别中,最后本发明向外界输出识别结果,“这是XXX的声音”类似的报告,例如,如果本发明已存储了张三的语音特征信号,当张三对着本发明说话或唱歌时,本发明会自动计算出张三的测试语音特征参数与已录入并标记过的张三的录入语音信号最相似,经过识别,自动输出“这是张三的声音”。
在本实施例中,多类分类器采用的多层人工神经网络结构,其特征是,网络的一端定义为输入层,另一端定义为输出层,输入层与输出层中间的部分定义为隐含层,输入层用于接收外界的输入信号,重新将输入信号发送给隐含层的所有神经元,经隐含层计算后将结果传递给输出层,输出层从隐含层接收信号,计算后输出分类结果,即识别的结果,本发明优选的隐含层的层数设置为1~200层。
在本实施例中,改进的人工神经网络分类算法训练的过程如下:
步骤1:网络初始化。根据语音信号录入的个数,不断更新算法数据库,当录入了N个对象的语音信号时,即构成N个模式类,得到样本空间(X,Y),第i组样本即(Xi,Yi),Xi表示对第i个对象所提取的特征向量集合,Yi表示所标记的第i个对象;根据***输入输出序列(X,Y)确定网络输入层结点数n、隐含层结点数l、输出层结点数m,其中n值由输入信号特征提取中对应特征值的个数确定,m值由存储的语音模式类的个数确定,l的参照值为其中a的取值范围为0~10,由模型自动计算确定,初始化输入层与隐含层的神经元之间的连接权值ωij和隐含层与输出层神经元之间的连接权值ωjk,初始化隐含层阈值a和输出层阈值b,给定学习率η和神经元激励函数。
步骤2:计算隐含层的输出。根据输入变更X,输入层与隐含层的神经元的连接权值ωij,以及隐含层阈值a,计算隐含层输出H;记第j个隐含层结点的输出为Hjj=1,2,…,l,其中l为隐含层结点数,f为隐含层激励函数,所述激励函数有多种,本发明优选的采用f(x)=(1+e-x)-1
步骤3:计算输出层的输出。根据隐含层输出H,隐含层与输出层神经元之间的连接权值ωjk,以及输出层阈值b,计算输出层输出O,记第k个输出层结点的输出为Okk=1,2,…,m,其中m为输出层结点数,bk为输出层第k个结点的阈值,Hj为隐含层第j个结点的输出值。
步骤4:计算预测误差。根据网络预测得到的输出O和期望输出Y(真值),计算网络预测总误差e,ek为第k个输出层结点产生的误差,步骤5:更新权值。根据网络预测总误差e更新网络连接权值ωjk和ωij,ωjk +=ωjk+η·Hj·Ek,其中j=1,2,…,l,k=1,2,…,m,η为学习率,Ek表示输出层结点的网络总误差对输出层网络结点k的灵敏度, 其中i=1,2,…,n,j=1,2,…,l。
步骤6:阈值更新。根据网络预测总误差e更新隐含层阈值a和输出层阈值b,j=1,2,…,l;bk +=bk+η·Ek,k=1,2,…,m。
步骤7:判断算法迭代是否收敛,若没收敛返回步骤2,本发明优选的最小误差为0.001时结束迭代。
在本实施例中,语音采集模块1内置有语音采集卡,用于收集和处理采集到的语音信号。
在本实施例中,固定录音器13采用防风式麦克风。
在本实施例中,显示屏8采用带背景灯的触摸屏或LED显示屏。
在本实施例中,固定录音器13可以设置多个,布置在本发明外壳处,用于增加语音录制强度。
本发明对已录入并标记好的语音信号具有长期存储功能,凡是存储在本发明语音模式类数据库中的语音信号,本发明都可随时调取与未知测试语音进行对比识别。
本发明的使用流程是,先打开电源开关5,然后***自动运行,显示屏8点亮并显示操作界面,人们可以选择“语音录入模式”和“语音测试模式”两种功能。
(1)当选择语音录入时,中央处理器3会控制语音输入单元20进入“语音录入模式”,显示屏8和扬声器35会同时提示“现在是语音录入模式,请说话”类似的提示,人们可通过语音采集模块1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音;为保证本发明能够准确识别和量化被识别对象的语音特征,因此在“语音录入模式”阶段每次只能对一个人或一个对象进行语音录入,由于同一人在说话和唱歌时发出的声音信号数据会存在一定的特征偏差,因此,为提高语音信号识别的准确度,本发明采用多状态语音录入策略,即录入的语音中可包含正常讲话、唱歌或者高/中/低音及其他状态下的多状态组合声音,录音时长为5~30秒,显示器8会显示语音实时波形及完成进度条,如果录制的语音不理想可以删除再次录入,录入语音完毕后需要进行数据标记,标记方法采用人工手动标记,如采集完张三的声音,即在本发明显示屏8显示的对话框中备注:“张三的声音”,保存即可,录入的语音存储在本发明的存储器33中。
(2)语音信号录入完毕后,本发明的控制***自动将已标记的语音信号送入语音预处理单元21,语音预处理单元21把语音采集模块1采集到的语音信号转变为电信号,即将模拟信号转变为数字信号,然后进行常规的信号处理,包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。
(3)本发明的控制***自动把已预处理后语音信号送入信号特征提取单元22,语音信号特征提取单元22从预处理后的语音信号中提取出反映语音本质的特征参数,得到特征向量xi,特征参数提取方法优选的采用频率倒谱系数法(MFCC),还可采用谱包络法、LPC内插法、LPC求根法、希尔伯特变换法等得到声学特征,提取特征后得到的特征向量***自动保存到模式类别库中,一个人的所有声音特征对应一个模式类,若录入N个人语音后,即得到N个模式类,若每个模式类有n个特征参数,从而得到一人对应语音信号模式类的数据库,所有的数据都存储在本发明的存储器33中,至此,语言信号录入模式内容完毕。
(4)语音录入完毕后,可进行语音测试,当进行语音测试时,只需要在显示屏8的操作界面中选择“语音测试模式”即可,中央处理器3会控制语音输入单元20进入“语音测试模式”,显示屏8和扬声器35会同时提示“语音测试中…”类似的提示,这时人们不取要做任何操作,本发明会通过语音采集模块1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音,测试语音采集过程为实时采集,没有任何时间限制和人数的限制。
(5)在“语音测试模式”下采集到的语音数据,本发明***装置会自动地对测试语音信号进行预处理和特征提取,将采集到的语音测试信号转化为电信号,并进行常规的滤波、去除噪音、加窗函数及端点检测后进行信号特征提取。
(6)测试信号提取特征后,本发明会自动进行特征匹配,将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入的已标记好的样本语音特征参数进行特征匹配,并计算测试语音信号与所有已录入的原始语音信号的相似度,并把测试语音信号分到与其相似度最高的那一模式类别中,最后本发明向外界输出,“这是XXX的声音”类似的报告,例如,如果本发明已存储了张三的语音特征信号,当张三对着本发明说话或唱歌时,本发明经过识别,会自动输出“这是张三的声音”。
当本发明在公共场合测试时,由于测试环境中,同一时间段可能存在多个对象同时说话,即采集到的语音信号是宽带混叠的信号,为防止本发明对此时采集的语音信号特征提取时出错,本发明采用的策略在于,运用智能算法,先匹配和识别出单个人说话时的语音特征参数并进行标识和存储,然后***再对共同说话时的语音信号进行自动筛选和分离,最后输出识别结果并报告“现在是张三、李四、王五……共同的声音”类似的提示,并提示存在XX个语音未能识别,关闭***时按下电源关闭键6。
在本实施例中,***装置还可以向人们输出对多人交流环境下的识别结果清单,包含测试环境下有多少人或对象在现场说话的数量,以及筛选并播放从多人同时说话的录音中识别分离出每个人所讲的内容,而过滤掉其他人的声音和环境音。
当测试语音信号中出现了本发明未存储的标本语音信号特征时,本发明会自动记录未知的该语音信号特征,以提醒人们是否标记并存储该对象的语音信号。
在智能语音信号模式识别***装置技术领域内;凡是包含有框体10,框体10设置有腔体,在框体10中设置有语音采集模块1、语音识别模块2、中央处理器3、无线信号收发装置4、显示屏8、存储器33、网络模块31、内存卡32、扬声器35和电源9,语音采集模块1包含有话筒11、无线对讲机12和固定录音器13,语音识别模块2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23,语音信号由语音采集模块1采集,采集到的信号由语音识别模块2处理,数据信号由存储器33保存,人机交互的操作流程以及结果的输出的可视化由显示屏8显示,扬声器35设置为对操作步骤进行语音提示及播报识别结果,网络模块31设置为将本发明与互联网云平台进行连接,中央处理器3设置为对整个***装置的程序控制及数据运算,无线信号收发装置4设置为对无线对讲机12、智能手机、网络模块31所产生的无线电信号进行接收、发射及将本发明与互联网无线连接,内存卡32设置为将已录制的外部语音数据读入本发明数据库中的技术内容都在本发明的保护范围内,应当指出,本发明保护范围不应受限于外形特征,本发明的框体10的造型可以设置为方形、圆柱形、多棱柱体形或类似于白菜、西瓜、石头等其他造型,凡是造型不同而实质的技术内容与本发明相同的一切技术内容也在本发明的保护范围之内;同时,本技术领域技术人员在本发明内容的基础上作常规的显而易见的小改进或小组合,只要技术内容包含在本发明所记载的内容范围之内的技术内容也在本发明的保护范围内。

Claims (8)

1.一种智能语音信号模式识别***装置;其特征是:包含有框体(10),所述框体(10)设置有腔体,其特征在于,在框体(10)中设置有语音采集模块(1)、语音识别模块(2)、中央处理器(3)、无线信号收发装置(4)、显示屏(8)、存储器(33)、网络模块(31)、内存卡(32)、扬声器(35)和电源(9),语音采集模块(1)包含有话筒(11)、无线对讲机(12)和固定录音器(13),语音识别模块(2)包含有语音输入单元(20)、语音预处理单元(21)、语音信号特征提取单元(22)、特征匹配判别分类单元(23),语音信号由语音采集模块(1)采集,采集到的信号由语音识别模块(2)处理,数据信号由存储器(33)保存,人机交互的操作流程以及结果的输出的可视化由显示屏(8)显示,扬声器(35)设置为对操作步骤进行语音提示及播报识别结果,网络模块(31)设置为将本发明与互联网云平台进行连接,中央处理器(3)设置为对整个***装置的程序控制及数据进行运算,无线信号收发装置(4)设置为对无线对讲机(12)、智能手机、网络模块(31)所产生的无线电信号进行接收、发射及将本发明与互联网无线连接,内存卡(32)设置为将已录制的外部语音数据读入本发明数据库中。
2.根据权利要求1所述的智能语音信号模式识别***装置;其特征是:语音输入单元(20)设置为包含有“语音录入模式”和“语音测试模式”两种类型,可通过语音采集模块(1)所提供的话筒(11)、无线对讲机(12)、固定录音器(13)及智能手机任意一种方式输入语音,在“语音录入模式”中,语音输入单元(20)设置为一次只能对一个人或一个对象进行语音录入,其特征在于,录入的语音为一段5~30秒的音频信号,本发明采用多状态语音录入策略,其特征在于,录入的语音中可包含有正常讲话、唱歌或者高/中/低音的多状态组合语音,显示器(8)实时显示语音波形及完成进度条,录入语音完毕后需要进行数据标记,标记方法采用人工手动标记,在显示屏(8)显示的对话框中备注:“XXX的声音”,保存即可,录入的语音保存在存储器(33)中,在“语音测试模式”下,通过语音采集模块(1)中的话筒(11)、无线对讲机(12)、固定录音器(13)及智能手机其中的一种或多种输入工具一同采集测试语音,测试语音采集过程为实时采集,没有任何人数、对象和时间的限制,智能手机与语音采集模块(1)设置为无线匹配连接,匹配方式包括蓝牙、红外线、WIFI以及扫描二维码进行连接,实现语音录入,相当于把手机当成无线语筒使用,实现多人群语音互动。
3.根据权利要求1所述的智能语音信号模式识别***装置;其特征是:语音预处理单元(21)把语音采集模块(1)采集到的语音信号转变为电信号,即将模拟信号转变为数字信号,然后进行常规的信号处理,包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测。
4.根据权利要求1所述的智能语音信号模式识别***装置;其特征是:语音信号特征提取单元(22)设置为从原始语音信号中提取出反映语音本质的主要特征参数,形成特征向量xi,xi=(xi1,xi2,…xij,…,xin)T,xij表示第i个对象或个人的第j个语音特征值,特征参数提取方法采用频率倒谱系数法(MFCC),还可采用谱包络法、LPC内插法、LPC求根法、希尔伯特变换法等得到声学特征,提取特征后得到的特征向量***将自动保存到模式类数据库中,一个对象或人的所有声音特征对应一个模式类,若录入N个人或对象的语音后,即得到N个模式类,若每个模式类有n个特征参数,即可构成n维特征空间,即标记后的特征信号集可记为D={(x1,y1),(x2,y2),…(xi,yi),…,(xN,yN)},其中xi∈χ=Rn,xi表示所录入的第i个对象或人的语音特征信号,yi∈Y={1,2,…,N},yi表示第i个人或对象,N表示第N个人或对象的数字编号,标记后的语音特征数据构成模式类数据库,并存储在本发明的存储器(33)中。
5.根据权利要求1所述的智能语音信号模式识别***装置;其特征是:特征匹配判别分类单元(23)设置为采用智能的多类分类器,分类器的学习算法设置为采用改进的神经网络分类算法,通过对已录入并标记的语音特征信号集作为训练数据,让网络模型对训练数据进行学习,得到分类规则,完成分类器的训练;然后利用已经训练好的分类器对未知的测试语音信号进行智能分类和识别;当测试信号提取特征后,本发明会自动进行特征匹配,将提取的测试语音信号的特征参数实时地与本发明存储器(33)中已录入并标记好的样本语音特征参数进行特征匹配,并计算测试语音信号与所有已录入的样本语音信号的相似度,然后把测试语音信号划分到与其相似度最高的那一样本信号模式类别中,最后本发明向外界输出识别结果,“这是XXX的声音”类似的报告。
6.根据权利要求1所述的智能语音信号模式识别***装置;其特征是:多类分类器采用的多层人工神经网络结构,其特征在于,网络的一端定义为输入层,另一端定义为输出层,输入层与输出层中间的部分定义为隐含层,输入层用于接收外界的输入信号,重新将输入信号发送给隐含层的所有神经元,经隐含层计算后将结果传递给输出层,输出层从隐含层接收信号,计算后输出分类结果,即识别的结果,本发明优选的隐含层的层数设置为1~200层。
7.根据权利要求1所述的智能语音信号模式识别***装置;其特征是:改进人工神经网络训练的步骤如下:
步骤1:网络初始化;根据语音信号录入的个数,不断更新算法数据库,当录入了N个对象的语音信号时,即构成N个模式类,得到样本空间(X,Y),第i组样本即(Xi,Yi),Xi表示对第i个对象所提取的特征向量集合,Yi表示所标记的第i个对象;根据***输入输出序列(X,Y)确定网络输入层结点数n、隐含层结点数l、输出层结点数m,其中n值由输入信号特征提取中对应特征值的个数确定,m值由存储的语音模式类的个数确定,l的参照值为其中a的取值范围为0~10,由模型自动计算确定,初始化输入层与隐含层的神经元之间的连接权值ωij和隐含层与输出层神经元之间的连接权值ωjk,初始化隐含层阈值a和输出层阈值b,给定学习率η和神经元激励函数;
步骤2:计算隐含层的输出;根据输入变更X,输入层与隐含层的神经元的连接权值ωij,以及隐含层阈值a,计算隐含层输出H;记第j个隐含层结点的输出为Hjj=1,2,…,l,其中l为隐含层结点数,f为隐含层激励函数,所述激励函数有多种,本发明优选的采用f(x)=(1+e-x)-1
步骤3:计算输出层的输出;根据隐含层输出H,隐含层与输出层神经元之间的连接权值ωjk,以及输出层阈值b,计算输出层输出O,记第k个输出层结点的输出为Okk=1,2,…,m,其中m为输出层结点数,bk为输出层第k个结点的阈值,Hj为隐含层第j个结点的输出值;
步骤4:计算预测误差;根据网络预测得到的输出O和期望输出Y(真值),计算网络预测总误差e,ek为第k个输出层结点产生的误差,
<mrow> <msub> <mi>e</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mi>k</mi> </msub> <mo>-</mo> <msub> <mi>O</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>;</mo> </mrow>
步骤5:更新权值;根据网络预测总误差e更新网络连接权值ωjk和ωij,ωjk +=ωjk+η·Hj·Ek,其中j=1,2,…,l,k=1,2,…,m,η为学习率,Ek表示输出层结点的网络总误差对输出层网络结点k的灵敏度, 其中i=1,2,…,n,j=1,2,…,l;
步骤6:阈值更新;根据网络预测总误差e更新隐含层阈值a和输出层阈值b,j=1,2,…,l;bk +=bk+η·Ek,k=1,2,…,m;
步骤7:判断算法迭代是否收敛,若没收敛返回步骤2,本发明优选的最小误差为0.001时结束迭代。
8.根据权利要求1、2、3、4、5、6、7任一项所述的智能语音信号模式识别***装置;其特征在是:基本操作***流程设置为:
1)打开电源开关(5),然后***自动运行,显示屏(8)点亮并显示操作界面,人们可以选择“语音录入模式”和“语音测试模式”两种功能;当选择语音录入时,中央处理器(3)会控制语音输入单元(20)进入“语音录入模式”,显示屏(8)和扬声器(35)会同时提示“现在是语音录入模式,请说话”类似的提示,人们可通过语音采集模块(1)所提供的话筒(11)、无线对讲机(12)、固定录音器(13)及智能手机任意一种方式输入语音;为保证本发明能够准确识别和量化被识别对象的语音特征,因此在“语音录入模式”阶段每次只能对一个人或一个对象进行语音录入,由于同一人在说话和唱歌时发出的声音信号数据会存在一定的特征偏差,因此,为提高语音信号识别的准确度,本发明采用多状态语音录入策略,即录入的语音中可包含正常讲话、唱歌或者高/中/低音及其他状态下的多状态组合声音,录音时长为5~30秒,显示器(8)会显示语音实时波形及完成进度条,如果录制的语音不理想可以删除再次录入,录入语音完毕后需要进行数据标记,标记方法采用人工手动标记,如采集完张三的声音,即在本发明显示屏(8)显示的对话框中备注:“张三的声音”,保存即可,录入的语音存储在本发明的存储器(33)中;
2)语音信号录入完毕后,本发明的控制***自动将已标记的语音信号送入语音预处理单元(21),语音预处理单元(21)把语音采集模块(1)采集到的语音信号转变为电信号,即将模拟信号转变为数字信号,然后进行常规的信号处理,包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等;
3)本发明的控制***自动把已预处理后语音信号送入信号特征提取单元(22),语音信号特征提取单元(22)从预处理后的语音信号中提取出反映语音本质的特征参数,得到特征向量xi,特征参数提取方法采用频率倒谱系数法(MFCC),还可采用谱包络法、LPC内插法、LPC求根法、希尔伯特变换法等得到声学特征,提取特征后得到的特征向量***自动保存到模式类别库中,一个人的所有声音特征对应一个模式类,若录入N个人语音后,即得到N个模式类,若每个模式类有n个特征参数,从而得到一人对应语音信号模式类的数据库,所有的数据都存储在本发明的存储器(33)中,至此,语言信号录入模式内容完毕;
4)语音录入完毕后,可进行语音测试,当进行语音测试时,只需要在显示屏(8)的操作界面中选择“语音测试模式”即可,中央处理器(3)会控制语音输入单元(20)进入“语音测试模式”,显示屏(8)和扬声器(35)会同时提示“语音测试中…”类似的提示,这时人们不取要做任何操作,本发明会通过语音采集模块(1)中的话筒(11)、无线对讲机(12)、固定录音器(13)及智能手机其中的一种或多种输入工具一同采集测试语音,测试语音采集过程为实时采集,没有任何时间限制和人数的限制;
5)在“语音测试模式”下采集到的语音数据,本发明***装置会自动地对测试语音信号进行预处理和特征提取,将采集到的语音测试信号转化为电信号,并进行常规的滤波、去除噪音、加窗函数及端点检测后进行信号特征提取;
6)测试信号提取特征后,本发明会自动进行特征匹配,将提取的测试语音信号的特征参数实时地与本发明存储器(33)中已录入的已标记好的样本语音特征参数进行特征匹配,并计算测试语音信号与所有已录入的原始语音信号的相似度,并把测试语音信号分到与其相似度最高的那一模式类别中,最后本发明向外界输出,“这是XXX的声音”类似的报告,例如,如果本发明已存储了张三的语音特征信号,当张三对着本发明说话或唱歌时,本发明经过识别,会自动输出“这是张三的声音”;
7)***装置还可以向人们输出对多人交流环境下的识别结果清单,包含测试环境下有多少人或对象在现场说话的数量,以及筛选并播放从多人同时说话的录音中识别分离出每个人所讲的内容,而过滤掉其他人的声音和环境音,当测试语音信号中出现了本发明未存储的标本语音信号特征时,本发明会自动记录未知的该语音信号特征,以提醒人们是否标记并存储该对象的语音信号。
CN201711253194.6A 2017-12-02 2017-12-02 智能语音信号模式识别***装置 Pending CN107808659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711253194.6A CN107808659A (zh) 2017-12-02 2017-12-02 智能语音信号模式识别***装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711253194.6A CN107808659A (zh) 2017-12-02 2017-12-02 智能语音信号模式识别***装置

Publications (1)

Publication Number Publication Date
CN107808659A true CN107808659A (zh) 2018-03-16

Family

ID=61589300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711253194.6A Pending CN107808659A (zh) 2017-12-02 2017-12-02 智能语音信号模式识别***装置

Country Status (1)

Country Link
CN (1) CN107808659A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520752A (zh) * 2018-04-25 2018-09-11 西北工业大学 一种声纹识别方法和装置
CN108564954A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108597521A (zh) * 2018-05-04 2018-09-28 徐涌 音频角色分割与识别文字的交互***、方法、终端及介质
CN108877823A (zh) * 2018-07-27 2018-11-23 三星电子(中国)研发中心 语音增强方法和装置
CN109448726A (zh) * 2019-01-14 2019-03-08 李庆湧 一种语音控制准确率的调整方法及***
CN109611703A (zh) * 2018-10-19 2019-04-12 宁波市鄞州利帆灯饰有限公司 一种便于安装的led灯
CN109714491A (zh) * 2019-02-26 2019-05-03 上海凯岸信息科技有限公司 基于语音信箱的智能语音外呼检测***
CN109785855A (zh) * 2019-01-31 2019-05-21 秒针信息技术有限公司 语音处理方法及装置、存储介质、处理器
CN109801619A (zh) * 2019-02-13 2019-05-24 安徽大尺度网络传媒有限公司 一种智能化跨语言语音识别转化方法
CN109859763A (zh) * 2019-02-13 2019-06-07 安徽大尺度网络传媒有限公司 一种智能语音信号模式识别***
CN109936814A (zh) * 2019-01-16 2019-06-25 深圳市北斗智能科技有限公司 一种对讲终端、语音对讲协同调度方法及其***
CN110033785A (zh) * 2019-03-27 2019-07-19 深圳市中电数通智慧安全科技股份有限公司 一种呼救识别方法、装置、可读存储介质及终端设备
CN110060717A (zh) * 2019-01-02 2019-07-26 孙剑 一种执法设备用规范法言法语播放***
CN110289016A (zh) * 2019-06-20 2019-09-27 深圳追一科技有限公司 一种基于实时对话的语音质检方法、装置及电子设备
CN111314451A (zh) * 2020-02-07 2020-06-19 普强时代(珠海横琴)信息技术有限公司 一种基于云计算应用的语言处理***
CN111475206A (zh) * 2019-01-04 2020-07-31 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN111603191A (zh) * 2020-05-29 2020-09-01 上海联影医疗科技有限公司 医学扫描中的语音降噪方法、装置和计算机设备
CN111674360A (zh) * 2019-01-31 2020-09-18 青岛科技大学 基于区块链的车辆追踪***中建立区分样本模型的方法
CN111989742A (zh) * 2018-04-13 2020-11-24 三菱电机株式会社 语音识别***及使用语音识别***的方法
CN113572492A (zh) * 2021-06-23 2021-10-29 力声通信股份有限公司 一种新型通信设备防摔数字对讲机

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265197A (ja) * 1997-12-13 1999-09-28 Hyundai Electronics Ind Co Ltd 可変入力神経網を利用した音声認識方法
US6026358A (en) * 1994-12-22 2000-02-15 Justsystem Corporation Neural network, a method of learning of a neural network and phoneme recognition apparatus utilizing a neural network
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)***及其相应方法
CN1941080A (zh) * 2005-09-26 2007-04-04 吴田平 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法
CN101419799A (zh) * 2008-11-25 2009-04-29 浙江大学 基于混合t模型的说话人识别方法
US20100057453A1 (en) * 2006-11-16 2010-03-04 International Business Machines Corporation Voice activity detection system and method
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别***
CN103456301A (zh) * 2012-05-28 2013-12-18 中兴通讯股份有限公司 一种基于环境声音的场景识别方法及装置及移动终端
CN103619021A (zh) * 2013-12-10 2014-03-05 天津工业大学 一种基于神经网络的无线传感器网络入侵检测算法
JP2014048534A (ja) * 2012-08-31 2014-03-17 Sogo Keibi Hosho Co Ltd 話者認識装置、話者認識方法及び話者認識プログラム
US20140195236A1 (en) * 2013-01-10 2014-07-10 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
US20160260428A1 (en) * 2013-11-27 2016-09-08 National Institute Of Information And Communications Technology Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别***及方法
CN106227038A (zh) * 2016-07-29 2016-12-14 中国人民解放军信息工程大学 基于神经网络和模糊控制的粮食烘干塔智能控制方法
CN106779053A (zh) * 2016-12-15 2017-05-31 福州瑞芯微电子股份有限公司 一种基于影响因子和神经网络的知识点摸底方法
CN106782603A (zh) * 2016-12-22 2017-05-31 上海语知义信息技术有限公司 智能语音评测方法及***
CN106875943A (zh) * 2017-01-22 2017-06-20 上海云信留客信息科技有限公司 一种用于大数据分析的语音识别***
US20170178666A1 (en) * 2015-12-21 2017-06-22 Microsoft Technology Licensing, Llc Multi-speaker speech separation
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
CN112541533A (zh) * 2020-12-07 2021-03-23 阜阳师范大学 一种基于神经网络与特征融合的改装车识别方法

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026358A (en) * 1994-12-22 2000-02-15 Justsystem Corporation Neural network, a method of learning of a neural network and phoneme recognition apparatus utilizing a neural network
JPH11265197A (ja) * 1997-12-13 1999-09-28 Hyundai Electronics Ind Co Ltd 可変入力神経網を利用した音声認識方法
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)***及其相应方法
CN1941080A (zh) * 2005-09-26 2007-04-04 吴田平 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法
US20100057453A1 (en) * 2006-11-16 2010-03-04 International Business Machines Corporation Voice activity detection system and method
CN101419799A (zh) * 2008-11-25 2009-04-29 浙江大学 基于混合t模型的说话人识别方法
CN103456301A (zh) * 2012-05-28 2013-12-18 中兴通讯股份有限公司 一种基于环境声音的场景识别方法及装置及移动终端
JP2014048534A (ja) * 2012-08-31 2014-03-17 Sogo Keibi Hosho Co Ltd 話者認識装置、話者認識方法及び話者認識プログラム
US20140195236A1 (en) * 2013-01-10 2014-07-10 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别***
US20160260428A1 (en) * 2013-11-27 2016-09-08 National Institute Of Information And Communications Technology Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
CN103619021A (zh) * 2013-12-10 2014-03-05 天津工业大学 一种基于神经网络的无线传感器网络入侵检测算法
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
US20170178666A1 (en) * 2015-12-21 2017-06-22 Microsoft Technology Licensing, Llc Multi-speaker speech separation
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别***及方法
CN106227038A (zh) * 2016-07-29 2016-12-14 中国人民解放军信息工程大学 基于神经网络和模糊控制的粮食烘干塔智能控制方法
CN106779053A (zh) * 2016-12-15 2017-05-31 福州瑞芯微电子股份有限公司 一种基于影响因子和神经网络的知识点摸底方法
CN106782603A (zh) * 2016-12-22 2017-05-31 上海语知义信息技术有限公司 智能语音评测方法及***
CN106875943A (zh) * 2017-01-22 2017-06-20 上海云信留客信息科技有限公司 一种用于大数据分析的语音识别***
CN112541533A (zh) * 2020-12-07 2021-03-23 阜阳师范大学 一种基于神经网络与特征融合的改装车识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘拥军等;: "基于神经网络算法的粮食智能控制***研究", 计算机与数字工程, vol. 44, no. 07, pages 1271 - 1276 *
曾向阳等: "声信号处理基础", vol. 1, 30 September 2015, 西北工业大学出版社, pages: 160 - 163 *
王小川等: "MATLAB神经网络43个案例分析", vol. 1, 31 August 2013, 北京航空航天大学出版社 , pages: 8 - 10 *
赵力: "语音信号处理", vol. 1, 31 March 2003, 机械工业出版社, pages: 141 - 145 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564954A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108564954B (zh) * 2018-03-19 2020-01-10 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN111989742A (zh) * 2018-04-13 2020-11-24 三菱电机株式会社 语音识别***及使用语音识别***的方法
CN108520752B (zh) * 2018-04-25 2021-03-12 西北工业大学 一种声纹识别方法和装置
CN108520752A (zh) * 2018-04-25 2018-09-11 西北工业大学 一种声纹识别方法和装置
CN108597521A (zh) * 2018-05-04 2018-09-28 徐涌 音频角色分割与识别文字的交互***、方法、终端及介质
CN108877823A (zh) * 2018-07-27 2018-11-23 三星电子(中国)研发中心 语音增强方法和装置
CN109611703A (zh) * 2018-10-19 2019-04-12 宁波市鄞州利帆灯饰有限公司 一种便于安装的led灯
CN110060717A (zh) * 2019-01-02 2019-07-26 孙剑 一种执法设备用规范法言法语播放***
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN111475206A (zh) * 2019-01-04 2020-07-31 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN109448726A (zh) * 2019-01-14 2019-03-08 李庆湧 一种语音控制准确率的调整方法及***
CN109936814A (zh) * 2019-01-16 2019-06-25 深圳市北斗智能科技有限公司 一种对讲终端、语音对讲协同调度方法及其***
CN111674360A (zh) * 2019-01-31 2020-09-18 青岛科技大学 基于区块链的车辆追踪***中建立区分样本模型的方法
CN109785855A (zh) * 2019-01-31 2019-05-21 秒针信息技术有限公司 语音处理方法及装置、存储介质、处理器
CN109785855B (zh) * 2019-01-31 2022-01-28 秒针信息技术有限公司 语音处理方法及装置、存储介质、处理器
CN109859763A (zh) * 2019-02-13 2019-06-07 安徽大尺度网络传媒有限公司 一种智能语音信号模式识别***
CN109801619A (zh) * 2019-02-13 2019-05-24 安徽大尺度网络传媒有限公司 一种智能化跨语言语音识别转化方法
CN109714491A (zh) * 2019-02-26 2019-05-03 上海凯岸信息科技有限公司 基于语音信箱的智能语音外呼检测***
CN110033785A (zh) * 2019-03-27 2019-07-19 深圳市中电数通智慧安全科技股份有限公司 一种呼救识别方法、装置、可读存储介质及终端设备
CN110289016A (zh) * 2019-06-20 2019-09-27 深圳追一科技有限公司 一种基于实时对话的语音质检方法、装置及电子设备
CN111314451A (zh) * 2020-02-07 2020-06-19 普强时代(珠海横琴)信息技术有限公司 一种基于云计算应用的语言处理***
CN111603191A (zh) * 2020-05-29 2020-09-01 上海联影医疗科技有限公司 医学扫描中的语音降噪方法、装置和计算机设备
CN111603191B (zh) * 2020-05-29 2023-10-20 上海联影医疗科技股份有限公司 医学扫描中的语音降噪方法、装置和计算机设备
CN113572492A (zh) * 2021-06-23 2021-10-29 力声通信股份有限公司 一种新型通信设备防摔数字对讲机
CN113572492B (zh) * 2021-06-23 2022-08-16 力声通信股份有限公司 一种通信设备防摔数字对讲机

Similar Documents

Publication Publication Date Title
CN107808659A (zh) 智能语音信号模式识别***装置
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN105374356B (zh) 语音识别方法、语音评分方法、语音识别***及语音评分***
CN105229725B (zh) 多语言深神经网络
CN107221320A (zh) 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN107680582A (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN107610707A (zh) 一种声纹识别方法及装置
CN108305615A (zh) 一种对象识别方法及其设备、存储介质、终端
CN110838286A (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及***
CN108364662B (zh) 基于成对鉴别任务的语音情感识别方法与***
CN107767869A (zh) 用于提供语音服务的方法和装置
CN110299135A (zh) 智能语音信号模式自动识别***装置
CN110428843A (zh) 一种语音性别识别深度学习方法
CN110610709A (zh) 基于声纹识别的身份辨别方法
CN105679313A (zh) 一种音频识别报警***及方法
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN112259104B (zh) 一种声纹识别模型的训练装置
CN109271533A (zh) 一种多媒体文件检索方法
CN108876951A (zh) 一种基于声音识别的教学考勤方法
CN109903053B (zh) 一种基于传感器数据进行行为识别的反欺诈方法
CN108806694A (zh) 一种基于声音识别的教学考勤方法
CN109473119A (zh) 一种声学目标事件监控方法
CN107507625A (zh) 声源距离确定方法及装置
CN103811000A (zh) 语音识别***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination