CN110299135A - 智能语音信号模式自动识别***装置 - Google Patents

智能语音信号模式自动识别***装置 Download PDF

Info

Publication number
CN110299135A
CN110299135A CN201810561739.8A CN201810561739A CN110299135A CN 110299135 A CN110299135 A CN 110299135A CN 201810561739 A CN201810561739 A CN 201810561739A CN 110299135 A CN110299135 A CN 110299135A
Authority
CN
China
Prior art keywords
voice
signal
unit
present
acquisition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810561739.8A
Other languages
English (en)
Inventor
宫文峰
张美玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810561739.8A priority Critical patent/CN110299135A/zh
Publication of CN110299135A publication Critical patent/CN110299135A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种智能语音信号模式自动识别***装置,包含有语音采集装置1、语音识别装置2、中央处理器3、无线信号收发装置4、显示屏8、电源9、存储器33、网络模块31、内存卡32和扬声器35,所述语音采集装置1包含有话筒11、无线对讲机12和固定录音器13,所述语音识别装置2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23,框体10设置有内腔体,在框体10的上端部中间位置处设置有无线信号收发装置4、在无线信号收发装置4的左侧设置有卡槽14,无线对讲机12设置为内嵌式装卡在卡槽14内部,在卡槽14的左侧设置有语音采集装置1,因此,人们识别语音信号更方便。

Description

智能语音信号模式自动识别***装置
技术领域
本发明公开了一种智能语音信号模式自动识别***装置,属于智能电子产品技术领域,具体地说是装备了语音采集模块、语音识别模块、控制***及扬声器为一体的一种智能语音信号模式自动识别***装置。
背景技术
在人们的日常生活中,存在着各种各样的语号信号,如人们的交流发出的语音信号、机器运作产生的声音、播放音乐发出的声音、汽车鸣笛产生的声音等,语音信号几乎充斥了整个生活环境周围,有些时候人们希望准确的获悉和识别一组语音信号中是由哪些对象发出的。在常见的声音信号中,人们往往可以辨别出不同的声音是由什么物体发出的,但是当多种对象同时发出声音时,尤其是多个同类对象同时发声时,或者录音环境嘈杂,人们很难区别哪种声音是由哪个物体发出的,例如,在一组多人辩论现象的录音中,讲话的人数较多时,人们很难通过听录音而区分出哪些话是哪个辩手说的。因此,人们通常需要一种能够识别语音的装置。
在本发明之前,市面上也存在一些识别语音的产品,倒如一些语音输入软件等,但是大多是识别语音中的文字或字母,或者是对简单的单一语音进行配对识别,也有的可以通过对着手机等产品说话,手机识别语音语义后完成某些任务,如打电话搜索等简单任务,但是无法实现对语音特征的区别,不能准确的识别区分出相似语音或相同的词语是由哪个人或对象说出的类似问题。因此,不便于人们的灵活使用。
发明内容
为了克服上述技术缺点,本发明的目的是提供一种智能语音信号模式自动识别***装置,使人们使用本实用对语音进行识别更方便智能。
为达到上述目的,本发明采取的技术方案是:包含有语音采集装置1、语音识别装置2、中央处理器3、无线信号收发装置4、显示屏8、电源9、存储器33、网络模块31、内存卡32和扬声器35,所述语音采集装置1包含有话筒11、无线对讲机12和固定录音器13,所述语音识别装置2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23,框体10设置有内腔体,在框体10的上端部中间位置处设置有无线信号收发装置4、在无线信号收发装置4的左侧设置有卡槽14,无线对讲机12设置为内嵌式装卡在卡槽14内部,在卡槽14的左侧设置有语音采集装置1,在无线信号收发装置4的正下方位置处设置有显示屏8,在显示屏8的下方左侧设置有语音识别装置2,在语音识别装置2内部的从上至下依次设置有语音输入单元20、语音预处理单元21、语音信号特征提取单元22和特征匹配判别分类单元23,在语音识别装置2的右侧最下方设置有电源9,在电源9的正上方左侧设置有存储器33,在存储器33的正上方设置有中央处理器3,在中央处理器3的右侧设置有扬声器35,在存储器33的右侧设置有网络模块31,在网络模块31的正下方设置有内存卡32,所有电子部件通过导线7连接在一起构成通路。
本发明设计了,无线对讲机12的外型尺寸比卡槽14的外型尺寸小1~3mm。
本发明设计了,语音采集装置1内置有语音采集卡,用于收集和处理采集到的语音信号。
本发明设计了,固定录音器13采用防风式麦克风。
本发明设计了,显示屏8采用带背景灯的触摸屏或LED显示屏。
在本发明中,固定录音器13设置为2~10个,布置在本发明外壳处,用于增加语音录制强度。
语音信号由语音采集装置1采集,采集到的信号由语音识别装置2处理,数据信号由存储器33保存,人机交互的操作流程以及结果的输出的可视化由显示屏8显示,扬声器35设置为对操作步骤进行语音提示及播报识别结果,网络模块31设置为将本发明与互联网云平台进行连接,中央处理器3设置为对整个***装置的程序控制及数据运算,无线信号收发装置4设置为对无线对讲机12、智能手机、网络模块31所产生的无线电信号进行接收、发射及将本发明与互联网无线连接,内存卡32设置为将已录制的外部语音数据读入本发明数据库中。
本发明设计了,语音输入单元20设置为包含有“语音录入模式”和“语音测试模式”两种类型,可通过语音采集装置1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音,在“语音录入模式”中,语音输入单元20设置为一次只能对一个人或一个对象进行语音录入,其特征在于,录入的语音为一段5~30秒的音频信号,本发明采用多状态语音录入策略,其特征在于,录入的语音中可包含有正常讲话、唱歌或者高/中/低音的多状态组合语音,显示器8实时显示语音波形及完成进度条,录入语音完毕后需要进行数据标记,标记方法采用人工手动标记,如采集完张三的声音,即在本发明显示屏8显示的对话框中备注:“张三的声音”,保存即可,录入的语音保存在存储器33中,在“语音测试模式”下,本发明通过语音采集装置1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音,测试语音采集过程为实时采集,没有任何人数、对象和时间的限制。
本发明设计了,语音输入单元20设置为与语音采集装置1相连接,话筒11通过音频线连接到语音采集装置1,无线对讲机12通过无线电信号与语音采集装置1连接。
本发明设计了,语音采集装置1还可采用智能手机进行语音信号输入,通过用智能手机与本发明语音采集装置1匹配连接,匹配方式包括蓝牙、红外线、WIFI以及扫描二维码进行连接,实现语音录入,相当于把手机当成无线语筒使用,更方便于多人群语音互动。
本发明设计了,语音预处理单元21把语音采集装置1采集到的语音信号转变为电信号,即将模拟信号转变为数字信号,然后进行常规的信号处理,包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。
本发明设计了,语音信号特征提取单元22设置为从原始语音信号中提取出反映语音本质的主要特征参数,形成特征向量xi,xi=(xi1,xi2,L xij,L,xin)T,xij表示第i个对象或个人的第j个语音特征值,特征参数提取方法优选的采用频率倒谱系数法(MFCC),还可采用谱包络法、LPC内插法、LPC求根法、希尔伯特变换法等得到声学特征,提取特征后得到的特征向量***将自动保存到模式类数据库中,一个对象或人的所有声音特征对应一个模式类,若录入N个人或对象的语音后,即得到N个模式类,若每个模式类有n个特征参数,即可构成n维特征空间,即标记后的特征信号集可记为D={(x1,y1),(x2,y2),L(xi,yi),L,(xN,yN)},其中xi∈χ=Rn,xi表示所录入的第i个对象或人的语音特征信号,yi∈Y={1,2,L,N},yi表示第i个人或对象,N表示第N个人或对象的数字编号,标记后的语音特征数据构成模式类数据库,并存储在本发明的存储器33中。
本发明设计了,特征匹配判别分类单元23设置为采用智能的多类分类器,分类器的学习算法设置为采用改进的神经网络分类算法,通过对已录入并标记的语音特征信号集作为训练数据,让网络模型对训练数据进行学习,得到分类规则,完成分类器的训练;然后利用已经训练好的分类器对未知的测试语音信号进行智能分类和识别;当测试信号提取特征后,本发明会自动进行特征匹配,将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入并标记好的样本语音特征参数进行特征匹配,并计算测试语音信号与所有已录入的样本语音信号的相似度,然后把测试语音信号划分到与其相似度最高的那一样本信号模式类别中,最后本发明向外界输出识别结果,“这是XXX的声音”类似的报告,例如,如果本发明已存储了张三的语音特征信号,当张三对着本发明说话或唱歌时,本发明会自动计算出张三的测试语音特征参数与已录入并标记过的张三的录入语音信号最相似,经过识别,自动输出“这是张三的声音”。
本发明设计了,多类分类器采用的多层人工神经网络结构,其特征是,网络的一端定义为输入层,另一端定义为输出层,输入层与输出层中间的部分定义为隐含层,输入层用于接收外界的输入信号,重新将输入信号发送给隐含层的所有神经元,经隐含层计算后将结果传递给输出层,输出层从隐含层接收信号,计算后输出分类结果,即识别的结果,本发明优选的隐含层的层数设置为1~200层。
本发明设计了,语音采集装置1内置有语音采集卡,用于收集和处理采集到的语音信号。
本发明设计了,固定录音器13采用防风式麦克风。
本发明设计了,显示屏8采用带背景灯的触摸屏或LED显示屏。
在本发明中,固定录音器13可以设置多个,布置在本发明外壳处,用于增加语音录制强度。
本发明对已录入并标记好的语音信号具有长期存储功能,凡是存储在本发明语音模式类数据库中的语音信号,本发明都可随时调取与未知测试语音进行对比识别。
本发明的使用流程是,先打开电源开关5,然后***自动运行,显示屏8点亮并显示操作界面,人们可以选择“语音录入模式”和“语音测试模式”两种功能。
(1)当选择语音录入时,中央处理器3会控制语音输入单元20进入“语音录入模式”,显示屏8和扬声器35会同时提示“现在是语音录入模式,请说话”类似的提示,人们可通过语音采集装置1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音;为保证本发明能够准确识别和量化被识别对象的语音特征,因此在“语音录入模式”阶段每次只能对一个人或一个对象进行语音录入,由于同一人在说话和唱歌时发出的声音信号数据会存在一定的特征偏差,因此,为提高语音信号识别的准确度,本发明采用多状态语音录入策略,即录入的语音中可包含正常讲话、唱歌或者高/中/低音及其他状态下的多状态组合声音,录音时长为5~30秒,显示器8会显示语音实时波形及完成进度条,如果录制的语音不理想可以删除再次录入,录入语音完毕后需要进行数据标记,标记方法采用人工手动标记,如采集完张三的声音,即在本发明显示屏8显示的对话框中备注:“张三的声音”,保存即可,录入的语音存储在本发明的存储器33中。
(2)语音信号录入完毕后,本发明的控制***自动将已标记的语音信号送入语音预处理单元21,语音预处理单元21把语音采集装置1采集到的语音信号转变为电信号,即将模拟信号转变为数字信号,然后进行常规的信号处理,包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。
(3)本发明的控制***自动把已预处理后语音信号送入信号特征提取单元22,语音信号特征提取单元22从预处理后的语音信号中提取出反映语音本质的特征参数,得到特征向量xi,特征参数提取方法优选的采用频率倒谱系数法(MFCC),还可采用谱包络法、LPC内插法、LPC求根法、希尔伯特变换法等得到声学特征,提取特征后得到的特征向量***自动保存到模式类别库中,一个人的所有声音特征对应一个模式类,若录入N个人语音后,即得到N个模式类,若每个模式类有n个特征参数,从而得到一人对应语音信号模式类的数据库,所有的数据都存储在本发明的存储器33中,至此,语言信号录入模式内容完毕。
(4)语音录入完毕后,可进行语音测试,当进行语音测试时,只需要在显示屏8的操作界面中选择“语音测试模式”即可,中央处理器3会控制语音输入单元20进入“语音测试模式”,显示屏8和扬声器35会同时提示“语音测试中…”类似的提示,这时人们不取要做任何操作,本发明会通过语音采集装置1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音,测试语音采集过程为实时采集,没有任何时间限制和人数的限制。
(5)在“语音测试模式”下采集到的语音数据,本发明***装置会自动地对测试语音信号进行预处理和特征提取,将采集到的语音测试信号转化为电信号,并进行常规的滤波、去除噪音、加窗函数及端点检测后进行信号特征提取。
(6)测试信号提取特征后,本发明会自动进行特征匹配,将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入的已标记好的样本语音特征参数进行特征匹配,并计算测试语音信号与所有已录入的原始语音信号的相似度,并把测试语音信号分到与其相似度最高的那一模式类别中,最后本发明向外界输出,“这是XXX的声音”类似的报告,例如,如果本发明已存储了张三的语音特征信号,当张三对着本发明说话或唱歌时,本发明经过识别,会自动输出“这是张三的声音”。
当本发明在公共场合测试时,由于测试环境中,同一时间段可能存在多个对象同时说话,即采集到的语音信号是宽带混叠的信号,为防止本发明对此时采集的语音信号特征提取时出错,本发明采用的策略在于,运用智能算法,先匹配和识别出单个人说话时的语音特征参数并进行标识和存储,然后***再对共同说话时的语音信号进行自动筛选和分离,最后输出识别结果并报告“现在是张三、李四、王五……共同的声音”类似的提示,并提示存在XX个语音未能识别,关闭***时按下电源关闭键6。
本发明还设计了,***装置还可以向人们输出对多人交流环境下的识别结果清单,包含测试环境下有多少人或对象在现场说话的数量,以及筛选并播放从多人同时说话的录音中识别分离出每个人所讲的内容,而过滤掉其他人的声音和环境音。
当测试语音信号中出现了本发明未存储的标本语音信号特征时,本发明会自动记录未知的该语音信号特征,以提醒人们是否标记并存储该对象的语音信号。
附图说明
图1为本发明的结构示意图。
图2为本发明的***框架图。
图3为本发明的多层人工神经网络示意图。
图4为本发明的语音信号改进的神经网络分类算法流程图。
具体实施方式
附图1为本发明的一个实施例,结合附图1~附图4具体说明本实施例,包含有语音采集装置1、语音识别装置2、中央处理器3、无线信号收发装置4、显示屏8、电源9、存储器33、网络模块31、内存卡32和扬声器35,所述语音采集装置1包含有话筒11、无线对讲机12和固定录音器13,所述语音识别装置2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23,框体10设置有内腔体,在框体10的上端部中间位置处设置有无线信号收发装置4、在无线信号收发装置4的左侧设置有卡槽14,无线对讲机12设置为内嵌式装卡在卡槽14内部,在卡槽14的左侧设置有语音采集装置1,在无线信号收发装置4的正下方位置处设置有显示屏8,在显示屏8的下方左侧设置有语音识别装置2,在语音识别装置2内部的从上至下依次设置有语音输入单元20、语音预处理单元21、语音信号特征提取单元22和特征匹配判别分类单元23,在语音识别装置2的右侧最下方设置有电源9,在电源9的正上方左侧设置有存储器33,在存储器33的正上方设置有中央处理器3,在中央处理器3的右侧设置有扬声器35,在存储器33的右侧设置有网络模块31,在网络模块31的正下方设置有内存卡32,所有电子部件通过导线7连接在一起构成通路。
在本实施例中,无线对讲机12的外型尺寸比卡槽14的外型尺寸小1~3mm。
在本实施例中,语音采集装置1内置有语音采集卡,用于收集和处理采集到的语音信号。
在本实施例中,固定录音器13采用防风式麦克风。
在本实施例中,显示屏8采用带背景灯的触摸屏或LED显示屏。
在本实施例中,固定录音器13可以设置多个,布置在本发明外壳处,用于增加语音录制强度。
在本实施例中,语音信号由语音采集装置1采集,采集到的信号由语音识别装置2处理,数据信号由存储器33保存,人机交互的操作流程以及结果的输出的可视化由显示屏8显示,扬声器35设置为对操作步骤进行语音提示及播报识别结果,网络模块31设置为将本发明与互联网云平台进行连接,中央处理器3设置为对整个***装置的程序控制及数据运算,无线信号收发装置4设置为对无线对讲机12、智能手机、网络模块31所产生的无线电信号进行接收、发射及将本发明与互联网无线连接,内存卡32设置为将已录制的外部语音数据读入本发明数据库中。
在本实施例中,语音输入单元20设置为包含有“语音录入模式”和“语音测试模式”两种类型,可通过语音采集装置1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音,在“语音录入模式”中,语音输入单元20设置为一次只能对一个人或一个对象进行语音录入,其特征在于,录入的语音为一段5~30秒的音频信号,本发明采用多状态语音录入策略,其特征在于,录入的语音中可包含有正常讲话、唱歌或者高/中/低音的多状态组合语音,显示器8实时显示语音波形及完成进度条,录入语音完毕后需要进行数据标记,标记方法采用人工手动标记,如采集完张三的声音,即在本发明显示屏8显示的对话框中备注:“张三的声音”,保存即可,录入的语音保存在存储器33中,在“语音测试模式”下,本发明通过语音采集装置1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音,测试语音采集过程为实时采集,没有任何人数、对象和时间的限制。
在本实施例中,语音输入单元20设置为与语音采集装置1相连接,话筒11通过音频线连接到语音采集装置1,无线对讲机12通过无线电信号与语音采集装置1连接。
在本实施例中,语音采集装置1还可采用智能手机进行语音信号输入,通过用手机与本发明语音采集装置1匹配连接,匹配方式包括蓝牙、红外线、WIFI以及扫描二维码进行连接,实现语音录入,相当于把手机当成无线语筒使用,更方便于多人群语音互动。
在本实施例中,语音预处理单元21把语音采集装置1采集到的语音信号转变为电信号,即将模拟信号转变为数字信号,然后进行常规的信号处理,包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。
在本实施例中,语音信号特征提取单元22设置为从原始语音信号中提取出反映语音本质的主要特征参数,形成特征向量xi,xi=(xi1,xi2,L xij,L,xin)T,xij表示第i个对象或个人的第j个语音特征值,特征参数提取方法优选的采用频率倒谱系数法(MFCC),还可采用谱包络法、LPC内插法、LPC求根法、希尔伯特变换法等得到声学特征,提取特征后得到的特征向量***将自动保存到模式类数据库中,一个对象或人的所有声音特征对应一个模式类,若录入N个人或对象的语音后,即得到N个模式类,若每个模式类有n个特征参数,即可构成n维特征空间,即标记后的特征信号集可记为D={(x1,y1),(x2,y2),L(xi,yi),L,(xN,yN)},其中xi∈χ=Rn,xi表示所录入的第i个对象或人的语音特征信号,yi∈Y={1,2,L,N},yi表示第i个人或对象,N表示第N个人或对象的数字编号,标记后的语音特征数据构成模式类数据库,并存储在本发明的存储器33中。
在本实施例中,特征匹配判别分类单元23设置为采用智能的多类分类器,分类器的学习算法设置为采用改进的神经网络分类算法,通过对已录入并标记的语音特征信号集作为训练数据,让网络模型对训练数据进行学习,得到分类规则,完成分类器的训练;然后利用已经训练好的分类器对未知的测试语音信号进行智能分类和识别;当测试信号提取特征后,本发明会自动进行特征匹配,将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入并标记好的样本语音特征参数进行特征匹配,并计算测试语音信号与所有已录入的样本语音信号的相似度,然后把测试语音信号划分到与其相似度最高的那一样本信号模式类别中,最后本发明向外界输出识别结果,“这是XXX的声音”类似的报告,例如,如果本发明已存储了张三的语音特征信号,当张三对着本发明说话或唱歌时,本发明会自动计算出张三的测试语音特征参数与已录入并标记过的张三的录入语音信号最相似,经过识别,自动输出“这是张三的声音”。
在本实施例中,多类分类器采用的多层人工神经网络结构,其特征是,网络的一端定义为输入层,另一端定义为输出层,输入层与输出层中间的部分定义为隐含层,输入层用于接收外界的输入信号,重新将输入信号发送给隐含层的所有神经元,经隐含层计算后将结果传递给输出层,输出层从隐含层接收信号,计算后输出分类结果,即识别的结果,本发明优选的隐含层的层数设置为1~200层。
在本实施例中,改进的人工神经网络分类算法训练的过程如下:
步骤1:网络初始化。根据语音信号录入的个数,不断更新算法数据库,当录入了N个对象的语音信号时,即构成N个模式类,得到样本空间(X,Y),第i组样本即(Xi,Yi),Xi表示对第i个对象所提取的特征向量集合,Yi表示所标记的第i个对象;根据***输入输出序列(X,Y)确定网络输入层结点数n、隐含层结点数l、输出层结点数m,其中n值由输入信号特征提取中对应特征值的个数确定,m值由存储的语音模式类的个数确定,l的参照值为其中a的取值范围为0~10,由模型自动计算确定,初始化输入层与隐含层的神经元之间的连接权值ωij和隐含层与输出层神经元之间的连接权值ωjk,初始化隐含层阈值a和输出层阈值b,给定学习率η和神经元激励函数。
步骤2:计算隐含层的输出。根据输入变更X,输入层与隐含层的神经元的连接权值ωij,以及隐含层阈值a,计算隐含层输出H;记第j个隐含层结点的输出为Hjj=1,2,L,l,其中l为隐含层结点数,f为隐含层激励函数,所述激励函数有多种,本发明优选的采用f(x)=(1+e-x)-1
步骤3:计算输出层的输出。根据隐含层输出H,隐含层与输出层神经元之间的连接权值ωjk,以及输出层阈值b,计算输出层输出O,记第k个输出层结点的输出为Okk=1,2,L,m,其中m为输出层结点数,bk为输出层第k个结点的阈值,Hj为隐含层第j个结点的输出值。
步骤4:计算预测误差。根据网络预测得到的输出O和期望输出Y(真值),计算网络预测总误差e,ek为第k个输出层结点产生的误差,
步骤5:更新权值。根据网络预测总误差e更新网络连接权值ωjk和ωij,ωjk +=ωjk+η·Hj·Ek,其中j=1,2,L,l,k=1,2,L,m,η为学习率,Ek表示输出层结点的网络总误差对输出层网络结点k的灵敏度, 其中i=1,2,L,n,j=1,2,L,l。
步骤6:阈值更新。根据网络预测总误差e更新隐含层阈值a和输出层阈值b,j=1,2,L,l;bk +=bk+η·Ek,k=1,2,L,m。
步骤7:判断算法迭代是否收敛,若没收敛返回步骤2,本发明优选的最小误差为0.001时结束迭代。
在本实施例中,语音采集装置1内置有语音采集卡,用于收集和处理采集到的语音信号。
在本实施例中,固定录音器13采用防风式麦克风。
在本实施例中,显示屏8采用带背景灯的触摸屏或LED显示屏。
在本实施例中,固定录音器13可以设置多个,布置在本发明外壳处,用于增加语音录制强度。
本发明对已录入并标记好的语音信号具有长期存储功能,凡是存储在本发明语音模式类数据库中的语音信号,本发明都可随时调取与未知测试语音进行对比识别。
本发明的使用流程是,先打开电源开关5,然后***自动运行,显示屏8点亮并显示操作界面,人们可以选择“语音录入模式”和“语音测试模式”两种功能。
(1)当选择语音录入时,中央处理器3会控制语音输入单元20进入“语音录入模式”,显示屏8和扬声器35会同时提示“现在是语音录入模式,请说话”类似的提示,人们可通过语音采集装置1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音;为保证本发明能够准确识别和量化被识别对象的语音特征,因此在“语音录入模式”阶段每次只能对一个人或一个对象进行语音录入,由于同一人在说话和唱歌时发出的声音信号数据会存在一定的特征偏差,因此,为提高语音信号识别的准确度,本发明采用多状态语音录入策略,即录入的语音中可包含正常讲话、唱歌或者高/中/低音及其他状态下的多状态组合声音,录音时长为5~30秒,显示器8会显示语音实时波形及完成进度条,如果录制的语音不理想可以删除再次录入,录入语音完毕后需要进行数据标记,标记方法采用人工手动标记,如采集完张三的声音,即在本发明显示屏8显示的对话框中备注:“张三的声音”,保存即可,录入的语音存储在本发明的存储器33中。
(2)语音信号录入完毕后,本发明的控制***自动将已标记的语音信号送入语音预处理单元21,语音预处理单元21把语音采集装置1采集到的语音信号转变为电信号,即将模拟信号转变为数字信号,然后进行常规的信号处理,包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。
(3)本发明的控制***自动把已预处理后语音信号送入信号特征提取单元22,语音信号特征提取单元22从预处理后的语音信号中提取出反映语音本质的特征参数,得到特征向量xi,特征参数提取方法优选的采用频率倒谱系数法(MFCC),还可采用谱包络法、LPC内插法、LPC求根法、希尔伯特变换法等得到声学特征,提取特征后得到的特征向量***自动保存到模式类别库中,一个人的所有声音特征对应一个模式类,若录入N个人语音后,即得到N个模式类,若每个模式类有n个特征参数,从而得到一人对应语音信号模式类的数据库,所有的数据都存储在本发明的存储器33中,至此,语言信号录入模式内容完毕。
(4)语音录入完毕后,可进行语音测试,当进行语音测试时,只需要在显示屏8的操作界面中选择“语音测试模式”即可,中央处理器3会控制语音输入单元20进入“语音测试模式”,显示屏8和扬声器35会同时提示“语音测试中…”类似的提示,这时人们不取要做任何操作,本发明会通过语音采集装置1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音,测试语音采集过程为实时采集,没有任何时间限制和人数的限制。
(5)在“语音测试模式”下采集到的语音数据,本发明***装置会自动地对测试语音信号进行预处理和特征提取,将采集到的语音测试信号转化为电信号,并进行常规的滤波、去除噪音、加窗函数及端点检测后进行信号特征提取。
(6)测试信号提取特征后,本发明会自动进行特征匹配,将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入的已标记好的样本语音特征参数进行特征匹配,并计算测试语音信号与所有已录入的原始语音信号的相似度,并把测试语音信号分到与其相似度最高的那一模式类别中,最后本发明向外界输出,“这是XXX的声音”类似的报告,例如,如果本发明已存储了张三的语音特征信号,当张三对着本发明说话或唱歌时,本发明经过识别,会自动输出“这是张三的声音”。
当本发明在公共场合测试时,由于测试环境中,同一时间段可能存在多个对象同时说话,即采集到的语音信号是宽带混叠的信号,为防止本发明对此时采集的语音信号特征提取时出错,本发明采用的策略在于,运用智能算法,先匹配和识别出单个人说话时的语音特征参数并进行标识和存储,然后***再对共同说话时的语音信号进行自动筛选和分离,最后输出识别结果并报告“现在是张三、李四、王五……共同的声音”类似的提示,并提示存在XX个语音未能识别,关闭***时按下电源关闭键6。
在本实施例中,***装置还可以向人们输出对多人交流环境下的识别结果清单,包含测试环境下有多少人或对象在现场说话的数量,以及筛选并播放从多人同时说话的录音中识别分离出每个人所讲的内容,而过滤掉其他人的声音和环境音。
当测试语音信号中出现了本发明未存储的标本语音信号特征时,本发明会自动记录未知的该语音信号特征,以提醒人们是否标记并存储该对象的语音信号。
在智能语音信号模式自动识别***装置技术领域内;凡是包含有语音采集装置1、语音识别装置2、中央处理器3、无线信号收发装置4、显示屏8、电源9、存储器33、网络模块31、内存卡32和扬声器35,所述语音采集装置1包含有话筒11、无线对讲机12和固定录音器13,所述语音识别装置2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23,框体10设置有内腔体,在框体10的上端部中间位置处设置有无线信号收发装置4、在无线信号收发装置4的左侧设置有卡槽14,无线对讲机12设置为内嵌式装卡在卡槽14内部,在卡槽14的左侧设置有语音采集装置1,在无线信号收发装置4的正下方位置处设置有显示屏8,在显示屏8的下方左侧设置有语音识别装置2,在语音识别装置2内部的从上至下依次设置有语音输入单元20、语音预处理单元21、语音信号特征提取单元22和特征匹配判别分类单元23,在语音识别装置2的右侧最下方设置有电源9,在电源9的正上方左侧设置有存储器33,在存储器33的正上方设置有中央处理器3,在中央处理器3的右侧设置有扬声器35,在存储器33的右侧设置有网络模块31,在网络模块31的正下方设置有内存卡32,所有电子部件通过导线7连接在一起构成通路的技术内容都在本发明的保护范围内。
应当指出,本发明保护范围不应受限于外形特征,本发明的框体10的造型可以设置为方形、圆柱形、多棱柱体形或类似于白菜、西瓜、石头等其他造型,凡是造型不同而实质的技术内容与本发明相同的一切技术内容也在本发明的保护范围之内;同时,本技术领域技术人员在本发明内容的基础上作常规的显而易见的小改进或小组合,只要技术内容包含在本发明所记载的内容范围之内的技术内容也在本发明的保护范围内。

Claims (5)

1.一种智能语音信号模式自动识别***装置;其特征是:包含有语音采集装置(1)、语音识别装置(2)、中央处理器(3)、无线信号收发装置(4)、显示屏(8)、电源(9)、存储器(33)、网络模块(31)、内存卡(32)和扬声器(35),所述语音采集装置(1)包含有话筒(11)、无线对讲机(12)和固定录音器(13),所述语音识别装置(2)包含有语音输入单元(20)、语音预处理单元(21)、语音信号特征提取单元(22)、特征匹配判别分类单元(23),框体(10)设置有内腔体,在框体(10)的上端部中间位置处设置有无线信号收发装置(4)、在无线信号收发装置(4)的左侧设置有卡槽(14),无线对讲机(12)设置为内嵌式装卡在卡槽(14)内部,在卡槽(14)的左侧设置有语音采集装置(1),在无线信号收发装置(4)的正下方位置处设置有显示屏(8),在显示屏(8)的下方左侧设置有语音识别装置(2),在语音识别装置(2)内部的从上至下依次设置有语音输入单元(20)、语音预处理单元(21)、语音信号特征提取单元(22)和特征匹配判别分类单元(23),在语音识别装置(2)的右侧最下方设置有电源(9),在电源(9)的正上方左侧设置有存储器(33),在存储器(33)的正上方设置有中央处理器(3),在中央处理器(3)的右侧设置有扬声器(35),在存储器(33)的右侧设置有网络模块(31),在网络模块(31)的正下方设置有内存卡(32),所有电子部件通过导线(7)连接在一起构成通路。
2.根据权利要求1所述的智能语音信号模式自动识别***装置;其特征是:无线对讲机(12)的外型尺寸比卡槽(14)的外型尺寸小1~3mm。
3.根据权利要求1所述的智能语音信号模式自动识别***装置;其特征是:显示屏(8)采用带背景灯的触摸屏或LED显示屏。
4.根据权利要求1所述的智能语音信号模式自动识别***装置;其特征是:固定录音器(13)设置为2~10个,布置在本发明外壳处,用于增加语音录制强度。
5.根据权利要求1所述的智能语音信号模式自动识别***装置;其特征是:语音采集装置(1)还可采用智能手机进行语音信号输入,通过用智能手机与语音采集装置(1)匹配连接,匹配方式包括蓝牙、红外线、WIFI以及扫描二维码进行连接,实现语音录入。
CN201810561739.8A 2018-06-04 2018-06-04 智能语音信号模式自动识别***装置 Withdrawn CN110299135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810561739.8A CN110299135A (zh) 2018-06-04 2018-06-04 智能语音信号模式自动识别***装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810561739.8A CN110299135A (zh) 2018-06-04 2018-06-04 智能语音信号模式自动识别***装置

Publications (1)

Publication Number Publication Date
CN110299135A true CN110299135A (zh) 2019-10-01

Family

ID=68026322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810561739.8A Withdrawn CN110299135A (zh) 2018-06-04 2018-06-04 智能语音信号模式自动识别***装置

Country Status (1)

Country Link
CN (1) CN110299135A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111176607A (zh) * 2019-12-27 2020-05-19 国网山东省电力公司临沂供电公司 一种基于电力业务的语音交互***及方法
CN113572492A (zh) * 2021-06-23 2021-10-29 力声通信股份有限公司 一种新型通信设备防摔数字对讲机
CN113726705A (zh) * 2021-11-03 2021-11-30 天津七一二移动通信有限公司 具有集成ais编解码能力的pdt对讲机
CN115662423A (zh) * 2022-10-19 2023-01-31 博泰车联网(南京)有限公司 语音控制方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111176607A (zh) * 2019-12-27 2020-05-19 国网山东省电力公司临沂供电公司 一种基于电力业务的语音交互***及方法
CN113572492A (zh) * 2021-06-23 2021-10-29 力声通信股份有限公司 一种新型通信设备防摔数字对讲机
CN113726705A (zh) * 2021-11-03 2021-11-30 天津七一二移动通信有限公司 具有集成ais编解码能力的pdt对讲机
CN113726705B (zh) * 2021-11-03 2022-01-07 天津七一二移动通信有限公司 具有集成ais编解码能力的pdt对讲机
CN115662423A (zh) * 2022-10-19 2023-01-31 博泰车联网(南京)有限公司 语音控制方法、装置、设备及存储介质
CN115662423B (zh) * 2022-10-19 2023-11-03 博泰车联网(南京)有限公司 语音控制方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107808659A (zh) 智能语音信号模式识别***装置
CN110838286B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN108701453B (zh) 模块化深度学习模型
CN110299135A (zh) 智能语音信号模式自动识别***装置
CN105940407B (zh) 用于评估音频口令的强度的***和方法
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
US9454958B2 (en) Exploiting heterogeneous data in deep neural network-based speech recognition systems
CN107767869A (zh) 用于提供语音服务的方法和装置
CN110136690A (zh) 语音合成方法、装置及计算机可读存储介质
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN107221320A (zh) 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN107610707A (zh) 一种声纹识别方法及装置
CN110853618A (zh) 一种语种识别的方法、模型训练的方法、装置及设备
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及***
CN112259106A (zh) 声纹识别方法、装置、存储介质及计算机设备
CN108269133A (zh) 一种结合人体识别和语音识别的智能广告推送方法及终端
CN108364662B (zh) 基于成对鉴别任务的语音情感识别方法与***
CN106295717B (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
CN113066499B (zh) 一种陆空通话说话人身份识别方法及装置
CN110161480A (zh) 基于半监督深度概率模型的雷达目标识别方法
CN110299132A (zh) 一种语音数字识别方法和装置
US20230206924A1 (en) Voice wakeup method and voice wakeup device
Sun et al. A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
CN117037796A (zh) 基于多元特征的aigc语音欺诈风控方法、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20191001

WW01 Invention patent application withdrawn after publication