CN109473101B - 一种差异化随机问答的语音芯片结构和方法 - Google Patents
一种差异化随机问答的语音芯片结构和方法 Download PDFInfo
- Publication number
- CN109473101B CN109473101B CN201811567573.7A CN201811567573A CN109473101B CN 109473101 B CN109473101 B CN 109473101B CN 201811567573 A CN201811567573 A CN 201811567573A CN 109473101 B CN109473101 B CN 109473101B
- Authority
- CN
- China
- Prior art keywords
- question
- active
- unit
- user
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 230000004044 response Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Lock And Its Accessories (AREA)
Abstract
本发明公开一种差异化随机问答的语音芯片结构和方法,其中芯片结构包括如下单元:声纹识别神经网络单元、神经网络参数单元、问题应答处理单元、语音识别单元和用户信息存储单元,其中:语音识别单元用于对从麦克风获取到的声音信息进行识别得到语义信息;用户信息存储单元用于存储用户信息、问题和答案的对应关系。区别于现有技术,上述技术方案通过用户声纹采集和匹配,可以在语音回答时针对不同的用户做出不同的答复内容;以及针对不同用户会进行主动学习和完善。
Description
技术领域
本发明涉及语音芯片领域,尤其涉及一种差异化随机问答的语音芯片结构和方法。
背景技术
语音识别在现有生活中已经有比较多的应用,如手机上、智能音箱、汽车或者机器人上面,都会有语音识别。当前技术中,这些语音识别设备可以对用户的语音进行响应和回答,但是还有很多的不足。
1、当前技术的语音识别设备对不同的用户不会做出不同的回答,回答响应内容不会根据用户的不同而针对性的产生变化,没有用户粘性。
2、语音识别设备只能被动接受问题,而不会主动向用户提出问题,与自然状态下的人与人聊天完全不同,感觉不自然。
3、语音识别设备不会针对不同用户去主动学习各个用户的各种习惯,不够人性化。
发明内容
为此,需要提供一种差异化随机问答的语音芯片结构和方法,解决现有语音识别设备无法根据不同用户进行有针对性回答的问题。
为实现上述目的,发明人提供了一种差异化随机问答的语音芯片结构,包括如下单元:
声纹识别神经网络单元、神经网络参数单元、问题应答处理单元、语音识别单元和用户信息存储单元,其中:
语音识别单元用于对从麦克风获取到的声音信息进行识别得到语义信息;
用户信息存储单元用于存储用户信息、问题和答案的对应关系;
神经网络参数单元用于存储已训练的用户声纹识别网络参数数据;
声纹识别神经网络单元用于根据用户声纹识别网络参数数据和麦克风的声音信息识别对应的用户信息;
问题应答处理单元用于根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放;
如果没有匹配到对应的答案则根据识别用户的语义信息从网络获取语义信息对应的答案并将答案转换为语音信号后送到扩音器上播放。
进一步地,还包括单元:主动问题开启判断单元、主动问题选择单元和主动问题列表存储单元,其中:
主动问题列表存储单元用于存储主动问题;
主动问题开启判断单元用于判断是否达到预设的主动问题开启条件;
主动问题选择单元用于选择主动问题;
问题应答处理单元还用于将选择的主动问题转换为语音信号后送到扩音器上播放。
进一步地,还包括单元:提问触发单元、随机数产生单元,其中:
提问触发单元用于判断是否满足触发条件,在满足触发条件后使能随机数产生单元;
随机数产生单元用于根据随机数种子产生随机数;
主动问题开启判断单元用于根据随机数判断是否达到预设的主动问题开启条件;
主动问题选择单元用于根据随机数选择主动问题;
所述触发条件包括超时触发或者敏感词触发。
进一步地,还包括单元:信息提取单元,信息提取单元用于从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。
进一步地,所述主动问题列表存储单元用于存储按照树状排列的主动问题,树状排列的主动问题包括多级的多个问题,每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题,以及每个问题与用户信息的关联关系,所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系;
主动问题选择单元用于根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息从主动问题列表存储单元中查找提问的问题内容,主动问题选择单元用于在主动问题列表存储单元匹配到的问题已经存在和用户信息相关的关联关系时,在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题。
本发明还提供一种差异化随机问答的语音识别方法,包括如下步骤:
获取声音信息;
对声音信息进行识别得到语义信息;
根据用户声纹识别网络参数数据和麦克风的声音信息识别对应的用户信息;
根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放,所述存储的对应关系为存储用户信息、问题和答案的对应关系;
如果没有匹配到对应的答案则根据识别用户的语义信息从网络获取语义信息对应的答案并将答案转换为语音信号后送到扩音器上播放;
播放语音信号的声音。
进一步地,还包括步骤:
判断是否达到预设的主动问题开启条件;
在达到主动问题开启条件后选择主动问题;
将选择的主动问题转换为语音信号后送到扩音器上播放。
进一步地,还包括步骤:
判断是否满足触发条件,在满足触发条件后根据随机数种子产生随机数;
根据随机数判断是否达到预设的主动问题开启条件;
在达到预设的主动问题开启条件后根据随机数选择主动问题;
所述触发条件包括超时触发或者敏感词触发。
进一步地,还包括步骤:
从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。
进一步地,主动问题按照树状排列,树状排列的主动问题包括多级的多个问题,每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题,以及每个问题与用户信息的关联关系,所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系;
本方法还包括步骤:根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息查找提问的问题内容,如果在主动问题列表存储单元匹配到的问题已经存在和用户信息相关的关联关系,则在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题。
区别于现有技术,上述技术方案1、通过对不同用户的声纹采集和匹配,可以识别不同的用户,而后可以在语音回答时针对不同的用户做出不同的答复内容;2、可以主动发出提问,在提出问题的同时对用户数据库进行学习和完善;3、针对不同用户会进行主动学习和完善。
附图说明
图1为具体实施方式所述的方法流程图;
图2为具体实施方式所述的语音芯片结构图;
图3为主动问题开启判断单元的电路结构示意图。
附图标记说明:
201、麦克风; 202、麦克风;
203、声纹识别神经网络单元; 204、神经网络参数单元;
206、问题应答处理单元; 208、语音识别单元;
209、用户信息存储单元; 210、主动问题开启判断单元;
211、主动问题选择单元; 212、主动问题列表存储单元;
213、提问触发单元; 214、随机数产生单元;
215、敏感词存储单元; 216、信息提取单元;
217、关键字唤醒单元; 207、扩音器。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1到图3,本实施例提供一种差异化随机问答的语音识别方法,可以应用在图2的语音芯片上,包括如下步骤:步骤S101获取声音信息;步骤S102对声音信息进行识别得到语义信息;步骤S103根据用户声纹识别网络参数数据和麦克风的声音信息识别对应的用户信息;步骤S104根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放,所述存储的对应关系为存储用户信息、问题和答案的对应关系;步骤S105如果没有匹配到对应的答案则根据识别用户的语义信息从网络获取语义信息对应的答案并将答案转换为语音信号后送到扩音器上播放;步骤S106播放语音信号的声音。本方法通过采集对应的声音的声纹信息,自动匹配对应的用户信息,并根据用户声音信息识别出用户的语义信息,即用户的问题信息;而后根据存储的用户、问题和答案的对应关系,匹配出与用户相关的答案,进行有针对性的回答,提高用户体验。声音识别或者称语音活动检测(Voice Activity Detection)可以采用现有的技术,如可以采用RNN(循环神经网络,Recurrent Neural Network)语音识别的方式。
其中,步骤S104中,用户声纹识别网络参数数据是预存在芯片内的,这个数据可以通过对声音信息进行神经网络训练得到。训练阶段需要用户对语音芯片中的CNN(Convolutional Neural Network,卷积神经网络)进行神经网络参数训练,使其能够正确对经常使用该设备的几个用户的声纹信息进行分辨识别。具体训练方法如下:
开启麦克风,可以用语音提示用户开始说话准备进行语音识别。而后通过扩音器播放需要用户说的语句,用户说话后,声纹识别神经网络单元即可以检测到声音。先设置当前进行训练的是用户1,然后让用户1继续进行说话并语音采集,麦克风采集语音供声纹识别神经网络单元进行声纹检测并进行训练。当训练声纹达到一定数量,并且识别正确率达到预设值(比如90%)后,完成用户1的训练,此时可以语音提醒用户1已经完成训练。同时可以存储用户1的用户语音,后续如果采集到的用户语音与该用户语音相匹配,则当前采集的声音信息对应的用户即为用户1。
而后开始用户2的训练,训练过程一样,当训练声纹达到一定数量,并且识别正确率达到预设值(比如90%)后,完成用户2的训练。当所有用户完成训练后,将训练得到的网络参数送往神经网络参数单元。同时将用户信息存储起来,可以存储在语音芯片的存储器上或者是网络数据库上。当然,在某些实施例中,如果没有识别到声纹信息对应的用户,则可以直接通过网络到服务器上查找语义信息对应的问题的通用答案或者回答,避免出现无响应的情况。
为了实现与用户的交互,本发明方法还包括步骤:判断是否达到预设的主动问题开启条件;在达到主动问题开启条件后选择主动问题;将选择的主动问题转换为语音信号后送到扩音器上播放。这样在满足一定条件时,本发明可以实现对用户的询问,而并非单纯地响应用户的问题。主动问题开启的条件可以有多种,如采集到声音信息但是无法获取到声音信息对应的语义信息后就可以发出问题,如确认用户基本信息或者询问用户是否操作等。
在某些实施例中,还可以采用随机数的方式进行随机问题的选择,本发明还包括步骤:判断是否满足触发条件,在满足触发条件后根据随机数种子产生随机数;根据随机数判断是否达到预设的主动问题开启条件;在达到预设的主动问题开启条件后根据随机数选择主动问题;所述触发条件包括超时触发或者敏感词触发。其中,随机数种子可以由随机数种子产生单元产生,用于向随机数产生单元提供随机数产生所需要的种子。一般需要一个随机变化的数字,如高精度的温度或者湿度传感器。由于高精度传感器的特性,决定了其低位的采样数字是一直在随机变化飘动的,可以采用传感器的采样值低位作为随机种子。还可以采用高精度定时器的低位作为随机数种子。随机数产生的方法现在有很多种,在此不再赘述。根据随机数判断是否达到预设的主动问题开启条件具体可以是收到随机数后,根据用户配置的提问比例,判断是否本次问题回答完毕后是否主动对用户进行提问。本发明的可配置的提问比例可选项为1/2的幂次,比如1/2,1/4,1/8,1/16。因为随机数每1bit是0的概率为50%,则如果用户配置提问概率为50%则取随机数1bit为零时打开本次的主动提问;如果用户配置提问概率为25%则取2bit都为零时打开本次的主动提问;如果用户配置提问概率为12.5%则取3bit都为零时打开本次的主动提问。根据随机数选择主动问题可以根据随机数不同的值对应的主动问题列表的顺序选择出主动问题,这样主动问题可以更加多样性。
触发条件用于触发随机数的产生,包含超时触发或者敏感词触发,超时触发即用户停止说话后超过时间后触发,该时间可以根据用户配置,如用户停止说话10秒,触发提问。敏感词触发方法即当用户语音识别结果中包含敏感词表中的词语时,触发提问。比如用户说:"现在好无聊",而"无聊"为敏感词,则触发主动提问。通过主动的触发,可以保持与用户直接的互动,避免出现长时间也用户不存在互动的情况。
主动问题的排序与匹配也会大大影响提问的精准度,本发明为了提高提问精准度,将主动问题按照树状排列,树状排列的主动问题包括多级的多个问题,每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题,以及每个问题与用户信息的关联关系,所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系;本方法还包括步骤:根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息查找提问的问题内容,如果在主动问题列表存储单元匹配到的问题已经存在和用户信息相关的关联关系,则在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题。这样用户的问题每次都根据用户的回答做最相关的匹配,从而实现问题的连贯性。
以一个具体的例子为例,主动问题的第一级树状可以将问题划分为多个类别,每个类别对应有不同的一个问题,本实施例的类别仅仅为了便于理解,由于类别只对应一个问题,类别在实际应用的时候可以不需要。类别关键字用于与用户回答建立起对应关系,从而根据用户的回答或者提问来确定主动提问的问题。比如第一级树状分支下的可以分类为:心情,体育,电影,音乐,家庭,工作,天气。每个分类对应有一个问题,如"音乐"大类的问题为"您喜欢什么类型音乐","电影"大类的问题为"您喜欢什么类型电影"等。而后根据用户对话内容来确定对话是属于哪个类别。如用户对话为"请查询这个音乐的作者",则根据该对话的信息内容匹配为"音乐"大类,则可以向用户提问的问题为"您喜欢什么类型音乐"。每一个问题具有对应的不同回答的类别,这些类别也对应有不同的问题,这些问题即作为下一级的问题,即每级的问题都由上一级问题的不同回答来对应。如音乐的下一级分支为古典,现代,摇滚,每个类别又对应一个问题。然后根据用户回答,再决定是哪个类别后就可以提出下一级的问题。
当然,如果匹配不到类别,即匹配不到问题,则可以随机在本级的多个问题里面抽出一个进行提问。提问的时机可以上述的超时触发的时机,即超时后,开始进行提问。在实际应用时,一般是由用户先提问,则应该在回答完用户问题后再进行主动提问,主动提问时,可以根据用户提问确定第一次主动提问的类别和问题。而后语音芯片开始提问后可以依照当前树状排列的主动问题的位置进行自动的下一次提问,主动问题可以有很多级,这样可以保证有多次不间断的提问。但如果用户再次主动提问或者用户发出结束的语音时,则跳出当前的主动提问。如用户再次主动提问“最近上映的电影有什么”或者用户发出结束的语音如"我对这个不感兴趣",则结束当前的主动提问。而后如果又满足主动提问触发条件后,则进行新一轮的主动提问,即从树状主动问题的第一级问题开始提问。如根据用户的电影两个字,提出“你喜欢什么类型电影”的问题。
而后每次用户回答后,在回答的问题建立起用户信息与问题的关联关系,从而记录下该问题已经问过该用户了。如果匹配到已经提过的问题,则可以在主动问题的树状结构中本级问题的其他问题中随机挑选一个进行提问,这样避免对用户提出相同的问题。
为了建立起用户信息、问题和答案的对应关系,本发明还包含主动问题和答案记录过程,具体地,在上述实施例的基础上还包括步骤:从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。其中,从语义信息提取答案信息就是将主动提问的问题的答案进行逻辑抽象,比如问题为:是否喜欢某个地方?用户回答经过语义识别后得到的结果是:“嗯”,或者“是的”,则信息提取单元将该信息抽象为逻辑1,然后将信息存储到用户信息存储单元中该用户数据区域中的该主动问题对应的答案,即建立起主动问题、用户信息和答案三者的对应关系。这样通过对用户主动的询问,可以采集到一个问题不同用户的不同答案,而后在用户进行相关问题提问时,也可以针对不同的用户进行的回答。
为了实现对用户的语音触发,本发明还采用关键字进行触发的方式,则进一步地,获取声音信息后还包括步骤:检测麦克风声音是否包含有关键字,并在包含有关键字时对声音信息进行识别得到语义信息。如果麦克风声音中没有检测到关键字信息,则不进行本发明声音识别、声纹识别的步骤,这样可以节省电力。
如图2所示,本发明还提供一种差异化随机问答的语音芯片结构,为了实现芯片结构的功能,语音芯片结构还可以与麦克风202和扩音器207连接,这样可以实现为一个语音识别装置。语音芯片结构包括如下单元:声纹识别神经网络单元203、神经网络参数单元204、问题应答处理单元206、语音识别单元208和用户信息存储单元209。麦克风用于获取声音信息;语音识别单元用于对从麦克风获取到的声音信息进行识别得到语义信息;用户信息存储单元用于存储用户信息、问题和答案的对应关系;声纹识别神经网络单元用于根据用户声纹识别网络参数数据和麦克风的声音信息识别对应的用户信息;神经网络参数单元用于存储已训练的用户声纹识别网络参数数据;问题应答处理单元用于根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放;如果没有匹配到对应的答案则根据识别用户的语义信息从网络获取语义信息对应的答案并将答案转换为语音信号后送到扩音器上播放;扩音器用于播放语音信号的声音。本语音芯片通过采集对应的用户声纹信息,自动匹配对应的用户信息,并根据用户声音信息识别出用户的语义信息,即用户的问题信息;而后根据存储的用户、问题和答案的对应关系,匹配出与用户相关的答案,进行有针对性的回答,提高用户体验。
本实施例中,如果是声纹信息识别出的用户为已经经过训练并存储的用户,则会先到用户信息存储单元中该用户的数据区域进行问题查询,如果当前语义信息中的问题在该用户的数据区域有记录则直接从用户信息存储单元中读取该问题的答案进行回答。如果当前语义中的问题在该用户的数据区域经过查询无记录,则继续通过控制无线网络连接控制单元,进行网络数据库连接。查询用户当前对应语义信息在数据库中存储的该问题通用对应的答案。而如果是当前识别出的用户为没有经过训练的用户,则直接通过控制无线网络连接控制单元进行网络数据库连接,查询数据库中存储的该问题通用对应的答案。每次网络连接时,无线网络连接控制单元根据问题应答处理单元的控制进行网络数据库连接,查询网络数据库中存储的问题的通用对应的答案,并将答案数据送往问题应答处理单元,最后问题应答处理单元将答案转换为语音信号后送到扩音器上播放。
为了实现与用户交互,本语音芯片还包括主动问题开启判断单元210、主动问题选择单元211和主动问题列表存储单元212,其中:主动问题列表存储单元用于存储主动问题;主动问题开启判断单元用于判断是否达到预设的主动问题开启条件;主动问题选择单元用于选择主动问题;问题应答处理单元还用于将选择的主动问题转换为语音信号后送到扩音器上播放。主动提问还可以根据声纹信息识别的用户信息进行进一步确认,如果当前用户识别结果是已存储的用户,则每次提问时记录用户信息和已经提过的问题,而后再次提问时,排除已经提问过的问题,在剩下的问题中随机抽出一个作为本次主动提问的问题。如果当前用户识别结果并未是已存储的用户,则直接在所有主动问题列表的问题中随机抽出一个作为本次主动提问的问题。这样可以避免重复提问,提高用户体验。
进一步地,为了提高问题与用户回答的关联性,所述主动问题列表存储单元用于存储按照树状排列的主动问题,树状排列的主动问题包括多级的多个问题,每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题,以及每个问题与用户信息的关联关系,所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系;主动问题选择单元用于根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息从主动问题列表存储单元中查找提问的问题内容,主动问题选择单元用于在主动问题列表存储单元匹配到的问题已经存在和用户信息相关的关联关系时,在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题。
在某些实施例中,本语音芯片还包括单元:提问触发单元213、随机数产生单元214,其中:提问触发单元用于判断是否满足触发条件,在满足触发条件后使能随机数产生单元;随机数产生单元用于根据随机数种子产生随机数;主动问题开启判断单元用于根据随机数判断是否达到预设的主动问题开启条件;主动问题选择单元用于根据随机数选择主动问题;所述触发条件包括超时触发或者敏感词触发。其中,敏感词可以存储在敏感词存储单元215中,以便于提问触发单元调用。本实施例中,主动问题开启判断单元具体的电路结构如图3所示。包含多个反相器、与门和输出选择配置子单元,反相器的数量与随机数的二进制位宽相同,与门数量为反相器数量减一,反相器输入端分别与随机数产生单元的位输出端连接。用户可以在输出选择配置子单元配置选择为某一种输出结果,如可以选择最上面的输出结果,即选择50%的概率。当随机数的最低位为0的时候,就会触发选择,实现主动问题的提问。
进一步地,本语音芯片还包括单元:信息提取单元216,信息提取单元用于从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。这样可以建立起答案、问题和用户信息的对应关系。
为了避免误触发和节省电量,本语音芯片还包括单元:关键字唤醒单元217,关键字唤醒单元用于检测麦克风声音是否包含有关键字,并在包含有关键字时使能声纹识别神经网络单元和语音识别单元。具体地,可以将本语音芯片分为两个电源域,一个是关键字唤醒单元,除了关键字唤醒单元的其他所有电路处于另一个电源域。关键字唤醒单元是电路里唯一总处于通电状态的电路,该电源域总是处于电源开启状态。而另一个电源域的开关由关键字唤醒单元控制。在整个电路开始工作时,只有关键字唤醒单元所在电源域处于电源开启状态,其他所有电路所处的另一个电源域处于关闭状态。关键字唤醒单元负责接收数字麦克风传来的声音信息,并检测是否有预设关键字的声音出现。如果出现敏感关键字出现,则打开其他所有电路所在另一个电源域,并输出敏感词有效信号给声纹识别神经网络单元和语音识别单元,使其开始工作。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
Claims (6)
1.一种差异化随机问答的语音芯片结构,其特征在于,包括如下单元:
声纹识别神经网络单元、神经网络参数单元、问题应答处理单元、语音识别单元和用户信息存储单元,其中:
语音识别单元用于对从麦克风获取到的声音信息进行识别得到语义信息;
用户信息存储单元用于存储用户信息、问题和答案的对应关系;
神经网络参数单元用于存储已训练的用户声纹识别网络参数数据;
声纹识别神经网络单元用于根据用户声纹识别网络参数数据和麦克风的声音信息识别对应的用户信息;
问题应答处理单元用于根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放;
如果没有匹配到对应的答案则根据识别用户的语义信息从网络获取语义信息对应的答案并将答案转换为语音信号后送到扩音器上播放;
还包括单元:主动问题开启判断单元、主动问题选择单元和主动问题列表存储单元,其中:
主动问题列表存储单元用于存储主动问题;
主动问题开启判断单元用于判断是否达到预设的主动问题开启条件;
主动问题选择单元用于选择主动问题;
问题应答处理单元还用于将选择的主动问题转换为语音信号后送到扩音器上播放;
所述主动问题列表存储单元用于存储按照树状排列的主动问题,树状排列的主动问题包括多级的多个问题,每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题,以及每个问题与用户信息的关联关系,所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系;
主动问题选择单元用于根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息从主动问题列表存储单元中查找提问的问题内容,主动问题选择单元用于在主动问题列表存储单元匹配到的问题已经存在和用户信息相关的关联关系时,在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题。
2.根据权利要求1所述的一种差异化随机问答的语音芯片结构,其特征在于,还包括单元:提问触发单元、随机数产生单元,其中:
提问触发单元用于判断是否满足触发条件,在满足触发条件后使能随机数产生单元;
随机数产生单元用于根据随机数种子产生随机数;
主动问题开启判断单元用于根据随机数判断是否达到预设的主动问题开启条件;
主动问题选择单元用于根据随机数选择主动问题;
所述触发条件包括超时触发或者敏感词触发。
3.根据权利要求1所述的一种差异化随机问答的语音芯片结构,其特征在于,还包括单元:信息提取单元,信息提取单元用于从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。
4.一种差异化随机问答的语音识别方法,其特征在于,包括如下步骤:
获取声音信息;
对声音信息进行识别得到语义信息;
根据用户声纹识别网络参数数据和麦克风的声音信息识别对应的用户信息;
根据识别的用户信息、语义信息在存储的对应关系中匹配对应的答案并将答案转换为语音信号后送到扩音器上播放,所述存储的对应关系为存储用户信息、问题和答案的对应关系;
如果没有匹配到对应的答案则根据识别用户的语义信息从网络获取语义信息对应的答案并将答案转换为语音信号后送到扩音器上播放;
播放语音信号的声音;
判断是否达到预设的主动问题开启条件;
在达到主动问题开启条件后选择主动问题;
将选择的主动问题转换为语音信号后送到扩音器上播放;
主动问题按照树状排列,树状排列的主动问题包括多级的多个问题,每一级具有多个的问题以及每个问题对应的多个回答以及每个回答对应的问题,以及每个问题与用户信息的关联关系,所述关联关系为已经向用户信息对应的用户提出并获得回答的问题与用户信息的对应关系;
本方法还包括步骤:根据获取到的回答内容判断是否主动提问、根据回答内容和用户信息查找提问的问题内容,如果在主动问题列表存储单元匹配到的问题已经存在和用户信息相关的关联关系,则在本级问题中的剩余问题中随机抽出一个作为本次主动提问的问题。
5.根据权利要求4所述的一种差异化随机问答的语音识别方法,其特征在于,还包括步骤:
判断是否满足触发条件,在满足触发条件后根据随机数种子产生随机数;
根据随机数判断是否达到预设的主动问题开启条件;
在达到预设的主动问题开启条件后根据随机数选择主动问题;
所述触发条件包括超时触发或者敏感词触发。
6.根据权利要求4所述的一种差异化随机问答的语音识别方法,其特征在于,还包括步骤:
从语义信息中提取答案信息并存储答案、主动问题和用户信息到用户信息存储单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811567573.7A CN109473101B (zh) | 2018-12-20 | 2018-12-20 | 一种差异化随机问答的语音芯片结构和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811567573.7A CN109473101B (zh) | 2018-12-20 | 2018-12-20 | 一种差异化随机问答的语音芯片结构和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109473101A CN109473101A (zh) | 2019-03-15 |
CN109473101B true CN109473101B (zh) | 2021-08-20 |
Family
ID=65675469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811567573.7A Active CN109473101B (zh) | 2018-12-20 | 2018-12-20 | 一种差异化随机问答的语音芯片结构和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109473101B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7272293B2 (ja) * | 2020-01-29 | 2023-05-12 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム及びプログラム |
CN111324719B (zh) * | 2020-03-04 | 2023-05-05 | 重庆百事得大牛机器人有限公司 | 用于法律咨询的模糊识别*** |
CN113707139B (zh) * | 2020-09-02 | 2024-04-09 | 南宁玄鸟网络科技有限公司 | 一种人工智能机器人的语音沟通交流服务*** |
CN114155865A (zh) * | 2021-12-16 | 2022-03-08 | 广州城市理工学院 | 一种全息互动*** |
CN116524932A (zh) * | 2023-07-03 | 2023-08-01 | 深圳市诚识科技有限公司 | 一种基于人工智能的智能语音交互***及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1581293A (zh) * | 2003-08-07 | 2005-02-16 | 王东篱 | 基于有限集语音识别的人机交互方法与装置 |
CN105512228A (zh) * | 2015-11-30 | 2016-04-20 | 北京光年无限科技有限公司 | 一种基于智能机器人的双向问答数据处理方法和*** |
CN106653016A (zh) * | 2016-10-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 智能交互方法和装置 |
CN106653019A (zh) * | 2016-12-07 | 2017-05-10 | 华南理工大学 | 一种基于用户注册信息的人机对话控制方法及*** |
CN107180080A (zh) * | 2017-04-28 | 2017-09-19 | 北京神州泰岳软件股份有限公司 | 一种多交互模式的智能问答方法及装置 |
CN107562788A (zh) * | 2017-07-28 | 2018-01-09 | 深圳前海微众银行股份有限公司 | 交互方法、装置及计算机可读存储介质 |
CN108563627A (zh) * | 2018-03-02 | 2018-09-21 | 北京云知声信息技术有限公司 | 启发式语音交互方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102246900B1 (ko) * | 2014-07-29 | 2021-04-30 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
-
2018
- 2018-12-20 CN CN201811567573.7A patent/CN109473101B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1581293A (zh) * | 2003-08-07 | 2005-02-16 | 王东篱 | 基于有限集语音识别的人机交互方法与装置 |
CN105512228A (zh) * | 2015-11-30 | 2016-04-20 | 北京光年无限科技有限公司 | 一种基于智能机器人的双向问答数据处理方法和*** |
CN106653016A (zh) * | 2016-10-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 智能交互方法和装置 |
CN106653019A (zh) * | 2016-12-07 | 2017-05-10 | 华南理工大学 | 一种基于用户注册信息的人机对话控制方法及*** |
CN107180080A (zh) * | 2017-04-28 | 2017-09-19 | 北京神州泰岳软件股份有限公司 | 一种多交互模式的智能问答方法及装置 |
CN107562788A (zh) * | 2017-07-28 | 2018-01-09 | 深圳前海微众银行股份有限公司 | 交互方法、装置及计算机可读存储介质 |
CN108563627A (zh) * | 2018-03-02 | 2018-09-21 | 北京云知声信息技术有限公司 | 启发式语音交互方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109473101A (zh) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109473101B (zh) | 一种差异化随机问答的语音芯片结构和方法 | |
CN109597883B (zh) | 一种基于视频采集的语音识别装置和方法 | |
US11270074B2 (en) | Information processing apparatus, information processing system, and information processing method, and program | |
CN109616108B (zh) | 多轮对话交互处理方法、装置、电子设备及存储介质 | |
CN108536802B (zh) | 基于儿童情绪的交互方法及装置 | |
US7228275B1 (en) | Speech recognition system having multiple speech recognizers | |
US7143037B1 (en) | Spelling words using an arbitrary phonetic alphabet | |
US11495229B1 (en) | Ambient device state content display | |
CN107766482B (zh) | 信息推送及发送方法、装置、电子设备、存储介质 | |
CN107818781A (zh) | 智能交互方法、设备及存储介质 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
US20130158992A1 (en) | Speech processing system and method | |
CN107832286A (zh) | 智能交互方法、设备及存储介质 | |
CN111199732B (zh) | 一种基于情感的语音交互方法、存储介质及终端设备 | |
CN105718503B (zh) | 声音检索装置以及声音检索方法 | |
US20190164566A1 (en) | Emotion recognizing system and method, and smart robot using the same | |
CN112825248A (zh) | 语音处理方法、模型训练方法、界面显示方法及设备 | |
CN111178081A (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
US20040054532A1 (en) | Method and processor system for processing of an audio signal | |
CN112002349A (zh) | 一种语音端点检测方法及装置 | |
CN108492826B (zh) | 音频处理方法、装置、智能设备及介质 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN110808050B (zh) | 语音识别方法及智能设备 | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
CN117292688B (zh) | 一种基于智能语音鼠标的控制方法及智能语音鼠标 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 350003 building 18, No.89, software Avenue, Gulou District, Fuzhou City, Fujian Province Applicant after: Ruixin Microelectronics Co., Ltd Address before: 350003 building 18, No.89, software Avenue, Gulou District, Fuzhou City, Fujian Province Applicant before: Fuzhou Rockchips Electronics Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |