CN108847224A - 一种声音墙画面显示方法及装置 - Google Patents
一种声音墙画面显示方法及装置 Download PDFInfo
- Publication number
- CN108847224A CN108847224A CN201810732031.4A CN201810732031A CN108847224A CN 108847224 A CN108847224 A CN 108847224A CN 201810732031 A CN201810732031 A CN 201810732031A CN 108847224 A CN108847224 A CN 108847224A
- Authority
- CN
- China
- Prior art keywords
- gender
- age
- voice
- recognition result
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000010422 painting Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 15
- 210000005036 nerve Anatomy 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 10
- 230000002452 interceptive effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09F—DISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
- G09F27/00—Combined visual and audible advertising or displaying, e.g. for public address
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种声音墙画面显示方法及装置。本发明建立年龄识别模型和性别识别模型,对待识别语音进行声纹识别判断说话人的年龄和性别,进而显示对应的图案,识别过程中与声音的分贝无关,所以说话人无需大声喊叫,降低了声音墙使用过程中噪音对周围的影响,并且根据年龄和性别的不同可以显示不同的图案,增加了图案的多样性和互动性,解决了当前的声音墙容易产生噪音对周围造成影响,并且图案单一,且缺乏多样性和互动性的技术问题。
Description
技术领域
本发明涉及声音技术领域,尤其涉及一种声音墙画面显示方法。
背景技术
为了提高游乐园和公园的公共场所娱乐设施的多样性,人们在这些公共场所放置了一种声音墙,声音墙可以通过拾音器获取周围环境的声音,根据声音分贝的大小判断是否显示图案和图案的大小。
这种声音墙具备一定的趣味性,但是由于只能根据声音分贝的大小判断是否显示图案和图案的大小,导致有时候使用该声音墙时需要极大的分贝,对周围造成影响,并且图案单一,缺乏多样性和互动性。
因此,导致了当前的声音墙容易产生噪音对周围造成影响,并且图案单一,且缺乏多样性和互动性的技术问题。
发明内容
本发明提供了一种声音墙画面显示方法及装置,解决了当前的声音墙容易产生噪音对周围造成影响,并且图案单一,且缺乏多样性和互动性的技术问题。
本发明提供了一种声音墙画面显示方法,包括:
S1:获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音;
S2:通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型,通过性别训练语音对第二神经网络模型进行训练得到性别识别模型;
S3:将待识别语音输入年龄识别模型得到年龄识别结果,将待识别语音输入性别识别模型得到性别识别结果,根据年龄识别结果和性别识别结果显示对应的图片。
优选地,步骤S3具体包括:
S31:将待识别语音输入年龄识别模型得到年龄识别结果,判断年龄识别结果是否大于或等于预置年龄阈值,若是,则执行步骤S32,若否,则执行步骤S33;
S32:将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第一图片,若性别识别结果为女,则显示第二图片;
S33:将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第三图片,若性别识别结果为女,则显示第四图片。
优选地,步骤S2之后,步骤S3之前还包括:步骤S01;
S01:通过FBank特征提取算法对待识别语音进行特征提取。
优选地,步骤S01之后,步骤S3之前还包括:步骤S02;
S02:通过语音端点检测算法对特征提取后的待识别语音进行端点检测。
优选地,神经网络模型为LSTM神经网络模型。
本发明提供了一种声音墙画面显示装置,包括:
训练获取单元,用于获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音;
模型训练单元,用于通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型,通过性别训练语音对第二神经网络模型进行训练得到性别识别模型;
识别显示单元,用于将待识别语音输入年龄识别模型得到年龄识别结果,将待识别语音输入性别识别模型得到性别识别结果,根据年龄识别结果和性别识别结果显示对应的图片。
优选地,识别显示单元具体包括:
年龄子单元,用于将待识别语音输入年龄识别模型得到年龄识别结果,判断年龄识别结果是否大于或等于预置年龄阈值,若是,则触发第一子单元,若否,则触发第二子单元;
第一子单元,用于将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第一图片,若性别识别结果为女,则显示第二图片;
第二子单元,用于将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第三图片,若性别识别结果为女,则显示第四图片。
优选地,还包括:特征子单元;
特征子单元,用于通过FBank特征提取算法对待识别语音进行特征提取。
优选地,还包括:端点子单元;
端点子单元,用于通过语音端点检测算法对特征提取后的待识别语音进行端点检测。
优选地,神经网络模型为LSTM神经网络模型。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供了一种声音墙画面显示方法,包括:S1:获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音;S2:通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型,通过性别训练语音对第二神经网络模型进行训练得到性别识别模型;S3:将待识别语音输入年龄识别模型得到年龄识别结果,将待识别语音输入性别识别模型得到性别识别结果,根据年龄识别结果和性别识别结果显示对应的图片。
本发明建立年龄识别模型和性别识别模型,对待识别语音进行声纹识别判断说话人的年龄和性别,进而显示对应的图案,识别过程中与声音的分贝无关,所以说话人无需大声喊叫,降低了声音墙使用过程中噪音对周围的影响,并且根据年龄和性别的不同可以显示不同的图案,增加了图案的多样性和互动性,解决了当前的声音墙容易产生噪音对周围造成影响,并且图案单一,且缺乏多样性和互动性的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种声音墙画面显示方法的一个实施例;
图2为本发明实施例提供的一种声音墙画面显示方法的另一个实施例;
图3为本发明实施例提供的一种声音墙画面显示装置的一个实施例。
具体实施方式
本发明实施例提供了一种声音墙画面显示方法及装置,解决了当前的声音墙容易产生噪音对周围造成影响,并且图案单一,且缺乏多样性和互动性的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种声音墙画面显示方法的一个实施例,包括:
步骤101:获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音;
需要说明的是,建立年龄识别模型和性别识别模型之前需要先获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音作为训练样本。
步骤102:通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型,通过性别训练语音对第二神经网络模型进行训练得到性别识别模型;
需要说明的是,得到了第一预置数量的年龄训练语音和第二预置数量的性别训练语音之后,可以通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型,通过性别训练语音对第二神经网络模型进行训练得到性别识别模型。
步骤103:将待识别语音输入年龄识别模型得到年龄识别结果,将待识别语音输入性别识别模型得到性别识别结果,根据年龄识别结果和性别识别结果显示对应的图片。
需要说明的是,将待识别语音输入年龄识别模型可得到年龄识别结果,将待识别语音输入性别识别模型可得到性别识别结果,综合说话人的年龄和性别显示对应的图片。
本实施例建立年龄识别模型和性别识别模型,对待识别语音进行声纹识别判断说话人的年龄和性别,进而显示对应的图案,识别过程中与声音的分贝无关,所以说话人无需大声喊叫,降低了声音墙使用过程中噪音对周围的影响,并且根据年龄和性别的不同可以显示不同的图案,增加了图案的多样性和互动性,解决了当前的声音墙容易产生噪音对周围造成影响,并且图案单一,且缺乏多样性和互动性的技术问题。
以上为本发明实施例提供的一种声音墙画面显示方法的一个实施例,以下为本发明实施例提供的一种声音墙画面显示方法的另一个实施例。
请参阅图2,本发明实施例提供了一种声音墙画面显示方法的另一个实施例,包括:
步骤201:获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音;
需要说明的是,第一预置数量和第二预置数量可以根据实际情况进行确定,例如获取1000段年龄训练语音和1000段性别训练语音。
年龄训练语音和性别训练语音作为先验信息已经先进行了标注,例如1000段年龄训练语音可以包括500段被标注为40岁以下的人的语音,500段被标注为40岁或40岁以上的人的语音,1000段性别训练语音可以包括500段被标注为男性的语音和500段被标注为女性的语音。
步骤202:通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型,通过性别训练语音对第二神经网络模型进行训练得到性别识别模型;
需要说明的是,通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型,通过性别训练语音对第二神经网络模型进行训练得到性别识别模型。
神经网络模型可以根据实际需要选择LSTM(Long Short-Term Memory,长短期记忆)神经网络模型、GRU(Gated Recurrent Unit,门控循环)神经网络模型或RNN(RecurrentNeural Network,循环)神经网络模型等模型。
步骤203:通过FBank特征提取算法对待识别语音进行特征提取;
需要说明的是,FBank特征提取算法是一种前端处理算法,以类似于人耳的方式对音频进行处理,可以提高语音识别的性能。
待识别语音通过声音墙的拾音器采集。
步骤204:通过语音端点检测算法对特征提取后的待识别语音进行端点检测;
需要说明的是,语音活动检测(Voice Activity Detection,VAD)又称语音端点检测或语音边界检,是指在噪声环境中检测语音的存在与否,通常用于语音编码、语音增强等语音处理***中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗和提高识别率等作用。
步骤205:将待识别语音输入年龄识别模型得到年龄识别结果,判断年龄识别结果是否大于或等于预置年龄阈值,若是,则执行步骤206,若否,则执行步骤207;
需要说明的是,根据年龄训练语音的标注不同可以采用不同的年龄识别方法,如果年龄训练语音只是简单地分为两类(例如40岁以下为一类,40岁或大于40岁为一类),那么可以设置预置年龄阈值(例如以40岁为预置年龄阈值)进行判断,判断年龄识别结果是否大于或等于预置年龄阈值,若是,则执行步骤206,若否,则执行步骤207。
如果年龄训练语音可分为多类(例如0至10岁为一类,10至20岁为一类,20至30岁为一类等),则判断说话人处于什么年龄区间,不同的年龄区间执行不同的步骤。
步骤206:将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第一图片,若性别识别结果为女,则显示第二图片;
需要说明的是,当执行步骤206时,由于当前性别主要分为男和女两类,所以待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第一图片,若性别识别结果为女,则显示第二图片。
步骤207:将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第三图片,若性别识别结果为女,则显示第四图片。
需要说明的是,当执行步骤207时,将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第三图片,若性别识别结果为女,则显示第四图片。
第一图片、第二图片、第三图片和第四图片可以根据各个年龄段和性别的特征进行选择,例如,第一图片可以选择迎客松图片,用来表示40岁以上男子作为家中顶梁柱的特征,第二图片可以选择绽放的鲜花图片,将40岁以上的女子比喻成盛放的鲜花,第三图片可以选择爱心图片,表达40岁以下男子充满了生机活力,第四图片可以选择含苞待放的鲜花图片表示40岁以下女子的青春活力。
图片的显示通过声音墙的LED屏幕进行显示。
本实施例建立年龄识别模型和性别识别模型,对待识别语音进行声纹识别判断说话人的年龄和性别,进而显示对应的图案,识别过程中与声音的分贝无关,所以说话人无需大声喊叫,降低了声音墙使用过程中噪音对周围的影响。
并且根据年龄和性别的不同可以显示不同的图案,增加了图案的多样性和互动性。
神经网络模型可以根据实际需要选择LSTM神经网络模型、GRU神经网络模型或神经网络模型等模型。
还可以通过FBank特征提取算法对待识别语音进行特征提取,通过语音端点检测算法对待识别语音进行端点检测,降低语音编码速率、节省通信带宽、减少移动设备能耗和提高识别率。
综上所述,本实施例的声音墙画面显示方法解决了当前的声音墙容易产生噪音对周围造成影响,并且图案单一,且缺乏多样性和互动性的技术问题。
以上为本发明实施例提供的一种声音墙画面显示方法的另一个实施例,以下为本发明实施例提供的一种声音墙画面显示装置的一个实施例。
请参阅图3,本发明实施例提供了一种声音墙画面显示装置的一个实施例,包括:
训练获取单元301,用于获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音;
模型训练单元302,用于通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型,通过性别训练语音对第二神经网络模型进行训练得到性别识别模型;
识别显示单元303,用于将待识别语音输入年龄识别模型得到年龄识别结果,将待识别语音输入性别识别模型得到性别识别结果,根据年龄识别结果和性别识别结果显示对应的图片。
进一步地,识别显示单元303具体包括:
年龄子单元3031,用于将待识别语音输入年龄识别模型得到年龄识别结果,判断年龄识别结果是否大于或等于预置年龄阈值,若是,则触发第一子单元3032,若否,则触发第二子单元3033;
第一子单元3032,用于将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第一图片,若性别识别结果为女,则显示第二图片;
第二子单元3033,用于将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第三图片,若性别识别结果为女,则显示第四图片。
进一步地,还包括:特征子单元304;
特征子单元304,用于通过FBank特征提取算法对待识别语音进行特征提取。
进一步地,还包括:端点子单元305;
端点子单元305,用于通过语音端点检测算法对特征提取后的待识别语音进行端点检测。
进一步地,神经网络模型为LSTM神经网络模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种声音墙画面显示方法,其特征在于,包括:
S1:获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音;
S2:通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型,通过性别训练语音对第二神经网络模型进行训练得到性别识别模型;
S3:将待识别语音输入年龄识别模型得到年龄识别结果,将待识别语音输入性别识别模型得到性别识别结果,根据年龄识别结果和性别识别结果显示对应的图片。
2.根据权利要求1所述的一种声音墙画面显示方法,其特征在于,步骤S3具体包括:
S31:将待识别语音输入年龄识别模型得到年龄识别结果,判断年龄识别结果是否大于或等于预置年龄阈值,若是,则执行步骤S32,若否,则执行步骤S33;
S32:将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第一图片,若性别识别结果为女,则显示第二图片;
S33:将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第三图片,若性别识别结果为女,则显示第四图片。
3.根据权利要求1所述的一种声音墙画面显示方法,其特征在于,步骤S2之后,步骤S3之前还包括:步骤S01;
S01:通过FBank特征提取算法对待识别语音进行特征提取。
4.根据权利要求3所述的一种声音墙画面显示方法,其特征在于,步骤S01之后,步骤S3之前还包括:步骤S02;
S02:通过语音端点检测算法对特征提取后的待识别语音进行端点检测。
5.根据权利要求1所述的一种声音墙画面显示方法,其特征在于,神经网络模型为LSTM神经网络模型。
6.一种声音墙画面显示装置,其特征在于,包括:
训练获取单元,用于获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音;
模型训练单元,用于通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型,通过性别训练语音对第二神经网络模型进行训练得到性别识别模型;
识别显示单元,用于将待识别语音输入年龄识别模型得到年龄识别结果,将待识别语音输入性别识别模型得到性别识别结果,根据年龄识别结果和性别识别结果显示对应的图片。
7.根据权利要求6所述的一种声音墙画面显示装置,其特征在于,识别显示单元具体包括:
年龄子单元,用于将待识别语音输入年龄识别模型得到年龄识别结果,判断年龄识别结果是否大于或等于预置年龄阈值,若是,则触发第一子单元,若否,则触发第二子单元;
第一子单元,用于将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第一图片,若性别识别结果为女,则显示第二图片;
第二子单元,用于将待识别语音输入性别识别模型得到性别识别结果,若性别识别结果为男,则显示第三图片,若性别识别结果为女,则显示第四图片。
8.根据权利要求6所述的一种声音墙画面显示装置,其特征在于,还包括:特征子单元;
特征子单元,用于通过FBank特征提取算法对待识别语音进行特征提取。
9.根据权利要求8所述的一种声音墙画面显示装置,其特征在于,还包括:端点子单元;
端点子单元,用于通过语音端点检测算法对特征提取后的待识别语音进行端点检测。
10.根据权利要求6所述的一种声音墙画面显示装置,其特征在于,神经网络模型为LSTM神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810732031.4A CN108847224A (zh) | 2018-07-05 | 2018-07-05 | 一种声音墙画面显示方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810732031.4A CN108847224A (zh) | 2018-07-05 | 2018-07-05 | 一种声音墙画面显示方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108847224A true CN108847224A (zh) | 2018-11-20 |
Family
ID=64201569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810732031.4A Pending CN108847224A (zh) | 2018-07-05 | 2018-07-05 | 一种声音墙画面显示方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108847224A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211569A (zh) * | 2019-07-09 | 2019-09-06 | 浙江百应科技有限公司 | 基于语音图谱和深度学习的实时性别识别方法 |
CN110619889A (zh) * | 2019-09-19 | 2019-12-27 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN111128235A (zh) * | 2019-12-05 | 2020-05-08 | 厦门快商通科技股份有限公司 | 一种基于语音的年龄预测方法和装置以及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700843A (zh) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | 一种年龄识别的方法及装置 |
CN105319714A (zh) * | 2014-07-31 | 2016-02-10 | 精工爱普生株式会社 | 显示装置、显示装置的控制方法及程序 |
CN105448214A (zh) * | 2015-09-15 | 2016-03-30 | 北京合盒互动科技有限公司 | 可控电子屏的广告显示方法及装置 |
CN105850115A (zh) * | 2013-12-23 | 2016-08-10 | 三星电子株式会社 | 电子设备及其控制方法 |
CN107871497A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 语音识别方法和装置 |
-
2018
- 2018-07-05 CN CN201810732031.4A patent/CN108847224A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105850115A (zh) * | 2013-12-23 | 2016-08-10 | 三星电子株式会社 | 电子设备及其控制方法 |
CN105319714A (zh) * | 2014-07-31 | 2016-02-10 | 精工爱普生株式会社 | 显示装置、显示装置的控制方法及程序 |
CN104700843A (zh) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | 一种年龄识别的方法及装置 |
CN105448214A (zh) * | 2015-09-15 | 2016-03-30 | 北京合盒互动科技有限公司 | 可控电子屏的广告显示方法及装置 |
CN107871497A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 语音识别方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211569A (zh) * | 2019-07-09 | 2019-09-06 | 浙江百应科技有限公司 | 基于语音图谱和深度学习的实时性别识别方法 |
CN110619889A (zh) * | 2019-09-19 | 2019-12-27 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN110619889B (zh) * | 2019-09-19 | 2022-03-15 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN111128235A (zh) * | 2019-12-05 | 2020-05-08 | 厦门快商通科技股份有限公司 | 一种基于语音的年龄预测方法和装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107481718B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN105868827B (zh) | 一种智能机器人多模态交互方法和智能机器人 | |
CN109769099B (zh) | 通话人物异常的检测方法和装置 | |
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
CN108847224A (zh) | 一种声音墙画面显示方法及装置 | |
CN105047194B (zh) | 一种用于语音情感识别的自学习语谱图特征提取方法 | |
CN108417201B (zh) | 单信道多说话人身份识别方法及*** | |
CN108159702B (zh) | 基于多人语音游戏处理方法和装置 | |
CN108986835A (zh) | 基于改进gan网络的语音去噪方法、装置、设备及介质 | |
CN110288077A (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
US20110131041A1 (en) | Systems And Methods For Synthesis Of Motion For Animation Of Virtual Heads/Characters Via Voice Processing In Portable Devices | |
CN109523616A (zh) | 一种面部动画生成方法、装置、设备及可读存储介质 | |
CN106683666B (zh) | 一种基于深度神经网络的领域自适应方法 | |
CN106504768A (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN110865705A (zh) | 多模态融合的通讯方法、装置、头戴设备及存储介质 | |
CN111312218B (zh) | 神经网络的训练和语音端点检测方法及装置 | |
CN110148399A (zh) | 一种智能设备的控制方法、装置、设备及介质 | |
WO2009007011A1 (en) | Methods for electronically analysing a dialogue and corresponding systems | |
US10755704B2 (en) | Information processing apparatus | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
CN111179915A (zh) | 基于语音的年龄识别方法及装置 | |
Song et al. | Frustration recognition from speech during game interaction using wide residual networks | |
CN107910004A (zh) | 语音翻译处理方法及装置 | |
CN109697978A (zh) | 用于生成模型的方法和装置 | |
CN110364178A (zh) | 一种语音处理方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181120 |