CN108847224A

CN108847224A - 一种声音墙画面显示方法及装置

Info

Publication number: CN108847224A
Application number: CN201810732031.4A
Authority: CN
Inventors: 黎智勇; 郑薇
Original assignee: Guangzhou Speakin Network Technology Co Ltd
Current assignee: Guangzhou Speakin Network Technology Co Ltd
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2018-11-20

Abstract

本发明公开了一种声音墙画面显示方法及装置。本发明建立年龄识别模型和性别识别模型，对待识别语音进行声纹识别判断说话人的年龄和性别，进而显示对应的图案，识别过程中与声音的分贝无关，所以说话人无需大声喊叫，降低了声音墙使用过程中噪音对周围的影响，并且根据年龄和性别的不同可以显示不同的图案，增加了图案的多样性和互动性，解决了当前的声音墙容易产生噪音对周围造成影响，并且图案单一，且缺乏多样性和互动性的技术问题。

Description

一种声音墙画面显示方法及装置

技术领域

本发明涉及声音技术领域，尤其涉及一种声音墙画面显示方法。

背景技术

为了提高游乐园和公园的公共场所娱乐设施的多样性，人们在这些公共场所放置了一种声音墙，声音墙可以通过拾音器获取周围环境的声音，根据声音分贝的大小判断是否显示图案和图案的大小。

这种声音墙具备一定的趣味性，但是由于只能根据声音分贝的大小判断是否显示图案和图案的大小，导致有时候使用该声音墙时需要极大的分贝，对周围造成影响，并且图案单一，缺乏多样性和互动性。

因此，导致了当前的声音墙容易产生噪音对周围造成影响，并且图案单一，且缺乏多样性和互动性的技术问题。

发明内容

本发明提供了一种声音墙画面显示方法及装置，解决了当前的声音墙容易产生噪音对周围造成影响，并且图案单一，且缺乏多样性和互动性的技术问题。

本发明提供了一种声音墙画面显示方法，包括：

S1：获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音；

S2：通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型，通过性别训练语音对第二神经网络模型进行训练得到性别识别模型；

S3：将待识别语音输入年龄识别模型得到年龄识别结果，将待识别语音输入性别识别模型得到性别识别结果，根据年龄识别结果和性别识别结果显示对应的图片。

优选地，步骤S3具体包括：

S31：将待识别语音输入年龄识别模型得到年龄识别结果，判断年龄识别结果是否大于或等于预置年龄阈值，若是，则执行步骤S32，若否，则执行步骤S33；

S32：将待识别语音输入性别识别模型得到性别识别结果，若性别识别结果为男，则显示第一图片，若性别识别结果为女，则显示第二图片；

S33：将待识别语音输入性别识别模型得到性别识别结果，若性别识别结果为男，则显示第三图片，若性别识别结果为女，则显示第四图片。

优选地，步骤S2之后，步骤S3之前还包括：步骤S01；

S01：通过FBank特征提取算法对待识别语音进行特征提取。

优选地，步骤S01之后，步骤S3之前还包括：步骤S02；

S02：通过语音端点检测算法对特征提取后的待识别语音进行端点检测。

优选地，神经网络模型为LSTM神经网络模型。

本发明提供了一种声音墙画面显示装置，包括：

训练获取单元，用于获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音；

模型训练单元，用于通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型，通过性别训练语音对第二神经网络模型进行训练得到性别识别模型；

识别显示单元，用于将待识别语音输入年龄识别模型得到年龄识别结果，将待识别语音输入性别识别模型得到性别识别结果，根据年龄识别结果和性别识别结果显示对应的图片。

优选地，识别显示单元具体包括：

年龄子单元，用于将待识别语音输入年龄识别模型得到年龄识别结果，判断年龄识别结果是否大于或等于预置年龄阈值，若是，则触发第一子单元，若否，则触发第二子单元；

第一子单元，用于将待识别语音输入性别识别模型得到性别识别结果，若性别识别结果为男，则显示第一图片，若性别识别结果为女，则显示第二图片；

第二子单元，用于将待识别语音输入性别识别模型得到性别识别结果，若性别识别结果为男，则显示第三图片，若性别识别结果为女，则显示第四图片。

优选地，还包括：特征子单元；

特征子单元，用于通过FBank特征提取算法对待识别语音进行特征提取。

优选地，还包括：端点子单元；

端点子单元，用于通过语音端点检测算法对特征提取后的待识别语音进行端点检测。

优选地，神经网络模型为LSTM神经网络模型。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种声音墙画面显示方法，包括：S1：获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音；S2：通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型，通过性别训练语音对第二神经网络模型进行训练得到性别识别模型；S3：将待识别语音输入年龄识别模型得到年龄识别结果，将待识别语音输入性别识别模型得到性别识别结果，根据年龄识别结果和性别识别结果显示对应的图片。

本发明建立年龄识别模型和性别识别模型，对待识别语音进行声纹识别判断说话人的年龄和性别，进而显示对应的图案，识别过程中与声音的分贝无关，所以说话人无需大声喊叫，降低了声音墙使用过程中噪音对周围的影响，并且根据年龄和性别的不同可以显示不同的图案，增加了图案的多样性和互动性，解决了当前的声音墙容易产生噪音对周围造成影响，并且图案单一，且缺乏多样性和互动性的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种声音墙画面显示方法的一个实施例；

图2为本发明实施例提供的一种声音墙画面显示方法的另一个实施例；

图3为本发明实施例提供的一种声音墙画面显示装置的一个实施例。

具体实施方式

本发明实施例提供了一种声音墙画面显示方法及装置，解决了当前的声音墙容易产生噪音对周围造成影响，并且图案单一，且缺乏多样性和互动性的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种声音墙画面显示方法的一个实施例，包括：

步骤101：获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音；

需要说明的是，建立年龄识别模型和性别识别模型之前需要先获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音作为训练样本。

步骤102：通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型，通过性别训练语音对第二神经网络模型进行训练得到性别识别模型；

需要说明的是，得到了第一预置数量的年龄训练语音和第二预置数量的性别训练语音之后，可以通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型，通过性别训练语音对第二神经网络模型进行训练得到性别识别模型。

步骤103：将待识别语音输入年龄识别模型得到年龄识别结果，将待识别语音输入性别识别模型得到性别识别结果，根据年龄识别结果和性别识别结果显示对应的图片。

需要说明的是，将待识别语音输入年龄识别模型可得到年龄识别结果，将待识别语音输入性别识别模型可得到性别识别结果，综合说话人的年龄和性别显示对应的图片。

本实施例建立年龄识别模型和性别识别模型，对待识别语音进行声纹识别判断说话人的年龄和性别，进而显示对应的图案，识别过程中与声音的分贝无关，所以说话人无需大声喊叫，降低了声音墙使用过程中噪音对周围的影响，并且根据年龄和性别的不同可以显示不同的图案，增加了图案的多样性和互动性，解决了当前的声音墙容易产生噪音对周围造成影响，并且图案单一，且缺乏多样性和互动性的技术问题。

以上为本发明实施例提供的一种声音墙画面显示方法的一个实施例，以下为本发明实施例提供的一种声音墙画面显示方法的另一个实施例。

请参阅图2，本发明实施例提供了一种声音墙画面显示方法的另一个实施例，包括：

步骤201：获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音；

需要说明的是，第一预置数量和第二预置数量可以根据实际情况进行确定，例如获取1000段年龄训练语音和1000段性别训练语音。

年龄训练语音和性别训练语音作为先验信息已经先进行了标注，例如1000段年龄训练语音可以包括500段被标注为40岁以下的人的语音，500段被标注为40岁或40岁以上的人的语音，1000段性别训练语音可以包括500段被标注为男性的语音和500段被标注为女性的语音。

步骤202：通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型，通过性别训练语音对第二神经网络模型进行训练得到性别识别模型；

需要说明的是，通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型，通过性别训练语音对第二神经网络模型进行训练得到性别识别模型。

神经网络模型可以根据实际需要选择LSTM(Long Short-Term Memory，长短期记忆)神经网络模型、GRU(Gated Recurrent Unit，门控循环)神经网络模型或RNN(RecurrentNeural Network，循环)神经网络模型等模型。

步骤203：通过FBank特征提取算法对待识别语音进行特征提取；

需要说明的是，FBank特征提取算法是一种前端处理算法，以类似于人耳的方式对音频进行处理，可以提高语音识别的性能。

待识别语音通过声音墙的拾音器采集。

步骤204：通过语音端点检测算法对特征提取后的待识别语音进行端点检测；

需要说明的是，语音活动检测(Voice Activity Detection，VAD)又称语音端点检测或语音边界检，是指在噪声环境中检测语音的存在与否，通常用于语音编码、语音增强等语音处理***中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗和提高识别率等作用。

步骤205：将待识别语音输入年龄识别模型得到年龄识别结果，判断年龄识别结果是否大于或等于预置年龄阈值，若是，则执行步骤206，若否，则执行步骤207；

需要说明的是，根据年龄训练语音的标注不同可以采用不同的年龄识别方法，如果年龄训练语音只是简单地分为两类(例如40岁以下为一类，40岁或大于40岁为一类)，那么可以设置预置年龄阈值(例如以40岁为预置年龄阈值)进行判断，判断年龄识别结果是否大于或等于预置年龄阈值，若是，则执行步骤206，若否，则执行步骤207。

如果年龄训练语音可分为多类(例如0至10岁为一类，10至20岁为一类，20至30岁为一类等)，则判断说话人处于什么年龄区间，不同的年龄区间执行不同的步骤。

步骤206：将待识别语音输入性别识别模型得到性别识别结果，若性别识别结果为男，则显示第一图片，若性别识别结果为女，则显示第二图片；

需要说明的是，当执行步骤206时，由于当前性别主要分为男和女两类，所以待识别语音输入性别识别模型得到性别识别结果，若性别识别结果为男，则显示第一图片，若性别识别结果为女，则显示第二图片。

步骤207：将待识别语音输入性别识别模型得到性别识别结果，若性别识别结果为男，则显示第三图片，若性别识别结果为女，则显示第四图片。

需要说明的是，当执行步骤207时，将待识别语音输入性别识别模型得到性别识别结果，若性别识别结果为男，则显示第三图片，若性别识别结果为女，则显示第四图片。

第一图片、第二图片、第三图片和第四图片可以根据各个年龄段和性别的特征进行选择，例如，第一图片可以选择迎客松图片，用来表示40岁以上男子作为家中顶梁柱的特征，第二图片可以选择绽放的鲜花图片，将40岁以上的女子比喻成盛放的鲜花，第三图片可以选择爱心图片，表达40岁以下男子充满了生机活力，第四图片可以选择含苞待放的鲜花图片表示40岁以下女子的青春活力。

图片的显示通过声音墙的LED屏幕进行显示。

本实施例建立年龄识别模型和性别识别模型，对待识别语音进行声纹识别判断说话人的年龄和性别，进而显示对应的图案，识别过程中与声音的分贝无关，所以说话人无需大声喊叫，降低了声音墙使用过程中噪音对周围的影响。

并且根据年龄和性别的不同可以显示不同的图案，增加了图案的多样性和互动性。

神经网络模型可以根据实际需要选择LSTM神经网络模型、GRU神经网络模型或神经网络模型等模型。

还可以通过FBank特征提取算法对待识别语音进行特征提取，通过语音端点检测算法对待识别语音进行端点检测，降低语音编码速率、节省通信带宽、减少移动设备能耗和提高识别率。

综上所述，本实施例的声音墙画面显示方法解决了当前的声音墙容易产生噪音对周围造成影响，并且图案单一，且缺乏多样性和互动性的技术问题。

以上为本发明实施例提供的一种声音墙画面显示方法的另一个实施例，以下为本发明实施例提供的一种声音墙画面显示装置的一个实施例。

请参阅图3，本发明实施例提供了一种声音墙画面显示装置的一个实施例，包括：

训练获取单元301，用于获取第一预置数量的年龄训练语音和第二预置数量的性别训练语音；

模型训练单元302，用于通过年龄训练语音对第一神经网络模型进行训练得到年龄识别模型，通过性别训练语音对第二神经网络模型进行训练得到性别识别模型；

识别显示单元303，用于将待识别语音输入年龄识别模型得到年龄识别结果，将待识别语音输入性别识别模型得到性别识别结果，根据年龄识别结果和性别识别结果显示对应的图片。

进一步地，识别显示单元303具体包括：

年龄子单元3031，用于将待识别语音输入年龄识别模型得到年龄识别结果，判断年龄识别结果是否大于或等于预置年龄阈值，若是，则触发第一子单元3032，若否，则触发第二子单元3033；

第一子单元3032，用于将待识别语音输入性别识别模型得到性别识别结果，若性别识别结果为男，则显示第一图片，若性别识别结果为女，则显示第二图片；

第二子单元3033，用于将待识别语音输入性别识别模型得到性别识别结果，若性别识别结果为男，则显示第三图片，若性别识别结果为女，则显示第四图片。

进一步地，还包括：特征子单元304；

特征子单元304，用于通过FBank特征提取算法对待识别语音进行特征提取。

进一步地，还包括：端点子单元305；

端点子单元305，用于通过语音端点检测算法对特征提取后的待识别语音进行端点检测。

进一步地，神经网络模型为LSTM神经网络模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声音墙画面显示方法，其特征在于，包括：

2.根据权利要求1所述的一种声音墙画面显示方法，其特征在于，步骤S3具体包括：

3.根据权利要求1所述的一种声音墙画面显示方法，其特征在于，步骤S2之后，步骤S3之前还包括：步骤S01；

S01：通过FBank特征提取算法对待识别语音进行特征提取。

4.根据权利要求3所述的一种声音墙画面显示方法，其特征在于，步骤S01之后，步骤S3之前还包括：步骤S02；

5.根据权利要求1所述的一种声音墙画面显示方法，其特征在于，神经网络模型为LSTM神经网络模型。

6.一种声音墙画面显示装置，其特征在于，包括：

7.根据权利要求6所述的一种声音墙画面显示装置，其特征在于，识别显示单元具体包括：

8.根据权利要求6所述的一种声音墙画面显示装置，其特征在于，还包括：特征子单元；

9.根据权利要求8所述的一种声音墙画面显示装置，其特征在于，还包括：端点子单元；

10.根据权利要求6所述的一种声音墙画面显示装置，其特征在于，神经网络模型为LSTM神经网络模型。