CN116072123A

CN116072123A - 广播信息播放方法、装置、可读存储介质及电子设备

Info

Publication number: CN116072123A
Application number: CN202310202075.7A
Authority: CN
Inventors: 邱晓健; 连峰; 邱正峰; 崔韧; 吴鼎元
Original assignee: Nanchang Hang Tian Guang Xin Technology Co ltd
Current assignee: Nanchang Hang Tian Guang Xin Technology Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-05-05
Anticipated expiration: 2043-03-06
Also published as: CN116072123B

Abstract

本发明公开了一种广播信息播放方法、装置、可读存储介质及电子设备，该广播信息播放方法包括：获取麦克风采集的语音信息，并提取语音信息中的声学特征；将该声学特征输入至声纹识别模型中，以对当前语音人员进行身份识别；根据识别结果判断当前语音人员是否为预设名单中的人员；若当前语音人员为预设名单中的人员时，将该语音信息发送至广播终端进行播放；若当前语音人员并非为预设名单中的人员时，提取该语音信息的内容，并进行分析以判断该语音信息的内容是否符合广播要求；当符合广播要求时，将该语音信息发送至广播终端进行播放，本发明通过对当前语音人员的身份识别，以及对语音内容的判断，规范广播***的使用。

Description

广播信息播放方法、装置、可读存储介质及电子设备

技术领域

本发明涉及广播设备领域，特别是涉及一种广播信息播放方法、装置、可读存储介质及电子设备。

背景技术

广播***广泛应用于各个领域，像校园、医院、公园、商场等场所均设置有广播***，主要用于音乐播放、紧急通知、新闻广播、寻呼等。广播终端，例如音箱是网络广播***的终端设备，其通过交换机与上位机（如服务器）无线通讯连接。

现有的广播***通常包括控制平台以及与其连接的至少一个麦克风话筒和至少一个广播终端，任何人均可以使用该广播***进行信息广播，无法对广播的使用进行有效管控，导致广播***的滥用，同时，也容易导致不良信息的传播。

发明内容

鉴于上述状况，有必要针对现有技术中广播***的使用无法进行有效管控的问题，提供一种广播信息播放方法、装置、可读存储介质及电子设备。

本发明公开了一种广播信息播放方法，包括：

获取麦克风采集的语音信息，并提取所述语音信息中的声学特征；

将所述声学特征输入至声纹识别模型中，以对当前语音人员进行身份识别；

根据识别结果判断所述当前语音人员是否为预设名单中的人员；

当所述当前语音人员为预设名单中的人员时，将所述语音信息发送至广播终端进行播放；

当所述当前语音人员并非为预设名单中的人员时，提取所述语音信息的内容，并进行分析以判断所述语音信息的内容是否符合广播要求；

当所述语音信息的内容符合广播要求时，将所述语音信息发送至广播终端进行播放。

进一步的，上述广播信息播放方法，其中，所述提取所述语音信息中的声学特征的步骤包括：

提取所述语音信息中的MEL频谱倒谱特征和Bottleneck特征；

计算所述MEL频谱倒谱特征的各维特征分量的权重系数，并根据所述各维特征分量的权重系数对所述MEL频谱倒谱特征进行加权计算；

将加权计算后的所述MEL频谱倒谱特征和所述Bottleneck特征进行特征融合，得到所述语音信息中的声学特征。

进一步的，上述广播信息播放方法，其中，所述计算所述MEL频谱倒谱特征的各维特征分量的权重系数的步骤包括：

计算所述MEL频谱倒谱特征的各维特征分量分别对说话人员身份识别率的贡献度；

采用min-max 标准化法对所述各维特征分量对说话人员身份识别率的贡献度进行标准化处理；

根据标准化处理后的贡献度确定各维特征分量的权重系数。

进一步的，上述广播信息播放方法，其中，提取所述语音信息中的Bottleneck特征的步骤包括：

对所述语音信息进行预加重、分帧和加窗处理；

将处理后的语音信息通过FFT转化，并取绝对值或平方值后，得到对应的频谱；

将所述对应的频谱输入至Mel滤波器组，并获取所述Mel滤波器组输出的MEL频谱；

对所述MEL频谱取对数得到FBanks特征；

将所述FBanks特征输入至DNN模型中，并提取所述DNN模型中Bottleneck层的节点激励值，得到Bottleneck特征。

进一步的，上述广播信息播放方法，其中，所述提取所述语音信息的内容，并进行分析以判断所述语音信息的内容是否符合广播要求的步骤包括：

通过语音识别算法识别出所述语音信息中的内容，并与敏感词数据库进行匹配；

根据匹配结果判断所述语音信息中是否包含敏感词汇；

若否，则确定所述语音信息符合广播要求。

本发明还公开了一种广播信息播放装置，包括：

特征提取模块，用于获取麦克风采集的语音信息，并提取所述语音信息中的声学特征；

身份识别模块，用于将所述声学特征输入至声纹识别模型中，以对当前语音人员进行身份识别；

第一判断模块，用于根据识别结果判断所述当前语音人员是否为预设名单中的人员；

第一发送模块，用于当所述当前语音人员为预设名单中的人员时，将所述语音信息发送至广播终端进行播放；

第二判断模块，用于当所述当前语音人员并非为预设名单中的人员时，提取所述语音信息的内容，并进行分析以判断所述语音信息的内容是否符合广播要求；

第二发送模块，用于当所述语音信息的内容符合广播要求时，将所述语音信息发送至广播终端进行播放。

进一步的，上述广播信息播放装置，其中，所述特征提取模块具体用于：

提取所述语音信息中的MEL频谱倒谱特征和Bottleneck特征；

进一步的，上述广播信息播放装置，其中，所述计算所述MEL频谱倒谱特征的各维特征分量的权重系数的步骤包括：

根据标准化处理后的贡献度确定各维特征分量的权重系数。

本发明还公开了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述的广播信息播放方法。

本发明还公开了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的广播信息播放方法。

本发明通过对麦克风采集的语音信息进行声学特征提取，并利用声纹识别模型对当前语音人员的身份进行识别，根据识别结果判断该当前语音人员是否为预设名单中的人员，若是则播放该当前语音人员的语音信息，若否，则对当前语音人员的语音信息的内容进行分析，并判断其内容是否符合广播要求，若是，则进行播放。本发明通过对当前语音人员的身份识别，以及对语音内容的判断，规范广播***的使用。

附图说明

图1为本发明实施例中广播信息播放方法的流程图；

图2为本发明实施例中声学特征提取的步骤示意图；

图3为本发明实施例中广播信息播放装置的结构框图；

图4为本发明实施例中电子设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1，为本发明实施例中的广播信息播放方法，包括步骤S11~S15。

步骤S11，获取麦克风采集的语音信息，并提取所述语音信息中的声学特征。

通常广播***会设置一个或多个麦克风，以及至少一个广播终端。用户可通过其中一个麦克风进行语音信息播报。

由于每个人说话的声音是有所不同的，根据说话人的语音特征可以识别不同的说话人，从而可以对该广播***的使用人员进行管理，防止滥用。

当获取到麦克风采集的当前语音人员的语音信息时，对该语音信息进行声学特征提取，该声学特征为用于识别当前语音人员的声纹特征，在本发明的其中一实施方式中，该声学特征例如可以为MEL频谱倒谱特征(Mel-frequencycepstral coefficient，MFCC)和Bottleneck特征的融合特征。该MEL频谱倒谱特征为组成梅尔频率倒谱的系数，侧重人耳听觉感知，其可很好地反应不同说话人员浅层的语音特点，具有良好的辨识度。

Bottleneck特征可通过深度神经网络（DNN）提取，DNN网络中间含有一层节点数较少的隐含层，该隐含层即为Bottleneck层。该Bottleneck层的节点的激励值即为Bottleneck特征，其含有较强区分性的信息。

通过对MEL频谱倒谱特征和Bottleneck特征进行特征融合得到该声学特征，融合得到的声学特征可以继承MEL频谱倒谱特征和Bottleneck特征二者的优点，增强了说话人的语音特征个性，提高识别性。

具体的，如图2所示，在本发明的其中一实现方式中，提取所述语音信息中的声学特征的步骤包括：

步骤S111，提取所述语音信息中的MEL频谱倒谱特征和Bottleneck特征；

步骤S112，计算所述MEL频谱倒谱特征的各维特征分量的权重系数，并根据所述各维特征分量的权重系数对所述MEL频谱倒谱特征进行加权计算；

步骤S113，将加权计算后的所述MEL频谱倒谱特征和所述Bottleneck特征进行特征融合，得到所述语音信息中的声学特征。

具体的，提取所述语音信息中的MEL频谱倒谱特征的步骤包括：

对所述语音信息进行预加重、分帧和加窗处理；

将所述MEL频谱进行倒谱分析，得到MEL频谱倒谱特征。

语音信息进行预加重、分帧和加窗处理的过程可以降低噪音信号的干扰，加强语音信号的信噪比和提高精度。将处理后所得的每一帧语音信息通过FFT转化后取绝对值或取平方值，得到对应的能量频谱，再将该频谱输入至Mel滤波器组中，Mel滤波器组将该频谱的物理频率刻度转化为Mel刻度，即将线形的自然频谱转换为可以体现人类听觉特性的MEL频谱。

将MEL频谱进行倒谱分析主要是对MEL频谱进行取对数和做逆变换，逆变换通常可以通过DCT离散余弦变换来实现。MEL频谱进行倒谱分析后，获取MEL频率倒谱系数，该MEL频率倒谱系数即为MEL频谱倒谱特征。

具体的，提取所述语音信息中的Bottleneck特征的步骤包括：

对所述语音信息进行预加重、分帧和加窗处理；

对所述MEL频谱取对数得到FBanks特征；

Bottleneck特征为DNN网络中Bottleneck层的节点的激励值，本实施例中以DNN网络作为特征提取器，其输入为FBanks特征，输出为说话人身份，提取Bottleneck特征。其中，该FBanks特征是在对MEL频谱进行倒谱分析中，对MEL频谱取对数得到，通过取对数计算出对数能量值，即为FBanks特征。

该MEL频谱倒谱特征包含有多维特征分量，由于各维特征分量对识别说话人的识别能力是有所不同的，因此，本发明的其中一些实施例中根据MEL频谱倒谱特征的各维特征分量的权重系数对MEL频谱倒谱特征整体做加权计算，从而提高MEL频谱倒谱特征的表征能力，提高区分性。

具体的，在本发明的其中一实现方式中，各维特征分量的权重系数可以根据如下公式计算：

，其中r_p为第p维特征分量的权重系数，N表示MEL频谱倒谱特征的总维度。

可以理解的，在本发明的另一实现方式中，各维特征分量的权重系数还可以根据各维特征分量分别对说话人员识别率的贡献度来确定，以突出识别贡献大的特征，提高整体识别率。具体实施时，可以采用增减分量法计算各维特征分量分别对说话人员识别率的贡献度，其计算公式如下：

，其中，为从i 维到j维MEL频谱倒谱特征的识别率，N表示MEL频谱倒谱特征总维数。R（i）表示第i维特征分量对识别率的平均贡献值，R（i）为正值表示添加该特征会提高识别率，R（i）为负值表示添加该特征会降低识别率。

得到各维特征分量对识别率的贡献度后，对各个维特征分量的贡献度进行标准化处理，例如可以采用min-max标准化方法处理。具体的，将贡献度最大的特征分量，将其权重系数设为1，贡献度最小的特征分量，将其权重系数设为0.5，基于此，将MEL频谱倒谱特征的各维特征分量按照min-max标准化法设置权重系数，使得各维特征分量的权重系数限制在[0.5,1]以内。

进一步的，还可以对计算得到的各维特征分量的权重系数傅里叶级数拟合，使得权重系数过度更加平滑。

将加权计算后的MEL频谱倒谱特征和Bottleneck特征进行特征融合，即将两种特征在向量维度上以叠加维度的方式进行拼接融合，得到包含更多特征信息的声学特征。

步骤S12，将所述声学特征输入至声纹识别模型中，以对当前语音人员进行身份识别，并根据识别结果判断所述当前语音人员是否为预设名单中的人员。

步骤S13，当所述当前语音人员为预设名单中的人员时，将所述语音信息发送至广播终端进行播放。

将得到的声学特征输入至声纹识别模型中，与不同人员的声纹特征数据进行匹配，并输出当前语音人员的身份信息。该声纹识别模型例如为UBM/i-vector模型，其预先经过数据集训练，可以准确地识别语音人员的身份信息。

该预设人员名单中记录有多个人员的身份信息，一般是记录允许使用该广播***的工作人员的身份信息。将声纹识别模型输出的当前语音人员的身份信息与该预设人员名单进行比对，并确定该当前语音人员是否为该预设人员名单中的人员。若是，则允许使用该广播***，即将该当前语音人员的语音信息发送至广播终端进行播放。

步骤S14，当所述当前语音人员并非为预设名单中的人员时，提取所述语音信息的内容，并进行分析以判断所述语音信息的内容是否符合广播要求。

步骤S15，当所述语音信息的内容符合广播要求时，将所述语音信息发送至广播终端进行播放。

如果该当前语音人员并非为该预设人员名单中的人员，则对当前语音人员的语音信息进行内容识别，并分析该内容是否符合广播要求。

具体实施时，通过语音识别算法识别出语音信息中的内容，并与敏感词数据库进行匹配，以判断该语音信息中是否包含敏感词汇，如是，确定该语音信息不符合播放要求，则不予播放，并可以进行预警；如否，则说明该语音内容符合要求，则发送至广播终端进行播放。

本实施例中通过对麦克风采集的语音信息进行声学特征提取，并利用声纹识别模型对当前语音人员的身份进行识别，根据识别结果判断该当前语音人员是否为预设名单中的人员，若是则播放该当前语音人员的语音信息，若否，则对当前语音人员的语音信息的内容进行分析，并判断其内容是否符合广播要求，若是，则进行播放。本实施例通过对当前语音人员的身份识别，以及对语音内容的判断，规范广播***的使用。

请参阅图3，为本发明实施例中广播信息播放装置，包括：

特征提取模块31，用于获取麦克风采集的语音信息，并提取所述语音信息中的声学特征；

身份识别模块32，用于将所述声学特征输入至声纹识别模型中，以对当前语音人员进行身份识别；

第一判断模块33，用于根据识别结果判断所述当前语音人员是否为预设名单中的人员；

第一发送模块34，用于当所述当前语音人员为预设名单中的人员时，将所述语音信息发送至广播终端进行播放；

第二判断模块35，用于当所述当前语音人员并非为预设名单中的人员时，提取所述语音信息的内容，并进行分析以判断所述语音信息的内容是否符合广播要求；

第二发送模块36，用于当所述语音信息的内容符合广播要求时，将所述语音信息发送至广播终端进行播放。

进一步的，上述广播信息播放装置，其中，所述特征提取模块31具体用于：

提取所述语音信息中的MEL频谱倒谱特征和Bottleneck特征；

根据标准化处理后的贡献度确定各维特征分量的权重系数。

本发明实施例所提供的广播信息播放装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明另一方面还提出一种电子设备，请参阅图4，所示为本发明实施例当中的电子设备，包括处理器10、存储器20以及存储在存储器上并可在处理器上运行的计算机程序30，所述处理器10执行所述计算机程序30时实现如上述的广播信息播放方法。

其中，所述电子设备可以为但不限于个人电脑、服务器等计算机设备。处理器10在一些实施例中可以是中央处理器（CentralProcessing Unit, CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器20中存储的程序代码或处理数据等。

其中，存储器20至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的硬盘。存储器20在另一些实施例中也可以是电子设备的外部存储装置，例如电子设备上配备的插接式硬盘，智能存储卡（SmartMedia Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。进一步地，存储器20还可以既包括电子设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于电子设备的应用软件及各类数据等，还可以用于暂时地存储已经输出或者将要输出的数据。

可选地，该电子设备还可以包括用户接口、网络接口、通信总线等，用户接口可以包括显示器（Display）、输入单元比如键盘（Keyboard），可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（OrganicLight-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。网络接口可选的可以包括标准的有线接口、无线接口（如WI-FI接口），通常用于在该装置与其他电子装置之间建立通信连接。通信总线用于实现这些组件之间的连接通信。

需要指出的是，图4示出的结构并不构成对电子设备的限定，在其它实施例当中，该电子设备可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的广播信息播放方法。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置中获取指令并执行指令的***）使用，或结合这些指令执行***、装置而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或结合这些指令执行***、装置而使用的设备。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种广播信息播放方法，其特征在于，包括：

2.如权利要求1所述的广播信息播放方法，其特征在于，所述提取所述语音信息中的声学特征的步骤包括：

提取所述语音信息中的MEL频谱倒谱特征和Bottleneck特征；

3.如权利要求2所述的广播信息播放方法，其特征在于，所述计算所述MEL频谱倒谱特征的各维特征分量的权重系数的步骤包括：

根据标准化处理后的贡献度确定各维特征分量的权重系数。

4.如权利要求2所述的广播信息播放方法，其特征在于，提取所述语音信息中的Bottleneck特征的步骤包括：

对所述语音信息进行预加重、分帧和加窗处理；

对所述MEL频谱取对数得到FBanks特征；

5.如权利要求1所述的广播信息播放方法，其特征在于，所述提取所述语音信息的内容，并进行分析以判断所述语音信息的内容是否符合广播要求的步骤包括：

根据匹配结果判断所述语音信息中是否包含敏感词汇；

若否，则确定所述语音信息符合广播要求。

6.一种广播信息播放装置，其特征在于，包括：

7.如权利要求6所述的广播信息播放装置，其特征在于，所述特征提取模块具体用于：

提取所述语音信息中的MEL频谱倒谱特征和Bottleneck特征；

8.如权利要求7所述的广播信息播放装置，其特征在于，所述计算所述MEL频谱倒谱特征的各维特征分量的权重系数的步骤包括：

根据标准化处理后的贡献度确定各维特征分量的权重系数。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的广播信息播放方法。

10.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的广播信息播放方法。