CN110459239A

CN110459239A - 基于声音数据的角色分析方法、装置和计算机可读存储介质

Info

Publication number: CN110459239A
Application number: CN201910210501.5A
Authority: CN
Inventors: 朱浩华; 吕嘉威; 曹鹏程
Original assignee: Shenzhen One Secret Technology Co Ltd
Current assignee: Shenzhen One Secret Technology Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-11-15

Abstract

本发明公开了一种基于声音数据的角色分析方法。该方法包括：获取所述声音数据和与所述声音数据所对应的角度数据；根据所述角度数据对所述声音数据进行角色解析，获得与所述声音数据对应的角色数据。本发明还公开了一种基于声音数据的角色分析装置及计算机可读存储介质。本发明能够实现提供一种新的音频角色分离方法，无需利用麦克风设备进行角色分离。

Description

基于声音数据的角色分析方法、装置和计算机可读存储介质

技术领域

本发明涉及录音识别领域，尤其涉及一种基于声音数据的角色分析方法、装置和计算机可读存储介质。

背景技术

在现代会诊过程中，经常涉及多人发言的情况，因此，在会议过程中使用的录音设备如果能够识别不同的人物角色即相应的说话内容显得格外重要，能大大提高会议的效率，简化会议记录的效果。

但是目前，在相关技术中，会议过程采用的会议录音***中的角色分离大都通过连接多个麦克风设备，每个麦克风设备收集一名角色人员的音频信息来实现，而每个麦克风设备与主设备之间用连接线连接，连接距离有限且不易携带，因此给用户造成了极大的不便。

发明内容

本发明的主要目的在于提供一种基于声音数据的角色分析方法、装置和计算机可读存储介质，旨在实现提供一种新的音频角色分离方法，无需利用麦克风设备进行角色分离。

为实现上述目的，本发明提供一种基于声音数据的角色分析方法，所述基于声音数据的角色分析方法包括以下步骤：

获取所述声音数据和与所述声音数据所对应的角度数据；

根据所述角度数据对所述声音数据进行角色解析，获得与所述声音数据对应的角色数据。

可选地，所述根据所述角度数据对所述声音数据进行角色解析，获得与所述声音数据对应的角色数据的步骤之前包括：

将所述声音数据进行转换，得到文字数据；

所述根据所述角度数据对所述声音数据进行角色解析，获得与所述声音数据对应的角色数据的步骤替换为：

根据所述角度数据对所述文字数据进行角色解析，获得与所述文字数据对应的角色数据。

可选地，所述根据所述角度数据对所述文字数据进行角色解析，获得与所述文字数据对应的角色数据的步骤包括：

对所述文字数据根据所述角度数据进行划分，获得子文字数据和与所述子文字数据分别对应的子角度数据；

对所述子角度数据进行角色解析，获得与所述子文字数据所对应的多个角色数据。

可选地，所述对所述文字数据根据所述角度数据进行划分，获得子文字数据和与所述子文字数据分别对应的子角度数据的步骤包括：

对所述角度数据进行遍历，获得所述角度数据的变化节点；

根据所述变化节点对与所述角度数据对应的文字数据进行划分，得到子文字数据。

可选地，所述对所述子角度数据进行角色解析，获得与所述子文字数据所对应的多个角色数据的步骤包括：

对所述子角度数据利用预设公式进行计算，获得与所述子角度数据所对应的子文字数据的角色数据。

可选地，所述公式为：

dp＝360/N，

R＝(d-d₀+dp-1)/dp，

其中，dp表示每个人占有角度的数值；R表示角色数据；d表示从合并文件中读到的角度值，取值范围为[0，360]；d₀是初始化的偏移角度值，取值范围为[0，30]；N是参会人个数值。

可选地，所述基于声音数据的角色分析方法还包括以下步骤：

将所述文字数据和与所述文字数据对应的角色数据发送给移动终端，以使得移动终端进行显示。

接收用户输入的实际名称和所述实际名称与所述角色数据的对应关系；

根据对应关系将所述角色数据替换为对应的实际名称，并将实际名称与文字数据进行关联保存。

此外，为实现上述目的，本发明还提供一种基于声音数据的角色分析装置，所述基于声音数据的角色分析装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声音数据的角色分析程序，所述基于声音数据的角色分析程序被所述处理器执行时实现如上所述的基于声音数据的角色分析方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于声音数据的角色分析程序，所述基于声音数据的角色分析程序被处理器执行时实现上述的基于声音数据的角色分析方法的步骤。

本发明提供一种基于声音数据的角色分析方法、装置和计算机存储介质。在该方法中，获取所述声音数据和与所述声音数据所对应的角度数据；根据所述角度数据对所述声音数据进行角色解析，获得与所述声音数据对应的角色数据。通过上述方式，本发明提供了一种新的声音信息中角色分离的方式，能够根据声音数据的角度数据对声音数据进行角色分析，通过分析声音数据中人物说话时所占用的角度不同，通过角度数据分析出声音数据中包含的多个角色数据，从而根据角度数据对声音数据进行角色分离，识别出各声音数据对应的多个角色人物。通过角度来分离人物角色的分析方法不需对每个角色人物安装专门的麦克风来进行音频中角色的分离，能全方位360度的识音来进行角色分离。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明基于声音数据的角色分析方法第一实施例的流程示意图；

图3为本发明基于声音数据的角色分析方法第二实施例的流程示意图；

图4为本发明基于声音数据的角色分析方法第三实施例的流程示意图；

图5为本发明基于声音数据的角色分析方法第四实施例的流程示意图；

图6为本发明基于声音数据的角色分析方法第五实施例的流程示意图；

图7为本发明基于声音数据的角色分析方法第六实施例的流程示意图；

图8为本发明基于声音数据的角色分析方法第七实施例的流程示意图；

图9为本发明基于声音数据的角色分析方法第四实施例的具体过程图；

图10为本发明基于声音数据的角色分析方法第七实施例的具体过程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、便携计算机等具有数据处理功能的终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、Wi-Fi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及基于声音数据的角色分析程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的基于声音数据的角色分析程序，并执行以下操作：

获取所述声音数据和与所述声音数据所对应的角度数据；

进一步地，处理器1001可以调用存储器1005中存储的基于声音数据的角色分析程序，还执行以下操作：

将所述声音数据进行转换，得到文字数据；

对所述角度数据进行遍历，获得所述角度数据的变化节点；

所述公式为：

dp＝360/N，

R＝(d-d₀+dp-1)/dp，

本发明基于声音数据的角色分析设备的具体实施例与下述基于声音数据的角色分析方法各实施例基本相同，在此不作赘述。

参照图2，图2为本发明基于声音数据的角色分析方法第一实施例的流程示意图，所述基于声音数据的角色分析方法包括：

步骤S100，获取所述声音数据和与所述声音数据所对应的角度数据；

在本发明实施例中，该基于声音数据的角色分析方法适用于录音过程中，也适用于其他场景。录音过程中，声音数据通过麦克风阵列采集，麦克风阵列包含多个麦克风，可以为4个麦克风、也可以为4+1个麦克风、6+1个麦克风等多种组成形式，麦克风阵列能拾取360度全方位的音频信息，打破单个麦克风因自身特性存在指向性，不能收集360度全向声音的问题，达到360度全方向收集声音的效果，在每个方向上都能完美收音，任何角度的人员的声音信息均能够被收集，因此，通过麦克风阵列拾取声音数据的同时，也可以获得该声音数据所对应的角度数据。获取的声音数据通过WAV格式保存，角度数据通过DIR格式保存。

步骤S200，根据所述角度数据对所述声音数据进行角色解析，获得与所述声音数据对应的角色数据。

本实施例通过声音数据所对应的角度数据对声音数据进行角色解析，利用人物说话时相对于麦克风所占用的角度的不同来区分声音数据中的多个人物角色，进而达到角色分离的效果。本实施例可以适用于Linux x86环境，通过对声音数据所对应的角度数据进行计算，确定声音数据的角度位置来确定该声音数据所对应的角色数据。比如在录音过程中，麦克风阵列收集到某人物A的一段声音数据和该声音相对于麦克风的角度数据，对该角度数据进行计算解析，确定该段声音数据来源于某个角度，进而确定该声音来源于某个角度的角色A的发言。

本发明是一种新的角色分离方式，以往的录音设备进行角色分离，是通过安装多个麦克风，每个麦克风对应一个角色人物，不同麦克风对应不同角色，通过声音数据来源的麦克风的不同来确定声音数据的角色。即某段声音数据来自麦克风1，则这段声音数据的角色为1，某段声音数据来源麦克风2，则该声音数据的角色为2。因此以往的录音设备是通过安装不同的麦克风来确定声音数据的角色数据的，而本申请，不需安装多个麦克风，只需一个具有麦克风阵列的功能的麦克风，利用一个麦克风收集声音数据的不同角度即可确定角色，与以往的录音设备的角色分离方式不同，是一种新的角色分离方式。

请参阅图3，图3为本发明基于声音数据的角色分析方法第二实施例的流程示意图。

基于上述实施例，本实施例还包括：

步骤S010，将所述声音数据进行转换，得到文字数据；

本实施例中，可以将声音数据进行实时语音转换，转换为文字数据。该文字数据可以通过JSON格式进行保存。该文字数据除了声音数据通过语音转换过来文字信息外，还可以包含其他关联信息，如记录的声音接收时间的数据等。将这些信息进行保存，可以方便后续进行处理。

步骤S210，根据所述角度数据对所述文字数据进行角色解析，获得与所述文字数据对应的角色数据。

将声音数据进行转换，获得文字数据后，进行可以根据角度数据对文字数据进行角色解析，对某段文字数据所对应的角度进行计算，确定该角度所对应说话的角色，进而确定该段文字数据的角色数据。本实施例通过这种方式可以达到通过文字数据所对应的不同的角度确定各段文字数据分别对应的各个说话的角色人物，进而得到与各个角色分别对应的说话内容的文本信息，文本信息中还可以包含其他信息，如这段话的说话时间信息等。如某段文本数据对应的角度是a，对应是角色1所说，某段文本数据对应的角度是b，对应是角色2所说。

请参阅图4，图4为本发明基于声音数据的角色分析方法第三实施例的流程示意图。

基于上述实施例，本实施例中，步骤S210包括：

步骤S220，对所述文字数据根据所述角度数据进行划分，获得子文字数据和与所述子文字数据分别对应的子角度数据；

具体的，本实施例中，可以将文字数据根据角度数据进行划分，将文字数据划分为多个子文字数据，每个子文字数据对应于一个子角度数据，一个子文字数据对应于一个子角度数据。根据文字数据的对应的角度的变化对文字数据进行划分，可以将文字数据划分为多个子文字数据，每个子文字数据对应一个角度。

步骤S230，对所述子角度数据进行角色解析，获得与所述子文字数据所对应的多个角色数据。

每个子文字数据对应一个且仅一个子角度数据，根据对该角度进行计算，得到该角度所对应的说话人物角色，进而确定该子文字数据所对应的说话的角色，进而可以确定一段文字信息中各个部分分别对应的各个角色，进而达到对该段文字信息进行角色分离的效果。如某段文字信息中，第一句话为角色1说的，第二、三句话为角色2所说的，第四至第九句话为角色3所说的等。

请参阅图5，图5为本发明基于声音数据的角色分析方法第四实施例的流程示意图。

基于上述实施例，本实施例中，步骤S220包括：

步骤S221，对所述角度数据进行遍历，获得所述角度数据的变化节点；

本实施例为对所述文字数据根据所述角度数据进行划分，获得子文字数据和与所述子文字数据分别对应的子角度数据的一种实现方式的实施例。本实施例可以通过计算机计算算法对角度数据进行遍历，获得角度数据的变化节点。比如在那些节点上，角度数据发生变化，收取到的声音信息的角度发生变换，有某个角度变为另一个角度，该角度变化所对应的变化节点。

步骤S222，根据所述变化节点对与所述角度数据对应的文字数据进行划分，得到子文字数据。

根据该变化节点对该角度数据相应对应的文字数据进行划分，将文字数据划分为多个子文字数据，每个子文字数据对应一个角度。每个子文字数据对应的角度可以相同，也可以不同。进而可以根据该子文字数据所对应的唯一的角度进行计算确定该子文字数据的角色，进而起到角色分离的效果。具体过程可参见图9。

请参阅图6，图6为本发明基于声音数据的角色分析方法第五实施例的流程示意图。

基于上述实施例，本实施例中，步骤S230包括：

步骤S231，对所述子角度数据利用预设公式进行计算，获得与所述子角度数据所对应的子文字数据的角色数据。

在本实施例中，对子文字数据所对应的子角度数据进行计算，确定该子文字数据所对应的角色，可以通过以下公式进行计算：

dp＝360/N，

R＝(d-d₀+dp-1)/dp，

本公式可以按照预设的参会人数N和起始角度分离出具体的角色，上述两个公式都向上取整，即只要小数部分大于0，就在整数部分加1，并且只要整数部分的值。例如，预设d₀为6，参会人数N为4，则获得某段子文字数据的子角度数据为126度时，根据公式计算出的dp为90，进而计算出的角色R＝(126-6+89)/90＝2，即当子角度数据为126度时，则确定对应的角色数据为2。利用上述公式对角度进行计算，把角度进行划分，划分为多个角度区域，每个角度区域对应一个人物角色，进而可以根据角度确定所在的角度区域，进而确定该角度所对应的人物角色。

请参阅图7，图7为本发明基于声音数据的角色分析方法第六实施例的流程示意图。

基于上述实施例，本实施例还包括如下步骤：

步骤S300，将所述文字数据和与所述文字数据对应的角色数据发送给移动终端，以使得移动终端进行显示。

在本实施例中，将文字数据和角色数据发送给移动终端，以使得移动终端将文字数据和角色数据进行显示，最终在移动终端上呈现出角色分离和文字转换的效果。该移动终端可以为支持iOS和Android的移动设备，移动终端在获取到文字数据和角色数据后，将文字转换结果和角色分离结果显示在移动终端的界面上。显示的内容可以包括：语音转换后的文字内容、说话的相对时间、角色名称、角色头像等。还可以将这些文件进行保存，以便后续进行操作，如后续录音回放、按进度播放录音、根据录音回放进度定位文字内容、根据文字内容定位录音进度、再次转写录音文件等操作。通过同步移动终端这样的方式，可以将角色分离效果可视化直观化，便于用户直观的看到角色分离的效果。

请参阅图8，图8为本发明基于声音数据的角色分析方法第七实施例的流程示意图。

基于上述实施例，本实施例还包括如下步骤：

步骤S400，接收用户输入的实际名称和所述实际名称与所述角色数据的对应关系；

在本实施例中，在获得文字数据和文字数据所对应的角色数据后，可以将角色数据进行更改，更正为实际角色用户的实际姓名或昵称，使角色分离的效果更加直观。如在得知某句话对应说话的角色人物为1的前提下，接收用户输入的实际名称如花花，和花花这个实际名称所对应的角色数据为1等信息。

步骤S500，根据对应关系将所述角色数据替换为对应的实际名称，并将实际名称与文字数据进行关联保存。

在接收到用户输入的实际名称如花花，和花花这个实际名称所对应的角色数据为1等信息后，将角色数据1替换为用户输入的实际名称花花，从而得到某句话对应说话的角色人物为花花，从而达到说话的文字内容与真实姓名一一对应的结果。通过用户编辑设置的具体名称，将该名称与上述的角色数据R进行关联保存，从而达到更改成实际名称的效果。同时，还可以根据原先预先设定的图标颜色或头像，将图标颜色和头像与角色数据R进行关联保存，使文字信息对应说话的角色人物的相关信息更加全面直观。详细过程参见图10。

此外，本发明实施例还提出一种计算机可读存储介质。

本发明计算机可读存储介质上存储有基于声音数据的角色分析程序，所述基于声音数据的角色分析程序被处理器执行时实现如上所述的基于声音数据的角色分析方法的步骤。

其中，在所述处理器上运行的基于声音数据的角色分析程序被执行时所实现的方法可参照本发明基于声音数据的角色分析方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于声音数据的角色分析方法，其特征在于，所述基于声音数据的角色分析方法包括以下步骤：

获取所述声音数据和与所述声音数据所对应的角度数据；

2.如权利要求1所述的基于声音数据的角色分析方法，其特征在于，所述根据所述角度数据对所述声音数据进行角色解析，获得与所述声音数据对应的角色数据的步骤之前包括：

将所述声音数据进行转换，得到文字数据；

3.如权利要求2所述的基于声音数据的角色分析方法，其特征在于，所述根据所述角度数据对所述文字数据进行角色解析，获得与所述文字数据对应的角色数据的步骤包括：

4.如权利要求3所述的基于声音数据的角色分析方法，其特征在于，所述对所述文字数据根据所述角度数据进行划分，获得子文字数据和与所述子文字数据分别对应的子角度数据的步骤包括：

对所述角度数据进行遍历，获得所述角度数据的变化节点；

5.如权利要求3所述的基于声音数据的角色分析方法，其特征在于，所述对所述子角度数据进行角色解析，获得与所述子文字数据所对应的多个角色数据的步骤包括：

6.如权利要求5所述的基于声音数据的角色分析方法，其特征在于，所述公式为：

dp＝360/N，

R＝(d-d₀+dp-1)/dp，

7.如权利要求2所述的基于声音数据的角色分析方法，其特征在于，所述基于声音数据的角色分析方法还包括以下步骤：

8.如权利要求2所述的基于声音数据的角色分析方法，其特征在于，所述基于声音数据的角色分析方法还包括以下步骤：

9.一种基于声音数据的角色分析装置，其特征在于，所述基于声音数据的角色分析装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声音数据的角色分析程序，所述基于声音数据的角色分析程序被所述处理器执行时实现如权利要求1至8中任一项所述基于声音数据的角色分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于声音数据的角色分析程序，所述基于声音数据的角色分析程序被处理器执行时实现如权利要求1至8中任一项所述基于声音数据的角色分析方法的步骤。