CN114329042A - 数据处理方法、装置、设备、存储介质及计算机程序产品 - Google Patents

数据处理方法、装置、设备、存储介质及计算机程序产品 Download PDF

Info

Publication number
CN114329042A
CN114329042A CN202111022361.2A CN202111022361A CN114329042A CN 114329042 A CN114329042 A CN 114329042A CN 202111022361 A CN202111022361 A CN 202111022361A CN 114329042 A CN114329042 A CN 114329042A
Authority
CN
China
Prior art keywords
voice
audio
time
determining
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111022361.2A
Other languages
English (en)
Inventor
田思达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111022361.2A priority Critical patent/CN114329042A/zh
Publication of CN114329042A publication Critical patent/CN114329042A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、设备、存储介质及计算机程序产品,可以应用于云技术、人工智能等各种领域或场景,该方法包括:根据待处理音频确定目标人声音频,并确定目标人声音频的人声概率序列,人声概率序列包括按照时间先后顺序进行排序的人声概率;若根据人声概率序列确定出第一人声起始时间,则根据第一人声起始时间从目标人声音频中确定参考人声音频;确定参考人声音频的音频能量值序列,音频能量值序列包括按照时间先后顺序进行排序的音频能量值;若根据音频能量值序列确定出第二人声起始时间,则将第二人声起始时间确定为待处理音频的人声起始时间。采用本方案,可以有效提高确定音频中的人声起始时间的效率以及准确性。

Description

数据处理方法、装置、设备、存储介质及计算机程序产品
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备、存储介质及计算机程序产品。
背景技术
随着现代数字媒体技术的发展,人们对于各种音视频的需求越来越丰富多样,在一款音乐播放器中,不仅具备简单的播放音乐或其他音频的功能,还集合了各种提升用户使用体验的功能。人声起始位置信息一直是一个热门的研究话题,且基于人声起始位置信息可以在现代媒体管理中对各种各样的音频实现自动化处理,如快速定位歌曲内容、歌词对齐、歌词识别等。
现有的人声起始位置信息用的定位通常采用人工标注的方式实现,这种方式在客观方面来讲看不仅耗费人力资源,并且效率不高;主观方面来看,由于标注标准因人而异,会存在人声起始点不一致的情况,这样可能会导致基于人声起始点的各种应用效果欠佳。基于此,需要设计一种高效且准确的方式来确定人声起始时间。
发明内容
本申请实施例提供一种数据处理方法、装置、设备、存储介质及计算机程序产品,可以有效提高确定音频中的人声起始时间的效率以及准确性。
本申请实施例一方面提供了一种数据处理方法,包括:
根据待处理音频确定目标人声音频,并确定目标人声音频的人声概率序列,人声概率序列包括各个第一单位时间所对应人声音频的人声概率,且各个第一单位时间所对应人声音频的人声概率按照时间先后顺序进行排序;
若根据人声概率序列确定出第一人声起始时间,则根据第一人声起始时间从目标人声音频中确定参考人声音频;
确定参考人声音频的音频能量值序列,音频能量值序列包括各个第二单位时间所对应人声音频的音频能量值,且各个第二单位时间所对应人声音频的音频能量值按照时间先后顺序进行排序;
若根据音频能量值序列确定出第二人声起始时间,则将第二人声起始时间确定为待处理音频的人声起始时间。
本申请实施例一方面提供了一种数据处理装置,包括:
确定模块,用于根据待处理音频确定目标人声音频,并确定目标人声音频的人声概率序列,人声概率序列包括各个第一单位时间所对应人声音频的人声概率,且各个第一单位时间所对应人声音频的人声概率按照时间先后顺序进行排序;
确定模块,还用于若根据人声概率序列确定出第一人声起始时间,则根据第一人声起始时间从目标人声音频中确定参考人声音频;
确定模块,还用于确定参考人声音频的音频能量值序列,音频能量值序列包括各个第二单位时间所对应人声音频的音频能量值,且各个第二单位时间所对应人声音频的音频能量值按照时间先后顺序进行排序;
确定模块,还用于若根据音频能量值序列确定出第二人声起始时间,则将第二人声起始时间确定为待处理音频的人声起始时间。
本申请实施例一方面提供了一种计算机设备,包括:处理器、存储器以及网络接口;处理器与存储器、网络接口相连,其中,网络接口用于提供网络通信功能,存储器用于存储程序代码,处理器用于调用程序代码,以执行本申请实施例中的数据处理方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的数据处理方法。
相应的,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的数据处理方法。
在本申请实施例中,通过从待处理音频中提取出目标人声音频,对目标人声音频进行人声概率估计,得到用于指示各个第一单位时间所对应人声音频的人声概率序列,然后在根据人声概率序列进行人声起始时间粗定位,得到人声起始时间,并根据该粗定位得到的人声起始时间确定参考人声音频,将人声起始时间的确定缩小在一个更小的时间范围内,然后基于参考人声音频的音频能量值序列中的音频能量值再次定位人声起始时间,可以将第一人声起始时间调整到更精准的位置。整个过程能够自动地定位人声起始位置,能够提高确定人声起始时间的效率,并且通过粗定位和精准定位的结合,可以使得人声起始时间的准确度更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理***的架构图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种歌唱识别算法的流程示意图;
图4是本申请实施例提供的另一种数据处理方法的流程示意图;
图5是本申请实施例提供的一种音乐片段的音源分离的效果示意图;
图6是本申请实施例提供的一种目标人声音频的人声概率序列的示意图;
图7是本申请实施例提供的一种音频能量值序列的分布示意图;
图8是本申请实施例提供的另一种数据处理方法的流程示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用***能够根据需要获取计算力、存储空间和信息服务。按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as aService,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、***器等。一般来说,SaaS和PaaS相对于IaaS是上层。本申请提供的数据处理方案可以是PaaS服务提供的功能,能够支持第三方软件调用相关接口通过执行数据处理方案得到人声起始时间,并将处理得到的人声起始时间应用于特定的功能中,如跳过歌曲前奏、对主歌副歌进行定位等。
请参见图1,图1是本申请实施例提供的数据处理***的架构图,如图1所示,包括终端设备101和服务器100。终端设备101和服务器100可以通过有线或无线的方式进行通信连接。
终端设备101可以通过拾音设备采集语音数据生成音频,或结合摄像设备采集图像数据生成视频,也可以通过其他方式(如下载或拷贝)获取到音频或视频,终端设备101可以将这些视频或音频数据上传至第三方应用或客户端功能平台(如web客户端的网站),由服务器100对终端设备101上传的视频或音频进行处理,将音频的人声起始时间确定出来,并在不同的应用场景中使用该人声起始时间实现相应的功能。示例性地,对一首歌曲进行人声起始时间的检测,可以根据得到的第一个人声起始时间跳过歌曲前奏,直接定位到人声开始出现的地方,因为歌曲的前奏通常都是各种乐器或其他伴奏声,跳过前奏可以帮助用户快速进入歌曲的演唱环节,可选地,根据其他人声起始时间也可以跳过歌曲的主歌和副歌之间衔接的伴奏,提高用户的体验,当然,不同的人声起始时间可以有不同的应用场景,针对服务器100确定的人声起始时间具体如何应用以及应用到何种场景本申请实施例在此不做限制。需要说明的是,上述终端设备101可以是智能手机、平板电脑、车载终端、智能语音交互设备、智能家电、智能可穿戴设备、个人电脑等设备。
服务器100可以对终端设备101上传的视频或音频数据进行处理或者从其他数据库中获取音频或视频数据来处理。由于服务器100搭载的数据处理算法的主要处理对象是音频数据,因此当服务器100接收到视频数据时,需要对该视频数据进行预处理,提取出其中包括的音频作为待处理音频。该数据处理算法包括不同的功能模块,服务器100对待处理音频的处理内容可以包括对待处理音频分段得到的音频片段进行音源分离或者直接将整段待处理音频进行音源分离处理,使得人声和其他声音分离开来,得到目标人声音频和其他音频,例如若待处理音频是歌曲,则主要是分离伴奏声和人声,这样可以减少其他声音的干扰,使得后续的处理更高效且准确。根据目标人声音频的人声概率序列可以对各单位时间是否有人声进行预判,利用人声概率序列若能够确定出第一人声起始时间,则需要继续利用第一人声起始时间定位最终的人声起始时间,这样可以进一步保证人声起始时间的准确度。具体地,首先利用第一人声起始时间在目标人声概率中选取一段音频作为参考人声音频,并在根据参考人声音频的音频能量值序列确定出第二人声起始时间之后,将第二人声起始时间是最终待处理音频的人声起始时间。
可以发现,服务器100对待处理音频进行处理得到目标人声音频后,对人声概率序列的确定以及音频能量值序列的确定本质上来讲都是基于该目标人声音频来实现的,因此更确切地说服务器100的数据处理算法关键的数据对象是人声音频,若通过人声音频的人声概率序列确定出初始的第一人声起始时间,则根据人声音频的音频能量值序列确定出更精细的第二人声起始时间,若能够成功确定,则可以将第二人声起始时间作为待处理音频最终的人声起始时间,这样可以使得人声起始时间的精确度更高,整个过程能够实现自动确定人声起始时间,进而有效提高人声起始时间确定的效率。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行(如服务器100),服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
进一步地,为便于理解,本申请下述提及的实施例均以服务器(如上述图1所对应实施例中的服务器100)为例进行说明。请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法至少可以包括以下步骤S101-S104,其中:
S101,根据待处理音频确定目标人声音频,并确定目标人声音频的人声概率序列。
在一实施例中,待处理音频可以是服务器从终端设备或者其他数据库中获取的音频数据,或者是从视频数据中提取出来的音频数据,在不同的应用场景中,待处理音频的类型可能有所不同,例如待处理音频可以是一首歌曲或者从一段视频中剥离出来的音频,也可以是一段对话、一段配音等等,对待处理音频的具体内容在此不做限制。目标人声音频从待处理音频中分离出来的人声音频,可以根据待处理音频确定的整段人声音频,也就是说目标人声音频的时长和待处理音频的时长相同,也可以是一部分人声音频,也即目标人声音频的时长小于待处理音频的时长。对于目标人声音频的获取,可以采用现有的一些音源分离工具或音源分离算法来实现对人声的提取,提取出来的音频可以认为是只包括人声的音频,即没有其他任何背景声(如伴奏声、噪声等)。当然,如果待处理音频是不包括人声的音频,例如纯音乐,根据待处理音频确定的目标人声音频可能为空或者是一些和人声相似的器乐声被误确认为人声得到的目标人声音频,针对这样的情况,后续可以根据确定出来的人声概率给出是否执行后续步骤的结果。而从更严格意义上来说,对于整个方案能够从待处理音频分离出真正意义上的人声音频是确定人声起始时间的首要条件,但对于分离出来人声音频是无实际意义的情况,也可以根据后续的处理来进一步确定,为此,此步骤对于目标人声音频的具体内容不做限制。
在一实施例中,人声概率序列包括目标人声音频中各个第一单位时间所对应人声音频的人声概率,且各个第一单位时间所对应人声音频的人声概率按照时间先后顺序进行排序。这里的第一单位时间可以是30毫秒(ms),1秒(s),也可以2秒或其他单位时间,在此不做限制。
由于目标人声音频中并不是无时无刻都有人声,例如一段30秒的目标人声音频在第16秒至第30秒内才有人声,对于目标人声音频中各个时刻是否有人声在本申请实施例中通过人声概率来衡量,通过对各个第一单位时间内对应的人声音频存在人声的可能性进行预估,得到按照时间先后排序的人声概率,得到人声概率序列。例如,以第一单位时间为1秒,30秒的目标人声音频为例对人声概率序列进行说明,将人声概率序列记为P,其包括的人声概率记为pi,则P={p0,p1,p2,…,p29},分别表示的是在第1秒对应的人声音频的人声概率、第2秒对应的人声音频的人声概率、…、第30秒对应的人声音频的人声概率,即人声概率序列可以视为1秒对应一个概率值的离散序列。对应地,对于目标人声音频的处理是按照时间顺序来依次处理,以便得到按照时间顺序排列的人声概率,对于人声概率序列的确定方式在此不做限制。
可选地,确定目标人声音频的人声概率序列的方式可以是:对目标人声音频进行傅里叶变换处理,得到目标人声音频的语谱图;利用音频处理网络对语谱图进行处理,得到目标人声音频的人声概率序列。对目标人声音频的傅里叶变换处理是指对目标人声音频进行快速傅里叶变换(Fast Fourier Transform,FFT)或短时傅里叶变换处理,得到对应的语谱图,然后该语谱图输入音频处理网络,如深度卷积网络,得到最终的人声概率。本实施例在网络方面(即音频处理网络)采用MobileNetV2(一种深度可分离卷积网络);精度方面,本方案每隔预设时长(例如1秒)进行一次处理,可得到秒级别的粗定位;效果方面,本方案在测试集上的准确率达到83.8%。当目标人声音频是歌曲中的人声,上述步骤对应的是一种歌唱识别算法,该算法示意图可以参见图3,图3中的音频信号即目标人声音频,该算法接收音频输入,通过FFT计算得到语谱图,送入卷积神经网络之后得到最终的歌唱概率,经过后续的处理可以得到秒级别的粗定位。
S102,若根据人声概率序列确定出第一人声起始时间,则根据第一人声起始时间从目标人声音频中确定参考人声音频。
在一实施例中,人声概率序列中包括按照时间顺序排列的人声概率,通常概率取值在0-1范围内表示人声可能性的大小,概率值越大(即越接近于1)表示该单位时间有人声的可能性越大,但序列中人声概率不为0并不代表该时刻一定存在人声,因此可以根据概率值是否满足预先设定的条件来确定目标人声音频中人声起始时间,将其作为第一人声起始时间。需要注意的是,该人声起始时间可以是一个时间点,也可以是时间段,在本实施例中以时间点作为示例进行说明,下述若出现人声起始(时间)点即是指人声起始时间。在确定出目标人声音频的第一人声起始时间的条件下,才能执行后续的确定参考人声音频的步骤,因为若人声概率序列中的概率值均不符合预先设定的条件,则表示目标人声音频中是不包括人声,第一人声起始时间也就无法确定出来,后续步骤可以停止执行。
在一实施例中,确定出第一人声起始时间是初步定位的结果,还需要根据第一人声起始时间确定出参考人声音频,由于参考人声音频是目标人声音频中的一部分,其时间粒度是比目标人声音频的时间粒度更小的时间,因此可以根据相应的规则,进一步地从该参考人声音频中确定出更精确的人声起始时间。
S103,确定参考人声音频的音频能量值序列。
在一实施例中,音频能量值序列包括参考人声音频各个第二单位时间所对应人声音频的音频能量值,且各个第二单位时间所对应人声音频的音频能量值按照时间先后顺序进行排序。和目标人声音频的人声概率序列类似,参考人声音频的音频能量值序列也是按照时间先后顺序排序的,而不同的是,这里的第二单位时间是比第一单位时间粒度更细或者说量级更小的时间,例如第一单位时间可以精确到秒(s),那么第二单位时间则可以精确到毫秒(ms),或者说第一单位时间精确到1秒,那么第二单位时间可以精确到0.1秒,又如第一单位时间为30ms,第二单位时间则可以是5ms。示例性地,第一人声起始时间为第27秒,确定出来的参考人声音频是目标人声音频中第26.5秒至27.5秒的人声音频,对应的音频能量值序列记为E,音频能量值记为ei,则参考人声音频的音频能量值序列可以表示为每个0.1秒对应的音频能量值,即E={e0,e1,e2,…,e9}。其中,音频能量值的计算可以是先计算出参考人声音频的功率谱,然后将这个功率谱取对数映射到分贝值上,将这个分贝值作为最终的音频能量值,这样可以降低音频能量的计算量级,提高后续步骤的处理效率。
S104,若根据音频能量值序列确定出第二人声起始时间,则将第二人声起始时间确定为待处理音频的人声起始时间。
在一实施例中,和第一人声起始时间类似,对音频能量值序列包括的音频能量值进行一定条件的判断,可以确定出第二人声起始时间,需要注意的是,第二人声起始时间相对于第一人声起始时间是更精确的描述,即在直观数字上比较,可以是第二人声起始时间和第一人声起始时间精确到的小数点不同,精度的衡量有所差别,通过音频能量值序列来进一步调整第一人声起始时间可以对人声起始时间的表述更准确。可选地,确定待处理音频的人声起始时间的前提条件是根据参考人声音频的音频能量值序列确定出第二人声起始时间,如果可以确定出来,就能够将其确定为人声起始时间,作为待处理音频的人声起始时间的关键因素,当然如果确定不出来,也可以将第一次定位的第一人声起始时间作为待处理音频的人声起始时间或者将第一人声起始时间确定为无效的人声起始时间,重新确定人声起始时间。
需要说明的是,上述步骤是针对一个目标人声音频的处理流程,如果是根据待处理音频确定的多个目标人声音频,对于每个目标人声音频也可以采用同样的处理步骤。根据特定的应用场景,对多个目标人声音频处理的数量可以做相应的调整,以及最终待处理音频的人声起始时间为一个或多个也可以根据具体需求来定。例如,将本方案应用在跳过歌曲前奏这样的应用场景中,只需要确定出第一个人声起始时间就可以,并且在多个目标人声音频的情况下,可以在确定出第一个人声起始时间后即停止对其他目标人声音频的处理,节约计算资源,并且分为多个目标人声音频处理还可以高效地确定出人声起始时间。
本申请实施例可以通过多种形式应用于自动快速计算音乐的人声起始点的方案,以web接口为例,具体的操作步骤和产品表现形式可以如下:首先用户上传一段视频或音频URL(uniform resource locator,统一资源定位***),后台服务器中的算法计算音乐的人声起始时间点,然后通过web接口返回音乐的人声起始时间点,如果没有人声则返回-1。确定人声起始点的功能可以部署于PAAS(Platform as a Service,平台即服务)服务平台,第三方应用若要应用人声起始点实现某些功能,可以通过调用PAAS服务提供的相关接口来处理,并得到处理结果。此时,对于第三方应用具体面向用户时,用户可以直接在web端上传视频或音频文件,而后台自动提取该视频或音频文件的指示地址(如上述URL),使得PAAS服务根据该指示地址获取到视频或音频数据并对其进行处理,将处理结果回传给第三方应用的后台服务器中,以实现相应功能。
综上所述,本申请实施例至少具有以下优点:
根据待处理音频确定目标人声音频,将目标人声音频送入后续的处理环节中,可以减少非人声音频的干扰,提高人声起始时间定位的准确度。通过对目标人声音频进行人声概率计算,准确得到各时刻有人声的概率,根据人声概率序列锁定第一人声起始时间的精度,紧接着在得到第一人声起始时间的情况下确定出参考人声音频并对其进行音频能量值计算,精准定位人声开始时刻,其中,针对不同的数据信息采用不同的规则来筛选人声起始位置,利用人声概率和音频能量值双重保障人声起始时间的准确度,相比于单一的能量突变时刻作为人声起始时间,这种方式能够进一步提升人声起始时间的可靠性和精准度,且整个过程是计算机设备按照相应算法指令自动完成的,可以有效提高确定人声起始时间的效率。
请参见图4,图4是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法至少可以包括以下步骤S201-S205,其中:
S201,获取待处理音频并对待处理音频进行分段处理,得到至少两个音频片段。
在一实施例中,服务器可以从终端设备或数据库中获取待处理音频,例如对终端设备输入的视频或音频文件抽取音频轨道,将其作为后续处理步骤中的输入。获取到的待处理音频可以是一段音乐,也可以是其他的音频数据,在此不做限制。对待处理音频的分段处理可以是按照时间均匀划分为G等份,得到G个音频片段,这里的G一般是大于或等于2的整数值,取值范围可以为3-5,即均分为3至5份,当然,可能有的时候并不能保证完全的等分,通常允许最后一份音频片段的时长和之前的音频片段不同,最终分段处理得到的这G等份音频片段可以依次送入后续计算流程中。当应用于跳过歌曲前奏的场景中,此处的采用的分段策略将原始音乐平均分成G段,可以极大地降低计算时间,节省计算资源。这是因为在大部分有人声的音乐文件当中,人声起始时间会紧接音乐前奏结束后开始,按时间顺序依次将不同段送入后续计算流程,当某一段计算出人声起始位置,便停止,也就是说某个等份的音频片段得到人声起始时间,就可以停止对剩下等份的音频片段处理。利用人声往往在音乐较前位置开始的先验条件,在大部分情形下能够实现加速。当在前一段的音乐中已经计算出人声起始时间的位置时,就没有必要对后面的音乐段进行计算了,以此节省计算时间。当G=1,对应不分段的情况,当G取值在分段的最佳范围内时,后续的人声起始时间计算处理能够达到一次计算出结果的效果。
S202,对至少两个音频片段进行音源分离处理,得到各个音频片段的人声音频,按照时间顺序依次将各个音频片段的人声音频确定为目标人声音频,并确定目标人声音频的人声概率序列。
在一实施例中,对待处理音频分段处理得到的音频片段进行音源分离的主要作用是将人声轨道剥离出来,得到各个音频片段的人声音频,以便后续操作。将音源分离作为对音频的前处理操作,其对应的前处理模块可以对输入音频进行音源分离,这里的输入音频即输入的音频片段,最终分离成两个或多个音频轨道,其中,人声轨道的人声音频将被送入后续计算流程。针对音频片段为音乐片段时,请参见图5,图5是本申请实施例提供的一种音乐片段的音源分离的效果示意图,音源分离可以将输入的音乐片段分成人声和伴奏两个轨道。
可选地,音源分离所使用的算法可以采用开源的Spleeter算法实现,该算法基于U-net网络的编码解码结构对原始音频建模,能够实现高效准确的音源分离功能,该U-net网络是利用有人声的原始音频和没有人声的原始音频进行有监督训练得到的,具体应用过程中,通过对输入的音频进行变换得到语谱图,然后采用图像处理网络U-net处理语谱图,最终得到人声语谱图并将其反变换为人声音频并输出该人声音频。此步骤通过音源分离算法剥离人声轨道,在针对歌曲的处理中可以排除伴奏轨道对算法的干扰,避免算法花费更多资源去确定当下激烈信号是人声还是伴奏造成的。此外,在有些分离效果较好的情况下,对人声轨道单纯使用音频音量大小也可以完成人声起始点的定位。
在一实施例中,上述对音频片段进行音源分离得到的人声音频按照时间顺序将其作为目标人声音频,对应的可以是全部或部分音频片段的人声音频。示例性地,3个音频片段进行音源分离能够得到分别对应的3个人声音频为V1(时间范围为0-20秒)、V2(时间范围为21-40秒)、V3(时间范围为41-55秒),那么这3个人声音频可以先全部作为目标人声音频,按照时间顺序依次计算人声起始时间,也可以是按照时间顺序先将第一个人声音频V1作为目标人声音频,在这个目标人声音频中不能确定出人声起始点时,将第二个人声音频V2作为目标人声音频进行进一步处理,当得到人声起始点时,第三个人声音频V3则不作为目标人声音频,这样就是部分人声音频作为目标人声音频,反之,若第二个人声音频不能得到人声起始点,则需要将第三个人声音频V3作为目标人声音频并输入相应模块中进行人声起始时间计算处理。
另外,确定人声概率序列的方式可以参见前述实施例的内容。需要说明的是,由于音源分离步骤中对人声音频和其他类型的音频分离后会先得到的人声语谱图,再将其经过快速傅里叶反变换处理后得到目标人声音频,而人声识别模块(计算人声概率)中会将该目标人声音频又变换为语谱图,因此若不考虑模块化的设计,可以直接将音源分离中得到的人声语谱图作为输入如图3示出的卷积神经网络的语谱图,这样可以省略人声音频的反变换处理和目标人声音频信号的变换处理,节约计算资源且步骤之间的耦合性更强,而模块化的设计将音源分离和人声识别这两个功能分离开来,也是具备优异的处理效果。此外,上述步骤中对音频的分段处理以及音源分离处理的顺序也可以互换,也就是说先对待处理音频进行音源分离操作,得到整段人声音频,再将这整段人声音频进行分段处理,得到人声音频片段,这些人声音频片段按照时间顺序可以确定为目标人声音频,同样也可以执行后续的处理流程,对于这两个步骤的顺序本申请不做限制。
S203,若根据人声概率序列确定出第一人声起始时间,则根据第一人声起始时间从目标人声音频中确定参考人声音频。
在一实施例中,根据人声概率序列确定第一人声起始时间的实现方式可以包括:从人声概率序列中确定首个大于或等于概率阈值的人声概率,并确定首个大于或等于概率阈值的人声概率所对应的第一候选时间;根据第一候选时间确定参考时间区间,根据所对应时间处于参考时间区间内的人声概率确定人声概率均值;若人声概率均值大于或等于概率阈值,则将第一候选时间确定为第一人声起始时间。根据目标人声音频确定的人声概率序列包括按照时间先后顺序排列的人声概率,在获得到各第一单位时间(如每秒)所对应人声音频的人声概率之后,可以通过简单的规则来完成人声起始时间的粗定位工作,此方式对应的即是一种粗定位规则的可选实现方式。通过遍历人声概率序列,可以将人声概率序列中第一个大于或等于概率阈值的人声概率确定出来,对应的也就是第一个可能的人声起始时间,根据该人声概率所对应的时间为第一候选时间,这表示在该第一候选时间是人声开始出现的位置。其中,概率阈值可以是根据人工经验设置的,也可以是根据多次试验结果计算得出来的。为了保证粗定位的准确度,还需要进一步地判定,以第一候选时间作为起始时间,将该第一候选时间之后的一段时间作为参考时间区间,例如若第一候选时间为26秒,参考时间区间按照指定的规则可以取27-37秒的时间区间。然后可以在参考时间区间内需要选取所对应时间处于该段时间范围内的部分或全部人声概率进行平均处理,得到人声概率均值,将该人声概率均值和概率阈值比较来确定第一人声起始时间,可选地,这里人声概率均值所比较的概率阈值与确定第一候选时间时人声概率所比较的概率阈值是同一个概率阈值。
示例性地,以目标人声音频对应的是歌曲中的人声音频为例进行说明,图6示出了一种目标人声音频的人声概率序列的示意图,其中,目标人声音频的时间范围为0-50秒,在前25秒,歌唱概率(即人声概率)较低,这里是前奏区域,25秒以后,歌唱概率很高,开始了人声部分。具体来说,可以事先设置一个阈值(即概率阈值),图6示出的概率阈值大约为0.96,当某个时刻的概率首次超过这个阈值,并且在未来2K秒的前K个(K可以等于下述M)歌唱概率的平均值也大于这个阈值的时候,就把这个时刻当做人声起始的粗定位时刻。如图6所示大概在第26秒首次大于该阈值之后,并且第26秒之后的一段时间的歌唱概率的平均值大于该阈值,最终可以确定第26秒为粗定位的人声起始时间。
可选地,根据所对应时间处于参考时间区间内的人声概率确定人声概率均值的方式可以包括:将所对应时间处于参考时间区间内的人声概率按照从大到小的顺序进行排序;根据排序后排列在前M位的人声概率确定人声概率均值,其中,M为正整数。按照由大到小的顺序排列在前M位的人声概率是指人声概率最大的M个,对这M个人声概率取平均可以得到人声概率均值,可选地,参考时间区间可以是未来2M秒,即第一候选时间之后的偶数时间区间,如10秒、20秒,而人声概率则取该时间区间的一半,即选择排列在前半数的人声概率进行平均处理。例如27秒至37秒的参考时间区间,可以选择由大到小排列后的前5位人声概率确定人声概率均值。
作为一种可选的方式,对于人声概率均值的确定也可以是对所对应时间处于参考时间区间内的所有人声概率取均值,例如27秒至37秒的参考时间区间所对应的人声音频对应有10个人声概率,最终的人声概率均值即10个人声概率取平均的值,也可以是由小到大排列的人声概率中排列在M位的人声概率,即小的几个人声概率取均值,得到人声概率均值,还可以是时间连续的M位人声概率取平均,如上述参考时间区间中对应时间在第27秒至32秒的人声概率,本申请实施例对于人声概率均值的确定在此不做限制。如果上述步骤确定出来的人声概率均值符合条件,在此指大于或等于概率阈值,那么第一候选时间就可以确定为第一人声起始时间。
可以发现,确定第一人声起始时间的方式是在选定了第一候选时间之后,还要结合一段时间内是否满足预置的条件来参考第一候选时间的合理性,这是多个条件组合的规则,作为粗定位的一种方式,可以保证更准确的结果,这一筛选规则是基于通常人声开始之后还会持续有人声的存在的原理来进行设计的,因为本申请实施例将粗定位结果本身视为是人声概率较高的时刻,同时也限定了未来一段时间也有较高的人声概率,特别是应用到人声音频为歌曲中的人声,这是因为绝大部分情况下人声起始时间开始会连续演唱一整句或一段,这样可以避免极端情况,例如一个语气词出现的前后一段都没有人声,仅用首个大于或等于概率阈值的条件确定出来的人声起始时间,不仅准确度可能不够,其应用场景相对来说也具有一定的局限性。
在一实施例中,根据第一人声起始时间确定参考人声音频的方式可以是:根据第一人声起始时间确定截取时间区间,截取时间区间的起始时间处于第一人声起始时间之前,截取时间区间的结束时间处于第一人声起始时间之后;将目标人声音频中截取时间区间所对应的人声音频片段确定为参考人声音频。也就是说以第一人声起始时间作为参考的时间点,取前一段时间和后一段时间范围作为最终的截取时间区间,由于第一人声起始时间是目标人声音频对应的时间范围内的取值,因此对应的在截取时间区间也是目标人声音频对应的时间范围内的一段时间,截取时间区间对应的人声音频即是参考人声音频,举例来说,第一人声起始时间是第26秒,以第26秒为参考时间点,取前0.4秒和后0.6秒的区间,也就是25.6秒至26.6秒这一时间范围即为截取时间区间,可以发现,截取时间区间的时间粒度相比于目标人声音频所对应的时间粒度会更小,这样能够使得人声起始时间确定得更准确。对于具体的截取时间区间的范围,经过实验得出在歌曲人声起始点的细定位中取1.6秒大小的区间得到的效果较佳,当然,也可以根据具体的场景来实验得出另外的区间范围,在此对截取时间区间的时间范围不做限制。
S204,确定参考人声音频的音频能量值序列。
在一实施例中,可以通过在粗定位时刻附近的一段区间计算音频能量,以此完成最终的细定位,第一人声起始时间作为粗定位时刻,参考人声音频对应为该粗定位时刻的左右一段区间的人声音频,为此,第一步可以通过计算参考人声音频每个时刻的功率谱,并将其映射为分贝值来等效能量信息,用分贝值来表示当前音频能量的高低,最终确定出来的音频能量值序列也是按照时间先后顺序排列的每个时刻的分贝值。
S205,若根据音频能量值序列确定出第二人声起始时间,则将第二人声起始时间确定为待处理音频的人声起始时间。
在一实施例中,根据音频能量值序列确定第二人声起始时间的方式和根据人声概率序列确定第一人声起始时间的方式类似,即在音频能量值序列中可以先确定出第一个大于或等于能量阈值的第二候选时间,再以第二候选时间为准,在其之后的时间所对应的能量阈值满足设定条件,则可以将第二候选时间确定为第二人声起始时间。不同的是,这里的设定条件可以是指音频能量值序列中连续排序的音频能量值超越预先指定的能量阈值,或者在第一个大于或等于能量阈值的音频能量值之后连续前Y(Y为正整数)个中有超过90%的音频能量值大于或等于能量阈值。
可选地,确定第二人声起始时间的方式的步骤可以包括:从音频能量值序列中确定首个大于或等于能量阈值的音频能量值,并确定首个大于或等于能量阈值的音频能量值所对应的第二候选时间;若所对应时间处于第二候选时间之后的前N个音频能量值均大于或等于能量阈值,则将第二候选时间确定为第二人声起始时间,其中,N为正整数。示例性地,请参见图7,图7是本申请实施例提供的一种音频能量值序列的示意图,能量阈值为30分贝,由于音频能量值所对应的时间是毫秒,因此离散的音频能量值序列在图7示出的音频能量值序列的分布看着像是连续的。如图7所示,大约在第26.4秒的音频能量值第一次超过了能量阈值,并且之后的一段时间内从26.4秒至27.6秒所对应的音频能量值序列都处于能量阈值之上,符合连续的N次超越能量阈值,因此第26.4秒是第二人声起始时间,并且可以作为最终的人声起始点。本实施例中可以根据第一人声起始时间任意指定计算一个能量的区间范围,最终的定位精度可以达到毫秒级别。
需要注意的是,如果音频能量值序列不能确定出第二人声起始时间,也就是不能再更进一步地确定更精准的人声起始时间,可以选择将第一人声起始时间作为待处理音频的人声起始时间点,或者结合其他条件确定。
可选地,如果目标人声音频为多个,并且在第i个目标人声音频中确定出第一个人声起始时间,在处理第i+1个目标人声音频中确定出第二个人声起始时间时,需要判断该第二个人声起始时间对应的人声音频是否和第i个目标人声音频中的人声部分连续,如果是,说明第二个人声起始时间对应的人声实质上是和前一个音频片段连续的人声,并不是真正意义上的人声起始点,因此需要将第二个人声起始时间进行剔除。反之,则可以将其作为待处理音频的人声起始时间,此时针对一个待处理音频可以确定出多个人声起始时间,这多个人声起始时间可以应用于歌唱对齐或跳过歌曲衔接的中间伴奏等场景中。此外,确定出一个人声起始点之后,若与之相邻的人声音频是没有人声的片段,那么可以对这个没有人声的目标人声音频之后的音频片段进行人声起始点检测,这样可以节省检测时间。
基于上述阐述的实施例,本方案可以实现快速计算音乐人声起始时间点,这也可以用于音乐播放器的跳过前奏功能,提升音乐播放器用户的体验。结合上述步骤详细的说明可以将本实施例的方案归纳为如下内容,包括:输入音乐、分段、前处理、歌唱识别、能量计算这五个步骤,具体流程图可以参见图8给出的示意图。对于每个步骤的简单解释如下:
a)输入音乐:输入视频或者音频文件,抽取音频轨道作为算法输入音乐;
b)分段:将音乐按时间均匀划分G等份(G为正整数),依次送入后续计算流程,直到某个等份得出人声开始时间,则停止;
c)前处理:对b)步骤输入的音乐进行音源分离,剥离其人声轨道进行后续操作;
d)歌唱识别:对c)步骤输入的人声轨道计算各个时刻有人声唱歌的概率,以此完成起始点粗定位,精确到秒;
e)能量计算:在d)步骤获得的起始点粗定位周围计算各个时刻的音频能量值,将能量首次突破某个阈值的时刻作为人声起始点,精确到毫秒。
其中,b)步骤和c)步骤也可以交换,最终的目的都是得到等分的人声音频,利用前奏的时间先验,分段处理,大幅缩短计算时间。此外,在前处理部分引入音源分离技术,剥离人声轨道进入计算环节,可以提高起始点定位精度,使用歌唱识别算法可以准确给出各个时刻有唱歌人声的概率,精度达到秒级别,使用音频能量信息精准定位人声开始时刻,能够使得最终结果的精度达到毫秒级别。
综上所述,本申请实施例至少具有以下优点:
对待处理音频进行分段处理,得到音频片段,在将本方案应用到计算音乐的人声起始时间的场景中,利用前奏的时间先验条件,可以大大地缩短计算时间,提升计算效率。对于音频片段的人声音频依次作为目标人声音频进行处理,在粗定位过程中利用首个超过阈值的人声概率以及其之后一段时间内的人声概率来联合评估,可以保证人声粗定位的准确度,在细定位过程中,利用粗定位时刻左右的一段时间区间内的音频能量值来确定,并且在具体筛选中采用的首个连续超过能量阈值的音频能量值这一预设条件来重新定位人声起始时间,可以让定位精度达到毫秒级别,进一步提升人声起始时间的精确度。
请参见图9,图9是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该数据处理装置90可以包括:确定模块901。
确定模块901,用于根据待处理音频确定目标人声音频,并确定目标人声音频的人声概率序列,人声概率序列包括各个第一单位时间所对应人声音频的人声概率,且各个第一单位时间所对应人声音频的人声概率按照时间先后顺序进行排序;
确定模块901,还用于若根据人声概率序列确定出第一人声起始时间,则根据第一人声起始时间从目标人声音频中确定参考人声音频;
确定模块901,还用于确定参考人声音频的音频能量值序列,音频能量值序列包括各个第二单位时间所对应人声音频的音频能量值,且各个第二单位时间所对应人声音频的音频能量值按照时间先后顺序进行排序;
确定模块901,还用于若根据音频能量值序列确定出第二人声起始时间,则将第二人声起始时间确定为待处理音频的人声起始时间。
在一实施例中,确定模块901,还用于:从人声概率序列中确定首个大于或等于概率阈值的人声概率,并确定首个大于或等于概率阈值的人声概率所对应的第一候选时间;根据第一候选时间确定参考时间区间,根据所对应时间处于参考时间区间内的人声概率确定人声概率均值;若人声概率均值大于或等于概率阈值,则将第一候选时间确定为第一人声起始时间。
在一实施例中,确定模块901,具体用于:将所对应时间处于参考时间区间内的人声概率按照从大到小的顺序进行排序;根据排序后排列在前M位的人声概率确定人声概率均值,其中,M为正整数。
在一实施例中,确定模块901,还用于从音频能量值序列中确定首个大于或等于能量阈值的音频能量值,并确定首个大于或等于能量阈值的音频能量值所对应的第二候选时间;若所对应时间处于第二候选时间之后的前N个音频能量值均大于或等于能量阈值,则将第二候选时间确定为第二人声起始时间,其中,N为正整数。
在一实施例中,确定模块901,具体用于:根据第一人声起始时间确定截取时间区间,截取时间区间的起始时间处于第一人声起始时间之前,截取时间区间的结束时间处于第一人声起始时间之后;将目标人声音频中截取时间区间所对应的人声音频片段确定为参考人声音频。
在一实施例中,确定模块901包括获取单元9011和处理单元9012,其中:
获取单元9011用于获取待处理音频并对待处理音频进行分段处理,得到至少两个音频片段;
处理单元9012用于对至少两个音频片段进行音源分离处理,得到各个音频片段的人声音频,按照时间顺序依次将各个音频片段的人声音频确定为目标人声音频。
在一实施例中,确定模块901包括的处理单元9012还用于:对目标人声音频进行傅里叶变换处理,得到目标人声音频的语谱图;利用音频处理网络对语谱图进行处理,得到目标人声音频的人声概率序列。
可以理解的是,本申请实施例所描述的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
请参见图10,图10是本申请实施例提供的一种计算机设备1000的结构示意图。该计算机设备1000可以包含独立设备(例如服务器、节点、终端等等中的一个或者多个),也可以包含独立设备内部的部件(例如芯片、软件模块或者硬件模块等)。该计算机设备1000可以包括至少一个处理器1001和通信接口1002,进一步可选地,计算机设备1000还可以包括至少一个存储器1003和总线1004。其中,处理器1001、通信接口1002和存储器1003通过总线1004相连。
其中,处理器1001是进行算术运算和/或逻辑运算的模块,具体可以是中央处理器(central processing unit,CPU)、图片处理器(graphics processing unit,GPU)、微处理器(microprocessor unit,MPU)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、复杂可编程逻辑器件(Complex programmable logic device,CPLD)、协处理器(协助中央处理器完成相应处理和应用)、微控制单元(Microcontroller Unit,MCU)等处理模块中的一种或者多种的组合。
通信接口1002可以用于为所述至少一个处理器提供信息输入或者输出。和/或,所述通信接口1002可以用于接收外部发送的数据和/或向外部发送数据,可以为包括诸如以太网电缆等的有线链路接口,也可以是无线链路(Wi-Fi、蓝牙、通用无线传输、以及其他短距无线通信技术等)接口。
存储器1003用于提供存储空间,存储空间中可以存储操作***和计算机程序等数据。存储器1003可以是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable read onlymemory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM)等等中的一种或者多种的组合。
该计算机设备1000中的至少一个处理器1001用于调用至少一个存储器1003中存储的计算机程序,用于执行前述的数据处理方法,例如前述图2、图4所示实施例所描述的数据处理方法。
在一种可能的实施方式中,该计算机设备1000中的处理器1001用于调用至少一个存储器1003中存储的计算机程序,用于执行以下操作:
根据待处理音频确定目标人声音频,并确定目标人声音频的人声概率序列,人声概率序列包括各个第一单位时间所对应人声音频的人声概率,且各个第一单位时间所对应人声音频的人声概率按照时间先后顺序进行排序;若根据人声概率序列确定出第一人声起始时间,则根据第一人声起始时间从目标人声音频中确定参考人声音频;确定参考人声音频的音频能量值序列,音频能量值序列包括各个第二单位时间所对应人声音频的音频能量值,且各个第二单位时间所对应人声音频的音频能量值按照时间先后顺序进行排序;若根据音频能量值序列确定出第二人声起始时间,则将第二人声起始时间确定为待处理音频的人声起始时间。
在一实施例中,处理器1001还用于:从人声概率序列中确定首个大于或等于概率阈值的人声概率,并确定首个大于或等于概率阈值的人声概率所对应的第一候选时间;根据第一候选时间确定参考时间区间,根据所对应时间处于参考时间区间内的人声概率确定人声概率均值;若人声概率均值大于或等于概率阈值,则将第一候选时间确定为第一人声起始时间。
在一实施例中,处理器1001根据所对应时间处于所述参考时间区间内的人声概率确定人声概率均值时,具体用于:将所对应时间处于参考时间区间内的人声概率按照从大到小的顺序进行排序;根据排序后排列在前M位的人声概率确定人声概率均值,其中,M为正整数。
在一实施例中,处理器1001还用于:从音频能量值序列中确定首个大于或等于能量阈值的音频能量值,并确定首个大于或等于能量阈值的音频能量值所对应的第二候选时间;若所对应时间处于第二候选时间之后的前N个音频能量值均大于或等于能量阈值,则将第二候选时间确定为第二人声起始时间,其中,N为正整数。
在一实施例中,处理器1001根据所述第一人声起始时间从所述目标人声音频中确定参考人声音频时,具体用于:根据第一人声起始时间确定截取时间区间,截取时间区间的起始时间处于第一人声起始时间之前,截取时间区间的结束时间处于第一人声起始时间之后;将目标人声音频中截取时间区间所对应的人声音频片段确定为参考人声音频。
在一实施例中,处理器1001根据待处理音频确定目标人声音频时,具体用于:获取待处理音频并对待处理音频进行分段处理,得到至少两个音频片段;对至少两个音频片段进行音源分离处理,得到各个音频片段的人声音频,按照时间顺序依次将各个音频片段的人声音频确定为目标人声音频。
在一实施例中,处理器1001确定所述目标人声音频的人声概率序列时,具体用于:对目标人声音频进行傅里叶变换处理,得到目标人声音频的语谱图;利用音频处理网络对语谱图进行处理,得到目标人声音频的人声概率序列。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2以及图4所对应实施例中对该数据处理方法的描述,也可执行前文图9所对应实施例中对该数据处理装置90的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理方法的计算机设备1000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2和图4所对应实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的数据处理方法。
本申请的一个方面,提供了另一种计算机程序产品,该计算机程序产品包括计算机程序或计算机指令,该计算机程序或计算机指令被处理器执行时实现本申请实施例提供的数据处理方法的步骤。
最后,还需说明的是,本申请的说明书和权利要求书及上述附图中的术语,诸如第一和第二等之类的关系术语是用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (11)

1.一种数据处理方法,其特征在于,所述方法包括:
根据待处理音频确定目标人声音频,并确定所述目标人声音频的人声概率序列,所述人声概率序列包括各个第一单位时间所对应人声音频的人声概率,且各个第一单位时间所对应人声音频的人声概率按照时间先后顺序进行排序;
若根据所述人声概率序列确定出第一人声起始时间,则根据所述第一人声起始时间从所述目标人声音频中确定参考人声音频;
确定所述参考人声音频的音频能量值序列,所述音频能量值序列包括各个第二单位时间所对应人声音频的音频能量值,且各个第二单位时间所对应人声音频的音频能量值按照时间先后顺序进行排序;
若根据所述音频能量值序列确定出第二人声起始时间,则将所述第二人声起始时间确定为所述待处理音频的人声起始时间。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
从所述人声概率序列中确定首个大于或等于概率阈值的人声概率,并确定所述首个大于或等于概率阈值的人声概率所对应的第一候选时间;
根据所述第一候选时间确定参考时间区间,根据所对应时间处于所述参考时间区间内的人声概率确定人声概率均值;
若所述人声概率均值大于或等于所述概率阈值,则将所述第一候选时间确定为所述第一人声起始时间。
3.如权利要求2所述的方法,其特征在于,所述根据所对应时间处于所述参考时间区间内的人声概率确定人声概率均值,包括:
将所对应时间处于所述参考时间区间内的人声概率按照从大到小的顺序进行排序;
根据排序后排列在前M位的人声概率确定人声概率均值,其中,M为正整数。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
从所述音频能量值序列中确定首个大于或等于能量阈值的音频能量值,并确定所述首个大于或等于能量阈值的音频能量值所对应的第二候选时间;
若所对应时间处于所述第二候选时间之后的前N个音频能量值均大于或等于所述能量阈值,则将所述第二候选时间确定为所述第二人声起始时间,其中,N为正整数。
5.如权利要求1所述的方法,其特征在于,所述根据所述第一人声起始时间从所述目标人声音频中确定参考人声音频,包括:
根据所述第一人声起始时间确定截取时间区间,所述截取时间区间的起始时间处于所述第一人声起始时间之前,所述截取时间区间的结束时间处于所述第一人声起始时间之后;
将所述目标人声音频中所述截取时间区间所对应的人声音频片段确定为参考人声音频。
6.如权利要求1所述的方法,其特征在于,所述根据待处理音频确定目标人声音频,包括:
获取待处理音频并对所述待处理音频进行分段处理,得到至少两个音频片段;
对所述至少两个音频片段进行音源分离处理,得到各个音频片段的人声音频,按照时间顺序依次将各个音频片段的人声音频确定为目标人声音频。
7.如权利要求1所述的方法,其特征在于,所述确定所述目标人声音频的人声概率序列,包括:
对所述目标人声音频进行傅里叶变换处理,得到所述目标人声音频的语谱图;
利用音频处理网络对所述语谱图进行处理,得到所述目标人声音频的人声概率序列。
8.一种数据处理装置,其特征在于,包括:
确定模块,用于根据待处理音频确定目标人声音频,并确定所述目标人声音频的人声概率序列,所述人声概率序列包括各个第一单位时间所对应人声音频的人声概率,且各个第一单位时间所对应人声音频的人声概率按照时间先后顺序进行排序;
所述确定模块,还用于若根据所述人声概率序列确定出第一人声起始时间,则根据所述第一人声起始时间从所述目标人声音频中确定参考人声音频;
所述确定模块,还用于确定所述参考人声音频的音频能量值序列,所述音频能量值序列包括各个第二单位时间所对应人声音频的音频能量值,且各个第二单位时间所对应人声音频的音频能量值按照时间先后顺序进行排序;
所述确定模块,还用于若根据所述音频能量值序列确定出第二人声起始时间,则将所述第二人声起始时间确定为所述待处理音频的人声起始时间。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-7任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行权利要求1-7任一项所述的数据处理方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现如权利要求1-7中任一项所述的数据处理方法的步骤。
CN202111022361.2A 2021-09-01 2021-09-01 数据处理方法、装置、设备、存储介质及计算机程序产品 Pending CN114329042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111022361.2A CN114329042A (zh) 2021-09-01 2021-09-01 数据处理方法、装置、设备、存储介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111022361.2A CN114329042A (zh) 2021-09-01 2021-09-01 数据处理方法、装置、设备、存储介质及计算机程序产品

Publications (1)

Publication Number Publication Date
CN114329042A true CN114329042A (zh) 2022-04-12

Family

ID=81045079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111022361.2A Pending CN114329042A (zh) 2021-09-01 2021-09-01 数据处理方法、装置、设备、存储介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN114329042A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115967894A (zh) * 2022-12-15 2023-04-14 广州迅控电子科技有限公司 一种话筒声音处理方法、***、终端设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115967894A (zh) * 2022-12-15 2023-04-14 广州迅控电子科技有限公司 一种话筒声音处理方法、***、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN109473123B (zh) 语音活动检测方法及装置
CN107928673B (zh) 音频信号处理方法、装置、存储介质和计算机设备
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN110534099B (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN110718228B (zh) 语音分离方法、装置、电子设备及计算机可读存储介质
CN108877783B (zh) 确定音频数据的音频类型的方法和装置
CN113177538B (zh) 一种视频循环识别方法、装置、计算机设备及存储介质
CN113314119B (zh) 语音识别智能家居控制方法及装置
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
CN108877779B (zh) 用于检测语音尾点的方法和装置
CN114333865B (zh) 一种模型训练以及音色转换方法、装置、设备及介质
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN107680584B (zh) 用于切分音频的方法和装置
CN113035202A (zh) 一种身份识别方法和装置
CN115050372A (zh) 一种音频片段的聚类方法、装置、电子设备和介质
CN111415653B (zh) 用于识别语音的方法和装置
CN113555007B (zh) 语音拼接点检测方法及存储介质
CN114329042A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN106910494B (zh) 一种音频识别方法和装置
CN111243618B (zh) 用于确定音频中的特定人声片段的方法、装置和电子设备
CN107025902B (zh) 数据处理方法及装置
CN116959464A (zh) 音频生成网络的训练方法、音频生成方法以及装置
CN115641874A (zh) 音频处理方法、设备及存储介质
CN111986657B (zh) 音频识别方法和装置、录音终端及服务器、存储介质
CN111933153B (zh) 一种语音分割点的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination