CN108564952A - 语音角色分离的方法和设备 - Google Patents
语音角色分离的方法和设备 Download PDFInfo
- Publication number
- CN108564952A CN108564952A CN201810198543.7A CN201810198543A CN108564952A CN 108564952 A CN108564952 A CN 108564952A CN 201810198543 A CN201810198543 A CN 201810198543A CN 108564952 A CN108564952 A CN 108564952A
- Authority
- CN
- China
- Prior art keywords
- role
- audio
- channel audio
- speaks
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000000926 separation method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 53
- 230000003993 interaction Effects 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 239000012634 fragment Substances 0.000 claims description 95
- 238000011946 reduction process Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 abstract description 6
- 230000008859 change Effects 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G10L21/0202—
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明的目的是提供一种语音角色分离的方法和设备,通过采用多阵列指向性的麦克风,对不同人的声音,采用不同的硬件进行采集,结合算法+硬件的能力,比单纯凭借算法进行角色分离的准确率更高。记者在采访时无需了解技术细节,只需要针对不同的采访对象,摆放好相应录音设备,打开手机等人机交互设备上的App,既可将语音实时/非实时地转成文字,并拿到已经进行精准角色分离的文字结果,为记者的音频素材处理环节节约大量时间和精力。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种语音角色分离的方法和设备。
背景技术
随着社会各行业信息化及自动化程度的不断提升,人们对更加精准的数据的需求越来越高。以采访场景为例,录音是记者采访不可或缺的一个环节,记者们需要对音频内容的进行记录、对音频素材中的内容进行分析,摘取有效的信息,并最后写成一篇稿件,工作繁重。语音识别技术的发展,为该音频素材的处理场景提供了解决方案。
说话人角色分离是采访音频素材处理里面的一个重要步骤。目前,大多数实现角色分离的方案主要是基于说话人的声纹特征,即接收到语音信号后,先基于BIC(英文:Bayesian Information Criterion,中文:贝叶斯信息准则)对语音信号进行说话人转折点检测,将语音信号分割成多个语音片段;然后通过采用GMM(Gaussian Mixture Model-高斯混合模型)和HMM(Hidden Markov Model-隐马尔科夫模型)对每个角色的声音进行建模。从而对说话人的声音片段进行剥离,达到角色分离的目的。
其中,BIC(Bayesian Information Criterion-贝叶斯信息准则)是对模型的拟合效果进行评价的一个指标,BIC值越小,则模型对数据的拟合越好,BIC=-2ln(L)+ln(n)*k。GMM(Gaussian Mixture Model-高斯混合模型)是用高斯概率密度函数精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数形成的模型。HMM(Hidden Markov Model-隐马尔科夫模型)是一种统计模型,用来描述一个含有隐含未知参数的马尔科夫过程
上述解决方案,在理想录音环境下的分离效果较好。但是在采访场景下,由于采访空间的不确定,声音传播受空间影响较大,由于空间反射,衍射,麦克风收到的信号除了直达信号以外,还有多径信号叠加,使得信号被干扰,即为混响。在室内环境中,受房间边界或者障碍物衍射,反射导致声音延续,极大程度的影响语音的可懂度,再加之说话人数的不确定,角色分离的准确率可能会大打折扣。
发明内容
本发明的一个目的是提供一种语音角色分离的方法和设备,能够解决现有的语音角色分离的方案准确率不高的问题。
根据本发明的一个方面,提供了一种语音角色分离的方法,该方法包括:
通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
进一步的,上述方法中,指向不同说话人的拾音头包括如下任一种:
单拾音头但是有多指向模式的麦克风;
手机上的两个以上麦克风;
录音笔上的两个以上麦克风;
两个以上独立设备的麦克风。
进一步的,上述方法中,对经过所述降噪处理处理后的每个声道音频进行消除回音的处理,包括:
对经过所述降噪处理处理后的每个声道音频,采用基于ANC主动噪声对消的方法进行消除回音的处理。
进一步的,上述方法中,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签,包括:
采用TDOA算法估计每个声道音频中的音频片段到达不同麦克风的时延差,根据所述时延差计算距离差,再通过计算得到的距离差和麦克风的空间几何来确定音频片段对应所指向的说话角色。
进一步的,上述方法中,将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签,包括:
人机交互单元接收经过消除回音处理的每个声道音频;
所述人机交互单元将每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
所述人机交互单元将标注对应的说话角色标签的音频片段上传至云端。
进一步的,上述方法中,将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标之后,还包括:
人机交互单元获取标注的说话角色标签后的音频片段和对应的文字;
所述人机交互单元获取用户选择的某一说话角色的对应音频和文字的请求;
所述人机交互单元基于所述请求,获取标注对应说话角色标签的音频片段和对应的文字进行播放。
进一步的,上述方法中,将每个音频片段转换为对应的文字,包括:
通过通过VAD算法,识别并剔除每个音频片段中不包含语音信号的音频帧;
采用ASR计算,将识别并剔除不包含语音信号的音频帧后的音频片段转换为对应的文字。
进一步的,上述方法中,指向不同说话人的拾音头的数量为2~4个,拾音头与说话角色之间的距离小于1米。
根据本发明的另一方面,还提供了一种语音角色分离的设备,其中,该设备包括:
语音信号采集单元,用于通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
增强处理单元,用于根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
降噪处理单元,用于根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
自适应波束形成单元,用于对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
声源定位单元,用于将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
角色分离单元,用于将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
根据本发明的另一方面,还提供了一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
根据本发明的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
与现有技术相比,本发明由于采用多阵列指向性的麦克风,对不同人的声音,采用不同的硬件进行采集,结合算法+硬件的能力,比单纯凭借算法进行角色分离的准确率更高。记者在采访时无需了解技术细节,只需要针对不同的采访对象,摆放好相应录音设备,打开手机等人机交互设备上的App,既可将语音实时/非实时地转成文字,并拿到已经进行精准角色分离的文字结果,为记者的音频素材处理环节节约大量时间和精力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出本发明一实施例的语音角色分离的方法的流程图;
图2示出本发明一实施例的语音角色分离的方法和设备的原理图;
图3示出根据本发明一实施例的自适应噪声对消器的示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如图1和2所示,本发明提供一种语音角色分离的方法,包括:
步骤S1,通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
在此,语音信号采集单元可以通过多向拾音麦克风阵列来获取不同说话人的声音,即通过多个枪型麦克风分别指向不同的说话人,来获取多路不同的音频信号,由于采用多阵列指向性的麦克风,对不同人的声音,采用不同的硬件进行采集,结合算法+硬件的能力,比单纯凭借算法进行角色分离的准确率更高,提升语音角色分离的准确率;
步骤S2,根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
在此,可通过以增强处理单元对如枪型麦克风指向的方向,获取的音频波束进行增益处理;
步骤S3,根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
在此,可以通过一降噪处理单元对各个指向的麦克风的侧面输入的音频信号进行抑制,从而进行降噪处理;
步骤S4,对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
步骤S5,将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
步骤S6,将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
在此,可以通过一角色分离单元根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
通过本发明的方案,采用多个指向性的拾音头(如枪型麦克风)进行录音,这样可以最大程度的获取不同说话人的声音信号,避免噪音干扰。在双人说话场景下,最好是双拾音头进行拾音,效果更佳。记者在采访时无需了解技术细节,只需要针对不同的采访对象,摆放好相应录音设备,既可将语音实时/非实时地转成文字,并拿到已经进行精准角色分离的文字结果,为记者的音频素材处理环节节约大量时间和精力。
本发明的语音角色分离的方法以实施例中,步骤S1中,指向不同说话人的拾音头包括如下任一种:
单拾音头但是有多指向模式的麦克风;
手机上的两个以上麦克风;
录音笔上的两个以上麦克风;
两个以上独立设备的麦克风。
在此,为了区分不同的说话人,还可以支持以下方法来采集语音信号:
a)单拾音头但是有多指向模式的麦克风作为音频输入口,这样,可以将来源于不同指向的麦克风获取的音频通过不同的声道进行传输;
b)采用具有两个以上麦克风的手机作为音频输入源,如三星GALAXY S6;
c)带有两个以上麦克风的录音笔;
d)捕获直播推流:在视频采访场景中,可以通过获取来自不同设备的直播推流,来得到不同说话人的声音;
e)其他的多通道音频捕获和传输装置,如电脑自带的麦克风+独立麦克风,或手机自带的麦克风+独立麦克风。
本发明的语音角色分离的方法以实施例中,步骤S4,对经过所述降噪处理处理后的每个声道音频进行消除回音的处理,包括:
对经过所述降噪处理处理后的每个声道音频,采用基于ANC主动噪声对消的方法进行消除回音的处理。
在此,可以通过一自适应波束形成单元采用ABF(Adaptive Beam Forming-自适应波束)的方案从而降低噪音和回音的干扰。ABF(Adaptive Beam Forming-自适应波束)它使用天线阵将信号能量聚集为一个很窄的波束,提高天线的传播效率和无线链路的可靠性和频率的重复使用率。如图3所示,ABF中的一种GSLC(generalized sidelobe canceller-子阵级广义旁瓣抵消器)是一种基于ANC(Auto-adapted noise cancellation自适应噪声对消器)主动噪声对消的方法,带噪信号同时通过主通道和辅助通道,而辅助通道的阻塞矩阵将语音信号滤除,得到仅包含多通道噪声的参考信号、各通道根据噪声信号得到一个最优信号估计,得到纯净语音信号估计。ANC(Auto-adapted noise cancellation自适应噪声对消器)通过将被噪音污染的声音信号与参考信号进行抵消运算,从而消除带噪信号中的噪声。
本发明的语音角色分离的方法以实施例中,步骤S5中,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签,包括:
采用TDOA算法估计每个声道音频中的音频片段到达不同麦克风的时延差,根据所述时延差计算距离差,再通过计算得到的距离差和麦克风的空间几何来确定音频片段对应所指向的说话角色。
在此,可以通过一声源定位单元采用TDOA(Time Difference of Arrival-到达时间差)算法估计每个声道音频中的音频片段(声源)到达不同麦克风的时延差,并计算距离差,再通过距离差和麦克风的空间几何来确定音频片段的位置(对应所指向的说话角色)。
TDOA(Time Difference of Arrival-到达时间差)是一种利用时间差进行定位的方法。通过测量信号到达监测站的时间,可以确定信号源的距离,利用信号源到各个监测站的距离(以监测站为中心,距离为半径作圆),就能确定信号的位置。
本发明的语音角色分离的方法以实施例中,步骤S5,将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签,包括:
人机交互单元接收经过消除回音处理的每个声道音频;
所述人机交互单元将每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
所述人机交互单元将标注对应的说话角色标签的音频片段上传至云端。
在此,可以通过一音频传输单元将音频信号,通过有线(数据线)或者无线(WiFi、蓝牙、其他无线传输信道等)的方式传输给手机/电脑端/智能硬件等人机交互单元(如手机App和网页应用、智能音箱等),并通过该人机交互单元,将音频信号传输至云端,以通过云端进行后续的文本转换处理。
在音频传输方面,采用USB等有线的方案进行信号传输,避免音频信号的数据丢失(无线传输比较容易受到信道传输的限制,并在传输的过程中容易丢包)。
以录音文件(而非音频流数据)的形式上传音频数据,并转成文字,可以获取较佳的准确率。
本发明的语音角色分离的方法以实施例中,步骤S6,将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标之后,还包括:
人机交互单元获取标注的说话角色标签后的音频片段和对应的文字;
所述人机交互单元获取用户选择的某一说话角色的对应音频和文字的请求;
所述人机交互单元基于所述请求,获取标注对应说话角色标签的音频片段和对应的文字进行播放。
在此,所述人机交互单元可提供相应的应用程序(如手机APP和网页应用)给用户使用,可以具体包括如下功能:
α)录音控制:开启录音、暂停、结束、实时保存录音;
b)用户可以在录音过程中对重要的段落进行标记,并在后续的使用过程中进行查看;
c)对不同的麦克风进行命名:设置采访对象的名称;
d)选择性播放不同说话人的音频:选择任意说话人,即可单独播放对应说话人的音频;
e)选择性展示不同说话人的文字:选择任意说话人,即可展示对应说话人音频转出来的文字;
f)点哪播哪:以句子为维度,用户可以选择不同的字词/段落进行播放;
g)对文本内容进行编辑:对录音之后转出来的文字内容进行编辑、删除、重命名;
h)搜索特定关键词:结合搜索引擎技术,用户可以输入关键词,对自有的录音、文字及说话人进行搜索;
i)下载并导出音频文件:把录音文件进行导出;
j)云端同步:可以在多设备同时使用,并对音频内容进行云端同步,避免数据的丢失。
本发明的语音角色分离的方法以实施例中,步骤S6中,将每个音频片段转换为对应的文字,包括:
通过通过VAD算法,识别并剔除每个音频片段中不包含语音信号的音频帧;
采用ASR计算,将识别并剔除不包含语音信号的音频帧后的音频片段转换为对应的文字。
在此,可以通过一静音消除单元,采用VAD算法(Voice Activity Detection一语音活动监测)识别并剔除每个音频片段中不包含语音信号的音频帧,以减少后续语音转文字的不必要的计算量。VAD(Voice Activity Detection-语音活动监测)目的是从声音信号流里识别和消除长时间的静音期,从而节约语音转写成本的方案。
另外,ASR(Automatic Speech Recognition-语音识别)将人的语音转化成文本的技术,可通过一语音转文字单元,采用ASR(Automatic Speech Recognition-语音识别)技术,将上述每个音频片段转成文字并返回给音频转写程序。本实施例可以支持多种使用场景,包括:实时音频流转文字,和离线录音文件转文字。
本发明的语音角色分离的方法以实施例中,步骤S1中,指向不同说话人的拾音头的数量为2~4个,拾音头与说话角色之间的距离小于1米。
在此,麦克风数量>=2,对于远场的录音场景,双麦克风的结构难度更低、功耗低、使用成本更低、方案更成熟。
或者是多个拾音头进行拾音,如果是单个拾音头,可以通过左右声道分离的方式,分别抽取不同说话人的声音。
麦克风的距离和角度可以由用户进行自定义,用户可以根据采访场景和采访距离,对麦克风的位置进行个性化的处理。
麦克风与说话人之间的距离最好不超过1米,此时可以取得90%以上的准确率。
由于蓝牙传输带宽的限制,若采用蓝牙对音频信号进行传输,需要将原始的pcm格式的信号进行压缩之后再传输,麦克风数量应该小于4。
根据本发明的另一方面,还提供了一种语音角色分离的设备,其中,该设备包括:
语音信号采集单元,用于通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
增强处理单元,用于根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
降噪处理单元,用于根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
自适应波束形成单元,用于对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
声源定位单元,用于将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
角色分离单元,用于将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
根据本发明的另一方面,还提供了一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
根据本发明的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (11)
1.一种语音角色分离的方法,其中,该方法包括:
通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
2.根据权利要求1所述的方法,其中,指向不同说话人的拾音头包括如下任一种:
单拾音头但是有多指向模式的麦克风;
手机上的两个以上麦克风;
录音笔上的两个以上麦克风;
两个以上独立设备的麦克风。
3.根据权利要求1所述的方法,其中,对经过所述降噪处理处理后的每个声道音频进行消除回音的处理,包括:
对经过所述降噪处理处理后的每个声道音频,采用基于ANC主动噪声对消的方法进行消除回音的处理。
4.根据权利要求1所述的方法,其中,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签,包括:
采用TDOA算法估计每个声道音频中的音频片段到达不同麦克风的时延差,根据所述时延差计算距离差,再通过计算得到的距离差和麦克风的空间几何来确定音频片段对应所指向的说话角色。
5.根据权利要求4所述的方法,其中,将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签,包括:
人机交互单元接收经过消除回音处理的每个声道音频;
所述人机交互单元将每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
所述人机交互单元将标注对应的说话角色标签的音频片段上传至云端。
6.根据权利要求5所述的方法,其中,将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标之后,还包括:
人机交互单元获取标注的说话角色标签后的音频片段和对应的文字;
所述人机交互单元获取用户选择的某一说话角色的对应音频和文字的请求;
所述人机交互单元基于所述请求,获取标注对应说话角色标签的音频片段和对应的文字进行播放。
7.根据权利要求1所述的方法,其中,将每个音频片段转换为对应的文字,包括:
通过通过VAD算法,识别并剔除每个音频片段中不包含语音信号的音频帧;
采用ASR计算,将识别并剔除不包含语音信号的音频帧后的音频片段转换为对应的文字。
8.根据权利要求1所述的方法,其中,指向不同说话人的拾音头的数量为2~4个,拾音头与说话角色之间的距离小于1米。
9.一种语音角色分离的设备,其中,该设备包括:
语音信号采集单元,用于通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
增强处理单元,用于根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
降噪处理单元,用于根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
自适应波束形成单元,用于对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
声源定位单元,用于将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
角色分离单元,用于将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
10.一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
11.一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
通过指向不同说话人的拾音头,采集指向不同说话角色对应的声道音频;
根据每个声道音频中对应所指向的说话角色,对每个声道音频进行增益处理;
根据每个声道音频中对应所指向的说话角色之外的侧面音频,对经过所述增益处理后的每个声道音频进行降噪处理;
对经过所述降噪处理处理后的每个声道音频进行消除回音的处理;
将经过消除回音处理的每个声道音频切分为音频片段,根据每个声道音频中对应所指向的说话角色,对每个音频片段标注对应的说话角色标签;
将每个音频片段转换为对应的文字,根据每个音频片段标注的说话角色标签,为对应的文字标注所述说话角色标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810198543.7A CN108564952B (zh) | 2018-03-12 | 2018-03-12 | 语音角色分离的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810198543.7A CN108564952B (zh) | 2018-03-12 | 2018-03-12 | 语音角色分离的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108564952A true CN108564952A (zh) | 2018-09-21 |
CN108564952B CN108564952B (zh) | 2019-06-07 |
Family
ID=63531600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810198543.7A Active CN108564952B (zh) | 2018-03-12 | 2018-03-12 | 语音角色分离的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108564952B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109709518A (zh) * | 2018-12-25 | 2019-05-03 | 北京猎户星空科技有限公司 | 声源定位方法、装置、智能设备及存储介质 |
CN110189764A (zh) * | 2019-05-29 | 2019-08-30 | 深圳壹秘科技有限公司 | 展示分离角色的***、方法和录音设备 |
CN110459239A (zh) * | 2019-03-19 | 2019-11-15 | 深圳壹秘科技有限公司 | 基于声音数据的角色分析方法、装置和计算机可读存储介质 |
CN110473566A (zh) * | 2019-07-25 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN110648665A (zh) * | 2019-09-09 | 2020-01-03 | 北京左医科技有限公司 | 一种会话过程记录***及方法 |
CN110853639A (zh) * | 2019-10-23 | 2020-02-28 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
CN111128132A (zh) * | 2019-12-19 | 2020-05-08 | 秒针信息技术有限公司 | 语音分离方法和装置及***、存储介质 |
CN111243595A (zh) * | 2019-12-31 | 2020-06-05 | 京东数字科技控股有限公司 | 信息处理方法和装置 |
CN111883168A (zh) * | 2020-08-04 | 2020-11-03 | 上海明略人工智能(集团)有限公司 | 一种语音处理方法及装置 |
CN111883135A (zh) * | 2020-07-28 | 2020-11-03 | 北京声智科技有限公司 | 语音转写方法、装置和电子设备 |
CN112151041A (zh) * | 2019-06-26 | 2020-12-29 | 北京小米移动软件有限公司 | 基于录音机程序的录音方法、装置、设备及存储介质 |
CN112530411A (zh) * | 2020-12-15 | 2021-03-19 | 北京快鱼电子股份公司 | 一种实时分角色转录方法、设备和*** |
CN113808592A (zh) * | 2021-08-17 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 通话录音的转写方法及装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101855867A (zh) * | 2007-11-08 | 2010-10-06 | 雅马哈株式会社 | 话音通信设备 |
CN102074230A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 语音识别装置、语音识别方法和程序 |
CN102610237A (zh) * | 2012-03-21 | 2012-07-25 | 山东大学 | 两通道卷积混合语音信号盲分离算法的dsp实现*** |
CN106683661A (zh) * | 2015-11-05 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN107464564A (zh) * | 2017-08-21 | 2017-12-12 | 腾讯科技(深圳)有限公司 | 语音交互方法、装置及设备 |
CN107749313A (zh) * | 2017-11-23 | 2018-03-02 | 郑州大学第附属医院 | 一种自动转写与生成远程医疗会诊记录的方法 |
-
2018
- 2018-03-12 CN CN201810198543.7A patent/CN108564952B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101855867A (zh) * | 2007-11-08 | 2010-10-06 | 雅马哈株式会社 | 话音通信设备 |
CN102074230A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 语音识别装置、语音识别方法和程序 |
CN102610237A (zh) * | 2012-03-21 | 2012-07-25 | 山东大学 | 两通道卷积混合语音信号盲分离算法的dsp实现*** |
CN106683661A (zh) * | 2015-11-05 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN107464564A (zh) * | 2017-08-21 | 2017-12-12 | 腾讯科技(深圳)有限公司 | 语音交互方法、装置及设备 |
CN107749313A (zh) * | 2017-11-23 | 2018-03-02 | 郑州大学第附属医院 | 一种自动转写与生成远程医疗会诊记录的方法 |
Non-Patent Citations (5)
Title |
---|
任济生等: "《一种基于小波变换的独立语音量分离方法》", 《电子器件》 * |
刘伯权等: "《采用非负矩阵分解的语音盲分离》", 《计算机工程与设计》 * |
吴正茂: "《自适应滤波器及其应用研究》", 《南昌水专学报》 * |
杨海滨等: "《基于模型的单通道语音分离综述》", 《计算机应用研究》 * |
杨红等: "《自适应滤波器在噪声对消中的作用》", 《长江工程职业技术学院院报》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109709518A (zh) * | 2018-12-25 | 2019-05-03 | 北京猎户星空科技有限公司 | 声源定位方法、装置、智能设备及存储介质 |
CN110459239A (zh) * | 2019-03-19 | 2019-11-15 | 深圳壹秘科技有限公司 | 基于声音数据的角色分析方法、装置和计算机可读存储介质 |
CN110189764A (zh) * | 2019-05-29 | 2019-08-30 | 深圳壹秘科技有限公司 | 展示分离角色的***、方法和录音设备 |
CN110189764B (zh) * | 2019-05-29 | 2021-07-06 | 深圳壹秘科技有限公司 | 展示分离角色的***、方法和录音设备 |
CN112151041A (zh) * | 2019-06-26 | 2020-12-29 | 北京小米移动软件有限公司 | 基于录音机程序的录音方法、装置、设备及存储介质 |
CN112151041B (zh) * | 2019-06-26 | 2024-03-29 | 北京小米移动软件有限公司 | 基于录音机程序的录音方法、装置、设备及存储介质 |
CN110473566A (zh) * | 2019-07-25 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN110648665A (zh) * | 2019-09-09 | 2020-01-03 | 北京左医科技有限公司 | 一种会话过程记录***及方法 |
CN110853639B (zh) * | 2019-10-23 | 2023-09-01 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
CN110853639A (zh) * | 2019-10-23 | 2020-02-28 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
CN111128132A (zh) * | 2019-12-19 | 2020-05-08 | 秒针信息技术有限公司 | 语音分离方法和装置及***、存储介质 |
CN111243595A (zh) * | 2019-12-31 | 2020-06-05 | 京东数字科技控股有限公司 | 信息处理方法和装置 |
CN111883135A (zh) * | 2020-07-28 | 2020-11-03 | 北京声智科技有限公司 | 语音转写方法、装置和电子设备 |
CN111883168A (zh) * | 2020-08-04 | 2020-11-03 | 上海明略人工智能(集团)有限公司 | 一种语音处理方法及装置 |
CN111883168B (zh) * | 2020-08-04 | 2023-12-22 | 上海明略人工智能(集团)有限公司 | 一种语音处理方法及装置 |
CN112530411A (zh) * | 2020-12-15 | 2021-03-19 | 北京快鱼电子股份公司 | 一种实时分角色转录方法、设备和*** |
CN113808592A (zh) * | 2021-08-17 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 通话录音的转写方法及装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108564952B (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564952B (zh) | 语音角色分离的方法和设备 | |
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US11710478B2 (en) | Pre-wakeword speech processing | |
CN110556103B (zh) | 音频信号处理方法、装置、***、设备和存储介质 | |
US9697826B2 (en) | Processing multi-channel audio waveforms | |
US10847171B2 (en) | Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR) | |
KR101337695B1 (ko) | 강력한 노이즈 저감을 위한 마이크로폰 어레이 서브세트 선택 | |
CN109074816B (zh) | 远场自动语音识别预处理 | |
Sun et al. | Speaker diarization system for RT07 and RT09 meeting room audio | |
US20080312918A1 (en) | Voice performance evaluation system and method for long-distance voice recognition | |
US10283115B2 (en) | Voice processing device, voice processing method, and voice processing program | |
US10650840B1 (en) | Echo latency estimation | |
KR20210137146A (ko) | 큐의 클러스터링을 사용한 음성 증강 | |
Kechichian et al. | Model-based speech enhancement using a bone-conducted signal | |
CN115376534A (zh) | 一种麦克风阵列音频的处理方法及拾音胸牌 | |
Parada et al. | Robust statistical processing of TDOA estimates for distant speaker diarization | |
CN115019826A (zh) | 音频信号处理方法、设备、***及存储介质 | |
Wang et al. | Denoising autoencoder and environment adaptation for distant-talking speech recognition with asynchronous speech recording | |
CN111596261A (zh) | 一种声源定位方法及装置 | |
Sun et al. | Frame selection of interview channel for NIST speaker recognition evaluation | |
Lee et al. | Space-time voice activity detection | |
US12002444B1 (en) | Coordinated multi-device noise cancellation | |
CN109994121A (zh) | 消除音频串扰的***、方法和计算机存储介质 | |
Wang et al. | Robust distant speech recognition based on position dependent CMN using a novel multiple microphone processing technique. | |
Babić et al. | An Analysis of Speech Emotion Recognition Based on Hybrid DNN-HMM Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |