CN105991102A

CN105991102A - 具有语音增强功能的媒体播放装置

Info

Publication number: CN105991102A
Application number: CN201510071342.7A
Authority: CN
Inventors: 周雅泛; 李程越
Original assignee: TPV Investment Co Ltd
Current assignee: Top Victory Investments Ltd; TPV Investment Co Ltd
Priority date: 2015-02-11
Filing date: 2015-02-11
Publication date: 2016-10-05

Abstract

媒体播放装置，包含：第一信号迭加模块，迭加第一与第二声道信号产生声道迭加信号；第一盲源分离模块，对第一声道信号与声道迭加信号做盲源分离产生带少量背景声音的第一语音信号与带少量语音的第一背景声音信号；第二盲源分离模块，对第二声道信号与声道迭加信号做盲源分离产生带少量背景声音的第二语音信号与带少量语音的第二背景声音信号；第二信号迭加模块，迭加第一与第二语音信号产生语音迭加信号；语音增益调整模块，增益语音迭加信号产生语音增强信号；第三信号迭加模块，迭加第一背景声音信号与语音增强信号产生具语音增强的第一声道输出信号；第四信号迭加模块，迭加第二背景声音信号与语音增强信号产生具语音增强的第二声道输出信号。

Description

具有语音增强功能的媒体播放装置

技术领域

本发明涉及一种媒体播放装置，特别是涉及一种具有语音增强功能的媒体播放装置。

背景技术

媒体播放装置，例如电视机，其播放的节目的音轨（soundtrack）中一般具有人类语音、音乐、环境声响等声源。有时，因为节目中其它声音音量过大，或者只是因为在节目声音制作阶段没做好混音，导致人类语音难以听清楚。为了可以更清楚听到人类语音，电视机提供有各种声音模式，例如新闻模式、戏剧模式等。这些声音模式的实现方式通常是使用固定的低通、高通、带通滤波器或其组合，对一般人类语音所在的频率范围500~3500 Hz的信号进行放大。

然而，上述使用固定滤波器放大语音的技术会遭遇一些问题。第一，由于无法知道原来的语音音量是非常小还是已经很大，不容易决定对信号放大多少，使得语音音量改善有限。第二，在频率范围500~3500 Hz的信号不仅包含人类语音，也包含其它非语音的声音，例如噪声，当没有语音时，反而会放大这个频率范围的噪声。

发明内容

本发明的目的是提供一种具有语音增强功能的媒体播放装置，可以主要针对人类语音进行放大，同时根据其音量大小决定放大多少。

为实现上述目的，本发明提供一种具有语音增强功能的媒体播放装置，其接收带有语音与背景声音的第一声道信号与第二声道信号。媒体播放装置包含第一信号迭加（signal addition）模块、第一盲源分离（blind source separation，BSS）模块、第二盲源分离模块、第二信号迭加模块、语音增益调整（speech gain adjustment）模块、第三信号迭加模块以及第四信号迭加模块。第一信号迭加模块迭加第一声道信号与第二声道信号，以产生声道迭加信号。第一盲源分离模块接收第一声道信号与声道迭加信号进行盲源分离，以产生带有少量背景声音的第一语音信号与带有少量语音的第一背景声音信号。第二盲源分离模块接收第二声道信号与声道迭加信号进行盲源分离，以产生带有少量背景声音的第二语音信号与带有少量语音的第二背景声音信号。第二信号迭加模块迭加第一语音信号与第二语音信号，以产生语音迭加信号。语音增益调整模块调整增益值并据以对语音迭加信号进行增益，以产生语音增强信号。第三信号迭加模块迭加第一背景声音信号与语音增强信号，以产生具有语音增强效果的第一声道输出信号。第四信号迭加模块迭加第二背景声音信号与语音增强信号，以产生具有语音增强效果的第二声道输出信号。

在本发明的一实施例中，第一盲源分离模块或第二盲源分离模块包含第一输入端、第二输入端、第一滤波器、第二滤波器、第一加法器（adder）、第二加法器、第三滤波器、第四滤波器、第一输出端、第二输出端以及调整单元，其中，第一输入端接收第一混音信号，第二输入端接收第二混音信号，第一输出端输出第一解混信号，第二输出端输出第二解混信号。其中，第一输入端耦接第一滤波器的输入端。第二输入端耦接第二滤波器的输入端。第一加法器的两输入端分别耦接第一滤波器与第四滤波器的输出端，第一加法器的输出端耦接第三滤波器的输入端与第一输出端。第二加法器的两输入端分别耦接第二滤波器与第三滤波器的输出端，第二加法器的输出端耦接第四滤波器的输入端与第二输出端。调整单元接收第一解混信号与第二解混信号，并据以使用最小互信息（minimum mutual information，MMI）或最大熵（maximum entropy，ME）算法来调整第三滤波器与第四滤波器的转移函数（transfer functions）。

在本发明的一实施例中，调整单元还调整第一滤波器与第二滤波器的转移函数。

在本发明的一实施例中，第一声道信号与第二声道信号分别为左声道信号与右声道信号。

在本发明的一实施例中，媒体播放装置为电视、音响、随身听、手机、光盘影音播放器或计算机。

上述一个实施例中描述的技术手段可应用于上述另一个实施例中，以得到一个新的实施例，只要这些技术手段不相互矛盾。

本发明因采用第一、第二盲源分离模块将带有语音与背景声音的第一、第二声道信号进行盲源分离，分离出带有少量背景声音的第一、第二语音信号与带有少量语音的第一、第二背景声音信号，然后将第一、第二语音信号进行放大后，再与第一、第二背景声音信号进行迭加，因此可以产生具有语音增强效果的第一、第二声道输出信号。

此外，本发明因采用的第一、第二盲源分离模块可根据其分离出的第一、第二语音信号与第一、第二背景声音信号进行反馈控制，即调整其中的第三与第四滤波器的转移函数，使分离出的第一、第二语音信号带有更加少量的背景声音，且分离出的第一、第二背景声音信号带有更加少量的语音；而且，第一、第二盲源分离模块还可以根据分离出的第一、第二语音信号中语音的音量大小进行反馈控制，即调整其中的第一与第二滤波器的转移函数，然后再配合媒体播放装置后端的语音增益调整模块使分离出的第一、第二语音信号中语音的音量调整至合适的大小，因此可以使媒体播放装置最后输出的第一、第二声道输出信号中语音的音量调整至合适的大小。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为根据本发明一实施例的具有语音增强功能的媒体播放装置的方块图。

图2为根据本发明一实施例的盲源分离模块的方块图。

标记说明：

10 媒体播放装置

11 第一信号迭加模块

12 第一盲源分离模块

13 第二盲源分离模块

14 第二信号迭加模块

15 语音增益调整模块

16 第三信号迭加模块

17 第四信号迭加模块

20 盲源分离模块

201 第一输入端

202 第二输入端

203 第一滤波器

204 第二滤波器

205 第一加法器

206 第二加法器

207 第三滤波器

208 第四滤波器

209 第一输出端

210 第二输出端

211 调整单元

Lin 第一声道信号

Rin 第二声道信号

Min 声道迭加信号

Lbg 第一背景声音信号

Lsp 第一语音信号

Rbg 第二背景声音信号

Rsp 第二语音信号

Msp 语音迭加信号

Msp' 语音增强信号

Lout 第一声道输出信号

Rout 第二声道输出信号

X1 第一混音信号

X2 第二混音信号

U1 第一解混信号

U2 第二解混信号

W11 第一滤波器的转移函数

W22 第二滤波器的转移函数

W21 第三滤波器的转移函数

W12 第四滤波器的转移函数。

具体实施方式

图1为根据本发明一实施例的具有语音增强功能的媒体播放装置的方块图。请参见图1，媒体播放装置10可以为电视、音响、随身听、手机、光盘影音播放器或计算机（例如台式计算机或平板计算机），但并不仅限于此。媒体播放装置10接收第一声道信号Lin与第二声道信号Rin，而且第一声道信号Lin与第二声道信号Rin均带有语音与背景声音，其中，背景声音包含音乐、环境声响、噪声等非语音的声音。第一声道信号Lin与第二声道信号Rin可以分别为左声道信号与右声道信号，但并不仅限于此。

媒体播放装置10包含第一信号迭加模块11、第一盲源分离模块12、第二盲源分离模块13、第二信号迭加模块14、语音增益调整模块15、第三信号迭加模块16以及第四信号迭加模块17。

第一信号迭加模块11迭加第一声道信号Lin与第二声道信号Rin，以产生声道迭加信号Min。

第一盲源分离模块12接收第一声道信号Lin与声道迭加信号Min进行盲源分离，以带有少量背景声音的第一语音信号Lsp与产生带有少量语音的第一背景声音信号Lbg。盲源分离是一种特别的数字信号处理（digital signal processing，DSP）技术，其可以在不知道独立信号特性信息的情况下，从数个具有独立信号的混合信号中将这些独立信号一定程度上分离出来。如最小互信息算法、最大熵算法等不同的盲源分离算法，具有不同的计算量、计算收敛速度与分离效果。因此，第一声道信号Lin与声道迭加信号Min经过第一盲源分离模块12后，只能一定程度上分离出第一语音信号Lsp与第一背景声音信号Lbg，即，第一语音信号Lsp主要包含语音但还会带有少量背景声音，而第一背景声音信号Lbg主要包含背景声音但还会带有少量语音。

第二盲源分离模块13接收第二声道信号Rin与声道迭加信号Min进行盲源分离，以产生带有少量背景声音的第二语音信号Rsp与带有少量语音的第二背景声音信号Rbg。与第一盲源分离模块的情形相同，因为第二声道信号Rin与声道迭加信号Min经过第二盲源分离模块13后，只能一定程度上分离出第二语音信号Rsp与第二背景声音信号Rbg，即，第二语音信号Rsp主要包含语音但还会带有少量背景声音，而第二背景声音信号Rbg主要包含背景声音但还会带有少量语音。

第二信号迭加模块14迭加第一语音信号Lsp与第二语音信号Rsp，以产生语音迭加信号Msp。

语音增益调整模块15调整增益值并据以对语音迭加信号Msp进行增益，以产生语音增强信号Msp'。

第三信号迭加模块16迭加第一背景声音信号Lbg与语音增强信号Msp'，以产生具有语音增强效果的第一声道输出信号Lout，即第一声道输出信号Lout带有的语音的音量相对于背景声音的音量已被放大，因此可以在其它声源中更清楚听到人类语音。

第四信号迭加模块17迭加第二背景声音信号Rbg与语音增强信号Msp'，以产生具有语音增强效果的第二声道输出信号Rout，即第二声道输出信号Rout带有的语音的音量相对于背景声音的音量已被放大，因此可以在其它声源中更清楚听到人类语音。

第一声道输出信号Lout与第二声道输出信号Rout可以分别输出到外部的扬声器（未绘示）进行播放。

本发明因采用第一、第二盲源分离模块12、13将带有语音与背景声音的第一、第二声道信号Lin、Rin进行盲源分离，分离出带有少量背景声音的第一、第二语音信号Lsp、Rsp与带有少量语音的第一、第二背景声音信号Lbg、Rbg，然后将带有少量背景声音的第一、第二语音信号Lsp、Rsp进行放大后，再与带有少量语音的第一、第二背景声音信号Lbg、Rbg进行迭加，因此可以产生具有语音增强效果的第一、第二声道输出信号Lout、Rout。

图2为根据本发明一实施例的盲源分离模块的方块图。请参见图2，盲源分离模块20包含第一输入端201、第二输入端202、第一滤波器203、第二滤波器204、第一加法器205、第二加法器206、第三滤波器207、第四滤波器208、第一输出端209、第二输出端210以及调整单元211。其中，第一输入端201与第二输入端202分别接收第一混音信号X1与第二混音信号X2，而第一输出端209与第二输出端210分别输出第一解混信号U1与第二解混信号U2。

第一输入端201耦接第一滤波器203的输入端。第二输入端202耦接第二滤波器204的输入端。第一加法器205的两输入端分别耦接第一滤波器203与第四滤波器208的输出端，第一加法器205的输出端耦接第三滤波器207的输入端与第一输出端209。第二加法器206的两输入端分别耦接第二滤波器204与第三滤波器207的输出端，第二加法器206的输出端耦接第四滤波器208的输入端与第二输出端210。

调整单元211耦接第一输出端209与第二输出端210，以接收第一解混信号U1与第二解混信号U2，并据以使用最小互信息或最大熵算法来调整第三滤波器207的转移函数W21与第四滤波器208的转移函数W12，和/或调整第一滤波器203的转移函数W11与第二滤波器204的转移函数W22。

在本实施例中，图1所示的第一盲源分离模块12可以使用图2所示的盲源分离模块20，此时盲源分离模块20的第一混音信号X1与第二混音信号X2可以分别是第一声道信号Lin与声道迭加信号Min，而第一解混信号U1与第二解混信号U2可以分别是第一语音信号Lsp与第一背景声音信号Lbg。另外，图1所示的第二盲源分离模块13可以使用图2所示的盲源分离模块20，此时盲源分离模块20的第一混音信号X1与第二混音信号X2可以分别是第二声道信号Rin与声道迭加信号Min，而第一解混信号U1与第二解混信号U2可以分别是第二语音信号Rsp与第二背景声音信号Rbg。

本发明因采用的第一、第二盲源分离模块12、13可根据其分离出的带有少量背景声音的第一、第二语音信号Lsp、Rsp与带有少量语音的第一、第二背景声音信号Lbg、Rbg进行反馈控制，即调整其中的第三滤波器207的转移函数W21与第四滤波器208的转移函数W12，使分离出的第一、第二语音信号Lsp、Rsp带有更加少量的背景声音，且分离出的第一、第二背景声音信号Lbg、Rbg带有更加少量的语音。而且，第一、第二盲源分离模块12、13还可以根据分离出的第一、第二语音信号Lsp、Rsp中语音的音量大小进行反馈控制，即调整其中的第一滤波器203的转移函数W11与第二滤波器204的转移函数W22，然后再配合媒体播放装置10后端的语音增益调整模块15使分离出的第一、第二语音信号Lsp、Rsp中语音的音量调整至合适的大小，因此可以使媒体播放装置10最后输出的第一、第二声道输出信号Lout、Rout中语音的音量调整至合适的大小。

此外，需要特别说明的是，媒体播放装置10包含的第一信号迭加模块11、第一盲源分离模块12、第二盲源分离模块13、第二信号迭加模块14、语音增益调整模块15、第三信号迭加模块16以及第四信号迭加模块17，盲源分离模块20包含的第一滤波器203、第二滤波器204、第一加法器205、第二加法器206、第三滤波器207、第四滤波器208以及调整单元211，这些模块、器件或单元均可以使用硬件或软件方式实现。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.具有语音增强功能的媒体播放装置，接收带有语音与背景声音的第一声道信号与第二声道信号，其特征在于，其包含：

第一信号迭加模块，迭加所述第一声道信号与所述第二声道信号，以产生声道迭加信号；

第一盲源分离模块，接收所述第一声道信号与所述声道迭加信号进行盲源分离，以产生带有少量背景声音的第一语音信号与带有少量语音的第一背景声音信号；

第二盲源分离模块，接收所述第二声道信号与所述声道迭加信号进行盲源分离，以产生带有少量背景声音的第二语音信号与带有少量语音的第二背景声音信号；

第二信号迭加模块，迭加所述第一语音信号与所述第二语音信号，以产生语音迭加信号；

语音增益调整模块，调整增益值并据以对所述语音迭加信号进行增益，以产生语音增强信号；

第三信号迭加模块，迭加所述第一背景声音信号与所述语音增强信号，以产生具有语音增强效果的第一声道输出信号；以及

第四信号迭加模块，迭加所述第二背景声音信号与所述语音增强信号，以产生具有语音增强效果的第二声道输出信号。

2.根据权利要求1所述的具有语音增强功能的媒体播放装置，其中，所述第一盲源分离模块或第二盲源分离模块包含第一输入端、第二输入端、第一滤波器、第二滤波器、第一加法器、第二加法器、第三滤波器、第四滤波器、第一输出端、第二输出端以及调整单元，其中，所述第一输入端接收第一混音信号，所述第二输入端接收第二混音信号，所述第一输出端输出第一解混信号，所述第二输出端输出第二解混信号；其中，

所述第一输入端耦接所述第一滤波器的输入端；

所述第二输入端耦接所述第二滤波器的输入端；

所述第一加法器的两输入端分别耦接所述第一滤波器与所述第四滤波器的输出端，所述第一加法器的输出端耦接所述第三滤波器的输入端与所述第一输出端；

所述第二加法器的两输入端分别耦接所述第二滤波器与所述第三滤波器的输出端，所述第二加法器的输出端耦接所述第四滤波器的输入端与所述第二输出端；

所述调整单元接收所述第一解混信号与所述第二解混信号，并据以使用最小互信息或最大熵算法来调整所述第三滤波器与所述第四滤波器的转移函数。

3.根据权利要求2所述的具有语音增强功能的媒体播放装置，其中，所述调整单元还调整所述第一滤波器与所述第二滤波器的转移函数。

4.根据权利要求1所述的具有语音增强功能的媒体播放装置，其中，所述第一声道信号与所述第二声道信号分别为左声道信号与右声道信号。

5.根据权利要求1所述的具有语音增强功能的媒体播放装置，其中，所述媒体播放装置为电视、音响、随身听、手机、光盘影音播放器或计算机。