CN105869656B - 一种语音信号清晰度的确定方法及装置 - Google Patents

一种语音信号清晰度的确定方法及装置 Download PDF

Info

Publication number
CN105869656B
CN105869656B CN201610387091.8A CN201610387091A CN105869656B CN 105869656 B CN105869656 B CN 105869656B CN 201610387091 A CN201610387091 A CN 201610387091A CN 105869656 B CN105869656 B CN 105869656B
Authority
CN
China
Prior art keywords
voice signal
signal
speech
noise
dynamic range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610387091.8A
Other languages
English (en)
Other versions
CN105869656A (zh
Inventor
陈霏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern University of Science and Technology
Original Assignee
Southern University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern University of Science and Technology filed Critical Southern University of Science and Technology
Priority to CN201610387091.8A priority Critical patent/CN105869656B/zh
Publication of CN105869656A publication Critical patent/CN105869656A/zh
Application granted granted Critical
Publication of CN105869656B publication Critical patent/CN105869656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)

Abstract

本发明实施例公开了一种语音信号清晰度的确定方法及装置。该方法包括:获取带噪声语音信号的语音信号动态范围;基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。本发明实施例通过采用上述技术方案,采用语音信号的动态范围作为特征计算噪声环境下的语音信号清晰度,计算过程不需要使用干净的无噪声语音信号,能够有效地减少计算噪声环境下语音信号清晰度时所需的操作步骤,提高语音信号清晰度的获取速度,减小噪声环境下语音信号清晰度的计算难度,增大语音信号清晰度确定方法的适用范围。

Description

一种语音信号清晰度的确定方法及装置
技术领域
本发明涉及信号处理技术领域,尤其涉及一种语音信号清晰度的确定方法及装置。
背景技术
现实环境中噪声对人们的言语识别存在极大的影响,语言清晰度(SpeechIntelligibility)是衡量噪音环境下语音信号的清晰度的一个重要指标。
语言清晰度是指一个或几个发音人所发出的、经过通信***能被一个或几个听音人所确定的意义不连贯的语言单位百分数。现有的许多语言信号清晰度的计算方法,需要获取受到噪声污染后的带噪声语音信号和干净的、未受到噪声污染的无噪声语音信号,然后对这两个信号在时域/频域做分析,计算出两个信号的时域/频域特征的量化差异。
但是,在现实应用场景中,语音信号往往是受到噪音污染的带噪声信号,并不存在真正干净的、未受到噪声污染的无噪声语音信号,使得现有语言信号清晰度的计算方法存在很大的局限性,大大缩小了语言信号清晰度的使用范围。
发明内容
有鉴于此,本发明实施例提供一种语音信号清晰度的确定方法及装置,以解决现有技术中语言信号清晰度计算方法不具有普遍实用性的技术问题。
第一方面,本发明实施例提供了一种语音信号清晰度的确定方法,包括:
获取带噪声语音信号的语音信号动态范围;
基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。
第二方面,本发明实施例还提供了一种语音信号清晰度的确定装置,包括:
动态范围获取模块,用于获取带噪声语音信号的语音信号动态范围;
语言清晰度确定模块,用于基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。
本发明实施例提供的语音信号清晰度的确定方案,获取带噪声语音信号的语音信号动态范围,根据带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定该带噪声语音信号的语言清晰度。本发明实施例通过采用上述技术方案,采用语音信号的动态范围作为特征计算噪声环境下的语音信号清晰度,计算过程不需要使用干净的无噪声语音信号,能够有效地减少计算噪声环境下语音信号清晰度时所需的操作步骤,提高语音信号清晰度的获取速度,减小噪声环境下语音信号清晰度的计算难度,增大语音信号清晰度确定方法的适用范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一提供的一种语音信号清晰度的确定方法的流程示意图;
图2为本发明实施例二提供的一种语音信号清晰度的确定方法的流程示意图;
图3A为本发明实施例二提供的一种语音信号的信号幅度示意图;
图3B为本发明实施例二提供的一种语音信号的16ms语音信号子区间的能量示意图;
图4为本发明实施例二提供的一种语音信号动态范围与语言清晰度的关系曲线;
图5为本发明实施例三提供的一种语音信号清晰度的确定方法的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
本发明实施例一提供一种语音信号清晰度的确定方法。该确定方法可以由语音信号清晰度的确定装置执行,其中,该装置可由软件和/或硬件实现。图1是本发明实施例一提供的语音信号清晰度的确定方法的流程示意图。如图1所示,该确定方法包括:
S110、获取带噪声语音信号的语音信号动态范围。
在此,带噪声语音信号指的是携带有噪声的语音信号。带噪声语音信号可以通过记录说话人的说话来获取,也可以通过记录电脑或手机等具有语音播放功能的语音播放设备播放的说话声来获取。带噪声语音信号所携带的噪声包括除目标语音信号之外的所有声音,即,除所需要获取的目标语音,其他所有声音都可以称之为噪声,例如,除目标语音之外的其他语音信号、风声、汽车鸣笛声或者呼吸声,等等。带噪声语音信号所携带的噪声可以是单噪声,也可以是多噪声,即,带噪声语音信号可以只携带一个噪声信号,也可以携带多个噪声信号,此处不作限制。
本实施例中,带噪声语音信号的语音信号动态范围可以是带噪声语音信号的任意与其语言清晰度之间具有相关性的物理性的变化量,如,带噪声语音信号的振幅或能量等,此处不作限制。
S120、基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。
示例性的,带噪声语音信号的语音信号动态范围与该带噪声语音信号的语言清晰度之间的数学模型可以是表示二者关系的数学关系式,该数学关系式可以是线性关系式,也可以是非线性关系式,只要能够准确地描述带噪声语音信号的语音信号动态范围与其语言清晰度之间的对应关系即可,一般可以基于经验或实验进行确定。
本发明实施例一提供的语音信号清晰度的确定方法,获取带噪声语音信号的语音信号动态范围,根据带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型计算该带噪声语音信号的语言清晰度。本实施例通过采用上述技术方案,采用语音信号的动态范围作为特征计算噪声环境下的语音信号清晰度,计算过程不需要使用干净的无噪声语音信号,能够有效地减少计算噪声环境下语音信号清晰度时所需的操作步骤,提高语音信号清晰度的获取速度,减小噪声环境下语音信号清晰度的计算难度,增大语音信号清晰度确定方法的适用范围。
实施例二
图2为本发明实施例二提供的一种语音信号清晰度的确定方法的流程示意图,本实施例在上述实施例的基础上进行优化,进一步的,所述获取带噪声语音信号的语音信号动态范围,包括:在噪声环境下,获取一段带噪声语音信号;将所述带噪声语音信号分割为预设时间长度的语音信号子区间,并计算所述语音信号子区间的能量;根据所述语音信号子区间的能量获取所述带噪声语音信号预设时间长度的能量曲线并根据所述能量曲线计算所述带噪声语音信号的语音信号动态范围。
相应的,如图2所示,本实施例的语音信号清晰度的确定方法包括:
S210、在噪声环境下,获取一段带噪声语音信号。
示例性的,可以通过麦克风或录音机等能够将声音信号转换为电信号的设备在噪声环境下直接记录带噪声语音信号,例如,可以直接记录说话人说的一段话等,如图3A所示,其中,横坐标为时间(s),纵坐标为语音信号的信号幅度。
S220、将所述带噪声语音信号分割为预设时间长度的语音信号子区间,并计算所述语音信号子区间的能量。
本实施例中,可以将带噪声语音信号分割为相同时间长度的语音信号子区间,所分割的每个语音信号子区间的预设时间长度可以根据需要灵活设置,例如,可以将带噪声语音信号分割为时间长度为16ms、32ms或64ms的语音信号子区间,此处不作限制。优选的,所述预设时间长度为16ms,即,优选将带噪声语音信号分割为时间长度为16ms的语音信号子区间,以增大后续操作与计算的准确性。
示例性的,带噪声语音信号可以以离散时间信号的形式进行存储与传输,此时,相应的,所分割的语音信号子区间也是由一个个离散时间信号组成的,计算语音信号子区间的能量时,可以首先通过信号幅度与能量之间的关系式计算该语音信号子区间中的每个离散信号的能量值,然后将该语音信号子区间包含的所有离散信号的能量值进行求和以得到该语音信号子区间的总能量值。
优选的,在计算得到语音信号子区间的能量值之后,可以将该能量值转换为以分贝的形式进行表示,以减小后续计算步骤的复杂程序。在将语音信号子区间的能量值转换为以分贝的形式进行表示时,可以在计算完所有语音信号子区间的能量值之后再讲每个能量值转换为以分贝的形式进行表示,也可以在计算完一个或几个语音信号子区间的能量值或者一个或几个离散时间信号的能量值之后即进行将能量值转换为以分贝的形式进行表示的操作,此处不作限制。示例性的,可以采用公式E=10log10(A)将语音信号子区间的能量值转换为以分贝的形式进行表示,其中,E表示转换后以分贝表示的能量值,A表示转换之前的能量值。
S230、根据所述语音信号子区间的能量获取所述带噪声语音信号预设时间长度的能量曲线并根据所述能量曲线计算所述带噪声语音信号的语音信号动态范围。
考虑到带噪声语音信号的物理量与该带噪声语音信号的语言清晰度指数之间相关性的大小以及后续计算的复杂程度,优选的,所述语音信号动态范围为所述带噪声语音信号具有最大能量的语音信号子区间和具有最小能量的语音信号子区间之间的能量差。
在计算得到各语音信号子区间的能量值之后,可以通过MATLAB等软件对其进行拟合以得到带噪声语音信号预设时间长度的能量曲线,然后根据拟合得到的能量曲线确定带噪声语音信号的具有最大能量的语音信号子区间的能量值和具有最小能量的语音信号子区间的能量值,并将得到的最大能量值和最小能量值做差以得到该带噪声语音信号的语音信号动态范围。示例性的,当预设时间长度为16ms时,对于图3A中所示的带噪声语音信号的每个语音信号子区间进行拟合得到的该语音信号16ms语音信号子区间的能量图如图3B所示,其中,横坐标为时间,纵坐标为该带噪声语音信号16ms语音信号子区间的能量。
S240、基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。
示例性的,各不同带噪声信号的语音信号动态范围对应的语言清晰度如表1所示(表1中只列出了部分数值),进一步的,所述带噪声语音信号动态范围与语言清晰度之间的数学模型具体为:其中,x为带噪声语音信号的语音信号动态范围,y为所述带噪声语音信号的语言清晰度(如图4所示)。
表1
本发明实施例二提供的语音信号清晰度的确定方法,在噪声环境下获取一段带噪声语音信号,将该带噪声语音信号分割为预设时间长度的语音信号子区间,计算每个语音信号子区间的能量,根据计算得到的每个语音信号子区间的能量拟合该带噪声语音信号预设时间长度的能量曲线并根据该能量曲线计算该带噪声语音信号的语音信号动态范围,根据带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定该带噪声语音信号的语言清晰度。本实施例通过采用上述技术方案,采用语音信号的动态范围作为特征计算噪声环境下的语音信号清晰度,计算过程不需要使用干净的无噪声语音信号,能够有效地减少计算噪声环境下语音信号清晰度时所需的操作步骤,提高语音信号清晰度的获取速度,减小噪声环境下语音信号清晰度的计算难度,增大语音信号清晰度确定方法的适用范围。
实施例三
图5为本发明实施例三提供的一种语音信号清晰度的确定装置的结构框图,该装置可由软件和/或硬件实现,可通过执行语音信号清晰度的确定方法来确定语音信号的清晰度。如图5所示,该装置包括:
动态范围获取模块510,用于获取带噪声语音信号的语音信号动态范围;
语言清晰度确定模块520,用于基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声信号的语言清晰度。
进一步的,所述语音信号动态范围为所述带噪声语音信号具有最大能量的语音信号子区间和具有最小能量的语音信号子区间之间的能量差。
进一步的,所述动态范围获取模块510包括:带噪声信号获取单元,用于在噪声环境下,获取一段带噪声语音信号;信号能量计算单元,用于将所述带噪声语音信号分割为预设时间长度的语音信号子区间,并计算所述语音信号子区间的能量;动态范围计算单元,用于根据所述语音信号子区间的能量获取所述带噪声语音信号预设时间长度的能量曲线并根据所述能量曲线计算所述带噪声语音信号的语音信号动态范围。
进一步的,所述预设时间长度为16ms。
进一步的,所述带噪声语音信号动态范围与语言清晰度之间的数学模型具体为:其中,x为带噪声语音信号的语音信号动态范围,y为所述带噪声语音信号的语言清晰度。
本发明实施例三提供的语音信号清晰度的确定装置可执行本发明任意实施例所提供的语音信号清晰度的确定方法,具备执行语音信号清晰度的确定方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的语音信号清晰度的确定方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (6)

1.一种语音信号清晰度的确定方法,其特征在于,包括:
获取带噪声语音信号的语音信号动态范围;所述语音信号动态范围为所述带噪声语音信号具有最大能量的语音信号子区间和具有最小能量的语音信号子区间之间的能量差;
基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度;
其中,所述带噪声语音信号动态范围与语言清晰度之间的数学模型具体为:
其中,x为带噪声语音信号的语音信号动态范围,y为所述带噪声语音信号的语言清晰度。
2.根据权利要求1所述的方法,其特征在于,所述获取带噪声语音信号的语音信号动态范围,包括:
在噪声环境下,获取一段带噪声语音信号;
将所述带噪声语音信号分割为预设时间长度的语音信号子区间,并计算所述语音信号子区间的能量;
根据所述语音信号子区间的能量获取所述带噪声语音信号预设时间长度的能量曲线并根据所述能量曲线计算所述带噪声语音信号的语音信号动态范围。
3.根据权利要求2所述的方法,其特征在于,所述预设时间长度为16ms。
4.一种语音信号清晰度的确定装置,其特征在于,包括:
动态范围获取模块,用于获取带噪声语音信号的语音信号动态范围;所述语音信号动态范围为所述带噪声语音信号具有最大能量的语音信号子区间和具有最小能量的语音信号子区间之间的能量差;
语言清晰度确定模块,用于基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声信号的语言清晰度;
其中,所述带噪声语音信号动态范围与语言清晰度之间的数学模型具体为:
其中,x为带噪声语音信号的语音信号动态范围,y为所述带噪声语音信号的语言清晰度。
5.根据权利要求4所述的装置,其特征在于,所述动态范围获取模块包括:
带噪声信号获取单元,用于在噪声环境下,获取一段带噪声语音信号;
信号能量计算单元,用于将所述带噪声语音信号分割为预设时间长度的语音信号子区间,并计算所述语音信号子区间的能量;
动态范围计算单元,用于根据所述语音信号子区间的能量获取所述带噪声语音信号预设时间长度的能量曲线并根据所述能量曲线计算所述带噪声语音信号的语音信号动态范围。
6.根据权利要求5所述的装置,其特征在于,所述预设时间长度为16ms。
CN201610387091.8A 2016-06-01 2016-06-01 一种语音信号清晰度的确定方法及装置 Active CN105869656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610387091.8A CN105869656B (zh) 2016-06-01 2016-06-01 一种语音信号清晰度的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610387091.8A CN105869656B (zh) 2016-06-01 2016-06-01 一种语音信号清晰度的确定方法及装置

Publications (2)

Publication Number Publication Date
CN105869656A CN105869656A (zh) 2016-08-17
CN105869656B true CN105869656B (zh) 2019-12-31

Family

ID=56676643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610387091.8A Active CN105869656B (zh) 2016-06-01 2016-06-01 一种语音信号清晰度的确定方法及装置

Country Status (1)

Country Link
CN (1) CN105869656B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531183A (zh) * 2016-11-17 2017-03-22 中国传媒大学 一种基于传输***声学参量的汉语语音清晰度评测算法
CN106920559B (zh) * 2017-03-02 2020-10-30 奇酷互联网络科技(深圳)有限公司 通话音的优化方法、装置及通话终端
CN112466328B (zh) * 2020-10-29 2023-10-24 北京百度网讯科技有限公司 呼吸音检测方法、装置和电子设备
CN113873399B (zh) * 2021-09-13 2022-05-27 中山大学 一种提升音频***语言清晰度的方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602007007090D1 (de) * 2007-10-11 2010-07-22 Koninkl Kpn Nv Verfahren und System zur Messung der Sprachverständlichkeit eines Tonübertragungssystems
CN102112051B (zh) * 2008-12-22 2013-07-17 松下电器产业株式会社 语音清晰度评价***、其方法
EP2372700A1 (en) * 2010-03-11 2011-10-05 Oticon A/S A speech intelligibility predictor and applications thereof
CN101894560B (zh) * 2010-06-29 2012-08-15 上海大学 一种无参考源的mp3音频清晰度客观评价方法
CN102148033B (zh) * 2011-04-01 2013-11-27 华南理工大学 一种语言传输***清晰度测试方法
CN102510418B (zh) * 2011-10-28 2015-11-25 声科科技(南京)有限公司 噪声环境下的语音可懂度测量方法及装置
US9564145B2 (en) * 2013-07-07 2017-02-07 Dsp Group Ltd. Speech intelligibility detection
CN103578479B (zh) * 2013-09-18 2016-05-25 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
GB201322377D0 (en) * 2013-12-18 2014-02-05 Isis Innovation Method and apparatus for automatic speech recognition

Also Published As

Publication number Publication date
CN105869656A (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
Ma et al. Efficient voice activity detection algorithm using long-term spectral flatness measure
JP4640461B2 (ja) 音量調整装置およびプログラム
CN103270740B (zh) 声音控制装置、声音控制方法以及移动终端装置
CN111149370B (zh) 会议***中的啸叫检测
CN105869656B (zh) 一种语音信号清晰度的确定方法及装置
CN110853664B (zh) 评估语音增强算法性能的方法及装置、电子设备
WO2009145192A1 (ja) 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体
CN105118522B (zh) 噪声检测方法及装置
WO2016184138A1 (zh) 一种调整音频参数的方法、移动终端及计算机存储介质
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
CN103580631A (zh) 自动响度控制
US20230037824A1 (en) Methods for reducing error in environmental noise compensation systems
JP2010021627A (ja) 音量調整装置、音量調整方法および音量調整プログラム
US20240177726A1 (en) Speech enhancement
CN103580632A (zh) 自动响度控制
Morita et al. Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments
US11380312B1 (en) Residual echo suppression for keyword detection
US11551707B2 (en) Speech processing method, information device, and computer program product
JP2013250548A (ja) 処理装置、処理方法、プログラム及び処理システム
CN112151055B (zh) 音频处理方法及装置
US10972834B1 (en) Voice detection using ear-based devices
GB2566756A (en) Temporal and spatial detection of acoustic sources
CN103580630A (zh) 自动响度控制
WO2023287782A1 (en) Data augmentation for speech enhancement

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant