CN102388416B - 信号处理装置及信号处理方法 - Google Patents

信号处理装置及信号处理方法 Download PDF

Info

Publication number
CN102388416B
CN102388416B CN201180001707.9A CN201180001707A CN102388416B CN 102388416 B CN102388416 B CN 102388416B CN 201180001707 A CN201180001707 A CN 201180001707A CN 102388416 B CN102388416 B CN 102388416B
Authority
CN
China
Prior art keywords
speech
dialogue
overlapping
persistence length
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180001707.9A
Other languages
English (en)
Other versions
CN102388416A (zh
Inventor
山田麻纪
远藤充
水岛考一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN102388416A publication Critical patent/CN102388416A/zh
Application granted granted Critical
Publication of CN102388416B publication Critical patent/CN102388416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明提供了即使在日常的环境下也能准确地检测对话的成立的信号处理装置及信号处理方法。在信号处理装置(100)中,激励分离单元(130)将混入了多个激励的混合音信号分离为各个激励。语音检测单元(140)对分离出的多个激励信号的各个激励信号进行语音检测,判断多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息。识别参数提取单元(150)基于多个激励信号或语音区间信息,提取表示日常对话特征量的识别参数。对话成立度计算单元(160)基于提取出的所述识别参数,计算并输出对话成立度。对话对方判定单元(170)使用对话成立度,判定哪个激励是对话对方。

Description

信号处理装置及信号处理方法
技术领域
本发明涉及在周围存在别人的声音或噪音的环境下提取正在对话的组的信号处理装置及信号处理方法。
背景技术
作为现有的提取正在对话的组的信号处理装置,存在如下装置:根据基于有音/无音评价的语音信号的时间序列数据间的相关关系,判断对话的成立度,提取有效语音(参照专利文献1)。
在专利文献1记载的信号处理装置中,利用成立状态下的对话中两个激励间交替出现有音的现象,对分离出的激励信号进行有音/无音评价,利用两个激励间的有音/无音的组合,计算对话成立度。图1表示专利文献1记载的对话成立度计算方法的思路。如果在对象语音信号及受话信号中的一方为有音、另一方为无音,则对于对话成立度进行加分,如果都是有音或都是无音,则进行减分。而且,将该对话成立度大的组合的激励之间设为对话成立。
现有技术文献
专利文献
专利文献1:日本特开2004-133403号公报
专利文献2:日本特开2002-6874号公报
专利文献3:日本特开2004-243023号公报
专利文献4:日本特开平1-93298号公报
非专利文献
「音声処理と顔画像処理を統合した対話映像からの笑いの認識(Smileand Laughter Recognition using Speech Processing and Face Recognition fromConversation Video)」伊藤彰規則他、東北大、2005-NL-167,2005-SLP-56,2005/5/26
发明内容
发明要解决的问题
但是,在日常的非正式对话中,进行对话的说话人的发言不会在时间上清晰地交替显现。这里所谓的日常的非正式对话是指,不是按照会议那样的形式的对话,而是参与者自由发言的杂谈那样的对话。并且,关于这种日常的对话,存在越是非正式的对话,发言的重叠(串扰)越增多的倾向。因此,在日常对话中,有音的时间上重叠增多。所以,在仅通过有音/无音的组合来求出对话成立度的现有技术中,很难准确地区分对话对方和非对话对方。
另外,在日常的非正式对话中,伴随有笑声而进行交谈的情况较多。笑是有音的,在现有技术那样根据能量进行有音判定、仅通过有音/无音的组合求出对话成立度的方法中,在同时笑时,对话成立度降低,很难准确地区分对话对方和非对话对方。
另外,在现有技术中,如果一方的说话人是有音、另一方的说话人是无音,则对于对话成立度进行加分,因此在说话人的声音一方地一直存在的情况下,也会视为对话成立。在会议等进行对话的场合下,在找到对话对方时,使用现有的方法即可。但是,在像助听器那样由用户始终随身佩带着可佩带式麦克风的状况下,用户的自言自语、并非与自己说话的别人的声音一直输入到麦克风的情况也较多,缺乏实用性。
这样,在实际的日常环境下,在像上述现有方法那样仅利用有音/无音的组合求出对话成立度的方法中,具有难以准确地检测对话的成立的问题,缺乏实用性。
本发明的目的在于,提供即使在日常的环境下也能准确地检测对话的成立的信号处理装置及信号处理方法。
解决问题的方案
本发明信号处理装置所采用的结构包括:分离单元,将混入了多个激励的混合音信号分离为各个激励;语音检测单元,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;使用所述语音区间信息来计算并分析发言重叠持续长度的发言重叠持续长度提取单元和计算并分析沉默持续长度的沉默持续长度提取单元中的至少一个单元;对话成立度计算单元,基于根据所述发言重叠持续长度得到的持续时间短的发言重叠的出现比例或根据所述沉默持续长度得到的持续时间短的沉默的出现比例,计算表示对话成立的程度的对话成立度;以及对话判断单元,基于所述对话成立度来判断对话对方。
根据该结构,即使在日常的环境下也能准确地检测对话的成立。例如,通过利用在对方发言中随声附和、在对方未完全说完时就开始发言、产生短暂的沉默等日常对话特征,即使在非正式的日常对话中,也能准确地判定对话对方。
本发明的信号处理装置采用的结构为,在上述信号处理装置中,具备对于所述分离出的多个激励信号的各个激励信号进行笑声检测并提取笑声区间信息作为识别参数的笑声检测单元,以替代所述发言重叠持续长度提取单元或所述沉默持续长度提取单元,所述对话成立度计算单元对于所述多个激励信号的组合,使用所述语音区间信息及所述笑声区间信息计算所述对话成立度。
根据该结构,通过检测笑声、对着眼于笑声的重叠的对话成立度进行评价,由此即使在非正式的日常对话中,也能准确地检测对话的成立的情况。
本发明的信号处理装置采用的结构为,在上述信号处理装置中,对于所述多个激励信号的组合提取发言比率信息作为识别参数的发言比率计算单元,以替代所述发言重叠持续长度提取单元或所述沉默持续长度提取单元,所述对话成立度计算单元使用所述语音区间信息及所述发言比率信息,计算所述对话成立度。
根据该结构,在自己与对方的发言区间比极端失衡的情况下,通过使对话成立度变低,信号处理装置能够避免误动作。例如,在像助听器那样日常佩带的设备中,不会因佩带人自己的自言自语、佩带人自己未对话时的别人的声音等而使信号处理装置误动作。
本发明的信号处理方法包括:分离步骤,将混入了多个激励的混合音信号分离为各个激励;语音检测步骤,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;对于所述多个激励信号的组合,使用所述语音区间信息来计算并分析发言重叠持续长度的步骤和计算并分析沉默持续长度的步骤中的至少一个步骤;计算步骤,基于根据所述发言重叠持续长度得到的持续时间短的发言重叠的出现比例或根据所述沉默持续长度得到的持续时间短的沉默的出现比例,计算表示对话成立的程度的对话成立度;以及对话判断步骤,基于所述对话成立度来判断对话对方。
根据该方法,即使在日常的环境下也能准确地检测对话的成立。
本发明的另外的信号处理装置采用的结构包括:分离单元,将混入了多个激励的混合音信号分离为各个激励;语音检测单元,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;提取单元,基于所述多个激励信号或所述语音区间信息,提取表示日常对话的特征量的识别参数;对话成立度计算单元,基于提取出的所述识别参数,计算表示对话成立的程度的对话成立度;以及对话判断单元,基于所述对话成立度来判断对话对方,所述提取单元包括:笑声检测单元,对所述分离出的多个激励信号的各个激励信号进行笑声检测,提取笑声区间信息;对于所述多个激励信号的组合,使用所述语音区间信息及所述笑声区间信息来计算并分析用于表示发言重叠的连续区间的长度的发言重叠持续长度的发言重叠持续长度分析单元和计算并分析用于表示沉默的连续区间的长度的沉默持续长度的沉默持续长度分析单元中的至少一个单元;以及发言比率计算单元,对于所述多个激励信号的组合,提取发言比率信息,提取根据所述发言重叠持续长度得到的持续时间短的发言重叠的出现比例、根据所述沉默持续长度得到的持续时间短的沉默的出现比例、所述笑声区间信息、或所述发言比率信息作为所述识别参数。
本发明的另外的信号处理装置采用的结构包括:麦克风阵列,配置有多个麦克风;A/D转换单元,将从所述麦克风阵列输入了的模拟区域的混合音信号转换成数字区域的信号;如上述那样的信号处理装置,将数字区域的所述混合音信号作为输入;以及输出音控制单元,根据所述对话成立度,对数字区域的所述混合音信号进行加工并输出。
本发明的助听器采用的结构包括:麦克风阵列,配置有多个麦克风;A/D转换单元,将从所述麦克风阵列输入了的模拟区域的混合音信号转换成数字区域的信号;分离单元,将所述转换后的数字区域的所述混合音信号分离为各个激励;语音检测单元,对所述分离出的多个激励信号的各个激励信号进行语音检测,判定所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;对于所述多个激励信号的组合,使用所述语音区间信息计算并分析发言重叠持续长度的发言重叠持续长度提取单元和计算并分析沉默持续长度的沉默持续长度提取单元中的至少一个单元;对话成立度计算单元,基于根据所述发言重叠持续长度得到的持续时间短的发言重叠的出现比例或根据所述沉默持续长度得到的持续时间短的沉默的出现比例,计算表示对话成立的程度的对话成立度;对话判断单元,基于所述对话成立度来判断对话对方;以及输出音控制单元,根据所述对话对方,对数字区域的所述混合音信号进行加工并输出。
发明的效果
根据本发明,即使在日常的环境下也能准确地检测对话的成立,因此能够容易听到地调整或记录对话成立的语音。
附图说明
图1是表示专利文献1记载的对话成立程度计算方法的思路的图。
图2是表示日常对话数据的发言重叠持续长度的分布的图。
图3是表示日常对话数据的沉默持续长度的分布的图。
图4是表示本发明的实施方式1的信号处理装置的主要部分的结构的方框图。
图5是表示一例将本发明应用于主体与耳机分离了的方式的遥控型助听器的图。
图6是表示实际使用遥控型助听器时的人的位置关系的例子的图。
图7是表示实施方式1的助听器的动作的流程图。
图8是用于说明发言重叠分析值Pc的求法的图。
图9是表示实施方式1的基于模拟试验的对话对方检测率的图。
图10是表示对于对话对方的笑声/发言/无音的重叠持续长度合计的图。
图11是表示对于非对话对方的笑声/发言/无音的重叠持续长度合计的图。
图12是表示计算作为对话对方的比例所得的结果的图。
图13是表示本发明的实施方式2的信号处理装置的主要部分的结构的方框图。
图14是表示实施方式2的助听器的动作的流程图。
图15是用于说明基于发言/笑声/无音的组合的对话成立度计算方法的图。
图16是表示某一组的对话的每个时间窗口长度的发言区间比Rb的推移的例子的图。
图17是表示本发明的实施方式3的信号处理装置的主要部分的结构的方框图。
图18是表示实施方式3的助听器的动作的流程图。
图19是表示本发明的实施方式4的信号处理装置的主要部分的结构的方框图。
图20是表示实施方式4的助听器的动作的流程图。
标号说明
100、300、400、500 信号处理装置
110、220 麦克风阵列
120、230 A/D转换单元
130 激励分离单元
140 语音检测单元
150、310、410、510 识别参数提取单元
151、511 发言重叠持续长度分析单元
152、512 沉默持续长度分析单元
160、320、420、520 对话成立度计算单元
170 对话对方判定单元
180 输出音控制单元
200 助听器
210 助听器主体
240 CPU
250 存储器
260 耳机
311 笑声检测单元
411、513 发言比率计算单元
具体实施方式
以下,参照附图详细地说明本发明的实施方式。
(实施方式1)
在本实施方式中,着眼于发言的重叠或沉默的持续长度,计算对话成立度。在说明本实施方式的具体的结构及动作之前,首先,说明本发明人着眼于发言的重叠或沉默的持续长度的情况。
在日常的非正式对话中,进行对话的说话人的发言不会在时间上清晰地交替显现。存在越是非正式的对话,发言的重叠(串扰)越增多的倾向。因此,在日常对话中,由于有音的时间重叠增多,所以在仅通过有音/无音的组合求出对话成立度的现有技术中,具有很难准确地区分对话对方和非对话对方的问题。本实施方式解决上述问题。
在日常对话中频繁出现以下情况:在一方的说话人说完之前另一方的说话人就开始说话、或者在一方的说话人的说话过程中另一方的说话人随声附和。因此,本发明人着眼于这种发言的重叠持续长度。
首先,本发明人实际上分别拾取了9组的10分钟左右的日常对话的声音,并对于该数据,分析了对话对方的发言重叠、非对话对方的发言重叠的持续长度。
图2是分别对于对话对方、非对话对方表示发言重叠的一次连续的区间的长度(持续长度)的分布的曲线图。在图2中,横轴表示一次的发言重叠连续的区间的长度,纵轴表示频度。
作为其结果可知:对于进行对话的对方,一次发言重叠连续的区间的长度往往较短,对于非对话对方,一次的发言重叠连续的区间的长度往往较长。因此,在本实施方式中,导入这样的参数:该参数不是单纯地着眼于发言重叠的多少,而是着眼于发言重叠的一次连续的区间的长度(持续长度)。
另外,本发明人将双方的说话人沉默的状态定义为沉默,对于沉默的持续长度,也同样地进行了分析。
图3是分别对于对话对方、非对话对方表示沉默的一次连续的区间的长度(持续长度)的分布的曲线图。在图3中,横轴表示一次的沉默连续的区间的长度,纵轴表示频度。
作为结果可知:沉默与发言重叠同样,与非对话对方相比,对话对方的沉默的持续长度往往较短。因此,在本实施方式中,与发言重叠同样地导入着眼于沉默一次连续的区间的长度(持续长度)的参数。
以下说明本实施方式的信号处理装置的内部结构。
图4是表示本实施方式的信号处理装置100的主要部分的结构的方框图。
麦克风阵列110是配置有多个麦克风的拾音装置。
A/D(Analog to Digital,模数)转换单元120将各个麦克风拾取到的音信号转换成数字信号。
激励分离单元130利用到达各麦克风的音信号的到达时间之差进行信号处理,由此将混入了多个激励的混合音信号分离为各个激励。
语音检测单元140判定由激励分离单元130分离的音信号是否为语音,对每个激励,生成表示语音/非语音的检测结果的语音区间信息。关于语音检测单元140中的语音检测方法,在后面进行叙述。
识别参数提取单元150提取识别参数,该识别参数在判定(识别)对话对方而计算对话成立度时使用。识别参数的详细情况在后面所述。在本实施方式中,识别参数提取单元150具有发言重叠持续长度分析单元151及沉默持续长度分析单元152。
发言重叠持续长度分析单元151利用表示由语音检测单元140判定出的每个激励的语音/非语音的检测结果的语音区间信息,求出并分析激励间的发言重叠区间的持续长度(以下称为“发言重叠持续长度分析值”)。
沉默持续长度分析单元152使用表示由语音检测单元140判定出的每个激励的语音/非语音的检测结果的语音区间信息,求出并分析激励间的沉默区间的持续长度(以下称为“沉默持续长度分析值”)。
这样,识别参数提取单元150提取发言重叠持续长度分析值及沉默持续长度分析值,作为表示日常对话特征量的识别参数。并且,关于识别参数提取单元150中的发言重叠分析值及沉默分析值的计算方法,在后面进行叙述。
对话成立度计算单元160根据由发言重叠持续长度分析单元151计算的发言重叠持续长度分析值、由沉默持续长度分析单元152计算的沉默持续长度分析值,计算对话成立度。关于对话成立度计算单元160中的对话成立度计算方法,在后面进行叙述。
对话对方判定单元170使用在对话成立度计算单元160中计算的对话成立度,判定哪个激励是对话对方。
输出音控制单元180对于由激励分离单元130分离出的音信号,控制输出音后将其输出,以使在对话对方判定单元170中判定的对话对方的声音容易听到。具体而言,输出音控制单元180对于由激励分离单元130分离出的音信号,进行抑制非对话对方的激励方向的指向性控制。
图5是将本实施方式的信号处理装置100应用于助听器主体与耳机分离的方式的遥控型助听器(以下简称为“助听器”)200中的例子。
助听器200具有助听器主体210及耳机260。
助听器主体210包括:麦克风阵列220、A/D转换单元230、CPU240、及存储器250。在麦克风阵列220中,8个麦克风配置成圆状。A/D转换单元230将由麦克风阵列220拾取到的音信号转换成数字信号。CPU240进行助听器主体210的控制及运算。存储器250存储用于运算的数据。
输出音信号的耳机260与助听器主体210连接。CPU240使用存储器250,除了进行适合于用户听觉的音信号放大等通常的助听处理以外,还进行上述激励分离、语音检测、发言重叠持续长度分析、沉默持续长度分析、对话成立度计算、对话对方判定、输出音控制。
通常,助听器主体210放置在桌子上,对助听器主体210内部的麦克风阵列220拾取的声音进行加工,使佩带耳机260的用户听到。在本实施方式中,说明助听器主体210与耳机260间的连接为有线的情况,但是,也可以通过无线通信来连接助听器主体210与耳机260。
接着,说明如上构成的助听器200的动作。
图6是表示实际使用图5的助听器200时的人的位置关系的例子的图。在图6中,助听器200的用户佩带耳机260。助听器主体210放置在桌子上,用户与位于正面的对话对方进行对话。并且,假设助听器主体210放置在桌子上,以使助听器200的用户面对主体前方(图5的▲方向)。在图6的例子中,从助听器200的用户来看,在右侧,无关的说话人正在进行对话,成为干扰音。
图7是表示搭载了本实施方式的信号处理装置100的助听器200的动作的流程图。使用图7的流程图,说明助听器200的动作。图中S表示流程的各步骤。另外,图7的各步骤中的以下处理是使用CPU240及存储器250来进行的。在CPU240及存储器250中,以每个短时间单位(帧,这里设为10msec)进行处理。
首先,在步骤S110中,A/D转换单元120对从内置于助听器主体210中的麦克风阵列110(220)输入的音信号进行A/D转换,输出到激励分离单元130。
接着,在步骤S120中,激励分离单元130利用到达各麦克风的音信号的到达时间之差,以帧为单位,在不同方向上分离音信号。这里,假定激励分离单元130在前后左右依次倾斜45°的8个方向k(k=1,2,……,8)上分离音信号。
这里,假定该分离出的音信号从用户所处的助听器200前方起沿逆时针方向依次是S1、S2、S3、S4、S5、S6、S7、S8。这8个方向中的助听器200的前方是助听器200的用户所处的方向,因此假定来自该方向的音信号S1是用户的声音。
接着,分别对于分离出的8个方向的音信号Sk(k:方向,k=1,2,……,8)进行步骤S130的处理。
在步骤S130中,语音检测单元140对于音信号Sk(k:方向,k=1,2,……,8)进行语音/非语音检测。作为语音检测方法,例如,这里是以帧为单位计算语音频带(例如,200Hz~4000Hz)中的能量,在时间方向上进行平滑化,在能量超过阈值的情况下,判定为语音。为了更高精度地进行语音检测,优选的是,在后续处理中,进行如下等处理:将短时间的语音区间作为无音处理,或者在语音持续时存在短时间的无音的情况下,作为语音处理。
并且,语音检测方法不限于基于语音频带能量的方法,也可以使用检测谐波结构的方法、或与模型对照的方法等其他方法。
以下,语音检测单元140将判定为语音的区间定义为发言区间。
接着,对于前方的音信号S1与除了前方以外的7个方向的音信号S2~S8的各个组合,进行步骤S140、S150的处理。
在步骤S140中,发言重叠持续长度分析单元151及沉默持续长度分析单元152求出音信号S1与音信号Sk(k:方向,k=2,3,……,8)的发言重叠及沉默的区间的持续长度。然后,发言重叠持续长度分析单元151及沉默持续长度分析单元152分别计算帧t中的发言重叠分析值Pc及沉默分析值Ps,将它们输出至对话成立度计算单元160。
以下,说明发言重叠分析值Pc及沉默分析值Ps的计算方法。首先,参照图8,说明发言重叠分析值Pc的计算方法。
在图8A中,四边形所示的区间表示基于由语音检测单元140生成的表示语音/非语音检测结果的语音区间信息而判定为音信号S1是语音的发言区间。在图8B中,四边形所示的区间表示判定为音信号Sk是语音的发言区间。并且,发言重叠持续长度分析单元151将这些区间重叠的部分定义为发言重叠(图8C)。
发言重叠持续长度分析单元151中的具体动作如下所述。在帧t中,在发言重叠开始时,发言重叠持续长度分析单元151将该帧存储为起始帧。并且,在帧t中发言重叠结束的情况下,发言重叠持续长度分析单元151将其视为1个发言重叠,将从起始帧起的时间长度作为发言重叠的持续长度。
在图8C中,椭圆包围的部分表示帧t以前的发言重叠。并且,在帧t中发言重叠结束的情况下,发言重叠持续长度分析单元151求出并存储与帧t以前的发言重叠的持续长度有关的统计量。进而,发言重叠持续长度分析单元151使用该统计量,计算帧t中的发言重叠分析值Pc。优选的是,发言重叠分析值Pc是表示在发言重叠中其持续长度短的情况较多或其持续长度长的情况较多的参数。
接着,说明沉默分析值Ps的计算方法。
首先,沉默持续长度分析单元152将根据由语音检测单元140生成的语音区间信息而判定为音信号S1是非语音的区间、与判定为音信号Sk是非语音的区间重叠的部分定义为沉默。与发言重叠的分析度相同,沉默持续长度分析单元152求出沉默区间的持续长度,求出并存储与帧t以前的沉默区间的持续长度有关的统计量。并且,沉默持续长度分析单元152使用该统计量,计算帧t中的沉默分析值Ps。优选的是,沉默分析值Ps也是表示在沉默中其持续长度短的情况较多或其持续长度长的情况较多的参数。
以下,说明具体的发言重叠分析值Pc及沉默分析值Ps的计算方法。
沉默持续长度分析单元152在帧t中分别存储/更新与持续长度有关的统计量。与持续长度有关的统计量包括帧t以前的(1)发言重叠的持续长度之和Wc、(2)发言重叠的个数Nc、(3)沉默的持续长度之和Ws、及(4)沉默的个数Ns。并且,发言重叠持续长度分析单元151及沉默持续长度分析单元152通过式(1-1)、(1-2)分别求出帧t以前的发言重叠的平均持续长度Ac、及帧t以前的沉默区间的平均持续长度As。
Ac=发言重叠的持续长度之和Wc/发言重叠的个数Nc…(1-1)
As=沉默区间的持续长度之和Ws/沉默的个数Ns…(1-2)
Ac、As的值越小,表示短的发言重叠、短的沉默越多。因此,为了匹配大小关系,使Ac、As的符号逆转,如下式(2-1)、(2-2)那样定义发言重叠分析值Pc及沉默分析值Ps。
Pc=-Ac  …(2-1)
Ps=-As  …(2-2)
并且,除了发言重叠分析值Pc及沉默分析值Ps以外,作为表示持续长度短的对话多或持续长度长的对话多的参数,还可考虑如下参数。
在计算参数时,划分为发言重叠及沉默的持续长度小于阈值T(例如T=1秒)的短对话、持续长度为T以上的长对话,求出各自的出现个数或持续长度的和。接着,在计算参数时,求出相对于此在帧t以前出现的持续长度短的对话的出现个数或持续长度的和的比例。于是,该比例是表示其值越大,则持续长度短的对话越多的参数。
另外,为了表现出一个对话的集中的性质,在沉默持续了一定时间的时刻,对这些统计量进行初始化。或者,也可以每一定时间(例如20秒)对统计量进行初始化。另外,也可以一直使用过去一定时间窗口内的发言重叠、沉默持续长度的统计量,作为统计量。
另外,为了削减计算量,也可以判定为在一定时间内未检测到语音的激励方向上没有人存在,直到下次检测到语音为止,不进行上述处理。
再次返回到图7,在步骤S150中,对话成立度计算单元160计算音信号S1与音信号Sk的对话成立度,将对话成立度输出至对话对方判定单元170。
帧t中的对话成立度C1,k(t)例如如式(3)那样进行定义。
C1,k(t)=w1·Pc(t)+w2·Ps(t)    …(3)
并且,关于发言重叠分析值Pc的权重w1及沉默分析值Ps的权重w2,通过试验,预先求出最佳值。
在帧t中,对于所有方向的激励,在无音持续了一定时间的的时刻,进行初始化。并且,对话成立度计算单元160在某一方向的激励具有能量时,开始计数。另外,对话成立度也可以丢弃很早以前的数据而使用适应于最新状况的时间常数来求。
在求出7个方向的对话成立度C1,k(t)(k:方向,k=2,3,……,8)后,接着,在步骤S160中,对话对方判定单元170判定哪个方向的激励是用户的对话对方。然后,对话对方判定单元170将判定结果输出至输出音控制单元180。作为对话对方的判定方法,从所有方向的C1,k(t)中,将超过阈值θ且值最大的一方向的激励作为对话对方。
另外,作为对话对方的其他判定方法,例如可考虑以下的变形。
·从所有方向的C1,k(t)中,将超过阈值θ的方向的激励都作为对话对方。
·仅将前方(S3~S7等)作为探索对象,而不是所有方向。
·在才判定了对话对方的情况下,仅将该方向及相邻方向作为探索对象(由于在时间上说话人不会急速地进行移动)。
最后,在步骤S170中,输出音控制单元180在判定为对话对方的方向上控制指向性,由此将输入了的混合音加工为容易听到后从耳机260输出。
在以上说明中,说明了识别参数提取单元150具有发言重叠持续长度分析单元151及沈持续长度分析单元152的情况。另外,在本实施方式中,也可以仅具有发言重叠持续长度分析单元151及沈持续长度分析单元152中的任意一方。在该情况下,等价于在式(3)中将发言重叠分析值Pc的权重w1或沉默分析值Ps的权重w2中的任意一方设为0。
如上所述,在本实施方式中构成为,识别参数提取单元150至少具有发言重叠持续长度分析单元151或沈持续长度分析单元152中的至少一者。发言重叠持续长度分析单元151使用语音区间信息,计算并分析发言重叠持续长度,沈持续长度分析单元152计算并分析沉默持续长度。并且,对话成立度计算单元160使用发言重叠持续长度及沉默持续长度中的至少一方,计算对话成立度。这样,在本实施方式中,能够利用如下的日常对话特征:随声附和产生的发言重叠较短、在对方未完全说完时就开始发言的情况下的发言重叠较短、对话中的沉默较短等。因此,在本实施方式中,即使在非正式的日常对话中,也能准确地求出对话成立度,因此能够准确地检测对话的成立,从而能够准确地判定对话对方。
另外,本发明人使用实际对5组日常对话录音所得的语音数据,进行了对话对方检测的模拟试验。
在模拟试验中,使用麦克风阵列拾取了5组两分钟的日常对话,以SN比为5、10、15、20dB的方式将在食堂中另外拾取了的喧嚣的多人交谈噪音(multi-talker noise)叠加于拾取了的语音数据。接着,在模拟试验中,对于各SN比,对每个说话人进行了基于语音能量的语音检测。然后,在模拟试验中,对于每个说话人的语音检测结果,虚拟地生成5组对话对方的组合及40组非对话对方的组合,对于现有方法及本发明的方法,求出了对话对方正确率。
这里,现有方法是专利文献1公开的方法,使用时间常数来更新对话成立度。在现有方法中,使用式(4)求出了帧t中的对话成立度C1,k(t)。这里,在帧t中,在音信号Sk为语音时,Vk(t)=1,在音信号Sk为非语音时,Vk(t)=0。
D1,k(t)=α·D1,k(t-1)+(1-α)·V1(t)·Vk(t)  …(4-2)
R1,k(t)=β·R1,k(t-1)+(1-β)·(1-V1(t))·Vk(t)  …(4-2)
T1,k(t)=γ·T1,k(t-1)+(1-γ)·V1(t)·(1-Vk(t))  …(4-2)
S1,k(t)=δ·S1,k(t-1)+(1-δ)·(1-V1(t))·(1-Vk(t))  …(4-2)
其中,时间常数α=β=γ=0.99999、δ=0.99995、ε=0.999。
另外,在本发明的方法中,使用利用了发言重叠分析及沉默分析的方法,以帧为单位求出发言重叠分析值及沉默分析值,更新对话成立度。另外,使用式(3)计算了帧t中的对话成立度C1,k(t)
这里,作为评价方法,在对话对方的组的情况下,如果超过阈值θ,则为正确,在非对话对方的组的情况下,如果低于阈值θ,则为正确。另外,将对话对方正确率定义为准确地检测对话对方的比例和准确地丢弃非对话对方的比例的平均值。图9表示基于现有方法及本发明的方法的对话对方正确率。
由图9可知,与现有方法相比,在使用发言重叠及沉默的平均持续长度的分析值来求出对话成立度的本发明的方法中,无论在哪个SN比电平下,都能得到相当高的对话对方检测性能。因此,确认到本发明是有效的。
另外,在以上的说明中,说明了激励分离单元130在不同方向分离音信号的情况。另外,激励分离单元130也可以使用独立成分分析(ICA:Independent Component Analysis)等其他激励分离方法来分离音信号。另外,激励分离单元130也可以在不同方向仅求出每个频带的能量大小,根据不同方向的能量进行语音检测,进行同样的动作。
另外,本实施方式也可以设置识别说话人的说话人识别部,当在相同方向存在多个说话人时,能够将每个说话人分离。
(实施方式2)
在本实施方式中,着眼于笑声的重叠,计算对话成立度。在说明本实施方式的具体的结构及动作之前,首先,说明本发明人着眼于笑声的重叠的情况。
在日常的非正式对话中,伴随有笑声而进行交谈的情况较多。笑声是有音的。因此,在现有技术的根据能量进行有音判定仅通过有音/无音的组合来求出对话成立度的方法中,在同时出现笑声时,对话成立度降低。因此,在现有方法中,具有难以准确地区分对话对方与非对话对方的问题。本实施方式解决上述问题。
本发明人为了分析实际的日常对话中的笑声出现时机,根据拾取了日常对话的9组对话数据,确认了笑声/发言/无音(既不是发言也不是笑声的沉默区间)在时间上以何种程度重叠。对每个说话人拾取该对话数据,通过试听,赋予了笑声/发言/无音的发言区间的标签。
图10表示对话对方的发言/笑声/无音的重叠持续长度合计(msec),图11表示非对话对方的发言/笑声/无音的重叠持续长度合计(msec)。对它们进行比较可知:对话对方的笑声的重叠比非对话对方多。
图12表示根据这些数据、对于发言/笑声/无音的重叠的组合、计算其为对话对方的比例而得到的结果。由图12可知,在笑声重叠的情况下,其为对话对方的比例非常高,达到92.28%,远远高于一方发言、另一方无音时为对话对方的比例(62.23%、57.48%)。因此,可以说笑声的重叠是表示日常对话的特征量,判定是否为对话对方的重要参数。因此,在本实施方式中,除了仅有音/无音的组合以外,还着眼于笑声的重叠来计算对话成立度。
作为对话成立度的评价方法,例如使用在笑声重叠的情况下对于对话成立度进行加分等方法。与一方的说话人发言、另一方的说话人无音的情况相比,使加分的权重相同或增大。
另外,由图12可知,在当一方的说话人笑时而另一方的说话人发言的情况下,其为对话对方的比例较低,为40%左右。另外,还可知,在当一方的说话人笑时而另一方的说话人无音的情况下,其为对话对方的比例为50%左右,无助于对话成立度的识别。由此,在当一方的说话人笑时而另一方的说话人发言或无音的情况下,进行小的减分或不进行加分和减分。这样,通过着眼于笑声的重叠来进行评价,能够准确地求出对话成立度。
以下说明本实施方式的信号处理装置的内部结构。本实施方式为与实施方式1同样地将本发明应用于遥控型助听器中的例子。遥控型助听器的形状与图5相同,所以省略说明。
图13是表示本实施方式的信号处理装置300的主要部分的结构的方框图。此外,在图13的信号处理装置300中,对与图4的信号处理装置100相同的结构部分附加与图4相同的标号,并省略说明。图13的信号处理装置300相对于图4的信号处理装置100,具有识别参数提取单元310及对话成立度计算单元320,以代替识别参数提取单元150及对话成立度计算单元160。
识别参数提取单元310具有笑声检测单元311。
笑声检测单元311判定由激励分离单元130分离的音信号是否是笑声。另外,根据音信号检测笑声的方法使用公知技术。作为公知技术,例如以往具有以下的方法。
例如,在专利文献2中,将语音能量超过规定阈值的区间判定为语音区间,以帧为单位,求出rms振幅值。接着,专利文献2公开了如下方法:提取其平均值超过规定阈值的区间,通过语音识别,将“哈哈”或“哈哈哈”那样相同的母音间断地连续的区间判定为笑声区间。
另外,专利文献3公开了如下方法:求出母音的频带信号的包络线,在该包络线的振幅峰值为一定值以上时,判断该振幅峰值的周期是否在一定范围内。
另外,非专利文献1公开了如下方法:通过GMM(Gaussian Mixture Model,高斯混合模型)对笑声进行建模,以帧为单位,识别笑声和非笑声。
以下,说明与非专利文献1同样地使用将预先学习的笑声GMM与非笑声GMM对照而进行检测的方法作为笑声检测方法的情况。
对话成立度计算单元320使用笑声检测单元311得到的笑声区间信息、及语音检测单元140得到的语音区间信息,计算对话成立度。关于对话成立度计算单元320中的对话成立度计算方法,在后面进行叙述。
图14是表示安装有本实施方式的信号处理装置300的助听器200的动作的流程图。使用图14的流程图,说明助听器200的动作。并且,在图14中,对与图7共用的步骤附加与图7相同的符号并省略其说明。
在步骤S110、S120、S130中,与实施方式1相同,分别进行拾音及A/D转换、分离、语音检测。
在步骤S130之后,在步骤S210中,笑声检测单元311对于音信号Sk进行笑声/非笑声判定。首先,笑声检测单元311在帧t中将帧t的特征参数矢量与预先学习的笑声GMM及非笑声GMM进行对照,求出笑声似然及非笑声似然。特征参数矢量是由以帧为单位进行音响分析而得到的MFCC12维(C1~C12)、其一元线性回归系数12维(ΔC1~ΔC12)、对数能量的一元线性回归系数1维(ΔE)的合计25维构成的矢量。另外,MFCC(Mel Filter CepstralCoefficient)表示Mel滤波器组倒谱系数。并且,笑声检测单元311分别累积过去N帧(例如、N=50)的笑声似然及非笑声似然,将蓄積结果较大的一方作为判定结果。通过笑声检测单元311累积N帧的似然,进行判定,从而可提高识别性能。
在步骤S220中,对话成立度计算单元320对于前方的音信号S1与除了前方以外的7个方向的音信号(k:方向,k=2,3,……,8)的各个组合,计算音信号S1与音信号Sk的对话成立度。
图15是表示基于发言/笑声/无音的组合的对话成立度计算方法的思路的表。S1表示存在用户的声音的方向1的音信号,Sk表示方向k(k=2,3,……,8)的音信号。
这里,“发言”、“无音”及“笑声”定义如下。
“发言”:语音检测结果为语音且笑声检测结果为非笑声的帧
“无音”:语音检测结果为非语音且笑声检测结果为非笑声的帧
“笑声”:与语音检测结果无关,笑声检测结果为笑声的帧
在本实施方式中,对话成立度计算单元320例如使用式(5)计算帧t中的对话成立度C1,k(t)。
C1,k(t)=SC1,k(t)/t  …(5)
t=0时
SC1,k(t)=0
t>0时
SC1,k(t)=SC1,k(t-1)-K11  (在帧t中S1为发言、Sk为发言时)
=SC1,k(t-1)-K12  (在帧t中S1为发言、Sk为笑声时)
=SC1,k(t-1)+K01  (在帧t中S1为发言、Sk为无音时)
=SC1,k(t-1)-K12  (在帧t中S1为笑声、Sk为发言时)
=SC1,k(t-1)+K22  (在帧t中S1为笑声、Sk为笑声时)
=SC1,k(t-1)(在帧t中S1为笑声、Sk为无音时)
=SC1,k(t-1)+K01  (在帧t中S1为无音、Sk为发言时)
=SC1,k(t-1)(在帧t中S1为无音、Sk为笑声时)
=SC1,k(t-1)-K10  (在帧t中S1为无音、Sk为无音时)
其中,0≤K12≤K11≤K22,0≤K00
另外,在帧t中,对于所有方向的激励,在无音持续了一定时间的时刻,进行初始化。另外,对话成立度也可以丢弃很早以前的数据而使用适应于最新状况的时间常数来求取。
并且,对话成立度计算单元320将计算出的对话成立度输出至对话对方判定单元170。以后,与实施方式1相同,在步骤S160中,对话对方判定单元170判定对话对方。另外,在步骤S170中,输出控制单元180控制输出音。
如上所述,在本实施方式中,采用识别参数提取单元310具有笑声检测单元311的结构。笑声检测单元311检测笑声,对话成立判定单元320评价着眼于笑声的重叠的对话成立度。由此,在本实施方式中,能够准确地求出对话成立度,因此能够准确地检测对话的成立,从而能够准确地判定对话对方。
另外,在以上的说明中,将语音检测单元140与笑声检测单元311作为不同结构进行了说明,但是,也可以设置将输入信号划分为发言/笑声/无音这三个的语音笑声检测单元。
(实施方式3)
在本实施方式中,着眼于说话人的发言比率,计算对话成立度。在说明本实施方式的具体的结构及动作之前,首先说明本发明人着眼于说话人的发言比率的情况。
在现有技术中,如果一方的说话人是有音、另一方的说话人是无音,则对于对话成立度进行加分,因此在一方的说话人的声音一直存在的情况下,也会视为对话成立。在会议等进行对话的场合下,在找到对话对方时,也可以使用现有的方法。但是,在像助听器那样由用户始终随身佩带着可佩带式麦克风的状况下,用户的自言自语、并非与自己说话的别人的声音往往会一直输入到麦克风中,缺乏实用性。本实施方式解决上述问题。
在本实施方式中,检测自己或对方中的哪一方在单独说话的情况,在检测到“单方地说话”的情况下,降低对话成立度。并且,作为检测“单方地说话”的方法,在本实施方式中,求出自己与对话对方的发言区间比,将该发言区间比极端失衡的情况判断为“单方地说话”。
这里,通过下式(6)来定义音信号S1与音信号Sk(k:方向,k=2,3,……,8)的发言区间比Rb1,k
发言区间比Rb1,k
(过去N秒中的S1的发言区间的持续长度和)/(过去N秒中的S1的发言区间的持续长度和+过去N秒中的Sk的发言区间的持续长度和)(6)
本发明人为了分析在实际的日常对话中以何种程度出现一个说话人持续说话的单方地说话,根据拾取日常对话而得到的9组对话数据,改变时间窗口的长度(时间窗口长度),求出了上述发言区间比。
图16是表示某一组的对话的每个时间窗口长度的发言区间比Rb的推移的例子的曲线图。横轴表示从对话开始时起的经过时间,纵轴表示发言区间比。时间窗口长度N分别表示5秒、10秒、20秒、30秒。其结果,本发明人着眼于如下情况:在以N=10秒左右的时间窗口来看时,两个说话人间的发言区间比随着时间经过而变化,但是无论对于哪个对话,发言区间比都大致收敛于10%~90%的范围内。
因此,在本实施方式中,根据过去N秒的发言区间比的值,对于对话成立度乘以小于1的权重,由此抑制“单方地说话”。
以下说明本实施方式的信号处理装置的内部结构。本实施方式为与实施方式1同样地将本发明应用于遥控型助听器中的例子。遥控型助听器的形状与图5相同,所以省略说明。
图17是表示本实施方式的信号处理装置400的主要部分的结构的方框图。此外,在图17的信号处理装置400中,对与图4的信号处理装置100相同的结构部分附加与图4相同的标号,并省略说明。图17的信号处理装置400相对于图4的信号处理装置100而言,具有识别参数提取单元410及对话成立度计算单元420,以代替识别参数提取单元150及对话成立度计算单元160。
识别参数提取单元410具有发言比率计算单元411。
发言比率计算单元411根据在语音检测单元140中计算出的语音区间信息,计算发言区间比率,作为发言比率信息。
对话成立度计算单元420根据在语音检测单元140中计算出的语音区间信息、以及在发言比率计算单元411中计算出的发言区间比率,求出对话成立度。关于对话成立度计算单元420中的对话成立度计算方法,在后面进行叙述。
图18是表示安装有本实施方式的信号处理装置400的助听器200的动作的流程图。使用图18的流程图,说明助听器200的动作。并且,在图18中,对与图7共用的步骤附加与图7相同的符号并省略其说明。
在步骤S110、S120、S130中,与实施方式1相同,分别进行拾音及A/D转换、分离、语音检测。
在本实施方式中,与实施方式1同样,语音检测单元140将判定为语音的区间定义为发言区间。
接着,对于前方的音信号S1与除了前方以外的7个方向的音信号Sk(方向k=2,3,……,8)的各个组合,进行步骤S310及步骤S320的处理。
在步骤S310中,发言比率计算单元411求出从帧t起过去N秒(N=10)的区间内的音信号S1与音信号Sk的发言区间比Rb1,k,并输出到对话成立度计算单元420。
接着,在步骤S320中,对话成立度计算单元420计算音信号S1与音信号Sk的对话成立度。在本实施方式中,对话成立度计算单元420例如按照式(7)求出帧t中的对话成立度C1,k(t)。
C1,k(t)=SC1,k(t)/t×w(Rb1,k)    …(7)
w(Rb1,k)=10Rb1,k    (Rb1,k<0.1)
=1    (0.1≤Rb1,k<0.9)
=10-10Rb1,k    (Rb1,k≥0.9)
t=0时
SC1,k(t)=0
t>0时
SC1,k(t)=SC1,k(t-1)-K11  (在帧t中S1为发言、Sk为发言时)
=SC1,k(t-1)-K00  (在帧t中S1为无音、Sk为无音时)
=SC1,k(t-1)+K01  (在帧t中S1为发言、Sk为无音时)
=SC1,k(t-1)+K01  (在帧t中S1为无音、Sk为发言时)
其中,0≤K00,0≤K01,0≤K11
这样,在本实施方式中,在发言区间比失衡至小于10%或90%以上时,通过乘以小于1的权重,能够抑制“单方地说话”。另外,此次是如上述那样设计了N=10,权重w(Rb1,k),但不限于此。
并且,对话成立度计算单元420将计算出的对话成立度输出至对话对方判定单元170。以后,与实施方式1相同,在步骤S160中,对话对方判定单元170判定对话对方。另外,在步骤S170中,输出控制单元180控制输出音。
如上所述,在本实施方式中,采用识别参数提取单元410具有发言比率计算单元411的结构。发言比率计算单元411根据语音区间信息,计算发言区间比率,作为发言比率信息,对话成立度计算单元420使用语音区间信息及发言比率信息,计算对话成立度。具体而言,发言比率计算单元411在自己与对方的发言区间比极端失衡的情况下以使对话成立度降低的方式设定发言区间比Rb1,k。接着,对话成立度计算单元420使用该发言区间比Rb1,k,计算对话成立度。由此,在像助听器那样日常佩带的设备中,不会出现因佩带人自己的自言自语、佩带人自己未对话时的别人的声音等导致的误动作,能够准确地检测对话的成立,从而能够准确地判定对话对方。
(实施方式4)
在本实施方式中,着眼于发言的重叠或沉默的持续长度、笑声的重叠、及说话人的发言比率,计算对话成立度。
以下说明本实施方式的信号处理装置的内部结构。本实施方式为与实施方式1同样地将本发明应用于遥控型助听器的例子。遥控型助听器的形状与图5相同,所以省略说明。
图19是表示本实施方式的信号处理装置500的主要部分的结构的方框图。另外,在图19的信号处理装置500中,对与图4、图13及图17的信号处理装置100、300、400相同的结构部分附加与这些图相同的标号,并省略说明。图19的信号处理装置100相对于图4的信号处理装置100而言,具有识别参数提取单元510及对话成立度计算单元520,以代替识别参数提取单元150及对话成立度计算单元160。
识别参数提取单元510具有发言重叠持续长度分析单元511、沉默持续长度分析单元512、笑声检测单元311及发言比率计算单元513。
另外,在本实施方式中,由笑声检测单元311得到的笑声区间信息也被输入到发言重叠持续长度分析单元511、沉默持续长度分析单元512及发言比率计算单元513。并且,在发言重叠持续长度分析单元511、沉默持续长度分析单元512及发言比率计算单元513中,笑声区间信息与来自语音检测单元140的语音区间信息一起用于发言重叠持续长度分析、沉默持续长度分析及发言比率计算。本实施方式的这一点与实施方式1及实施方式3的发言重叠持续长度分析单元151、沉默持续长度分析单元152及发言比率计算单元411不同。
图20是表示安装有本实施方式的信号处理装置500的助听器200的动作的流程图。使用图20的流程图,说明助听器200的动作。并且,在图20中,对与图14共用的步骤附加与图14相同的符号并省略其说明。
在步骤S110、S120、S130、S210中,与实施方式2同样,分别进行拾音及A/D转换、分离、语音检测、笑声/非笑声判定。
接着,对于前方的音信号S1与除了前方以外的7个方向的音信号Sk(方向k=2,3,……,8)的各个组合,进行步骤S410、S420、S430的处理。
这里,在本实施方式中,与实施方式2同样,将“发言”、“无音”及“笑声”定义如下。
“发言”:语音检测结果为语音且笑声检测结果为非笑声的帧
“无音”:语音检测结果为非语音且笑声检测结果为非笑声的帧
“笑声”:与语音检测结果无关,笑声检测结果为笑声的帧
基于该发言/笑声/无音的分类,在步骤S410中,发言重叠持续长度分析单元511求出不包含音信号S1和音信号Sk的笑声的发言区间的重叠的持续长度,进行分析。另外,沉默持续长度分析单元512基于该发言/笑声/无音的分类,求出不包含笑声的沉默区间的持续长度,进行分析。
接着,在步骤S420中,发言比率计算单元513计算不包含音信号S1和音信号Sk的笑声的发言区间的比率。
接着,在步骤S430中,对话成立度计算单元520计算音信号S1与音信号Sk的对话成立度。在本实施方式中,对话成立度计算单元520例如按照式(8)求出帧t中的对话成立度C1,k(t)。
C1,k(t)={SC1,k(t)/t+w1·Pc(t)+w2·Ps(t)}×w(Rb1,k)  …(8)
w(Rb1,k)=10Rb1,k    (Rb1,k<0.1)
=1    (0.1≤Rb1,k<0.9)
=1-10Rb1,k    (Rb1,k≥0.9)
t=0时
SC1,k(t)=0
t>0时
SC1,k(t)=SC1,k(t-1)-K11  (在帧t中S1为发言、Sk为发言时)
=SC1,k(t-1)-K12  (在帧t中S1为发言、Sk为笑声时)
=SC1,k(t-1)+K01  (在帧t中S1为发言、Sk为无音时)
=SC1,k(t-1)-K12  (在帧t中S1为笑声、Sk为发言时)
=SC1,k(t-1)+K22  (在帧t中S1为笑声、Sk为笑声时)
=SC1,k(t-1)(在帧t中S1为笑声、Sk为无音时)
=SC1,k(t-1)+K01  (在帧t中S1为无音、Sk为发言时)
=SC1,k(t-1)(在帧t中S1为无音、Sk为笑声时)
=SC1,k(t-1)-K10  (在帧t中S1为无音、Sk为无音时)
其中,0≤K12≤K11≤K22,0≤K00
并且,对话成立度计算单元520将计算出的对话成立度输出到对话对方判定单元170。以后,与实施方式1同样,在步骤S160中,对话对方判定单元170判定对话对方。另外,在步骤S170中,输出控制单元180控制输出音。
如上所述,采用识别参数提取单元510具有发言重叠持续长度分析单元511、沉默持续长度分析单元512、及笑声检测单元311的结构。对话成立度计算单元520使用发言重叠持续长度、沉默持续长度、表示笑声区间的笑声区间信息、或表示发言区间长度比率的发言比率信息,计算对话成立度。因此,本实施方式能够对利用日常对话所特有的串扰或笑声出现的特征的对话成立度进行评价,即使在非正式的日常对话中,也能准确地求出对话成立度。由此,在本实施方式中,能够准确地检测对话的成立,从而能够准确地判定对话对方。
特别是,在本实施方式中,发言重叠持续长度分析单元511及沉默持续长度分析单元512考虑笑声区间信息,计算发言重叠持续长度及沉默持续长度。由此,本实施方式能够准确地提取不包含笑声的发言区间,因此,能够准确地求出发言重叠及沉默的区间的持续长度,从而能够更准确地求出对话成立度。
另外,本实施方式通过在识别参数提取单元510中设置发言比率计算单元513,能够抑制“单方地说话”。由此,在像助听器那样日常佩带的设备中,不会出现因佩带人自己的自言自语、佩带人自己未对话时的别人的声音等导致的误动作。
在实施方式1至实施方式4中,假定将本发明应用于遥控型助听器中的情况进行了说明,但是也能将本发明应用于使用耳挂型或耳塞型等可佩带型麦克风的助听器中。在可佩带型麦克风中,与遥控型助听器不同,很难通过使麦克风阵列的规定方向朝向用户来对用户的声音进行分离拾音。因此,本发明能够应用于专利文献4公开的在助听器中附加骨传导麦克风来检测自身发言引起的头盖骨振动、由此检测用户的声音的方法中。或者,能够通过将本发明应用于安装头带式麦克风来检测嘴边的语音的方法等中,检测自身发言。另外,本实施方式也可以不设置激励分离单元,而是按照每个短时间,仅判定是否存在用户的自身发言及除此以外的音是否为语音求出用户和其他说话人的对话成立度。
另外,作为面向其他用途的应用,可将本发明应用于录音机、数字照相机、摄像机、电话会议***等中。在录音机、数字照相机、摄像机等数字记录设备中,能够抑制希望记录的对话以外的别人的对话等干扰音,来进行记录。或者,本发明也可以记录基于麦克风阵列的所有输入声音,然后提取对话成立度高的组合的对话,对希望的对话进行重放。
另外,在电话会议***中,当仅在一方的位置的附近有进行其他会议等的干扰音时,提取从另一方的安静位置发送来的对话对方的声音,抑制除此以外的声音,由此能够顺畅地进行会议。另外,当在两个位置都具有干扰音的情况下,例如检测输入到麦克风中的最大声音,找到其对话对方,抑制除此以外的声音,由此能够得到同样的效果。
在2010年2月25日提交的特愿第2010-039698号的日本专利申请所包含的说明书、附图和说明书摘要的公开内容,全部引用于本申请。
工业实用性
本发明的信号处理装置及信号处理方法作为助听器、或录音机、数码照相机、摄像机、电话会议***等各种领域中的信号处理装置是有用的。

Claims (14)

1.信号处理装置,包括:
分离单元,将混入了多个激励的混合音信号分离为各个激励;
语音检测单元,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;
使用所述语音区间信息来计算并分析发言重叠持续长度的发言重叠持续长度提取单元和计算并分析沉默持续长度的沉默持续长度提取单元中的至少一个单元;
对话成立度计算单元,基于根据所述发言重叠持续长度得到的持续时间短的发言重叠的出现比例或根据所述沉默持续长度得到的持续时间短的沉默的出现比例,计算表示对话成立的程度的对话成立度;以及
对话判断单元,基于所述对话成立度来判断对话对方。
2.信号处理装置,
在权利要求1所述的信号处理装置中,替代所述发言重叠持续长度提取单元或所述沉默持续长度提取单元而具备笑声检测单元,所述笑声检测单元对所述分离出的多个激励信号的各个激励信号进行笑声检测并提取笑声区间信息作为识别参数,
所述对话成立度计算单元对于所述多个激励信号的组合,使用所述语音区间信息及所述笑声区间信息,计算所述对话成立度。
3.信号处理装置,
在权利要求1所述的信号处理装置中,替代所述发言重叠持续长度提取单元或所述沉默持续长度提取单元而具备发言比率计算单元,所述发言比率计算单元对于所述多个激励信号的组合提取发言比率信息作为识别参数,
所述对话成立度计算单元使用所述语音区间信息及所述发言比率信息,计算所述对话成立度。
4.如权利要求1所述的信号处理装置,
所述提取单元在所述发言重叠持续长度提取单元及所述沉默持续长度提取单元中的至少一个单元中提取所述发言重叠持续长度或所述沉默持续长度的长短的比例,作为识别参数。
5.如权利要求1所述的信号处理装置,
所述提取单元在所述发言重叠持续长度提取单元及所述沉默持续长度提取单元中的至少一个单元中,提取所述发言重叠持续长度或所述沉默持续长度的平均值,作为识别参数。
6.如权利要求2所述的信号处理装置,
所述对话成立度计算单元在所述多个激励信号中同时检测到笑声的情况下,提高所述对话成立度。
7.如权利要求2所述的信号处理装置,
所述对话成立度计算单元在所述多个激励信号中,在第一激励信号检测到笑声,在第二激励信号未检测到笑声的情况下,不改变所述第一激励信号和所述第二激励信号的所述对话成立度,或者降低所述对话成立度。
8.如权利要求3所述的信号处理装置,
所述发言比率计算单元将所述多个激励信号中的、过去一定时间窗口内的第一激励信号和第二激励信号的发言区间比作为所述发言比率信息。
9.信号处理装置,包括:
分离单元,将混入了多个激励的混合音信号分离为各个激励;
语音检测单元,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;
提取单元,基于所述多个激励信号或所述语音区间信息,提取表示日常对话的特征量的识别参数;
对话成立度计算单元,基于提取出的所述识别参数,计算表示对话成立的程度的对话成立度;以及
对话判断单元,基于所述对话成立度来判断对话对方,
所述提取单元包括:
笑声检测单元,对所述分离出的多个激励信号的各个激励信号进行笑声检测,提取笑声区间信息;
对于所述多个激励信号的组合,使用所述语音区间信息及所述笑声区间信息来计算并分析用于表示发言重叠的连续区间的长度的发言重叠持续长度的发言重叠持续长度分析单元和计算并分析用于表示沉默的连续区间的长度的沉默持续长度的沉默持续长度分析单元中的至少一个单元;以及
发言比率计算单元,对于所述多个激励信号的组合,提取发言比率信息,
提取根据所述发言重叠持续长度得到的持续时间短的发言重叠的出现比例、根据所述沉默持续长度得到的持续时间短的沉默的出现比例、所述笑声区间信息、或所述发言比率信息作为所述识别参数。
10.信号处理装置,包括:
麦克风阵列,配置有多个麦克风;
A/D转换单元,将从所述麦克风阵列输入了的模拟区域的混合音信号转换成数字区域的信号;
如权利要求1所述的信号处理装置,将数字区域的所述混合音信号作为输入;以及
输出音控制单元,根据所述对话成立度,对数字区域的所述混合音信号进行加工并输出。
11.如权利要求10所述的信号处理装置,
所述输出音控制单元通过指向性控制对数字区域的所述混合音信号进行加工并输出。
12.助听器,包括:
麦克风阵列,配置有多个麦克风;
A/D转换单元,将从所述麦克风阵列输入了的模拟区域的混合音信号转换成数字区域的信号;
分离单元,将所述转换后的数字区域的所述混合音信号分离为各个激励;
语音检测单元,对所述分离出的多个激励信号的各个激励信号进行语音检测,判定所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;
对于所述多个激励信号的组合,使用所述语音区间信息计算并分析发言重叠持续长度的发言重叠持续长度提取单元和计算并分析沉默持续长度的沉默持续长度提取单元中的至少一个单元;
对话成立度计算单元,基于根据所述发言重叠持续长度得到的持续时间短的发言重叠的出现比例或根据所述沉默持续长度得到的持续时间短的沉默的出现比例,计算表示对话成立的程度的对话成立度;
对话判断单元,基于所述对话成立度来判断对话对方;以及
输出音控制单元,根据所述对话对方,对数字区域的所述混合音信号进行加工并输出。
13.信号处理方法,包括:
分离步骤,将混入了多个激励的混合音信号分离为各个激励;
语音检测步骤,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;
对于所述多个激励信号的组合,使用所述语音区间信息来计算并分析发言重叠持续长度的步骤和计算并分析沉默持续长度的步骤中的至少一个步骤;
计算步骤,基于根据所述发言重叠持续长度得到的持续时间短的发言重叠的出现比例或根据所述沉默持续长度得到的持续时间短的沉默的出现比例,计算表示对话成立的程度的对话成立度;以及
对话判断步骤,基于所述对话成立度来判断对话对方。
14.如权利要求13所述的信号处理方法,
还包括:
笑声检测步骤,对所述分离出的多个激励信号的各个激励信号进行笑声检测,提取笑声区间信息;
对于所述多个激励信号的组合,使用所述语音区间信息及所述笑声区间信息来计算并分析用于表示发言重叠的连续区间的长度的发言重叠持续长度的发言重叠持续长度分析步骤和计算并分析用于表示沉默的连续区间的长度的沉默持续长度的沉默持续长度分析步骤中的至少一个步骤;以及
发言比率计算步骤,对于所述多个激励信号的组合,提取发言比率信息,
所述持续时间短的发言重叠的出现比例、所述持续时间短的沉默的出现比例、所述笑声区间信息、或所述发言比率信息作为识别参数而被提取。
CN201180001707.9A 2010-02-25 2011-01-24 信号处理装置及信号处理方法 Active CN102388416B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010039698 2010-02-25
JP2010-039698 2010-02-25
PCT/JP2011/000358 WO2011105003A1 (ja) 2010-02-25 2011-01-24 信号処理装置及び信号処理方法

Publications (2)

Publication Number Publication Date
CN102388416A CN102388416A (zh) 2012-03-21
CN102388416B true CN102388416B (zh) 2014-12-10

Family

ID=44506438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180001707.9A Active CN102388416B (zh) 2010-02-25 2011-01-24 信号处理装置及信号处理方法

Country Status (5)

Country Link
US (3) US8498435B2 (zh)
EP (1) EP2541543B1 (zh)
JP (1) JP5607627B2 (zh)
CN (1) CN102388416B (zh)
WO (1) WO2011105003A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2590432B1 (en) * 2010-06-30 2020-04-08 Panasonic Intellectual Property Management Co., Ltd. Conversation detection device, hearing aid and conversation detection method
TWI403304B (zh) * 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
CN103155036B (zh) * 2010-09-28 2015-01-14 松下电器产业株式会社 语音处理装置及语音处理方法
CN103636236B (zh) 2011-07-01 2016-11-09 杜比实验室特许公司 音频回放***监视
JP2013140534A (ja) * 2012-01-06 2013-07-18 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP5749212B2 (ja) * 2012-04-20 2015-07-15 日本電信電話株式会社 データ分析装置、データ分析方法およびデータ分析プログラム
JP5749213B2 (ja) * 2012-04-20 2015-07-15 日本電信電話株式会社 音声データ分析装置、音声データ分析方法および音声データ分析プログラム
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US20140081637A1 (en) * 2012-09-14 2014-03-20 Google Inc. Turn-Taking Patterns for Conversation Identification
US9814879B2 (en) 2013-05-13 2017-11-14 Cochlear Limited Method and system for use of hearing prosthesis for linguistic evaluation
JP2016521382A (ja) * 2013-05-13 2016-07-21 トムソン ライセンシングThomson Licensing マイクロフォンの音声を分離するための方法、装置、およびシステム
JP6171617B2 (ja) * 2013-06-24 2017-08-02 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
EP2876900A1 (en) 2013-11-25 2015-05-27 Oticon A/S Spatial filter bank for hearing system
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢***的语音分离方法
JP6524674B2 (ja) * 2015-01-22 2019-06-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
CN105976829B (zh) * 2015-03-10 2021-08-20 松下知识产权经营株式会社 声音处理装置、声音处理方法
JP6641832B2 (ja) * 2015-09-24 2020-02-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US10397711B2 (en) * 2015-09-24 2019-08-27 Gn Hearing A/S Method of determining objective perceptual quantities of noisy speech signals
CN106920543B (zh) * 2015-12-25 2019-09-06 展讯通信(上海)有限公司 语音识别方法及装置
US9812149B2 (en) * 2016-01-28 2017-11-07 Knowles Electronics, Llc Methods and systems for providing consistency in noise reduction during speech and non-speech periods
JP6703420B2 (ja) * 2016-03-09 2020-06-03 本田技研工業株式会社 会話解析装置、会話解析方法およびプログラム
JP2018097239A (ja) * 2016-12-15 2018-06-21 カシオ計算機株式会社 音声再生装置及びプログラム
EP3396978B1 (de) 2017-04-26 2020-03-11 Sivantos Pte. Ltd. Verfahren zum betrieb einer hörvorrichtung und hörvorrichtung
CN107895582A (zh) * 2017-10-16 2018-04-10 中国电子科技集团公司第二十八研究所 面向多源信息领域的说话人自适应语音情感识别方法
WO2019139101A1 (ja) * 2018-01-12 2019-07-18 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN110858476B (zh) * 2018-08-24 2022-09-27 北京紫冬认知科技有限公司 一种基于麦克风阵列的声音采集方法及装置
US20230005488A1 (en) * 2019-12-17 2023-01-05 Sony Group Corporation Signal processing device, signal processing method, program, and signal processing system
US20230088989A1 (en) * 2020-02-21 2023-03-23 Harman International Industries, Incorporated Method and system to improve voice separation by eliminating overlap
US20240089671A1 (en) 2022-09-13 2024-03-14 Oticon A/S Hearing aid comprising a voice control interface

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193298A (ja) 1987-10-02 1989-04-12 Pilot Pen Co Ltd:The 自己音声感度抑圧型補聴器
JP4168539B2 (ja) * 1999-08-03 2008-10-22 富士ゼロックス株式会社 対話情報配信システムおよび対話情報配信装置
WO2001076319A2 (en) 2000-03-31 2001-10-11 Clarity, L.L.C. Method and apparatus for voice signal extraction
JP3652961B2 (ja) * 2000-06-27 2005-05-25 シャープ株式会社 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
JP2004133403A (ja) 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP4241079B2 (ja) 2003-02-17 2009-03-18 雅史 松村 笑い検出装置、情報処理装置および笑い検出方法
JP3940723B2 (ja) 2004-01-14 2007-07-04 株式会社東芝 対話情報分析装置
JP4394532B2 (ja) * 2004-07-26 2010-01-06 シャープ株式会社 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
US7596498B2 (en) * 2005-09-02 2009-09-29 Microsoft Corporation Monitoring, mining, and classifying electronically recordable conversations
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP4364251B2 (ja) * 2007-03-28 2009-11-11 株式会社東芝 対話を検出する装置、方法およびプログラム
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム

Also Published As

Publication number Publication date
EP2541543A4 (en) 2013-11-20
WO2011105003A1 (ja) 2011-09-01
US8644534B2 (en) 2014-02-04
EP2541543B1 (en) 2016-11-30
US8498435B2 (en) 2013-07-30
EP2541543A1 (en) 2013-01-02
US8682012B2 (en) 2014-03-25
JP5607627B2 (ja) 2014-10-15
US20120020505A1 (en) 2012-01-26
US20130289982A1 (en) 2013-10-31
JPWO2011105003A1 (ja) 2013-06-17
US20140012576A1 (en) 2014-01-09
CN102388416A (zh) 2012-03-21

Similar Documents

Publication Publication Date Title
CN102388416B (zh) 信号处理装置及信号处理方法
US9672821B2 (en) Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
CN102474681B (zh) 交谈检测装置、助听器和交谈检测方法
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
EP2881948A1 (en) Spectral comb voice activity detection
CN107910011A (zh) 一种语音降噪方法、装置、服务器及存储介质
Gong et al. Detecting replay attacks using multi-channel audio: A neural network-based method
Sahidullah et al. Robust speaker recognition with combined use of acoustic and throat microphone speech
WO2017045512A1 (zh) 一种语音识别的方法、装置、终端及语音识别设备
JP2007018006A (ja) 音声合成システム、音声合成方法、音声合成プログラム
US11765522B2 (en) Speech-tracking listening device
Perera et al. Automatic Evaluation Software for Contact Centre Agents’ voice Handling Performance
Shabtai et al. Towards room-volume classification from reverberant speech using room-volume feature extraction and room-acoustics parameters
Hajipour et al. Listening to sounds of silence for audio replay attack detection
Suthokumar et al. An analysis of speaker dependent models in replay detection
CN109994121A (zh) 消除音频串扰的***、方法和计算机存储介质
JP5672155B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法
Jokic et al. Towards enabling measurement of similarity of acoustical environments using mobile devices
KR101081972B1 (ko) 하이브리드 특징벡터 처리 방법 및 이를 이용한 화자 인식 방법과 장치
JP4927166B2 (ja) フィルタ処理された活性パターンを生成するためのデバイスおよび方法、音源分割器、デバッグされた音声信号を生成するための方法およびコンピュータ・プログラム
Rutkowski et al. Identification and tracking of active speaker’s position in noisy environments
Kumar et al. Study of Various Machine Learning Algorithms for use with Automatic Speech Recognition
Benhafid et al. A Study of Acoustic Features in Arabic Speaker Identification under Noisy Environmental Conditions
CN115376494A (zh) 一种语音检测方法、装置、设备及介质
Büyük et al. Combining Spectral and Prosodic Features in HMM-based Single Utterance Speaker Verification.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant