CN1287353C - 语音处理装置 - Google Patents

语音处理装置 Download PDF

Info

Publication number
CN1287353C
CN1287353C CNB2004100794591A CN200410079459A CN1287353C CN 1287353 C CN1287353 C CN 1287353C CN B2004100794591 A CNB2004100794591 A CN B2004100794591A CN 200410079459 A CN200410079459 A CN 200410079459A CN 1287353 C CN1287353 C CN 1287353C
Authority
CN
China
Prior art keywords
data
speaker
voice
vocal print
loudspeaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100794591A
Other languages
English (en)
Other versions
CN1584982A (zh
Inventor
增田彰
阿部义孝
藤山英春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1584982A publication Critical patent/CN1584982A/zh
Application granted granted Critical
Publication of CN1287353C publication Critical patent/CN1287353C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

一种语音处理装置,用于即使是在会议中多个与会者同时讲话的情况下,也能高精度地执行声纹识别处理;其中双向电话通信部分接收作为输入的来自多个扩音器的各语音信号,基于该输入语音信号选择一扩音器,并且从扩音器输出语音信号;声纹识别部分322在一声纹可识别周期内根据输入的语音信号执行声纹识别,并将声纹数据连续地存储在缓存器中;和,CPU连续从缓存器中取出声纹数据,针对存储在声纹寄存器中的声纹数据执行检查,规定演讲者,并通过使该语音信号与该演讲者相关联,对从双向电话通信部分输出的语音信号进行处理。

Description

语音处理装置
技术领域
本发明涉及一种语音处理装置,用于利用例如多个与会者发出的语音识别命令,并对这些命令进行处理。
背景技术
具有对人类的语音执行声纹识别并对其(声纹识别)进行处理功能的语音处理装置基于连接到作为语音输入装置的诸如电话和个人计算机的控制装置上的扩音器的前提,被提供有这种扩音器的语音处理装置已经被应用于例如金融机构中的呼叫中心和网络中的个人识别。
然而,相关技术中的这些语音处理装置因为其使用环境而只能执行个体语音识别。因此,当在许多人团体工作的现场使用这种语音处理装置时,例如,在有许多人参加的会议里,它将错误地检测和错误地识别多个语音,因此就不能采用这种装置。
也就是,在两个或更多与会者同时讲话的状态下,由于多个语音被混合在一起并通过扩音器输入给语音处理装置,不可能在许多演讲者当中指定一与会者作为主讲者,也就不可能得到精确的声纹识别结果。
另一方面,按照惯例,在会议或其他团体工作中利用记录装置等将会议的内容记录在记录媒质里,并在会议后,通过确认每一个演讲者撰写备忘录。虽然已经存在将他们所进行会议的内容记录到记录媒体中的方法,但是组织每个演讲者的数据还是要花费一些时间,并且这项工作是需要的。
因此,就想到了利用上述声纹识别技术执行个人识别和为每个演讲者整理语音数据的方法。然而,在会议中多个与会者语音重叠等情况下,难以确定是谁正在讲话,因此,不可能通过应用上述声纹识别技术本身进行演讲者的个人识别。
而且,当演讲者正在会议上讲话时,存在演讲者的属性数据(名字和角色等等)不能通过实时处理输出的缺点。因此,与会者必须参考所分发的文档等,而不能专心于听演讲。
另外,会议***必须操作PC来显示数据和通过发言来加入解释,这是十分苛求的,并且在会议效率方面是不利的。
因此,需要准确地确定主讲者并在屏幕上输出演讲者的属性数据,或者即使是在多个与会者同时讲话的时候只用一个语音通知所有的与会者。
发明内容
本发明的一个目的是提供一种语音处理装置,用于在多个演讲者中规定一个与会者为主讲者,并例如当通过识别由多个与会者发出语音的声纹进行处理时,通过声纹识别,准确地执行个人识别。
为了实现上述目的,提供一种语音处理装置,包括:多个分别面向不同语音收集方向排列的扩音器;扩音器选择装置,用于根据由所述的多个扩音器收集的语音的声压选择一个扩音器;声纹识别装置,用于在声纹可识别的时间内根据由所述的一个扩音器收集的语音信号连续地执行声纹识别,并产生声纹数据;以及数据处理装置,用于根据由所述声纹识别装置产生的声纹数据处理由所述的一个扩音器收集的语音信号。
最好是,进一步提供一声纹数据存储装置,用于通过使两者相互关联存储演讲者数据和声纹数据,其中,所述的数据处理装置通过与通过对存储在所述声纹数据存储装置中的声纹数据进行检查所获得演讲者数据相关联对由声纹识别装置产生的声纹数据执行处理。演讲者做好是,还提供一语音转换装置,用于将语音信号转换为字符串数据,其中,所述的语音转换装置将由所述的一个扩音器收集的语音信号转换为字符串数据;并且通过与通过对所述语音信号进行检查所获得的演讲者数据相关联对所述字符串数据进行处理。演讲者为了实现上述目的,根据本发明的第二方面,提供一种语音处理装置,包括:多个分别面向不同语音收集方向排列的扩音器;扩音器选择装置,用于根据由所述的多个扩音器收集的语音的声压选择一个扩音器;声纹识别装置,用于在声纹识别时间内根据由所述的一个扩音器收集的语音信号连续地执行声纹识别并产生声纹数据;声纹数据存储装置,用于通过使两者相互关联来存储演讲者数据和声纹数据;属性数据存储装置,用于通过使两者相互关联来存储演讲者数据和属性数据;以及数据处理装置,用于通过使由声纹识别装置产生的声纹数据和存储在所述的声纹数据存储装置中的声纹数据相互匹配规定演讲者数据,并通过将所述演讲者数据与相应的属性数据相关联对演讲者数据进行处理。演讲者属性数据根据本发明第一方面的语音处理装置的操作如下。
也就是,该扩音器选择装置根据由多个扩音器收集的声压选择一个扩音器。该声纹识别装置在声纹可识别时间内根据由该扩音器收集的语音信号连续地执行声纹识别并产生声纹数据。该数据处理装置依照由该声纹识别装置产生的声纹数据处理由该扩音器收集的语音信号。
根据本发明的第二方面语音处理装置的操作如下。
也就是,该扩音器选择装置根据由多个扩音器收集的声压选择一个扩音器。该声纹识别装置在声纹可识别时间内根据由该扩音器收集的语音信号连续地执行声纹识别并产生声纹数据。
该数据处理装置对照存储在声纹数据存储装置中的声纹数据检查由声纹识别装置产生的声纹数据,并定义演讲者数据。此外,它通过与通过对照属性数据存储装置进行检查和承受处理所获得的属性数据相关联对多定义的演讲者数据进行处理。
根据本发明,具有下述优点,即,即使在例如会议等过程中有多个演讲重叠的情况下,能非常准确地确定主讲者,该演讲者的属性数据等能同时在屏幕上显示给与会者,等等,因此,会议能顺利地进行。
附图说明
通过下面结合附图对最佳实施例的描述,本发明的这些和其它目的和特征将变得更清楚,其中:
附图1是双向电话通信部分2的框图;
附图2是双向电话通信部分2的DSP22的框图;
附图3A到3D是双向电话通信部分2的单向扩音器的FFT结果视图;
附图4是双向电话通信部分2的选择扩音器信号的输出图;
附图5是第一实施例的语音处理装置1的框图;
附图6A到6G用于解释第一实施例中语音处理装置1的操作;
附图7是第一实施例中语音处理装置1的改进实例图;
附图8是第二实施例的语音处理装置1a的框图;
附图9是第二实施例的语音处理装置1a显示的属性数据实例图;
附图10是第三实施例的语音处理装置1b的框图;以及
附图11是第三实施例的语音处理装置1b改进实例图。
具体实施方式
在随后说明的第一到第三实施例中,在任一实施例中都使用下面说明的双向电话通信部分2,因此,为了便于说明,首先参考图1到4解释双向电话通信部分2的操作和结构,然后,再解释各实施例。
双向电话通信部分2
附图1是双向电话通信部分2的电路框图。
如图1所示,双向电话通信部分2包括:A/D转换器组件21,数字信号处理器(DSP)22和23,中央处理单元(CPU)24,编解码器25,D/A转换组件26(D/A转换器261和262),A/D转换器263和放大器组件27。
在图1的例子中,双向电话通信部分2从6个单向扩音器MC1到MC6中接收作为输入的语音。单向扩音器被安排成对对该扩音器位置前面具有极强的方向性。CPU24执行整个双向电话通信部分2的控制处理。
编解码器25编码语音。
DSP22执行各种信号处理,诸如是滤波处理和扩音器选择处理,这将在随后详细说明。
DSP23用做回波抵消器。
在图1中,A/D转换器211到213是作为A/D转换器组件21的例子示出的,A/D转换器263是作为A/D转换器的例子示出的,D/A转换器261和262是作为D/A转换器组件26的例子示出的,放大器271和272是作为放大器组件27的例子示出的。
各扩音器对MC1和MC4、MC2和MC5、MC3和MC6被输入给A/D转换器211到213,用于将两信道模拟信号转换为数字信号。
在A/D转换器211到213中转换的扩音器MC1到MC6的语音收集信号被输入给DSP22,并经受各种随后说明的信号处理。
作为DSP22的一个处理结果,扩音器MC1到MC6中的一个被选择。在DSP22中,使用上述的扩音器的单向特性来执行扩音器的选择。
DSP22的处理结果被输出给DSP23并经过回声消除处理。
DSP23的处理结果通过D/A转换器261和262转换为模拟信号。D/A转换器261的输出根据需要编解码器(CODEC)25编码,并通过放大器271输出。
同样,D/A转换器262的输出经过放大器272作为双向电话通信部分2的扬声器28的语音输出。也就是,使用双向电话通信部分2的与会者通过扬声器28能听到会议室里演讲者发出的语音。
双向电话通信部分2通过A/D转换器263将其它参与者的语音输入至DSP23,并执行回声消除处理。同样,其它参与者的语音通过未示出的路径施加于扬声器28并作为语音输出。
需要注意的是:当使用没有方向性的扩音器时,扩音器周围的所有语音都被收集,因此,演讲者语音和周围噪声的S/N(信噪比)不佳。为了防止这一点,在本实施例中,通过采用单向扩音器收集语音,改进了具有周围噪声的信噪比(S/N)。
下一步,将说明DSP22执行的处理。
由DSP22执行的主处理是选择和转换扩音器的处理。即,当使用双向电话通信部分2的多个与会者同时讲话时,他们的语音被混合并且难以被其他人听见,因此,只有所选择的扩音器的语音信号才作为图1中的信号S271输出。
为了准确地执行当前的处理,执行下面作为例子而解释的各种信号处理。
(a)扩音器信号的频带分离和电平转换处理;
(b)判断演讲开始和结束的处理;
(c)与演讲者同方向的扩音器的检测处理,分析每个扩音器的语音收集信号和判断面向演讲者的扩音器;
(d)与演讲者同方向的扩音器的转换定时判断处理,和面对被检测到的演讲者的扩音器信号的选择/转换处理。
下面,将说明上述各信号处理。
(a)扩音器信号的电平频带分离和电平转换。
对启动扩音器选择处理的触发器之一执行判断演讲开始和结束的处理。为了该目的,对每个扩音器信号都要进行带通滤波(下文中称为BPF)处理和电平转换处理。
图2仅示出了在BPF处理和电平转换处理中6个扩音器MC1道MC6中的一个信道(CE)。电平BPF处理和电平转换处理电路包括:BPF221a到221f(总称之为BPF组件221),其中的每一个具有100到600Hz、100到250Hz、250到600Hz、600到1500Hz、1500到4000Hz和4000到7500Hz的带通特征;以及电平转换器222a到222g(总称之为电平转换组件222),用于对原始扩音器语音收集信号和上述带通语音收集信号执行电平转换。
每一个电平转换器包括:信号绝对值处理部分223和峰值保持处理部分224。因此,如以作为例子的波形曲线所示,信号绝对值处理部分将由虚线指出的输入负信号的代码反相,和将该输入负信号转换为正信号。然后,峰值保持处理部分224保持信号绝对值处理部分223输出信号的绝对值。
b)判断演讲开始和结束的处理。
当在图2所示的扩音器信号电平转换处理部分222b中经过声压电平转换的声压电平数据通过100到600Hz的BPF变为预定的值或更大时,DSP22判断演讲开始;当预定时间内(例如0.5秒)该数据变为预定值或更小时,判断演讲结束。
c)与演讲者同方向的扩音器的检测处理
图3实施例所示的单向扩音器的特征用于演讲者方向的检测。
如图3所示,在单向扩音器中,频率特征和电平特征根据语音从演讲者到达扩音器的角度而变化。演讲者图3中,演讲者位于离双向电话通信部分2有1.5m距离处,示出了以固定的时间间隔对由各扩音器收集的语音执行FFT的结果。该x轴表示频率,y轴表示时间,z轴表示信号电平。在XY平面上为每一特定频率绘制的线指出参考图2说明的BPF处理的截止频率,并且这些线之间的频带电平通过图2中的BPF221b到221f变成用于处理的数据。
各频带的BPF输出电平分别经过适当加权处理(例如,当假设1dBFs级时,0dBFs的加权值将为“0”,-3dBFs的加权值为“3”)。处理精度由该加权步骤决定。
利用每一取样时钟执行上述加权处理,各扩音器的加权值相加,取某一些抽样的平均值,具有最小(或最大)总值的扩音器被判定为面向演讲者的扩音器。在表1中可以看到这个结果。
在表1的实例里,MIC1有最小的总值,因此判断声源在扩音器1的方向。该结果以声源方向中的扩音器号码的形式被保存。
表1
  BPF1   BPF2   BPF3   BPF4   BPF5   TOTAL
  MIC1   20   20   20   20   20   100
  MIC2   25   25   25   25   25   125
  MIC3   30   30   30   30   30   150
  MIC4   40   40   40   40   40   200
  MIC5   30   30   30   30   30   150
  MIC6   25   25   25   25   25   125
d)演讲者方向的扩音器的转换定时判断处理,以及面向检测到的演讲者扩音器信号的选择/转换处理。
当某一演讲者的演讲(比如,扩音器MC1)结束时,其它方向(比如,扩音器MC2)有新的演讲发生,在b)判断演讲开始和结束的处理中已说明,从先前演讲者的扩音器(MC1)信号电平变为预定值或更小时的一定时间后(比如0.5秒),判断该演讲者的演讲结束。
当由于后续演讲者的演讲开始而导致扩音器(MC2)的信号电平变为一预定值或更大时,面向该后续演讲者的扩音器被确定为语音收集扩音器并启动扩音器信号选择和转换处理。
当在先演讲者的演讲(扩音器MC1)正在进行的同时重新出现来自其他方向的更大声的演讲(该后续演讲者(扩音器MC2))时,扩音器的判断和转换处理在后续演讲者的演讲开始(当扩音器MC2的信号电平变为预定值或更大时)的某一时间后(比如0.5秒)开始。
扩音器的判断和转换处理按如下方式执行。
即,当在第一演讲者(扩音器MC1)演讲完成前出现了比当前选择的演讲者演讲语音更大的演讲者(扩音器MC2)时,来自扩音器MC2的声压电平变高。结果,在(c)演讲者方向的扩音器的检测处理中,在上表中MC1和MC2的值被倒置,声源方向的扩音器号就从扩音器MC1改变成MC2,并且执行扩音器信号选择/转换处理。
如图4中所示,扩音器信号选择/转换处理是由6个乘法器电路和具有6个输入端的加法器构成的。为了选择扩音器信号,通过把连接到将被选择的扩音器信号上的乘法器的信道增益(CH增益)设置为“1”和把其他乘法器的信道增益设置为“0”,[选择的扩音器信号×1]和[其它扩音器信号×0]的处理结果在加法器中相加,并且输出预期的扩音器选择信号。
注意:在转换扩音器前后的信道增益(比如,CH1增益和CH2增益)是例如在10毫秒内逐渐变化的。如上详细描述,根据所述双向电话通信部分2,可以使用单向扩音器的特征利用最佳的S/N收集演讲者的语音和在多个扩音器信号中适当选择一个扩音器信号,并且将该选择的扩音器信号和选择的扩音器信息(扩音器号1到6)提供给后一级中的装置。
第一实施例
下面,将说明第一实施例的语音处理装置。
图5是第一实施例的语音处理装置1的框图。
如图5所示,语音处理装置1包括:上述说明的双向电话通信部分2、语音识别处理部分3和声纹寄存器4。
语音识别处理部分3包括:A/D转换器31和识别处理部分32,识别处理部分32包括CPU321和声纹识别部分322。
注意的是:本发明的扩音器选择装置相当于第一实施例中的双向电话通信部分2。
本发明中声纹识别装置相当于第一实施例中的声纹识别部分322。
本发明中数据处理装置相当于第一实施例中的CPU321。
例如通过将其设置于会议室圆桌中央使用根据第一实施例的语音处理装置1,
双向电话通信部分2提供多个、比如6个面向各与会者的扩音器,接收与会者的语音,选择一个扩音器信号输出到语音识别处理部分3,并通知所选择的扩音器号。
语音识别处理部分在双向电话通信部分2中对选择的扩音器信号执行处理,确定演讲者和输出演讲者代码。
声纹积存器4存储演讲者代码,以通过两者相互关联识别演讲者和演讲者的声纹数据,而这将被CPU321参考用于声纹匹配。要注意的是:在图5所示语音处理装置1的双向电话通信部分2中,A/D转换器组件21不是由结合图1所解释的两信道A/D转换器组成,而是由分别用于扩音器的一信道A/D转换器211到216组成。图5所示的语音处理装置1的双向电话通信部分2不使用扬声器28,因此,围绕它的部分和执行回声消除处理的DSP23不再需要,并在图5中省略。
另外,在图5所示的语音处理装置1中,在双向电话通信部分2和语音识别处理部分3被集成到一起的情况下,由双向电话通信部分2选择的扩音器信号S261不必作为模拟信号提供给语音识别处理部分3,因此,由虚线指出的数字信号S22被提供给语音识别处理部分3。然而,在下面的说明中假设提供了模拟信号(信号S261)。
如以上说明的,所选择的扩音器信息(1至6的扩音器号)作为MC_SEL提供给语音识别处理部分3。
语音识别处理部分3包括:A/D转换器31和语音识别处理部分32,并且语音识别部分32包括CPU321和声纹识别部分322。
A/D转换器31接收双向电话通信部分2选择的输入扩音器的模拟信号并同样转换为数字信号。
语音识别装置部分32接收A/D转换器31的数字扩音器信号作为输入并得到双向电话通信部分2选择的扩音器信号。
因此,向语音识别处理部分32提供扩音器信号,该扩音器信号是通过双向电话通信部分2和其中的扩音器信息MC_SEL(扩音器号1到6),按照扩音器的转换顺序更新的。
CPU321控制整个语音识别处理部分32,并通过检查后面说明的声纹数据具体地确定演讲者。
声纹识别部分322利用声纹可识别周期单元对经过A/D转换器31数字转换的扩音器信号执行声纹处理,并根据CPU321的指令产生声纹数据。
这里,可以使用各种方法设置声纹可识别周期。
例如,它可以是预定的3秒短周期,或者根据声纹识别部分322的声纹识别能力设置最小周期。可选择地,可以设置为比一个短语更短的周期。
因此,声纹可识别周期可以根据作为声纹识别引擎应用到语音识别装置1上的声纹识别部分322的声纹识别能力和使用语音处理装置1的应用和条件灵活地加以设置。只要应用和条件允许,就能设定最小周期。
在当前实施例中,声纹可识别周期单元被设置为3秒。
下面,将参考图6A到图6G说明声纹识别处理部分322的操作。
图6A到图6G示出了当个人A、个人B和个人C依次做演讲时语音处理装置1的处理操作。
首先,图6A中,朝上的箭头指出声纹识别开始,朝下的箭头指出声纹识别结束。此处,从声纹识别开始到结束占用3秒钟,并且声纹识别部分322以3秒为一单元执行声纹识别处理以产生声纹数据。
图6B中,个人A的演讲数据经过双向电话通信部分2和A/D转换器31被声纹识别部分322重新获得。
在声纹识别部分322中,作为一声纹识别单元,每3秒生成基于个人A演讲数据的声纹数据,并且将数据存储在未示出的识别处理部分32的缓存器中。
图6C示出了演讲数据承受声纹处理并且声纹数据被存储在缓存器中。
在图6C中,在个人A演讲数据中刚好在演讲结束之前的数据长度小于声纹处理所必须的3秒,因此,不能执行声纹处理。
图6D示出了利用CPU321对存储在缓存器中的声纹数据连续进行的处理。
在CPU321中,对照预先存储在声纹寄存器4中的声纹数据连续检查存储在该缓存器中的声纹数据。由于相应于演讲者数据的声纹数据被存储在声纹寄存器4中,CPU321基于作为检查结果的演讲者数据推定演讲者为个人A。
在个人识别处理中,根据由双向电话通信部分2提供的扩音器转换信号MC_SEL,识别精度能进一步改善。
即,当其中的扩音器号和演讲者数据相互关联的数据预先被存储到识别处理部分32中时,可以通过对照与该扩音器号对应的演讲者数据检查扩音器转换信号MC_SEL的数据(1到6)来确定演讲者。
例如,可以设置为:将基于扩音器转换信号MC_SEL确定的演讲者数据与上述由声纹匹配所确定的演讲者数据进行比较,并只在两者匹配时才对扩音器信号执行处理。
另外,可以设置为,当基于扩音器转换信号MC_SEL确定的演讲者数据和上述由声纹匹配所确定的演讲者数据不匹配时,声纹匹配结果更为精确的被判定,并且在由声纹匹配所确定的演讲者数据的基础上执行对该处理扩音器信号的处理。
在图6D中,与图6C中情况相比没有发生时间滞后,但是由于如上所述,个人识别是在用于CPU321中执行的处理的时间之后执行的,所以,存在右移处理时间量的时间移动。
图6E示出了利用个人识别所完成的个人A的演讲数据。
如上所解释的,利用个人识别所完成的演讲数据(扩音器信号)可以作为图5所示的信号S3被连续地输出并且在未示出的硬盘驱动器(HDD)或其它外部存储器中累积以用于每个演讲者数据。
这里,由于在个人A的演讲数据里,正好在演讲结束前的数据长度小于3秒,所以不能对数据的执行识别处理,但是可以被添加和作为个体A的演讲数据输出。
可替换地,作为图5中信号S3的输出,只有由CPU321确定的演讲数据(在这种情况下是指出个体A的数据)才可以被输出。
之后,同样当在双向电话通信部分2中所选择的扩音器从#4变为#2、并且个人B的演讲开始时,操作与如上说明的对个人A演讲数据的处理相同。
在图6所示的个人B的演讲中,由于取样数据的时间长度小于作为一声纹识别处理周期单元的3秒,所以,不仅是在演讲结束时、而且还在演讲开始时,都存在不能对其执行个人识别的部分。在这种情况下,执行一处理以对作为个人B演讲的输出进行添加。
之后,同样,当在双向电话通信部分2中所选择的扩音器从#2移到#1且个人C开始演讲时,操作与如上说明的对个人A的演讲数据的处理操作相同。
上面解释了根据本发明语音处理装置的第一实施例。
根据第一实施例中的语音处理装置1,即使是在因分别面向多个与会者的扩音器而使许多人对着语音处理装置1的演讲重叠的情况下,也可以通过提供给语音处理装置1的双向电话通信部分2的特征分析声压电平以用于各语音的每个频带,规定主讲者的扩音器信号,并将该语音信号给予语音识别处理部分3。
因此,在语音识别处理部分3中,即使当多个语音被同时输入时,也能够尽可能地阻止导致错误识别处理的可能性,并且可以适当地判断主讲者的语音和执行处理。
语音识别处理部分3利用声纹可识别周期单元对给出的语音信号(扩音器信号)执行语音识别处理,针对存储在声纹寄存器4中的声纹数据进行检查,规定匹配演讲者数据并对该数据进行处理。
因此,扩音器信号能够被作为已经被用于执行了个人识别的演讲者数据而被处理。
本实施例不局限于图5所示的内容,并且可以做各种改进。
图7为图5所示当前实施例的语音处理装置1的结构改进的例子。
如图7所示,CPU321,声纹识别部分322和声纹寄存器4可以集成配置。
第二实施例
下面,将解释本发明的第二实施例。
图8的框图示出了第二实施例中的语音处理装置1a的结构。
与第一实施例的语音处理装置1相比,语音处理装置1a的不同点在于还提供了属性数据处理部分5。
该属性数据处理部分5具有属性数据存储器51。
注意:本发明中属性数据存储器装置相当于本实施例中的属性数据存储器51。
本发明的数据处理装置相当于本实施例中的属性数据处理部分5。
在本实施例中,语音识别处理部分3输出由语音识别结果规定的演讲者数据S3。
属性数据处理部分5接收演讲者数据S3作为输入,针对存储在属性数据存储器51中的属性数据进行检查并输出属性数据S5。
属性数据存储器51通过使两者关联存储各演讲者数据和属性数据。
属性数据是每个演讲者诸如姓名,团体,性别和业余爱好等的个人信息,并且能够通过从外部对属性存储器51进行访问来更新。
图9示出了对属性数据S5进行处理的例子。
如图9所示,使用一外部显示装置(未示出)能够将演讲者的属性数据输出到屏幕上。也可以通过语音输出。
根据本实施例的语音处理装置1a,即使是在经分别面向多个与会者的扩音器而使多个个人对语音处理装置1的演讲重叠的情况下,还是能够通过提供给语音处理装置1a的双向电话通信部分2的特征对声压电平进行分析以用于各语音的频带,由此规定主讲者的扩音器信号,并且该语音信号提供给语音识别处理部分3。
因此,在语音识别处理部分3中,即使当多个语音被同时输入时,仍能够尽可地避免导致错误的识别处理的可能性,并且可以适当判断主讲者的语音和执行处理。
语音识别处理部分3利用声纹可识别周期单元对给出的语音信号(扩音器信号)执行语音识别处理,针对存储在声纹寄存器4中的声纹数据进行检查,并将匹配演讲者数据给予属性数据处理部分5。
在属性数据处理部分5中,对照属性数据存储器51中的数据检查输入演讲者数据,并且其属性数据被显示在未示出的外部显示装置等上,因此,与会者不需要参考分发的文件等,和能够专注于演讲,使会议能顺利进行。
第三实施例
下面将解释本发明的第三实施例。
图10的框图示出了第三实施例的语音处理装置1b的结构。
与第一实施例的语音处理装置1相比,语音处理装置1b的不同点在于语音识别部分323还被提供给识别处理部分32b。
需要注意的是,本发明中的语音转换装置对应于本实施例中的语音识别部分323。
语音识别部分323的语音识别与在第一实施例中解释的由声纹识别执行的个人识别处理并行执行,或者串行处理。
语音识别部分323将经过双向电话通信部分2和A/D转换器31取得的扩音器信号转换为作为语音识别结果的字符串数据(文本数据)。
转换后的字符串数据作为信号S3b输出。
根据当前实施例的语音处理装置1b带来如第一实施例中同样的效果。
也就是,根据本实施例的语音处理装置1b,即使是在经分别面向多个与会者的扩音器而使多个各人对着语音处理装置1b的演讲重叠的情况下,仍然可以能通过提供给语音处理装置1a的双向电话通信部分2的特征对声压电平进行分析一用于各语音的每个频带,规定主讲者的扩音器信号,并且该语音信号被提供给语音识别处理部分3。
因此,在语音识别处理部分3中,即使当多个语音被同时输入时,也能够尽可能地避免导致错误的识别处理的可能性,并且可以适当地判断主讲者的语音和执行处理。
语音识别处理部分3利用声纹可识别周期单元对给出的语音信号(扩音器信号)执行语音识别处理,针对存储在声纹寄存器4中的声纹数据进行检查,并规定匹配的演讲者数据。
当演讲者被规定,由语音识别部分323对语音信号(扩音器信号)执行语音识别处理,并且在外部存储器中为每个演讲者存储该演讲数据(扩音器信号)。
因此,例如,在会后创建备忘录的情况下,由于存储了与每个演讲者相关的各自的演讲数据,所以,数据整理就变得很容易。
本实施例并不局限于图10中所示的内容,和可以做各种修改。
图11是图10所示的本实施例语音处理装置1b的改进结构的例子。
在图10所示的语音处理装置1b中,CPU321b、语音识别部分322、语音识别部分323和声纹寄存器4被集成配置,并且还提供了演讲者数据存储部分6作为每一演讲者数据的输出目的。
演讲者数据存储部分6被结构成能够存储与多个演讲者中的每一个相关的演讲者数据,如图11所示。
根据图11所示的语音处理装置1b,特定演讲者的演讲数据可以根据该语音处理装置的使用状况以声音形式经声卡输出、作为视频(S3b_2)输出给外部显示装置、和作为演讲记录存储在上述演讲者数据存储部分6中。
上面解释的实施例是为了容易理解本发明,而并不是对本发明做出限制。因此,上述实施例所披露的各要素包括属于本发明技术领域设计和等效物中的所有修改。

Claims (13)

1.一种语音处理装置,包括:
被安排成指向各自不同声音收集方向的多个扩音器;
扩音器选择装置,用于根据由所述多个扩音器收集的声音的声压选择一个扩音器;
声纹识别装置,用于在一声纹可识别周期内基于由所述一个扩音器收集的语音信号连续地执行声纹识别并生成声纹数据;和
数据处理装置,用于根据由所述声纹识别装置产生的声纹数据处理由所述一个扩音器收集的语音信号。
2.如权利要求1所述的语音处理装置,还包括一声纹数据存储装置,用于通过使两者相互关联存储演讲者数据和声纹数据。
其中,通过与通过针对存储在所述声纹数据存储装置中的声纹数据进行检查获得的演讲者数据相互关联,所述的数据处理装置对由一声纹识别装置产生的声纹数据进行处理。
3.如权利要求2所述的语音处理装置,其中:
使得存储在所述声纹数据存储装置中的演讲者数据对应于所述多个扩音器中的每一个;以及
在对通过针对存储在声纹数据存储器中的声纹数据执行检查所获得的第一演讲者数据和对应于所述一个扩音器的第二演讲者数据进行比较所得结果的基础上,所述数据处理装置对由所述一个扩音器收集的语音信号进行处理。
4.如权利要求3所述的语音处理装置,其中,所述数据处理装置比较所述第一演讲者数据和所述第二演讲者数据,和只有当两者相互匹配时,才通过与所述第二演讲者数据相关联对从所述一个扩音器输出的语音信号进行处理。
5.如权利要求3所述的语音处理装置,其中,所述的数据处理装置比较所述第一演讲者数据与第二演讲者数据,并且,只有当两者不匹配时,才通过与所述第一演讲者数据相关联对从所述一个扩音器输出的语音信号进行处理。
6.如权利要求2所述的语音处理装置,还包括一语音转换装置,用于将语音信号转换为字符串数据,其中
所述的语音转换装置将由所述一个扩音器收集的语音信号转换为字符串数据;和
所述的数据处理装置通过与针对所述语音信号执行检查所获得的演讲者数据相关联对所述的字符串数据进行处理。
7.如权利要求3所述的语音处理装置,还包括一语音转换装置,用于将语音信号转换为字符串数据,其中
所述的语音转换装置将由所述一个扩音器收集的语音信号转换为字符串数据;并且
所述的数据处理装置通过与针对所述语音信号执行检查所获得的演讲者数据相关联对所述字符串数据进行处理。
8.如权利要求4所述的语音处理装置,还包括一语音转换装置,用于将语音信号转换为字符串数据,其中
所述的语音转换装置将由所述一个扩音器收集的语音信号转换为字符串数据;并且
所述的数据处理装置通过与针对所述语音信号执行检查所获得的演讲者数据相关联来处理所述的字符串数据。
9.如权利要求5所述的语音处理装置,还包括一语音转换装置,用于将语音信号转换为字符串数据,其中
所述的语音转换装置将由所述一个扩音器收集的语音信号转换为字符串数据;和
所述的数据处理装置通过与针对所述的语音信号执行检查所获得的演讲者数据相关联处理所述的字符串数据。
10.一种语音处理装置,包括:
安排成指向各自不同声音收集方向的多个扩音器;
扩音器选择装置,用于根据由所述多个扩音器收集的语音的声压选择一个扩音器;
声纹识别装置,用于在声纹可识别周期内基于所述一个扩音器收集的语音信号连续地执行声纹识别并产生声纹数据;以及
声纹数据存储器装置,用于通过两者的关联存储演讲者数据和声纹数据;
属性数据存储装置,用于通过两者的关联存储演讲者数据和属性数据,以及
数据处理装置,用于通过使由声纹识别装置生成的声纹数据和存储在所述声纹数据存储装置中的声纹数据相匹配规定演讲者数据,并通过使所述演讲者数据与对应的属性数据相互关联对演讲者数据进行处理。
11.如权利要求10所述的语音处理装置,其中:
使得存储在所述声纹数据存储装置中的演讲者数据对应于所述多个扩音器中的每一个;并且
在将通过针对存储在声纹数据存储装置中的声纹数据执行检查所获得的第一演讲者数据与对应于所述一个扩音器的第二演讲者数据进行比较的比较结果的基础上,所述的数据处理装置处理对应于所述第一演讲者数据的属性数据。
12.如权利要求11所述的语音处理装置,其中,所述的数据处理装置比较所述第一演讲者数据和所述的第二演讲者数据,并且,只有当这两者相互匹配时,才处理对应于所述第二演讲者数据的属性数据。
13.如权利要求11所述的语音处理装置,其中,所述的数据处理装置比较所述第一演讲者数据和所述第二演讲者数据,并且,只有当这两者相互不匹配时,才处理对应于所述第一演讲者数据的属性数据。
CNB2004100794591A 2003-08-04 2004-08-04 语音处理装置 Expired - Fee Related CN1287353C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003286256A JP4085924B2 (ja) 2003-08-04 2003-08-04 音声処理装置
JP286256/2003 2003-08-04
JP286256/03 2003-08-04

Publications (2)

Publication Number Publication Date
CN1584982A CN1584982A (zh) 2005-02-23
CN1287353C true CN1287353C (zh) 2006-11-29

Family

ID=34269029

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100794591A Expired - Fee Related CN1287353C (zh) 2003-08-04 2004-08-04 语音处理装置

Country Status (3)

Country Link
US (1) US7672844B2 (zh)
JP (1) JP4085924B2 (zh)
CN (1) CN1287353C (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7995713B2 (en) * 2006-04-03 2011-08-09 Agere Systems Inc. Voice-identification-based signal processing for multiple-talker applications
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
CN101039359B (zh) * 2007-04-30 2011-11-16 华为技术有限公司 电话会议中提示发言人信息的方法、设备和***
US20090023479A1 (en) * 2007-07-17 2009-01-22 Broadcom Corporation Method and system for routing phone call audio through handset or headset
CN101287044B (zh) * 2008-05-14 2012-04-25 华为技术有限公司 声音处理的方法、设备及***
US20090287489A1 (en) * 2008-05-15 2009-11-19 Palm, Inc. Speech processing for plurality of users
TWI533198B (zh) * 2011-07-22 2016-05-11 社交通訊公司 於虛擬區域及實體空間之間通訊的技術
CN102263643B (zh) * 2011-08-22 2014-04-23 盛乐信息技术(上海)有限公司 基于声纹识别的数据通信***及方法
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
CN102436812B (zh) * 2011-11-01 2013-05-01 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN102572372B (zh) * 2011-12-28 2018-10-16 中兴通讯股份有限公司 会议纪要的提取方法和装置
US9401058B2 (en) * 2012-01-30 2016-07-26 International Business Machines Corporation Zone based presence determination via voiceprint location awareness
KR101325867B1 (ko) * 2012-02-24 2013-11-05 주식회사 팬택 음성 인식을 이용한 사용자 인증 방법, 이를 위한 장치 및 시스템
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9742573B2 (en) * 2013-10-29 2017-08-22 Cisco Technology, Inc. Method and apparatus for calibrating multiple microphones
US20150149173A1 (en) * 2013-11-26 2015-05-28 Microsoft Corporation Controlling Voice Composition in a Conference
US10348724B2 (en) 2014-04-07 2019-07-09 Barco N.V. Ad hoc one-time pairing of remote devices using online audio fingerprinting
US10210885B1 (en) 2014-05-20 2019-02-19 Amazon Technologies, Inc. Message and user profile indications in speech-based systems
JP6370172B2 (ja) * 2014-09-02 2018-08-08 株式会社Kddiテクノロジー 通話装置、声紋登録方法およびプログラム
US20160163331A1 (en) * 2014-12-04 2016-06-09 Kabushiki Kaisha Toshiba Electronic device and method for visualizing audio data
CN107464570A (zh) * 2016-06-06 2017-12-12 中兴通讯股份有限公司 一种语音过滤方法、装置及***
CN106782571A (zh) * 2017-01-19 2017-05-31 广东美的厨房电器制造有限公司 一种控制界面的显示方法和装置
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN109299324B (zh) * 2018-10-19 2022-03-04 四川巧夺天工信息安全智能设备有限公司 一种标签式视频文件的检索方法
JP6632019B1 (ja) * 2019-08-06 2020-01-15 株式会社サークル・ワン 監視システム
CN110970033A (zh) * 2019-12-02 2020-04-07 浙江理工大学 一种声纹识别自动签字装置及其识别方法
CN111429914B (zh) * 2020-03-30 2023-04-18 招商局金融科技有限公司 麦克风控制方法、电子装置及计算机可读存储介质
CN113965853B (zh) * 2021-10-19 2024-01-05 深圳市广和通无线股份有限公司 模组设备、音频处理方法及相关设备

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62163445A (ja) * 1986-01-14 1987-07-20 Mitsubishi Electric Corp 電話切換装置
JPS6415880A (en) 1987-07-09 1989-01-19 Easel Kk Arithmetic circuit
JPH04122184A (ja) 1990-09-13 1992-04-22 Nec Corp テレビ会議システム
JPH10276417A (ja) 1997-03-31 1998-10-13 Matsushita Electric Works Ltd テレビ会議システム
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JP2000029486A (ja) 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法
JP2000080828A (ja) 1998-09-07 2000-03-21 Denso Corp 車両制御装置
US6967682B1 (en) 1999-03-29 2005-11-22 Minolta Co., Ltd. Photoelectric converting device
IL129451A (en) * 1999-04-15 2004-05-12 Eli Talmor System and method for authentication of a speaker
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6542600B1 (en) * 1999-06-22 2003-04-01 At&T Corp. Method for improved resource management in a telecommunication application platform
JP2001051694A (ja) 1999-08-10 2001-02-23 Fujitsu Ten Ltd 音声認識装置
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US6453290B1 (en) * 1999-10-04 2002-09-17 Globalenglish Corporation Method and system for network-based speech recognition
JP3548706B2 (ja) 2000-01-18 2004-07-28 日本電信電話株式会社 ゾーン別収音装置
US6230138B1 (en) * 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
US6647368B2 (en) * 2001-03-30 2003-11-11 Think-A-Move, Ltd. Sensor pair for detecting changes within a human ear and producing a signal corresponding to thought, movement, biological function and/or speech
TWI278782B (en) * 2001-08-24 2007-04-11 Toshiba Corp Personal recognition apparatus
JP2003122394A (ja) 2001-10-16 2003-04-25 Yamatake Corp 識別対象を認識する方法と装置及び該装置を搭載したロボット
US7054811B2 (en) * 2002-11-06 2006-05-30 Cellmax Systems Ltd. Method and system for verifying and enabling user access based on voice parameters
US6996526B2 (en) * 2002-01-02 2006-02-07 International Business Machines Corporation Method and apparatus for transcribing speech when a plurality of speakers are participating
US7310517B2 (en) * 2002-04-03 2007-12-18 Ricoh Company, Ltd. Techniques for archiving audio information communicated between members of a group
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
US6931113B2 (en) * 2002-11-08 2005-08-16 Verizon Services Corp. Facilitation of a conference call
US7734025B2 (en) * 2003-02-28 2010-06-08 Grape Technology Group, Inc. Methods and systems for providing on-line bills for use in communications services
US7617094B2 (en) * 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
US20040186724A1 (en) * 2003-03-19 2004-09-23 Philippe Morin Hands-free speaker verification system relying on efficient management of accuracy risk and user convenience
JP3859612B2 (ja) 2003-04-10 2006-12-20 株式会社アドバンスト・メディア 会議録音・書き起こしシステム
JP2005055666A (ja) 2003-08-04 2005-03-03 Sony Corp 音声処理装置
JP2005055667A (ja) 2003-08-04 2005-03-03 Sony Corp 音声処理装置
US7305078B2 (en) * 2003-12-18 2007-12-04 Electronic Data Systems Corporation Speaker identification during telephone conferencing
KR20050081470A (ko) * 2004-02-13 2005-08-19 주식회사 엑스텔테크놀러지 음성인식 가능한 메시지 녹음/재생방법

Also Published As

Publication number Publication date
JP2005055668A (ja) 2005-03-03
US7672844B2 (en) 2010-03-02
US20050060148A1 (en) 2005-03-17
JP4085924B2 (ja) 2008-05-14
CN1584982A (zh) 2005-02-23

Similar Documents

Publication Publication Date Title
CN1287353C (zh) 语音处理装置
US11115541B2 (en) Post-teleconference playback using non-destructive audio transport
CN108922538B (zh) 会议信息记录方法、装置、计算机设备及存储介质
EP3254435B1 (en) Post-conference playback system having higher perceived quality than originally heard in the conference
EP3254453B1 (en) Conference segmentation based on conversational dynamics
EP3254454B1 (en) Conference searching and playback of search results
EP3254456B1 (en) Optimized virtual scene layout for spatial meeting playback
EP3254455B1 (en) Selective conference digest
EP3254279B1 (en) Conference word cloud
US20190370283A1 (en) Systems and methods for consolidating recorded content
CN1746973A (zh) 分布式语音识别***和方法
WO2016187910A1 (zh) 一种语音文字的转换方法及设备、存储介质
WO2017020011A1 (en) Searching the results of an automatic speech recognition process
CN104851423B (zh) 一种声音信息处理方法及装置
CN1714390A (zh) 语音识别设备和方法
TW201637003A (zh) 音訊處理系統
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
JP2006154484A (ja) 音声処理装置,音声処理方法,プログラム及び記録媒体
CN116110373B (zh) 智能会议***的语音数据采集方法及相关装置
JP2013206116A (ja) 音声データ検索装置、音声データ検索方法および音声データ検索プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20061129

Termination date: 20150804

EXPY Termination of patent right or utility model