JP2007233239A - 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム - Google Patents
発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム Download PDFInfo
- Publication number
- JP2007233239A JP2007233239A JP2006057611A JP2006057611A JP2007233239A JP 2007233239 A JP2007233239 A JP 2007233239A JP 2006057611 A JP2006057611 A JP 2006057611A JP 2006057611 A JP2006057611 A JP 2006057611A JP 2007233239 A JP2007233239 A JP 2007233239A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- sound source
- block
- section
- conference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】 会議中の連続した区間に当該会議の場で収録された多チャネルの音声データから時刻毎の音源方向を推定する。そして、音源となる話者の存在範囲を推定して時刻毎にどの話者が発話しているかを同定する。これから目的話者の位置ベクトルを推定するとともに、他の話者の雑音空間相関行列を計算して、目的話者の位置ベクトルと、目的話者に対する他の話者の雑音空間行列に基づいてフィルタを生成し、当該フィルタを用いて目的話者のみの発話を分離して出力する。
【選択図】 図1
Description
Jitendra Ajmera, et al. "Clustering and Segmenting speakers and their locations in meetning," Proc. ICASSP 2004, Vol.I, pp.605-608, 2004。
この場合、図6に示すように雑音源と目的音源(発話)との重畳区間が十分に長ければ、独立成分分析(ICA)を用いたブラインド音源分離(BSS)など、従来周知の方法によって雑音と話者の発話とを分離することが可能である。(例えば、非特許文献2参照。)
Te-Won Lee, "Independent Component Analysis," Kluwer Academic Publishers, 1998
Don Johnson and Dan Dudgeon, "Array signal processing," Prentice hall, 1993
なお、単独発話の指標としては、すでに計算した固有値のうち、最大固有値と2番目に大きい固有値との比を、周波数軸上で平均したものを用いる。
また、アナログ/デジタル信号変換手段4は、信号変換モジュールとしてコンピュータに組み込んであってもよい。
2 マイクロフォンアレイ
2A マイクロフォン
3 ケーブル
4 アナログ/デジタル信号変換手段
5 記憶手段
6 音源方向推定手段
7 話者範囲推定手段
8 話者同定手段
9 話者位置ベクトル推定手段
10 雑音相関行列計算手段
11 フィルタ生成手段
12 フィルタリング手段
Claims (4)
- 会議中の連続した区間に当該会議の場で収録された多チャネルの音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する第1のステップと、
前記ピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する第2のステップと、
前記時刻毎の音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する第3のステップと、
第3のステップで得られたデータから目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する第4のステップと、
第3のステップで得られたデータから他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を計算する第5のステップと、
第4のステップで推定された話者の位置ベクトルと、第5のステップで計算された雑音空間相関行列からフィルタを生成する第6のステップと、
前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタを適用してフィルタリングを行い、目的とする話者のみの発話を分離して出力する第7のステップとからなることを特徴とする発話イベント分離方法。 - 会議中の連続した区間に、当該会議の場で収録された多チャネルの音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する音源方向推定手段と、
前記音源方向推定手段で検出されたピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する話者範囲推定手段と、
前記音源方向推定手段ならびに話者範囲推定手段によって得られた時刻毎の音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する話者同定手段と、
前記話者同定手段で得られたデータから、目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する話者位置ベクトル推定手段と、
前記話者同定手段で得られたデータから、他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を計算する雑音空間相関行列計算手段と、
前記話者位置ベクトル推定手段によって推定された位置ベクトルと、前記雑音空間相関行列計算手段によって計算された雑音空間相関行列からフィルタを生成するフィルタ生成手段と、
前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタを適用してフィルタリングを行い、目的とする話者のみの発話を分離して出力するフィルタリング手段とを備えたことを特徴とする発話イベント分離システム。 - 複数のマイクロフォンを放射状に配置して構成されたマイクロフォンアレイを用いて多チャネルの音声データを収録することを特徴とする請求項2記載の発話イベント分離システム。
- 会議中の連続した区間に、当該会議の場で収録された多チャネルの音声データがコンピュータに入力されてそのメモリに記憶され、
前記コンピュータに、
前記音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する第1のステップと、
前記ピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する第2のステップと、
前記時刻毎に推定された音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する第3のステップと、
第3のステップで得られたデータから、目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する第4のステップと、
第3のステップで得られたデータから、他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を算出する第5のステップと、
第4のステップで推定された話者の位置ベクトルと、第5のステップで計算された雑音空間相関行列からフィルタデータを生成する第6のステップと、
前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタデータに基づいてフィルタリングを行わせ、目的とする話者のみの発話を分離して出力する第7のステップとを実行させることを特徴とする発話イベント分離プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006057611A JP4565162B2 (ja) | 2006-03-03 | 2006-03-03 | 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006057611A JP4565162B2 (ja) | 2006-03-03 | 2006-03-03 | 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007233239A true JP2007233239A (ja) | 2007-09-13 |
JP4565162B2 JP4565162B2 (ja) | 2010-10-20 |
Family
ID=38553864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006057611A Expired - Fee Related JP4565162B2 (ja) | 2006-03-03 | 2006-03-03 | 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4565162B2 (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010026361A (ja) * | 2008-07-23 | 2010-02-04 | Internatl Business Mach Corp <Ibm> | 音声収集方法、システム及びプログラム |
JP2013011744A (ja) * | 2011-06-29 | 2013-01-17 | Mizuho Information & Research Institute Inc | 議事録作成システム、議事録作成方法及び議事録作成プログラム |
WO2014082445A1 (zh) * | 2012-11-29 | 2014-06-05 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和*** |
JP2015064473A (ja) * | 2013-09-25 | 2015-04-09 | 株式会社グラモ | 音声認識装置、方法、及びコンピュータプログラム |
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
GR1008860B (el) * | 2015-12-29 | 2016-09-27 | Κωνσταντινος Δημητριου Σπυροπουλος | Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα |
JP2018169473A (ja) * | 2017-03-29 | 2018-11-01 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及びプログラム |
CN108922553A (zh) * | 2018-07-19 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及*** |
JP2019066339A (ja) * | 2017-10-02 | 2019-04-25 | 株式会社日立製作所 | 音による診断装置、診断方法、および診断システム |
CN111370018A (zh) * | 2020-02-28 | 2020-07-03 | 维沃移动通信有限公司 | 音频数据的处理方法、电子设备及介质 |
CN111739553A (zh) * | 2020-06-02 | 2020-10-02 | 深圳市未艾智能有限公司 | 会议声音采集、会议记录以及会议记录呈现方法和装置 |
WO2021246304A1 (ja) * | 2020-06-01 | 2021-12-09 | ソニーグループ株式会社 | 信号処理装置、信号処理方法およびプログラム |
WO2022145015A1 (ja) * | 2020-12-28 | 2022-07-07 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
JP7517473B2 (ja) | 2020-12-28 | 2024-07-17 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308908B (zh) * | 2017-07-27 | 2021-04-30 | 深圳市冠旭电子股份有限公司 | 一种语音交互方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258788A (ja) * | 1996-03-19 | 1997-10-03 | Nippon Telegr & Teleph Corp <Ntt> | 音声分離方法およびこの方法を実施する装置 |
JP2006227328A (ja) * | 2005-02-18 | 2006-08-31 | Hitachi Ltd | 音声処理装置 |
JP2007047427A (ja) * | 2005-08-10 | 2007-02-22 | Hitachi Ltd | 音声処理装置 |
-
2006
- 2006-03-03 JP JP2006057611A patent/JP4565162B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258788A (ja) * | 1996-03-19 | 1997-10-03 | Nippon Telegr & Teleph Corp <Ntt> | 音声分離方法およびこの方法を実施する装置 |
JP2006227328A (ja) * | 2005-02-18 | 2006-08-31 | Hitachi Ltd | 音声処理装置 |
JP2007047427A (ja) * | 2005-08-10 | 2007-02-22 | Hitachi Ltd | 音声処理装置 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010026361A (ja) * | 2008-07-23 | 2010-02-04 | Internatl Business Mach Corp <Ibm> | 音声収集方法、システム及びプログラム |
JP2013011744A (ja) * | 2011-06-29 | 2013-01-17 | Mizuho Information & Research Institute Inc | 議事録作成システム、議事録作成方法及び議事録作成プログラム |
WO2014082445A1 (zh) * | 2012-11-29 | 2014-06-05 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和*** |
US8838447B2 (en) | 2012-11-29 | 2014-09-16 | Huawei Technologies Co., Ltd. | Method for classifying voice conference minutes, device, and system |
JP2015064473A (ja) * | 2013-09-25 | 2015-04-09 | 株式会社グラモ | 音声認識装置、方法、及びコンピュータプログラム |
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
US9626970B2 (en) | 2014-12-19 | 2017-04-18 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
GR1008860B (el) * | 2015-12-29 | 2016-09-27 | Κωνσταντινος Δημητριου Σπυροπουλος | Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα |
JP2018169473A (ja) * | 2017-03-29 | 2018-11-01 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及びプログラム |
US10748544B2 (en) | 2017-03-29 | 2020-08-18 | Honda Motor Co., Ltd. | Voice processing device, voice processing method, and program |
JP2019066339A (ja) * | 2017-10-02 | 2019-04-25 | 株式会社日立製作所 | 音による診断装置、診断方法、および診断システム |
CN108922553A (zh) * | 2018-07-19 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及*** |
CN108922553B (zh) * | 2018-07-19 | 2020-10-09 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及*** |
CN111370018A (zh) * | 2020-02-28 | 2020-07-03 | 维沃移动通信有限公司 | 音频数据的处理方法、电子设备及介质 |
CN111370018B (zh) * | 2020-02-28 | 2023-10-24 | 维沃移动通信有限公司 | 音频数据的处理方法、电子设备及介质 |
WO2021246304A1 (ja) * | 2020-06-01 | 2021-12-09 | ソニーグループ株式会社 | 信号処理装置、信号処理方法およびプログラム |
CN111739553A (zh) * | 2020-06-02 | 2020-10-02 | 深圳市未艾智能有限公司 | 会议声音采集、会议记录以及会议记录呈现方法和装置 |
CN111739553B (zh) * | 2020-06-02 | 2024-04-05 | 深圳市未艾智能有限公司 | 会议声音采集、会议记录以及会议记录呈现方法和装置 |
WO2022145015A1 (ja) * | 2020-12-28 | 2022-07-07 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
JP7517473B2 (ja) | 2020-12-28 | 2024-07-17 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4565162B2 (ja) | 2010-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4565162B2 (ja) | 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム | |
CN112088315B (zh) | 多模式语音定位 | |
Moattar et al. | A review on speaker diarization systems and approaches | |
Zmolikova et al. | Neural target speech extraction: An overview | |
US9626970B2 (en) | Speaker identification using spatial information | |
CN110111808B (zh) | 音频信号处理方法及相关产品 | |
JP6467736B2 (ja) | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム | |
Guo et al. | Localising speech, footsteps and other sounds using resource-constrained devices | |
JP6594839B2 (ja) | 話者数推定装置、話者数推定方法、およびプログラム | |
Abdelaziz | NTCD-TIMIT: A new database and baseline for noise-robust audio-visual speech recognition. | |
Wei et al. | Determining number of speakers from single microphone speech signals by multi-label convolutional neural network | |
US9460714B2 (en) | Speech processing apparatus and method | |
US20190341053A1 (en) | Multi-modal speech attribution among n speakers | |
CN111863005A (zh) | 声音信号获取方法和装置、存储介质、电子设备 | |
CN108781310A (zh) | 使用视频的图像来选择要增强的视频的音频流 | |
WO2013132216A1 (en) | Method and apparatus for determining the number of sound sources in a targeted space | |
CN115810209A (zh) | 一种基于多模态特征融合网络的说话人识别方法和装置 | |
CN115691539A (zh) | 基于视觉导引的两阶段语音分离方法及*** | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
WO2021164001A1 (en) | Method and system to improve voice separation by eliminating overlap | |
Shiroma et al. | Investigation on spatial and frequency-based features for asynchronous acoustic scene analysis | |
JP5672155B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 | |
Peng et al. | Multi frame size feature extraction for acoustic event detection | |
Asano et al. | Detection and separation of speech events in meeting recordings. | |
Rozgic et al. | Multimodal speaker segmentation in presence of overlapped speech segments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100706 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100707 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |