JP4728972B2 - インデキシング装置、方法及びプログラム - Google Patents
インデキシング装置、方法及びプログラム Download PDFInfo
- Publication number
- JP4728972B2 JP4728972B2 JP2007007947A JP2007007947A JP4728972B2 JP 4728972 B2 JP4728972 B2 JP 4728972B2 JP 2007007947 A JP2007007947 A JP 2007007947A JP 2007007947 A JP2007007947 A JP 2007007947A JP 4728972 B2 JP4728972 B2 JP 4728972B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- section
- acoustic model
- region
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 44
- 239000013598 vector Substances 0.000 claims description 145
- 238000000605 extraction Methods 0.000 claims description 52
- 238000009795 derivation Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 28
- 230000005236 sound signal Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 7
- 238000001514 detection method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 4
- 238000013139 quantization Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、インデキシング装置100のハードウェア構成を示したブロック図である。図1に示すとおり、インデキシング装置100は、CPU(Central Processing Unit)101、操作部102、表示部103、ROM(Read Only Memory)104、RAM(Random Access Memory)105、音声入力部106、記憶部107等を備え、各部はバス108により接続されている。
ルsnの混合数、cnm、unm、Unmはそれぞれ第2音響モデルsnの混合mの混合重み係数、平均ベクトル、対角共分散行列を表す。
次に、第2の実施形態のインデキシング装置100について説明する。なお、上述した第1の実施形態と同様の構成については、同一の符号を付与し、その説明を省略する。
101 CPU
102 操作部
103 表示部
104 ROM
105 RAM
106 音声入力部
107 記憶部
108 バス
11 音声特徴量抽出部
12 音声特徴量分割部
13 第1音響モデル生成部
14 学習領域抽出部
141 第1区間入力部
142 領域設定部
143 類似度算出部
144 領域スコア導出部
145 学習領域出力部
15 第2音響モデル生成部
16 特徴ベクトル導出部
17 クラスタリング部
18 インデキシング部
21 音声特徴量抽出部
22 第2音響モデル生成部
23 特徴ベクトル導出部
24 話者交代検出部
25 特徴ベクトル再導出部
Claims (11)
- 複数の話者の音声が含まれた音声信号から、各話者の話者性を表す音声特徴量を所定の時間長毎に抽出する抽出手段と、
前記音声特徴量を所定時間長からなる第1区間毎に分割する第1分割手段と、
前記第1区間毎に、当該第1区間に含まれる音声特徴量に基づいて第1音響モデルを生成する第1音声モデル生成手段と、
連続する所定数分の前記第1区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第1区間の第1音響モデルに基づいて算出する類似度算出手段と、
前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出手段と、
前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第2音響モデルを生成する第2音響モデル生成手段と、
前記音声特徴量を所定時間長からなる第2区間毎に分割する第2分割手段と、
前記学習領域毎の第2音響モデルと前記第2区間毎の音声特徴量とを用いて、各第2区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出手段と、
前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第2区間毎の音声特徴量を話者毎に分類するクラスタリング手段と、
前記クラスタリング手段による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング手段と、
を備えたことを特徴とするインデキシング装置。 - 前記類似度算出手段は、前記領域内に含まれる複数の前記第1区間の中から、二つの前記第1区間を選択する全ての組み合わせに対して、両第1区間における音声特徴量の類似度を夫々算出し、算出した類似度のうち所定の条件を満たす類似度を、当該領域の類似度とすることを特徴とする請求項1に記載のインデキシング装置。
- 前記類似度算出手段は、前記第1区間同士の夫々から算出した全ての類似度のうち、最小となる類似度を前記領域の類似度とすることを特徴とする請求項2に記載のインデキシング装置。
- 前記領域抽出手段は、一又は複数の領域を抽出することを特徴とする請求項1〜3の何れか一項に記載のインデキシング装置。
- 前記領域抽出手段は、前記領域に含まれる前記第1区間の個数又は当該第1区間の時間長に応じた値を、前記類似度に加味することを特徴とする請求項1〜4の何れか一項に記載のインデキシング装置。
- 前記特徴ベクトル導出手段は、前記領域毎の類似度に関する情報をベクトル成分とする、前記特徴ベクトルを導出することを特徴とする請求項1に記載のインデキシング装置。
- 前記第1区間の時間長と第2区間の時間長とが、略同等であることを特徴とする請求項1に記載のインデキシング装置。
- 前記特徴ベクトルに基づいて話者の交代した交代時刻を検出する交代時刻検出手段と、
前記音声特徴量を前記交代時刻単位の時間長からなる第3区間毎に分割する分割手段と、
前記第3区間毎の音声特徴量と、前記学習領域毎の第2音響モデルとを用いて、前記第3区間毎の音声特徴量の特徴ベクトルをそれぞれ導出する特徴ベクトル再導出手段と、
を更に備え、
前記クラスタリング手段は、前記特徴ベクトル再導出手段により導出された特徴ベクトルを用いて分類することを特徴とする請求項1に記載のインデキシング装置。 - 前記特徴ベクトル再導出手段は、前記第2音響モデルの類似度に関する情報をベクトル成分とした、前記特徴ベクトルを導出することを特徴とする請求項8に記載のインデキシング装置。
- 複数の話者の音声が含まれた音声信号から、各話者の話者性を表す音声特徴量を所定の時間間隔毎に抽出する抽出工程と、
前記音声特徴量を所定時間長からなる第1区間毎に分割する第1分割工程と、
前記第1区間毎に、当該第1区間に含まれる音声特徴量に基づいて第1音響モデルを生成する第1音声モデル生成工程と、
連続する所定数分の前記第1区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第1区間の第1音響モデルに基づいて算出する類似度算出工程と、
前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出工程と、
前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第2音響モデルを生成する第2音響モデル生成工程と、
前記音声特徴量を所定時間長からなる第2区間毎に分割する第2分割工程と、
前記学習領域毎の第2音響モデルと前記第2区間毎の音声特徴量とを用いて、各第2区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出工程と、
前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第2区間毎の音声特徴量を話者毎に分類するクラスタリング工程と、
前記クラスタリング工程による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング工程と、
を含むことを特徴とするインデキシング方法。 - コンピュータに、
複数の話者の音声が含まれる音声信号から、各話者の話者性を表す音声特徴量を所定の時間間隔毎に抽出する抽出機能と、
前記音声特徴量を所定時間長からなる第1区間毎に分割する第1分割機能と、
前記第1区間毎に、当該第1区間に含まれる音声特徴量に基づいて第1音響モデルを生成する第1音声モデル生成機能と、
連続する所定数分の前記第1区間を一の領域として順次設定し、当該領域毎の類似度を、各領域に含まれる前記第1区間の第1音響モデルに基づいて算出する類似度算出機能と、
前記類似度が所定値以上となる領域を学習領域として抽出する領域抽出機能と、
前記学習領域毎に、当該学習領域に含まれる音声特徴量に基づいて第2音響モデルを生成する第2音響モデル生成機能と、
前記音声特徴量を所定時間長からなる第2区間毎に分割する第2分割機能と、
前記学習領域毎の第2音響モデルと前記第2区間毎の音声特徴量とを用いて、各第2区間に固有の特徴ベクトルを夫々導出する特徴ベクトル導出機能と、
前記特徴ベクトルのベクトル成分に基づいて、各特徴ベクトルに対応する前記第2区間毎の音声特徴量を話者毎に分類する機能と、
前記クラスタリング機能による分類結果に基づいて、対応する前記音声信号部分に話者を分類するための情報を含んだ話者情報を付与するインデキシング機能と、
を実現させることを特徴とするインデキシングプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007007947A JP4728972B2 (ja) | 2007-01-17 | 2007-01-17 | インデキシング装置、方法及びプログラム |
US12/007,379 US8145486B2 (en) | 2007-01-17 | 2008-01-09 | Indexing apparatus, indexing method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007007947A JP4728972B2 (ja) | 2007-01-17 | 2007-01-17 | インデキシング装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008175955A JP2008175955A (ja) | 2008-07-31 |
JP4728972B2 true JP4728972B2 (ja) | 2011-07-20 |
Family
ID=39703038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007007947A Active JP4728972B2 (ja) | 2007-01-17 | 2007-01-17 | インデキシング装置、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8145486B2 (ja) |
JP (1) | JP4728972B2 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5052449B2 (ja) * | 2008-07-29 | 2012-10-17 | 日本電信電話株式会社 | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
JP2011053569A (ja) * | 2009-09-03 | 2011-03-17 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
JP5356527B2 (ja) * | 2009-09-19 | 2013-12-04 | 株式会社東芝 | 信号分類装置 |
JP2012053218A (ja) * | 2010-08-31 | 2012-03-15 | Nippon Hoso Kyokai <Nhk> | 音響処理装置および音響処理プログラム |
JP5092000B2 (ja) | 2010-09-24 | 2012-12-05 | 株式会社東芝 | 映像処理装置、方法、及び映像処理システム |
JP5658285B2 (ja) * | 2011-01-05 | 2015-01-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 興味区間抽出装置、興味区間抽出方法 |
JP5779032B2 (ja) * | 2011-07-28 | 2015-09-16 | 株式会社東芝 | 話者分類装置、話者分類方法および話者分類プログラム |
TW201417093A (zh) * | 2012-10-19 | 2014-05-01 | Hon Hai Prec Ind Co Ltd | 具有影音檔處理功能的電子裝置及影音檔處理方法 |
CN104282303B (zh) * | 2013-07-09 | 2019-03-29 | 威盛电子股份有限公司 | 利用声纹识别进行语音辨识的方法及其电子装置 |
US8719032B1 (en) | 2013-12-11 | 2014-05-06 | Jefferson Audio Video Systems, Inc. | Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
JP6350148B2 (ja) | 2014-09-09 | 2018-07-04 | 富士通株式会社 | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム |
JP6303971B2 (ja) | 2014-10-17 | 2018-04-04 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
KR102371697B1 (ko) | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
WO2018009969A1 (en) | 2016-07-11 | 2018-01-18 | Ftr Pty Ltd | Method and system for automatically diarising a sound recording |
US20210256312A1 (en) * | 2018-05-18 | 2021-08-19 | Nec Corporation | Anomaly detection apparatus, method, and program |
KR102190986B1 (ko) * | 2019-07-03 | 2020-12-15 | 주식회사 마인즈랩 | 개별 화자 별 음성 생성 방법 |
KR102190987B1 (ko) * | 2020-11-09 | 2020-12-15 | 주식회사 마인즈랩 | 동시 발화 구간에서 개별 화자의 음성을 생성하는 인공 신경망의 학습 방법 |
KR102190988B1 (ko) * | 2020-11-09 | 2020-12-15 | 주식회사 마인즈랩 | 개별 화자 별 음성 제공 방법 및 컴퓨터 프로그램 |
KR102190989B1 (ko) * | 2020-11-09 | 2020-12-15 | 주식회사 마인즈랩 | 동시 발화 구간에서의 음성 생성 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612090A (ja) * | 1992-06-26 | 1994-01-21 | Nec Corp | 音声学習方式 |
JP2006084875A (ja) * | 2004-09-16 | 2006-03-30 | Toshiba Corp | インデキシング装置、インデキシング方法およびインデキシングプログラム |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2921059B2 (ja) | 1990-07-26 | 1999-07-19 | 松下電器産業株式会社 | 連続音声認識装置 |
JP3081108B2 (ja) | 1994-08-11 | 2000-08-28 | 株式会社トレンディ | 話者分類処理装置及び方法 |
US5742928A (en) | 1994-10-28 | 1998-04-21 | Mitsubishi Denki Kabushiki Kaisha | Apparatus and method for speech recognition in the presence of unnatural speech effects |
US5864809A (en) | 1994-10-28 | 1999-01-26 | Mitsubishi Denki Kabushiki Kaisha | Modification of sub-phoneme speech spectral models for lombard speech recognition |
US6119084A (en) | 1997-12-29 | 2000-09-12 | Nortel Networks Corporation | Adaptive speaker verification apparatus and method including alternative access control |
US6185527B1 (en) | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
JP3789246B2 (ja) | 1999-02-25 | 2006-06-21 | 株式会社リコー | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
US6577999B1 (en) | 1999-03-08 | 2003-06-10 | International Business Machines Corporation | Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary |
US6434520B1 (en) | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
JP2001290494A (ja) | 2000-04-05 | 2001-10-19 | Matsushita Electric Ind Co Ltd | 登録単語辞書作成方法及びその装置、並びに音声認識方法及びその装置 |
US6542869B1 (en) | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
EP1187096A1 (en) | 2000-09-06 | 2002-03-13 | Sony International (Europe) GmbH | Speaker adaptation with speech model pruning |
US6961703B1 (en) | 2000-09-13 | 2005-11-01 | Itt Manufacturing Enterprises, Inc. | Method for speech processing involving whole-utterance modeling |
JP4244514B2 (ja) | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
US7953219B2 (en) * | 2001-07-19 | 2011-05-31 | Nice Systems, Ltd. | Method apparatus and system for capturing and analyzing interaction based content |
EP1372139A1 (en) | 2002-05-15 | 2003-12-17 | Pioneer Corporation | Speech recognition apparatus and program with error correction |
CN101661754B (zh) * | 2003-10-03 | 2012-07-11 | 旭化成株式会社 | 数据处理单元和数据处理单元控制方法 |
US7610199B2 (en) | 2004-09-01 | 2009-10-27 | Sri International | Method and apparatus for obtaining complete speech signals for speech recognition applications |
JP4476786B2 (ja) | 2004-11-10 | 2010-06-09 | 株式会社東芝 | 検索装置 |
US7475016B2 (en) | 2004-12-15 | 2009-01-06 | International Business Machines Corporation | Speech segment clustering and ranking |
EP1889255A1 (en) * | 2005-05-24 | 2008-02-20 | Loquendo S.p.A. | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition |
US20070033042A1 (en) | 2005-08-03 | 2007-02-08 | International Business Machines Corporation | Speech detection fusing multi-class acoustic-phonetic, and energy features |
US7396990B2 (en) | 2005-12-09 | 2008-07-08 | Microsoft Corporation | Automatic music mood detection |
-
2007
- 2007-01-17 JP JP2007007947A patent/JP4728972B2/ja active Active
-
2008
- 2008-01-09 US US12/007,379 patent/US8145486B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612090A (ja) * | 1992-06-26 | 1994-01-21 | Nec Corp | 音声学習方式 |
JP2006084875A (ja) * | 2004-09-16 | 2006-03-30 | Toshiba Corp | インデキシング装置、インデキシング方法およびインデキシングプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2008175955A (ja) | 2008-07-31 |
US20080215324A1 (en) | 2008-09-04 |
US8145486B2 (en) | 2012-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4728972B2 (ja) | インデキシング装置、方法及びプログラム | |
US10109280B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
US10366693B2 (en) | Acoustic signature building for a speaker from multiple sessions | |
JP5321596B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
US7729914B2 (en) | Method for detecting emotions involving subspace specialists | |
JP5060224B2 (ja) | 信号処理装置及びその方法 | |
JP5356527B2 (ja) | 信号分類装置 | |
JP6246636B2 (ja) | パターン識別装置、パターン識別方法およびプログラム | |
JP2000011181A (ja) | 信号照合装置 | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JP4787979B2 (ja) | 雑音検出装置および雑音検出方法 | |
JP5626221B2 (ja) | 音響画像区間分類装置および方法 | |
GB2576960A (en) | Speaker recognition | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
JP2011191542A (ja) | 音声分類装置、音声分類方法、及び音声分類用プログラム | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
CN110419078B (zh) | 用于自动语音识别的***和方法 | |
JP2005534065A (ja) | マンマシンインタフェースユニットの動作及び/又は制御方法 | |
JP7444820B2 (ja) | 感情判定装置、感情判定方法、及びプログラム | |
JP7425368B2 (ja) | 推定装置、推定方法、学習装置、学習方法およびプログラム | |
KR101092489B1 (ko) | 음성 인식 시스템 및 방법 | |
Trabelsi et al. | Dynamic sequence-based learning approaches on emotion recognition systems | |
Mowlaee et al. | AUDIO CLASSIFICATION OF MUSIC/SPEECH MIXED SIGNALS USING SINUSOIDAL MODELING WITH SVM AND NEURAL NETWORK APPROACH | |
JPH09198080A (ja) | 音声認識装置、音声認識に用いられる特徴ベクトルの作成方法及び音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090326 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110415 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4728972 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |