JP4221379B2 - 音声特性に基づく電話発信者の自動識別 - Google Patents
音声特性に基づく電話発信者の自動識別 Download PDFInfo
- Publication number
- JP4221379B2 JP4221379B2 JP2005005572A JP2005005572A JP4221379B2 JP 4221379 B2 JP4221379 B2 JP 4221379B2 JP 2005005572 A JP2005005572 A JP 2005005572A JP 2005005572 A JP2005005572 A JP 2005005572A JP 4221379 B2 JP4221379 B2 JP 4221379B2
- Authority
- JP
- Japan
- Prior art keywords
- caller
- acoustic
- model
- acoustic model
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 75
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 42
- 239000013598 vector Substances 0.000 description 32
- 238000000605 extraction Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 238000012552 review Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000012216 screening Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005055 memory storage Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
- Sub-Exchange Stations And Push- Button Telephones (AREA)
Description
22 メモリ
23 システムバス
27 ハードディスクドライブ
28 磁気ディスクドライブ
29 取外し式記憶装置
30 光ディスクドライブ
31 光ディスク
32 インターフェース
33 インターフェース
34 インターフェース
35 オペレーティングシステム
36 アプリケーションプログラム
37 プログラムモジュール
38 プログラムデータ
40 キーボード
42 ポインティングデバイス
43 マイクロフォン
45 スピーカ
46 シリアルポートインターフェース
47 モニタ
48 ビデオアダプタ
49 遠隔コンピュータ
50 メモリ
53 ネットワークアダプタ
54 モデム
102 レシーバ
105 語彙集
107 音声認識器
108 トレーナ
110 言語モデル
111 音響モデル
113 呼ルータ
114 入力促進信号応答
118 トレーニングテキスト
Claims (24)
- 発信者から着信者への呼において前記発信者を識別する方法であって、
(a)音声入力を前記発信者から受け取るステップと、
(b)複数の話声単位の発信者に依存しないモデルを含む一般音響モデルと、以前識別された発信者の音響モデル群とを含む複数の音響モデル群に、前記音声入力の特性を適用して複数のそれぞれの音響スコアを得るステップと、
(c)前記複数の音響スコアに基づいて、前記以前識別された発信者のうちの1人か、または新しい発信者と、前記発信者を識別するステップと、
(d)前記ステップ(c)で前記発信者が新しい発信者と識別された場合、前記新しい発信者について、前記一般音響モデルの発信者に依存しないモデルから新しい音響モデルを生成し、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位に基づいて前記発信者に依存しないモデルを修正して、前記新しい発信者についての新しい音響モデルおよび任意の前記以前識別された発信者の音響モデル群が同一の複数の話声単位を有するようにするステップと、
(e)以前、ともにマージするため識別された前記発信者の音響モデル群であることを特定するユーザ入力促進信号を生成するステップと
を備えたことを特徴とする方法。 - 前記識別するステップ(c)は、
(c)(1)前記それぞれの音響モデルが前記一般音響モデルより、良い音響スコアの場合、前記発信者を前記以前識別された発信者の1人と識別するステップと、
(c)(2)前記一般音響モデルが前記複数の以前識別された発信者の音響モデル群より、良い音響スコアの場合、前記発信者を新しい発信者と識別するステップと
を含むことを特徴とする請求項1に記載の方法。 - 前記ステップ(a)は、前記一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切るステップを含み、
前記複数の音響モデルの各々は、前記ステップ(a)で区切られた前記話声単位のモデルを含み、
前記ステップ(b)は、前記複数の音響モデルについて前記ステップ(a)で区切られた前記話声単位の一連のモデルに、前記音声入力の特性を適用するステップを含むことを特徴とする請求項1に記載の方法。 - (f)前記ステップ(c)で前記発信者が前記以前識別された発信者の1人と識別された場合、前記音声入力の前記特性に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することによって、前記以前識別された発信者用の前記それぞれの音響モデルを更新するステップ
をさらに備えたことを特徴とする請求項1に記載の方法。 - 前記ステップ(f)は、単に一つの発話に基づいて、前記音声入力内に含まれる話声単位のモデルを修正するステップを含むことを特徴とする請求項4に記載の方法。
- (f)前記新しい音響モデルが前記ステップ(b)における前記複数の音響モデルの1つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを、前記複数の音響モデルと共に音響モデル貯蔵器に記憶するステップ
をさらに備えたことを特徴とする請求項1に記載の方法。 - 前記ステップ(a)ないし(c)が、前記発信者が識別されつつあることに対して前記呼の間に前記発信者の注意を喚起することなしに実行されることを特徴とする請求項1に記載の方法。
- 前記ステップ(b)は、前記音声入力をサブセクションに分割するステップと、各サブセクションの前記特性を前記複数の音響モデルに適用し、各サブセクションにおける前記特性がそれぞれの音響モデルにどれだけ良好に合致するかを表す複数のそれぞれの音響スコアを得るステップとを含み、
前記ステップ(c)は、各サブセクションについて、該サブセクションについての最良の音響スコアを有する前記音響モデルを識別するステップと、サブセクションのすべてについての最良の音響スコアが、同じ以前識別された発信者に対応する場合だけ、前記発信者を前記以前識別された発信者の1人と識別するステップとを含むことを特徴とする請求項1に記載の方法。 - (f)前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを維持するステップと、
(g)前記音声入力の前記特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成するステップと、
(h)他の前記認識済み話声単位列の確率に対して最高の確率を有する認識済み話声単位列を選択するステップと、
(i)少なくとも一部には前記最高の確率を有する前記認識済み話声単位列に基づいて、前記発信者を識別するステップと
をさらに備えたことを特徴とする請求項1に記載の方法。 - (j)前記ステップ(i)で識別された前記発信者が、前記ステップ(c)で識別された前記発信者と異なる場合、前記音声入力、前記認識済み話声単位列、前記識別された発信者、前記ステップ(c)で識別された前記発信者の音響モデル、および前記ステップ(i)で識別された前記発信者の発信者固有言語モデルのうち少なくとも1つを示すユーザ入力促進信号を生成するステップをさらに備えたことを特徴とする請求項9に記載の方法。
- (f)前記以前識別された発信者の前記複数の音響モデル間で距離尺度を使用し、ともにマージするため前記所定の種類の音響モデルにフラグを立てるステップをさらに備えたことを特徴とする請求項1に記載の方法。
- 発信者から着信者への呼において前記発信者を識別するシステムであって、
音声入力を前記発信者から受け取るためのレシーバと、
複数の話声単位の発信者に依存しないモデルを含む一般音響モデルと、任意の以前識別された発信者の音響モデル群とを有する複数の音響モデルを含む音響モデル貯蔵器と、
複数のそれぞれの音響スコアを得るため、前記複数の音響モデルに前記音声入力の特性を適用する手段と、
前記複数の音響スコアに基づいて、前記以前識別された発信者の1人か、または新しい発信者と、前記発信者を識別する手段と、
前記一般音響モデルが前記複数の以前識別された発信者の前記音響モデル群より、良い音響スコアの場合、前記新しい発信者について、前記一般音響モデルの発信者に依存しないモデルから新しい音響モデルを生成し、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位に基づいて発信者に依存しないモデルを修正して、前記新しい発信者についての新しい音響モデルおよび任意の前記以前識別された発信者の音響モデル群が同一の複数の話声単位を有するようにする音響モデル生成手段と
以前、ともにマージするため識別された前記発信者の音響モデル群であることを特定するユーザ入力促進信号を生成する手段と
を備えたことを特徴とするシステム。 - 前記一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切る音声認識器をさらに備え、
前記複数の音響モデルの各々は、前記音声認識器によって認識された前記話声単位のモデルを含み、
前記適用する手段は、前記複数の音響モデルについて、前記音声認識器によって区切られた前記話声単位の一連のモデルに前記音声入力の特性を適用する手段を含むことを特徴とする請求項12に記載のシステム。 - 前記発信者が前記以前識別された発信者の1人と識別された場合、前記音声入力の特性に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することによって、前記以前識別された発信者用のそれぞれの音響モデルを更新する音響モデル更新モジュールをさらに備えたことを特徴とする請求項12に記載のシステム。
- 前記音響モデル更新モジュールは、前記発信者からの単なる一つの発話に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することが可能であることを特徴とする請求項14に記載のシステム。
- 前記音響モデル生成手段は、前記新しい音響モデルが前記複数の音響モデルの1つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを前記音響モデル貯蔵器に記憶することを特徴とする請求項12に記載のシステム。
- 前記呼の間に前記発信者が識別されつつあることに対して前記発信者の注意を喚起することなしに、前記音声入力を受け取り、および前記発信者を識別するように構成されることを特徴とする請求項12に記載のシステム。
- 前記適用する手段は、前記音声入力をサブセクションに分割し、および各サブセクションの前記特性を前記複数の音響モデルに適用して各サブセクションにおける前記特性がそれぞれの音響モデルにどれだけ良好に合致するかを表す複数のそれぞれの音響スコアを得る手段を含み、
前記識別する手段は、各サブセクションについて、該サブセクションについての最良の音響スコアを有する前記音響モデルを識別し、およびすべてのサブセクションについての最良の音響スコアが、同じ以前識別された発信者に対応する場合だけ、前記発信者を前記以前識別された発信者の1人と識別する手段を含むことを特徴とする請求項12に記載のシステム。 - 前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを記憶する言語モデル貯蔵器と、
前記音声入力の特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成する手段と、
他の前記認識済み話声単位列の確率に対して最高の確率を有する前記認識済み話声単位列を選択する手段とをさらに備え、
前記識別する手段は、少なくとも一部には前記最高の確率を有する前記認識済み話声単位列に基づいて、前記発信者を識別することを特徴とする請求項12に記載のシステム。 - 前記識別する手段は、(1)前記音声入力、すなわち最高の確率を有する前記認識済み話声単位列、(2)最高の確率を有する前記認識済み話声単位列を生成する前記発信者固有言語モデル、および(3)最高の確率を有する前記発信者固有言語モデルが最良の音響スコアを有する前記音響モデルと異なる発信者に対応する場合の前記最良の音響スコアを有する前記音響モデル、のうち少なくとも1つを示すユーザ入力促進信号を生成する手段を含むことを特徴とする請求項19に記載のシステム。
- 前記複数の音響モデル間の距離尺度に基づいて、ともにマージするために前記所定の種類の音響モデルにフラグを立てる手段をさらに備えたことを特徴とする請求項12に記載のシステム。
- 発信者から着信者への呼において前記発信者を識別する方法であって、
(a)音声入力を前記発信者から受け取るステップと、
(b)複数の話声単位の発信者に依存しないモデルを含む、発信者に依存しない一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切るステップと、
(c)一般音響モデルと任意の以前識別された発信者の音響モデル群とを含む複数の音響モデル内で、前記認識済み話声単位の一連の話声単位モデルに前記音声入力の特性を適用するステップと、
(d)前記音声入力の前記特性が前記複数の音響モデルにどれだけ良好に合致するかに基づいて、複数の以前識別された発信者の1人、または新しい発信者と前記発信者を識別し、前記発信者が新しい発信者と識別された場合、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位に基づいて発信者に依存しないモデルを修正することによって、前記新しい発信者について、前記一般音響モデルの発信者に依存しないモデルから新しい音響モデルを生成し、前記新しい発信者についての新しい音響モデルおよび任意の前記以前識別された発信者の音響モデル群が同一の複数の話声単位を有するようにするステップと、
(e)前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを維持するステップと、
(f)前記音声入力の前記特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成するステップと、
(g)他の前記認識済み話声単位列の確率に対して最高の確率を有する前記認識済み話声単位列を選択するステップと、
(h)前記最高の確率を有する認識済み話声単位列に基づいて、前記発信者を識別するステップと、
(i)前記ステップ(h)において識別された前記発信者がステップ(d)で識別された前記発信者と異なる場合、前記音声入力、前記認識済み話声単位列、前記識別された発信者、前記ステップ(d)で識別された前記発信者の音響モデル、および前記ステップ(h)で識別された前記発信者の発信者固有言語モデルのうち少なくとも1つを示すユーザ入力促進信号を生成するステップと
を備えたことを特徴とする方法。 - (j)前記新しい音響モデルが前記ステップ(c)における前記複数の音響モデルの1つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを、前記複数の音響モデルと共に音響モデル貯蔵器に記憶するステップと
をさらに備えたことを特徴とする請求項22に記載の方法。 - (j)前記以前識別された発信者の前記複数の音響モデル間で距離尺度を使用し、ともにマージするために所定の種類の音響モデルにフラグを付するステップをさらに備えたことを特徴とする請求項22に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/777,322 US7231019B2 (en) | 2004-02-12 | 2004-02-12 | Automatic identification of telephone callers based on voice characteristics |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005227758A JP2005227758A (ja) | 2005-08-25 |
JP2005227758A5 JP2005227758A5 (ja) | 2008-02-14 |
JP4221379B2 true JP4221379B2 (ja) | 2009-02-12 |
Family
ID=34701375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005005572A Expired - Fee Related JP4221379B2 (ja) | 2004-02-12 | 2005-01-12 | 音声特性に基づく電話発信者の自動識別 |
Country Status (11)
Country | Link |
---|---|
US (1) | US7231019B2 (ja) |
EP (1) | EP1564722B1 (ja) |
JP (1) | JP4221379B2 (ja) |
KR (1) | KR101120716B1 (ja) |
CN (1) | CN1655235B (ja) |
CY (1) | CY1113168T1 (ja) |
DK (1) | DK1564722T3 (ja) |
ES (1) | ES2391454T3 (ja) |
PL (1) | PL1564722T3 (ja) |
PT (1) | PT1564722E (ja) |
SI (1) | SI1564722T1 (ja) |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007536810A (ja) | 2004-05-03 | 2007-12-13 | ソマティック テクノロジーズ インコーポレイテッド | 個別化された音響警報を提供するシステム及び方法 |
US7640159B2 (en) * | 2004-07-22 | 2009-12-29 | Nuance Communications, Inc. | System and method of speech recognition for non-native speakers of a language |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US8099279B2 (en) * | 2005-02-09 | 2012-01-17 | Microsoft Corporation | Interactive clustering method for identifying problems in speech applications |
US7643995B2 (en) * | 2005-02-09 | 2010-01-05 | Microsoft Corporation | Method of automatically ranking speech dialog states and transitions to aid in performance analysis in speech applications |
US7574358B2 (en) * | 2005-02-28 | 2009-08-11 | International Business Machines Corporation | Natural language system and method based on unisolated performance metric |
US7453992B2 (en) * | 2005-04-14 | 2008-11-18 | International Business Machines Corporation | System and method for management of call data using a vector based model and relational data structure |
US20060262115A1 (en) * | 2005-05-02 | 2006-11-23 | Shapiro Graham H | Statistical machine learning system and methods |
US20090024183A1 (en) | 2005-08-03 | 2009-01-22 | Fitchmun Mark I | Somatic, auditory and cochlear communication system and method |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
US8175874B2 (en) * | 2005-11-17 | 2012-05-08 | Shaul Shimhi | Personalized voice activity detection |
KR100717385B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 |
US8625749B2 (en) * | 2006-03-23 | 2014-01-07 | Cisco Technology, Inc. | Content sensitive do-not-disturb (DND) option for a communication system |
US8396711B2 (en) * | 2006-05-01 | 2013-03-12 | Microsoft Corporation | Voice authentication system and method |
ES2286943B1 (es) * | 2006-05-19 | 2008-10-16 | Agnitio, S.L. | Procedimiento de identificacion de voz. |
US20080010065A1 (en) * | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
US7809170B2 (en) * | 2006-08-10 | 2010-10-05 | Louisiana Tech University Foundation, Inc. | Method and apparatus for choosing and evaluating sample size for biometric training process |
US8086461B2 (en) | 2007-06-13 | 2011-12-27 | At&T Intellectual Property Ii, L.P. | System and method for tracking persons of interest via voiceprint |
US8229085B2 (en) * | 2007-07-31 | 2012-07-24 | At&T Intellectual Property I, L.P. | Automatic message management utilizing speech analytics |
US8219404B2 (en) * | 2007-08-09 | 2012-07-10 | Nice Systems, Ltd. | Method and apparatus for recognizing a speaker in lawful interception systems |
WO2009078256A1 (ja) * | 2007-12-18 | 2009-06-25 | Nec Corporation | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム |
US20090190735A1 (en) * | 2008-01-24 | 2009-07-30 | General Motors Corporation | Method and system for enhancing telematics services |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
WO2010042631A2 (en) | 2008-10-10 | 2010-04-15 | Fastow Richard M | Real-time data pattern analysis system and method of operation thereof |
US8818802B2 (en) * | 2008-10-10 | 2014-08-26 | Spansion Llc | Real-time data pattern analysis system and method of operation thereof |
JP5042194B2 (ja) * | 2008-10-27 | 2012-10-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 話者テンプレートを更新する装置及び方法 |
US8391445B2 (en) * | 2008-11-10 | 2013-03-05 | International Business Machines Corporation | Caller identification using voice recognition |
US8645140B2 (en) * | 2009-02-25 | 2014-02-04 | Blackberry Limited | Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
US8442827B2 (en) * | 2010-06-18 | 2013-05-14 | At&T Intellectual Property I, L.P. | System and method for customized voice response |
TWI403304B (zh) * | 2010-08-27 | 2013-08-01 | Ind Tech Res Inst | 隨身語能偵知方法及其裝置 |
CN102779509B (zh) * | 2011-05-11 | 2014-12-03 | 联想(北京)有限公司 | 语音处理设备和语音处理方法 |
CN102781075B (zh) * | 2011-05-12 | 2016-08-24 | 中兴通讯股份有限公司 | 一种降低移动终端通话功耗的方法及移动终端 |
US20130158996A1 (en) * | 2011-12-19 | 2013-06-20 | Spansion Llc | Acoustic Processing Unit |
US9147401B2 (en) * | 2011-12-21 | 2015-09-29 | Sri International | Method and apparatus for speaker-calibrated speaker detection |
US9147400B2 (en) * | 2011-12-21 | 2015-09-29 | Sri International | Method and apparatus for generating speaker-specific spoken passwords |
CN102522084B (zh) * | 2011-12-22 | 2013-09-18 | 广东威创视讯科技股份有限公司 | 一种将语音数据转换为文本文件的方法和*** |
AU2013203139B2 (en) * | 2012-01-24 | 2016-06-23 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US9711167B2 (en) * | 2012-03-13 | 2017-07-18 | Nice Ltd. | System and method for real-time speaker segmentation of audio interactions |
RU2598601C2 (ru) * | 2012-03-30 | 2016-09-27 | Сони Корпорейшн | Устройство обработки данных, способ обработки данных и программа |
JP5957269B2 (ja) * | 2012-04-09 | 2016-07-27 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
US20140088965A1 (en) * | 2012-09-27 | 2014-03-27 | Polaris Wireless, Inc. | Associating and locating mobile stations based on speech signatures |
CN103856626A (zh) * | 2012-11-29 | 2014-06-11 | 北京千橡网景科技发展有限公司 | 个性声音的定制方法和装置 |
US9294616B2 (en) | 2013-06-30 | 2016-03-22 | International Business Machines Corporation | Identifying a contact based on a voice communication session |
US20150046164A1 (en) * | 2013-08-07 | 2015-02-12 | Samsung Electronics Co., Ltd. | Method, apparatus, and recording medium for text-to-speech conversion |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
KR102225404B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
CH709795B1 (fr) * | 2014-06-18 | 2021-02-26 | Katia Sa | Procédé et système de filtrage d'appels téléphoniques entrants indésirables. |
EP3010017A1 (en) | 2014-10-14 | 2016-04-20 | Thomson Licensing | Method and apparatus for separating speech data from background data in audio communication |
CN104821934B (zh) * | 2015-03-20 | 2018-11-20 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声纹登录方法和装置 |
US9485354B1 (en) * | 2015-05-08 | 2016-11-01 | Marchex, Inc. | Identifying call features and associations to detect call traffic pumping and take corrective action |
US10529328B2 (en) * | 2015-06-22 | 2020-01-07 | Carnegie Mellon University | Processing speech signals in voice-based profiling |
CN105096941B (zh) * | 2015-09-02 | 2017-10-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
US10750251B2 (en) * | 2015-09-03 | 2020-08-18 | Nec Corporation | Information providing apparatus, information providing method, and storage medium |
CN105513597B (zh) * | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
JP6996627B2 (ja) * | 2018-06-27 | 2022-01-17 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
CN108962261A (zh) * | 2018-08-08 | 2018-12-07 | 联想(北京)有限公司 | 信息处理方法、信息处理装置和蓝牙耳机 |
RU2744063C1 (ru) | 2018-12-18 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система определения говорящего пользователя управляемого голосом устройства |
US11962718B2 (en) * | 2022-01-04 | 2024-04-16 | Centurylink Intellectual Property Llc | Automated robocall detection |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
US5710866A (en) | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5825977A (en) * | 1995-09-08 | 1998-10-20 | Morin; Philippe R. | Word hypothesizer based on reliably detected phoneme similarity regions |
US6088669A (en) * | 1997-01-28 | 2000-07-11 | International Business Machines, Corporation | Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling |
US5946654A (en) * | 1997-02-21 | 1999-08-31 | Dragon Systems, Inc. | Speaker identification using unsupervised speech models |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
EP0949827A1 (fr) * | 1998-04-07 | 1999-10-13 | Koninklijke Philips Electronics N.V. | Equipment téléphonique, système de communications radio et procédé d'identification de l'appelant |
US6141641A (en) | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
US6292799B1 (en) * | 1998-06-05 | 2001-09-18 | Netnumber.Com, Inc. | Method and apparatus to automatically address a voice mail reply to a voice mail message |
US6684186B2 (en) * | 1999-01-26 | 2004-01-27 | International Business Machines Corporation | Speaker recognition using a hierarchical speaker model tree |
US6978238B2 (en) * | 1999-07-12 | 2005-12-20 | Charles Schwab & Co., Inc. | Method and system for identifying a user by voice |
US20010037198A1 (en) * | 2000-02-01 | 2001-11-01 | Into Voice Corporation | Method and system for providing texts for voice requests |
US6629073B1 (en) | 2000-04-27 | 2003-09-30 | Microsoft Corporation | Speech recognition method and apparatus utilizing multi-unit models |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
US7440900B2 (en) | 2002-03-15 | 2008-10-21 | Microsoft Corporation | Voice message processing system and method |
US7162421B1 (en) * | 2002-05-06 | 2007-01-09 | Nuance Communications | Dynamic barge-in in a speech-responsive system |
-
2004
- 2004-02-12 US US10/777,322 patent/US7231019B2/en active Active
- 2004-12-28 ES ES04030909T patent/ES2391454T3/es active Active
- 2004-12-28 PT PT04030909T patent/PT1564722E/pt unknown
- 2004-12-28 EP EP04030909A patent/EP1564722B1/en not_active Not-in-force
- 2004-12-28 PL PL04030909T patent/PL1564722T3/pl unknown
- 2004-12-28 SI SI200431936T patent/SI1564722T1/sl unknown
- 2004-12-28 DK DK04030909.8T patent/DK1564722T3/da active
- 2004-12-31 CN CN2004100818774A patent/CN1655235B/zh not_active Expired - Fee Related
-
2005
- 2005-01-12 JP JP2005005572A patent/JP4221379B2/ja not_active Expired - Fee Related
- 2005-02-07 KR KR1020050011339A patent/KR101120716B1/ko not_active IP Right Cessation
-
2012
- 2012-10-03 CY CY20121100916T patent/CY1113168T1/el unknown
Also Published As
Publication number | Publication date |
---|---|
KR101120716B1 (ko) | 2012-03-23 |
KR20060041829A (ko) | 2006-05-12 |
PT1564722E (pt) | 2012-09-25 |
US20050180547A1 (en) | 2005-08-18 |
SI1564722T1 (sl) | 2012-11-30 |
PL1564722T3 (pl) | 2013-01-31 |
EP1564722B1 (en) | 2012-08-08 |
DK1564722T3 (da) | 2012-09-03 |
CY1113168T1 (el) | 2016-04-13 |
JP2005227758A (ja) | 2005-08-25 |
CN1655235A (zh) | 2005-08-17 |
US7231019B2 (en) | 2007-06-12 |
CN1655235B (zh) | 2012-01-25 |
ES2391454T3 (es) | 2012-11-26 |
EP1564722A1 (en) | 2005-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4221379B2 (ja) | 音声特性に基づく電話発信者の自動識別 | |
US11496582B2 (en) | Generation of automated message responses | |
US11580991B2 (en) | Speaker based anaphora resolution | |
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
US10522134B1 (en) | Speech based user recognition | |
US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
Zissman et al. | Automatic language identification | |
US6856956B2 (en) | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system | |
Chen et al. | Advances in speech transcription at IBM under the DARPA EARS program | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
Rabiner et al. | An overview of automatic speech recognition | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Lee et al. | A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin | |
Flemotomos et al. | Role annotated speech recognition for conversational interactions | |
Wu et al. | Application of simultaneous decoding algorithms to automatic transcription of known and unknown words | |
Ishaq | Voice activity detection and garbage modelling for a mobile automatic speech recognition application | |
Raj et al. | Design and implementation of speech recognition systems | |
Bouwman et al. | Using information on lexical stress for utterance verification | |
Dua et al. | Implementation and performance evaluation of speaker adaptive continuous Hindi ASR using tri-phone based acoustic modelling | |
Chi-Yan et al. | SUBWORD UNITS FOR A MANDARIN KEYWORD SPOTTING SYSTEM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071221 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20071221 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20080507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081017 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4221379 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131121 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |