JP4745094B2 - クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム - Google Patents
クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム Download PDFInfo
- Publication number
- JP4745094B2 JP4745094B2 JP2006077126A JP2006077126A JP4745094B2 JP 4745094 B2 JP4745094 B2 JP 4745094B2 JP 2006077126 A JP2006077126 A JP 2006077126A JP 2006077126 A JP2006077126 A JP 2006077126A JP 4745094 B2 JP4745094 B2 JP 4745094B2
- Authority
- JP
- Japan
- Prior art keywords
- language model
- union
- clustering
- language
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 104
- 238000004364 calculation method Methods 0.000 claims description 123
- 230000008569 process Effects 0.000 claims description 78
- 241000282414 Homo sapiens Species 0.000 claims description 51
- 238000012217 deletion Methods 0.000 claims description 38
- 230000037430 deletion Effects 0.000 claims description 38
- 241000282412 Homo Species 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 34
- 238000012545 processing Methods 0.000 description 34
- 238000004422 calculation algorithm Methods 0.000 description 17
- 230000014509 gene expression Effects 0.000 description 16
- 239000013598 vector Substances 0.000 description 16
- 238000000605 extraction Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000003064 k means clustering Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- MAYZWDRUFKUGGP-VIFPVBQESA-N (3s)-1-[5-tert-butyl-3-[(1-methyltetrazol-5-yl)methyl]triazolo[4,5-d]pyrimidin-7-yl]pyrrolidin-3-ol Chemical compound CN1N=NN=C1CN1C2=NC(C(C)(C)C)=NC(N3C[C@@H](O)CC3)=C2N=N1 MAYZWDRUFKUGGP-VIFPVBQESA-N 0.000 description 1
- 206010013952 Dysphonia Diseases 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 208000027498 hoarse voice Diseases 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
図1は、本実施形態にかかるクラスタリングシステムおよび属性推定システムの構成を示す機能ブロック図である。図1に示す属性推定システム2は、入力部21、スコア計算部22、属性推定部23を含み、クラスタリング後言語モデル群記録部103に接続されている。クラスタリングシステム1は、クラスタリング部14、エントリ削除部13、和集合言語モデル作成部15を含み、クラスタリング前言語モデル群記録部106およびクラスタリング後言語モデル群記録部103に接続されている。
クラスタリング前言語モデル群記録部106には、複数の言語モデルが記録されている。各言語モデルは、それぞれ人間の属性を示す属性値に対応付けられている。すなわち、言語モデルは、人間の属性を示す属性値ごとに設けられている。各言語モデルは、その言語モデルに対応付けられた属性値の属性を持つ人間が発生する音声または記す言語において出現する語彙と、その語彙の出現頻度とを表すデータを含むエントリを複数有する。
次に、図1に示す属性推定システム2の構成について説明する。属性推定システム2は、人間の言語情報を入力し、その人間の属性を示す情報を出力するシステムである。属性推定システム2は、例えば、音声対話アプリケーション等の上位プログラムからある人間の発した言語情報を受け取って、その人間の属性を推定し、属性を示すデータを上位プログラムへ返す機能を有する。また、属性推定システム2は、クラスタリングシステム1で生成されたクラスタリング後言語モデルを用いて人間の属性を推定する処理を行う。
次に、クラスタリングシステム1の動作の例を説明する。図3は、クラスタリングシステム1が、言語モデルをクラスタリングする処理の例を示すフローチャートである。
和集合言語モデル作成処理の具体例は後述する。
ここで、和集合言語モデルの具体例を、図6を参照して説明する。図6は、クラスタリング前言語モデルと、和集合エントリと、和集合言語モデルのデータ構造の一例を示す図である。図6では、クラスタリング前言語モデルの例として、5才の話者の言語モデル31、22才の話者の言語モデル32、76才の話者の言語モデル33(以下、それぞれ言語モデル31、言語モデル32、言語モデル33と称する)が示されている。各言語モデル31、32、33には、話者の属性すなわち、「5才」、「22才」、「76才」を示すデータがそれぞれ対応付けられて記録されている。なお、ここでは説明を簡単にするために、5才、22才、76才の3つの言語モデルをクラスタリング前言語モデルとして例示しているが、クラスタリング前言語モデルはこれら3つだけではなく、例えば、1才から76才まで1才きざみで、それぞれの年齢ごとに設けられた言語モデルとすることができる。
ここで、英語の和集合言語モデルの具体例を、図7を参照して説明する。図7は、クラスタリング前言語モデルと、和集合エントリと、和集合言語モデルのデータ構造の一例を示す図である。図7では、クラスタリング前言語モデルの例として、5才の話者の言語モデル31e、22才の話者の言語モデル32e、76才の話者の言語モデル33e(以下、それぞれ言語モデル31e、言語モデル32e、言語モデル33eと称する)が示されている。各言語モデル31e、32e、33eには、話者の属性すなわち、「5才」、「22才」、「76才」を示すデータがそれぞれ対応付けられて記録されている。なお、ここでは説明を簡単にするために、5才、22才、76才の3つの言語モデルをクラスタリング前言語モデルとして例示しているが、クラスタリング前言語モデルはこれら3つだけではなく、例えば、1才から76才まで1才きざみで、それぞれの年齢ごとに設けられた言語モデルとすることができる。
ここで、言語モデル間の距離を求める演算および平均を求める演算の例を説明する。言語モデル間の距離および平均は、図3のクラスタリング(Op3)において演算されて使用される。
次に、属性推定システム2の動作の例を説明する。図9は、属性推定システム2が、話者の属性を推定する処理の例を示すフローチャートである。まず、入力部21が、言語情報を入力する(Op11)。言語情報は、例えば、人間が発した語彙を表すテキストデータとして入力される。
ここで、属性推定処理の具体例を、図10を用いて説明する。図10には、クラスタリングシステム1で生成されたクラスタリング後言語モデルの例として、5〜8才の言語モデル61、22才〜24才の言語モデル62、76才以上の話者の言語モデル63が示されている。ここでは、入力言語情報として「僕、元気です」という文がテキストデータで入力された場合に、5〜8才の人間の言語モデル61と22〜24才の人間の言語モデル62と76才以上の話者の言語モデル63それぞれについてスコア計算部22がスコアを計算する例について説明する。
ここで、入力言語情報が英語の場合についての属性推定処理の具体例を、図11を用いて説明する。図11には、クラスタリングシステム1で生成されたクラスタリング後言語モデルの例として、5〜8才の言語モデル61e、22才〜24才の言語モデル62e、76才以上の話者の言語モデル63eが示されている。ここでは、入力言語情報として“I have to pee.”という文がテキストデータで入力された場合に、5〜8才の人間の言語モデル61eと22〜24才の人間の言語モデル62eと76才以上の話者の言語モデル63eそれぞれについてスコア計算部22がスコアを計算する例について説明する。
図12は、本実施形態におけるクラスタリングシステム10および属性推定システム20の構成を示す機能ブロック図である。図12において、図1と同じ部分には、同じ番号を付し、詳細な説明を省略する。
図14は、本実施形態におけるクラスタリングシステム100および属性推定システム200の構成を示す機能ブロック図である。図14において、図1と同じ部分には、同じ番号を付し、詳細な説明を省略する。
クラスタリングシステム100は、クラスタリング前の言語モデルおよび音響モデルをクラスタリングし、クラスタリング後言語モデルおよびクラスタリング後音響モデルを生成する。そのため、クラスタリングシステム100は、クラスタリング前言語モデル群記録部106、クラスタリング前音響モデル群記録部107、クラスタリング後言語モデル群記録部103およびクラスタリング後音響モデル群記録部109にアクセス可能な構成となっている。また、クラスタリングシステム100は、和集合言語モデル作成部15、連結記録部16、クラスタリング部14b、重み除去部18、分割部19を備える。
ここで、クラスタリングシステム100の動作例を説明する。図15は、クラスタリングシステム100が、言語モデルおよび音響モデルをクラスタリングする処理の例を示すフローチャートである。
次に、図14に示す属性推定システム200の構成について説明する。属性推定システム200は、話者の発した音声情報を入力し、その話者の属性に関する情報を出力するシステムである。属性推定システム200は、例えば、音声対話アプリケーション等の上位プログラムから話者の発した言語情報を受け取って、その話者の属性を推定し、属性を示すデータを上位プログラムへ返す機能を有する。また、属性推定システム200は、クラスタリングシステム100で生成されたクラスタリング後言語モデルおよびクラスタリング後音響モデルを用いて話者の属性を推定する処理を行う。
図18は、スコア計算部22bの構成を示す機能ブロック図である。図18に示すスコア計算部22bは、ディクテーション(任意語彙音声聞き取り)システムの機能を有している。ディテーションシステムは、各属性値の音響モデルおよび言語モデルに対応する入力音声のスコアをディクテーションのアルゴリズムを用いて計算する。
次に、属性推定システム200の動作の例を説明する。図19は、属性推定システム200が、話者の属性を推定する処理の例を示すフローチャートである。まず、入力部21bが、音声データを入力する(Op31)。音声データは、例えば、話者が発した1つの文をデータ化したものである。
ここで、スコア計算部22bがスコアを計算する処理の具体例を説明する。図20は、スコア計算部22bがある1つのクラスタについてのスコアを計算する処理の流れを示すフローチャートである。
ここで、スコア計算部22bがスコアを計算する処理の具体例を説明する。図20は、スコア計算部22bがある1つのクラスタについてのスコアを計算する処理の流れを示すフローチャートである。
2、20、200 属性推定システム
13 エントリ削除部
14 クラスタリング部
15 和集合言語モデル作成部
16 連結記録部
17 重み付け部
18 重み除去部
19 分割部
21 入力部
22 スコア計算部
23 属性推定部
31 5才の話者の言語モデル
32 22才の話者の言語モデル
33 76才の話者の言語モデル
51 5才の話者の和集合言語モデル
52 22才の話者の和集合言語モデル
53 76才の話者の和集合言語モデル
54 平均の計算を示す表
55 平均の和集合言語モデル
61 5〜8才の話者の言語モデル
62 22〜24才の話者の言語モデル
63 76才以上の話者の言語モデル
71 22才の話者の音響モデル
81 22才の話者の連結モデル
91 音響モデル
101 クラスタリング後言語モデル
103 クラスタリング後言語モデル群記録部
105 クラスタデータ記録部
106 クラスタリング前言語モデル群記録部
107 クラスタリング前音響モデル群記録部
108 連結モデル記録部
109 クラスタリング後音響モデル群記録部
111 特徴量データ
121 候補文データ
131 音素列データ
141 言語スコアデータ
161 音響スコアデータ
171 統合スコアデータ
901、902 属性推定装置
Claims (10)
- 人間の所定の属性を示す属性値に対応付けられた言語モデルであって、前記属性値で示される属性を持つ1または複数の人間が発声する音声または記す文字において出現する語彙と、その出現頻度とを表すデータを含むエントリを複数有する言語モデルが、複数の属性値それぞれについて集められてなる言語モデル群をクラスタリングするクラスタリングシステムであって、
前記言語モデル群に含まれる語彙の和集合を表す和集合データを生成し、前記和集合データを用いて、前記語彙の和集合と各語彙の出現頻度とを含む和集合言語モデルを、前記言語モデル群に含まれる言語モデルそれぞれについて作成することにより、和集合言語モデル群を作成する和集合言語モデル作成部と、
前記和集合言語モデル群を分類したクラスタごとに平均を求め、その平均と和集合言語モデルとの距離を基に前記和集合言語モデル群を新しいクラスタに分類する処理を繰り返すことにより、前記和集合言語モデル群を複数のクラスタに分類し、各クラスタに含まれる1または複数の前記和集合言語モデル群を表すクラスタデータを生成するクラスタリング部とを備え、
前記和集合言語モデル作成部は、それぞれの言語モデルについて和集合言語モデルを作成する際に、前記和集合データに含まれる語彙のうち当該言語モデルに含まれている語彙については、当該言語モデルにおける当該語彙の出現頻度を、当該語彙と対応付けて和集合言語モデルのエントリとして記録し、前記和集合データに含まれる語彙のうち当該言語モデルに含まれていない語彙については、出現頻度が0であることを示すデータを当該語彙に対応付けて和集合言語モデルのエントリとして記録することで、同じ数のエントリを有する前記和集合言語モデル群を言語モデルごとに作成し、
前記クラスタリング部は、前記同じエントリ数を有する、言語モデルごとに作成された和集合言語モデル群に対して、前記クラスタリングを行う、クラスタリングシステム。 - 前記クラスタリング部は、前記クラスタデータで表される各クラスタに対応するクラスタリング後言語モデルを、各クラスタに含まれる和集合言語モデルを基にさらに生成する、請求項1に記載のクラスタリングシステム。
- 前記和集合言語モデルまたは前記クラスタリング後言語モデルに含まれるエントリのうち、前記出現頻度が予め決められた閾値に満たない場合エントリを削除するエントリを削除するエントリ削除部をさらに備える、請求項2に記載のクラスタリングシステム。
- 前記和集合言語モデルまたは前記クラスタリング後言語モデルに含まれるエントリのうち、出現頻度が高い順に上位N個のエントリを残し、残りのエントリを削除するエントリ削除部をさらに備える、請求項2に記載のクラスタリングシステム。
- 人間の所定の属性を示す属性値に対応付けられた音響モデルであって、前記属性値で示される属性を持つ人間の音声に含まれる音響と、その出現頻度とを表すデータを含むエントリを複数有する音響モデルが複数の属性値それぞれについて、集められてなる音響モデル群において、それぞれの音響モデルを、同じの属性値についての前記和集合言語モデルに対応付けて属性値ごとの連結モデルとして記録する連結記録部をさらに備え、
前記クラスタリング部は、前記連結記録部によって属性値ごとに記録された連結モデル群に対してクラスタリングを行って、前記連結モデル群を複数のクラスタに分類し、各クラスタを表すクラスタデータを生成する、請求項1に記載のクラスタリングシステム。 - 前記連結記録部は、前記音響モデルのエントリに含まれる出現頻度を表すデータと、和集合言語モデルのエントリに含まれる出現頻度を表すデータとの少なくとも1つに重み係数を掛ける重み付け部をさらに備え、
当該重み付け部により重み係数が掛けられた出現頻度を表すデータを含むエントリを含む前記音響モデルまたは前記和集合言語モデルが、属性値ごとに和集合言語モデルまたは音響モデルと対応付けられて前記連結モデルとして記録される、請求項5に記載のクラスタリングシステム。 - 請求項1に記載のクラスタリングシステムで生成されたクラスタデータと作成された和集合言語モデルを用いて、人間の属性を推定する属性推定システムであって、
前記人間の言語情報を入力する入力部と、
前記入力部で入力された言語情報のスコアを、前記和集合言語モデルを用いて前記クラスタデータが表すクラスタごとに計算するスコア計算部と、
前記クラスタごとのスコアに基づいて、人間の属性を示すデータを生成することにより属性を推定する属性推定部とを備える属性推定システム。 - 請求項5に記載のクラスタリングシステムで生成されたクラスタデータと作成された和集合言語モデルを用いて、人間の属性を推定する属性推定システムであって、
人間の音声を表すデータを入力する入力部と、
前記入力部で入力された音声の言語スコアを、前記和集合言語モデルを用いて前記クラスタデータが表すクラスタごとに計算する言語スコア計算部と、
前記入力部で入力された音声の音響スコアを、前記クラスタデータが表すクラスタごとに計算する音響スコア計算部と、
前記クラスタごとの音響スコアおよび前記クラスタごとの言語スコアに基づいて、前記人間の属性を示すデータを生成することで、属性を推定する属性推定部とを備える属性推定システム。 - 人間の所定の属性を示す属性値に対応付けられた言語モデルであって、その属性値で示される属性を持つ1または複数の人間が発生する音声または記す文字において出現する語彙と、その出現頻度とを表すデータを含むエントリを複数有する言語モデルが複数の属性値について集められてなる言語モデル群を、コンピュータを用いてクラスタリングするクラスタリング方法であって、
前記コンピュータが備える和集合言語モデル作成部が、前記言語モデル群に含まれる語彙の和集合を表す和集合データを生成し、前記和集合データを用いて、前記語彙の和集合と各語彙の出現頻度と含む和集合言語モデルを、前記言語モデル群に含まれる言語モデルそれぞれについて作成することにより、和集合言語モデル群を作成する和集合作成工程と、
前記コンピュータが備えるクラスタリング部が、前記和集合言語モデル群を分類したクラスタごとに平均を求め、その平均と和集合言語モデルとの距離を基に前記和集合言語モデル群を新しいクラスタに分類する処理を繰り返すことにより、前記和集合言語モデル群を複数のクラスタに分類し、各クラスタに含まれる1または複数の前記和集合言語モデル群を表すクラスタデータを生成する工程とを備え、
前記和集合作成工程において、前記和集合言語モデル作成部は、それぞれの言語モデルについて和集合言語モデルを作成する際に、前記和集合データに含まれる語彙のうち当該言語モデルに含まれている語彙については、当該言語モデルにおける当該語彙の出現頻度を、当該語彙と対応付けて和集合言語モデルのエントリとして記録し、前記和集合データに含まれる語彙のうち当該言語モデルに含まれていない語彙については、出現頻度が0であることを示すデータを当該語彙に対応付けて和集合言語モデルのエントリとして記録することで、同じ数のエントリを有する前記和集合言語モデルを言語モデルごとに作成し、
前記クラスタリング部は、前記同じ数のエントリを有する、言語モデルごとに作成された和集合言語モデル群を、前記クラスタに分類する、クラスタリング方法。 - 人間の所定の属性を示す属性値に対応付けられた言語モデルであって、前記属性値で示される属性を持つ1または複数の人間が発生する音声または記す文字において出現する語彙と、その出現頻度とを表すデータを含むエントリを複数有する言語モデルが、複数の属性値それぞれにについて集められてなる言語モデル群をクラスタリングする処理をコンピュータに実行させるクラスタリングプログラムであって、
前記言語モデル群に含まれる語彙の和集合を表す和集合データを生成し、前記和集合データを用いて、前記語彙の和集合と各語彙の出現頻度とを含む和集合言語モデルを、前記言語モデル群に含まれる言語モデルそれぞれについて作成することにより、和集合言語モデル群を作成する和集合言語モデル作成処理と、
前記和集合言語モデル群分類したクラスタごとに平均を求め、その平均と和集合言語モデルとの距離を基に前記和集合言語モデル群を新しいクラスタに分類する処理を繰り返すことにより、前記和集合言語モデル群を複数のクラスタに分類し、各クラスタに含まれる1または複数の前記和集合言語モデル群を表すクラスタデータを生成するクラスタリング処理とをコンピュータに実行させ、
前記和集合言語モデル作成処理においては、それぞれの言語モデルについて和集合言語モデルを作成する際に、前記和集合データに含まれる語彙のうち当該言語モデルに含まれている語彙については、当該言語モデルにおける当該語彙の出現頻度を、当該語彙と対応付けて和集合言語モデルのエントリとして記録し、前記和集合データに含まれる語彙のうち当該言語モデルに含まれていない語彙については、出現頻度が0であることを示すデータを当該語彙に対応付けて和集合言語モデルのエントリとして記録することで、同じ数のエントリを有する前記前記和集合言語モデルを言語モデルごとに作成する処理をコンピュータに実行させ、
前記クラスタリング処理では、前記同じ数のエントリを有する、言語モデルごとに作成された和集合言語モデル群を、前記クラスタに分類する処理をコンピュータに実行させる、クラスタリングプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006077126A JP4745094B2 (ja) | 2006-03-20 | 2006-03-20 | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム |
US11/472,311 US7707028B2 (en) | 2006-03-20 | 2006-06-22 | Clustering system, clustering method, clustering program and attribute estimation system using clustering system |
CN2006101013216A CN101042868B (zh) | 2006-03-20 | 2006-07-14 | 群集***、方法和使用群集***的属性估计*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006077126A JP4745094B2 (ja) | 2006-03-20 | 2006-03-20 | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007256342A JP2007256342A (ja) | 2007-10-04 |
JP4745094B2 true JP4745094B2 (ja) | 2011-08-10 |
Family
ID=38519007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006077126A Expired - Fee Related JP4745094B2 (ja) | 2006-03-20 | 2006-03-20 | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7707028B2 (ja) |
JP (1) | JP4745094B2 (ja) |
CN (1) | CN101042868B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220335928A1 (en) * | 2019-08-19 | 2022-10-20 | Nippon Telegraph And Telephone Corporation | Estimation device, estimation method, and estimation program |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7881933B2 (en) * | 2007-03-23 | 2011-02-01 | Verizon Patent And Licensing Inc. | Age determination using speech |
US20090240539A1 (en) * | 2008-03-21 | 2009-09-24 | Microsoft Corporation | Machine learning system for a task brokerage system |
JP5306702B2 (ja) * | 2008-05-13 | 2013-10-02 | 株式会社コナミデジタルエンタテインメント | 年齢層推定装置、年齢層推定方法、ならびに、プログラム |
WO2010125736A1 (ja) * | 2009-04-30 | 2010-11-04 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体 |
US8725509B1 (en) * | 2009-06-17 | 2014-05-13 | Google Inc. | Back-off language model compression |
JP2012022053A (ja) * | 2010-07-12 | 2012-02-02 | Fujitsu Toshiba Mobile Communications Ltd | 音声認識装置 |
US20120209590A1 (en) * | 2011-02-16 | 2012-08-16 | International Business Machines Corporation | Translated sentence quality estimation |
US9129606B2 (en) * | 2011-09-23 | 2015-09-08 | Microsoft Technology Licensing, Llc | User query history expansion for improving language model adaptation |
CN103187052B (zh) * | 2011-12-29 | 2015-09-02 | 北京百度网讯科技有限公司 | 一种建立用于语音识别的语言模型的方法及装置 |
US9747895B1 (en) * | 2012-07-10 | 2017-08-29 | Google Inc. | Building language models for a user in a social network from linguistic information |
US9672818B2 (en) * | 2013-04-18 | 2017-06-06 | Nuance Communications, Inc. | Updating population language models based on changes made by user clusters |
US10049656B1 (en) | 2013-09-20 | 2018-08-14 | Amazon Technologies, Inc. | Generation of predictive natural language processing models |
CN104267920B (zh) * | 2014-09-29 | 2017-10-27 | 北京奇艺世纪科技有限公司 | 用户识别方法、装置、***及显示模式切换方法、装置 |
CN104700843A (zh) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | 一种年龄识别的方法及装置 |
US10685188B1 (en) * | 2018-07-06 | 2020-06-16 | Facebook, Inc. | Systems and methods for training machine learning models for language clusters |
GB201912439D0 (en) * | 2019-08-30 | 2019-10-16 | Renishaw Plc | Spectroscopic apparatus and methods for determining components present in a sample |
CN110838290A (zh) * | 2019-11-18 | 2020-02-25 | 中国银行股份有限公司 | 跨语言交流的语音机器人交互方法及装置 |
CN111862950A (zh) * | 2020-08-03 | 2020-10-30 | 深圳作为科技有限公司 | 一种交互式多功能的老年护理机器人识别*** |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995034884A1 (fr) * | 1994-06-13 | 1995-12-21 | Matsushita Electric Industrial Co., Ltd. | Analyseur de signaux |
CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
JP2965537B2 (ja) | 1997-12-10 | 1999-10-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 話者クラスタリング処理装置及び音声認識装置 |
US6389393B1 (en) * | 1998-04-28 | 2002-05-14 | Texas Instruments Incorporated | Method of adapting speech recognition models for speaker, microphone, and noisy environment |
US6665644B1 (en) * | 1999-08-10 | 2003-12-16 | International Business Machines Corporation | Conversational data mining |
US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
US7275029B1 (en) * | 1999-11-05 | 2007-09-25 | Microsoft Corporation | System and method for joint optimization of language model performance and size |
US7020587B1 (en) * | 2000-06-30 | 2006-03-28 | Microsoft Corporation | Method and apparatus for generating and managing a language model data structure |
US6735563B1 (en) * | 2000-07-13 | 2004-05-11 | Qualcomm, Inc. | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system |
JP3646060B2 (ja) | 2000-12-15 | 2005-05-11 | シャープ株式会社 | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 |
DE60231617D1 (de) * | 2001-06-19 | 2009-04-30 | Speech Sentinel Ltd | Sprecherverifikation |
JP2003330485A (ja) * | 2002-05-10 | 2003-11-19 | Tokai Rika Co Ltd | 音声認識装置、音声認識システム及び音声認識方法 |
US20030236663A1 (en) * | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
US7263486B1 (en) * | 2002-10-25 | 2007-08-28 | At&T Corp. | Active learning for spoken language understanding |
US7552051B2 (en) * | 2002-12-13 | 2009-06-23 | Xerox Corporation | Method and apparatus for mapping multiword expressions to identifiers using finite-state networks |
JP2004198597A (ja) * | 2002-12-17 | 2004-07-15 | Advanced Telecommunication Research Institute International | 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体 |
JP2004317845A (ja) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法 |
KR100612840B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 |
-
2006
- 2006-03-20 JP JP2006077126A patent/JP4745094B2/ja not_active Expired - Fee Related
- 2006-06-22 US US11/472,311 patent/US7707028B2/en not_active Expired - Fee Related
- 2006-07-14 CN CN2006101013216A patent/CN101042868B/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220335928A1 (en) * | 2019-08-19 | 2022-10-20 | Nippon Telegraph And Telephone Corporation | Estimation device, estimation method, and estimation program |
US11996086B2 (en) * | 2019-08-19 | 2024-05-28 | Nippon Telegraph And Telephone Corporation | Estimation device, estimation method, and estimation program |
Also Published As
Publication number | Publication date |
---|---|
US7707028B2 (en) | 2010-04-27 |
JP2007256342A (ja) | 2007-10-04 |
CN101042868B (zh) | 2012-06-20 |
US20070219779A1 (en) | 2007-09-20 |
CN101042868A (zh) | 2007-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4745094B2 (ja) | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム | |
EP1669980B1 (en) | System and method for identifiying semantic intent from acoustic information | |
KR101143030B1 (ko) | 자연어 입력을 분류하는 컴퓨터 구현 방법 | |
KR100563365B1 (ko) | 계층적 언어 모델 | |
CN107180084B (zh) | 词库更新方法及装置 | |
Mairesse et al. | Can prosody inform sentiment analysis? experiments on short spoken reviews | |
Griol et al. | Combining speech-based and linguistic classifiers to recognize emotion in user spoken utterances | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
WO2008023470A1 (fr) | Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document | |
Gupta et al. | Two-stream emotion recognition for call center monitoring. | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
Kaushik et al. | Automatic sentiment detection in naturalistic audio | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
Kaushik et al. | Automatic audio sentiment extraction using keyword spotting. | |
Rajendran et al. | Language dialect based speech emotion recognition through deep learning techniques | |
JP2007102104A (ja) | 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体 | |
CN113853651B (zh) | 用量化的情感状态进行语音-情感识别的装置和方法 | |
Shafran et al. | A comparison of classifiers for detecting emotion from speech | |
HaCohen-Kerner et al. | Language and gender classification of speech files using supervised machine learning methods | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP4986301B2 (ja) | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 | |
KR102278190B1 (ko) | 공방 운영 플랫폼 서비스 방법 및 시스템 | |
Rashmi et al. | Text-to-Speech translation using Support Vector Machine, an approach to find a potential path for human-computer speech synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080411 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101021 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110511 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140520 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |