JP2018021949A - 単語予測装置、プログラム - Google Patents
単語予測装置、プログラム Download PDFInfo
- Publication number
- JP2018021949A JP2018021949A JP2016151061A JP2016151061A JP2018021949A JP 2018021949 A JP2018021949 A JP 2018021949A JP 2016151061 A JP2016151061 A JP 2016151061A JP 2016151061 A JP2016151061 A JP 2016151061A JP 2018021949 A JP2018021949 A JP 2018021949A
- Authority
- JP
- Japan
- Prior art keywords
- time
- word prediction
- word
- layer
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
<話者情報>
以下の実施例では、話者情報として、話者の役割を表す情報、話者の交代を表す情報の2種類の表現を考える。
例えば時刻tにおける話者の役割を表す情報をs(t)と表わすこととし、s(t)を以下のベクトル情報として表現する。
s(t)=[発表者/質問者,時刻tの単語が発話の先頭である/でない]
例えば、
s(t)=[1,0,0]:時刻tの単語が発話の先頭であり、その話者が発表者。
s(t)=[0,1,0]:時刻tの単語が発話の先頭であり、その話者が質問者。
s(t)=[0,0,1]:時刻tの単語が発話の先頭でない。
例えば時刻tにおける話者の交代を表す情報をs(t)と表わすこととし、s(t)を、以下のベクトル情報として表現する。
s(t)=[時刻tの単語の話者が1つ前の単語の話者と異なる/同じ,時刻tの単語が発話の先頭である/でない]
例えば、
s(t)=[1,0,0]:時刻tの単語が発話の先頭であり、その話者が1つ前の単語の話者と異なる。
s(t)=[0,1,0]:時刻tの単語が発話の先頭であり、その話者が1つ前の単語の話者と同じ。
s(t)=[0,0,1]:時刻tの単語が発話の先頭でない。
基本モデルは、話者情報を用いない再帰的ニューラルネットワーク言語モデル(RNNLM)をベースとする。
x(t)=[w(t)┬,h(t−1)┬]┬ …(1)
h(t)=f(Ux(t)) …(2)
y(t)=g(Vh(t)) …(3)
なお、┬は転置を表す。x(t)は時刻tにおける入力層(入力レイヤ)であり、時刻tにおける単語情報w(t)と1時刻前の潜在層(潜在レイヤ)であるh(t−1)を組み合わせたベクトルである。h(t)は時刻tにおける潜在層(潜在レイヤ)である。y(t)は時刻tにおける出力層(出力レイヤ)である。出力層(出力レイヤ)は、次の単語の確率を表す語彙数次元のベクトルである。ベクトルの各要素は非負の値をとり、各要素の総和は1である。UとVは線形変換行列であって、本ステップにおいて最適化されるパラメータである。f()、g()は非線形関数であり、例えば、それぞれシグモイド関数とソフトマックス関数を用いることができる。シグモイド関数、ソフトマックス関数を式(4)、式(5)に示す。
モデル1では、出力レイヤを求めるために1時刻未来の話者情報が用いられる。具体的には、
y(t)=g(Vh(t)+V’s(t+1)) …(6)
モデル1では、出力レイヤの求め方以外は、基本モデルの式が用いられる。なお、V’は線形変換行列であって、本ステップで最適化されるパラメータである。本実施例のパラメータ推定部12は、式(1)、式(2)、式(6)を用いて前述のパラメータU,V,V’を最適化し、パラメータU,V,V’を推定する。式(6)はすなわち、時刻tにおける潜在レイヤh(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められるモデル(モデル1)を意味する。
h(t)=f(U[x(t)┬,s(t)┬]┬) …(7)
y(t)=g(Vh(t)+V’s(t+1)) …(6)
すなわち、パラメータ推定部22は、時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)に基づいて時刻tにおける潜在レイヤh(t)が定められる式(7)、時刻tにおける潜在レイヤh(t)と時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められる式(6)によるモデル(モデル2)に基づいてパラメータを最適化することでパラメータを推定する(S22)。単語予測部23は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル2を使用して潜在レイヤ、出力レイヤを算出する(S23)。
h(t)=f(U[x(t)┬,s(t+1)]┬) …(8)
すなわち、パラメータ推定部32は、時刻tにおける入力レイヤx(t)と時刻t+1における話者情報s(t+1)に基づいて時刻tにおける潜在レイヤh(t)が定められる式(8)によるモデル(モデル3)に基づいてパラメータを最適化することでパラメータを推定する(S32)。単語予測部33は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル3を使用して潜在レイヤ、出力レイヤを算出する(S33)。
y(t)=g(Vh(t)+V’[s(t)┬,s(t+1)┬]┬) …(9)
すなわち、パラメータ推定部42は、時刻tにおける潜在レイヤh(t)と、時刻tにおける話者情報s(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められる式(9)によるモデル(モデル4)に基づいてパラメータを最適化することでパラメータを推定する(S42)。単語予測部43は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル4を使用して潜在レイヤ、出力レイヤを算出する(S43)。
s(t+1)=g(V’h(t)) …(10)
すなわち、パラメータ推定部52は、時刻tにおける潜在レイヤh(t)に基づいて時刻t+1における話者情報s(t+1)が定められる式(10)によるモデル(モデル5)に基づいてパラメータを最適化することでパラメータを推定する(S52)。単語予測部53は、少なくとも単語情報を含むテストデータと、推定されたパラメータに基づいて、基本モデルを使用して潜在レイヤ、出力レイヤを算出する(S53)。
h(t)=f(U[x(t)┬,s(t)┬]┬) …(7)
s(t+1)=g(V’h(t)) …(10)
すなわち、パラメータ推定部62は、時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)に基づいて時刻tにおける潜在レイヤh(t)が定められる式(7)、時刻tにおける潜在レイヤh(t)に基づいて時刻t+1における話者情報s(t+1)が定められる式(10)によるモデル(モデル6)に基づいてパラメータを最適化することでパラメータを推定する(S62)。
本発明の単語予測装置の性能を評価するため、実験を行った。評価尺度としてテストセット・パープレキシティを用いた。パープレキシティとは、情報理論的な意味での単語の平均分岐数を表わし、この値が小さいほど、言語モデルの性能が高いと評価できる。比較のため、3グラム言語モデル、RNNLM(基本モデル、非特許文献1)、モデル1〜6、考察のためのモデル(モデル3のs(t+1)をs(t)にしたもの)の9種類の言語モデルで評価した。ただし、モデル1〜6に関しては2種類のs(t)について実験を行なった。
モデルの有効性を確認するため、実際の対話を収録し得られた対話コーパスに対しパープレキシティによる評価を行った。実験に用いたデータは独自に収録した対話コーパスで、内容は特定のテーマに関して行なった議論となっている。1つのテーマに関する議論を1セッションとし、1セッション約16分程度となっている。参加者は4〜6人で、1セッションごとに発表者が1人決められており、それ以外は質問者とする。セッションごとに参加者が同じ場合も異なる場合もある。データセットは訓練文書数、検証文書数、評価文書数から構成され、それぞれの発話数、セッション数、語彙数、単語数を表1に示す。パラメータを表2に示す。また、学習率は初期値を0.1とし、検証セットに対する対数尤度を各イテレーションごとに算出し、前イテレーションにおける対数尤度値との比が1.003を下回った場合に半減させた。
各モデルにおけるテストセット・パープレキシティを表3に示す。s(t)[役割]は、<話者の役割>において定めたs(t)を用いた時の結果であり、s(t)[話者交代]は、<話者の交代>において定めたs(t)を用いた時の結果である。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (8)
- 再帰的ニューラルネットワーク言語モデルにより、複数人の話者の対話データから次の単語を予測する単語予測装置であって、
前記話者の役割と前記話者の交代の少なくとも何れかを表す話者情報と、発話された単語の情報である単語情報を学習データとして取得し、前記再帰的ニューラルネットワーク言語モデルの潜在レイヤ、出力レイヤを算出するためのパラメータを前記学習データに基づいて推定するパラメータ推定部と、
前記話者情報と前記単語情報を含むテストデータと、推定された前記パラメータに基づいて、前記潜在レイヤ、前記出力レイヤを算出する単語予測部と、
を含む単語予測装置。 - 請求項1に記載の単語予測装置であって、
前記パラメータ推定部は、
時刻tにおける潜在レイヤh(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
前記単語予測部は、
時刻tにおける潜在レイヤh(t)と、時刻t+1における話者情報s(t+1)と、推定された前記パラメータに基づいて時刻tにおける出力レイヤy(t)を算出する
単語予測装置。 - 請求項1に記載の単語予測装置であって、
前記パラメータ推定部は、
前記再帰的ニューラルネットワーク言語モデルの時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)に基づいて時刻tにおける潜在レイヤh(t)が定められ、時刻tにおける潜在レイヤh(t)と時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
前記単語予測部は、
時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)と推定された前記パラメータに基づいて時刻tにおける潜在レイヤh(t)を算出し、時刻tにおける潜在レイヤh(t)と時刻t+1における話者情報s(t+1)と推定された前記パラメータに基づいて時刻tにおける出力レイヤy(t)を算出する
単語予測装置。 - 請求項1に記載の単語予測装置であって、
前記パラメータ推定部は、
前記再帰的ニューラルネットワーク言語モデルの時刻tにおける入力レイヤx(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける潜在レイヤh(t)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
前記単語予測部は、
時刻tにおける入力レイヤx(t)と、時刻t+1における話者情報s(t+1)と、推定された前記パラメータに基づいて時刻tにおける潜在レイヤh(t)を算出する
単語予測装置。 - 請求項1に記載の単語予測装置であって、
前記パラメータ推定部は、
時刻tにおける潜在レイヤh(t)と、時刻tにおける話者情報s(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
前記単語予測部は、
時刻tにおける潜在レイヤh(t)と、時刻tにおける話者情報s(t)と、時刻t+1における話者情報s(t+1)と、推定された前記パラメータに基づいて時刻tにおける出力レイヤy(t)を算出する
単語予測装置。 - 請求項1に記載の単語予測装置であって、
前記パラメータ推定部は、
時刻tにおける潜在レイヤh(t)に基づいて時刻t+1における話者情報s(t+1)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定する
単語予測装置。 - 請求項1に記載の単語予測装置であって、
前記パラメータ推定部は、
前記再帰的ニューラルネットワーク言語モデルの時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)に基づいて時刻tにおける潜在レイヤh(t)が定められ、時刻tにおける潜在レイヤh(t)に基づいて時刻t+1における話者情報s(t+1)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
前記単語予測部は、
時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)と推定された前記パラメータに基づいて時刻tにおける潜在レイヤh(t)を算出する
単語予測装置。 - コンピュータを請求項1から7の何れかに記載の単語予測装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016151061A JP6588874B2 (ja) | 2016-08-01 | 2016-08-01 | 単語予測装置、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016151061A JP6588874B2 (ja) | 2016-08-01 | 2016-08-01 | 単語予測装置、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018021949A true JP2018021949A (ja) | 2018-02-08 |
JP6588874B2 JP6588874B2 (ja) | 2019-10-09 |
Family
ID=61164431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016151061A Active JP6588874B2 (ja) | 2016-08-01 | 2016-08-01 | 単語予測装置、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6588874B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858004A (zh) * | 2019-02-12 | 2019-06-07 | 四川无声信息技术有限公司 | 文本改写方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010013371A1 (ja) * | 2008-07-28 | 2010-02-04 | 日本電気株式会社 | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体 |
JP2015075706A (ja) * | 2013-10-10 | 2015-04-20 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
JP2015102806A (ja) * | 2013-11-27 | 2015-06-04 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
-
2016
- 2016-08-01 JP JP2016151061A patent/JP6588874B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010013371A1 (ja) * | 2008-07-28 | 2010-02-04 | 日本電気株式会社 | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体 |
JP2015075706A (ja) * | 2013-10-10 | 2015-04-20 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
JP2015102806A (ja) * | 2013-11-27 | 2015-06-04 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858004A (zh) * | 2019-02-12 | 2019-06-07 | 四川无声信息技术有限公司 | 文本改写方法、装置及电子设备 |
CN109858004B (zh) * | 2019-02-12 | 2023-08-01 | 四川无声信息技术有限公司 | 文本改写方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP6588874B2 (ja) | 2019-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
JP7268711B2 (ja) | 信号処理システム、信号処理装置、信号処理方法、およびプログラム | |
JP2005208648A (ja) | スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法 | |
WO2019156101A1 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP2019179257A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP7409381B2 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
US11797769B1 (en) | Artificial intelligence system using hybrid technique for task-oriented dialog management | |
JP6588874B2 (ja) | 単語予測装置、プログラム | |
JP4705557B2 (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP6992725B2 (ja) | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP4981579B2 (ja) | 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 | |
WO2020162238A1 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP7111017B2 (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
JP6988756B2 (ja) | タグ推定装置、タグ推定方法、プログラム | |
JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
JP7160170B2 (ja) | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム | |
JP5956913B2 (ja) | 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 | |
JP7218810B2 (ja) | 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160801 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180822 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20180822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190913 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6588874 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |