JP2017117045A - 言語確率算出方法、言語確率算出装置および言語確率算出プログラム - Google Patents
言語確率算出方法、言語確率算出装置および言語確率算出プログラム Download PDFInfo
- Publication number
- JP2017117045A JP2017117045A JP2015249375A JP2015249375A JP2017117045A JP 2017117045 A JP2017117045 A JP 2017117045A JP 2015249375 A JP2015249375 A JP 2015249375A JP 2015249375 A JP2015249375 A JP 2015249375A JP 2017117045 A JP2017117045 A JP 2017117045A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- activity
- activity vector
- layer
- intermediate layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】言語確率算出装置1は、記号を表すベクトルを順次読み込み、そのたびに入力層の活性度ベクトルを算出し、入力層の活性度ベクトルが算出されるたびに、中間層において前回算出された活性度ベクトルと、入力層の活性度ベクトルとを基に中間層の活性度ベクトルを算出する。このとき、言語確率算出装置1は、中間層の活性度ベクトルのうち、所定回数前までに算出された活性度ベクトルの平均である平均活性度ベクトルを算出し、中間層の活性度ベクトルが算出されるたびに、中間層の活性度ベクトルと、中間層の平均活性度ベクトルとを基に出力層の活性度ベクトルを算出し、出力層の活性度ベクトルを基に記号の出現確率を算出する。
【選択図】図4
Description
まず、RNN言語モデルの概要について説明する。RNNは、1つの入力層、1つ以上の中間層、および1つの出力層を持ち、少なくとも1つの中間層の中でニューロンが相互に結合された再帰結合を持つ。そして、RNN言語モデルのRNNには入力記号列の各記号が順次入力され、現在の1つ前の記号を表すベクトルと、その時の中間層の各ニューロンの活性度とを用いて、現在の記号の出現確率を算出する。
以下の実施形態では、第1の実施形態に係る言語確率算出装置の構成、および言語確率算出装置によって実行される言語確率算出方法を説明し、さらに第1の実施形態による効果を説明する。また、以降の説明において「RNN言語モデル」は本発明の実施形態におけるRNN言語モデルを示すが、「従来のRNN言語モデル」はこれまで図1〜3を用いて説明したRNN言語モデルを示すものとする。
まず、図4を用いて第1の実施形態に係る言語確率算出装置の構成について説明する。図4は、第1の実施形態に係る言語確率算出装置の構成の一例を示す図である。図4に示すように、言語確率算出装置1は、予測部10、学習部11および記憶部12を有する。
次に、図5を用いて言語確率算出装置1の処理について説明する。図5は、第1の実施形態に係る言語確率算出装置における処理の一例を示すフローチャートである。図5に示すように、まず、記号ベクトル読込部101はtを1に設定し(ステップS201)、記号列を読み込む。そして、入力層活性度ベクトル算出部102は記号xtを入力層の活性度ベクトルh1 (t)に設定し(ステップS202)、nを2に設定する(ステップS203)。
実際のデータを用いて言語確率算出装置1の評価を行った結果を用いて第1の実施形態の効果について説明する。まず、RNN言語モデルのパラメータを求めるため「日本語話し言葉コーパス」に含まれる学会講演を人が書き起こした文章を学習データとして使用した。
次に、第2の実施形態として、本発明の言語確率算出方法を音声認識装置に適用した場合について説明する。音声認識装置においては、音響的な妥当性および言語的な妥当性の両方を考慮して認識結果を出力する。第2の実施形態においては、言語的な妥当性の判定に本発明の言語確率算出方法を用いる。
図7を用いて、第2の実施形態に係る音声認識装置の構成について説明する。図7は、第2の実施形態に係る音声認識装置の構成の一例を示す図である。図7に示すように、音声認識装置2は、音声信号入力部21、候補文作成部22、音響スコア算出部23、言語確率算出部24、言語スコア算出部25および認識結果抽出部26を有する。
図8を用いて第2の実施形態の処理について説明する。図8は、第2の実施形態に係る音声認識装置における処理の一例を示すフローチャートである。図8に示すように、まず音声信号入力部21に音声信号が入力される(ステップS301)。次に、候補文作成部22は、音声認識結果の候補文を作成する(ステップS302)。そして、音響スコア算出部23は各候補文の音響スコアを算出する(ステップS303)。
Nグラム言語モデル、従来のRNN言語モデルおよび第2の実施形態におけるRNN言語モデルを用いて音声認識を行った場合のそれぞれの単語誤り率を表2に示す。ただし、初めに出力する候補の数Qは500に設定した。また、単語誤り率は、実際に話された単語の中で誤って認識した単語の割合を表しており、小さいほど音声認識の精度が高いことを表す。
図6等においては、中間層が1層である場合を例として説明したが、本発明における中間層は1層に限られず複数であってもよい。その場合、言語確率算出装置1の中間層活性度ベクトル算出部103は、入力層活性度ベクトル算出部102によって入力層における活性度ベクトルが算出されるたびに、中間層において前回算出された活性度ベクトルおよび入力層における活性度ベクトルだけでなく、中間層の下の中間層における活性度ベクトルも基にして中間層における活性度ベクトルを算出する。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図9は、プログラムが実行されることにより、言語確率算出装置または音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
10 予測部
11 学習部
12 記憶部
101 記号ベクトル読込部
102 入力層活性度ベクトル算出部
103 中間層活性度ベクトル算出部
104 平均活性度ベクトル算出部
105 出力層活性度ベクトル算出部
106 記号出現確率算出部
111 損失関数定義部
112 パラメータ推定部
121 RNN言語モデル記憶部
Claims (7)
- 入力層と、再帰結合したニューロンを有する中間層と、出力層と、を有するニューラルネットワークモデルを用いて言語確率を算出する言語確率算出方法であって、
記号を表すベクトルを順次読み込む記号ベクトル読込工程と、
前記記号ベクトル読込工程によって前記ベクトルが読み込まれるたびに、前記ベクトルを基に前記入力層における活性度ベクトルを算出する入力層活性度ベクトル算出工程と、
前記入力層活性度ベクトル算出工程によって前記入力層における活性度ベクトルが算出されるたびに、前記中間層において前回算出された活性度ベクトルと、前記入力層における活性度ベクトルとを基に前記中間層における活性度ベクトルを算出する中間層活性度ベクトル算出工程と、
前記中間層における活性度ベクトルのうち、所定回数前までに算出された活性度ベクトルの平均である平均活性度ベクトルを算出する平均活性度ベクトル算出工程と、
前記中間層活性度ベクトル算出工程によって前記中間層における活性度ベクトルが算出されるたびに、前記中間層における活性度ベクトルと、前記中間層における前記平均活性度ベクトルとを基に前記出力層における活性度ベクトルを算出する出力層活性度ベクトル算出工程と、
前記出力層における活性度ベクトルを基に所定の記号の出現確率を算出する記号出現確率算出工程と、
を含んだことを特徴とする言語確率算出方法。 - 前記平均活性度ベクトル算出工程は、前記所定回数を変化させて複数の平均活性度ベクトルを算出し、
前記出力層活性度ベクトル算出工程は、前記中間層における活性度ベクトルおよび前記中間層における前記複数の平均活性度ベクトルのそれぞれの重み付きの和を前記出力層における活性度ベクトルとして算出することを特徴とする請求項1に記載の言語確率算出方法。 - 学習データを用いて、前記重み付きの和における重みをパラメータとする損失関数を定義する損失関数定義工程と、
前記損失関数が最小となるように前記パラメータを推定するパラメータ推定工程と、
をさらに含んだことを特徴とする請求項2に記載の言語確率算出方法。 - 複数の中間層を有し、
前記中間層活性度ベクトル算出工程は、前記入力層活性度ベクトル算出工程によって前記入力層における活性度ベクトルが算出されるたびに、前記中間層において前回算出された活性度ベクトルと、前記中間層の下の中間層における活性度ベクトルと、該中間層における前記平均活性度ベクトルとを基に前記中間層における活性度ベクトルを算出することを特徴とする請求項1から3のいずれか1項に記載の言語確率算出方法。 - 入力された音声信号に合致する文の候補である複数の候補文を作成する候補文作成工程と、
前記候補文ごとの前記音声信号との音響的な一致度を表す音響スコアを算出する音響スコア算出工程と、をさらに含み、
前記記号ベクトル読込工程は、前記候補文を構成する単語を表すベクトルを順次読み込み、
記号出現確率算出工程によって算出された前記出現確率を基に前記候補文ごとの言語スコアを算出する言語スコア算出工程と、
前記候補文のうち、前記音響スコアと前記言語スコアとの合計が最も大きい候補文を前記音声信号に合致する文として抽出する認識結果抽出工程と、
をさらに含んだことを特徴とする請求項1から4のいずれか1項に記載の言語確率算出方法。 - 入力層と、再帰結合したニューロンを有する中間層と、出力層と、を有するニューラルネットワークモデルを用いて言語確率を算出する言語確率算出装置であって、
記号を表すベクトルを順次読み込む記号ベクトル読込部と、
前記記号ベクトル読込部によって前記ベクトルが読み込まれるたびに、前記ベクトルを基に前記入力層における活性度ベクトルを算出する入力層活性度ベクトル算出部と、
前記入力層活性度ベクトル算出部によって前記入力層における活性度ベクトルが算出されるたびに、前記中間層において前回算出された活性度ベクトルと、前記入力層における活性度ベクトルとを基に前記中間層における活性度ベクトルを算出する中間層活性度ベクトル算出部と、
前記中間層における活性度ベクトルのうち、所定回数前までに算出された活性度ベクトルの平均である平均活性度ベクトルを算出する平均活性度ベクトル算出部と、
前記中間層活性度ベクトル算出部によって前記中間層における活性度ベクトルが算出されるたびに、前記中間層における活性度ベクトルと、前記中間層における前記平均活性度ベクトルとを基に前記出力層における活性度ベクトルを算出する出力層活性度ベクトル算出部と、
前記出力層における活性度ベクトルを基に所定の記号の出現確率を算出する記号出現確率算出部と、
を有することを特徴とする言語確率算出装置。 - コンピュータを、請求項6に記載の言語確率算出装置として機能させるための言語確率算出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015249375A JP6495814B2 (ja) | 2015-12-22 | 2015-12-22 | 言語確率算出方法、言語確率算出装置および言語確率算出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015249375A JP6495814B2 (ja) | 2015-12-22 | 2015-12-22 | 言語確率算出方法、言語確率算出装置および言語確率算出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017117045A true JP2017117045A (ja) | 2017-06-29 |
JP6495814B2 JP6495814B2 (ja) | 2019-04-03 |
Family
ID=59234814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015249375A Active JP6495814B2 (ja) | 2015-12-22 | 2015-12-22 | 言語確率算出方法、言語確率算出装置および言語確率算出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6495814B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019035936A (ja) * | 2017-08-14 | 2019-03-07 | 三星電子株式会社Samsung Electronics Co.,Ltd. | ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法及び電子装置 |
WO2020035998A1 (ja) * | 2018-08-17 | 2020-02-20 | 日本電信電話株式会社 | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
WO2020162240A1 (ja) * | 2019-02-08 | 2020-08-13 | 日本電信電話株式会社 | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 |
JP2020135546A (ja) * | 2019-02-21 | 2020-08-31 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置および不具合推定方法 |
CN111768756A (zh) * | 2020-06-24 | 2020-10-13 | 华人运通(上海)云计算科技有限公司 | 信息处理方法、装置、车辆和计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04117560A (ja) * | 1990-09-07 | 1992-04-17 | Fujitsu Ltd | 節/句境界抽出方式 |
JPH04156660A (ja) * | 1990-10-20 | 1992-05-29 | Fujitsu Ltd | 過去の履歴保存機能を有するニューラルネットワーク学習装置 |
JPH05174051A (ja) * | 1991-12-26 | 1993-07-13 | Fujitsu Ltd | つづり−発音記号変換処理方式と例外語辞書管理データ登録処理方式 |
JP2015075706A (ja) * | 2013-10-10 | 2015-04-20 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
-
2015
- 2015-12-22 JP JP2015249375A patent/JP6495814B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04117560A (ja) * | 1990-09-07 | 1992-04-17 | Fujitsu Ltd | 節/句境界抽出方式 |
JPH04156660A (ja) * | 1990-10-20 | 1992-05-29 | Fujitsu Ltd | 過去の履歴保存機能を有するニューラルネットワーク学習装置 |
JPH05174051A (ja) * | 1991-12-26 | 1993-07-13 | Fujitsu Ltd | つづり−発音記号変換処理方式と例外語辞書管理データ登録処理方式 |
JP2015075706A (ja) * | 2013-10-10 | 2015-04-20 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019035936A (ja) * | 2017-08-14 | 2019-03-07 | 三星電子株式会社Samsung Electronics Co.,Ltd. | ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法及び電子装置 |
JP7170405B2 (ja) | 2017-08-14 | 2022-11-14 | 三星電子株式会社 | ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法 |
WO2020035998A1 (ja) * | 2018-08-17 | 2020-02-20 | 日本電信電話株式会社 | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
JP2020027224A (ja) * | 2018-08-17 | 2020-02-20 | 日本電信電話株式会社 | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
WO2020162240A1 (ja) * | 2019-02-08 | 2020-08-13 | 日本電信電話株式会社 | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 |
JP2020129061A (ja) * | 2019-02-08 | 2020-08-27 | 日本電信電話株式会社 | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 |
JP7120064B2 (ja) | 2019-02-08 | 2022-08-17 | 日本電信電話株式会社 | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 |
JP2020135546A (ja) * | 2019-02-21 | 2020-08-31 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置および不具合推定方法 |
JP7314526B2 (ja) | 2019-02-21 | 2023-07-26 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置および不具合推定方法 |
CN111768756A (zh) * | 2020-06-24 | 2020-10-13 | 华人运通(上海)云计算科技有限公司 | 信息处理方法、装置、车辆和计算机存储介质 |
CN111768756B (zh) * | 2020-06-24 | 2023-10-20 | 华人运通(上海)云计算科技有限公司 | 信息处理方法、装置、车辆和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6495814B2 (ja) | 2019-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
JP6495814B2 (ja) | 言語確率算出方法、言語確率算出装置および言語確率算出プログラム | |
CN108346436B (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
KR102167719B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
US10580432B2 (en) | Speech recognition using connectionist temporal classification | |
JP2017228160A (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP2019537809A (ja) | ポインタセンチネル混合アーキテクチャ | |
WO2015079885A1 (ja) | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム | |
EP0313975A2 (en) | Design and construction of a binary-tree system for language modelling | |
JP6831343B2 (ja) | 学習装置、学習方法及び学習プログラム | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
JP2017058877A (ja) | 学習装置、音声検出装置、学習方法およびプログラム | |
CN113435208B (zh) | 学生模型的训练方法、装置及电子设备 | |
US20220382978A1 (en) | Training masked language models based on partial sequences of tokens | |
JP2019095600A (ja) | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム | |
JP2017010249A (ja) | パラメタ学習装置、文類似度算出装置、方法、及びプログラム | |
US20220067280A1 (en) | Multi-token embedding and classifier for masked language models | |
CN114626518A (zh) | 使用深度聚类的知识蒸馏 | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
JP6605997B2 (ja) | 学習装置、学習方法及びプログラム | |
Tan et al. | Towards implicit complexity control using variable-depth deep neural networks for automatic speech recognition | |
JP2020095732A (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
US11954448B2 (en) | Determining position values for transformer models | |
KR102292921B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
Tascini | Al-Chatbot: elderly aid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20180309 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6495814 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |