JP2020030367A - 音声認識結果整形モデル学習装置およびそのプログラム - Google Patents

音声認識結果整形モデル学習装置およびそのプログラム Download PDF

Info

Publication number
JP2020030367A
JP2020030367A JP2018156926A JP2018156926A JP2020030367A JP 2020030367 A JP2020030367 A JP 2020030367A JP 2018156926 A JP2018156926 A JP 2018156926A JP 2018156926 A JP2018156926 A JP 2018156926A JP 2020030367 A JP2020030367 A JP 2020030367A
Authority
JP
Japan
Prior art keywords
sentence
recognition result
learning
shaping
formatted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018156926A
Other languages
English (en)
Other versions
JP7190283B2 (ja
Inventor
伊藤 均
Hitoshi Ito
均 伊藤
庄衛 佐藤
Shoe Sato
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2018156926A priority Critical patent/JP7190283B2/ja
Publication of JP2020030367A publication Critical patent/JP2020030367A/ja
Application granted granted Critical
Publication of JP7190283B2 publication Critical patent/JP7190283B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】規則を設けることなく、音声認識結果を整形することが可能なニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置を提供する。【解決手段】音声認識結果整形モデル学習装置1は、学習素材の音声を発話区間ごとに認識する音声認識手段11と、発話区間ごとに音声認識手段11の認識結果と学習素材の整形文との間でマッチングを行い、対応する認識結果および整形文のペアを学習用認識結果および学習用整形文として生成する学習データ生成手段12と、学習用認識結果に対する整形文の正解を学習用整形文として文整形モデルを学習する文整形モデル学習手段13と、を備える。【選択図】図1

Description

本発明は、音声認識結果を整形するためのモデルを学習する音声認識結果整形モデル学習装置およびそのプログラムに関する。
音声認識は音響特徴を手がかりとして認識結果を出力する手法である。また、音声認識に用いる音響モデルとして音響特徴を学習する場合、音響特徴に忠実ではない書き起こしを学習データから排除して学習を行っていた。そのため、音響特徴の存在しない記号(句読点等)等については、認識結果として出力することが困難であった。
そこで、従来は、人手による書き起こし文に対して、統計的翻訳手法を用いて、フィラーの削除、句読点の挿入、助詞の挿入、書き言葉表現への変換、文体の統一といった文を整形する手法が提案されている(非特許文献1参照)。
また、文整形を目的としたものではないが、従来は、ニューラルネットワークを用いて音声認識誤りを修正する言語モデルも提案されている(非特許文献2参照)。
下岡和也,南條浩輝,河原達也、"講演の書き起こしに対する統計的手法を用いた文体の整形"、一般社団法人情報処理学会、情報処理学会研究報告.自然言語処理研究会報告、2002(44)、PP.81−88、2002年5月 田中智大,増村亮,政瀧浩和、"音声認識におけるニューラル誤り訂正言語モデルの検討"、一般社団法人日本音響学会、2018年春季日本音響学会研究発表会講演論文集CD−ROM、PP.21−22、2018年3月
人手による書き起こし文、放送番組の字幕等では、読みやすさのため、記号(句読点等)が挿入されていたり、実際には発声されている言い淀みが削除されていたり、逆に発声されていない文字列が補われていたりする。
従来のような音響特徴に忠実な音声認識では、このような、音響特徴から推測可能な範囲を超えて編集された単語列を、音声認識結果として出力することは困難である。
また、認識誤りを含んだ不明瞭な発話の書き起こし文を整形するには、読み上げ文を基準にしたルール記述による手法や周辺単語の統計的情報のみを用いる従来の手法では限界がある。
本発明は、このような問題に鑑みてなされたものであり、規則を設けることなく、一文全体の情報を考慮することで記号(句読点等)の挿入や言い換えを含む編集を行って、音声認識結果を整形することが可能なニューラルネットワークのモデルを学習する音声認識結果整形モデル学習装置およびそのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る音声認識結果整形モデル学習装置は、音声と前記音声に対する予め整形した整形文とを学習素材として用い、音声の認識結果を整形するためのニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置であって、音声認識手段と、学習データ生成手段と、文整形モデル学習手段と、を備える構成とした。
かかる構成において、音声認識結果整形モデル学習装置は、音声認識手段によって、学習素材の音声を発話区間ごとに認識する。
そして、音声認識結果整形モデル学習装置は、学習データ生成手段によって、発話区間ごとに音声認識手段の認識結果と整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する。これによって、学習データ生成手段は、音声認識結果と正解文となる整形文とを対応付け、文整形モデルを学習するための学習データを生成する。
そして、音声認識結果整形モデル学習装置は、文整形モデル学習手段によって、学習用認識結果に対する整形文の正解を学習用整形文として、文整形モデルの出力と学習用整形文との誤差を小さくするように文整形モデルを学習する。
このように学習した文整形モデルは、音声の認識結果を入力するだけで、整形文を出力することができ、予め文整形の規則を設ける必要がない。
また、前記課題を解決するため、本発明に係る音声認識結果整形モデル学習装置は、音声の発話区間ごとの認識結果と前記音声に対する予め整形した整形文とを学習素材として用い、音声の認識結果を整形するためのニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置であって、学習データ生成手段と、文整形モデル学習手段と、を備える構成とした。
かかる構成において、音声認識結果整形モデル学習装置は、学習データ生成手段によって、発話区間ごとの認識結果と整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する。これによって、学習データ生成手段は、音声認識結果と正解文となる整形文とを対応付け、文整形モデルを学習するための学習データを生成する。
そして、音声認識結果整形モデル学習装置は、文整形モデル学習手段によって、学習用認識結果に対する整形文の正解を学習用整形文として文整形モデルを学習する。
これによって、文整形モデル学習手段は、文整形モデルの出力が学習用整形文と近似するように文整形モデルのパラメータを学習する。
なお、音声認識結果整形モデル学習装置は、コンピュータを、前記した各手段として機能させるための音声認識結果整形モデル学習プログラムで動作させることができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、音声またはその認識結果と、対応する整形文とを準備するだけで、特別な規則を設けることなく、音声認識結果を読みやすく整形するための文整形モデルを学習することができる。
また、本発明によれば、認識結果に対応する正解として整形文を準備するため、音声認識の誤り傾向も学習することができ、音声認識精度を高めた文整形モデルを学習することができる。
本発明の実施形態に係る音声認識結果整形モデル学習装置の構成を示すブロック構成図である。 学習素材の一例を説明するための説明図であって、(a)は音声を仮名表記した例、(b)は(a)の音声認識結果を整形した整形文の例を示す。 本発明の実施形態に係る音声認識結果整形モデル学習装置で学習する文整形モデルの概要を説明するための説明図である。 本発明の実施形態に係る音声認識結果整形モデル学習装置の動作を示すフローチャートである。 参考例の実施形態に係る音声認識結果整形装置の構成を示すブロック構成図である。 参考例の実施形態に係る音声認識結果整形装置の動作を示すフローチャートである。 本発明の実施形態に係る音声認識結果整形モデル学習装置で学習した文整形モデルを用いた文整形例を示す図であって、(a)は記号挿入の例、(b)は不要語削除の例、(c)は認識誤り修正の例を示す。 学習データの選定基準を説明するための実験データを示す図である。 変形例の音声認識結果整形モデル学習装置の構成を示すブロック構成図である。 変形例の音声認識結果整形装置の構成を示すブロック構成図である。
以下、本発明の実施形態について図面を参照して説明する。
<音声認識結果整形モデル学習装置の構成>
まず、図1を参照して、本発明の実施形態に係る音声認識結果整形モデル学習装置1の構成について説明する。
音声認識結果整形モデル学習装置1は、複数の発話を含んだ音声(音声データ)Xsと、その音声を予めテキスト化して整形した整形文Xtを学習素材Xとして、音声から整形文を推定するニューラルネットワークのモデル(文整形モデル)を学習するものである。
ここで整形とは、文の可読性の観点から音声のテキストデータの文字列を他の文字列に変形することである。例えば、不要語の削除、記号や文字の挿入、数字として使用する文字の変換(漢数字から算用数字等)等である。
ここで、図2を参照して、学習素材Xの一例について説明する。(a)は音声を仮名表記した例であり、(b)は(a)の音声認識結果を整形した整形文の例を示す。
(a)中の「ええと(a1)」、「あの(a3)」は、発話の合間にはさみこむフィラーであるが、必ずしもすべてが不要語であるとは限らない。
(b)の整形文は、(a)の音声の「あの(a3)」を不要語として削除した整形例を示す。
(a)中の「に さん(a2)」は数字であって、通常、音声認識結果は、漢数字(二三)となるが、横書きの場合等、算用数字(23)の方が読みやすい場合がある。また、この場合、「にじゅうさん」との読み間違いを防止するため、記号「・」を挿入することが好ましい。
(b)の整形文は、算用数字化と記号の挿入により、「2・3(b2)」とした整形例を示す。
また、文の読みやすさの観点から、必要に応じて句読点、記号等を追加することが好ましい。
(b)の整形文は、読点「、(b1)」および疑問符「?(b3)」の文字を挿入、追加した整形例を示す。
これら以外にも、「ですます調」/「である調」の文体の統一等といった整形もある。
音声認識結果整形モデル学習装置1は、音声として、放送番組の音声、整形文として、当該放送番組の字幕データを用いることができる。字幕データの各文は、音声の発話区間に対応し、例えば、改行等で区分された各文が、発話区間ごとの音声の整形文を示す。なお、音声の発話区間に対応する字幕データ(整形文)が存在しない場合もある。
図1に戻って、音声認識結果整形モデル学習装置1の構成について説明を続ける。
図1に示すように、音声認識結果整形モデル学習装置1は、制御手段10と、記憶手段20と、を備える。
制御手段10は、音声認識結果整形モデル学習装置1の動作を制御するものである。
制御手段10は、音声認識手段11と、学習データ生成手段12と、文整形モデル学習手段13と、を備える。
音声認識手段11は、学習素材Xである音声Xを認識し、テキストデータである認識結果を生成するものである。
この音声認識手段11は、入力した音声を、予め定めた基準で区切った発話区間ごとに認識を行い、発話区間ごとの認識結果を素材記憶手段21に記憶する。
発話区間の区切りの基準として、例えば、音響特徴量のパワースペクトルを用いることができる。その場合、音声認識手段11は、予め定めた閾値よりもパワースペクトルが大きい場合に当該時間区間を発話区間と判定し、それ以外を非発話区間と判定すればよい。
この音声認識手段11は、公知の音声認識手法を用いて音声認識を行えばよく、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行う。なお、音声認識手段11における音声認識手法は、例えば、特開2010−175765等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。
なお、音声認識手段11は、認識仮説の中の最良の文字列を限定して認識結果とする必要はなく、複数の認識仮説を認識結果としてもよい。
学習データ生成手段12は、音声認識手段11で認識された音声の認識結果から、文整形モデルを学習するための学習データを生成するものである。
学習データ生成手段12は、マッチング手段120と、選定手段121と、を備える。
マッチング手段120は、音声認識手段11で認識された発話区間ごとの認識結果と、学習素材Xである整形文Xとをマッチングするものである。
このマッチング手段120は、素材記憶手段21に記憶されている認識結果と、外部から入力して予め素材記憶手段21に記憶した整形文とでマッチング(弾性マッチング)を行う。
このマッチング手段120は、例えば、動的計画法(Dynamic Programming)によるマッチング手法(DPマッチング)により、単語または文字単位で認識結果と整形文とをマッチングすることで、認識結果に対応する整形文を推定する。このとき、マッチング手段120は、類似の度合いとして、認識結果と整形文との間で、認識誤り、記号の挿入、書き換えを含んだ不一致率(matching error rate:MER)を算出する。なお、類似の度合いとして、一致率を用いてもよい。
マッチング手段120は、対応付けた認識結果および整形文のペアに、その類似の度合い(以降、不一致率とする)をさらに対応付け、マッチングリストMLとして、マッチングリスト記憶手段22に記憶する。
マッチング手段120は、すべての発話区間ごとの認識結果について、整形文とのマッチングが終了した段階で、マッチングが完了したことを選定手段121に通知する。
選定手段121は、マッチング手段120でマッチングした認識結果および整形文のペア(マッチングリストML)の中から、文整形モデルを学習するための学習データを選定するものである。
この選定手段121は、マッチングリスト記憶手段22に記憶されている認識結果および整形文のペアに対応付けられている不一致率と、予め定めた閾値(許容不一致率)とを比較し、閾値を越えない認識結果および整形文のペアを学習データ(学習用認識結果、学習用整形文)として選定する。なお、学習データの選定基準となる閾値(許容不一致率)の値については、図8を参照して、後で説明することとする。
これによって、選定手段121は、認識結果および整形文のマッチングミスを極力防止することができる。
なお、選定手段121は、認識結果および整形文のペアにおいて、いずれか一方の単語長が予め定めた語長(例えば、2語)よりも短いものを選定から除外することとしてもよい。
これによって、学習に適さない学習データを除外することができる。
選定手段121は、選定した学習用認識結果と学習用整形文とを対応付けることにより学習データDを生成し、この学習データDを学習データ記憶手段23に記憶する。
選定手段121は、マッチングリストMLからの選定を終了した段階で、選定が完了したことを文整形モデル学習手段13に通知する。
文整形モデル学習手段13は、学習データ生成手段12で生成された学習用認識結果および学習用整形文(学習データD)を用いて、音声の認識結果を整形する文整形モデルMを学習するものである。
この文整形モデル学習手段13は、学習用認識結果に対する整形文の正解(教師データ)を、学習データDで対となる学習用整形文として、文整形モデルMの出力と学習用整形文との誤差を小さくするように文整形モデルMを学習する。
文整形モデル学習手段13は、ベクトル化手段130と、モデル学習手段131と、を備える。
ベクトル化手段130は、学習データ生成手段12で生成された学習用認識結果および学習用整形文をそれぞれ単語ごとに、文整形モデルの入力および出力となるベクトルに変換するものである。
具体的には、ベクトル化手段130は、学習データ記憶手段23に記憶されている学習用認識結果および学習用整形文を、それぞれ、単語ごとに、該当する単語の成分のみを“1”、他を“0”として、語彙数分(数万程度)の次元の1−hotベクトルを生成する。
ベクトル化手段130は、学習データ記憶手段23に記憶されている学習データDを順次読み出し、順次生成した学習用認識結果および学習用整形文のベクトルをモデル学習手段131に出力する。
モデル学習手段131は、ベクトル化手段130でベクトル化された学習用認識結果および学習用整形文を用いて、文整形モデルMを学習するものである。
このモデル学習手段131で学習する文整形モデルMは、例えば、一般的なエンコーダ−デコーダ型ネットワークを用いればよい。
ここで、図3を参照して、文整形モデルMについて説明する。図3は、文整形モデルMの概要構成と、入力および出力の関係を示している。
図3に示す文整形モデルMは、ニューラルネットワークのモデルであり、認識結果(学習用認識結果)である単語列x,x,…,x,<eos>を順次入力することで、エンコーダとして入力文を実数値ベクトルで表現し、その後、デコーダとして順次単語列y,y,…,y,<eos>を整形文(学習用整形文)として出力する。
なお、単語列x,x,…,x,<eos>、および、単語列y,y,…,y,<eos>は、それぞれ、単語の1−hotベクトルである。また、<eos>は、文末記号を示す。
図3の例では、認識結果として「ええと二三年前にあのお会いし増したか」を入力し、整形文として「ええと、2・3年前にお会いしましたか?」を出力する例を示している。
この文整形モデルMは、特に限定するものではないが、例えば、以下の参考文献に記載されているアテンションベースのニューラルネットワークを用いてもよい。
<参考文献>
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. “Neural Machine Translation By Jointly Learning To Align and Translate.” In ICLR. pages 1-15.
図1に戻って、音声認識結果整形モデル学習装置1の構成について説明を続ける。
モデル学習手段131は、例えば、図3に示した文整形モデルMにおいて、学習用認識結果のベクトルを入力し、学習用整形文のベクトルを正解として出力するように、文整形モデルMのパラメータ(結合重み係数等)を学習する。具体的には、モデル学習手段131は、文整形モデルMの出力ベクトルと学習用整形文のベクトルとの誤差が小さくなるように、パラメータを更新する。なお、パラメータの更新には、例えば、誤差逆伝播法を用いればよい。
モデル学習手段131は、逐次学習した文整形モデルM(より詳細には、そのパラメータ)を、文整形モデル記憶手段24に記憶する。
記憶手段20は、音声認識結果整形モデル学習装置1の動作で使用または生成する各種データを記憶するものである。記憶手段20は、素材記憶手段21と、マッチングリスト記憶手段22と、学習データ記憶手段23と、文整形モデル記憶手段24と、を備える。
これら各記憶手段は、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。なお、ここでは、記憶手段20において、各記憶手段を個別に設けているが、1つの記憶装置の記憶領域を複数に区分して各記憶手段としてもよい。また、記憶手段20を外部記憶装置として、音声認識結果整形モデル学習装置1の構成から省いてもよい。
素材記憶手段21は、音声認識手段11で認識した音声Xの認識結果と、音声Xに対応する整形文Xとを記憶するものである。素材記憶手段21に記憶した認識結果および整形文は、マッチング手段120によって参照される。
マッチングリスト記憶手段22は、マッチング手段120がマッチングした認識結果および整形文と、それらの不一致率とを対応付けたマッチングリストMLを記憶するものである。マッチングリストMLは、選定手段121によって参照される。
学習データ記憶手段23は、学習データ生成手段12が生成した学習データDを記憶するものである。学習データDは、マッチングリストMLから、選定手段121によって選定された学習用認識結果および学習用整形文のペアである。この学習データDは、ベクトル化手段130によって参照される。
文整形モデル記憶手段24は、文整形モデル学習手段13が学習する文整形モデルMを記憶するものである。より詳細には、文整形モデル記憶手段24は、文整形モデルMのネットワーク構造と、そのパラメータ(結合重み係数等)を記憶し、パラメータが学習対象となる。
以上説明したように、音声認識結果整形モデル学習装置1は、人が特別な変換規則を定めなくても、音声とそれに対応する整形文を準備するだけで、音声の認識結果を入力として、整形した整形文を出力する文整形モデルを学習することができる。
なお、音声認識結果整形モデル学習装置1は、コンピュータを前記した各手段として機能させるためのプログラム(音声認識結果整形モデル学習プログラム)で動作させることができる。
<音声認識結果整形モデル学習装置の動作>
次に、図4を参照(構成については、適宜図1参照)して、本発明の実施形態に係る音声認識結果整形モデル学習装置1の動作について説明する。
ステップS1において、音声認識結果整形モデル学習装置1は、学習素材Xの音声Xの認識結果と、音声Xに対応する整形文Xとを、素材記憶手段21に記憶する。このとき、音声認識手段11は、音声Xを認識し、発話区間ごとの認識結果を素材記憶手段21に記憶する。また、図示を省略した入力手段を介して、整形文を素材記憶手段21に記憶する。
ステップS2において、学習データ生成手段12のマッチング手段120は、ステップS1で素材記憶手段21に記憶されている認識結果と整形文とを、発話区間ごとにマッチングし、マッチングリストMLとして、マッチングリスト記憶手段22に記憶する。
このとき、マッチング手段120は、認識結果および整形文のペアに不一致率を対応付けておく。
ステップS3において、学習データ生成手段12の選定手段121は、最初の発話区間を選択する。ここでは、変数iを初期化(“1”を設定)する。
ステップS4において、選定手段121は、マッチングリストMLの中から選択した発話区間(i番目)の認識結果および整形文のペアに対応付けられている不一致率と、予め定めた閾値(許容不一致率)とを比較し、当該ペアが学習データに適しているか否かを判定する。
ここで、不一致率が閾値を超える場合(ステップS4でNo)、選定手段121は、当該ペアを学習データとして選定せずに、ステップS6に動作を進める。
一方、不一致率が閾値以下の場合(ステップS4でYes)、選定手段121は、ステップS5において、当該ペアを学習データ(学習用認識結果および学習用整形文)Dとして選定し、学習データ記憶手段23に記憶(追加)する。
ステップS6において、選定手段121は、マッチングリスト記憶手段22に記憶されているすべての発話区間を選択したか否かを判定する。
ここで、まだ、すべての発話区間を選択していない場合(ステップS6でNo)、ステップS7において、選定手段121は、次の発話区間を選択(変数iに“1”を加算)して、ステップS4に動作を戻す。
一方、すべての発話区間を選択した場合(ステップS6でYes)、選定手段121は動作を終了し、ステップS8以降の文整形モデル学習手段13の動作に移行する。
ステップS8において、文整形モデル学習手段13のベクトル化手段130は、最初の学習データを選択する。ここでは、変数jを初期化(“1”を設定)する。
ステップS9において、ベクトル化手段130は、学習データ記憶手段23に記憶されている学習データDの学習用認識結果および学習用整形文のペア(j番目)を、単語ごとに、それぞれベクトル(1−hotベクトル)化する。
ステップS10において、文整形モデル学習手段13のモデル学習手段131は、ステップS9でベクトル化した学習用認識結果のベクトルを入力し、学習用整形文のベクトルを出力するように、文整形モデル記憶手段24に記憶されている文整形モデルMを学習する。
ステップS11において、モデル学習手段131は、学習データ記憶手段23に記憶されているすべての学習データDを使用したかにより、学習を終了したか否かを判定する。
なお、モデル学習手段131は、学習が終了したか否かを、文整形モデルMのパラメータの変化量が予め定めた閾値よりも小さくなったことで判定してもよい。
ここで、学習が終了していない場合(ステップS11でNo)、ステップS12において、モデル学習手段131は、次の学習データのペアを選択(変数jに“1”を加算)して、ステップS9に動作を戻す。
一方、学習が終了した場合(ステップS11でYes)、音声認識結果整形モデル学習装置1は、動作を終了する。
以上の動作によって、音声認識結果整形モデル学習装置1は、音声Xの認識結果と整形文Xとから、学習に適した認識結果および整形文を学習データとして生成し、文整形モデルMを学習することができる。
<音声認識結果整形装置の構成>
次に、図5を参照して、参考例として、音声認識結果整形装置3の構成について説明する。
音声認識結果整形装置3は、音声認識結果整形モデル学習装置1(図1参照)で学習した文整形モデルを用いて、音声(音声データ)から整形文を生成するものである。
図5に示すように、音声認識結果整形装置3は、制御手段30と、記憶手段40と、を備える。
制御手段30は、音声認識結果整形装置3の動作を制御するものである。
制御手段30は、音声認識手段31と、文整形手段32と、を備える。
音声認識手段31は、音声を認識し、テキストデータである認識結果を生成するものである。
この音声認識手段31は、図1で説明した音声認識手段11と同様、入力した音声を、予め定めた基準で区切った発話区間ごとに認識を行い、発話区間ごとの認識結果を文整形手段32に出力する。
文整形手段32は、音声認識手段31で認識された発話区間ごとの認識結果を、文整形モデルを用いて整形するものである。
文整形手段32は、ベクトル化手段320と、整形文推定手段321と、テキスト化手段322と、を備える。
ベクトル化手段320は、音声認識手段31で認識された認識結果を、単語ごとにベクトルに変換するものである。
このベクトル化手段320は、図1で説明したベクトル化手段130と同様、認識結果を、単語ごとに該当する単語の成分のみを“1”、他を“0”として、語彙数分(数万程度)の次元の1−hotベクトルを生成する。
ベクトル化手段320は、変換したベクトルを整形文推定手段321に出力する。
整形文推定手段321は、文整形モデルMを用いて、ベクトル化手段320でベクトル化された認識結果から、整形文を推定するものである。
この整形文推定手段321は、文整形モデル記憶手段41に記憶されている文整形モデルMに、ベクトル化した認識結果を順次入力し、ニューラルネットワークの演算を行うことで、整形文の単語ごとのベクトルを順次生成する。
ここで、整形文推定手段321は、文整形モデルMの出力の中で最も確率値の大きい成分を“1”、他を“0”とするベクトルを生成する。
整形文推定手段321は、生成したベクトルを、整形文の単語ごとの1−hotベクトルとして、テキスト化手段322に順次出力する。
テキスト化手段322は、整形文推定手段321で生成したベクトルをテキストデータに変換するものである。
このテキスト化手段322は、整形文推定手段321で生成した1−hotベクトルに対応するテキストデータの単語を、整形文を構成する単語として、順次出力する。
記憶手段40は、音声認識結果整形装置3の動作で使用するデータを記憶するものである。記憶手段40は、文整形モデル記憶手段41を備える。記憶手段40は、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。
文整形モデル記憶手段41は、音声認識結果整形モデル学習装置1(図1参照)で学習した文整形モデルMを予め記憶しておくものである。この文整形モデルMは、整形文推定手段321によって参照される。
なお、記憶手段40を外部記憶装置として、音声認識結果整形装置3の構成から省いてもよい。
以上説明したように、音声認識結果整形装置3は、音声認識結果整形モデル学習装置1で学習した文整形モデルMを用いて、音声の認識結果から、整形文を生成することができる。
なお、音声認識結果整形装置3は、コンピュータを前記した各手段として機能させるためのプログラム(音声認識結果整形プログラム)で動作させることができる。
<音声認識結果整形装置の動作>
次に、図6を参照(構成については、適宜図5参照)して、音声認識結果整形装置3の動作について説明する。
ステップS20において、音声認識手段31は、音声を認識し、発話区間ごとに認識結果を生成する。
ステップS21において、文整形手段32のベクトル化手段320は、ステップS20で生成した発話区間ごとの認識結果を、単語ごとにベクトル(1−hotベクトル)化する。
ステップS22において、文整形手段32の整形文推定手段321は、文整形モデル記憶手段41に記憶されている文整形モデルMを用いて、ステップS21で生成したベクトルから、整形文の単語ごとのベクトルを推定する。
ステップS23において、文整形手段32のテキスト化手段322は、ステップS22で推定した整形文の単語ごとのベクトルを、テキストデータに変換する。これによって、テキスト化手段322は、整形文をテキストデータとして生成する。
ステップS24において、音声認識結果整形装置3は、音声認識手段31への音声入力の有無により、終了判定を行う。
ここで、音声入力が終了していなければ(ステップS24でNo)、音声認識結果整形装置3は、ステップS20に戻って動作を継続する。
一方、音声入力が終了した場合(ステップS24でYes)、音声認識結果整形装置3は、動作を終了する。
<文整形の例>
次に、音声認識結果整形モデル学習装置1(図1参照)で学習した文整形モデルMを用いて、音声認識結果整形装置3(図5参照)が、音声の認識結果を整形した例について説明する。
図7は、文整形例を示し、(a)は記号挿入の例、(b)は不要語削除の例、(c)は認識誤り修正の例を示す。
図7(a)に示すように、音声認識結果整形装置3は、認識結果の「きょうのプレミアムトーク ゲストは」に対して、番組名“プレミアムトーク”の前後に鍵括弧“「”、“」”を挿入するとともに、句読点“。”および“、”を付加した整形文を生成することができる。
また、図7(b)に示すように、音声認識結果整形装置3は、認識結果の「うん」、「あの」のような、不要語を削除した整形文を生成することができる。
さらに、音声認識結果整形モデル学習装置1は、音声の認識結果の正解文として、整形文を学習データとして与えて学習を行うため、文整形モデルMは認識誤りを修正するモデルとしても機能する。
よって、図7(c)に示すように、音声認識結果整形装置3は、認識結果の誤りとして「音」を削除して正しい認識結果を整形文として生成することができる。
<学習データの選定基準>
次に、図8を参照して、図1の学習データ生成手段12の選定手段121における学習データの選定基準(許容不一致率)について説明する。
ここでは、複数の許容不一致率で学習した複数の文整形モデルを用いて、音声の認識結果を整形し、予め準備した正解(整形文)との比較を行った。
(実験条件)
音声認識手段11における音声認識には、音声認識ツールキットとして公開されているKaldiを用いた。また、音響モデルには、KaldiのTDNN(time-delay neural network)レシピを用いて、NHKの番組音声および字幕のペアの3000時間分の素材で学習したモデルを用いた。また、言語モデルには、語彙20万単語からなるのべ6.2億語で学習した3gramのWFST(重み付き有限状態トランスデューサ)を用いた。
また、文整形モデル学習手段13における文整形には、GitHub社がソフトウェア開発のプラットフォームとして公開しているニューラル機械翻訳であるOpenNMTを用い、文整形モデルには、2層のLSTM(Long short-term memory)構造を持つアテンションネットワークを用いた。
そして、NHKの39番組の放送音声の認識結果と字幕(整形文)から最大7年分を抽出し、音声認識結果整形モデル学習装置1において、許容不一致率(許容MER)を10%から40%まで10%刻みで設定して選定した学習データを用いて文整形モデルを学習した。
また、学習した文整形モデルの評価には、文整形モデルの学習に用いた同じ番組の学習データ以外の発話から5000文ずつ、91,198語(eval1)と94,330語(eval2)の認識精度の異なる2つの評価データを抽出し、字幕を正解とみなして文整形結果と比較した。
(実験結果)
図8において、「許容MER」は、学習データの選定基準として設定したMER(不一致率)の閾値[%]を示す。「文数」、「単語数」および「語彙数」は、それぞれ文整形モデルを学習した学習データの文数[千文]、単語数[百万語]、語彙数[千語]を示す。「MER」は、eval1、eval2の評価データを整形した整形文と正解の字幕との不一致率[%]を示す。また、「WER」は、eval1、eval2の評価データを整形した整形文と正解の字幕との記号付与と漢・算用数字変換による不一致を除いた認識誤りと書き換えによる不一致率[%]を示す。なお、参考までに、文整形を行わず音声認識のみのMER、WERを併せて示しておく。
図8に示すように、文整形を行うことで、許容MER10%から40%のすべてにおいて、MERが改善し、音声認識のみ(文整形なし)の認識結果と比較して、整形文が字幕の文体に近付いたことがわかる。
また、認識誤りの少ないeval1においてはWERの改善はみられなかったが、認識誤りの多いeval2においては許容MER30%でWERが11.3%から10.8%に改善した。
このことから、記号付与や算用数字への変換だけでなく、認識誤り修正を学習したい場合には、許容MER30%の条件で、文整形モデルを学習するのが最善であるといえる。
<変形例>
以上、本発明の実施形態について説明したが、本発明はこの実施形態に限定されるものではない。
図1で説明した音声認識結果整形モデル学習装置1は、音声認識手段11を外部に備えてもよい。例えば、図9に示す音声認識結果整形モデル学習装置1Bの構成としてもよい。
この場合、音声認識結果整形モデル学習装置1Bは、音声(音声データ)Xsの認識結果と、その音声を予めテキスト化して整形した整形文Xtとから、文整形モデルを学習するものとなる。
なお、音声認識結果整形モデル学習装置1Bは、コンピュータを、音声認識結果整形モデル学習装置1Bを構成する各手段として機能させるためのプログラムで動作させることができる。
また、ここでは、学習データ生成手段12が、認識結果および整形文のマッチングリストMLを生成した後に、学習データの選定を行った。
しかし、学習データ生成手段12は、マッチング手段120において、1つの認識結果および整形文のペアをマッチングした段階で、選定手段121において、当該ペアを学習データとして選定するか否かの判定を行ってもよい。その場合、記憶手段20から、マッチングリスト記憶手段22を省略することができる。
また、図5で説明した音声認識結果整形装置3も、音声認識手段31を外部に備えてもよい。例えば、図10に示す音声認識結果整形装置3Bの構成としてもよい。
この場合、音声認識結果整形装置3Bは、音声(音声データ)の認識結果から整形文を生成するものとなる。
なお、音声認識結果整形装置3Bは、コンピュータを、音声認識結果整形装置3Bを構成する各手段として機能させるためのプログラムで動作させることができる。
1,1B 音声認識結果整形モデル学習装置
10,10B 制御手段
11 音声認識結果
12 学習データ生成手段
120 マッチング手段
121 選定手段
13 文整形モデル学習手段
130 ベクトル化手段
131 モデル学習手段
20 記憶手段
21 素材記憶手段
22 マッチングリスト記憶手段
23 学習データ記憶手段
24 文整形モデル記憶手段
3,3B 音声認識結果整形装置
30 制御手段
31 音声認識手段
32 文整形手段
320 ベクトル化手段
321 整形文推定手段
322 テキスト化手段
40 記憶手段
410 文整形モデル記憶手段
M 文整形モデル

Claims (5)

  1. 音声と前記音声に対する予め整形した整形文とを学習素材として用い、音声の認識結果を整形するためのニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置であって、
    前記学習素材の音声を発話区間ごとに認識する音声認識手段と、
    前記発話区間ごとに前記音声認識手段の認識結果と前記整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する学習データ生成手段と、
    前記学習用認識結果に対する整形文の正解を前記学習用整形文として前記文整形モデルを学習する文整形モデル学習手段と、
    を備えることを特徴とする音声認識結果整形モデル学習装置。
  2. 音声の発話区間ごとの認識結果と前記音声に対する予め整形した整形文とを学習素材として用い、音声の認識結果を整形するためのニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置であって、
    前記発話区間ごとの認識結果と前記整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する学習データ生成手段と、
    前記学習用認識結果に対する整形文の正解を前記学習用整形文として前記文整形モデルを学習する文整形モデル学習手段と、
    を備えることを特徴とする音声認識結果整形モデル学習装置。
  3. 請求項1または請求項2に記載の音声認識結果整形モデル学習装置において、
    前記学習データ生成手段は、
    前記発話区間ごとに前記認識結果と前記整形文との間でマッチングを行い、対応する認識結果および整形文のペアを生成するとともに、当該ペアの類似の度合いを算出するマッチング手段と、
    前記類似の度合いと予め定めた閾値とを比較し、前記類似の度合いが大きい前記認識結果および前記整形文のペアを、前記学習用認識結果および前記学習用整形文として選定する選定手段と、
    を備えることを特徴とする音声認識結果整形モデル学習装置。
  4. 請求項3に記載の音声認識結果整形モデル学習装置において、
    前記マッチング手段は、DPマッチングにより、前記認識結果および前記整形文のペアを生成するとともに、前記類似の度合いを算出することを特徴とする音声認識結果整形モデル学習装置。
  5. コンピュータを、請求項1から請求項4のいずれか一項に記載の音声認識結果整形モデル学習装置として機能させるための音声認識結果整形モデル学習プログラム。
JP2018156926A 2018-08-24 2018-08-24 音声認識結果整形モデル学習装置およびそのプログラム Active JP7190283B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018156926A JP7190283B2 (ja) 2018-08-24 2018-08-24 音声認識結果整形モデル学習装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018156926A JP7190283B2 (ja) 2018-08-24 2018-08-24 音声認識結果整形モデル学習装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2020030367A true JP2020030367A (ja) 2020-02-27
JP7190283B2 JP7190283B2 (ja) 2022-12-15

Family

ID=69622434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018156926A Active JP7190283B2 (ja) 2018-08-24 2018-08-24 音声認識結果整形モデル学習装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP7190283B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022064779A (ja) * 2020-10-14 2022-04-26 ヤフー株式会社 学習装置、予測装置、学習方法および学習プログラム
JP2022531414A (ja) * 2019-05-03 2022-07-06 グーグル エルエルシー 数字列のエンドツーエンド自動音声認識
JP7481894B2 (ja) 2020-05-11 2024-05-13 日本放送協会 発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010256498A (ja) * 2009-04-22 2010-11-11 Nec Corp 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
JP2015230384A (ja) * 2014-06-05 2015-12-21 クラリオン株式会社 意図推定装置、及び、モデルの学習方法
JP2018077677A (ja) * 2016-11-09 2018-05-17 日本電信電話株式会社 文字列変換装置、モデル学習装置、方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010256498A (ja) * 2009-04-22 2010-11-11 Nec Corp 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
JP2015230384A (ja) * 2014-06-05 2015-12-21 クラリオン株式会社 意図推定装置、及び、モデルの学習方法
JP2018077677A (ja) * 2016-11-09 2018-05-17 日本電信電話株式会社 文字列変換装置、モデル学習装置、方法、及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022531414A (ja) * 2019-05-03 2022-07-06 グーグル エルエルシー 数字列のエンドツーエンド自動音声認識
JP7280382B2 (ja) 2019-05-03 2023-05-23 グーグル エルエルシー 数字列のエンドツーエンド自動音声認識
JP7481894B2 (ja) 2020-05-11 2024-05-13 日本放送協会 発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法
JP2022064779A (ja) * 2020-10-14 2022-04-26 ヤフー株式会社 学習装置、予測装置、学習方法および学習プログラム
JP7244473B2 (ja) 2020-10-14 2023-03-22 ヤフー株式会社 学習装置、予測装置、学習方法および学習プログラム

Also Published As

Publication number Publication date
JP7190283B2 (ja) 2022-12-15

Similar Documents

Publication Publication Date Title
CN113439301B (zh) 用于机器学习的方法和***
CN113811946B (zh) 数字序列的端到端自动语音识别
CN108447486B (zh) 一种语音翻译方法及装置
CN106971709B (zh) 统计参数模型建立方法和装置、语音合成方法和装置
JP2022527970A (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
CN110767213A (zh) 一种韵律预测方法及装置
JPWO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
CN110956948A (zh) 端到端的语音合成方法、装置及存储介质
JP7190283B2 (ja) 音声認識結果整形モデル学習装置およびそのプログラム
KR102401243B1 (ko) 유사 발음열을 이용한 콜미 서비스의 음성 합성 장치 및 방법
CN111985234B (zh) 语音文本纠错方法
KR20200026295A (ko) 음절 기반 자동 음성 인식
CN115293139B (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN115293138B (zh) 一种文本纠错方法及计算机设备
CN113779972A (zh) 语音识别纠错方法、***、装置及存储介质
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
US11694028B2 (en) Data generation apparatus and data generation method that generate recognition text from speech data
JP6718787B2 (ja) 日本語音声認識モデル学習装置及びプログラム
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
CN113257221B (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
Réveil et al. Improving proper name recognition by means of automatically learned pronunciation variants
CN110310620B (zh) 基于原生发音强化学习的语音融合方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221205

R150 Certificate of patent or registration of utility model

Ref document number: 7190283

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150