JP2020030367A

JP2020030367A - 音声認識結果整形モデル学習装置およびそのプログラム

Info

Publication number: JP2020030367A
Application number: JP2018156926A
Authority: JP
Inventors: 伊藤　均; Hitoshi Ito; 均伊藤; 庄衛佐藤; Shoe Sato
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2020-02-27
Anticipated expiration: 2038-08-24
Also published as: JP7190283B2

Abstract

【課題】規則を設けることなく、音声認識結果を整形することが可能なニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置を提供する。【解決手段】音声認識結果整形モデル学習装置１は、学習素材の音声を発話区間ごとに認識する音声認識手段１１と、発話区間ごとに音声認識手段１１の認識結果と学習素材の整形文との間でマッチングを行い、対応する認識結果および整形文のペアを学習用認識結果および学習用整形文として生成する学習データ生成手段１２と、学習用認識結果に対する整形文の正解を学習用整形文として文整形モデルを学習する文整形モデル学習手段１３と、を備える。【選択図】図１

Description

本発明は、音声認識結果を整形するためのモデルを学習する音声認識結果整形モデル学習装置およびそのプログラムに関する。

音声認識は音響特徴を手がかりとして認識結果を出力する手法である。また、音声認識に用いる音響モデルとして音響特徴を学習する場合、音響特徴に忠実ではない書き起こしを学習データから排除して学習を行っていた。そのため、音響特徴の存在しない記号（句読点等）等については、認識結果として出力することが困難であった。
そこで、従来は、人手による書き起こし文に対して、統計的翻訳手法を用いて、フィラーの削除、句読点の挿入、助詞の挿入、書き言葉表現への変換、文体の統一といった文を整形する手法が提案されている（非特許文献１参照）。
また、文整形を目的としたものではないが、従来は、ニューラルネットワークを用いて音声認識誤りを修正する言語モデルも提案されている（非特許文献２参照）。

下岡和也，南條浩輝，河原達也、"講演の書き起こしに対する統計的手法を用いた文体の整形"、一般社団法人情報処理学会、情報処理学会研究報告．自然言語処理研究会報告、２００２（４４）、ＰＰ．８１−８８、２００２年５月田中智大，増村亮，政瀧浩和、"音声認識におけるニューラル誤り訂正言語モデルの検討"、一般社団法人日本音響学会、２０１８年春季日本音響学会研究発表会講演論文集ＣＤ−ＲＯＭ、ＰＰ．２１−２２、２０１８年３月

人手による書き起こし文、放送番組の字幕等では、読みやすさのため、記号（句読点等）が挿入されていたり、実際には発声されている言い淀みが削除されていたり、逆に発声されていない文字列が補われていたりする。
従来のような音響特徴に忠実な音声認識では、このような、音響特徴から推測可能な範囲を超えて編集された単語列を、音声認識結果として出力することは困難である。
また、認識誤りを含んだ不明瞭な発話の書き起こし文を整形するには、読み上げ文を基準にしたルール記述による手法や周辺単語の統計的情報のみを用いる従来の手法では限界がある。

本発明は、このような問題に鑑みてなされたものであり、規則を設けることなく、一文全体の情報を考慮することで記号（句読点等）の挿入や言い換えを含む編集を行って、音声認識結果を整形することが可能なニューラルネットワークのモデルを学習する音声認識結果整形モデル学習装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る音声認識結果整形モデル学習装置は、音声と前記音声に対する予め整形した整形文とを学習素材として用い、音声の認識結果を整形するためのニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置であって、音声認識手段と、学習データ生成手段と、文整形モデル学習手段と、を備える構成とした。

かかる構成において、音声認識結果整形モデル学習装置は、音声認識手段によって、学習素材の音声を発話区間ごとに認識する。
そして、音声認識結果整形モデル学習装置は、学習データ生成手段によって、発話区間ごとに音声認識手段の認識結果と整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する。これによって、学習データ生成手段は、音声認識結果と正解文となる整形文とを対応付け、文整形モデルを学習するための学習データを生成する。
そして、音声認識結果整形モデル学習装置は、文整形モデル学習手段によって、学習用認識結果に対する整形文の正解を学習用整形文として、文整形モデルの出力と学習用整形文との誤差を小さくするように文整形モデルを学習する。
このように学習した文整形モデルは、音声の認識結果を入力するだけで、整形文を出力することができ、予め文整形の規則を設ける必要がない。

また、前記課題を解決するため、本発明に係る音声認識結果整形モデル学習装置は、音声の発話区間ごとの認識結果と前記音声に対する予め整形した整形文とを学習素材として用い、音声の認識結果を整形するためのニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置であって、学習データ生成手段と、文整形モデル学習手段と、を備える構成とした。

かかる構成において、音声認識結果整形モデル学習装置は、学習データ生成手段によって、発話区間ごとの認識結果と整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する。これによって、学習データ生成手段は、音声認識結果と正解文となる整形文とを対応付け、文整形モデルを学習するための学習データを生成する。
そして、音声認識結果整形モデル学習装置は、文整形モデル学習手段によって、学習用認識結果に対する整形文の正解を学習用整形文として文整形モデルを学習する。
これによって、文整形モデル学習手段は、文整形モデルの出力が学習用整形文と近似するように文整形モデルのパラメータを学習する。
なお、音声認識結果整形モデル学習装置は、コンピュータを、前記した各手段として機能させるための音声認識結果整形モデル学習プログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、音声またはその認識結果と、対応する整形文とを準備するだけで、特別な規則を設けることなく、音声認識結果を読みやすく整形するための文整形モデルを学習することができる。
また、本発明によれば、認識結果に対応する正解として整形文を準備するため、音声認識の誤り傾向も学習することができ、音声認識精度を高めた文整形モデルを学習することができる。

本発明の実施形態に係る音声認識結果整形モデル学習装置の構成を示すブロック構成図である。学習素材の一例を説明するための説明図であって、（ａ）は音声を仮名表記した例、（ｂ）は（ａ）の音声認識結果を整形した整形文の例を示す。本発明の実施形態に係る音声認識結果整形モデル学習装置で学習する文整形モデルの概要を説明するための説明図である。本発明の実施形態に係る音声認識結果整形モデル学習装置の動作を示すフローチャートである。参考例の実施形態に係る音声認識結果整形装置の構成を示すブロック構成図である。参考例の実施形態に係る音声認識結果整形装置の動作を示すフローチャートである。本発明の実施形態に係る音声認識結果整形モデル学習装置で学習した文整形モデルを用いた文整形例を示す図であって、（ａ）は記号挿入の例、（ｂ）は不要語削除の例、（ｃ）は認識誤り修正の例を示す。学習データの選定基準を説明するための実験データを示す図である。変形例の音声認識結果整形モデル学習装置の構成を示すブロック構成図である。変形例の音声認識結果整形装置の構成を示すブロック構成図である。

以下、本発明の実施形態について図面を参照して説明する。
＜音声認識結果整形モデル学習装置の構成＞
まず、図１を参照して、本発明の実施形態に係る音声認識結果整形モデル学習装置１の構成について説明する。
音声認識結果整形モデル学習装置１は、複数の発話を含んだ音声（音声データ）Ｘｓと、その音声を予めテキスト化して整形した整形文Ｘｔを学習素材Ｘとして、音声から整形文を推定するニューラルネットワークのモデル（文整形モデル）を学習するものである。
ここで整形とは、文の可読性の観点から音声のテキストデータの文字列を他の文字列に変形することである。例えば、不要語の削除、記号や文字の挿入、数字として使用する文字の変換（漢数字から算用数字等）等である。

ここで、図２を参照して、学習素材Ｘの一例について説明する。（ａ）は音声を仮名表記した例であり、（ｂ）は（ａ）の音声認識結果を整形した整形文の例を示す。
（ａ）中の「ええと（ａ１）」、「あの（ａ３）」は、発話の合間にはさみこむフィラーであるが、必ずしもすべてが不要語であるとは限らない。
（ｂ）の整形文は、（ａ）の音声の「あの（ａ３）」を不要語として削除した整形例を示す。
（ａ）中の「にさん（ａ２）」は数字であって、通常、音声認識結果は、漢数字（二三）となるが、横書きの場合等、算用数字（２３）の方が読みやすい場合がある。また、この場合、「にじゅうさん」との読み間違いを防止するため、記号「・」を挿入することが好ましい。
（ｂ）の整形文は、算用数字化と記号の挿入により、「２・３（ｂ２）」とした整形例を示す。
また、文の読みやすさの観点から、必要に応じて句読点、記号等を追加することが好ましい。
（ｂ）の整形文は、読点「、（ｂ１）」および疑問符「？（ｂ３）」の文字を挿入、追加した整形例を示す。
これら以外にも、「ですます調」／「である調」の文体の統一等といった整形もある。

音声認識結果整形モデル学習装置１は、音声として、放送番組の音声、整形文として、当該放送番組の字幕データを用いることができる。字幕データの各文は、音声の発話区間に対応し、例えば、改行等で区分された各文が、発話区間ごとの音声の整形文を示す。なお、音声の発話区間に対応する字幕データ（整形文）が存在しない場合もある。
図１に戻って、音声認識結果整形モデル学習装置１の構成について説明を続ける。
図１に示すように、音声認識結果整形モデル学習装置１は、制御手段１０と、記憶手段２０と、を備える。

制御手段１０は、音声認識結果整形モデル学習装置１の動作を制御するものである。
制御手段１０は、音声認識手段１１と、学習データ生成手段１２と、文整形モデル学習手段１３と、を備える。

音声認識手段１１は、学習素材Ｘである音声Ｘ_Ｓを認識し、テキストデータである認識結果を生成するものである。
この音声認識手段１１は、入力した音声を、予め定めた基準で区切った発話区間ごとに認識を行い、発話区間ごとの認識結果を素材記憶手段２１に記憶する。
発話区間の区切りの基準として、例えば、音響特徴量のパワースペクトルを用いることができる。その場合、音声認識手段１１は、予め定めた閾値よりもパワースペクトルが大きい場合に当該時間区間を発話区間と判定し、それ以外を非発話区間と判定すればよい。
この音声認識手段１１は、公知の音声認識手法を用いて音声認識を行えばよく、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行う。なお、音声認識手段１１における音声認識手法は、例えば、特開２０１０−１７５７６５等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。
なお、音声認識手段１１は、認識仮説の中の最良の文字列を限定して認識結果とする必要はなく、複数の認識仮説を認識結果としてもよい。

学習データ生成手段１２は、音声認識手段１１で認識された音声の認識結果から、文整形モデルを学習するための学習データを生成するものである。
学習データ生成手段１２は、マッチング手段１２０と、選定手段１２１と、を備える。

マッチング手段１２０は、音声認識手段１１で認識された発話区間ごとの認識結果と、学習素材Ｘである整形文Ｘ_Ｔとをマッチングするものである。
このマッチング手段１２０は、素材記憶手段２１に記憶されている認識結果と、外部から入力して予め素材記憶手段２１に記憶した整形文とでマッチング（弾性マッチング）を行う。
このマッチング手段１２０は、例えば、動的計画法(Dynamic Programming)によるマッチング手法（ＤＰマッチング）により、単語または文字単位で認識結果と整形文とをマッチングすることで、認識結果に対応する整形文を推定する。このとき、マッチング手段１２０は、類似の度合いとして、認識結果と整形文との間で、認識誤り、記号の挿入、書き換えを含んだ不一致率（matching error rate：ＭＥＲ）を算出する。なお、類似の度合いとして、一致率を用いてもよい。

マッチング手段１２０は、対応付けた認識結果および整形文のペアに、その類似の度合い（以降、不一致率とする）をさらに対応付け、マッチングリストＭＬとして、マッチングリスト記憶手段２２に記憶する。
マッチング手段１２０は、すべての発話区間ごとの認識結果について、整形文とのマッチングが終了した段階で、マッチングが完了したことを選定手段１２１に通知する。

選定手段１２１は、マッチング手段１２０でマッチングした認識結果および整形文のペア（マッチングリストＭＬ）の中から、文整形モデルを学習するための学習データを選定するものである。
この選定手段１２１は、マッチングリスト記憶手段２２に記憶されている認識結果および整形文のペアに対応付けられている不一致率と、予め定めた閾値（許容不一致率）とを比較し、閾値を越えない認識結果および整形文のペアを学習データ（学習用認識結果、学習用整形文）として選定する。なお、学習データの選定基準となる閾値（許容不一致率）の値については、図８を参照して、後で説明することとする。
これによって、選定手段１２１は、認識結果および整形文のマッチングミスを極力防止することができる。
なお、選定手段１２１は、認識結果および整形文のペアにおいて、いずれか一方の単語長が予め定めた語長（例えば、２語）よりも短いものを選定から除外することとしてもよい。
これによって、学習に適さない学習データを除外することができる。

選定手段１２１は、選定した学習用認識結果と学習用整形文とを対応付けることにより学習データＤを生成し、この学習データＤを学習データ記憶手段２３に記憶する。
選定手段１２１は、マッチングリストＭＬからの選定を終了した段階で、選定が完了したことを文整形モデル学習手段１３に通知する。

文整形モデル学習手段１３は、学習データ生成手段１２で生成された学習用認識結果および学習用整形文（学習データＤ）を用いて、音声の認識結果を整形する文整形モデルＭを学習するものである。
この文整形モデル学習手段１３は、学習用認識結果に対する整形文の正解（教師データ）を、学習データＤで対となる学習用整形文として、文整形モデルＭの出力と学習用整形文との誤差を小さくするように文整形モデルＭを学習する。
文整形モデル学習手段１３は、ベクトル化手段１３０と、モデル学習手段１３１と、を備える。

ベクトル化手段１３０は、学習データ生成手段１２で生成された学習用認識結果および学習用整形文をそれぞれ単語ごとに、文整形モデルの入力および出力となるベクトルに変換するものである。
具体的には、ベクトル化手段１３０は、学習データ記憶手段２３に記憶されている学習用認識結果および学習用整形文を、それぞれ、単語ごとに、該当する単語の成分のみを“１”、他を“０”として、語彙数分（数万程度）の次元の１−ｈｏｔベクトルを生成する。
ベクトル化手段１３０は、学習データ記憶手段２３に記憶されている学習データＤを順次読み出し、順次生成した学習用認識結果および学習用整形文のベクトルをモデル学習手段１３１に出力する。

モデル学習手段１３１は、ベクトル化手段１３０でベクトル化された学習用認識結果および学習用整形文を用いて、文整形モデルＭを学習するものである。
このモデル学習手段１３１で学習する文整形モデルＭは、例えば、一般的なエンコーダ−デコーダ型ネットワークを用いればよい。

ここで、図３を参照して、文整形モデルＭについて説明する。図３は、文整形モデルＭの概要構成と、入力および出力の関係を示している。
図３に示す文整形モデルＭは、ニューラルネットワークのモデルであり、認識結果（学習用認識結果）である単語列ｘ_１，ｘ_２，…，ｘ_ｎ，＜ｅｏｓ＞を順次入力することで、エンコーダとして入力文を実数値ベクトルで表現し、その後、デコーダとして順次単語列ｙ_１，ｙ_２，…，ｙ_ｍ，＜ｅｏｓ＞を整形文（学習用整形文）として出力する。
なお、単語列ｘ_１，ｘ_２，…，ｘ_ｎ，＜ｅｏｓ＞、および、単語列ｙ_１，ｙ_２，…，ｙ_ｍ，＜ｅｏｓ＞は、それぞれ、単語の１−ｈｏｔベクトルである。また、＜ｅｏｓ＞は、文末記号を示す。

図３の例では、認識結果として「ええと二三年前にあのお会いし増したか」を入力し、整形文として「ええと、２・３年前にお会いしましたか？」を出力する例を示している。
この文整形モデルＭは、特に限定するものではないが、例えば、以下の参考文献に記載されているアテンションベースのニューラルネットワークを用いてもよい。
＜参考文献＞
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. “Neural Machine Translation By Jointly Learning To Align and Translate.” In ICLR. pages 1-15.
図１に戻って、音声認識結果整形モデル学習装置１の構成について説明を続ける。

モデル学習手段１３１は、例えば、図３に示した文整形モデルＭにおいて、学習用認識結果のベクトルを入力し、学習用整形文のベクトルを正解として出力するように、文整形モデルＭのパラメータ（結合重み係数等）を学習する。具体的には、モデル学習手段１３１は、文整形モデルＭの出力ベクトルと学習用整形文のベクトルとの誤差が小さくなるように、パラメータを更新する。なお、パラメータの更新には、例えば、誤差逆伝播法を用いればよい。
モデル学習手段１３１は、逐次学習した文整形モデルＭ（より詳細には、そのパラメータ）を、文整形モデル記憶手段２４に記憶する。

記憶手段２０は、音声認識結果整形モデル学習装置１の動作で使用または生成する各種データを記憶するものである。記憶手段２０は、素材記憶手段２１と、マッチングリスト記憶手段２２と、学習データ記憶手段２３と、文整形モデル記憶手段２４と、を備える。
これら各記憶手段は、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。なお、ここでは、記憶手段２０において、各記憶手段を個別に設けているが、１つの記憶装置の記憶領域を複数に区分して各記憶手段としてもよい。また、記憶手段２０を外部記憶装置として、音声認識結果整形モデル学習装置１の構成から省いてもよい。

素材記憶手段２１は、音声認識手段１１で認識した音声Ｘ_Ｓの認識結果と、音声Ｘ_Ｓに対応する整形文Ｘ_Ｔとを記憶するものである。素材記憶手段２１に記憶した認識結果および整形文は、マッチング手段１２０によって参照される。

マッチングリスト記憶手段２２は、マッチング手段１２０がマッチングした認識結果および整形文と、それらの不一致率とを対応付けたマッチングリストＭＬを記憶するものである。マッチングリストＭＬは、選定手段１２１によって参照される。

学習データ記憶手段２３は、学習データ生成手段１２が生成した学習データＤを記憶するものである。学習データＤは、マッチングリストＭＬから、選定手段１２１によって選定された学習用認識結果および学習用整形文のペアである。この学習データＤは、ベクトル化手段１３０によって参照される。

文整形モデル記憶手段２４は、文整形モデル学習手段１３が学習する文整形モデルＭを記憶するものである。より詳細には、文整形モデル記憶手段２４は、文整形モデルＭのネットワーク構造と、そのパラメータ（結合重み係数等）を記憶し、パラメータが学習対象となる。

以上説明したように、音声認識結果整形モデル学習装置１は、人が特別な変換規則を定めなくても、音声とそれに対応する整形文を準備するだけで、音声の認識結果を入力として、整形した整形文を出力する文整形モデルを学習することができる。
なお、音声認識結果整形モデル学習装置１は、コンピュータを前記した各手段として機能させるためのプログラム（音声認識結果整形モデル学習プログラム）で動作させることができる。

＜音声認識結果整形モデル学習装置の動作＞
次に、図４を参照（構成については、適宜図１参照）して、本発明の実施形態に係る音声認識結果整形モデル学習装置１の動作について説明する。
ステップＳ１において、音声認識結果整形モデル学習装置１は、学習素材Ｘの音声Ｘ_Ｓの認識結果と、音声Ｘ_Ｓに対応する整形文Ｘ_Ｔとを、素材記憶手段２１に記憶する。このとき、音声認識手段１１は、音声Ｘ_Ｓを認識し、発話区間ごとの認識結果を素材記憶手段２１に記憶する。また、図示を省略した入力手段を介して、整形文を素材記憶手段２１に記憶する。

ステップＳ２において、学習データ生成手段１２のマッチング手段１２０は、ステップＳ１で素材記憶手段２１に記憶されている認識結果と整形文とを、発話区間ごとにマッチングし、マッチングリストＭＬとして、マッチングリスト記憶手段２２に記憶する。
このとき、マッチング手段１２０は、認識結果および整形文のペアに不一致率を対応付けておく。

ステップＳ３において、学習データ生成手段１２の選定手段１２１は、最初の発話区間を選択する。ここでは、変数ｉを初期化（“１”を設定）する。
ステップＳ４において、選定手段１２１は、マッチングリストＭＬの中から選択した発話区間（ｉ番目）の認識結果および整形文のペアに対応付けられている不一致率と、予め定めた閾値（許容不一致率）とを比較し、当該ペアが学習データに適しているか否かを判定する。

ここで、不一致率が閾値を超える場合（ステップＳ４でＮｏ）、選定手段１２１は、当該ペアを学習データとして選定せずに、ステップＳ６に動作を進める。
一方、不一致率が閾値以下の場合（ステップＳ４でＹｅｓ）、選定手段１２１は、ステップＳ５において、当該ペアを学習データ（学習用認識結果および学習用整形文）Ｄとして選定し、学習データ記憶手段２３に記憶（追加）する。

ステップＳ６において、選定手段１２１は、マッチングリスト記憶手段２２に記憶されているすべての発話区間を選択したか否かを判定する。
ここで、まだ、すべての発話区間を選択していない場合（ステップＳ６でＮｏ）、ステップＳ７において、選定手段１２１は、次の発話区間を選択（変数ｉに“１”を加算）して、ステップＳ４に動作を戻す。
一方、すべての発話区間を選択した場合（ステップＳ６でＹｅｓ）、選定手段１２１は動作を終了し、ステップＳ８以降の文整形モデル学習手段１３の動作に移行する。

ステップＳ８において、文整形モデル学習手段１３のベクトル化手段１３０は、最初の学習データを選択する。ここでは、変数ｊを初期化（“１”を設定）する。
ステップＳ９において、ベクトル化手段１３０は、学習データ記憶手段２３に記憶されている学習データＤの学習用認識結果および学習用整形文のペア（ｊ番目）を、単語ごとに、それぞれベクトル（１−ｈｏｔベクトル）化する。

ステップＳ１０において、文整形モデル学習手段１３のモデル学習手段１３１は、ステップＳ９でベクトル化した学習用認識結果のベクトルを入力し、学習用整形文のベクトルを出力するように、文整形モデル記憶手段２４に記憶されている文整形モデルＭを学習する。

ステップＳ１１において、モデル学習手段１３１は、学習データ記憶手段２３に記憶されているすべての学習データＤを使用したかにより、学習を終了したか否かを判定する。
なお、モデル学習手段１３１は、学習が終了したか否かを、文整形モデルＭのパラメータの変化量が予め定めた閾値よりも小さくなったことで判定してもよい。
ここで、学習が終了していない場合（ステップＳ１１でＮｏ）、ステップＳ１２において、モデル学習手段１３１は、次の学習データのペアを選択（変数ｊに“１”を加算）して、ステップＳ９に動作を戻す。
一方、学習が終了した場合（ステップＳ１１でＹｅｓ）、音声認識結果整形モデル学習装置１は、動作を終了する。

以上の動作によって、音声認識結果整形モデル学習装置１は、音声Ｘ_Ｓの認識結果と整形文Ｘ_Ｔとから、学習に適した認識結果および整形文を学習データとして生成し、文整形モデルＭを学習することができる。

＜音声認識結果整形装置の構成＞
次に、図５を参照して、参考例として、音声認識結果整形装置３の構成について説明する。
音声認識結果整形装置３は、音声認識結果整形モデル学習装置１（図１参照）で学習した文整形モデルを用いて、音声（音声データ）から整形文を生成するものである。
図５に示すように、音声認識結果整形装置３は、制御手段３０と、記憶手段４０と、を備える。
制御手段３０は、音声認識結果整形装置３の動作を制御するものである。
制御手段３０は、音声認識手段３１と、文整形手段３２と、を備える。

音声認識手段３１は、音声を認識し、テキストデータである認識結果を生成するものである。
この音声認識手段３１は、図１で説明した音声認識手段１１と同様、入力した音声を、予め定めた基準で区切った発話区間ごとに認識を行い、発話区間ごとの認識結果を文整形手段３２に出力する。

文整形手段３２は、音声認識手段３１で認識された発話区間ごとの認識結果を、文整形モデルを用いて整形するものである。
文整形手段３２は、ベクトル化手段３２０と、整形文推定手段３２１と、テキスト化手段３２２と、を備える。

ベクトル化手段３２０は、音声認識手段３１で認識された認識結果を、単語ごとにベクトルに変換するものである。
このベクトル化手段３２０は、図１で説明したベクトル化手段１３０と同様、認識結果を、単語ごとに該当する単語の成分のみを“１”、他を“０”として、語彙数分（数万程度）の次元の１−ｈｏｔベクトルを生成する。
ベクトル化手段３２０は、変換したベクトルを整形文推定手段３２１に出力する。

整形文推定手段３２１は、文整形モデルＭを用いて、ベクトル化手段３２０でベクトル化された認識結果から、整形文を推定するものである。
この整形文推定手段３２１は、文整形モデル記憶手段４１に記憶されている文整形モデルＭに、ベクトル化した認識結果を順次入力し、ニューラルネットワークの演算を行うことで、整形文の単語ごとのベクトルを順次生成する。
ここで、整形文推定手段３２１は、文整形モデルＭの出力の中で最も確率値の大きい成分を“１”、他を“０”とするベクトルを生成する。
整形文推定手段３２１は、生成したベクトルを、整形文の単語ごとの１−ｈｏｔベクトルとして、テキスト化手段３２２に順次出力する。

テキスト化手段３２２は、整形文推定手段３２１で生成したベクトルをテキストデータに変換するものである。
このテキスト化手段３２２は、整形文推定手段３２１で生成した１−ｈｏｔベクトルに対応するテキストデータの単語を、整形文を構成する単語として、順次出力する。

記憶手段４０は、音声認識結果整形装置３の動作で使用するデータを記憶するものである。記憶手段４０は、文整形モデル記憶手段４１を備える。記憶手段４０は、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。

文整形モデル記憶手段４１は、音声認識結果整形モデル学習装置１（図１参照）で学習した文整形モデルＭを予め記憶しておくものである。この文整形モデルＭは、整形文推定手段３２１によって参照される。
なお、記憶手段４０を外部記憶装置として、音声認識結果整形装置３の構成から省いてもよい。

以上説明したように、音声認識結果整形装置３は、音声認識結果整形モデル学習装置１で学習した文整形モデルＭを用いて、音声の認識結果から、整形文を生成することができる。
なお、音声認識結果整形装置３は、コンピュータを前記した各手段として機能させるためのプログラム（音声認識結果整形プログラム）で動作させることができる。

＜音声認識結果整形装置の動作＞
次に、図６を参照（構成については、適宜図５参照）して、音声認識結果整形装置３の動作について説明する。
ステップＳ２０において、音声認識手段３１は、音声を認識し、発話区間ごとに認識結果を生成する。
ステップＳ２１において、文整形手段３２のベクトル化手段３２０は、ステップＳ２０で生成した発話区間ごとの認識結果を、単語ごとにベクトル（１−ｈｏｔベクトル）化する。

ステップＳ２２において、文整形手段３２の整形文推定手段３２１は、文整形モデル記憶手段４１に記憶されている文整形モデルＭを用いて、ステップＳ２１で生成したベクトルから、整形文の単語ごとのベクトルを推定する。
ステップＳ２３において、文整形手段３２のテキスト化手段３２２は、ステップＳ２２で推定した整形文の単語ごとのベクトルを、テキストデータに変換する。これによって、テキスト化手段３２２は、整形文をテキストデータとして生成する。

ステップＳ２４において、音声認識結果整形装置３は、音声認識手段３１への音声入力の有無により、終了判定を行う。
ここで、音声入力が終了していなければ（ステップＳ２４でＮｏ）、音声認識結果整形装置３は、ステップＳ２０に戻って動作を継続する。
一方、音声入力が終了した場合（ステップＳ２４でＹｅｓ）、音声認識結果整形装置３は、動作を終了する。

＜文整形の例＞
次に、音声認識結果整形モデル学習装置１（図１参照）で学習した文整形モデルＭを用いて、音声認識結果整形装置３（図５参照）が、音声の認識結果を整形した例について説明する。

図７は、文整形例を示し、（ａ）は記号挿入の例、（ｂ）は不要語削除の例、（ｃ）は認識誤り修正の例を示す。
図７（ａ）に示すように、音声認識結果整形装置３は、認識結果の「きょうのプレミアムトークゲストは」に対して、番組名“プレミアムトーク”の前後に鍵括弧“「”、“」”を挿入するとともに、句読点“。”および“、”を付加した整形文を生成することができる。
また、図７（ｂ）に示すように、音声認識結果整形装置３は、認識結果の「うん」、「あの」のような、不要語を削除した整形文を生成することができる。

さらに、音声認識結果整形モデル学習装置１は、音声の認識結果の正解文として、整形文を学習データとして与えて学習を行うため、文整形モデルＭは認識誤りを修正するモデルとしても機能する。
よって、図７（ｃ）に示すように、音声認識結果整形装置３は、認識結果の誤りとして「音」を削除して正しい認識結果を整形文として生成することができる。

＜学習データの選定基準＞
次に、図８を参照して、図１の学習データ生成手段１２の選定手段１２１における学習データの選定基準（許容不一致率）について説明する。
ここでは、複数の許容不一致率で学習した複数の文整形モデルを用いて、音声の認識結果を整形し、予め準備した正解（整形文）との比較を行った。

（実験条件）
音声認識手段１１における音声認識には、音声認識ツールキットとして公開されているＫａｌｄｉを用いた。また、音響モデルには、ＫａｌｄｉのＴＤＮＮ（time-delay neural network）レシピを用いて、ＮＨＫの番組音声および字幕のペアの３０００時間分の素材で学習したモデルを用いた。また、言語モデルには、語彙２０万単語からなるのべ６．２億語で学習した３ｇｒａｍのＷＦＳＴ（重み付き有限状態トランスデューサ）を用いた。

また、文整形モデル学習手段１３における文整形には、ＧｉｔＨｕｂ社がソフトウェア開発のプラットフォームとして公開しているニューラル機械翻訳であるＯｐｅｎＮＭＴを用い、文整形モデルには、２層のＬＳＴＭ（Long short-term memory）構造を持つアテンションネットワークを用いた。

そして、ＮＨＫの３９番組の放送音声の認識結果と字幕（整形文）から最大７年分を抽出し、音声認識結果整形モデル学習装置１において、許容不一致率（許容ＭＥＲ）を１０％から４０％まで１０％刻みで設定して選定した学習データを用いて文整形モデルを学習した。

また、学習した文整形モデルの評価には、文整形モデルの学習に用いた同じ番組の学習データ以外の発話から５０００文ずつ、９１，１９８語（ｅｖａｌ１）と９４，３３０語（ｅｖａｌ２）の認識精度の異なる２つの評価データを抽出し、字幕を正解とみなして文整形結果と比較した。

（実験結果）
図８において、「許容ＭＥＲ」は、学習データの選定基準として設定したＭＥＲ（不一致率）の閾値［％］を示す。「文数」、「単語数」および「語彙数」は、それぞれ文整形モデルを学習した学習データの文数［千文］、単語数［百万語］、語彙数［千語］を示す。「ＭＥＲ」は、ｅｖａｌ１、ｅｖａｌ２の評価データを整形した整形文と正解の字幕との不一致率［％］を示す。また、「ＷＥＲ」は、ｅｖａｌ１、ｅｖａｌ２の評価データを整形した整形文と正解の字幕との記号付与と漢・算用数字変換による不一致を除いた認識誤りと書き換えによる不一致率［％］を示す。なお、参考までに、文整形を行わず音声認識のみのＭＥＲ、ＷＥＲを併せて示しておく。

図８に示すように、文整形を行うことで、許容ＭＥＲ１０％から４０％のすべてにおいて、ＭＥＲが改善し、音声認識のみ（文整形なし）の認識結果と比較して、整形文が字幕の文体に近付いたことがわかる。
また、認識誤りの少ないｅｖａｌ１においてはＷＥＲの改善はみられなかったが、認識誤りの多いｅｖａｌ２においては許容ＭＥＲ３０％でＷＥＲが１１．３％から１０．８％に改善した。
このことから、記号付与や算用数字への変換だけでなく、認識誤り修正を学習したい場合には、許容ＭＥＲ３０％の条件で、文整形モデルを学習するのが最善であるといえる。

＜変形例＞
以上、本発明の実施形態について説明したが、本発明はこの実施形態に限定されるものではない。

図１で説明した音声認識結果整形モデル学習装置１は、音声認識手段１１を外部に備えてもよい。例えば、図９に示す音声認識結果整形モデル学習装置１Ｂの構成としてもよい。
この場合、音声認識結果整形モデル学習装置１Ｂは、音声（音声データ）Ｘｓの認識結果と、その音声を予めテキスト化して整形した整形文Ｘｔとから、文整形モデルを学習するものとなる。
なお、音声認識結果整形モデル学習装置１Ｂは、コンピュータを、音声認識結果整形モデル学習装置１Ｂを構成する各手段として機能させるためのプログラムで動作させることができる。

また、ここでは、学習データ生成手段１２が、認識結果および整形文のマッチングリストＭＬを生成した後に、学習データの選定を行った。
しかし、学習データ生成手段１２は、マッチング手段１２０において、１つの認識結果および整形文のペアをマッチングした段階で、選定手段１２１において、当該ペアを学習データとして選定するか否かの判定を行ってもよい。その場合、記憶手段２０から、マッチングリスト記憶手段２２を省略することができる。

また、図５で説明した音声認識結果整形装置３も、音声認識手段３１を外部に備えてもよい。例えば、図１０に示す音声認識結果整形装置３Ｂの構成としてもよい。
この場合、音声認識結果整形装置３Ｂは、音声（音声データ）の認識結果から整形文を生成するものとなる。
なお、音声認識結果整形装置３Ｂは、コンピュータを、音声認識結果整形装置３Ｂを構成する各手段として機能させるためのプログラムで動作させることができる。

１，１Ｂ音声認識結果整形モデル学習装置
１０，１０Ｂ制御手段
１１音声認識結果
１２学習データ生成手段
１２０マッチング手段
１２１選定手段
１３文整形モデル学習手段
１３０ベクトル化手段
１３１モデル学習手段
２０記憶手段
２１素材記憶手段
２２マッチングリスト記憶手段
２３学習データ記憶手段
２４文整形モデル記憶手段
３，３Ｂ音声認識結果整形装置
３０制御手段
３１音声認識手段
３２文整形手段
３２０ベクトル化手段
３２１整形文推定手段
３２２テキスト化手段
４０記憶手段
４１０文整形モデル記憶手段
Ｍ文整形モデル

Claims

音声と前記音声に対する予め整形した整形文とを学習素材として用い、音声の認識結果を整形するためのニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置であって、
前記学習素材の音声を発話区間ごとに認識する音声認識手段と、
前記発話区間ごとに前記音声認識手段の認識結果と前記整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する学習データ生成手段と、
前記学習用認識結果に対する整形文の正解を前記学習用整形文として前記文整形モデルを学習する文整形モデル学習手段と、
を備えることを特徴とする音声認識結果整形モデル学習装置。
音声の発話区間ごとの認識結果と前記音声に対する予め整形した整形文とを学習素材として用い、音声の認識結果を整形するためのニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置であって、
前記発話区間ごとの認識結果と前記整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する学習データ生成手段と、
前記学習用認識結果に対する整形文の正解を前記学習用整形文として前記文整形モデルを学習する文整形モデル学習手段と、
を備えることを特徴とする音声認識結果整形モデル学習装置。
請求項１または請求項２に記載の音声認識結果整形モデル学習装置において、
前記学習データ生成手段は、
前記発話区間ごとに前記認識結果と前記整形文との間でマッチングを行い、対応する認識結果および整形文のペアを生成するとともに、当該ペアの類似の度合いを算出するマッチング手段と、
前記類似の度合いと予め定めた閾値とを比較し、前記類似の度合いが大きい前記認識結果および前記整形文のペアを、前記学習用認識結果および前記学習用整形文として選定する選定手段と、
を備えることを特徴とする音声認識結果整形モデル学習装置。
請求項３に記載の音声認識結果整形モデル学習装置において、
前記マッチング手段は、ＤＰマッチングにより、前記認識結果および前記整形文のペアを生成するとともに、前記類似の度合いを算出することを特徴とする音声認識結果整形モデル学習装置。
コンピュータを、請求項１から請求項４のいずれか一項に記載の音声認識結果整形モデル学習装置として機能させるための音声認識結果整形モデル学習プログラム。