JP2020030367A - 音声認識結果整形モデル学習装置およびそのプログラム - Google Patents
音声認識結果整形モデル学習装置およびそのプログラム Download PDFInfo
- Publication number
- JP2020030367A JP2020030367A JP2018156926A JP2018156926A JP2020030367A JP 2020030367 A JP2020030367 A JP 2020030367A JP 2018156926 A JP2018156926 A JP 2018156926A JP 2018156926 A JP2018156926 A JP 2018156926A JP 2020030367 A JP2020030367 A JP 2020030367A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- recognition result
- learning
- shaping
- formatted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
そこで、従来は、人手による書き起こし文に対して、統計的翻訳手法を用いて、フィラーの削除、句読点の挿入、助詞の挿入、書き言葉表現への変換、文体の統一といった文を整形する手法が提案されている(非特許文献1参照)。
また、文整形を目的としたものではないが、従来は、ニューラルネットワークを用いて音声認識誤りを修正する言語モデルも提案されている(非特許文献2参照)。
従来のような音響特徴に忠実な音声認識では、このような、音響特徴から推測可能な範囲を超えて編集された単語列を、音声認識結果として出力することは困難である。
また、認識誤りを含んだ不明瞭な発話の書き起こし文を整形するには、読み上げ文を基準にしたルール記述による手法や周辺単語の統計的情報のみを用いる従来の手法では限界がある。
そして、音声認識結果整形モデル学習装置は、学習データ生成手段によって、発話区間ごとに音声認識手段の認識結果と整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する。これによって、学習データ生成手段は、音声認識結果と正解文となる整形文とを対応付け、文整形モデルを学習するための学習データを生成する。
そして、音声認識結果整形モデル学習装置は、文整形モデル学習手段によって、学習用認識結果に対する整形文の正解を学習用整形文として、文整形モデルの出力と学習用整形文との誤差を小さくするように文整形モデルを学習する。
このように学習した文整形モデルは、音声の認識結果を入力するだけで、整形文を出力することができ、予め文整形の規則を設ける必要がない。
そして、音声認識結果整形モデル学習装置は、文整形モデル学習手段によって、学習用認識結果に対する整形文の正解を学習用整形文として文整形モデルを学習する。
これによって、文整形モデル学習手段は、文整形モデルの出力が学習用整形文と近似するように文整形モデルのパラメータを学習する。
なお、音声認識結果整形モデル学習装置は、コンピュータを、前記した各手段として機能させるための音声認識結果整形モデル学習プログラムで動作させることができる。
本発明によれば、音声またはその認識結果と、対応する整形文とを準備するだけで、特別な規則を設けることなく、音声認識結果を読みやすく整形するための文整形モデルを学習することができる。
また、本発明によれば、認識結果に対応する正解として整形文を準備するため、音声認識の誤り傾向も学習することができ、音声認識精度を高めた文整形モデルを学習することができる。
<音声認識結果整形モデル学習装置の構成>
まず、図1を参照して、本発明の実施形態に係る音声認識結果整形モデル学習装置1の構成について説明する。
音声認識結果整形モデル学習装置1は、複数の発話を含んだ音声(音声データ)Xsと、その音声を予めテキスト化して整形した整形文Xtを学習素材Xとして、音声から整形文を推定するニューラルネットワークのモデル(文整形モデル)を学習するものである。
ここで整形とは、文の可読性の観点から音声のテキストデータの文字列を他の文字列に変形することである。例えば、不要語の削除、記号や文字の挿入、数字として使用する文字の変換(漢数字から算用数字等)等である。
(a)中の「ええと(a1)」、「あの(a3)」は、発話の合間にはさみこむフィラーであるが、必ずしもすべてが不要語であるとは限らない。
(b)の整形文は、(a)の音声の「あの(a3)」を不要語として削除した整形例を示す。
(a)中の「に さん(a2)」は数字であって、通常、音声認識結果は、漢数字(二三)となるが、横書きの場合等、算用数字(23)の方が読みやすい場合がある。また、この場合、「にじゅうさん」との読み間違いを防止するため、記号「・」を挿入することが好ましい。
(b)の整形文は、算用数字化と記号の挿入により、「2・3(b2)」とした整形例を示す。
また、文の読みやすさの観点から、必要に応じて句読点、記号等を追加することが好ましい。
(b)の整形文は、読点「、(b1)」および疑問符「?(b3)」の文字を挿入、追加した整形例を示す。
これら以外にも、「ですます調」/「である調」の文体の統一等といった整形もある。
図1に戻って、音声認識結果整形モデル学習装置1の構成について説明を続ける。
図1に示すように、音声認識結果整形モデル学習装置1は、制御手段10と、記憶手段20と、を備える。
制御手段10は、音声認識手段11と、学習データ生成手段12と、文整形モデル学習手段13と、を備える。
この音声認識手段11は、入力した音声を、予め定めた基準で区切った発話区間ごとに認識を行い、発話区間ごとの認識結果を素材記憶手段21に記憶する。
発話区間の区切りの基準として、例えば、音響特徴量のパワースペクトルを用いることができる。その場合、音声認識手段11は、予め定めた閾値よりもパワースペクトルが大きい場合に当該時間区間を発話区間と判定し、それ以外を非発話区間と判定すればよい。
この音声認識手段11は、公知の音声認識手法を用いて音声認識を行えばよく、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行う。なお、音声認識手段11における音声認識手法は、例えば、特開2010−175765等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。
なお、音声認識手段11は、認識仮説の中の最良の文字列を限定して認識結果とする必要はなく、複数の認識仮説を認識結果としてもよい。
学習データ生成手段12は、マッチング手段120と、選定手段121と、を備える。
このマッチング手段120は、素材記憶手段21に記憶されている認識結果と、外部から入力して予め素材記憶手段21に記憶した整形文とでマッチング(弾性マッチング)を行う。
このマッチング手段120は、例えば、動的計画法(Dynamic Programming)によるマッチング手法(DPマッチング)により、単語または文字単位で認識結果と整形文とをマッチングすることで、認識結果に対応する整形文を推定する。このとき、マッチング手段120は、類似の度合いとして、認識結果と整形文との間で、認識誤り、記号の挿入、書き換えを含んだ不一致率(matching error rate:MER)を算出する。なお、類似の度合いとして、一致率を用いてもよい。
マッチング手段120は、すべての発話区間ごとの認識結果について、整形文とのマッチングが終了した段階で、マッチングが完了したことを選定手段121に通知する。
この選定手段121は、マッチングリスト記憶手段22に記憶されている認識結果および整形文のペアに対応付けられている不一致率と、予め定めた閾値(許容不一致率)とを比較し、閾値を越えない認識結果および整形文のペアを学習データ(学習用認識結果、学習用整形文)として選定する。なお、学習データの選定基準となる閾値(許容不一致率)の値については、図8を参照して、後で説明することとする。
これによって、選定手段121は、認識結果および整形文のマッチングミスを極力防止することができる。
なお、選定手段121は、認識結果および整形文のペアにおいて、いずれか一方の単語長が予め定めた語長(例えば、2語)よりも短いものを選定から除外することとしてもよい。
これによって、学習に適さない学習データを除外することができる。
選定手段121は、マッチングリストMLからの選定を終了した段階で、選定が完了したことを文整形モデル学習手段13に通知する。
この文整形モデル学習手段13は、学習用認識結果に対する整形文の正解(教師データ)を、学習データDで対となる学習用整形文として、文整形モデルMの出力と学習用整形文との誤差を小さくするように文整形モデルMを学習する。
文整形モデル学習手段13は、ベクトル化手段130と、モデル学習手段131と、を備える。
具体的には、ベクトル化手段130は、学習データ記憶手段23に記憶されている学習用認識結果および学習用整形文を、それぞれ、単語ごとに、該当する単語の成分のみを“1”、他を“0”として、語彙数分(数万程度)の次元の1−hotベクトルを生成する。
ベクトル化手段130は、学習データ記憶手段23に記憶されている学習データDを順次読み出し、順次生成した学習用認識結果および学習用整形文のベクトルをモデル学習手段131に出力する。
このモデル学習手段131で学習する文整形モデルMは、例えば、一般的なエンコーダ−デコーダ型ネットワークを用いればよい。
図3に示す文整形モデルMは、ニューラルネットワークのモデルであり、認識結果(学習用認識結果)である単語列x1,x2,…,xn,<eos>を順次入力することで、エンコーダとして入力文を実数値ベクトルで表現し、その後、デコーダとして順次単語列y1,y2,…,ym,<eos>を整形文(学習用整形文)として出力する。
なお、単語列x1,x2,…,xn,<eos>、および、単語列y1,y2,…,ym,<eos>は、それぞれ、単語の1−hotベクトルである。また、<eos>は、文末記号を示す。
この文整形モデルMは、特に限定するものではないが、例えば、以下の参考文献に記載されているアテンションベースのニューラルネットワークを用いてもよい。
<参考文献>
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. “Neural Machine Translation By Jointly Learning To Align and Translate.” In ICLR. pages 1-15.
図1に戻って、音声認識結果整形モデル学習装置1の構成について説明を続ける。
モデル学習手段131は、逐次学習した文整形モデルM(より詳細には、そのパラメータ)を、文整形モデル記憶手段24に記憶する。
これら各記憶手段は、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。なお、ここでは、記憶手段20において、各記憶手段を個別に設けているが、1つの記憶装置の記憶領域を複数に区分して各記憶手段としてもよい。また、記憶手段20を外部記憶装置として、音声認識結果整形モデル学習装置1の構成から省いてもよい。
なお、音声認識結果整形モデル学習装置1は、コンピュータを前記した各手段として機能させるためのプログラム(音声認識結果整形モデル学習プログラム)で動作させることができる。
次に、図4を参照(構成については、適宜図1参照)して、本発明の実施形態に係る音声認識結果整形モデル学習装置1の動作について説明する。
ステップS1において、音声認識結果整形モデル学習装置1は、学習素材Xの音声XSの認識結果と、音声XSに対応する整形文XTとを、素材記憶手段21に記憶する。このとき、音声認識手段11は、音声XSを認識し、発話区間ごとの認識結果を素材記憶手段21に記憶する。また、図示を省略した入力手段を介して、整形文を素材記憶手段21に記憶する。
このとき、マッチング手段120は、認識結果および整形文のペアに不一致率を対応付けておく。
ステップS4において、選定手段121は、マッチングリストMLの中から選択した発話区間(i番目)の認識結果および整形文のペアに対応付けられている不一致率と、予め定めた閾値(許容不一致率)とを比較し、当該ペアが学習データに適しているか否かを判定する。
一方、不一致率が閾値以下の場合(ステップS4でYes)、選定手段121は、ステップS5において、当該ペアを学習データ(学習用認識結果および学習用整形文)Dとして選定し、学習データ記憶手段23に記憶(追加)する。
ここで、まだ、すべての発話区間を選択していない場合(ステップS6でNo)、ステップS7において、選定手段121は、次の発話区間を選択(変数iに“1”を加算)して、ステップS4に動作を戻す。
一方、すべての発話区間を選択した場合(ステップS6でYes)、選定手段121は動作を終了し、ステップS8以降の文整形モデル学習手段13の動作に移行する。
ステップS9において、ベクトル化手段130は、学習データ記憶手段23に記憶されている学習データDの学習用認識結果および学習用整形文のペア(j番目)を、単語ごとに、それぞれベクトル(1−hotベクトル)化する。
なお、モデル学習手段131は、学習が終了したか否かを、文整形モデルMのパラメータの変化量が予め定めた閾値よりも小さくなったことで判定してもよい。
ここで、学習が終了していない場合(ステップS11でNo)、ステップS12において、モデル学習手段131は、次の学習データのペアを選択(変数jに“1”を加算)して、ステップS9に動作を戻す。
一方、学習が終了した場合(ステップS11でYes)、音声認識結果整形モデル学習装置1は、動作を終了する。
次に、図5を参照して、参考例として、音声認識結果整形装置3の構成について説明する。
音声認識結果整形装置3は、音声認識結果整形モデル学習装置1(図1参照)で学習した文整形モデルを用いて、音声(音声データ)から整形文を生成するものである。
図5に示すように、音声認識結果整形装置3は、制御手段30と、記憶手段40と、を備える。
制御手段30は、音声認識結果整形装置3の動作を制御するものである。
制御手段30は、音声認識手段31と、文整形手段32と、を備える。
この音声認識手段31は、図1で説明した音声認識手段11と同様、入力した音声を、予め定めた基準で区切った発話区間ごとに認識を行い、発話区間ごとの認識結果を文整形手段32に出力する。
文整形手段32は、ベクトル化手段320と、整形文推定手段321と、テキスト化手段322と、を備える。
このベクトル化手段320は、図1で説明したベクトル化手段130と同様、認識結果を、単語ごとに該当する単語の成分のみを“1”、他を“0”として、語彙数分(数万程度)の次元の1−hotベクトルを生成する。
ベクトル化手段320は、変換したベクトルを整形文推定手段321に出力する。
この整形文推定手段321は、文整形モデル記憶手段41に記憶されている文整形モデルMに、ベクトル化した認識結果を順次入力し、ニューラルネットワークの演算を行うことで、整形文の単語ごとのベクトルを順次生成する。
ここで、整形文推定手段321は、文整形モデルMの出力の中で最も確率値の大きい成分を“1”、他を“0”とするベクトルを生成する。
整形文推定手段321は、生成したベクトルを、整形文の単語ごとの1−hotベクトルとして、テキスト化手段322に順次出力する。
このテキスト化手段322は、整形文推定手段321で生成した1−hotベクトルに対応するテキストデータの単語を、整形文を構成する単語として、順次出力する。
なお、記憶手段40を外部記憶装置として、音声認識結果整形装置3の構成から省いてもよい。
なお、音声認識結果整形装置3は、コンピュータを前記した各手段として機能させるためのプログラム(音声認識結果整形プログラム)で動作させることができる。
次に、図6を参照(構成については、適宜図5参照)して、音声認識結果整形装置3の動作について説明する。
ステップS20において、音声認識手段31は、音声を認識し、発話区間ごとに認識結果を生成する。
ステップS21において、文整形手段32のベクトル化手段320は、ステップS20で生成した発話区間ごとの認識結果を、単語ごとにベクトル(1−hotベクトル)化する。
ステップS23において、文整形手段32のテキスト化手段322は、ステップS22で推定した整形文の単語ごとのベクトルを、テキストデータに変換する。これによって、テキスト化手段322は、整形文をテキストデータとして生成する。
ここで、音声入力が終了していなければ(ステップS24でNo)、音声認識結果整形装置3は、ステップS20に戻って動作を継続する。
一方、音声入力が終了した場合(ステップS24でYes)、音声認識結果整形装置3は、動作を終了する。
次に、音声認識結果整形モデル学習装置1(図1参照)で学習した文整形モデルMを用いて、音声認識結果整形装置3(図5参照)が、音声の認識結果を整形した例について説明する。
図7(a)に示すように、音声認識結果整形装置3は、認識結果の「きょうのプレミアムトーク ゲストは」に対して、番組名“プレミアムトーク”の前後に鍵括弧“「”、“」”を挿入するとともに、句読点“。”および“、”を付加した整形文を生成することができる。
また、図7(b)に示すように、音声認識結果整形装置3は、認識結果の「うん」、「あの」のような、不要語を削除した整形文を生成することができる。
よって、図7(c)に示すように、音声認識結果整形装置3は、認識結果の誤りとして「音」を削除して正しい認識結果を整形文として生成することができる。
次に、図8を参照して、図1の学習データ生成手段12の選定手段121における学習データの選定基準(許容不一致率)について説明する。
ここでは、複数の許容不一致率で学習した複数の文整形モデルを用いて、音声の認識結果を整形し、予め準備した正解(整形文)との比較を行った。
音声認識手段11における音声認識には、音声認識ツールキットとして公開されているKaldiを用いた。また、音響モデルには、KaldiのTDNN(time-delay neural network)レシピを用いて、NHKの番組音声および字幕のペアの3000時間分の素材で学習したモデルを用いた。また、言語モデルには、語彙20万単語からなるのべ6.2億語で学習した3gramのWFST(重み付き有限状態トランスデューサ)を用いた。
図8において、「許容MER」は、学習データの選定基準として設定したMER(不一致率)の閾値[%]を示す。「文数」、「単語数」および「語彙数」は、それぞれ文整形モデルを学習した学習データの文数[千文]、単語数[百万語]、語彙数[千語]を示す。「MER」は、eval1、eval2の評価データを整形した整形文と正解の字幕との不一致率[%]を示す。また、「WER」は、eval1、eval2の評価データを整形した整形文と正解の字幕との記号付与と漢・算用数字変換による不一致を除いた認識誤りと書き換えによる不一致率[%]を示す。なお、参考までに、文整形を行わず音声認識のみのMER、WERを併せて示しておく。
また、認識誤りの少ないeval1においてはWERの改善はみられなかったが、認識誤りの多いeval2においては許容MER30%でWERが11.3%から10.8%に改善した。
このことから、記号付与や算用数字への変換だけでなく、認識誤り修正を学習したい場合には、許容MER30%の条件で、文整形モデルを学習するのが最善であるといえる。
以上、本発明の実施形態について説明したが、本発明はこの実施形態に限定されるものではない。
この場合、音声認識結果整形モデル学習装置1Bは、音声(音声データ)Xsの認識結果と、その音声を予めテキスト化して整形した整形文Xtとから、文整形モデルを学習するものとなる。
なお、音声認識結果整形モデル学習装置1Bは、コンピュータを、音声認識結果整形モデル学習装置1Bを構成する各手段として機能させるためのプログラムで動作させることができる。
しかし、学習データ生成手段12は、マッチング手段120において、1つの認識結果および整形文のペアをマッチングした段階で、選定手段121において、当該ペアを学習データとして選定するか否かの判定を行ってもよい。その場合、記憶手段20から、マッチングリスト記憶手段22を省略することができる。
この場合、音声認識結果整形装置3Bは、音声(音声データ)の認識結果から整形文を生成するものとなる。
なお、音声認識結果整形装置3Bは、コンピュータを、音声認識結果整形装置3Bを構成する各手段として機能させるためのプログラムで動作させることができる。
10,10B 制御手段
11 音声認識結果
12 学習データ生成手段
120 マッチング手段
121 選定手段
13 文整形モデル学習手段
130 ベクトル化手段
131 モデル学習手段
20 記憶手段
21 素材記憶手段
22 マッチングリスト記憶手段
23 学習データ記憶手段
24 文整形モデル記憶手段
3,3B 音声認識結果整形装置
30 制御手段
31 音声認識手段
32 文整形手段
320 ベクトル化手段
321 整形文推定手段
322 テキスト化手段
40 記憶手段
410 文整形モデル記憶手段
M 文整形モデル
Claims (5)
- 音声と前記音声に対する予め整形した整形文とを学習素材として用い、音声の認識結果を整形するためのニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置であって、
前記学習素材の音声を発話区間ごとに認識する音声認識手段と、
前記発話区間ごとに前記音声認識手段の認識結果と前記整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する学習データ生成手段と、
前記学習用認識結果に対する整形文の正解を前記学習用整形文として前記文整形モデルを学習する文整形モデル学習手段と、
を備えることを特徴とする音声認識結果整形モデル学習装置。 - 音声の発話区間ごとの認識結果と前記音声に対する予め整形した整形文とを学習素材として用い、音声の認識結果を整形するためのニューラルネットワークの文整形モデルを学習する音声認識結果整形モデル学習装置であって、
前記発話区間ごとの認識結果と前記整形文との間でマッチングを行い、対応する認識結果および整形文のペアを、学習用認識結果および学習用整形文として生成する学習データ生成手段と、
前記学習用認識結果に対する整形文の正解を前記学習用整形文として前記文整形モデルを学習する文整形モデル学習手段と、
を備えることを特徴とする音声認識結果整形モデル学習装置。 - 請求項1または請求項2に記載の音声認識結果整形モデル学習装置において、
前記学習データ生成手段は、
前記発話区間ごとに前記認識結果と前記整形文との間でマッチングを行い、対応する認識結果および整形文のペアを生成するとともに、当該ペアの類似の度合いを算出するマッチング手段と、
前記類似の度合いと予め定めた閾値とを比較し、前記類似の度合いが大きい前記認識結果および前記整形文のペアを、前記学習用認識結果および前記学習用整形文として選定する選定手段と、
を備えることを特徴とする音声認識結果整形モデル学習装置。 - 請求項3に記載の音声認識結果整形モデル学習装置において、
前記マッチング手段は、DPマッチングにより、前記認識結果および前記整形文のペアを生成するとともに、前記類似の度合いを算出することを特徴とする音声認識結果整形モデル学習装置。 - コンピュータを、請求項1から請求項4のいずれか一項に記載の音声認識結果整形モデル学習装置として機能させるための音声認識結果整形モデル学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018156926A JP7190283B2 (ja) | 2018-08-24 | 2018-08-24 | 音声認識結果整形モデル学習装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018156926A JP7190283B2 (ja) | 2018-08-24 | 2018-08-24 | 音声認識結果整形モデル学習装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020030367A true JP2020030367A (ja) | 2020-02-27 |
JP7190283B2 JP7190283B2 (ja) | 2022-12-15 |
Family
ID=69622434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018156926A Active JP7190283B2 (ja) | 2018-08-24 | 2018-08-24 | 音声認識結果整形モデル学習装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7190283B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022064779A (ja) * | 2020-10-14 | 2022-04-26 | ヤフー株式会社 | 学習装置、予測装置、学習方法および学習プログラム |
JP2022531414A (ja) * | 2019-05-03 | 2022-07-06 | グーグル エルエルシー | 数字列のエンドツーエンド自動音声認識 |
JP7481894B2 (ja) | 2020-05-11 | 2024-05-13 | 日本放送協会 | 発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010256498A (ja) * | 2009-04-22 | 2010-11-11 | Nec Corp | 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム |
JP2015075706A (ja) * | 2013-10-10 | 2015-04-20 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
JP2015230384A (ja) * | 2014-06-05 | 2015-12-21 | クラリオン株式会社 | 意図推定装置、及び、モデルの学習方法 |
JP2018077677A (ja) * | 2016-11-09 | 2018-05-17 | 日本電信電話株式会社 | 文字列変換装置、モデル学習装置、方法、及びプログラム |
-
2018
- 2018-08-24 JP JP2018156926A patent/JP7190283B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010256498A (ja) * | 2009-04-22 | 2010-11-11 | Nec Corp | 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム |
JP2015075706A (ja) * | 2013-10-10 | 2015-04-20 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
JP2015230384A (ja) * | 2014-06-05 | 2015-12-21 | クラリオン株式会社 | 意図推定装置、及び、モデルの学習方法 |
JP2018077677A (ja) * | 2016-11-09 | 2018-05-17 | 日本電信電話株式会社 | 文字列変換装置、モデル学習装置、方法、及びプログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022531414A (ja) * | 2019-05-03 | 2022-07-06 | グーグル エルエルシー | 数字列のエンドツーエンド自動音声認識 |
JP7280382B2 (ja) | 2019-05-03 | 2023-05-23 | グーグル エルエルシー | 数字列のエンドツーエンド自動音声認識 |
JP7481894B2 (ja) | 2020-05-11 | 2024-05-13 | 日本放送協会 | 発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法 |
JP2022064779A (ja) * | 2020-10-14 | 2022-04-26 | ヤフー株式会社 | 学習装置、予測装置、学習方法および学習プログラム |
JP7244473B2 (ja) | 2020-10-14 | 2023-03-22 | ヤフー株式会社 | 学習装置、予測装置、学習方法および学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7190283B2 (ja) | 2022-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113439301B (zh) | 用于机器学习的方法和*** | |
CN113811946B (zh) | 数字序列的端到端自动语音识别 | |
CN108447486B (zh) | 一种语音翻译方法及装置 | |
CN106971709B (zh) | 统计参数模型建立方法和装置、语音合成方法和装置 | |
JP2022527970A (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
CN110767213A (zh) | 一种韵律预测方法及装置 | |
JPWO2007097176A1 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
CN110956948A (zh) | 端到端的语音合成方法、装置及存储介质 | |
JP7190283B2 (ja) | 音声認識結果整形モデル学習装置およびそのプログラム | |
KR102401243B1 (ko) | 유사 발음열을 이용한 콜미 서비스의 음성 합성 장치 및 방법 | |
CN111985234B (zh) | 语音文本纠错方法 | |
KR20200026295A (ko) | 음절 기반 자동 음성 인식 | |
CN115293139B (zh) | 一种语音转写文本纠错模型的训练方法和计算机设备 | |
CN115293138B (zh) | 一种文本纠错方法及计算机设备 | |
CN113779972A (zh) | 语音识别纠错方法、***、装置及存储介质 | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
US11694028B2 (en) | Data generation apparatus and data generation method that generate recognition text from speech data | |
JP6718787B2 (ja) | 日本語音声認識モデル学習装置及びプログラム | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
Réveil et al. | Improving proper name recognition by means of automatically learned pronunciation variants | |
CN110310620B (zh) | 基于原生发音强化学习的语音融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210713 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7190283 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |