JP6552999B2 - テキスト補正装置、テキスト補正方法、およびプログラム - Google Patents

テキスト補正装置、テキスト補正方法、およびプログラム Download PDF

Info

Publication number
JP6552999B2
JP6552999B2 JP2016131807A JP2016131807A JP6552999B2 JP 6552999 B2 JP6552999 B2 JP 6552999B2 JP 2016131807 A JP2016131807 A JP 2016131807A JP 2016131807 A JP2016131807 A JP 2016131807A JP 6552999 B2 JP6552999 B2 JP 6552999B2
Authority
JP
Japan
Prior art keywords
recognition result
speech recognition
speech
text correction
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016131807A
Other languages
English (en)
Other versions
JP2018004947A (ja
Inventor
中村 孝
孝 中村
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016131807A priority Critical patent/JP6552999B2/ja
Publication of JP2018004947A publication Critical patent/JP2018004947A/ja
Application granted granted Critical
Publication of JP6552999B2 publication Critical patent/JP6552999B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は音声認識技術に関し、特に、音響モデルの学習に用いる書き起こしテキストを補正する技術に関する。
一般的に音声認識は、音声の音響的特徴をモデル化する音響モデル、単語間のつながりやすさをモデル化する言語モデル、単語と音素列の対応付けを行う発音辞書の3種類のモデルを用いて行われる。
音声は主に口腔や舌の形状・舌の位置・唇の動きにより調音され、その際物理的な動作を伴うため必ず過渡状態が発生する。そのため大まかには前後の音素環境により音響特徴が変わり得ることが想定され、音響モデルは、当該音素と、それ以前に現れる音素列と、それ以後に現れる音素列とを考慮したN-gram毎にモデル化されていることが多い。したがって、音響モデルは一般的に音声もしくはその特徴量と、音素との対応関係が付与されていることを教師データとして学習される。しかし、この対応関係を人手で付与することは非常にコストが掛かるため、音声もしくはその特徴量と、発声内容を正確に表した音素列とに基づいて、Viterbiアルゴリズムなどの自動化方法により、人手を介さず推定することを行い、学習に利用されることが多い。
上記で述べた音響モデル学習用の音素列は、一般的に、学習音声の発声内容を人手で(日本語であれば)かな漢字テキストとして書き起こしを行い、形態素解析器を用いて読みを付与し、発音辞書を用いて読みから音素列を生成することを行って作られる。
音響モデルの学習をより正確に行うためには、書き起こしテキストを正確に作成する必要がある。しかし、話し言葉にはフィラーや言いよどみ・言い直し等の、発話内容とは直接関係のない、話し言葉特有の現象(以下、不要語と呼ぶ)が現れることがよく観測される。そのため、音響モデル学習用の書き起こしテキスト作成時には、この不要語も含めて正確に記述されることが望ましい。しかし、日常生活において不要語はあまり意識されないため、不要語の正確な書き起こしには習熟を要し、かつ書き起こしそのものに要する時間も増大する。
不要語等が含まれていない不完全な書き起こしテキストから不要語を復元(挿入)する技術は様々に開発されている。例えば、非特許文献1では、不要語のうちフィラーに着目し、不完全な書き起こしテキストの各形態素にフィラーが後続するか否かをラベル付けする系列ラベリング問題として定義し、条件付き確率場(CRF; Conditional Random Fields)を用いてフィラー挿入を実現している。また、例えば、非特許文献2では、統計的スタイル変換モデルを用いて、書き言葉で記述された会議議事録を話し言葉に変換し、変換した議事録から会議の詳細な単位(例えば、話者交替毎のターンとして、10秒〜3分程度の発話)毎に制約の強い言語モデルを生成し、実際の音声とその言語モデルを用いて音声認識することで、不要語を含む発声内容テキストを生成する。
太田健吾,土屋雅稔,中川聖一,"フィラー予測モデルに基づく話し言葉言語モデルの構築",情報処理学会論文誌,Vol.50,No.2,pp.477-487,2009年 三村正人,秋田祐哉,河原達也,"統計的言語モデル変換を用いた音響モデルの準教師つき学習",電子情報通信学会誌,Vol.J94-D,No.2,pp.460-468,2011年
しかしながら、非特許文献1では、従来技術と比較して高精度にフィラー挿入箇所およびフィラー種別を推定できているが、元々フィラーの発生が確率的に起こることもあり、テキストのみで統計的に推定することは難しい。またフィラー以外の不要語の復元は実現できていない。
また、非特許文献2では、統計的話し言葉変換モデルを用いて話し言葉に変換するが、不要語のうちフィラーの出現確率が高いため、フィラー以外の不要語を統計的に妥当にモデリングできるかが不明である。実際、非特許文献2で復元できている不要語はフィラーのみである。また、話者交替毎のターンは一般的な音声認識の単位(文)より長く、言語モデルによる制約が正しくかかっているかが不明である。
この発明は、上述のような点に鑑みて、不要語を含む書き起こしテキストを効率的に生成することを目的とする。
上記の課題を解決するために、この発明のテキスト補正装置は、発話音声を書き起こした書き起こしテキストの形態素解析結果に対して形態素境界毎に不要語を挿入して文法モデルを生成する文法生成部と、文法モデルを用いて発話音声の音声データを音声認識した複数の音声認識結果候補を生成する音声認識部と、各音声認識結果候補についてその音声認識結果候補に含まれる音節列である不要語とその不要語に続く単語との類似度を算出し、その類似度に基づいて音声認識結果候補から発話音声の音声認識結果を選定する認識結果選定部と、を含む。
この発明によれば、不要語を含まない書き起こしテキストから、実際の発声に合わせて任意の不要語を復元することができる。したがって、不要語を含む書き起こしテキストを効率的に生成することができる。
図1は、テキスト補正装置の機能構成を例示する図である。 図2は、テキスト補正方法の処理手続きを例示する図である。 図3は、文法生成部の処理内容を説明するための図である。 図4は、文法生成部の処理内容を説明するための図である。 図5は、文法生成部の処理内容を説明するための図である。 図6は、認識結果選定部の処理内容を説明するための図である。 図7は、認識結果選定部の処理内容を説明するための図である。 図8は、認識結果選定部の処理内容を説明するための図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施形態のテキスト補正装置は、図1に示すように、形態素解析部1、文法生成部2、音声認識部3、認識結果選定部4、および発音辞書記憶部5を備える。このテキスト補正装置が後述する各ステップの処理を行うことにより実施形態のテキスト補正方法が実現される。
テキスト補正装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。テキスト補正装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。テキスト補正装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。テキスト補正装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。テキスト補正装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
図2を参照して、実施形態のテキスト補正方法の処理手続きを説明する。
ステップS1において、形態素解析部1は、発話音声から書き起こした書き起こしテキストを入力とし、その書き起こしテキストを形態素解析する。形態素解析結果は文法生成部2へ送られる。形態素解析には一般的な形態素解析器を用いればよいが、少なくとも表記および読みを出力できるものを利用する。ここで、形態素解析結果に品詞情報が含まれている場合、特定品詞の形態素について、他の品詞の形態素を結合させ、形態素数を減少させる処理を行ってもよい。形態素解析結果に含まれる形態素数が少ないほど全体の処理量を小さくすることができる。
例えば、入力される書き起こしテキストが「明日は快晴ですよねー」であった場合、形態素解析結果は以下のようになる。
明日;アス;名詞
は;ワ;格助詞
快晴;カイセイ;名詞
ですよねー;デスヨネー;終助詞
この形態素解析結果において、例えば、格助詞の形態素を直前の名詞の形態素に結合させることで、形態素数を減少させることができる。その結果を以下に示す。
明日は;アスワ;名詞
快晴;カイセイ;名詞
ですよねー;デスヨネー;終助詞
ステップS2において、文法生成部2は、形態素解析部1が出力する形態素解析結果を入力とし、発音辞書記憶部5に記憶された発音辞書を読み出し、その形態素解析結果に対して形態素境界毎に不要語を挿入して文法モデルを生成する。文法モデルは音声認識部3へ送られる。
文法モデルの生成は以下のようにして行う。まず、図3に示すように、形態素解析結果の表記を参照して有限状態文法などの受理可能な文法を生成する。図3の例は、「明日は快晴ですよねー」との書き起こしテキストから生成した文法を、重みつき有限状態トランスデューサ(WFST; Weighted Finite-State Transducer)で表現した例である。次に、図4に示すように、形態素解析結果の形態素境界毎にフィラー、音節、および無音(pause)を挿入して受理可能となるように文法を更新する。図4の例は、図3で例示した文法に対して、「明日は」と「快晴」との間にフィラー(「えー」「あー」など)および音節(「あ」「て」「ふ」など)を挿入した例である。図4の例では、各不要語に与える重みα, β, γは定数とする。さらに、図5に示すように、フィラー、音節、および無音(pause)は連続可能であっても受理可能となるように文法を更新する。図5の例は、「明日は」と「快晴」の間に2連続のフィラー連続および音節連続を受理可能とした文法の例である。最後に、発音辞書を用いて、各形態素の読みを音素に変換し、文法を更新する。生成する文法モデルは、後段の音声認識部3で取り扱うことができるものであればどのようなものであってもよい。上記では文法を最初に生成した上で更新する構成としたが、一度に最終的な文法を生成するように構成してもよい。
ステップS3において、音声認識部3は、発話音声の音声データおよび文法生成部2が出力する文法モデルを入力とし、その文法モデルを用いて発話音声の音声データを音声認識し、1つまたは複数の音声認識結果候補を得る。音声認識結果候補は認識結果選定部4へ送られる。音声認識には任意の音声認識器を用いればよい。
例えば、実際の発話内容が「明日は、かい、快晴えーですよねー」であり、その書き起こしテキストが「明日は快晴ですよねー」であった場合、音声認識結果候補は、例えば以下のようになる。ここでは、3位まで(3-best)の音声認識結果候補を出力する場合を示している。
1位 明日は、かひ、快晴ええですよねー
2位 明日はかい、快晴えーですよねー
3位 明日は、たい、快晴えですよねー
音声認識部3で用いた音声認識器が単語ラティスを出力できる場合は、単語ラティスを生成し、音声認識結果候補として出力する。図6は上記の音声認識結果候補を単語ラティスとして出力した例である。図6において、太字実線のブロックは音節列、二重線のブロックはフィラー、太字点線のブロックは無音(pause)を表している。各パス(矢印)にはそれぞれ音声認識後のスコアが対応するが、図6では省略している。
ステップS4において、認識結果選定部4は、音声認識部3が出力する音声認識結果候補を入力とし、音声認識結果候補から発話音声の音声認識結果を選定する。選定した音声認識結果は、不要語付きの書き起こしテキストとして出力される。
入力が音声認識結果候補の場合、各音声認識結果候補に対し、書き起こしテキストから挿入された音節列と、フィラーおよびポーズを除いてその音節列に後続する単語との類似度を求める。1つの音声認識結果候補について複数の音節列が存在する場合、各音素列について求めた類似度の平均値や中央値、最大値など、何らかの手段で1つの値を求める。上記のようにして求めた類似度が最も高い音声認識結果候補を、最終的な音声認識結果として出力する。
入力が単語ラティスの場合、複数の候補が存在する単語のうち音節列であるものと、フィラーおよびポーズを除いてその音節列に後続する単語との類似度をそれぞれ求め、最も類似度が高い音節列を通るパスのスコアをリスコアリングする。図7において黒塗りのブロックで示す単語は、複数の候補が存在する単語(「かい」「かひ」…)に対して、フィラーおよびポーズを除いてその単語に後続する単語(「快晴」)の例である。言いよどみや言い直しは、正しい内容が不要語のすぐ後続に現れる場合が多いため、フィラー以外の不要語の認識結果である音節列と、その後続単語とを比較することにしている。最終的に、リスコアリングしたパスから最尤パスを求め、音声認識結果を出力する。図8の例では、太字実線の矢印が最尤パスを示しており、「明日はかい、快晴ええですよねー」が最尤パスとして選定されたことを表している。
入力がいずれの場合も、類似度の算出方法は任意のものを利用してよい。ただし、数値が大きいほど類似している指標である必要がある。類似度の算出方法としては、例えば、1.音節列と後続単語との音節表記の一致性、2.音節列の音素列と後続単語の音素列との編集距離、などが挙げられる。前者は、例えば、表記が一致している音節の個数を類似度とする。後者は、一般的な編集距離計算方法を用いればよい。その際、調音方法による分類(閉鎖音、摩擦音など)が類似していれば距離を小さくするなど工夫が可能である。
上述のように構成することにより、この発明のテキスト補正技術によれば、不要語を含まない書き起こしテキストから不要語を含む文法モデルを生成し、その文法モデルを用いて実際の発声を音声認識することで任意の不要語を復元することができる。したがって、不要語を含む書き起こしテキストを効率的に生成することができる。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 形態素解析部
2 文法生成部
3 音声認識部
4 認識結果選定部
5 発音辞書記憶部

Claims (7)

  1. 発話音声を書き起こした書き起こしテキストの形態素解析結果に対して形態素境界毎に不要語を挿入して文法モデルを生成する文法生成部と、
    上記文法モデルを用いて上記発話音声の音声データを音声認識した複数の音声認識結果候補を生成する音声認識部と、
    各音声認識結果候補についてその音声認識結果候補に含まれる音節列である不要語とその不要語に続く単語との類似度を算出し、その類似度に基づいて上記音声認識結果候補から上記発話音声の音声認識結果を選定する認識結果選定部と、
    を含むテキスト補正装置。
  2. 請求項1に記載のテキスト補正装置であって、
    上記文法生成部は、上記形態素解析結果に対して形態素解析境界毎に、フィラー、音節、または無音を含む上記不要語を挿入して上記文法モデルを生成するものである、
    を含むテキスト補正装置。
  3. 請求項2に記載のテキスト補正装置であって、
    上記文法生成部は、上記形態素解析結果に対して形態素解析境界毎に、任意のフィラーが連続するフィラー連続、複数の音節が連続する音節連続を含む上記不要語を挿入して上記文法モデルを生成するものである、
    を含むテキスト補正装置。
  4. 請求項1から3のいずれかに記載のテキスト補正装置であって、
    上記認識結果選定部は、上記音声認識結果候補に含まれる音節列である不要語とその不要語に続く単語の音節列とで音節表記が一致している音節の個数を上記類似度として算出するものである、
    テキスト補正装置。
  5. 請求項1から3のいずれかに記載のテキスト補正装置であって、
    上記認識結果選定部は、上記音声認識結果候補に含まれる音節列である不要語の音素列とその不要語に続く単語の音節列の音素列との編集距離を上記類似度として算出するものである、
    テキスト補正装置。
  6. 文法生成部が、発話音声を書き起こした書き起こしテキストの形態素解析結果に対して形態素境界毎に不要語を挿入して文法モデルを生成し、
    音声認識部が、上記文法モデルを用いて上記発話音声の音声データを音声認識した複数の音声認識結果候補を生成し、
    認識結果選定部が、各音声認識結果候補についてその音声認識結果候補に含まれる各不要語の音節列とその不要語に続く単語の音節列との類似度を算出し、その類似度に基づいて上記音声認識結果候補から上記発話音声の音声認識結果を選定する、
    テキスト補正方法。
  7. 請求項1から5のいずれかに記載のテキスト補正装置としてコンピュータを機能させるためのプログラム。
JP2016131807A 2016-07-01 2016-07-01 テキスト補正装置、テキスト補正方法、およびプログラム Active JP6552999B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016131807A JP6552999B2 (ja) 2016-07-01 2016-07-01 テキスト補正装置、テキスト補正方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016131807A JP6552999B2 (ja) 2016-07-01 2016-07-01 テキスト補正装置、テキスト補正方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018004947A JP2018004947A (ja) 2018-01-11
JP6552999B2 true JP6552999B2 (ja) 2019-07-31

Family

ID=60944952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016131807A Active JP6552999B2 (ja) 2016-07-01 2016-07-01 テキスト補正装置、テキスト補正方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6552999B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7243106B2 (ja) 2018-09-27 2023-03-22 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
JP7159756B2 (ja) 2018-09-27 2022-10-25 富士通株式会社 音声再生区間の制御方法、音声再生区間の制御プログラムおよび情報処理装置
JP7119857B2 (ja) 2018-09-28 2022-08-17 富士通株式会社 編集プログラム、編集方法および編集装置
CN113836900B (zh) * 2021-09-24 2024-01-26 青海民族大学 一种基于文法向量乘法的藏文音节校对方法
CN116580701B (zh) * 2023-05-19 2023-11-24 国网物资有限公司 告警音频识别方法、装置、电子设备和计算机介质

Also Published As

Publication number Publication date
JP2018004947A (ja) 2018-01-11

Similar Documents

Publication Publication Date Title
US11587569B2 (en) Generating and using text-to-speech data for speech recognition models
CN113168828B (zh) 基于合成数据训练的会话代理管线
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP4528535B2 (ja) テキストから単語誤り率を予測するための方法および装置
CN112435654B (zh) 通过帧***对语音数据进行数据增强
Gutkin et al. TTS for low resource languages: A Bangla synthesizer
WO2018192186A1 (zh) 语音识别方法及装置
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
Kurimo et al. Modeling under-resourced languages for speech recognition
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
Mary et al. Searching speech databases: features, techniques and evaluation measures
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP5366050B2 (ja) 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
Baranwal et al. Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers
Qiu et al. Context-aware neural confidence estimation for rare word speech recognition
Laryea et al. Automatic Speech Recognition System for Somali in the interest of reducing Maternal Morbidity and Mortality.
JP7146038B2 (ja) 音声認識システム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190703

R150 Certificate of patent or registration of utility model

Ref document number: 6552999

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150