JP6552999B2

JP6552999B2 - テキスト補正装置、テキスト補正方法、およびプログラム

Info

Publication number: JP6552999B2
Application number: JP2016131807A
Authority: JP
Inventors: 中村　孝; 孝中村; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2019-07-31
Anticipated expiration: 2036-07-01
Also published as: JP2018004947A

Description

この発明は音声認識技術に関し、特に、音響モデルの学習に用いる書き起こしテキストを補正する技術に関する。

一般的に音声認識は、音声の音響的特徴をモデル化する音響モデル、単語間のつながりやすさをモデル化する言語モデル、単語と音素列の対応付けを行う発音辞書の３種類のモデルを用いて行われる。

音声は主に口腔や舌の形状・舌の位置・唇の動きにより調音され、その際物理的な動作を伴うため必ず過渡状態が発生する。そのため大まかには前後の音素環境により音響特徴が変わり得ることが想定され、音響モデルは、当該音素と、それ以前に現れる音素列と、それ以後に現れる音素列とを考慮したN-gram毎にモデル化されていることが多い。したがって、音響モデルは一般的に音声もしくはその特徴量と、音素との対応関係が付与されていることを教師データとして学習される。しかし、この対応関係を人手で付与することは非常にコストが掛かるため、音声もしくはその特徴量と、発声内容を正確に表した音素列とに基づいて、Viterbiアルゴリズムなどの自動化方法により、人手を介さず推定することを行い、学習に利用されることが多い。

上記で述べた音響モデル学習用の音素列は、一般的に、学習音声の発声内容を人手で（日本語であれば）かな漢字テキストとして書き起こしを行い、形態素解析器を用いて読みを付与し、発音辞書を用いて読みから音素列を生成することを行って作られる。

音響モデルの学習をより正確に行うためには、書き起こしテキストを正確に作成する必要がある。しかし、話し言葉にはフィラーや言いよどみ・言い直し等の、発話内容とは直接関係のない、話し言葉特有の現象（以下、不要語と呼ぶ）が現れることがよく観測される。そのため、音響モデル学習用の書き起こしテキスト作成時には、この不要語も含めて正確に記述されることが望ましい。しかし、日常生活において不要語はあまり意識されないため、不要語の正確な書き起こしには習熟を要し、かつ書き起こしそのものに要する時間も増大する。

不要語等が含まれていない不完全な書き起こしテキストから不要語を復元（挿入）する技術は様々に開発されている。例えば、非特許文献１では、不要語のうちフィラーに着目し、不完全な書き起こしテキストの各形態素にフィラーが後続するか否かをラベル付けする系列ラベリング問題として定義し、条件付き確率場（CRF; Conditional Random Fields）を用いてフィラー挿入を実現している。また、例えば、非特許文献２では、統計的スタイル変換モデルを用いて、書き言葉で記述された会議議事録を話し言葉に変換し、変換した議事録から会議の詳細な単位（例えば、話者交替毎のターンとして、10秒〜3分程度の発話）毎に制約の強い言語モデルを生成し、実際の音声とその言語モデルを用いて音声認識することで、不要語を含む発声内容テキストを生成する。

太田健吾，土屋雅稔，中川聖一，"フィラー予測モデルに基づく話し言葉言語モデルの構築"，情報処理学会論文誌，Vol.50，No.2，pp.477-487，2009年三村正人，秋田祐哉，河原達也，"統計的言語モデル変換を用いた音響モデルの準教師つき学習"，電子情報通信学会誌，Vol.J94-D，No.2，pp.460-468，2011年

しかしながら、非特許文献１では、従来技術と比較して高精度にフィラー挿入箇所およびフィラー種別を推定できているが、元々フィラーの発生が確率的に起こることもあり、テキストのみで統計的に推定することは難しい。またフィラー以外の不要語の復元は実現できていない。

また、非特許文献２では、統計的話し言葉変換モデルを用いて話し言葉に変換するが、不要語のうちフィラーの出現確率が高いため、フィラー以外の不要語を統計的に妥当にモデリングできるかが不明である。実際、非特許文献２で復元できている不要語はフィラーのみである。また、話者交替毎のターンは一般的な音声認識の単位（文）より長く、言語モデルによる制約が正しくかかっているかが不明である。

この発明は、上述のような点に鑑みて、不要語を含む書き起こしテキストを効率的に生成することを目的とする。

上記の課題を解決するために、この発明のテキスト補正装置は、発話音声を書き起こした書き起こしテキストの形態素解析結果に対して形態素境界毎に不要語を挿入して文法モデルを生成する文法生成部と、文法モデルを用いて発話音声の音声データを音声認識した複数の音声認識結果候補を生成する音声認識部と、各音声認識結果候補についてその音声認識結果候補に含まれる音節列である不要語とその不要語に続く単語との類似度を算出し、その類似度に基づいて音声認識結果候補から発話音声の音声認識結果を選定する認識結果選定部と、を含む。

この発明によれば、不要語を含まない書き起こしテキストから、実際の発声に合わせて任意の不要語を復元することができる。したがって、不要語を含む書き起こしテキストを効率的に生成することができる。

図１は、テキスト補正装置の機能構成を例示する図である。図２は、テキスト補正方法の処理手続きを例示する図である。図３は、文法生成部の処理内容を説明するための図である。図４は、文法生成部の処理内容を説明するための図である。図５は、文法生成部の処理内容を説明するための図である。図６は、認識結果選定部の処理内容を説明するための図である。図７は、認識結果選定部の処理内容を説明するための図である。図８は、認識結果選定部の処理内容を説明するための図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

実施形態のテキスト補正装置は、図１に示すように、形態素解析部１、文法生成部２、音声認識部３、認識結果選定部４、および発音辞書記憶部５を備える。このテキスト補正装置が後述する各ステップの処理を行うことにより実施形態のテキスト補正方法が実現される。

テキスト補正装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。テキスト補正装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。テキスト補正装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。テキスト補正装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。テキスト補正装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

図２を参照して、実施形態のテキスト補正方法の処理手続きを説明する。

ステップＳ１において、形態素解析部１は、発話音声から書き起こした書き起こしテキストを入力とし、その書き起こしテキストを形態素解析する。形態素解析結果は文法生成部２へ送られる。形態素解析には一般的な形態素解析器を用いればよいが、少なくとも表記および読みを出力できるものを利用する。ここで、形態素解析結果に品詞情報が含まれている場合、特定品詞の形態素について、他の品詞の形態素を結合させ、形態素数を減少させる処理を行ってもよい。形態素解析結果に含まれる形態素数が少ないほど全体の処理量を小さくすることができる。

例えば、入力される書き起こしテキストが「明日は快晴ですよねー」であった場合、形態素解析結果は以下のようになる。
明日；アス；名詞
は；ワ；格助詞
快晴；カイセイ；名詞
ですよねー；デスヨネー；終助詞

この形態素解析結果において、例えば、格助詞の形態素を直前の名詞の形態素に結合させることで、形態素数を減少させることができる。その結果を以下に示す。
明日は；アスワ；名詞
快晴；カイセイ；名詞
ですよねー；デスヨネー；終助詞

ステップＳ２において、文法生成部２は、形態素解析部１が出力する形態素解析結果を入力とし、発音辞書記憶部５に記憶された発音辞書を読み出し、その形態素解析結果に対して形態素境界毎に不要語を挿入して文法モデルを生成する。文法モデルは音声認識部３へ送られる。

文法モデルの生成は以下のようにして行う。まず、図３に示すように、形態素解析結果の表記を参照して有限状態文法などの受理可能な文法を生成する。図３の例は、「明日は快晴ですよねー」との書き起こしテキストから生成した文法を、重みつき有限状態トランスデューサ（WFST; Weighted Finite-State Transducer）で表現した例である。次に、図４に示すように、形態素解析結果の形態素境界毎にフィラー、音節、および無音（pause）を挿入して受理可能となるように文法を更新する。図４の例は、図３で例示した文法に対して、「明日は」と「快晴」との間にフィラー（「えー」「あー」など）および音節（「あ」「て」「ふ」など）を挿入した例である。図４の例では、各不要語に与える重みα, β, γは定数とする。さらに、図５に示すように、フィラー、音節、および無音（pause）は連続可能であっても受理可能となるように文法を更新する。図５の例は、「明日は」と「快晴」の間に２連続のフィラー連続および音節連続を受理可能とした文法の例である。最後に、発音辞書を用いて、各形態素の読みを音素に変換し、文法を更新する。生成する文法モデルは、後段の音声認識部３で取り扱うことができるものであればどのようなものであってもよい。上記では文法を最初に生成した上で更新する構成としたが、一度に最終的な文法を生成するように構成してもよい。

ステップＳ３において、音声認識部３は、発話音声の音声データおよび文法生成部２が出力する文法モデルを入力とし、その文法モデルを用いて発話音声の音声データを音声認識し、１つまたは複数の音声認識結果候補を得る。音声認識結果候補は認識結果選定部４へ送られる。音声認識には任意の音声認識器を用いればよい。

例えば、実際の発話内容が「明日は、かい、快晴えーですよねー」であり、その書き起こしテキストが「明日は快晴ですよねー」であった場合、音声認識結果候補は、例えば以下のようになる。ここでは、３位まで（3-best）の音声認識結果候補を出力する場合を示している。
１位明日は、かひ、快晴ええですよねー
２位明日はかい、快晴えーですよねー
３位明日は、たい、快晴えですよねー

音声認識部３で用いた音声認識器が単語ラティスを出力できる場合は、単語ラティスを生成し、音声認識結果候補として出力する。図６は上記の音声認識結果候補を単語ラティスとして出力した例である。図６において、太字実線のブロックは音節列、二重線のブロックはフィラー、太字点線のブロックは無音（pause）を表している。各パス（矢印）にはそれぞれ音声認識後のスコアが対応するが、図６では省略している。

ステップＳ４において、認識結果選定部４は、音声認識部３が出力する音声認識結果候補を入力とし、音声認識結果候補から発話音声の音声認識結果を選定する。選定した音声認識結果は、不要語付きの書き起こしテキストとして出力される。

入力が音声認識結果候補の場合、各音声認識結果候補に対し、書き起こしテキストから挿入された音節列と、フィラーおよびポーズを除いてその音節列に後続する単語との類似度を求める。１つの音声認識結果候補について複数の音節列が存在する場合、各音素列について求めた類似度の平均値や中央値、最大値など、何らかの手段で１つの値を求める。上記のようにして求めた類似度が最も高い音声認識結果候補を、最終的な音声認識結果として出力する。

入力が単語ラティスの場合、複数の候補が存在する単語のうち音節列であるものと、フィラーおよびポーズを除いてその音節列に後続する単語との類似度をそれぞれ求め、最も類似度が高い音節列を通るパスのスコアをリスコアリングする。図７において黒塗りのブロックで示す単語は、複数の候補が存在する単語（「かい」「かひ」…）に対して、フィラーおよびポーズを除いてその単語に後続する単語（「快晴」）の例である。言いよどみや言い直しは、正しい内容が不要語のすぐ後続に現れる場合が多いため、フィラー以外の不要語の認識結果である音節列と、その後続単語とを比較することにしている。最終的に、リスコアリングしたパスから最尤パスを求め、音声認識結果を出力する。図８の例では、太字実線の矢印が最尤パスを示しており、「明日はかい、快晴ええですよねー」が最尤パスとして選定されたことを表している。

入力がいずれの場合も、類似度の算出方法は任意のものを利用してよい。ただし、数値が大きいほど類似している指標である必要がある。類似度の算出方法としては、例えば、１．音節列と後続単語との音節表記の一致性、２．音節列の音素列と後続単語の音素列との編集距離、などが挙げられる。前者は、例えば、表記が一致している音節の個数を類似度とする。後者は、一般的な編集距離計算方法を用いればよい。その際、調音方法による分類（閉鎖音、摩擦音など）が類似していれば距離を小さくするなど工夫が可能である。

上述のように構成することにより、この発明のテキスト補正技術によれば、不要語を含まない書き起こしテキストから不要語を含む文法モデルを生成し、その文法モデルを用いて実際の発声を音声認識することで任意の不要語を復元することができる。したがって、不要語を含む書き起こしテキストを効率的に生成することができる。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１形態素解析部
２文法生成部
３音声認識部
４認識結果選定部
５発音辞書記憶部

Claims

発話音声を書き起こした書き起こしテキストの形態素解析結果に対して形態素境界毎に不要語を挿入して文法モデルを生成する文法生成部と、
上記文法モデルを用いて上記発話音声の音声データを音声認識した複数の音声認識結果候補を生成する音声認識部と、
各音声認識結果候補についてその音声認識結果候補に含まれる音節列である不要語とその不要語に続く単語との類似度を算出し、その類似度に基づいて上記音声認識結果候補から上記発話音声の音声認識結果を選定する認識結果選定部と、
を含むテキスト補正装置。
請求項１に記載のテキスト補正装置であって、
上記文法生成部は、上記形態素解析結果に対して形態素解析境界毎に、フィラー、音節、または無音を含む上記不要語を挿入して上記文法モデルを生成するものである、
を含むテキスト補正装置。
請求項２に記載のテキスト補正装置であって、
上記文法生成部は、上記形態素解析結果に対して形態素解析境界毎に、任意のフィラーが連続するフィラー連続、複数の音節が連続する音節連続を含む上記不要語を挿入して上記文法モデルを生成するものである、
を含むテキスト補正装置。
請求項１から３のいずれかに記載のテキスト補正装置であって、
上記認識結果選定部は、上記音声認識結果候補に含まれる音節列である不要語とその不要語に続く単語の音節列とで音節表記が一致している音節の個数を上記類似度として算出するものである、
テキスト補正装置。
請求項１から３のいずれかに記載のテキスト補正装置であって、
上記認識結果選定部は、上記音声認識結果候補に含まれる音節列である不要語の音素列とその不要語に続く単語の音節列の音素列との編集距離を上記類似度として算出するものである、
テキスト補正装置。
文法生成部が、発話音声を書き起こした書き起こしテキストの形態素解析結果に対して形態素境界毎に不要語を挿入して文法モデルを生成し、
音声認識部が、上記文法モデルを用いて上記発話音声の音声データを音声認識した複数の音声認識結果候補を生成し、
認識結果選定部が、各音声認識結果候補についてその音声認識結果候補に含まれる各不要語の音節列とその不要語に続く単語の音節列との類似度を算出し、その類似度に基づいて上記音声認識結果候補から上記発話音声の音声認識結果を選定する、
テキスト補正方法。
請求項１から５のいずれかに記載のテキスト補正装置としてコンピュータを機能させるためのプログラム。