JP6358744B2 - 音声認識誤り修正装置 - Google Patents
音声認識誤り修正装置 Download PDFInfo
- Publication number
- JP6358744B2 JP6358744B2 JP2014170540A JP2014170540A JP6358744B2 JP 6358744 B2 JP6358744 B2 JP 6358744B2 JP 2014170540 A JP2014170540 A JP 2014170540A JP 2014170540 A JP2014170540 A JP 2014170540A JP 6358744 B2 JP6358744 B2 JP 6358744B2
- Authority
- JP
- Japan
- Prior art keywords
- transition
- output
- state
- word
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims description 83
- 230000007704 transition Effects 0.000 claims description 361
- 238000003860 storage Methods 0.000 claims description 80
- 238000000034 method Methods 0.000 claims description 60
- 238000007476 Maximum Likelihood Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 38
- 238000013500 data storage Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 13
- 238000010276 construction Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 12
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 238000003780 insertion Methods 0.000 description 10
- 230000037431 insertion Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 5
- 101150037264 fbxo43 gene Proteins 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 241000277269 Oncorhynchus masou Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
非特許文献1には、生放送のニュース番組への字幕付与を目的としたアプローチの一つに、スペインのCARTVの例が記載されている。非特許文献1に記載されたシステムは、ニュース項目とその順番、読み原稿が与えられていることを前提とし、読み原稿の単語を一列の音素列とし、入力音声で強制アライメントを施して原稿の読み上げ部分を特定している。強制アライメントとは発話内容の音素列が与えられたときに、各音素と発話音声区間の対応を得るアルゴリズムである。このシステムでは、原稿のどの部分を読んでいるのかを音素単位で特定できるため、早期に字幕文を確定して番組映像と整合性の高い字幕を出力することができる。
また特に、本発明は、発話者が原稿を最後まで読み上げる前であっても、途中の適切な段階で出力文(修正後の文)を確定することをも可能にする音声認識誤り修正装置を提供するものである。
なお、上記の遷移重みは、状態遷移に関するコストを表す数値データである。一例として、遷移重みがゼロのときにコスト最小であり、負の遷移重みの値が小さくなるほど(つまり、その負値の絶対値が大きいほど)コストが大きくなるように、遷移重みを定義する。しかし、遷移重みについて、この定義の符号を逆転させたり、またその他の定義を用いたりしても良い。状態遷移ごとにその重みが設定されていることにより、この重みを用いて。最尤ノードを求める際のスコアを算出することができる。
また、本発明によれば、従来技術を用いたときにブロック境界に起因して生じていた自動修正誤りの発生を低減することができる。
また、本発明によれば、修正後の認識結果を早く確定させて出力することが可能となる。
図1は、本実施形態に係る音声認識誤り修正装置を含むシステムの構成の概略を示すブロック図である。図示するように、当該システムは、音声認識誤り修正装置100と、原稿テキスト記憶装置200と、音声認識装置220と、トランスデューサー構築装置240とを含んで構成される。
ここで、音声認識誤り修正装置100が推定処理のために予め記憶した情報は、原稿テキスト記憶装置200に記憶されている原稿テキストを予め読み込んで構築された対応原稿の集合である。この対応原稿の集合は、状態を表すノードと、ノード間の状態遷移を表す枝(アーク)とをネットワーク(有向グラフ)として有する重み付き有限状態トランスデューサー(Weighted Finite State Transducer:以下、「WFST」、または単に「有限状態トランスデューサー」という)で表される。
音声認識誤り修正装置100は、WFSTのネットワーク上で最良(最尤)仮説を逐次調べ、WFST上の対応原稿の単語列と認識単語列との編集距離を基準に、全ての認識結果の単語列の入力を待たずに最終最良仮説を近似して部分的に修正結果を逐次確定する。
原稿テキスト記憶装置200は、人が話す予定の内容をテキストに書き起こしたものの全体を記憶する。原稿テキスト記憶装置200は、例えば文、文章、段落といった単語列の区切りの単位や、そのテーマやトピック等の内容分類に応じて、多数の細分化された個別の内容を表すテキストを記憶する。このような個別の内容を、以下では単に原稿と呼ぶ。また、単語列の単位は一例として文である。
原稿テキスト記憶装置200は、例えばハードディスク装置や半導体メモリ等の一般的な記憶手段を用いて構築されている。原稿テキスト記憶装置200は、いわゆるクラウドサービスとして、通信ネットワーク等を通してアクセスされるものであっても良い。
音声認識装置220は、生の音声データが入力された場合に、隠れマルコフモデル(HMM)による音響モデルと、言語モデルとを利用して、音声データを認識し、その認識した結果を認識単語列として生成するものである。本実施形態において、音声認識装置220は、特に限定されず、公知の技術を用いたものを採用することができる。
そして、WFSTのネットワークにおいて、読み込んだ単語列の出力遷移の枝を追加して終点ノードに連結する。
(A1)原稿テキスト記憶装置200に記憶されている原稿文のうちの複数の原稿文が音声認識対象として読みあげられる。
(A2)1つのニュース項目に対するニュース原稿も、いくつかの更新された版(バージョン)が用意されていて、どのバージョンの原稿が何時のニュース番組で読まれるのかを事前に確定することはできない。
(A3)複数の原稿文がどのような順番で読まれるのか事前には分かっていない。
(A4)原稿テキスト記憶装置200に含まれる原稿文の中には、読みあげられずにスキップされるものもある。
(A5)読む人(アナウンサー、キャスター、記者等)によっては、元の原稿をそのまま忠実に読むのではなく、視聴者への伝わりやすさ等を考慮して敢えて言い回しを変えてしまう場合や、読み誤りが生じる場合などがある。
(A6)音声認識装置220の認識誤りに起因する意昧不明な字幕を送出して視聴者に誤解を与えたり不快にさせたりすることを回避することを優先課題としたい。そのため、意味不明な認識結果の場合には送出せず、代わりに、事前に編集者により校正され内容が確認されている、発話内容に最も近いと自動推定された原稿(事前原稿)を字幕として送出する。
(A7)インタビュー部分などであって認識結果に対応する原稿が元々存在しない場合、自動推定は不可能なので、元原稿が無いインタビュー部分などについては字幕を送出しない。
図2は、一般的なWFSTの例を示す概略図である。WFSTは、状態遷移の定義として表現される。状態遷移は、状態を表すノードと、状態遷移を表す枝と、を有する。なお、状態遷移のことを単に遷移という場合もある。図示するWFSTでは、入力シンボルを単語、出力シンボルを所定の単語列とする。また、この所定の単語列は、文である。同図において、ノードは楕円形で示している。また、枝は矢印付きの線で表している。つまり、枝は、方向を有している。
なお、<I>が付された状態遷移における遷移先の状態は、同遷移における遷移元の状態と同じである。
なお、<D>が付された状態遷移における遷移元および遷移先の状態は、脱落する単語に関する状態遷移と同じである。例えば、ノード002からノード003への、<D>が付された状態遷移は、並列する単語「の」が脱落したときにもノード002からノード003へ遷移を可能とする(ただし、上記の脱落ペナルティを伴う)ものである。
図3は、本実施形態において用いるWFSTの例を示す概略図である。図2を用いて説明した一般的なWFSTと、本実施形態で用いるWFSTの違いを中心に、以下、説明する。
次に、トランスデューサー構築装置240によるWFSTの構築方法について説明する。トランスデューサー構築装置240がWFSTを構築するに当たり、原稿テキスト記憶装置200に含まれる原稿テキストは、予め文に分割しておく。なお、文の最後は句点によって区切られる場合には、句点を目印に分割することができる。また、原稿テキストの構文解析を行うことによって、構文ルールから文の切れ目を検出して文への分割を行うようにしても良い。また、人手によって目印がつけられた箇所で文への分割を行うようにしたりしても良い。
そして、トランスデューサー構築装置240は、チャンクを受理した直後に出力遷移を配置するように、WFSTを構成する。
トランスデューサー構築装置240は、原稿テキスト記憶装置200からを一単語ずつ読み込む度に、同単語を受理する重み0の遷移と新たなノードとを順次作成していく。ここで、重み0の遷移とは3つ組のパラメーターで表すと、(s/ε:0.0)のことである。なお、sは単語である。そして、チャンクを一単位として、そのチャンクの後に出力遷移を追加してから、次のチャンクに含まれる各単語について同様の処理を繰り返す。なお、チャンクの終端が文の終端である場合には、最後のチャンクに関する出力遷移をWFSTの終点ノードに連結する。即ち、最後のチャンクに関する出力遷移の遷移先状態を、その終点ノードとする。
まだ更なる文が残っていたら、再び始点から始めて、上記の処理を繰り返す。
以下、原稿テキスト記憶装置200に含まれる全ての文についての処理を終えるまで、同様に繰り返す。
原稿をもとに読み上げられる音声を音声認識装置220が実際に認識するにあたり、予め、この原稿に含まれる単語列をもとに音声認識の言語モデルを適応化しておくことが望ましい。これにより、原稿通りに読み上げられた場合の音声認識の精度を高くすることができる。
本実施形態では、トレースバックを開始するノードを、出力遷移の直前のノードのみに限定する。つまり、図3に例示したWFSTの状態遷移図において、トレースバックの対象となるノードは黒四角の記号で示したノードのみである。そして、黒丸の記号で示しているノードをトレースバックの対象としない。つまり、トレースバックの対象となるノードは、各チャンクの終端に当たるノードのみである。
なお、既に述べたWFSTの構築方法においては、文を予めチャンクに分割しておき、各チャンクの終端に続いて出力遷移を設けた。しかしながら、文をチャンクに分割しないようにして(言い換えれば、1文を1チャンクとして)、トレースバックを開始するノードを出力遷移の直前のノードのみに限定することも可能である。そしてこのような場合にも、すべてのノードを対象としてその最尤ノードからトレースバックを行うのと比べて、出力の遅延を短縮することができる。
音声認識誤り修正装置100が、出力する単語列を確定するための方法について説明する。
時刻tにおける出力遷移の直前の最尤ノード(言い換えれば、チャンクの終端に当たるノードの中の最尤ノード)であるn(チルダ)(t)は、下の式(1)で表される。
音声認識誤り修正装置100は、この区間lt kごとに下の式(6)で表されるチャンクの列を出力する。つまり、下の式(6)で表されるものが、音声認識誤り修正装置100によって出力される字幕文である。
なお、式(6)や式(7)に示した閾値Tの具体的な値は適宜定めればよいが、例えばT=0.5とする、あるいは0.4≦T≦0.6の範囲内の値とすることが好適である。Tの値が大きすぎると(1に近づくと)高い誤り率を許容してしまうという不都合がある。他方で、Tの値が小さすぎると誤りに対して厳格になりすぎて、本来読み上げられている原稿に対して出力できる字幕の密度が低くなり過ぎるという不都合がある。したがって、前記の0.4≦T≦0.6の範囲が好適であり、特にT=0.5とすることが好適である。
次に、音声認識誤り修正装置の構成について説明する。
図4は、音声認識誤り修正装置100の概略機能構成を示す機能ブロック図である。図示するように、音声認識誤り修正装置100は、WFST記憶部110と、ノードデータ更新部120と、ノードデータ記憶部130と、原稿探索部140と、出力部150とを含んで構成される。
具体的には、ノードデータ更新部120は、音声認識装置220が出力する認識単語列に含まれる単語の入力を受け付ける時刻毎に、WFSTのネットワーク上を遷移可能な状態のスコアをノードデータとして計算および更新するものである。ノードデータ更新部120は、例えば、音声認識装置220から認識単語を1単語受け付ける都度、WFST記憶部110に記憶されたWFSTを参照して逐次的にビタビ探索を行い、ノードデータ記憶部130に記憶されているノードデータを更新する。
図5は、音声認識誤り修正装置100による処理の手順を示すフローチャートである。なお、このフローチャートの処理の前提は、次の4点である。
(前提1)認識結果の単語入力を{ω0,ω1,…,ωk,…,ωj,…}とする。
(前提2)前回のトレースバックにより確定した部分の最後の入力単語をωkとし、そのときの出力遷移をaP(時間軸に沿ったP番目の出力遷移)とする。
(前提3)認識結果の単語ωjが入力された後、所定の無音が続いたことをトリガーに、逐次確定を行う場合を考える。
(前提4)ノードデータ更新部120は、無音になる前に最後に入力した単語ωjを受理して遷移できるノードを全て計算する。
なお、受理単語がωkである状態遷移の代わりに、出力遷移aPにたどり着くまでトレースバックするようにしてもよい。
なお、ここでの処理の方法として、出力遷移aPにたどり着くまで逆向きに(つまり、時間を遡る方向に)進みながら、出力可能な出力遷移aL(時間軸に沿ったL番目(ただしL>P)の出力遷移)を通過する度に原稿を分割してもよい。また、出力遷移aPの側から出力可能な出力遷移aLを通過する度に原稿を分割してもよい。
なお、出力可能な出力遷移aLとは、出力遷移のシンボルが出力候補になるものであるが、後に、誤りスコア判別部146によって棄却される出力遷移(つまり、出力部150からは結局出力されない出力遷移)をも含んでいる。
次にステップS7において、誤りスコア判別部146は、今回確定した出力シンボルのデータを、確定出力記憶部147に書き込む。前述のとおり、確定出力記憶部147は後入れ先出しの構造を有するスタックである。
これらのステップS6およびS7の処理は、ステップS5における分岐制御により、現在のチャンクの誤りスコアが閾値T未満である場合のみに実行される。
ステップS9において、誤りスコア判別部146は、確定時刻記憶部148を更新する。つまり、誤りスコア判別部146は、スタックに積まれた出力シンボルに対応する確定単語の時刻が最も新しいものを今回のトレースバック処理で確定した確定時刻として確定時刻記憶部148に格納する。
以上、説明したように、本実施形態による音声認識誤り修正装置100の処理の特徴は、(1)文をチャンクに分割すること、(2)チャンクの終端に出力遷移を設けること、(3)出力遷移の箇所からトレースバックすること、である。このような特徴的な処理をすることによる作用を、具体的な処理例とともに、次に説明する。
また、同図(B)の例によって示した通り、予めチャンクを分割しておいた場合には、式(9)の作用で、現在着目するチャンクの、前方の確定済のチャンクの誤りスコアを利用することによって、さらに早期に、現在着目するチャンクの出力を確定できる。
もし音声認識装置の認識精度が90%くらいであれば、誤りスコアの基礎となる単語の誤り率は10%程度になる可能性がある。本実施形態で誤りスコア判別部146による判別に用いるための閾値Tとしては、音声認識の認識精度に応じて、単語一致率の信頼度分だけマージンを取って設定することが好ましい。ここで、単語一致率の信頼度は、WFSTのネットワークの2つの出力遷移間の単語数に依存する。
(E1) 今日 の 天気 は 晴れ です
(E2) 今日 の 天気 は 雨 です
(E3) 今日 の 天気 は 曇り です
このような場合、閾値Tも80%くらいに設定してしまうと、所望の動きが実現できない。
音声認識誤り修正装置100が、内部にトランスデューサー構築装置240を備えるようにしてもよい。
WFSTの情報源となるアナウンス用原稿には、それが読まれるときに、読み飛ばされる句や、言い換えられる句、補足される句が含まれている場合がある。これらの一部には、定型で高い頻度で省略/言い換え/補足が行われる。例えば、ニュース番組の原稿では、取材元を表す「警視庁によりますと」などといった句は、読み飛ばされやすいことの多い句である。このような句が読み飛ばされたとしても、ニュース主文の文意に変わりはなく、言い換えればいわゆる5W1Hに関する変化はなく、ニュース番組としての実用上の問題はない。
音声認識の結果では得られない記号等(句点や、読点や、その他の記号等)を、出力状態遷移における出力シンボル内に含めるようにしても良い。例えば、ニュース原稿に予めそれらの記号等を含めておき、そのニュース原稿に基づいてWFSTを構築するときに、出力シンボル内にそれらの記号等が残るようにする。そのようなWFSTを用いて音声認識誤り修正装置100を稼働させることにより、それらの記号等を含んだ読みやすい字幕を出力することができる。
上記の変形例3に加え、出力遷移における出力シンボルとして、原稿のテキストを他国語等に翻訳した結果の単語列を用いても良い。これにより、読み上げられた元の原稿とは異なる言語での字幕を出力することができる。また、複数のWFSTを同時に並行して稼働させることにより、複数ヶ国語の字幕を出力することもできる。また、出力遷移における出力シンボルとして、番組の進行をコントロールするためのキューに相当する記号を含めるようにしても良い。このキューが出力されることをトリガーとして、ハイブリッドキャストなどの番組連動サービスに対して、起動や場面転換等の指示情報を与えることもできる。これにより、より多彩な放送サービスを実現することができる。
本変形例では、WFSTを作成する際に、可能であればWFSTの最小化を行う。WFSTの最小化とは、与えられた状態遷移図において、集約可能な複数の状態(ノード)を集約したり、集約可能な複数の状態遷移(枝)を集約したりすることである。WFSTを集約すること自体は、既存技術によって行うことができる。WFSTの最小化の一例は次の通りである。即ち、WFSTのネットワークにおいて、共通する複数の部分ネットワークを同一の状態遷移の列として構成し直す。このようなWFSTの最小化を用いることにより、共通する単語列についての状態遷移を削減することができる。例えば、同じ接頭辞を有する単語列(文)を同一の遷移で共有できる。これにより、演算量を削減することができる。
WFSTを作成する際に、必要があればWFSTの決定化を行う。具体的には、WFSTのネットワークにおいて、状態遷移の途中で、出力シンボルが決定する場合には、少しでも早く推定結果を出力するために、出力文の位置を前のほうに変更する。WFSTの決定化を行うことにより、例えば、接頭辞がユニークとなる遷移に出力文を移動する。これにより、出力文を旱期に確定できるようになるなどの利点がある。ただし、WFSTを作成する際にWFSTの決定化を行った場合、原稿探索部140による最尤仮説の探索処理でも対応できるように設定変更が必要である。つまり、WFSTの決定化を行わない場合に比べて、誤りスコアを計算するためのパス区間を出力遷移の前後にシフトさせる必要がある。加えて、前後のパス区間の伸縮分を吸収できるように、閾値Tをより厳しい値(誤り率がより小さい値)に設定する必要がある。
本実施形態では、式(9)に示した誤り率(編集距離)に基づいて誤りスコアを計算した。これに限らず、原稿と認識結果の一致率、一致精度、脱落率、挿入率を利用したり、それらを併用したりすることによって、誤りスコアを算出するようにしても良い。
110 WFST記憶部(有限状態トランスデューサー情報記憶部)
120 ノードデータ更新部
130 ノードデータ記憶部
140 原稿探索部
141 最尤ノード検出部
142 トレースバック部
143 原稿分割部
144 出力候補記憶部
145 誤りスコア算出部
146 誤りスコア判別部
147 確定出力記憶部
148 確定時刻記憶部
150 出力部
200 原稿テキスト記憶装置
220 音声認識装置
240 トランスデューサー構築装置
241 単語ネットワーク登録部
242 編集ネットワーク登録部
Claims (3)
- 原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、前記音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく前記有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重みとを含む情報、とを記憶する有限状態トランスデューサー情報記憶部と、
前記有限状態トランスデューサーにおける前記状態の尤度を表すスコアを記憶するノードデータ記憶部と、
前記原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた前記認識単語に応じて、前記有限状態トランスデューサーにおける前記状態ごとの当該時刻でのスコアを算出し、算出された前記スコアを用いて前記ノードデータ記憶部を更新するノードデータ更新部と、
処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部を参照することにより、その時点における最尤ノードを決定するとともに、前記有限状態トランスデューサー情報記憶部と前記ノードデータ記憶部とを参照して、前記最尤ノードまでの状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となった前記パスに関して、当該パスに前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする原稿探索部と、
前記原稿探索部によって求められた前記確定出力を出力する出力部と、
を具備する音声認識誤り修正装置であって、
前記有限状態トランスデューサー情報記憶部は、出力シンボルが空でない状態遷移であるところの出力遷移を前記状態遷移の一部として含んで記憶しており、前記原稿テキストに含まれる文を複数のチャンクに分割し、前記チャンクに含まれる単語を入力シンボルとして受理する状態遷移のパスの後に前記出力遷移を設けた前記有限状態トランスデューサーの、前記状態に関する情報および前記状態遷移に関する情報を記憶する、
ことを特徴とする音声認識誤り修正装置。 - 前記原稿探索部は、前記チャンクごとに前記誤りスコアを算出するとともに、前記チャンクごとの前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に、当該チャンクに対応する前記出力遷移の出力シンボルを、前記確定出力とするものであり、且つ、前記原稿探索部は、前記チャンクごとの前記誤りスコアを算出する際に、当該チャンクと当該チャンクの直前のチャンクの区間に関して前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを、当該チャンクの誤りスコアとして算出する、
ことを特徴とする請求項1に記載の音声認識誤り修正装置。 - 原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、前記音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく前記有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重みとを含む情報、とを記憶する有限状態トランスデューサー情報記憶部と、
前記有限状態トランスデューサーにおける前記状態の尤度を表すスコアを記憶するノードデータ記憶部と、
前記原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた前記認識単語に応じて、前記有限状態トランスデューサーにおける前記状態ごとの当該時刻でのスコアを算出し、算出された前記スコアを用いて前記ノードデータ記憶部を更新するノードデータ更新部と、
処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部を参照することにより、その時点における最尤ノードを決定するとともに、前記有限状態トランスデューサー情報記憶部と前記ノードデータ記憶部とを参照して、前記最尤ノードまでの状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となった前記パスに関して、当該パスに前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする原稿探索部と、
前記原稿探索部によって求められた前記確定出力を出力する出力部と、
を具備する音声認識誤り修正装置であって、
前記有限状態トランスデューサー情報記憶部は、出力シンボルが空でない状態遷移であるところの出力遷移を前記状態遷移の一部として含んで記憶しており、
前記原稿探索部は、前記出力遷移の遷移元状態に対応するノードの中で最尤であるノードをその時点における前記最尤ノードとして決定する、
ことを特徴とする音声認識誤り修正装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014170540A JP6358744B2 (ja) | 2014-08-25 | 2014-08-25 | 音声認識誤り修正装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014170540A JP6358744B2 (ja) | 2014-08-25 | 2014-08-25 | 音声認識誤り修正装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016045414A JP2016045414A (ja) | 2016-04-04 |
JP6358744B2 true JP6358744B2 (ja) | 2018-07-18 |
Family
ID=55636013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014170540A Active JP6358744B2 (ja) | 2014-08-25 | 2014-08-25 | 音声認識誤り修正装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6358744B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151020B (zh) * | 2019-06-28 | 2024-06-18 | 北京声智科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN110610700B (zh) * | 2019-10-16 | 2022-01-14 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN113468871A (zh) * | 2021-08-16 | 2021-10-01 | 北京北大方正电子有限公司 | 文本纠错方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5478478B2 (ja) * | 2010-12-15 | 2014-04-23 | 日本放送協会 | テキスト修正装置およびプログラム |
-
2014
- 2014-08-25 JP JP2014170540A patent/JP6358744B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016045414A (ja) | 2016-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657947B (zh) | 基于人工智能的语音处理方法及其装置 | |
JP4580885B2 (ja) | シーン情報抽出方法、シーン抽出方法および抽出装置 | |
CN109635270B (zh) | 双向概率性的自然语言重写和选择 | |
CN107305541B (zh) | 语音识别文本分段方法及装置 | |
US8275618B2 (en) | Mobile dictation correction user interface | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
US20060149551A1 (en) | Mobile dictation correction user interface | |
WO1998025216A1 (en) | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data | |
CA3158353A1 (en) | Audio-outputting method and system thereof | |
US8892435B2 (en) | Text data processing apparatus, text data processing method, and recording medium storing text data processing program | |
JP5296598B2 (ja) | 音声情報抽出装置 | |
JP6406988B2 (ja) | 音声認識誤り修正装置 | |
CN113225612B (zh) | 字幕生成方法、装置、计算机可读存储介质及电子设备 | |
JP6358744B2 (ja) | 音声認識誤り修正装置 | |
JP4528705B2 (ja) | 文字認識装置および文字認識方法 | |
JP2005167452A (ja) | 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体 | |
Levin et al. | Automated closed captioning for Russian live broadcasting | |
JP6508808B2 (ja) | 音声認識誤り修正装置 | |
US20200364402A1 (en) | Method and apparatus for improved automatic subtitle segmentation using an artificial neural network model | |
JP6232282B2 (ja) | 音声認識誤り修正装置 | |
JP2004302175A (ja) | 音声認識システム、音声認識方法及び音声認識プログラム | |
JP2008241970A (ja) | 話者適応装置、話者適応方法及び話者適応プログラム | |
CN112201225B (zh) | 一种语料获取的方法、装置、可读存储介质和电子设备 | |
JP5243886B2 (ja) | 字幕出力装置、字幕出力方法及びプログラム | |
CN113380225B (zh) | 语言模型的训练方法、语音识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170626 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180522 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6358744 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |