JP2012181358A

JP2012181358A - テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム

Info

Publication number: JP2012181358A
Application number: JP2011044232A
Authority: JP
Inventors: Keiko Inagaki; 敬子稲垣
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-03-01
Filing date: 2011-03-01
Publication date: 2012-09-20

Abstract

【課題】入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できるテキスト表示時間決定装置、テキスト表示システム、テキスト表示時間決定方法、およびテキスト表示時間決定プログラムを提供する。
【解決手段】テキスト表示装置は、認識結果作成手段８１と、表示時間決定手段８２とを備えている。認識結果作成手段８１は、入力される音声を逐次認識してテキスト化した認識結果を作成する。表示時間決定手段８２は、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する。
【選択図】図１２

Description

本発明は、入力される音声をリアルタイムで変換し、変換したテキストの表示時間を決定するテキスト表示時間決定装置、テキスト表示システム、テキスト表示時間決定方法、およびテキスト表示時間決定プログラムに関する。

テレビや映画などに表示する字幕の作成作業を効率化するため、音声認識技術を用いて自動で音声を文字に変換する方法が知られている。この認識結果を人手で修正することで、予め録画した映像の内容を人が確認しながら字幕を作成する方法に比べ、その作業の時間や手間を省いている。

また、音声認識技術を字幕作成に用いることで作業を効率化できることから、配信映像が放映直前に決まるニュースなどの生放送番組でも字幕を付与できるようになってきている。特許文献１には、ニュースなど生放送番組で字幕放送を行う字幕ずれ補正装置が記載されている。特許文献１に記載された補正装置は、リレー方式によって放送直前に字幕をデータ化し、データ化した字幕に対して事前編集する機能を備えている。また、特許文献１に記載された補正装置では、リアルタイム入力に対応すべくブロック管理による切替機能を有している。そのため、例えば、放送直近に搬入される番組や生放送における字幕の確認および修正など、字幕を緊急に差し替える場合に、今まで困難であった事前処理を円滑に行うことができる。

特許文献２には、音声認識をより正確に行う表記文字列変換方法が記載されている。特許文献２に記載された方法では、操作者が入力した音声データから特徴量を抽出して表記文字列が作成されると、この表記文字列を未確定状態で表示手段に表示させる。そして、表示させた表記文字列の注目部分について変換命令が与えられると、この命令に基づいた変換を行う。

特許文献３には、番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置が記載されている。特許文献３に記載された字幕出力装置は、ある認識結果に対するテキストの照合範囲を、その認識結果の長さよりも長くとることで、コマーシャルの直前にあるテキストを字幕として確実に出力できるようになる。

なお、特許文献４および非特許文献１には、発声速度の検出方法が記載されている。

特開２００７−２０２０９４号公報特開２０００−１０９７１号公報特開２００９−１８２８５９号公報特開平９−１４６５７５号公報

大野誠寛、他４名、「同時的な独話音声要約に基づくリアルタイム字幕生成」、情報処理学会研究報告、v.SLP-62-10、2006、pp.51-56

一般に、発言の音声認識と同時進行で作成した認識結果を字幕として表示するシステムでは、１つの認識処理が終わり次第、その認識結果を表示する。そのため、認識結果の表示時間は、その認識結果を作成した認識処理の直後に行われる音声認識の処理時間に依存していた。そのため、認識結果を作成した直後の発話が短く、その発話の認識処理が早く終了してしまう場合、その発話の前に表示していた認識結果（表示文字数）が長くても、すぐに次の結果が表示されてしまうことがある。このような場合、利用者が認識結果を読みきれないことがあった。

また、最近では、セミナー、講演、大学の講義、会議などの場で、発言と同時に音声をテキスト化したいというニーズが増えつつある。しかし、特許文献１に記載された補正装置のように、ニュース番組の字幕を作成する方法では、多くの人手が必要であり、会場に専用の機材を設置したり、編集作業を行う場所を確保したりする必要がある。そのため、コスト面や人手の確保、機材設置の負担等から、これらの用途で利用するのは難しい。

さらに、特許文献１に記載された補正装置は、事前に複数端末によるリレー方式で字幕文字入力を行うことを前提にした装置である。特許文献１に記載された補正装置を用いて緊急の生放送対応を行う場合、字幕を逐次入力する必要がある。そのため、入力される音声を逐次認識してテキスト化した字幕を表示する場面へ特許文献１に記載された補正装置を常に適用することは困難である。

特許文献２に記載された表記文字列変換方法では、音声データをもとに表記文字列が作成された後、操作者が変換命令を与える処理が行われる。このように、操作者が表記文字列についてその都度命令を行う方法では、絶えず作成される音声認識結果を提供し続けることは困難である。

また、特許文献３に記載された字幕出力装置では、そもそもテレビ番組の出演者が予め定めたテキストの内容以外の発話を行わないことを前提としている。そのため、出力される音声をその都度認識し、その認識結果を字幕で表示する方法には適用できない。

そこで、本発明は、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できるテキスト表示時間決定装置、テキスト表示システム、テキスト表示時間決定方法およびテキスト表示時間決定プログラムを提供することを目的とする。

本発明によるテキスト表示時間決定装置は、入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成手段と、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する表示時間決定手段とを備えたことを特徴とする。

本発明によるテキスト表示システムは、音声を入力する音声入力装置と、音声入力装置に入力された音声を認識する音声認識装置と、音声認識装置による音声の認識結果を表示する認識結果表示装置とを備え、音声認識装置が、音声入力装置に入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成手段と、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する表示時間決定手段とを含むことを特徴とする。

本発明によるテキスト表示時間決定方法は、入力される音声を逐次認識してテキスト化した認識結果を作成し、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定することを特徴とする。

本発明によるテキスト表示時間決定プログラムは、コンピュータに、入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成処理、および、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する表示時間決定処理を実行させることを特徴とする。

本発明によれば、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できる。

本発明の第１の実施形態におけるテキスト表示システムの例を示すブロック図である。音声認識後の認識結果の例を示す説明図である。音声認識手段及び音声認識用辞書記憶手段の例を示すブロック図である。辞書に定義される情報の例を示す説明図である。変換データベース記憶手段が記憶する情報の例を示す説明図である。第１の実施形態におけるテキスト表示システムの動作の例を示すフローチャートである。音声認識処理および認識結果変換処理の例を示す説明図である。第１の実施形態の変形例におけるテキスト表示システムの例を示す説明図である。本発明の第２の実施形態におけるテキスト表示システムの例を示すブロック図である。重要語データベース記憶手段が記憶する情報の例を示す説明図である。第２の実施形態におけるテキスト表示システムの動作の例を示すフローチャートである。本発明によるテキスト表示時間決定装置の最小構成の例を示すブロック図である。本発明によるテキスト表示システムの最小構成の例を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
図１は、本発明の第１の実施形態におけるテキスト表示システムの例を示すブロック図である。本実施形態におけるテキスト表示システムは、音声入力手段１と、音声認識手段２と、音声認識用辞書記憶手段３と、認識結果変換手段４と、変換データベース記憶手段５（以下、変換ＤＢ５と記す。）と、表示時間決定手段６と、テキスト表示手段７とを備えている。

音声入力手段１と、音声認識手段２と、認識結果変換手段４と、表示時間決定手段６およびテキスト表示手段７は、プログラム制御により動作する。これらの手段は、１つの端末の中に全ての手段が含まれていてもよい。また、これらの手段は、手段ごとに別の端末に含まれ、インターネットやＬＡＮ（Local Area Network）などを介して相互に接続されていてもよい。

音声入力手段１は、入力された音声を音声認識手段２に通知する。音声入力手段１には、音声を表すファイル（以下、音声ファイルと記す。）が入力されてもよい。

音声認識用辞書記憶手段３は、音声認識手段２が音声認識を行う際に利用する各種情報を記憶する。なお、音声認識用辞書記憶手段３の内容については後述する。

音声認識手段２は、音声入力手段１に入力される音声を逐次認識してテキスト化した認識結果を作成する。また、音声認識手段２は、その音声に含まれる各単語が発声された時間（以下、発話時間長と記す。）を算出する。具体的には、音声認識手段２は、入力された音声ファイルを分析し、音響的特徴量と音声ファイルに含まれる各単語の発話時間長とを算出する。さらに、音声認識手段２は、音声認識用辞書記憶手段３を参照し、格納されている単語または単語列の中から、音声ファイルの音響的特徴に最も近い単語または単語列を抽出する。そして、音声認識手段２は、抽出した単語または単語列を音声認識の結果として出力する。このとき、音声認識手段２は、音声ファイルを基に算出した発話時間長、音声認識用辞書記憶手段３に記憶された表記、読み、および、品詞を単語単位で対応付け、対応づけた内容を音声認識結果として認識結果変換手段４に通知する。

図２は、音声認識後の認識結果の例を示す説明図である。図２に例示する認識結果は、音声データに含まれる文章には単語ＳＰ１〜ＳＰｎが含まれ、単語ごとに発話時間長、表記、読みおよび品詞が対応付けられていることを示す。

ここで、音声認識手段２および音声認識用辞書記憶手段３の内容について、さらに説明する。図３は、音声認識手段２および音声認識用辞書記憶手段３の例を示すブロック図である。音声認識手段２は、音声検出部２１と、音声分析部２２と、音声照合部２３とを含む。また、音声認識用辞書記憶手段３は、音響モデル３１と、言語モデル３２と、辞書３３とを記憶する。

音響モデル３１は、日本語の音素毎の標準的なパタンを含む。

言語モデル３２は、後述する辞書３３に含まれる単語の出現確率をデータ化したモデルである。言語モデル３２は、日本語の単語間、音素間の接続関係を規定した情報や、単語間の接続関係を規定した文法規則などを含む。

辞書３３は、認識対象の単語をデータ化したものであり、該当部分の表記と読み、品詞情報等が単語または単語列単位で定義される。図４は、辞書３３に定義される情報の例を示す説明図である。図４に示す例では、辞書３３には、単語単位の表記、読み、および、品詞が含まれていることを示す。例えば、図４に例示する表記「ＶＰＣ」の読みは「ぶいぴーしー」であり、品詞は「名詞」である。また、表記「ＳａａＳ」の読みは「さーす」であり、品詞が「名詞」である。

音響モデル３１、言語モデル３２および辞書３３については、ユーザ等により、予め音声認識用辞書記憶手段３に記憶される。

音声検出部２１は、入力された音声ファイルから音声と雑音を切り分け、音声を含む区間を検出して、音声分析部２２に送出する。音声検出部２１が音声を検出する方法として、例えば、音声ファイルが示す音声のパワーを使った方法が利用できる。この音声検出方法では、音声ファイルが示す音声のパワーを逐次計算する。そして、そのパワーが予め定めた閾値を一定時間連続して上回った時点を音声の開始時点と判定し、そのパワーが予め定めた閾値を一定時間連続して下回った時点を音声の終了時点と判定する。音声検出部２１は、音声開始時点から音声終了時点までを１つの文章を示す音声として逐次音声分析部２２に送出する。なお、音声検出部２１は、句点で区切られる単語（列）を１つの文章としてもよく、音声の区切りまでの単語（列）を１つの文章と判定してもよい。

音声分析部２２は、音声検出部２１が切り出した音声の音響分析を行い、音声の特徴を表現する音響的特徴を音声照合部２３に送出する。

音声照合部２３は、音声分析部２２から音声の音響的特徴を受け取ると、音響モデル３１に格納された日本語の音素の標準的なパタンと言語モデル３２を用いて音声認識を行い、音声認識結果をテキストとして出力する。

変換ＤＢ５は、予め定められた単語または単語列と、その単語または単語列よりも短く変換した表記（以下、変換後表記と記す。）とを対応づけて記憶する。具体的には、変換ＤＢ５は、音声認識結果に含まれる単語または単語列のうち、表記の変換が必要な単語または単語列を、変換後表記と対応付けて記憶する。なお、単語または単語列よりも短く変換した表記（すなわち、変換後表記）には、何も表示しないものも含まれる。また、変換ＤＢ５は、表記の他、その表記の読み、その表記の属性を記憶していてもよい。例えば、表記が単語の場合、表記の属性には該当する品詞が設定される。また、表記が単語列の場合、表記の属性には、単語列であることが設定される。なお、変換ＤＢ５には、ユーザ等により、予め変換後表記が記憶される。

図５は、変換ＤＢ５が記憶する情報の例を示す説明図である。図５に示す例では、単語または単語列の表記、読み、属性、および、その表記の変換後表記を対応づけて記憶していることを示す。例えば、図５に例示する単語「えーと」は、読みが「えーと」であり、属性が品詞を表す「フィラー」である。また、この単語「えーと」の変換後表記の項目を空欄（すなわち、何も表示しない）とすることで、「その単語を削除する」ことを意味している。他にも、図５に例示する単語列「というわけです」は、読みが「というわけです」である。また、この単語列の属性の項目を「単語列」とすることで、「複数の単語から構成されている単語列であること」を意味している。さらに、この単語列の変換後表記が「です」であることを意味している。

認識結果変換手段４は、認識結果に含まれる単語または単語の表記を、変換ＤＢ５に記憶された単語または単語列に対応する変換後表記に変換する。具体的には、認識結果変換手段４は、変換ＤＢ５を参照し、音声認識手段２が生成した認識結果のうち変換が必要な単語または単語列について、認識結果を変換後の表記に変換または削除を行う。

例えば、音声認識手段２による認識結果が、「えーと、その件につきましてはこれから検討というわけです。」である場合、認識結果変換手段４は、単語「えーと」を削除するとともに、単語列「というわけです」を「です」に変換する。その結果、認識結果は、「その件につきましては、これから検討です。」に変換される。

表示時間決定手段６は、音声認識手段２が認識した音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する。具体的には、表示時間決定手段６は、認識結果変換手段４が変換した認識結果をもとに、表示する文章ごとに表示時間を算出する。ここで、表示する文章に含まれる単語は、１つであってもよく、複数であってもよい。なお、１つの文章は、音声検出部２１が判定した音声開始時点から音声終了時点までを１つの文章とすればよい。表示時間決定手段６は、例えば、以下に例示する式１に基づいて、文章ごとに表示時間を算出する。

Ｔ＝Ｓ × Ｗ・・・式（１）
（ただし、Ｓ＝Ｓ１＋Ｓ２＋・・・＋Ｓｎ）

ここで、ｎは、表示する１つの文章（すなわち、認識結果変換手段４によって変換された後の文章）に含まれる単語の数であり、Ｓｎは、表示する文章に含まれる単語ｎが変換される前の単語の発話時間長である。また、Ｓは、単語ｎの発話時間長の総和であり、Ｗは、Ｓに対する重み値である。以下、この重み値Ｗのことを、表示重み値と記すこともある。

表示重み値Ｗは、以下に例示する式（２）によって算出できる。

Ｗ＝１文あたりの発声速度／平均発声速度・・・式（２）

ここでの発声速度は、変換前の文章の発声速度であり、例えば、特許文献４や非特許文献１に記載されているように、一定時間内の音素数で表すことができる。一定時間内の音素数は、「１文内に含まれる音素数／その１文の発話時間長」で算出できる。また、平均発声速度は、表示重み値Ｗを算出する直前のまでの文を対象として算出した発声速度の平均値を使用すればよい。なお、表示重み値Ｗの算出方法は、上記方法に限定されない。表示時間決定手段６は、表示重み値Ｗの値を、最適な表示時間の実測値より決定してもよい。

このように、表示時間は、個々の単語の発話時間長（実測値）に重み付けをした値から算出されるため、表示時間は、発声速度（すなわち、音素数／文の発話時間）と相関があると言うことができる。

テキスト表示手段７は、変換後の認識結果を受け取り、算出された表示時間分、認識結果を表示する。

音声認識手段２と、認識結果変換手段４と、表示時間決定手段６とは、プログラム（テキスト表示時間決定プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、音声認識装置の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、音声認識手段２、認識結果変換手段４および表示時間決定手段６として動作してもよい。また、音声認識手段２と、認識結果変換手段４と、表示時間決定手段６とは、それぞれが専用のハードウェアで実現されていてもよい。

音声認識用辞書記憶手段３と、変換ＤＢ５は、例えば、磁気ディスク等により実現される。また、音声入力手段１は、例えば、マイクロホンにより実現され、テキスト表示手段７は、例えば、ディスプレイ装置により実現される。

次に、動作について説明する。図６は、第１の実施形態におけるテキスト表示システムの動作の例を示すフローチャートである。

まず、音声入力手段１を介して音声が入力されると（ステップＡ１）、音声認識手段２は、音声入力手段１から音声データを受け取り、音声認識用辞書記憶部３を参照して音声を認識する（ステップＡ２）。この際、音声認識手段２は、音声認識とともに、音声認識結果に含まれる単語または単語列の発話時間長を算出する。

続いて、認識結果変換手段４は、音声認識手段２から単語または単語列を含む認識結果を受け取ると、変換ＤＢ５を参照して、認識結果に該当する単語が含まれるか否かを判定する（ステップＡ３）。変換ＤＢ５に対応する単語が存在する場合、認識結果変換手段４は、その単語を対応する表記（すなわち、変換後表記）に変換し、表示時間決定手段６に通知する（ステップＡ４）。なお、変換ＤＢ５に対応する単語が存在しない場合、認識結果変換手段４は、変換処理を行わず、認識結果をそのまま表示時間決定手段６に通知する。

表示時間決定手段６は、認識結果変換手段４から受け取った認識結果と、その認識結果に含まれる単語の発話時間とをもとに、受け取った認識結果を表示する時間を決定する（ステップＡ５）。テキスト表示手段７は、表示時間決定手段６が決定した時間長分だけ、認識結果を表示する（ステップＡ６）。

図７は、音声認識処理および認識結果変換処理の例を示す説明図である。図７では、図６におけるステップＡ２において音声認識手段２が音声認識した際の表記と、ステップＡ４において認識結果変換手段４が不要な単語を変換（削除）した際の表記を例示している。

例えば、ステップＡ２における音声認識の結果、表記が「えーと、それではただいまから合同会議を開催いたします。」に決定され、ステップＡ３において、認識結果変換手段４が変換ＤＢ５を参照した結果、認識結果に含まれる単語「えーと」に対応する単語（変換対象用語）を見つけたとする。すると、認識結果変換手段４は、ステップＡ４において不要語「えーと」を削除し、「それではただいまから合同会議を開催いたします。」に変換した結果を作成する。

以上のように、本実施形態によれば、認識結果変換手段４が、入力される音声を逐次認識してテキスト化した認識結果を作成する。そして、表示時間決定手段６が、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する。具体的には、認識結果変換手段４が、入力された音声の認識結果に含まれる単語または単語列の表記を変換ＤＢ５に記憶された単語または単語列に対応する変換後表記に変換する。そして、表示時間決定手段６が、変換後表記に変換された認識結果に含まれる文章ごとに表示時間を決定する。そのような構成により、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できる。

すなわち、本実施形態によるテキスト表示システムは、変換した文字を端末に表示する際の表示内容および表示時間を、実際の発話内容および発話時間を考慮しながら決定するため、読みやすく理解しやすい字幕を生成することができる。

また、話している内容を逐次認識し、字幕として表示する場合、ユーザには、今話している音と、認識結果の字幕とが両方提示されることになる。具体的には、認識結果が表示されるタイミングは、必ず発話終了後になる。認識結果の字幕表示が早すぎたり遅すぎたりすると、ユーザに不自然な感じを与え、話している内容の理解を妨げてしまう恐れがある。そのため、できる限りもとの音声の発話時間に基づいて認識結果を表示することが望ましい。本実施形態では、認識結果変換手段４が不要（無意味）な発言は削除し、また、あまり重要でない単語を短くすることで、利用者にとって読みやすく理解しやすい字幕を表示できる。

次に、本実施形態の変形例について説明する。本変形例におけるテキスト表示システムは、複数の装置で実現され、各装置がインターネットを介して接続される。図８は、本変形例におけるテキスト表示システムの例を示す説明図である。図８に例示するテキスト表示システムは、音声送出端末１０と、音声認識サーバ２０と、認識結果表示端末３０とを備えている。

音声送出端末１０は、音声入力手段１を含む。音声認識サーバ２０は、音声認識手段２と、音声認識用辞書記憶手段３と、認識結果変換手段４と、変換ＤＢ５と、表示時間決定手段６とを含む。また、認識結果表示端末３は、テキスト表示手段７を含む。なお、音声入力手段１、音声認識手段２、音声認識用辞書記憶手段３、認識結果変換手段４、変換ＤＢ５、表示時間決定手段６およびテキスト表示手段７の内容については、第１の実施形態と同様である。

このように、インターネットを介した構成であっても、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できる。

実施形態２．
図９は、本発明の第２の実施形態におけるテキスト表示システムの例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。本実施形態におけるテキスト表示システムは、音声入力手段１と、音声認識手段２と、音声認識用辞書記憶手段３と、認識結果変換手段４と、変換ＤＢ５と、表示時間決定手段６と、テキスト表示手段７と、重要語抽出手段８と、重要語データベース記憶手段９（以下、重要語ＤＢ９と記す。）とを備えている。

すなわち、本実施形態におけるテキスト表示システムは、第１の実施形態におけるテキスト表示システムの構成に、重要語抽出手段８と、重要語ＤＢ９とをさらに備えている。

重要語ＤＢ９は、発話時間長に乗じる重み値を単語ごとに記憶する。具体的には、重要語ＤＢ９は、音声認識結果に含まれる単語のうち、重要であると想定される単語の発話時間長に付与する重み値を記憶する。なお、この重み値のことを、以下、発話時間長重み値と記すこともある。

図１０は、重要語ＤＢ９が記憶する情報の例を示す説明図である。図１０に示す例では、単語の表記、読み、品詞、および、その単語に付与する重み値を対応づけて記憶していることを示す。例えば、図１０に例示する表記「収益」は、読みが「しゅうえき」であり、品詞が「名詞」である。また、その単語の発話時間長に付与する重み値が「１．３」であることを示す。

重要語ＤＢ９には、ユーザ等により、予め単語ごとに発話時間長重み値が記憶される。例えば、音声認識用辞書３から、個人名、数詞または製品名を抽出し、抽出した単語を重要語ＤＢ９に記憶させてもよい。他にも、音声認識用のユーザ辞書から抽出した単語を記憶させてもよく、ユーザが事前に作成した重要語リストに含まれる単語を重要語ＤＢ９に記憶させてもよい。

また、単語ごとに設定する発話時間長重み値には、任意の値が設定可能である。例えば、言語モデルを作成したコーパスから単語の出現頻度を求め、より頻度の高い単語に対し、より大きな重みを設定するようにしてもよい。また、ユーザの経験に基づき、任意の値を各単語に設定してもよい。

重要語抽出手段８は、音声認識手段２が生成した音声認識結果に含まれる単語の発話時間長に対して、重要語ＤＢ９に記憶された対応する単語の重み値を乗じる。具体的には、重要語抽出手段８は、重要語ＤＢ９を参照し、音声認識手段２が生成した認識結果に含まれる単語が重要語ＤＢ９に存在する場合、該当する重みを認識結果の発話時間長に乗じる。重要語抽出手段８は、例えば、以下に例示する式３に基づいて、発話時間長に重み値を付与してもよい。

Ｓｍ’＝Ｓｍ × Ｉ・・・式（３）

ここで、ｍは、音声認識手段２が変換した認識結果に含まれる単語の数であり、Ｓｍは、単語ｍの発話時間長である。また、Ｉは、重要語ＤＢ９に記憶された単語ｍの重み（発話時間長重み値）を表し、Ｓｍ’は、重要語抽出手段８が重みを付与した後の単語ｍの発話時間長を示す。例えば、認識結果に“収益”という単語が含まれており、その単語の発話時間長が１．０であったとする。ここで、重み値＝１．３の場合、重要語抽出手段８は、処理後の発話時間長Ｓｍ’を、１．０×１．３＝１．３と算出する。

音声認識手段２と、認識結果変換手段４と、表示時間決定手段６と、重要語抽出手段８とは、プログラム（テキスト表示プログラム）に従って動作するコンピュータのＣＰＵによって実現される。また、音声認識手段２と、認識結果変換手段４と、表示時間決定手段６と、重要語抽出手段８とは、それぞれが専用のハードウェアで実現されていてもよい。また、音声認識用辞書記憶手段３と、変換ＤＢ５と、重要語ＤＢ９とは、例えば、磁気ディスク等により実現される。

次に、動作について説明する。図１１は、第２の実施形態におけるテキスト表示システムの動作の例を示すフローチャートである。なお、音声が入力され、音声認識を行うまでのステップＡ１〜ステップＡ２までの処理は、第１の実施形態と同様である。

次に、重要語抽出手段８は、重要語ＤＢ９を参照し、音声認識手段２が生成した認識結果に含まれる単語の重みを認識結果の発話時間長に付与する（ステップＢ１）。

以降、認識結果を変換して表示時間を決定し、テキストを表示するまでの処理は、第１の実施形態におけるステップＡ３〜ステップＡ７までの処理と同様である。

以上のように、本実施形態によれば、重要語抽出手段８が、入力された音声の認識結果に含まれる各単語の発話時間長に重要語ＤＢ９に記憶された対応する重み値を乗じる。そのため、第１の実施形態の効果に加え、重要な単語が含まれている場合には、通常よりも認識結果を長く表示できるため、字幕をより見やすくすることができる。

次に、本発明の最小構成の例を説明する。図１２は、本発明によるテキスト表示時間決定装置の最小構成の例を示すブロック図である。本発明によるテキスト表示時間決定装置は、入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成手段８１（例えば、音声認識手段２）と、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する表示時間決定手段８２（例えば、表示時間決定手段６）とを備えている。

そのような構成により、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できる。

また、テキスト表示時間決定装置は、予め定められた単語または単語列と、その単語または単語列よりも短く変換した表記である変換後表記とを対応づけて記憶する変換後表記記憶手段（例えば、変換ＤＢ５）と、入力された音声の認識結果に含まれる単語または単語列の表記を、変換後表記記憶手段に記憶された単語または単語列に対応する変換後表記に変換する認識結果変換手段（例えば、認識結果変換手段４）とを備えていてもよい。そして、表示時間決定手段８２は、変換後表記に変換された認識結果に含まれる文章ごとに表示時間を決定してもよい。

また、変換後表記記憶手段は、変換後表記として、単語または単語列を削除することを示す表記（例えば、空欄）を記憶していてもよい。そして、認識結果変換手段は、単語または単語列の変換後表記が削除することを示す表記である場合、認識結果からその単語または単語列を削除してもよい。このようにすることで、不要（無意味）な発言を削除できるため、利用者にとってより読みやすく理解しやすい字幕を表示できる。

また、テキスト表示時間決定装置は、入力された音声の認識結果に含まれる単語が発声された時間である発話時間長を単語ごとに算出する発話時間長算出手段（例えば、音声認識手段２）を備えていてもよい。そして、表示時間決定手段８２は、変換後表記に変換された認識結果に含まれる文章の表示時間を、その文章に含まれる単語が変換後表記に変換される前の単語の発話時間長に基づいて決定してもよい。

また、表示時間決定手段８２は、発声速度の平均値に対する表示対象である文章の発声速度の割合（例えば、表示重み値Ｗ）を、単語の発話時間長の総和に乗じた値を表示時間と決定（例えば、式１および式２に基づいて決定）してもよい。

また、テキスト表示時間決定装置は、発話時間長に乗じる重み値である発話時間長重み値（例えば、発話時間重み値Ｉ）を予め定められた単語ごとに記憶する重み値記憶手段（例えば、重要語ＤＢ９）と、入力された音声の認識結果に含まれる各単語の発話時間長に、対応する発話時間長重み値を乗じる重み値付与手段（例えば、重要語抽出手段８）とを備えていてもよい。このような構成により、重要な単語が含まれている場合には、通常よりも認識結果を長く表示できるため、字幕をより見やすくすることができる。

図１３は、本発明によるテキスト表示システムの最小構成の例を示すブロック図である。本発明によるテキスト表示システムは、音声を入力する音声入力装置７０（例えば、音声送出端末１０）と、音声入力装置７０に入力された音声を認識する音声認識装置８０（例えば、音声認識サーバ２０）と、音声認識装置８０による音声の認識結果を表示する認識結果表示装置９０（例えば、認識結果表示端末３０）とを備えている。

音声認識装置８０は、認識結果作成手段８１（例えば、音声認識手段２）と、表示時間決定手段８２（例えば、表示時間決定手段６）とを備えている。認識結果作成手段８１および表示時間決定手段８２の内容は、図１２に例示する内容と同様である。このような構成であっても、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できる。

本発明は、入力される音声をリアルタイムで変換し、変換したテキストを表示するテキスト表示システムに好適に適用される。

１音声入力手段
２音声認識手段
３音声認識用辞書記憶手段
４認識結果変換手段
５変換データベース記憶手段
６表示時間決定手段
７テキスト表示手段
８重要語抽出手段
９重要語データベース記憶手段
１０音声送出端末
２０音声認識サーバ
２１音声検出部
２２音声分析部
２３音声照合部
３０認識結果表示端末
３１音響モデル
３２言語モデル
３３辞書
１００インターネット

Claims

入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成手段と、
前記音声の発話時間に基づいて、前記認識結果に含まれる文章ごとに表示時間を決定する表示時間決定手段とを備えた
ことを特徴とするテキスト表示時間決定装置。
予め定められた単語または単語列と、当該単語または単語列の長さを短く変換した表記である変換後表記とを対応づけて記憶する変換後表記記憶手段と、
入力された音声の認識結果に含まれる単語または単語列の表記を、前記変換後表記記憶手段に記憶された単語または単語列に対応する変換後表記に変換する認識結果変換手段とを備え、
表示時間決定手段は、前記変換後表記に変換された認識結果に含まれる文章ごとに表示時間を決定する
請求項１記載のテキスト表示時間決定装置。
変換後表記記憶手段は、変換後表記として、単語または単語列を削除することを示す表記を記憶し、
認識結果変換手段は、単語または単語列の変換後表記が削除することを示す表記である場合、認識結果から前記単語または単語列を削除する
請求項２記載のテキスト表示時間決定装置。
入力された音声の認識結果に含まれる単語が発声された時間である発話時間長を単語ごとに算出する発話時間長算出手段を備え、
表示時間決定手段は、変換後表記に変換された認識結果に含まれる文章の表示時間を、当該文章に含まれる単語が変換後表記に変換される前の単語の発話時間長に基づいて決定する
請求項２または請求項３記載のテキスト表示時間決定装置。
表示時間決定手段は、発声速度の平均値に対する表示対象である文章の発声速度の割合を、単語の発話時間長の総和に乗じた値を表示時間と決定する
請求項４に記載のテキスト表示時間決定装置。
発話時間長に乗じる重み値である発話時間長重み値を予め定められた単語ごとに記憶する重み値記憶手段と、
入力された音声の認識結果に含まれる各単語の発話時間長に、対応する前記発話時間長重み値を乗じる重み値付与手段とを備えた
請求項４または請求項５記載のテキスト表示時間決定装置。
音声を入力する音声入力装置と、
前記音声入力装置に入力された音声を認識する音声認識装置と、
前記音声認識装置による音声の認識結果を表示する認識結果表示装置とを備え、
前記音声認識装置は、
前記音声入力装置に入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成手段と、
前記音声の発話時間に基づいて、前記認識結果に含まれる文章ごとに表示時間を決定する表示時間決定手段とを含む
ことを特徴とするテキスト表示システム。
入力される音声を逐次認識してテキスト化した認識結果を作成し、
前記音声の発話時間に基づいて、前記認識結果に含まれる文章ごとに表示時間を決定する
ことを特徴とするテキスト表示時間決定方法。
入力された音声の認識結果に含まれる単語または単語列の表記を、予め定められた単語または単語列と当該単語または単語列の長さを短く変換した表記である変換後表記とを対応づけて記憶する変換後表記記憶手段に記憶された対応する変換後表記に変換し、
変換後表記に変換された認識結果に含まれる文章ごとに表示時間を決定する
請求項８記載のテキスト表示時間決定方法。
コンピュータに、
入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成処理、および、
前記音声の発話時間に基づいて、前記認識結果に含まれる文章ごとに表示時間を決定する表示時間決定処理
を実行させるためのテキスト表示時間決定プログラム。
コンピュータに、
入力された音声の認識結果に含まれる単語または単語列の表記を、予め定められた単語または単語列と当該単語または単語列の長さを短く変換した表記である変換後表記とを対応づけて記憶する変換後表記記憶手段に記憶された対応する変換後表記に変換する認識結果変換処理を実行させ、
表示時間決定処理で、変換後表記に変換された認識結果に含まれる文章ごとに表示時間を決定させる
請求項１０記載のテキスト表示時間決定プログラム。