JP2012181358A - テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム - Google Patents

テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム Download PDF

Info

Publication number
JP2012181358A
JP2012181358A JP2011044232A JP2011044232A JP2012181358A JP 2012181358 A JP2012181358 A JP 2012181358A JP 2011044232 A JP2011044232 A JP 2011044232A JP 2011044232 A JP2011044232 A JP 2011044232A JP 2012181358 A JP2012181358 A JP 2012181358A
Authority
JP
Japan
Prior art keywords
recognition result
word
display time
notation
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011044232A
Other languages
English (en)
Inventor
Keiko Inagaki
敬子 稲垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011044232A priority Critical patent/JP2012181358A/ja
Publication of JP2012181358A publication Critical patent/JP2012181358A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できるテキスト表示時間決定装置、テキスト表示システム、テキスト表示時間決定方法、およびテキスト表示時間決定プログラムを提供する。
【解決手段】テキスト表示装置は、認識結果作成手段81と、表示時間決定手段82とを備えている。認識結果作成手段81は、入力される音声を逐次認識してテキスト化した認識結果を作成する。表示時間決定手段82は、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する。
【選択図】図12

Description

本発明は、入力される音声をリアルタイムで変換し、変換したテキストの表示時間を決定するテキスト表示時間決定装置、テキスト表示システム、テキスト表示時間決定方法、およびテキスト表示時間決定プログラムに関する。
テレビや映画などに表示する字幕の作成作業を効率化するため、音声認識技術を用いて自動で音声を文字に変換する方法が知られている。この認識結果を人手で修正することで、予め録画した映像の内容を人が確認しながら字幕を作成する方法に比べ、その作業の時間や手間を省いている。
また、音声認識技術を字幕作成に用いることで作業を効率化できることから、配信映像が放映直前に決まるニュースなどの生放送番組でも字幕を付与できるようになってきている。特許文献1には、ニュースなど生放送番組で字幕放送を行う字幕ずれ補正装置が記載されている。特許文献1に記載された補正装置は、リレー方式によって放送直前に字幕をデータ化し、データ化した字幕に対して事前編集する機能を備えている。また、特許文献1に記載された補正装置では、リアルタイム入力に対応すべくブロック管理による切替機能を有している。そのため、例えば、放送直近に搬入される番組や生放送における字幕の確認および修正など、字幕を緊急に差し替える場合に、今まで困難であった事前処理を円滑に行うことができる。
特許文献2には、音声認識をより正確に行う表記文字列変換方法が記載されている。特許文献2に記載された方法では、操作者が入力した音声データから特徴量を抽出して表記文字列が作成されると、この表記文字列を未確定状態で表示手段に表示させる。そして、表示させた表記文字列の注目部分について変換命令が与えられると、この命令に基づいた変換を行う。
特許文献3には、番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置が記載されている。特許文献3に記載された字幕出力装置は、ある認識結果に対するテキストの照合範囲を、その認識結果の長さよりも長くとることで、コマーシャルの直前にあるテキストを字幕として確実に出力できるようになる。
なお、特許文献4および非特許文献1には、発声速度の検出方法が記載されている。
特開2007−202094号公報 特開2000−10971号公報 特開2009−182859号公報 特開平9−146575号公報
大野誠寛、他4名、「同時的な独話音声要約に基づくリアルタイム字幕生成」、情報処理学会研究報告、v.SLP-62-10、2006、pp.51-56
一般に、発言の音声認識と同時進行で作成した認識結果を字幕として表示するシステムでは、1つの認識処理が終わり次第、その認識結果を表示する。そのため、認識結果の表示時間は、その認識結果を作成した認識処理の直後に行われる音声認識の処理時間に依存していた。そのため、認識結果を作成した直後の発話が短く、その発話の認識処理が早く終了してしまう場合、その発話の前に表示していた認識結果(表示文字数)が長くても、すぐに次の結果が表示されてしまうことがある。このような場合、利用者が認識結果を読みきれないことがあった。
また、最近では、セミナー、講演、大学の講義、会議などの場で、発言と同時に音声をテキスト化したいというニーズが増えつつある。しかし、特許文献1に記載された補正装置のように、ニュース番組の字幕を作成する方法では、多くの人手が必要であり、会場に専用の機材を設置したり、編集作業を行う場所を確保したりする必要がある。そのため、コスト面や人手の確保、機材設置の負担等から、これらの用途で利用するのは難しい。
さらに、特許文献1に記載された補正装置は、事前に複数端末によるリレー方式で字幕文字入力を行うことを前提にした装置である。特許文献1に記載された補正装置を用いて緊急の生放送対応を行う場合、字幕を逐次入力する必要がある。そのため、入力される音声を逐次認識してテキスト化した字幕を表示する場面へ特許文献1に記載された補正装置を常に適用することは困難である。
特許文献2に記載された表記文字列変換方法では、音声データをもとに表記文字列が作成された後、操作者が変換命令を与える処理が行われる。このように、操作者が表記文字列についてその都度命令を行う方法では、絶えず作成される音声認識結果を提供し続けることは困難である。
また、特許文献3に記載された字幕出力装置では、そもそもテレビ番組の出演者が予め定めたテキストの内容以外の発話を行わないことを前提としている。そのため、出力される音声をその都度認識し、その認識結果を字幕で表示する方法には適用できない。
そこで、本発明は、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できるテキスト表示時間決定装置、テキスト表示システム、テキスト表示時間決定方法およびテキスト表示時間決定プログラムを提供することを目的とする。
本発明によるテキスト表示時間決定装置は、入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成手段と、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する表示時間決定手段とを備えたことを特徴とする。
本発明によるテキスト表示システムは、音声を入力する音声入力装置と、音声入力装置に入力された音声を認識する音声認識装置と、音声認識装置による音声の認識結果を表示する認識結果表示装置とを備え、音声認識装置が、音声入力装置に入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成手段と、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する表示時間決定手段とを含むことを特徴とする。
本発明によるテキスト表示時間決定方法は、入力される音声を逐次認識してテキスト化した認識結果を作成し、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定することを特徴とする。
本発明によるテキスト表示時間決定プログラムは、コンピュータに、入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成処理、および、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する表示時間決定処理を実行させることを特徴とする。
本発明によれば、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できる。
本発明の第1の実施形態におけるテキスト表示システムの例を示すブロック図である。 音声認識後の認識結果の例を示す説明図である。 音声認識手段及び音声認識用辞書記憶手段の例を示すブロック図である。 辞書に定義される情報の例を示す説明図である。 変換データベース記憶手段が記憶する情報の例を示す説明図である。 第1の実施形態におけるテキスト表示システムの動作の例を示すフローチャートである。 音声認識処理および認識結果変換処理の例を示す説明図である。 第1の実施形態の変形例におけるテキスト表示システムの例を示す説明図である。 本発明の第2の実施形態におけるテキスト表示システムの例を示すブロック図である。 重要語データベース記憶手段が記憶する情報の例を示す説明図である。 第2の実施形態におけるテキスト表示システムの動作の例を示すフローチャートである。 本発明によるテキスト表示時間決定装置の最小構成の例を示すブロック図である。 本発明によるテキスト表示システムの最小構成の例を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明の第1の実施形態におけるテキスト表示システムの例を示すブロック図である。本実施形態におけるテキスト表示システムは、音声入力手段1と、音声認識手段2と、音声認識用辞書記憶手段3と、認識結果変換手段4と、変換データベース記憶手段5(以下、変換DB5と記す。)と、表示時間決定手段6と、テキスト表示手段7とを備えている。
音声入力手段1と、音声認識手段2と、認識結果変換手段4と、表示時間決定手段6およびテキスト表示手段7は、プログラム制御により動作する。これらの手段は、1つの端末の中に全ての手段が含まれていてもよい。また、これらの手段は、手段ごとに別の端末に含まれ、インターネットやLAN(Local Area Network)などを介して相互に接続されていてもよい。
音声入力手段1は、入力された音声を音声認識手段2に通知する。音声入力手段1には、音声を表すファイル(以下、音声ファイルと記す。)が入力されてもよい。
音声認識用辞書記憶手段3は、音声認識手段2が音声認識を行う際に利用する各種情報を記憶する。なお、音声認識用辞書記憶手段3の内容については後述する。
音声認識手段2は、音声入力手段1に入力される音声を逐次認識してテキスト化した認識結果を作成する。また、音声認識手段2は、その音声に含まれる各単語が発声された時間(以下、発話時間長と記す。)を算出する。具体的には、音声認識手段2は、入力された音声ファイルを分析し、音響的特徴量と音声ファイルに含まれる各単語の発話時間長とを算出する。さらに、音声認識手段2は、音声認識用辞書記憶手段3を参照し、格納されている単語または単語列の中から、音声ファイルの音響的特徴に最も近い単語または単語列を抽出する。そして、音声認識手段2は、抽出した単語または単語列を音声認識の結果として出力する。このとき、音声認識手段2は、音声ファイルを基に算出した発話時間長、音声認識用辞書記憶手段3に記憶された表記、読み、および、品詞を単語単位で対応付け、対応づけた内容を音声認識結果として認識結果変換手段4に通知する。
図2は、音声認識後の認識結果の例を示す説明図である。図2に例示する認識結果は、音声データに含まれる文章には単語SP1〜SPnが含まれ、単語ごとに発話時間長、表記、読みおよび品詞が対応付けられていることを示す。
ここで、音声認識手段2および音声認識用辞書記憶手段3の内容について、さらに説明する。図3は、音声認識手段2および音声認識用辞書記憶手段3の例を示すブロック図である。音声認識手段2は、音声検出部21と、音声分析部22と、音声照合部23とを含む。また、音声認識用辞書記憶手段3は、音響モデル31と、言語モデル32と、辞書33とを記憶する。
音響モデル31は、日本語の音素毎の標準的なパタンを含む。
言語モデル32は、後述する辞書33に含まれる単語の出現確率をデータ化したモデルである。言語モデル32は、日本語の単語間、音素間の接続関係を規定した情報や、単語間の接続関係を規定した文法規則などを含む。
辞書33は、認識対象の単語をデータ化したものであり、該当部分の表記と読み、品詞情報等が単語または単語列単位で定義される。図4は、辞書33に定義される情報の例を示す説明図である。図4に示す例では、辞書33には、単語単位の表記、読み、および、品詞が含まれていることを示す。例えば、図4に例示する表記「VPC」の読みは「ぶいぴーしー」であり、品詞は「名詞」である。また、表記「SaaS」の読みは「さーす」であり、品詞が「名詞」である。
音響モデル31、言語モデル32および辞書33については、ユーザ等により、予め音声認識用辞書記憶手段3に記憶される。
音声検出部21は、入力された音声ファイルから音声と雑音を切り分け、音声を含む区間を検出して、音声分析部22に送出する。音声検出部21が音声を検出する方法として、例えば、音声ファイルが示す音声のパワーを使った方法が利用できる。この音声検出方法では、音声ファイルが示す音声のパワーを逐次計算する。そして、そのパワーが予め定めた閾値を一定時間連続して上回った時点を音声の開始時点と判定し、そのパワーが予め定めた閾値を一定時間連続して下回った時点を音声の終了時点と判定する。音声検出部21は、音声開始時点から音声終了時点までを1つの文章を示す音声として逐次音声分析部22に送出する。なお、音声検出部21は、句点で区切られる単語(列)を1つの文章としてもよく、音声の区切りまでの単語(列)を1つの文章と判定してもよい。
音声分析部22は、音声検出部21が切り出した音声の音響分析を行い、音声の特徴を表現する音響的特徴を音声照合部23に送出する。
音声照合部23は、音声分析部22から音声の音響的特徴を受け取ると、音響モデル31に格納された日本語の音素の標準的なパタンと言語モデル32を用いて音声認識を行い、音声認識結果をテキストとして出力する。
変換DB5は、予め定められた単語または単語列と、その単語または単語列よりも短く変換した表記(以下、変換後表記と記す。)とを対応づけて記憶する。具体的には、変換DB5は、音声認識結果に含まれる単語または単語列のうち、表記の変換が必要な単語または単語列を、変換後表記と対応付けて記憶する。なお、単語または単語列よりも短く変換した表記(すなわち、変換後表記)には、何も表示しないものも含まれる。また、変換DB5は、表記の他、その表記の読み、その表記の属性を記憶していてもよい。例えば、表記が単語の場合、表記の属性には該当する品詞が設定される。また、表記が単語列の場合、表記の属性には、単語列であることが設定される。なお、変換DB5には、ユーザ等により、予め変換後表記が記憶される。
図5は、変換DB5が記憶する情報の例を示す説明図である。図5に示す例では、単語または単語列の表記、読み、属性、および、その表記の変換後表記を対応づけて記憶していることを示す。例えば、図5に例示する単語「えーと」は、読みが「えーと」であり、属性が品詞を表す「フィラー」である。また、この単語「えーと」の変換後表記の項目を空欄(すなわち、何も表示しない)とすることで、「その単語を削除する」ことを意味している。他にも、図5に例示する単語列「というわけです」は、読みが「というわけです」である。また、この単語列の属性の項目を「単語列」とすることで、「複数の単語から構成されている単語列であること」を意味している。さらに、この単語列の変換後表記が「です」であることを意味している。
認識結果変換手段4は、認識結果に含まれる単語または単語の表記を、変換DB5に記憶された単語または単語列に対応する変換後表記に変換する。具体的には、認識結果変換手段4は、変換DB5を参照し、音声認識手段2が生成した認識結果のうち変換が必要な単語または単語列について、認識結果を変換後の表記に変換または削除を行う。
例えば、音声認識手段2による認識結果が、「えーと、その件につきましてはこれから検討というわけです。」である場合、認識結果変換手段4は、単語「えーと」を削除するとともに、単語列「というわけです」を「です」に変換する。その結果、認識結果は、「その件につきましては、これから検討です。」に変換される。
表示時間決定手段6は、音声認識手段2が認識した音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する。具体的には、表示時間決定手段6は、認識結果変換手段4が変換した認識結果をもとに、表示する文章ごとに表示時間を算出する。ここで、表示する文章に含まれる単語は、1つであってもよく、複数であってもよい。なお、1つの文章は、音声検出部21が判定した音声開始時点から音声終了時点までを1つの文章とすればよい。表示時間決定手段6は、例えば、以下に例示する式1に基づいて、文章ごとに表示時間を算出する。
T = S × W ・・・式(1)
(ただし、S=S1+S2+・・・+Sn)
ここで、nは、表示する1つの文章(すなわち、認識結果変換手段4によって変換された後の文章)に含まれる単語の数であり、Snは、表示する文章に含まれる単語nが変換される前の単語の発話時間長である。また、Sは、単語nの発話時間長の総和であり、Wは、Sに対する重み値である。以下、この重み値Wのことを、表示重み値と記すこともある。
表示重み値Wは、以下に例示する式(2)によって算出できる。
W = 1文あたりの発声速度/平均発声速度 ・・・式(2)
ここでの発声速度は、変換前の文章の発声速度であり、例えば、特許文献4や非特許文献1に記載されているように、一定時間内の音素数で表すことができる。一定時間内の音素数は、「1文内に含まれる音素数/その1文の発話時間長」で算出できる。また、平均発声速度は、表示重み値Wを算出する直前のまでの文を対象として算出した発声速度の平均値を使用すればよい。なお、表示重み値Wの算出方法は、上記方法に限定されない。表示時間決定手段6は、表示重み値Wの値を、最適な表示時間の実測値より決定してもよい。
このように、表示時間は、個々の単語の発話時間長(実測値)に重み付けをした値から算出されるため、表示時間は、発声速度(すなわち、音素数/文の発話時間)と相関があると言うことができる。
テキスト表示手段7は、変換後の認識結果を受け取り、算出された表示時間分、認識結果を表示する。
音声認識手段2と、認識結果変換手段4と、表示時間決定手段6とは、プログラム(テキスト表示時間決定プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、音声認識装置の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、音声認識手段2、認識結果変換手段4および表示時間決定手段6として動作してもよい。また、音声認識手段2と、認識結果変換手段4と、表示時間決定手段6とは、それぞれが専用のハードウェアで実現されていてもよい。
音声認識用辞書記憶手段3と、変換DB5は、例えば、磁気ディスク等により実現される。また、音声入力手段1は、例えば、マイクロホンにより実現され、テキスト表示手段7は、例えば、ディスプレイ装置により実現される。
次に、動作について説明する。図6は、第1の実施形態におけるテキスト表示システムの動作の例を示すフローチャートである。
まず、音声入力手段1を介して音声が入力されると(ステップA1)、音声認識手段2は、音声入力手段1から音声データを受け取り、音声認識用辞書記憶部3を参照して音声を認識する(ステップA2)。この際、音声認識手段2は、音声認識とともに、音声認識結果に含まれる単語または単語列の発話時間長を算出する。
続いて、認識結果変換手段4は、音声認識手段2から単語または単語列を含む認識結果を受け取ると、変換DB5を参照して、認識結果に該当する単語が含まれるか否かを判定する(ステップA3)。変換DB5に対応する単語が存在する場合、認識結果変換手段4は、その単語を対応する表記(すなわち、変換後表記)に変換し、表示時間決定手段6に通知する(ステップA4)。なお、変換DB5に対応する単語が存在しない場合、認識結果変換手段4は、変換処理を行わず、認識結果をそのまま表示時間決定手段6に通知する。
表示時間決定手段6は、認識結果変換手段4から受け取った認識結果と、その認識結果に含まれる単語の発話時間とをもとに、受け取った認識結果を表示する時間を決定する(ステップA5)。テキスト表示手段7は、表示時間決定手段6が決定した時間長分だけ、認識結果を表示する(ステップA6)。
図7は、音声認識処理および認識結果変換処理の例を示す説明図である。図7では、図6におけるステップA2において音声認識手段2が音声認識した際の表記と、ステップA4において認識結果変換手段4が不要な単語を変換(削除)した際の表記を例示している。
例えば、ステップA2における音声認識の結果、表記が「えーと、それではただいまから合同会議を開催いたします。」に決定され、ステップA3において、認識結果変換手段4が変換DB5を参照した結果、認識結果に含まれる単語「えーと」に対応する単語(変換対象用語)を見つけたとする。すると、認識結果変換手段4は、ステップA4において不要語「えーと」を削除し、「それではただいまから合同会議を開催いたします。」に変換した結果を作成する。
以上のように、本実施形態によれば、認識結果変換手段4が、入力される音声を逐次認識してテキスト化した認識結果を作成する。そして、表示時間決定手段6が、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する。具体的には、認識結果変換手段4が、入力された音声の認識結果に含まれる単語または単語列の表記を変換DB5に記憶された単語または単語列に対応する変換後表記に変換する。そして、表示時間決定手段6が、変換後表記に変換された認識結果に含まれる文章ごとに表示時間を決定する。そのような構成により、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できる。
すなわち、本実施形態によるテキスト表示システムは、変換した文字を端末に表示する際の表示内容および表示時間を、実際の発話内容および発話時間を考慮しながら決定するため、読みやすく理解しやすい字幕を生成することができる。
また、話している内容を逐次認識し、字幕として表示する場合、ユーザには、今話している音と、認識結果の字幕とが両方提示されることになる。具体的には、認識結果が表示されるタイミングは、必ず発話終了後になる。認識結果の字幕表示が早すぎたり遅すぎたりすると、ユーザに不自然な感じを与え、話している内容の理解を妨げてしまう恐れがある。そのため、できる限りもとの音声の発話時間に基づいて認識結果を表示することが望ましい。本実施形態では、認識結果変換手段4が不要(無意味)な発言は削除し、また、あまり重要でない単語を短くすることで、利用者にとって読みやすく理解しやすい字幕を表示できる。
次に、本実施形態の変形例について説明する。本変形例におけるテキスト表示システムは、複数の装置で実現され、各装置がインターネットを介して接続される。図8は、本変形例におけるテキスト表示システムの例を示す説明図である。図8に例示するテキスト表示システムは、音声送出端末10と、音声認識サーバ20と、認識結果表示端末30とを備えている。
音声送出端末10は、音声入力手段1を含む。音声認識サーバ20は、音声認識手段2と、音声認識用辞書記憶手段3と、認識結果変換手段4と、変換DB5と、表示時間決定手段6とを含む。また、認識結果表示端末3は、テキスト表示手段7を含む。なお、音声入力手段1、音声認識手段2、音声認識用辞書記憶手段3、認識結果変換手段4、変換DB5、表示時間決定手段6およびテキスト表示手段7の内容については、第1の実施形態と同様である。
このように、インターネットを介した構成であっても、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できる。
実施形態2.
図9は、本発明の第2の実施形態におけるテキスト表示システムの例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態におけるテキスト表示システムは、音声入力手段1と、音声認識手段2と、音声認識用辞書記憶手段3と、認識結果変換手段4と、変換DB5と、表示時間決定手段6と、テキスト表示手段7と、重要語抽出手段8と、重要語データベース記憶手段9(以下、重要語DB9と記す。)とを備えている。
すなわち、本実施形態におけるテキスト表示システムは、第1の実施形態におけるテキスト表示システムの構成に、重要語抽出手段8と、重要語DB9とをさらに備えている。
重要語DB9は、発話時間長に乗じる重み値を単語ごとに記憶する。具体的には、重要語DB9は、音声認識結果に含まれる単語のうち、重要であると想定される単語の発話時間長に付与する重み値を記憶する。なお、この重み値のことを、以下、発話時間長重み値と記すこともある。
図10は、重要語DB9が記憶する情報の例を示す説明図である。図10に示す例では、単語の表記、読み、品詞、および、その単語に付与する重み値を対応づけて記憶していることを示す。例えば、図10に例示する表記「収益」は、読みが「しゅうえき」であり、品詞が「名詞」である。また、その単語の発話時間長に付与する重み値が「1.3」であることを示す。
重要語DB9には、ユーザ等により、予め単語ごとに発話時間長重み値が記憶される。例えば、音声認識用辞書3から、個人名、数詞または製品名を抽出し、抽出した単語を重要語DB9に記憶させてもよい。他にも、音声認識用のユーザ辞書から抽出した単語を記憶させてもよく、ユーザが事前に作成した重要語リストに含まれる単語を重要語DB9に記憶させてもよい。
また、単語ごとに設定する発話時間長重み値には、任意の値が設定可能である。例えば、言語モデルを作成したコーパスから単語の出現頻度を求め、より頻度の高い単語に対し、より大きな重みを設定するようにしてもよい。また、ユーザの経験に基づき、任意の値を各単語に設定してもよい。
重要語抽出手段8は、音声認識手段2が生成した音声認識結果に含まれる単語の発話時間長に対して、重要語DB9に記憶された対応する単語の重み値を乗じる。具体的には、重要語抽出手段8は、重要語DB9を参照し、音声認識手段2が生成した認識結果に含まれる単語が重要語DB9に存在する場合、該当する重みを認識結果の発話時間長に乗じる。重要語抽出手段8は、例えば、以下に例示する式3に基づいて、発話時間長に重み値を付与してもよい。
Sm’= Sm × I ・・・式(3)
ここで、mは、音声認識手段2が変換した認識結果に含まれる単語の数であり、Smは、単語mの発話時間長である。また、Iは、重要語DB9に記憶された単語mの重み(発話時間長重み値)を表し、Sm’は、重要語抽出手段8が重みを付与した後の単語mの発話時間長を示す。例えば、認識結果に“収益”という単語が含まれており、その単語の発話時間長が1.0であったとする。ここで、重み値=1.3の場合、重要語抽出手段8は、処理後の発話時間長Sm’を、1.0×1.3=1.3と算出する。
音声認識手段2と、認識結果変換手段4と、表示時間決定手段6と、重要語抽出手段8とは、プログラム(テキスト表示プログラム)に従って動作するコンピュータのCPUによって実現される。また、音声認識手段2と、認識結果変換手段4と、表示時間決定手段6と、重要語抽出手段8とは、それぞれが専用のハードウェアで実現されていてもよい。また、音声認識用辞書記憶手段3と、変換DB5と、重要語DB9とは、例えば、磁気ディスク等により実現される。
次に、動作について説明する。図11は、第2の実施形態におけるテキスト表示システムの動作の例を示すフローチャートである。なお、音声が入力され、音声認識を行うまでのステップA1〜ステップA2までの処理は、第1の実施形態と同様である。
次に、重要語抽出手段8は、重要語DB9を参照し、音声認識手段2が生成した認識結果に含まれる単語の重みを認識結果の発話時間長に付与する(ステップB1)。
以降、認識結果を変換して表示時間を決定し、テキストを表示するまでの処理は、第1の実施形態におけるステップA3〜ステップA7までの処理と同様である。
以上のように、本実施形態によれば、重要語抽出手段8が、入力された音声の認識結果に含まれる各単語の発話時間長に重要語DB9に記憶された対応する重み値を乗じる。そのため、第1の実施形態の効果に加え、重要な単語が含まれている場合には、通常よりも認識結果を長く表示できるため、字幕をより見やすくすることができる。
次に、本発明の最小構成の例を説明する。図12は、本発明によるテキスト表示時間決定装置の最小構成の例を示すブロック図である。本発明によるテキスト表示時間決定装置は、入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成手段81(例えば、音声認識手段2)と、音声の発話時間に基づいて、認識結果に含まれる文章ごとに表示時間を決定する表示時間決定手段82(例えば、表示時間決定手段6)とを備えている。
そのような構成により、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できる。
また、テキスト表示時間決定装置は、予め定められた単語または単語列と、その単語または単語列よりも短く変換した表記である変換後表記とを対応づけて記憶する変換後表記記憶手段(例えば、変換DB5)と、入力された音声の認識結果に含まれる単語または単語列の表記を、変換後表記記憶手段に記憶された単語または単語列に対応する変換後表記に変換する認識結果変換手段(例えば、認識結果変換手段4)とを備えていてもよい。そして、表示時間決定手段82は、変換後表記に変換された認識結果に含まれる文章ごとに表示時間を決定してもよい。
また、変換後表記記憶手段は、変換後表記として、単語または単語列を削除することを示す表記(例えば、空欄)を記憶していてもよい。そして、認識結果変換手段は、単語または単語列の変換後表記が削除することを示す表記である場合、認識結果からその単語または単語列を削除してもよい。このようにすることで、不要(無意味)な発言を削除できるため、利用者にとってより読みやすく理解しやすい字幕を表示できる。
また、テキスト表示時間決定装置は、入力された音声の認識結果に含まれる単語が発声された時間である発話時間長を単語ごとに算出する発話時間長算出手段(例えば、音声認識手段2)を備えていてもよい。そして、表示時間決定手段82は、変換後表記に変換された認識結果に含まれる文章の表示時間を、その文章に含まれる単語が変換後表記に変換される前の単語の発話時間長に基づいて決定してもよい。
また、表示時間決定手段82は、発声速度の平均値に対する表示対象である文章の発声速度の割合(例えば、表示重み値W)を、単語の発話時間長の総和に乗じた値を表示時間と決定(例えば、式1および式2に基づいて決定)してもよい。
また、テキスト表示時間決定装置は、発話時間長に乗じる重み値である発話時間長重み値(例えば、発話時間重み値I)を予め定められた単語ごとに記憶する重み値記憶手段(例えば、重要語DB9)と、入力された音声の認識結果に含まれる各単語の発話時間長に、対応する発話時間長重み値を乗じる重み値付与手段(例えば、重要語抽出手段8)とを備えていてもよい。このような構成により、重要な単語が含まれている場合には、通常よりも認識結果を長く表示できるため、字幕をより見やすくすることができる。
図13は、本発明によるテキスト表示システムの最小構成の例を示すブロック図である。本発明によるテキスト表示システムは、音声を入力する音声入力装置70(例えば、音声送出端末10)と、音声入力装置70に入力された音声を認識する音声認識装置80(例えば、音声認識サーバ20)と、音声認識装置80による音声の認識結果を表示する認識結果表示装置90(例えば、認識結果表示端末30)とを備えている。
音声認識装置80は、認識結果作成手段81(例えば、音声認識手段2)と、表示時間決定手段82(例えば、表示時間決定手段6)とを備えている。認識結果作成手段81および表示時間決定手段82の内容は、図12に例示する内容と同様である。このような構成であっても、入力される音声を逐次テキスト化して表示する際、利用者にとって読みやすく理解しやすい字幕を生成できる。
本発明は、入力される音声をリアルタイムで変換し、変換したテキストを表示するテキスト表示システムに好適に適用される。
1 音声入力手段
2 音声認識手段
3 音声認識用辞書記憶手段
4 認識結果変換手段
5 変換データベース記憶手段
6 表示時間決定手段
7 テキスト表示手段
8 重要語抽出手段
9 重要語データベース記憶手段
10 音声送出端末
20 音声認識サーバ
21 音声検出部
22 音声分析部
23 音声照合部
30 認識結果表示端末
31 音響モデル
32 言語モデル
33 辞書
100 インターネット

Claims (11)

  1. 入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成手段と、
    前記音声の発話時間に基づいて、前記認識結果に含まれる文章ごとに表示時間を決定する表示時間決定手段とを備えた
    ことを特徴とするテキスト表示時間決定装置。
  2. 予め定められた単語または単語列と、当該単語または単語列の長さを短く変換した表記である変換後表記とを対応づけて記憶する変換後表記記憶手段と、
    入力された音声の認識結果に含まれる単語または単語列の表記を、前記変換後表記記憶手段に記憶された単語または単語列に対応する変換後表記に変換する認識結果変換手段とを備え、
    表示時間決定手段は、前記変換後表記に変換された認識結果に含まれる文章ごとに表示時間を決定する
    請求項1記載のテキスト表示時間決定装置。
  3. 変換後表記記憶手段は、変換後表記として、単語または単語列を削除することを示す表記を記憶し、
    認識結果変換手段は、単語または単語列の変換後表記が削除することを示す表記である場合、認識結果から前記単語または単語列を削除する
    請求項2記載のテキスト表示時間決定装置。
  4. 入力された音声の認識結果に含まれる単語が発声された時間である発話時間長を単語ごとに算出する発話時間長算出手段を備え、
    表示時間決定手段は、変換後表記に変換された認識結果に含まれる文章の表示時間を、当該文章に含まれる単語が変換後表記に変換される前の単語の発話時間長に基づいて決定する
    請求項2または請求項3記載のテキスト表示時間決定装置。
  5. 表示時間決定手段は、発声速度の平均値に対する表示対象である文章の発声速度の割合を、単語の発話時間長の総和に乗じた値を表示時間と決定する
    請求項4に記載のテキスト表示時間決定装置。
  6. 発話時間長に乗じる重み値である発話時間長重み値を予め定められた単語ごとに記憶する重み値記憶手段と、
    入力された音声の認識結果に含まれる各単語の発話時間長に、対応する前記発話時間長重み値を乗じる重み値付与手段とを備えた
    請求項4または請求項5記載のテキスト表示時間決定装置。
  7. 音声を入力する音声入力装置と、
    前記音声入力装置に入力された音声を認識する音声認識装置と、
    前記音声認識装置による音声の認識結果を表示する認識結果表示装置とを備え、
    前記音声認識装置は、
    前記音声入力装置に入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成手段と、
    前記音声の発話時間に基づいて、前記認識結果に含まれる文章ごとに表示時間を決定する表示時間決定手段とを含む
    ことを特徴とするテキスト表示システム。
  8. 入力される音声を逐次認識してテキスト化した認識結果を作成し、
    前記音声の発話時間に基づいて、前記認識結果に含まれる文章ごとに表示時間を決定する
    ことを特徴とするテキスト表示時間決定方法。
  9. 入力された音声の認識結果に含まれる単語または単語列の表記を、予め定められた単語または単語列と当該単語または単語列の長さを短く変換した表記である変換後表記とを対応づけて記憶する変換後表記記憶手段に記憶された対応する変換後表記に変換し、
    変換後表記に変換された認識結果に含まれる文章ごとに表示時間を決定する
    請求項8記載のテキスト表示時間決定方法。
  10. コンピュータに、
    入力される音声を逐次認識してテキスト化した認識結果を作成する認識結果作成処理、および、
    前記音声の発話時間に基づいて、前記認識結果に含まれる文章ごとに表示時間を決定する表示時間決定処理
    を実行させるためのテキスト表示時間決定プログラム。
  11. コンピュータに、
    入力された音声の認識結果に含まれる単語または単語列の表記を、予め定められた単語または単語列と当該単語または単語列の長さを短く変換した表記である変換後表記とを対応づけて記憶する変換後表記記憶手段に記憶された対応する変換後表記に変換する認識結果変換処理を実行させ、
    表示時間決定処理で、変換後表記に変換された認識結果に含まれる文章ごとに表示時間を決定させる
    請求項10記載のテキスト表示時間決定プログラム。
JP2011044232A 2011-03-01 2011-03-01 テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム Pending JP2012181358A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011044232A JP2012181358A (ja) 2011-03-01 2011-03-01 テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011044232A JP2012181358A (ja) 2011-03-01 2011-03-01 テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2012181358A true JP2012181358A (ja) 2012-09-20

Family

ID=47012607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011044232A Pending JP2012181358A (ja) 2011-03-01 2011-03-01 テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2012181358A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103941959A (zh) * 2013-01-23 2014-07-23 Lg电子株式会社 电子设备以及其控制方法
US9720644B2 (en) 2013-04-03 2017-08-01 Sony Corporation Information processing apparatus, information processing method, and computer program
KR101819458B1 (ko) * 2016-08-17 2018-01-17 주식회사 소리자바 음성 인식 장치 및 시스템
KR101832464B1 (ko) * 2017-10-16 2018-02-26 네이버 주식회사 동영상 제공 장치, 동영상 제공 방법, 및 컴퓨터 프로그램
JP2019016360A (ja) * 2018-07-26 2019-01-31 株式会社リコー 情報処理装置及び情報処理方法並びにプログラム
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
JP2019213066A (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
CN110852196A (zh) * 2019-10-25 2020-02-28 北京首钢自动化信息技术有限公司 人脸识别信息展示方法及装置
US10595067B2 (en) 2015-07-16 2020-03-17 Naver Business Platform Corporation Video providing apparatus, video providing method, and computer program
JP7498077B2 (ja) 2020-09-25 2024-06-11 エフサステクノロジーズ株式会社 表示制御装置、表示制御方法および表示制御プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2004357092A (ja) * 2003-05-30 2004-12-16 Casio Comput Co Ltd 情報機器、デジタルカメラおよびデータ表示方法
WO2007111162A1 (ja) * 2006-03-24 2007-10-04 Nec Corporation テキスト表示装置、テキスト表示方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2004357092A (ja) * 2003-05-30 2004-12-16 Casio Comput Co Ltd 情報機器、デジタルカメラおよびデータ表示方法
WO2007111162A1 (ja) * 2006-03-24 2007-10-04 Nec Corporation テキスト表示装置、テキスト表示方法およびプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103941959A (zh) * 2013-01-23 2014-07-23 Lg电子株式会社 电子设备以及其控制方法
US9304737B2 (en) 2013-01-23 2016-04-05 Lg Electronics Inc. Electronic device and method of controlling the same
US9720644B2 (en) 2013-04-03 2017-08-01 Sony Corporation Information processing apparatus, information processing method, and computer program
US10595067B2 (en) 2015-07-16 2020-03-17 Naver Business Platform Corporation Video providing apparatus, video providing method, and computer program
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
KR101819458B1 (ko) * 2016-08-17 2018-01-17 주식회사 소리자바 음성 인식 장치 및 시스템
KR101832464B1 (ko) * 2017-10-16 2018-02-26 네이버 주식회사 동영상 제공 장치, 동영상 제공 방법, 및 컴퓨터 프로그램
JP2019213066A (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
WO2019235138A1 (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
JP2019016360A (ja) * 2018-07-26 2019-01-31 株式会社リコー 情報処理装置及び情報処理方法並びにプログラム
CN110852196A (zh) * 2019-10-25 2020-02-28 北京首钢自动化信息技术有限公司 人脸识别信息展示方法及装置
JP7498077B2 (ja) 2020-09-25 2024-06-11 エフサステクノロジーズ株式会社 表示制御装置、表示制御方法および表示制御プログラム

Similar Documents

Publication Publication Date Title
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
JP5104762B2 (ja) コンテンツ要約システムと方法とプログラム
US8386265B2 (en) Language translation with emotion metadata
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
KR20170030297A (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
US11942093B2 (en) System and method for simultaneous multilingual dubbing of video-audio programs
CN110740275B (zh) 一种非线性编辑***
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
US10685644B2 (en) Method and system for text-to-speech synthesis
US20160314116A1 (en) Interpretation apparatus and method
US20200320976A1 (en) Information processing apparatus, information processing method, and program
CN110781649A (zh) 一种字幕编辑方法、装置及计算机存储介质、电子设备
US20140019132A1 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
CN109460548B (zh) 一种面向智能机器人的故事数据处理方法及***
CN112541324A (zh) 一种标点符号添加方法、装置及电子设备
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
CN113948062B (zh) 数据转换方法及计算机存储介质
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP2004347732A (ja) 言語自動識別方法及び装置
JP6342792B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
KR102657353B1 (ko) 음성 인터페이스 stt 기반 자막 생성 장치, 및 음성 인터페이스 stt 기반 자막 생성 방법
JP7087041B2 (ja) 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP7481894B2 (ja) 発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130514