JP6672209B2

JP6672209B2 - 情報処理装置、情報処理方法、および情報処理プログラム

Info

Publication number: JP6672209B2
Application number: JP2017054430A
Authority: JP
Inventors: 奈夕子渡辺; 布目　光生; 光生布目; 浩司藤村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2020-03-25
Anticipated expiration: 2037-03-21
Also published as: US20180279010A1; JP2018156013A; US10609455B2

Description

本発明の実施の形態は、情報処理装置、情報処理方法、および情報処理プログラムに関する。

音声認識したテキストを字幕表示する技術が知られている。また、音声の誤認識を修正し、修正する技術が知られている。例えば、音声認識結果を分割し、分割単位ごとにユーザによる修正を受付ける。そして、ユーザによる分割単位の修正が確定するごとに、確定した時刻に、修正後の該分割単位の音声認識結果を順次字幕表示するシステムが開示されている。

しかしながら、従来では、分割単位の修正が確定した時刻に、修正後の分割単位の字幕が順次表示されていた。このため、字幕がユーザによって認識されている最中や認識前に、次の時刻に発話された分割単位に対応する字幕が表示される場合があった。また、字幕がユーザによって読取り難い場合があった。

特開２００４−１５１６１４号公報

クラウドソーシングを活用した効率良い字幕作成手法。長妻令子、福田健太郎、柳沼良知、広瀬洋子（電子情報通信学会技術研究報告．ＷＩＴ，福祉情報工学）

本発明が解決しようとする課題は、音声の字幕を読みやすいタイミングで提供することができる、情報処理装置、情報処理方法、および情報処理プログラムに関する。

実施の形態の情報処理装置は、取得部と、付与部と、を備える。取得部は、音声認識された複数の形態素と、前記形態素の発話時刻と、を含む対象文データを取得する。付与部は、前記対象文データのユーザによる修正の確定した確定文と発話時刻が一つ前の他の確定文との時間差に応じた表示時刻を該修正の確定した前記確定文に付与する。

情報処理システムの模式図。情報処理装置の機能ブロック図。対象文データのデータ構成の模式図。対象文データのデータ構成の模式図。修正操作の種類とストロークの形との対応を示す模式図。修正画面の模式図。修正画面の模式図。発話時刻修正の模式図。発話時刻修正の模式図。表示時刻付与の説明図。表示時刻付与の説明図。表示時刻付与の説明図。表示画面を示す模式図。情報処理の手順のフローチャート。取得・分割処理の手順のフローチャート。取得・分割処理の手順のフローチャート。修正・付与処理の手順のフローチャート。ストローク認識処理の手順のフローチャート。修正操作判別処理の手順のフローチャート。表示画面の模式図。発話時間差の説明図。情報処理装置の機能ブロック図。取得・分割処理の説明図。修正画面の模式図。修正画面の模式図。修正処理の手順のフローチャート。修正処理の手順のフローチャート。対象文データのデータ構成の模式図。対象文データのデータ構成の模式図。ハードウェア構成例を示すブロック図。

以下に添付図面を参照して、情報処理装置、情報処理方法、および情報処理プログラムを詳細に説明する。

（第１の実施の形態）
図１は、情報処理システム１００の一例の模式図である。情報処理システム１００は、音声認識端末１２と、情報処理装置１０と、表示端末１４と、を備える。音声認識端末１２と、情報処理装置１０と、表示端末１４と、はネットワーク１６を介して接続されている。

ネットワーク１６は、公知の通信網である。ネットワーク１６は、例えば、インターネットや、携帯電話網、などである。ネットワーク１６は、例えば、ケーブル、トランシーバー、ルーター、スイッチ、無線ＬＡＮアクセスポイント、無線ＬＡＮ送受信機、などによって実現される。

音声認識端末１２は、出力された音声を認識し、対象文データ（詳細後述）を出力する。音声認識端末１２は、音声を収音するマイクと、公知の音声認識機能と、を備える。音声認識端末１２は、例えば、パーソナルコンピュータや、タブレット端末などである。

情報処理装置１０は、音声認識端末１２で認識された対象文データに含まれるテキストの修正に用いる。情報処理装置１０は、ユーザからの操作指示を受付ける入力機能と、画像を表示する表示機能と、を備える。なお、情報処理装置１０は、入力機能と表示機能とを一体的に備えた、タッチパネルを備えた構成として説明するが、これに限られない。情報処理装置１０は、例えば、パーソナルコンピュータや、タブレット端末などである。

表示端末１４は、字幕を表示するための端末である。表示端末１４は、字幕を表示する表示機能を少なくとも備える。表示端末１４は、例えば、パーソナルコンピュータや、タブレット端末などである。

本実施の形態の情報処理システム１００では、音声認識端末１２が音声を認識し、認識したテキストデータを含む対象文データを情報処理装置１０へ出力する。情報処理装置１０は、対象文データを修正し、表示端末１４へ出力する。表示端末１４は、情報処理装置１０から受付けたテキストデータを、字幕として表示する。

なお、図１には、情報処理システム１００が、１台の音声認識端末１２と、１台の情報処理装置１０と、複数台の表示端末１４と、を備えた構成である場合を、一例として示した。しかし、情報処理システム１００に設けられる、音声認識端末１２および情報処理装置１０の台数は、１台に限定されない。同様に、情報処理システム１００に設けられる表示端末１４の台数も、限定されない。

次に、情報処理装置１０の機能的構成を説明する。図２は、情報処理装置１０の機能ブロック図の一例である。

情報処理装置１０は、制御部２０と、記憶部２２と、ＵＩ部２４と、を備える。記憶部２２およびＵＩ部２４は、制御部２０とデータや信号を授受可能に接続されている。

ＵＩ部２４は、ユーザからの操作指示を受付ける入力機能と、画像を表示する表示機能と、を備える。入力機能は、例えば、キーボード、マウス、などである。表示機能は、例えば、液晶表示装置や、有機ＥＬ（エレクトロルミネッセンス）ディスプレイなどである。本実施の形態では、ＵＩ部２４が入力機能と表示機能を一体に備えたタッチパネルである場合を、一例として説明するが、これに限らない。

記憶部２２は、各種情報を記憶する。本実施の形態では、記憶部２２は、対象文データ３０を記憶する。記憶部２２は、ＨＤＤ（ハードディスクドライブ）などの公知の記憶媒体である。なお、記憶部２２を、ネットワーク１６を介して接続された外部装置に設けてもよい。

図３は、対象文データ３０のデータ構成の一例を示す模式図である。対象文データ３０は、音声認識端末１２によって音声認識されたテキストデータと、発話時刻と、を含む。詳細には、対象文データ３０は、形態素と、形態素に対応する発話時刻と、を含む。

テキストデータは、複数の形態素を含む。本実施の形態では、形態素とは、意味を有する最小の言語の単位を１または複数含み、一つ以上の音素から構成される。なお、テキストデータは、各形態素の読みを示す情報などを、更に含んでいてもよい。修正は、主に単語、文節単位で行われることから、以下、「形態素」と表現した場合は、主に、単語、文節等を表す。

発話時刻は、各形態素の発話された時刻を示す。本実施の形態では、発話時刻は、各形態素の発話された、発話開始時刻と発話終了時刻とで表される。発話開始時刻は、以下では、単に開始時刻と称して説明する。同様に、発話終了時刻は、以下では、単に終了時刻と称して説明する。

なお、形態素の発話時刻は、開始時刻と終了時刻で表される形態に限定されない。形態素の発話時刻は、情報処理装置１０側で時刻に変換可能な形態で表されたものであればよい。例えば、形態素の発話時刻は、秒数、音声認識回数を示すカウント数、などであってもよい。また、対象文データ３０における先頭の形態素についてのみ、発話時刻として開始時刻を保持し、他の形態素については、該先頭の形態素からの経過時間（相対時間）を示す情報を発話時刻として保持してもよい。

情報処理装置１０は、音声認識端末１２から取得した対象文データ３０を、修正単位リスト３６として、記憶部２２へ記憶する。制御部２０は、修正単位リスト３６に登録された対象文データ３０について、後述する処理を実行する。

なお、図３には、分割スコアを示した。分割スコアは、後述する制御部２０の処理によって各形態素に付与される。このため、音声認識端末１２から取得した対象文データ３０には、分割スコアは付与されていない。

制御部２０は、情報処理装置１０全体を制御する。制御部２０は、取得部２０Ａと、分割部２０Ｂと、修正部２０Ｃと、付与部２０Ｄと、出力部２０Ｅと、表示制御部２０Ｆと、受付部２０Ｇと、を含む。

上記各部は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

取得部２０Ａは、対象文データ３０を取得する。すなわち、取得部２０Ａは、音声認識された複数の形態素と、形態素の発話時刻と、を含む対象文データ３０を取得する。

例えば、取得部２０Ａは、図３に示す対象文データ３０を取得する。なお、対象文データ３０のデータの記述形式は限定されない。例えば、取得部２０Ａは、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔ（登録商標）ＯｂｊｅｃｔＮｏｔａｔｉｏｎ）形式で記述された対象文データ３０を、音声認識端末１２から取得する。なお、対象文データ３０のデータ記述形式はこれに限らず、ＸＭＬ、バイナリ表現、独自の記述形式、などであってもよい。

なお、図３には、日本語の表記で表した場合を一例として示しているが、日本語に限定されない。例えば、図４に示すように、対象文データ３０は、テキストデータ（形態素）を英語で表記した対象文データ３１であってもよい。

図２に戻り説明を続ける。分割部２０Ｂは、対象文データ３０を、修正単位に分割する。修正単位とは、ユーザによって修正可能な単位である。

ここで、対象文データ３０に含まれる、形態素の群（形態素列）からなるテキストデータには、音声認識端末１２によって誤認識された形態素が含まれる場合がある。例えば、ユーザは、テキストデータの中の形態素と音声とのマッチングをとりながら、誤っている箇所を探して修正する。このため、修正単位が長いほど、ユーザによる探索負荷が増え、修正に要する時間も長くなる。

そこで、分割部２０Ｂは、図３に示すように、対象文データ３０を、複数の修正単位３２に分割する。図３には、対象文データ３０を、複数の修正単位３２（修正単位３２Ａ、修正単位３２Ｂ、修正単位３２Ｃ、修正単位３２Ｄ）に分割した例を、示した。

例えば、分割部２０Ｂは、対象文データ３０に含まれるテキストデータを、予め定めた時間長Ｔ^Ｓに近く、且つ、文の切れ目となる形態素の位置で、複数の修正単位３２に分割する。ここで、時間長Ｔ^Ｓに近く、且つ、文の切れ目となる形態素の位置はテキストデータの分割位置である。時間長Ｔ^Ｓは、予め設定すればよい。

詳細には、分割部２０Ｂは、テキストデータを構成する形態素の各々に対して分割スコアＳ^Ｓを算出する。分割スコアＳ^Ｓは、対応する形態素と時間的に次の発話時刻の形態素との間の、区切り易さを表す値である。

まず、分割部２０Ｂは対象文データ３０に含まれる形態素の各々について、式（１）を用いて、分割スコアを算出する。

式（１）中、Ｓ_ｉは、ｉ番目の形態素の分割スコアを示す。ｉ番目とは、対象文データ３０における先頭位置を一番目とした、形態素の位置を示す。また、式（１）中、αおよびβは、予め定めた係数である。また、式（１）中、ｔ_ｉ+１ ^ｂは、ｉ+１番目の形態素の開始時刻を示し、ｔ_ｉ ^ｅは、ｉ番目の形態素の終了時刻を示す。また、式（１）中、ｐ_ｉは、句読点スコアを示す。句読点スコアは、下記式（２）で表される。

式（２）中、ｗ_ｉは、ｉ番目の形態素を示す。

次に、分割部２０Ｂは、分割スコアを用いて、対象文データ３０を複数の修正単位３２に分割する。

例えば、Ｔ_１ ^Ｓ＜Ｔ^ｓ＜Ｔ_２ ^Ｓの関係を満たす閾値Ｔ_１ ^Ｓおよび閾値Ｔ_２ ^Ｓを定める。閾値Ｔ_１ ^Ｓは、許容する修正単位の最小時間長を示す値であり、例えば、３００である。閾値Ｔ_２ ^Ｓは、許容する修正単位の最大時間長を示す値であり、例えば、１００００である。

そして、分割部２０Ｂは、上記式（３）の関係を満たす場合には、上記式（４）および式（５）の関係を満たす、発話時刻の経過方向に沿って連続する形態素列を、１つの修正単位３２として用いる。

なお、式（３）中、ｔ_ｎ ^ｅは、対象文データ３０に含まれる最初の形態素の開始時刻を示し、ｔ_１ ^ｂは、対象文データ３０に含まれる最後の形態素の終了時刻を示す。すなわち、式（３）の左辺（ｔ_ｎ ^ｅ−ｔ_１ ^ｂ）は、対象文データ３０の長さ（時間長）を示す。

また、式（４）中、ｋは分割位置を示す。また、式（４）中、Ｓ_ｋは、分割スコアを示す。また、式（５）中、ｔ_ｋ ^ｅは、ｋ番目の形態素の終了時刻示し、ｔ_１ ^ｂは、１番目の形態素の開始時刻を示す。

このようにして、分割部２０Ｂは、対象文データ３０に含まれるテキストデータを、複数の修正単位３２に分割する。

図３に示すように、分割スコアに応じて、対象文データ３０を、複数の修正単位３２に分割する。

なお、図３には、α＝２、β＝３、Ｔ_１ ^Ｓ＝３００、Ｔ^Ｓ＝４０００、Ｔ_２ ^Ｓ＝１００００として、対象文データ３０を修正単位３２に分割した場合を、一例として示している。

テキストデータが日本語以外の他の言語で表記されている場合についても、同様に、分割部２０Ｂは、形態素ごとに分割スコアを算出し、対象文データ３０を修正単位３２へ分割すればよい。例えば、図４に示すように、分割部２０Ｂは、英語の表記で表された対象文データ３１に含まれる形態素の各々の分割スコアを算出する。そして、分割部２０Ｂは、分割スコアに応じて、対象文データ３１を、複数の修正単位３２（修正単位３２Ａ’〜修正単位３２Ｄ’）に分割すればよい。

図２に戻り説明を続ける。修正部２０Ｃは、ユーザによる操作入力に応じて、修正単位３２に含まれる形態素や発話時刻（本実施の形態では、開始時刻、終了時刻）を修正する。

まず、修正部２０Ｃは、表示制御部２０Ｆへ修正単位３２を出力する。表示制御部２０Ｆは、修正単位３２に含まれる形態素を修正するための修正画面を、ＵＩ部２４へ表示する制御を行う。ユーザは、ＵＩ部２４へ表示された修正単位３２に含まれる形態素を参照しながら、ＵＩ部２４を操作することで、修正操作を行う。受付部２０Ｇは、ユーザによる入力を受付ける。

ユーザは、例えば、ペンを用いて、ＵＩ部２４を介して修正操作を行う。本実施の形態では、ユーザは、スタイラスペンを用いて、修正画面に直接ストロークを書込むことで、修正操作を行う場合を説明する。

例えば、ユーザはジェスチャ（ストロークの形）と位置によって、修正操作の種類を指定する。ここで、ジェスチャとはユーザ入力によって認識されたストロークの形を表し、入力されたストロークの形と修正操作を予め対応付けておくことによってユーザの操作を可能にする。また、ストロークとは手書き入力された筆画であり、例えばペン等が入力面に接してから離れるまでの軌跡を表す。

図５は、修正操作の種類と、ストロークの形と、の対応例を示す模式図である。修正操作の種類は、例えば、削除、挿入、置換、確定、の４種類である。修正操作の種類「削除」は、指定した箇所の削除を示す。「挿入」は、指定した箇所に新たな文字列や画像（以下修正文字列と称する場合がある）を挿入することを示す。「置換」は、指定した箇所を新たな文字列や画像で置き換える事を示す。「確定」は、指定した箇所までの修正を確定したことを示す。

ユーザは、ＵＩ部２４に表示された修正画面上に、所望のストロークを入力する。受付部２０Ｇはユーザの入力を受け付け、ストロークの形における特徴点の位置から、修正操作の種類や、修正対象の文字列などを特定する。

なお、「挿入」および「置換」の場合には、ユーザは、挿入または置換する修正文字列（文字列や画像）を入力する必要がある。本実施の形態では、修正画面は、手書き入力欄を含む。

ユーザは、スタイラスペンを用いて、修正画面における手書き入力欄に、挿入または置換する修正文字列を入力する。そして、例えば、ユーザによって、手書き入力欄の外側をタッチすると、受付部２０Ｇは、手書き入力欄への入力が終了したことを受け付ける。

そして、修正部２０Ｃは、手書き入力欄に入力されたストローク集合の画像を修正文字列として、受付部２０Ｇを介して受け付ける。なお、修正部２０Ｃは、手書き入力欄に入力されたストローク集合の画像に対して、公知の文字認識処理を行い、文字認識結果を示すテキストを、修正文字列として受け付けてもよい。

図６は、修正画面４０の一例を示す模式図である。修正画面４０には、確定領域４１Ａと、修正領域４１Ｂと、が設けられている。

確定領域４１Ａは、確定文３４の表示される領域である。確定文３４は、修正単位３２に対応する、修正の確定したテキストデータである。

修正領域４１Ｂは、修正中の修正単位３２が表示される領域である。修正領域４１Ｂには、手書入力領域Ｈが表示される場合がある。ユーザは、スタイラスペンＰなどを用いて手書入力領域Ｈにストロークを書くことで、修正文字列を入力する。

例えば、図６（Ａ）に示すように、修正領域４１Ｂに表示されている修正単位３２における、日本語表記の「温泉入浴」を「音声入力」に置換すると仮定する。この場合、ユーザはスタイラスペンＰを操作することで、「置換」に対応する形のストロークＳを、修正対象の「温泉入浴」上に入力する。そして、受付部２０Ｇを介してストロークを受付ける。修正部２０Ｃは、ストロークを認識することで、修正操作の種類である「置換」を特定すると、手書入力領域Ｈを含む修正画面４０ＢをＵＩ部２４へ表示する（図６（Ｂ）、修正画面４０Ｂ参照）。

例えば、ユーザが手書入力領域Ｈに「音声入力」という文字を手書き入力し、手書入力領域Ｈの外側をタッチしたと仮定する（図６（Ｃ）、修正画面４０Ｃ参照）。すると、修正部２０Ｃは、修正領域４１Ｂに表示されている修正単位３２における、日本語表記の「温泉入浴」を、手書入力された「音声入力」に置換する（図６（Ｄ）の修正画面４０Ｄ参照）。

また、ユーザが、修正を確定する場合、図６（Ｅ）に示すように、修正領域４１Ｂに表示されている修正単位３２における、確定した範囲を示すストロークを入力する。例えば、ユーザは、スタイラスペンＰを操作することで、日本語表記の「まずアジェンダです」と「が、まず背景の」との間を通るように、「確定」に対応するストロークＳを入力する（図６（Ｅ）の修正画面４０Ｅ参照）。そして、修正部２０Ｃは、受付部２０Ｇを介してストロークを受付けと、修正操作の種類「確定」を特定する。

修正部２０Ｃは、修正操作の種類「確定」に対応する形のストロークの描かれた時刻を、該ストロークの描かれた修正単位３２に対応する確定文３４の、確定時刻として扱う。

そして修正部２０Ｃは、確定した修正単位３２である「まずアジェンダです」を修正領域４１Ｂから削除し、該修正単位３２に対応する確定文３４として確定領域４１Ａへ移すように、表示制御部２０Ｆを制御する。このため、ＵＩ部２４には、図６（Ｆ）に示す修正画面４０Ｆが表示される。

以上のようにして、ユーザは、修正領域４１Ｂに表示されている修正単位３２を順次修正し、修正を確定した確定文３４としていく。

そして、上記の「確定」の操作が繰り返され、修正領域４１Ｂに表示される修正単位３２が全て確定文３４となったときに、対象文データ３０に含まれる修正単位３２の全てについて、ユーザによる修正が確定した状態となる。

なお、図６には、テキストデータを日本語の表記で表した場合の修正画面４０の一例を示した。しかし、テキストデータを英語の表記で表した場合についても、同様に、修正部２０Ｃは、修正画面４０をＵＩ部２４へ表示すればよい。図７は、英語の表記で表した場合の、修正画面４０（修正画面４０Ｇ）の一例を示す模式図である。

英語で表記されている場合についても同様に、修正部２０Ｃは、修正画面４０ＧをＵＩ部２４へ表示し、ユーザによる修正を受付ければよい。

ここで、ユーザによる修正処理によって、修正単位３２に含まれるテキストデータ少なくとも一部の長さが変化する場合がある。例えば、修正単位３２に含まれる、音素の少なくとも一部の削除や置換、より長い他の単語や文節への置換、より短い他の単語や文節への置換、または、他の音素の挿入、などの修正操作がなされる場合がある。

この場合、修正単位３２に含まれる形態素の各々に対応する発話時刻にずれが生じる場合がある。

そこで、修正部２０Ｃは、修正前の形態素に対応する発話時刻（本実施の形態では開始時刻と終了時刻）を出来るだけ保持し、修正後の形態素に対応づける。

図８は、発話時刻の修正の一例を示す模式図である。例えば、図８（Ａ）に示す修正単位３２Ｅが、ユーザによる修正操作によって、形態素「えーと」が削除されたとする。また、形態素「温泉」および「入浴」が、「音声」および「入力」に置換されたとする。また、形態素「で」と形態素「入力」との間に、新たな形態素「の」が挿入されたとする。

この場合、修正単位３２Ｅに対応する確定文３４に含まれるテキストデータは、図８（Ｂ）に示すものとなる。修正部２０Ｃは、変更された形態素に対応する発話時刻（開始時刻、終了時刻）を、変更前の形態素に対応する発話時刻（開始時刻、終了時刻）に対応づける。例えば、修正部２０Ｃは、置換された形態素「音声」には、置換前の形態素「温泉」に対応する発話時刻（開始時刻“２０３”、終了時刻“４１７”）を対応づける。修正部２０Ｃは、置換された形態素「で」「入力」についても、同様にして、置換前の形態素に対応する発話時刻を対応づける。

一方、新たに挿入された形態素に対応する発話時刻については、修正部２０Ｃは、新たに挿入された形態素の１つ前の他の形態素の終了時刻、および、一つ後の他の形態素の開始時刻の各々を、新たに挿入された形態素に対応する開始時刻と終了時刻として用いればよい。具体的には、図８（Ｂ）に示すように、新たに挿入された形態素「の」の開始時刻には、１つまえの形態素「で」の終了時刻“５０１”を用いる。また、新たに挿入された形態素「の」の終了時刻には、１つ後の形態素「入力」の開始時刻“５１２”を用いる。

なお、修正単位３２の最初または最後に、新たな形態素を挿入する修正操作がなされる場合がある。この場合、修正部２０Ｃは、開始時刻と終了時刻との差が“０”の発話時刻を、該形態素に対応づければよい。具体的には、修正部２０Ｃは、対応する修正単位３２に含まれる最初の形態素に対応する発話時刻の開始時刻を、開始時刻と終了時刻として、該形態素の前に新たな形態素を挿入すればよい。また、修正部２０Ｃは、対応する修正単位３２に含まれる最後の形態素に対応する発話時刻の終了時刻を、開始時刻と終了時刻として、該形態素の後に新たな形態素を挿入すればよい。

なお、形態素が英語で表記されている場合についても同様に、修正部２０Ｃは、修正前の形態素に対応する発話時刻（本実施の形態では開始時刻と終了時刻）を出来るだけ保持し、修正後の形態素に対応づければよい。

図９は、形態素が英語で表記されている場合の、発話時刻の修正の一例を示す模式図である。例えば、図９（Ａ）に示す修正単位３２Ｅ’が、ユーザによる修正操作によって、形態素「ｗｅｌｌ」が削除されたと仮定する。また、形態素「ｎｏ」および「ｂｅａｎｓ」が、「ｋｎｏｗ，」および「ｂｅｅｎ」に置換されたと仮定する。また、形態素「ｂｅｅｎ」と形態素「Ｊａｐａｎ」との間に、新たな形態素「ｔｏ」が挿入されたと仮定する。

この場合、修正単位３２Ｅ’に対応する確定文３４Ｅ’に含まれるテキストデータは、図９（Ｂ）に示すものとなる。修正部２０Ｃは、変更された形態素に対応する発話時刻（開始時刻、終了時刻）を、変更前の形態素に対応する発話時刻（開始時刻、終了時刻）に対応づける。例えば、修正部２０Ｃは、置換された形態素「ｋｎｏｗ，」には、置換前の形態素「ｎｏ」に対応する発話時刻（開始時刻“４３０”、終了時刻“５０１”）を対応づける。修正部２０Ｃは、置換された形態素「ｂｅｅｎ」についても、同様にして、置換前の形態素「ｂｅａｎｓ」に対応する発話時刻を対応づける。

また、図９（Ｂ）に示すように、修正部２０Ｃは、新たに挿入された形態素「ｔｏ」の開始時刻には、１つ前の形態素「ｂｅｅｎ」の終了時刻“７１６”を用いる。また、新たに挿入された形態素「ｔｏ」の終了時刻には、１つ後の形態素「Ｊａｐａｎ」の開始時刻“７６０”を用いる。

このように、形態素が英語の表記で表されている場合についても同様に、修正部２０Ｃは、修正前の形態素に対応する発話時刻（本実施の形態では開始時刻と終了時刻）を出来るだけ保持し、修正後の形態素に対応づければよい。

なお、ユーザによる修正操作は、表示されたテキスト単位で修正が行えるため、修正単位３２に示される単位で行われない場合がある。

例えば図８（Ｃ）に示す修正単位３２Ｆの場合、ユーザによる修正操作によって、「音声電話」の内の一部である「電話」が削除されたとする。また、「の入浴」の一部である「の」が削除されたとする。

この場合、修正単位３２Ｆに対応する確定文３４に含まれるテキストデータは、図８（Ｄ）に示すものとなる。

この場合、修正部２０Ｃは、一部を削除された単語に対応する発話時刻（開始時刻、終了時刻）に、削除前の単語に対応する発話時刻（開始時刻、終了時刻）をそのまま用いればよい（図８（Ｄ）参照）。

同様にユーザによる修正操作による「置換」が、修正単位３２に示される単位でなされない場合もある。例えば、図８（Ｃ）に示す修正単位３２Ｆにおける、「音声電話」および「の入浴」における、「電話」と「の」が、「で」に置換される場合がある。

この場合、修正単位３２Ｆの一部を変更された「音声」および「入浴」について、修正部２０Ｃは、変更前の「音声電話」および「の入浴」の各々に対応する発話時刻（開始時刻、終了時刻）を対応づければよい。そして、置換された後の「で」を、新たに挿入された形態素として、上記と同様にして、発話時刻を付与すればよい。すなわち、修正部２０Ｃは、新たに挿入された形態素の１つ前の他の形態素の終了時刻、および、一つ後の他の形態素の開始時刻の各々を、新たに挿入された形態素に対応する開始時刻と終了時刻として用いればよい。

なお、ユーザによる修正操作による「置換」により修正単位３２に対応づけられていた発話時刻の時間帯が、確定文３４に含まれなくなる場合がある。例えば、図８（Ｃ）に示す修正単位３２Ｆにおける、「の入浴」「の」「した」を、「力の仕方」に置換する修正操作がなされた場合を考える。

まず、図８（Ｃ）「の」と「した」を削除すると、修正単位３２Ｆにおける、これらに対応する発話時刻の期間が、確定文３４Ｆに含まれなくなる。このため、修正部２０Ｃは修正単位３２Ｆにおける修正対象の形態素に対応する発話時刻（開始時刻、終了時刻）を保持しておき、置換された後の形態素に、保持した発話時刻の期間を割当てる。

例えば、修正単位３２Ｆにおける、削除した形態素「の」と「した」に対応する発話時刻を、置換した形態素「力の仕方」に対応付ければよい。具体的には、修正部２０Ｃは、形態素「の」の発話時刻の開始時刻と、形態素「した」に対応する発話時刻の終了時刻と、を置換した形態素の「力の仕方」の開始時刻および終了時刻として、対応づければよい。

更に、ユーザの修正操作によって、修正単位３２に修正文字列が挿入される場合がある。この場合、修正部２０Ｃは、ユーザによって指示された箇所で単語を分割し、修正文字列を挿入する。

この場合、修正部２０Ｃは、修正文字列の挿入される前の形態素に対応する発話時刻によって示される期間を、半分または分割後の形態素の長さに応じて線形補間することで分割し、割当てればよい。

具体的には、修正前の修正単位３２における「した」を、「し」と「た」に分割し、間に「か」を挿入して、「し」「か」「た」に修正する修正操作がなされる場合を考え。この場合、修正部２０Ｃは、形態素「した」に対応する発話時刻の開始時刻“６８６”と終了時刻“７１６”によって示される期間を、半分に分割する。そして、修正部２０Ｃは、分割後の「し」に、前段の期間（開始時刻“６８６”、終了時刻“７０１”）を対応づけ、分割後の「た」に、後段の期間（開始時刻“７０１”、終了時刻“７１６”）を対応づける。そして、更に、修正部２０Ｃは、間に挿入する「か」には、時間的に一つ前の形態素「し」の終了時刻と時間的に一つ後の形態素「た」の開始時刻と、の各々を、開始時刻および終了時刻とする発話時刻を対応づければよい。

なお、確定時刻において、ユーザによる「確定」に対応するストロークの描かれることで確定された区切りの箇所が、発話時刻が付随した形態素と形態素との境界に一致している場合と、一致しない場合と、がある。

確定された区切りの箇所が、形態素と形態素との境界に一致している場合には、修正部２０Ｃは、修正単位３２におけるこれらの形態素の各々に対応する発話時刻を、修正後の形態素に対応づければよい。

一方、確定された区切りの箇所が形態素と形態素との境界に不一致である場合には、修正部２０Ｃは、修正前の修正単位３２における形態素を分割する場合と同様にして、修正後の形態素に対応する発話時刻を対応づければよい。

なお、修正部２０Ｃは、ユーザによって手書入力された手書文字の画像を、そのまま修正文字列として扱ってもよい。例えば、図６（Ｃ）および図６（Ｄ）で説明したように、手書入力領域Ｈに入力された手書文字の画像を、そのまま修正文字列として扱ってもよい。この場合、修正部２０Ｃは、手書入力領域Ｈに入力された手書文字の画像を、１つの形態素の修正文字列として扱えばよい。なお、手書入力された手書文字が複数の単語を含む場合がある。この場合であっても、修正部２０Ｃは、手書き入力文字列を１つの形態素として扱えばよい。

図２に戻り説明を続ける。次に、付与部２０Ｄについて説明する。付与部２０Ｄは、対象文データ３０のユーザによる修正の確定した確定文３４と、発話時刻が一つ前の他の確定文３４と、の差に応じた表示時刻を付与する。なお、以下では、確定文３４と発話時刻が一つ前の他の確定文３４との差を、発話時間差と称して説明する場合がある。

発話時間差は、例えば、確定文３４と、該確定文３４に対して発話時刻が一つ前の他の確定文３４と、の発話時刻の差である。具体的には、発話時間差は、確定文３４に含まれる先頭の形態素の開始時刻と、一つ前の他の確定文３４に含まれる先頭の形態素の開始時刻と、の差である。

表示時刻は、確定文３４を表示する時刻である。本実施の形態では、表示時刻が、確定文３４の確定時刻から、該確定文３４の字幕の表示までの差、を示す場合を、一例として説明する。

なお、表示時刻は、対象文データ３０における、確定文３４の相対位置（時間的な相対位置）を示すものであってもよい。また、表示時刻は、実際の表示時刻を示すものであってもよい。この場合、付与部２０Ｄは、上記差を、これらの相対位置や表示時刻に変換し、表示時刻として用いればよい。

本実施の形態では、付与部２０Ｄは、上記発話時間差が大きいほど、確定文３４の確定時刻からの差の大きい表示時刻を、該確定文３４に付与する。

詳細には、付与部２０Ｄは、表示時刻を付与する対象の確定文３４について、該確定文３４の先頭の形態素の開始時刻（発話時刻の先頭）と、発話時刻が一つ前の他の確定文３４の先頭の形態素の開始時刻（発話時刻の先頭）と、の差（発話時間差）が大きいほど、表示時刻を付与する対象の該確定文３４の確定時刻から、該確定文３４の字幕の表示時刻までの差が大きくなるように、表示時刻を、該確定文３４に付与する。該確定文３４の確定時刻からの差とは、該確定文３４の確定時刻から、該確定文３４の字幕が表示されるまでの、時刻の差を示す。

具体的には、付与部２０Ｄは、該発話時間差に定数αを乗算した値を、上記差として用いる。定数αには、予め定めた値を用いればよい。

ここで、表示時刻を付与された確定文３４に対応する字幕の表示期間は、該確定文３４の表示が開始された時刻から、該確定文３４の次の発話時刻の他の確定文３４の確定時刻に、上記発話時間差を加算した時刻までの、期間となる。

このため、確定文３４の字幕の表示が必要以上に遅くなることを抑制する観点から、上記定数αは、１未満の値であることが好ましい。

このような表示時刻を確定文３４に付与することで、話者がゆっくり話した箇所に相当する確定文３４は、より長い期間表示され、話者が速く話した箇所に相当する確定文３４は、より短い期間表示されることとなる。具体的には、一つ前の確定文３４の発話時刻と確定文３４の発話時刻との差（発話時間差）が大きいほど、一つ前の確定文３４の発話は、話者によってゆっくり話された発話や、次の発話との間が空いた発話である可能性が高い。このため、この一つ前の確定文３４の次に発話された確定文３４に、発話時間差が大きいほど、該確定文３４の確定時刻からの差の大きい表示時刻を付与することで、一つ前の確定文３４がより長い期間継続して表示されることとなる。すなわち、付与部２０Ｄは、もとの音声が発せられた間隔に近い間隔で各確定文３４が表示されるように、表示時刻を付与することができる。

図１０は、表示時刻付与の一例を示す説明図である。例えば、図１０（Ａ）に示すように、対象文データ３０に含まれる修正単位３２の各々が、修正部２０Ｃによって確定文３４に修正されたとする。そして、対象文データ３０が、発話時刻順に、確定文３４Ａ、確定文３４Ｂ、確定文３４Ｃ、確定文３４Ｄを含んでいたと仮定する。

そして、付与部２０Ｄが、確定文３４Ｂに表示時刻を付与すると仮定する。なお、修正単位３２を確定文３４Ｂへ修正するためには、開始時刻ｔａから確定時刻ｔｂまでの期間ＴＢを要したと仮定する（図１０（Ｂ）参照）。この場合、付与部２０Ｄは、１つ前の確定文３４Ａに含まれる形態素の内の最も早い発話時刻の形態素の開始時刻と、確定文３４Ｂに含まれる形態素の内の最も早い発話時刻の形態素の開始時刻と、の発話時間差ＴＡを算出する。そして、付与部２０Ｄは、該発話時間差ＴＡが大きいほど、確定時刻ｔｂからの差ＴＣの大きい表示時刻ｔｃを、該確定文３４Ｂへ付与する。

なお、上述したように、付与部２０Ｄは、該発話時間差ＴＡを、表示時刻ｔｃとして、確定文３４Ｂへ付与してもよい。

付与部２０Ｄは、他の確定文３４についても同様にして、表示時刻を付与する。

表示時刻の付与について、具体的に説明する。図１１は、表示時刻の付与の説明図である。

例えば、対象文データ３０が、確定文３４Ａと確定文３４Ｂとを含むと仮定する（図１１（Ａ）、図１１（Ｂ）参照）。また、各確定文３４に含まれる形態素には、修正部２０Ｃによって、図１１に示す発話時刻（開始時刻、終了時刻）が対応付けられていると仮定する。

この場合、付与部２０Ｄは、確定文３４Ｂの表示時刻として、該確定文３４Ｂにおける最初の形態素「東芝」に対応する開始時刻“１２０４”から、１つ前の確定文３４Ａにおける最初の形態素「では」に対応する開始時刻“０”を減算（１２０４−０）する。これによって、付与部２０Ｄは、発話時間差“１２０４”を算出する。そして、付与部２０Ｄは、該発話時間差“１２０４”に、上記定数α（例えば“０．５”）を乗算した値“６０２”（すなわち、差）を、表示時刻として、確定文３４Ｂに付与する。

なお、対象文データ３０における最初の確定文３４Ａに対応する表示時刻は、“０”で固定とすればよい。

なお、形態素が、日本語とは異なる他の言語の表記で表されている場合についても同様に、付与部２０Ｄは、確定文３４の各々に表示時刻を付与すればよい。

図１２は、形態素が英語の表記で表されている場合の、表示時刻の付与の説明図である。

例えば、対象文データ３０が、確定文３４Ａ’と確定文３４Ｂ’とを含むと仮定する（図１２（Ａ）、図１２（Ｂ）参照）。また、各確定文３４に含まれる形態素には、修正部２０Ｃによって、図１２に示す発話時刻（開始時刻、終了時刻）が対応付けられていると仮定する。

この場合、付与部２０Ｄは、確定文３４Ｂ’の表示時刻として、該確定文３４Ｂ’における最初の形態素「ｔｏｄａｙ，」に対応する開始時刻“１５２０”から、１つ前の確定文３４Ａ’における最初の形態素「Ｔｈａｎｋ」に対応する開始時刻“０”を減算（１５２０−０）する。これによって、付与部２０Ｄは、発話時間差“１５２０”を算出する。そして、付与部２０Ｄは、該発話時間差“１５２０”に、上記定数α（例えば“０．５”）を乗算した値“７６０”（すなわち、差）を、表示時刻として、確定文３４Ｂ’に付与する。また、対象文データ３０における最初の確定文３４Ａ’に対応する表示時刻は、“０”で固定する。

このように、形態素が英語の表記で表されている場合についても同様に、付与部２０Ｄは、確定文３４の各々に表示時刻を付与する。

なお、表示時刻の算出方法は、上記のような、発話時間差に定数αを乗算する式を用いた形態に限定されない。具体的には、ｆ（ｘ）＝αｘといった式を用いる形態にて限定されない（αは上記定数αを示す）。例えば、付与部２０Ｄは、発話時間差に応じて単調増加する関数を用いて、表示時刻を算出してもよい。

上述したように、付与部２０Ｄは、発話時間差が大きいほど、確定文３４の確定時刻からの差の大きい表示時刻を、該確定文３４に付与する。なお、付与部２０Ｄは、この差に、上限と下限を設けることが好ましい。

具体的には、下記式（６）および式（７）に示す関係を満たすように、差に上限と下限を設けることが好ましい。

式（６）中、Ｖ_ｉ ^Ｒは、表示時刻（ここでは、差）を示す。式（７）中、（ｔ_ｉ ^Ｒ−ｔ_ｉ−１ ^Ｒ）は、発話時間差を示す。式（７）中、αは、上記と同様に、定数である。Ｔ^ｍｉｎは、差の下限を示す。Ｔ^ｍａｘは、差の上限を示す。

付与部２０Ｄが、上記式（６）および式（７）を用いることで、差を下限Ｔ^ｍｉｎ以上、上限Ｔ^ｍａｘ以下、となるように、差を算出することができる。

なお、これらの下限Ｔ^ｍｉｎおよび上限Ｔ^ｍａｘには、任意の値を予め設定すればよい。例えば、下限Ｔ^ｍｉｎには、ユーザの所望の最短表示時間を予め設定すればよい。最短表示時間は、例えば、３００秒である。上限Ｔ^ｍａｘには、最長表示時間を予め設定すればよい。最長表示時間は、例えば、１００００秒である。

図２に戻り説明を続ける。出力部２０Ｅは、付与部２０Ｄによって確定文３４ごとに表示時刻の付与された対象文データ３０を、表示端末１４へ送信する。

なお、以下では、確定文３４ごとに表示時刻の付与された対象文データ３０を、表示文３７と称して説明する場合がある。

ここで、出力部２０Ｅが、表示に不要な情報を含む表示文３７を表示端末１４へ送信すると、ネットワーク１６の帯域を逼迫するなどの問題が生じる場合がある。このため、出力部２０Ｅは、表示文３７は、確定文３４の表示順を示す表示順ＩＤ、該表示順ＩＤに対応する確定文３４に含まれる形態素列、および、該表示順ＩＤに対応する確定文３４の表示時刻、のみを、表示文３７として、表示端末１４へ送信することが好ましい。

なお、出力部２０Ｅから表示端末１４へ送信する表示文３７のデータ形式は限定されない。表示文３７のデータ形式は、例えば、ＪＳＯＮ形式、ＸＭＬ、テキスト形式、バイナリ表現、などである。

表示端末１４は、情報処理装置１０から受信した表示文３７に含まれる確定文３４を、対応する表示時刻に応じてディスプレイに表示する。このため、ディスプレイには、確定文３４を示す字幕が、該確定文３４に対応する表示時刻で、順次表示される。

例えば、表示端末１４は、表示文３７を受信すると、表示文３７を一旦プールする。そして、表示文３７に含まれる表示順によって示される表示順が最も早い確定文３４から順に、ディスプレイに表示する。このとき、表示端末１４は、前の確定文３４をディスプレイに表示してから、該確定文３４に示される表示時刻（例えば、差）が経過したときに、次の表示順の確定文３４をディスプレイに表示する処理を繰返す。

なお、表示端末１４は、ディスプレイに最新の確定文３４が常に表示されるように、オートスクロールすることが好ましい。

ここで、表示時刻が、上記差で表されていると仮定する（図１０の差ＴＣ参照）。この場合、確定文３４は、該確定文３４に対応する修正単位３２の終了時刻（図１０中、時刻ｔａ参照）に、該修正単位３２の修正に要した時間（図１０中、時間ＴＢ参照）と、差（図１０中、差ＴＣ参照）と、を加算した表示時刻に、表示される。言い換えると、確定文３４は、該確定文３４の修正の確定した確定時刻（図１０中、確定時刻ｔｂ参照）から、該確定文３４に付与された差ＴＣ（表示時刻）を経過した時刻に、表示される（図１０（Ｃ）参照）。

すなわち、図１０を用いて説明したように、例えば、確定文３４Ｂは、確定文３４Ｂに対応する修正単位３２に対応する発話時刻の終了時刻ｔａに、該確定文３４Ｂの修正時間ＴＢを加算した時刻（すなわち、確定時刻ｔｂ）から、差ＴＣ経過したときに、字幕として表示される。

ここで、従来では、確定文３４Ｂは、修正の確定した確定時刻ｔｂに表示されていた。このため、発話時刻のより早い確定文３４の字幕がユーザによって認識されている最中や認識前に、次のタイミンでに発話された確定文３４の字幕が表示される場合があった。このため、従来では、字幕がユーザによって読取り難い場合があった。

一方、本実施の形態の情報処理装置１０では、発話時間差ＴＡに応じて付与された表示時刻（差ＴＣ）に応じて、確定文３４が表示される。このため、本実施の形態の情報処理装置１０では、音声の字幕がより読みやすく提供される。

図１３は、表示端末１４のディスプレイに表示される、表示画面５０の一例を示す模式図である。

図１３（Ａ）〜図１３（Ｅ）には、表示端末１４が、日本語の表記の形態素を含む表示文３７に含まれる確定文３４（確定文３４Ａ〜３４Ｄ）を、字幕として順次表示した場合を示した。なお、図１３には、表示画面５０には、３行分の字幕が表示される場合を、一例として示した。

例えば、まず、初期状態では、表示画面５０には、字幕が表示されていない（図１３（Ａ）参照）。最初の確定文３４Ａ「では」に付与された表示時刻が“０”であるとする。この場合、表示端末１４は、該確定文３４Ａを含む表示文３７を受信した時に、該確定文３４Ａを示す字幕を、表示画面５０に表示する（図１３（Ｂ）参照）。

次の表示順の確定文３４Ｂ「東芝の渡辺が発表します。」に付与された表示時刻が“６０２”であったとする。この場合、表示端末１４は、確定文３４Ａを示す字幕「では」を１行スクロールし、該表示時刻“６０２”に応じて、確定文３４Ｂを示す字幕「東芝の渡辺が発表します。」を一番下に表示する（図１３（Ｃ）参照）。具体的には、表示端末１４は、該確定文３４Ｂの確定時刻から差“６０２”を経過したときに、確定文３４Ｂを示す字幕「東芝の渡辺が発表します。」を一番下に表示する。

そして、次の表示順の確定文３４Ｃ「まずアジェンダですが、」に付与された表示時刻が“２３０８”であったとする。この場合、表示端末１４は、確定文３４Ｂを示す字幕「東芝の渡辺が発表します。」を１行スクロールし、該表示時刻“２３０８”に応じて、確定文３４Ｃを示す字幕「まずアジェンダですが、」を一番下に表示する（図１３（Ｄ）参照）。具体的には、表示端末１４は、該確定文３４Ｃの確定時刻から差“２３０８”を経過したときに、確定文３４Ｃを示す字幕「まずアジェンダですが、」を一番下に表示する。

そして、次の表示順の確定文３４Ｄ「まず背景の音声・・・」に付与された表示時刻が“６１６”であったとする。この場合、表示端末１４は、確定文３４Ｃを示す字幕「まずアジェンダですが、」を１行スクロールし、該表示時刻“６１６”に応じて、確定文３４Ｄを示す字幕「まず背景の音声・・・」を一番下に表示する（図１３（Ｅ）参照）。具体的には、表示端末１４は、該確定文３４Ｄの確定時刻から差“６１６”を経過したときに、確定文３４Ｄを示す字幕「まず背景の音声・・・」を一番下に表示する。

ここで、従来方式のように、各確定文３４を確定時刻で表示した場合には、以下のような問題が発生する。例えば、図１３に示すように、確定文３４Ｂが、確定文３４Ｃに比べて長い文章であったと仮定する。また、確定文３４Ｂの修正時間が長時間であったと仮定する（例えば、“３０００”秒）。一方、確定文３４Ｃの修正時間は短時間であったと仮定する（例えば、“６００”秒）。

この場合、従来方式のように、各確定文３４の確定時刻で、確定文３４Ｂおよび確定文３４Ｃを表示すると、長い文章の確定文３４Ｂをユーザが読んでいる最中に、次の確定文３４Ｃが表示される場合があった。

一方、本実施の形態では、確定文３４には、発話時刻の発話時間差（図１０の発話時間差ＴＡ参照）に応じた表示時刻（図１０の差ＴＣ参照）が付与される。このため、表示端末１４が、付与された表示時刻に応じて各確定文３４を表示することで、長い文章の確定文３４Ｂの字幕の表示時間が確保される。

なお、表示画面５０に表示される字幕の行数は、３行に限定されない。例えば、表示画面５０に表示される字幕の行数は、１行であってもよい。

なお、形態素が、日本語とは異なる他の言語の表記で表されている場合についても同様に、表示端末１４は、表示時刻に応じて確定文３４を表示すればよい。

図１３（Ｆ）〜図１３（Ｊ）には、表示端末１４が、英語の表記の形態素を含む表示文３７に含まれる確定文３４（確定文３４Ａ’〜３４Ｄ’）を、字幕として順次表示した場合を示した。

この場合、例えば、まず、初期状態では、表示画面５０には、字幕が表示されていない（図１３（Ｆ）参照）。最初の確定文３４Ａ’「Ｔｈａｎｋｙｏｕｃｈａｉｒ．」に付与された表示時刻が“０”であるとする。この場合、表示端末１４は、該確定文３４Ａ’を含む表示文３７を受信した時に、該確定文３４Ａ’を示す字幕を、表示画面５０に表示する（図１３（Ｇ）参照）。

そして、表示端末１４は、確定文３４Ａ’を示す字幕「Ｔｈａｎｋｙｏｕｃｈａｉｒ．」を１行スクロールし、確定文３４Ｂ’の表示時刻に応じて、確定文３４Ｂ’を示す字幕「ｔｏｄａｙ，ＩｓｐｅａｋｔｏｙｏｕａｂｏｕｔｔｈｅＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ．」を一番下に表示する（図１３（Ｈ）参照）。

そして、表示端末１４は、確定文３４Ｂ’を示す字幕「ｔｏｄａｙ，ＩｓｐｅａｋｔｏｙｏｕａｂｏｕｔｔｈｅＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ．」を１行スクロールし、該確定文３４Ｃ’の表示時刻に応じて、確定文３４Ｃ’を示す字幕「Ｔｈｉｓｉｓｔｏｄａｙ’ｓａｇｅｎｄａ，」を一番下に表示する（図１３（Ｉ）参照）。

そして、表示端末１４は、確定文３４Ｃ’を示す字幕「Ｔｈｉｓｉｓｔｏｄａｙ’ｓａｇｅｎｄａ，」を１行スクロールし、確定文３４Ｄ’の表示時刻に応じて、確定文３４Ｄ’を示す字幕「ｆｉｒｓｔ，Ｉ’ｌｌｓｈｏｗｙｏｕｔｈｅｂａｃｋｇｒｏｕｎｄｏｆｔｈｅｒｅｓｅａｒｃｈ．」を一番下に表示する（図１３（Ｊ）参照）。

なお、上述したように、ユーザによって手書入力された手書文字の画像を、そのまま修正文字列として扱う場合がある。この場合、表示端末１４は、確定文３４に含まれる、手書文字の画像で表された形態素を、手書文字の画像のまま、表示すればよい。この場合、例えば、図１３（Ｋ）に示すように、表示端末１４は、手書文字の画像“入力”を含む表示画面５０を表示すればよい。

なお、情報処理装置１０の出力部２０Ｅは、手書文字の画像を含む表示文３７を表示端末１４へ送信する場合には、手書文字の画像をエンコードする必要がある。この場合、出力部２０Ｅは、手書文字の画像に示されるストロークをテキストで表してもよいし、手書文字の画像をラスタ画像に変換した上で、ＢＡＳＥ６４等の方法によりエンコードしてもよい。

例えば、手書文字の画像を示すストロークをテキスト化したＪＳＯＮ形式を用いる場合、テキスト文字列中に、画像タグを用いて、手書文字の画像のＩＤを埋め込めばよい。また、この場合、出力部２０Ｅは、手書文字の画像を示すストロークと、手書き文字の画像の大きさ（幅と高さ）と、をエンコードしてもよい。これによって、手書き入力された形状（例えば、縦横の比率）を維持した手書き文字の画像が、表示画面５０に表示されることとなる。

次に、本実施の形態の情報処理装置１０が実行する、情報処理の手順の一例を説明する。図１４は、情報処理装置１０が実行する情報処理の手順の一例を示す、フローチャートである。

まず、制御部２０は、対象文データ３０を分割した修正単位３２のリストを登録するための修正単位リスト３６を空にする（ステップＳ１００）。

そして、制御部２０では、取得・分割処理（ステップＳ１１０）と、修正・付与処理（ステップＳ１１２）と、を並列で行う。取得・分割処理は、取得部２０Ａが対象文データ３０を取得し、分割部２０Ｂが修正単位３２に分割する処理である。修正・付与処理は、修正部２０Ｃが修正単位３２を修正し、付与部２０Ｄが修正単位３２に対応する確定文３４へ表示時刻を付与する処理である。

取得部２０Ａ、分割部２０Ｂ、修正部２０Ｃ、および付与部２０Ｄは、取得・分割処理（ステップＳ１１０）と、修正・付与処理（ステップＳ１１２）と、を実行するときには、同じ修正単位リスト３６を共有して用いる。

ステップＳ１１０では、取得部２０Ａが取得した対象文データ３０を、分割部２０Ｂが修正単位３２に分割し、修正単位リスト３６へ登録する。ステップＳ１１２では、修正部２０Ｃおよび付与部２０Ｄが、修正単位リスト３６に追加された修正単位３２を、追加された順に処理していく。

図１５は、取得・分割処理（図１４のステップＳ１１０参照）の手順の一例を示す、フローチャートである。図１５には、取得部２０Ａが、複数の連続する形態素の群（形態素列）ごとに、対象文データ３０を取得する場合の、手順の一例を示した。なお、音声認識端末１２からは、音声認識された形態素が、発話時刻とともに、順次、情報処理装置１０へ送信されるものとする。

まず、取得部２０Ａは、音声認識端末１２から、順次、音声認識結果を取得する。そして、取得部２０Ａは、取得した音声認識結果が、音声の終端を示すか否かを判断する（ステップＳ２００）。例えば、取得部２０Ａは、取得した音声認識結果に、音声の終端を示すフラグ（すなわち、対象文データ３０の終端を示すフラグ）が含まれるか否かを判別することで、ステップＳ２００の判断を行う。

音声の終端ではないと判断した場合（ステップＳ２００：Ｎｏ）、ステップＳ２０２へ進む。ステップＳ２０２では、取得部２０Ａは、対象文データ３０を取得する（ステップＳ２０２）。

次に、分割部２０Ｂが、ステップＳ２０２で取得した対象文データ３０に含まれる、形態素の各々に対する分割スコアを算出する（ステップＳ２０４）。

次に、分割部２０Ｂは、ステップＳ２０２で取得した対象文データ３０の時間長が、予め定めた時間長Ｔ^Ｓ以下であるか否かを判断する（ステップＳ２０６）。

ステップＳ２０６で肯定判断すると（ステップＳ２０６：Ｙｅｓ）、ステップＳ２０８へ進む。ステップＳ２０８では、ステップＳ２０２で取得した対象文データ３０（Ｗ_ｉｎ）を、１つの修正単位３２として、修正単位リスト３６の末尾に追加する（ステップＳ２０８）。そして、上記ステップＳ２００へ進む。

一方、ステップＳ２０６で否定判断すると（ステップＳ２０６：Ｎｏ）、ステップＳ２１０へ進む。ステップＳ２１０では、分割部２０Ｂは、ステップＳ２０２で取得した対象文データ３０について、上述した式（４）および式（５）の関係を満たす分割位置ｋを探し、該対象文データ３０の先頭から分割位置ｋまでの形態素列を修正単位３２として、修正単位リスト３６の末尾に追加する（ステップＳ２１０）。

次に、分割部２０Ｂは、残りの形態素列を新たな対象文データ３０として設定し（ステップＳ２１２）、上記ステップＳ２０６へ戻る。

一方、ステップＳ２００において、音声の終端を示すと判断した場合（ステップＳ２００：Ｙｅｓ）、本処理を終了する。

図１６は、取得・分割処理（図１４のステップＳ１１０参照）の手順の一例を示す、フローチャートである。図１６には、取得部２０Ａが、形態素ごとに音声認識結果を音声認識端末１２から取得する場合の、手順の一例を示した。

まず、取得部２０Ａでは、形態素列のバッファ（以下、形態素列バッファと称する）を予め用意する。そして、まず、取得部２０Ａは、形態素列バッファを空にする（ステップＳ３００）。次に、取得部２０Ａは、音声認識端末１２から取得した音声認識結果が、音声の終端を示すか否かを判断する（ステップＳ３０２）。

ステップＳ３０２で否定判断すると（ステップＳ３０２：Ｎｏ）、ステップＳ３０４へ進む。ステップＳ３０４では、取得部２０Ａが新たな形態素を取得する（ステップＳ３０４）。次に、取得部２０Ａは、形態素列バッファの末尾に、ステップＳ３０４で取得した新たな形態素を追加する（ステップＳ３０６）。

次に、分割部２０Ｂは、形態素列バッファに格納されている形態素列の全時間長が、閾値Ｔ_２ ^Ｓ以上であるか否かを判断する（ステップＳ３０８）。ステップＳ３０８で否定判断すると（ステップＳ３０８：Ｎｏ）、上記ステップＳ３０４へ戻る。一方、ステップＳ３０８で肯定判断すると（ステップＳ３０８：Ｙｅｓ）、ステップＳ３１０へ進む。

ステップＳ３１０では、分割部２０Ｂは、形態素列バッファに格納されている形態素列を対象文データ３０とし、上述した式（４）および式（５）の関係を満たす分割位置ｋを探す（ステップＳ３１０）。

そして、分割部２０Ｂは、形態素列バッファの先頭の形態素から、ステップＳ３１０で探した分割位置ｋまでの形態素列を、形態素列バッファから削除し（ステップＳ３１２）、修正単位リスト３６の末尾へ追加する（ステップＳ３１４）。そして、上記ステップＳ３０４へ戻る。

一方、ステップＳ３０２で肯定判断すると（ステップＳ３０２：Ｙｅｓ）、ステップＳ３１６へ進む。ステップＳ３１６では、分割部２０Ｂは、形態素列バッファに残っている形態素列を、修正単位リスト３６の末尾へ追加する（ステップＳ３１６）。そして、本処理を終了する。

次に、修正・付与処理（図１４のステップＳ１１２）の手順を説明する。図１７は、修正・付与処理（図１４のステップＳ１１２参照）の手順の一例を示す、フローチャートである。

まず、修正部２０Ｃは、修正単位リスト３６が空であるか否かを判断する（ステップＳ４００）。ステップＳ４００で否定判断すると（ステップＳ４００：Ｎｏ）、ステップＳ４０４へ進む。

ステップＳ４０４では、修正部２０Ｃは、修正単位リスト３６の先頭の修正単位３２を１つ取り出す（ステップＳ４０４）。そして、修正部２０Ｃは、ステップＳ４０４で取り出した修正単位３２を、表示制御部２０Ｆを介して、ＵＩ部２４へ表示する（ステップＳ４０６）。上述したように、ＵＩ部２４には、修正単位３２を含む修正画面４０が表示される。

次に、修正部２０Ｃは、受付部２０Ｇを介してＵＩ部２４から、ユーザによる操作によって入力された修正操作の種類が「確定」であるか否かを判断する（ステップＳ４０８）。ステップＳ４０８で否定判断すると（ステップＳ４０８：Ｎｏ）、ユーザによる修正操作を修正単位３２に反映させて確定文３４とし（ステップＳ４１０）、後述するステップＳ４１８へ進む。ステップＳ４０８で肯定判断すると（ステップＳ４０８：Ｙｅｓ）、ステップＳ４１２へ進む。

ステップＳ４１２では、付与部２０Ｄが、ステップＳ４０８およびステップＳ４１０によって確定した確定文３４に、表示時刻を付与する（ステップＳ４１２）。

次に、出力部２０Ｅは、ステップＳ４１２で表示時刻を付与された確定文３４を、表示文３７として、表示端末１４へ送信する（ステップＳ４１４）。表示文３７を受付けた表示端末１４は、表示文３７に含まれる確定文３４を、該確定文３４に付与された表示時刻にディスプレイに表示する。

次に、修正部２０Ｃは、ステップＳ４０８で確定した確定結果を、ステップＳ４０６で表示した修正単位３２から削除する（ステップＳ４１６）。

次に、修正部２０Ｃは、ステップＳ４０６で表示した修正単位３２に含まれる全ての形態素について修正が終了したか否かを判断する（ステップＳ４１８）。ステップＳ４１８で否定判断すると（ステップＳ４１８：Ｎｏ）、上記ステップＳ４０８へ戻る。一方、ステップＳ４１８で肯定判断すると（ステップＳ４１８：Ｙｅｓ）、上記ステップＳ４００へ戻る。

一方、ステップＳ４００で肯定判断すると（ステップＳ４００：Ｙｅｓ）、ステップＳ４０２へ進む。ステップＳ４０２では、取得部２０Ａが、音声が終端であるか否かを判断する（ステップＳ４０２）。ステップＳ４０２で否定判断すると（ステップＳ４０２：Ｎｏ）、上記ステップＳ４００へ戻る。ステップＳ４０２で肯定判断すると（ステップＳ４０２：Ｙｅｓ）、本処理を終了する。

次に、修正部２０Ｃが実行する、ストロークＳの認識処理の手順の一例を説明する。図１８は、ストローク認識処理の手順の一例を示す、フローチャートである。

なお、修正部２０Ｃは、ストロークＳとして、例えばペン等が入力面に接してから離れるまでの軌跡を沿った点の集合（ストローク点列と称する）を取得する場合を説明する。まず、修正部２０Ｃは、ストローク点列を用いて、ストローク点列の方向の判別処理を実行する（ステップＳ５００）。

ステップＳ５００では、修正部２０Ｃは、ストローク点列の内、特徴的な点の列（特徴点列）と、隣接する特徴点間の方向を得る。特徴点間の方向は、例えば、Ｕｐ、ＵｐＲｉｇｈｔ、Ｒｉｇｈｔ、ＲｉｇｈｔＤｏｗｎ、Ｄｏｗｎ、ＤｏｗｎＬｅｆｔ、Ｌｅｆｔ、ＵｐＬｅｆｔ、の８種類とする。

すなわち、この場合、修正部２０Ｃは、８方向の直線の連続からなるストロークを認識する。なお、長さによってストロークの種類を変える、円形状のストロークを判別する、などの処理を更に行ってもよい。

まず、修正部２０Ｃは、ストローク点列を平滑化する。詳細には、修正部２０Ｃは、ストローク点列を構成する隣接する点間の距離が一定となるように、点を補間する。そして、修正部２０Ｃは、平滑化後のストローク点列における、各点について、曲率を計算する。

例えば、修正部２０Ｃは、下記式（８）〜式（１０）を用いて、式（１１）を求めることで、各点の曲率を計算する。

式（８）〜（１１）中、ｄ_ｉ ⁻、ｄ_ｉ ^＋、ｄ_ｉ ^±は、曲率の計算対象の点ｐ_ｉ ^ｆを中心とした、３つの座標値差を示す。式（８）〜式（１０）中、ｐ_ｉ ^ｆは、平滑化後のストローク点列における点を示す。ｐ_ｉ−１ ^ｆは、点ｐ_ｉ ^ｆに対して進行方向の上流側の隣に位置する他の点を示す。ｐ_ｉ−２ ^ｆは、点ｐ_ｉ ^ｆに対して進行方向の上流側の隣の隣に位置する他の点を示す。ｐ_ｉ＋１ ^ｆは、点ｐ_ｉ ^ｆに対して進行方向の下流側の隣に位置する他の点を示す。ｐ_ｉ＋２ ^ｆは、点ｐ_ｉ ^ｆに対して進行方向の下流側の隣の隣に位置する他の点を示す。なお、進行方向とは、ストロークの描かれる方向を示す。また、式（１１）中、ｃ_ｉは、点ｐ_ｉ ^ｆの曲率を示す。

次に、修正部２０Ｃは、平滑化後のストローク点列を構成する点の内、曲率の高い点、すなわち、ストロークＳが大きく曲がる点を、特徴点として特定する。例えば、修正部２０Ｃは、ストローク点列の始点に位置する点と、曲率が閾値より大きい点と、終点に位置する点と、を特徴点として特定する。

なお、修正部２０Ｃは、特定した点に、添え字の連続する点列が含まれる場合には、これらの点列の内、最も曲率の大きい点のみを、特徴点として特定する。

次に、修正部２０Ｃは、特徴点間の方向を判別し、ストロークの方向を得る。例えば、修正部２０Ｃは、各特徴点について、特徴点と、特徴点に隣接する他の特徴点と、を結ぶ線分の角度を、逆正接関数により導出する。そして、修正部２０Ｃは、導出した角度が、上記８種類の方向の何れに含まれるかを判別する。これにより、修正部２０Ｃは、特徴点間の方向を得る。なお、特徴点の前後で同じ方向が続く場合には、特徴点を削除すればよい。

このようにして、修正部２０Ｃは、特徴点列と、隣接する特徴点間の方向を、ストロークの方向として得る。

次に、修正部２０Ｃは、修正操作判別処理を実行する（ステップＳ５０２）。そして、本処理を終了する。

修正操作判別処理は、修正操作の種類（「削除」、「挿入」、「置換」、「確定」）を判別する処理である。

図１９は、修正操作判別処理の手順の一例を示す、フローチャートである。

修正部２０Ｃは、修正操作の種類ごとに、特徴点間の方向と、修正操作の対象とする対象点と、を、対応づけて予め修正操作判別表に記憶する。

そして、修正部２０Ｃは、ステップＳ５００で得られた、特徴点間の方向が、修正操作判別表に登録されているか否かを判別する（ステップＳ５１０）。

ステップＳ５１０で肯定判断すると（ステップＳ５１０：Ｙｅｓ）、ステップＳ５１２へ進む。ステップＳ５１２では、修正部２０Ｃは、ステップＳ５１０で判別した、修正操作判別表における、特徴点間の方向に対応する修正操作の種類を、ストロークＳの示す修正操作の種類として特定する（ステップＳ５１２）。そして、本処理を終了する。

例えば、ステップＳ５００の処理によって得られた特徴点列Ｐ_ｄｉｒが、Ｐ_ｄｉｒ＝（（１００，１００），（２００，１１５），（２１８，１６３））であり、方向Ｄが、Ｄ＝（Ｒｉｇｈｔ，Ｄｏｗｎ）であったと仮定する。そして、修正操作判別表には、この方向Ｄ＝（Ｒｉｇｈｔ，Ｄｏｗｎ）に対応する修正操作の種類として、「置換」が登録されており、対象点（０，１）が登録されていたと仮定する。この場合、修正部２０Ｃは、修正操作の種類を「置換」であると特定する。また、修正部２０Ｃは、修正操作の対象座標列Ｐ_{ｔａｒｇｅｔ}を、Ｐ_{ｔａｒｇｅｔ}＝（（１００，１００），（２００，１１５））と特定する。

一方、ステップＳ５１０で否定判断すると（ステップＳ５１０：Ｎｏ）、ステップＳ５１４へ進む。ステップＳ５１４では、対応する修正操作の種類が無い事を特定し（ステップＳ５１４）、本処理を終了する。

なお、図１９に示す例では、修正部２０Ｃは、特徴点間の方向が、修正操作判別表に登録されているか否か、すなわち、特徴点間の方向に完全に一致するものが修正操作判別表に登録されているか否か、を判別した。しかし、修正操作判別表に登録する方向の記述を正規表現とし、修正部２０Ｃは、方向がマッチする行を修正操作判別表から探すことで、上記判別を行ってもよい。このような方法を用いることで、ロバストな修正操作判別処理を行うことができる。

以上説明したように、本実施の形態の情報処理装置１０は、取得部２０Ａと、付与部２０Ｄと、を備える。取得部２０Ａは、音声認識された複数の形態素と、形態素の発話時刻と、を含む対象文データ３０を取得する。付与部２０Ｄは、対象文データ３０のユーザによる修正の確定した確定文３４と発話時刻が一つ前の他の確定文３４との差（発話時間差）に応じた表示時刻を付与する。

このように、本実施の形態では、情報処理装置１０は、発話時刻の発話時間差に応じた表示時刻を、確定文３４に付与する。

このため、本実施の形態の情報処理装置１０では、確定文３４に応じた字幕がユーザによって認識される前や認識中に、次のタイミングに発話された確定文３４に応じた字幕が表示されることを抑制するように、表示時刻を付与することができる。また、本実施の形態の情報処理装置１０は、話者がより時間をかけて話した内容の字幕を、より長期間表示するように、表示時刻を付与することができる。このため、表示時刻に応じて確定文３４を表示することで、情報処理装置１０は、音声の字幕を読みやすいタイミングで提供することができる。

従って、本実施の形態の情報処理装置１０では、音声の字幕を読みやすいタイミングで提供することができる。

また、修正単位３２に対応する確定文３４に、表示時刻を付与するため、ユーザが修正単位３２を修正するときの処理負荷を軽減することができる。

なお、本実施の形態の情報処理システム１００では、情音声認識端末１２と、情報処理装置１０と、表示端末１４と、を別体として構成した場合を示した。しかし、音声認識端末１２、情報処理装置１０、および、表示端末１４の内の少なくとも２つ以上を、一体的に構成してもよい。

（変形例１）
なお、上記実施の形態では、付与部２０Ｄは、確定文３４に表示時刻を付与する場合を説明した。

しかし、付与部２０Ｄは、隣接する複数の確定文３４を連結した連結確定文に、表示時刻を付与してもよい。

この場合、まず、付与部２０Ｄは、確定文３４に対する連結スコアを算出する。連結スコアとは、隣接する他の確定文３４との文章としてのつながり易さを示す値である。連結スコアが高いほど、文章としてつながりやすいことを意味する。そして、付与部２０Ｄは、連結スコアが閾値以上の場合、確定文３４と、確定文３４を他の確定文３４に連結した連結確定文に、表示時刻を付与する。

例えば、付与部２０Ｄは、連結スコアの算出対象の確定文３４（ｉ番目の確定文３４とする）について、句読点スコアを算出する。句読点スコアとは、ｉ番目の確定文３４が句読点で終わるか否かに関する値である。句読点スコアは、例えば、下記式（１２）で表される。

式（１２）中、Ｐ’_ｉは、ｉ番目の確定文３４の句読点スコアを示す。ｗ_ｎｉ ^ｉは、ｉ番目の確定文３４に含まれる、最後に位置する形態素を示す。

そして、付与部２０Ｄは、下記式（１３）を用いて、ｉ番目の確定文３４の連結スコアを算出する。

式（１３）中、（ｔ^ｂ，ｉ _１−ｔ^{ｅ，ｉ−１} _ｎｉ−１）は、一つ前の連結確定文との時間差（一つ前の連結確定文の最初の形態素に対応する開始時間と、ｉ番目の確定文３４に含まれる最初の形態素に対応する開始時間と、の差）を示す。また、式（１３）中、（ｔ^ｅ，ｉ _ｎｉ−ｔ^ｂ，ｊ _ｍ）は、一つ前の連結確定文と、ｉ番目の確定文３４とを連結した場合の総時間長を示す。なお、式（１３）中、ａ、ｂ、ｃは、予め定めた係数とする。

そして、付与部２０Ｄは、連結スコアに応じて、ｉ番目の確定文３４を、一つ前の確定文３４に連結するか否かを、下記式（１４）を用いて判断する。

式（１４）中、ｃ_ｉは、一つ前の確定文３４に連結するか否かを示す連結情報である。また、式（１４）中、Ｓ_ｉ ^ｃは、ｉ番目の確定文３４の連結スコアを示し、Ｃは、定数を示す。

すなわち、付与部２０Ｄは、連結スコアが閾値（定数Ｃ）以上の場合、確定文３４と、確定文３４を他の確定文３４に連結した連結確定文に、表示時刻を付与する。そして、付与部２０Ｄは、連結スコアに応じて連結した連結確定文ごとに、第１の実施の形態と同様にして、表示時刻を付与すればよい。

図２０は、表示端末１４のディスプレイに表示される、表示画面の一例を示す模式図である。

例えば、表示端末１４は、確定文３４Ａ「では」と確定文３４Ｂ「東芝の渡辺が発表します。」との連結確定文３９Ａを、該連結確定文３９Ａに付与された表示時刻に応じて、表示する（図２０（Ａ））。

そして、表示端末１４は、連結確定文３９Ａをスクロールし、確定文３４Ｃと確定文３４Ｄとの連結確定文３９Ｂを、該連結確定文３９Ｂに付与された表示時刻に応じて表示する（図２０（Ｂ））。

このため、本変形例の情報処理装置１０では、上記実施の形態の効果に加えて、文章としてより読みやすい単位で字幕を提供することができる。

（変形例２）
なお、上記実施の形態では、付与部２０Ｄは、対象文データ３０の修正単位３２に対応する、修正の確定した確定文３４に、発話時刻の発話時間差に応じた表示時刻を付与する場合を説明した。

しかし、付与部２０Ｄは、発話時間差と、修正単位３２に対する修正時間と、に応じた表示時刻を、確定文３４へ付与してもよい。

修正単位３２に対する修正時間とは、修正単位３２の修正に要した時間である。詳細には、修正単位３２に対する修正時間とは、修正部２０Ｃが、修正対象の修正単位３２をＵＩ部２４へ表示してから、該修正単位３２に対してユーザによる修正操作がなされ、修正が確定されるまで（確定時刻まで）、の期間である。

付与部２０Ｄは、上述したように、該確定文３４に対応する修正単位３２の発話時間差が大きいほど、該確定文３４の確定時刻からの差の大きい表示時刻を、該確定文３４に付与する。そして、本変形例では、更に、付与部２０Ｄは、確定文３４に対応する修正単位３２の修正時間が長いほど、該確定文３４の確定時刻からの差の小さい表示時刻を、該確定文３４に付与する。

具体的には、付与部２０Ｄは、下記式（１５）を用いて、表示時刻を算出すればよい。

式（１５）中、Ｖ^Ｒｉは、ｉ番目の確定文３４に付与する表示時刻を示す。また、（ｔ^Ｒｉ−ｔ^Ｒｉ−１）は、ｉ番目の確定文Ｒｉの開始時刻と、その前の（ｉ−１）番目の確定文Ｒｉ−１の開始時刻の差を示す。また、式（１６）中、ａ、ｂは、予め定めた係数とする。また、式（１６）中、ｈは、修正時間を示し、Ｈは閾値を示す。なお、Ｈ＞０．１＞ａ＞ｂ＞０の関係を示す。

すなわち、付与部２０Ｄは、上記式（１５）を用いることで、修正時間が予め定めた閾値Ｈより大きい（すなわち、修正に時間がかかっている）場合には、修正時間が閾値Ｈ以下（すなわち、修正に時間がかかっていない）場合に比べて、短い差の表示時刻を、確定文３４に付与する。

このため、本変形例の情報処理装置１０では、上記実施の形態の効果に加えて、確定文３４の修正に時間がかかった場合に、対応する字幕の表示が大きく遅れることを抑制することができる。

（変形例３）
なお、上記実施の形態では、付与部２０Ｄは、発話時刻の発話時間差に応じた表示時刻を確定文３４に付与することを説明した。そして、発話時間差が、確定文３４に含まれる先頭の形態素の開始時刻と、一つ前の他の確定文３４に含まれる先頭の形態素の開始時刻と、の差である場合を説明した。

しかし、発話時間差は、上記形態に限定されない。例えば、発話時間差は、発話時刻が１つ前の他の確定文３４に含まれる、最も発話時刻の早い形態素の開始時刻（発話開始時刻）と、最も発話時刻の遅い形態素の終了時刻（発話終了時刻）と、の差であってもよい。

図２１は、発話時間差の一例の説明図である。例えば、対象文データ３０に、確定文３４Ｇと確定文３４Ｈとが時系列に配列されていたと仮定する。そして、付与部２０Ｄが、確定文３４Ｈに表示時刻を付与する段階であるとする。

なお、図２１（Ａ）は、速い発話速度で短い期間の発話（確定文３４Ｇ）がなされた後に、長い間隔を隔てて次の発話（確定文３４Ｈ）がなされた場合の、対象文データ３０の一例を示す模式図である。また、図２１（Ｂ）は、遅い発話速度で短い期間の発話（確定文３４Ｉ）がなされた後に、短い間隔を隔てて、次の発話（確定文３４Ｊ）がなされた場合の、対象文データ３０の一例を示す模式図である。

図２１（Ａ）に示す対象文データ３０を処理する場合、上記実施の形態では、付与部２０Ｄは、確定文３４Ｈにおける最も発話時刻の早い形態素の開始時刻ｔｈ１と、１つ前の確定文３４Ｇにおける最も発話時刻の早い形態素の開始時刻ｔｇ１と、の時間差Ｔ１’を、発話時間差として用いていた。そして、付与部２０Ｄは、この時間差Ｔ１’の発話時間差に応じた発話時刻を、確定文３４Ｈに付与していた。

また、図２１（Ｂ）に示す対象文データ３０を処理する場合、上記実施の形態では、付与部２０Ｄは、確定文３４Ｊにおける最も発話時刻の早い形態素の開始時刻ｔｊ１と、１つ前の確定文３４Ｉにおける最も発話時刻の早い形態素の開始時刻ｔｉ１と、の時間差Ｔ２’を、発話時間差として用いていた。そして、付与部２０Ｄは、この時間差Ｔ２’の発話時間差に応じた発話時刻を、確定文３４Ｊに付与していた。

一方、本変形例では、図２１（Ａ）に示す対象文データ３０を処理する場合、付与部２０Ｄは、１つ前の確定文３４Ｇにおける最も発話時刻の早い形態素の開始時刻ｔｇ１と、該確定文３４Ｇにおける最も発話時刻の遅い形態素の終了時刻ｔｇ２と、の時間差Ｔ１を、発話時間差として用いる。そして、付与部２０Ｄは、この時間差Ｔ１の発話時間差に応じた発話時刻を、確定文３４Ｈに付与する。

また、本変形例では、図２１（Ｂ）に示す対象文データ３０を処理する場合、付与部２０Ｄは、１つ前の確定文３４Ｉにおける最も発話時刻の早い形態素の開始時刻ｔｉ１と、該確定文３４Ｉにおける最も発話時刻の遅い形態素の終了時刻ｔｉ２と、の時間差Ｔ２を、発話時間差として用いる。そして、付与部２０Ｄは、この時間差Ｔ２の発話時間差に応じた発話時刻を、確定文３４Ｊに付与する。

このように、付与部２０Ｄは、発話時刻が１つ前の他の確定文３４に含まれる、最も発話時刻の早い形態素の開始時刻（発話開始時刻）と、最も発話時刻の遅い形態素の終了時刻（発話終了時刻）と、の差を、発話時間差として用いて、確定文３４に発話時刻を付与してもよい。

このような発話時間差を用いることで、発話時刻が１つ前の他の確定文３４が遅い発話速度で長い期間発話されたものであった場合、付与部２０Ｄは、次の発話時刻の確定文３４に、より遅い表示時刻を付与することができる。すなわち、付与部２０Ｄは、遅い発話速度で長い期間発話された１つ前の確定文３４を、より長い期間表示するような表示時刻を、次の確定文３４に付与することができる。

また、発話時刻が１つ前の他の確定文３４が速い発話速度で短い時間発話されたものであった場合、付与部２０Ｄは、次の発話時刻の確定文３４に、より早い表示時刻を付与することができる。すなわち、付与部２０Ｄは、早い発話速度で長い期間発話された１つ前の確定文３４を、より短い期間表示するような表示時刻を、次の確定文３４に付与することができる。

このため、本変形例の情報処理装置１０は、第１の実施の形態の効果に加えて、話者の話速に応じた表示時刻を付与することができ、話者の意図をより正確に伝える字幕を提供することができる。

（第２の実施の形態）
本実施の形態では、音声認識されなかった期間（空間期間）であることを示す空白情報を修正単位３２へ挿入する場合を説明する。

図２２は、本実施の形態の情報処理装置１０Ｅの機能ブロック図の一例である。

情報処理装置１０Ｅは、空白挿入部２１Ｅを備えること以外は、第１の実施の形態と同様である。本実施の形態では、上記実施の形態と同様の機能の構成については、同じ符号を付与し、詳細な説明を省略する。

空白挿入部２１Ｈは、修正単位３２に音声認識されなかった空白期間が含まれる場合、空白期間であることを示す空白情報を挿入する。修正単位３２に含まれる各形態素の発話時刻（開始時刻、終了時刻）を用いて、空白の期間が所定の閾値以上である場合に、空白期間であることを示す空白情報を生成する。空白情報は、音声認識されなかったことを示すまたは話者が誰も話していないことを示す情報であればよい。

修正部２１Ｃは、空白情報の挿入された修正単位３２を、確定文３４として用いる。

このため、確定文３４に空白情報が含まれる場合には、空白情報が字幕として表示される。

次に、本実施の形態の情報処理装置の制御部２１Ｅは、図１４におけるステップＳ１１０の処理において、図２３に示す処理を実行する。

図２３は、制御部２１Ｅが実行する取得・分割処理の一例の説明図である。なお、音声認識端末１２からは、音声認識された形態素が、発話時刻とともに、順次、情報処理装置１０Ｅへ送信されるものとする。

まず、取得部２０Ａが、音声認識端末１２から、順次、音声認識結果を取得する。そして、取得部２０Ａは、取得した音声認識結果が、音声の終端を示すか否かを判断する（ステップＳ６００）。ステップＳ６００の処理は、第１の実施の形態と同様である（図１５、ステップＳ２００参照）。

ステップＳ６００で肯定判断すると（ステップＳ６００：Ｙｅｓ）、本処理を終了する。ステップＳ６００で否定判断すると（ステップＳ６００：Ｎｏ）、ステップＳ６０２へ進む。ステップＳ６０２では、取得部２０Ａが対象文データ３０を取得可能であるか否かを判断する（ステップＳ６０２）。

ステップＳ６０２で否定判断すると（ステップＳ６０２：Ｎｏ）、ステップＳ６０４へ進む。ステップＳ６０４では、空白挿入部２１Ｈが、１つ前に取得した対象文データ３０と現在時刻との時間差が閾値以上であるか否かを判断する（ステップＳ６０４）。この閾値には、予め定めた値を設定すればよい。

ステップＳ６０４で肯定判断すると（ステップＳ６０４：Ｙｅｓ）、ステップＳ６０６へ進む。ステップＳ６０６では、空白挿入部２１Ｈが、空白情報を生成し、修正単位３２として、修正単位リスト３６の末尾に追加する（ステップＳ６０６）。そして、上記ステップＳ６０２へ戻る。ステップＳ６０４で否定判断した場合（ステップＳ６０４：Ｎｏ）についても、上記ステップＳ６０２へ戻る。

一方、上記ステップＳ６０２で肯定判断すると（ステップＳ６０２：Ｙｅｓ）、ステップＳ６０８へ進む。ステップＳ６０８では、取得部２０Ａが、対象文データ３０を取得する（ステップＳ６０８）。

次に、空白挿入部２１Ｈが、１つ前に取得した対象文データ３０と、今回ステップＳ６０２で取得した対象文データ３０と、の時間差が閾値以上であるか否かを判断する（ステップＳ６１０）。この閾値には、予め定めた値を設定すればよい。なお、ステップＳ６１０で用いる閾値は、上記ステップＳ６０４で用いる閾値より小さい値であることが好ましい。

ステップＳ６１０で肯定判断すると（ステップＳ６１０：Ｙｅｓ）、ステップＳ６１２へ進む。ステップＳ６１２では、空白挿入部２１Ｈが、空白情報を生成し、修正単位３２として、修正単位リスト３６の末尾に追加する（ステップＳ６１２）。そして、ステップＳ６１４へ進む。ステップＳ６１０で否定判断した場合も（ステップＳ６１０：Ｎｏ）、ステップＳ６１４へ進む。

そして、制御部２１Ｅは、ステップＳ６１４〜ステップＳ６２２の処理を実行する。ステップＳ６１４〜ステップＳ６２２の処理は、第１の実施の形態の、図１５に示すステップ２０４〜ステップＳ２１２と同様である。

以上説明したように、本実施の形態の情報処理装置１０Ｅでは、音声認識されなかった空白期間が含まれる場合、空白挿入部２１Ｈが、空白期間であることを示す空白情報を修正単位３２へ挿入する。

従って、本実施の形態の情報処理装置１０Ｅでは、確定文３４に空白情報が含まれる場合には、空白情報が字幕として表示されるため、上記実施の形態の効果に加えて、話者の意図や、発話中の雰囲気を、字幕で提供することが可能となる。

（第３の実施の形態）
本実施の形態では、修正操作に制限時間を設ける場合を説明する。

図２は、本実施の形態の情報処理装置１０Ｆの機能ブロック図の一例である。

本実施の形態では、修正部１０１Ｃが修正単位３２の修正時間が修正制限時間となった場合、該修正制限時間に到達した時刻を該修正単位３２に対応する確定文３４の確定時刻とする機能を皿に持つ。修正部１０１Ｃの追加の機能以外は第１の実施の形態と同様である。本実施の形態では、上記実施の形態と同様の機能の構成については、同じ符号を付与し、詳細な説明を省略する。

修正制限時間は、修正単位３２がＵＩ部２４に表示された表示開始時刻Ｔｄ１からの経過時間で表す。なお、修正制限時間には、任意の値を予め設定すればよい。

修正部１０１Ｃでは、修正時間が修正制限時間となった時刻における修正内容を、該修正単位３２の確定文３４として用いる。また、修正部１０１Ｃでは、該修正制限時間となった時刻を、該確定文３４の確定時刻として用いる。

なお、情報処理装置１０Ｆは、カウント開始の時刻の異なる２種類の修正制限時間を用いてもよい。例えば、情報処理装置１０Ｆは、第１の修正制限時間と、第２の修正制限時間と、を、修正制限時間として用いてもよい。第１の修正制限時間は、表示開始時刻Ｔｄ１からの経過時間で表される。第２の修正制限時間は、ＵＩ部２４に表示された修正単位３２に対してユーザによる修正操作が開始された操作開始時刻Ｔｄ２からの経過時間で表される。

なお、第１の修正制限時間および第２の修正制限時間には、任意の値を予め設定すればよい。但し、第１の修正制限時間は、第２の修正制限時間より短いことが好ましい。このように設定することで、情報処理装置１０Ｆでは、ユーザが修正を全く行わない時間が長い場合であっても、より短い遅延時間で、確定文３４の字幕を表示端末１４に表示させることができる。また、情報処理装置１０Ｆは、ユーザが修正操作を行っている場合には、ある程度の遅延を許容して修正操作を継続させることができる。

また、修正部１０１Ｃは、修正単位３２と共に、修正制限時間を示す情報をＵＩ部２４へ表示するように、表示制御部１０１Ｆを制御する。すなわち、表示制御部１０１Ｆは、修正単位３２と、修正単位３２の修正制限時間と、を含む修正画面４０を、ＵＩ部２４（表示部）に表示する。

図２４は、修正画面４０の一例を示す模式図である。上記実施の形態で説明したように、修正画面４０には、確定領域４１Ａと、修正領域４１Ｂと、が設けられている（図６参照）。確定領域４１Ａには、確定文３４が表示され、修正領域４１Ｂには、修正単位３２が表示される。

本実施の形態では、表示制御部１０１Ｆは、修正制限時間を更に含む、修正画面４０を表示する。また、表示制御部１０１Ｆは、修正制限時間と、修正制限時間までの残り時間と、を含む修正画面４０を表示することが好ましい。

例えば、表示制御部１０１Ｆは、修正制限時間と、修正制限時間までの残り時間と、を示すタイムバー４２を表示する（図２４（Ａ）〜図２４（Ｄ）参照）。

タイムバー４２は、修正制限時間を、バーの全長で表したものである。また、図２４（Ａ）に示す例では、タイムバー４２Ａの全長が修正制限時間を示し、黒色領域ＢＬが修正制限時間までの残り時間を示し、灰色領域ＧＲが表示開始時刻Ｔｄ１からの経過時間を示す。

このため、修正単位３２がＵＩ部２４へ表示された直後では、表示制御部１０１Ｆは、タイムバー４２全体を黒色領域ＢＬで示したタイムバー４２Ｂを含む修正画面４０を、ＵＩ部２４へ表示する（図２４（Ｂ））。そして、ユーザによる修正操作中は、表示制御部１０１Ｆは、表示開始時刻Ｔｄ１からの時間の経過に伴い、黒色領域ＢＬの占める割合を減少させ、灰色領域ＧＲの占める割合を増加させる。このため、ＵＩ部２４に表示されるタイムバー４２は、図２４（Ｃ）、図２４（Ｄ）に示すように変化する（タイムバー４２Ｃ、タイムバー４２Ｄ参照）。

そして、タイムバー４２の全体が灰色領域ＧＲとなったとき、すなわち、表示開始時刻Ｔｄ１からの経過時間が修正制限時間と一致したときに、修正部１０１Ｃは、修正領域４１Ｂに表示されている修正単位３２の修正が確定したものと判断する。そして、修正部１０１Ｃは、第１の実施の形態の修正部２０Ｃと同様の処理を行えばよい。

なお、修正制限時間をタイムバー４２で表示する形態に限定されない。例えば、修正制限時間と、修正制限時間までの残り時間と、を修正単位３２の文字色で表現してもよい。

例えば、図２４（Ｅ）に示すように、表示制御部１０１Ｆは、修正制限時間までの残り時間の減少に伴い、修正単位３２に含まれる文字の色を、第１の色（例えば、黒色）から第２の色（例えば灰色）に変化させてもよい（修正画面４０Ｉ参照）。

なお、ユーザによる修正操作によって、修正領域４１Ｂに表示される文字が変更される場合がある。このため、文字色を変化させる場合、修正制限時間までの残り時間に応じて、文字色を変化させる文字数の比率を、予め定めておけばよい。そして、表示制御部１０１Ｆは、修正制限時間までの残り時間に応じた文字色の比率で、修正領域４１Ｂに表示されている文字を表示すればよい。

なお、図２４には、形態素を、日本語の表記で表した場合を一例として示した。しかし、形態素の言語は、日本語に限定されない。例えば、形態素の言語は、英語であってもよい。

図２５は、形態素の言語を英語で表記した場合の、修正画面４０の一例を示す模式図である。図２５に示すように、修正画面４０Ｌには、確定領域４１Ａと、修正領域４１Ｂと、が設けられている。確定領域４１Ａには、例えば、英語で表記した形態素を含む確定文３４が表示され、修正領域４１Ｂには、英語で表記した形態素を含む修正単位３２が表示される。また、修正画面４０Ｌには、修正画面４０Ｈ（図２４（Ａ）参照）と同様に、修正制限時間と、修正制限時間までの残り時間と、を示すタイムバー４２Ｇを含んだ構成とすればよい。

図２に戻り、説明を続ける。なお、上述したように、情報処理装置１０Ｆは、カウント開始時刻の異なる２種類の修正制限時間（第１の修正制限時間、第２の修正制限時間）を用いる場合がある。

この場合、情報処理装置１０１Ｆは、２種類の修正制限時間を含む修正画面４０を、ＵＩ部２４へ表示すればよい。

例えば、図２４（Ｆ）および図２４（Ｇ）に示すように、表示制御部１０１Ｆは、第１の修正制限時間と第２の修正制限時間の各々に対応する２種類のタイムバー４２を用いればよい。

図２４（Ｇ）に示す例では、修正画面４０Ｊに含まれるタイムバー４２Ｊは、第１の修正制限時間を、バーの全長で表したものである。また、図２４（Ｇ）に示す例では、タイムバー４２Ｊの全長が第１の修正制限時間を示し、黒色領域ＢＬが第１の修正制限時間までの残り時間を示し、灰色領域ＧＲが表示開始時刻Ｔｄ１からの経過時間を示す。

図２４（Ｇ）に示す例では、修正画面４０Ｋに含まれるタイムバー４２Ｋは、第２の修正制限時間を、バーの全長で表したものである。また、図２４（Ｇ）に示す例では、タイムバー４２Ｋの全長が第２の修正制限時間を示し、灰色領域ＧＲが第２の修正制限時間までの残り時間を示し、白色領域Ｗが修正開始時刻Ｔｄ２からの経過時間を示す。

このように、表示制御部１０１Ｆは、修正制限時間を含む修正画面４０を、ＵＩ部２４へ表示すればよい。

次に、本実施の形態の情報処理装置１０Ｆが実行する、情報処理の手順の一例を説明する。

情報処理装置１０Ｆの制御部１０１Ａは、第１の実施の形態の制御部２０と同様に、図１４に示す処理を実行する。なお、制御部１０１Ａは、図１４におけるステップＳ１１２の修正・付与処理において、第１の実施の形態とは一部異なる処理を実行する。

制御部１０１Ａは、第１の実施の形態の制御部２０と同様に、図１７に示すステップＳ４０６〜ステップＳ４１８の処理（修正処理と称する）に代えて、図２６に示す修正処理を実行する。

図２６は、修正処理の手順の一例を示すフローチャートである。なお、図２６は、修正制限時間が１種類である場合の、修正処理の手順の一例を示すフローチャートである。この修正制限時間は、上述したように、修正単位３２がＵＩ部２４に表示された表示開始時刻Ｔｄ１からの経過時間で表される。

まず、修正部１０１Ｃが、修正単位３２と修正制限時間とを含む修正画面４０を、ＵＩ部２４へ表示する（ステップＳ７００）。修正部１０１Ｃは、この修正単位３２をＵＩ部２４へ表示した時刻を、表示開始時刻Ｔｄ１として保持する。

次に、制御部１０１Ａは、ステップＳ７０２の処理の実行中に、並行して、ステップＳ７０４の処理を行う。

ステップＳ７０２の処理は、ステップＳ７０８〜ステップＳ７１８の処理を含む。ステップＳ７０８〜ステップＳ７１８の処理は、第１の実施の形態のステップＳ４０８〜ステップＳ４１８（図１７参照）と同様である。

すなわち、修正部１０１Ｃは、受付部２０Ｇを介してＵＩ部２４から、ユーザによる操作によって入力された修正操作の種類が「確定」であるか否かを判断する（ステップＳ７０８）。ステップＳ７０８で否定判断すると（ステップＳ７０８：Ｎｏ）、ステップＳ７１８へ進む。ステップＳ７０８で肯定判断すると（ステップＳ７０８：Ｙｅｓ）、ステップＳ７１２へ進む。

ステップＳ７１２では、付与部２０Ｄが、ステップＳ７０８によって確定した確定文３４に、表示時刻を付与する（ステップＳ７１２）。次に、出力部２０Ｅが、ステップＳ７１２で表示時刻を付与された確定文３４を、表示文３７として、表示端末１４へ送信する（ステップＳ７１４）。次に、修正部１０１Ｃは、ステップＳ７０８で確定した確定結果を、ステップＳ７００で表示した修正単位３２から削除する（ステップＳ７１６）。

次に、修正部１０１Ｃは、ステップＳ７００で表示した修正単位３２に含まれる全ての形態素について修正が終了したか否かを判断する（ステップＳ７１８）。ステップＳ７１８で否定判断すると（ステップＳ７１８：Ｎｏ）、上記ステップＳ７０８へ戻る。一方、ステップＳ７１８で肯定判断すると（ステップＳ７１８：Ｙｅｓ）、修正処理を終了する。

一方、制御部１０１Ａは、ステップＳ７０２の処理の実行中に、並行して、ステップＳ７０４の処理を行う。

ステップＳ７０４の処理は、ステップＳ７０６の判断を含む。ステップＳ７０６では、修正部１０１Ｃが、ステップＳ７００で修正単位３２を表示した表示開始時刻Ｔｄ１からの経過時間が、修正制限時間Ｕ以上であるか否かを判断する（ステップＳ７０６）。修正部１０１Ｃは、表示開始時刻Ｔｄ１と現在時刻との差が、修正制限時間Ｕ以上であるか否かを判別することで、ステップＳ７０６の判断を行う。

修正部１０１Ｃは、ステップＳ７０６で肯定判断するまで（ステップＳ７０６：Ｙｅｓ）、否定判断（ステップＳ７０６：Ｎｏ）を繰返す。そして、ステップＳ７０６で肯定判断すると（ステップＳ７０６：Ｙｅｓ）、上記ステップＳ７１２へ進む。

次に、情報処理装置１０Ｆが、第１の修正制限時間と、第２の修正制限時間と、を修正制限時間として用いる場合の、修正処理の手順を説明する。

上述したように、第１の修正制限時間は、表示開始時刻Ｔｄ１からの経過時間で表される。第２の修正制限時間は、ＵＩ部２４に表示された修正単位３２に対してユーザによる修正操作が開始された操作開始時刻Ｔｄ２からの経過時間で表される。

図２７は、修正処理の手順の一例を示すフローチャートである。

まず、修正部１０１Ｃが、修正単位３２と修正制限時間とを含む修正画面４０を、ＵＩ部２４へ表示する（ステップＳ８００）。修正部２０Ｃは、この修正単位３２をＵＩ部２４へ表示した時刻を、表示開始時刻Ｔｄ１として保持する。

次に、修正部１０１Ｃは、表示された修正単位３２に対してユーザが修正操作を開始したか否かを判断する（ステップＳ８０２）。例えば、修正部１０１Ｃは、ユーザによるＵＩ部２４の操作によって修正画面４０に対して何等かの操作指示がなされたか否かを判別することで、ステップＳ８０２の判断を行う。

修正部１０１Ｃは、ステップＳ８０２で肯定判断（ステップＳ８０２：Ｙｅｓ）するまで、否定判断（ステップＳ８０２：Ｎｏ）を繰返す。そして、修正部１０１Ｃは、肯定判断すると（ステップＳ８０２：Ｙｅｓ）、ステップＳ８０４へ進む。

ステップＳ８０４では、修正部１０１Ｃは、ステップＳ８０２で肯定判断した時刻を、修正操作の開始された操作開始時刻Ｔｄ２として特定する（ステップＳ８０４）。

そして、制御部１０１Ａは、図２６で説明したステップＳ７０８〜ステップＳ７１８の処理と同様にして、ステップＳ８０６〜ステップＳ８１６の処理を実行する。

なお、制御部１０１Ａは、上記ステップＳ８０２〜ステップ８１６の処理に並行して、ステップＳ８１８の処理を実行する。ステップＳ８１８では、修正部１０１Ｃが、ステップＳ８００で修正単位３２を表示した表示開始時刻Ｔｄ１からの経過時間が、第１の修正制限時間Ｕ１以上であるか否かを判断する（ステップＳ８１８）。修正部１０１Ｃは、表示開始時刻Ｔｄ１と現在時刻との差が、第１の修正制限時間Ｕ１以上であるか否かを判別することで、ステップＳ８１８の判断を行う。

修正部１０１Ｃは、ステップＳ８１８で肯定判断するまで（ステップＳ８１８：Ｙｅｓ）、否定判断（ステップＳ８１８：Ｎｏ）を繰返す。そして、ステップＳ８１８で肯定判断すると（ステップＳ８１８：Ｙｅｓ）、ステップＳ８１０へ進む。

また、制御部１０１Ａは、上記ステップＳ８０６〜ステップ８１６の処理に並行して、ステップＳ８２０の処理を実行する。ステップＳ８２０では、修正部１０１Ｃが、ステップＳ８０４で特定した操作開始時刻Ｔｄ２からの経過時間が、第２の修正制限時間Ｕ２以上であるか否かを判断する（ステップＳ８２０）。修正部１０１Ｃは、操作開始時刻Ｔｄ２と現在時刻との差が、第２の修正制限時間Ｕ２以上であるか否かを判別することで、ステップＳ８２０の判断を行う。

修正部１０１Ｃは、ステップＳ８２０で肯定判断するまで（ステップＳ８２０：Ｙｅｓ）、否定判断（ステップＳ８２０：Ｎｏ）を繰返す。そして、ステップＳ８２０で肯定判断すると（ステップＳ８２０：Ｙｅｓ）、ステップＳ８１０へ進む。

以上説明したように、本実施の形態の情報処理装置１０Ｆでは、修正単位３２の修正時間が修正制限時間となった時刻における修正内容を、該修正単位３２の確定文３４として用いる。また、情報処理装置１０Ｆでは、該修正制限時間となった時刻を、該確定文３４の確定時刻として用いる。

このため、本実施の形態の情報処理装置１０Ｆでは、ユーザによる修正単位３２の修正に時間を要することで、該修正単位３２に応じた確定文３４に沿った字幕の表示が大きく遅延することを、抑制することができる。また、ユーザによる修正単位３２の修正時間が際限無く大きくなることを抑制することができ、音声の発話時刻に応じた表示時刻で、確定文３４の字幕を表示することができる。

従って、本実施の形態の情報処理装置１０Ｆでは、ユーザによる修正単位３２の修正操作には時間を要する場合でも、上記実施の形態の効果に加えて、より正確に話者の意図を反映した字幕表示を提供することができる。

（変形例４）
なお、上記第３の実施の形態では、修正制限時間には、任意の値を予め設定する場合を説明した。

しかし、修正部１０１Ｃは、修正単位３２の長さに応じて、修正制限時間を調整してもよい。

修正単位３２の長さとは、修正単位３２に含まれる文字数や、形態素の数や、修正単位３２の時間長である。

具体的には、修正部１０１Ｃは、修正単位３２の長さが短いほど、短い修正制限時間を設定する。言い換えると、修正部１０１Ｃは、修正単位３２の長さが長いほど、長い修正制限時間を設定する。

例えば、修正単位３２に含まれる文字数がｎ文字であったと仮定する。この場合、修正部１０１Ｃは、この修正単位３２の修正制限時間として、ｎ文字と、１文字当りの制限時間と、の乗算結果を用いればよい。１文字当りの制限時間は、予め定めればよい。

また、修正単位３２に含まれる形態素の数がｍ個であったと仮定する。この場合、修正部１０１Ｃは、この修正単位３２の修正制限時間として、ｍ個と、１つの形態素当りの制限時間と、の乗算結果を用いればよい。１つの形態素当りの制限時間は、予め定めればよい。

なお、修正単位３２に、複数の意味を成す１つの文字が含まれる場合がある。例えば、修正単位３２に、漢字が含まれる場合がある。この場合、文字数や形態素の数を修正単位３２の長さとして用いると、正確な修正制限時間を算出できない場合がある。

この場合、修正部１０１Ｃは、修正単位３２の時間長を、修正単位３２の長さとして用いることが好ましい。

修正単位３２の時間長は、修正単位３２に含まれる最も早い発話時刻の形態素に対応する開始時刻と、最も遅い発話時刻の形態素に対応する終了時刻と、の差で表される。なお、修正単位３２の時間長には、修正単位３２に含まれる形態素の各々の、開始時刻と終了時刻との時間差の、合計値を用いてもよい。

そして、修正部１０１Ｃは、例えば、下記式（１７）を用いて、修正制限時間を算出すればよい。

式（１７）中、Ｕ_ｉは、ｉ番目の修正単位３２の修正制限時間を示す。（ｔ_ｋ ^ｅ−ｔ_ｋ ^ｂ）は、修正単位３２に含まれる形態素（ｋ＝１〜ｍまでの形態素）の各々の、開始時刻と終了時刻との時間差を示す。また、式（１７）中、Ｕ_１ ^ｔは、修正単位３２の元の音声の時間長に対する修正制限時間の比率であり、０より大きい値である。Ｕ_２ ^ｔは、形態素毎に付与された時間マージンを表す。Ｕ_１ ^ｔおよびＵ_２ ^ｔは、予め定めればよい。

具体的には、図３に示す修正単位３２Ｃの修正制限時間を算出すると仮定する。但し、Ｕ_１ ^ｔは“２”、Ｕ_２ ^ｔは、“１００”とした。また、１文字当りの制限時間は“３００”、１つの形態素当りの制限時間は“６００”とした。図３に示す修正単位３２Ｃは、文字数ｎは“８”、形態素数ｍは“２”である。

この場合、修正単位３２Ｃに含まれる文字数を修正単位３２Ｃの長さとした場合、修正制限時間は“２４００”となる。また、修正単位３２Ｃに含まれる形態素数を修正単位３２Ｃの長さとした場合、修正制限時間は“１２００”となる。また、修正単位３２Ｃの時間長を修正単位３２Ｃの長さとした場合、修正制限時間は“２０４４”となる。

一方、図３に示す修正単位３２Ｄの修正制限時間を算出すると仮定する。但し、Ｕ_１ ^ｔは“２”、Ｕ_２ ^ｔは、“１００”とした。また、１文字当りの制限時間は“３００”、１つの形態素当りの制限時間は“６００”とした。修正単位３２Ｄは、文字数ｎ“２１”、形態素数ｍ“１１”、時間長“８２７０”であったとする。

この場合、修正単位３２Ｄに含まれる文字数を修正単位３２Ｄの長さとした場合、修正制限時間は“６３００”となる。また、修正単位３２Ｄに含まれる形態素数を修正単位３２Ｄの長さとした場合、修正制限時間は“６６００”となる。また、修正単位３２Ｄの時間長を修正単位３２Ｄの長さとした場合、修正制限時間は“８２７０”となる。

このように、修正部１０１Ｃは、修正単位３２の長さが長いほど、長い修正制限時間を設定してもよい。

（変形例５）
なお、修正部１０１Ｃは、修正単位３２の長さと、修正単位３２に対する音声認識の正確さに応じて、修正制限時間を調整してもよい。

具体的には、修正部１０１Ｃは、確信度が高いほど、短い修正制限時間を設定する。確信度は、修正単位３２に対する音声認識の正確さを表す。確信度が高いほど、音声認識がより正確であることを示す。

本変形例では、確信度は、０以上１以下の範囲の値で表されるものとする。そして、本変形例では、確信度の値が大きいほど、確信度が高い事を示すものとする。具体的には、確信度“０”から確信度“１”に向かって、確信度が高い事を示すものとする。なお、確信度の値が小さいほど、確信度が高い事を示すものであってもよい。

なお、確信度の数値範囲は、０以上１以下の範囲に限定されない。例えば、確信度の数値範囲は、０以上１００以下の範囲であってもよい。

この場合、取得部２０Ａは、形態素の各々に確信度の付与された対象文データ３０を、音声認識端末１２から取得すればよい。

図２８は、対象文データ３０のデータ構成の一例を示す模式図である。対象文データ３０は、音声認識端末１２によって音声認識されたテキストデータと、発話時刻と、を含む。テキストデータは、複数の形態素を含む。発話時刻は、例えば、発話開始時刻と発話終了時刻とで表される。

本変形例では、対象文データ３０は、形態素の各々に対応する確信度を示す。本変形例では、確信度は、音声認識端末１２によって付与されるものとする。

修正部１０１Ｃは、確信度が高いほど、短い修正制限時間を、修正単位３２へ設定する。また、修正部１０１Ｃは、上記変形例４と同様に、修正単位３２の長さが短いほど、短い修正制限時間を、修正単位３２へ設定する。

例えば、修正部１０１Ｃは、下記式（１８）を用いて、修正制限時間を算出する。なお、式（１８）には、修正単位３２の時間長を、修正単位３２の長さとして用いる場合を示した。

式（１８）中、Ｕ_ｉは、ｉ番目の修正単位３２の修正制限時間を示す。（ｔ_ｋ ^ｅ−ｔ_ｋ ^ｂ）は、修正単位３２に含まれる形態素（ｋ＝１〜ｍまでの形態素）の各々の、開始時刻と終了時刻との時間差を示す。また、式（１８）中、Ｕ_１ ^ｃｔは、ｉ番目の修正単位３２の元の音声の時間長に対する修正制限時間の比率であり、０より大きい値である。Ｕ_２ ^ｃｔは、形態素毎に付与された時間マージンを表す。Ｕ_１ ^ｃｔおよびＵ_２ ^ｃｔは、予め定めればよい。

また、式（１８）中、ｃ_ｋは、ｉ番目の修正単位３２に含まれる形態素（ｋ＝１〜ｍまでの形態素）の各々の確信度を示す。

具体的には、修正部１０１Ｃが、図２８（Ａ）に示す修正単位３２Ｃおよび修正単位３２Ｄの修正制限時間を算出すると仮定する。但し、Ｕ_１ ^ｃｔは“３”、Ｕ_２ ^ｃｔは、“１００”とした。

この場合、修正部１０１Ｃは、上記式（１８）を用いることで、修正単位３２Ｃの修正制限時間として“１９０４．１”を算出する。同様に、修正部１０１Ｃは、上記式（１８）を用いることで、修正単位３２Ｄの修正制限時間として“６６３２．４”を算出する（図２８（Ｂ）参照）。

このように、修正部１０１Ｃは、確信度が高いほど短く、且つ、修正単位３２の長さが短いほど短い、修正制限時間を、該修正単位３２へ設定する。

なお、図２８には、形態素を、日本語の表記で表した場合を一例として示した。しかし、形態素の言語は、日本語に限定されない。例えば、図２９に示すように、対象文データ３０は、テキストデータ（形態素）を英語で表記した対象文データ３１であってもよい。

この場合についても、日本語の表記の場合と同様にして、修正部１０１Ｃは、修正制限時間を算出し、設定すればよい。

具体的には、修正部１０１Ｃが、図２９（Ａ）に示す修正単位３２Ａ’および図２９（Ｂ）に示す修正単位３２Ｂ’の修正制限時間を算出すると仮定する。但し、Ｕ_１ ^ｃｔは“３”、Ｕ_２ ^ｃｔは、“１００”とした。

この場合、修正部１０１Ｃは、上記式（１８）を用いることで、修正単位３２Ａ’の修正制限時間として“９８６．４”を算出する。同様に、修正部１０１Ｃは、上記式（１８）を用いることで、修正単位３２Ｂ’の修正制限時間として“３８９４．３”を算出する。

このように、修正部１０１Ｃは、修正単位３２の長さと、修正単位３２に対する音声認識の正確さに応じて、修正制限時間を調整してもよい。本変形例を用いることによって、修正部１０１Ｃは、確信度が高い、すなわち修正の必要性が低い修正単位３２であるほど、短い修正制限時間を設定することができる。このため、本変形例では、上記実施の形態の効果に加えて、修正単位３２の修正操作時のユーザの負担軽減を図ることができる。

（変形例６）
なお、修正制限時間は、修正単位３２に対するユーザの修正熟練度、ユーザの修正速度、などに基づいて調整してもよい。

例えば、情報処理装置１０Ｆは、ユーザの識別情報（ユーザＩＤ）と、ユーザの修正熟練度および修正速度と、を予め対応付けて記憶する。そして、表示制御部１０１Ｆは、ＵＩ部２４のユーザによる操作開始時に、ユーザＩＤの入力を促す画面を表示し、ユーザＩＤを受付ければよい。

そして、修正部１０１Ｃは、受付けたユーザＩＤに対応する、ユーザの修正熟練度および修正速度の少なくとも一方に応じて、修正制限時間を設定してもよい。例えば、修正部１０１Ｃは、ユーザの修正熟練度が高いほど、また、修正速度が速いほど、より短い修正制限時間を設定してもよい。

なお、修正部１０１Ｃは、修正単位３２の長さ、確信度、ユーザの修正熟練度、および、ユーザの修正速度、の少なくとも１つに応じて、修正制限時間を設定してもよい。

（ハードウェア構成）
次に、上記実施の形態および変形例の、情報処理装置１０、情報処理装置１０Ｅ、および情報処理装置１０Ｆの、ハードウェア構成について説明する。図３０は、上記実施の形態および変形例の、情報処理装置１０、情報処理装置１０Ｅ、および情報処理装置１０Ｆのハードウェア構成例を示すブロック図である。

上記実施の形態および変形例の、情報処理装置１０、情報処理装置１０Ｅ、および情報処理装置１０Ｆは、出力部８０、Ｉ／Ｆ部８２、入力部９４、ＣＰＵ８６、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８８、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０、およびＨＤＤ９２等がバス９６により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

ＣＰＵ８６は、上記実施の形態および変形例の、情報処理装置１０、情報処理装置１０Ｅ、および情報処理装置１０Ｆの各々で実行する処理を制御する演算装置である。ＲＡＭ９０は、ＣＰＵ８６による各種処理に必要なデータを記憶する。ＲＯＭ８８は、ＣＰＵ８６による各種処理を実現するプログラム等を記憶する。ＨＤＤ９２は、上述した記憶部２２に格納されるデータを記憶する。Ｉ／Ｆ部８２は、他の装置との間でデータを送受信するためのインターフェースである。

出力部８０および入力部９４は、上述したＵＩ部２４に相当し、ユーザからの操作指示の受付や表示を行う。

上記実施の形態および変形例の、情報処理装置１０、情報処理装置１０Ｅ、および情報処理装置１０Ｆで実行される上記各種処理を実行するためのプログラムは、ＲＯＭ８８等に予め組み込んで提供される。

なお、上記実施の形態および変形例の、情報処理装置１０、情報処理装置１０Ｅ、および情報処理装置１０Ｆで実行されるプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。

また、上記実施の形態および変形例の、情報処理装置１０、情報処理装置１０Ｅ、および情報処理装置１０Ｆで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施の形態および変形例の、情報処理装置１０、情報処理装置１０Ｅ、および情報処理装置１０Ｆにおける上記各処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。

上記実施の形態および変形例の、情報処理装置１０、情報処理装置１０Ｅ、および情報処理装置１０Ｆで実行される上記各種処理を実行するためのプログラムは、上述した各部が主記憶装置上に生成されるようになっている。

なお、上記ＨＤＤ９２に格納されている各種情報は、外部装置に格納してもよい。この場合には、該外部装置とＣＰＵ８６と、を、ネットワーク等を介して接続した構成とすればよい。

なお、上記には、本発明の実施の形態および変形例を説明したが、上記実施の形態および変形例は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの新規な実施の形態および変形例は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施の形態やその変形例は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０、１０Ｅ、１０Ｆ情報処理装置
２０Ａ取得部
２０Ｂ分割部
２０Ｃ、２１Ｃ、１０１Ｃ修正部
２０Ｄ付与部
２０Ｆ、１０１Ｆ表示制御部
２１Ｈ空白挿入部
３０対象文データ
３２修正単位
３４確定文
４０修正画面

Claims

音声認識された複数の形態素と、前記形態素の発話時刻と、を含む対象文データを取得する取得部と、
前記対象文データのユーザによる修正の確定した確定文と発話時刻が一つ前の他の確定文との時間差に応じた表示時刻を該修正の確定した前記確定文に付与する付与部と、
を備える情報処理装置。
前記付与する表示時刻は、発話時刻が１つ前の他の確定文に含まれる、最も発話時刻の早い形態素の発話開始時刻と、最も発話時刻の遅い形態素の発話終了時刻と、の時間差に応じる、
請求項１に記載の情報処理装置。
前記付与部は、
前記確定文と発話時刻が一つ前の他の確定文との時間差が大きいほど、前記確定文の確定時刻から該確定文の字幕の前記表示時刻までの時間差が大きくなるように、該表示時刻を該確定文に付与する、
請求項１または請求項２に記載の情報処理装置。
前記付与部は、
前記確定文と発話時刻が一つ前の他の確定文との文章としての繋がり易さをしめす連結スコアが閾値以上の場合、当該確定文を前記他の確定文に連結した連結確定文に、前記表示時刻を付与する、
請求項１〜請求項３の何れか１項に記載の情報処理装置。
前記付与部は、
前記確定文と発話時刻が一つ前の他の確定文との時間差と、ユーザによって修正可能な単位であり、且つ時間的に連続する前記形態素間の区切り易さを表す値である分割スコアに応じて前記対象文データを複数の修正単位に分割した、前記修正単位に対して、ユーザが修正に要した時間である修正時間と、に応じた、前記表示時刻を前記確定文に付与する、請求項１〜請求項４の何れか１項に記載の情報処理装置。
前記付与部は、
前記修正時間が長いほど、前記確定文の確定時刻からの時間差の小さい前記表示時刻を、前記確定文に付与する、
請求項５に記載の情報処理装置。
前記修正単位に音声認識されなかった空白期間が含まれる場合、空白期間であることを示す空白情報を挿入する空白挿入部を備える、
請求項５または請求項６に記載の情報処理装置。
修正単位の修正時間が修正制限時間となった場合、該修正制限時間に到達した時刻を該修正単位に対応する前記確定文の前記確定時刻とする修正部を備える、
請求項３に記載の情報処理装置。
修正単位と、前記修正単位の修正制限時間と、を含む修正画面を表示部に表示する表示制御部と、
を備える、請求項１〜請求項８の何れか１項に記載の情報処理装置。
前記修正制限時間は、前記修正単位の長さに応じた時間である、請求項９に記載の情報処理装置。
前記修正制限時間は、前記修正単位の長さが短いほど、短い、請求項１０に記載の情報処理装置。
前記修正制限時間は、前記修正単位に対する音声認識の正確さを示す確信度が高いほど、短い、請求項９〜請求項１１の何れか１項に記載の情報処理装置。
前記修正制限時間は、前記修正単位の修正者の修正熟練度、修正者の修正速度、に基づいた時間である、請求項９〜請求項１２の何れか１項に記載の情報処理装置。
情報処理装置によって実行される情報処理方法であって、
音声認識された複数の形態素と、前記形態素の発話時刻と、を含む対象文データを取得するステップと、
前記対象文データのユーザによる修正の確定した確定文と発話時刻が一つ前の他の確定文との時間差に応じた表示時刻を該修正の確定した前記確定文に付与するステップと、
を備える情報処理方法。
音声認識された複数の形態素と、前記形態素の発話時刻と、を含む対象文データを取得するステップと、
前記対象文データのユーザによる修正の確定した確定文と発話時刻が一つ前の他の確定文との時間差に応じた表示時刻を該修正の確定した前記確定文に付与するステップと、
をコンピュータに実行させるための情報処理プログラム。