WO2010146869A1

WO2010146869A1 - 編集支援システム、編集支援方法および編集支援プログラム

Info

Publication number: WO2010146869A1
Application number: PCT/JP2010/004060
Authority: WO
Inventors: 三木清一
Original assignee: 日本電気株式会社
Priority date: 2009-06-18
Filing date: 2010-06-17
Publication date: 2010-12-23
Also published as: JPWO2010146869A1; JP5533865B2

Abstract

　編集管理装置は、音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶部と、テキストデータを所定の表示領域内に表示するとともに、表示領域内に、テキストデータを選択するカーソルを表示する表示処理部と、表示処理部により表示されたテキストデータの任意の選択範囲をカーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付部と、指示受付部により受け付けられた選択範囲に含まれるテキストデータを音声認識結果記憶部から所定の形式を保ったままで抽出し、分割データを生成する分割データ生成部と、を含む。

Description

編集支援システム、編集支援方法および編集支援プログラム

　本発明は、編集支援システム、編集支援方法および編集支援プログラムに関する。

　近年、たとえば会議等、複数の発言者が存在する場において、議事録作成を容易にする等の目的のために、音声認識技術を用いることが検討されている。音声認識技術を用いて議事録等を作成する場合、ユーザが音声を聞きながら音声認識結果のテキストを表示させて、誤認識部分の修正作業を行うことがある。

　特許文献１（特開２００６－１１９５３４号公報）には、生成される字幕に対する責任者によって操作され、音声認識装置による音声認識結果に対して編集すべき部分を特定するマウス字幕編集装置と、マウス字幕編集装置から渡された字幕に対し、キーボードにより、音声に対応する正しい文字列を入力する作業を行う操作者によって操作されるキーボード字幕編集装置とを含むシステムが記載されている。これにより、キーボード字幕編集装置の操作者を比較的スキルレベルが低く、責任も低い人とすることができ、人件費を節約できるという効果が期待できるとされている。

特開２００６－１１９５３４号公報

　しかし、特許文献１に記載された技術では、マウス字幕編集装置を操作する責任者が音声認識結果の全部に対して編集すべき部分を特定する作業を行う必要があり、迅速な処理ができないという問題がある。また、同じ箇所について、責任者が特定するとともに、キーボード字幕編集装置の操作者が文字列を入力するという作業を行い、複数の人でチェックすることになり、効率が悪いという問題もあった。

　一方、従来、ある程度のレベルの作業者を複数確保できていて、複数の作業者で分担して音声認識結果の編集作業を行いたい場合や、音声認識結果の特定の箇所を緊急で編集したいような場合に、編集するためのデータを効率よく準備する手順がなかった。そのため、音声認識結果の部分的な編集作業を迅速に行うことができないという問題があった。

　本発明の目的は、上述した課題である、音声認識結果の部分的な編集作業を迅速に行うことができないという問題を解決する編集支援システムおよび編集支援方法を提供することにある。

　本発明によれば、
　音声データを時刻情報に対応づけて記憶する音声データ記憶手段と、
　前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段と、
　前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第１の表示処理手段と、
　前記第１の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段と、
　前記指示受付手段により受け付けられた選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段と、
を含む音声認識結果の編集支援システムが提供される。

　本発明によれば、
　音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段から前記テキストデータを読み出し、前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第１の表示ステップと、
　前記第１の表示ステップにおいて表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付けるステップと、
　前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成するステップと、
を含む音声認識結果の編集支援方法が提供される。

　本発明によれば、
　コンピュータを、
　音声データを時刻情報に対応づけて記憶する音声データ記憶手段、
　前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段、
　前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第１の表示処理手段、
　前記第１の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段、
　前記指示受付手段により受け付けられた選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段、
として機能させる音声認識結果の編集支援プログラムが提供される。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、音声認識結果の部分的な編集作業を迅速に行うことができる。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本発明の実施の形態における編集支援システムの構成の一例を示すブロック図である。本発明の実施の形態における編集管理装置の構成の一例を示すブロック図である。本発明の実施の形態における編集管理装置の処理手順を示すフローチャートである。本発明の実施の形態における音声認識結果記憶部に記憶された音声認識結果のテキストデータの構成の一例を示す図である。本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態における編集管理装置の表示処理部の管理テーブルの一例を示す図である。本発明の実施の形態における編集管理装置により生成された分割データの構成の一例を示す図である。本発明の実施の形態における編集処理装置の構成の一例を示すブロック図である。本発明の実施の形態において、編集処理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態における編集処理装置の表示処理部の管理テーブルの一例を示す図である。本発明の実施の形態において、編集処理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態において、編集処理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態において、編集処理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態における編集処理装置の表示処理部の管理テーブルの一例を示す図である。本発明の実施の形態における編集済データの構成の一例を示す図である。本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態において、編集管理装置の表示処理部によりディスプレイに表示される画面の一例を示す図である。本発明の実施の形態における音声認識結果記憶部に記憶された音声認識結果のテキストデータの構成の他の例を示す図である。本発明の実施の形態における編集管理装置や編集処理装置を構成する装置のハードウェア構成の一例を示す図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様の構成要素には同様の符号を付し、適宜説明を省略する。

　図１は、本実施の形態における編集支援システムの構成を模式的に示すブロック図である。
　本実施の形態において、編集支援システム３００は、編集管理装置１００と、一以上の編集処理装置２００を含む。ここでは、編集支援システム３００が２つの編集処理装置２００（編集処理装置２００（Ａ）および編集処理装置２００（Ｂ））を含む例を示す。

　編集管理装置１００は、音声認識結果のテキストデータを所定の形式で記憶し、テキストデータを所定の表示領域内に編集可能に表示する。ユーザが、テキストデータの所望の範囲を選択すると、編集管理装置１００は、その範囲に該当するテキストデータをもとの形式を保ったままで抽出して分割データを生成する。ここで、分割データは、もとのテキストデータの一部分とすることができる。なお、このとき、編集管理装置１００は、テキストデータとともに、対応する音声データを抽出して、分割データに音声データを含めることもできる。本実施の形態において、編集管理装置１００がテキストデータおよび音声データを含む分割データを生成する。このようにして、編集管理装置１００は、複数の分割データを生成することができる。各分割データは、それぞれ、各編集処理装置２００で編集される。編集処理装置２００で編集された分割データは、編集管理装置１００で統合される。

　これにより、簡易な操作で、音声認識結果の所望の範囲を選択して、当該範囲に含まれるテキストデータをもとの形式を保ったままで抽出することができる。これにより、音声認識結果の部分的な編集作業を迅速に行うことができる。また、複数の作業者がいる場合は、複数の分割データを準備して、複数の作業者がそれぞれ編集作業をすることができ、複数の作業者で音声認識結果を修正する際の作業効率を向上させることができる。

　図２は、本実施の形態における編集管理装置１００の構成を示すブロック図である。
　編集管理装置１００は、音声取得部１０２、音声認識部１０４、表示処理部１１０（第１の表示処理手段）、指示受付部１１２（指示受付手段）、音声再生部１１４（音声再生手段）、分割データ生成部１１６（分割データ生成手段）、編集処理部１１８（編集処理手段）、データ統合部１２０（データ統合手段）、アクセス制御部１２２、および記憶部１３０を含む。

　記憶部１３０は、音声データ記憶部１３２（音声データ記憶手段）、音声認識結果記憶部１３４（音声認識結果記憶手段）、分割データ記憶部１３６、編集済データ記憶部１３８、および統合データ記憶部１４０を含む。

　音声取得部１０２は、マイクロフォン等の音声入力部（不図示）から入力された発言者の音声データを取得する。ここで、音声取得部１０２は、音声データを時刻情報に対応づけて取得する。音声データ記憶部１３２は、音声取得部１０２が取得した音声データを、時刻情報に対応づけて記憶する。

　音声認識部１０４は、音声取得部１０２が取得した音声データを音声認識し、音声認識結果をテキストデータに変換する。音声認識結果記憶部１３４は、音声認識部１０４が処理した音声認識結果のテキストデータを、単語単位で時刻情報に対応づけて所定の形式で記憶する。本実施の形態において、音声認識結果記憶部１３４は、音声認識結果のテキストデータを文（センテンス）毎、および単語（ワード）毎に把握するとともに、各文、各単語毎に時刻情報を対応づけた形式で記憶する。時刻情報は、開始時刻および終了時刻の両方を含んでもよく、開始時刻のみを含むものでもよい。

　表示処理部１１０は、音声認識結果のテキストデータを所定の領域内に編集可能に表示するとともに、当該表示領域内に、テキストデータを選択するカーソル（キャレット）を表示する。表示処理部１１０の機能は、テキストエディタにより実現することができる。本実施の形態において、表示処理部１１０は、テキストデータを少なくとも単語単位でカーソルに対する相対位置情報に対応づけて表示することができる。

　指示受付部１１２は、表示処理部１１０により表示されたテキストデータの任意の選択範囲をカーソルにより受け付けるとともに、分割データの生成指示を受け付ける。

　音声再生部１１４は、音声データ記憶部１３２から音声データを読み出し、音声を再生する。ここで、音声再生部１１４は、時刻が指定されると、当該時刻に対応する音声データを出力する。また、音声再生部１１４は、表示処理部１１０により表示されたテキストデータにおいて、カーソルで選択された単語に対応づけられた時刻情報に基づき、対応する時刻の音声データを再生することができる。音声出力装置は、たとえばスピーカとすることができる。

　分割データ生成部１１６は、指示受付部１１２が受け付けた選択範囲に含まれるテキストデータを音声認識結果記憶部１３４から所定の形式を保ったままで抽出する。ここで、形式を保ったままとは、音声認識結果のテキストデータと同様、文（センテンス）毎、および単語（ワード）毎に把握され、各文、各単語毎に時刻情報が対応づけられた形態とすることができる。また、分割データ生成部１１６は、選択範囲に含まれるテキストデータに対応する音声データを時刻情報に対応づけられた状態で音声データ記憶部１３２から抽出する。分割データ生成部１１６は、抽出したテキストデータと音声データとを含む分割データを生成する。

　分割データ生成部１１６は、生成した分割データを分割データ記憶部１３６内の所定のフォルダに保存する。ここで、分割データ記憶部１３６には、分割データに対して編集処理を行うことが想定されている装置毎に準備された予め設定された所定のフォルダを準備しておくことができる。本実施の形態において、たとえば、図１に示した編集処理装置２００（Ａ）や編集処理装置２００（Ｂ）等に対応するフォルダを準備しておくことができる。分割データ生成部１１６は、分割データを、このように準備されたフォルダに保存することができる。

　本実施の形態において、音声認識結果のテキストデータに対する編集は、編集処理装置２００において行うことを想定しているが、編集管理装置１００においても、編集処理装置２００と同様に編集作業を行うことができる。編集処理部１１８は、編集管理装置１００においても、音声認識結果のテキストデータの編集を行うために用いるものであり、編集処理装置２００に含まれるものと同様の構成とすることができる。編集処理部１１８の機能については、後に編集処理装置２００を参照して説明する。編集済データ記憶部１３８には、編集済の分割データ（以下、編集済データという）が記憶される。

　データ統合部１２０は、複数の分割データのテキストデータを、時刻情報に基づき、時刻順に並べて統合する。データ統合部１２０は、統合したデータを統合データ記憶部１４０に記憶する。なお、本実施の形態においては、分割データ記憶部１３６とは別に編集済データ記憶部１３８を準備した例を示しているが、他の例においては、編集済データ記憶部１３８を準備せず、分割データ記憶部１３６に記憶された編集前の分割データを編集済の分割データで上書きする構成とすることもできる。また、同様に、本実施の形態において、音声認識結果記憶部１３４とは別に統合データ記憶部１４０を準備した例を示しているが、他の例においては、統合データ記憶部１４０を準備せず、音声認識結果記憶部１３４に記憶された編集前の音声認識結果のテキストデータを編集済の統合データで上書きする構成とすることもできる。

　アクセス制御部１２２は、編集処理装置２００等の外部の装置からのアクセスを制御する。本実施の形態においては、分割データ生成部１１６が生成した分割データは、編集管理装置１００の分割データ記憶部１３６の所定のフォルダに記憶される。編集処理装置２００で各分割データに対する編集作業を行うユーザは、編集管理装置１００にアクセスして、分割データを取得する。アクセス制御部１２２は、このような他の端末からのアクセスを制御する。

　次に、本実施の形態において、分割データが生成される手順を説明する。図３は、本実施の形態の編集管理装置１００において、分割データが生成される手順を示すフローチャートである。

　まず、表示処理部１１０は、音声認識結果記憶部１３４に記憶された音声認識結果のテキストデータをディスプレイに表示する（ステップＳ１０２）。

　図４は、本実施の形態における音声認識結果記憶部１３４に記憶された音声認識結果のテキストデータの構成の一例を示す図である。
　音声認識結果記憶部１３４は、文番号欄、単語番号欄、話者欄、開始時刻欄、終了時刻欄、音声認識結果欄、および文字数欄を含む。
　音声認識結果欄には、音声認識結果のテキストデータが単語単位で記憶されている。ここでは、「ｓ１１」および「ｓ１２」で識別される文に含まれる単語が表示されている。各単語にも、各文中でその単語を識別する識別情報が付されている。つまり、たとえば「ｓ１１」と「ｗ１」との識別情報に基づき、「昨年、」という単語が識別される。この単語は、話者「２」による発言であり、開始時刻が「１３：４４：０９」、終了時刻が「１３：４４：１０」となっている。また、文字数は３文字である。

　図５から図８は、表示処理部１１０によりディスプレイに表示されるテキストエディタの画面４００を示す図である。
　図５に示すように、画面４００には、テキスト表示領域４０２、時刻表示領域４０４、時刻変更ボタン４０６、音声再生ボタン４０８、速度変更ボタン４１０等が表示されている。テキスト表示領域４０２には、音声認識結果のテキストデータと、カーソル４２０とが表示される。

　ここで、テキスト表示領域４０２に、一行に２５文字、９行のテキストデータが表示される例を示す。表示処理部１１０は、音声認識結果記憶部１３４に記憶されたテキストデータを、２５文字毎に改行してテキスト表示領域４０２に表示する。

　表示処理部１１０は、画面４００に表示されたテキストデータに含まれる各単語の位置を把握するための管理テーブルを含む。図９は、表示処理部１１０の管理テーブルを示す図である。
　表示処理部１１０の管理テーブルは、行毎に、当該行に含まれる文字列（text）、文（sentences）および単語（words)の識別情報を保持する。また、管理テーブルは、各文および各単語毎に、それぞれ開始位置（start）と文字長（len）を示す情報を保持する。

　以下、図５に示した画面４００のテキスト表示領域４０２の２行目の文字列を例として説明する。２行目には、「○話者２　昨年、Ａ検討委員会から報告書を受領しまし」と表示されている。図９の「Ｌ２」には、この行に表示された文字列に関する表示情報が対応づけられている。ここで、この文字列の最初の５文字「○話者２　」は、音声認識結果ではなく、話者を表示するためのラベルであるので、文字列（ｔｅｘｔ）の情報として、ラベルの識別情報を示す「ｉ１１」が記入されている。また、「昨年、Ａ検討委員会から報告書を受領しまし」は、それぞれ、「昨年、」、「Ａ検討委員会」、「から」、「報告書」、「を」、「受領」、「しました。」に対応する。そのため、文字列（ｔｅｘｔ）の情報として、各単語の識別情報を示す「ｓ１１＿ｗ１」、「ｓ１１＿ｗ２」、「ｓ１１＿ｗ３」、「ｓ１１＿ｗ４」、「ｓ１１＿ｗ５」、「ｓ１１＿ｗ６」、「ｓ１１＿ｗ７」が記入されている。

　また、各文、各単語についても、その文および単語における開始位置、および文字長が記載されている。たとえば、「ｓ１１＿ｗ７」で識別される単語は、図４を参照すると「しました。」である。このうち、最初の３文字「しまし」のみが２行目に含まれる。そのため、開始位置はゼロ、文字長は３であり、「ｓ１１＿ｗ７，ｓｔａｒｔ＝０，ｌｅｎ＝３」と記入される。

　以上のように、表示処理部１１０は、テキスト表示領域４０２に表示される各単語の位置（行、文字位置）を把握することができる。また、表示処理部１１０は、カーソル４２０の位置（行、文字位置）も把握する。これにより、表示処理部１１０は、カーソル４２０の位置に基づき、どの文のどの単語が指されているかを把握することができる。

　図５に戻り、ユーザは、マウス等の操作部（不図示）を用いてカーソル４２０を移動させることにより、テキスト表示領域４０２に表示されたテキストデータの任意の選択範囲を指定することができる。表示処理部１１０は、カーソルの位置情報にもとづき、管理テーブルを参照して、選択範囲に含まれる単語を把握する。指示受付部１１２は、表示処理部１１０から選択範囲に含まれる単語の情報を取得する。また、ユーザがマウス等の操作部（不図示）を用いて画面４００に表示された各種ボタン（４０４～４１０）を操作すると、その指示を指示受付部１１２が受け付ける。

　たとえば、ユーザが音声再生ボタン４０８を操作すると、指示受付部１１２がその指示を受け付け、音声再生部１１４に通知する。音声再生部１１４は、ユーザの指示に基づき、音声データの再生、停止、早送り、巻き戻し等を行う。同様に、ユーザが速度変更ボタン４１０を操作すると、指示受付部１１２がその指示を受け付け、音声再生部１１４に通知する。音声再生部１１４は、ユーザの指示に基づき、音声データの再生速度を変更する。

　時刻表示領域４０４には、音声データに対応する時刻が表示される。ユーザが時刻変更ボタン４０６を操作することにより、時刻表示領域４０４に表示された時刻を変更することができる。カーソル４２０と時刻表示領域４０４に表示される時刻とは連動させることができ、時刻表示領域４０４に表示された時刻に対応する単語に対応する箇所にカーソル４２０が表示されるようにすることもできる。

　図３に戻り、指示受付部１１２が、ユーザから範囲の選択および分割データの生成指示を受け付けると（ステップＳ１０４のＹＥＳ）、分割データ生成部１１６は、分割データを生成する。まず、ユーザが範囲を選択して分割データの生成を指示する手順を、図５から図８を参照して説明する。

　ユーザがマウス等によりカーソル４２０を選択範囲の開始点に合わせ（図５）、たとえばマウスの左ボタンをクリックした状態でカーソル４２０を選択範囲の終了点まで移動させると、開始点と終了点との間の選択範囲４２２のテキストデータが反転等して選択される（図６）。ここで、ユーザがたとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス４３０が表示される（図７）。ボックス４３０には、分割データ生成ボタン４３２等、各種作業項目が表示される。ここで、ユーザが分割データ生成ボタン４３２を選択すると、保存画面４４０が表示される（図８）。保存画面４４０には、予め設定された所定の複数のフォルダとファイル名を入力する欄と、保存ボタン４４２およびキャンセルボタン４４４等が表示される。ユーザがいずれかのフォルダを選択して、ファイル名を入力し、保存ボタン４４２を押すと、図３に示したステップＳ１０４の範囲の選択および分割データの生成指示が行われる。なお、ファイル名は、自動的に付されるようにすることもできる。また、ユーザが新たなフォルダを作成することもできる。

　図３に戻り、次いで、分割データ生成部１１６は、選択された範囲に含まれる単語を決定する（ステップＳ１０６）。また、分割データ生成部１１６は、決定された単語に基づいて、開始時刻および終了時刻を決定する（ステップＳ１０８）。次いで、分割データ生成部１１６は、音声認識結果記憶部１３４から、選択された範囲に対応するテキストデータを抽出する（ステップＳ１１０）。その後、分割データ生成部１１６は、開始時刻および終了時刻に基づき、対応する時刻の音声データを抽出する（ステップＳ１１２）。分割データ生成部１１６は、選択された部分のテキストデータと音声データとを含む分割データを生成して（ステップＳ１１４）、所定のフォルダに保存する（ステップＳ１１６）。

　図１０は、分割データ記憶部１３６に保存された分割データのテキストデータの一例を示す図である。分割データのテキストデータは、音声認識結果記憶部１３４に記憶された音声認識結果のテキストデータと同じ形式で生成される。つまり、分割データのテキストデータは、文番号欄、単語番号欄、話者欄、開始時刻欄、終了時刻欄、音声認識結果欄、および文字数欄を含む。

　図１１は、本実施の形態における編集処理装置２００の構成を示す図である。
　編集処理装置２００は、表示処理部２１０（第２の表示処理手段）、指示受付部２１２、音声再生部２１４、編集処理部２１８（編集処理手段）、データ取得・送出部２２０、および記憶部２３０を含む。記憶部２３０は、分割データ記憶部２３６および編集済データ記憶部２３８を含む。

　データ取得・送出部２２０は、編集管理装置１００の記憶部１３０の分割データ記憶部１３６や編集済データ記憶部１３８にアクセスし、分割データを取得したり、編集済データを保存したりする。分割データ記憶部２３６は、データ取得・送出部２２０が分割データ記憶部１３６から取得した分割データを記憶する。データ取得・送出部２２０が取得した分割データは、図１０に示したのと同様の構成を有する。

　表示処理部２１０、指示受付部２１２、および音声再生部２１４は、それぞれ、編集管理装置１００の表示処理部１１０、指示受付部１１２、および音声再生部１１４と同様の機能を有する構成とすることができる。

　表示処理部２１０は、分割データに含まれるテキストデータを所定の領域内に編集可能に表示するとともに、当該表示領域内に、テキストデータを選択するカーソル（キャレット）を表示する。表示処理部２１０の機能は、表示処理部１１０と同様のテキストエディタにより実現することができる。

　図１２は、表示処理部２１０によりディスプレイに表示されるテキストエディタの画面５００を示す図である。画面５００には、テキスト表示領域５０２、時刻表示領域４０４、時刻変更ボタン４０６、音声再生ボタン４０８、速度変更ボタン４１０等が表示されている。テキスト表示領域５０２には、分割データのテキストデータと、カーソル５２０とが表示される。時刻表示領域４０４、時刻変更ボタン４０６、音声再生ボタン４０８、および速度変更ボタン４１０は、図５から図８を参照して説明したのと同様の機能を有する。ここでは説明を省略する。

　図１３は、図１２に示した状態の表示処理部２１０の管理テーブルを示す図である。
　表示処理部２１０は、行毎に、当該行に含まれる文字列（text）、文（sentences）および単語（words)の識別情報を保持する。また、各文および各単語毎に、それぞれ開始位置（start）と文字長（len）を示す情報を保持する。

　以下、図１２に示した画面５００のテキスト表示領域５０２の３行目の文字列について説明する。３行目には、「ならびにＣ市の学校長やＢ県の市町村教育委員会の綿棒」と表示されている。図１３の「Ｌ３」には、この行に表示された文字列に関する表示情報が対応づけられている。ここで、この文字列の最後の２文字「綿棒」は、図１０を参照すると「ｓ１２＿ｗ１６」で識別される。そのため、開始位置はゼロ、文字長は２であり、「ｓ１２＿ｗ１６，ｓｔａｒｔ＝０，ｌｅｎ＝２」と記入される。

　図１１に戻り、指示受付部２１２は、表示処理部２１０により表示されたテキストデータの任意の選択範囲をカーソルにより受け付けるとともに、表示処理部２１０に表示されたテキストデータへの編集を受け付ける。音声再生部２１４は、分割データ記憶部２３６から分割データに含まれる音声データを読み出し、音声を再生する。音声再生部２１４は、時刻が指定されると、当該時刻に対応する音声データを出力する。本実施の形態において、編集処理装置２００のユーザは、表示処理部２１０により表示されたテキストデータを見ながら、対応する音声データを再生させて、音声認識結果が正しいか否かを判断する。音声認識結果に間違い等があった場合、対応する部分を修正して編集する。

　編集処理部２１８は、指示受付部２１２が表示処理部２１０に表示されたテキストデータへの編集を受け付けると、分割データのテキストデータの対応する単語を書き換える。また、いずれかの単語が削除されると、分割データのテキストデータのその単語に対応する部分をｎｕｌｌ文字列に書き換える。また、ある単語に新たな文字列が入力されると、分割データのテキストデータの対応する箇所にその文字列を挿入する。

　次に、図１４から図１６を参照して、画面５００のテキスト表示領域５０２に表示されたテキストデータを編集する手順を説明する。
　ユーザがマウス等によりカーソル５２０で３行目の「綿棒」を選択して（図１４）、「メンバー」と入力すると、「綿棒」が「メンバー」に変更される。また、同様に、ユーザがマウス等によりカーソル５２０で５行目の「綿棒」を選択して（図１５）、「メンバー」と入力すると、「綿棒」が「メンバー」に変更される（図１６）。テキスト表示領域５０２に表示されたテキストデータが編集されると、表示処理部２１０の管理テーブルも変化する。

　図１７は、図１６に示した状態の表示処理部２１０の管理テーブルを示す図である。
　ここでは、３行目（Ｌ３）の表示情報は、図１３に示したのと同様であるが、３行目の「綿棒」を「メンバー」に変更したことにより、４行目以降に表示される単語が変更されている。たとえば、４行目（Ｌ４）の最初の単語は、図１３に示した例では「を」を示す「ｓ１２＿ｗ１７，ｓｔａｒｔ＝０，ｌｅｎ＝１」であるが、図１７では、「メンバー」の「バー」を示す「ｓ１２＿ｗ１６，ｓｔａｒｔ＝２，ｌｅｎ＝２」となる。

　また、図１６に示した画面５００において、ユーザがたとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス５３０が表示される。ボックス５３０には、保存ボタン５３２が表示される。ここで、ユーザが保存ボタン５３２を選択すると、編集されたデータが編集済データとして編集済データ記憶部２３８に保存される。ここで、ファイル名は、自動的に付されるようにすることもでき、またユーザが入力できるようにすることもできる。

　図１８は、編集済データ記憶部２３８に保存された編集済データのテキストデータの一例を示す図である。編集済データは、分割データのテキストデータと同じ形式で生成される。つまり、編集済データのテキストデータは、文番号欄、単語番号欄、話者欄、開始時刻欄、終了時刻欄、音声認識結果欄、および文字数欄を含む。

　ここで、「綿棒」を「メンバー」と変更すると、文字数は２から４に増加する。しかし、この単語に対応づけられた時刻情報は変化しない。そのため、図１６に示した画面５００において、メンバーに該当する位置にカーソル５２０をおくと、もともと「綿棒」に対応づけられていたのと同様の音声データが再生される。ある単語を除去してしまうと、その単語は画面５００のテキスト表示領域５０２には表示されなくなる。そのため、削除した単語に対応する時刻情報の音声データは、テキスト表示領域５０２上でカーソル５２０を移動させることによっては再生できなくなる。しかし、音声データは、消去されるのではないため、その単語の前後の単語から連続音声再生等を行うことにより再生することができる。

　編集作業が終了すると、ユーザの指示により、データ取得・送出部２２０は、編集済データを編集管理装置１００の編集済データ記憶部１３８に保存する。

　また、本実施の形態において、編集管理装置１００は、テキストデータに含まれる所定の文字列に対して、つなぎ文字登録をする機能を有する構成とすることができる。ここで、つなぎ文字とは、複数の分割データに重複して含まれるべき共通文字列とすることができる。このようなつなぎ文字を登録しておくことにより、つなぎ文字をキーとして分割データを統合することができ、簡易かつ精度よく統合データを生成することができる。

　図１９および図２０を参照して、画面４００のテキスト表示領域４０２に表示されたテキストデータにつなぎ文字登録をする手順を説明する。
　ユーザがマウス等によりカーソル４２０で２行目の「昨年」を選択して（４２２は選択範囲）、たとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス４３０が表示される。この手順は、図７を参照して説明したのと同様である。ここで、ボックス４３０には、分割データ生成ボタン４３２に加えてさらにつなぎ文字登録ボタン４３４が表示される。ここで、ユーザがつなぎ文字登録ボタン４３４を選択すると、この文字列がつなぎ文字として登録される。

　図２０に示すように、表示処理部１１０は、つなぎ文字を枠４２４で囲む等して強調表示把握可能に表示することができる。編集管理装置１００のユーザが分割データを生成する処理を行う前につなぎ文字を登録しておくことにより、ユーザが画面４００を見て、つなぎ文字を境界として分割データの範囲を選択するようにすることができる。なお、つなぎ文字が登録されている場合、つなぎ文字が複数の分割データに共通に含まれるようにすることができる。図２１にこの例を示す。ここでは、「昨年」がつなぎ文字として登録されている。この場合、それぞれこのつなぎ文字を含む第１の分割データ４５０および第２の分割データ４５２を生成することができる。これにより、第１の分割データ４５０および第２の分割データ４５２それぞれへの編集処理が終了した後に、「昨年」というつなぎ文字をキーとして統合データを生成することができる。

　また、本実施の形態において、編集管理装置１００は、テキストデータの所定の位置に、任意の再生開始位置をマーキングするためのインデックスを付与する機能を有する構成とすることができる。ユーザが表示されたテキストデータの所定の位置にインデックスを付与することにより、その位置から再生可能とすることができる。

　図２２を参照して、画面４００のテキスト表示領域４０２に表示されたテキストデータにインデックスを付与する手順を説明する。
　ユーザがマウス等により２行目の「昨年」の前にカーソル４２０を移動して、たとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス４３０が表示される。この手順は、図１９を参照して説明したのと同様である。ここで、ボックス４３０には、分割データ生成ボタン４３２およびつなぎ文字登録ボタン４３４に加えてさらにインデックス付与ボタン４３６が表示される。ここで、ユーザがインデックス付与ボタン４３６を選択すると、この位置にインデックスが付与される。
　ユーザがつなぎ文字やインデックスを登録した場合、図２３に示すように、音声認識結果記憶部１３４の対応する単語にフラグが付される。

　以上のように、本実施の形態における編集支援システム３００によれば、簡易な操作で、音声認識結果の所望の範囲を選択して、当該範囲に含まれるテキストデータをもとの形式を保ったままで抽出することができる。これにより、音声認識結果の部分的な編集作業を迅速に行うことができる。また、複数の作業者がいる場合は、複数の分割データを準備して、複数の作業者がそれぞれ編集作業をすることができ、複数の作業者で音声認識結果を修正する際の作業効率を向上させることができる。

　なお、図２に示した編集管理装置１００および図１１に示した編集処理装置２００の各構成要素は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。編集管理装置１００および編集処理装置２００の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インターフェイスを中心にハードウェアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　たとえば、図２を参照して説明した音声取得部１０２が取得した音声データと、音声認識部１０４が処理した音声認識結果のテキストデータとは、一つのファイルに含めた構成とすることができる。つまり、図４に示した音声認識結果のテキストデータが、音声データに対応づけられ、一つのファイルとして構成することができる。また、図２に示した、音声データ記憶部１３２および音声認識結果記憶部１３４は、機能的に分離して示したものであり、これらは物理的には明確に分離されていなくてもよい。

　また、編集管理装置１００および編集処理装置２００は、それぞれ、たとえばパーソナルコンピュータ等の装置１０により構成される。図２４は、編集管理装置１００や編集処理装置２００を構成する装置１０のハードウェア構成を示すブロック図である。
　装置１０は、ＣＰＵ１２、メモリ１４、ＨＤＤ（ハードディスク）１６、通信ＩＦ（インターフェイス）１８、ディスプレイ３０、操作部３２、音声出力装置３４、およびこれらを接続するバス４０を含む。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

　以上の実施の形態では、編集処理装置２００が編集管理装置１００にアクセスして分割データを取得する構成を示したが、編集管理装置１００は、分割データを生成すると、適宜編集処理装置２００に分割データを配信して編集依頼をするようにすることもできる。

　また、以上の実施の形態においては、分割データが、テキストデータに対応する部分の音声データを含む構成を示した。これにより、各編集処理装置２００で取得する分割データのデータ量を減らすことができる。しかし、分割データに含まれる音声データは、音声認識結果のテキストデータ全体に対応するものとすることもできる。この場合でも、編集処理装置２００のユーザは、時刻情報に基づき、対応する部分の音声データを再生させるようにすることができる。さらに、分割データは、音声データを含まない構成とすることもできる。この場合、編集処理装置２００のユーザは、編集管理装置１００の音声データ記憶部１３２にアクセスして、時刻情報に基づき、対応する部分の音声データを再生させるようにすることができる。

　この出願は、２００９年６月１８日に出願された日本出願特願２００９－１４５５２９号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　音声データを時刻情報に対応づけて記憶する音声データ記憶手段と、
　前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段と、
　前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第１の表示処理手段と、
　前記第１の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段と、
　前記指示受付手段により受け付けられた前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段と、
を含む音声認識結果の編集支援システム。
　請求項１に記載の編集支援システムにおいて、
　前記分割データ生成手段は、前記テキストデータを抽出するとともに、前記音声データ記憶手段から、当該テキストデータに対応する音声データを抽出し、
　前記分割データは、抽出された前記テキストデータと前記音声データとを含む編集支援システム。
　請求項１または２に記載の編集支援システムにおいて、
　前記第１の表示処理手段は、前記テキストデータを少なくとも単語単位で前記カーソルに対する相対位置情報に対応づけて表示する編集支援システム。
　請求項１から３いずれかに記載の編集支援システムにおいて、
　前記分割データ生成手段は、前記分割データを、前記分割データに対して編集処理を行う装置毎に準備された予め設定された所定のフォルダに保存する編集支援システム。
　請求項１から４いずれかに記載の編集支援システムにおいて、
　前記第１の表示処理手段により表示された前記テキストデータにおいて、前記カーソルで選択された単語に対応づけられた前記時刻情報に基づき、対応する音声データを再生する音声再生手段をさらに含む編集支援システム。
　請求項１から５いずれかに記載の編集支援システムにおいて、
　前記分割データ生成手段は、複数の前記分割データを生成し、
　前記複数の分割データの前記テキストデータを、前記時刻情報に基づき、時刻順に並べて統合するデータ統合手段をさらに含む編集支援システム。
　請求項１から６いずれかに記載の編集支援システムにおいて、
　前記分割データ生成手段は、複数の前記分割データを生成し、
　前記第１の表示処理手段は、複数の分割データに重複して含まれるべき共通文字列であるつなぎ文字を把握可能に表示する編集支援システム。
　請求項１から７いずれかに記載の編集支援システムにおいて、
　前記分割データを取得するデータ取得手段と、
　前記データ取得手段が取得した前記分割データに含まれる前記テキストデータを、所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第２の表示処理手段と、
　前記第２の表示処理手段により表示された前記テキストデータへの編集を受け付け、編集済データを生成する編集処理手段と、
をさらに含む編集支援システム。
　音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段から前記テキストデータを読み出し、前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第１の表示ステップと、
　前記第１の表示ステップにおいて表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付けるステップと、
　前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成するステップと、
を含む音声認識結果の編集支援方法。
　コンピュータを、
　音声データを時刻情報に対応づけて記憶する音声データ記憶手段、
　前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段、
　前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第１の表示処理手段、
　前記第１の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段、
　前記指示受付手段により受け付けられた前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段、
として機能させる音声認識結果の編集支援プログラム。