JP2018059989A

JP2018059989A - 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム

Info

Publication number: JP2018059989A
Application number: JP2016195846A
Authority: JP
Inventors: 清幸鈴木; Kiyoyuki Suzuki
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2016-10-03
Filing date: 2016-10-03
Publication date: 2018-04-12
Anticipated expiration: 2036-10-03
Also published as: JP6780849B2

Abstract

【課題】対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させること。【解決手段】情報処理システム１において、音声データ取得部２５１及び音声認識結果取得部２５２は、文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを取得する。データ分割部２５３は、音声データ及び音声認識結果のデータを分割して分割データを生成する。文字起こしインターフェース表示部５２は、分割データにおける音声波形を表す領域と、音声認識結果のデータが示す文字列を表す領域とを含む文字起こしインターフェースを表示する。分割データ修正受付部５３は、音声認識結果のデータに対する修正を受け付ける。文字起こしインターフェース表示部５２は、音声波形において分割データの境界位置を示す接続点と、接続点の音声に対応する接続語とを識別して表示する。【選択図】図７

Description

本発明は、情報処理システム、端末装置、サーバ、情報処理方法及びプログラムに関する。

従来、会議等の音声を音声認識処理して得られた文字列を、作業者が音声を聞きながら修正・編集して文章化する文字起こしが行われている。
このような文字起こしにおいては、文字起こしの対象となる音声が長時間のものである場合の作業全体の時間を短縮する目的や音声内容の秘匿性の観点等から、複数の作業者によって分担して文字起こしが行われることがある。
例えば、特許文献１には、話者の発言・会話が記録されている音声データを複数の音声区間に細分化し、細分化された各音声区間それぞれの文字起こしを複数の作業者によって行い、サーバが各作業者の作業結果である文字列を結合して、元の音声データの会話全体を文章化した文章データを構築する技術が開示されている。

特開２００８−１０７６２４号公報

しかしながら、文字起こしの作業を複数の作業者によって分担して行う場合、文字起こしの対象となる全体のデータを適切な位置及びサイズで分割することが必ずしも容易ではない。そして、文字起こしの対象となる全体のデータが不適切に分割された場合、各作業者の作業時間にばらつきが生じる等、文字起こしの作業全体として、効率が低下する可能性がある。さらに、文字起こしの対象となる全体のデータが不適切な位置で分割されている場合、作業者が文脈を適切に判断できないことがあり、文字起こしの作業効率が低下する可能性がある。
また、分割されたデータの文字起こしを行う作業者にとって、当該作業者自身が分担すべきデータの境界部分が明確に把握できないことがあり、他の作業者の作業と重複が生じる可能性がある。
さらに、複数の作業者による作業結果を集約し、最終校正を行う校正者にとって、複数の作業者による作業結果が適切に集約されているか否かを確認する作業負担が大きいものとなる。
このように、対象となる音声を複数の作業者によって分担して文字起こしを行う従来の技術においては、効率的な処理を行うことが困難であった。

本発明は、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることを目的とする。

上記目的を達成するため、本発明の一態様の情報処理システムは、
文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムであって、
前記サーバは、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得手段と、
前記文字起こし対象データ取得手段によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割手段と、を備え、
前記作業者用の端末装置は、
前記分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示手段と、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付手段と、を備え、
前記文字起こしインターフェース表示手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする。

本発明によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。

本発明に係る情報処理システムのシステム構成を示す図である。本実施形態に係る端末装置のハードウェア構成を示す模式図である。サーバのハードウェア構成を示す模式図である。サーバにおいて実現される主な機能構成を示すブロック図である。分割データの境界における音声データ及び音声認識結果の文字列の一例を示す模式図である。作業者によって使用される端末装置において実現される主な機能構成を示すブロック図である。文字起こしインターフェースの表示画面例を示す模式図である。最終校閲者によって使用される端末装置において実現される主な機能構成を示すブロック図である。情報処理システムのサーバが実行する文字起こし対象データ分割処理の流れを示すフローチャートである。情報処理システムの端末装置が実行する分割データ文字起こし処理の流れを示すフローチャートである。情報処理システムのサーバが実行するデータ集約処理の流れを示すフローチャートである。情報処理システムの端末装置が実行する集約データ校閲処理の流れを示すフローチャートである。

以下、本発明の実施形態について、図面を用いて説明する。

［構成］
［システム構成］
図１は、本発明に係る情報処理システム１のシステム構成を示す図である。
図１に示すように、本発明に係る情報処理システム１は、複数の端末装置１０と、サーバ２０とを含んで構成され、複数の端末装置１０とサーバ２０とは、インターネットあるいはＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワーク３０を介して互いに通信可能に構成されている。本実施形態において、複数の端末装置１０には、分割データの文字起こし作業を行う作業者によって使用される端末装置１０Ａと、文字起こしの対象となる音声データの文字起こし結果を最終的に校閲する最終校閲者によって使用される端末装置１０Ｂとが含まれる。以下、端末装置１０Ａ及び端末装置１０Ｂを区別しない場合、単に端末装置１０と称するものとする。

本実施形態における情報処理システム１では、文字起こしの元となる音声データ及びその音声データの音声認識結果を複数に分割し、分割された各音声データ及び音声認識結果を複数の作業者によって分担して文字起こしを行う。このとき、情報処理システム１は、音声データを音声認識における信頼度等の条件に基づいて分割し、各作業者の負担を調整する。また、情報処理システム１では、各作業者に配布される音声データ及び音声認識結果において、隣接する音声データ及び音声認識結果との境界部分には、境界となる時刻に対応する単語（あるいは形態素）等の要素を単位として、境界位置（後述する接続語）が識別して示され、その要素を含む文が、分割された音声データ間の境界の文字列（後述する接続文）とされる。これにより、分割された音声データを文字起こしする作業者は、自身が担当すべきデータの境界を容易に把握することができる。さらに、情報処理システム１では、分担して行われた文字起こしの結果が集約され、最終校閲者によって、文字起こし作業の結果が適切に集約されているか否かが確認される。このとき、分担して行われた文字起こし作業の結果には、境界位置（接続語）あるいは境界位置の要素を含む文字列（接続文）等が識別して示されているため、最終校閲者は、異なる作業者によって文字起こし作業が行われた部分の境界を容易に把握しながら、当該部分に対して高い注意をもって確認を行うことができる。
このように、本実施形態に係る情報処理システム１によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。

［ハードウェア構成］
次に、情報処理システム１を構成する各装置のハードウェア構成を説明する。
図２は、本実施形態に係る端末装置１０のハードウェア構成を示す模式図である。
図２に示すように、端末装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、バス１４と、入力部１５と、出力部１６と、記憶部１７と、通信部１８と、ドライブ１９と、を備えている。

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、または、記憶部１７からＲＡＭ１３にロードされたプログラムに従って各種の処理を実行する。
ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３は、バス１４を介して相互に接続されている。バス１４には、入力部１５、出力部１６、記憶部１７、通信部１８及びドライブ１９が接続されている。

入力部１５は、各種ボタンを備えるキーボードや音声を入力するためのマイク等で構成され、各種ボタンあるいは音声による指示操作に応じて各種情報を入力する。
出力部１６は、ディスプレイやイヤホン等で構成され、画像や音声を出力する。
記憶部１７は、ハードディスクあるいはＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成され、端末装置１０で管理される各種データを記憶する。
通信部１８は、ネットワークを介して他の装置との間で行う通信を制御する。

ドライブ１９には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア３１が適宜装着される。ドライブ１９によってリムーバブルメディア３１から読み出されたデータに基づき、必要に応じて所定のプログラムが記憶部１７にインストールされる。

図３は、サーバ２０のハードウェア構成を示す模式図である。
サーバ２０は、サーバコンピュータ等の情報処理装置によって構成される。
図３に示すように、サーバ２０は、ＣＰＵ２１１と、ＲＯＭ２１２と、ＲＡＭ２１３と、バス２１４と、入力部２１５と、出力部２１６と、記憶部２１７と、通信部２１８と、ドライブ２１９と、を備えている。

ＣＰＵ２１１は、ＲＯＭ２１２に記録されているプログラム、または、記憶部２１７からＲＡＭ２１３にロードされたプログラムに従って各種の処理（サーバ２０の機能を実現するための処理）を実行する。
ＲＡＭ２１３には、ＣＰＵ２１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

ＣＰＵ２１１、ＲＯＭ２１２及びＲＡＭ２１３は、バス２１４を介して相互に接続されている。バス２１４には、入力部２１５、出力部２１６、記憶部２１７、通信部２１８及びドライブ２１９が接続されている。

入力部２１５は、各種釦等で構成され、指示操作に応じて各種情報を入力する。
出力部２１６は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
記憶部２１７は、ハードディスクあるいはＤＲＡＭ等で構成され、各サーバで管理される各種データを記憶する。
通信部２１８は、ネットワークを介して他の装置との間で行う通信を制御する。

ドライブ２１９には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア２３１が適宜装着される。ドライブ２１９によってリムーバブルメディア２３１から読み出されたデータに基づき、必要に応じて所定のプログラムが記憶部２１７にインストールされる。

［機能的構成］
次に、情報処理システム１において実現される主な機能構成について説明する。
［サーバ２０の機能構成］
図４は、サーバ２０において実現される主な機能構成を示すブロック図である。
図４に示すように、サーバ２０のＣＰＵ２１１において、音声データ取得部２５１と、音声認識結果取得部２５２と、データ分割部２５３と、分割データ送信部２５４と、修正済みデータ受信部２５５と、データ集約部２５６と、集約データ送信部２５７とが機能する。また、記憶部２１７には、文字起こし関連データ記憶部２７１が形成される。

文字起こし関連データ記憶部２７１は、文字起こしの対象となる音声データ、その音声データを音声認識した結果のデータ、文字起こしの対象となる音声データ及びその音声データの音声認識結果の分割データ（後述）、分割データの送信先の端末装置１０を識別する情報、端末装置１０から送信された修正済みデータ（後述）、及び、最終校閲者によって確認された文字起こし結果のデータ等、文字起こし作業に関連する各種データを対応付けて記憶する。

音声データ取得部２５１は、文字起こしの対象となる音声データを取得する。例えば、音声データ取得部２５１は、他の装置からネットワーク３０を介して受信したり、リムーバブルメディア２３１を介して入力されたりすることにより、文字起こしの対象となる音声データを取得する。また、音声データ取得部２５１は、取得した音声データを文字起こし関連データ記憶部２７１に記憶する。

音声認識結果取得部２５２は、文字起こしの対象となる音声データを音声認識処理した結果の文字列からなるデータを取得する。このとき、音声認識結果取得部２５２は、ネットワーク３０を介して、外部に設置された音声認識のためのサーバに音声認識処理を依頼して、その音声認識結果を取得したり、サーバ２０に音声認識処理機能を備えておき、その音声認識処理機能による音声認識結果を取得したりすることができる。そして、音声認識結果取得部２５２は、取得した音声認識結果を文字起こし関連データ記憶部２７１に記憶する。

データ分割部２５３は、音声データ取得部２５１によって取得された文字起こしの対象となる音声データと、音声認識結果取得部２５２によって取得された音声認識結果とを分割し、複数の作業者によって文字起こしを行うためのデータ（以下、「分割データ」と呼ぶ。）を生成する。このとき、データ分割部２５３は、各作業者による作業負担が均等となるように、文字起こしの対象となる音声データ及びその音声データの音声認識結果を分割する。本実施形態において、データ分割部２５３は、文字起こしの対象となる音声データが音声認識される際に取得された音声認識結果の信頼度に基づいて、文字起こしの対象となる音声データ及びその音声データの音声認識結果を分割する。例えば、音声認識結果の信頼度が低い部分については、文字起こしの作業負担が大きいと考えられるため、音声認識結果の信頼度が高い部分よりも、音声データの時間がより短い分割データが生成される。

以下、データ分割部２５３における具体的な分割データの生成手順について説明する。
初めに、データ分割部２５３は、分担して文字起こしを行う作業者の数によって、文字起こしの対象となる音声データ全体の時間を分割し、分割データの時間（分割時間）の初期値ＤＴ０を設定する。なお、このとき、予め設定された分割時間ＤＴ０の初期値（例えば５分等）を用いることとしてもよい。

そして、データ分割部２５３は、文字起こしの対象となる音声データの最初から分割データの分割時間の初期値ＤＴ０までの分割データを取得し、この分割データについて、音声認識結果の信頼度を算出する。例えば、データ分割部２５３は、分割データに含まれる文字列の音声認識結果における単語単位の信頼度の合計を単語数で除算すること等により、分割データの音声認識結果の信頼度を算出する。

次に、データ分割部２５３は、算出した信頼度に基づいて、分割時間の初期値ＤＴ０の調整を行い、分割データの分割時間ＤＴを算出する。例えば、データ分割部２５３は、音声認識結果の信頼度について設定された閾値Ｔｔｈ１，Ｔｔｈ２（Ｔｔｈ１＜Ｔｔｈ２）に基づいて、以下のように分割時間ＤＴを算出する。

（１）Ｔｔｈ１＜音声認識結果の信頼度＜Ｔｔｈ２であれば、分割データの分割時間ＤＴ０を維持する（ＤＴ＝ＤＴ０）。
（２）Ｔｔｈ２＜音声認識結果の信頼度であれば、分割データの分割時間ＤＴを１．５倍にする（ＤＴ＝ＤＴ０×１．５）。
（３）音声認識結果の信頼度＜Ｔｔｈ１であれば、分割データの分割時間ＤＴを１／１．５倍にする（ＤＴ＝ＤＴ０／１．５）。

なお、このとき用いられる閾値Ｔｔｈ１，Ｔｔｈ２の具体的な値や、ＤＴ０に乗算される係数（１．５あるいは１／１．５）等は、経験値あるいは実験値等に基づいて、適宜決定することができる。なお、設定される閾値や係数は、より多段階に設定することとしてもよい。

次に、データ分割部２５３は、分割データの境界を示す情報を設定する。
具体的には、データ分割部２５３は、分割データにおける音声データにおいて、分割データの終端の位置（以下、「接続点」と呼ぶ。）の音声に対応する音声認識結果の単語（あるいは形態素）を特定する。以下、この単語（あるいは形態素）を「仮接続語」と呼ぶ。また、データ分割部２５３は、接続語を含む音声認識結果の文節（または接続点に対応する音声認識結果の文節）を特定する。以下、この文節を「仮接続文節」と呼ぶ。さらに、データ分割部２５３は、接続語を含む音声認識結果の句または文（または接続点に対応する音声認識結果の句または文）を特定する。以下、この句または文を仮接続文と呼ぶ。また、ここでは、仮接続語が複文に含まれる場合、単文に区切って接続文にするものとする。

なお、上記分割データの生成手順において、接続点に単語が含まれない場合（即ち、接続点が単語間の境界位置である場合あるいは無音区間である場合）には、接続点に最も近い次の単語が仮接続語とされる。ただし、接続点に最も近い次の単語が接続点から時間Δｔ１以内に存在しない場合、仮接続語は無しとされる。ここで、時間Δｔ１は、人間の発話時における息継ぎ時間の最大値（例えば、数秒程度）に基づいて、経験的に設定される。
そして、データ分割部２５３は、分割時間ＤＴに続く次の分割データについて、上述の生成手順を繰り返し、文字起こしの対象となる音声データの末尾まで分割データを生成する。

図５は、分割データの境界における音声データ及び音声認識結果の文字列の一例を示す模式図である。
図５に示す例では、分割データにおける接続点の音声に対応する音声認識結果（即ち、仮接続語）として、「気持ち」の文字列が特定されている。また、仮接続語を含む音声認識結果の文節（即ち、仮接続文節）として、「気持ちと」の文字列が特定されている。さらに、仮接続語を含む音声認識結果の文（即ち、仮接続文）として、「私の気持ちと同じです」の文字列が特定されている。

このように特定された仮接続語（あるいは仮接続文節や仮接続文）に対応して、データ分割部２５３は、分割データの始端である接続点より前の時間Δｔ２ｓ分の音声データと、分割データの終端である接続点より後の時間Δｔ２ｅ分の音声データとをそれぞれ付加して分割データを生成する（後述する図７参照）。分割データの始端である接続点より前の時間Δｔ２ｓは、始端の接続点を基に特定された仮接続語（あるいは仮接続文節や仮接続文）の先頭から、始端である接続点までの長さによって機械的に算出できる。また、分割データの終端である接続点より後の時間Δｔ２ｅは、終端である接続点から、終端の接続点を基に特定された仮接続語（あるいは仮接続文節や仮接続文）の末尾までの長さによって機械的に算出できる。さらに、接続点に単語が含まれない場合（即ち、接続点が単語間の境界位置である場合あるいは無音区間である場合）には、上述の分割データの境界を示す情報（仮接続語、仮接続文節あるいは仮接続文）の一般的な長さに基づいて、これらが含まれるように経験的に時間Δｔ２ｍａｘを設定し、始端の接続点の前あるいは終端の接続点の後に音声データ及びその音声認識結果を付加することができる。なお、このように設定された時間Δｔ２ｓ、Δｔ２ｅ、Δｔ２ｍａｘに対して、さらに拡張時間α分の音声データ含めることとしてもよい。

図４に戻り、分割データ送信部２５４は、データ分割部２５３によって分割された各分割データを、複数の端末装置１０に送信する。
なお、分割データ送信部２５４は、各分割データの送信先の端末装置１０を識別する情報を、文字起こし関連データ記憶部２７１に記憶する。

修正済みデータ受信部２５５は、各端末装置１０から送信された文字起こし作業済みの分割データ（以下、「修正済みデータ」と呼ぶ。）を受信する。そして、修正済みデータ受信部２５５は、受信した修正済みデータを文字起こし関連データ記憶部２７１に記憶する。

データ集約部２５６は、修正済みデータ受信部２５５によって受信された各修正済みデータを音声データの時間順に集約し、修正済みデータを集合させたデータである集約データを生成する。
集約データ送信部２５７は、データ集約部２５６によって生成された集約データを、最終校閲者が使用する端末装置１０Ｂに送信する。

［端末装置１０Ａの機能構成］
次に、端末装置１０Ａの機能構成について説明する。
図６は、端末装置１０Ａにおいて実現される主な機能構成を示すブロック図である。
図６に示すように、端末装置１０ＡのＣＰＵ１１において、分割データ受信部５１と、文字起こしインターフェース表示部５２と、分割データ修正受付部５３と、修正済みデータ送信部５４とが機能する。また、記憶部１７には、分割データ記憶部７１が形成される。
分割データ記憶部７１は、サーバ２０から送信された分割データを記憶する。

分割データ受信部５１は、サーバ２０から送信された分割データを受信する。このとき受信される分割データは、文字起こしの対象となる音声データ及びその音声データの音声認識結果全体のうち、サーバ２０によって当該端末装置１０Ａの作業者に割り当てられた分割データである。そして、分割データ受信部５１は、サーバ２０から受信した分割データを分割データ記憶部７１に記憶する。
文字起こしインターフェース表示部５２は、分割データ受信部５１によって受信された分割データを文字起こしするためのユーザインターフェース（以下、「文字起こしインターフェース」と呼ぶ。）を表示する。

図７は、文字起こしインターフェースの表示画面例を示す模式図である。
図７に示すように、文字起こしインターフェースにおいては、分割データの音声波形を示す音声波形領域Ｖと、分割データの音声波形に対応する文字列を示す文字列領域Ｃとが表示される。
音声波形領域Ｖは、分割データにおける音声データの時系列の音声波形を示す領域であり、始端である接続点より前の時間Δｔ２ｓから、終端である接続点より後の時間Δｔ２ｅまでの音声波形が示されている。なお、音声波形領域Ｖにおいて、始端となる接続点の位置と、終端となる接続点の位置とは、区切り線等の識別指標によって識別して示されている。この識別指標の位置は、音声データの再生時に、アラーム音等で作業者に報知される。また、図７においては、始端となる接続点より前の時間Δｔ２ｓ及び終端である接続点より後の時間Δｔ２ｅそれぞれに、拡張時間αを含む例を示している。

文字列領域Ｃは、分割データにおける音声データの音声認識結果である文字列を示す領域であり、音声波形領域Ｖと同様に、始端である接続点より前の時間Δｔ２ｓから、終端である接続点より後の時間Δｔ２ｅまでの音声認識結果の文字列が示されている。なお、始端となる接続点を含む接続文よりも前の文字列（拡張時間αに対応する文字列）には、取り消し線が付され、当該端末装置１０Ａの作業者に割り当てられた作業対象ではないことが示されている。
また、文字列領域Ｃにおいては、始端の接続点に対応する仮接続語「長旅」、この接続語を含む仮接続文節「長旅にも」、及び、この仮接続語を含む仮接続文「ブラジルからの長旅にも関わらず、」の文字列がそれぞれ識別して表示されている。このとき、例えば、仮接続文を青色、仮接続文内の仮接続文節を緑色、仮接続文節内の仮接続語を赤色で表示すること等が可能である。

さらに、文字列領域Ｃにおいては、終端の接続点に対応する仮接続語「メディカルチェック」、この仮接続語を含む仮接続文節「メディカルチェックへと」、及び、この仮接続語を含む仮接続文「クラブ関係者の車でメディカルチェックへと向かいました。」の文字列がそれぞれ識別して表示されている。なお、終端の仮接続語を含む仮接続文及びそれよりも後の文字列（拡張時間αに対応する文字列）には、取り消し線が付され、当該端末装置１０Ａの作業者に割り当てられた作業対象ではないことが示されている。

図６に戻り、分割データ修正受付部５３は、図７に示す文字起こしインターフェースの画面において、作業者による分割データの修正の入力を受け付ける。即ち、端末装置１０Ａを使用する作業者は、図７に示す文字起こしインターフェースの画面を見ながら、音声データを再生し、音声認識結果の文字列において、音声データに対する音声認識結果が不適切である部分を分割データ修正受付部５３を介して逐次修正する。なお、音声認識結果が不適切である部分がない場合には、分割データがそのまま修正済みデータとなる。
また、分割データ修正受付部５３は、図７に示す文字起こしインターフェースの画面において、作業者による仮接続語、仮接続文節、仮接続文の修正の入力を受け付ける。即ち、作業者は、仮接続語、仮接続文節、仮接続文それぞれが適切に音声認識され、適切な単位で設定されているかを確認し、不適切なものについては、分割データ修正受付部５３を介して適宜修正する。作業者により確認され、適宜修正された仮接続語、仮接続文節、仮接続文をそれぞれ接続語、接続文節、接続文と呼ぶ。

ここで、本実施形態において、端末装置１０Ａの作業者が分割データの修正を行う場合、以下の方針に従って修正作業が行われる。
（１）始端の接続文は、当該端末装置１０Ａの作業者が作成（文字起こし）する。
（２）終端の接続文は、当該端末装置１０Ａの作業者は作成（文字起こし）しない。即ち、始端及び終端の接続文は、隣接する分割データに含まれ、これらを割り当てられた複数の作業者に配布されるが、各作業者は、始端の接続文のみを文字起こしするものとする。これにより、同一部分が複数の作業者によって文字起こしされることを防ぐことができる。
（３）音声認識結果の接続文が表示されていない場合は、接続点の発話から接続文を作業者が確認して、始端の接続点に対応する接続文については作成し、終端の接続点に対応する接続文については作成しない。
（４）始端に接続語がない場合（始端の接続点近傍に音声がない場合）は、接続点の次の音声から文字起こしを行う。
（５）終端に接続語がない場合（終端の接続点近傍に音声がない場合）は、接続点の前の音声まで文字起こしを行う。
このように作業者が作業を行った場合、当該端末装置１０Ａの作業者が文字起こしの対象とする音声は、始端の接続文に対応する音声から、終端の接続文に対応する音声の直前までの間の音声となる。
なお、このような修正作業の方針において、接続文を分割データの境界の単位とすることの他、接続文節あるいは接続語（形態素）を分割データの境界の単位とすることが可能である。

修正済みデータ送信部５４は、文字起こし作業済みの分割データ（修正済みデータ）をサーバ２０に送信する。

［端末装置１０Ｂの機能構成］
次に、端末装置１０Ｂの機能構成について説明する。
図８は、端末装置１０Ｂにおいて実現される主な機能構成を示すブロック図である。
図８に示すように、端末装置１０ＢのＣＰＵ１１において、集約データ受信部１５１と、校閲用インターフェース表示部１５２と、集約データ修正受付部１５３とが機能する。また、記憶部１７には、文字起こしデータ記憶部１７１が形成される。
文字起こしデータ記憶部１７１は、サーバ２０から送信された集約データや、その集約データを最終校閲者が校閲し、最終的なデータとして確認した結果である文字起こしデータを記憶する。
集約データ受信部１５１は、サーバ２０から送信された集約データを受信する。そして、集約データ受信部１５１は、サーバ２０から受信した集約データを文字起こしデータ記憶部１７１に記憶する。

校閲用インターフェース表示部１５２は、集約データ受信部１５１によって受信された集約データを校閲するためのユーザインターフェース（以下、「校閲用インターフェース」と呼ぶ。）を表示する。校閲用インターフェースには、集約データに含まれる各修正済みデータの音声波形及び修正された音声認識結果の文字列が音声データの時系列順に並べて表示される。例えば、校閲用インターフェースにおいては、文字起こしの対象となる音声データにおける最初の修正済みデータの音声波形及び文字列を、第１段のデータとして、図７に示す文字起こしインターフェースの場合と同様に横方向に表示し、以下、後続の修正済みデータを第２段以降に同様に表示することができる。なお、校閲用インターフェースでは、文字起こし作業済みの音声認識結果である文字列において、始端となる接続点に対応する接続文の先頭から、終端となる接続点に対応する接続文の直前までの文字列が表示される。また、校閲用インターフェースでは、各修正済みデータの音声データにおいて、図７に示す文字起こしインターフェースの場合と同様に、始端となる接続点の位置と、終端となる接続点の位置とは、区切り線等の識別指標によって識別して示されている。この識別指標の位置は、音声データの再生時に、アラーム音等で最終校閲者に報知される。さらに、校閲用インターフェースでは、図７に示す文字起こしインターフェースの場合と同様に、始端の接続点に対応する接続語、この接続語を含む接続文節、及び、この接続語を含む接続文がそれぞれ識別して表示される。このとき、例えば、接続文を青色、接続文内の接続文節を緑色、接続文節内の接続語を赤色で表示すること等が可能である。

なお、校閲用インターフェースの他の表示形態としては、集約データに含まれる各修正済みデータの音声波形及び修正された音声認識結果の文字列を音声データの時系列順にそれぞれ結合して、１つの音声波形及び１つの文字列を生成し、これら音声波形及び文字列を、図７に示す文字起こしインターフェースの場合と同様に横方向に表示してもよい。この場合、音声波形領域Ｖに、複数の修正済みデータの境界に対応する複数の接続点を表示すると共に、文字列領域Ｃに、複数の修正済みデータの境界に対応する複数の接続語（あるいは接続文節や接続文）を表示することができる。また、このとき、複数の修正済みデータの境界に対応する複数の接続語（あるいは接続文節や接続文）を、上述のように所定の色で表示する等により、それぞれ識別して表示することができる。

集約データ修正受付部１５３は、校閲用インターフェースの画面において、最終校閲者による集約データの修正の入力を受け付ける。即ち、端末装置１０Ｂを使用する最終校閲者は、校閲用インターフェースの画面を見ながら、音声データを再生し、各作業者による文字起こし作業済みの音声認識結果の文字列において、音声データに対する文字起こしの結果が不適切である部分を集約データ修正受付部１５３を介して逐次修正する。このとき、校閲用インターフェースにおいては、接続点、接続語、接続文節及び接続文等が識別して表示されるため、最終校閲者は、修正済みデータの境界部分については、これらの識別情報を参照することで、より高い注意をもって校閲作業を行うことができる。

集約データ修正受付部１５３は、このようにして集約データに対して校閲が行われた結果のデータを、最終的な文字起こしデータとして、文字起こしデータ記憶部１７１に記憶する。

［動作］
次に、情報処理システム１の動作を説明する。
［文字起こし対象データ分割処理］
図９は、情報処理システム１のサーバ２０が実行する文字起こし対象データ分割処理の流れを示すフローチャートである。
文字起こし対象データ分割処理は、文字起こしの対象となる音声データを複数の作業者によって分担して文字起こしを行うために、サーバ２０が分割データを生成するための処理である。
なお、文字起こし対象データ分割処理は、端末装置１０Ｂあるいは他の装置からサーバ２０に対して、音声データの文字起こしを行うことが依頼された場合に開始される。

文字起こし対象データ分割処理が開始されると、ステップＳ１において、音声データ取得部２５１は、文字起こしの対象となる音声データを取得する。
ステップＳ２において、音声認識結果取得部２５２は、文字起こしの対象となる音声データを音声認識処理した結果の文字列からなるデータを取得する。
ステップＳ３において、データ分割部２５３は、音声データ取得部２５１によって取得された文字起こしの対象となる音声データと、音声認識結果取得部２５２によって取得された音声認識結果とを分割し、複数の作業者によって文字起こしを行うための分割データを生成する。このとき、データ分割部２５３は、文字起こしの対象となる音声データが音声認識される際に取得された音声認識結果の信頼度に基づいて、文字起こしの対象となる音声データ及びその音声データの音声認識結果を分割する。

ステップＳ４において、分割データ送信部２５４は、データ分割部２５３によって分割された各分割データを、複数の端末装置１０に送信する。
ステップＳ４の後、文字起こし対象データ分割処理は終了となる。

［分割データ文字起こし処理］
図１０は、情報処理システム１の端末装置１０Ａが実行する分割データ文字起こし処理の流れを示すフローチャートである。
分割データ文字起こし処理は、端末装置１０Ａの使用者（作業者）が分割データの文字起こし作業を行うための処理である。
なお、分割データ文字起こし処理は、サーバ２０から端末装置１０Ａに文字起こし作業が依頼された場合に開始される。

分割データ文字起こし処理が開始されると、ステップＳ１１において、分割データ受信部５１は、サーバ２０から送信された分割データを受信する。
ステップＳ１２において、文字起こしインターフェース表示部５２は、分割データ受信部５１によって受信された分割データを文字起こしするための文字起こしインターフェースを表示する。

ステップＳ１３において、分割データ修正受付部５３は、文字起こしインターフェースの画面において、作業者による分割データの修正の入力を受け付ける。なお、このとき、分割データ修正受付部５３は、作業者による仮接続語、仮接続文節、仮接続文の修正の入力を併せて受け付ける。
ステップＳ１４において、修正済みデータ送信部５４は、文字起こし作業済みの分割データ（修正済みデータ）をサーバ２０に送信する。
ステップＳ１４の後、分割データ文字起こし処理は終了となる。

［データ集約処理］
図１１は、情報処理システム１のサーバ２０が実行するデータ集約処理の流れを示すフローチャートである。
データ集約処理は、複数の作業者による文字起こし作業の結果（修正済みデータ）を１つのデータに集約するための処理である。
なお、データ集約処理は、端末装置１０Ａからサーバ２０に対して、修正済みデータが送信された場合に開始される。

データ集約処理が開始されると、ステップＳ２１において、修正済みデータ受信部２５５は、各端末装置１０から送信された文字起こし作業済みの分割データ（修正済みデータ）を受信する。

ステップＳ２２において、データ集約部２５６は、修正済みデータ受信部２５５によって受信された各修正済みデータを音声データの時間順に集約し、修正済みデータを集合させたデータである集約データを生成する。
ステップＳ２３において、集約データ送信部２５７は、データ集約部２５６によって生成された集約データを、最終校閲者が使用する端末装置１０Ｂに送信する。
ステップＳ２３の後、データ集約処理は終了となる。

［集約データ校閲処理］
図１２は、情報処理システム１の端末装置１０Ｂが実行する集約データ校閲処理の流れを示すフローチャートである。
集約データ校閲処理は、端末装置１０Ｂの使用者（最終校閲者）が集約データの校閲作業を行うための処理である。
なお、集約データ校閲処理は、サーバ２０から端末装置１０Ｂに校閲作業が依頼された場合に開始される。

集約データ校閲処理が開始されると、ステップＳ３１において、集約データ受信部１５１は、サーバ２０から送信された集約データを受信する。
ステップＳ３２において、校閲用インターフェース表示部１５２は、集約データ受信部１５１によって受信された集約データを校閲するための校閲用インターフェースを表示する。
ステップＳ３３において、集約データ修正受付部１５３は、校閲用インターフェースの画面において、最終校閲者による集約データの修正の入力を受け付ける。
ステップＳ３４において、集約データ修正受付部１５３は、このようにして集約データに対して校閲が行われた結果のデータを、最終的な文字起こしデータとして、文字起こしデータ記憶部１７１に記憶する。
ステップＳ３４の後、集約データ校閲処理は終了となる。

［効果］
以上のように、本実施形態に係る情報処理システム１では、隣接する分割データとの境界部分に、境界となる時刻に対応する接続語等が識別して示される。
これにより、分割データを文字起こしする作業者は、自身が担当すべきデータの境界を容易に把握することができると共に、接続語等を単位として、より適切な位置に分割データの境界を設定することができる。
また、最終校閲者が校閲作業を行う集約データには、境界位置（接続語等）が識別して示されている。
そのため、最終校閲者は、異なる作業者によって文字起こし作業が行われた部分の境界を容易に把握しながら、当該部分に対して高い注意をもって確認を行うことができる。
このように、本実施形態に係る情報処理システム１によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。

具体的には、本実施形態に係る情報処理システム１によって文字起こしを行うことにより、以下の点において有利となる。
（１）文字起こしの対象となる音声を分割する場合、音声認識結果における文末に対応する音声の終わりで分割することが望ましいが、音声認識において誤認識が発生している場合等には、実際の発話の文末を正確に把握することができず、文中の不適切な位置や単語の途中等で分割されてしまうという問題が発生する。
これに対し、情報処理システム１では、音声データにおける接続点が明示されているため、接続点に対応する接続語等が誤認識されている場合等でも、上述のような処理により、接続語を特定し、所定の境界（接続文、接続文節あるいは接続語（形態素））まで、適切に文字起こしを行うことができる。

（２）雑音が多い音声等では、無音や息継ぎの区間を検出することが困難なため、無音区間の検出だけでは発話音声を正確に区切ることが容易ではない。この場合、文中の不適切な位置や単語の途中等で分割されてしまうことがあり、前後の文脈が不明となることから、文字起こしの誤りの原因となる。
これに対し、情報処理システム１では、始端となる接続点より前の時間Δｔ２ｓ及び終端である接続点より後の時間Δｔ２ｅまでの音声データの音声認識結果に属する接続語あるいは接続語を含む文等を単位として、分割データの境界を設定するため、作業者が文脈を把握し易い位置で文字起こしの対象となる音声を分割することができ、文字起こしの精度を高めることができる。

（３）文字起こしの対象となる音声を分割する際に、文脈をより明らかにするため、隣接する部分と一定時間の重なりをもって分割した場合、分割した音声データの境界付近の文字起こし作業が重複して行われる等、効率の低下の問題が発生する。また、文字起こし作業が重複して行われた場合には、いずれの文字起こし作業の結果を採用するかを判断する必要が生じる。
これに対し、情報処理システム１では、接続語あるいは接続語を含む文等の境界位置が識別して表示されるため、分割された音声データを文字起こしする作業者は、自身が担当すべきデータの境界を、わかり易い単位で、容易に把握することができる。
そのため、文字起こし作業が複数の作業者において重複して行われることを防ぐことができ、効率の低下を抑制することができる。また、重複して行われた文字起こし作業の結果のいずれを採用するかを判断する必要がなくなる。

（４）文字起こしの対象となる音声を同一の時間で分割した場合、音声認識結果の精度（信頼度）が高い部分については、修正する文字が少ないため、文字起こしの作業は短時間で済む一方、雑音等の影響で音声認識結果の精度が低い場合については、修正する文字が多くなり、文字起こし作業に要する時間は長時間となる。
この場合、分割された音声データそれぞれを作業者が処理する時間にばらつきが生じ、文字起こし作業全体の効率が低下する可能性がある。また、各作業者に対する報酬が同一であれば、処理負担が大きく異なることとなり、作業者間に不公平をもたらすこととなる。
これに対し、情報処理システム１では、各作業者による作業負担が均等となるように、文字起こしの対象となる音声データが分割されるため、各作業者の処理時間を均一化できると共に、作業者間に不公平が生じる事態を抑制することができる。

［変形例１］
上述の実施形態において、分割データの分割時間ＤＴを算出する場合、以下のような算出方法とすることができる。
即ち、分割データの分割時間ＤＴは、音声認識結果の信頼度から算出した係数λで比例計算することができる。
具体的には、音声認識結果の信頼度をＣＬ（０＜ＣＬ＜１）とすると、係数λをＣＬが大きいほど大きくなるＣＬの関数として定義することができ、例えば、λ＝ＣＬ＋０．５と定義することができる。
そして、この係数λを用いて、分割データの分割時間ＤＴを
ＤＴ＝λ×ＤＴ０
と定義することができる。

［変形例２］
上述の実施形態において、分割データの分割時間（即ち、文字起こし作業の負荷）を決定するパラメータとして、音声認識結果の信頼度を用いることとしたが、これに限られない。
例えば、音声認識文字数、発話スピード（一定時間における発話モーラ数）、音声の品質（Ｓ／Ｎ比等）、発話の明瞭度（滑舌の良さ、なまりの度合い等）、音割れ（音の歪み）の有無等、音声データの各種属性に基づいて、分割データの分割時間を決定することとしてもよい。

以上のように構成される情報処理システム１は、サーバ２０と、端末装置１０Ａとを含む。サーバ２０は、音声データ取得部２５１及び音声認識結果取得部２５２（文字起こし対象データ取得手段）と、データ分割部２５３とを備える。端末装置１０Ａは、文字起こしインターフェース表示部５２と、分割データ修正受付部５３とを備える。
音声データ取得部２５１及び音声認識結果取得部２５２は、文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを取得する。
データ分割部２５３は、音声データ取得部２５１及び音声認識結果取得部２５２によって取得された音声データ及び音声認識結果のデータを分割して分割データを生成する。
文字起こしインターフェース表示部５２は、分割データにおける音声データの音声波形を表す領域と、当該音声データの音声認識結果のデータが示す文字列を表す領域とを含み、分割データを文字起こしするための文字起こしインターフェースを表示する。
分割データ修正受付部５３は、文字起こしインターフェースに表示された音声認識結果のデータに対する修正を受け付ける。
文字起こしインターフェース表示部５２は、音声データの音声波形において分割データの境界位置を示す接続点と、音声認識結果のデータにおいて接続点の音声に対応する接続語とを識別して表示する。
これにより、隣接する分割データとの境界部分に、境界となる時刻に対応する接続語が識別して示される。
そのため、分割データを文字起こしする作業者は、接続語を単位として、自身が担当すべきデータの境界を容易に把握することができる。
したがって、情報処理システム１によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。

文字起こしインターフェース表示部５２は、文字起こしインターフェースにおいて、接続語を含む接続文節をさらに識別して表示する。
これにより、接続文節を単位として、自身が担当すべきデータの境界を容易に把握することができる。

文字起こしインターフェース表示部５２は、文字起こしインターフェースにおいて、接続語を含む接続文をさらに識別して表示する。
これにより、接続文を単位として、自身が担当すべきデータの境界を容易に把握することができる。

データ分割部２５３は、接続点の音声に対応する接続語、接続語を含む接続文節または接続語を含む接続文の少なくともいずれかを単位として、音声データ及び音声認識結果のデータを分割する。
これにより、接続語、接続文節または接続文を単位として、分割データの境界を設定することができる。また、分割データの境界を設定する際に、音声データにおいて接続点に付加する時間を、接続語、接続文節または接続文等の単位の先頭あるいは末尾を区切りとして、機械的に算出することができる。

接続語、接続文節または接続文の少なくともいずれかは、分割データの文字起こしを行う作業者が担当する範囲の境界を表す。
これにより、作業者は、自身が文字起こしを担当する文字列をわかり易い単位で把握することができる。

データ分割部２５３は、音声データの属性に基づいて、音声データ及び音声認識結果のデータを分割データとして分割する長さを決定する。
これにより、文字起こしの対象となる音声データの属性を反映させて、分割データの長さを決定することができる。

データ分割部２５３は、音声認識結果の信頼度に基づいて、音声データ及び音声認識結果のデータを分割データとして分割する長さを決定する。
これにより、文字起こしの対象となる音声データの信頼度を反映させて、分割データの長さを決定することができる。

サーバ２０は、データ集約部２５６を備える。
データ集約部２５６は、作業者用の端末装置１０Ａにおける分割データの作業結果を集約した集約データを生成する。
これにより、複数の作業者による作業結果を容易に集約することができる。

情報処理システム１は、端末装置１０Ｂをさらに含む。
端末装置１０Ｂは、複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される。
端末装置１０Ｂは、校閲用インターフェース表示部１５２を備える。
校閲用インターフェース表示部１５２は、作業者用の端末装置における作業結果を集約した集約データについて、当該集約データに含まれる分割データの作業結果のうち、音声データの音声波形を表す領域と、当該音声データを対象として作業者が文字起こしした結果の文字列を表す領域とを含み、集約データを校閲するための校閲用インターフェースを表示する。
これにより、校閲者は、異なる作業者による文字起こし作業の結果を容易に校閲することが可能となる。

校閲用インターフェース表示部１５２は、集約データに含まれる分割データの作業結果のうち、音声データの音声波形において分割データの境界位置を示す接続点と、接続点の音声に対応する接続語とを識別して表示する。
これにより、校閲者は、異なる作業者によって文字起こし作業が行われた部分の境界を容易に把握しながら、当該部分に対して高い注意をもって確認を行うことができる。

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
例えば、上述の実施形態において、分割データの境界を示す情報として、文字列の各種ブロックを単位として定義することができる。即ち、分割データの境界を示す文字列のブロックとしては、形態素、単語、文節、句、単文等を定義したり、あるいは、複文までを許容して定義したりすることができる。また、上述の実施形態において、日本語の他、英語、中国語、タイ語等、異なる言語体系においても、その言語に応じたブロックを定義して本発明を活用することができる。

また、上述の実施形態において、サーバ２０の構成は一例として示したものであり、情報処理システム１全体として、サーバ２０の機能が備えられていれば、サーバ２０の機能を複数のサーバに分割して実装したり、端末装置１０にサーバ２０の機能の一部を実装したりすることができる。
さらに、サーバ２０の機能をいずれかの端末装置１０に実装することにより、サーバ２０を介することなく、端末装置１０を使用するユーザ間において、文字起こしの対象となる音声データ及びその音声データの音声認識結果を分割し、文字起こし作業を分担して行うこととしてもよい。この場合、作業者によって使用される複数の端末装置１０Ａから送信される作業済みデータを、最終校閲者が使用する端末装置１０Ｂが受信して集約データを生成し、最終校閲者が集約データを校閲することにより、最終的な文字起こしデータを生成することができる。
また、上述の実施形態及び変形例を適宜組み合わせた構成とすることとしてもよい。

上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図４，６，８の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システム１に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図４，６，８の例に限定されない。
また、１つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。

このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図２及び図３のリムーバブルメディア３１，２３１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア３１，２３１は、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、または光磁気ディスク等により構成される。光ディスクは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等により構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図２及び図３のＲＯＭ１２，２１２や、図２及び図３の記憶部１７，２１７に含まれるＤＲＡＭ等で構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。

１情報処理システム、１０，１０Ａ，１０Ｂ端末装置、２０サーバ、３０ネットワーク、１１，２１１ＣＰＵ、１２，２１２ＲＯＭ、１３，２１３ＲＡＭ、１４，２１４バス、１５，２１５入力部、１６，２１６出力部、１７，２１７記憶部、１８，２１８通信部、１９，２１９ドライブ、３１，２３１リムーバブルメディア、５１分割データ受信部、５２文字起こしインターフェース表示部、５３分割データ修正受付部、５４修正済みデータ送信部、７１分割データ記憶部、１５１集約データ受信部、１５２校閲用インターフェース表示部、１５３集約データ修正受付部、１７１文字起こしデータ記憶部、２５１音声データ取得部、２５２音声認識結果取得部、２５３データ分割部、２５４分割データ送信部、２５５修正済みデータ受信部、２５６データ集約部、２５７集約データ送信部、２７１文字起こし関連データ記憶部

Claims

文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムであって、
前記サーバは、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得手段と、
前記文字起こし対象データ取得手段によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割手段と、を備え、
前記作業者用の端末装置は、
前記分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示手段と、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付手段と、を備え、
前記文字起こしインターフェース表示手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする情報処理システム。
前記文字起こしインターフェース表示手段は、前記文字起こしインターフェースにおいて、前記接続語を含む接続文節をさらに識別して表示することを特徴とする請求項１に記載の情報処理システム。
前記文字起こしインターフェース表示手段は、前記文字起こしインターフェースにおいて、前記接続語を含む接続文をさらに識別して表示することを特徴とする請求項１または２に記載の情報処理システム。
前記データ分割手段は、前記接続点の音声に対応する接続語、前記接続語を含む接続文節または前記接続語を含む接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータを分割することを特徴とする請求項１から３のいずれか１項に記載の情報処理システム。
前記接続語、前記接続文節または前記接続文の少なくともいずれかは、前記分割データの文字起こしを行う前記作業者が担当する範囲の境界を表すことを特徴とする請求項４に記載の情報処理システム。
前記データ分割手段は、前記音声データの属性に基づいて、前記音声データ及び前記音声認識結果のデータを前記分割データとして分割する長さを決定することを特徴とする請求項１から５のいずれか１項に記載の情報処理システム。
前記データ分割手段は、前記音声認識結果の信頼度に基づいて、前記音声データ及び前記音声認識結果のデータを前記分割データとして分割する長さを決定することを特徴とする請求項１から６のいずれか１項に記載の情報処理システム。
前記サーバは、
前記作業者用の端末装置における前記分割データの作業結果を集約した集約データを生成する集約データ生成手段をさらに備えることを特徴とする請求項１から７のいずれか１項に記載の情報処理システム。
複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置をさらに含み、
前記校閲者用の端末装置は、
前記作業者用の端末装置における作業結果を集約した集約データについて、当該集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示手段を備えることを特徴とする請求項１から８のいずれか１項に記載の情報処理システム。
前記校閲用インターフェース表示手段は、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す前記接続点と、前記接続点の音声に対応する前記接続語とを識別して表示することを特徴とする請求項９に記載の情報処理システム。
音声データを文字起こしする作業者によって使用される作業者用の端末装置であって、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータが分割された分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示手段と、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付手段と、を備え、
前記文字起こしインターフェース表示手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする端末装置。
複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置であって、
文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを分割した分割データに対する前記複数の作業者による作業結果を集約した集約データについて、当該集約データに含まれる作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示手段を備え、
前記校閲用インターフェース表示手段は、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする端末装置。
文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムにおけるサーバであって、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得手段と、
前記文字起こし対象データ取得手段によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割手段と、を備え、
前記データ分割手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点に対し、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語、接続文節または接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータを分割することを特徴とするサーバ。
音声データを文字起こしする作業者によって使用される作業者用の端末装置が実行する情報処理方法であって、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータが分割された分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示ステップと、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付ステップと、を含み、
前記文字起こしインターフェース表示ステップでは、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とが識別して表示されることを特徴とする情報処理方法。
複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置が実行する情報処理方法であって、
文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを分割した分割データに対する前記複数の作業者による作業結果を集約した集約データについて、当該集約データに含まれる作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示ステップを含み、
前記校閲用インターフェース表示ステップでは、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とが識別して表示されることを特徴とする情報処理方法。
文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムにおけるサーバが実行する情報処理方法であって、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得ステップと、
前記文字起こし対象データ取得ステップにおいて取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割ステップと、を含み、
前記データ分割ステップでは、前記音声データの音声波形において前記分割データの境界位置を示す接続点に対し、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語、接続文節または接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータが分割されることを特徴とする情報処理方法。
音声データを文字起こしする作業者によって使用される作業者用の端末装置を構成するコンピュータに、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータが分割された分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示機能と、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付機能と、を実現させ、
前記文字起こしインターフェース表示機能は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とするプログラム。
複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置を構成するコンピュータに、
文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを分割した分割データに対する前記複数の作業者による作業結果を集約した集約データについて、当該集約データに含まれる作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示機能を実現させ、
前記校閲用インターフェース表示機能は、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とするプログラム。
文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムにおけるサーバを構成するコンピュータに、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得機能と、
前記文字起こし対象データ取得機能によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割機能と、を実現させ、
前記データ分割機能は、前記音声データの音声波形において前記分割データの境界位置を示す接続点に対し、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語、接続文節または接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータを分割することを特徴とするプログラム。