JP2018059989A - 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム - Google Patents

情報処理システム、端末装置、サーバ、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2018059989A
JP2018059989A JP2016195846A JP2016195846A JP2018059989A JP 2018059989 A JP2018059989 A JP 2018059989A JP 2016195846 A JP2016195846 A JP 2016195846A JP 2016195846 A JP2016195846 A JP 2016195846A JP 2018059989 A JP2018059989 A JP 2018059989A
Authority
JP
Japan
Prior art keywords
data
voice
transcription
recognition result
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016195846A
Other languages
English (en)
Other versions
JP6780849B2 (ja
Inventor
清幸 鈴木
Kiyoyuki Suzuki
清幸 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Media Inc
Original Assignee
Advanced Media Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Media Inc filed Critical Advanced Media Inc
Priority to JP2016195846A priority Critical patent/JP6780849B2/ja
Publication of JP2018059989A publication Critical patent/JP2018059989A/ja
Application granted granted Critical
Publication of JP6780849B2 publication Critical patent/JP6780849B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させること。【解決手段】情報処理システム1において、音声データ取得部251及び音声認識結果取得部252は、文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを取得する。データ分割部253は、音声データ及び音声認識結果のデータを分割して分割データを生成する。文字起こしインターフェース表示部52は、分割データにおける音声波形を表す領域と、音声認識結果のデータが示す文字列を表す領域とを含む文字起こしインターフェースを表示する。分割データ修正受付部53は、音声認識結果のデータに対する修正を受け付ける。文字起こしインターフェース表示部52は、音声波形において分割データの境界位置を示す接続点と、接続点の音声に対応する接続語とを識別して表示する。【選択図】図7

Description

本発明は、情報処理システム、端末装置、サーバ、情報処理方法及びプログラムに関する。
従来、会議等の音声を音声認識処理して得られた文字列を、作業者が音声を聞きながら修正・編集して文章化する文字起こしが行われている。
このような文字起こしにおいては、文字起こしの対象となる音声が長時間のものである場合の作業全体の時間を短縮する目的や音声内容の秘匿性の観点等から、複数の作業者によって分担して文字起こしが行われることがある。
例えば、特許文献1には、話者の発言・会話が記録されている音声データを複数の音声区間に細分化し、細分化された各音声区間それぞれの文字起こしを複数の作業者によって行い、サーバが各作業者の作業結果である文字列を結合して、元の音声データの会話全体を文章化した文章データを構築する技術が開示されている。
特開2008−107624号公報
しかしながら、文字起こしの作業を複数の作業者によって分担して行う場合、文字起こしの対象となる全体のデータを適切な位置及びサイズで分割することが必ずしも容易ではない。そして、文字起こしの対象となる全体のデータが不適切に分割された場合、各作業者の作業時間にばらつきが生じる等、文字起こしの作業全体として、効率が低下する可能性がある。さらに、文字起こしの対象となる全体のデータが不適切な位置で分割されている場合、作業者が文脈を適切に判断できないことがあり、文字起こしの作業効率が低下する可能性がある。
また、分割されたデータの文字起こしを行う作業者にとって、当該作業者自身が分担すべきデータの境界部分が明確に把握できないことがあり、他の作業者の作業と重複が生じる可能性がある。
さらに、複数の作業者による作業結果を集約し、最終校正を行う校正者にとって、複数の作業者による作業結果が適切に集約されているか否かを確認する作業負担が大きいものとなる。
このように、対象となる音声を複数の作業者によって分担して文字起こしを行う従来の技術においては、効率的な処理を行うことが困難であった。
本発明は、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることを目的とする。
上記目的を達成するため、本発明の一態様の情報処理システムは、
文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムであって、
前記サーバは、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得手段と、
前記文字起こし対象データ取得手段によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割手段と、を備え、
前記作業者用の端末装置は、
前記分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示手段と、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付手段と、を備え、
前記文字起こしインターフェース表示手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする。
本発明によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。
本発明に係る情報処理システムのシステム構成を示す図である。 本実施形態に係る端末装置のハードウェア構成を示す模式図である。 サーバのハードウェア構成を示す模式図である。 サーバにおいて実現される主な機能構成を示すブロック図である。 分割データの境界における音声データ及び音声認識結果の文字列の一例を示す模式図である。 作業者によって使用される端末装置において実現される主な機能構成を示すブロック図である。 文字起こしインターフェースの表示画面例を示す模式図である。 最終校閲者によって使用される端末装置において実現される主な機能構成を示すブロック図である。 情報処理システムのサーバが実行する文字起こし対象データ分割処理の流れを示すフローチャートである。 情報処理システムの端末装置が実行する分割データ文字起こし処理の流れを示すフローチャートである。 情報処理システムのサーバが実行するデータ集約処理の流れを示すフローチャートである。 情報処理システムの端末装置が実行する集約データ校閲処理の流れを示すフローチャートである。
以下、本発明の実施形態について、図面を用いて説明する。
[構成]
[システム構成]
図1は、本発明に係る情報処理システム1のシステム構成を示す図である。
図1に示すように、本発明に係る情報処理システム1は、複数の端末装置10と、サーバ20とを含んで構成され、複数の端末装置10とサーバ20とは、インターネットあるいはLAN(Local Area Network)等のネットワーク30を介して互いに通信可能に構成されている。本実施形態において、複数の端末装置10には、分割データの文字起こし作業を行う作業者によって使用される端末装置10Aと、文字起こしの対象となる音声データの文字起こし結果を最終的に校閲する最終校閲者によって使用される端末装置10Bとが含まれる。以下、端末装置10A及び端末装置10Bを区別しない場合、単に端末装置10と称するものとする。
本実施形態における情報処理システム1では、文字起こしの元となる音声データ及びその音声データの音声認識結果を複数に分割し、分割された各音声データ及び音声認識結果を複数の作業者によって分担して文字起こしを行う。このとき、情報処理システム1は、音声データを音声認識における信頼度等の条件に基づいて分割し、各作業者の負担を調整する。また、情報処理システム1では、各作業者に配布される音声データ及び音声認識結果において、隣接する音声データ及び音声認識結果との境界部分には、境界となる時刻に対応する単語(あるいは形態素)等の要素を単位として、境界位置(後述する接続語)が識別して示され、その要素を含む文が、分割された音声データ間の境界の文字列(後述する接続文)とされる。これにより、分割された音声データを文字起こしする作業者は、自身が担当すべきデータの境界を容易に把握することができる。さらに、情報処理システム1では、分担して行われた文字起こしの結果が集約され、最終校閲者によって、文字起こし作業の結果が適切に集約されているか否かが確認される。このとき、分担して行われた文字起こし作業の結果には、境界位置(接続語)あるいは境界位置の要素を含む文字列(接続文)等が識別して示されているため、最終校閲者は、異なる作業者によって文字起こし作業が行われた部分の境界を容易に把握しながら、当該部分に対して高い注意をもって確認を行うことができる。
このように、本実施形態に係る情報処理システム1によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。
[ハードウェア構成]
次に、情報処理システム1を構成する各装置のハードウェア構成を説明する。
図2は、本実施形態に係る端末装置10のハードウェア構成を示す模式図である。
図2に示すように、端末装置10は、CPU(Central Processin Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入力部15と、出力部16と、記憶部17と、通信部18と、ドライブ19と、を備えている。
CPU11は、ROM12に記録されているプログラム、または、記憶部17からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。バス14には、入力部15、出力部16、記憶部17、通信部18及びドライブ19が接続されている。
入力部15は、各種ボタンを備えるキーボードや音声を入力するためのマイク等で構成され、各種ボタンあるいは音声による指示操作に応じて各種情報を入力する。
出力部16は、ディスプレイやイヤホン等で構成され、画像や音声を出力する。
記憶部17は、ハードディスクあるいはDRAM(Dynamic Random Access Memory)等で構成され、端末装置10で管理される各種データを記憶する。
通信部18は、ネットワークを介して他の装置との間で行う通信を制御する。
ドライブ19には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア31が適宜装着される。ドライブ19によってリムーバブルメディア31から読み出されたデータに基づき、必要に応じて所定のプログラムが記憶部17にインストールされる。
図3は、サーバ20のハードウェア構成を示す模式図である。
サーバ20は、サーバコンピュータ等の情報処理装置によって構成される。
図3に示すように、サーバ20は、CPU211と、ROM212と、RAM213と、バス214と、入力部215と、出力部216と、記憶部217と、通信部218と、ドライブ219と、を備えている。
CPU211は、ROM212に記録されているプログラム、または、記憶部217からRAM213にロードされたプログラムに従って各種の処理(サーバ20の機能を実現するための処理)を実行する。
RAM213には、CPU211が各種の処理を実行する上において必要なデータ等も適宜記憶される。
CPU211、ROM212及びRAM213は、バス214を介して相互に接続されている。バス214には、入力部215、出力部216、記憶部217、通信部218及びドライブ219が接続されている。
入力部215は、各種釦等で構成され、指示操作に応じて各種情報を入力する。
出力部216は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
記憶部217は、ハードディスクあるいはDRAM等で構成され、各サーバで管理される各種データを記憶する。
通信部218は、ネットワークを介して他の装置との間で行う通信を制御する。
ドライブ219には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア231が適宜装着される。ドライブ219によってリムーバブルメディア231から読み出されたデータに基づき、必要に応じて所定のプログラムが記憶部217にインストールされる。
[機能的構成]
次に、情報処理システム1において実現される主な機能構成について説明する。
[サーバ20の機能構成]
図4は、サーバ20において実現される主な機能構成を示すブロック図である。
図4に示すように、サーバ20のCPU211において、音声データ取得部251と、音声認識結果取得部252と、データ分割部253と、分割データ送信部254と、修正済みデータ受信部255と、データ集約部256と、集約データ送信部257とが機能する。また、記憶部217には、文字起こし関連データ記憶部271が形成される。
文字起こし関連データ記憶部271は、文字起こしの対象となる音声データ、その音声データを音声認識した結果のデータ、文字起こしの対象となる音声データ及びその音声データの音声認識結果の分割データ(後述)、分割データの送信先の端末装置10を識別する情報、端末装置10から送信された修正済みデータ(後述)、及び、最終校閲者によって確認された文字起こし結果のデータ等、文字起こし作業に関連する各種データを対応付けて記憶する。
音声データ取得部251は、文字起こしの対象となる音声データを取得する。例えば、音声データ取得部251は、他の装置からネットワーク30を介して受信したり、リムーバブルメディア231を介して入力されたりすることにより、文字起こしの対象となる音声データを取得する。また、音声データ取得部251は、取得した音声データを文字起こし関連データ記憶部271に記憶する。
音声認識結果取得部252は、文字起こしの対象となる音声データを音声認識処理した結果の文字列からなるデータを取得する。このとき、音声認識結果取得部252は、ネットワーク30を介して、外部に設置された音声認識のためのサーバに音声認識処理を依頼して、その音声認識結果を取得したり、サーバ20に音声認識処理機能を備えておき、その音声認識処理機能による音声認識結果を取得したりすることができる。そして、音声認識結果取得部252は、取得した音声認識結果を文字起こし関連データ記憶部271に記憶する。
データ分割部253は、音声データ取得部251によって取得された文字起こしの対象となる音声データと、音声認識結果取得部252によって取得された音声認識結果とを分割し、複数の作業者によって文字起こしを行うためのデータ(以下、「分割データ」と呼ぶ。)を生成する。このとき、データ分割部253は、各作業者による作業負担が均等となるように、文字起こしの対象となる音声データ及びその音声データの音声認識結果を分割する。本実施形態において、データ分割部253は、文字起こしの対象となる音声データが音声認識される際に取得された音声認識結果の信頼度に基づいて、文字起こしの対象となる音声データ及びその音声データの音声認識結果を分割する。例えば、音声認識結果の信頼度が低い部分については、文字起こしの作業負担が大きいと考えられるため、音声認識結果の信頼度が高い部分よりも、音声データの時間がより短い分割データが生成される。
以下、データ分割部253における具体的な分割データの生成手順について説明する。
初めに、データ分割部253は、分担して文字起こしを行う作業者の数によって、文字起こしの対象となる音声データ全体の時間を分割し、分割データの時間(分割時間)の初期値DT0を設定する。なお、このとき、予め設定された分割時間DT0の初期値(例えば5分等)を用いることとしてもよい。
そして、データ分割部253は、文字起こしの対象となる音声データの最初から分割データの分割時間の初期値DT0までの分割データを取得し、この分割データについて、音声認識結果の信頼度を算出する。例えば、データ分割部253は、分割データに含まれる文字列の音声認識結果における単語単位の信頼度の合計を単語数で除算すること等により、分割データの音声認識結果の信頼度を算出する。
次に、データ分割部253は、算出した信頼度に基づいて、分割時間の初期値DT0の調整を行い、分割データの分割時間DTを算出する。例えば、データ分割部253は、音声認識結果の信頼度について設定された閾値Tth1,Tth2(Tth1<Tth2)に基づいて、以下のように分割時間DTを算出する。
(1)Tth1<音声認識結果の信頼度<Tth2であれば、分割データの分割時間DT0を維持する(DT=DT0)。
(2)Tth2<音声認識結果の信頼度であれば、分割データの分割時間DTを1.5倍にする(DT=DT0×1.5)。
(3)音声認識結果の信頼度<Tth1であれば、分割データの分割時間DTを1/1.5倍にする(DT=DT0/1.5)。
なお、このとき用いられる閾値Tth1,Tth2の具体的な値や、DT0に乗算される係数(1.5あるいは1/1.5)等は、経験値あるいは実験値等に基づいて、適宜決定することができる。なお、設定される閾値や係数は、より多段階に設定することとしてもよい。
次に、データ分割部253は、分割データの境界を示す情報を設定する。
具体的には、データ分割部253は、分割データにおける音声データにおいて、分割データの終端の位置(以下、「接続点」と呼ぶ。)の音声に対応する音声認識結果の単語(あるいは形態素)を特定する。以下、この単語(あるいは形態素)を「仮接続語」と呼ぶ。また、データ分割部253は、接続語を含む音声認識結果の文節(または接続点に対応する音声認識結果の文節)を特定する。以下、この文節を「仮接続文節」と呼ぶ。さらに、データ分割部253は、接続語を含む音声認識結果の句または文(または接続点に対応する音声認識結果の句または文)を特定する。以下、この句または文を仮接続文と呼ぶ。また、ここでは、仮接続語が複文に含まれる場合、単文に区切って接続文にするものとする。
なお、上記分割データの生成手順において、接続点に単語が含まれない場合(即ち、接続点が単語間の境界位置である場合あるいは無音区間である場合)には、接続点に最も近い次の単語が仮接続語とされる。ただし、接続点に最も近い次の単語が接続点から時間Δt1以内に存在しない場合、仮接続語は無しとされる。ここで、時間Δt1は、人間の発話時における息継ぎ時間の最大値(例えば、数秒程度)に基づいて、経験的に設定される。
そして、データ分割部253は、分割時間DTに続く次の分割データについて、上述の生成手順を繰り返し、文字起こしの対象となる音声データの末尾まで分割データを生成する。
図5は、分割データの境界における音声データ及び音声認識結果の文字列の一例を示す模式図である。
図5に示す例では、分割データにおける接続点の音声に対応する音声認識結果(即ち、仮接続語)として、「気持ち」の文字列が特定されている。また、仮接続語を含む音声認識結果の文節(即ち、仮接続文節)として、「気持ちと」の文字列が特定されている。さらに、仮接続語を含む音声認識結果の文(即ち、仮接続文)として、「私の気持ちと同じです」の文字列が特定されている。
このように特定された仮接続語(あるいは仮接続文節や仮接続文)に対応して、データ分割部253は、分割データの始端である接続点より前の時間Δt2s分の音声データと、分割データの終端である接続点より後の時間Δt2e分の音声データとをそれぞれ付加して分割データを生成する(後述する図7参照)。分割データの始端である接続点より前の時間Δt2sは、始端の接続点を基に特定された仮接続語(あるいは仮接続文節や仮接続文)の先頭から、始端である接続点までの長さによって機械的に算出できる。また、分割データの終端である接続点より後の時間Δt2eは、終端である接続点から、終端の接続点を基に特定された仮接続語(あるいは仮接続文節や仮接続文)の末尾までの長さによって機械的に算出できる。さらに、接続点に単語が含まれない場合(即ち、接続点が単語間の境界位置である場合あるいは無音区間である場合)には、上述の分割データの境界を示す情報(仮接続語、仮接続文節あるいは仮接続文)の一般的な長さに基づいて、これらが含まれるように経験的に時間Δt2maxを設定し、始端の接続点の前あるいは終端の接続点の後に音声データ及びその音声認識結果を付加することができる。なお、このように設定された時間Δt2s、Δt2e、Δt2maxに対して、さらに拡張時間α分の音声データ含めることとしてもよい。
図4に戻り、分割データ送信部254は、データ分割部253によって分割された各分割データを、複数の端末装置10に送信する。
なお、分割データ送信部254は、各分割データの送信先の端末装置10を識別する情報を、文字起こし関連データ記憶部271に記憶する。
修正済みデータ受信部255は、各端末装置10から送信された文字起こし作業済みの分割データ(以下、「修正済みデータ」と呼ぶ。)を受信する。そして、修正済みデータ受信部255は、受信した修正済みデータを文字起こし関連データ記憶部271に記憶する。
データ集約部256は、修正済みデータ受信部255によって受信された各修正済みデータを音声データの時間順に集約し、修正済みデータを集合させたデータである集約データを生成する。
集約データ送信部257は、データ集約部256によって生成された集約データを、最終校閲者が使用する端末装置10Bに送信する。
[端末装置10Aの機能構成]
次に、端末装置10Aの機能構成について説明する。
図6は、端末装置10Aにおいて実現される主な機能構成を示すブロック図である。
図6に示すように、端末装置10AのCPU11において、分割データ受信部51と、文字起こしインターフェース表示部52と、分割データ修正受付部53と、修正済みデータ送信部54とが機能する。また、記憶部17には、分割データ記憶部71が形成される。
分割データ記憶部71は、サーバ20から送信された分割データを記憶する。
分割データ受信部51は、サーバ20から送信された分割データを受信する。このとき受信される分割データは、文字起こしの対象となる音声データ及びその音声データの音声認識結果全体のうち、サーバ20によって当該端末装置10Aの作業者に割り当てられた分割データである。そして、分割データ受信部51は、サーバ20から受信した分割データを分割データ記憶部71に記憶する。
文字起こしインターフェース表示部52は、分割データ受信部51によって受信された分割データを文字起こしするためのユーザインターフェース(以下、「文字起こしインターフェース」と呼ぶ。)を表示する。
図7は、文字起こしインターフェースの表示画面例を示す模式図である。
図7に示すように、文字起こしインターフェースにおいては、分割データの音声波形を示す音声波形領域Vと、分割データの音声波形に対応する文字列を示す文字列領域Cとが表示される。
音声波形領域Vは、分割データにおける音声データの時系列の音声波形を示す領域であり、始端である接続点より前の時間Δt2sから、終端である接続点より後の時間Δt2eまでの音声波形が示されている。なお、音声波形領域Vにおいて、始端となる接続点の位置と、終端となる接続点の位置とは、区切り線等の識別指標によって識別して示されている。この識別指標の位置は、音声データの再生時に、アラーム音等で作業者に報知される。また、図7においては、始端となる接続点より前の時間Δt2s及び終端である接続点より後の時間Δt2eそれぞれに、拡張時間αを含む例を示している。
文字列領域Cは、分割データにおける音声データの音声認識結果である文字列を示す領域であり、音声波形領域Vと同様に、始端である接続点より前の時間Δt2sから、終端である接続点より後の時間Δt2eまでの音声認識結果の文字列が示されている。なお、始端となる接続点を含む接続文よりも前の文字列(拡張時間αに対応する文字列)には、取り消し線が付され、当該端末装置10Aの作業者に割り当てられた作業対象ではないことが示されている。
また、文字列領域Cにおいては、始端の接続点に対応する仮接続語「長旅」、この接続語を含む仮接続文節「長旅にも」、及び、この仮接続語を含む仮接続文「ブラジルからの長旅にも関わらず、」の文字列がそれぞれ識別して表示されている。このとき、例えば、仮接続文を青色、仮接続文内の仮接続文節を緑色、仮接続文節内の仮接続語を赤色で表示すること等が可能である。
さらに、文字列領域Cにおいては、終端の接続点に対応する仮接続語「メディカルチェック」、この仮接続語を含む仮接続文節「メディカルチェックへと」、及び、この仮接続語を含む仮接続文「クラブ関係者の車でメディカルチェックへと向かいました。」の文字列がそれぞれ識別して表示されている。なお、終端の仮接続語を含む仮接続文及びそれよりも後の文字列(拡張時間αに対応する文字列)には、取り消し線が付され、当該端末装置10Aの作業者に割り当てられた作業対象ではないことが示されている。
図6に戻り、分割データ修正受付部53は、図7に示す文字起こしインターフェースの画面において、作業者による分割データの修正の入力を受け付ける。即ち、端末装置10Aを使用する作業者は、図7に示す文字起こしインターフェースの画面を見ながら、音声データを再生し、音声認識結果の文字列において、音声データに対する音声認識結果が不適切である部分を分割データ修正受付部53を介して逐次修正する。なお、音声認識結果が不適切である部分がない場合には、分割データがそのまま修正済みデータとなる。
また、分割データ修正受付部53は、図7に示す文字起こしインターフェースの画面において、作業者による仮接続語、仮接続文節、仮接続文の修正の入力を受け付ける。即ち、作業者は、仮接続語、仮接続文節、仮接続文それぞれが適切に音声認識され、適切な単位で設定されているかを確認し、不適切なものについては、分割データ修正受付部53を介して適宜修正する。作業者により確認され、適宜修正された仮接続語、仮接続文節、仮接続文をそれぞれ接続語、接続文節、接続文と呼ぶ。
ここで、本実施形態において、端末装置10Aの作業者が分割データの修正を行う場合、以下の方針に従って修正作業が行われる。
(1)始端の接続文は、当該端末装置10Aの作業者が作成(文字起こし)する。
(2)終端の接続文は、当該端末装置10Aの作業者は作成(文字起こし)しない。即ち、始端及び終端の接続文は、隣接する分割データに含まれ、これらを割り当てられた複数の作業者に配布されるが、各作業者は、始端の接続文のみを文字起こしするものとする。これにより、同一部分が複数の作業者によって文字起こしされることを防ぐことができる。
(3)音声認識結果の接続文が表示されていない場合は、接続点の発話から接続文を作業者が確認して、始端の接続点に対応する接続文については作成し、終端の接続点に対応する接続文については作成しない。
(4)始端に接続語がない場合(始端の接続点近傍に音声がない場合)は、接続点の次の音声から文字起こしを行う。
(5)終端に接続語がない場合(終端の接続点近傍に音声がない場合)は、接続点の前の音声まで文字起こしを行う。
このように作業者が作業を行った場合、当該端末装置10Aの作業者が文字起こしの対象とする音声は、始端の接続文に対応する音声から、終端の接続文に対応する音声の直前までの間の音声となる。
なお、このような修正作業の方針において、接続文を分割データの境界の単位とすることの他、接続文節あるいは接続語(形態素)を分割データの境界の単位とすることが可能である。
修正済みデータ送信部54は、文字起こし作業済みの分割データ(修正済みデータ)をサーバ20に送信する。
[端末装置10Bの機能構成]
次に、端末装置10Bの機能構成について説明する。
図8は、端末装置10Bにおいて実現される主な機能構成を示すブロック図である。
図8に示すように、端末装置10BのCPU11において、集約データ受信部151と、校閲用インターフェース表示部152と、集約データ修正受付部153とが機能する。また、記憶部17には、文字起こしデータ記憶部171が形成される。
文字起こしデータ記憶部171は、サーバ20から送信された集約データや、その集約データを最終校閲者が校閲し、最終的なデータとして確認した結果である文字起こしデータを記憶する。
集約データ受信部151は、サーバ20から送信された集約データを受信する。そして、集約データ受信部151は、サーバ20から受信した集約データを文字起こしデータ記憶部171に記憶する。
校閲用インターフェース表示部152は、集約データ受信部151によって受信された集約データを校閲するためのユーザインターフェース(以下、「校閲用インターフェース」と呼ぶ。)を表示する。校閲用インターフェースには、集約データに含まれる各修正済みデータの音声波形及び修正された音声認識結果の文字列が音声データの時系列順に並べて表示される。例えば、校閲用インターフェースにおいては、文字起こしの対象となる音声データにおける最初の修正済みデータの音声波形及び文字列を、第1段のデータとして、図7に示す文字起こしインターフェースの場合と同様に横方向に表示し、以下、後続の修正済みデータを第2段以降に同様に表示することができる。なお、校閲用インターフェースでは、文字起こし作業済みの音声認識結果である文字列において、始端となる接続点に対応する接続文の先頭から、終端となる接続点に対応する接続文の直前までの文字列が表示される。また、校閲用インターフェースでは、各修正済みデータの音声データにおいて、図7に示す文字起こしインターフェースの場合と同様に、始端となる接続点の位置と、終端となる接続点の位置とは、区切り線等の識別指標によって識別して示されている。この識別指標の位置は、音声データの再生時に、アラーム音等で最終校閲者に報知される。さらに、校閲用インターフェースでは、図7に示す文字起こしインターフェースの場合と同様に、始端の接続点に対応する接続語、この接続語を含む接続文節、及び、この接続語を含む接続文がそれぞれ識別して表示される。このとき、例えば、接続文を青色、接続文内の接続文節を緑色、接続文節内の接続語を赤色で表示すること等が可能である。
なお、校閲用インターフェースの他の表示形態としては、集約データに含まれる各修正済みデータの音声波形及び修正された音声認識結果の文字列を音声データの時系列順にそれぞれ結合して、1つの音声波形及び1つの文字列を生成し、これら音声波形及び文字列を、図7に示す文字起こしインターフェースの場合と同様に横方向に表示してもよい。この場合、音声波形領域Vに、複数の修正済みデータの境界に対応する複数の接続点を表示すると共に、文字列領域Cに、複数の修正済みデータの境界に対応する複数の接続語(あるいは接続文節や接続文)を表示することができる。また、このとき、複数の修正済みデータの境界に対応する複数の接続語(あるいは接続文節や接続文)を、上述のように所定の色で表示する等により、それぞれ識別して表示することができる。
集約データ修正受付部153は、校閲用インターフェースの画面において、最終校閲者による集約データの修正の入力を受け付ける。即ち、端末装置10Bを使用する最終校閲者は、校閲用インターフェースの画面を見ながら、音声データを再生し、各作業者による文字起こし作業済みの音声認識結果の文字列において、音声データに対する文字起こしの結果が不適切である部分を集約データ修正受付部153を介して逐次修正する。このとき、校閲用インターフェースにおいては、接続点、接続語、接続文節及び接続文等が識別して表示されるため、最終校閲者は、修正済みデータの境界部分については、これらの識別情報を参照することで、より高い注意をもって校閲作業を行うことができる。
集約データ修正受付部153は、このようにして集約データに対して校閲が行われた結果のデータを、最終的な文字起こしデータとして、文字起こしデータ記憶部171に記憶する。
[動作]
次に、情報処理システム1の動作を説明する。
[文字起こし対象データ分割処理]
図9は、情報処理システム1のサーバ20が実行する文字起こし対象データ分割処理の流れを示すフローチャートである。
文字起こし対象データ分割処理は、文字起こしの対象となる音声データを複数の作業者によって分担して文字起こしを行うために、サーバ20が分割データを生成するための処理である。
なお、文字起こし対象データ分割処理は、端末装置10Bあるいは他の装置からサーバ20に対して、音声データの文字起こしを行うことが依頼された場合に開始される。
文字起こし対象データ分割処理が開始されると、ステップS1において、音声データ取得部251は、文字起こしの対象となる音声データを取得する。
ステップS2において、音声認識結果取得部252は、文字起こしの対象となる音声データを音声認識処理した結果の文字列からなるデータを取得する。
ステップS3において、データ分割部253は、音声データ取得部251によって取得された文字起こしの対象となる音声データと、音声認識結果取得部252によって取得された音声認識結果とを分割し、複数の作業者によって文字起こしを行うための分割データを生成する。このとき、データ分割部253は、文字起こしの対象となる音声データが音声認識される際に取得された音声認識結果の信頼度に基づいて、文字起こしの対象となる音声データ及びその音声データの音声認識結果を分割する。
ステップS4において、分割データ送信部254は、データ分割部253によって分割された各分割データを、複数の端末装置10に送信する。
ステップS4の後、文字起こし対象データ分割処理は終了となる。
[分割データ文字起こし処理]
図10は、情報処理システム1の端末装置10Aが実行する分割データ文字起こし処理の流れを示すフローチャートである。
分割データ文字起こし処理は、端末装置10Aの使用者(作業者)が分割データの文字起こし作業を行うための処理である。
なお、分割データ文字起こし処理は、サーバ20から端末装置10Aに文字起こし作業が依頼された場合に開始される。
分割データ文字起こし処理が開始されると、ステップS11において、分割データ受信部51は、サーバ20から送信された分割データを受信する。
ステップS12において、文字起こしインターフェース表示部52は、分割データ受信部51によって受信された分割データを文字起こしするための文字起こしインターフェースを表示する。
ステップS13において、分割データ修正受付部53は、文字起こしインターフェースの画面において、作業者による分割データの修正の入力を受け付ける。なお、このとき、分割データ修正受付部53は、作業者による仮接続語、仮接続文節、仮接続文の修正の入力を併せて受け付ける。
ステップS14において、修正済みデータ送信部54は、文字起こし作業済みの分割データ(修正済みデータ)をサーバ20に送信する。
ステップS14の後、分割データ文字起こし処理は終了となる。
[データ集約処理]
図11は、情報処理システム1のサーバ20が実行するデータ集約処理の流れを示すフローチャートである。
データ集約処理は、複数の作業者による文字起こし作業の結果(修正済みデータ)を1つのデータに集約するための処理である。
なお、データ集約処理は、端末装置10Aからサーバ20に対して、修正済みデータが送信された場合に開始される。
データ集約処理が開始されると、ステップS21において、修正済みデータ受信部255は、各端末装置10から送信された文字起こし作業済みの分割データ(修正済みデータ)を受信する。
ステップS22において、データ集約部256は、修正済みデータ受信部255によって受信された各修正済みデータを音声データの時間順に集約し、修正済みデータを集合させたデータである集約データを生成する。
ステップS23において、集約データ送信部257は、データ集約部256によって生成された集約データを、最終校閲者が使用する端末装置10Bに送信する。
ステップS23の後、データ集約処理は終了となる。
[集約データ校閲処理]
図12は、情報処理システム1の端末装置10Bが実行する集約データ校閲処理の流れを示すフローチャートである。
集約データ校閲処理は、端末装置10Bの使用者(最終校閲者)が集約データの校閲作業を行うための処理である。
なお、集約データ校閲処理は、サーバ20から端末装置10Bに校閲作業が依頼された場合に開始される。
集約データ校閲処理が開始されると、ステップS31において、集約データ受信部151は、サーバ20から送信された集約データを受信する。
ステップS32において、校閲用インターフェース表示部152は、集約データ受信部151によって受信された集約データを校閲するための校閲用インターフェースを表示する。
ステップS33において、集約データ修正受付部153は、校閲用インターフェースの画面において、最終校閲者による集約データの修正の入力を受け付ける。
ステップS34において、集約データ修正受付部153は、このようにして集約データに対して校閲が行われた結果のデータを、最終的な文字起こしデータとして、文字起こしデータ記憶部171に記憶する。
ステップS34の後、集約データ校閲処理は終了となる。
[効果]
以上のように、本実施形態に係る情報処理システム1では、隣接する分割データとの境界部分に、境界となる時刻に対応する接続語等が識別して示される。
これにより、分割データを文字起こしする作業者は、自身が担当すべきデータの境界を容易に把握することができると共に、接続語等を単位として、より適切な位置に分割データの境界を設定することができる。
また、最終校閲者が校閲作業を行う集約データには、境界位置(接続語等)が識別して示されている。
そのため、最終校閲者は、異なる作業者によって文字起こし作業が行われた部分の境界を容易に把握しながら、当該部分に対して高い注意をもって確認を行うことができる。
このように、本実施形態に係る情報処理システム1によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。
具体的には、本実施形態に係る情報処理システム1によって文字起こしを行うことにより、以下の点において有利となる。
(1)文字起こしの対象となる音声を分割する場合、音声認識結果における文末に対応する音声の終わりで分割することが望ましいが、音声認識において誤認識が発生している場合等には、実際の発話の文末を正確に把握することができず、文中の不適切な位置や単語の途中等で分割されてしまうという問題が発生する。
これに対し、情報処理システム1では、音声データにおける接続点が明示されているため、接続点に対応する接続語等が誤認識されている場合等でも、上述のような処理により、接続語を特定し、所定の境界(接続文、接続文節あるいは接続語(形態素))まで、適切に文字起こしを行うことができる。
(2)雑音が多い音声等では、無音や息継ぎの区間を検出することが困難なため、無音区間の検出だけでは発話音声を正確に区切ることが容易ではない。この場合、文中の不適切な位置や単語の途中等で分割されてしまうことがあり、前後の文脈が不明となることから、文字起こしの誤りの原因となる。
これに対し、情報処理システム1では、始端となる接続点より前の時間Δt2s及び終端である接続点より後の時間Δt2eまでの音声データの音声認識結果に属する接続語あるいは接続語を含む文等を単位として、分割データの境界を設定するため、作業者が文脈を把握し易い位置で文字起こしの対象となる音声を分割することができ、文字起こしの精度を高めることができる。
(3)文字起こしの対象となる音声を分割する際に、文脈をより明らかにするため、隣接する部分と一定時間の重なりをもって分割した場合、分割した音声データの境界付近の文字起こし作業が重複して行われる等、効率の低下の問題が発生する。また、文字起こし作業が重複して行われた場合には、いずれの文字起こし作業の結果を採用するかを判断する必要が生じる。
これに対し、情報処理システム1では、接続語あるいは接続語を含む文等の境界位置が識別して表示されるため、分割された音声データを文字起こしする作業者は、自身が担当すべきデータの境界を、わかり易い単位で、容易に把握することができる。
そのため、文字起こし作業が複数の作業者において重複して行われることを防ぐことができ、効率の低下を抑制することができる。また、重複して行われた文字起こし作業の結果のいずれを採用するかを判断する必要がなくなる。
(4)文字起こしの対象となる音声を同一の時間で分割した場合、音声認識結果の精度(信頼度)が高い部分については、修正する文字が少ないため、文字起こしの作業は短時間で済む一方、雑音等の影響で音声認識結果の精度が低い場合については、修正する文字が多くなり、文字起こし作業に要する時間は長時間となる。
この場合、分割された音声データそれぞれを作業者が処理する時間にばらつきが生じ、文字起こし作業全体の効率が低下する可能性がある。また、各作業者に対する報酬が同一であれば、処理負担が大きく異なることとなり、作業者間に不公平をもたらすこととなる。
これに対し、情報処理システム1では、各作業者による作業負担が均等となるように、文字起こしの対象となる音声データが分割されるため、各作業者の処理時間を均一化できると共に、作業者間に不公平が生じる事態を抑制することができる。
[変形例1]
上述の実施形態において、分割データの分割時間DTを算出する場合、以下のような算出方法とすることができる。
即ち、分割データの分割時間DTは、音声認識結果の信頼度から算出した係数λで比例計算することができる。
具体的には、音声認識結果の信頼度をCL(0<CL<1)とすると、係数λをCLが大きいほど大きくなるCLの関数として定義することができ、例えば、λ=CL+0.5と定義することができる。
そして、この係数λを用いて、分割データの分割時間DTを
DT=λ×DT0
と定義することができる。
[変形例2]
上述の実施形態において、分割データの分割時間(即ち、文字起こし作業の負荷)を決定するパラメータとして、音声認識結果の信頼度を用いることとしたが、これに限られない。
例えば、音声認識文字数、発話スピード(一定時間における発話モーラ数)、音声の品質(S/N比等)、発話の明瞭度(滑舌の良さ、なまりの度合い等)、音割れ(音の歪み)の有無等、音声データの各種属性に基づいて、分割データの分割時間を決定することとしてもよい。
以上のように構成される情報処理システム1は、サーバ20と、端末装置10Aとを含む。サーバ20は、音声データ取得部251及び音声認識結果取得部252(文字起こし対象データ取得手段)と、データ分割部253とを備える。端末装置10Aは、文字起こしインターフェース表示部52と、分割データ修正受付部53とを備える。
音声データ取得部251及び音声認識結果取得部252は、文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを取得する。
データ分割部253は、音声データ取得部251及び音声認識結果取得部252によって取得された音声データ及び音声認識結果のデータを分割して分割データを生成する。
文字起こしインターフェース表示部52は、分割データにおける音声データの音声波形を表す領域と、当該音声データの音声認識結果のデータが示す文字列を表す領域とを含み、分割データを文字起こしするための文字起こしインターフェースを表示する。
分割データ修正受付部53は、文字起こしインターフェースに表示された音声認識結果のデータに対する修正を受け付ける。
文字起こしインターフェース表示部52は、音声データの音声波形において分割データの境界位置を示す接続点と、音声認識結果のデータにおいて接続点の音声に対応する接続語とを識別して表示する。
これにより、隣接する分割データとの境界部分に、境界となる時刻に対応する接続語が識別して示される。
そのため、分割データを文字起こしする作業者は、接続語を単位として、自身が担当すべきデータの境界を容易に把握することができる。
したがって、情報処理システム1によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。
文字起こしインターフェース表示部52は、文字起こしインターフェースにおいて、接続語を含む接続文節をさらに識別して表示する。
これにより、接続文節を単位として、自身が担当すべきデータの境界を容易に把握することができる。
文字起こしインターフェース表示部52は、文字起こしインターフェースにおいて、接続語を含む接続文をさらに識別して表示する。
これにより、接続文を単位として、自身が担当すべきデータの境界を容易に把握することができる。
データ分割部253は、接続点の音声に対応する接続語、接続語を含む接続文節または接続語を含む接続文の少なくともいずれかを単位として、音声データ及び音声認識結果のデータを分割する。
これにより、接続語、接続文節または接続文を単位として、分割データの境界を設定することができる。また、分割データの境界を設定する際に、音声データにおいて接続点に付加する時間を、接続語、接続文節または接続文等の単位の先頭あるいは末尾を区切りとして、機械的に算出することができる。
接続語、接続文節または接続文の少なくともいずれかは、分割データの文字起こしを行う作業者が担当する範囲の境界を表す。
これにより、作業者は、自身が文字起こしを担当する文字列をわかり易い単位で把握することができる。
データ分割部253は、音声データの属性に基づいて、音声データ及び音声認識結果のデータを分割データとして分割する長さを決定する。
これにより、文字起こしの対象となる音声データの属性を反映させて、分割データの長さを決定することができる。
データ分割部253は、音声認識結果の信頼度に基づいて、音声データ及び音声認識結果のデータを分割データとして分割する長さを決定する。
これにより、文字起こしの対象となる音声データの信頼度を反映させて、分割データの長さを決定することができる。
サーバ20は、データ集約部256を備える。
データ集約部256は、作業者用の端末装置10Aにおける分割データの作業結果を集約した集約データを生成する。
これにより、複数の作業者による作業結果を容易に集約することができる。
情報処理システム1は、端末装置10Bをさらに含む。
端末装置10Bは、複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される。
端末装置10Bは、校閲用インターフェース表示部152を備える。
校閲用インターフェース表示部152は、作業者用の端末装置における作業結果を集約した集約データについて、当該集約データに含まれる分割データの作業結果のうち、音声データの音声波形を表す領域と、当該音声データを対象として作業者が文字起こしした結果の文字列を表す領域とを含み、集約データを校閲するための校閲用インターフェースを表示する。
これにより、校閲者は、異なる作業者による文字起こし作業の結果を容易に校閲することが可能となる。
校閲用インターフェース表示部152は、集約データに含まれる分割データの作業結果のうち、音声データの音声波形において分割データの境界位置を示す接続点と、接続点の音声に対応する接続語とを識別して表示する。
これにより、校閲者は、異なる作業者によって文字起こし作業が行われた部分の境界を容易に把握しながら、当該部分に対して高い注意をもって確認を行うことができる。
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
例えば、上述の実施形態において、分割データの境界を示す情報として、文字列の各種ブロックを単位として定義することができる。即ち、分割データの境界を示す文字列のブロックとしては、形態素、単語、文節、句、単文等を定義したり、あるいは、複文までを許容して定義したりすることができる。また、上述の実施形態において、日本語の他、英語、中国語、タイ語等、異なる言語体系においても、その言語に応じたブロックを定義して本発明を活用することができる。
また、上述の実施形態において、サーバ20の構成は一例として示したものであり、情報処理システム1全体として、サーバ20の機能が備えられていれば、サーバ20の機能を複数のサーバに分割して実装したり、端末装置10にサーバ20の機能の一部を実装したりすることができる。
さらに、サーバ20の機能をいずれかの端末装置10に実装することにより、サーバ20を介することなく、端末装置10を使用するユーザ間において、文字起こしの対象となる音声データ及びその音声データの音声認識結果を分割し、文字起こし作業を分担して行うこととしてもよい。この場合、作業者によって使用される複数の端末装置10Aから送信される作業済みデータを、最終校閲者が使用する端末装置10Bが受信して集約データを生成し、最終校閲者が集約データを校閲することにより、最終的な文字起こしデータを生成することができる。
また、上述の実施形態及び変形例を適宜組み合わせた構成とすることとしてもよい。
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図4,6,8の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システム1に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図4,6,8の例に限定されない。
また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図2及び図3のリムーバブルメディア31,231により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア31,231は、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、または光磁気ディスク等により構成される。光ディスクは、例えば、CD−ROM(Compact Disk−Read Only Memory),DVD(Digital Versatile Disk)等により構成される。光磁気ディスクは、MD(Mini−Disk)等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図2及び図3のROM12,212や、図2及び図3の記憶部17,217に含まれるDRAM等で構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
1 情報処理システム、10,10A,10B 端末装置、20 サーバ、30 ネットワーク、11,211 CPU、12,212 ROM、13,213 RAM、14,214 バス、15,215 入力部、16,216 出力部、17,217 記憶部、18,218 通信部、19,219 ドライブ、31,231 リムーバブルメディア、51 分割データ受信部、52 文字起こしインターフェース表示部、53 分割データ修正受付部、54 修正済みデータ送信部、71 分割データ記憶部、151 集約データ受信部、152 校閲用インターフェース表示部、153 集約データ修正受付部、171 文字起こしデータ記憶部、251 音声データ取得部、252 音声認識結果取得部、253 データ分割部、254 分割データ送信部、255 修正済みデータ受信部、256 データ集約部、257 集約データ送信部、271 文字起こし関連データ記憶部

Claims (19)

  1. 文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムであって、
    前記サーバは、
    文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得手段と、
    前記文字起こし対象データ取得手段によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割手段と、を備え、
    前記作業者用の端末装置は、
    前記分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示手段と、
    前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付手段と、を備え、
    前記文字起こしインターフェース表示手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする情報処理システム。
  2. 前記文字起こしインターフェース表示手段は、前記文字起こしインターフェースにおいて、前記接続語を含む接続文節をさらに識別して表示することを特徴とする請求項1に記載の情報処理システム。
  3. 前記文字起こしインターフェース表示手段は、前記文字起こしインターフェースにおいて、前記接続語を含む接続文をさらに識別して表示することを特徴とする請求項1または2に記載の情報処理システム。
  4. 前記データ分割手段は、前記接続点の音声に対応する接続語、前記接続語を含む接続文節または前記接続語を含む接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータを分割することを特徴とする請求項1から3のいずれか1項に記載の情報処理システム。
  5. 前記接続語、前記接続文節または前記接続文の少なくともいずれかは、前記分割データの文字起こしを行う前記作業者が担当する範囲の境界を表すことを特徴とする請求項4に記載の情報処理システム。
  6. 前記データ分割手段は、前記音声データの属性に基づいて、前記音声データ及び前記音声認識結果のデータを前記分割データとして分割する長さを決定することを特徴とする請求項1から5のいずれか1項に記載の情報処理システム。
  7. 前記データ分割手段は、前記音声認識結果の信頼度に基づいて、前記音声データ及び前記音声認識結果のデータを前記分割データとして分割する長さを決定することを特徴とする請求項1から6のいずれか1項に記載の情報処理システム。
  8. 前記サーバは、
    前記作業者用の端末装置における前記分割データの作業結果を集約した集約データを生成する集約データ生成手段をさらに備えることを特徴とする請求項1から7のいずれか1項に記載の情報処理システム。
  9. 複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置をさらに含み、
    前記校閲者用の端末装置は、
    前記作業者用の端末装置における作業結果を集約した集約データについて、当該集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示手段を備えることを特徴とする請求項1から8のいずれか1項に記載の情報処理システム。
  10. 前記校閲用インターフェース表示手段は、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す前記接続点と、前記接続点の音声に対応する前記接続語とを識別して表示することを特徴とする請求項9に記載の情報処理システム。
  11. 音声データを文字起こしする作業者によって使用される作業者用の端末装置であって、
    文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータが分割された分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示手段と、
    前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付手段と、を備え、
    前記文字起こしインターフェース表示手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする端末装置。
  12. 複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置であって、
    文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを分割した分割データに対する前記複数の作業者による作業結果を集約した集約データについて、当該集約データに含まれる作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示手段を備え、
    前記校閲用インターフェース表示手段は、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする端末装置。
  13. 文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムにおけるサーバであって、
    文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得手段と、
    前記文字起こし対象データ取得手段によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割手段と、を備え、
    前記データ分割手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点に対し、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語、接続文節または接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータを分割することを特徴とするサーバ。
  14. 音声データを文字起こしする作業者によって使用される作業者用の端末装置が実行する情報処理方法であって、
    文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータが分割された分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示ステップと、
    前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付ステップと、を含み、
    前記文字起こしインターフェース表示ステップでは、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とが識別して表示されることを特徴とする情報処理方法。
  15. 複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置が実行する情報処理方法であって、
    文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを分割した分割データに対する前記複数の作業者による作業結果を集約した集約データについて、当該集約データに含まれる作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示ステップを含み、
    前記校閲用インターフェース表示ステップでは、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とが識別して表示されることを特徴とする情報処理方法。
  16. 文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムにおけるサーバが実行する情報処理方法であって、
    文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得ステップと、
    前記文字起こし対象データ取得ステップにおいて取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割ステップと、を含み、
    前記データ分割ステップでは、前記音声データの音声波形において前記分割データの境界位置を示す接続点に対し、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語、接続文節または接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータが分割されることを特徴とする情報処理方法。
  17. 音声データを文字起こしする作業者によって使用される作業者用の端末装置を構成するコンピュータに、
    文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータが分割された分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示機能と、
    前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付機能と、を実現させ、
    前記文字起こしインターフェース表示機能は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とするプログラム。
  18. 複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置を構成するコンピュータに、
    文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを分割した分割データに対する前記複数の作業者による作業結果を集約した集約データについて、当該集約データに含まれる作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示機能を実現させ、
    前記校閲用インターフェース表示機能は、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とするプログラム。
  19. 文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムにおけるサーバを構成するコンピュータに、
    文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得機能と、
    前記文字起こし対象データ取得機能によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割機能と、を実現させ、
    前記データ分割機能は、前記音声データの音声波形において前記分割データの境界位置を示す接続点に対し、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語、接続文節または接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータを分割することを特徴とするプログラム。
JP2016195846A 2016-10-03 2016-10-03 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム Active JP6780849B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016195846A JP6780849B2 (ja) 2016-10-03 2016-10-03 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016195846A JP6780849B2 (ja) 2016-10-03 2016-10-03 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018059989A true JP2018059989A (ja) 2018-04-12
JP6780849B2 JP6780849B2 (ja) 2020-11-04

Family

ID=61907596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016195846A Active JP6780849B2 (ja) 2016-10-03 2016-10-03 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6780849B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005228178A (ja) * 2004-02-16 2005-08-25 Nec Corp 書き起こしテキスト作成支援システムおよびプログラム
WO2010146869A1 (ja) * 2009-06-18 2010-12-23 日本電気株式会社 編集支援システム、編集支援方法および編集支援プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005228178A (ja) * 2004-02-16 2005-08-25 Nec Corp 書き起こしテキスト作成支援システムおよびプログラム
WO2010146869A1 (ja) * 2009-06-18 2010-12-23 日本電気株式会社 編集支援システム、編集支援方法および編集支援プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鈴木寿晃: ""リスピーク音声切り分け・作業分散(わんこそば)方式によるリアルタイム字幕制作システム"", 映像情報メディア学会誌, vol. 第60巻 第12号, JPN6020022512, 1 December 2006 (2006-12-01), pages 1901 - 1903, ISSN: 0004297084 *

Also Published As

Publication number Publication date
JP6780849B2 (ja) 2020-11-04

Similar Documents

Publication Publication Date Title
US10930300B2 (en) Automated transcript generation from multi-channel audio
JP6714607B2 (ja) 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
JP4271224B2 (ja) 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
US7490042B2 (en) Methods and apparatus for adapting output speech in accordance with context of communication
US10581625B1 (en) Automatically altering the audio of an object during video conferences
US20220059077A1 (en) Training speech recognition systems using word sequences
US11587547B2 (en) Electronic apparatus and method for controlling thereof
US20220059075A1 (en) Word replacement in transcriptions
WO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
KR20230098266A (ko) 통화들 및 오디오 메시지들로부터 다른 화자들의 음성 필터링
US8355484B2 (en) Methods and apparatus for masking latency in text-to-speech systems
JP5159853B2 (ja) 会議支援装置、方法およびプログラム
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP4354299B2 (ja) 事例検索プログラム、事例検索方法及び事例検索装置
US11488604B2 (en) Transcription of audio
JP6780849B2 (ja) 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2004252085A (ja) 音声変換システム及び音声変換プログラム
WO2019234952A1 (ja) 音声処理装置および翻訳装置
US20240257811A1 (en) System and Method for Providing Real-time Speech Recommendations During Verbal Communication

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200923

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201008

R150 Certificate of patent or registration of utility model

Ref document number: 6780849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250