JP2018059989A - 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム - Google Patents
情報処理システム、端末装置、サーバ、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2018059989A JP2018059989A JP2016195846A JP2016195846A JP2018059989A JP 2018059989 A JP2018059989 A JP 2018059989A JP 2016195846 A JP2016195846 A JP 2016195846A JP 2016195846 A JP2016195846 A JP 2016195846A JP 2018059989 A JP2018059989 A JP 2018059989A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- transcription
- recognition result
- connection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
Description
このような文字起こしにおいては、文字起こしの対象となる音声が長時間のものである場合の作業全体の時間を短縮する目的や音声内容の秘匿性の観点等から、複数の作業者によって分担して文字起こしが行われることがある。
例えば、特許文献1には、話者の発言・会話が記録されている音声データを複数の音声区間に細分化し、細分化された各音声区間それぞれの文字起こしを複数の作業者によって行い、サーバが各作業者の作業結果である文字列を結合して、元の音声データの会話全体を文章化した文章データを構築する技術が開示されている。
また、分割されたデータの文字起こしを行う作業者にとって、当該作業者自身が分担すべきデータの境界部分が明確に把握できないことがあり、他の作業者の作業と重複が生じる可能性がある。
さらに、複数の作業者による作業結果を集約し、最終校正を行う校正者にとって、複数の作業者による作業結果が適切に集約されているか否かを確認する作業負担が大きいものとなる。
このように、対象となる音声を複数の作業者によって分担して文字起こしを行う従来の技術においては、効率的な処理を行うことが困難であった。
文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムであって、
前記サーバは、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得手段と、
前記文字起こし対象データ取得手段によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割手段と、を備え、
前記作業者用の端末装置は、
前記分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示手段と、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付手段と、を備え、
前記文字起こしインターフェース表示手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする。
[システム構成]
図1は、本発明に係る情報処理システム1のシステム構成を示す図である。
図1に示すように、本発明に係る情報処理システム1は、複数の端末装置10と、サーバ20とを含んで構成され、複数の端末装置10とサーバ20とは、インターネットあるいはLAN(Local Area Network)等のネットワーク30を介して互いに通信可能に構成されている。本実施形態において、複数の端末装置10には、分割データの文字起こし作業を行う作業者によって使用される端末装置10Aと、文字起こしの対象となる音声データの文字起こし結果を最終的に校閲する最終校閲者によって使用される端末装置10Bとが含まれる。以下、端末装置10A及び端末装置10Bを区別しない場合、単に端末装置10と称するものとする。
このように、本実施形態に係る情報処理システム1によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。
次に、情報処理システム1を構成する各装置のハードウェア構成を説明する。
図2は、本実施形態に係る端末装置10のハードウェア構成を示す模式図である。
図2に示すように、端末装置10は、CPU(Central Processin Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入力部15と、出力部16と、記憶部17と、通信部18と、ドライブ19と、を備えている。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
出力部16は、ディスプレイやイヤホン等で構成され、画像や音声を出力する。
記憶部17は、ハードディスクあるいはDRAM(Dynamic Random Access Memory)等で構成され、端末装置10で管理される各種データを記憶する。
通信部18は、ネットワークを介して他の装置との間で行う通信を制御する。
サーバ20は、サーバコンピュータ等の情報処理装置によって構成される。
図3に示すように、サーバ20は、CPU211と、ROM212と、RAM213と、バス214と、入力部215と、出力部216と、記憶部217と、通信部218と、ドライブ219と、を備えている。
RAM213には、CPU211が各種の処理を実行する上において必要なデータ等も適宜記憶される。
出力部216は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
記憶部217は、ハードディスクあるいはDRAM等で構成され、各サーバで管理される各種データを記憶する。
通信部218は、ネットワークを介して他の装置との間で行う通信を制御する。
次に、情報処理システム1において実現される主な機能構成について説明する。
[サーバ20の機能構成]
図4は、サーバ20において実現される主な機能構成を示すブロック図である。
図4に示すように、サーバ20のCPU211において、音声データ取得部251と、音声認識結果取得部252と、データ分割部253と、分割データ送信部254と、修正済みデータ受信部255と、データ集約部256と、集約データ送信部257とが機能する。また、記憶部217には、文字起こし関連データ記憶部271が形成される。
初めに、データ分割部253は、分担して文字起こしを行う作業者の数によって、文字起こしの対象となる音声データ全体の時間を分割し、分割データの時間(分割時間)の初期値DT0を設定する。なお、このとき、予め設定された分割時間DT0の初期値(例えば5分等)を用いることとしてもよい。
(2)Tth2<音声認識結果の信頼度であれば、分割データの分割時間DTを1.5倍にする(DT=DT0×1.5)。
(3)音声認識結果の信頼度<Tth1であれば、分割データの分割時間DTを1/1.5倍にする(DT=DT0/1.5)。
具体的には、データ分割部253は、分割データにおける音声データにおいて、分割データの終端の位置(以下、「接続点」と呼ぶ。)の音声に対応する音声認識結果の単語(あるいは形態素)を特定する。以下、この単語(あるいは形態素)を「仮接続語」と呼ぶ。また、データ分割部253は、接続語を含む音声認識結果の文節(または接続点に対応する音声認識結果の文節)を特定する。以下、この文節を「仮接続文節」と呼ぶ。さらに、データ分割部253は、接続語を含む音声認識結果の句または文(または接続点に対応する音声認識結果の句または文)を特定する。以下、この句または文を仮接続文と呼ぶ。また、ここでは、仮接続語が複文に含まれる場合、単文に区切って接続文にするものとする。
そして、データ分割部253は、分割時間DTに続く次の分割データについて、上述の生成手順を繰り返し、文字起こしの対象となる音声データの末尾まで分割データを生成する。
図5に示す例では、分割データにおける接続点の音声に対応する音声認識結果(即ち、仮接続語)として、「気持ち」の文字列が特定されている。また、仮接続語を含む音声認識結果の文節(即ち、仮接続文節)として、「気持ちと」の文字列が特定されている。さらに、仮接続語を含む音声認識結果の文(即ち、仮接続文)として、「私の気持ちと同じです」の文字列が特定されている。
なお、分割データ送信部254は、各分割データの送信先の端末装置10を識別する情報を、文字起こし関連データ記憶部271に記憶する。
集約データ送信部257は、データ集約部256によって生成された集約データを、最終校閲者が使用する端末装置10Bに送信する。
次に、端末装置10Aの機能構成について説明する。
図6は、端末装置10Aにおいて実現される主な機能構成を示すブロック図である。
図6に示すように、端末装置10AのCPU11において、分割データ受信部51と、文字起こしインターフェース表示部52と、分割データ修正受付部53と、修正済みデータ送信部54とが機能する。また、記憶部17には、分割データ記憶部71が形成される。
分割データ記憶部71は、サーバ20から送信された分割データを記憶する。
文字起こしインターフェース表示部52は、分割データ受信部51によって受信された分割データを文字起こしするためのユーザインターフェース(以下、「文字起こしインターフェース」と呼ぶ。)を表示する。
図7に示すように、文字起こしインターフェースにおいては、分割データの音声波形を示す音声波形領域Vと、分割データの音声波形に対応する文字列を示す文字列領域Cとが表示される。
音声波形領域Vは、分割データにおける音声データの時系列の音声波形を示す領域であり、始端である接続点より前の時間Δt2sから、終端である接続点より後の時間Δt2eまでの音声波形が示されている。なお、音声波形領域Vにおいて、始端となる接続点の位置と、終端となる接続点の位置とは、区切り線等の識別指標によって識別して示されている。この識別指標の位置は、音声データの再生時に、アラーム音等で作業者に報知される。また、図7においては、始端となる接続点より前の時間Δt2s及び終端である接続点より後の時間Δt2eそれぞれに、拡張時間αを含む例を示している。
また、文字列領域Cにおいては、始端の接続点に対応する仮接続語「長旅」、この接続語を含む仮接続文節「長旅にも」、及び、この仮接続語を含む仮接続文「ブラジルからの長旅にも関わらず、」の文字列がそれぞれ識別して表示されている。このとき、例えば、仮接続文を青色、仮接続文内の仮接続文節を緑色、仮接続文節内の仮接続語を赤色で表示すること等が可能である。
また、分割データ修正受付部53は、図7に示す文字起こしインターフェースの画面において、作業者による仮接続語、仮接続文節、仮接続文の修正の入力を受け付ける。即ち、作業者は、仮接続語、仮接続文節、仮接続文それぞれが適切に音声認識され、適切な単位で設定されているかを確認し、不適切なものについては、分割データ修正受付部53を介して適宜修正する。作業者により確認され、適宜修正された仮接続語、仮接続文節、仮接続文をそれぞれ接続語、接続文節、接続文と呼ぶ。
(1)始端の接続文は、当該端末装置10Aの作業者が作成(文字起こし)する。
(2)終端の接続文は、当該端末装置10Aの作業者は作成(文字起こし)しない。即ち、始端及び終端の接続文は、隣接する分割データに含まれ、これらを割り当てられた複数の作業者に配布されるが、各作業者は、始端の接続文のみを文字起こしするものとする。これにより、同一部分が複数の作業者によって文字起こしされることを防ぐことができる。
(3)音声認識結果の接続文が表示されていない場合は、接続点の発話から接続文を作業者が確認して、始端の接続点に対応する接続文については作成し、終端の接続点に対応する接続文については作成しない。
(4)始端に接続語がない場合(始端の接続点近傍に音声がない場合)は、接続点の次の音声から文字起こしを行う。
(5)終端に接続語がない場合(終端の接続点近傍に音声がない場合)は、接続点の前の音声まで文字起こしを行う。
このように作業者が作業を行った場合、当該端末装置10Aの作業者が文字起こしの対象とする音声は、始端の接続文に対応する音声から、終端の接続文に対応する音声の直前までの間の音声となる。
なお、このような修正作業の方針において、接続文を分割データの境界の単位とすることの他、接続文節あるいは接続語(形態素)を分割データの境界の単位とすることが可能である。
次に、端末装置10Bの機能構成について説明する。
図8は、端末装置10Bにおいて実現される主な機能構成を示すブロック図である。
図8に示すように、端末装置10BのCPU11において、集約データ受信部151と、校閲用インターフェース表示部152と、集約データ修正受付部153とが機能する。また、記憶部17には、文字起こしデータ記憶部171が形成される。
文字起こしデータ記憶部171は、サーバ20から送信された集約データや、その集約データを最終校閲者が校閲し、最終的なデータとして確認した結果である文字起こしデータを記憶する。
集約データ受信部151は、サーバ20から送信された集約データを受信する。そして、集約データ受信部151は、サーバ20から受信した集約データを文字起こしデータ記憶部171に記憶する。
次に、情報処理システム1の動作を説明する。
[文字起こし対象データ分割処理]
図9は、情報処理システム1のサーバ20が実行する文字起こし対象データ分割処理の流れを示すフローチャートである。
文字起こし対象データ分割処理は、文字起こしの対象となる音声データを複数の作業者によって分担して文字起こしを行うために、サーバ20が分割データを生成するための処理である。
なお、文字起こし対象データ分割処理は、端末装置10Bあるいは他の装置からサーバ20に対して、音声データの文字起こしを行うことが依頼された場合に開始される。
ステップS2において、音声認識結果取得部252は、文字起こしの対象となる音声データを音声認識処理した結果の文字列からなるデータを取得する。
ステップS3において、データ分割部253は、音声データ取得部251によって取得された文字起こしの対象となる音声データと、音声認識結果取得部252によって取得された音声認識結果とを分割し、複数の作業者によって文字起こしを行うための分割データを生成する。このとき、データ分割部253は、文字起こしの対象となる音声データが音声認識される際に取得された音声認識結果の信頼度に基づいて、文字起こしの対象となる音声データ及びその音声データの音声認識結果を分割する。
ステップS4の後、文字起こし対象データ分割処理は終了となる。
図10は、情報処理システム1の端末装置10Aが実行する分割データ文字起こし処理の流れを示すフローチャートである。
分割データ文字起こし処理は、端末装置10Aの使用者(作業者)が分割データの文字起こし作業を行うための処理である。
なお、分割データ文字起こし処理は、サーバ20から端末装置10Aに文字起こし作業が依頼された場合に開始される。
ステップS12において、文字起こしインターフェース表示部52は、分割データ受信部51によって受信された分割データを文字起こしするための文字起こしインターフェースを表示する。
ステップS14において、修正済みデータ送信部54は、文字起こし作業済みの分割データ(修正済みデータ)をサーバ20に送信する。
ステップS14の後、分割データ文字起こし処理は終了となる。
図11は、情報処理システム1のサーバ20が実行するデータ集約処理の流れを示すフローチャートである。
データ集約処理は、複数の作業者による文字起こし作業の結果(修正済みデータ)を1つのデータに集約するための処理である。
なお、データ集約処理は、端末装置10Aからサーバ20に対して、修正済みデータが送信された場合に開始される。
ステップS23において、集約データ送信部257は、データ集約部256によって生成された集約データを、最終校閲者が使用する端末装置10Bに送信する。
ステップS23の後、データ集約処理は終了となる。
図12は、情報処理システム1の端末装置10Bが実行する集約データ校閲処理の流れを示すフローチャートである。
集約データ校閲処理は、端末装置10Bの使用者(最終校閲者)が集約データの校閲作業を行うための処理である。
なお、集約データ校閲処理は、サーバ20から端末装置10Bに校閲作業が依頼された場合に開始される。
ステップS32において、校閲用インターフェース表示部152は、集約データ受信部151によって受信された集約データを校閲するための校閲用インターフェースを表示する。
ステップS33において、集約データ修正受付部153は、校閲用インターフェースの画面において、最終校閲者による集約データの修正の入力を受け付ける。
ステップS34において、集約データ修正受付部153は、このようにして集約データに対して校閲が行われた結果のデータを、最終的な文字起こしデータとして、文字起こしデータ記憶部171に記憶する。
ステップS34の後、集約データ校閲処理は終了となる。
以上のように、本実施形態に係る情報処理システム1では、隣接する分割データとの境界部分に、境界となる時刻に対応する接続語等が識別して示される。
これにより、分割データを文字起こしする作業者は、自身が担当すべきデータの境界を容易に把握することができると共に、接続語等を単位として、より適切な位置に分割データの境界を設定することができる。
また、最終校閲者が校閲作業を行う集約データには、境界位置(接続語等)が識別して示されている。
そのため、最終校閲者は、異なる作業者によって文字起こし作業が行われた部分の境界を容易に把握しながら、当該部分に対して高い注意をもって確認を行うことができる。
このように、本実施形態に係る情報処理システム1によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。
(1)文字起こしの対象となる音声を分割する場合、音声認識結果における文末に対応する音声の終わりで分割することが望ましいが、音声認識において誤認識が発生している場合等には、実際の発話の文末を正確に把握することができず、文中の不適切な位置や単語の途中等で分割されてしまうという問題が発生する。
これに対し、情報処理システム1では、音声データにおける接続点が明示されているため、接続点に対応する接続語等が誤認識されている場合等でも、上述のような処理により、接続語を特定し、所定の境界(接続文、接続文節あるいは接続語(形態素))まで、適切に文字起こしを行うことができる。
これに対し、情報処理システム1では、始端となる接続点より前の時間Δt2s及び終端である接続点より後の時間Δt2eまでの音声データの音声認識結果に属する接続語あるいは接続語を含む文等を単位として、分割データの境界を設定するため、作業者が文脈を把握し易い位置で文字起こしの対象となる音声を分割することができ、文字起こしの精度を高めることができる。
これに対し、情報処理システム1では、接続語あるいは接続語を含む文等の境界位置が識別して表示されるため、分割された音声データを文字起こしする作業者は、自身が担当すべきデータの境界を、わかり易い単位で、容易に把握することができる。
そのため、文字起こし作業が複数の作業者において重複して行われることを防ぐことができ、効率の低下を抑制することができる。また、重複して行われた文字起こし作業の結果のいずれを採用するかを判断する必要がなくなる。
この場合、分割された音声データそれぞれを作業者が処理する時間にばらつきが生じ、文字起こし作業全体の効率が低下する可能性がある。また、各作業者に対する報酬が同一であれば、処理負担が大きく異なることとなり、作業者間に不公平をもたらすこととなる。
これに対し、情報処理システム1では、各作業者による作業負担が均等となるように、文字起こしの対象となる音声データが分割されるため、各作業者の処理時間を均一化できると共に、作業者間に不公平が生じる事態を抑制することができる。
上述の実施形態において、分割データの分割時間DTを算出する場合、以下のような算出方法とすることができる。
即ち、分割データの分割時間DTは、音声認識結果の信頼度から算出した係数λで比例計算することができる。
具体的には、音声認識結果の信頼度をCL(0<CL<1)とすると、係数λをCLが大きいほど大きくなるCLの関数として定義することができ、例えば、λ=CL+0.5と定義することができる。
そして、この係数λを用いて、分割データの分割時間DTを
DT=λ×DT0
と定義することができる。
上述の実施形態において、分割データの分割時間(即ち、文字起こし作業の負荷)を決定するパラメータとして、音声認識結果の信頼度を用いることとしたが、これに限られない。
例えば、音声認識文字数、発話スピード(一定時間における発話モーラ数)、音声の品質(S/N比等)、発話の明瞭度(滑舌の良さ、なまりの度合い等)、音割れ(音の歪み)の有無等、音声データの各種属性に基づいて、分割データの分割時間を決定することとしてもよい。
音声データ取得部251及び音声認識結果取得部252は、文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを取得する。
データ分割部253は、音声データ取得部251及び音声認識結果取得部252によって取得された音声データ及び音声認識結果のデータを分割して分割データを生成する。
文字起こしインターフェース表示部52は、分割データにおける音声データの音声波形を表す領域と、当該音声データの音声認識結果のデータが示す文字列を表す領域とを含み、分割データを文字起こしするための文字起こしインターフェースを表示する。
分割データ修正受付部53は、文字起こしインターフェースに表示された音声認識結果のデータに対する修正を受け付ける。
文字起こしインターフェース表示部52は、音声データの音声波形において分割データの境界位置を示す接続点と、音声認識結果のデータにおいて接続点の音声に対応する接続語とを識別して表示する。
これにより、隣接する分割データとの境界部分に、境界となる時刻に対応する接続語が識別して示される。
そのため、分割データを文字起こしする作業者は、接続語を単位として、自身が担当すべきデータの境界を容易に把握することができる。
したがって、情報処理システム1によれば、対象となる音声を複数の作業者によって分担して文字起こしを行う処理の効率を向上させることができる。
これにより、接続文節を単位として、自身が担当すべきデータの境界を容易に把握することができる。
これにより、接続文を単位として、自身が担当すべきデータの境界を容易に把握することができる。
これにより、接続語、接続文節または接続文を単位として、分割データの境界を設定することができる。また、分割データの境界を設定する際に、音声データにおいて接続点に付加する時間を、接続語、接続文節または接続文等の単位の先頭あるいは末尾を区切りとして、機械的に算出することができる。
これにより、作業者は、自身が文字起こしを担当する文字列をわかり易い単位で把握することができる。
これにより、文字起こしの対象となる音声データの属性を反映させて、分割データの長さを決定することができる。
これにより、文字起こしの対象となる音声データの信頼度を反映させて、分割データの長さを決定することができる。
データ集約部256は、作業者用の端末装置10Aにおける分割データの作業結果を集約した集約データを生成する。
これにより、複数の作業者による作業結果を容易に集約することができる。
端末装置10Bは、複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される。
端末装置10Bは、校閲用インターフェース表示部152を備える。
校閲用インターフェース表示部152は、作業者用の端末装置における作業結果を集約した集約データについて、当該集約データに含まれる分割データの作業結果のうち、音声データの音声波形を表す領域と、当該音声データを対象として作業者が文字起こしした結果の文字列を表す領域とを含み、集約データを校閲するための校閲用インターフェースを表示する。
これにより、校閲者は、異なる作業者による文字起こし作業の結果を容易に校閲することが可能となる。
これにより、校閲者は、異なる作業者によって文字起こし作業が行われた部分の境界を容易に把握しながら、当該部分に対して高い注意をもって確認を行うことができる。
例えば、上述の実施形態において、分割データの境界を示す情報として、文字列の各種ブロックを単位として定義することができる。即ち、分割データの境界を示す文字列のブロックとしては、形態素、単語、文節、句、単文等を定義したり、あるいは、複文までを許容して定義したりすることができる。また、上述の実施形態において、日本語の他、英語、中国語、タイ語等、異なる言語体系においても、その言語に応じたブロックを定義して本発明を活用することができる。
さらに、サーバ20の機能をいずれかの端末装置10に実装することにより、サーバ20を介することなく、端末装置10を使用するユーザ間において、文字起こしの対象となる音声データ及びその音声データの音声認識結果を分割し、文字起こし作業を分担して行うこととしてもよい。この場合、作業者によって使用される複数の端末装置10Aから送信される作業済みデータを、最終校閲者が使用する端末装置10Bが受信して集約データを生成し、最終校閲者が集約データを校閲することにより、最終的な文字起こしデータを生成することができる。
また、上述の実施形態及び変形例を適宜組み合わせた構成とすることとしてもよい。
換言すると、図4,6,8の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システム1に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図4,6,8の例に限定されない。
また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
Claims (19)
- 文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムであって、
前記サーバは、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得手段と、
前記文字起こし対象データ取得手段によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割手段と、を備え、
前記作業者用の端末装置は、
前記分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示手段と、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付手段と、を備え、
前記文字起こしインターフェース表示手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする情報処理システム。 - 前記文字起こしインターフェース表示手段は、前記文字起こしインターフェースにおいて、前記接続語を含む接続文節をさらに識別して表示することを特徴とする請求項1に記載の情報処理システム。
- 前記文字起こしインターフェース表示手段は、前記文字起こしインターフェースにおいて、前記接続語を含む接続文をさらに識別して表示することを特徴とする請求項1または2に記載の情報処理システム。
- 前記データ分割手段は、前記接続点の音声に対応する接続語、前記接続語を含む接続文節または前記接続語を含む接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータを分割することを特徴とする請求項1から3のいずれか1項に記載の情報処理システム。
- 前記接続語、前記接続文節または前記接続文の少なくともいずれかは、前記分割データの文字起こしを行う前記作業者が担当する範囲の境界を表すことを特徴とする請求項4に記載の情報処理システム。
- 前記データ分割手段は、前記音声データの属性に基づいて、前記音声データ及び前記音声認識結果のデータを前記分割データとして分割する長さを決定することを特徴とする請求項1から5のいずれか1項に記載の情報処理システム。
- 前記データ分割手段は、前記音声認識結果の信頼度に基づいて、前記音声データ及び前記音声認識結果のデータを前記分割データとして分割する長さを決定することを特徴とする請求項1から6のいずれか1項に記載の情報処理システム。
- 前記サーバは、
前記作業者用の端末装置における前記分割データの作業結果を集約した集約データを生成する集約データ生成手段をさらに備えることを特徴とする請求項1から7のいずれか1項に記載の情報処理システム。 - 複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置をさらに含み、
前記校閲者用の端末装置は、
前記作業者用の端末装置における作業結果を集約した集約データについて、当該集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示手段を備えることを特徴とする請求項1から8のいずれか1項に記載の情報処理システム。 - 前記校閲用インターフェース表示手段は、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す前記接続点と、前記接続点の音声に対応する前記接続語とを識別して表示することを特徴とする請求項9に記載の情報処理システム。
- 音声データを文字起こしする作業者によって使用される作業者用の端末装置であって、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータが分割された分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示手段と、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付手段と、を備え、
前記文字起こしインターフェース表示手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする端末装置。 - 複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置であって、
文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを分割した分割データに対する前記複数の作業者による作業結果を集約した集約データについて、当該集約データに含まれる作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示手段を備え、
前記校閲用インターフェース表示手段は、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とする端末装置。 - 文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムにおけるサーバであって、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得手段と、
前記文字起こし対象データ取得手段によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割手段と、を備え、
前記データ分割手段は、前記音声データの音声波形において前記分割データの境界位置を示す接続点に対し、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語、接続文節または接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータを分割することを特徴とするサーバ。 - 音声データを文字起こしする作業者によって使用される作業者用の端末装置が実行する情報処理方法であって、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータが分割された分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示ステップと、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付ステップと、を含み、
前記文字起こしインターフェース表示ステップでは、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とが識別して表示されることを特徴とする情報処理方法。 - 複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置が実行する情報処理方法であって、
文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを分割した分割データに対する前記複数の作業者による作業結果を集約した集約データについて、当該集約データに含まれる作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示ステップを含み、
前記校閲用インターフェース表示ステップでは、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とが識別して表示されることを特徴とする情報処理方法。 - 文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムにおけるサーバが実行する情報処理方法であって、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得ステップと、
前記文字起こし対象データ取得ステップにおいて取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割ステップと、を含み、
前記データ分割ステップでは、前記音声データの音声波形において前記分割データの境界位置を示す接続点に対し、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語、接続文節または接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータが分割されることを特徴とする情報処理方法。 - 音声データを文字起こしする作業者によって使用される作業者用の端末装置を構成するコンピュータに、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータが分割された分割データにおける前記音声データの音声波形を表す領域と、当該音声データの前記音声認識結果のデータが示す文字列を表す領域とを含み、前記分割データを文字起こしするための文字起こしインターフェースを表示する文字起こしインターフェース表示機能と、
前記文字起こしインターフェースに表示された前記音声認識結果のデータに対する修正を受け付けるデータ修正受付機能と、を実現させ、
前記文字起こしインターフェース表示機能は、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とするプログラム。 - 複数の作業者による作業結果から全体の文字起こし結果を生成する校閲者によって使用される校閲者用の端末装置を構成するコンピュータに、
文字起こしの対象となる音声データ及び当該音声データの音声認識結果のデータを分割した分割データに対する前記複数の作業者による作業結果を集約した集約データについて、当該集約データに含まれる作業結果のうち、前記音声データの音声波形を表す領域と、当該音声データを対象として前記作業者が文字起こしした結果の文字列を表す領域とを含み、前記集約データを校閲するための校閲用インターフェースを表示する校閲用インターフェース表示機能を実現させ、
前記校閲用インターフェース表示機能は、前記集約データに含まれる前記分割データの作業結果のうち、前記音声データの音声波形において前記分割データの境界位置を示す接続点と、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語とを識別して表示することを特徴とするプログラム。 - 文字起こしの対象となる音声データを分割して複数の作業者に割り当てるサーバと、音声データを文字起こしする作業者によって使用される作業者用の端末装置と、を含む情報処理システムにおけるサーバを構成するコンピュータに、
文字起こしの対象となる前記音声データ及び当該音声データの音声認識結果のデータを取得する文字起こし対象データ取得機能と、
前記文字起こし対象データ取得機能によって取得された前記音声データ及び前記音声認識結果のデータを分割して分割データを生成するデータ分割機能と、を実現させ、
前記データ分割機能は、前記音声データの音声波形において前記分割データの境界位置を示す接続点に対し、前記音声認識結果のデータにおいて前記接続点の音声に対応する接続語、接続文節または接続文の少なくともいずれかを単位として、前記音声データ及び前記音声認識結果のデータを分割することを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016195846A JP6780849B2 (ja) | 2016-10-03 | 2016-10-03 | 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016195846A JP6780849B2 (ja) | 2016-10-03 | 2016-10-03 | 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018059989A true JP2018059989A (ja) | 2018-04-12 |
JP6780849B2 JP6780849B2 (ja) | 2020-11-04 |
Family
ID=61907596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016195846A Active JP6780849B2 (ja) | 2016-10-03 | 2016-10-03 | 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6780849B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005228178A (ja) * | 2004-02-16 | 2005-08-25 | Nec Corp | 書き起こしテキスト作成支援システムおよびプログラム |
WO2010146869A1 (ja) * | 2009-06-18 | 2010-12-23 | 日本電気株式会社 | 編集支援システム、編集支援方法および編集支援プログラム |
-
2016
- 2016-10-03 JP JP2016195846A patent/JP6780849B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005228178A (ja) * | 2004-02-16 | 2005-08-25 | Nec Corp | 書き起こしテキスト作成支援システムおよびプログラム |
WO2010146869A1 (ja) * | 2009-06-18 | 2010-12-23 | 日本電気株式会社 | 編集支援システム、編集支援方法および編集支援プログラム |
Non-Patent Citations (1)
Title |
---|
鈴木寿晃: ""リスピーク音声切り分け・作業分散(わんこそば)方式によるリアルタイム字幕制作システム"", 映像情報メディア学会誌, vol. 第60巻 第12号, JPN6020022512, 1 December 2006 (2006-12-01), pages 1901 - 1903, ISSN: 0004297084 * |
Also Published As
Publication number | Publication date |
---|---|
JP6780849B2 (ja) | 2020-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10930300B2 (en) | Automated transcript generation from multi-channel audio | |
JP6714607B2 (ja) | 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム | |
JP5750380B2 (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
US7949523B2 (en) | Apparatus, method, and computer program product for processing voice in speech | |
JP4271224B2 (ja) | 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム | |
US7490042B2 (en) | Methods and apparatus for adapting output speech in accordance with context of communication | |
US10581625B1 (en) | Automatically altering the audio of an object during video conferences | |
US20220059077A1 (en) | Training speech recognition systems using word sequences | |
US11587547B2 (en) | Electronic apparatus and method for controlling thereof | |
US20220059075A1 (en) | Word replacement in transcriptions | |
WO2018043138A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
KR20230098266A (ko) | 통화들 및 오디오 메시지들로부터 다른 화자들의 음성 필터링 | |
US8355484B2 (en) | Methods and apparatus for masking latency in text-to-speech systems | |
JP5159853B2 (ja) | 会議支援装置、方法およびプログラム | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP4354299B2 (ja) | 事例検索プログラム、事例検索方法及び事例検索装置 | |
US11488604B2 (en) | Transcription of audio | |
JP6780849B2 (ja) | 情報処理システム、端末装置、サーバ、情報処理方法及びプログラム | |
JP2006259641A (ja) | 音声認識装置及び音声認識用プログラム | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP2015187738A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP2004252085A (ja) | 音声変換システム及び音声変換プログラム | |
WO2019234952A1 (ja) | 音声処理装置および翻訳装置 | |
US20240257811A1 (en) | System and Method for Providing Real-time Speech Recommendations During Verbal Communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190925 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200923 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201008 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6780849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |