JP2015184564A - 音声書起支援システム、サーバ、装置、方法及びプログラム - Google Patents
音声書起支援システム、サーバ、装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2015184564A JP2015184564A JP2014062277A JP2014062277A JP2015184564A JP 2015184564 A JP2015184564 A JP 2015184564A JP 2014062277 A JP2014062277 A JP 2014062277A JP 2014062277 A JP2014062277 A JP 2014062277A JP 2015184564 A JP2015184564 A JP 2015184564A
- Authority
- JP
- Japan
- Prior art keywords
- data
- text data
- voice
- accepting
- editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 150
- 238000013518 transcription Methods 0.000 claims abstract description 83
- 230000035897 transcription Effects 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims description 100
- 238000007726 management method Methods 0.000 claims description 59
- 238000013523 data management Methods 0.000 claims description 21
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 abstract description 46
- 238000004904 shortening Methods 0.000 abstract description 2
- 238000012384 transportation and delivery Methods 0.000 description 54
- 238000004891 communication Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 32
- 238000013500 data storage Methods 0.000 description 26
- 238000006243 chemical reaction Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 13
- 230000010365 information processing Effects 0.000 description 11
- 238000012937 correction Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 8
- 230000001915 proofreading effect Effects 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】音声書起支援システムSは、音声データから、テキストデータに書き起こすシステムであり、音声認識処理部133と、入力検出部151と、入力検出部171と、を備える。音声認識処理部133は、音声データを入力して音声認識処理を行い、テキストデータを生成する。入力検出部151テキストデータ生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける。入力検出部171は、入力検出部151により受け付けられたテキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける。
【選択図】図4
Description
弊害(1)誤変換箇所の見逃しや修正間違いの可能性があること。それを防ぐためには別途、校正する人が必要となること。
弊害(2)誤変換箇所を見つけるという単純な作業が、修正作業(タイピング)に割り込まれてしまうため、効率的ではないこと。
弊害(3)誤変換箇所を見つけるという単純な作業も、誤変換箇所を修正するというタイピング技能を要する作業者が行うためにコストに反映されてしまうこと。
弊害(4)音声は時系列データであるため、意味のある聞き取れる単位でないと確認が困難であるため、OCR(画像認識)等による文字単位での文字認識結果のチェック方法をそのまま採用することはできない。
即ち、単純な作業と、そうでない単純でない作業とを一連の作業としてではなく別の作業として行わせることで、単純な作業での作業の効率化を図ることができ、さらに、単純でない作業が単純な作業と共に行われていたことによる作業精度の低下を回避することができ、単純な作業と単純でない作業との作業の特化によって、音声の書き起こし全体の作業精度の向上や作業時間の短縮を図ることができることを見出し、本発明を完成するに至った。
音声データから、テキストデータに書き起こす音声書起支援システムにおいて、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成手段と、
前記生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第1の受付手段と、
前記第1の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付手段と、を備えることを特徴とする。
音声データから、テキストデータに書き起こす音声書起支援システムで実行される音声書起支援方法において、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成ステップと、
前記生成ステップにより生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第1の受付ステップと、
前記第1の受付ステップにより受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付ステップと、
を含むことを特徴とする。
音声データから、テキストデータに書き起こす音声書起支援システムを制御するコンピュータを、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成手段、
前記生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第1の受付手段、
前記第1の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付手段、
として機能させることを特徴とする。
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理手段と、
前記管理手段による管理の結果、更新されたデータを外部装置に出力する出力手段と、
を備えることを特徴とする。
サーバで実行されるデータ管理方法であって、
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理ステップと、
前記管理ステップによる管理の結果、更新されたデータを外部装置に出力する出力ステップと、
を含むことを特徴とする。
サーバを制御するコンピュータを、
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理手段、
前記管理手段による管理の結果、更新されたデータを外部装置に出力する出力手段、
として機能させることを特徴とする。
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付手段と、
前記受付手段により受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力手段と、
を備えることを特徴とする。
正誤判定装置で実行される正誤判定方法であって、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付ステップと、
前記受付ステップにより受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力ステップと、
を含むことを特徴とする。
正誤判定装置を制御するコンピュータを、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付手段、
前記受付手段により受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力手段、
として機能させることを特徴とする。
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第1の受付手段と、
前記第1の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付手段と、
を備えることを特徴とする。
編集装置で実行される編集方法であって、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第1の受付ステップと、
前記第1の受付ステップにより受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付ステップと、
を含むことを特徴とする。
編集装置を制御するコンピュータを、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第1の受付手段、
前記第1の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付手段、
として機能させることを特徴とする。
本実施形態の音声書き起こしの手法について説明する。
本実施形態の音声書き起こしの手法は、取得した音声データの音声認識をして文字列データを自動生成し、その後、音声認識結果が適切か否かの正誤判定を行い、当該正誤判定の結果に基づいて、文字列の修正・校正を行って、音声データに即した文字列データを生成することで行われる。
これにより、音声書き起こしの手法では、編集を担当する者は、誤の判定がなされた部分のみを確認すればよいため、時間の短縮等の効果を得られる。
また、文字列データが適切か否かの正誤のみを判定する行程で、編集を行わずに、正誤のみの判定に特化させることで、確認の時間を短縮することができ、従来、多くの時間がかかり、かつ、特殊なスキルを要した行程での確認の担当者の負担軽減を行うことができ、軽作業化を図ることができる。
その結果、音声書き起こしの手法では、音声書き起こしに係る時間を大幅に短縮できると共に、音声に即した精度の高い書き起こしを実現することができる。
具体的には、本実施形態の音声書き起こしの手法は、図1に示すように以下のような手順[1]乃至[8]で行われる。
図2の例では、第1正誤判定と第2正誤判定を並列的に行う。このように構成することで、正誤判定の箇所が重複してコストはかかるが、個別の正誤判定の結果を得られるために、正誤判定作業者の並列化による時間短縮ができ、より軽作業化を計ることができるように構成する。
以上のような音声書き起こしの手法を実現することで、以下のような効果(1)乃至(7)を奏することができる。
したがって、本方法は音声認識の特性を生かした方法であることがいえる。参考情報として、日常会話の認識精度別の頻度分布を図3に示す。なお、図3は、日常会話192発話の認識精度別の頻度分布を示す図である。
文字認識率=((正解#)−(誤挿入#)−(誤削除#)−(誤置換#))/(正解#)・・・(1)
なお、「#」は文字数を示すものである。
正解:用紙に去年 払った医療費を書いて
結果:要旨見きわめ払った医療費 書いて(下線は誤変換箇所を示す。)
SSSSSI D
正解文字数(R):15文字
誤挿入文字数(I):1文字
誤削除文字数(D):1文字
誤置換文字数(S):5文字
したがって、上記の例では文字認識率は、式(1)に当てはめると、
(15−1−1−5)/15=0.533=53.3%
となる。
上述したような音声書き起こしの手法を実現することができる音声書起支援システムについて説明する。
音声書起支援システムSは、図4に示すように、入稿納品サーバ1と、管理サーバ2と、音声認識サーバ3と、正誤判定端末4と、編集端末5と、復唱端末6と、全体校正端末7と、を備える。
また、入稿納品サーバ1は、管理サーバ2に受け付けた音声データを出力したり、管理サーバ2から納品用データを取得してインターネットからダウンロード可能にデータをアップロードしたりする。
また、管理サーバ2は、音声認識サーバ3から音声データを音声認識して得たテキストデータを保持し、当該保持しているテキストデータが正誤判定端末4と、編集端末5と、復唱端末6と、全体校正端末7からリアルタイムに修正可能になるようにデータを管理する。
また、編集端末5では、正誤判定端末4で正しくない(誤)と判定された発話のみの音声を出力し、正しいと判断された発話や発話していない区間は自動的にスキップする。このため、ユーザが音声を聞く時間を短縮できる。また、編集端末5では、音声の再生速度を変える機能をもつので再生速度を上げることで音声を聞く時間を短縮することができ、聞き取りにくい発話は再生速度を遅くすることで正確に聞くことができ、判断時間を短縮することができる。
正誤判定作業者は、正誤判定端末4を操作して、音声認識の結果で生成された文字列が適切であるかの正誤判定を発話単位で行い、当該正誤判定の結果を入力する作業者である。
編集作業者は、編集端末5を操作して、正誤判定作業者による正誤判定を経た文字列の編集を行い、当該編集結果を入力する作業者である。
復唱作業者は、復唱端末6を操作して、音声認識が行えない箇所や聞き取り困難な箇所がある場合に、音声に基づいて、復唱を行い、復唱した音声を入力する作業者である。
全体校正作業者は、全体校正端末7を操作して、編集作業を経た入稿データに対応する文字列群に対して、表記揺れ等の体裁を整えたりして校正を行い、当該校正結果を入力する作業者である。
図5は、正誤判定を行うための操作画面を示す模式図である。
正誤判定を行うための操作画面は、図5に示すように、音声波形エリアR1と、音声認識結果表示エリアR2と、編集エリアR3と、により構成される。
また、音声波形の発話単位を音声波形の上部に設けられるバー(以下、「発話区間バー」という。)で音声波形に対応付けて表示している。発話区間バーによって、発話区間を認識でき、直感的に発話区間の長さを認識することができる。
また、正誤判定エリアR21の判定結果に基づいて、編集作業者は、対応する文字列の編集を行う。具体的な内容の評価を行わずに、適否のみをチェックする行程を加えることで、編集の時間を短縮すると共に、編集の精度を高めることができ、効率的に高品質な納品用データを作成することができる。
「話者名」には、発話が誰によって行われたかの人物名等が表示される。「開始時刻」・「終了時刻」には、発話区間の開始と終了時刻が表示される。「認識結果」には、発話区間に対応した音声認識結果が表示される。
この作業を順次繰り返して、正誤判定作業者による正誤判定が行われる。
図6は、編集を行うための操作画面を示す模式図である。
編集を行うための操作画面は、図6に示すように、画面構成は図5の正誤判定を行うための操作画面と同様である。
この作業を順次繰り返して、編集作業者による編集が行われる。
図7は、復唱を行うための操作画面を示す模式図である。
復唱を行うための操作画面は、図7に示すように、画面構成は図5の正誤判定を行うための操作画面と同様である。
この作業を順次繰り返して、復唱作業者による復唱が行われる。
図8は、出力データを示す模式図である。
全体校正を経た出力データは、図8に示すように、図5等の表示画面に表示されたデータのうち、話者と、発話単位の文字列からなるテキストデータである。発話単位の文字列は、発話単位に改行されて出力されるのではなく、文章毎に改行されて出力される。
具体的には、「話者:議長」「話者に対応する文字列:ただいまから本日の会議を開きます。」等が出力されることとなる。
図9は、音声書起支援システムSのうち、サーバ装置のハードウェア構成を示すハードウェア構成図である。サーバ装置は、PC(Personal Computer)により構成される。
図10は、音声書起支援システムSのうち、情報処理端末のハードウェア構成を示すハードウェア構成図である。情報処理端末は、PC(Personal Computer)により構成される。
図11は、図4の入稿納品サーバ1の機能的構成のうち、入稿納品処理を実行するための機能的構成を示す機能ブロック図である。
記憶部18−2の一領域には、入稿データ記憶部71と、納品データ記憶部72と、が設けられる。
記憶部18−2の一領域には、入稿データ記憶部111と、書き起こしデータ記憶部112と、が設けられる。
書き起こしデータ記憶部112には、タグ付きテキストデータや編集データ等の書き起こしデータが記憶される。
表示制御部152は、管理サーバ2から編集データを表示するように出力部17−4を制御する。
音声出力制御部153は、音声データを出力するように音声入出力部21−4を制御する。
表示制御部172は、管理サーバ2から編集データを表示するように出力部17−5を制御する。
音声出力制御部173は、音声データを出力するように音声入出力部21−5を制御する。
表示制御部192は、管理サーバ2から編集データを表示するように出力部17−6を制御する。
音声出力制御部193は、音声データを出力するように音声入出力部21−6を制御する。
音声入力制御部194は、音声データを入力するように音声入出力部21−6を制御する。
表示制御部212は、管理サーバ2から編集データを表示するように出力部17−7を制御する。
図18は、図11の機能的構成を有する図4の入稿納品サーバ1が実行する入稿納品処理の流れを説明するフローチャートである。
入稿納品処理は、ユーザによる入力部16−1への入稿納品処理開始の操作により開始される。
アップロードの要求がない場合には、ステップS11においてNOと判定されて、待機状態となる。
アップロードの要求があった場合には、ステップS11においてYESと判定されて、処理はステップS12に進む。
納品用データの受け付けがない場合には、ステップS14においてNOと判定されて、待機状態となる。
納品用データの受け付けがあった場合には、ステップS14においてYESと判定されて、処理はステップS15に進む。
その後、入稿納品処理は、終了する。
データ管理処理は、ユーザによる入力部16−2へのデータ管理処理開始の操作により開始される。
入稿データを受信していない場合には、ステップS31においてNOと判定されて、待機状態となる。
入稿データを受信した場合には、ステップS31においてYESと判定されて、処理はステップS32に進む。
文字変換データを受信していない場合には、ステップS34においてNOと判定されて、待機状態となる。
文字変換データを受信した場合には、ステップS34においてYESと判定されて、処理はステップS35に進む。
編集データの更新がない場合には、ステップS36においてNOと判定されて、待機状態となる。
編集データの更新があった場合には、ステップS36においてYESと判定されて、処理はステップS37に進む。
納品用データを受信していない場合には、ステップS38においてNOと判定されて、待機状態となる。
納品用データを受信した場合には、ステップS38においてYESと判定されて、処理はステップS39に進む。
管理データに変更がない場合には、ステップS40においてNOと判定されて、待機状態となる。
管理データに変更があった場合には、ステップS40においてYESと判定されて、処理はステップS41に進む。
その後、データ管理処理は、終了する。
タグ付きテキストデータ生成処理は、ユーザによる入力部16−3へのタグ付きテキストデータ生成処理開始の操作により開始される。
入稿データを受信していない場合には、ステップS61においてNOと判定されて、待機状態となる。
入稿データを受信した場合には、ステップS61においてYESと判定されて、処理はステップS62に進む。
その後、文字認識処理は、終了する。
正誤判定処理は、ユーザによる入力部16−4への正誤判定処理開始の操作により開始される。
音声出力の操作がない場合には、ステップS82においてNOと判定されて、待機状態となる。
音声出力の操作あった場合には、ステップS82においてYESと判定されて、処理はステップS83に進む。
正誤判定の操作がない場合には、ステップS84においてNOと判定されて、待機状態となる。
正誤判定の操作あった場合には、ステップS84においてYESと判定されて、処理はステップS85に進む。操作あったことを受けて、操作結果を編集データに反映する要求を管理サーバ2に対して行う(以下、他の端末での処理においても同じ。)。
入力操作が終了していない場合には、ステップS86においてNOと判定されて、処理はステップS82に戻る。
入力操作が終了した場合には、ステップS86においてYESと判定されて、正誤判定処理は、終了する。
編集処理は、ユーザによる入力部16−5への編集処理開始の操作により開始される。
音声出力の操作がない場合には、ステップS102においてNOと判定されて、待機状態となる。
音声出力の操作あった場合には、ステップS102においてYESと判定されて、処理はステップS103に進む。
編集入力の操作がない場合には、ステップS104においてNOと判定されて、待機状態となる。
編集入力の操作あった場合には、ステップS104においてYESと判定されて、処理はステップS105に進む。
入力操作が終了していない場合には、ステップS106においてNOと判定されて、処理はステップS102に戻る。
入力操作が終了した場合には、ステップS106においてYESと判定されて、編集処理は、終了する。
復唱処理は、ユーザによる入力部16−6への復唱処理開始の操作により開始される。
音声出力の操作がない場合には、ステップS122においてNOと判定されて、待機状態となる。
音声出力の操作あった場合には、ステップS122においてYESと判定されて、処理はステップS123に進む。
入力操作が終了していない場合には、ステップS126においてNOと判定されて、処理はステップS122に戻る。
入力操作が終了した場合には、ステップS126においてYESと判定されて、復唱処理は、終了する。
全体校正処理は、ユーザによる入力部16−7への全体校正処理開始の操作により開始される。
全体校正の操作がない場合には、ステップS142においてNOと判定されて、待機状態となる。
全体校正の操作あった場合には、ステップS142においてYESと判定されて、処理はステップS143に進む。
入力操作が終了していない場合には、ステップS144においてNOと判定されて、処理はステップS142に戻る。
入力操作が終了した場合には、ステップS144においてYESと判定されて、全体校正処理は、終了する。
上述した実施形態を、雑音等で音声認識が困難な音声は復唱者が明瞭な発話で復唱(リスピーク)して音声認識するように構成し、正誤判定の結果が誤[×]である比率が、所定の割合よりも高ければ、音声認識が困難な音声であると判断し、その音声全体を自動的に復唱すべき音声と判定するように構成してもよい。
音声認識処理部133は、音声データを入力して音声認識処理を行い、テキストデータを生成する。
入力検出部151テキストデータ生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける。
入力検出部171は、入力検出部151により受け付けられたテキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける。
これにより、音声書起支援システムSにおいては、品質を低下させることなく作業性を向上させ、かつ、作業時間の短縮を図ることができる。
入力検出部151は、音声入出力部21からの出力に基づいた正誤判定を受け付ける。
これにより、音声書起支援システムSでは、音声とそれに対応する音声認識結果の文字列をペアにし、正誤判定作業者が音声認識結果の文字列が正しいかどうか判定するため、精度の高い正誤判定を行うことができる。
入力検出部151は、正誤判定を発話単位で受け付ける。
これにより、音声書起支援システムSでは、発話の所定の単位で正誤判定を行うため、正誤判定をより単純化でき、作業負担を軽減すると共に、精度の高い正誤判定を行うことができる。
これにより、音声書起支援システムSでは、話者の息継ぎ単位を発話単位としているため、正誤判定作業者は、自己の感覚と一致させやすくなる。このため、違和感のある作業とならずに、精度の高い正誤判定を行うことができる。
入力検出部171は、入力検出部151により受け付けた全ての正誤判定が音声データに即していないと判定された場合に、テキストデータの編集を受け付ける。
これにより、音声書起支援システムSでは、複数の正誤判定を受け付けることで、正誤判定が音声データに即していないと判定されたもののみ、編集作業を行うために、編集作業者の作業負担を軽減することができる。
これにより、音声書起支援システムSでは、複数の正誤判定であるため判定精度が高いものであると共に、直列的に正誤判定を受け付けた場合には、前者が「誤」の判定をした場合に、後者の正誤判定をスキップすることができるため、後者の作業負担を軽減することができより判定精度が高くすることができると共に、並列的に正誤判定を受け付けた場合には、正誤判定の箇所が重複してコストはかかるが、個別の正誤判定の結果を得られるために、時間短縮ができ、より軽作業化を計ることができる。
これにより、音声書起支援システムSでは、品質の向上を図ることができる。
これにより、音声書起支援システムSでは、品質の向上を図ることができる。
これにより、音声書起支援システムSでは、同時並行的に複数の作業を行うことができる。
これにより、音声書起支援システムSでは、即時性の高い作業を行うことができる。
具体的には、ステップS82のような音声出力の操作の検出処理を省略して自動で音声出力するステップに変更することができる。
具体的には、ステップS84(又はステップS104)においてNOと判定された場合に、処理がステップS82(又はステップS102)に戻るように構成してもよい。
例えば、本発明は、音声入力を受け付け可能な電子機器一般に適用することができる。具体的には、本発明は、携帯型ナビゲーション装置、携帯電話機、ポータブルゲーム、デジタルカメラ、プリンタ、テレビジョン受像機、ビデオカメラ等に適用可能である。
換言すると、図11乃至図17の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が音声書起支援システムSの各サーバ1乃至3・各端末4乃至7に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図11乃至図17の例に限定されない。
また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
Claims (21)
- 音声データから、テキストデータに書き起こす音声書起支援システムにおいて、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成手段と、
前記生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第1の受付手段と、
前記第1の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付手段と、を備えることを特徴とする音声書起支援システム。 - 音声データを出力する出力手段を備え、
前記第1の受付手段は、前記出力手段からの出力に基づいた前記正誤判定を受け付ける、
ことを特徴とする請求項1に記載の音声書起支援システム。 - 前記生成手段は、発話単位でテキストデータを生成し、
前記第1の受付手段は、前記正誤判定を前記発話単位で受け付ける、
ことを特徴とする請求項1又は2に記載の音声書起支援システム。 - 前記生成手段は、音声データのうち、話者の息継ぎ単位を発話単位とする、
ことを特徴とする請求項3に記載の音声書起支援システム。 - 前記第1の受付手段は、複数の正誤判定を受け付け、
前記第2の受付手段は、前記第1の受付手段により受け付けた全ての正誤判定が前記音声データに即していないと判定された場合に、前記テキストデータの編集を受け付ける、
ことを特徴とする請求項1乃至4の何れか1項に記載の音声書起支援システム。 - 前記第1の受付手段は、直列的又は並列的に判定された正誤判定を受け付ける、
ことを特徴とする請求項5に記載の音声書起支援システム。 - 前記第1の受付手段は、前記第2の受付手段が受け付けた編集の結果に基づいた再度の正誤判定を受け付ける、
ことを特徴とする請求項1乃至6の何れか1項に記載の音声書起支援システム。 - 前記生成手段は、前記音声データを復唱した音声を、再度音声認識処理してテキストデータを再生成する、
ことを特徴とする請求項1乃至7の何れか1項に記載の音声書起支援システム。 - 前記テキストデータ及び音声データの更新がリアルタイムにシステム全体に反映される、
ことを特徴とする請求項1乃至8の何れか1項に記載の音声書起支援システム。 - 手段の各々は、個別の装置又は、重複して同一の装置に設けられること、
を特徴とする請求項1乃至9の何れか1項に記載の音声書起支援システム。 - 音声データから、テキストデータに書き起こす音声書起支援システムで実行される音声書起支援方法において、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成ステップと、
前記生成ステップにより生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第1の受付ステップと、
前記第1の受付ステップにより受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付ステップと、
を含むことを特徴とする音声書起支援方法。 - 音声データから、テキストデータに書き起こす音声書起支援システムを制御するコンピュータを、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成手段、
前記生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第1の受付手段、
前記第1の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付手段、
として機能させることを特徴とするプログラム。 - 音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理手段と、
前記管理手段による管理の結果、更新されたデータを外部装置に出力する出力手段と、
を備えることを特徴とするサーバ。 - サーバで実行されるデータ管理方法であって、
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理ステップと、
前記管理ステップによる管理の結果、更新されたデータを外部装置に出力する出力ステップと、
を含むことを特徴とする管理方法。 - サーバを制御するコンピュータを、
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理手段、
前記管理手段による管理の結果、更新されたデータを外部装置に出力する出力手段、
として機能させることを特徴とするプログラム。 - 音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付手段と、
前記受付手段により受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力手段と、
を備えることを特徴とする正誤判定装置。 - 正誤判定装置で実行される正誤判定方法であって、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付ステップと、
前記受付ステップにより受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力ステップと、
を含むことを特徴とする正誤判定方法。 - 正誤判定装置を制御するコンピュータを、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付手段、
前記受付手段により受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力手段、
として機能させることを特徴とするプログラム。 - 音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第1の受付手段と、
前記第1の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付手段と、
を備えることを特徴とする編集装置。 - 編集装置で実行される編集方法であって、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第1の受付ステップと、
前記第1の受付ステップにより受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付ステップと、
を含むことを特徴とする編集方法。 - 編集装置を制御するコンピュータを、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第1の受付手段、
前記第1の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第2の受付手段、
として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014062277A JP6430137B2 (ja) | 2014-03-25 | 2014-03-25 | 音声書起支援システム、サーバ、装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014062277A JP6430137B2 (ja) | 2014-03-25 | 2014-03-25 | 音声書起支援システム、サーバ、装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015184564A true JP2015184564A (ja) | 2015-10-22 |
JP6430137B2 JP6430137B2 (ja) | 2018-11-28 |
Family
ID=54351133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014062277A Active JP6430137B2 (ja) | 2014-03-25 | 2014-03-25 | 音声書起支援システム、サーバ、装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6430137B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019148681A (ja) * | 2018-02-27 | 2019-09-05 | 富士通株式会社 | テキスト修正装置、テキスト修正方法およびテキスト修正プログラム |
JP2019197210A (ja) * | 2018-05-08 | 2019-11-14 | 日本放送協会 | 音声認識誤り修正支援装置およびそのプログラム |
JP2020072367A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社ジェイ・エックス・ウィンド | 情報処理システムおよび文字起こし方法 |
JP2020201909A (ja) * | 2019-06-13 | 2020-12-17 | 株式会社リコー | 表示端末、共用システム、表示制御方法およびプログラム |
JP2021009253A (ja) * | 2019-07-02 | 2021-01-28 | 富士通株式会社 | プログラム、情報処理装置、及び情報処理方法 |
JPWO2021059968A1 (ja) * | 2019-09-27 | 2021-04-01 | ||
JP7288530B1 (ja) | 2022-03-09 | 2023-06-07 | 陸 荒川 | システムおよびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001060192A (ja) * | 1999-08-20 | 2001-03-06 | Nippon Hoso Kyokai <Nhk> | 文字データ修正装置および記憶媒体 |
JP2004144898A (ja) * | 2002-10-23 | 2004-05-20 | Kansai Paint Co Ltd | ヒューマンエラー防止システム |
JP2004151614A (ja) * | 2002-11-01 | 2004-05-27 | Nippon Hoso Kyokai <Nhk> | 文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法 |
JP2012032917A (ja) * | 2010-07-29 | 2012-02-16 | Railway Technical Research Institute | 多重確認システム及びそれによる多重確認方法 |
-
2014
- 2014-03-25 JP JP2014062277A patent/JP6430137B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001060192A (ja) * | 1999-08-20 | 2001-03-06 | Nippon Hoso Kyokai <Nhk> | 文字データ修正装置および記憶媒体 |
JP2004144898A (ja) * | 2002-10-23 | 2004-05-20 | Kansai Paint Co Ltd | ヒューマンエラー防止システム |
JP2004151614A (ja) * | 2002-11-01 | 2004-05-27 | Nippon Hoso Kyokai <Nhk> | 文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法 |
JP2012032917A (ja) * | 2010-07-29 | 2012-02-16 | Railway Technical Research Institute | 多重確認システム及びそれによる多重確認方法 |
Non-Patent Citations (1)
Title |
---|
安藤 彰男 AKIO ANDO: "音声認識を利用した放送用ニュース字幕制作システム A Simultaneous Subtitling System for Broadcast New", 電子情報通信学会論文誌 (J84−D−II) 第6号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONI, vol. 第J84-D-II巻, JPN6018004331, 1 June 2001 (2001-06-01), JP, pages 877 - 887, ISSN: 0003736091 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019148681A (ja) * | 2018-02-27 | 2019-09-05 | 富士通株式会社 | テキスト修正装置、テキスト修正方法およびテキスト修正プログラム |
JP2019197210A (ja) * | 2018-05-08 | 2019-11-14 | 日本放送協会 | 音声認識誤り修正支援装置およびそのプログラム |
JP2020072367A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社ジェイ・エックス・ウィンド | 情報処理システムおよび文字起こし方法 |
JP2020201909A (ja) * | 2019-06-13 | 2020-12-17 | 株式会社リコー | 表示端末、共用システム、表示制御方法およびプログラム |
JP7314635B2 (ja) | 2019-06-13 | 2023-07-26 | 株式会社リコー | 表示端末、共用システム、表示制御方法およびプログラム |
JP2021009253A (ja) * | 2019-07-02 | 2021-01-28 | 富士通株式会社 | プログラム、情報処理装置、及び情報処理方法 |
JP7326931B2 (ja) | 2019-07-02 | 2023-08-16 | 富士通株式会社 | プログラム、情報処理装置、及び情報処理方法 |
US11798558B2 (en) | 2019-07-02 | 2023-10-24 | Fujitsu Limited | Recording medium recording program, information processing apparatus, and information processing method for transcription |
JPWO2021059968A1 (ja) * | 2019-09-27 | 2021-04-01 | ||
JP7416078B2 (ja) | 2019-09-27 | 2024-01-17 | 日本電気株式会社 | 音声認識装置、音声認識方法、およびプログラム |
JP7288530B1 (ja) | 2022-03-09 | 2023-06-07 | 陸 荒川 | システムおよびプログラム |
JP2023131648A (ja) * | 2022-03-09 | 2023-09-22 | 陸 荒川 | システムおよびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6430137B2 (ja) | 2018-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6430137B2 (ja) | 音声書起支援システム、サーバ、装置、方法及びプログラム | |
US8548618B1 (en) | Systems and methods for creating narration audio | |
Janin et al. | The ICSI meeting corpus | |
JP6074050B2 (ja) | 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体 | |
US8150687B2 (en) | Recognizing speech, and processing data | |
CN106716466B (zh) | 会议信息储存装置以及方法 | |
JP6172769B2 (ja) | 理解支援システム、理解支援サーバ、理解支援方法、及びプログラム | |
JP2010160316A (ja) | 情報処理装置及びテキスト読み上げ方法 | |
JP2014240940A (ja) | 書き起こし支援装置、方法、及びプログラム | |
JP2013152365A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
US9472186B1 (en) | Automated training of a user audio profile using transcribed medical record recordings | |
JP2013025299A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
US20210193147A1 (en) | Automated generation of transcripts through independent transcription | |
JP4736478B2 (ja) | 音声書き起こし支援装置およびその方法ならびにプログラム | |
KR20150001189A (ko) | 음성인식을 이용한 외국어 말하기 능력의 훈련 및 평가 방법과 그 장치 | |
JP2006330170A (ja) | 記録文書作成支援システム | |
US20140278404A1 (en) | Audio merge tags | |
Alapetite | Impact of noise and other factors on speech recognition in anaesthesia | |
JP5791124B2 (ja) | 要約筆記支援システム、要約筆記支援装置、要約筆記支援方法、及びプログラム | |
JP2014142501A (ja) | テキスト再生装置、方法、及びプログラム | |
JP2014038150A (ja) | 音声対話システム及び音声対話方法 | |
KR101883365B1 (ko) | 전문가 교정이 가능한 발음 학습 시스템 | |
Wald | Concurrent collaborative captioning | |
JP6957069B1 (ja) | 学習支援システム | |
KR101957045B1 (ko) | 동시통역 자습 보조방법 및 이를 수행하기 위한 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180213 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181031 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6430137 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |