JP2015184564A

JP2015184564A - 音声書起支援システム、サーバ、装置、方法及びプログラム

Info

Publication number: JP2015184564A
Application number: JP2014062277A
Authority: JP
Inventors: 鈴木　綾; Aya Suzuki; 綾鈴木; 雅巳中村; Masami Nakamura
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2014-03-25
Filing date: 2014-03-25
Publication date: 2015-10-22
Anticipated expiration: 2034-03-25
Also published as: JP6430137B2

Abstract

【課題】音声の書き起こしに関して、作業性を向上させながらも品質を向上させ、かつ、作業時間の短縮を図ること。
【解決手段】音声書起支援システムＳは、音声データから、テキストデータに書き起こすシステムであり、音声認識処理部１３３と、入力検出部１５１と、入力検出部１７１と、を備える。音声認識処理部１３３は、音声データを入力して音声認識処理を行い、テキストデータを生成する。入力検出部１５１テキストデータ生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける。入力検出部１７１は、入力検出部１５１により受け付けられたテキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける。
【選択図】図４

Description

本発明は、音声の書き起こしを支援する音声書起支援システム、サーバ、装置、方法及びプログラムに関する。

従来より、例えば、会議等を録音した音声を音声認識して、文字列に変換した音声を書き起こしたものを議事録等として利用することが行われている。音声認識に関しては、必ずしも適切に文字列に変換されることがないために、誤変換した文字列を確認・修正する必要がある。このような要求に応えるべく、例えば、特許文献１乃至５には、音声を再生確認して、音声認識された文字列が誤っていれば正しく修正して、音声認識した文字列が音声に即しているかを確認する技術が開示されている。さらに、特許文献６及び非特許文献１には、誤変換箇所を効率的に探すために、過去の修正事例を活用する技術や、誤変換箇所を範囲指定する手間を省いて効率よく修正する技術が開示されている。

特開２００８−１０７６２４号公報特開２００８−００９６９３号公報特開２００６−２６７３１９号公報特開２００５−２２８１７８号公報特開２００５−１６５０６６号公報特開２０１１−００２６５６号公報

株式会社Ｏ−ＲＩＤＫＹＢＥＲ、" 手書きメモの高精度ＯＣＲクラウドサービス「ＫＹＢＥＲ」"、［online］、２０１１年９月２１日、ASCII.jp、平成２６年２月１３日検索日、インターネット（URL：http://ascii.jp/elem/000/000/635/635625/）

しかしながら、上述した特許文献１乃至６、及び非特許文献１の技術において、音声認識した文字列の修正は、音声と音声認識された文字列とを確認して、文字列が誤っていれば正しく修正するという作業の特性上、音声の確認から文字列との対比・修正までの作業が同一の作業者によって行われていた。このため、作業者に高いスキルが必要であり、作業時間も多く必要であった。即ち、作業者個人の能力に左右され、かつ、省力化が図りにくかった。結果として、音声の書き起こしにかかるコストを抑えることの妨げにもなっていた。

本発明は、音声の書き起こしに関して、作業性を向上させながらも品質を向上させ、かつ、作業時間の短縮を図ることを目的とする。

本発明者らは、上述した音声の確認から文字列との対比・修正までの作業が音声認識により誤変換した箇所を見つけるという作業と、誤変換箇所を修正する作業とに分けられることを見出した。音声認識により誤変換した箇所を見つけるという作業は、作業者の能力に左右されにくい単純な作業であり、単純な作業と、そうでない誤変換箇所を修正する作業とを同じ作業者が行っていたことによる以下のような弊害（１）乃至（４）があることも見出した。
弊害（１）誤変換箇所の見逃しや修正間違いの可能性があること。それを防ぐためには別途、校正する人が必要となること。
弊害（２）誤変換箇所を見つけるという単純な作業が、修正作業（タイピング）に割り込まれてしまうため、効率的ではないこと。
弊害（３）誤変換箇所を見つけるという単純な作業も、誤変換箇所を修正するというタイピング技能を要する作業者が行うためにコストに反映されてしまうこと。
弊害（４）音声は時系列データであるため、意味のある聞き取れる単位でないと確認が困難であるため、ＯＣＲ（画像認識）等による文字単位での文字認識結果のチェック方法をそのまま採用することはできない。
即ち、単純な作業と、そうでない単純でない作業とを一連の作業としてではなく別の作業として行わせることで、単純な作業での作業の効率化を図ることができ、さらに、単純でない作業が単純な作業と共に行われていたことによる作業精度の低下を回避することができ、単純な作業と単純でない作業との作業の特化によって、音声の書き起こし全体の作業精度の向上や作業時間の短縮を図ることができることを見出し、本発明を完成するに至った。

上記目的を達成するため、本発明の一態様の音声書起支援システムは、
音声データから、テキストデータに書き起こす音声書起支援システムにおいて、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成手段と、
前記生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第１の受付手段と、
前記第１の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付手段と、を備えることを特徴とする。

また、上記目的を達成するため、本発明の一態様の音声書起支援方法は、
音声データから、テキストデータに書き起こす音声書起支援システムで実行される音声書起支援方法において、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成ステップと、
前記生成ステップにより生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第１の受付ステップと、
前記第１の受付ステップにより受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付ステップと、
を含むことを特徴とする。

また、上記目的を達成するため、本発明の一態様のプログラムは、
音声データから、テキストデータに書き起こす音声書起支援システムを制御するコンピュータを、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成手段、
前記生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第１の受付手段、
前記第１の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付手段、
として機能させることを特徴とする。

また、上記目的を達成するため、本発明の一態様のサーバは、
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理手段と、
前記管理手段による管理の結果、更新されたデータを外部装置に出力する出力手段と、
を備えることを特徴とする。

また、上記目的を達成するため、本発明の一態様の管理方法は、
サーバで実行されるデータ管理方法であって、
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理ステップと、
前記管理ステップによる管理の結果、更新されたデータを外部装置に出力する出力ステップと、
を含むことを特徴とする。

また、上記目的を達成するため、本発明の一態様のプログラムは、
サーバを制御するコンピュータを、
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理手段、
前記管理手段による管理の結果、更新されたデータを外部装置に出力する出力手段、
として機能させることを特徴とする。

また、上記目的を達成するため、本発明の一態様の正誤判定装置は、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付手段と、
前記受付手段により受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力手段と、
を備えることを特徴とする。

また、上記目的を達成するため、本発明の一態様の正誤判定方法は、
正誤判定装置で実行される正誤判定方法であって、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付ステップと、
前記受付ステップにより受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力ステップと、
を含むことを特徴とする。

また、上記目的を達成するため、本発明の一態様のプログラムは、
正誤判定装置を制御するコンピュータを、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付手段、
前記受付手段により受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力手段、
として機能させることを特徴とする。

また、上記目的を達成するため、本発明の一態様の編集装置は、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第１の受付手段と、
前記第１の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付手段と、
を備えることを特徴とする。

また、上記目的を達成するため、本発明の一態様の編集方法は、
編集装置で実行される編集方法であって、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第１の受付ステップと、
前記第１の受付ステップにより受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付ステップと、
を含むことを特徴とする。

また、上記目的を達成するため、本発明の一態様のプログラムは、
編集装置を制御するコンピュータを、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第１の受付手段、
前記第１の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付手段、
として機能させることを特徴とする。

本発明によれば、音声の書き起こしに関して、作業性を向上させながらも品質を向上させ、かつ、作業時間の短縮を図ることができる。

本発明の一実施形態に係る音声書き起こしの手法の具体例を示す概念図である。本発明の一実施形態に係る音声書き起こしの手法の他の具体例を示す概念図である。日常会話１９２発話の認識精度別の頻度分布を示す図である。本発明の一実施形態に係る音声書起支援システムにおけるシステム構成を示すシステム構成図である。正誤判定を行うための操作画面を示す模式図である。編集を行うための操作画面を示す模式図である。復唱を行うための操作画面を示す模式図である。出力データを示す模式図である。音声書起支援システムのうち、サーバ装置のハードウェア構成を示すハードウェア構成図である。音声書起支援システムのうち、情報処理端末のハードウェア構成を示すハードウェア構成図である。図４の入稿納品サーバの機能的構成のうち、入稿納品処理を実行するための機能的構成を示す機能ブロック図である。図４の管理サーバの機能的構成のうち、データ管理処理を実行するための機能的構成を示す機能ブロック図である。図４の音声認識サーバの機能的構成のうち、音声認識データ生成処理を実行するための機能的構成を示す機能ブロック図である。図４の正誤判定端末の機能的構成のうち、正誤判定処理を実行するための機能的構成を示す機能ブロック図である。図４の編集端末の機能的構成のうち、編集処理を実行するための機能的構成を示す機能ブロック図である。図４の復唱端末の機能的構成のうち、復唱処理を実行するための機能的構成を示す機能ブロック図である。図４の全体校正端末の機能的構成のうち、全体校正処理を実行するための機能的構成を示す機能ブロック図である。図１１の機能的構成を有する図４の入稿納品サーバが実行する入稿納品処理の流れを説明するフローチャートである。図１２の機能的構成を有する図４の管理サーバが実行するデータ管理処理の流れを説明するフローチャートである。図１３の機能的構成を有する図４の音声認識サーバが実行するタグ付きテキストデータ生成処理の流れを説明するフローチャートである。図１４の機能的構成を有する図４の正誤判定端末が実行する正誤判定処理の流れを説明するフローチャートである。図１５の機能的構成を有する図４の編集端末が実行する編集処理の流れを説明するフローチャートである。図１６の機能的構成を有する図４の復唱端末が実行する復唱処理の流れを説明するフローチャートである。図１７の機能的構成を有する図４の全体校正端末が実行する全体校正処理の流れを説明するフローチャートである。

以下、本発明の実施形態について図面を用いて説明する。

＜音声書き起こしの手法＞
本実施形態の音声書き起こしの手法について説明する。
本実施形態の音声書き起こしの手法は、取得した音声データの音声認識をして文字列データを自動生成し、その後、音声認識結果が適切か否かの正誤判定を行い、当該正誤判定の結果に基づいて、文字列の修正・校正を行って、音声データに即した文字列データを生成することで行われる。

したがって、音声書き起こしの手法では、音声認識により自動生成された文字列データが適切か否かの確認・編集の行程においては、文字列データが適切か否かの正誤のみを判定する行程と、正誤の結果に基づいて、編集を行う行程とに分かれる。
これにより、音声書き起こしの手法では、編集を担当する者は、誤の判定がなされた部分のみを確認すればよいため、時間の短縮等の効果を得られる。
また、文字列データが適切か否かの正誤のみを判定する行程で、編集を行わずに、正誤のみの判定に特化させることで、確認の時間を短縮することができ、従来、多くの時間がかかり、かつ、特殊なスキルを要した行程での確認の担当者の負担軽減を行うことができ、軽作業化を図ることができる。
その結果、音声書き起こしの手法では、音声書き起こしに係る時間を大幅に短縮できると共に、音声に即した精度の高い書き起こしを実現することができる。

図１は、本発明の一実施形態に係る音声書き起こしの手法の具体例を示す概念図である。
具体的には、本実施形態の音声書き起こしの手法は、図１に示すように以下のような手順［１］乃至［８］で行われる。

手順［１］音声を音声認識し、その結果である発話単位で分割された音声とそれに対応する音声認識結果の文字列をペアのデータにして正誤判定者に送る。

手順［２］正誤判定者はそのデータの音声を再生して聞いて、音声認識結果の文字列が正しいかどうか判定（正誤判定）する。

手順［３］２名が２の作業を行って２名とも正しいという判断の場合はそこで終了する。データに完了フラグを付けて管理スペースに保管する。

手順［４］正誤判定の作業（手順［２］）の結果、１名以上が正しくないと判断した場合は編集作業（書き起こし）者に送る。

手順［５］編集作業者は送られてきた発話単位の音声を聞いてそれに対応する音声認識結果の文字列を編集し、もう一度、正誤判定作業者に送る。

手順［６］編集された文字列データに対し、正誤判定者が判定し、２名とも正しいという判断の場合はそこで終了する。その後、データに完了フラグを付けて管理スペースに保管する。なお、本例においては、正誤判定作業者を２名（複数）とするチェックの体制が組まれるように構成される。複数のチェックとすることで、正誤判定の精度を上げることができる。

手順［７］１名以上が正しくないと判断した場合は先とは別の編集作業者に送り、手順［５］以降の手順を繰り返す。

手順［８］編集作業が終了した文字列データに対し、校正作業者が校正を行う。校正が完了した文字列データは、納品物として納品される。

また、上述した図１の例では、第１正誤判定を経た後に、第２正誤判定を経るように直列的に正誤判定を行う。このように構成することで、第２正誤判定では第１正誤判定に基づくことになり、正誤判定の時間を削減することができるように構成する。

図２は、本発明の一実施形態に係る音声書き起こしの手法の他の具体例を示す概念図である。
図２の例では、第１正誤判定と第２正誤判定を並列的に行う。このように構成することで、正誤判定の箇所が重複してコストはかかるが、個別の正誤判定の結果を得られるために、正誤判定作業者の並列化による時間短縮ができ、より軽作業化を計ることができるように構成する。

＜音声書き起こしの手法を採用した場合の効果＞
以上のような音声書き起こしの手法を実現することで、以下のような効果（１）乃至（７）を奏することができる。

効果（１）正誤判定を専任者が行うため、誤変換箇所の見逃しが少ないこと。また、２名の正誤判定者を置くことでより見逃しが少なくなる。さらに、編集後も正誤判定するため、編集間違いの可能性が少ないこと。

効果（２）誤変換箇所を見つけるという単純な作業と、編集作業は完全に別の作業者が行うため、同じ作業を集中して行え、効率化を図ることができること。

効果（３）誤変換箇所を見つけるという単純な作業は、特別なスキルが必要ないためコストの安い作業者が行い、編集能力やタイピング技能等を持つ作業者は誤変換箇所を編集入力するという作業に集中できるため、全体的にコストが削減できること。

効果（４）編集作業者は、正誤判定で正と判断された発話は編集対象外となり、音声再生をして確認をする必要がないため、作業時間が削減される。音声認識精度が向上すればするほど、この削減効果は大きくなること。

また、効果（４）については、次のような実験データに基づいた裏付けがなされている。例えば、日常会話の合計１９２発話を録音し音声認識した結果は、平均音声認識精度は７６．６％であったが、そのうち正誤判定で正とされた発話（正しく変換された発話）は７２発話（全体の約３８％）にも上るという実験結果が得られている。即ち、１９２発話中７２発話は正誤判定で正と判断されるため、編集作業対象から外される。音声認識の特性として、まんべんなく誤変換の文字が全ての発話に現れるのではなく、誤変換された場合は続く言葉も誤変換する可能性が高いので誤変換の文字が連続することが多い。誤変換発生箇所には集中の偏りがあるため、その分、全て正しく変換される発話が増加する。
したがって、本方法は音声認識の特性を生かした方法であることがいえる。参考情報として、日常会話の認識精度別の頻度分布を図３に示す。なお、図３は、日常会話１９２発話の認識精度別の頻度分布を示す図である。

ここでの音声認識精度は文字認識精度と呼ばれているもので、以下の式（１）で計算される。
文字認識率＝（（正解＃）−（誤挿入＃）−（誤削除＃）−（誤置換＃））／（正解＃）・・・（１）
なお、「＃」は文字数を示すものである。

（認識精度の計算例）
正解：用紙に去年払った医療費を書いて
結果：要旨見きわめ払った医療費書いて（下線は誤変換箇所を示す。）
ＳＳＳＳＳＩＤ
正解文字数（Ｒ）：１５文字
誤挿入文字数（Ｉ）：１文字
誤削除文字数（Ｄ）：１文字
誤置換文字数（Ｓ）：５文字
したがって、上記の例では文字認識率は、式（１）に当てはめると、
（１５−１−１−５）／１５＝０．５３３＝５３．３％
となる。

効果（５）編集作業の後、その結果を正誤判定作業にフィードバックするため、編集作業者の品質チェック（ベリファイ）も行うことができるため、編集作業者の能力判定にそのデータを活用することができること。

効果（６）正誤判定者を設けることで全体校正の行程での作業が軽減される。これは、正誤判定者によりチェック済みであるため、例えば、表記レベルの編集間違いをチェックする作業は省略できることによること。

効果（７）正誤判定作業と編集作業を分業とすることにより、各作業の効率化を図ることができ、作業性や質が向上し、作業時間を短縮することができること。

＜音声書起支援システムのシステム構成＞
上述したような音声書き起こしの手法を実現することができる音声書起支援システムについて説明する。

図４は、本発明の一実施形態に係る音声書起支援システムＳにおけるシステム構成を示すシステム構成図である。
音声書起支援システムＳは、図４に示すように、入稿納品サーバ１と、管理サーバ２と、音声認識サーバ３と、正誤判定端末４と、編集端末５と、復唱端末６と、全体校正端末７と、を備える。

入稿納品サーバ１は、インターネットに接続され、音声データの受け付けと、作成した納品用データをインターネット上にアップロードすることで納品する。
また、入稿納品サーバ１は、管理サーバ２に受け付けた音声データを出力したり、管理サーバ２から納品用データを取得してインターネットからダウンロード可能にデータをアップロードしたりする。

管理サーバ２は、入稿納品サーバ１から音声データを取得すると共に、入稿納品サーバ１に対して作成した納品用データを出力する。
また、管理サーバ２は、音声認識サーバ３から音声データを音声認識して得たテキストデータを保持し、当該保持しているテキストデータが正誤判定端末４と、編集端末５と、復唱端末６と、全体校正端末７からリアルタイムに修正可能になるようにデータを管理する。

また、管理サーバ２では、編集されたデータに対して正誤判定において正しくないと判定された編集前テキストデータＡとその編集作業者名を記憶しておき、最終的に正しいと判定されたテキストデータＢと比較処理を行って、正解率を計算し、その編集作業者の能力判定結果をすることができる。なお、正解率の計算方法は、本実施形態においては、上述した文字認識精度の計算方法と同じに行う。

音声認識サーバ３は、管理サーバ２から音声データを取得し、取得した音声データを音声認識して、テキストデータを生成する。また、音声認識サーバ３は、生成したテキストデータを管理サーバ２に出力する。

また、音声認識サーバ３では、例えば、息継ぎ時の発話が途切れている箇所を、音量レベルがある閾値よりも小さくなったことを検知したり、雑音があって音量レベルだけでは判断できないときは周波数解析により音声ではないと判定したりすることで、発話の区切りとみなして発話区間を検出する。

正誤判定端末４は、管理サーバ２に保持されるテキストデータにおいて、テキストが音声と一致しているか否かの一致の有無をチェックする情報をユーザに提供する。また、正誤判定端末４は、ユーザのチェック結果を受け付けて、管理サーバ２に保持されるデータの変更指示を行う。

また、正誤判定端末４では、発話単位で再生される音声が出力される。ユーザは、それに対応して表示される変換文字を見て、音声認識結果の文字列が正しいかどうか判定することになる。

また、正誤判定端末４では、検出された発話区間のみの音声を再生するので、発話区間以外は自動的にスキップする。このため、ユーザの音声を聞く時間を短縮できる。また、正誤判定端末４では、音声の再生速度を変える機能をもつので再生速度を上げることで音声を聞く時間を短縮することができ、聞き取りにくい発話は再生速度を遅くすることで正確に聞くことができ、判断時間を短縮することができる。

また、正誤判定端末４では、２名の正誤判定結果が何れも「正」であれば発話単位で分割された発話データに完了フラグを立て、管理サーバ２に保管する。１名以上が正しくないと判断したときは、編集端末５での編集の対象となる。

編集端末５は、管理サーバ２に保持されるテキストデータにおいて、正誤判定端末４のチェック結果を利用して、テキストデータをユーザにより編集する操作を受け付ける。また、編集端末５は、受け付けた編集結果を受け付けて、管理サーバ２に保持されるデータの変更指示を行う。

また、編集端末５では、発話単位で音声を出力する。音声を聞いた編集作業者がそれに対応して表示される変換文字の誤変換箇所を編集することになる。
また、編集端末５では、正誤判定端末４で正しくない（誤）と判定された発話のみの音声を出力し、正しいと判断された発話や発話していない区間は自動的にスキップする。このため、ユーザが音声を聞く時間を短縮できる。また、編集端末５では、音声の再生速度を変える機能をもつので再生速度を上げることで音声を聞く時間を短縮することができ、聞き取りにくい発話は再生速度を遅くすることで正確に聞くことができ、判断時間を短縮することができる。

復唱端末６は、音声データのうち、聞き取りが困難な箇所や音声認識できない箇所がある場合に、新たにユーザが復唱して読み上げた音声を取得する。また、復唱端末６は、取得した音声データを管理サーバ２に保持される音声データの該当箇所に差し替える指示を行う。

全体校正端末７は、正誤判定・編集の行程を経た文字列を、ユーザが表記揺れや体裁を整えて校正して納品用データに変更する操作を受け付ける。また、全体校正端末７は、管理サーバ２に保持されるテキストデータを納品用データに変更する指示を行う。

＜音声書起支援システムにおける各作業者の位置付け＞
正誤判定作業者は、正誤判定端末４を操作して、音声認識の結果で生成された文字列が適切であるかの正誤判定を発話単位で行い、当該正誤判定の結果を入力する作業者である。
編集作業者は、編集端末５を操作して、正誤判定作業者による正誤判定を経た文字列の編集を行い、当該編集結果を入力する作業者である。
復唱作業者は、復唱端末６を操作して、音声認識が行えない箇所や聞き取り困難な箇所がある場合に、音声に基づいて、復唱を行い、復唱した音声を入力する作業者である。
全体校正作業者は、全体校正端末７を操作して、編集作業を経た入稿データに対応する文字列群に対して、表記揺れ等の体裁を整えたりして校正を行い、当該校正結果を入力する作業者である。

＜正誤判定を行うための操作画面＞
図５は、正誤判定を行うための操作画面を示す模式図である。
正誤判定を行うための操作画面は、図５に示すように、音声波形エリアＲ１と、音声認識結果表示エリアＲ２と、編集エリアＲ３と、により構成される。

音声波形エリアＲ１は、画面の上部に設けられるエリアで、音声データを音声波形として表示する。表示される音声波形は、右に行くほど時間が進むように時系列に表示される。
また、音声波形の発話単位を音声波形の上部に設けられるバー（以下、「発話区間バー」という。）で音声波形に対応付けて表示している。発話区間バーによって、発話区間を認識でき、直感的に発話区間の長さを認識することができる。

音声認識結果表示エリアＲ２は、発話区間に対応して、時系列に、音声認識の結果が適切か否かを示すチェックの結果を示す正誤判定エリアＲ２１と、音声認識の結果を示す音声認識結果エリアＲ２２と、編集結果を示す編集結果エリアＲ２３からなる。

正誤判定エリアＲ２１は、正誤判定作業者の作業フィールドであり、対応する音声を聞いた上で、音声認識結果エリアの表示が適切であるか否かの正誤判定結果が選択的に入力作業を行う。正誤判定により、適切であるとされた場合には、「〇」を選択し、適切でないとされた場合には、「×」を選択する。
また、正誤判定エリアＲ２１の判定結果に基づいて、編集作業者は、対応する文字列の編集を行う。具体的な内容の評価を行わずに、適否のみをチェックする行程を加えることで、編集の時間を短縮すると共に、編集の精度を高めることができ、効率的に高品質な納品用データを作成することができる。

音声認識結果エリアＲ２２は、「話者名」と、「開始時刻」・「終了時刻」と、「認識結果」の項目を表示するエリアである。
「話者名」には、発話が誰によって行われたかの人物名等が表示される。「開始時刻」・「終了時刻」には、発話区間の開始と終了時刻が表示される。「認識結果」には、発話区間に対応した音声認識結果が表示される。

編集結果エリアＲ２３は、編集作業者により編集作業が行われた場合に、編集した文字列に対応して編集後の文字列が表示される。

編集エリアＲ３は、アクティブにした発話単位の箇所においての「編集結果」の項目の内容を編集可能に表示するエリアである。表示されたテキストを編集することで、対応する「編集結果」に編集結果が反映される。

このように構成される正誤判定を行うための操作画面では、正誤判定作業者は、まず、発話単位の認識結果を選択する。これにより、対応する音声波形と、発話区間バーの色が反転してアクティブとなった旨が表示される。そして、自動的に対応する発話音声が再生される。

次に、正誤判定作業者は、正誤判定結果の選択（〇×チェックを入力）を行う。その後、自動的に次の時間の発話が選択されて、発話音声が再生されることとなる。
この作業を順次繰り返して、正誤判定作業者による正誤判定が行われる。

＜編集を行うための操作画面＞
図６は、編集を行うための操作画面を示す模式図である。
編集を行うための操作画面は、図６に示すように、画面構成は図５の正誤判定を行うための操作画面と同様である。

編集を行うための操作画面では、編集作業者は、まず、発話単位の認識結果を選択する。これにより、対応する音声波形と、発話区間バーの色が反転してアクティブとなった旨が表示される。そして、自動的に対応する発話音声が再生される。

次に、編集作業者は、編集エリアＲ３に表示される文字列の誤変換箇所を正しい文字列に修正入力をして確定する。その後、「編集結果」に編集した文字列が表示される。その後、自動的に次の×の発話が選択されて、発話音声が再生されることとなる。
この作業を順次繰り返して、編集作業者による編集が行われる。

＜復唱を行うための操作画面＞
図７は、復唱を行うための操作画面を示す模式図である。
復唱を行うための操作画面は、図７に示すように、画面構成は図５の正誤判定を行うための操作画面と同様である。

復唱を行うための操作画面では、復唱作業者は、まず、発話単位の認識結果を選択する。これにより、対応する音声波形と、発話区間バーの色が反転してアクティブとなった旨が表示される。そして、自動的に対応する発話音声が再生される。

次に、復唱作業者は、復唱をして音声を入力する。その後、復唱して入力した音声の音声認識が行われて「認識結果」に新たな文字列が表示される。その後、自動的に次の×の発話が選択されて、発話音声が再生されることとなる。
この作業を順次繰り返して、復唱作業者による復唱が行われる。

＜全体校正を経た出力データ＞
図８は、出力データを示す模式図である。
全体校正を経た出力データは、図８に示すように、図５等の表示画面に表示されたデータのうち、話者と、発話単位の文字列からなるテキストデータである。発話単位の文字列は、発話単位に改行されて出力されるのではなく、文章毎に改行されて出力される。
具体的には、「話者：議長」「話者に対応する文字列：ただいまから本日の会議を開きます。」等が出力されることとなる。

＜音声書起支援システムのハードウェア構成（サーバ装置）＞
図９は、音声書起支援システムＳのうち、サーバ装置のハードウェア構成を示すハードウェア構成図である。サーバ装置は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）により構成される。

音声書起支援システムＳでは、図９に示すように、入稿納品サーバ１と、管理サーバ２と、音声認識サーバ３とが、サーバ装置として、同一のハードウェア構成となる。

サーバ装置１乃至３は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、バス１４と、入出力インターフェース１５と、入力部１６と、出力部１７と、記憶部１８と、通信部１９と、ドライブ２０と、を備えている。

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、又は、記憶部１８からＲＡＭ１３にロードされたプログラムに従って各種の処理を実行する。

ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３は、バス１４を介して相互に接続されている。このバス１４にはまた、入出力インターフェース１５も接続されている。入出力インターフェース１５には、入力部１６、出力部１７、記憶部１８、通信部１９及びドライブ２０が接続されている。

入力部１６は、各種釦等で構成され、ユーザの指示操作に応じて各種情報を入力する。

出力部１７は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。

記憶部１８は、ハードディスク或いはＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成され、各種画像のデータを記憶する。

通信部１９は、インターネットを含むネットワークを介して他の装置（図示せず）との間で行う通信を制御する。

ドライブ２０には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア３１が適宜装着される。ドライブ２０によってリムーバブルメディア３１から読み出されたプログラムは、必要に応じて記憶部１８にインストールされる。また、リムーバブルメディア３１は、記憶部１８に記憶されている画像のデータ等の各種データも、記憶部１８と同様に記憶することができる。

なお、以下において、入稿納品サーバ１と、管理サーバ２と、音声認識サーバ３としてハードウェア構成を個別に扱う場合には、符号の後に、入稿納品サーバ１のときには「−１」を付し、管理サーバ２のときには「−２」を付し、音声認識サーバ３ときには「−３」を付すものとする。

＜音声書起支援システムのハードウェア構成（情報処理端末）＞
図１０は、音声書起支援システムＳのうち、情報処理端末のハードウェア構成を示すハードウェア構成図である。情報処理端末は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）により構成される。

音声書起支援システムＳでは、図１０に示すように、正誤判定端末４と、編集端末５と、復唱端末６と、全体校正端末７とが、情報処理端末４乃至７として、同一のハードウェア構成となる。

以下、情報処理端末４乃至７において、サーバ装置１乃至３と同一のハードウェア構成の説明は省略する。即ち、情報処理端末４乃至７とサーバ装置１乃至３とは、ＣＰＵ１１乃至リムーバブルメディア３１において同一のハードウェア構成となるため説明は省略する。

音声入出力部２１は、例えば、マイクロフォンを備え、入力された音声をアナログ電気信号に変換する。なお、音声のアナログ信号は、Ａ／Ｄ変換処理が施されて、音声データを表すデジタル信号に変換される。このＡ／Ｄ変換処理の実行主体は、特に限定されず、ＣＰＵ１１であってもよいし、図示せぬ専用のハードウェアであってもよいが、本実施形態では説明の便宜上、音声入出力部２１であるものとする。即ち、本実施形態では、音声入出力部２１は、入力された音声に基づく音声データをＣＰＵ１１等に出力する。

また、音声入出力部２１は、例えばスピーカを備え、音声のアナログ信号を音声として出力する。なお、音声のアナログ信号は音声データを表すデジタル信号を基に生成されるが、音声データを表すデジタル信号を音声のアナログ信号に変換するＤ／Ａ変換処理の実行主体は、Ａ／Ｄ変換処理と同様に、ＣＰＵ１１、図示せぬ専用のハードウェア或いは音声入出力部２１の何れであってもよい。本実施形態では、Ａ／Ｄ変換処理と同様に、音声入出力部２１がＤ／Ａ変換処理を実行するものとする。

なお、以下において、正誤判定端末４と、編集端末５と、復唱端末６と、全体校正端末７としてハードウェア構成を個別に扱う場合には、符号の後に、正誤判定端末４のときには「−４」を付し、編集端末５のときには「−５」を付し、復唱端末６ときには「−６」を付し、全体校正端末７のときには「−７」を付すものとする。

＜音声書起支援システムの各種の機能構成＞
図１１は、図４の入稿納品サーバ１の機能的構成のうち、入稿納品処理を実行するための機能的構成を示す機能ブロック図である。

入稿納品処理が実行される場合には、ＣＰＵ１１−１において、通信制御部５１と、記憶制御部５２と、が機能する。
記憶部１８−２の一領域には、入稿データ記憶部７１と、納品データ記憶部７２と、が設けられる。

入稿データ記憶部７１には、例えば、会議の音声を録音した音声データからなる入稿データが記憶される。入稿データ記憶部７１は、外部からアクセス可能に構成され、インターネットを介して、外部から音声データのアップロードが可能に構成される。

納品データ記憶部７２には、音声データに基づいて作成された納品用データが記憶される。納品データ記憶部７２に記憶されたデータは、インターネット上に公開されて、外部からダウンロード可能な状態となる。

通信制御部５１は、外部装置や管理サーバ２との通信を行うように通信部１９−１を制御する。

記憶制御部５２は、外部からのアップロードや管理サーバ２からの要請により、各種データを記憶するように記憶部１８−１を制御する。

図１２は、図４の管理サーバ２の機能的構成のうち、データ管理処理を実行するための機能的構成を示す機能ブロック図である。

データ管理処理が実行される場合には、ＣＰＵ１１−２において、通信制御部９１と、記憶制御部９２と、データ管理部９３と、が機能する。
記憶部１８−２の一領域には、入稿データ記憶部１１１と、書き起こしデータ記憶部１１２と、が設けられる。

入稿データ記憶部１１１には、入稿データが記憶される。
書き起こしデータ記憶部１１２には、タグ付きテキストデータや編集データ等の書き起こしデータが記憶される。

通信制御部９１は、入稿納品サーバ１、音声認識サーバ３、各端末（正誤判定端末４・編集端末・復唱端末・全体校正端末）との通信を行うように通信部１９−１を制御する。

記憶制御部９２は、音声認識サーバ３や各端末（正誤判定端末４・編集端末・復唱端末・全体校正端末）の要請により各種データを記憶や更新をするように記憶部１８−２を制御する。

データ管理部９３は、記憶されたデータの管理を行う。具体的には、データ管理部９３は、編集データのリアルタイム更新に係るデータ管理や作業者の評価等のデータ管理を行う。

図１３は、図４の音声認識サーバ３の機能的構成のうち、タグ付きテキストデータ生成処理を実行するための機能的構成を示す機能ブロック図である。

音声認識データ生成処理が実行される場合には、ＣＰＵ１１−３において、通信制御部１３１と、発話区間検出部１３２と、音声認識処理部１３３と、タグ付きテキストデータ生成部１３４と、が機能する。

通信制御部１３１は、管理サーバ２との通信を行うように通信部１９−３を制御する。

発話区間検出部１３２は、例えば、息継ぎ時の発話が途切れている箇所を、音量レベルがある閾値よりも小さくなったことを検知したり、雑音があって音量レベルだけでは判断できないときは周波数解析により音声ではないと判定したりすることで、発話の区切りとみなして発話区間を検出する。

音声認識処理部１３３は、検出された発話区間毎に、音声認識の処理を実行し、テキストデータを生成する。

タグ付きテキストデータ生成部１３４は、テキストデータに話者や発話区間毎の時刻を対応付けて、タグ付きテキストデータを生成する。

図１４は、図４の正誤判定端末４の機能的構成のうち、正誤判定処理を実行するための機能的構成を示す機能ブロック図である。

正誤判定処理が実行される場合には、ＣＰＵ１１−４において、入力検出部１５１と、表示制御部１５２と、音声出力制御部１５３と、が機能する。

入力検出部１５１は、入力部１６−４からの入力操作を検出する。
表示制御部１５２は、管理サーバ２から編集データを表示するように出力部１７−４を制御する。
音声出力制御部１５３は、音声データを出力するように音声入出力部２１−４を制御する。

図１５は、図４の編集端末５の機能的構成のうち、編集処理を実行するための機能的構成を示す機能ブロック図である。

編集処理が実行される場合には、ＣＰＵ１１−５において、入力検出部１７１と、表示制御部１７２と、音声出力制御部１７３と、が機能する。

入力検出部１７１は、入力部１６−５からの入力操作を検出する。
表示制御部１７２は、管理サーバ２から編集データを表示するように出力部１７−５を制御する。
音声出力制御部１７３は、音声データを出力するように音声入出力部２１−５を制御する。

図１６は、図４の復唱端末６の機能的構成のうち、復唱処理を実行するための機能的構成を示す機能ブロック図である。

復唱処理が実行される場合には、ＣＰＵ１１−６において、入力検出部１９１と、表示制御部１９２と、音声出力制御部１９３と、音声入力制御部１９４と、が機能する。

入力検出部１９１は、入力部１６−６からの入力操作を検出する。
表示制御部１９２は、管理サーバ２から編集データを表示するように出力部１７−６を制御する。
音声出力制御部１９３は、音声データを出力するように音声入出力部２１−６を制御する。
音声入力制御部１９４は、音声データを入力するように音声入出力部２１−６を制御する。

図１７は、図４の全体校正端末７の機能的構成のうち、全体校正処理を実行するための機能的構成を示す機能ブロック図である。

全体校正処理が実行される場合には、ＣＰＵ１１−７において、入力検出部２１１と、表示制御部２１２と、が機能する。

入力検出部２１１は、入力部１６−７からの入力操作を検出する。
表示制御部２１２は、管理サーバ２から編集データを表示するように出力部１７−７を制御する。

＜音声書起支援システムの各処理の動作＞
図１８は、図１１の機能的構成を有する図４の入稿納品サーバ１が実行する入稿納品処理の流れを説明するフローチャートである。
入稿納品処理は、ユーザによる入力部１６−１への入稿納品処理開始の操作により開始される。

ステップＳ１１において、通信制御部５１は、音声データのアップロードの要求があったか否かを判定する。
アップロードの要求がない場合には、ステップＳ１１においてＮＯと判定されて、待機状態となる。
アップロードの要求があった場合には、ステップＳ１１においてＹＥＳと判定されて、処理はステップＳ１２に進む。

ステップＳ１２において、記憶制御部５２は、音声データを記憶するように入稿データ記憶部７１を制御する。その結果、入稿データ記憶部７１に外部からアップロードされた音声データが記憶される。

ステップＳ１３において、通信制御部５１は、管理サーバ２に当該音声データを送信するように通信部１９−１を制御する。

ステップＳ１４において、通信制御部５１は、管理サーバ２から納品用データの受け付けがあったか否かを判定する。
納品用データの受け付けがない場合には、ステップＳ１４においてＮＯと判定されて、待機状態となる。
納品用データの受け付けがあった場合には、ステップＳ１４においてＹＥＳと判定されて、処理はステップＳ１５に進む。

ステップＳ１５において、記憶制御部５２は、納品用データを記憶するように納品データ記憶部７２を制御する。その結果、納品データ記憶部７２に外部からダウンロード可能な状態で納品用データが記憶される。外部からダウンロード可能な状態となることで、納品用データの納品状態となる。
その後、入稿納品処理は、終了する。

図１９は、図１２の機能的構成を有する図４の管理サーバ２が実行するデータ管理処理の流れを説明するフローチャートである。
データ管理処理は、ユーザによる入力部１６−２へのデータ管理処理開始の操作により開始される。

ステップＳ３１において、通信制御部９１は、入稿データを入稿納品サーバ１から受信したか否かを判定する。
入稿データを受信していない場合には、ステップＳ３１においてＮＯと判定されて、待機状態となる。
入稿データを受信した場合には、ステップＳ３１においてＹＥＳと判定されて、処理はステップＳ３２に進む。

ステップＳ３２において、記憶制御部９２は、入稿データを記憶させるように入稿データ記憶部１１１を制御する。その結果、入稿データ記憶部１１１に入稿データが記憶される。

ステップＳ３３において、通信制御部９１は、入稿データを音声認識サーバ３に送信するように通信部１９−２を制御する。

ステップＳ３４において、通信制御部９１は、音声認識サーバ３からタグ付きテキストデータを受信したか否かを判定する。
文字変換データを受信していない場合には、ステップＳ３４においてＮＯと判定されて、待機状態となる。
文字変換データを受信した場合には、ステップＳ３４においてＹＥＳと判定されて、処理はステップＳ３５に進む。

ステップＳ３５において、記憶制御部９２は、タグ付きテキストデータを記憶させるように書き起こししデータ記憶部１１２を制御する。その結果、書き起こしデータ記憶部１１２に文字変換データを記憶される。

ステップＳ３６において、データ管理部９３は、各端末４乃至７から編集データの更新があったか否かを判定する。詳細には、データ管理部９３は、各端末４乃至７から編集データの更新要請を受け取ったか否かを判定する。
編集データの更新がない場合には、ステップＳ３６においてＮＯと判定されて、待機状態となる。
編集データの更新があった場合には、ステップＳ３６においてＹＥＳと判定されて、処理はステップＳ３７に進む。

ステップＳ３７において、記憶制御部９２は、編集データを更新させるように書き起こししデータ記憶部１１２を制御する。その結果、書き起こしデータ記憶部１１２の編集データが更新される。

ステップＳ３８において、通信制御部９１は、納品用データを全体校正端末７から受信したか否かを判定する。
納品用データを受信していない場合には、ステップＳ３８においてＮＯと判定されて、待機状態となる。
納品用データを受信した場合には、ステップＳ３８においてＹＥＳと判定されて、処理はステップＳ３９に進む。

ステップＳ３９において、記憶制御部９２は、納品用データを記憶させるように書き起こししデータ記憶部１１２を制御する。その結果、書き起こしデータ記憶部１１２に納品用データを記憶される。

ステップＳ４０において、データ管理部９３は、作業者の評価等の管理データに変更があったか否かを判定する。
管理データに変更がない場合には、ステップＳ４０においてＮＯと判定されて、待機状態となる。
管理データに変更があった場合には、ステップＳ４０においてＹＥＳと判定されて、処理はステップＳ４１に進む。

ステップＳ４１において、通信制御部９１は、入稿納品サーバ１に納品用データを送信するように通信部１９−２を制御する。その結果、納品用データが入稿納品サーバ１に送信される。
その後、データ管理処理は、終了する。

図２０は、図１３の機能的構成を有する図４の音声認識サーバ３が実行するタグ付きテキストデータ生成処理の流れを説明するフローチャートである。
タグ付きテキストデータ生成処理は、ユーザによる入力部１６−３へのタグ付きテキストデータ生成処理開始の操作により開始される。

ステップＳ６１において、通信制御部１３１は、入稿データを管理サーバ２から受信したか否かを判定する。
入稿データを受信していない場合には、ステップＳ６１においてＮＯと判定されて、待機状態となる。
入稿データを受信した場合には、ステップＳ６１においてＹＥＳと判定されて、処理はステップＳ６２に進む。

ステップＳ６２において、発話区間検出部１３２は、発話区間を検出する。

ステップＳ６３において、音声認識処理部１３３は、検出された発話区間毎に、音声認識の処理を実行する。その結果、テキストデータが生成される。

ステップＳ６４において、タグ付きテキストデータ生成部１３４は、テキストデータに話者や発話区間毎の時刻を対応付けて、タグ付きテキストデータを生成する。

ステップＳ６５において、通信制御部１３１は、管理サーバ２にタグ付きテキストデータを送信するように通信部１９−３を制御する。その結果、タグ付きテキストデータが管理サーバ２に送信される。
その後、文字認識処理は、終了する。

図２１は、図１４の機能的構成を有する図４の正誤判定端末４が実行する正誤判定処理の流れを説明するフローチャートである。
正誤判定処理は、ユーザによる入力部１６−４への正誤判定処理開始の操作により開始される。

ステップＳ８１において、表示制御部１５２は、編集データを表示するように出力部１７−５を制御する。その結果、出力部１７−４には、図５に示すような編集画面が表示される。なお、編集データは、管理サーバ２から随時取得して表示し、編集データの更新があった際にも即座に表示を更新することで各端末での作業がリアルタイムに表示される（以下、他の処理においても同じ）。

ステップＳ８２において、入力検出部１５１は、音声出力の操作があったか否かを判定する。
音声出力の操作がない場合には、ステップＳ８２においてＮＯと判定されて、待機状態となる。
音声出力の操作あった場合には、ステップＳ８２においてＹＥＳと判定されて、処理はステップＳ８３に進む。

ステップＳ８３において、音声出力制御部１５３は、対応する音声を出力するように音声入出力部２１−４を制御する。

ステップＳ８４において、入力検出部１５１は、正誤判定の操作があったか否かを判定する。
正誤判定の操作がない場合には、ステップＳ８４においてＮＯと判定されて、待機状態となる。
正誤判定の操作あった場合には、ステップＳ８４においてＹＥＳと判定されて、処理はステップＳ８５に進む。操作あったことを受けて、操作結果を編集データに反映する要求を管理サーバ２に対して行う（以下、他の端末での処理においても同じ。）。

ステップＳ８５において、表示制御部１５２は、編集データを更新表示するように出力部１７−４を制御する。

ステップＳ８６において、入力検出部１５１は、入力操作が終了したか否かを判定する。
入力操作が終了していない場合には、ステップＳ８６においてＮＯと判定されて、処理はステップＳ８２に戻る。
入力操作が終了した場合には、ステップＳ８６においてＹＥＳと判定されて、正誤判定処理は、終了する。

図２２は、図１５の機能的構成を有する図４の編集端末５が実行する編集処理の流れを説明するフローチャートである。
編集処理は、ユーザによる入力部１６−５への編集処理開始の操作により開始される。

ステップＳ１０１において、表示制御部１７２は、編集データを表示するように出力部１７−６を制御する。その結果、出力部１７−５には、図６に示すような編集画面が表示される。

ステップＳ１０２において、入力検出部１７１は、音声出力の操作があったか否かを判定する。
音声出力の操作がない場合には、ステップＳ１０２においてＮＯと判定されて、待機状態となる。
音声出力の操作あった場合には、ステップＳ１０２においてＹＥＳと判定されて、処理はステップＳ１０３に進む。

ステップＳ１０３において、音声出力制御部１７３は、対応する音声を出力するように音声入出力部２１−５を制御する。

ステップＳ１０４において、入力検出部１７１は、編集入力の操作があったか否かを判定する。
編集入力の操作がない場合には、ステップＳ１０４においてＮＯと判定されて、待機状態となる。
編集入力の操作あった場合には、ステップＳ１０４においてＹＥＳと判定されて、処理はステップＳ１０５に進む。

ステップＳ１０５において、表示制御部１７２は、編集データを更新表示するように出力部１７−５を制御する。

ステップＳ１０６において、入力検出部１７１は、入力操作が終了したか否かを判定する。
入力操作が終了していない場合には、ステップＳ１０６においてＮＯと判定されて、処理はステップＳ１０２に戻る。
入力操作が終了した場合には、ステップＳ１０６においてＹＥＳと判定されて、編集処理は、終了する。

図２３は、図１６の機能的構成を有する図４の復唱端末６が実行する復唱処理の流れを説明するフローチャートである。
復唱処理は、ユーザによる入力部１６−６への復唱処理開始の操作により開始される。

ステップＳ１２１において、表示制御部１９２は、編集データを表示するように出力部１７−６を制御する。その結果、出力部１７−６には、図７に示すような編集画面が表示される。

ステップＳ１２２において、入力検出部１９１は、音声出力の操作があったか否かを判定する。
音声出力の操作がない場合には、ステップＳ１２２においてＮＯと判定されて、待機状態となる。
音声出力の操作あった場合には、ステップＳ１２２においてＹＥＳと判定されて、処理はステップＳ１２３に進む。

ステップＳ１２３において、音声出力制御部１９３は、対応する音声を出力するように音声入出力部２１−６を制御する。

ステップＳ１２４において、音声出力制御部１９３は、ユーザからの音声を入力するように音声入出力部２１−６を制御する。

ステップＳ１２５において、表示制御部１９２は、編集データを更新表示するように出力部１７−６を制御する。

ステップＳ１２６において、入力検出部１９１は、入力操作が終了したか否かを判定する。
入力操作が終了していない場合には、ステップＳ１２６においてＮＯと判定されて、処理はステップＳ１２２に戻る。
入力操作が終了した場合には、ステップＳ１２６においてＹＥＳと判定されて、復唱処理は、終了する。

図２４は、図１７の機能的構成を有する図４の全体校正端末７が実行する全体校正処理の流れを説明するフローチャートである。
全体校正処理は、ユーザによる入力部１６−７への全体校正処理開始の操作により開始される。

ステップＳ１４１において、表示制御部２１２は、編集データを表示するように出力部１７−６を制御する。

ステップＳ１４２において、入力検出部２１１は、全体校正の操作があったか否かを判定する。
全体校正の操作がない場合には、ステップＳ１４２においてＮＯと判定されて、待機状態となる。
全体校正の操作あった場合には、ステップＳ１４２においてＹＥＳと判定されて、処理はステップＳ１４３に進む。

ステップＳ１４３において、表示制御部２１２は、編集データを更新表示するように出力部１７−７を制御する。その後、編集データを図８に示すような出力データを納品用データとして出力する。

ステップＳ１４４において、入力検出部２１１は、入力操作が終了したか否かを判定する。
入力操作が終了していない場合には、ステップＳ１４４においてＮＯと判定されて、処理はステップＳ１４２に戻る。
入力操作が終了した場合には、ステップＳ１４４においてＹＥＳと判定されて、全体校正処理は、終了する。

＜変形例＞
上述した実施形態を、雑音等で音声認識が困難な音声は復唱者が明瞭な発話で復唱（リスピーク）して音声認識するように構成し、正誤判定の結果が誤［×］である比率が、所定の割合よりも高ければ、音声認識が困難な音声であると判断し、その音声全体を自動的に復唱すべき音声と判定するように構成してもよい。

また、上述した実施形態を、正誤判定で誤［×］の発話を編集端末５の編集作業ではなく、復唱端末６の復唱作業に送って、復唱して音声認識するように構成してもよい。その場合、復唱するだけなのでキーボード入力の遅い作業者であればより早く編集ができるようになる。

また、上述した実施形態を、修正作業の能力が高ければ（作業品質が高ければ）、編集作業（書き起こし）の後、その結果を正誤判定作業にフィードバックしないように構成してもよい。

また、上述した実施形態を、正誤判定で誤［×］である発話を編集した結果、必ず或いは一定の高い比率である単語が含まれていた場合、その単語は音声認識の辞書に登録されていない可能性が高いので、自動的に音声認識の辞書に登録するように構成してもよい。それにより、自動的に音声認識精度を向上させることができる。

また、上述した実施形態を、正誤判定で誤［×］である発話を修正した結果、必ず或いは一定の高い比率である文字列Ａが決まった文字列Ｂに誤変換されていた場合、文字列Ｂを自動的に文字列Ａに置換することで自動修正を行うように構成してもよい。

以上説明したように、本実施形態に係る音声書起支援システムＳは、音声データから、テキストデータに書き起こすシステムであり、音声認識処理部１３３と、入力検出部１５１と、入力検出部１７１と、を備える。
音声認識処理部１３３は、音声データを入力して音声認識処理を行い、テキストデータを生成する。
入力検出部１５１テキストデータ生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける。
入力検出部１７１は、入力検出部１５１により受け付けられたテキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける。
これにより、音声書起支援システムＳにおいては、品質を低下させることなく作業性を向上させ、かつ、作業時間の短縮を図ることができる。

また、音声書起支援システムＳは、音声データを出力する音声入出力部２１を備える。
入力検出部１５１は、音声入出力部２１からの出力に基づいた正誤判定を受け付ける。
これにより、音声書起支援システムＳでは、音声とそれに対応する音声認識結果の文字列をペアにし、正誤判定作業者が音声認識結果の文字列が正しいかどうか判定するため、精度の高い正誤判定を行うことができる。

また、音声認識処理部１３３は、発話単位でテキストデータを生成する。
入力検出部１５１は、正誤判定を発話単位で受け付ける。
これにより、音声書起支援システムＳでは、発話の所定の単位で正誤判定を行うため、正誤判定をより単純化でき、作業負担を軽減すると共に、精度の高い正誤判定を行うことができる。

また、音声認識処理部１３３は、音声データのうち、話者の息継ぎ単位を発話単位とする。なお、発話単位で分割するための方法として、息継ぎの箇所を検出する。息継ぎ箇所の検出は、例えば、無音がある一定時間経過した場合に息継ぎと判断する。この場合の無音とは発話者の音声がない状態である。一般的には周囲に雑音がある場合でも、音声信号のパワーや発話の周波数成分を分析することで音声か雑音化の判別が可能となる。
これにより、音声書起支援システムＳでは、話者の息継ぎ単位を発話単位としているため、正誤判定作業者は、自己の感覚と一致させやすくなる。このため、違和感のある作業とならずに、精度の高い正誤判定を行うことができる。

また、入力検出部１５１は、複数の正誤判定を受け付ける。
入力検出部１７１は、入力検出部１５１により受け付けた全ての正誤判定が音声データに即していないと判定された場合に、テキストデータの編集を受け付ける。
これにより、音声書起支援システムＳでは、複数の正誤判定を受け付けることで、正誤判定が音声データに即していないと判定されたもののみ、編集作業を行うために、編集作業者の作業負担を軽減することができる。

また、入力検出部１５１は、直列的又は並列的に判定された正誤判定を受け付ける。
これにより、音声書起支援システムＳでは、複数の正誤判定であるため判定精度が高いものであると共に、直列的に正誤判定を受け付けた場合には、前者が「誤」の判定をした場合に、後者の正誤判定をスキップすることができるため、後者の作業負担を軽減することができより判定精度が高くすることができると共に、並列的に正誤判定を受け付けた場合には、正誤判定の箇所が重複してコストはかかるが、個別の正誤判定の結果を得られるために、時間短縮ができ、より軽作業化を計ることができる。

また、入力検出部１５１は、入力検出部１７１が受け付けた編集の結果に基づいた再度の正誤判定を受け付ける。
これにより、音声書起支援システムＳでは、品質の向上を図ることができる。

また、音声認識処理部１３３は、音声データを復唱した音声を、再度音声認識処理してテキストデータを再生成する。
これにより、音声書起支援システムＳでは、品質の向上を図ることができる。

また、音声書起支援システムＳは、手段の各々は、個別の装置又は、重複して同一の装置に設けられる。
これにより、音声書起支援システムＳでは、同時並行的に複数の作業を行うことができる。

また、音声書起支援システムＳは、テキストデータ及び音声データの更新がリアルタイムにシステム全体に反映される。
これにより、音声書起支援システムＳでは、即時性の高い作業を行うことができる。

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。

上述の実施形態では、音声出力の操作をもって、音声を出力させるように構成していたが、これに限られず、自動で音声出力するように構成することができる。
具体的には、ステップＳ８２のような音声出力の操作の検出処理を省略して自動で音声出力するステップに変更することができる。

また、上述の実施形態では、正誤判定の操作や編集入力の操作がなかった場合には、単に待機状態となるように構成したが、これに限られず、待機状態のとき、再度確認のために音声出力させたい（聞き直したい）場合を想定して、再度の音声出力の操作も受け付けるように構成することができる。
具体的には、ステップＳ８４（又はステップＳ１０４）においてＮＯと判定された場合に、処理がステップＳ８２（又はステップＳ１０２）に戻るように構成してもよい。

上述の実施形態では、情報処理端末４乃至７は、据え置き型のＰＣを想定して説明したがこれに限られず、タブレット端末や携帯端末等の端末で構成してもよい。

また、上述の実施形態では、サーバ装置１乃至３、情報処理端末４乃至７を異なる装置で構成するように説明したが、同一の装置で構成したり、一部が同一となるように装置で構成したりするようにしてもよい。

また、上述の実施形態では、本発明が適用されるサーバ装置及び情報処理端末として、ＰＣを例として説明したが、特にこれに限定されない。
例えば、本発明は、音声入力を受け付け可能な電子機器一般に適用することができる。具体的には、本発明は、携帯型ナビゲーション装置、携帯電話機、ポータブルゲーム、デジタルカメラ、プリンタ、テレビジョン受像機、ビデオカメラ等に適用可能である。

上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図１１乃至図１７の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が音声書起支援システムＳの各サーバ１乃至３・各端末４乃至７に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図１１乃至図１７の例に限定されない。
また、１つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。

このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図２のリムーバブルメディア３１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア３１は、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等により構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図９及び図１０のＲＯＭ１２や、図９及び図１０の記憶部１８に含まれるＤＲＡＭ等で構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。

１・・・入稿納品サーバ，２・・・管理サーバ，３・・・音声認識サーバ，４・・・正誤判定端末，５・・・編集端末，６・・・復唱端末，７・・・全体校正端末，１１・・・ＣＰＵ，１２・・・ＲＯＭ，１３・・・ＲＡＭ，１４・・・バス，１５・・・入出力インターフェース，１６・・・入力部，１７・・・出力部，１８・・・記憶部，１９・・・通信部，２０・・・ドライブ，２１・・・音声入出力部，３１・・・リムーバブルメディア，５１・・・通信制御部，５２・・・記憶制御部，７１・・・入稿データ記憶部，７２・・・納品データ記憶部，９１・・・通信制御部，９２・・・記憶制御部，９３・・・データ管理部，１１１・・・入稿データ記憶部，１１２・・・書き起こしデータ記憶部，１３１・・・通信制御部，１３２・・・発話区間検出部，１３３・・・音声認識処理部，１３４・・・タグ付きテキストデータ生成部，１５１・・・入力検出部１５１・・・表示制御部，１５３・・・音声出力制御部，１７１・・・入力検出部１７１・・・表示制御部，１７３・・・音声出力制御部，１９１・・・入力検出部１９１・・・表示制御部，１９３・・・音声出力制御部，１９４・・・音声入力制御部，２１１・・・入力検出部２１１・・・表示制御部，Ｓ・・・音声書起支援システム

Claims

音声データから、テキストデータに書き起こす音声書起支援システムにおいて、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成手段と、
前記生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第１の受付手段と、
前記第１の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付手段と、を備えることを特徴とする音声書起支援システム。
音声データを出力する出力手段を備え、
前記第１の受付手段は、前記出力手段からの出力に基づいた前記正誤判定を受け付ける、
ことを特徴とする請求項１に記載の音声書起支援システム。
前記生成手段は、発話単位でテキストデータを生成し、
前記第１の受付手段は、前記正誤判定を前記発話単位で受け付ける、
ことを特徴とする請求項１又は２に記載の音声書起支援システム。
前記生成手段は、音声データのうち、話者の息継ぎ単位を発話単位とする、
ことを特徴とする請求項３に記載の音声書起支援システム。
前記第１の受付手段は、複数の正誤判定を受け付け、
前記第２の受付手段は、前記第１の受付手段により受け付けた全ての正誤判定が前記音声データに即していないと判定された場合に、前記テキストデータの編集を受け付ける、
ことを特徴とする請求項１乃至４の何れか１項に記載の音声書起支援システム。
前記第１の受付手段は、直列的又は並列的に判定された正誤判定を受け付ける、
ことを特徴とする請求項５に記載の音声書起支援システム。
前記第１の受付手段は、前記第２の受付手段が受け付けた編集の結果に基づいた再度の正誤判定を受け付ける、
ことを特徴とする請求項１乃至６の何れか１項に記載の音声書起支援システム。
前記生成手段は、前記音声データを復唱した音声を、再度音声認識処理してテキストデータを再生成する、
ことを特徴とする請求項１乃至７の何れか１項に記載の音声書起支援システム。
前記テキストデータ及び音声データの更新がリアルタイムにシステム全体に反映される、
ことを特徴とする請求項１乃至８の何れか１項に記載の音声書起支援システム。
手段の各々は、個別の装置又は、重複して同一の装置に設けられること、
を特徴とする請求項１乃至９の何れか１項に記載の音声書起支援システム。
音声データから、テキストデータに書き起こす音声書起支援システムで実行される音声書起支援方法において、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成ステップと、
前記生成ステップにより生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第１の受付ステップと、
前記第１の受付ステップにより受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付ステップと、
を含むことを特徴とする音声書起支援方法。
音声データから、テキストデータに書き起こす音声書起支援システムを制御するコンピュータを、
音声データを入力して音声認識処理を行い、テキストデータを生成する生成手段、
前記生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第１の受付手段、
前記第１の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付手段、
として機能させることを特徴とするプログラム。
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理手段と、
前記管理手段による管理の結果、更新されたデータを外部装置に出力する出力手段と、
を備えることを特徴とするサーバ。
サーバで実行されるデータ管理方法であって、
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理ステップと、
前記管理ステップによる管理の結果、更新されたデータを外部装置に出力する出力ステップと、
を含むことを特徴とする管理方法。
サーバを制御するコンピュータを、
音声データを入力して音声認識処理を行って生成されたテキストデータと、生成された前記テキストデータが音声データに即しているか否かの正誤判定の結果を受け付けたデータと、当該テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付けたデータとを一元的に管理する管理手段、
前記管理手段による管理の結果、更新されたデータを外部装置に出力する出力手段、
として機能させることを特徴とするプログラム。
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付手段と、
前記受付手段により受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力手段と、
を備えることを特徴とする正誤判定装置。
正誤判定装置で実行される正誤判定方法であって、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付ステップと、
前記受付ステップにより受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力ステップと、
を含むことを特徴とする正誤判定方法。
正誤判定装置を制御するコンピュータを、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける受付手段、
前記受付手段により受け付けられた前記正誤判定の結果を、当該テキストデータの編集用に出力する出力手段、
として機能させることを特徴とするプログラム。
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第１の受付手段と、
前記第１の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付手段と、
を備えることを特徴とする編集装置。
編集装置で実行される編集方法であって、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第１の受付ステップと、
前記第１の受付ステップにより受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付ステップと、
を含むことを特徴とする編集方法。
編集装置を制御するコンピュータを、
音声認識処理で生成されたテキストデータが音声データに即しているか否かの正誤判定の結果を受け付ける第１の受付手段、
前記第１の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、当該テキストデータの編集を受け付ける第２の受付手段、
として機能させることを特徴とするプログラム。