JP7231806B2

JP7231806B2 - 情報処理装置、情報処理システム、制御方法、およびプログラム

Info

Publication number: JP7231806B2
Application number: JP2018026120A
Authority: JP
Inventors: 敬己下郡山
Original assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Current assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Priority date: 2018-02-16
Filing date: 2018-02-16
Publication date: 2023-03-02
Anticipated expiration: 2038-02-16
Also published as: JP2019144310A

Description

本発明は、音声認識結果の誤り校正するための支援に関する技術であって、認識誤りのある文字列を校正する際に、重要な部分から校正するための優先度を提示して、最終的な結果を目にする読者の情報保障の精度を高める技術に関する。

従来から、人間の発話を文字列に変換する音声認識の研究開発が行われていた。実際の応用として、テレビ放送に字幕をつける、ろう者が他者の発話を理解する、などの目的で使用されてきた。

特に近年、機械学習の進展などもあり実用的な認識精度が実現されるようになってきている。とはいえ、まだ十分な認識精度が達成されているわけではなく、特に発話者の話し方にも注意する必要がある。例えばマイクと口との距離、発話の明確さなどにより認識精度は大きく変わる。

そのため、音声認識結果の文字列をパソコン上などで正しく修正するためのソフトウェアも実現されている。

もともと“パソコン要約筆記”として、発話者の発話を聞きパソコンに入力してろう者に提供するサービスがあったが、音声認識技術を利用したソフトウェアの出現により入力する人の作業を支援することが可能になってきている。

それらのソフトウェアは、一般的には発話が途切れたタイミングなどで区切って、音声認識結果（文字列）もその区切りの単位で時系列に画面に表示する。それらの文字列をパソコン要約筆記として訓練をされた校正者が修正することになる。

しかしながら通常、発話は認識結果を修正する作業、すなわち情報処理装置におけるキーボード入力作業よりも高速であるため、修正作業を行う校正者の負担は、まだ十分に軽減されてはいない。

特許文献１は、音声認識の誤認識を正しく修正する校正者の作業を支援する音声認識結果編集装置を提供している。

特許文献１の技術では、マイクから入力された発話を音声認識部により単語毎に信頼度を付与された文字列に変換する。この際、最も信頼度の高い単語だけではなく所定の条件を満たす単語、例えば一定の値以上の確信度を持つ単語を文字列に変換し音声認識結果集合として含むため、校正者は複数の単語の正解候補から正しい認識結果を選択・修正することが出来る（特許文献１の段落００１３、図８）。

特開２０１７－０４０８５６号公報

しかしながら１つの発話には複数の単語が含まれるため、特許文献１の技術では、単語の数が多いときには認識結果は膨大な数になり表示装置に分かりやすく表示することが困難になる。特に前記パソコン要約筆記の場合、文脈から判断して分かりやすく修正していくため、修正中の発話より前の発話の文字列も確認することがあるが、その領域がない可能性もある。すなわち単に認識結果の候補を表示するだけでは校正者にとって効率的な支援とはならない場合がある。

また校正者の数が足りない場合には、全ての音声認識誤りを修正不可能な場合もある。この場合には修正する部分を優先的に判断する必要があるが、特許文献１に記載の技術では、修正しないまま一定時間が経過してしまった音声認識結果は、その重要度にかかわらず修正しない（特許文献１の段落００２２、図５に記載のタイムアウト処理）と判断するだけであり、重要な情報であっても一定時間が経過すれば破棄、または未修正のまま表示されるという問題がある。

また、全ての発話に対応する文字列が校正者によって修正されることが理想ではあるが、現実には不可能な場合もある。不可能な場合には適切な優先順位をつけて校正者に修正させることで、修正結果を見る人（例えばろう者）に可能な限り分かりやすい情報を提供することが必要である。

本発明の目的は、前記の問題に鑑み、連続する音声データから区分された音声データの認識結果である一連のテキストデータに対し、校正すべき優先順位を示す情報を表示してユーザに効率的に修正させるための技術を提供することである。

連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第１確信度を取得する情報処理装置であって、前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御手段と、前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段とを備え、前記出力制御手段は、前記一連のテキストデータに含まれる文字データが所定の品詞であるかに基づいて調整される前記第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする。

本発明により、前記の問題に鑑み、連続する音声データから区分された音声データの認識結果である一連のテキストデータに対し、校正すべき優先順位を示す情報を表示してユーザに効率的に修正させるための技術を提供することが可能となる。

本発明の実施形態に係るシステム構成の一例を示す図である。本発明の実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。本発明の実施形態に係る機能構成の一例を示す図である。本発明の実施形態に係る音声認識結果を表示する画面の一例を示す図である。本発明の実施形態に係る音声人入力から校正の配布までの処理の一例を示す図である。本発明の実施形態に係る認識結果と認識結果の確信度のデータ形式の一例を示す図である。本発明の実施形態に係る音声認識結果の解析と校正のための優先順位付けまでの処理を説明するフローチャートの一例を示す図である。本発明の実施形態に係る校正のための優先順位付けの処理を説明するフローチャートの一例を示す図である。本発明の実施形態に係る優先順位の処理に用いる情報を記憶する記憶部の一例を示すための図である。本発明の実施形態に係る音声認識結果の確信度を再計算した結果の一例を示すための図である。本発明の実施形態に係る音声認識結果を表示するユーザインタフェースの一例を示すための図である。

以下、本発明の実施の形態を、図面を参照して詳細に説明する。
図１は、本発明の実施形態に係るシステム構成の一例を示す図である。
＜システム構成例１＞

本発明の実施形態に拘わるシステムは、音声認識サーバ１０１、情報処理端末１０２（発話者用１０２ａ、校正者用１０２ｂ、読者用１０２ｃとする）で構成される。ユーザは情報処理端末１０２ａに接続されたマイク１０４で音声を入力する。情報処理端末１０２ａは、前記音声を音声認識サーバ１０１に送信して文字列に変換し情報処理端末１０２ａ～ｃに送り、情報処理端末１０２ａ～ｃで表示、ユーザに提示する。すなわち、情報処理端末１０２ａ～ｃは、音声の入力と文字列の出力の入出力双方を兼ね備えていてもよい。ここで出力される情報処理端末１０２においては、後述する読者用１０２ｃと校正者用１０２ｂが兼ねられていてもよいし、またそれぞれ専用の情報処理端末であってもよい。また出力は情報処理端末１０２に接続された表示装置上に対して行うが、プロジェクタなどを用いた構成も、本発明の実施形態に拘わるシステム構成とする。プロジェクタを使う場合であれば、情報処理端末１０２は発話者用の一台のみで、当該情報処理端末１０２ａに接続したプロジェクタからスクリーンに表示した音声認識結果の文字列を読者全員が読んでもよい。その場合、発話者用の前記情報処理端末１０２ａで直接、発話者自身あるいは別のユーザが校正者として誤認識を校正してもよい。

さらに音声認識サーバ１０１は、クラウド上に存在するものであってもよく、その場合には、本システムのユーザは後述する音声認識サーバ１０１上の機能を、クラウドサービスする形態であってもよい。これらのサービスを利用する形態であっても、本発明の実施形態に拘わるシステム構成とする。
＜システム構成例２＞

構成例１で説明した情報処理端末１０２ａ～ｃは、入出力を兼ね備えていたが、入力専用、出力専用と分かれていてもよい。
＜システム構成例３＞

音声認識サーバ１０１と情報処理端末１０２ａ～ｃは同一筐体であってもよい。すなわち、図１における情報処理端末１０２ａ～ｃのうちの１つに音声認識可能なソフトウェアがインストールされていて、音声認識サーバ１０１を兼ねていてもよい。

図２は、本発明の実施形態に係る音声認識サーバ１０１、情報処理端末１０２ａ～ｃに適用可能なハードウェア構成の一例を示すブロック図である。

図２に示すように、音声認識サーバ１０１、情報処理端末１０２ａ～ｃは、システムバス２０４を介してＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０３、入力コントローラ２０５、ビデオコントローラ２０６、メモリコントローラ２０７、通信Ｉ／Ｆコントローラ２０８等が接続された構成を採る。ＣＰＵ２０１は、システムバス２０４に接続される各デバイスやコントローラを統括的に制御する。

また、ＲＯＭ２０３あるいは外部メモリ２１１には、ＣＰＵ２０１の制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や、各サーバあるいは各ＰＣが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。

ＲＡＭ２０２は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０３あるいは外部メモリ２１１からＲＡＭ２０２にロードし、ロードしたプログラムを実行することで各種動作を実現する。

また、入力コントローラ２０５は、キーボード（ＫＢ）２０９や不図示のマウス等のポインティングデバイス等からの入力を制御する。

ビデオコントローラ２０６は、ディスプレイ２１０等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。

メモリコントローラ２０７は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置（ハードディスク（ＨＤ））や、フレキシブルディスク（ＦＤ）、あるいは、ＰＣＭＣＩＡ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒＭｅｍｏｒｙＣａｒｄＩｎｔｅｒｎａｔｉｏｎａｌＡｓｓｏｃｉａｔｉｏｎ）カードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等の外部メモリ２１１へのアクセスを制御する。

通信Ｉ／Ｆコントローラ２０８は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）を用いた通信等が可能である。

尚、ＣＰＵ２０１は、例えばＲＡＭ２０２内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ２１０上に表示することが可能である。また、ＣＰＵ２０１は、ディスプレイ２１０上のマウスカーソル（図示しない）等によるユーザ指示を可能とする。

本発明を実現するための後述する各種プログラムは、外部メモリ２１１に記録されており、必要に応じてＲＡＭ２０２にロードされることによりＣＰＵ２０１によって実行されるものである。
図３は、本発明の実施形態に係る機能構成の一例を示す図である。

なお、情報処理端末１０２は、発話者用１０２ａ、校正者用１０２ｂ、読者用１０３ｂの機能をそれぞれ別々の端末に持っても、共通した端末で持ってもよいので、ここではそれぞれを区別せずに説明する。

音声取得部３１１は、情報処理端末１０２が内蔵している、あるいは接続されたマイクなどから話者の音声による発話を音声データとして入力し、音声データ送信部３１２により音声認識サーバ１０１に送信する。

音声認識サーバ１０１は、音声データ受信部３２１で受信した音声データを音声認識部３２２に渡して音声データを文字列に変換し、当該文字列を認識結果送信部３２３により情報処理端末１０２に認識結果として送り返す。また、前述の認識結果を認識結果管理部３２４により認識結果記憶部３２０に格納する。

情報処理端末１０２は、前記文字列を認識結果受信部３１３にて受信し、表示部３１４により表示することで読者（情報処理端末１０２のユーザ）に提示する。

優先順位決定部３２５は、情報処理端末１０２を用いて音声認識の誤りを校正するための校正者が、優先的に校正すべき文字列を識別可能とするため認識結果記憶部３２０に格納された認識結果に優先順位を付与する。

優先順位付けされた文字列は、情報処理端末１０２に送信され、情報処理端末１０２の表示部３１４によって前記の通り校正者が校正すべき優先順位を識別可能に表示する。認識結果校正部３１５は、校正者が文字列を編集することで、認識結果の誤りを校正するための機能を提供する。

前記校正結果は、情報処理端末１０２の校正結果送信部３１６により、音声認識サーバ１０１に送信され、音声認識サーバ１０１の校正結果受信部３２６が受信し、認識結果記憶部３２０に格納されている認識結果を更新する。

前記更新された認識結果は、校正結果配布部３２７により、校正者が校正するために使用した情報処理端末１０２以外の情報処理端末１０２にも配布され、読者が校正結果を見ることが出来るように提示される。
図４は、本発明の実施形態に係る音声認識結果を表示する画面の一例を示す図である。

発話例４００は、会議や講演会などにおける発話者の発話例である。発話者は1人に特定する必要はなく、例えば会議であれば議長以外にも発言の可能性があり、また講演会などにおいては講演者の他に司会者や質問者などの発話があってもよい。

発話例４００においては、Ａ～Ｋに区分されているが、これらは発話者の発話の区切りである。例えば、発話に一定時間の空白（無音の状態）があった場合などを示している。

これに対して、音声認識結果表示画面４０１においても前記Ａ～Ｋに対応して区切られているが（複数の表示枠４０４Ａ～Ｋ）、これらは音声認識サーバ１０１の音声認識部３２２が前記無音の状態を認識するなどして認識結果の文字列を区切るものである。これらを区切った状態で認識結果記憶部３２０に格納し、また、情報処理端末１０２の表示部３１４が、読者に分かりやすく区切って表示するものである。これは例であって、必ずしも４０４を区切らなくてもよく、設計事項に過ぎない。あくまで後述する校正のための優先順位が認識可能に表示されていればよい。

開始ボタン４０２は、発話を音声認識サーバ１０１にて認識させる際に押下するものである。システム構成図（図１）に複数の情報処理端末１０２とそれらに接続したマイクの図を記しているが、いずれの情報処理端末１０２に接続しているマイクに向かって発話しているかを指定するためのものである。１つの情報処理端末１０２だけに発話を入力可能としてもよいし、複数の情報処理端末１０２に同時に発話を入力してもよく、システムの設計によるものである。また、開始ボタン４０２に対応して発話を入力していない旨を情報処理端末１０２に通知するための終了ボタン４０３があってもよい。

前記４０４Ａ～Ｋのうち４０４Ａ～Ｊは前記の“一定時間の空白（無音の状態）”が過ぎた状態を示している。一方で、４０４Ｋは認識結果の出力継続中として、まだ音声認識部３２２が発言者の発話が継続していると判定している状態である。図においては、発話の一部が既に認識済みであるとして、当該一部を表示しているが、区切りが出現した後で、その発言の音声認識結果をまとめて表示してもよい。

図５は、本発明の実施形態に係る音声人入力から校正の配布までの処理の一例を示す図である。図５のフローチャートの各ステップは、音声認識サーバ１０１上のＣＰＵ２０１、および、情報処理端末１０２ａ～ｃ上のＣＰＵ２０１で実行される。

ステップＳ５０１においては、情報処理端末１０２ａに接続されたマイクなどを通して発話者の発話を受け付け、音声データに変換する。

ステップＳ５０２においては、情報処理端末１０２ａは、前記音声データを音声認識サーバ１０１に送信し、ステップＳ５０３により音声認識サーバ１０１にて受信する。

ステップＳ５０４においては、音声認識サーバ１０１は、前記音声データにおける発話者の発話を音声認識により文字列に変換する。認識結果の文字列は、前述のとおり発話単位で区切られているが、さらに例えば形態素などの言語的単位で識別可能に区切られている。音声認識の結果には文字列だけではなく、その認識結果を音声認識部３２２がどの程度の確率で正しいと推定しているか確信度が付与されている。また、形態素などの言語的単位で分割されている場合には、各々の形態素に確信度と詳細の品詞がタグとして付与されていてもよい。形態素解析による品詞づけについては図１０で例をあげて説明するが、いわゆる学校で習う学校文法は“固有名詞”などおおざっぱであるが情報処理においては、例えば固有名詞を“人名”、“地名”などと細かく分類する場合がある。形態素解析、音声認識については周知の技術であり詳細な説明は割愛する。

ステップＳ５０５においては、音声認識サーバ１０１は、ステップＳ５０４における変換結果の文字列を情報処理端末１０２に送信する。システム内に複数の情報処理端末１０２が接続されている場合には、発話を入力した情報処理端末１０２ａのみではなく全ての情報処理端末１０２に前記文字列を送信する。発話者が使用し音声データを入力した情報処理端末１０２ａに対しても発話者自身が音声認識結果を確認するため送信してもよい。前記情報処理端末１０２においては、ステップＳ５０６において前記文字列を受信する。

ステップＳ５０７においては、音声認識サーバ１０１は、音声認識の結果を認識結果記憶部３２０に格納する。認識結果が格納される形式については図６を用いて詳細に説明する。

図６は、本発明の実施の形態にかかわる認識結果と認識結果の確信度のデータ形式の一例を示す図である。一例として認識結果が認識結果情報６００の構造に格納されているとして説明する。

６０１Ａ～Ｊは、図４の発話Ａ～Ｊに対応したデータである。前述したとおりの発話の区切りに対応し、音声認識部３２２の結果である文字列を認識文字列６０３に格納する。６０２Ａ～Ｊは、発話６０１Ａ～Ｊの各々に対応した確信度である。各々の認識結果は、認識文字列６０３の他に後述する形態素表記６０４と各々の形態素の認識結果の確信度６０５から構成される。

また形態素表記６０４の枠内の背景が濃いもの（６０６など）については図８～図１０を用いて後述するが、特に音声認識結果が誤認識されていると読者にとって分かりにくくなるため、優先的にどの部分を校正するかを判断するために使用する。

ステップＳ５０８においては、音声認識サーバ１０１は、発話が新しく入力され前述のステップＳ５０７までの処理で認識結果記憶部３２０に格納された１または複数のデータを管理する、校正の優先順位を決定する、などの管理を行う。すなわち図６の認識結果情報６００を管理する。これらの処理は図７、図８で詳細に説明する。

音声認識サーバ１０１における処理とは非同期に、校正者用の情報処理端末１０２ｂにおいては、ステップＳ５０６で受信した文字列を当該情報処理端末１０２ｂの表示装置にて校正者に提示し、ステップＳ５０９において、校正者の校正作業を受け付ける。校正者の校正作業とは、情報処理端末１０２ｂの表示装置に表示された、識別可能な優先順位に従いながら発話に対応する文字列の編集作業を行うことである。校正をしている状態の画面は図１１を用いて後述する。また、ステップＳ５０９において校正作業が始まった時点でその旨を音声認識サーバ１０１に通知し、認識結果記憶部３２０に格納されているデータの修正状態を“校正中”に変更する。

ステップＳ５１０においては、前述の校正が終了した結果の文字列を情報処理端末１０２ｂから送信し、ステップＳ５１１においては音声認識サーバ１０１がその結果を受信して、認識結果記憶部３２０に格納されているデータを更新する。その際に修正状態は“完了”、修正要否は“不要”に変更する。

ステップＳ５１２において音声認識サーバ１０１の校正結果配布部３２７は、校正が完了した文字列、すなわち音声認識での誤認識部分が校正された文字列を、情報処理端末１０２に送信する。

前記誤りを校正した校正者用の情報処理端末１０２ｂは、校正した時点ですでに正しい文字列が表示されているが、設計事項として当該情報処理端末１０２ｂ、すなわち自分自身にも正しい文字列を送信してもよい。また、図５のフローチャートでは校正が終了された文字列は、いったん音声認識サーバ１０１を経由して情報処理端末１０２に配布されているが、校正用の情報処理端末１０２ｂから直接、他の情報処理端末１０２に配布してもよい。この違いは設計事項に過ぎず、直接配布する場合も本願発明の請求項の範囲に含むものとする。

ステップＳ５１３においては、情報処理端末１０２は、校正された文字列を受信し、情報処理端末１０２の表示装置に既に表示されている“誤認識を含む文字列”を“校正された文字列”に置き換える。

なお図４の表示枠４０４Ａ～Ｋが発言ごとに別々の編集対象となっていてもよいし、合わせて一つの編集対象であってもよい。また同時に１つの表示枠４０４を複数の校正者が同時に校正しないように、１つの情報処理端末１０２ｂで構成中の表示枠４０４は、他の情報処理端末１０２ｂでは校正できないようになっていてもよい。また図４の一番下の表示枠４０４は、音声認識が区切れていない文字列の表示が継続しているため、校正できないようになっていてもよい。これらはあくまで設計事項である。

図７は、本発明の実施形態にかかわる音声認識結果の解析と校正のための優先順位付けまでの処理（図５のステップＳ５０８）を説明するフローチャートの一例を示す図である。図７のフローチャートの各ステップは、音声認識サーバ１０１上のＣＰＵ２０１で実行される。

ステップＳ７０１においては、新しい発話の音声データの認識結果が認識結果記憶部５２０に登録されたか否かをチェックする。具体的には図６の６０１Ｊまでが前回のチェックで存在したとして、次の６０１Ｋが新たに追加されたか否かをチェックする。登録された場合（“Ｙｅｓ”の場合）には、ステップＳ７０２に進む。登録されていない場合（“Ｎｏ”の場合）には、ステップＳ７０４に進む。

ステップＳ７０２においては、新たに追加された音声認識結果の文字列に対して形態素解析を行う。ステップＳ７０２の処理により図１０の例に示されているように文字列を区分して品詞が付与されることになる。これにより形態素列を生成する。ただし音声認識結果自体に形態素解析による品詞が付与されている場合にはステップＳ７０２は不要であり省略する。

ステップＳ７０３においては、前記形態素列から個体名を抽出する。個体名抽出の技術については、特開２００２－２８８１９０などにより周知の技術であるため詳細の説明は割愛する。

ステップＳ７０４においては、認識結果である文字列（たとえば図６の６０１Ａ～Ｊ）のうち、校正が未処理であるものに対して、校正すべき優先順位を設定する。詳細は図８、図９を用いて後述する。

ステップＳ７０５においては、音声認識システムの実行が継続している場合（“Ｙｅｓ”の場合）には、ステップＳ７０１に戻る。音声認識システムの実行が終了している（“Ｎｏ”の場合）には図７のフローチャートの処理を完了し、図５のフローチャートの処理に戻る。すなわち図５のステップＳ５０８を終わった状態に戻る。

図８は、本発明の実施形態にかかわる優先順位付けの処理（図７のステップＳ７０４）を説明するフローチャートの一例を示す図である。図８のフローチャートの各ステップは、音声認識サーバ１０１上のＣＰＵ２０１で実行される。

ステップＳ８０１からステップＳ８０８は、認識結果記憶部に格納されている結果、すなわち全発話音声データに基づき音声認識された結果（例えば図６の６０１Ａ～Ｊなら１０の発話データ）に対する繰り返し処理である。

ステップＳ８０２においては、１つの音声認識結果に着目する。具体的には前記６０１Ａ～Ｊの先頭から順にそのうちの１つに着目する。

ステップＳ８０３においては、着目中の音声認識結果の優先順位を判定する必要があるか否かを判定する。既に校正済みであるか否か、または図９の発話後経過条件９０１に記載されている条件を満たすか否か、により分岐する。この判定は、２種類の判定のＯＲ条件となっているため、いずれかの条件が満たされていれば“Ｙｅｓ”となり、ステップＳ８０４にすすむ。何れの条件も満たされていない場合には“Ｎｏ”となり、ステップＳ８０５に進む。

前記２つの条件のうち校正済みであるか否かついて、具体的に図１０（図６の一部の認識結果を例として認識状態を付与している）を用いて詳細に説明する。ある一区切りの発話を音声認識した後に最初に図８のフローチャート（即ち図７のステップＳ７０４）を実行する際には、当該発話の図１０の“修正要否”はまだ何も判断していないため記載がない空白状態であるため条件を満たさない（“Ｎｏ”）。既に校正済みの認識結果については、前記Ｓ５１０の説明にて、校正終了後に図１０の“修正要否”を“不要”としているため条件を満たす（“Ｙｅｓ”）。ただしこの部分は設計事項であり、一度校正終了した認識結果も優先順位をつけ直す対象としてもよい。その場合には、Ｓ５１０において“不要”とはしない。

また前記２つのうち発話後経過条件９０１を条件とする場合を説明する。この条件の意図は、発話が完了した後、時系列的に一定の期間が経過してしまっていると思われるものは、遡って校正しても有用ではないという判断をするためのものである。具体的に図９の９０１に記載している３つの例を用いて説明する。

発話後経過条件９０１は、発話されてから一定時間が経過した、ということをどのように判定するかという条件が記載されている。図９に記載の条件はあくまで例であり、これら３つの方法以外であっても時間経過を判定するいかなる方法であれば本願発明に含むものとする。例を1つずつ説明する。

例１は、図４の発話例４００におけるＡ～Ｊなど各発話において、その発話が完了した、と見なされる区切りからの実際の時間を測定するものである。例では、終了してから１８０秒以上経過したものは、校正を不要とする条件になっている。経過時間は図１０の例では“経過時間”フィールドに格納されている。

例２は、時間ではないが文字数でカウントするものであり、発話が完了した、と見なされ区切られた後、続く発話の文字が５００文字以上認識結果として提示されれば、その時点で校正不要とする。図６の６０３を用いて説明すると、６０３Ａの後に６０３Ｂ以降の文字数を合計して５００文字に達すれば、６０１Ａの発話の優先順位を計算せず校正不要となる。

例３は、読者からの見え方により判断するものである。音声認識結果の文字列は、読者の情報処理端末１０２の上では時間が経過するに従って、表示されなくなることが通常である。例えば図４、図１１の音声認識結果表示画面４０１は発話の区切りで上から時系列順に表示され、画面が一杯になると最新のものが最下行に追加され、そのため最上行のもの（最も古い発話を文字列化したもの）は、スクロールされて上方に消えていく、というユーザインタフェースが考えられる（例えば図１１の１１０１点線内の部分）。

異なる方法であって、時系列順ではなく、即ち新旧に拘わらず画面に残るもの／画面から消えていくものがある場合であっても、消えてしまったものの誤りを校正しても何れの読者も読むことが出来ないため無意味である。従って校正を不要としていくことが考えられる。

ここでは３つの例を挙げたが、これら以外の方法であってもよい。またこれらの組み合わせ条件（ＡＮＤ条件、ＯＲ条件）であってもよい。

ステップＳ８０４においては、校正を不要とするため図１０に格納されている情報の“修正要否”を“不要”とする。

ステップＳ８０５においては、校正のステータスにおける“修正要否”を校正する必要がある場合として“要”、“修正状態”をまだ校正されていないとして“未”とする。

ちなみに既に説明している通り、図５のステップＳ５０９において校正を開始した段階で、“修正状態”を“校正中”、校正が終了し校正結果が音声認識サーバ１０１に送信された段階でステップＳ５１１にて修正状態は“完了”、修正要否は“不要”に変更される。

次にステップＳ８０６においては、例えば図９の９０２に従って、確信度を再計算するか否かを判定する。９０２には例として３つの条件を記載しているがこの条件に限定されるものではない。

例えば９０２の例１では、着目中の音声認識結果に要確認品詞の形態素や個体名が含まれるかを判定する。例えば図１０のＢにおいては、“数詞”が含まれており、これが図９の９０３において要確認品詞として登録されている。一般に数詞あるいは数値を含む特定のパターンは、会社の売上げや契約上の金額、日付などになるため、誤りがあった場合に読者にとって重要な情報が保障されないことになる。また図１０のＥには個体名抽出の結果である数的表現（１００２）が含まれている。複数の形態素から校正される、特定の人物、組織、数的な表現を含む場合も誤りがないことを確認必要な個体名である（図９の９０４）。

９０２の２つめの例としては、音声認識結果の中に特に確信度が低い形態素が多く含まれている場合、３つめの例としては、発話全体の認識結果の確信度が低い場合を上げている。認識の確信度が低い場合には、誤認識された形態素が多く含まれている可能性が高く、従って個別に重要な情報がある例１とは異なる意味で校正の優先順位が高くなる。

形態素解析／個体名抽出などの処理と、９０２などに記載されている規則に従って、確信度を再計算するものである。確信度の再計算方法は、例として確信度再計算方法９０５に記載されている。すなわち前述の処理で重要な情報が含まれていれば認識結果の確信度を変更することで校正の優先順位を変更するものである。例えば、要確認品詞９０３に登録されている単語、個体名抽出条件９０４で指定された情報がある場合に、どのように確信度を再計算するかが記載されている（９０５の例１，例２）。

なお、ここに図８のフローチャート形態素解析の処理は記載していないが、音声認識結果自体が、形態素単位に分割されていることが多く、また品詞を音声認識結果の情報として含んでいてもよい。含んでいない場合には、形態素解析や他の方式（辞書を用いるなど）による品詞付けを別途行ってもよい。

個体名抽出についても同様である。本発明の実施の形態の一部として含んでいてもよいし、音声認識側で個体名抽出した結果を音声認識結果として含んでいるものの何れであってもよい。

ステップＳ８０７においては、発話が終わってからの時間によって構成の優先順位を変更するための計算を行う。ステップＳ８０３の判定および９０１の例１において、一定時間経過したものは校正不要としたが、ここではその一定時間が経過する前の認識結果に対する対応である。すなわち、例えば一定時間が経過していない（９０１の例１）、まだ画面内に表示されている（９０１の例３）認識結果であれば、校正が“不要”となる状態に近づいているものほど、校正のために残されたタイムリミットが少ないため優先順位を上げて校正させる必要がある。９０５の例３の式は時間が経過しているほどその認識結果の確信度を下げるものである。

ステップＳ８０９においては、前述で確信度を再計算した結果を受けて、校正が“要”であるものに対して、確信度でソートを行い、確信度が低いものほど優先的に校正するよう情報処理端末１０２の表示装置に提示するものである。

以上で図８のフローチャートによる処理の説明を完了する。ここでは確信度を一定のルールに応じて変更したが、必ずしも確信度を変更する必要はない。例えばどの程度“減点”したかを記憶する別の数値（マイナス・スコアなど）を用いてもよい。確信度を変更したのはあくまで例であり、設計事項である。

図８の処理をしたことによって、校正すべき優先順位が決定し、図１０においては、例えば認識結果のＥが優先順位１、認識結果のＩが優先順位２となった例を記載している。校正者はこの識別可能な情報に基づき、校正する優先順位を判断する。あるいは、優先順位が高いものからしか編集できないように制御してもよい。

図１１は、本発明の実施形態に係る音声認識結果を表示するユーザインタフェースの一例を示すための図である。本質的には図４と同じ図であるが、次の点が異なる。

１１０３ｅは、校正者のいずれかが、この認識結果を校正している旨を表す“中”（校正中）を表示している。また１１０３ｇ～１１０３ｊには優先順位１～４をしている。これにより校正者は校正すべき優先順位を識別可能となる。

また１１０３ｋは現在発話中の音声認識結果が途中まで認識されその結果が表示されているため“現”と表示されている。この表示枠は校正可能であっても、発話が区切れ次の１１０３ｌが表示されるまでは校正できないように制御されていてもよい。
以上で、図面を用いた本願発明に関する説明を完了する。

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。

以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

また、本発明におけるコンピュータプログラムは、図５、図７、図８に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は図５、図７、図８の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。なお、本発明におけるコンピュータプログラムは図５、図７、図８の各装置の処理方法ごとのコンピュータプログラムであってもよい。

以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。

この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。

コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＥＥＰＲＯＭ、シリコンディスク、ソリッドステートドライブ等を用いることができる。

また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

１０１音声認識サーバ
１０２情報処理端末
３２０認識結果記憶部
３２１音声データ受信部
３２２音声認識部
３２３認識結果送信部
３２４認識結果管理部
３２５優先順位決定部
３２６校正結果受信部
３２７校正結果配布部

Claims

連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第１確信度を取得する情報処理装置であって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備え、
前記出力制御手段は、前記一連のテキストデータに含まれる文字データが所定の品詞であるかに基づいて調整される前記第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする情報処理装置。
連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第１確信度を取得する情報処理装置であって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備え、
前記出力制御手段は、前記一連のテキストデータに含まれる文字データが個体名を示すかの判定に基づいて調整される前記第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする情報処理装置。
連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第１確信度を取得する情報処理装置であって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備え、
前記出力制御手段は、発話から経過した時間に基づいて前記一連のテキストデータの校正が不要である旨の情報を表示装置に表示させることを特徴とする情報処理装置。
前記一連のテキストデータとは、発話の区切りによって区分された音声データの認識により得られる少なくとも１つの文字データを含むテキストデータであることを特徴とする請求項１～３のいずれか１項に記載の情報処理装置。
連続する音声データから所定の条件で区分された一連の音声データの認識に基づくテキストデータと、前記一連のテキストデータの認識の確からしさを示す第１確信度を取得する情報処理装置と表示装置とを含む情報処理システムであって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を前記表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備え、
前記出力制御手段は、前記一連のテキストデータに含まれる文字データが所定の品詞であるかに基づいて調整される前記第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする情報処理システム。
連続する音声データから所定の条件で区分された一連の音声データの認識に基づくテキストデータと、前記一連のテキストデータの認識の確からしさを示す第１確信度を取得する情報処理装置と表示装置とを含む情報処理システムであって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を前記表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備え、
前記出力制御手段は、前記一連のテキストデータに含まれる文字データが個体名を示すかの判定に基づいて調整される前記第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする情報処理システム。
連続する音声データから所定の条件で区分された一連の音声データの認識に基づくテキストデータと、前記一連のテキストデータの認識の確からしさを示す第１確信度を取得する情報処理装置と表示装置とを含む情報処理システムであって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を前記表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備え、
前記出力制御手段は、発話から経過した時間に基づいて前記一連のテキストデータの校正が不要である旨の情報を表示装置に表示させることを特徴とする情報処理システム。
連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第１確信度を取得する情報処理装置の制御方法であって、
出力制御手段が、前記区分された音声データごとの前記一連のテキストデータに対し、
前記一連のテキストデータの第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御ステップと、
受付手段が、前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付ステップと
を備え、
前記出力制御ステップでは、前記一連のテキストデータに含まれる文字データが所定の品詞であるかに基づいて調整される前記第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする情報処理装置の制御方法。
連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第１確信度を取得する情報処理装置において実行可能なプログラムであって、
前記情報処理装置を、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
として機能させ、
前記出力制御手段は、前記一連のテキストデータに含まれる文字データが所定の品詞であるかに基づいて調整される前記第１確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とするプログラム。