JP4757599B2

JP4757599B2 - 音声認識システムと音声認識方法およびプログラム

Info

Publication number: JP4757599B2
Application number: JP2005299007A
Authority: JP
Inventors: 健太郎長友
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-10-13
Filing date: 2005-10-13
Publication date: 2011-08-24
Anticipated expiration: 2025-10-13
Also published as: US8214209B2; WO2007043566A1; US20090234648A1; JP2007108407A

Description

本発明は、音声認識技術に関し、特に、音声認識結果に基づき、一覧性の高い認識結果の出力を行う音声認識システム、方法およびコンピュータプログラムに関する。

従来の典型的な音声認識システムは、一般に、ある発話に対する音声認識結果と、別の発話に対する認識結果とは、まったく無関係のものと見做している。複数の発話に対する認識結果の表示になんらかの依存性を持たせることは、ほとんどない。その結果、個々の認識結果をただ羅列するだけのものとなっている。例えば特許文献１、特許文献２等に記載されたシステムでは、複数の発話の認識結果を一つのリストに一覧表示する機能を有するが、それぞれの発話に対する認識結果は、それぞれ自身で、完結してしまっている。

一方、音声認識は、常に完璧に動作するとは限らない。何らかの評価尺度によってより確実な認識結果を優先的に表示させる手法が、従来より用いられている。

評価尺度としては、
・認識結果の言語尤度や
・音響尤度、
・信頼度（非特許文献３参照）
などが用いられる。例えば、特許文献３は、評価尺度として正規化された尤度（「信頼度」という）が予め与えられたある閾値を越えた場合は出力し、そうでなければ認識結果を棄却する。

音声認識結果の表示に関する刊行物として、例えば特許文献４には、音声波形を表示し、音声部分の内容の少なくとも１部を表す文字列（認識結果の文字列を一部省略して表示する場合あり）を表示し、波形に含まれる音声部分の内容を目で確認可能としたシステムが開示されている。先頭と末尾の表示では、内容の傾向等は補足できない場合が多い（分野にもよるが、重要事項（名詞類で特定される）は、文頭、文末ではなくその間で発話される傾向がある）。また、話し言葉の音声に関しては、先頭には無意味語（例えば「えーと」、「ああ」、「はい」等）が出現することが多い。末尾では、特に話し言葉の音声の場合、厳密（正確）でなく、いい加減な発声が行われることが多い。例えば早口になる（「そうですね」→「そうすね」）。語尾を延ばす（「ですね」→「ですねええ」）。かかる場合、特許文献４等の手法では、有意な文字列を表示することができないことがある。

なお、画面表示の加工として、特許文献５には、画像中の重要箇所が判明している場合、全体で単純縮小した上に、全体の表示倍率よりも大きな表示倍率で重要箇所を重ねて表示する画像・映像加工表示方法が開示されている。

特開平１１−３３８４９４号公報特開平１１−１５０６０３号公報特開２００３−５０５９５号公報特開２００２−２９７１８８号公報特開２００４−３２６５５５号公報 T. Schaaf, T. Kemp: Confidence measures for spontaneous speech recognition, in Proc. ICASSP 1997, Vol. 2, pp. 875 ff, Munich, April 1997 Frank Wessel,Ralf Schluter,Kalus Macherey,ans Herman Ney,''Confidence Measures for Large Vocabulary Continuos Speech Recognition,''IEEE Trans. on Speech and Audio Processing. Vol 9, No. 3,March 2001 B. Rueber, "Obtaining confidence measures from sentence probabilities," in Proc. 5th Eur. Conf. Speech Communication Technology 1997, Rhodes, Greece, Sept. 1997, pp. 739-742. Tech. Rep. Interactive Systems Labs.," ILKD, Apr. 1996. T. Kemp and T. Schaaf, "Estimating confidence using word latices," in Proc. 5th Eur. Conf. Speech, Communication, Technology 1997, Rhodes, Greece, Sept. 1997, pp.827-830.

リアルタイムであれ、オフラインであれ、音声波形を時系列で入力して行われる音声認識処理の認識結果の全てを提示するのでなく、いわば、話の内容の全体的な傾向を俯瞰しながら、階層的に、局所的な傾向も提示可能としたシステムの提案、開発はなされていない。これが、本発明を完成させるにいたった動機である。以下説明する。本願発明者は、従来の音声認識システムが、下記記載の課題を有していることを知見した。

第１の課題は、複数の音声認識結果を俯瞰することによって得られる入力音声の全体的あるいは局所的な傾向をユーザに提示する効果的な枠組みが欠如している。

すなわち、個々の発話を離散的なものと捉え、あるまとまった時間内の認識結果をすべて俯瞰することを主な目的とした表示機能を実現することが望まれる。

第２の課題は、長時間にわたる連続音声認識を行った場合、音声認識結果をそのまま出力すると、限られた記憶領域や、画面（フレームバッファ）に収まりきらないことになる。

最低限必要な情報とそうでない情報を、音声認識結果から取捨選択する機能が具備されていないことによる。

従来の音声認識技術では、単語単位での音声認識が主流であり、この場合、認識結果をそのまま羅列しても、画面スペースは、十分であると考えられてきたためとも思料される。

第３の課題は、画面に表示される情報を取捨選択するために音声認識結果に対して閾値処理を施した場合、ある範囲を俯瞰する場合には十分な情報量が表示されていたとしても、より細かい範囲を俯瞰する場合には情報量が疎になりすぎる。

こうした閾値処理で用いられる閾値は静的に与えられたものであるか、あるいは画面表示ＵＩ（ユーザインタフェース）と連動していないため、俯瞰する範囲に最適化された取捨選択が行われないためである。

本発明の目的は、比較的長い入力音声データに含まれる複数の発話に対する音声認識結果を俯瞰することのできる音声認識システムと方法並びにプログラムを提供することにある。

本発明の他の目的は、俯瞰する入力音声データの範囲を容易に切り替えることのできる音声認識システムと方法並びにプログラムを提供することにある。

本発明のさらに他の目的は、表示する情報の取捨選択を行うことのできる音声認識システムと方法並びにプログラムを提供することにある。

本発明のさらに他の目的は、上記において、表示する情報の取捨選択を行うことのできる音声認識システムを提供することにある。

本発明の１つのアスペクト（側面）に係る音声認識システムは、音声データを入力する音声入力手段と、前記音声入力手段より入力された音声データを受け音声認識を行う音声認識手段と、前記音声認識手段で音声認識された認識結果に対して優先度を求める認識結果評価手段と、前記認識結果と前記優先度とを少なくとも記憶する記憶手段と、前記優先度に従い、前記認識結果の出力情報を整形する認識結果整形手段と、前記認識結果整形手段で整形された出力情報を出力する出力手段と、を含む。

本発明において、前記認識結果整形手段は、前記優先度に従い、前記認識結果の出力の有無、及び／又は、前記認識結果の出力形態を可変させるようにしてもよい。

本発明において、前記認識結果整形手段は、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記認識結果の省略形、出力サイズの大小、階調出力、吹き出し、アニメーション（明滅）、透過出力、重ね出力、出力速度のうちの少なくともいずれか１つを調整するようにしてもよい。

本発明において、前記認識結果評価手段は、前記音声認識手段で音声認識された前記認識結果及び／又は前記認識結果の部位に対して、優先度を求める。

本発明においては、前記認識結果評価手段は、認識された単語について導出された信頼度と、前記単語について予め規定されている重要度とに基づき、前記優先度を算出する。

本発明の他のアスペクトに係る再生装置においては、上記音声認識システムを備えた再生装置であって、前記音声入力手段は、音声データを記録した記録媒体に記録されている音声を再生して音声データを前記音声認識手段に出力し、記録媒体に記録されている音声の中から、前記所定の優先度に従い選択された認識結果が出力される。

本発明の他のアスペクトに係る装置は、音声データを入力して音声認識しテキストに変換する音声書き起こし装置であって、上記した本発明に係る音声認識システムを備えている。音声入力手段は、記録媒体に記録されている音声データを入力してもよいし、マイクロフォンから入力される音声データを入力して音声認識手段に供給するようにしてもよい。出力手段は、認識結果の出力情報をファイルとして出力、及び／又は、表示画面に出力してもよい。本発明の音声認識システムは、会議や議会等での議事録を閲覧する装置にも適用できる。

本発明の他のアスペクトに係る音声認識システムは、音声データを入力する音声入力手段と、前記音声入力手段より入力音声データを受け音声認識を行う音声認識手段と、前記音声認識手段で音声認識された認識結果及び／又は前記認識結果を構成する部位に対して、優先度を求める認識結果評価手段と、前記認識結果と前記優先度とを記憶する記憶手段と、前記優先度に従い、前記認識結果及び／又は前記認識結果の部位の表示／非表示を判定し出力イメージを作成する認識結果整形手段と、前記出力イメージを表示装置に出力する画面表示手段と、を備えている。

本発明において、出力の対象とすべき音声データの範囲、認識結果と認識結果の部位の範囲を設定する表示対象範囲設定手段をさらに備え、前記認識結果整形手段は、前記優先度と前記出力の設定範囲とに従い、前記認識結果及び／又は前記認識結果を構成する部位の表示／非表示を判定し、出力イメージを作成する構成としてもよい。

本発明において、前記記憶手段には、前記音声認識手段に入力された入力音声データが記憶され、前記出力イメージを参照して、入力音声データの再生を指定する音声再生指示手段と、前記音声再生指示手段による指定に基づき、前記記憶手段に記憶されている、入力音声データを再生する音声再生手段と、をさらに備えた構成としてもよい。

本発明において、前記認識結果評価手段は、前記音声認識手段における認識結果及び認識結果の各部位の音響尤度、言語尤度、事後確率による信頼度のうちの少なくとも１つを用いて、前記優先度を導出する構成としてもよい。

本発明において、前記認識結果評価手段は、前記音声認識手段における前記認識結果及び／又は認識結果の一部となり得る単語、単語連鎖に対して、予め規定されている重要度を用いて、前記優先度を導出する構成としてもよい。

本発明において、前記認識結果整形手段は、前記出力イメージの作成に際して、前記優先度が、予め定められた閾値を越える認識結果、及び／又は前記認識結果の部位を表示する構成としてもよい。

本発明において、前記認識結果整形手段は、出力イメージの作成に際して、優先度の高い認識結果または前記認識結果の部位から、順に表示し、表示装置における表示領域が不足した場合、残りの認識結果及び／又は前記認識結果の部位を、所定の記号で代替表示する構成としてもよい。

本発明において、前記認識結果整形手段は、出力イメージの作成に際して、前記優先度の相対的に高い認識結果及び／又は前記認識結果の部位から順に、前記認識結果及び／又は前記認識結果の部位が表示領域において占める領域が大きくなり、前記優先度が相対的に低い認識結果及び／又は前記認識結果の部位が表示領域において占める領域がより小さくなるように制御する構成としてもよい。

本発明の他のアスペクトに係る方法は、音声認識装置による音声の認識方法であって、
音声データを入力する工程と、
入力音声データを受け音声認識を行う工程と、
音声認識された認識結果及び／又は前記認識結果の部位に対して優先度を求める工程と、
前記優先度に従い、前記認識結果及び／又は前記認識結果の部位の出力情報を整形する工程と、
前記整形された出力情報を出力する工程と、
を含む。

本発明に係る方法において、前記優先度に従い、前記認識結果の出力の有無、及び／又は、前記認識結果の出力形態を可変させるようにしてもよい。本発明に係る方法において、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記認識結果の省略形、前記認識結果の出力サイズの大小、グレイ（階調）出力、吹き出し、アニメーション（明滅）、透過出力(透過度の制御)、重ね出力、出力速度のうちの少なくともいずれか１つを調整するようにしてもよい。本発明に係る方法において、音声認識された単語について信頼度を導出し、前記信頼度と、前記単語に関する重要度とに基づき、前記優先度を算出するようにしてもよい。

本発明に係る方法において、前記優先度に従い、前記認識結果及び／又は前記認識結果の部位の表示／非表示を判定し出力イメージを作成する工程と、
表示画面に、前記作成された出力イメージを出力する工程と、
を含む。

本発明に係る方法において、出力の対象とすべき音声データの範囲と、前記認識結果及び／又は前記認識結果の部位の範囲を設定する工程を含み、
前記出力イメージを作成する工程は、優先度と前記出力の設定範囲とに従い、前記認識結果及び／又は前記認識結果の部位の表示／非表示を判定し出力イメージを作成するようにしてもよい。

本発明に係る方法において、前記出力イメージを参照して入力音声データの再生を指定する工程と、
前記指定に基づき音声データを再生する工程と、
を含むようにしてもよい。

本発明に係るコンピュータプログラムは、音声認識処理を行うコンピュータに、
音声データを入力する処理と、
入力した音声データの音声認識を行う処理と、
前記音声認識処理による認識結果及び／又は前記認識結果の部位に対して優先度を求める処理と、
前記優先度に従い、前記認識結果及び／又は前記認識結果の部位の出力情報を整形する処理と、
前記整形された出力情報を出力装置に出力する処理と、
を実行させるプログラムよりなる。

本発明に係るコンピュータプログラムにおいて、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記認識結果の省略形、前記認識結果の出力サイズの大小、グレイ（階調）出力、吹き出し、アニメーション（明滅）、透過出力(透過度の制御)、重ね出力、出力速度のうちの少なくともいずれか１つを調整するようにしてもよい。本発明に係るコンピュータプログラムにおいて、音声認識された単語について信頼度を導出し、前記信頼度と、前記単語に関する重要度とに基づき、前記優先度を算出するようにしてもよい。

本発明に係るコンピュータプログラムにおいて、出力の対象とすべき音声データの範囲、認識結果と認識結果の部位の範囲を設定する処理と、
前記優先度と前記出力の設定範囲とに従い、前記認識結果及び／又は前記認識結果の部位の表示／非表示を判定し出力イメージを作成する処理と、
を前記コンピュータに実行させるプログラムよりなる。

本発明に係るサーバ装置は、上記音声認識システムを備えたサーバ装置よりなる。

本発明によれば、比較的長い入力音声データに含まれる複数の発話に対する音声認識結果を俯瞰することを可能としている。本発明を、例えば記録音声の再生等に用いた場合に、記録内容の概要を俯瞰できるため、有効である。

その理由は、出力画面と表示対象の音声データの範囲とから、俯瞰可能なように表示内容が調整されるためである。

本発明によれば、表示対象となる音声データの範囲を切り替えた際に、その表示範囲に適した情報量が常に出力されることである。その理由は、出力画面の大きさに応じて、取捨選択の振る舞いが切り替えられるためである。

本発明によれば、何らかの方法で認識結果を取捨選択することにより、より重要な音声認識結果を素早く見つけだすことが可能になることである。

上記した本発明についてさらに詳細に説述すべく添付図面を参照してこれを説明する。はじめに本発明の概要を説明しておく。本発明は、音声入力手段（図１の１１０）と、出力手段（図１の１６０）と、音声認識手段（図１の１２０）と、認識結果評価手段（図１の１４０）と、認識結果整形手段（図１の１５０）とを備え、音声入力手段（１１０）から入力された音声に対して音声認識手段（１２０）によって音声認識処理を施し、その結果を、認識結果整形手段（１５０）によって適当な出力情報に整形（変換）したのち、出力手段（１６０）によってユーザに表示する。

認識結果整形手段（１５０）は、表示すべき音声データのすべてまたは指定された一部を俯瞰できるように、音声認識結果の出力を整形する。優先度の低い情報は削除ないし読み取りにくくし、逆に優先度の高い情報は残しておいて、読み取りやすいように表示する。

さらに、本発明の別の実施形態においては、表示対象範囲設定手段（図２の１７０）を備えることで、表示すべき音声データの範囲を切り替えることができるようにする。

この時、認識結果整形手段（図２の１５０）は、指示された表示範囲と画面表示手段の大きさを参考に、表示する情報の取捨選択処理の振る舞いを変えるようにする。

このような構成を採用することで、複数の発話に対する認識結果を画面上で俯瞰することが可能となり、また、特に重要な部位を容易に読み取ることができ、さらにその部位の詳細表示へと素早く画面を切り替えることによって、上記課題を達成することができる。これによって、単独の認識結果の羅列では見えてこないような全体的な傾向を観察できるようになる。これによって、まず全体を俯瞰した後、特徴のある特定の部位を発見し、その詳細を表示するという作業が容易に行えるようになる。以下実施例に即して説明する。

図１を参照すると、本発明の第１の実施例は、プログラム制御により動作するコンピュータ１００は、音声入力手段１１０と、音声認識手段１２０と、認識結果を記憶する記憶手段１３０と、認識結果評価手段１４０と、認識結果整形手段１５０と、出力手段１６０とを備えている。これらはそれぞれ概略つぎのように動作する。

音声入力手段１１０は、マイクロフォンや電話回線、コンピュータネットワーク、あるいは、波形ファイル等から音声波形データを取得し、これを音声認識手段１２０に転送する。

音声認識手段１２０は、音声入力手段１１０から入力された音声波形データに対して音声認識処理を行う。その結果として、認識候補単語列（以下、「認識結果」という）と、尤度、信頼度等を得る。これらは、記憶手段１３０に送られる。

記憶手段１３０は、
・音声認識手段１２０に入力された波形、
・音声認識手段１２０から受け取った認識結果、
・認識結果の各部位に対する尤度、信頼度、および重要度、
等を保持し、認識結果評価手段１４０と認識結果整形手段１５０からの指示に基づいて、これらに必要な情報を受け渡す。

認識結果評価手段１４０は、記憶手段１３０から与えられた情報と、予め与えられたタスクの優先度リストから、音声認識結果の各部位の優先度を評価し、結果を記憶手段１３０に保管する。

本実施例で用いられる優先度について説明する。特に制限されないが、本発明において、ある単語wの優先度PRIORITY(w)は、以下の式（１）から求める。

PRIORITY(w) = f(CONFIDENCE(w), IMPORTANCE(w)) …（１）

ここで、
CONFIDENCE(w)は、単語wの認識結果における信頼度である。
IMPORTANCE(w)は、単語wの重要度である。
f(x,y)は、信頼度と重要度を混合する演算である。

信頼度とは、その単語の認識結果としての正しさを示す尺度である。認識結果の中でもより正しい（と考えられる）単語を優先することで、誤認識に煩わされる可能性を減じることができる。

また、特に、発話において意味のある部分は比較的丁寧に発話されると期待できるが、丁寧な発話の信頼度はおおむね高くなる。

重要度は、各々の単語に事前に付与される値である。この重要度は、音声認識アプリケーションのドメインや目的に応じて設定される。重要度を利用すると、音声認識結果を参照する際に、特に注視すべき単語を優先することで、より効率的に認識結果から情報を探し出すことが可能となる。なお、本実施例において、重要度は、認識結果評価手段１４０で算出してもよいし、予め単語に対応して重要度を記憶手段１３０に記憶保持し、認識結果評価手段１４０で単語の優先度を算出する際に参照するようにしてもよい。重要度を記憶手段１３０に記憶しておく場合、単語と重要度の情報を、アプリケーションやドメインに応じて辞書として、リムーバブルな記憶媒体等に記憶しておき、これを目的に応じて記憶手段１３０に格納するようにしてもよい。あるいは、ネットワークから、重要度情報をダウンロードして記憶手段１３０に格納するようにしてもよい。

上式（１）において、混合演算fとしては、
（Ａ）適当な係数を用いた線形和や、
（Ｂ）適当なバイアスを用いた乗算などを用いる。

上記（Ａ）では、信頼度と重要度のいずれかが高い単語ほど優先度が高いと判断する。どちらを重視するかは混合比で調節する。

また上記（Ｂ）も、同様であるが、重要度を音声認識の正しさで補正するというアプローチがより明確な場合に用いる。

さらに、複数の尺度に基づく重要度や信頼度を組み合わせてもよいことは勿論である。

音声認識は、入力音声の全区間に対して、最適なマッチングを求めるが、その結果得られた単語の中には、音声認識アプリケーションのドメインや目的からみて無意味であったり、障害となるものもある。

こうした単語を、フィルタリングすることでより好適な認識結果の優先度を求めることができる。例えば、一般に、不要語あるいは無意味語と呼ばれる一連の単語（例えば、「えーと」や相槌など）の優先度は、低くバイアスを掛けた方が好ましい場合が多い。

また、用途によっては、単語の品詞が名詞類（例えば名詞、代名詞、サ変動詞の語幹など）であった場合に、優先度を上げた方が好ましい。これは、発話において、最も情報量の高い単語は、名詞類であることが多いためである。

信頼度の具体的な定義は様々であるが、本実施例においては、単語事後確率、すなわち、認識結果として得られたワードグラフにおける、当該単語のアークに関する事後確率を用いている。

音声認識は、入力音声に最もよくマッチする単語の連鎖を求める処理である。ある単語からは複数の単語へ接続する可能性があり、さらに各単語は各々複数の別の単語と接続しうる。こうして単語の連鎖によって構築される有向グラフ構造は、「ワードグラフ」と呼ばれる。

一般に、ワードグラフは、非巡回有向グラフとして表現され、ノードと、アーク（ノードとノードを結ぶ有向リンク）から構成される。各アークにはそれぞれ単語が結び付けられており、アークの始端と終端にあたるノードには、それぞれ時刻が結び付けられている。

以上から、各アークの単語と、当該時刻における入力音声特徴量列とが決定し、その距離（＝音響尤度）を求めることができる。

また、アークの連鎖は、すなわち単語の連鎖を意味するので、所与の言語モデルにおけるその単語連鎖の出現確立（＝言語尤度）を求めることができる。

あるアークＡの事後確率とは、ワードグラフにおけるすべてのパスの出現確率の和に対して、アークＡを経由するすべてのパスの出現確率の和が占める割合を指す。

今、閉じたワードグラフＧが与えられ、Ｇの始端ノードから終端ノードへと至るすべてのアーク連鎖の経路（パス）を辿ることができるものとする。

このとき、始端ノードからアークＡへと至るすべてのパスについての出現確率（前向き確率）を求めることができる。

同様に、アークＡから終端ノードへと至るすべてのパスについての出現確率（後向き確率）も計算できる。

アークＡに至るパスと、アークＡから発するパスのすべての組み合わせについて、その前向き確率と、後向き確率の積の和を求め、同様に求めたすべてのパスの出現確率の和で除することで、アークＡの事後確率が求められる（例えば非特許文献２参照）。

その他の信頼度としては、
・認識結果の上位Ｎ候補の尤度に対する第１位の認識候補の尤度の比をとるもの(例えば非特許文献３参照)、
・複数の言語モデルに対してある単語が同じ位置に現れる比率を求めるもの(例えば非特許文献４参照)、
・ある時刻の入力音声に対する仮説数の密度を用いるもの(例えば非特許文献５)、
等様々な尺度が用いられる。

いずれにも共通している点は、認識結果のある一部（単語、単語列、場合によっては、音素列）、又は認識結果の全体が、他の対立する認識候補に対して、どの程度高い尤度を持っているかを示しているという点である。

次に、本実施例における重要度の付与について説明する。本実施例では、重要度の付与を手動で行ってもよいし、自動で行ってもよい。

手動による付与は、特に高い重要度を与えたい単語の種類数が少ない場合に適している。この場合、特に重要度を明示しない単語については、一律の重要度（１や０など）が与えられる。

その後、音声認識アプリケーションのドメインや目的に関する事前知識を参考に重要な単語を選び出して、高い重要度を明示的に与える。

自動による場合は、統計的手法や入力音声の構造に対する事前知識を用いる。最も素朴な方法としては、頻出する単語の重要度は高く、そうでない場合は低い値を与える。

また、TF/IDF（term frequency/inverse document frequency）法は、いくつかのテキスト（文の集まり）に対して、個々のテキストにおいて特徴的な単語には高い値を、そうでない単語には、低い値を与える。TF/IDF法の重みとして、ターム頻度ｔ_ｉｊを文書Ｄ_ｉにおけるタームｔ_ｊの出現頻度とし、文書頻度ｄｆ_ｊをタームｔ_ｊが出現する文書数として、文書総数をＮとすると、逆文書頻度（inverse document frequency）ｉｄｆ_ｊは、文書頻度ｄｆ_ｊを文書総数で正規化し、例えばｉｄｆ_ｊ＝ｌｏｇ（Ｎ/ｄｆ_j）で与えられる。文書Ｄ_ｉのタームｔ_ｊの重みは、ｗ_ｉｊ＝ｔ_ｉｊ×ｉｄｆ_ｊで与えられる。

扱う発話が、比較的定常的な場合、TF/IDF値の高い単語が、重要である場合が多い。例えば、ファーストフード店における店員と客の会話は、比較的定常的である。個々の客とのやりとりを、テキストとした場合、各テキストの間で特徴的な単語とは、商品名など客ごとに異なる単語になると期待できる。

また、重要度の高い単語の前後に現れる名詞類や用言の重要度は、重要度の低い単語の前後に現れる場合より若干高くすると、好適となるケースもある。

認識結果整形手段１５０は、出力手段１６０に出力される範囲等に応じて、音声認識手段１２０から出力される認識結果を整形する。認識結果評価手段１４０がより重要と評価した部位から優先的に表示されるよう整形する。

認識結果整形手段１５０は、整形した認識結果を、出力手段１６０に送る。

出力手段１６０は、例えば表示装置、ファイル装置、印刷装置等よりなり、認識結果整形手段１５０によって整形された結果を出力する。

図２は、本発明の第２の実施例の構成を示す図である。図１の構成に、出力手段１６０として画面表示手段１６０Ａを備え、表示対象範囲設定手段１７０と、波形再生指示手段（音声再生指示手段）１８０と、波形再生手段（音声再生手段）１９０を備えている。

表示対象範囲設定手段１７０は、ユーザの指示操作に基づき、画面表示手段１６０Ａに表示される範囲を変更し、認識結果整形手段１５０に伝える。

表示対象範囲設定手段１７０によって表示範囲が切り替えられるごとに、認識結果整形手段１５０は、整形処理を行う。

波形再生指示手段１８０は、画面表示手段１６０Ａに表示されている認識結果をユーザが選択することによって、その認識結果の元音声の再生を波形再生手段１９０に指示する。

波形再生手段１９０は、波形再生指示手段１８０からの指示に基づき、記憶手段１３０から、当該音声波形データを取り出して、スピーカーや、電話回線、コンピュータネットワーク、あるいは波形ファイル等に音声波形データを出力する。

図３は、図２に示した本実施例の認識結果整形手段１５０の構成を示す図である。図３を参照すると、認識結果整形手段１５０は、認識結果取り込み手段１５１と、整列済みインデックス記憶手段１５２と、整形処理計算手段１５３と、内部出力バッファ手段１５４とを備えている。

次に、図２、図３、さらに図４の状態遷移図を参照して、本実施例の全体の動作について詳細に説明する。

初期状態（図４の状態Ａ１）において、音声入力手段１１０から音声波形データが入力されると、音声認識処理状態（図４の状態Ａ２）に遷移する。

音声認識手段１２０は、入力された音声波形データを記憶手段１３０に保管するとともに、入力された音声波形データに対して音声認識処理を施し、その結果も記憶手段１３０に保管する。

また、音声認識手段１２０は、認識結果が更新されたことを認識結果評価手段１４０に通知し（図４の状態Ａ２→Ａ３）、認識結果評価手段１４０は認識結果に優先度を付加し、これを記憶手段１３０に保管するとともに、認識結果が更新されたことを認識結果整形手段１５０に通知する（図４の状態Ａ３→Ａ４）。

認識結果整形手段１５０は、表示対象範囲設定手段１７０によって与えられた表示対象範囲にあわせて、記憶手段１３０から取り出した認識結果に対して、優先度を参考に所定の整形処理を行った後、その結果を画面表示手段１６０Ａに渡す（図４の状態Ａ４→Ａ５）。画面表示手段１６０Ａは、渡された結果をユーザに提示し、図４の初期状態Ａ１に戻る。

一方、図４の初期状態Ａ１において、表示対象範囲設定手段１７０からユーザが表示対象範囲の切り替えを行うと（図４の状態Ａ１→Ａ６）、その結果を受けて認識結果整形手段１５０が再び整形処理を行い（図４の状態Ａ４）、画面表示手段１６０Ａが渡された結果を再びユーザに提示し直して、図４の初期状態Ａ１に戻る。表示対象範囲によって認識結果評価手段そのものの振る舞いを変えられるような実装も可能であり、その場合、表示対象範囲の切り替えを受けて、図４の状態Ａ６からＡ３への遷移が行われる。

一方、図４の初期状態Ａ１において、ユーザが波形再生指示手段１８０を用いて画面表示手段１６０Ａに表示されている認識結果のいずれかを選択すると（図４の状態Ａ１→Ａ７）、波形再生指示手段１８０は、これを波形再生手段１９０に通知する。

波形再生手段１９０は、この通知に基づいて記憶手段１３０から、当該認識結果の認識元である音声波形データを取り出して、これを再生する（図４の状態Ａ７→Ａ１）。

さらに図５は、本発明の実施形態における認識結果整形手段１５０の動作を説明するフローチャートである。図２、図３、図５を参照して、認識結果整形手段１５０の動作を詳細に説明する。

音声認識手段１２０または表示対象範囲設定手段１７０からの通知に基づき、認識結果整形手段１５０は、内部出力バッファ手段１５４と整列済みインデックス記憶手段１５２をクリアする（図５のステップＢ１）。

次に認識結果取り込み手段１５１によって記憶手段１３０から現在の表示対象範囲に含まれるすべての認識結果と、その優先度とを取得する（図５のステップＢ２）。

優先度を整列キーとして、認識結果の各部位を整列し、その結果のインデックスを、整列済みインデックス記憶手段１５２に記憶する（図５のステップＢ３）。

さらに、整形処理計算手段１５３は、認識結果をすべて「・」で表示するとして整形処理を行い、内部出力バッファ手段１５４に出力する（図５のステップＢ４）。

整形処理計算手段１５３は、内部出力バッファ手段１５４をチェックして、表示可能なスペースが余っている場合（図５のステップＢ５のＮＯ分岐）、整列済みインデックス記憶手段１５２から最も優先度の高いインデックスを取り出し、同時に、整列済みインデックス記憶手段１５２からそのインデックスを削除する。得られたインデックスに相当する認識結果の部位を「・」ではなく、文字列として表示するように、再度整形処理を行い、その結果を内部出力バッファ手段１５４に出力する（図５のステップＢ６）。

図５におけるステップＢ６の処理を、内部出力バッファ手段１５４が満杯になるまで（図５のステップＢ５のＹＥＳ分岐）、繰り返し、最後に、内部出力バッファ手段１５４に保持されていた出力結果を、画面表示手段１６０Ａに渡す（図５のステップＢ７）。

本実施例においては、例えば、ある優先度以上の認識結果が必ず出力されるように、内部出力バッファ手段１５４は画面表示手段１６０Ａよりも広いものと想定して、計算を行う。

この場合、表示対象範囲のすべてを一度に画面に表示しきれないことがあり得る。優先度が劣ると判断された認識結果の各部位に対しては「・」で表示するのではなく、その優先度に応じて表示の様態を変えて、あくまで文字列で表示してもよい。例えば、優先度が非常に小さな認識結果部位のフォントは小さく、優先度が増すにつれて徐々に大きなフォントで表示され、最も重要な部位のフォントは十分に目立つ大きさのフォントで表示するようにする。

優先度の低い部位に関しては、「・」と変わらない表示スペースしか必要としないため、この目的に適合する。

また、優先度の低い単語を薄い色のフォントで表示し、優先度が増すにつれて徐々に濃い色のフォントで表示するようにしてもよい。この場合、優先度が低い部位に関しても優先度が高い部位と同程度の表示スペースが必要となることから、表示スペースの節約の点では劣るものの、ユーザが俯瞰した際に、各部位間の距離感覚が直感的に分かる。

この結果、例えば、
・ある単語と別の単語が連続しているのか、それとも時間的に離れたものなのか、あるいは、
・どの程度離れているのか、
などの情報が、一目で識別できるというメリットがある。

図６(ａ)、図６（ｂ）、図６（ｃ）は、本発明の一実施例の画面表示例を示す図である。図６を参照して、本実施例のＵＩイメージについて説明する。

図６（ａ）を参照すると、ウィンドウ２００には、認識結果表示リストボックス２１０と拡大表示ボタン２２０が配置されている。

認識結果表示リストボックス２１０はさらに発話インデックスペイン２１１と認識結果ペイン２１２とスクロールバー２１３を備える。

識結果表示リストボックス２１０の表示内容は、スクロールバー２１３によって上下にスクロールする。

図６（ｂ）を参照すると、初期状態では、各発話とそれに対応する認識結果が認識結果表示リストボックス２１０に並んでいる。

多くの認識結果を一度に表示するため、特に重要な情報を除いてほとんどの認識結果は「・」で表示されている。また、拡大表示ボタン２２０は無効となっている。

ユーザがマウスを使って認識結果表示リストボックス２１０の一定範囲を選択すると、拡大表示ボタン２２０が有効となる。これをクリックすると、選択された範囲に表示対象範囲が切り替えられ、認識結果表示リストボックス２１０に表示される内容が切り替わる。

図６（ｃ）を参照すると、一度に表示する対象が減じたため、個々の認識結果についてより多くの情報が出力されるようになったことが分かる。

次に、本実施例の効果について説明する。

本実施例では、認識結果整形手段１５０が、表示対象範囲設定手段１７０によって与えられた表示対象範囲にあわせた整形処理を行うため、ある範囲の音声データに対する認識結果を俯瞰しやすい形態で画面に表示することができる。

また、本実施例では、さらに、ユーザが表示対象範囲設定手段１７０から表示対象範囲を切り替えた際に、それにあわせて認識結果整形手段１５０が再度整形処理を行うため、表示される認識結果は、常に表示対象範囲に適切な情報量を持つことができる。

また、本実施例では、さらに、認識結果整形手段１５０は認識結果評価手段１４０が与える優先度を参考にして動作することから、ユーザは、より優先度の高い認識結果を素早く見つけることができる。

また、本実施例では、さらに、認識結果から素早く元音声の再生が指示できる。このため、全体を俯瞰して、興味深い認識結果を見つけたら、直ちに、再生して全文を確認することもできる。

また、本実施例によれば、大量の音声データを閲覧するような仕様形態（音声アーカイブの検索処理など）では、このようなＵＩが特に向いている。また、再生機能は、整形処理によって表示されなくなった情報を補う効果と、音声認識処理の認識精度を補う効果がある。

次に、本発明の第３の実施例について説明する。本実施例の構成は、図２と同様である。本実施例は、前記第２の実施例とは、図２の認識結果整形手段１５０の動作が異なる。図５のフローチャートを参照して、本実施例における認識結果整形手段１５０の動作を詳細に説明する。

次に、認識結果取り込み手段１５１によって記憶手段１３０から現在の表示対象範囲に含まれるすべての音声波形データと、それぞれの認識結果および優先度を取得する（図５のステップＢ２）。

優先度を整列キーとして、認識結果の各部位を整列し、その結果のインデックスを整列済みインデックス記憶手段１５２に記憶する（図５のステップＢ３）。

さらに、整形処理計算手段１５３は、取得した音声波形データを時間順に並べて内部出力バッファ手段１５４に出力する（図５のステップＢ４）。

整形処理計算手段１５３は、内部出力バッファ手段１５４をチェックして、表示可能なスペースが余っている場合（図５のステップＢ５のＮＯ分岐）、整列済みインデックス記憶手段１５２から最も優先度の高いインデックスを取り出し、同時に整列済みインデックス記憶手段１５２からそのインデックスを削除する。

得られたインデックスに相当する認識結果の部位を、その部位に相当する音声波形データのそばに、吹き出し状に表示するとして、再度整形処理を行い、その結果を、内部出力バッファ手段１５４に出力する（図５のステップＢ６）。

表示する吹き出しと文字フォントの大きさは、優先度にあわせて大きくしてもよい。

また、吹き出しを透過表示とし、吹き出しを重ねて表示することによって、認識結果の隣接した部位を表示可能としてもよい。この時、優先度の低い吹き出しの透過度を高くすれば、優先度の高い単語のみが浮き上がって見える。

さらに、吹き出しに、アニメーション（明滅など）を組み合わせ、優先度の高い部位のアニメーションは他と比べてより派手に行うようにしても良い。

上記を内部出力バッファ手段１５４が満杯になるまで繰り返し、最後に、内部出力バッファ手段１５４に保持されていた出力結果を画面表示手段１６０Ａに渡す（ステップＢ７）。ある優先度以上の認識結果が必ず出力されるように、内部出力バッファ手段１５４は画面表示手段１６０Ａよりも広いと想定して計算を行う。その結果、表示対象範囲のすべてを一度に画面に表示しきれないことがあり得る。

本発明の音声認識システムは、例えば、
コールセンターのオペレータ品質管理、
議事録の閲覧、
映像アーカイブ検索、
音声書き起こし、
等に適用することができる。

本発明のコンピュータプログラムは、コールセンターにおけるオペレータ品質管理プログラムや応対トラブル検出プログラムや、会議、議会等の議事録閲覧プログラム、音声や映像アーカイブの検索プログラム、音声書き起こし処理を支援するコンピュータのプログラムに適用できる。これらのプログラムは、サーバ装置等で実行し、本発明の音声認識処理を実現するようにしてもよい。

音声書き起こし処理とは、音声を記録した記録媒体より、音声を再生し、再生音声を聴きながら内容を文章に起こす作業であり、本発明のコンピュータプログラムは、上記実施例で説明した音声入力手段１１０、音声認識手段１２０、認識結果評価手段１４０、認識結果整形手段１５０、出力手段１６０（あるいは、画面表示手段１６０Ａ、表示対象範囲設定手段１７０、波形再生指示手段１８０、波形再生手段１９０）の各処理を行うことで、音声書き起こし処理を支援する。この音声書き起こし処理プログラムを実行することで、
・音声を聴きながら、その次に現れる文脈も先読みすることができる、
・読み飛ばし（聴き飛ばし）や、巻き戻しの指定が、表示画面を用いて視覚的に行うことができる、
・認識精度が比較的良好な発声に関してキータイプ入力の工数を省くことができる、
等の作用効果を奏することができる。

次に、本発明の音声認識システムを、録音した音声の再生装置に適用した例について、図１を参照して説明する。図１の音声入力手段１１０は、記録媒体（アナログテープ、又はデジタル記録媒体）に記録された音声データを入力して再生し、再生した音声データ（デジタル音声信号）を、音声認識手段１２０に供給する。音声認識手段１２０は、入力された音声を認識し、認識結果評価手段１４０は優先度を計算し、認識結果整形手段１５０は、優先度情報等に基づき、所定の優先度の認識結果を、出力手段１６０から出力する。例えば前述したフィルタリング等により、名詞類等を選択的に出力することで、例えば記録内容（テーマ）が不明のアーカイブデータの内容のサマリを録音内容の全部を聴かなくても把握することができる。また、アーカイブデータの内容の構造（認識された単語とその出現頻度、時系列等の構造）から、録音内容のテーマの展開も一覧で提示することを可能としている。さらに、認識結果と、優先度、元波形データの位置に対応して記録していくことで、再生時、例えば、長時間に及ぶ会議の時間推移をサマリとして俯瞰することができる。図２の構成とした場合、録音内容の概要が表示され、詳細を知りたいとき、範囲を選択する等して、元の音声の再生、あるいは、画面に、テキストで詳細な音声認識結果情報を得ることができる。

本発明の音声認識システム、あるいは再生装置は、携帯電話（mobile phone）、PDA等の携帯情報通信端末に適用してもよい。端末（クライアント）に入力された音声に関して、その音声認識処理を、IP網等を介して音声認識サーバに依頼し、認識結果（音声尤度、言語尤度等の認識情報も含む）を端末で受けとるようにすることで、端末の演算量の負荷を低減するようにしてもよい。

さらに、図１に示した実施例の変形例として、記憶手段１３０に記憶されている内容(音声データ、音声認識結果、優先度情報)を、図示されない記録媒体に保持し、認識結果整形手段１５０、出力手段１６０を用いて、出力する構成としてもよい。この場合、図１において、記憶手段１３０、認識結果整形手段１５０、出力手段１６０のみで構成される。認識結果（認識結果を構成する部位）と優先度とが対応して記憶手段１３０に格納されていることから、認識結果整形手段１５０、出力手段１６０による再生出力時、全体の記録内容のサマリを、高速に確認することを可能としている。

以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみに制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

本発明の第１の実施例の構成を示すブロック図である。本発明の第２の実施例の構成を示すブロック図である。本発明の第２の実施例における認識結果整形手段の構成を示すブロック図である。本発明の第２の実施例の状態遷移図である。本発明の第２の実施例の動作を示すフローチャート図である。本発明の一実施例の表示例を示す図である。

符号の説明

１００コンピュータ
１１０音声入力手段
１２０音声認識手段
１３０記憶手段
１４０認識結果評価手段
１５０認識結果整形手段
１５１認識結果取り込み手段
１５２整列済みインデックス記憶手段
１５３整形処理計算手段
１５４内部出力バッファ手段
１６０出力手段
１６０Ａ画面表示手段
１７０表示対象範囲設定手段
１８０波形再生指示手段
１９０波形再生手段
２００ウインドウ
２１０認識結果表示リストボックス
２１１発話インデックスペイン
２１２認識結果ペイン
２１３スクロールバー
２２０拡大表示ボタン

Claims

音声データを入力する音声入力手段と、
前記音声入力手段より入力された音声データを受け音声認識を行う音声認識手段と、
前記音声認識手段で音声認識された認識結果のある部位に対して、当該部位以外の他の部位と比較可能な優先度を求める認識結果評価手段と、
前記認識結果と前記優先度とを少なくとも記憶する記憶手段と、
前記優先度に従って前記認識結果の出力情報を整形する認識結果整形手段と、
前記認識結果整形手段で整形された出力情報を出力する出力手段と、
を含み、
前記認識結果評価手段は、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識手段で音声認識された認識結果のある部位の単語について導出し、導出した前記信頼度と、前記単語に関する重要度との混合演算に基づき、前記優先度を算出する、ことを特徴とする音声認識システム。
前記認識結果整形手段は、前記優先度に応じて、前記認識結果の出力の有無、及び／又は、前記認識結果の出力形態を可変させる、ことを特徴とする請求項１記載の音声認識システム。
前記認識結果整形手段は、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記優先度が相対的に高い認識結果を、前記優先度が相対的に低い認識結果よりも、より判別容易な出力形態で出力する、ことを特徴とする請求項１記載の音声認識システム。
前記認識結果整形手段は、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記認識結果の省略形、出力サイズの大小、階調出力、吹き出し、アニメーション、透過出力、重ね出力、出力速度のうちの少なくともいずれか１つを調整する、ことを特徴とする請求項３記載の音声認識システム。
前記認識結果評価手段は、前記音声認識手段で音声認識された、前記認識結果及び／又は前記認識結果を構成する部位に対して、前記優先度を求める、ことを特徴とする請求項１記載の音声認識システム。
請求項１乃至５のいずれか一に記載の音声認識システムを備えた再生装置であって、
前記音声入力手段は、記録媒体に記録されている音声データを入力して前記音声認識手段に供給し、前記記録媒体に記録されている音声の中から、前記所定の優先度に従って整形された認識結果が出力される、ことを特徴とする再生装置。
音声データを入力して音声認識し認識結果を出力する音声書き起こし装置であって、
請求項１乃至５のいずれか一に記載の音声認識システムを備えている、ことを特徴とする音声書き起こし装置。
音声データを入力する音声入力手段と、
前記音声入力手段より入力音声データを受け音声認識を行う音声認識手段と、
前記音声認識手段で音声認識された、認識結果及び／又は前記認識結果を構成する部位に対して、優先度を求める認識結果評価手段と、
前記認識結果と前記優先度とを少なくとも記憶する記憶手段と、
前記優先度に従い、前記認識結果及び／又は前記認識結果を構成する部位の表示／非表示を判定し、出力イメージを作成する認識結果整形手段と、
前記出力イメージを表示装置に出力する画面表示手段と、
を含み、
前記認識結果評価手段は、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識手段で音声認識された認識結果のある部位について導出し、導出した前記信頼度と、前記認識結果の前記ある部位の単語に関する重要度との混合演算に基づき、前記優先度を算出する、ことを特徴とする音声認識システム。
出力の対象とすべき音声データの範囲と、前記認識結果及び／又は前記認識結果の部位の範囲を設定する表示対象範囲設定手段をさらに含み、
認識結果整形手段は、前記優先度と前記出力の設定範囲とに従い、前記認識結果及び／又は前記認識結果の部位の表示／非表示を判定し、出力イメージを作成する、ことを特徴とする請求項８記載の音声認識システム。
前記記憶手段には、前記音声入力手段より前記音声認識手段に供給された入力音声データが記憶され、
前記出力イメージを参照して、入力音声データの再生を指定する音声再生指示手段と、
前記音声再生指示手段による指定に基づき、前記記憶手段に記憶されている、入力音声データを再生する音声再生手段と、
をさらに含む、ことを特徴とする請求項８又は９記載の音声認識システム。
前記認識結果評価手段は、前記音声認識手段による前記認識結果及び／又は前記認識結果の部位の音響尤度、言語尤度、事後確率による信頼度のうちの少なくとも１つを用いて、前記優先度を導出する、ことを特徴とする請求項１、８、９、１０のいずれか一に記載の音声認識システム。
前記認識結果評価手段は、前記音声認識手段による前記認識結果及び／又は前記認識結果の一部となり得る単語、単語連鎖に対して、重要度を用いて、前記優先度を導出する、ことを特徴とする請求項１、８、９、１０のいずれか一に記載の音声認識システム。
前記認識結果整形手段は、前記出力イメージの作成に際して、前記優先度が、予め定められた閾値を越える認識結果及び／又は前記認識結果の部位を表示する、ことを特徴とする請求項８乃至１２のいずれか一に記載の音声認識システム。
前記認識結果整形手段は、前記出力イメージの作成に際して、優先度の高い認識結果及び／又は前記認識結果の部位から、順に表示し、表示装置における表示領域が不足した場合、残りの認識結果及び／又は前記認識結果の部位を、所定の記号で代替表示する、ことを特徴とする請求項８乃至１２のいずれか一に記載の音声認識システム。
前記認識結果整形手段は、前記出力イメージの作成に際して、前記優先度の相対的に高い認識結果及び／又は前記認識結果の部位から順に、前記認識結果及び／又は前記認識結果の部位が表示領域において占める領域が大きくなり、前記優先度が相対的に低い認識結果及び／又は前記認識結果の部位が表示領域において占める領域がより小さくなるように制御する、ことを特徴とする請求項８乃至１２のいずれか一に記載の音声認識システム。
音声認識装置による音声の認識方法であって、
音声データを入力する工程と、
入力音声データの音声認識処理を行う工程と、
音声認識処理による認識結果及び／又は前記認識結果の部位に対して、優先度を求める工程と、
前記優先度に従い、前記認識結果及び／又は前記認識結果の部位の出力情報を整形する工程と、
前記整形された出力情報を出力する工程と、
を含み、
前記優先度を求める工程では、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識処理を行う工程で音声認識された認識結果のある部位について導出し、導出した前記信頼度と、前記認識結果の前記ある部位の単語に関する重要度との混合演算に基づき、前記優先度を算出する、ことを特徴とする音声認識方法。
前記優先度に従い、前記認識結果及び／又は前記認識結果の部位の表示／非表示を判定し出力イメージを作成する工程と、
表示画面に、前記作成された出力イメージを出力する工程と、
を含む、ことを特徴とする請求項１６記載の音声認識方法。
出力の対象とすべき音声データの範囲と、前記認識結果及び／又は前記認識結果の部位の範囲を設定する工程を含み、
前記出力イメージを作成する工程は、優先度と前記出力の設定範囲とに従い、前記認識結果及び／又は前記認識結果の部位の表示／非表示を判定し出力イメージを作成する、ことを特徴とする請求項１７記載の音声認識方法。
前記出力イメージを参照して入力音声データの再生を指定する工程と、
前記指定に基づき音声データを再生する工程と、
を含む、ことを特徴とする請求項１７記載の音声認識方法。
音声認識処理を行うコンピュータに、
音声データを入力する処理と、
入力した音声データの音声認識を行う処理と、
前記音声認識での認識結果及び／又は前記認識結果の部位に対して、優先度を求める処理であって、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識された認識結果のある部位について導出し、導出した前記信頼度と、前記認識結果の前記ある部位の単語に関する重要度との混合演算に基づき、前記優先度を算出する処理と、
前記優先度に従い、前記認識結果及び／又は前記認識結果の部位の出力情報を整形する処理と、
前記整形された出力情報を出力装置から出力する処理と、
を実行させるプログラム。
請求項２０記載のプログラムにおいて、
出力の対象とすべき音声データの範囲、認識結果と認識結果の部位の範囲を設定する処理と、
前記優先度と前記出力の設定範囲とに従い、前記認識結果または前記認識結果を構成する各部位の表示／非表示を判定し出力イメージを作成する処理と、
を前記コンピュータに実行させるプログラム。
請求項１乃至５、８乃至１５のいずれか一に記載の音声認識システムを備えたサーバ装置。
請求項１乃至５、８乃至１５のいずれか一に記載の音声認識システムを備えた携帯通信端末装置。