JP4757599B2 - 音声認識システムと音声認識方法およびプログラム - Google Patents

音声認識システムと音声認識方法およびプログラム Download PDF

Info

Publication number
JP4757599B2
JP4757599B2 JP2005299007A JP2005299007A JP4757599B2 JP 4757599 B2 JP4757599 B2 JP 4757599B2 JP 2005299007 A JP2005299007 A JP 2005299007A JP 2005299007 A JP2005299007 A JP 2005299007A JP 4757599 B2 JP4757599 B2 JP 4757599B2
Authority
JP
Japan
Prior art keywords
recognition result
recognition
priority
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005299007A
Other languages
English (en)
Other versions
JP2007108407A (ja
Inventor
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005299007A priority Critical patent/JP4757599B2/ja
Priority to US12/083,498 priority patent/US8214209B2/en
Priority to PCT/JP2006/320288 priority patent/WO2007043566A1/ja
Publication of JP2007108407A publication Critical patent/JP2007108407A/ja
Application granted granted Critical
Publication of JP4757599B2 publication Critical patent/JP4757599B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声認識技術に関し、特に、音声認識結果に基づき、一覧性の高い認識結果の出力を行う音声認識システム、方法およびコンピュータプログラムに関する。
従来の典型的な音声認識システムは、一般に、ある発話に対する音声認識結果と、別の発話に対する認識結果とは、まったく無関係のものと見做している。複数の発話に対する認識結果の表示になんらかの依存性を持たせることは、ほとんどない。その結果、個々の認識結果をただ羅列するだけのものとなっている。例えば特許文献1、特許文献2等に記載されたシステムでは、複数の発話の認識結果を一つのリストに一覧表示する機能を有するが、それぞれの発話に対する認識結果は、それぞれ自身で、完結してしまっている。
一方、音声認識は、常に完璧に動作するとは限らない。何らかの評価尺度によってより確実な認識結果を優先的に表示させる手法が、従来より用いられている。
評価尺度としては、
・認識結果の言語尤度や
・音響尤度、
・信頼度(非特許文献3参照)
などが用いられる。例えば、特許文献3は、評価尺度として正規化された尤度(「信頼度」という)が予め与えられたある閾値を越えた場合は出力し、そうでなければ認識結果を棄却する。
音声認識結果の表示に関する刊行物として、例えば特許文献4には、音声波形を表示し、音声部分の内容の少なくとも1部を表す文字列(認識結果の文字列を一部省略して表示する場合あり)を表示し、波形に含まれる音声部分の内容を目で確認可能としたシステムが開示されている。先頭と末尾の表示では、内容の傾向等は補足できない場合が多い(分野にもよるが、重要事項(名詞類で特定される)は、文頭、文末ではなくその間で発話される傾向がある)。また、話し言葉の音声に関しては、先頭には無意味語(例えば「えーと」、「ああ」、「はい」等)が出現することが多い。末尾では、特に話し言葉の音声の場合、厳密(正確)でなく、いい加減な発声が行われることが多い。例えば早口になる(「そうですね」→「そうすね」)。語尾を延ばす(「ですね」→「ですねええ」)。かかる場合、特許文献4等の手法では、有意な文字列を表示することができないことがある。
なお、画面表示の加工として、特許文献5には、画像中の重要箇所が判明している場合、全体で単純縮小した上に、全体の表示倍率よりも大きな表示倍率で重要箇所を重ねて表示する画像・映像加工表示方法が開示されている。
特開平11−338494号公報 特開平11−150603号公報 特開2003−50595号公報 特開2002−297188号公報 特開2004−326555号公報 T. Schaaf, T. Kemp: Confidence measures for spontaneous speech recognition, in Proc. ICASSP 1997, Vol. 2, pp. 875 ff, Munich, April 1997 Frank Wessel,Ralf Schluter,Kalus Macherey,ans Herman Ney,''Confidence Measures for Large Vocabulary Continuos Speech Recognition,''IEEE Trans. on Speech and Audio Processing. Vol 9, No. 3,March 2001 B. Rueber, "Obtaining confidence measures from sentence probabilities," in Proc. 5th Eur. Conf. Speech Communication Technology 1997, Rhodes, Greece, Sept. 1997, pp. 739-742. Tech. Rep. Interactive Systems Labs.," ILKD, Apr. 1996. T. Kemp and T. Schaaf, "Estimating confidence using word latices," in Proc. 5th Eur. Conf. Speech, Communication, Technology 1997, Rhodes, Greece, Sept. 1997, pp.827-830.
リアルタイムであれ、オフラインであれ、音声波形を時系列で入力して行われる音声認識処理の認識結果の全てを提示するのでなく、いわば、話の内容の全体的な傾向を俯瞰しながら、階層的に、局所的な傾向も提示可能としたシステムの提案、開発はなされていない。これが、本発明を完成させるにいたった動機である。以下説明する。本願発明者は、従来の音声認識システムが、下記記載の課題を有していることを知見した。
第1の課題は、複数の音声認識結果を俯瞰することによって得られる入力音声の全体的あるいは局所的な傾向をユーザに提示する効果的な枠組みが欠如している。
すなわち、個々の発話を離散的なものと捉え、あるまとまった時間内の認識結果をすべて俯瞰することを主な目的とした表示機能を実現することが望まれる。
第2の課題は、長時間にわたる連続音声認識を行った場合、音声認識結果をそのまま出力すると、限られた記憶領域や、画面(フレームバッファ)に収まりきらないことになる。
最低限必要な情報とそうでない情報を、音声認識結果から取捨選択する機能が具備されていないことによる。
従来の音声認識技術では、単語単位での音声認識が主流であり、この場合、認識結果をそのまま羅列しても、画面スペースは、十分であると考えられてきたためとも思料される。
第3の課題は、画面に表示される情報を取捨選択するために音声認識結果に対して閾値処理を施した場合、ある範囲を俯瞰する場合には十分な情報量が表示されていたとしても、より細かい範囲を俯瞰する場合には情報量が疎になりすぎる。
こうした閾値処理で用いられる閾値は静的に与えられたものであるか、あるいは画面表示UI(ユーザインタフェース)と連動していないため、俯瞰する範囲に最適化された取捨選択が行われないためである。
本発明の目的は、比較的長い入力音声データに含まれる複数の発話に対する音声認識結果を俯瞰することのできる音声認識システムと方法並びにプログラムを提供することにある。
本発明の他の目的は、俯瞰する入力音声データの範囲を容易に切り替えることのできる音声認識システムと方法並びにプログラムを提供することにある。
本発明のさらに他の目的は、表示する情報の取捨選択を行うことのできる音声認識システムと方法並びにプログラムを提供することにある。
本発明のさらに他の目的は、上記において、表示する情報の取捨選択を行うことのできる音声認識システムを提供することにある。
本発明の1つのアスペクト(側面)に係る音声認識システムは、音声データを入力する音声入力手段と、前記音声入力手段より入力された音声データを受け音声認識を行う音声認識手段と、前記音声認識手段で音声認識された認識結果に対して優先度を求める認識結果評価手段と、前記認識結果と前記優先度とを少なくとも記憶する記憶手段と、前記優先度に従い、前記認識結果の出力情報を整形する認識結果整形手段と、前記認識結果整形手段で整形された出力情報を出力する出力手段と、を含む。
本発明において、前記認識結果整形手段は、前記優先度に従い、前記認識結果の出力の有無、及び/又は、前記認識結果の出力形態を可変させるようにしてもよい。
本発明において、前記認識結果整形手段は、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記認識結果の省略形、出力サイズの大小、階調出力、吹き出し、アニメーション(明滅)、透過出力、重ね出力、出力速度のうちの少なくともいずれか1つを調整するようにしてもよい。
本発明において、前記認識結果評価手段は、前記音声認識手段で音声認識された前記認識結果及び/又は前記認識結果の部位に対して、優先度を求める。
本発明においては、前記認識結果評価手段は、認識された単語について導出された信頼度と、前記単語について予め規定されている重要度とに基づき、前記優先度を算出する。
本発明の他のアスペクトに係る再生装置においては、上記音声認識システムを備えた再生装置であって、前記音声入力手段は、音声データを記録した記録媒体に記録されている音声を再生して音声データを前記音声認識手段に出力し、記録媒体に記録されている音声の中から、前記所定の優先度に従い選択された認識結果が出力される。
本発明の他のアスペクトに係る装置は、音声データを入力して音声認識しテキストに変換する音声書き起こし装置であって、上記した本発明に係る音声認識システムを備えている。音声入力手段は、記録媒体に記録されている音声データを入力してもよいし、マイクロフォンから入力される音声データを入力して音声認識手段に供給するようにしてもよい。出力手段は、認識結果の出力情報をファイルとして出力、及び/又は、表示画面に出力してもよい。本発明の音声認識システムは、会議や議会等での議事録を閲覧する装置にも適用できる。
本発明の他のアスペクトに係る音声認識システムは、音声データを入力する音声入力手段と、前記音声入力手段より入力音声データを受け音声認識を行う音声認識手段と、前記音声認識手段で音声認識された認識結果及び/又は前記認識結果を構成する部位に対して、優先度を求める認識結果評価手段と、前記認識結果と前記優先度とを記憶する記憶手段と、前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し出力イメージを作成する認識結果整形手段と、前記出力イメージを表示装置に出力する画面表示手段と、を備えている。
本発明において、出力の対象とすべき音声データの範囲、認識結果と認識結果の部位の範囲を設定する表示対象範囲設定手段をさらに備え、前記認識結果整形手段は、前記優先度と前記出力の設定範囲とに従い、前記認識結果及び/又は前記認識結果を構成する部位の表示/非表示を判定し、出力イメージを作成する構成としてもよい。
本発明において、前記記憶手段には、前記音声認識手段に入力された入力音声データが記憶され、前記出力イメージを参照して、入力音声データの再生を指定する音声再生指示手段と、前記音声再生指示手段による指定に基づき、前記記憶手段に記憶されている、入力音声データを再生する音声再生手段と、をさらに備えた構成としてもよい。
本発明において、前記認識結果評価手段は、前記音声認識手段における認識結果及び認識結果の各部位の音響尤度、言語尤度、事後確率による信頼度のうちの少なくとも1つを用いて、前記優先度を導出する構成としてもよい。
本発明において、前記認識結果評価手段は、前記音声認識手段における前記認識結果及び/又は認識結果の一部となり得る単語、単語連鎖に対して、予め規定されている重要度を用いて、前記優先度を導出する構成としてもよい。
本発明において、前記認識結果整形手段は、前記出力イメージの作成に際して、前記優先度が、予め定められた閾値を越える認識結果、及び/又は前記認識結果の部位を表示する構成としてもよい。
本発明において、前記認識結果整形手段は、出力イメージの作成に際して、優先度の高い認識結果または前記認識結果の部位から、順に表示し、表示装置における表示領域が不足した場合、残りの認識結果及び/又は前記認識結果の部位を、所定の記号で代替表示する構成としてもよい。
本発明において、前記認識結果整形手段は、出力イメージの作成に際して、前記優先度の相対的に高い認識結果及び/又は前記認識結果の部位から順に、前記認識結果及び/又は前記認識結果の部位が表示領域において占める領域が大きくなり、前記優先度が相対的に低い認識結果及び/又は前記認識結果の部位が表示領域において占める領域がより小さくなるように制御する構成としてもよい。
本発明の他のアスペクトに係る方法は、音声認識装置による音声の認識方法であって、
音声データを入力する工程と、
入力音声データを受け音声認識を行う工程と、
音声認識された認識結果及び/又は前記認識結果の部位に対して優先度を求める工程と、
前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の出力情報を整形する工程と、
前記整形された出力情報を出力する工程と、
を含む。
本発明に係る方法において、前記優先度に従い、前記認識結果の出力の有無、及び/又は、前記認識結果の出力形態を可変させるようにしてもよい。本発明に係る方法において、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記認識結果の省略形、前記認識結果の出力サイズの大小、グレイ(階調)出力、吹き出し、アニメーション(明滅)、透過出力(透過度の制御)、重ね出力、出力速度のうちの少なくともいずれか1つを調整するようにしてもよい。本発明に係る方法において、音声認識された単語について信頼度を導出し、前記信頼度と、前記単語に関する重要度とに基づき、前記優先度を算出するようにしてもよい。
本発明に係る方法において、前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し出力イメージを作成する工程と、
表示画面に、前記作成された出力イメージを出力する工程と、
を含む。
本発明に係る方法において、出力の対象とすべき音声データの範囲と、前記認識結果及び/又は前記認識結果の部位の範囲を設定する工程を含み、
前記出力イメージを作成する工程は、優先度と前記出力の設定範囲とに従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し出力イメージを作成するようにしてもよい。
本発明に係る方法において、前記出力イメージを参照して入力音声データの再生を指定する工程と、
前記指定に基づき音声データを再生する工程と、
を含むようにしてもよい。
本発明に係るコンピュータプログラムは、音声認識処理を行うコンピュータに、
音声データを入力する処理と、
入力した音声データの音声認識を行う処理と、
前記音声認識処理による認識結果及び/又は前記認識結果の部位に対して優先度を求める処理と、
前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の出力情報を整形する処理と、
前記整形された出力情報を出力装置に出力する処理と、
を実行させるプログラムよりなる。
本発明に係るコンピュータプログラムにおいて、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記認識結果の省略形、前記認識結果の出力サイズの大小、グレイ(階調)出力、吹き出し、アニメーション(明滅)、透過出力(透過度の制御)、重ね出力、出力速度のうちの少なくともいずれか1つを調整するようにしてもよい。本発明に係るコンピュータプログラムにおいて、音声認識された単語について信頼度を導出し、前記信頼度と、前記単語に関する重要度とに基づき、前記優先度を算出するようにしてもよい。
本発明に係るコンピュータプログラムにおいて、出力の対象とすべき音声データの範囲、認識結果と認識結果の部位の範囲を設定する処理と、
前記優先度と前記出力の設定範囲とに従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し出力イメージを作成する処理と、
を前記コンピュータに実行させるプログラムよりなる。
本発明に係るサーバ装置は、上記音声認識システムを備えたサーバ装置よりなる。
本発明によれば、比較的長い入力音声データに含まれる複数の発話に対する音声認識結果を俯瞰することを可能としている。本発明を、例えば記録音声の再生等に用いた場合に、記録内容の概要を俯瞰できるため、有効である。
その理由は、出力画面と表示対象の音声データの範囲とから、俯瞰可能なように表示内容が調整されるためである。
本発明によれば、表示対象となる音声データの範囲を切り替えた際に、その表示範囲に適した情報量が常に出力されることである。その理由は、出力画面の大きさに応じて、取捨選択の振る舞いが切り替えられるためである。
本発明によれば、何らかの方法で認識結果を取捨選択することにより、より重要な音声認識結果を素早く見つけだすことが可能になることである。
上記した本発明についてさらに詳細に説述すべく添付図面を参照してこれを説明する。はじめに本発明の概要を説明しておく。本発明は、音声入力手段(図1の110)と、出力手段(図1の160)と、音声認識手段(図1の120)と、認識結果評価手段(図1の140)と、認識結果整形手段(図1の150)とを備え、音声入力手段(110)から入力された音声に対して音声認識手段(120)によって音声認識処理を施し、その結果を、認識結果整形手段(150)によって適当な出力情報に整形(変換)したのち、出力手段(160)によってユーザに表示する。
認識結果整形手段(150)は、表示すべき音声データのすべてまたは指定された一部を俯瞰できるように、音声認識結果の出力を整形する。優先度の低い情報は削除ないし読み取りにくくし、逆に優先度の高い情報は残しておいて、読み取りやすいように表示する。
さらに、本発明の別の実施形態においては、表示対象範囲設定手段(図2の170)を備えることで、表示すべき音声データの範囲を切り替えることができるようにする。
この時、認識結果整形手段(図2の150)は、指示された表示範囲と画面表示手段の大きさを参考に、表示する情報の取捨選択処理の振る舞いを変えるようにする。
このような構成を採用することで、複数の発話に対する認識結果を画面上で俯瞰することが可能となり、また、特に重要な部位を容易に読み取ることができ、さらにその部位の詳細表示へと素早く画面を切り替えることによって、上記課題を達成することができる。これによって、単独の認識結果の羅列では見えてこないような全体的な傾向を観察できるようになる。これによって、まず全体を俯瞰した後、特徴のある特定の部位を発見し、その詳細を表示するという作業が容易に行えるようになる。以下実施例に即して説明する。
図1を参照すると、本発明の第1の実施例は、プログラム制御により動作するコンピュータ100は、音声入力手段110と、音声認識手段120と、認識結果を記憶する記憶手段130と、認識結果評価手段140と、認識結果整形手段150と、出力手段160とを備えている。これらはそれぞれ概略つぎのように動作する。
音声入力手段110は、マイクロフォンや電話回線、コンピュータネットワーク、あるいは、波形ファイル等から音声波形データを取得し、これを音声認識手段120に転送する。
音声認識手段120は、音声入力手段110から入力された音声波形データに対して音声認識処理を行う。その結果として、認識候補単語列(以下、「認識結果」という)と、尤度、信頼度等を得る。これらは、記憶手段130に送られる。
記憶手段130は、
・音声認識手段120に入力された波形、
・音声認識手段120から受け取った認識結果、
・認識結果の各部位に対する尤度、信頼度、および重要度、
等を保持し、認識結果評価手段140と認識結果整形手段150からの指示に基づいて、これらに必要な情報を受け渡す。
認識結果評価手段140は、記憶手段130から与えられた情報と、予め与えられたタスクの優先度リストから、音声認識結果の各部位の優先度を評価し、結果を記憶手段130に保管する。
本実施例で用いられる優先度について説明する。特に制限されないが、本発明において、ある単語wの優先度PRIORITY(w)は、以下の式(1)から求める。
PRIORITY(w) = f(CONFIDENCE(w), IMPORTANCE(w)) …(1)
ここで、
CONFIDENCE(w)は、単語wの認識結果における信頼度である。
IMPORTANCE(w)は、単語wの重要度である。
f(x,y)は、信頼度と重要度を混合する演算である。
信頼度とは、その単語の認識結果としての正しさを示す尺度である。認識結果の中でもより正しい(と考えられる)単語を優先することで、誤認識に煩わされる可能性を減じることができる。
また、特に、発話において意味のある部分は比較的丁寧に発話されると期待できるが、丁寧な発話の信頼度はおおむね高くなる。
重要度は、各々の単語に事前に付与される値である。この重要度は、音声認識アプリケーションのドメインや目的に応じて設定される。重要度を利用すると、音声認識結果を参照する際に、特に注視すべき単語を優先することで、より効率的に認識結果から情報を探し出すことが可能となる。なお、本実施例において、重要度は、認識結果評価手段140で算出してもよいし、予め単語に対応して重要度を記憶手段130に記憶保持し、認識結果評価手段140で単語の優先度を算出する際に参照するようにしてもよい。重要度を記憶手段130に記憶しておく場合、単語と重要度の情報を、アプリケーションやドメインに応じて辞書として、リムーバブルな記憶媒体等に記憶しておき、これを目的に応じて記憶手段130に格納するようにしてもよい。あるいは、ネットワークから、重要度情報をダウンロードして記憶手段130に格納するようにしてもよい。
上式(1)において、混合演算fとしては、
(A)適当な係数を用いた線形和や、
(B)適当なバイアスを用いた乗算などを用いる。
上記(A)では、信頼度と重要度のいずれかが高い単語ほど優先度が高いと判断する。どちらを重視するかは混合比で調節する。
また上記(B)も、同様であるが、重要度を音声認識の正しさで補正するというアプローチがより明確な場合に用いる。
さらに、複数の尺度に基づく重要度や信頼度を組み合わせてもよいことは勿論である。
音声認識は、入力音声の全区間に対して、最適なマッチングを求めるが、その結果得られた単語の中には、音声認識アプリケーションのドメインや目的からみて無意味であったり、障害となるものもある。
こうした単語を、フィルタリングすることでより好適な認識結果の優先度を求めることができる。例えば、一般に、不要語あるいは無意味語と呼ばれる一連の単語(例えば、「えーと」や相槌など)の優先度は、低くバイアスを掛けた方が好ましい場合が多い。
また、用途によっては、単語の品詞が名詞類(例えば名詞、代名詞、サ変動詞の語幹など)であった場合に、優先度を上げた方が好ましい。これは、発話において、最も情報量の高い単語は、名詞類であることが多いためである。
信頼度の具体的な定義は様々であるが、本実施例においては、単語事後確率、すなわち、認識結果として得られたワードグラフにおける、当該単語のアークに関する事後確率を用いている。
音声認識は、入力音声に最もよくマッチする単語の連鎖を求める処理である。ある単語からは複数の単語へ接続する可能性があり、さらに各単語は各々複数の別の単語と接続しうる。こうして単語の連鎖によって構築される有向グラフ構造は、「ワードグラフ」と呼ばれる。
一般に、ワードグラフは、非巡回有向グラフとして表現され、ノードと、アーク(ノードとノードを結ぶ有向リンク)から構成される。各アークにはそれぞれ単語が結び付けられており、アークの始端と終端にあたるノードには、それぞれ時刻が結び付けられている。
以上から、各アークの単語と、当該時刻における入力音声特徴量列とが決定し、その距離(=音響尤度)を求めることができる。
また、アークの連鎖は、すなわち単語の連鎖を意味するので、所与の言語モデルにおけるその単語連鎖の出現確立(=言語尤度)を求めることができる。
あるアークAの事後確率とは、ワードグラフにおけるすべてのパスの出現確率の和に対して、アークAを経由するすべてのパスの出現確率の和が占める割合を指す。
今、閉じたワードグラフGが与えられ、Gの始端ノードから終端ノードへと至るすべてのアーク連鎖の経路(パス)を辿ることができるものとする。
このとき、始端ノードからアークAへと至るすべてのパスについての出現確率(前向き確率)を求めることができる。
同様に、アークAから終端ノードへと至るすべてのパスについての出現確率(後向き確率)も計算できる。
アークAに至るパスと、アークAから発するパスのすべての組み合わせについて、その前向き確率と、後向き確率の積の和を求め、同様に求めたすべてのパスの出現確率の和で除することで、アークAの事後確率が求められる(例えば非特許文献2参照)。
その他の信頼度としては、
・認識結果の上位N候補の尤度に対する第1位の認識候補の尤度の比をとるもの(例えば非特許文献3参照)、
・複数の言語モデルに対してある単語が同じ位置に現れる比率を求めるもの(例えば非特許文献4参照)、
・ある時刻の入力音声に対する仮説数の密度を用いるもの(例えば非特許文献5)、
等様々な尺度が用いられる。
いずれにも共通している点は、認識結果のある一部(単語、単語列、場合によっては、音素列)、又は認識結果の全体が、他の対立する認識候補に対して、どの程度高い尤度を持っているかを示しているという点である。
次に、本実施例における重要度の付与について説明する。本実施例では、重要度の付与を手動で行ってもよいし、自動で行ってもよい。
手動による付与は、特に高い重要度を与えたい単語の種類数が少ない場合に適している。この場合、特に重要度を明示しない単語については、一律の重要度(1や0など)が与えられる。
その後、音声認識アプリケーションのドメインや目的に関する事前知識を参考に重要な単語を選び出して、高い重要度を明示的に与える。
自動による場合は、統計的手法や入力音声の構造に対する事前知識を用いる。最も素朴な方法としては、頻出する単語の重要度は高く、そうでない場合は低い値を与える。
また、TF/IDF(term frequency/inverse document frequency)法は、いくつかのテキスト(文の集まり)に対して、個々のテキストにおいて特徴的な単語には高い値を、そうでない単語には、低い値を与える。TF/IDF法の重みとして、ターム頻度tijを文書Dにおけるタームtの出現頻度とし、文書頻度dfをタームtが出現する文書数として、文書総数をNとすると、逆文書頻度(inverse document frequency)idfは、文書頻度dfを文書総数で正規化し、例えばidf=log(N/dfj)で与えられる。文書Dのタームtの重みは、wij=tij×idfで与えられる。
扱う発話が、比較的定常的な場合、TF/IDF値の高い単語が、重要である場合が多い。例えば、ファーストフード店における店員と客の会話は、比較的定常的である。個々の客とのやりとりを、テキストとした場合、各テキストの間で特徴的な単語とは、商品名など客ごとに異なる単語になると期待できる。
また、重要度の高い単語の前後に現れる名詞類や用言の重要度は、重要度の低い単語の前後に現れる場合より若干高くすると、好適となるケースもある。
認識結果整形手段150は、出力手段160に出力される範囲等に応じて、音声認識手段120から出力される認識結果を整形する。認識結果評価手段140がより重要と評価した部位から優先的に表示されるよう整形する。
認識結果整形手段150は、整形した認識結果を、出力手段160に送る。
出力手段160は、例えば表示装置、ファイル装置、印刷装置等よりなり、認識結果整形手段150によって整形された結果を出力する。
図2は、本発明の第2の実施例の構成を示す図である。図1の構成に、出力手段160として画面表示手段160Aを備え、表示対象範囲設定手段170と、波形再生指示手段(音声再生指示手段)180と、波形再生手段(音声再生手段)190を備えている。
表示対象範囲設定手段170は、ユーザの指示操作に基づき、画面表示手段160Aに表示される範囲を変更し、認識結果整形手段150に伝える。
表示対象範囲設定手段170によって表示範囲が切り替えられるごとに、認識結果整形手段150は、整形処理を行う。
波形再生指示手段180は、画面表示手段160Aに表示されている認識結果をユーザが選択することによって、その認識結果の元音声の再生を波形再生手段190に指示する。
波形再生手段190は、波形再生指示手段180からの指示に基づき、記憶手段130から、当該音声波形データを取り出して、スピーカーや、電話回線、コンピュータネットワーク、あるいは波形ファイル等に音声波形データを出力する。
図3は、図2に示した本実施例の認識結果整形手段150の構成を示す図である。図3を参照すると、認識結果整形手段150は、認識結果取り込み手段151と、整列済みインデックス記憶手段152と、整形処理計算手段153と、内部出力バッファ手段154とを備えている。
次に、図2、図3、さらに図4の状態遷移図を参照して、本実施例の全体の動作について詳細に説明する。
初期状態(図4の状態A1)において、音声入力手段110から音声波形データが入力されると、音声認識処理状態(図4の状態A2)に遷移する。
音声認識手段120は、入力された音声波形データを記憶手段130に保管するとともに、入力された音声波形データに対して音声認識処理を施し、その結果も記憶手段130に保管する。
また、音声認識手段120は、認識結果が更新されたことを認識結果評価手段140に通知し(図4の状態A2→A3)、認識結果評価手段140は認識結果に優先度を付加し、これを記憶手段130に保管するとともに、認識結果が更新されたことを認識結果整形手段150に通知する(図4の状態A3→A4)。
認識結果整形手段150は、表示対象範囲設定手段170によって与えられた表示対象範囲にあわせて、記憶手段130から取り出した認識結果に対して、優先度を参考に所定の整形処理を行った後、その結果を画面表示手段160Aに渡す(図4の状態A4→A5)。画面表示手段160Aは、渡された結果をユーザに提示し、図4の初期状態A1に戻る。
一方、図4の初期状態A1において、表示対象範囲設定手段170からユーザが表示対象範囲の切り替えを行うと(図4の状態A1→A6)、その結果を受けて認識結果整形手段150が再び整形処理を行い(図4の状態A4)、画面表示手段160Aが渡された結果を再びユーザに提示し直して、図4の初期状態A1に戻る。表示対象範囲によって認識結果評価手段そのものの振る舞いを変えられるような実装も可能であり、その場合、表示対象範囲の切り替えを受けて、図4の状態A6からA3への遷移が行われる。
一方、図4の初期状態A1において、ユーザが波形再生指示手段180を用いて画面表示手段160Aに表示されている認識結果のいずれかを選択すると(図4の状態A1→A7)、波形再生指示手段180は、これを波形再生手段190に通知する。
波形再生手段190は、この通知に基づいて記憶手段130から、当該認識結果の認識元である音声波形データを取り出して、これを再生する(図4の状態A7→A1)。
さらに図5は、本発明の実施形態における認識結果整形手段150の動作を説明するフローチャートである。図2、図3、図5を参照して、認識結果整形手段150の動作を詳細に説明する。
音声認識手段120または表示対象範囲設定手段170からの通知に基づき、認識結果整形手段150は、内部出力バッファ手段154と整列済みインデックス記憶手段152をクリアする(図5のステップB1)。
次に認識結果取り込み手段151によって記憶手段130から現在の表示対象範囲に含まれるすべての認識結果と、その優先度とを取得する(図5のステップB2)。
優先度を整列キーとして、認識結果の各部位を整列し、その結果のインデックスを、整列済みインデックス記憶手段152に記憶する(図5のステップB3)。
さらに、整形処理計算手段153は、認識結果をすべて「・」で表示するとして整形処理を行い、内部出力バッファ手段154に出力する(図5のステップB4)。
整形処理計算手段153は、内部出力バッファ手段154をチェックして、表示可能なスペースが余っている場合(図5のステップB5のNO分岐)、整列済みインデックス記憶手段152から最も優先度の高いインデックスを取り出し、同時に、整列済みインデックス記憶手段152からそのインデックスを削除する。得られたインデックスに相当する認識結果の部位を「・」ではなく、文字列として表示するように、再度整形処理を行い、その結果を内部出力バッファ手段154に出力する(図5のステップB6)。
図5におけるステップB6の処理を、内部出力バッファ手段154が満杯になるまで(図5のステップB5のYES分岐)、繰り返し、最後に、内部出力バッファ手段154に保持されていた出力結果を、画面表示手段160Aに渡す(図5のステップB7)。
本実施例においては、例えば、ある優先度以上の認識結果が必ず出力されるように、内部出力バッファ手段154は画面表示手段160Aよりも広いものと想定して、計算を行う。
この場合、表示対象範囲のすべてを一度に画面に表示しきれないことがあり得る。優先度が劣ると判断された認識結果の各部位に対しては「・」で表示するのではなく、その優先度に応じて表示の様態を変えて、あくまで文字列で表示してもよい。例えば、優先度が非常に小さな認識結果部位のフォントは小さく、優先度が増すにつれて徐々に大きなフォントで表示され、最も重要な部位のフォントは十分に目立つ大きさのフォントで表示するようにする。
優先度の低い部位に関しては、「・」と変わらない表示スペースしか必要としないため、この目的に適合する。
また、優先度の低い単語を薄い色のフォントで表示し、優先度が増すにつれて徐々に濃い色のフォントで表示するようにしてもよい。この場合、優先度が低い部位に関しても優先度が高い部位と同程度の表示スペースが必要となることから、表示スペースの節約の点では劣るものの、ユーザが俯瞰した際に、各部位間の距離感覚が直感的に分かる。
この結果、例えば、
・ある単語と別の単語が連続しているのか、それとも時間的に離れたものなのか、あるいは、
・どの程度離れているのか、
などの情報が、一目で識別できるというメリットがある。
図6(a)、図6(b)、図6(c)は、本発明の一実施例の画面表示例を示す図である。図6を参照して、本実施例のUIイメージについて説明する。
図6(a)を参照すると、ウィンドウ200には、認識結果表示リストボックス210と拡大表示ボタン220が配置されている。
認識結果表示リストボックス210はさらに発話インデックスペイン211と認識結果ペイン212とスクロールバー213を備える。
識結果表示リストボックス210の表示内容は、スクロールバー213によって上下にスクロールする。
図6(b)を参照すると、初期状態では、各発話とそれに対応する認識結果が認識結果表示リストボックス210に並んでいる。
多くの認識結果を一度に表示するため、特に重要な情報を除いてほとんどの認識結果は「・」で表示されている。また、拡大表示ボタン220は無効となっている。
ユーザがマウスを使って認識結果表示リストボックス210の一定範囲を選択すると、拡大表示ボタン220が有効となる。これをクリックすると、選択された範囲に表示対象範囲が切り替えられ、認識結果表示リストボックス210に表示される内容が切り替わる。
図6(c)を参照すると、一度に表示する対象が減じたため、個々の認識結果についてより多くの情報が出力されるようになったことが分かる。
次に、本実施例の効果について説明する。
本実施例では、認識結果整形手段150が、表示対象範囲設定手段170によって与えられた表示対象範囲にあわせた整形処理を行うため、ある範囲の音声データに対する認識結果を俯瞰しやすい形態で画面に表示することができる。
また、本実施例では、さらに、ユーザが表示対象範囲設定手段170から表示対象範囲を切り替えた際に、それにあわせて認識結果整形手段150が再度整形処理を行うため、表示される認識結果は、常に表示対象範囲に適切な情報量を持つことができる。
また、本実施例では、さらに、認識結果整形手段150は認識結果評価手段140が与える優先度を参考にして動作することから、ユーザは、より優先度の高い認識結果を素早く見つけることができる。
また、本実施例では、さらに、認識結果から素早く元音声の再生が指示できる。このため、全体を俯瞰して、興味深い認識結果を見つけたら、直ちに、再生して全文を確認することもできる。
また、本実施例によれば、大量の音声データを閲覧するような仕様形態(音声アーカイブの検索処理など)では、このようなUIが特に向いている。また、再生機能は、整形処理によって表示されなくなった情報を補う効果と、音声認識処理の認識精度を補う効果がある。
次に、本発明の第3の実施例について説明する。本実施例の構成は、図2と同様である。本実施例は、前記第2の実施例とは、図2の認識結果整形手段150の動作が異なる。図5のフローチャートを参照して、本実施例における認識結果整形手段150の動作を詳細に説明する。
音声認識手段120または表示対象範囲設定手段170からの通知に基づき、認識結果整形手段150は、内部出力バッファ手段154と整列済みインデックス記憶手段152をクリアする(図5のステップB1)。
次に、認識結果取り込み手段151によって記憶手段130から現在の表示対象範囲に含まれるすべての音声波形データと、それぞれの認識結果および優先度を取得する(図5のステップB2)。
優先度を整列キーとして、認識結果の各部位を整列し、その結果のインデックスを整列済みインデックス記憶手段152に記憶する(図5のステップB3)。
さらに、整形処理計算手段153は、取得した音声波形データを時間順に並べて内部出力バッファ手段154に出力する(図5のステップB4)。
整形処理計算手段153は、内部出力バッファ手段154をチェックして、表示可能なスペースが余っている場合(図5のステップB5のNO分岐)、整列済みインデックス記憶手段152から最も優先度の高いインデックスを取り出し、同時に整列済みインデックス記憶手段152からそのインデックスを削除する。
得られたインデックスに相当する認識結果の部位を、その部位に相当する音声波形データのそばに、吹き出し状に表示するとして、再度整形処理を行い、その結果を、内部出力バッファ手段154に出力する(図5のステップB6)。
表示する吹き出しと文字フォントの大きさは、優先度にあわせて大きくしてもよい。
また、吹き出しを透過表示とし、吹き出しを重ねて表示することによって、認識結果の隣接した部位を表示可能としてもよい。この時、優先度の低い吹き出しの透過度を高くすれば、優先度の高い単語のみが浮き上がって見える。
さらに、吹き出しに、アニメーション(明滅など)を組み合わせ、優先度の高い部位のアニメーションは他と比べてより派手に行うようにしても良い。
上記を内部出力バッファ手段154が満杯になるまで繰り返し、最後に、内部出力バッファ手段154に保持されていた出力結果を画面表示手段160Aに渡す(ステップB7)。ある優先度以上の認識結果が必ず出力されるように、内部出力バッファ手段154は画面表示手段160Aよりも広いと想定して計算を行う。その結果、表示対象範囲のすべてを一度に画面に表示しきれないことがあり得る。
本発明の音声認識システムは、例えば、
コールセンターのオペレータ品質管理、
議事録の閲覧、
映像アーカイブ検索、
音声書き起こし、
等に適用することができる。
本発明のコンピュータプログラムは、コールセンターにおけるオペレータ品質管理プログラムや応対トラブル検出プログラムや、会議、議会等の議事録閲覧プログラム、音声や映像アーカイブの検索プログラム、音声書き起こし処理を支援するコンピュータのプログラムに適用できる。これらのプログラムは、サーバ装置等で実行し、本発明の音声認識処理を実現するようにしてもよい。
音声書き起こし処理とは、音声を記録した記録媒体より、音声を再生し、再生音声を聴きながら内容を文章に起こす作業であり、本発明のコンピュータプログラムは、上記実施例で説明した音声入力手段110、音声認識手段120、認識結果評価手段140、認識結果整形手段150、出力手段160(あるいは、画面表示手段160A、表示対象範囲設定手段170、波形再生指示手段180、波形再生手段190)の各処理を行うことで、音声書き起こし処理を支援する。この音声書き起こし処理プログラムを実行することで、
・音声を聴きながら、その次に現れる文脈も先読みすることができる、
・読み飛ばし(聴き飛ばし)や、巻き戻しの指定が、表示画面を用いて視覚的に行うことができる、
・認識精度が比較的良好な発声に関してキータイプ入力の工数を省くことができる、
等の作用効果を奏することができる。
次に、本発明の音声認識システムを、録音した音声の再生装置に適用した例について、図1を参照して説明する。図1の音声入力手段110は、記録媒体(アナログテープ、又はデジタル記録媒体)に記録された音声データを入力して再生し、再生した音声データ(デジタル音声信号)を、音声認識手段120に供給する。音声認識手段120は、入力された音声を認識し、認識結果評価手段140は優先度を計算し、認識結果整形手段150は、優先度情報等に基づき、所定の優先度の認識結果を、出力手段160から出力する。例えば前述したフィルタリング等により、名詞類等を選択的に出力することで、例えば記録内容(テーマ)が不明のアーカイブデータの内容のサマリを録音内容の全部を聴かなくても把握することができる。また、アーカイブデータの内容の構造(認識された単語とその出現頻度、時系列等の構造)から、録音内容のテーマの展開も一覧で提示することを可能としている。さらに、認識結果と、優先度、元波形データの位置に対応して記録していくことで、再生時、例えば、長時間に及ぶ会議の時間推移をサマリとして俯瞰することができる。図2の構成とした場合、録音内容の概要が表示され、詳細を知りたいとき、範囲を選択する等して、元の音声の再生、あるいは、画面に、テキストで詳細な音声認識結果情報を得ることができる。
本発明の音声認識システム、あるいは再生装置は、携帯電話(mobile phone)、PDA等の携帯情報通信端末に適用してもよい。端末(クライアント)に入力された音声に関して、その音声認識処理を、IP網等を介して音声認識サーバに依頼し、認識結果(音声尤度、言語尤度等の認識情報も含む)を端末で受けとるようにすることで、端末の演算量の負荷を低減するようにしてもよい。
さらに、図1に示した実施例の変形例として、記憶手段130に記憶されている内容(音声データ、音声認識結果、優先度情報)を、図示されない記録媒体に保持し、認識結果整形手段150、出力手段160を用いて、出力する構成としてもよい。この場合、図1において、記憶手段130、認識結果整形手段150、出力手段160のみで構成される。認識結果(認識結果を構成する部位)と優先度とが対応して記憶手段130に格納されていることから、認識結果整形手段150、出力手段160による再生出力時、全体の記録内容のサマリを、高速に確認することを可能としている。
以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみに制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
本発明の第1の実施例の構成を示すブロック図である。 本発明の第2の実施例の構成を示すブロック図である。 本発明の第2の実施例における認識結果整形手段の構成を示すブロック図である。 本発明の第2の実施例の状態遷移図である。 本発明の第2の実施例の動作を示すフローチャート図である。 本発明の一実施例の表示例を示す図である。
符号の説明
100 コンピュータ
110 音声入力手段
120 音声認識手段
130 記憶手段
140 認識結果評価手段
150 認識結果整形手段
151 認識結果取り込み手段
152 整列済みインデックス記憶手段
153 整形処理計算手段
154 内部出力バッファ手段
160 出力手段
160A 画面表示手段
170 表示対象範囲設定手段
180 波形再生指示手段
190 波形再生手段
200 ウインドウ
210 認識結果表示リストボックス
211 発話インデックスペイン
212 認識結果ペイン
213 スクロールバー
220 拡大表示ボタン

Claims (23)

  1. 音声データを入力する音声入力手段と、
    前記音声入力手段より入力された音声データを受け音声認識を行う音声認識手段と、
    前記音声認識手段で音声認識された認識結果のある部位に対して、当該部位以外の他の部位と比較可能な優先度を求める認識結果評価手段と、
    前記認識結果と前記優先度とを少なくとも記憶する記憶手段と、
    前記優先度に従って前記認識結果の出力情報を整形する認識結果整形手段と、
    前記認識結果整形手段で整形された出力情報を出力する出力手段と、
    を含み、
    前記認識結果評価手段は、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識手段で音声認識された認識結果のある部位の単語について導出し、導出した前記信頼度と、前記単語に関する重要度との混合演算に基づき、前記優先度を算出する、ことを特徴とする音声認識システム。
  2. 前記認識結果整形手段は、前記優先度に応じて、前記認識結果の出力の有無、及び/又は、前記認識結果の出力形態を可変させる、ことを特徴とする請求項1記載の音声認識システム。
  3. 前記認識結果整形手段は、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記優先度が相対的に高い認識結果を、前記優先度が相対的に低い認識結果よりも、より判別容易な出力形態で出力する、ことを特徴とする請求項1記載の音声認識システム。
  4. 前記認識結果整形手段は、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記認識結果の省略形、出力サイズの大小、階調出力、吹き出し、アニメーション、透過出力、重ね出力、出力速度のうちの少なくともいずれか1つを調整する、ことを特徴とする請求項3記載の音声認識システム。
  5. 前記認識結果評価手段は、前記音声認識手段で音声認識された、前記認識結果及び/又は前記認識結果を構成する部位に対して、前記優先度を求める、ことを特徴とする請求項1記載の音声認識システム。
  6. 請求項1乃至5のいずれか一に記載の音声認識システムを備えた再生装置であって、
    前記音声入力手段は、記録媒体に記録されている音声データを入力して前記音声認識手段に供給し、前記記録媒体に記録されている音声の中から、前記所定の優先度に従って整形された認識結果が出力される、ことを特徴とする再生装置。
  7. 音声データを入力して音声認識し認識結果を出力する音声書き起こし装置であって、
    請求項1乃至5のいずれか一に記載の音声認識システムを備えている、ことを特徴とする音声書き起こし装置。
  8. 音声データを入力する音声入力手段と、
    前記音声入力手段より入力音声データを受け音声認識を行う音声認識手段と、
    前記音声認識手段で音声認識された、認識結果及び/又は前記認識結果を構成する部位に対して、優先度を求める認識結果評価手段と、
    前記認識結果と前記優先度とを少なくとも記憶する記憶手段と、
    前記優先度に従い、前記認識結果及び/又は前記認識結果を構成する部位の表示/非表示を判定し、出力イメージを作成する認識結果整形手段と、
    前記出力イメージを表示装置に出力する画面表示手段と、
    を含み、
    前記認識結果評価手段は、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識手段で音声認識された認識結果のある部位について導出し、導出した前記信頼度と、前記認識結果の前記ある部位の単語に関する重要度との混合演算に基づき、前記優先度を算出する、ことを特徴とする音声認識システム。
  9. 出力の対象とすべき音声データの範囲と、前記認識結果及び/又は前記認識結果の部位の範囲を設定する表示対象範囲設定手段をさらに含み、
    認識結果整形手段は、前記優先度と前記出力の設定範囲とに従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し、出力イメージを作成する、ことを特徴とする請求項8記載の音声認識システム。
  10. 前記記憶手段には、前記音声入力手段より前記音声認識手段に供給された入力音声データが記憶され、
    前記出力イメージを参照して、入力音声データの再生を指定する音声再生指示手段と、
    前記音声再生指示手段による指定に基づき、前記記憶手段に記憶されている、入力音声データを再生する音声再生手段と、
    をさらに含む、ことを特徴とする請求項8又は9記載の音声認識システム。
  11. 前記認識結果評価手段は、前記音声認識手段による前記認識結果及び/又は前記認識結果の部位の音響尤度、言語尤度、事後確率による信頼度のうちの少なくとも1つを用いて、前記優先度を導出する、ことを特徴とする請求項1、8、9、10のいずれか一に記載の音声認識システム。
  12. 前記認識結果評価手段は、前記音声認識手段による前記認識結果及び/又は前記認識結果の一部となり得る単語、単語連鎖に対して、重要度を用いて、前記優先度を導出する、ことを特徴とする請求項1、8、9、10のいずれか一に記載の音声認識システム。
  13. 前記認識結果整形手段は、前記出力イメージの作成に際して、前記優先度が、予め定められた閾値を越える認識結果及び/又は前記認識結果の部位を表示する、ことを特徴とする請求項8乃至12のいずれか一に記載の音声認識システム。
  14. 前記認識結果整形手段は、前記出力イメージの作成に際して、優先度の高い認識結果及び/又は前記認識結果の部位から、順に表示し、表示装置における表示領域が不足した場合、残りの認識結果及び/又は前記認識結果の部位を、所定の記号で代替表示する、ことを特徴とする請求項8乃至12のいずれか一に記載の音声認識システム。
  15. 前記認識結果整形手段は、前記出力イメージの作成に際して、前記優先度の相対的に高い認識結果及び/又は前記認識結果の部位から順に、前記認識結果及び/又は前記認識結果の部位が表示領域において占める領域が大きくなり、前記優先度が相対的に低い認識結果及び/又は前記認識結果の部位が表示領域において占める領域がより小さくなるように制御する、ことを特徴とする請求項8乃至12のいずれか一に記載の音声認識システム。
  16. 音声認識装置による音声の認識方法であって、
    音声データを入力する工程と、
    入力音声データの音声認識処理を行う工程と、
    音声認識処理による認識結果及び/又は前記認識結果の部位に対して、優先度を求める工程と、
    前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の出力情報を整形する工程と、
    前記整形された出力情報を出力する工程と、
    を含み、
    前記優先度を求める工程では、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識処理を行う工程で音声認識された認識結果のある部位について導出し、導出した前記信頼度と、前記認識結果の前記ある部位の単語に関する重要度との混合演算に基づき、前記優先度を算出する、ことを特徴とする音声認識方法。
  17. 前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し出力イメージを作成する工程と、
    表示画面に、前記作成された出力イメージを出力する工程と、
    を含む、ことを特徴とする請求項16記載の音声認識方法。
  18. 出力の対象とすべき音声データの範囲と、前記認識結果及び/又は前記認識結果の部位の範囲を設定する工程を含み、
    前記出力イメージを作成する工程は、優先度と前記出力の設定範囲とに従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し出力イメージを作成する、ことを特徴とする請求項17記載の音声認識方法。
  19. 前記出力イメージを参照して入力音声データの再生を指定する工程と、
    前記指定に基づき音声データを再生する工程と、
    を含む、ことを特徴とする請求項17記載の音声認識方法。
  20. 音声認識処理を行うコンピュータに、
    音声データを入力する処理と、
    入力した音声データの音声認識を行う処理と、
    前記音声認識での認識結果及び/又は前記認識結果の部位に対して、優先度を求める処理であって、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識された認識結果のある部位について導出し、導出した前記信頼度と、前記認識結果の前記ある部位の単語に関する重要度との混合演算に基づき、前記優先度を算出する処理と、
    前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の出力情報を整形する処理と、
    前記整形された出力情報を出力装置から出力する処理と、
    を実行させるプログラム。
  21. 請求項20記載のプログラムにおいて、
    出力の対象とすべき音声データの範囲、認識結果と認識結果の部位の範囲を設定する処理と、
    前記優先度と前記出力の設定範囲とに従い、前記認識結果または前記認識結果を構成する各部位の表示/非表示を判定し出力イメージを作成する処理と、
    を前記コンピュータに実行させるプログラム。
  22. 請求項1乃至5、8乃至15のいずれか一に記載の音声認識システムを備えたサーバ装置。
  23. 請求項1乃至5、8乃至15のいずれか一に記載の音声認識システムを備えた携帯通信端末装置。
JP2005299007A 2005-10-13 2005-10-13 音声認識システムと音声認識方法およびプログラム Expired - Fee Related JP4757599B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005299007A JP4757599B2 (ja) 2005-10-13 2005-10-13 音声認識システムと音声認識方法およびプログラム
US12/083,498 US8214209B2 (en) 2005-10-13 2006-10-11 Speech recognition system, method, and computer readable medium that display recognition result formatted in accordance with priority
PCT/JP2006/320288 WO2007043566A1 (ja) 2005-10-13 2006-10-11 音声認識システムと音声認識方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005299007A JP4757599B2 (ja) 2005-10-13 2005-10-13 音声認識システムと音声認識方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2007108407A JP2007108407A (ja) 2007-04-26
JP4757599B2 true JP4757599B2 (ja) 2011-08-24

Family

ID=37942796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005299007A Expired - Fee Related JP4757599B2 (ja) 2005-10-13 2005-10-13 音声認識システムと音声認識方法およびプログラム

Country Status (3)

Country Link
US (1) US8214209B2 (ja)
JP (1) JP4757599B2 (ja)
WO (1) WO2007043566A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8712757B2 (en) * 2007-01-10 2014-04-29 Nuance Communications, Inc. Methods and apparatus for monitoring communication through identification of priority-ranked keywords
JP2009055677A (ja) * 2007-08-24 2009-03-12 Fuji Electric Systems Co Ltd サーボ制御装置の支援装置
JP2010008601A (ja) 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
US8943394B2 (en) * 2008-11-19 2015-01-27 Robert Bosch Gmbh System and method for interacting with live agents in an automated call center
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
WO2010128560A1 (ja) * 2009-05-08 2010-11-11 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US8489390B2 (en) * 2009-09-30 2013-07-16 Cisco Technology, Inc. System and method for generating vocabulary from network data
US9201965B1 (en) 2009-09-30 2015-12-01 Cisco Technology, Inc. System and method for providing speech recognition using personal vocabulary in a network environment
US8990083B1 (en) 2009-09-30 2015-03-24 Cisco Technology, Inc. System and method for generating personal vocabulary from network data
US9009040B2 (en) * 2010-05-05 2015-04-14 Cisco Technology, Inc. Training a transcription system
US8935274B1 (en) 2010-05-12 2015-01-13 Cisco Technology, Inc System and method for deriving user expertise based on data propagating in a network environment
US9465795B2 (en) 2010-12-17 2016-10-11 Cisco Technology, Inc. System and method for providing feeds based on activity in a network environment
US8667169B2 (en) * 2010-12-17 2014-03-04 Cisco Technology, Inc. System and method for providing argument maps based on activity in a network environment
US8553065B2 (en) 2011-04-18 2013-10-08 Cisco Technology, Inc. System and method for providing augmented data in a network environment
US8528018B2 (en) 2011-04-29 2013-09-03 Cisco Technology, Inc. System and method for evaluating visual worthiness of video data in a network environment
US8620136B1 (en) 2011-04-30 2013-12-31 Cisco Technology, Inc. System and method for media intelligent recording in a network environment
US8909624B2 (en) 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US8886797B2 (en) 2011-07-14 2014-11-11 Cisco Technology, Inc. System and method for deriving user expertise based on data propagating in a network environment
US8831403B2 (en) 2012-02-01 2014-09-09 Cisco Technology, Inc. System and method for creating customized on-demand video reports in a network environment
US9087508B1 (en) * 2012-10-18 2015-07-21 Audible, Inc. Presenting representative content portions during content navigation
JP2014202848A (ja) 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
JP2015156656A (ja) * 2015-03-06 2015-08-27 株式会社インテック 複数の信号出力装置を管理するためのサーバー装置及び携帯機器用プログラム
JP6618992B2 (ja) * 2015-04-10 2019-12-11 株式会社東芝 発言提示装置、発言提示方法およびプログラム
JP6608199B2 (ja) * 2015-07-07 2019-11-20 クラリオン株式会社 情報システムおよびコンテンツ開始方法
JP6441203B2 (ja) * 2015-11-12 2018-12-19 日本電信電話株式会社 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム
CN107562760B (zh) * 2016-06-30 2020-11-17 科大讯飞股份有限公司 一种语音数据处理方法及装置
JP6950708B2 (ja) * 2016-12-05 2021-10-13 ソニーグループ株式会社 情報処理装置、情報処理方法、および情報処理システム
US10499121B2 (en) * 2018-01-09 2019-12-03 Nbcuniversal Media, Llc Derivative media content systems and methods
JP7062958B2 (ja) * 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
JP6640279B2 (ja) * 2018-05-30 2020-02-05 ソフトバンク株式会社 音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システム
JP7311310B2 (ja) * 2018-10-18 2023-07-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理装置、情報処理方法及びプログラム
WO2020139121A1 (en) * 2018-12-28 2020-07-02 Ringcentral, Inc., (A Delaware Corporation) Systems and methods for recognizing a speech of a speaker

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0798708A (ja) * 1992-09-30 1995-04-11 Hitachi Ltd 文書処理システムおよびその方法
US5835922A (en) * 1992-09-30 1998-11-10 Hitachi, Ltd. Document processing apparatus and method for inputting the requirements of a reader or writer and for processing documents according to the requirements
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JPH08255255A (ja) * 1995-03-16 1996-10-01 Sony Corp 文書情報レイアウト装置および文書情報表示装置
JPH1028170A (ja) * 1996-07-11 1998-01-27 Sony Corp 通信機器
JPH1125091A (ja) * 1997-07-09 1999-01-29 Just Syst Corp 文書要約支援装置およびその装置としてコンピュータを機能させるためのコンピュータ読み取り可能な記録媒体
JPH11150603A (ja) 1997-11-14 1999-06-02 Nec Corp 音声通信システム
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
JPH11338494A (ja) * 1998-05-22 1999-12-10 Toshiba Corp 音声認識システム及び方法
JP4132305B2 (ja) * 1998-11-10 2008-08-13 浜松ホトニクス株式会社 光電子増倍管及びその製造方法
JP2002049389A (ja) * 2000-08-03 2002-02-15 Nec Corp 音声認識方法およびそのプログラム記録媒体
US7236932B1 (en) * 2000-09-12 2007-06-26 Avaya Technology Corp. Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems
US6785650B2 (en) * 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech
JP3534712B2 (ja) * 2001-03-30 2004-06-07 株式会社コナミコンピュータエンタテインメント東京 音声編集装置及び音声編集プログラム
US6973428B2 (en) * 2001-05-24 2005-12-06 International Business Machines Corporation System and method for searching, analyzing and displaying text transcripts of speech after imperfect speech recognition
JP3550110B2 (ja) 2001-08-06 2004-08-04 松下電器産業株式会社 信号処理回路および信号処理方法
JP3927800B2 (ja) * 2001-12-04 2007-06-13 キヤノン株式会社 音声認識装置及び方法、プログラム、並びに記憶媒体
JP2003218999A (ja) * 2002-01-23 2003-07-31 Seiko Epson Corp 音声認識機能付き携帯電話装置及びその制御プログラム
US20030189603A1 (en) * 2002-04-09 2003-10-09 Microsoft Corporation Assignment and use of confidence levels for recognized text
US7380203B2 (en) * 2002-05-14 2008-05-27 Microsoft Corporation Natural input recognition tool
US6993482B2 (en) * 2002-12-18 2006-01-31 Motorola, Inc. Method and apparatus for displaying speech recognition results
JP2004326555A (ja) 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 画像・映像加工表示方法及び装置及び画像・映像加工表示プログラム及び画像・映像加工表示プログラムを格納した記憶媒体
JP2004343392A (ja) * 2003-05-15 2004-12-02 Nec Saitama Ltd 議事録機能付き携帯電話機およびその議事録生成処理方法
JP4296290B2 (ja) * 2003-10-22 2009-07-15 株式会社豊田中央研究所 音声認識装置、音声認識方法及びプログラム
US7729912B1 (en) * 2003-12-23 2010-06-01 At&T Intellectual Property Ii, L.P. System and method for latency reduction for automatic speech recognition using partial multi-pass results
US7450698B2 (en) * 2005-01-14 2008-11-11 At&T Intellectual Property 1, L.P. System and method of utilizing a hybrid semantic model for speech recognition
JP3827704B1 (ja) * 2005-03-30 2006-09-27 三菱電機インフォメーションシステムズ株式会社 オペレータ業務支援システム

Also Published As

Publication number Publication date
US8214209B2 (en) 2012-07-03
WO2007043566A1 (ja) 2007-04-19
US20090234648A1 (en) 2009-09-17
JP2007108407A (ja) 2007-04-26

Similar Documents

Publication Publication Date Title
JP4757599B2 (ja) 音声認識システムと音声認識方法およびプログラム
JP5104762B2 (ja) コンテンツ要約システムと方法とプログラム
US9478219B2 (en) Audio synchronization for document narration with user-selected playback
US10088976B2 (en) Systems and methods for multiple voice document narration
US8498867B2 (en) Systems and methods for selection and use of multiple characters for document narration
US8370151B2 (en) Systems and methods for multiple voice document narration
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
KR20070090745A (ko) 감정 보존 기능을 갖는 음성 및 텍스트 채널을 통한 통신
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2008083100A (ja) 音声対話装置及びその方法
JP6513869B1 (ja) 対話要約生成装置、対話要約生成方法およびプログラム
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP6327745B2 (ja) 音声認識装置、及びプログラム
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
US20240021193A1 (en) Method of training a neural network
JP2020134719A (ja) 翻訳装置、翻訳方法、および翻訳プログラム
EP0982684A1 (en) Moving picture generating device and image control network learning device
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
Hempel Usability of speech dialog systems: listening to the target audience
JP4229627B2 (ja) ディクテーション装置、方法及びプログラム
US8635071B2 (en) Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP2012190088A (ja) 音声記録装置、方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090629

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091104

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091113

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20091204

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110601

R150 Certificate of patent or registration of utility model

Ref document number: 4757599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees