JP2005242183A - 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム - Google Patents

音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム Download PDF

Info

Publication number
JP2005242183A
JP2005242183A JP2004054499A JP2004054499A JP2005242183A JP 2005242183 A JP2005242183 A JP 2005242183A JP 2004054499 A JP2004054499 A JP 2004054499A JP 2004054499 A JP2004054499 A JP 2004054499A JP 2005242183 A JP2005242183 A JP 2005242183A
Authority
JP
Japan
Prior art keywords
display
word
words
recognition
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004054499A
Other languages
English (en)
Inventor
Kazunori Imoto
和範 井本
Munehiko Sasajima
宗彦 笹島
Hiroshi Shimomori
大志 下森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004054499A priority Critical patent/JP2005242183A/ja
Publication of JP2005242183A publication Critical patent/JP2005242183A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】表示画面による情報伝達機能やデザイン性を損なうことなく、音声認識可能な単語をユーザに報知する
【解決手段】音声認識部110は、認識辞書160に登録された認識対象単語を認識することができるようになっている。ユーザから検索等の処理要求がなされると、要求処理部120はその要求に対する処理結果(検索結果など)を表示するための画面の構成要素を作成する。表示制御部130は、このような画面中に含まれる単語の中に、認識辞書160に登録される単語がある場合には、かかる単語についてはあらかじめ認識辞書に登録された単語用に用意されている表示規則にしたがって表示態様を決定する。これにより辞書に登録されていない単語とは異なる態様で表示することができ、ユーザが要求する処理に対する結果を伝えつつ、認識可能な単語を報知することができる。
【選択図】 図1

Description

本発明は、音声認識により認識可能な単語を表示する表示制御装置、音声認識装置、レコーダ装置、表示方法およびプログラムに関するものである。
近年、音声認識技術が様々な機器において利用されており、これらの機器に音声入力インタフェースが組み込まれている。音声入力インタフェースを用いることでキーボードなどの入力デバイスを用いることなく、機器に対する入力の際の利便性が向上することになるが、ユーザが音声認識の対象となっていない単語等を発声した場合、ユーザが意図した単語と異なる単語が誤認識され、ユーザの意図しない動作が行われてしまうおそれがある。
すなわち、一般的な音声認識技術では、音声認識の対象となる単語、つまり認識可能な単語をあらかじめ認識辞書に格納しておき、認識辞書に格納された単語の中で最も入力音声に近い単語を認識結果として出力するため、認識辞書に格納されていない単語を発声すると、上記のような誤認識がなされたり、認識できなかったりすることがあるのである。
特に、このような音声入力インタフェースを搭載した機器をほとんど利用したことのない利用者は、何を言えば機器が動作するのかわからずに困惑することも多く、認識される単語を調べるためにマニュアルを引いていたのでは、入力を簡易にするという音声入力インタフェースの利点が生かされない。
以上のような問題を解決するためには、ユーザに認識対象単語を音声や表示等の出力インタフェースを用いて適切に報知する必要があり、認識可能な単語のリストを表示画面の一部に表示させる技術や(例えば、特許文献1参照)、ヘルプ発話によって認識可能な単語を補助画面に表示させるといった技術が提案されている(例えば、特許文献2参照)。
また、装置に入力可能な単語を、赤色、青色等の異なる表示態様で表示させるとともに、ユーザが入力したい単語の表示形態の種類、例えば「アカ」、「アオ」等が発声された場合に、発声された表示形態の種類に対応する単語を入力する技術が提案されている(例えば、特許文献3参照)。
特開平6−332665号公報 特開平11−65739号公報 特開2002−278587号公報
しかしながら、上記特許文献1に開示された技術では、認識対象の単語が非常に多くなれば、全ての認識可能な単語を一度にリスト表示するのは難しく、リストを表示するために画面領域の一部に本来表示すべき内容が表示できないといったことも生じる。さらには、リスト表示のために画面のデザイン性も損なわれる。
また、特許文献2に開示された技術では、補助画面を表示・消去するのにヘルプ発話といった音声コマンドの入力が必要になるため、機器との間で冗長なやりとりが増え、入力の簡易化という音声入力インタフェースの利点が活かされない。
また、特許文献3に開示された技術は、表示形態の種類を発声することで所望の単語を入力する技術であり、結果として表示された入力項目を入力することができるが、音声認識可能な単語そのものをユーザに報知するものではない。
すなわち、特許文献3に開示された技術では、「アカ」、「アオ」といった表示形態の種類が音声認識可能な単語であるが、これらの単語についてはユーザが音声入力が可能であることを前提とし、認識可能な表示形態の種類に入力項目を割り当て、認識可能であることが既知の「アカ」等の単語を発声することで、それに対応する入力項目を選択する技術である。したがって、表示を通して音声認識可能な単語をユーザに報知することはできず、また入力が直接的ではないため、音声入力インタフェースを搭載した機器の操作などと直感的に結びつかず分かり難いという問題があった.
本発明は、上記に鑑みてなされたものであって、表示画面による情報伝達機能やデザイン性を損なうことなく、音声認識可能な単語をユーザに報知することができる音声認識装置、表示制御装置、レコーダ装置、音声認識方法およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の一態様にかかる音声認識装置は、音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、
前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段と、入力された要求に対する要求処理結果を表示画面に表示する際に、前記表示画面の中に前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する表示制御手段と、を具備することを特徴とする。
また、本発明の別の態様にかかる音声認識装置は、音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段と、前記音声認識手段により認識された音声に基づく要求を処理する要求処理手段と、入力された要求に対する前記要求処理手段による要求処理結果を表示画面に表示する際に、前記表示画面の中に前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する表示制御手段と、を具備することを特徴とする。
また、本発明の別の態様にかかる表示制御装置は、音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段とを備えた音声認識装置で認識可能な単語を表示させる表示制御装置であって、入力された要求に対する要求処理結果を表示画面に表示する際に、その表示内容を制御する表示制御手段と、前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段とを具備し、前記表示制御手段は、前記表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定することを特徴とする。
また、本発明の別の態様にかかるレコーダ装置は、画像を記憶する処理を行うレコーダ装置であって、音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、前記音声認識手段により認識された音声に基づく要求を処理する要求処理手段と、要求に対する前記要求処理手段による結果を表示画面に表示する際にその表示内容を制御する表示制御手段と、前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段とを具備し、前記表示制御手段は、前記表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定することを特徴とする。
また、本発明の別の態様にかかる表示方法は、音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段とを備えた音声認識装置が認識可能な単語を表示する方法であって、入力された要求に対する要求処理結果を表示画面に表示する際に、当該表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語についてあらかじめ決められた表示規則にしたがって表示態様を決定することを特徴とする。
また、本発明の別の態様にかかるプログラムは、コンピュータを、入力された要求に対する要求処理結果を表示画面に表示する際に、当該表示画面に表示すべき結果の中に、音声認識処理に用いられる認識辞書に格納される単語が含まれている場合、含まれている単語についてあらかじめ決められた表示規則にしたがって表示態様を決定する表示制御手段
として機能させることを特徴とする。
本発明によれば、表示画面による情報伝達機能やデザイン性を損なうことなく、音声認識可能な単語をユーザに報知することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる音声認識装置、表示制御装置、レコーダ装置、音声認識方法およびプログラムの好適な実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態にかかる音声認識装置の構成を示すブロック図である。同図に示すように、この音声認識装置10は、音声入力部100と、音声認識部110と、要求処理部120と、表示制御部130と、表示部140と、音響辞書150と、認識辞書160と、規則適用単語テーブル170と、表示規則記憶部180と、要求処理用情報記憶部190とを備える。
このように本実施の形態における音声認識装置10は、ユーザからの要求を入力し、当該要求に応じた処理を行うための要求処理部120や要求処理用情報記憶部190を備えているが、要求処理部120や要求処理用情報記憶部190を音声認識装置内に一体に組み込む構成とする必要はなく、これらを分離した構成としてもよい。
音声入力部100は、マイクロホン等を有しており、当該音声認識装置10のユーザが発声した音声等の音を受信し、受信した音を音声認識部110が処理可能な音響信号に変換して出力する。
音声認識部110は、音声入力部100から供給される音響信号を解析し、音響辞書150を参照しながら認識辞書160に格納された単語と音響的に最も類似するものを認識結果として要求処理部120に出力する。これによりユーザは音声入力部100に向けて、要求処理部120に対して入力したい単語(要求内容等)を発声すれば、音声認識部110によって入力したい単語が認識結果として入力される。なお、ここで、認識対象となる単語とは、1つの単語のみならず、複数の単語からなる単語列も含むものとする。また、音声認識部110が行う音声認識方法は、HMM(Hidden Markov Model)を利用する方法など公知の種々の方法を用いることができる。
音響辞書150には、上記のような音声認識部110によって用いられる音響に関する情報が格納されており、認識辞書160には音声認識部110によって認識可能な単語、および認識可能単語を認識するためにユーザが発声することが可能な読み方が格納されている。図2に、認識辞書160に格納される情報の一例を示す。
同図に示すように、認識辞書160には、認識対象単語「情報通」、「しん」、「黄門様」、「高校野球」‥‥と、これらの認識対象単語に対応する読み方「じょうほうつう」、「しん」、「こうもんさま」、「こうこうやきゅう」‥‥とが対応つけて格納されている。したがって、ユーザが音声入力部100に向けて「こうもんさま」と発声すると、音声認識部110によって読み方「こうもんさま」に対応する単語「黄門様」が認識され、認識結果として出力されるのである。
図1に戻り、要求処理部120は、上記のように音声認識部110の認識結果であるユーザの要求に応じた処理を行い、その処理結果を表示部140に表示させるべく、処理結果を表示制御部130に出力する。本実施の形態では、要求処理部120は、ユーザが入力した単語(テレビ番組名等)に関する検索処理を行うものであり、要求処理用情報記憶部190には要求処理部120が要求に応じた処理を行うために必要な情報が記憶されている。
ここで、要求処理用情報記憶部190に記憶される情報の一例を図3に示す。同図に示す例では、要求処理用情報記憶部190には、上記要求処理部120によって行われる検索処理に必要な番組データベースが格納されている。このような番組データベースが記憶されている場合、要求処理部120はユーザからの番組検索要求に応じてテレビ番組の検索を行うことができる。
番組データベースは、「ID」、「番組名」、「放送日時」、「放送局」、「ジャンル」、「出演者」といった番組に関する項目情報が対応つけられたものとなっている。このような番組データベースを参照することで、要求処理部120は、ユーザが出演者名(峰竜太郎等)やジャンル(社会・報道)をキーとして検索要求をなした場合に、当該出演者が出演している番組や要求したジャンルの番組等を検索することができるようになっている。
つまり、本実施の形態では、ユーザが検索を要求する番組名、出演者名等の単語を音声入力部100に向けて発することで、かかる単語が音声認識されて要求処理部120に供給される。要求処理部120は、このように音声認識を利用して入力された単語に関する情報を要求処理用情報記憶部190に格納された情報の中から検索し、検索結果を表示するための画面の構成要素を表示制御部130に供給するのである。
図1に戻り、表示制御部130は、要求処理部120によって処理されたユーザの要求に対する結果、つまりユーザが検索要求した単語に関する検索結果を表示部140に表示するための表示用データを生成し、表示部140に出力する。本実施の形態における表示制御部130は、要求処理部120の処理結果を単純に表示させるのではなく、かかる処理結果を表示させる際に、認識辞書160に格納された単語、つまり音声認識可能な単語をユーザに報知しうる表示が行われるよう表示内容を制御する。
上記のような表示内容制御を行うため表示制御部130は、規則適用単語決定部131と、表示態様決定部132とを有している。規則適用単語決定部131は、上記のように表示部140に表示するべく要求処理部120から供給された処理結果(テレビ番組の検索結果等)の中に、認識辞書160に格納されている単語(図2の「情報通」、「黄門様」など)が含まれているか否かを調査し、含まれている場合にはその単語を後述する表示規則の適用がある単語であるとして規則適用単語テーブル170に登録する。
ここで、図4に規則適用単語テーブル170の内容の一例を示す。同図に示すように、規則適用単語テーブル170には、要求処理部120による処理結果に含まれる単語と、当該単語に表示規則が適用されるか否かを示す適用フラグとが登録されている。ここで、適用フラグが「1」の場合には適用があることを示し、「0」は適用がないことを表すフラグである。上記のように認識辞書160に格納されている「黄門様」や「次のページ」という単語については適用フラグ「1」が、認識辞書に格納されていない単語「2件」については適用フラグ「0」が付与されることになる。
表示態様決定部132は、上記のように規則適用単語決定部131によって登録された規則適用単語テーブル170を参照し、適用フラグが「1」、つまり規則を適用することが決定された単語について、表示規則記憶部180に記憶された表示規則にしたがった態様で表示がなされるよう表示内容を制御する。すなわち、規則が適用されない単語については特別の処理が行われず、当該装置の表示設定にしたがった態様で表示されるのに対し、規則が適用される旨が登録された単語については、その時点の表示設定にかかわらず表示規則記憶部180に記憶された表示規則にしたがった態様で表示されるよう制御されるのである。
ここで、図5に表示規則記憶部180に記憶される表示規則の一例を示す。同図に示すように、この表示規則では、適用フラグ「0」が付与された単語の場合、つまり適用しない単語については「変更なし」、つまり装置の表示設定等にしたがった態様で表示をなすようになっているのに対し、適用フラグ「1」が付与された単語の場合、つまり適用のある単語については「Font+2、Bold化」といった態様で表示すべき旨が規定されている。なお、特許請求の範囲における表示規則は、認識辞書160に格納された単語について適用されるものをいうので、表示規則記憶部180に格納される適用フラグ「1」に対応する規則が、特許請求の範囲における表示規則に該当する。ただし、適用フラグ「0」に対応する単語について適用する他の規則を用意し、これを表示規則記憶部180に記憶させるようにしてもよい。
これを参照した表示態様決定部132は、適用フラグ「1」が付与された単語については、通常の設定よりもフォントを2つ大きく、かつボールド化して表示させる、つまり適用のない単語よりもフォントを2つ大きく、かつボールド化して表示させるよう制御するのである。
表示部140は、LCD(Liquid Crystal Display)等の表示画面を有しており、この表示画面に要求処理部120の処理結果に対応する内容であり、上記表示制御部130によって制御された内容の表示がなされる。
以上が本発明の第1の実施の形態にかかる音声認識装置10の構成であり、以下当該音声認識装置10の動作について具体例を挙げながら説明する。ここでは、要求処理部120がユーザからの音声入力によるテレビ番組検索要求、例えばジャンルや出演者を指定した番組検索要求に対する処理を行い、その処理結果であるテレビ番組検索結果を表示部140に表示する場合を例に挙げて説明する。
まず、ユーザが音声入力部100に向けて、所望の検索のための情報、つまり所望番組のジャンル、出演者、チャンネル、放送時刻、番組名等の情報を発声する。例えば、「今日のドラマ」、「10チャンネル」、「松平武司の出演している番組」等の検索条件を発声する。すると、音声入力部100によってかかる音声が音響信号に変換され、当該音響信号に対して音声認識部110による音声認識処理が行われる。
ここで、ユーザが「今日のドラマ」といった言葉を発した場合、音声認識部110によって「今日のドラマ」が認識され、検索条件文言として要求処理部120に供給される。要求処理部120は、かかる検索条件文言にしたがって検索処理を行う。かかる検索処理の手順を図6を参照しながら説明する。
同図に示すように、要求処理部120は、入力された「今日のドラマ」が受理可能か否かを判定すると同時に、番組検索処理において検索キーや操作コマンドに対応する単語と、その属性を抽出する(ステップS101)。例えば、要求処理部120は、受理可能な単語列をあらかじめテンプレートの形式で保持しており、テンプレートと一致するか否かで受理可能の判定を行うものとする。ここで、要求処理部120が保持する複数のテンプレートの「“日付”の “ジャンル"」が含まれているものとする。
この場合、認識結果の「今日」は日付、「ドラマ」はジャンルの具体値であると判別することができ、「“今日”の “ドラマ"」は保持するテンプレートに合致する。よって、「今日のドラマ」は受理可能な単語として判定され、「今日」という属性と、「ドラマ」という属性が抽出される。
上記のように属性を抽出すると、要求処理部120は、抽出した属性値を用いて、検索クエリを作成し、要求処理用情報記憶部190に記憶されている番組データベース(図3参照)から条件に合致する番組を検索する(ステップS102)。例えば、その要求をなした日が2003年8月20日だとすれば、ID「02」の「しん」、ID「03」の「黄門様」などの番組が検索される。
以上のように番組検索を行うと、要求処理部120はかかる検索結果を表示部140に表示させるための内容、つまり表示画面の構成要素を生成する(ステップS103)。ここで、要求処理部120は、あらかじめ保持されている表示画面の構成要素のテンプレートを利用して表示画面の構成要素を生成する。ここで、図7に、保持されているテンプレートの一例を示す。
要求処理部120は、同図に示されるようなテンプレートの[]で表現される枠内に上記検索結果等を当てはめる形で表示画面の構成要素を生成する。そして、上記のように番組「しん」と「黄門様」が検索された場合には、図8に示すような表示画面の構成要素が生成されることになる。
以上が要求処理部120による検索処理およびその結果を表示するための構成要素の生成処理であり、このように生成された検索結果の表示画面の構成要素が表示制御部130に供給される。表示制御部130では、上記のように検索結果を表示するための構成要素に含まれる単語をそのまま表示させるのではなく、かかる検索結果を表示させる際に、音声認識可能な単語をユーザに報知しうる表示が行われるよう表示内容を制御する。
このような制御を行う表示制御部130の規則適用単語決定部131の処理動作について、図8に示すような検索結果表示画面の構成要素が供給された場合を例に挙げて説明する。図9に示すように、規則適用単語決定部131は、検索結果の表示画面の構成要素の中から最初の単語(「2件」)を取得する(ステップS201)。
このように表示画面の構成要素から単語を切り出す方法としては、空白で区切られた文字列を一つの単語とみなして切り出す手法や、形態要素解析方法など公知の種々の方法を用いることができる。このように最初の単語を切り出すと、規則適用単語テーブル170に取得した単語(「2件」)を登録するとともに、当該単語に対応する適用フラグを初期化(フラグ=「0」)する(ステップS202)。
そして、認識辞書160(図2参照)に格納されている最初の単語(「情報通」)を取得する(ステップS203)。この後、表示画面の構成要素から取得した単語、つまり検索結果として表示すべき内容に含まれる単語の中から取得した単語と、認識辞書160から取得した単語とを比較し、両者が一致するか否かを判別する(ステップS204)。
ここで、両者が一致しない場合(上記例では取得される単語が「2件」と「情報通」であるので一致しない)、表示画面の構成要素から取得された単語と、認識辞書160に格納されている単語すべてとを比較したか否かを判別する(ステップS205)。そして、すべての単語と比較していない場合には、認識辞書160の中から次の単語を取得し(ステップS206)、ステップS204に戻り、認識辞書160から取得した単語と、表示画面の構成要素から取得した単語とが一致するか否かを判別する。つまり、検索結果として表示すべき内容に含まれる単語が、認識辞書160に格納されている単語であるか否かを判別するのである。
一方、ステップS204において両単語が一致すると判別される場合、規則適用単語テーブル170の当該単語の適用フラグに「1」と立て(ステップS207)、当該単語が規則適用単語である旨の登録を行う。そして、表示画面の構成要素に含まれるすべての単語について認識辞書160に格納される単語との比較処理を行ったか否かを判別し(ステップS208)、すべての単語について処理済でない場合、表示画面の構成要素から次の単語を取得し(ステップS209)、ステップS202に戻り、規則適用単語テーブル170に登録するとともに、当該単語に対応する適用フラグを初期化する。
また、ステップS205において表示画面の構成要素に含まれるある単語について認識辞書160中のすべての単語との比較が終了したと判別された場合、適用フラグを立てる処理(ステップS207)は行われず、ステップS208に進む。つまり、表示画面の構成要素中の当該ある単語については、適用フラグは「0」のままである。
そして、ステップS208において、表示画面の構成要素に含まれるすべての単語について比較処理が終了したと判別された場合、規則適用単語テーブル170への登録処理を終了する。すなわち、検索結果表示画面の構成要素に含まれるすべての単語について、認識辞書160中のすべての単語との一致不一致の判定が行われると、当該処理が終了する。
以上のような処理を行うことで、要求処理部120の検索結果を表示すべき内容、つまり表示画面の構成要素に含まれる単語のすべてについて、規則を適用すべきか否かの判断が行われ、規則適用のある単語についてはその旨のフラグ「1」が規則適用単語テーブル170に登録される。
上記のような規則適用単語テーブル170への登録処理が終了すると、表示態様決定部132は、登録処理後の規則適用単語テーブル170を参照して、要求処理部120から供給された表示画面の構成要素中の各単語の表示態様を決定する処理を行う。かかる処理の詳細について図10を参照しながら説明する。
同図に示すように、まず規則適用単語テーブル170に登録された最初の単語を取得する(ステップS301)。そして、表示規則記憶部180に記憶されている表示規則(図5参照)を参照し、取得した単語に対応する適用フラグに対応する規則を抽出する(ステップS302)。すなわち、適用フラグが「1」である場合には、当該単語について適用フラグ「1」に対応する、つまり認識辞書160に登録された単語用の表示規則を抽出し、当該規則にしたがった表示修正を行う。具体的には、フォントを2つ大きくし、かつボールド化して表示されるように表示形態を修正する(ステップS303)。
一方、取得した単語に対応する適用フラグが「0」の場合、抽出される規則は「変更なし」、つまり特別な表示規則が適用されないことを意味し、当該規則にしたがった特別な修正はなされないことになる。本実施の形態では、変更なしとして記憶するようにしているが、適用フラグ「0」は表示規則が適用されないということを意味しているので、このような情報を記憶しないようにしてもよい。
以上のように表示規則にしたがった修正(修正なしの場合もあり)がなされると、規則適用単語テーブル170に登録されているすべての単語について上記表示規則に従った修正処理をなしたか否かを判別する(ステップS304)。そして、すべての登録単語について処理が終了していない場合には、規則適用単語テーブル170から次の単語を取得し(ステップS305)、ステップS302以降の処理を行う。
一方、すべての登録単語について処理が終了した場合には、当該表示態様決定処理を終了する。このような処理を行うことで、要求処理部120の検索結果を表示すべき内容、つまり表示画面の構成要素に含まれる単語のうち、認識辞書160に格納されている単語については、表示規則にしたがって表示態様の修正処理(規則適用のない場合よりもフォント2サイズ大きく、かつボールド化)がなされる。
以上のように表示制御部130によって、検索結果の表示画面の構成要素に含まれる単語をうち、音声認識可能な単語が他の単語と異なる態様(フォント、字体)で表示されるよう表示内容が制御される。そして、表示制御部130によって制御された内容の表示画面が表示部140に表示される。ここで、図11に表示部140の表示内容の一例を示す。同図に示すように、テレビ番組の検索結果表示画面中の単語のうち、認識辞書160に格納されている単語、つまり音声認識可能な単語(「NBS」、「SBS」といった放送局名、「ドラマ」といったジャンル名、「しん」や「黄門様」といった番組名等の単語)がボールド化され、かつ2サイズ大きいフォントで強調表示される。
以上説明したように本実施の形態では、ユーザが処理要求をなすと、要求処理部120によって当該要求が処理され、その処理結果(上記例では、テレビ番組の検索結果)が表示部140に表示される。そして、このような表示画面に含まれる単語のうち、当該音声認識装置10で認識することが可能な単語を他の単語とは異なる態様で表示することができる(図11参照)。これにより、当該表示を参照したユーザは、自己の要求に対する結果を知ることができるとともに、音声認識が可能な単語を知ることができる。
したがって、音声認識が可能な単語をユーザに報知するために特別のリストを表示させたり、ヘルプ発話で補助画面を表示させたりする必要がなく、本来必要な情報提供を妨げることなく、音声認識可能な単語をユーザに報知することができる。また、認識可能単語を報知するための特別画面等が不要となるので、画面デザインが大きく損なわれてしまうことも抑制できる。
特に、音声認識に不慣れなユーザや、音声認識が搭載された機器そのものをほとんど利用したことのないユーザにとっては、画面を見ても何を言えば対象の機器が動作するのかが分からず困惑することが多い。本実施の形態では、認識可能な単語を他と異なる態様で表示(強調表示)してユーザに提示される。また、何らかの表示画面が表示される際には、上記のようにその表示画面に含まれる単語のうち、音声認識可能な単語が強調表示されて定時される、つまり当該音声認識装置の利用中は認識可能な単語が一貫して強調表示されるので、認識単語を調べるためにマニュアルを読み直すといった無駄な作業が軽減される。さらには、未知語の入力によって起こる誤動作を軽減できる可能性が高いなど多大な効果が期待できる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。図12は、本発明の第2の実施の形態にかかる音声認識装置20の構成を示すブロック図である。同図に示すように、第2の実施の形態における音声認識装置20は、上記第1の実施の形態における音声認識装置10の構成に加え、読み方頻度管理部210と、表示読み方決定部220と、読み履歴記憶部230とを備えており、また認識辞書160に代えて認識辞書260、規則適用単語テーブル170に代えて規則適用単語テーブル270を備える点で第1の実施の形態と相違している。なお、第2の実施の形態において、第1の実施の形態と共通する構成要素には同一の符号をつけてその説明を省略する。
本実施の形態における認識辞書260は、1つの認識対象単語に複数の読み方が対応つけられている。ここで、図13に認識辞書260に格納されるデータの一例を示す。同図に示すように、認識辞書260には、1つの認識対象単語「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」について、3つの読み方「げつようひすてりーげきじょう」、「こくはつべんごにんしりーず」、「いのくまふみあきふぁいぶ」が対応つけられている。かかる認識辞書260を参照する音声認識部110は、ユーザによって上記3つの読み方のいずれで発声された場合にも、「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」という認識対象単語を認識することができる。
読み方頻度管理部210には、音声認識部110によって認識された結果が供給される。読み方頻度管理部210は、音声認識部110の認識結果に含まれる単語(図2の認識対象単語)と、その認識の際にユーザが発声した読み方との組み合わせとを読み履歴記憶部230に加算する形で更新する。つまり、本実施の形態では、上記のように1つの認識対象単語について複数の読み方が対応つけられており、上記のような組み合わせ出現頻度を管理することで、認識対象単語を認識させるためにユーザが最も多く利用した読み方を把握することができる。
読み履歴記憶部230には、上記のように読み方頻度管理部210によって管理される認識対象単語と読み方との組み合わせが出現した頻度が記憶されている。ここで、読み履歴記憶部230の記憶内容の一例を図14に示す。同図に示すように、読み履歴記憶部230は、認識対象単語と読み方との組み合わせ、およびその頻度に加え、読み方対応文字列といった情報が対応つけて格納されている。ここで、読み方対応文字列とは、読み方に対応する区間の文字列である。
音声認識部110によって音声認識がなされた場合、その認識内容に応じて以上のような読み履歴記憶部230の頻度が上記読み方頻度管理部210によって更新される。例えば、図示のような記憶がなされている状態において、ユーザが「にほんまるみえ」と発声し、当該発声に応じて「日本丸見え!テレビ特派員」という認識対象単語が認識された場合、読み方「にほんまるみえ」に対応する頻度が「5」から「6」に更新されるのである。
表示読み方決定部220は、読み履歴記憶部230に記憶された内容を参照し、規則適用単語テーブル270に登録された単語のうち、複数の読み方を有する単語に対して、規則適用対象文字列をあらかじめ決められた基準にしたがって書き込む処理を行う。なお、規則適用単語テーブル270の認識対象単語および読み方は、上記第1の実施の形態と同様の手順で規則適用単語決定部131によって登録されている。
ここで、本実施の形態における規則適用単語テーブル270の登録内容の一例を図15に示す。同図に示すように、第2の実施の形態における規則適用単語テーブル270は、上記第1の実施の形態のテーブル内容(図4参照)に加え、規則対象文字列という項目が追加されたものとなっており、表示読み方決定部220は当該項目にあらかじめ決められた基準にしたがって決定される規則対象文字列を書き込む処理を行うのである。
本実施の形態では、規則適用単語テーブル270に登録された複数の読み方を有する単語(例えば、「日本丸見え!テレビ特派員」)について、読み履歴記憶部230を参照し、最も頻度の多い読み方(「にほんまるみえ」)に対応する文字列(「日本まる見え」)を、規則対象文字列に書き込む処理を行うのである。
第2の実施の形態における表示態様決定部132は、上記のように書き換えられた単語後が登録された規則適用単語テーブル270を参照し、上記第1の実施の形態と同様、表示規則記憶部180に記憶された表示規則に基づいて表示態様を決定する。
なお、第2の実施の形態における要求処理用情報記憶部190には、上記第1の実施の形態と同様、テレビ番組を検索するための番組データベースが格納されており、その内容の一例を図16に示す。同図に示すように、この番組データベースには、上記第1の実施の形態と同様、ID、番組名、放送日時、放送局、ジャンルおよび出演者といったテレビ番組に関する項目の情報が含まれており、上記のように複数の読み方を有する認識対象単語(「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」など)も含まれている。
以上が第2の実施の形態にかかる音声認識装置20の構成であり、以下当該音声認識装置20の動作について具体例を挙げながら説明する。ここでは、要求処理部120がユーザからの音声入力によるテレビ番組検索要求、例えばジャンルや出演者を指定した番組検索要求に対する処理を行い、その処理結果であるテレビ番組検索結果を表示部140に表示する場合を例に挙げて説明する。
まず、ユーザが音声入力部100に向けて、所望の検索のための情報、つまり所望番組のジャンル、出演者、チャンネル、放送時刻、番組名等の情報を発声する。ここでは、複数の読み方を有する認識対象単語「月曜ヒステリー劇場 告発弁護人シリーズ・猪熊文明5」を認識させるために「げつようひすてりーげきじょう」といった発声をしたものとする。
この場合、音声認識部110によって「月曜ヒステリー劇場 告発弁護人シリーズ・猪熊文明5」が認識され、検索条件文言として要求処理部120に供給される。要求処理部120は、かかる検索条件文言にしたがって検索処理を行う。
音声認識部110によって上記のような音声認識がなされた場合、読み方頻度管理部210は、かかる認識結果に応じて読み履歴記憶部230の記憶内容を更新する。このように音声認識部110によって音声認識がなされた場合における読み方頻度管理部210の処理について図17を参照しながら説明する。
まず、音声認識部110による最初の単語の認識結果、つまり認識対象単語とその認識の際になされた読み方を取得する(ステップS401)。ここでは、認識対象単語である「月曜ヒステリー劇場 告発弁護人シリーズ・猪熊文明5」と、その際の読み方「げつようひすてりーげきじょう」を取得する。
次に、取得した認識結果である認識対象単語と読み方の組み合わせ、つまり「月曜ヒステリー劇場 告発弁護人シリーズ・猪熊文明5」と「げつようひすてりーげきじょう」との組合せ頻度が以前に何回出現していたかを示す情報を読み履歴記憶部230(図14参照)から取得する(ステップS402)。
そして、取得した頻度に1を加算し、加算後の値を上記組み合わせに対応する頻度に上書きし、読み履歴記憶部230の記憶内容を更新する(ステップS403)。図14に示すような状態である場合には、認識対象単語と読み方「げつようひすてりーげきじょう」の組み合わせに対応する頻度「1」が取得され、これに1が加算されることで、頻度が「2」に更新される。
このように更新が行われると、音声認識部110の認識結果に含まれる単語すべてについて上記のような処理を行ったか否かを判別し(ステップS404)、すべての単語について処理済であれば当該処理を終了する。一方、すべての単語について処理を行っていない場合には、音声認識部110の認識結果に含まれる次の認識対象単語と読み方の組み合わせを取得し(ステップS405)、当該組み合わせについてステップS402以降の処理を行う。上記例の場合、ユーザは「げつようひすてりーげきじょう」という言葉を発したのみであるため、認識対象単語は1つであり、上記ステップS404の判別は「Yes」となり、読み方頻度管理部210の処理は終了することになる。
また、上記のような音声認識部110による認識結果は要求処理部120に供給され、上記第1の実施の形態と同様、認識結果に含まれる要求に応じた処理結果を表示するための構成要素を表示制御部130に出力する。これを受けた規則適用単語決定部131は、上記第1の実施の形態と同様、表示画面の構成要素に含まれる単語を、適用フラグとともに規則適用単語テーブル270に登録する。
第2の実施の形態では、第1の実施の形態と異なり、表示読み方決定部220が上記のように規則適用単語テーブル270に登録された単語について、規則対象文字列を書き込む処理を行う。このような表示読み方決定部220による処理について図18を参照しながら説明する。ここで、要求処理部120によって図19に示すような処理結果を表示するための構成要素が作成され、その結果規則適用単語テーブル270に図15に示すような登録がなされた場合を例に挙げて説明する。
まず、表示読み方決定部220は、規則適用単語テーブル270に格納された最初の単語である「2件」を取得する(ステップS501)。そして、規則適用単語テーブル270における取得単語に対応する規則適用対象文字列の項目に、その単語全部(「2件」)をそのまま仮登録する(ステップS502)。
そして、読み履歴記憶部230に記憶されている最初の認識対象単語(図14に示す例では「日本まる見え!テレビ特派員」)を取得し(ステップS503)、規則適用単語テーブル270から取得した単語(「2件」)と比較し、両者が一致するか否かを判別する(ステップS504)。
「2件」と「日本まる見え!テレビ特派員」のように両者が一致しない場合には、読み履歴記憶部230に記憶されたすべての単語について比較をなしたか否かを判別し(ステップS505)、全単語との比較が済んでいない場合には、読み履歴記憶部230に記憶されている次の単語を取得し(ステップS506)、ステップS504以降の処理を行う。
一方、ステップS504の判別において両単語が一致する場合、読み履歴記憶部230に記憶されている当該単語についての複数の読み方とそれぞれの読み方(および読み方対応文字列)に対応する頻度を参照し、その単語について最も頻度の値が大きい読み方に対応する読み方対応文字列を取得し、規則適用単語テーブル270の規則適用対象文字列に格納する(ステップS507)。上記例では、単語「日本まる見え!テレビ特派員」の複数の読み方のうち、最も頻度の値(5回)が大きい読み方「にほんまるみえ」に対応する読み方対応文字列「日本まる見え」が取得され、規則適用単語テーブル270の単語「日本まる見え!テレビ特派員」に対応する規則適用対象文字列に格納される。
以上のように規則対象文字列に頻度の高い読み方に対応する文字列を格納した場合、もしくはステップS505において読み履歴記憶部230に記憶されているすべての単語と比較済みである場合には、規則適用単語テーブル270に登録されている単語について上記のような規則適用対象文字列の格納等の処理を行ったか否かを判別し(ステップS508)、すべての単語について処理済の場合には当該処理を終了する。一方、規則適用単語テーブル270に登録されている単語すべてについて処理を行っていない場合には、規則適用単語テーブル270から次の単語を取得し(ステップS509)、ステップS502以降の処理を行う。
このようにして規則適用単語テーブル270に登録されているすべての単語について規則適用対象文字列への文字列の書き込み等の処理が行われる。このような表示読み方決定部220による処理後の規則適用単語テーブル270の登録内容の一例を図20に示す。同図に示すように、認識辞書260に登録されていない単語「2件」等については、規則適用対象文字列は仮登録された「2件」のままであるのに対し、複数の読み方が認識辞書160に登録された単語「日本まる見え!テレビ特派員」については、認識可能な読み方のうち最も頻度の高い読み方に対応する文字列「日本まる見え」が規則適用対象文字列として登録される。なお、「スーパーテレビ・情報最前列」も複数の読み方を有する単語であるが、図示の例では最も頻度の高い読み方が「すーぱーてれびじょうほうさいぜんれつ」という単語全体に対応する読み方であった場合を示しており、当該読み方に対応する文字列、つまり単語全部が登録されている。
以上のように規則適用単語テーブル270に単語、規則適用文字列および適用フラグが登録されると、表示態様決定部132は、登録処理後の規則適用単語テーブル270を参照して、要求処理部120から供給された表示画面の構成要素中の各単語の表示態様を決定する処理を行う。かかる処理の詳細について図21を参照しながら説明する。
なお、この説明においては、表示規則記憶部180に図22に示すような規則等が格納されている場合を例に挙げて説明する。つまり、この表示規則記憶部180には、適用フラグが「1」の文字列等に対して適用される表示規則に加え、適用フラグが「0」の文字列等に対して適用すべき表示規則が記憶されており、表示態様決定部132は、このような表示規則記憶部180の記憶される規則にしたがって表示態様を決定する。
表示態様決定部132が行う処理は、基本的には上記第1の実施の形態と同様であり(図10参照)と同様(ステップS601〜ステップS602はステップS301〜ステップS302に対応、ステップS604〜ステップS605はステップS304〜ステップS305に対応)であるが、ステップS603の処理が上記第1の実施の形態と相違している。
すなわち、規則適用単語テーブル270に登録されている単語を取得し(ステップS601、ステップS605)、当該単語の適用フラグに対応する表示規則を抽出する(ステップS602)点までは同じであるが、抽出した表示規則を用いて表示態様を決定する文字列が相違する。より具体的には、上記第1の実施の形態では、当該単語の全部分について表示規則にしたがって表示態様を決定するようにしていたが、本実施の形態では規則適用単語テーブル270に格納された規則適用対象文字列について表示規則にしたがって表示態様を決定し、修正する(ステップS603)。
例えば、図23に示すように、規則適用単語テーブル270から取り出した単語が「日本まる見え!テレビ特派員」の場合、適用フラグが「1」であり、規則適用対象文字列が「日本まる見え!」であるため、適用フラグ「1」に対応する表示規則、つまり認識辞書260に登録された単語に適用される表示規則に従って「日本まる見え!」の部分のみのフォントサイズが2つ大きくなされ、かつボールド化される。一方、取り出した「2件」の場合、適用フラグ「0」であり、規則適用対象文字列が単語の全部である「2件」であるので、認識辞書260に登録された単語用の表示規則は適用されず、それ以外の単語に適用される規則が適用される。したがって、フォントサイズが2つ小さく表示される。
また、取得された単語が「スーパーテレビ・情報最前列」の場合、適用フラグは「1」であるので、認識辞書260に登録された単語用の表示規則が適用されるが、規則適用対象文字列が単語の全部分「スーパーテレビ・情報最前列」であるので、結果としては上記第1の実施の形態と同様、単語全体のフォントサイズが2つ大きく、かつボールド化されて表示される。
以上説明したように本実施の形態では、ユーザが処理要求をなすと、要求処理部120によって当該要求が処理され、その処理結果(上記例では、テレビ番組の検索結果)が表示部140に表示される。そして、このような表示画面に含まれる単語のうち、当該音声認識装置20で認識することが可能な単語を、その単語を認識させるために必要な文字列を他の文字等とは異なる態様で表示することができる(図23参照)。これにより、当該表示を参照したユーザは、自己の要求に対する結果を知ることができるとともに、音声認識が可能な単語を知ることができるとともに、どのような読み方をすればその単語を認識させることができるかを知ることができる。
したがって、上記第1の実施の形態と同様、本来必要な情報の提供を妨げえることなく、かつ画面デザインが大きく損なわれしまうことを抑制しつつ、ユーザに認識可能な単語を報知することができ、さらにその単語を認識させるのに必要な読み方を報知することができる。
さらに、本実施の形態では、認識可能な単語を認識させるのに必要な単語の読み方として、ユーザが最も多く利用した読み方に対応する文字列が他と異なる態様で表示されるので、最も利用しやすいと考えられる読み方をユーザに伝えることもできる。すなわち、ユーザによって読み方に違いがある場合に、単語全体だけではなく必要な部分のみを強調することで、認識可能な単語を他の認識対象外の単語と区別してよりわかりやすく表示できる。また、番組名のように単語自体が長い場合、全部を発声するのは煩雑であり、特に長い単語を何度も発声しなくてはならないと面倒である。そこで、本実施の形態のように、部分文字列の発声により全体の単語を認識できるようにするとともに、その部分的な読み方を報知することで、長い単語を何度も認識させる必要があるような場合に特に好適である。
(第3の実施の形態)
次に、本発明の第3の実施の形態について説明する。図24は、本発明の第3の実施の形態にかかる音声認識装置30の構成を示すブロック図である。同図に示すように、第3の実施の形態における音声認識装置30は、上記第1の実施の形態における音声認識装置10の構成に加え、単語重要度決定部310と、単語重要度記憶部320と、重要度決定規則記憶部330とを備え、第1の実施の形態における表示規則記憶部180に代えて表示規則記憶部380を備えている。なお、第3の実施の形態において、第1の実施の形態と共通する構成要素には同一の符号をつけてその説明を省略する。
単語重要度決定部310には、ユーザからの要求に対応する要求処理部120の処理結果が供給される。単語重要度決定部310は、重要度決定規則記憶部330に記憶されている重要度決定規則にしたがい、処理結果の表示画面の構成要素に含まれる単語について重要度を決定し、これを単語重要度記憶部320に記憶させる。単語重要度決定部310は、このような重要度決定の際に必要であれば、要求処理用情報記憶部190に格納されている情報や要求処理部120が過去に行った処理内容等を参照する。
重要度決定規則記憶部330には、上記のように単語の重要度を決定するための規則が格納されている。ここで、図25は重要度決定規則記憶部330に格納される規則の一例を示す。同図に示すように、重要度決定規則は、重要度の値と、それに対応する規則内容とを含んでいる。
図示の例は、テレビ番組をジャンル等をキーワードとして検索する処理を要求処理部120が行う場合の規則の一例であり、重要度決定の対象となる単語の属性が、すでに入力済みの属性であれば、重要度が20に決定されるという規則や、対象となる単語の属性が、直前にジャンル属性が入力された場合のサブジャンル属性であれば重要度が80に決定されるという規則である。
例えば、重要度決定の対象となる単語が、テレビ番組の検索キーワード「スポーツ」であった場合に、それ以前に同一の「スポーツ」という単語が要求処理部120に入力されている場合、再度同じ単語が入力されるケースは少ないと考えられるので、このような単語については重要度が低く決定される。一方、直前に検索キーワードとしてあるジャンル名「スポーツ」などが入力された場合、その下位概念のジャンルであるサブジャンル例えば「野球」、「サッカー」などは検索キーワードとして入力される可能性が高い。したがって、このような属性の単語である場合には、その単語の重要度は高く決定される。
以上のように重要度決定規則としては、過去の入力内容等をも考慮し、要求処理部120が処理を行うにあたって、ユーザから入力される可能性の大小等に応じてあらかじめ類型化された単語の属性などの規則内容と、それに対応する重要度が対応つけられたものとなっており、このような規則を用いて単語の重要度を決定することで、その時々の状況に応じて次に入力される可能性が大きい単語については重要度を高く、入力可能性の低い単語については重要度を低くといった重要度決定が可能となる。
このような重要度規則にしたがって決定された重要度が単語重要度記憶部320に記憶される。ここで、図26に単語重要度記憶部320の記憶内容の一例を示す。同図に示すように、単語重要度記憶部320には、上記のような重要度規則を参照することで単語重要度決定部310により決定された各単語の重要度が、各単語に対応つけて格納される。
本実施の形態における表示態様決定部132は、上記第1の実施の形態と同様、規則適用単語決定部131により規則適用単語テーブル170に登録された単語について、表示規則記憶部380に記憶された表示規則および単語重要度記憶部320記憶された単語重要度に基づいて表示態様を決定する。
ここで、本実施の形態における表示規則記憶部380に記憶される内容の一例を図27に示す。同図に示すように、表示規則記憶部380には、4つの規則が記憶されている。まず、1つ目の規則は、認識辞書160に登録されていない単語(適用フラグ「0」)に用いられる規則であり、当該単語についてはフォントを2つ小さくする旨が規定されている。
他の3つの規則は、認識辞書160に登録されている単語(適用フラグ「1」)について適用される表示規則であり、重要度の範囲に応じて3種類の規則が規定されている。重要度が50以上80未満の場合には、フォントを2つ大きくし、かつボールド化して表示する旨が、重要度が80以上の場合にはフォントを4つ大きくし、かつボールド化して表示する旨が規定されている。また、重要度が50未満の場合には、「なし」、つまり通常の状態と変更しない旨が規定されている。このように本実施の形態では、重要度が大きいほど、より強調された表示がなされるような規則が設定されている。
本実施の形態における表示態様決定部132は、このような表示規則記憶部380に記憶された規則にしたがい、要求処理部120の処理結果を表示する画面の構成要素に含まれる単語について表示態様の修正等を行う。このように認識辞書160に登録されている単語について重要度に応じて表示態様が修正等された単語等を含む要求処理部120の処理結果を示すための画像が表示部140に表示される。
以上が第3の実施の形態にかかる音声認識装置30の構成であり、以下当該音声認識装置30の動作について具体例を挙げながら説明する。ここでは、要求処理部120がユーザからの音声入力によるテレビ番組検索要求、例えばジャンルや出演者を指定した番組検索要求に対する処理を行い、その処理結果であるテレビ番組検索結果を表示部140に表示する場合を例に挙げて説明する。
まず、ユーザが音声入力部100に向けて、所望の検索のための情報、つまり所望番組のジャンル、出演者、チャンネル、放送時刻、番組名等の情報を発声する。ここでは、検索キーワードとしてジャンル「今日のスポーツ」を認識させるために「きょうのすぽーつ」といった発声をしたものとする。
この場合、音声認識部110によって「今日のスポーツ」が認識され、検索キーワードとして要求処理部120に供給される。要求処理部120は、かかる検索キーワードにしたがって検索処理を行い、その結果、例えば図28に示すような処理結果を表示すべき画面の構成要素が作成される。
なお、本実施の形態における要求処理部120は、上位概念のジャンル、例えば「スポーツ」と、上位概念のジャンルに属する下位概念のサブジャンル、例えばジャンル「スポーツ」のサブジャンル「野球」などといった複数階層のジャンルを検索キーワードとして検索できるようになっている。したがって、本実施の形態における要求処理部120は、図29に示すように、第1の実施の形態のテンプレート(図7参照)とは異なる表示画面の構成要素のテンプレートを保持しており、かかるテンプレートを利用して表示画面の構成要素を生成する。
同図に示すように、かかるテンプレートは、上記第1の実施の形態のテンプレートの各項目に加え、「サブジャンル」を配置すべき領域が設けられている。したがって、図28に示すように、テンプレートの「ジャンル」項目には、上位概念のジャンルである「スポーツ」が当てはめられ、「サブジャンル」にはその下位概念のジャンルである「野球」や「サッカー」が当てはめられることで、表示画面が構成される。
このような要求処理部120による処理結果は単語重要度決定部310にも供給されるとともに、要求処理部120から過去の処理内容等(既に番組検索クエリとしてジャンル属性、日付属性の値が決定済であるなど)の情報が供給される。単語重要度決定部310は、処理結果に含まれる単語について重要度を決定する処理を行うが、かかる処理の内容について図30を参照しながら説明する。
まず、要求処理部120によって作成された処理結果表示画面の構成要素に含まれる単語であり、かつ認識辞書160に登録されている単語の中から最初の単語を取得する(ステップS701)。例えば、認識辞書160に図31に示すような内容が登録されており、表示画面が図28に示すようなものであれば、「Jリーグ鹿島×東京」が取得される。
次に、単語重要度記憶部320に取得した単語を登録するとともに、取得した単語に対応する重要度を初期化する(ステップS702)。この後、重要度決定規則記憶部330に記憶されている複数の規則内容(図25参照)の中から最初の規則内容を取得し(ステップS703)、取得した単語が取得した規則内容を満たすか否かを判別する(ステップS704)。
ここで、取得した単語が取得した規則内容を満たさない場合、重要度決定規則記憶部330に記憶されているすべての規則内容について判断を行ったか否かを判別し(ステップS705)、すべての規則内容について判断していない場合には、重要度決定規則記憶部330に格納されている次の規則内容を取得し(ステップS706)、規則内容を満たすか否かの判別を行う(ステップS704)。
一方、取得された単語が取得された規則内容を満たす場合には、重要度決定の対象となる単語の重要度をその規則内容に対応する重要度の値に決定し、それを単語重要度記憶部320に格納する(ステップS707)。例えば、対象単語がすでに要求処理部120に入力済みの属性値、つまり同じ単語が入力済みである場合には重要度20に対応する規則内容を満たしているので、当該単語については重要度が「20」に決定され、単語重要度記憶部320に重要度「20」が格納される。また、「Jリーグ鹿島×東京」が対象単語となっている場合、かかる単語の属性は番組名であり、ジャンル属性や日付属性ではないので、規則内容を満たさないと判断される。
このように単語の重要度が決定されて単語重要度記憶部320に格納された場合、もしくはステップS705においてある単語についてすべての規則内容を満たすか否かの判断を終了したと判別された場合、認識辞書160に登録される単語であり、かつ表示画面の構成要素に含まれる単語のすべてについて重要度決定等の処理が終了したか否かを判別する(ステップS708)。
ここで、すべての単語について処理が終了した場合には単語重要度決定部310による処理は終了する。一方、すべての単語について処理が終了していない場合には、表示画面の構成要素に含まれる単語であり、かつ認識辞書160に登録されている単語で未処理の単語を取得し(ステップS709)、当該単語についてステップS702以降の処理を行う。このようにして表示画面の構成要素に含まれ、かつ認識辞書160に登録される単語のすべてについて重要度決定処理が行われ、その結果が単語重要度記憶部320に格納される。
以上のように単語の重要度が決定されて単語重要度記憶部320に格納され、さらに上記第1の実施の形態と同様、規則適用単語決定部131により規則適用単語テーブル170に単語および適用フラグが登録されると、表示態様決定部132は、登録処理後の規則適用単語テーブル170、単語重要度記憶部320および表示規則記憶部380の記憶内容を参照して、要求処理部120から供給された表示画面の構成要素中の各単語の表示態様を決定する処理を行う。かかる処理の詳細について図32を参照しながら説明する。なお、ここでは、規則適用単語決定部131により、規則適用単語テーブル170に図33に示すような単語等が登録されている場合を例に挙げて説明する。
まず、規則適用単語テーブル170に登録されている最初の単語を取得し(ステップS801)、当該取得した単語の適用フラグ、および当該単語について単語重要度記憶部320に記憶されている重要度に基づいて、表示規則記憶部380(図27参照)から表示規則を抽出する(ステップS802)。例えば、最初の単語「3件」の適用フラグは「0」であるため、適用フラグ「0」に対応する表示規則が抽出される。なお、取得された単語が「Jリーグ鹿島×東京」の場合、適用フラグ「1」、単語重要度「50」であるので、適用フラグ「1」、重要度範囲「50以上80未満」に対応する表示規則が抽出される。
このように表示規則を抽出すると、当該単語について抽出した表示規則にしたがった表示態様の修正を行う(ステップS803)。対象単語が「3件」である場合、フォントを2つ小さくして表示するといった修正が行われ、また対象単語が「Jリーグ鹿島×東京」である場合には、フォントを2つ大きくし、かつボールド化して表示されるよう表示態様が修正される。
以上のように表示規則にしたがった修正(修正なしの場合もあり)がなされると、規則適用単語テーブル170に登録されているすべての単語について上記表示規則に従った修正処理をなしたか否かを判別する(ステップS804)。そして、すべての登録単語について処理が終了していない場合には、規則適用単語テーブル170から次の単語を取得し(ステップS805)、ステップS802以降の処理を行う。
一方、すべての登録単語について処理が終了した場合には、当該表示態様決定処理を終了する。このような処理を行うことで、要求処理部120の検索結果を表示すべき内容、つまり表示画面の構成要素に含まれる単語のうち、認識辞書160に格納されている単語については、重要度に応じて表示態様の修正処理がなされる。
以上のように表示制御部130によって、検索結果の表示画面の構成要素に含まれる単語をうち、音声認識可能な単語が他の単語と異なる態様であり、また重要度に応じた態様(フォント、字体等)で表示されるよう表示内容が制御される。そして、表示制御部130によって制御された内容の表示画面が表示部140に表示される。ここで、図34に表示部140の表示内容の一例を示す。同図に示すように、テレビ番組の検索結果表示画面中の単語のうち、認識辞書160に格納されている単語、つまり音声認識可能な単語であり、かつ重要度の高いサブジャンル「野球」や「サッカー」等(フォントサイズ4つ大きく)が最も大きく表示され、次に「Jリーグ鹿島×東京」等(フォントサイズ2つ大きく)の番組名が大きく表示される。
以上説明したように本実施の形態では、ユーザが処理要求をなすと、要求処理部120によって当該要求が処理され、その処理結果(上記例では、テレビ番組の検索結果)が表示部140に表示される。そして、このような表示画面に含まれる単語のうち、当該音声認識装置30で認識することが可能な単語を他の単語とは異なる態様で表示することができる(図34参照)。これにより、当該表示を参照したユーザは、自己の要求に対する結果を知ることができるとともに、音声認識が可能な単語を知ることができる。
さらに本実施の形態では、単語の重要度が決定され、重要度に応じた態様、つまり重要度が大きいほど強調された形で表示されるので、重要度の高い認識可能な単語をユーザにより確実に報知することができる。
また、本実施の形態では、重要度はすでに当該装置に入力された内容等を考慮し、あらかじめ種々のケースごとに次に入力される可能性が高いものの重要度が高く設定されるようになっているので、ある処理を実行する際に次に入力が必要となる可能性が高いものを強調して表示し、ユーザに報知することができる。逆に、入力される可能性が低いものについては強調表示がなされないので、より入力が必要となる可能性が高い単語をユーザに強く印象付けることができる。本実施の形態では、検索処理の際の入力可能性の大小(重要度の大小)を、直前等に入力されたキーワードの属性等などに応じて判定することで、検索処理を効率的に行うための重要度設定をなしうる。
上記のように番組検索処理を例に考えると、前回発声して既に検索クエリに含まれる属性は、認識できるが番組を絞り込むという目的に対しては効果を及ぼさないので強調表示しなくてもよいから、重要度が低くなり、その結果表示態様も強調されない。また、スポーツといった上位ジャンルで検索された番組群はサブジャンルによって効果的に絞込みができるから、当該上位ジャンルのサブジャンルに属する単語の重要度を高く設定することで、処理目的達成のために効率的な認識対象単語がより強調されて表示される。このような表示をなすことで、素早く認識対象単語を見つけて検索することができ、要求した処理目的を効率的に達成することができる。
(変形例)
なお、本発明は、上述した各実施の形態に限定されるものではなく、以下に例示するような種々の変形が可能である。
(変形例1)
上述した第1の実施の形態においては、表示規則記憶部180には、認識辞書160に登録された単語に適用される表示規則は1種類であったが、登録された単語に適用する規則を複数種類用意するようにしてもよい。例えば、操作コマンド用単語と番組属性単語を異なる形態で表示するような規則を設け、これらの単語の表示態様を異ならせるようにしてもよい。
(変形例2)
また、上述した各実施の形態では、表示規則として、フォントの大小、ボールド化といったことを規定するようにしていたが、異なる態様で表示させることができればよく、例えば斜体表示、網掛け表示等を用いるようにしてもよい。さらには、配色を設定したり、認識単語が表示されているオブジェクト(ボタンなど)の大きさそのものを変更するなど他と区別される表示態様であればいかなるものでもよい。
(変形例3)
また、上述した第2の実施の形態では、表示読み方決定部220が、認識対象単語を認識させる際にユーザが過去に最も多く利用した読み方(頻度が最も高い読み方)に決定するという基準で、表示態様を異ならせる(表示規則にしたがって表示態様を決定する)文字列を決めていたが、これ以外の基準で表示態様を異ならせるようにしてもよい。
例えば、認識対象単語の前方側の文字列を読み方として決定するようにしてもよい。具体的には、認識対象単語が「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」の場合、3つの読み方「げつようひすてりーげきじょう」、「こくはつべんごにんしりーず」、「いのくまふみあきふぁいぶ」のうち、前方側の文字列のみから構成される読み方「げつようひすてりーげきじょう」を選択するようにしてもよい。
また、認識対象単語の文字数があらかじめ決められた数より多い(例えば10文字以上)場合にのみ、単語全部以外の部分的な文字列を表示を異ならせる文字列として選択するようにしてもよく、この場合当該認識対象単語の複数の読み方のうち、最も短い文字列を選択するといったような基準で規則適用対象文字列を決定するようにしてもよい。
(変形例4)
また、上記第2の実施の形態や変形例3のように複数の読み方がある場合にいずれか1つの読み方に絞り、絞った文字列についてのみ表示態様を異ならせるのではなく、複数の読み方がある場合に2つ以上の読み方をユーザに報知できるような態様で表示させるようにしてもよい。
例えば、上記のように3つの読み方で認識が可能な単語「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」を表示する場合には、図35に示すように、可能な読み方を認識対象単語の文字列の上下部分に枠401で範囲指定するといったようにすればよい。また、これらの3つの読み方の表示色を異ならせるといった手法を用いることができ、例えば認識辞書160に登録されていない単語が黒色で表示されている場合においては、「月曜ヒステリー劇場」を赤色、「告発弁護人シリーズ」を緑色、「猪熊文明5」を黄色で表示するといったようにしてもよい。
また、上記第2の実施の形態では、当該装置のユーザの過去の読み方の頻度に基づいて表示態様を異ならせる文字列を決定するようにしていたが、他の装置のユーザの過去の読み方頻度等を利用して表示態様を異ならせる文字列を決定するようにしてもよい。例えば、3つの読み方「げつようひすてりーげきじょう」、「こくはつべんごにんしりーず」、「いのくまふみあきふぁいぶ」のうち、多数のユーザが最も多く利用した読み方が「げつようひすてりーげきじょう」である場合には、これを表示態様を異ならせる文字列として決定するようにすればよい。なお、他の装置のユーザがどのような読み方をしたかといった情報はインターネットなどのネットワークを利用する等して当該装置に供給するようにすればよい。
(変形例5)
また、上述した各実施の形態では、認識対象単語を認識するための読み方がその単語の全部または一部分に対応するものであったが、認識対象単語の略称を発声することで当該認識対象単語が認識されるようにしてもよい。この場合、認識辞書160(260)の読み方の欄に、単語全体の読み方に加え、略称の読み方を加えるようにすればよい。例えば、認識対象単語「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」が一般的に「げつげき」等と略して称されている場合には、認識辞書160(260)の読み方に「げつげき」を加えるようにすればよい。
そして、このような読み方をユーザに報知するため、認識対象単語「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」の上または下の部分に、当該単語を認識させるために用いることができる略称「げつげき」と表示させるような表示規則を設けておけばよい。このようにすれば、当該表示規則にしたがって表示態様決定部132が認識対象単語「月曜ヒステリー劇場「告発弁護人シリーズ・猪熊文明5」」」の表示態様を修正し、図36に示すような表示がなされる。
(変形例6)
また、上述した各実施の形態では、要求処理部120がユーザが入力した検索キーワード等に基づいた検索処理を行う構成であったが、要求処理部120がユーザの要求に応じて他の処理を行うような装置であっても本発明を適用することができる。例えば、エアコンディショナー装置に搭載される音声認識装置に本発明を適用することができる。
より具体的には、認識辞書160には「運転開始」、「運転停止」、「風量多く」、「設定温度アップ」、「設定温度ダウン」等の単語を登録しておき、ユーザのエアコンディショナー装置に対する要求に対して動作(運転等)を行うとともに、表示パネル等に要求に対する処理結果を表示させる(例えば、運転開始を要求した場合、運転を開始しました等のメッセージを表示させる)際、その画面に含まれる単語のうち、認識可能な単語を表示規則にしたがって他の単語と異なる態様で表示させるようにすればよい。
また、上記のようなエアコンディショナー装置等に本発明を適用する場合において、第3の実施の形態のように単語の重要度を決定するという機能を持たせるときには、単語の重要度決定に際してその時点でのエアコンディショナー装置の動作状況を重要度決定の一つの要素としてもよい。例えば、運転中であれば、再度「運転開始」という単語が入力される可能性は低いのでその単語は重要度が低く設定されるのに対し、運転中には風量調整や温度調整等に関する単語の重要度が高く設定されるといった具合に動作状況を重要度の決定に反映させるようにしてもよい。
(変形例7)
また、上記各実施の形態にかかる音声認識装置を、テレビ番組などの動画像を記録するレコーダ装置に搭載するようにしてもよい。ここで、図37に第1の実施の形態にかかる音声認識装置10を組み込んだレコーダ装置400の概略構成例を示す。同図に示すように、このレコーダ装置400は、上述した構成の音声認識装置10と、レコーダ部410と、チューナー部420とを備える。
チューナー部420は、ユーザの指示等にしたがって所定のテレビチャンネルを選択し、選択したチャンネルの動画像を受信する。放送等されるテレビ番組を視聴する際には、かかるチューナー部420によって受信された動画像が表示部140に供給され、テレビ番組等が表示される。
レコーダ部410は、上記のようにチューナー部420によって受信される動画像(テレビ番組等)を記録媒体に記録する。例えば、受信される動画像そのまま記録するのではなく、MPEG(Moving Pictures Experts Group)−2等の圧縮方式により圧縮し、圧縮した動画像データを記録する。なお、記録媒体としては、HD(Hard Disk)等であってもよいし、過般型の記録媒体(DVD−RAM(Digital Versatile Disc-RAM)など)であってもよい。
このような構成のレコーダ装置400において、ユーザは録画したい番組等の検索をなすことができる。このような検索を行う場合、録画したい番組の属性(ジャンル、名称、放送日時、出演者)に関する文言を発声することで、かかる発声内容が音声認識装置10により認識され、上記実施の形態で説明したように要求処理部120によって発声内容をキーワードとする検索がなされる。
そして、その検索結果が表示部140に表示されるが、その際表示制御部130によって音声認識可能な単語が他の文字等と異なる態様(強調された態様)で表示されるので、次に検索のための言葉を音声入力しようとする際にどの単語が入力可能なものであるかを認識することができる。そして、検索内容を発声することでテレビ番組の検索を行わせ、所望の番組が検索された場合には、それに対して録画するよう指示を発声する。これにより要求処理部120は、検索された番組を識別する情報を含む録画指示をレコーダ部410に送出し、レコーダ部410は要求処理部120の指示にしたがって録画を行う。
(変形例8)
また、上述した各実施の形態では、音声認識装置に本発明を適用した場合について説明したが、表示制御部130、規則適用単語テーブル170、表示規則記憶部180を備えた表示制御装置として、音声入力部100、音声認識部110、辞書等を備えた音声認識装置とは分離した態様で製造、販売等して流通させるようにしてもよい。
(変形例9)
なお、上述した各実施の形態で行われる表示態様の制御処理は、専用のハードウェア回路によって行うようにしてもよいし、CPUがプログラムにしたがって動作することにより、処理が行われるように構成してもよい。また、コンピュータにこのような処理を実行させるためのプログラムをインターネット等の通信回線を介してユーザに提供するようにしてもよいし、当該プログラムをCD−ROM(Compact Disc-Read Only Memory)などのコンピュータ読み取り可能な記録媒体に記録してユーザに提供するようにしてもよい。
以上のように、本発明にかかる音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラムは、特に音声認識によって入力されたキーワードについて検索処理を行う機能等を備えた装置に適している。
本発明の第1の実施の形態にかかる音声認識装置の構成を示すブロック図である。 前記音声認識装置の構成要素である認識辞書の登録内容の一例を示す図である。 前記音声認識装置の構成要素である要求処理用情報記憶部に記憶される番組データベースの一例を示す図である。 前記音声認識装置の構成要素である規則適用単語テーブルの登録内容の一例を示す図である。 前記音声認識装置の構成要素である表示規則記憶部に記憶される表示規則の一例を示す図である。 前記音声認識装置の構成要素である要求処理部の処理手順の一例を示すフローチャートである。 前記要求処理部が処理結果を表示用の画面を作成する際に利用するテンプレートの一例を示す図である。 前記要求処理の処理結果を示す表示画面の一例を示す図である。 前記音声認識装置の構成要素である規則適用単語決定部によって行われる処理の手順を示すフローチャートである。 前記音声認識装置の構成要素である表示態様決定部によって行われる処理の手順を示すフローチャートである。 前記表示態様決定部によって修正された表示画面の一例を示す図である。 本発明の第2の実施の形態にかかる音声認識装置の構成を示すブロック図である。 第2の実施の形態における音声認識装置の認識辞書の登録内容の一例を示す図である。 第2の実施の形態における音声認識装置の読み履歴記憶部の記憶内容の一例を示す図である。 第2の実施の形態における規則適用単語テーブルの登録内容の一例を示す図である。 第2の実施の形態における要求処理用情報記憶部に記憶される番組データベースの一例を示す図である。 第2の実施の形態における音声認識装置の構成要素である読み方頻度管理部によって行われる処理の手順を示すフローチャートである。 第2の実施の形態における音声認識装置の構成要素である表示読み方決定部によって行われる処理の手順を示すフローチャートである。 第2の実施の形態における音声認識装置の要求処理部によって作成される表示画面の一例を示す図である。 前記表示詠み方決定部によって規則適用対象文字列が書き込まれた前記規則適用単語テーブルの登録内容の一例を示す図である。 第2の実施の形態における表示態様決定部によって行われる処理の手順を示すフローチャートである。 第2の実施の形態における表示規則記憶部に記憶される表示規則の一例を示す図である。 第2の実施の形態における表示態様決定部によって修正された表示画面の一例を示す図である。 本発明の第3の実施の形態にかかる音声認識装置の構成を示すブロック図である。 第3の実施の形態における音声認識装置の構成要素である重要度決定規則記憶部に記憶される重要度決定規則の一例を示す図である。 第3の実施の形態における音声認識装置の構成要素である単語重要度記憶部の記憶内容の一例を示す図である。 第3の実施の形態における表示規則記憶部に記憶される表示規則の一例を示す図である。 第3の実施の形態における要求処理部によって作成される処理結果を表示するための画面の一例を示す図である。 前記要求処理部が表示画面を作成する際に利用するテンプレートの一例を示す図である。 第3の実施の形態における音声認識装置の構成要素である単語重要度決定部によって行われる処理の手順を示すフローチャートである。 第3の実施の形態における認識辞書の登録内容の一例を示す図である。 第3の実施の形態における表示態様決定部によって行われる処理の手順を示すフローチャートである。 第3の実施の形態における規則適用単語テーブルの登録内容の一例を示す図である。 第3の実施の形態における表示態様決定部により修正された表示画面の一例を示す図である。 第2の実施の形態の変形例の表示部に表示される認識辞書に登録された単語の表示態様の一例を示す図である。 各実施の形態の変形例の表示部に表示される認識辞書に登録された単語の表示態様の一例を示す図である。 第1の実施の形態にかかる音声認識装置を備えたレコーダ装置の構成を示すブロック図である。
符号の説明
10 音声認識装置
20 音声認識装置
30 音声認識装置
100 音声入力部
110 音声認識部
120 要求処理部
130 表示制御部
131 規則適用単語決定部
132 表示態様決定部
140 表示部
150 音響辞書
160 認識辞書
170 規則適用単語テーブル
180 表示規則記憶部
190 要求処理用情報記憶部
210 読み方頻度管理部
220 表示読み方決定部
230 読み履歴記憶部
260 認識辞書
270 規則適用単語テーブル
310 単語重要度決定部
320 単語重要度記憶部
330 重要度決定規則記憶部
380 表示規則記憶部
400 レコーダ装置
401 枠
410 レコーダ部
420 チューナー部

Claims (12)

  1. 音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、
    入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、
    前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段と、
    入力された要求に対する要求処理結果を表示画面に表示する際に、前記表示画面の中に前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する表示制御手段と、
    を具備することを特徴とする音声認識装置。
  2. 音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、
    入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、
    前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段と、
    前記音声認識手段により認識された音声に基づく要求を処理する要求処理手段と、
    入力された要求に対する前記要求処理手段による要求処理結果を表示画面に表示する際に、前記表示画面の中に前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する表示制御手段と、
    を具備することを特徴とする音声認識装置。
  3. 前記認識辞書に複数種類の読み方が格納される単語について、あらかじめ決められた基準に基づき、文字列を決定する表示読み方対応文字列決定手段をさらに具備し、
    前記表示制御手段は、前記表示読み方対応文字列決定手段によって決定された文字列の表示態様を前記表示規則にしたがって決定する
    ことを特徴とする請求項1または請求項2に記載の音声認識装置。
  4. 前記認識辞書に複数種類の読み方が可能される単語について、前記音声認識手段によって認識された際に入力された読み方の頻度を記録する読み方頻度管理手段をさらに具備し、
    前記表示読み方決定手段は、前記認識辞書に複数種類の読み方が格納される単語について、前記読み方頻度管理手段により記録されている読み方頻度が最も多い読み方に対応する文字列を前記表示規則にしたがって表示態様を決定すべき文字列して決定する
    ことを特徴とする請求項3に記載の音声認識装置。
  5. 前記表示読み方決定手段は、前記認識辞書に格納される単語を構成する文字数があらかじめ決められた値より小さい単語について、当該単語全体の読み方を前記表示規則にしたがって表示態様を決定すべき文字列として決定する
    ことを特徴とする請求項3または4に記載の音声認識装置。
  6. 前記認識辞書に格納される単語について重要度を決定する重要度決定手段をさらに具備し、
    前記表示制御手段は、前記表示規則および前記重要度決定手段によって決定された重要度に基づいて表示態様を決定する
    ことを特徴とする請求項1ないし5のいずれか一つに記載の音声認識装置。
  7. 前記重要度決定手段は、入力された要求に対する前記要求処理手段による結果として表示画面に表示される結果に含まれる単語について、すでに入力された要求内容に基づいて重要度を決定する
    ことを特徴とする請求項6に記載の音声認識装置。
  8. 前記重要度決定手段は、前記要求処理手段の動作状況に基づいて重要度を決定する
    ことを特徴とする請求項6または7に記載の音声認識装置。
  9. 音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段とを備えた音声認識装置で認識可能な単語を表示させる表示制御装置であって、
    入力された要求に対する要求処理結果を表示画面に表示する際に、その表示内容を制御する表示制御手段と、
    前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段とを具備し、
    前記表示制御手段は、前記表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する
    ことを特徴とする表示制御装置。
  10. 画像を記憶する処理を行うレコーダ装置であって、
    音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、
    入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段と、
    前記音声認識手段により認識された音声に基づく要求を処理する要求処理手段と、
    要求に対する前記要求処理手段による結果を表示画面に表示する際にその表示内容を制御する表示制御手段と、
    前記認識辞書に格納される単語の表示態様を規定する表示規則を記憶する表示規則記憶手段とを具備し、
    前記表示制御手段は、前記表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語について前記表示規則記憶手段に記憶されている表示規則にしたがって表示態様を決定する
    ことを特徴とするレコーダ装置。
  11. 音声認識の対象となる複数の単語およびこれらの単語の読み方を格納する認識辞書と、入力される音声に対し、前記認識辞書を参照して音声認識処理を行う音声認識手段とを備えた音声認識装置が認識可能な単語を表示する方法であって、
    入力された要求に対する要求処理結果を表示画面に表示する際に、当該表示画面に表示すべき結果の中に、前記認識辞書に格納される単語が含まれている場合、含まれている単語についてあらかじめ決められた表示規則にしたがって表示態様を決定する
    ことを特徴とする表示方法。
  12. コンピュータを、
    入力された要求に対する要求処理結果を表示画面に表示する際に、当該表示画面に表示すべき結果の中に、音声認識処理に用いられる認識辞書に格納される単語が含まれている場合、含まれている単語についてあらかじめ決められた表示規則にしたがって表示態様を決定する表示制御手段
    として機能させることを特徴とするプログラム。
JP2004054499A 2004-02-27 2004-02-27 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム Pending JP2005242183A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004054499A JP2005242183A (ja) 2004-02-27 2004-02-27 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004054499A JP2005242183A (ja) 2004-02-27 2004-02-27 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2005242183A true JP2005242183A (ja) 2005-09-08

Family

ID=35023960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004054499A Pending JP2005242183A (ja) 2004-02-27 2004-02-27 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2005242183A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006093003A1 (ja) * 2005-02-28 2006-09-08 Pioneer Corporation 辞書データ生成装置及び電子機器
KR100894457B1 (ko) * 2005-12-26 2009-04-22 캐논 가부시끼가이샤 정보처리장치 및 정보처리방법
US8838456B2 (en) 2012-09-28 2014-09-16 Samsung Electronics Co., Ltd. Image processing apparatus and control method thereof and image processing system
JP2021071807A (ja) * 2019-10-29 2021-05-06 東芝映像ソリューション株式会社 電子機器およびプログラム

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695828A (ja) * 1992-09-14 1994-04-08 Toshiba Corp 音声入力システム
JPH09288494A (ja) * 1996-04-23 1997-11-04 Sony Corp 音声認識装置および音声認識方法
JPH11259088A (ja) * 1998-03-13 1999-09-24 Science Univ Of Tokyo 音声認識方法及び音声認識装置並びに記録媒体
JPH11338495A (ja) * 1998-05-28 1999-12-10 Aqueous Reserch:Kk 音声認識装置
JP2001034286A (ja) * 1999-07-22 2001-02-09 Ishida Co Ltd 商品処理システム
JP2001184345A (ja) * 1999-12-24 2001-07-06 Toyota Central Res & Dev Lab Inc 言語処理装置
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2002278591A (ja) * 2001-03-22 2002-09-27 Sharp Corp 情報処理装置および情報処理方法、並びに、プログラム記録媒体
JP2002278587A (ja) * 2001-03-14 2002-09-27 Fujitsu Ltd 音声認識入力装置
JP2003029776A (ja) * 2001-07-12 2003-01-31 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003195891A (ja) * 2001-12-27 2003-07-09 Denso Corp 電子機器

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695828A (ja) * 1992-09-14 1994-04-08 Toshiba Corp 音声入力システム
JPH09288494A (ja) * 1996-04-23 1997-11-04 Sony Corp 音声認識装置および音声認識方法
JPH11259088A (ja) * 1998-03-13 1999-09-24 Science Univ Of Tokyo 音声認識方法及び音声認識装置並びに記録媒体
JPH11338495A (ja) * 1998-05-28 1999-12-10 Aqueous Reserch:Kk 音声認識装置
JP2001034286A (ja) * 1999-07-22 2001-02-09 Ishida Co Ltd 商品処理システム
JP2001184345A (ja) * 1999-12-24 2001-07-06 Toyota Central Res & Dev Lab Inc 言語処理装置
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2002278587A (ja) * 2001-03-14 2002-09-27 Fujitsu Ltd 音声認識入力装置
JP2002278591A (ja) * 2001-03-22 2002-09-27 Sharp Corp 情報処理装置および情報処理方法、並びに、プログラム記録媒体
JP2003029776A (ja) * 2001-07-12 2003-01-31 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003195891A (ja) * 2001-12-27 2003-07-09 Denso Corp 電子機器

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006093003A1 (ja) * 2005-02-28 2006-09-08 Pioneer Corporation 辞書データ生成装置及び電子機器
KR100894457B1 (ko) * 2005-12-26 2009-04-22 캐논 가부시끼가이샤 정보처리장치 및 정보처리방법
US8032382B2 (en) 2005-12-26 2011-10-04 Canon Kabushiki Kaisha Information processing apparatus and information processing method
US8838456B2 (en) 2012-09-28 2014-09-16 Samsung Electronics Co., Ltd. Image processing apparatus and control method thereof and image processing system
US9037471B2 (en) 2012-09-28 2015-05-19 Samsung Electronics Co., Ltd. Image processing apparatus and control method thereof and image processing system
JP2021071807A (ja) * 2019-10-29 2021-05-06 東芝映像ソリューション株式会社 電子機器およびプログラム

Similar Documents

Publication Publication Date Title
US8311807B2 (en) Periodically extracting and evaluating frequency of occurrence data of unregistered terms in a document for updating a dictionary
US7945864B2 (en) Operation assisting apparatus and operation assisting method
US7437296B2 (en) Speech recognition dictionary creation apparatus and information search apparatus
US20180143956A1 (en) Real-time caption correction by audience
US7725486B2 (en) Information retrieval apparatus
US20180144747A1 (en) Real-time caption correction by moderator
US9760560B2 (en) Correction of previous words and other user text input errors
JP4550725B2 (ja) 映像視聴支援システム
US9749699B2 (en) Display device, server device, voice input system and methods thereof
US8161043B2 (en) Interactive program search apparatus
JP3427674B2 (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP4064902B2 (ja) メタ情報生成方法、メタ情報生成装置、検索方法および検索装置
JP4601306B2 (ja) 情報検索装置、情報検索方法、およびプログラム
JP2007058562A (ja) コンテンツ分類装置、コンテンツ分類方法、コンテンツ分類プログラムおよび記録媒体
JP2019003585A (ja) 要約映像生成装置およびそのプログラム
JP2005242183A (ja) 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム
JP2001309256A (ja) デジタルテレビ放送受信機
JP2005122665A (ja) 電子機器装置、関連語データベースの更新方法、プログラム
JP5152857B2 (ja) 電子機器、表示制御方法、およびプログラム
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2010009355A (ja) 電子機器、形態素複合方法及びそのプログラム
CN101221574B (zh) 声音输出装置及声音输出方法
CN111104016B (zh) 提供翻译结果的方法及设备
JP2005242720A (ja) データベース検索方法、データベース検索装置およびデータベース検索プログラム
JP2006163603A (ja) 画像生成装置、画像生成方法および画像生成プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080909