JP2004295102A5 - - Google Patents

Download PDF

Info

Publication number
JP2004295102A5
JP2004295102A5 JP2004056770A JP2004056770A JP2004295102A5 JP 2004295102 A5 JP2004295102 A5 JP 2004295102A5 JP 2004056770 A JP2004056770 A JP 2004056770A JP 2004056770 A JP2004056770 A JP 2004056770A JP 2004295102 A5 JP2004295102 A5 JP 2004295102A5
Authority
JP
Japan
Prior art keywords
word
recognition
dictionary
user
recognition dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004056770A
Other languages
English (en)
Other versions
JP2004295102A (ja
JP4601306B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2004056770A priority Critical patent/JP4601306B2/ja
Priority claimed from JP2004056770A external-priority patent/JP4601306B2/ja
Publication of JP2004295102A publication Critical patent/JP2004295102A/ja
Publication of JP2004295102A5 publication Critical patent/JP2004295102A5/ja
Application granted granted Critical
Publication of JP4601306B2 publication Critical patent/JP4601306B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

音声認識辞書作成装置及び情報検索装置
本発明は、例えば番組案内装置等の情報検索装置で音声認識を行うための音声認識辞書を作成する音声認識辞書作成装置及び情報検索装置に関する。
従来、音声認識辞書作成装置が用いられる番組案内装置は、番組の多チャンネル化に伴い、電子番組ガイド(Electronic Program guide:EPG)と音声とを用いてTV操作を行う装置であり、最新のEPGデータを受信し、受信データを用いて本日又は明日以降の番組に対応した音声認識辞書を作成した後、余分なハードリソースを使用しないために、古い認識辞書を消去している。
更に、辞書を作成する際、EPGにおいてカテゴライズ化されている「番組名」、「ジャンル」、「出演者」などに分類し、辞書登録を行うが、各単語について平等に認識を行う。
図28は、従来の音声認識辞書作成装置を備える番組案内装置の構成を示すブロック図である。
番組案内装置は、EPG受信部701、項目分類部702、辞書更新部703、辞書704、音声認識部705、時計706、登録語削除部707、EPG蓄積部708、および制御部709を備えている。
EPG受信部701は、テレビ信号からEPGデータを分離する。項目分類部702は、音声認識に必要のない「放送時間」などのEPGデータを分離し、残りのEPGデータを、「番組タイトル」、「出演者」などに分類する。辞書更新部703は、EPGデータに含まれる単語を辞書に重複することなく登録する。辞書704は、音声認識に必要な単語を、登録日時と共に、記憶している。音声認識部705は、利用者の発話による音声信号から、辞書704を参照し、特定の単語を認識する。
また、時計706は、現在の日時を登録語削除部707に出力する。登録語削除部707は、時計706の日時を参照し、辞書704に登録されている単語のうち、例えば、前日までに登録されている単語を削除する。EPG蓄積部708は、EPG受信部701で分離されたEPGデータを蓄積している。制御部709は、音声認識部705が認識した単語をEPG蓄積部708に蓄積されているEPGデータから検索し、該当する番組内容を出力する(例えば、特許文献1参照)。
特開2001−22374号公報(第7頁、第1図)
従来の上記のような番組案内装置では、最新のEPGデータを利用して辞書を作成するため、辞書内の認識単語は変化するが、利用者は、辞書内の認識単語の変化をあまり意識しない。
ここで、例えば利用者が、最新のEPGデータに含まれていない過去見た番組で面白かった番組名又は出演者名でテレビの番組検索及び操作を行う場合に、番組案内装置は、辞書内の最も認識スコアの高い単語を認識結果として出力する。これは、番組案内装置では、辞書に登録されていない単語を認識することはできないためである。このため、出力された認識結果と、利用者の要求する番組名、出演者名とは異なることがある。この場合に、利用者は、この認識結果を誤認識と考え、同じ言葉を何回も発声してしまうことになる。
そこで、最新のEPGデータだけでなく、過去のEPGデータも利用して辞書を作成することも考えられるが、この場合には、辞書に登録される単語が膨大な量になってしまう。
また、多チャンネル化による番組数の増加に伴い、認識対象単語も増大する。しかしながら、従来の音声認識辞書作成装置は、新しいデータを全認識対象単語としているため、認識率が低下するなどの課題が存在する。
そこで、本発明は上記の事情に鑑みてなされたものであり、認識対象単語の増加を最低限に抑えつつ、認識率を向上させることができる音声認識辞書作成装置及び情報検索装置を提供することを目的とする。
上記目的を達成するために、本発明に係る音声認識辞書作成装置は、番組情報あるいは音楽コンテンツに関するデータに対する音声認識を行うための認識辞書を作成する音声認識辞書作成装置であって、利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得手段と、取得された前記視聴履歴単語を蓄積する視聴履歴単語蓄積手段と、予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、前記新規認識用単語、前記固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成手段と、作成された前記認識辞書を蓄積する辞書蓄積手段とを備えることを特徴とする。
また、本発明に係る情報検索装置は、番組情報あるいは音楽コンテンツに関するデータに対する音声認識を行うための認識辞書を作成するとともに、利用者の発話による音声信号により情報を検索する情報検索装置であって、利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得手段と、取得された前記視聴履歴単語を蓄積する視聴履歴単語蓄積手段と、予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、前記新規認識用単語、前記固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成手段と、作成された前記認識辞書を蓄積する辞書蓄積手段と、前記認識辞書を参照することによって、前記音声信号から特定の単語を認識する音声認識手段と、入力されるデータを蓄積するデータ蓄積手段と、前記音声認識手段で認識された単語を前記データから検索し、該当する情報を出力する制御手段とを備えることを特徴とする。
以上のように、本発明に係る音声認識辞書作成装置によれば、最新のEPGデータに含まれない単語を、認識対象単語として扱うことができ、番組検索を行った場合に、音声認識の誤りと検索データの有無を識別することができ、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。
更に、認識辞書を複数個作成し、利用者の指定より、切り替えることにより、認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、認識率が向上し、使い易いインターフェイスが実現できる。
本発明の実施の形態に係る音声認識辞書作成装置は、音声認識に用いられる認識辞書を作成する音声認識辞書作成装置であって、利用者の経験の有無に応じて、内容の相違する前記認識辞書を複数個作成する辞書作成手段を備えることを特徴とする。
ここで、前記経験の有無は、視聴経験の有無であり、前記辞書作成手段は、前記視聴経験の有無に応じて、内容の相違する前記認識辞書を複数個作成してもよい。
また、前記経験の有無は、利用経験の有無であり、前記辞書作成手段は、前記利用経験の有無に応じて、内容の相違する前記認識辞書を複数個作成してもよい。
また、前記経験の有無は、訪問経験の有無であり、前記辞書作成手段は、前記訪問経験の有無に応じて、内容の相違する前記認識辞書を複数個作成してもよい。
これによって、例えば、利用者が今後に放送される番組、または以前に見た(または録画した)番組のどちらを対象に検索するのかといった、対象の視聴経験の有無に応じて複数の認識辞書を作成しているので、目的に応じて音声認識の認識率を向上させた認識辞書を作成することができる。
また、前記音声認識辞書作成装置は、さらに、利用者の行動に基づいて認識対象となる単語である行動履歴単語を取得する行動履歴単語取得手段と、取得された前記行動履歴単語を蓄積する行動履歴単語蓄積手段と、予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、入力されるデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、作成された前記認識辞書を蓄積する辞書蓄積手段とを備え、前記辞書作成手段は、前記新規認識用単語、前記固定単語、及び前記行動履歴単語から前記認識辞書に登録する単語である新規登録単語を決定し、前記新規登録単語に前記新規登録単語の読み仮名及び品詞を示す情報を付加して前記認識辞書を作成してもよい。
これによって、入力されるデータに含まれない行動履歴単語を登録することで、音声認識の誤認識を抑制する認識辞書を作成することができる。
また、前記音声認識辞書作成装置は、さらに、音声認識により認識された単語である過去認識単語を取得する認識単語取得手段と、前記過去認識単語を蓄積するための過去認識単語蓄積手段とを備え、前記辞書作成手段は、前記新規認識用単語、前記固定単語、前記行動履歴単語、及び前記過去認識単語から認識辞書に登録する単語である新規登録単語を決定し、前記新規登録単語に前記新規登録単語の読み仮名及び品詞を示す情報を付加して前記認識辞書を作成してもよい。
これによって、入力されるデータに含まれない過去認識単語を登録することで、音声認識の誤認識を抑制する認識辞書を作成することができる。
このように、最新の単語に加えて、過去一定期間に存在した単語全てを認識対象として登録するのではなく、行動履歴単語または過去認識単語である単語だけを登録しているので、認識対象単語の増加も最低限で抑えられ、認識率の低下が少ないだけでなく、より少ないハードリソースで実現することが可能となる。
また、前記辞書作成手段は、前記行動履歴単語に含まれている単語であるか否かに基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成してもよい。
これによって、行動履歴単語に含まれている単語であるか否かに基づいて新規登録単語の重み付けを行うことで、音声認識の認識率を向上させた認識辞書を作成することができる。
また、前記辞書作成手段は、前記過去認識単語に含まれている単語であるか否かに基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成してもよい。
これによって、過去認識単語に含まれている単語であるか否かに基づいて新規登録単語の重み付けを行うことで、音声認識の認識率を向上させた認識辞書を作成することができる。
また、前記入力されるデータは構造化されたデータであり、前記単語抽出手段は、前記新規認識用単語とともに、前記新規認識用単語の属性を抽出し、前記辞書作成手段は、前記新規認識用単語の属性に基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成してもよい。
これによって、新規認識用単語の属性に基づいて新規登録単語の重み付けを行うことで、音声認識の認識率を向上させた認識辞書を作成することができる。
また、前記音声認識辞書作成装置は、さらに、前記利用者を識別する利用者認識情報を取得する利用者情報取得手段を備え、前記辞書作成手段は、前記利用者認識情報毎に前記認識辞書を作成してもよい。
また、前記音声認識辞書作成装置は、さらに、利用者を識別する利用者認識情報を取得する利用者情報取得手段を備え、前記辞書作成手段は、前記利用者認識情報毎にそれぞれ前記新規登録単語の重み付けを行って前記認識辞書を作成してもよい。
これによって、複数の利用者に適応した認識辞書を作成することができる。
また、前記行動履歴単語取得手段は、前記行動履歴単語とともに行動日時を前記行動履歴単語蓄積手段に記録し、前記辞書作成手段は、前記新規登録単語のうち前記行動履歴単語にはさらに前記行動日時を付加して前記認識辞書を作成し、前記音声認識辞書作成装置は、さらに、前記登録単語の前記行動日時から所定の期間が経過した前記登録単語を前記認識辞書から削除する単語削除手段を備えてもよい。
これによって、入力されるデータに含まれない単語を有する認識辞書を用いることで、音声認識の誤認識を抑制し、更に、登録単語は予め定めた期間が経過した後に、認識辞書から削除されるため、音声認識辞書作成装置のハードリソースを軽減することができる。
また、本発明の実施の形態に係る情報検索装置は、音声認識に用いられる認識辞書を作成するとともに、利用者の発話による音声信号により情報を検索する情報検索装置であって、利用者の経験の有無に応じて、内容の相違する前記認識辞書を複数個作成する辞書作成手段と、前記認識辞書を参照することによって、前記音声信号から特定の単語を認識する音声認識手段と、入力されるデータを蓄積するデータ蓄積手段と、前記音声認識手段で認識された単語を前記データから検索し、該当する情報を出力する制御手段とを備えることを特徴とする。
また、前記情報検索装置は、さらに、利用者の行動に基づいて認識対象となる単語である行動履歴単語を取得する行動履歴単語取得手段と、取得された前記行動履歴単語を蓄積する行動履歴単語蓄積手段と、予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、入力されるデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、作成された前記認識辞書を蓄積する辞書蓄積手段とを備え、前記辞書作成手段は、前記新規認識用単語、前記固定単語、及び前記行動履歴単語から前記認識辞書に登録する単語である新規登録単語を決定し、前記新規登録単語に前記新規登録単語の読み仮名及び品詞を示す情報を付加して前記認識辞書を作成してもよい。
これによって、入力されるデータに含まれない単語を有する認識辞書を用いることで、音声認識の誤認識を抑制し、音声認識の誤りと検索データの有無とを識別することができる。
例えば、情報検索装置をテレビ放送番組の番組案内装置として用いると、最新のEPGデータに含まれない過去に視聴した番組について発声した場合であっても、単語は正しく認識される。これにより、番組検索を行った場合に、「タレントCの出演する番組は、現在及び1週間以内には放送されていません」、「映画Kは、現在放送していません」という応答が可能になり、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。
また、前記入力されるデータは構造化されたデータであり、前記単語抽出手段は、前記新規認識用単語とともに、前記新規認識用単語の属性を抽出し、前記辞書作成手段は、前記新規認識用単語の属性に基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成するとともに、目的に応じて、前記新規認識用単語の属性に基づく前記新規登録単語の重み付けが相違する前記認識辞書を複数個作成し、前記情報検索装置は、さらに、前記辞書蓄積手段に蓄積されている複数の前記認識辞書から利用者によって選択される辞書を受け付ける辞書選択受付手段を備え、前記音声認識手段は、前記辞書選択受付手段で受け付けられた認識辞書を参照することによって、利用者の発話による音声信号から特定の単語を認識してもよい。
これによって、音声認識の認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、音声認識の認識率が向上し、使い易いインターフェイスが実現できる。
さらに、本発明は、このような装置として実現することができるだけでなく、このような音声認識辞書作成装置が含む特徴的な手段をステップとして含む方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
以下、本発明の実施の形態について、図面を用いて説明する。
(実施の形態1)
本実施の形態1では、主に利用者が今後に放送される番組を対象に検索を行うための認識辞書を作成し、検索を行う場合について説明する。
図1は本発明の実施の形態1に係る音声認識辞書作成装置を含む番組案内装置の構成を示すブロック図である。
番組案内装置は、EPG受信部101、単語抽出部102、辞書作成部103、固定単語蓄積部104、認識単語蓄積部105、視聴履歴単語蓄積部106、辞書蓄積部107、辞書選択部108、音声認識部109、EPG蓄積部110、時計111、および制御部112を備えている。
EPG受信部101は、入力されたテレビ信号からEPGデータを分離する。単語抽出部102は、EPGデータから「番組タイトル」、「出演者」、「ジャンル」などの認識対象となる単語である新規認識用単語を抽出する。固定単語蓄積部104は、時間、放送局を表す単語や、通常の音声認識に必要となる単語、例えば「朝」、「6時」、「の」、「ニュース」、「を」、「見たい」などの固定単語が蓄積されている。
認識単語蓄積部105は、過去に音声認識により認識した単語である過去認識単語を記憶する蓄積部である。ここでは、例えば図2に示すように、音声認識された単語の表記を示す「表記」、その単語の読み仮名を示す「よみ」、その単語が例えば番組名、ジャンル、出演者等の何れに該当するかを示す「種類」、音声認識された日時を示す「音声認識日時」、および音声認識された回数を示す「頻度」が記録されている。なお、同じ表記の単語が認識された場合には「音声認識日時」を最新の日時で更新し、「頻度」を1増加させる。
視聴履歴単語蓄積部106は、視聴した番組の情報である視聴履歴単語を記憶する蓄積部である。ここでは、視聴した番組の情報として番組名および出演者を記録し、例えば図3に示すように「表記」、その番組が視聴された日時を示す「視聴日時」、「種類」、および「頻度」が記録されている。なお、同じ表記の単語が記録する場合には「視聴日時」を最新の日時で更新し、「頻度」を1増加させる。
辞書作成部103は、単語抽出部102で抽出された新規認識用単語、及び固定単語蓄積部104に記憶されている固定単語に、音声認識に必要な読み仮名、品詞などの情報を加え、従来の音声認識辞書と同様に例えば図4に示すような基本認識辞書を作成する。また、辞書作成部103は、認識単語蓄積部105に記憶されている過去認識単語、及び視聴履歴単語蓄積部106に記憶されている視聴履歴単語を参照し、基本認識辞書に登録した単語以外の単語が存在すれば、基本認識辞書に登録した単語にその単語を追加して、例えば図5に示すような利用者適応型認識辞書を作成する。
ところで、利用者が番組案内装置を用いて検索するために発話する単語の種類(属性)は、利用者が今後に放送される番組を対象に検索を行う場合(発話条件1)と、以前に見たまたは録画した番組を対象に検索を行う場合(発話条件2)とでは、発話される頻度に違いがある。
図6は、それぞれの発話条件において単語の種類が発話される頻度を調査した結果を示す図である。図6に示すように「日時」の単語を除くと、発話条件1の場合には、「ジャンル」(44.8%)が最も多く、次に「番組内容」(9.5%)が多いのに対して、発話条件2の場合には、「番組名」(26.7%)が最も多く、次に「ジャンル」(23.3%)の順になっている。
このようなことから、辞書作成部103は、単語の種類に応じて重み付けを行い、「対象重み係数」を決定する。
さらに、辞書作成部103は、認識単語蓄積部105に過去認識単語として記憶されているか、及び視聴履歴単語蓄積部106に視聴履歴単語として記憶されているかに応じて重み付けを行い、「履歴重み係数」を決定する。そして、辞書作成部103は、例えば図7に示すように「表記」、「よみ」、「種類」に加えて、「対象重み係数」および「履歴重み係数」を記憶した重み付き利用者適応型認識辞書を作成する。
ここでは、「対象重み係数」として、「種類」が番組名である単語には「1.11」、「種類」が日時である単語には「1.27」、「種類」が放送局・チャンネルである単語には「1.06」、「種類」がジャンルである単語には「1.49」、「種類」が出演者である単語には「1.07」を与えている。
また、「履歴重み係数」として、認識単語蓄積部105に過去認識単語として記憶されていた単語には「1.2」、視聴履歴単語蓄積部106に視聴履歴単語として記憶されていた単語には「1.1」、認識単語蓄積部105及び視聴履歴単語蓄積部106の両方に記憶されていた単語には「1.3」を与えている。
辞書蓄積部107は、辞書作成部103で作成された音声認識に使用するための複数の辞書を記憶する蓄積部である。辞書選択部108は、複数の辞書から利用者によって適切と思われて選択された辞書を受け付ける。音声認識部109は、辞書選択部108で受け付けられた辞書を参照することによって、利用者の発話による音声信号から特定の単語を認識する。時計111は、現在の日時を制御部112に出力する。EPG蓄積部110は、EPGデータを記憶する蓄積部である。
制御部112は、音声認識部109で認識された単語によりEPG蓄積部110に蓄積されているEPGデータを検索し、該当する番組に関する情報を出力する。また、制御部112は、音声認識部109で認識された単語に関する情報、および音声認識日時等を認識単語蓄積部105に出力する。更に、制御部112は、利用者により番組が予め定めた時間以上視聴された際に、その番組の情報である視聴履歴単語を取得し、視聴履歴単語蓄積部106に出力する。また、制御部112は、認識単語蓄積部105に記憶されている過去認識単語の中で、音声認識日時から所定の時間が経過した過去認識単語の削除を行う。同様に、制御部112は、視聴履歴単語蓄積部106に記憶されている視聴履歴単語の中で、視聴日時から所定の時間が経過した視聴履歴単語の削除を行う。
上記のように構成された番組案内装置の動作は、辞書を作成するオフライン処理工程と、作成した辞書を用いて入力された音声を認識し、番組を案内するオンライン処理工程とに大別できる。
まず、オフライン処理工程の動作について説明する。図8は番組案内装置におけるオフライン処理工程の動作を示すフローチャートである。
テレビ信号が入力されたEPG受信部101は、テレビ信号からEPGデータを取り出し、単語抽出部102およびEPG蓄積部110に出力する(ステップS101)。
次に、単語抽出部102は、EPGデータから音声認識のキーワードとなる新規認識用単語として、「番組名」、「出演者」及び「ジャンル」を抽出する(ステップS102)。
図9は、EPGデータの一例を示す図である。EPGデータには、1つの番組毎に、放送局を識別するための「サービスID」、各番組を識別するための「イベントID」、番組が開始される年月日を示す「開始日」、番組が開始される時間を示す「開始時間」、番組の放送時間を示す「持続時間」、番組名を示す「イベント名」、出演者及び番組内容を示す「テキスト」、番組のジャンルを示す「ジャンル」の項目に分類されている。
また、「サービスID」、「イベントID」、「開始日」「開始時間」及び「持続時間」の項目に関する固定単語は、予め固定単語蓄積部104に蓄積されている。
次に、辞書作成部103は、単語抽出部102から入力される新規認識単語と、固定単語蓄積部104が蓄積する固定単語と、固定単語蓄積部104が蓄積する音声認識に必要な読み仮名や品詞などの情報を用いて従来の認識辞書と同様に基本認識辞書を作成する(ステップS103)。
次に、辞書作成部103は、視聴履歴単語蓄積部106から入力される視聴履歴単語及び認識単語蓄積部105から入力される過去認識単語を参照し、基本認識辞書に登録した単語以外の単語が存在すれば、基本認識辞書に登録した単語にその単語を追加して、例えば図5に示すような利用者適応型認識辞書を作成する。さらに、辞書作成部103は、単語の種類に応じた重み付けと、認識単語蓄積部105に過去認識単語として記憶されているか、及び視聴履歴単語蓄積部106に視聴履歴単語として記憶されているかに応じた重み付けとを行い、例えば図7に示すように「表記」、「よみ」、「種類」に加えて、「対象重み係数」および「履歴重み係数」を記憶した重み付き利用者適応型認識辞書を作成する(ステップS104)。
次に、辞書作成部103は、作成した基本認識辞書、利用者適応型認識辞書、および重み付き利用者適応型認識辞書を辞書蓄積部107に記憶する(ステップS105)。このとき、辞書作成部103は、辞書蓄積部107に記憶されている以前に作成されたそれぞれの認識辞書と入れ替えることで更新する。
なお、本実施の形態では、重み付き利用者適応型認識辞書として「対象重み係数」および「履歴重み係数」を記憶した辞書を作成しているが、これに限られるものではない。例えば、「対象重み係数」または「履歴重み係数」のいずれか一方だけを付加した辞書であっても構わない。また、「対象重み係数」および「履歴重み係数」の値は、上記の例に限られるものではなく、他の値であっても構わない。
また、「履歴重み係数」について、過去認識単語および視聴履歴単語に基づいて重み付けを行っているが、いずれか一方だけで重み付けを行っても構わない。さらに、過去認識単語および視聴履歴単語それぞれについての「重み係数」を辞書に付加しても構わない。また、「重み係数」を認識回数または視聴回数や時刻等によって変更しても構わない。
また、利用者適応型認識辞書は、視聴履歴単語、過去認識単語のどちらか一方を用いて作成しても、同様な効果を得ることができる。
また、ハードリソースが乏しい場合は、重み付けをする代わりに、例えば、利用者の使用頻度の低い番組が分類されているジャンルの新規認識用単語の削除を行っても良い。
また、利用者が今後に放送される番組を対象に検索を行う際には、番組名では発声しないものと想定し、例えば図13に示すように「種類」が番組名である単語を登録しないようにしても構わない。
また、重み付き利用者適応型認識辞書は、単語の種類に応じた重み付けの相違する辞書を複数個作成することも可能である。また、辞書作成部103に、利用者を認識する利用者認識信号を入力することで、認識辞書を利用者別に作成し、複数の利用者適応型認識辞書を作成しても良い。
ここで、例えば、「出演者」の単語を認識し易い利用者適応型認識辞書を作成する場合は、「ジャンル」、「番組名」の単語よりも、音声認識における優先順位を高くすることで、重み付けをすることができる。
また、「出演者」の単語においても、視聴履歴単語、過去認識単語の使用頻度を参照し、利用者の嗜好に適応させて音声認識における優先順位を決定することも可能である。
また、視聴履歴単語、過去認識単語の中で、既に、基本認識辞書に含まれる単語については、利用者により、再度、使用される可能性が高いために、音声認識における優先順位を高くする重み係数を設定することで、利用者の使用状況に適した重み付き利用者適応型認識辞書を作成することもできる。
また、本実施の形態では、辞書作成部103は、基本認識辞書、利用者適応型認識辞書、および重み付き利用者適応型認識辞書の3つの認識辞書を作成しているが、これに限られるものではない。例えば、基本認識辞書と、利用者適応型認識辞書または重み付き利用者適応型認識辞書のいずれか1つの認識辞書との2つの認識辞書を作成しても構わない。また、利用者適応型認識辞書および重み付き利用者適応型認識辞書をそれぞれ複数作成して、4つ以上の認識辞書を作成しても構わない。
また、辞書を作成するオフライン処理工程の動作は、例えば1日に1回というように所定の期間ごとに実行されるが、この実行の時間を視聴履歴に基づいて決定しても構わない。
次に、オンライン処理工程の動作について説明する。図10は番組案内装置におけるオンライン処理工程の動作を示すフローチャートである。
辞書選択部108は、辞書蓄積部107に記憶されている複数の認識辞書を例えば図11に示すような画面により表示し、利用者による認識辞書の選択を受け付ける(ステップS201)。
次に、辞書選択部108は、利用者によって選択された認識辞書を音声認識部109に出力する(ステップS202)。なお、初期設定として、基本認識辞書を音声認識部109に出力することも可能である。
ここで、利用者が選択した認識辞書の種類をテレビ画面の一部に表示することで、利用者に認識辞書内容に沿った音声内容の入力を促進することも可能である。
次に、音声認識部109は、利用者によって選択された認識辞書を参照して入力された音声から特定の単語を認識する(ステップS203)。ここで、利用者によって図7に示すような重み付き利用者適応型認識辞書が選択されている状態で、利用者が「スポーツが見たい」と発話した場合の認識結果について説明する。図12(a)は図7に示す重み付き利用者適応型認識辞書から一部を抜粋した図であり、図12(b)は認識結果例を示す図である。音声認識部109は、まず一般的な音声認識と同様にスコアを算出する。ここでは、スコアは、図12(b)に示すように「スポーツ天国」が500、「スポーツ」が300、「まるごとスポーツ」が200であったとする。音声認識部109は、算出したスコアに重み付き利用者適応型認識辞書に登録されている「対象重み係数」および「履歴重み係数」を乗算して最終スコアを算出する。この結果、音声認識部109は、最終スコアに基づいて最終認識結果として「スポーツ」を認識する。
次に、制御部112は、音声認識部109で認識された単語(以下、認識単語という)と、EPG蓄積部110に蓄積されているEPGデータとを参照し、番組を検索する(ステップS204)。すなわち、制御部112は、認識単語によりEPG蓄積部110に蓄積されているEPGデータを検索する。そして、制御部112は、EPGデータに認識単語が存在するか否かを判定する(ステップS205)。
この結果、EPGデータに認識単語が含まれている場合(ステップS205でYES)には、制御部112は、該当する番組を案内する(ステップS206)。
一方、EPGデータに認識単語が含まれていない場合(ステップS205でNO)には、制御部112は、該当する番組が存在しないため、例えば、「タレントCの出演する番組は、現在及び1週間以内には放送されていません」、「映画Kは、現在放送していません」といった返答をする(ステップS207)。
ここで、利用者の視聴履歴や認識履歴を用いて認識辞書を作成していため、音声認識した単語が、認識辞書には含まれるが、EPGデータに含まれない場合は、音声認識の誤りではないと制御部112が判断し、該当する番組の有無を返答することが可能となる。
以上の構成によれば、EPGデータ、利用者の視聴履歴及び音声認識履歴を参照して認識辞書を作成することにより、最新のEPGデータに含まれない単語を、認識対象単語として扱うことができ、番組検索を行った場合に、音声認識の誤りと検索データの有無とを識別することができ、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。
また、登録単語に対して重み付けを行って「対象重み係数」や「履歴重み係数」等を付与して認識辞書を作成しているので、音声認識の認識率を向上することができる。
更に、認識辞書を複数個作成し、利用者から使用する認識辞書の選択を受け付けているので、音声認識部109の認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、認識率を向上することができ、使い易いインターフェイスが実現できる。
(実施の形態2)
本実施の形態2では、実施の形態1において説明した利用者が今後に放送される番組を対象に検索を行うための認識辞書に加えて、以前に録画した(または見た)番組を対象に検索を行うための認識辞書を作成し、目的に応じて検索を行う場合について説明する。
図14は本発明の実施の形態2に係る音声認識辞書作成装置を含む番組案内装置の構成を示すブロック図である。なお、実施の形態1と同様の部分については同じ符号を付し、詳細な説明を省略する。
この番組案内装置は、図14に示すように実施の形態1のEPG受信部101およびEPG蓄積部110に替えて、番組・EPG受信部201、番組・EPG蓄積部202、および録画情報蓄積部203を備えている。また、辞書作成部204、辞書選択部205、および制御部206の動作が、実施の形態1とは相違する。
番組・EPG受信部201は、入力されたテレビ信号からEPGデータおよび番組データを分離する。番組・EPG蓄積部202は、EPGデータおよび番組データを記憶する蓄積部である。録画情報蓄積部203は、録画されている番組に関する情報を記憶する蓄積部である。ここでは、例えば図15に示すように録画されている番組を示す「表記」、その番組が録画された日時を示す「視聴日時」、その番組のジャンルを示す「種類」、およびその番組の録画予約を利用者が行ったかまたはシステムが行ったかを示す「予約・蓄積」が記録されている。なお、システムが録画予約を行うとは、例えば利用者により指定されたキーワードを含む番組をすべて録画する場合等である。
制御部206は、録画する番組に関する情報を録画情報蓄積部203に出力する。
辞書作成部204は、以前に録画した(または見た)番組を対象に検索を行うための認識辞書として、実施の形態1で説明した重み付き利用者適応型認識辞書の「対象重み係数」を例えば図6に示す発話頻度の調査結果等に基づいて変更した、例えば図16に示すような重み付き利用者適応型認識辞書を作成する。ここでは、「対象重み係数」として、「種類」が番組名(未視聴番組)である単語には「1.11」、「種類」が番組名(既視聴番組)である単語には「1.30」、「種類」が日時である単語には「1.30」、「種類」が放送局・チャンネルである単語には「1.03」、「種類」がジャンルである単語には「1.49」、「種類」が出演者である単語には「1.07」を与えている。このとき、辞書作成部204は、番組名に関して未視聴番組であるかまたは既視聴番組であるかについて、録画情報蓄積部203に記憶されている「予約・蓄積」の情報に基づいて判定する。すなわち、番組の録画予約をシステムが行った場合には未視聴番組であると判定し、番組の録画予約を利用者が行った既視聴番組であると判定する。
辞書選択部205は、利用者から検索対象が今後に放送される番組であるか、以前に録画した(または見た)番組であるかの指示を受け付け、検索対象に応じて認識辞書を選択する。すなわち、検索対象が今後に放送される番組である場合には、実施の形態1で説明した例えば図7に示すようなジャンルの重み付けが大きい重み付き利用者適応型認識辞書を、検索対象が以前に見たまたは録画した番組である場合には、例えば図16に示すような番組名の重み付けが大きい重み付き利用者適応型認識辞書を選択する。
次に、上記のように構成された番組案内装置のオンライン処理工程の動作について説明する。図17は番組案内装置におけるオンライン処理工程の動作を示すフローチャートである。なお、オフライン処理工程の動作については実施の形態1と同様であるので説明を省略する。
辞書選択部205は、利用者から検索対象が今後に放送される番組であるか以前に見たまたは録画した番組であるかの指示を受け付ける(ステップS301)。ここで、検索対象が今後に放送される番組である場合には、ジャンルの重み付けが大きい重み付き利用者適応型認識辞書を音声認識部109で用いる認識辞書として選択する(ステップS302)。一方、検索対象が以前に見たまたは録画した番組である場合には、番組名の重み付けが大きい重み付き利用者適応型認識辞書を音声認識部109で用いる認識辞書として選択する(ステップS303)。
以降の動作(ステップS203〜S207)は、実施の形態1と同様である。
以上のように、検索対象が今後に放送される番組であるか、以前に録画した(または見た)番組であるかに応じて、複数の認識辞書を作成し、音声認識部109で用いる認識辞書を選択しているので、認識率を向上することができ、使い易いインターフェイスが実現できる。
なお、本実施の形態では、録画情報蓄積部203に記憶される録画情報としてその番組の録画予約を利用者が行ったかまたはシステムが行ったかを示す「予約・蓄積」が記録されているが、これに限られるものではない。例えば、番組を予約して録画を行ったかまたは直接利用者が録画操作を行ったかを示す情報、実際に利用者が視聴したかまたは視聴していないかを示す情報、および、番組の録画予約をEPGを利用して行ったかまたは日時を指定して行ったかを示す情報等であっても構わない。また、それらの情報を複数用いても構わない。
(実施の形態3)
実施の形態1では、認識辞書の更新時に、新しく作成した認識辞書と、古い認識辞書とを入れ替えていたが、本実施の形態3では、認識辞書を部分的に更新するとともに、認識辞書に登録されている単語のうち、所定の期間以前に登録された単語を削除する場合について説明する。
図18は本発明の実施の形態3に係る音声認識辞書作成装置を含む番組案内装置の構成を示すブロック図である。なお、実施の形態1と同様の部分については同じ符号を付し、詳細な説明を省略する。
この番組案内装置は、図14に示すように実施の形態1の構成に加えて単語削除部301を備えている。また、辞書作成部303、および制御部302の動作が、実施の形態1とは相違する。
辞書作成部303は、実施の形態1と同様に基本認識辞書、利用者適応型認識辞書、および重み付き利用者適応型認識辞書を作成した上で、辞書蓄積部107に蓄積されている基本認識辞書、利用者適応型認識辞書、および重み付き利用者適応型認識辞書との相違する部分を部分的に更新する。
単語削除部503は、時計111の日時と、制御部112から出力される番組内容と、認識単語蓄積部105から出力される過去認識単語とを参照し、認識辞書に登録されている単語のうち、所定の期間(例えば1週間)以前に登録された単語を削除する。
次に、上記のように構成された番組案内装置のオフライン処理工程の動作について説明する。図19は番組案内装置におけるオンライン処理工程の動作を示すフローチャートである。なお、オンライン処理工程の動作については実施の形態1と同様であるので説明を省略する。
テレビ信号が入力されたEPG受信部101は、テレビ信号からEPGデータを取り出し、単語抽出部102およびEPG蓄積部110に出力する(ステップS401)。
次に、単語抽出部102は、EPGデータから音声認識のキーワードとなる新規認識用単語として、「番組名」、「出演者」及び「ジャンル」を抽出する(ステップS402)。
次に、辞書作成部103は、単語抽出部102から入力される新規認識単語と、固定単語蓄積部104が蓄積する固定単語と、固定単語蓄積部104が蓄積する音声認識に必要な読み仮名や品詞などの情報を用いて従来の認識辞書と同様に基本認識辞書を作成する(ステップS403)。
次に、辞書作成部103は、視聴履歴単語蓄積部106から入力される視聴履歴単語及び認識単語蓄積部105から入力される過去認識単語を参照し、基本認識辞書に登録した単語以外の単語が存在すれば、基本認識辞書に登録した単語にその単語を追加して、例えば図5に示すような利用者適応型認識辞書を作成する。さらに、辞書作成部103は、単語の種類に応じた重み付けと、認識単語蓄積部105に過去認識単語として記憶されているか、及び視聴履歴単語蓄積部106に視聴履歴単語として記憶されているかに応じた重み付けとを行い、例えば図7に示すように「表記」、「よみ」、「種類」に加えて、「対象重み係数」および「履歴重み係数」を記憶した重み付き利用者適応型認識辞書を作成する(ステップS404)。
次に、辞書作成部103は、辞書蓄積部502に蓄積されている認識辞書(基本認識辞書、利用者適応型認識辞書、および重み付き利用者適応型認識辞書)と、新たに作成した認識辞書との差分を求め、新たに作成した認識辞書から既に蓄積されている認識辞書に含まれない単語を、辞書蓄積部107に登録することで、認識辞書を部分的に入れ替え、更新する(ステップS405)。
次に、単語削除部301は、時計111の日時と、認識辞書の単語に添付された日時とを用いて、所定の期間(例えば1週間)前に、更新された単語を認識辞書から削除する。ただし、削除する期間は、利用者により設定することも可能である。また、利用者適応型認識辞書に含まれる単語は、削除する期間を基本認識辞書よりも延長することが可能であり、更に、利用者の視聴履歴を用いて、過去に見た番組に関する単語は削除対象外とすることも可能である。更に、単語の種類またはジャンル等に応じて、削除する期間を変更することも可能である。
なお、ハードリソースが乏しい場合は、重み付けをする代わりに、例えば、利用者の使用頻度の低い番組が分類されているジャンルの新規認識用単語の削除を行っても良い。
また、重み付き利用者適応型認識辞書は、単語の種類に応じた重み付けの相違する辞書を複数個作成することも可能である。また、利用者別に視聴履歴を作成し、複数の利用者適応型認識辞書を作成しても良い。
また、利用者適応型認識辞書は、視聴履歴単語、過去認識単語のどちらか一方を用いて作成しても、同様な効果を得ることができる。
また、更新された単語には、更新日時が添付され、古い認識辞書に同一単語が存在する場合は、更新時の日時を再度添付する。
以上の構成によれば、EPGデータ、利用者の視聴履歴及び音声認識履歴を参照して認識辞書を新たに作成し、前回作成した認識辞書を部分的に入れ替えることにより、最新のEPGデータに含まれない単語を、認識対象単語として扱うことができ、番組検索を行った場合に、音声認識の誤りと検索データの有無を識別することができ、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。
更に、認識辞書を複数個作成し、利用者から使用する認識辞書の選択を受け付けているので、音声認識部109の認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、認識率を向上することができ、使い易いインターフェイスが実現できる。
(実施の形態4)
実施の形態1〜3では、テレビ放送番組を検索する場合について説明したが、本実施の形態4では、音楽コンテンツを検索する場合について説明する。
図20は本発明の実施の形態4に係る音声認識辞書作成装置を含む音楽案内装置の構成を示すブロック図である。なお、実施の形態1と同様の部分については同じ符号を付し、詳細な説明を省略する。
この音楽案内装置は、図20に示すように実施の形態1のEPG受信部101、視聴履歴単語蓄積部106およびEPG蓄積部110に替えて、音楽データ・音楽情報・視聴履歴蓄積部401を備えている。また、単語抽出部402、辞書作成部403および制御部404の動作が、実施の形態1とは相違する。
音楽データ・音楽情報・視聴履歴蓄積部401は、音楽データ、音楽情報、および視聴履歴を記憶する蓄積部である。ここでは、音楽情報として、例えば図21に示すように音楽のタイトルを示す「音楽タイトル」、その音楽の演奏者を示す「アーティスト」、その音楽が収録されているアルバム名を示す「アルバム」、その音楽のジャンルを示す「ジャンル」、およびその音楽の演奏時間や発売日等を示す「詳細」が記録されている。
また、視聴履歴として、例えば図22に示すように音楽の「音楽タイトル」、その音楽が視聴された期間を示す「視聴期間」、その音楽が視聴された回数を示す「視聴回数」、およびその音楽をどこから蓄積したのかを示す「蓄積基」が記録されている。
単語抽出部402は、音楽情報から「音楽タイトル」、「アーティスト」、「アルバム」、「ジャンル」などの認識対象となる単語である新規認識用単語を抽出する。
辞書作成部403は、単語抽出部402で抽出された新規認識用単語、及び固定単語蓄積部104に記憶されている固定単語に、音声認識に必要な読み仮名、品詞などの情報を加え、上記実施の形態1と同様に基本認識辞書を作成する。また、辞書作成部403は、認識単語蓄積部105に記憶されている過去認識単語を参照し、基本認識辞書に登録した単語以外の単語が存在すれば、基本認識辞書に登録した単語にその単語を追加して、利用者適応型認識辞書を作成する。
また、辞書作成部403は、単語が「音楽タイトル」、「アーティスト」、「アルバム」、「ジャンル」等の種類の何れであるかに応じて重み付けを行い、「対象重み係数」を決定する。このとき、辞書作成部403は、その音楽が未視聴であるか既に視聴されているかに応じて、それぞれの種類に対する重み付けを相違させて、「対象重み係数」を決定する。
さらに、辞書作成部403は、単語が認識単語蓄積部105に過去認識単語として記憶されているか、視聴履歴を有する音楽に関する単語であるか否か、その音楽を蓄積したのが利用者であるかシステムであるかに応じて重み付けを行い、「履歴重み係数」を決定する。そして、辞書作成部403は、「表記」、「よみ」、「種類」に加えて、「対象重み係数」および「履歴重み係数」を記憶した重み付き利用者適応型認識辞書を作成する。
ここでは、その音楽が未視聴である場合には「対象重み係数」として、図23に示すように「種類」が音楽タイトルである単語には「1.1」、「種類」がアーティストである単語には「1.2」、「種類」がアルバムである単語には「1.1」、「種類」がジャンルである単語には「1.3」を与えている。一方、その音楽が既視聴である場合には「対象重み係数」として、「種類」が音楽タイトルである単語には「1.3」、「種類」がアーティストである単語には「1.3」、「種類」がアルバムである単語には「1.2」、「種類」がジャンルである単語には「1.3」を与えている。
また、「履歴重み係数」として、認識単語蓄積部105に過去認識単語として記憶されていた単語には「1.2」、視聴履歴を有する音楽に関する単語には「1.1」、蓄積したのが利用者である音楽に関する単語には「1.2」を与えている。このとき、複数に該当する場合には、係数を加えて「履歴重み係数」とする。
なお、上記のように構成された音楽案内装置における辞書を作成するオンライン処理工程、および作成した辞書を用いて入力された音声を認識し、音楽を検索するオフライン処理工程の動作については実施の形態1と同様であるので説明を省略する。
以上の構成によれば、音楽情報、利用者の視聴履歴及び音声認識履歴を参照して認識辞書を作成することにより、最新の音楽情報に含まれない単語を、認識対象単語として扱うことができ、番組検索を行った場合に、音声認識の誤りと検索データの有無とを識別することができ、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。
また、登録単語に対して重み付けを行って「対象重み係数」や「履歴重み係数」等を付与して認識辞書を作成しているので、音声認識の認識率を向上することができる。
更に、認識辞書を複数個作成し、利用者から使用する認識辞書の選択を受け付けているので、音声認識部109の認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、認識率を向上することができ、使い易いインターフェイスが実現できる。
なお、本実施の形態では、「履歴重み係数」について、単語が認識単語蓄積部105に過去認識単語として記憶されているか、視聴履歴を有する音楽に関する単語であるか否か、その音楽を蓄積したのが利用者であるかシステムであるかに応じて重み付けを行っているが、いずれか1つだけで重み付けを行っても構わない。また、それぞれ個別に「重み係数」を辞書に付加しても構わない。また、「重み係数」を認識回数または視聴回数や時刻等によって変更しても構わない。
また、本実施の形態では、検索対象を未視聴であるか既に視聴されているかに分けずに検索することを想定しているが、これに限られるものではない。例えば、検索対象を未視聴であるか既に視聴されているかに分けて検索する場合には、検索対象を分けて検索する場合と検索対象を分けずに検索する場合とで、異なった「対象重み係数」を用いても構わない。
(実施の形態5)
実施の形態4では、音楽コンテンツを検索する場合について説明したが、本実施の形態5では、店舗(飲食店)データを検索する場合について説明する。
図24は本発明の実施の形態5に係る音声認識辞書作成装置を含む情報検索装置の構成を示すブロック図である。なお、実施の形態1と同様の部分については同じ符号を付し、詳細な説明を省略する。
この情報検索装置は、図24に示すように実施の形態1のEPG受信部101、視聴履歴単語蓄積部106およびEPG蓄積部110に替えて、飲食店データ蓄積部501および利用情報保存部504を備えている。また、単語抽出部502、辞書作成部503および制御部505の動作が、実施の形態1とは相違する。
飲食店データ蓄積部501は、飲食店データを記憶する蓄積部である。ここでは、例えば図25に示すように飲食店の名称を示す「店名」、その飲食店の大まかなジャンルを示す「ジャンル1」、その飲食店の詳しいジャンルを示す「ジャンル2」、その飲食店の扱っているメニューを示す「主なメニュー」、およびその飲食店の営業時間を示す「営業時間」が記録されている。
利用情報保存部504は、利用者が利用した飲食店の利用情報を記憶する保存部である。ここでは、例えば図26に示すように飲食店の「店名」、その飲食店を利用者が利用した期間を示す「利用期間」、その飲食店を利用者が利用した回数を示す「利用回数」、およびその飲食店を利用者が利用した時間帯を示す「利用時間帯」が記録されている。
単語抽出部502は、飲食店データから「店名」、「ジャンル1」、「ジャンル2」、「主なメニュー」などの認識対象となる単語である新規認識用単語を抽出する。
辞書作成部503は、単語抽出部502で抽出された新規認識用単語、及び固定単語蓄積部104に記憶されている固定単語に、音声認識に必要な読み仮名、品詞などの情報を加え、上記実施の形態1と同様に基本認識辞書を作成する。また、辞書作成部503は、認識単語蓄積部105に記憶されている過去認識単語を参照し、基本認識辞書に登録した単語以外の単語が存在すれば、基本認識辞書に登録した単語にその単語を追加して、利用者適応型認識辞書を作成する。
また、辞書作成部503は、単語が「店名」、「ジャンル1」、「ジャンル2」、「主なメニュー」等の種類の何れであるかに応じて重み付けを行い、「対象重み係数」を決定する。このとき、辞書作成部503は、その飲食店を利用者が利用したか否かに応じて、それぞれの種類に対する重み付けを相違させて、「対象重み係数」を決定する。
さらに、辞書作成部503は、単語が認識単語蓄積部105に過去認識単語として記憶されているかに応じて重み付けを行い、「履歴重み係数」を決定する。そして、辞書作成部503は、「表記」、「よみ」、「種類」に加えて、「対象重み係数」および「履歴重み係数」を記憶した重み付き利用者適応型認識辞書を作成する。
ここでは、その飲食店が利用者によって利用されていない場合には「対象重み係数」として、図27に示すように「種類」が店名である単語には「1.1」、「種類」がジャンル1である単語には「1.4」、「種類」がジャンル2である単語には「1.3」、「種類」が主なメニューである単語には「1.3」を与えている。一方、その飲食店が利用者によって利用されている場合には「対象重み係数」として、「種類」が店名である単語には「1.4」、「種類」がジャンル1である単語には「1.3」、「種類」がジャンル2である単語には「1.4」、「種類」が主なメニューである単語には「1.2」を与えている。
また、「履歴重み係数」として、認識単語蓄積部105に過去認識単語として記憶されていた単語には「1.5」を与えている。
なお、上記のように構成された情報検索装置における辞書を作成するオンライン処理工程、および作成した辞書を用いて入力された音声を認識し、飲食店を検索するオフライン処理工程の動作については実施の形態1と同様であるので説明を省略する。
以上の構成によれば、利用者の利用情報及び音声認識履歴を参照して認識辞書を作成することにより、最新の飲食店データに含まれない単語を、認識対象単語として扱うことができ、飲食店の検索を行った場合に、音声認識の誤りと検索データの有無とを識別することができ、利用者にとって、使い勝手の良い音声インターフェイスが実現できる。
また、登録単語に対して重み付けを行って「対象重み係数」や「履歴重み係数」等を付与して認識辞書を作成しているので、音声認識の認識率を向上することができる。
更に、認識辞書を複数個作成し、利用者から使用する認識辞書の選択を受け付けているので、音声認識部109の認識率が低いと思う利用者が、複数個の辞書から、最適と思われる辞書を選択することにより、認識率を向上することができ、使い易いインターフェイスが実現できる。
なお、本実施の形態では、「履歴重み係数」について、単語が認識単語蓄積部105に過去認識単語として記憶されているかに応じて重み付けを行っているが、例えば認識回数または利用回数や利用時間帯等によって変更しても構わない。
また、本実施の形態では、検索対象を利用経験のあるなしに分けずに検索することを想定しているが、これに限られるものではない。例えば、検索対象を利用経験のあるなしに分けて検索する場合には、検索対象を分けて検索する場合と検索対象を分けずに検索する場合とで、異なった「対象重み係数」を用いても構わない。
以上のように、本発明に係る音声認識辞書作成装置および情報検索装置は、音声認識の認識率を向上させた認識辞書を作成することができ、例えば番組案内装置、音楽案内装置、およびカーナビゲーションシステム等の情報検索装置で、音声信号により情報を検索するのに有用である。
本発明の実施の形態1に係る音声認識辞書作成装置を含む番組案内装置の構成を示すブロック図である。 認識単語蓄積部に蓄積されているデータ例を示す図である。 視聴履歴単語蓄積部に蓄積されているデータ例を示す図である。 基本認識辞書のデータ例を示す図である。 利用者適応型認識辞書のデータ例を示す図である。 それぞれの発話条件において単語の種類が発話される頻度を調査した結果を示す図である。 重み付き利用者適応型認識辞書のデータ例を示す図である。 番組案内装置におけるオフライン処理工程の動作を示すフローチャートである。 EPGデータの一例を示す図である。 番組案内装置におけるオンライン処理工程の動作を示すフローチャートである。 複数の認識辞書の中から1つの認識辞書を選択する画面の一例を示す図である。 (a)は図7に示す重み付き利用者適応型認識辞書から一部を抜粋した図であり、(b)は認識結果例を示す図である。 「種類」が番組名である単語を登録していない利用者適応型認識辞書のデータ例を示す図である。 本発明の実施の形態2に係る音声認識辞書作成装置を含む番組案内装置の構成を示すブロック図である。 録画情報蓄積部に蓄積されているデータ例を示す図である。 実施の形態2の重み付き利用者適応型認識辞書のデータ例を示す図である。 実施の形態2の番組案内装置におけるオンライン処理工程の動作を示すフローチャートである。 本発明の実施の形態3に係る音声認識辞書作成装置を含む番組案内装置の構成を示すブロック図である。 実施の形態3の番組案内装置におけるオンライン処理工程の動作を示すフローチャートである。 本発明の実施の形態4に係る音声認識辞書作成装置を含む音楽案内装置の構成を示すブロック図である。 音楽データ・音楽情報・視聴履歴蓄積部に蓄積されている音楽情報のデータ例を示す図である。 音楽データ・音楽情報・視聴履歴蓄積部に蓄積されている視聴履歴のデータ例を示す図である。 実施の形態4における「種類」毎の「対象重み係数」の一例を示す図である。 本発明の実施の形態5に係る音声認識辞書作成装置を含む情報検索装置の構成を示すブロック図である。 飲食店データ蓄積部に蓄積されているデータ例を示す図である。 利用情報保存部に蓄積されているデータ例を示す図である。 実施の形態5における「種類」毎の「対象重み係数」の一例を示す図である。 従来の音声認識辞書作成装置を備える番組案内装置の構成を示すブロック図である。
符号の説明
101 EPG受信部
102、402、502 単語抽出部
103、204、303、403、503 辞書作成部
104 固定単語蓄積部
105 認識単語蓄積部
106 視聴履歴単語蓄積部
107 辞書蓄積部
108、205 辞書選択部
109 音声認識部
110 EPG蓄積部
111 時計
112、206、302、404、505 制御部
201 番組・EPG受信部
202 番組・EPG蓄積部
203 録画情報蓄積部
301 単語削除部
401 音楽データ・音楽情報・視聴履歴蓄積部
501 飲食店データ蓄積部
504 利用情報保存部

Claims (21)

  1. 番組情報あるいは音楽コンテンツに関するデータに対する音声認識を行うための認識辞書を作成する音声認識辞書作成装置であって、
    利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得手段と、
    取得された前記視聴履歴単語を蓄積する視聴履歴単語蓄積手段と、
    予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、
    入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、
    前記新規認識用単語、前記固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成手段と、
    作成された前記認識辞書を蓄積する辞書蓄積手段と
    を備えることを特徴とする音声認識辞書作成装置。
  2. 前記辞書作成手段は、前記認識辞書に登録される単語の属性に基づいて内容の相違する前記認識辞書を複数個作成する
    ことを特徴とする請求項1記載の音声認識辞書作成装置。
  3. 記辞書作成手段は、前記新規認識用単語、前記固定単語、及び前記視聴履歴単語から前記認識辞書に登録する単語である新規登録単語を決定し、前記新規登録単語に前記新規登録単語の読み仮名及び品詞を示す情報を付加して前記認識辞書を作成する
    ことを特徴とする請求項1記載の音声認識辞書作成装置。
  4. 前記辞書作成手段は、前記新規認識用単語及び前記固定単語と、前記視聴履歴単語の中で前記新規認識用単語及び前記固定単語に含まれない単語とを、前記新規登録単語として決定する
    ことを特徴とする請求項記載の音声認識辞書作成装置。
  5. 前記音声認識辞書作成装置は、さらに、
    音声認識により認識された単語である過去認識単語を取得する認識単語取得手段と、
    前記過去認識単語を蓄積するための過去認識単語蓄積手段とを備え、
    前記辞書作成手段は、前記新規認識用単語、前記固定単語、前記視聴履歴単語、及び前記過去認識単語から内容の相違する前記認識辞書を複数個作成する
    ことを特徴とする請求項1〜請求項4のいずれか1項に記載の音声認識辞書作成装置。
  6. 前記辞書作成手段は、前記新規認識用単語、前記固定単語、前記視聴履歴単語、及び前記過去認識単語から認識辞書に登録する単語である新規登録単語を決定し、前記新規登録単語に前記新規登録単語の読み仮名及び品詞を示す情報を付加して前記認識辞書を作成する
    ことを特徴とする請求項記載の音声認識辞書作成装置。
  7. 前記辞書作成手段は、前記新規認識用単語及び前記固定単語と、前記視聴履歴単語及び前記過去認識単語の中で前記新規認識用単語及び前記固定単語に含まれない単語とを、前記新規登録単語として決定する
    ことを特徴とする請求項6記載の音声認識辞書作成装置。
  8. 前記辞書作成手段は、前記視聴履歴単語に含まれている単語であるか否かに基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成する
    ことを特徴とする請求項または請求項記載の音声認識辞書作成装置。
  9. 前記辞書作成手段は、前記過去認識単語に含まれている単語であるか否かに基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成する
    ことを特徴とする請求項記載の音声認識辞書作成装置。
  10. 前記辞書作成手段は、前記視聴履歴単語及び前記過去認識単語に含まれている単語であるか否かに基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成する
    ことを特徴とする請求項記載の音声認識辞書作成装置。
  11. 前記入力されるデータは構造化されたデータであり、
    前記単語抽出手段は、前記新規認識用単語とともに、前記新規認識用単語の属性を抽出し、
    前記辞書作成手段は、前記新規認識用単語の属性に基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成する
    ことを特徴とする請求項または請求項記載の音声認識辞書作成装置。
  12. 前記辞書作成手段は、目的に応じて、前記新規認識用単語の属性に基づく前記新規登録単語の重み付けが相違する前記認識辞書を複数個作成する
    ことを特徴とする請求項11記載の音声認識辞書作成装置。
  13. 前記利用者から前記認識辞書の利用目的に関する指示を受け付ける指示受付手段を備え、
    前記辞書作成手段は、前記指示受付手段によって受け付けられた前記利用目的に関する指示に応じて、前記新規認識用単語の属性に基づく前記新規登録単語の重み付けを行って前記認識辞書を作成する
    ことを特徴とする請求項11記載の音声認識辞書作成装置。
  14. 前記音声認識辞書作成装置は、さらに、
    前記利用者を識別する利用者認識情報を取得する利用者情報取得手段を備え、
    前記辞書作成手段は、前記利用者認識情報毎に前記認識辞書を作成する
    ことを特徴とする請求項または請求項記載の音声認識辞書作成装置。
  15. 前記音声認識辞書作成装置は、さらに、
    利用者を識別する利用者認識情報を取得する利用者情報取得手段を備え、
    前記辞書作成手段は、前記利用者認識情報毎にそれぞれ前記新規登録単語の重み付けを行って前記認識辞書を作成する
    ことを特徴とする請求項11記載の音声認識辞書作成装置。
  16. 前記音声認識辞書作成装置は、さらに、
    テレビ信号から電子番組ガイドであるEPGデータを分離するEPG受信手段を備え、
    前記利用者の行動は、番組の視聴であり、
    前記視聴履歴単語取得手段は、前記利用者の視聴に基づいて前記視聴履歴単語を取得し、
    前記単語抽出手段は、前記EPGデータから前記属性である項目毎に前記新規認識用単語を抽出する
    ことを特徴とする請求項記載の音声認識辞書作成装置。
  17. 前記辞書作成手段は、前記EPGデータの前記項目に基づいて前記新規登録単語の重み付けを行い、前記重み付けに関する情報を付加して前記認識辞書を作成する
    ことを特徴とする請求項16記載の音声認識辞書作成装置。
  18. 前記辞書作成手段は、前記項目がジャンルである前記登録単語に対する重みを前記項目がタイトルである前記登録単語に対する重みより大きく重み付けした今後の番組用認識辞書、及び前記項目がタイトルである前記登録単語に対する重みを前記項目がジャンルである前記登録単語に対する重みより大きく重み付けした録画番組用認識辞書を作成する
    ことを特徴とする請求項17記載の音声認識辞書作成装置。
  19. 番組情報あるいは音楽コンテンツに関するデータに対する音声認識を行うための認識辞書を作成するとともに、利用者の発話による音声信号により情報を検索する情報検索装置であって、
    利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得手段と、
    取得された前記視聴履歴単語を蓄積する視聴履歴単語蓄積手段と、
    予め設定される所定の固定単語を蓄積している固定単語蓄積手段と、
    入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出手段と、
    前記新規認識用単語、前記固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成手段と、
    作成された前記認識辞書を蓄積する辞書蓄積手段と、
    前記認識辞書を参照することによって、前記音声信号から特定の単語を認識する音声認識手段と、
    入力されるデータを蓄積するデータ蓄積手段と、
    前記音声認識手段で認識された単語を前記データから検索し、該当する情報を出力する制御手段と
    を備えることを特徴とする情報検索装置。
  20. 番組情報あるいは音楽コンテンツに関するデータに対する音声認識を行うための認識辞書を作成するとともに、利用者の発話による音声信号により情報を検索する情報検索方法であって、
    利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得ステップと、
    入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出ステップと、
    前記新規認識用単語、予め設定される所定の固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成ステップと、
    前記認識辞書を参照することによって、前記音声信号から特定の単語を認識する音声認識ステップと、
    前記音声認識ステップで認識された単語を前記入力されたデータから検索し、該当する情報を出力する制御ステップと
    を含むことを特徴とする情報検索方法。
  21. 番組情報あるいは音楽コンテンツに関するデータに対する音声認識を行うための認識辞書を作成するとともに、利用者の発話による音声信号により情報を検索するためのプログラムであって、
    利用者の前記データに関する視聴経験に基づいて認識対象となる単語である視聴履歴単語を取得する視聴履歴単語取得ステップと、
    入力される番組情報、あるいは音楽コンテンツに関するデータから認識対象となる単語である新規認識用単語を抽出する単語抽出ステップと、
    前記新規認識用単語、予め設定される所定の固定単語、及び前記視聴履歴単語から、内容の相違する前記認識辞書を複数個作成する辞書作成ステップと、
    前記認識辞書を参照することによって、前記音声信号から特定の単語を認識する音声認識ステップと、
    前記音声認識ステップで認識された単語を前記入力されたデータから検索し、該当する情報を出力する制御ステップと
    をコンピュータに実行させることを特徴とするプログラム。
JP2004056770A 2003-03-13 2004-03-01 情報検索装置、情報検索方法、およびプログラム Expired - Fee Related JP4601306B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004056770A JP4601306B2 (ja) 2003-03-13 2004-03-01 情報検索装置、情報検索方法、およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003068049 2003-03-13
JP2004056770A JP4601306B2 (ja) 2003-03-13 2004-03-01 情報検索装置、情報検索方法、およびプログラム

Publications (3)

Publication Number Publication Date
JP2004295102A JP2004295102A (ja) 2004-10-21
JP2004295102A5 true JP2004295102A5 (ja) 2007-04-12
JP4601306B2 JP4601306B2 (ja) 2010-12-22

Family

ID=33421626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004056770A Expired - Fee Related JP4601306B2 (ja) 2003-03-13 2004-03-01 情報検索装置、情報検索方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP4601306B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007028463A (ja) * 2005-07-21 2007-02-01 Sony Corp 受信装置および番組情報提示方法
JP2007140194A (ja) * 2005-11-18 2007-06-07 Mitsubishi Electric Corp 番組検索装置および形態素辞書管理サーバ
JP4865324B2 (ja) * 2005-12-26 2012-02-01 キヤノン株式会社 情報処理装置及び情報処理装置の制御方法
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法
JP2007256643A (ja) * 2006-03-23 2007-10-04 Denso Corp 音声認識装置及びナビゲーションシステム
JP2007280104A (ja) * 2006-04-07 2007-10-25 Pioneer Electronic Corp 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP4987682B2 (ja) * 2007-04-16 2012-07-25 ソニー株式会社 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
US8620658B2 (en) 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
JP5558284B2 (ja) * 2010-09-15 2014-07-23 株式会社Nttドコモ 音声認識システム、音声認識方法、および音声認識プログラム
JP5694102B2 (ja) * 2011-09-22 2015-04-01 株式会社東芝 音声認識装置、音声認識方法およびプログラム
JP5706384B2 (ja) * 2012-09-24 2015-04-22 株式会社東芝 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP6322125B2 (ja) * 2014-11-28 2018-05-09 日本電信電話株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP2015143866A (ja) * 2015-02-25 2015-08-06 株式会社東芝 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP7132974B2 (ja) * 2020-05-19 2022-09-07 Necパーソナルコンピュータ株式会社 映像表示装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2559031B2 (ja) * 1986-09-01 1996-11-27 富士通株式会社 音声認識方式
JP3444108B2 (ja) * 1996-09-24 2003-09-08 三菱電機株式会社 音声認識装置
JP2000048029A (ja) * 1998-07-27 2000-02-18 Toshiba Corp 記録再生装置
JP2001022374A (ja) * 1999-07-05 2001-01-26 Victor Co Of Japan Ltd 電子番組ガイドの操作装置および電子番組ガイドの送信装置
JP3456176B2 (ja) * 1999-09-27 2003-10-14 日本電気株式会社 録画再生処理装置及び録画再生処理システム
JP2001166791A (ja) * 1999-12-13 2001-06-22 Ricoh Co Ltd 音声認識リモコンシステム装置
JP2001268669A (ja) * 2000-03-21 2001-09-28 Ricoh Co Ltd 移動電話端末を利用した機器制御装置、方法、及び記録媒体
JP2001359010A (ja) * 2000-06-16 2001-12-26 Nippon Hoso Kyokai <Nhk> 放送方法および放送システム
JP2002112126A (ja) * 2000-09-28 2002-04-12 Toshiba Corp 視聴録画処理装置及び視聴録画処理方法
JP2002269146A (ja) * 2001-03-08 2002-09-20 Fujitsu Ltd ワードスポッティング情報検索装置とワードスポッティング情報検索装置を実現するための方法及びプログラム
JP4581290B2 (ja) * 2001-05-16 2010-11-17 パナソニック株式会社 音声認識装置および音声認識方法

Similar Documents

Publication Publication Date Title
US7437296B2 (en) Speech recognition dictionary creation apparatus and information search apparatus
US11809483B2 (en) Intelligent automated assistant for media search and playback
US8112420B2 (en) Information search system, information processing apparatus and method, and information search apparatus and method
JP4910582B2 (ja) 情報処理装置および方法、並びに、プログラム
US20090129749A1 (en) Video recorder and video reproduction method
US20200195983A1 (en) Multimedia stream analysis and retrieval
EP2912855B1 (en) Program recommendation device and program recommendation program
JP5029030B2 (ja) 情報付与プログラム、情報付与装置、および情報付与方法
US7761437B2 (en) Named entity extracting apparatus, method, and program
JP4601306B2 (ja) 情報検索装置、情報検索方法、およびプログラム
KR20040058285A (ko) 개인 정보 검색, 업데이트 및 제공을 위한 방법 및 시스템
JP2007178927A (ja) 情報検索装置および方法
JP2004295102A5 (ja)
US8397263B2 (en) Information processing apparatus, information processing method and information processing program
JP4734048B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
US8352985B2 (en) Method of storing and displaying broadcast contents and apparatus therefor
JP4480654B2 (ja) 番組検索システム
JP5320470B2 (ja) タイトル判別装置
KR20110023490A (ko) 유사 컨텐츠의 채널 전환 시스템 및 그 방법
JP2005227545A (ja) 辞書作成装置、番組案内装置及び辞書作成方法
JP4963861B2 (ja) 番組情報提供装置及び番組情報提供方法
JP4166616B2 (ja) 嗜好情報利用型データ検索装置
JP2008306300A (ja) 情報処理装置、情報処理方法、およびプログラム
JP4731288B2 (ja) 番組推薦装置、番組推薦方法、番組推薦プログラム、および番組推薦プログラムを記録した記録媒体
JP2014048946A (ja) 電子機器及びその制御方法