WO2004064393A1

WO2004064393A1 - 放送受信方法、放送受信システム、記録媒体、及びプログラム

Info

Publication number: WO2004064393A1
Application number: PCT/JP2003/017015
Authority: WO
Inventors: Yumiko Kato; Takahiro Kamai; Hideyuki Yoshida; Yoshifumi Hirose
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2003-01-15
Filing date: 2003-12-26
Publication date: 2004-07-29
Also published as: US7698138B2; JPWO2004064393A1; AU2003296157A1; US20060259299A1; CN1757229A

Abstract

放送された番組やコマーシャルに登場する対象物をより手間がかからずより簡単に入手することが出来るようにすること。放送内容に登場する対象物に対応付けられた付加情報であって対象物を特定するためのキーワード情報を含む付加情報を放送内容と同時に放送する放送を受信する放送受信手段313と、類義語辞書316を利用して、認識語彙セットを付加情報と対応させて生成する認識語彙生成部354と、視聴者が発声した音声を音声認識し、その音声認識結果により認識された単語が認識語彙セットに含まれる場合、その認識語彙セットに対応するキーワード情報を特定する音声認識部352と、その特定したキーワード情報に対応付けられた付加情報を表示する表示部318とを備える。

Description

明細書放送受信方法、放送受信システム、記録媒体、及びプログラム技術分野

本発明は、放送局から放送されてくる放送を受信する放送受信方法、放送受信システム、第 1装置、第 2装置、記録媒体、及びプログラムに関するものである。

背景技術

従来のテレビ放送で放送される番組やコマーシャルを視聴している際に、視聴者が番組やコマーシャルに登場した物や番組やコマーシャルで演奏された音楽等の対象物を入手したいと思うことがある。

このような場合視聴者は、まず、 P C (パーソナルコンピュータ）をィンターネットに接続し、ィンターネットでこれらの対象物に関する情報を検索し、目的とする対象物に関する情報を入手する。

そして、入手した情報に基づきこれらの対象物を販売する販売店に連絡するか来店して、これらの対象物を購入する。従来視聴者は、番組やコマーシャルに登場した対象物をこのような手順で購入していた。

しかしながら、視聴者が、放送された番組やコマーシャルに登場する対象物を入手するためには、放送の受信とは全く関係なく P Cからインターネットに接続し、インターネットを介して目的とする対象物に関する情報をダウンロードしなければならず、さらに、 'ダウンロードした情報に基づき電話などで対象物を注文したりしなければならず不便である。すなわち、従来の放送では放送された番組やコマーシャルに登場する対象物を簡単に入手することが出来ず手間がかかり不便であるという課題がある。

そこで、上記のような課題を解決するために、本出願に係る発明者の出願（特願 20 0 1— 258 564) で、本出願に係る発明者は、放送された番組やコマーシャルに登場する対象物を手間がかからず簡単に入手することが出来る双方向放送による買い物支援システムを提案している。特願 200 1— 2 58 5 64の文献の全ての開示は、そつくりそのまま引用（参照）することにより、ここに一体化する。

以下、本出願に係る発明者が提案している双方向放送による買い物支援システムについて説明する。

図 3 7に、本出願に係る発明者の出願における双方向放送による買い物支援システムの概念構成を示すプロック図を示す。また、図 3 8に、双方向放送による買い物支援システム（以下買い物支援システムと略す）の動作を示す流れ図を示す。また、図 3 9に、図 3 7の部分の詳細を示す機能プロック図を示す。

図 3 7において、買い物支援システムは、放送局 1 0、販売業者 20、及び家庭 30から構成されており、家庭 30には、 TV/S TB 3 1 0、及びリモートコントローラ 3 20が設置されている。

放送局 1 0は、番組を番組付加情報とともに放送する放送局である。販売業者 20は番組中に登場する物を商品として取り扱う販売業者である。家庭 30は放送を受信する家庭である。，

TV/S TB 3 1.0は、双方向放送受信機であるテレビあるいは S T B (S e t T o p B o x) .としての双方向放送受信機である。

リモートコントローラ 320は、 T V/S T B 3 1 0を操作するための手段であり、マイクロホン 3 2 1を備える。

TV/S TB 3 1 0は、認識語彙記憶部 3 1 1 と音声認識部 3 1 2などを備える。すなわち、図 3 9に示すように、 T VZS TB 3 1 0は、放送受信部 3 1 3、認識語彙生成部 3 1 4、認識語彙記憶部 3 1 1、音声認識部 3 1 2、時間表現辞書 3 1 6、記憶時間制御部 3 1 5、付加情報記憶部 3 1 7、表示部 3 1 8、送信部 3 1 9から構成される。

放送受信部 3 1 3は放送電波を受信する手段である。認識語彙生成部 3 1 4は放送受信部 3 1 3で受信した番組付加情報から音声認識の対象語彙を生成する手段である。認識語彙記憶部 3 1 1は、生成された認識語彙を記憶する手段である。時間表現辞書 3 1 6は「さっきの」、「今の」といった時間に関する表現を認識語彙として保持する辞書である。音声認識部 3 1 2は認識語彙記憶部 3 1 1と時間表現辞書 3 1 6とを認識語彙辞書として使用して音声認識を行う手段である。記憶時間制御部 3 1 5は認識された時間表現語彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際の時間幅あるいはシーン数との関係を学習し、音声認識部 3 1 2および認識語彙記憶部 3 1 1の制御を行う手段である _c 付加情報記憶部 3 1 7は音声認識によって指定された番組中の物等に対応する付加情報を記憶する手段である。表示部 3 1 8は付加情報を表示する手段である。送信部 3 1 9は付加情報の選択等の視聴者の入力結果を放送局へ送信する手段である。

次に、このような買い物支援システムの動作を説明する。

図 3 8に、買い物支援システム及びサービスの動作を示す。以下図 3 8に基づいて説明する。

まず視聴者は番組視聴中に番組に登場する物等に注目し、特定のものに注目していることを伝える言葉を発声する。そうすると、マイクロホン 3 2 1は、その発声を入力し、音声認識部 3 1 2に出力する。

音声認識部 3 1 2は、マイクロホン 3 2 1から入力された発声信号に対して音声認識を行う。そしてその音声認識結果に基づいて音声認識部 3 1 2は、視聴者が注目した物等を判断し、対応する番組付加情報を特定して、付加情報記憶部 3 1 7へ蓄積する（ステップ 3 3 1 )。

ドラマを視聴している場合を例に取って具体的に説明すると、例えばドラマの視聴中に登場人物が着用していた洋服に視聴者の注意が向いたが、その洋服を来ていた登場人物は画面から退場してしまったような場合、視聴者は「さっきの赤いジャケットいいな。」などと発声する。

視聴者が発声した音声はマイクロホン 3 2 1より入力され、音声認識部 3 1 2は時間表現辞書 3 1 6と認識語彙記憶部 3 1 1を参照して入力された音声を認識し、放送された番組付加情報より該当する付加情報を抽出する。 . 認識語彙記憶部 3 1 1に記憶されている認識語彙は、認識語彙生成部 3 1 4で、受信した番組付加情報より付加情報のついた物や音楽等をあらわす語彙を逐次生成したものである。すなわち、番組付加情報は、番組付加情報が放送局で対応付けられた物や音楽を特定するためのキーヮ一ド情報をも含んでおり、認識語彙生成部 3 1 4はこのキーヮード情報から認識語彙を生成する。そして、音声認識部 3 1 2は、「さっきの赤いジャケットいいな。」などの視聴者の発声音声を音声認識することによつて視聴者の発声音声から認識語彙を抽出する。例えば「さっきの赤いジャケットいいな。」という発声音声の場合には、「赤い」、「ジャケット」という認識語彙が抽出される。そして抽出した認識語彙に対応するキーヮード情報の個数が最も多い番組付加情報を選択し、選択した番組付加情報を付加情報記憶部 3 1 7に記憶させる。すなわち、ある番組付加情報が「赤い」という認識語彙に対応するキーヮード情報と、「ジャケット」という認識語彙に対応'するキーヮード情報とを共に含んでいる場合にはその番組付加情報を付加情報記憶部 3 1 7に記憶させる。このように音声認識部 3 1 2は、番組付加情報を選択することによって特定することが出来る。なお、音声認識部 3 1 2は、視聴者の発声音声から抽出した認識語彙に対応するキーヮード情報の個数が最も多い番組付加情報を選択するとして説明したが、これに限らない。音声認識部 3 1 2は、視聴者の発声音声から抽出した認識語彙に対応するキーヮード情報の個数が最も多い順に例えば 5個の番組付加情報を選択して、選択した番組付加情報を付加情報記憶部 3 1 7に記憶しても構わない。このように音声認識部 3 1 2は、番組付加情報を特定するのではなく絞り込んでも構わない。

記憶時間制御部 3 1 5はあらかじめ定められた時間範囲あるいはシー 'ン数、または視聴者のこれまでの発声とその後の入力より学習された時間表現に対応するもつとも大きい時間幅あるいはシーン数の間、生成された認識語彙が保持されるよう制御する。なお、記憶時間制御部 3 1 5 の学習については後述する。例えば「さっきの赤いジャケットいいな。」という発声音声の場合には、記憶時間制御部 3 1 5の制御に従って、音声認識部 3 1 2は、「さっき」という過去を示す時間表現語彙を抽出し、時間表現辞書 3 1. 6を参照して「さっき」に対応する時間範囲あるいはシーン数の間に放送された番組付加情報を対象にして上記の特定または絞り込みを行う。

ドラマが終了した後（ステップ 3 3 2 )、表示部 3 1 8は、音声認識により指定されたドラマに登場した物等に対応する付加情報を表示する (ステップ 3 3 3 )。

付加情報には大きさ、重さ、材質、色違い、サイズ違い価格、製造者、販売者、販売者連絡先等の情報が含まれており、視聴者はこれらの情報を確認して検討し、購入する場合にはリモートコントローラ 3 2 0あるいはボインティングデパイス、あるいは音声認識等の入力手段により付加情報を選択し購入情報を入力する。

送信部 3 1 9は、購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する（ステップ 3 3 4 )。

さて、前述したように記憶時間制御部 3 1 5は認識された時間表現語彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際の時間幅あるいはシーン数との関係を学習することについて具体的に説明する。記憶時間制御部 3 1 5は、時間表現辞書 3 1 6に格納されている時間に関する表現である認識語彙毎に実際の時間幅またはシーン数を対応付けるための情報を保持している。例えば、記憶時間制御部 3 1 5 は、例えば「さっき」という認識語彙については、現在時刻を基準にして 2 0秒前から 5分前までの時間幅を対応つけ、また、「今」については、現在時刻を基準にして現在から 3 0秒前までの時間幅を対応付ける。従って上述したように、記憶時間制御部 3 1 5 「さっき」という時間表現を表す認識語彙を音声認識部 3 1 2から受け取った場合には、現在時刻を基準にして 2 0秒前から 5分前までの時間幅の間に受け取った番組付加情報に対して特定及び絞り込み^行うよう制御し、この制御に従つて音声認識部 3 1 2は、現在時刻を基準にして 2 0秒前から 5分前までの時間幅の間に受け取った番組付加情報に対して特定及び絞り込みを行い、その特定または絞り込みされた番組付加情報を付加情報記憶部 3

1 7に記憶させる。すなわち、記憶時間制御部 3 1 5は、この時間幅の間に生成された認識語彙が保持されるように制御する。

ところが、記憶時間制御部 3 1 5が「さっき」という時間表現を表す認識語彙を受け取った場合に、上述したように現在時刻を基準にして 2

0秒前から 5分前までの時間幅を対応付けた場合に、視聴者が表示部 3

1 8で表示された番組付加情報が視聴者の意図していた時間幅と異なる番組付 ¾!情報が表示されることが起こり得る。このような場合、視聴者はマイクロホン 3 2 1に向かって「やり直して」「もっと前の情報を表示してほしいな」「もっと後の情報を表示してほしいな」などと発声する。そうすると、音声認識部 3 1 2は、その視聴者からの発声を音声認識し、音声認識結果を記憶時間制御部 3 1 5に通知する。音声認識部 3 1 2が「もっと前の情報を表示してほしいな」という発声を音声認識した場合には、「もっと前」、「情報」、「表示」を認識語彙として抽出し、記憶時間制御部 3 1 5に通知する。

記憶時間制御部 3 1 5は、音声認識部 3 1 2から「もっと前」、「情報」、「表示」という認識語彙を受け取ると、「さっき」という時間表現を表す認識語彙に対応付けられた時間幅の情報を修正する。すなわち、「さっき」という認識語彙に現在時刻を基準にして 4 0秒前から 5分 4 0秒前までの時間幅を対応付けるように修正する。そして、記憶時間制御部 3 1 5 は、音声認識部 3 1 2に現在時刻を基準にして 4 0秒前から 5分 4 0秒前までの間に受け取つた番組付加情報を対象として再度番組付加情報の特定または絞り込みを行うよう音声認識部 3 1 2を制御する。音声認識部 3 1 2は、記憶時間制御部 3 1 5の制御に従って、再度番組付加情報の特定または絞り込みを行い、特定または絞り込んだ番組付加情報を付加情報記憶部 3 1 7に記憶させ、表示部 3 1 8は、付加情報記憶部 3 1 7に記憶された番組付加情報を表示する。そして、視聴者は、表示された番組付加情報に目的とするものが含まれている場合にはその番組付加情報を選択して購入情報を入力する。

このような処理を多数繰り返すことによって、記憶時間制御部 3 1 5 は、時間表現を表す認識語彙に視聴者の意図を反映したり時間幅を対応付けることが出来るようになる。これが記憶時間制御部 3 1 5が学習するということである。

以上のように、買い物支援システムおよびサービスによれば、視聴者が興味を持った、番組中に登場した物や音楽等について、番組そのものの視聴を、メモをとる等の作業で妨げることなく、自然な発声を行うだけで、番組の視聴と連続的に、情報を取得し、購入することが可能になる。

本出願に係る発明者が提案している買い物支援システムを用いることによりこのようなすぐれた効果を得ることが出来る。

しかしながら、本出願の発明者に係る出願である買い物支援システムでは、付加情報を特定するために、音声認識された単語と付加情報が含むキーヮード情報に対応するキーヮードとの合致の程度を判定することにより付加情報を特定してい,るが、この方法よりもさらに柔軟かつ適切に付加情報を特定できるようにしたいという要望がある。つまり、放送された番組やコマーシャルに登場する対象物をより手間がかからずより簡単に入手することが出来るようにしたいという課題がある。

また、視聴者が発声するときの表現により適するようにして付加情報を特定したいという要望がある。つまり、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するようにして手間がかからず簡単に入手したいという課題がある。 ' また、視聴者の興味により適するようにして付加情報を特定したいという課題がある。つまり、放送された番組やコマーシャルに登場する対象物を視聴者の興味に適するようにして手間がかからず簡単に入手したいという課題がある。 ' 発明の開示

本発明は、上記課題を考慮し、放送された番組やコマーシャルに登場する対象物をより手間がかからずより簡単に入手することが出来る放送受信方法、放送受信システム、第 1·装置、第 2装置、記録媒体、及びプログラムを提供することを目的とするものである。

また、本発明は、上記課題を考慮し、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するようにして手間がかからず簡単に入手することが出来る放送受信方法、放送受信システム、第 1装置、第 2装置、記録媒体、及びプログラムを提供することを目的とするものである。

また、本発明は、上記課題を考慮し、放送された番組やコマーシャルに登場する対象物を視聴者の興味に適するようにして手間がかからず簡単に入手することが出来る放送受信方法、放送受信システム、第 1装置、第 2装置、記録媒体、及びプログラムを提供することを目的とするものである。

上述した課題を解決するために、第 1の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する放送を受信する受信ステップと、

単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記キーワード情報に対応する単語を含む前記単語クラスに属する単語から構成される認識語彙セットを前記付加情報と対応させて生成する認識語彙セット生成ステップと、

視聴者が発声した音声を音声認識する音声認識ステップと、その音声認識結果に'より認識された単語が前記認識語彙セットに含まれる場合、その認識語彙セットに対応する前記キーヮード情報を特定する特定ステップと、

その特定した前記キーヮード情報に対応付けられた付加情報を表示する表示ステップとを備えた、放送受信方法である。

また、第 2の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物の特定を行うためのキーヮード情報を含む前記付加情報及び言語モデルを前記放送内容と同時に放送する放送を受信する受信ステップと、

単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び/または前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語が出現する頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正ステップと、

捕正された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識ステップと、

その音声認識結果に基づいて、前記キーヮード情報を特定する特定ステツプと、

その特定した前記キーワード情報に対応付けられた付加情報を表示する表示ステップとを備えた、放送受信方法である。 . ，

また、第 3の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物の特定を行うためのキーヮード情報を含む前記付加情報及び言語モデルを特定するための情報を前記放送内容と同時に放送する放送を受信する受信ステップと、受信された前記言語モデルを特定するための情報を利用して、予め保持されている前記言語モデルを特定する言語モデル特定ステツプと、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び/または特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正ステップと、

補正された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識ステップと、 '

また、第 4の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する放送手段を有する第 1装置と、

前記第 1装置から放送される前記放送を受信する受信手段、及び単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記キーヮード情報に対応する単語を含む前記単語クラスに属する単語から構成される認識語彙セットを前記付加情報と対応させて生成する認識語彙セット生成手段及び、視聴者が発声した音声を音声認識する音声認識手段、及びその音声認識結果により認識された単語が前記認識語彙セットに含まれる場合、その認識語彙セットに対応する前記キーヮード情報を特定する特定手段、及ぴその特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段を有する第 2装置とを備えた、放送受信システムである。

また、第 5の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物の特定を行うためのキーヮード情報を含む前記付加情報及び言語モデルを前記放送内容と同時に放送する放送手段を有する第 1装置と、

前記第 1装置から放送される前記放送を受信する受信手段、及び単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及ぴ zまたは前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語が出現する頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段、及ぴ補正された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段、及びその音声認識結果に基づいて、前記キーワード情報を特定する特定手段、及びその特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段とを有する第 2装置とを備えた、放送受信システムである。

また、第 6の本発明.は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物の特定を行うためのキーヮード情報を含む前,記付加情報及び言語モデルを特定するための情報を前記放送内容と同時に放送する放送手段を有する第 1装置と、前記第 1装置かち放送される前記放送を受信する受信手段、及び受信された前記言語モデルを特定するための情報を利用して、予め保持されている前記言語モデルを特定する言語モデル特定手段、及び単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び Zまたは特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現蘋度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段、及び捕正された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段、及びその音声認識結果に基づいて、前記キーワード情報を特定する特定手段、及びその特定した前記キーワード情報に対応付けられた付加情報を表示する表示手段を有する第 2装置とを備えた、放送受信システムである。

また、第 7の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する放送手段を備え、

前記放送は、前記放送を受信する受信手段、及び単語間の類'義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記キーワード情報に対応する単語を含む前記単語クラスに属する単語から構成される認識語彙セットを前記付加情報と対応させて生成する認識語彙セット生成手段、及び視聴者が発声した音声を音声認識する音声認識手段、及びその音声認識結果により認識された単語が前記認識語彙セットに含まれる場合、その認識語彙セットに対応する前記キーヮ. 一ド情報を特定する特定手段、及ぴその特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段を有する第 2装置によって受信される、第 1装置である。

また、第 8の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物の特定を行うためのキーヮード情報を含む前記付加情報及び言語モデルを前記放送内容と同時に放送する放送手段を備え、

前記放送は、前記放送を受信する受信手段、及び単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び/または前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語が出現する頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段、及び補正された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段、及びその音声認識結果に基づいて、前記キーヮード情報を特定する特定手段、及びその特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段を有する第 2装置によつて受信される、第 1装置である。

また、第 9の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物の特定を行うためのキーヮード情報を含む前記付加情報及ぴ言語モデルを特定するための情報を前記放送内容と同時に放送する放送手段を備え、'

前記放送は、前記放送を受信する受信手段、及び受信された前記言語モデルを特定するための情報を利用して、予め保持されている前記言語モデルを特定する言語モデル特定手段、及び単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合ねせが出現する頻度及び Zまたは特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段、及び補正された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段、及ぴその音声認識結果に基づいて、前記キーワード情報を特定する特定手段、及びその特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段を有する第 2装置によって受信される、第 1装置である。

また、第 1 0の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する放送手段を有する第 1装置から放送される前記放送を受信する受信手段と、

単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記キーヮード情報に対応する単語を含む前記単語クラスに属する単語から構成される認識語彙セットを前記付加情報と対応させて生成する認識語彙セット生成手段と、

視聴者が発声した音声を音声認識する音声認識手段と、 · その音声認識結果により認識された単語が前記認識語彙セットに含まれる場合、その認識語彙セットに対応する前記キーヮード情報を特定する特定手段と、（

その特定した前記キーヮード情報に対応付けられた付加情報.を表示する表示手段とを備えた、第 2装置である。

また、第 1 1の本発明は、前記類義語辞書の各単語には、予め決められた出現頻度が付加されており、

前記音声認識手段は、前記音声認識の候補として複数の単語が認識された場合、前記出現頻度の高い方の単語を前記音声認識結果で認識された単語として特定する、第 1 0の本発明の第 2装置である。

また、第 1 2の本発明は、前記音声認識結果の認識結果に応じて、前記出現頻度を書き替える出現頻度補正手段を備えた、第 1 1の本発明の第 2装置である。

また、第 1 3の本発明は、前記音声認識結果の履歴情.報に応じて、前記認識語彙セットの各単語に対応する前記出現頻度を書き替える出現頻度補正手段を備え、

前記認識語彙セットの各単語には、その単語に対応する前記出現頻度が付加されており、，

前記音声認識手段は、前記認識語彙セットの前記出現頻度を用いて前記音声認識を行う、第 1 1の本発明の第 2装置である。

また、第 1 4の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物の特定を行うためのキーヮード情報を含む前記付加情報及び言語モデルを前記放送内容と同時に放送する放送手段を有する第 1装置から放送される前記放送を受信する受信手段と、

単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び Zまたは前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語が出現する頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段と、

補正された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、

その音声認識結果に基づいて、前記キーヮード情報を特定する特定手段と、

その特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段とを備えた、第 2装置である。 .

また、第 1 5の本発明は、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物の特定を行うためのキーヮード情報を含む前記付加情報及び言語モデルを特定するための情報を前記放送内容と同時に放送する放送手段を有する第 1装置から放送される前記放送を受信する受信手段と、

受信された前記単語モデルを特定するための情報を利用して、予め保持されている前記言語モデルを特定する言語モデル特定手段と、

単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び/または特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する補正手段と、

捕正された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、

' その特定した前記キーワード情報に対応付けられた付加情報を表示する表示手段とを備えた、第 2装置である。

また、第 1 6の本発明は、前記言語モデルを特定するための情報は、前記言語モデルに予め付与されている I Dである、第 1 5の本発明の第 2装置である。

また、第 1 7の本発明は、前記言語モデルを特定するための情報は、言語モデル特定用キーヮード情報であり、

前記予め保持されている言語モデルにも言語モデル特定用キーヮード情報が付加されており、

前記言語モデル特定手段は、それらの言語モデル特定用キーヮードの合致の程度に応じて前記言語モデルを特定する、第 1 5の本発明の第 2 装置である。

また、第 1 8の本発明は、前記補正手段が、前記言語モデルの表現形式における、所定の前記単語クラスを基準.とする所定の単語の出現頻度を補正する場合であって、

前記履歴情報は、前記既に行われた音声認識により認識された単語を含むものであり、

前記捕正手段は、前記キーヮード情報に対応する単語を含む前記単語クラスに含まれる単語を抽出し、

抽出された単語のうち前記履歴情報に含まれる単語に関して、前記言語モデルの表現形式における、前記単語クラスを基準とするその単語の出現頻度を増加させ、 '

抽出された単語のうち前記履歴情報に含まれない単語に関して、前記言語モデルの表現形式における、前記単語クラスを基準とするその単語の出現頻度を減少させる、第 1 4〜 1 7の本発明のいずれかの第 2装置である。

また、第 1 9の本発明は、前記補正手段が、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度を補正する場合であって、

前記補正手段は、前記キーヮード情報に対応する単語を含む単語クラスを抽出し、

抽出された前記単語クラスに関して、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度を増加させ、抽出されなかった前記単語クラスに関して、前記言語モデルの表現形式における、所定の前記単語クラス列の後ろにその単語クラスが出現する頻度を減少させる、第 1 4〜 1 7の本発明のいずれかの第 2装置である。

また、第 2 0の本発明は、前記捕正手段が、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度を補正する場合であって、

前記履歴情報は、前記既に行われた音声認識により認識された単語を含む単語クラスを含むものであり、

前記補正手段は、前記キーヮード情報に対応する単語クラスを抽出し、抽出された前記単語クラスに関して、前記言語モデルの表現形式における、所定の単語クラスの組み合わせが出現する頻度を增加させ、抽出されなかった前記単語クラスに関して、前記言語モデルの表現形' 式における、所定の単語クラスの組み合わせが出現する頻度を減少させる、第 1 4〜 1 7の本発明のいずれかの第 2装置である。

また、第 2 1の本発明は、表示された前記付加情報に対する所定の操作が行われた場合、その所定の操作に対応する指示を所定の送信先に送信する送信手段を備えた、第 1 0〜 1 7の本発明のいずれかの第 2装置である。 .

また、第 2 2の本発明は、前記番組付加情報商品販売情報及び/またはサービス販売情報であり'、 '

前記所定の操作に対応する指示とは、前記商品及び Zまたは前記サービスの資料請求または購入指示情報である、第 2 1の本発明の第 2装置である。

また、第 2 3の本発明は、予め保持されている前記言語モデルは、予めネットワークを利用して取得したものである、第 1 5の本発明の第 2 装置である。

また、第 2 4の本発明は、第 1 0の本発明の第 2装置の、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する放送手段を有する第 1装置から放送される前記放送を受信する受信手段と、

視聴者が発声した音声を音声認識する音声認識手段と、

その音声認識結果により認識された単語が前記認識語彙セットに含まれる場合、その認識語彙セットに対応する前記キーワード情報を特定する特定手段と、

その特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段としてコンピュータを機能させるためのプログラムである。また、第 2 5の本発明は、第 1 4の本発明の第 2装置の、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物の特定を行うためのキーヮード情報を含む前記付加情報及び言語モデルを前記放送内容と同時に放送する放送手段を有する第 1装置から放送される前記放送を受信する受信手段と、

単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び/または前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語が出現する頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する捕正手段と、

その特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段としてコンピュータを機能させるためのプログラムである。また、第 2 6の本発明は、第 1 5の本発明の第 2装置の、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物の特定を行うためのキーヮード情報を含む前記付加情報及ぴ言語モデルを特定するための情報を前記放送内容と同時に放送する放送手段を有する第 1装置から放送される前記放送を受信する受信手段と、

受信された前記言語モデルを特定するための情報を利用して、予め保持されている前記言語モデルを特定する言語モデル特定手段と、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、特定された前記言語モデルの表現形式における、所定の前記単語クラスの組み合わせが出現する頻度及び Zまたは特定された前記言語モデルの表現形式における、所定の前記単語クラスを基準とする所定の単語の出現頻度を既に行われた音声認識の音声認識結果の履歴情報に基づいて捕正する補正手段と、

補正された前記言語モデルを利用して、視聴者が発声した音声を音声認識する音声認識手段と、 .

その音声認識結果に基づいて、前記キーワード情報を特定する特定手段と、

その特定した前記キーワード情報に対応付けられた付加情報を表示する表示手段としてコンピュータを機能させるためのプログラムである。また、第 2 7の本発明は、第 2 4の本発明のプログラムを担持した記録媒体であって、コンピュータにより処理可能な記録媒体である。

また、第 2 8の本発明は、第 2 5の本発明のプログラムを担持した記録媒体であって、コンピュータにより処理可能な記録媒体.である。

また、第 2 9の本発明は、第 2 6の本発明のプログラムを担持した記録媒体であって、コンピュータにより処理可能な記録媒体である。図面の簡単な説明

図 1は、本発明の実施の形態 1における買い物支援システムの概略構成を示すブロック図

図 2は、本発明の実施の形態 1における T V / S T Bの構成を示すブロック図

図 3は、本発明の実施の形態 1における認識語彙生成部の詳細な構成を示すプロック図

図 4は、本発明の実施の形態 1における買い物支援システムの動作の概要を示すフローチヤ一ト図

図 5は、本発明の実施の形態 1における類義語辞書の例を示す図図 6は、本発明の実施の形態 1における買い物支援システムの動作の詳細を示すフローチヤ一ト図

図 7は、本発明の実施の形態 1における認識語彙セットの例を示す図図 8は、本発明の実施の形態 1における買い物支援システムの動作の詳細を示すフローチヤ一ト図

図 9は、本発明の実施の形態 2における T V / S T Bの構成を示すブロック図

図 1 0は、本発明の実施の形態 2における認識語彙生成部 3 6 0の詳細な構成を示すブロック図

図 1 1は、本発明の実施の形態 2における類義語辞書の例を示す図図 1 2は、本発明の実施の形態 2における買い物支援システムの動作の詳細を示すフローチヤ一ト図

図 1 3は、本発明の実施の形態 2における認識語彙セットの例を示す図

図 1 4は、本発明の実施の形態 2における頻度が規格化された認識語彙セットの例を示す図

図 1 5は、本発明の実施の形態 2における買い物支援システムの動作の詳細を示すフローチヤ一ト図

図 1 6は、本発明の実施の形態 3における T V Z S T Bの構成を示すブロック図図 1 7は、本発明の実施の形態 3における買い物支援システムの動作の概要を示すフローチャート図

図 1 8は、本発明の実施の形態 3における,買い物支援システムの動作の詳細を示すフローチャート図 .

図 1 9は、本発明の実施の形態 3における N g r a m文法情報の例を示す図

図 2 0は、本発明の実施の形態 3における語彙重み修正部の動作を説明するための図

図 2 1は、本発明の実施の形態 4における T V Z S T Bの構成を示すプロック図

図 2 2は、本発明の実施の形態 4における買い物支援システムの動作の概要を示すフローチヤ一ト図

図 2 3は、本発明の実施の形態 4における買い物支援システムの動作の詳細を示すフローチヤ一ト図

図 2 4は、本発明の実施の形態 4における数 4の P ( C i. I C M) の例を示す図

図 2 5は、本発明の実施の形態 4におけるクラス重み修正部の動作を説明するための図

図 2 6は、本発明の関連技術 1における番組付加情報自動作成装置の構成を示すブロック図

図 2 7は、本発明の関連技術 1における番組付加情報自動作成装置の動作を示す流れ図

図 2 8は、本発明の関連技術 1におけるカメラ、位置固定発信機、付加情報コード発信機の関係を示す図

図 2 9は、本発明の第 5の実施の形態における T V / S T Bの構成を示すプロック図図 30は、本発明の第 5の実施の形態における双方向放送による買い物支援システムの動作を示すフローチヤ一ト図

図 3 1は、本発明の第 6の実施の形態における TV/S TBの構成を示すプロック図

図 3 2は、本発明の第 6の実施の形態における双方向放送による買い物支援システムの動作を示すフローチヤ一ト図

図 3 3は、本発明の第 6の実施の形態における商品情報の一覧表の一例を示す図

図 34は、本発明の第 7の実施の形態における TVZS TBの構成を示すプロック図

図 3 5は、本発明の第 7の実施の形態における双方向放送'による買い物支援システムの動作を示すフローチヤ一ト図

図 3 6は、本発明の第 7の実施の形態における双方向放送による買い物支援システムの図 3 5とはことなる動作を示すフ口,一チャート図図 3 7は、本出願に係る発明者の出願における双方向放送による買い物支援システムの概念構成を示すプロック図

図 3 8は、本出願に係る発明者の出願における双方向放送による買い物支援システムの動作を示す流れ図

図 3 9は、本出願に係る'発明者の出願における双方向放送による買い物支援システムの詳細な構成を示すプロック図

(符号の説明）

1 0 放送局

20 販売業者

30 家庭

3 10 T V/S T B 3 1 3 放送受信部

3 1 5 記憶時間制御部

3 1 6 時間表現辞書

3 1 7 付加情報記憶部

3 1 8 表示部

3 1 9 送信部

3 5 1 認識語彙記憶部

3 5 2 音声認識部

3 5 5 認識語彙抽出部

3 56

3 5 7 認識語彙拡張部

3 58 認識語彙適応部発明を実施するための最良の形態

以下に、本発明の実施の形態を図面を参照して説明する。

(実施の形態 1)

まず、本発明の実施の形態 1における双方向放送による買い物支援システムについて説明する。

図 1に、本発明の実施の形態 1における双方向放送による買い物支援システムの概念構成を示すプロック図を示す。図 2の i双方向放送による買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能プロック図を示す。

図 1において、本実施の形態の買い物支援システムは、放送局 1 0、販売業者 20、及ぴ家庭 30から構成されており、家庭 30には、 TV /S TB 3 1 0 , 及ぴリモートコントローラ 3 20が設置されている。放送局 1 0は、番組を番組付加情報とともに放送する放送局である。 5

26 販売業者 20は番組中に登場する物を商品として取り扱う販売業者である。家庭 30は放送を受信する家庭である。

T V/S T B 3 10は、双方向放送受信機であるテレビあるいは S T B (Set Top Box)としての双方向放送受信機である。

リモートコントローラ 3 20は、 TV/S TB 3 1 0を操作するための手段であり、マイクロホン 3 2 1を備える。

TV/ S T B 3 1 0は、認識語彙記憶部 3 5 1と音声認識部 3 5 2などを備える。すなわち、図 2に示すように、 TV/S TB 3 1 0は、放送受信部 3 1 3、認識語彙生成部 3 54、認識語彙記憶部 3 5 1、音声認識部 3 5 2、時間表現辞書 3 1 6、記憶時間制御部 3 1 5、付加情報記憶部 3 1 7、表示部 3 1 8、送信部 3 1 9から構成される。 ' 放送受信部 3 1 3は放送電波を受信する手段である。認識語彙生成部 3 54は放送受信部 3 1 3で受信した番組付加情報から音声認識の対象語彙である認識語彙セットを生成する手段である。認識語彙記憶部 35 1は、生成された認識語彙セットを記憶する手段である。時間表現辞書 3 1 6は「さっきの」、「今の」といった時間に関する表現を認識語彙として保持する辞書である。音声認識部 3 5 2は認識語彙記憶部 3 5 1 と時間表現辞書 3 1 6とを認識語彙辞書として使用して音声認識を行う手段である。記憶時間制御部 3 1 5は認識された時間表現語彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際の時間幅あるいはシーン数との関係を学習し、音声認識部 3 5 2および認識語彙記憶部 3 5 1の制御を行う手段である。付加情報記憶部 3 1 7は音声認識によつて指定された番組中の物等に対応する付加情報を記憶する手段である。表示部 3 1 8は付加情報を表示する手段である。送信部 3 1 9は付加情報の選択等の視聴者の入力結果を放送局へ送信する手段である。

図 3に、認識語彙生成部 3 54の部分の詳細な構成を示す、認識語彙生成部 3 5 4は、認識語彙抽出部 3 5 5、認識語彙拡張部 3 5 7、類義語辞書 3 5 6、認識語彙適応部 3 5 8から構成される。

認識語彙抽出部 3 5 5は、番組付加情報に含まれるキーワード情報に対応する単語をキーヮードとして抽出する手段である。認識語彙拡張部 3 5 7は、抽出されたキーヮードを拡張して認識語彙セットを生成する手段である。類義語辞書 3 5 6は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された辞書である。なお、実施の形態 1では一つの単語は必ず特定の一つの単語クラスのみに含まれ、一つの単語が複数の単語クラスに含まれることはないと仮定する。一つの単語が複数の単語クラスに含まれる場合については実施の形態 2で詳細に説明する。認識語彙適応部 3 5 8は、音声認識結果に応じて類義語辞書 3 5 6 に記載されている各単語が出現する頻度を捕正する手段である。

次に、このような本実施の形態の動作を説明する。

図 4に、本実施の形態の買い物支援システムの動作の概要を示すフロ一チャートを示す。また、図 6及ぴ図 8に本実施の形態の買い物支援システムの動作の詳細を示すフローチャートを示す。以下、図 4、図 6、及び図 8に基づいて説明する。

図 2と図 4において、放送局 1 0からは、放送内容に登場する対象物に対応付けられた付加情報であって対象物を特定するためのキーヮード情報を含む付加情報が放送内容とともに放送されてくる。

放送受信部 3 1 3は、この放送を受信する。そうすると、認識語彙生成部 3 5 4は、番組付加情報に含まれるキーワード情報を抽出する（ステツプ 3 5 1 )。さらに認識語彙生成部 3 5 4は、キーヮード情報に対応するキーヮードの類義語を抽出する（ステップ 3 5 2 )。さらに、認識語彙生成部 3 5 4は、抽出した類義語を認識語彙セットとして認識語彙記憶部 3 5 1に記憶させる（ステップ 3 5 3 )。次に、視聴者が発声した場合に音声認識し、その結果を類義語辞書 3 9 0にブイ一ドバックし類義語辞書中の認識された単語に重みを加算する（ステップ 3 5 4 )。

以下の説明では、まず、ステップ 3 5 1、 3 5 2、 3 5 3の動作を詳細に説明した後、音声認識の動作を説明し、その後、ステップ 3 5 4の動作を詳細に説明する。

まず、ステップ 3 5 1、 3 5 2、及ぴ 3 5 3の動作を図 3と図 6を用いてさらに詳細に説明する。

図 5に類義語辞書 3 9 0を示す。類義語辞書 3 9 0は、単語 3 9 1 と、その単語の読み 3 9 2と、その単語が含まれる単語クラス 3 9 3と、その単語の出現頻度 3 9 4とが記載された辞書である。なお、単語クラスとは、単語間の類義性を基準にして、複数の単語が分類されたものである。また、本実施の形態の買い物支援システムを使用する初期状態においては、十分に大きい日本語コーパスかち求められた単語クラス内の出現頻度 3 9 4が記載されている。

例えば、単語 3 9 1の一例としてジャケットがあり、ジャケットの読み 3 9 2はジャケットであり、ジャケットが含まれる単語クラス 3 9 3 は衣類であり、ジャケットの単語クラスである衣類に含まれる単語のうちジャケットが出現する出現頻度 3 9 4は 0 . 2 0である。また、単語 3 9 1の一例として上着があり、上着の読み 3 9 2はゥヮギであり、ゥヮギが含まれる単語クラス 3 9 3は衣類であり、上着の単語クラスである衣類に含まれる単語のうち上着が出現する出現頻度 3 9 4は 0 . 1 0 である。

ステップ 3 5 5において、付加情報としてジャケットの付加情報が送られてきたとする。この場合付加情報としてはジャケットを示すキーヮード情報のほかに付加情報としては、ジャケットの値段や色やサイズなどの説明、ジャケットの販売元の説明なども含まれる。このように付加情報は、キーヮード情報の他に付加情報が対応付けられている商品に関する情報も含まれている。なお、付加情報の詳細については後述する。次に、ステップ 3 5 6において、認識語彙抽出部 3 5 5は、付加情報に含まれるキーワード情報を抽出する。すなわち、ジャケットの付加情報が送られてきた場合には、キーヮード情報としてジャケットに対応する情報を抽出する。そして、認識語彙拡張部 3 5 7は、類義語辞書 3 5 6を利用して、抽出したキーヮード情報に対応するキーヮードと同一の単語クラス 3 9 3に属する単語から構成される認識語彙セットを生成する。 ·

具体的に説明すると、対象物がジャケットである付加情報のキーヮード情報に対応するキーヮードがジャケットであるとする。そうすると認識語彙抽出部 3 5 5は、この付加情報からキーワード情報に対応するキ一ワードであるジャケットを抽出する。

そして、認識語彙拡張部 3 5 7は、キーヮードであるジャケットを含む単語クラス 3 9 3が衣類であるので、単語クラスが衣類である単語を抽出する。図 5の類義語辞書の場合、単語クラス 3 9 3が衣類である単語は、上着、ジャケット、服であることがわかる。そうすると、認識語彙拡張部 3 5 7は、上着、ジャケット、及び服を認識語彙セットを構成する単語とする。また、それぞれの単語に対応する出現頻度 3 9 4を認識語彙セットに記載する。図 7にこのようにして作成された認識語彙セット 3 9 5を示す。ジャケット、月艮、上着のそれぞれの読み 3 9 6がジャケット、フク、ゥヮギのように記載されている。そして、単語クラス内頻度 3 9 7が読み 3 9 6に対応して 0 . 2、 0 . 3、 0 . 1などと記載されていることがわかる。

次に、ステップ 3 5 7において、認識語彙拡張部 3 5 7は、生成した認識語彙セットを付加情報と対応させて認識語彙記憶部 3 5 1に記憶させる。

ここで、認識語彙記憶部 3 5 1は半導体メモリーまたはハードデイスク装置であるとする。従って、生成された認識語彙セットは、付加情報と対応出来るような形式で半導体メモリ一またはハードディスク装置に格納される。

次に、視聴者が番組視聴中に発声した音声を音声認識する際の動作を説明する。図 2において、まず視聴者は番組視聴中に番組に登場する物等に注目し、特定のものに注目していることを伝える言葉を発声する。そうすると、マイクロホン 3 2 1は、その発声を入力し、音声認識部 3 5 2に出力する。

音声認識部 3 5 2は、マイクロホン 3 2 1から入力された発声信号に対して音声認識を行う。そしてその音声認識結果に基づいて音声認識部 3 5 2は、視聴者が注目した物等を判断し、対応する番組付加情報を特定して、付加情報記憶部 3 1 7へ蓄積する。

ドラマを視聴している場合を例に取って具体的に説明すると、例えばドラマの視聰中に登場人物が着用していた洋服に視聴者の注意が向いたが、その洋服を来ていた登場人物は画面から退場してしまったような場合、視聴者は「さっきの赤い上着いいな。」などと発声する。

視聴者が発声した音声はマイク口ホン 3 2 1より入力され、音声認識部 3 5 2は時間表現辞書 3 1 6と認識語彙記憶部 3 5 1を参照して入力された音声を認識し、放送された番組付加情報より該当する付加情報を抽出する。

すなわち、認識語彙記憶部 3 5 1に記憶されている認識語彙セットのうち図 7に示した認識語彙セット 3 9 5は、上着という単語を含んでいるので、音声認識部 3 5 2は認識語彙セット 3 9 5を特定する。また、音声認識部 3 5 2が音声認識した結果、音声認識の候補として複数の単語が認識された場合、認識語彙セット 3 9 5の単語クラス内頻度 3 9 7が高い方の単語を音声認識結果で認識された単語として特定する。

この場合、複数の単語がそれぞれ異なった単語クラスに属している場合には、例えば各単語クラスの重みを同一として扱う。すなわち、それら複数の単語の単語クラス内頻度 3 9 7どうしを直接比較し、単語クラス内頻度 3 9 7が高い方の単語を音声認識部 3 5 2が特定すればよい。例えば認識語彙セットとしてジャケットというキーヮードから生成された図 7で示した認識語彙セットと、車庫というキーヮードから生成された認識語彙セットが存在する場合に、音声認識した結果、ジャケットと車庫とが音声認識の候捕として認識された場合、ジャケットが含まれる単語クラスである衣類と、車庫が含まれる単語クラスである建造物とを同じ重みであるすなわち平等に扱う。そして、ジャケットの単語クラス内頻度 3 9 7と車庫の単語クラス内頻度 3 9 7を直接比較し、単語クラス内頻度 3 9 7が高い方を音声認識された単語として特定する。

なお、本実施の形態では、音声認識の候補として複数の単語が認識された場合、これら複数の単語がそれぞれ異なったクラスに属している場合には、複数の単語が含まれる各単語クラスの出現頻度を平等に出現するとして扱うとして説明したが、これに限らず、予め各単語クラスの出現する頻度を上述した十分大きな日本語コーパスより求めておき各単語クラスに出現する頻度をも考慮すればさらに正確に音声認識結果の単語を特定することが出来るようになる。また、各単語クラスの重みを放送局 1 0からデータ放送により放送して、放送受信部 3 1 3でこの各単語クラスの重みを受信し、音声認識部 3 5 2が受信した各単語クラスの重みをも考慮することも出来る。また、 T V / S T B 3 1 0とネットヮークで接続された P Cを通じて、ィンターネットのホームページから商品を購入した場合等には、その購入履歴情報を取得して、取得した購入情報から各単語クラスの重みを生成し、音声認識部 3 5 2で音声認識に利用することも可能である。

このようにして、音声認識部 3 5 2が図 7の認識語彙セット 3 9 5を特定ずると、音声認識部 3 5 2は、付加情報記憶部 3 1 7に認識語彙セット 3 9 5に対応する付加情報であるジャケットの付加情報を記憶させる。

このように本実施の形態によれば、放送局 1 0から放送されてきた付加情報に含まれるキーヮード情報に対応するキーヮードがジャケットである場合に、認識語彙セットを生成して音声認識に利用することにより、ジャケットと類義性のある上着という単語を視聴者が発声した場合であつても、ジャケットに対応する付加情報を特定することが出来るようになる。また、同様にジャケットと類義性がある服という単語を視聴者が発声した場合であっても、ジャケットの付加情報を特定することが出来るようになる。従って、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するようにして手間がかからず簡単に特定することが出来るようになる。

記憶時間制御部 3 1 5はあらかじめ定められた時間範囲あるいはシーン数、または視聴者のこれまでの発声とその後の入力より学習された時間表現に対応するもっとも大きい時間幅あるいはシーン数の間、生成された認識語彙セットが保持されるよう制御する。なお、記憶時間制御部 3 1 5の学習については後述する。例えば「さっきの赤い上着いいな。」という発声音声の場合には、記憶時間制御部 3 1 5の制御に従って、音声認識部 3 5 2は、「さっき」という過去を示す時間表現語彙を抽出し、時間表現辞書 3 1 6を参照して「さっき」に対応する時間範囲あるいはシーン数の間に放送された番組付加情報を対象にして上記の特定を行う。ドラマが終了した後、表示部 3 1 8は、音声認識により指定されたドラマに登場した物等に対応する付加情報を表示する。

付加情報には大きさ、上述したように重さ、材質、色違い、サイズ違い価格、製造者、販売者、販売者連絡先等の情報が含まれており、視聴者はこれらの情報を確認して検討し、購入する場合にはリモートコントローラ 3 2 0あるいはポィンティングデパイス、あるいは音声認識等の入力手段により付加情報を選択し購入情報を入力する。

送信部 3 1 9は、購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する。 '

さて、前述したように記憶時間制御部 3 1 5は認識された時間表現語彙と視聴者の情報選択入力との関係からおのおのの時間表現語彙と実際の時間幅あるいばシーン数との関係を学習することについて具体的に説明する。記憶時間制御部 3 1 5は、時間表現辞書 3 1 6に格納されている時間に関する表現である認識語彙毎に実際の時間幅またはシーン数を対応付けるための情報を保持している。例えば、記憶時間制御部 3 1 5 は、例えば「さっき」という認識語彙については、現在時刻を基準にして 2 0秒前から 5分前までの時間幅を対応つけ、また、「今」については、現在時刻を基準にして現在から 3 0秒前までの時間幅を対応付ける。

従って上述したように、記憶時間制御部 3 1 5 「さっき」という時間表現を表す認識語彙を音声認識部 3 1 2から受け取った場合には、現在時刻を基準にして 2 0秒前から 5分前までの時間幅の間に受け取った番組付加情報に対して特定を行うよう制御し、この制御に従って音声認識部 3 1 2は、現在時刻を基準にして 2 0秒前から 5分前までの時間幅の間に受け取った番組付加情報に対して特定を行い、その特定された番組付加情報を付加情報記憶部 3 1 7に記憶させる。すなわち、記憶時間制御部 3 1 5は、この時間幅の間に生成された認識語彙セットが保持されるように制御する。

ところが、記憶時間制御部 3 1 5が「さっき」という時間表現を表す認識語彙を受け取った場合に、上述したように現在時刻を基準にして 2 0秒前から 5分前までの時間幅を対応付けた場合に、視聴者が表示部' 3 1 8で表示された番組付加情報が視聴者の意図していた時間幅と異なる番組付加情報が表示されることが起こり得る。このような場合、視聴者. はマイクロホン 3 2 1に向かって「やり直して」「もつと前の情報を表示してほしいな」「もっと後の情報を表示してほしいな」などと発声する。そうすると、音声認識部 3 5 2は、その視聴者からの発声を音声認識し、音声認識結果を記憶時間制御部 3 1 5に通知する。音声認識部 3 5 2が「もっと前の情報を表示してほしいな」という発声を音声認識した場合には、「もっと前」、「情報」、「表示」を認識語彙として抽出し、記憶時間制御部 3 1 5に通知する。

記憶時間制御部 3 1 5は、音声認識部 3 1 2から「もっと前」、「情報」、「表示」という認識語彙を受け取ると、「さっき」という時間表現を表す認識語彙に対応付けられた時間幅の情報を修正する。すなわち、「さっき」という認識語彙に現在時刻を基準にして 4 0秒前から 5分 4 0秒前までの時間幅を対応付けるように修正する。そして、記憶時間制御部 3 1 5 は、音声 ^識部 3 5 2に現在時刻を基準にして 4 0秒前から 5分 4 0秒前までの間に受け取った番組付加情報を対象として再度番組付加情報の特定を行うよう音声認識部 3 5 2を制御する。音声認識部 3 5 2は、記 ' 憶時間制御部 3 1 5の制御に従って、再度番組付加情報の特定を行い、特定した番組付加情報を付加情報記憶部 3 1 7に記憶させ、表示部 3 1 8は、付加情報記憶部 3 1 7に記憶された番組付加情報を表示する。そして、視聴者は、表示された番組付加情報に目的とするものが含まれている場合にはその番組付加情報を選択して購入情報を入力する。

次に、図 4のステップ 3 5 4の動作を図 8のフローチャートを用いて詳細に説明する。

上述したように音声認識する際、図 3の認識語彙適応部 3 5 8は、単語認識結果を類義語辞書 3 9 0にフィードバックし、類義語辞書 3 9 0 中の認識された単語に重みを加算する。

すなわち、図 8のフローチャートにおいて、ステップ 3 5 8で音声認識部 3 5 2が単語 Aを認識したとする（ステップ 3 5 8 )。単語 Aとしては、具体的には上述したようにゥヮギが認識されたとする。

類義語辞書適応部 3 5 8は、類義語辞書 3 9 0で読みが Aである単語を検索する（ステップ 3 5 9 )。すなわち、類義語辞書適応部 3 5 8は、類義語辞書 3 9 0から読みがゥヮギである単語を抽出する。従って単語上着が抽出される。

次に、類義語辞書適応部 3 5 8は、単語 Aすなわち上着の単語クラス内頻度 3 9 7に（ 1 /想定出現単語総数）を加算する。ここで想定単語出現総数とは、類義語辞書 3 9 0の出現頻度 3 9 4を作成する際の出現単語の総数を仮想的に設定した値であり、例えば想定単語出現総数を 1 0 0とする。そうすると、今までの上着の出現頻度 3 9 4は 0 . 1 0であつたので、類義語辞書適応部 3 5 8は、上着の出現頻度 3 9 4を 0 . 1 0 + 0 . 0 1 = 0 . 1 1 とする。このように類義語辞書適応部 3 5 8 は、類義語辞書 3 9 0の単語のうち音声認識により認識された単語 Aの出現頻度 3 9 4を增加させる。次に、ステップ 3 6 1において、類義語辞書適応部 3 5 8は、単語 A が含まれる単語クラスに含まれる単語のうち単語 A以外の単語の頻度から（その単語の出現頻度 X ( 1/想定単語出現総数））を減算する。上着が含まれる単語クラスは、衣類であり、衣類には上着以外の単語としてジャケット及び服という単語が含まれている。従って、ジャケット及ぴ服という単語の出現頻度 3 94を減少させる。すなわち、今までジャケットの頻度は 0. 20であったので、類義語辞書適応部 3 5 8は、ジャケットの出現頻度 3 94を 0. 2_ (0 · 2X (1/1 00)) = 0. 1 9 8とする。また、今まで服の頻度は、 0. 3 0であったので、類義語辞書適応部 3 5 8は、服の出現頻度 3 9 4を 0. 3 _ (0. 3 x (1 / 1 00)) = 0. 297とする。

音声認識部 3 5 2が単語を認識するたぴに、認識語彙適応部 3 58は図 8のステップ 3 5 9、 3 60、及ぴ 3 6 1の処理を行う。

放送局 1 0から新たな付加情報が放送されてきた場合、認識語彙拡張部 3 5 7が認識語彙セット 3 9 5を生成する際、類義語辞書 39 0の出現頻度 3 94として上記のように捕正された出現頻度 3 94が用いられる。従って、視聴者がよく発声する単語は音声認識部 3 5 2でより認識されやすくなるようにすることが出来る。

以上のように、本実施の形態の買い物支援システムによれば、視聴者が興味を持った、番組中に登場した物や音楽等について、番組そのものの視聰を、メモをとる等の作業で妨げることなく、自然な発声を行うだけで、番組の視聴と連続的に、情報を取得し、購入することが可能になる。

また、認識語彙セットを利用することにより、付加情報に含まれるキーヮード情報に対応するキーヮードのみならず、そのキーヮードに類義性のある単語を発声することによっても認識語彙セットを特定出来、従つて付加情報を特定することが出来るようになる。

なお本実施の形態では購入情報は対応する付加情報の識別番号等とあわせて送信部 3 1 9から放送局へ送信されるとしたが、付加情報に含まれる販売元へ送信されるとしても良い。

なお本実施の形態では音声認識部 3 1 2は認識結果より対応する付加情報を特定するとしたが、番組内でのタイムスタンプのみを確定し、付加情報記憶部 3 1 7はそのタイムスタンプおよびそれ以前の付加情報およびタイムスタンプおよびそれ以前の付加情報に対応する認識語彙セットを記憶するものとしても良い。すなわち、音声認識部 3 1 2は、視聴者が音声を発声した時刻のみを確定し、付加情報記憶部 3 1 7は、その時刻に対応する付加情報やその時刻までの所定の時間の間に放送された付加情報およびその付加情報に対応する認識語彙セットを記憶することもできる。視聴後に視聴者に記憶された付加情報を提示し、視聴者の発声した音声を認識し手詳細な付加情報の提示や購入情報等の送信を行う。なお、このように番組視聴後に付加情報の特定を行う場合については、後述する実施の形態 5〜 7で詳細に説明する。

なお本実施の形態では付加情報記憶部 3 1 7は選択された付加情報のみを記憶するとしたが、番組の全付加情報を記憶し、音声認識部により選択された付加情報のみを表示するとしても良い。

なお本実施の形態では付加情報を記憶し番組終了後表示するとしたが、付加情報と収録しておいた番組あるいは放送局へ要求信号を送り再度受信した対応シーンを表示するとしても良い。

なお本実施の形態では付加情報を記憶し番組終了後表示するとしたが、付加情報の識別コードのみを記憶し、付加情報は放送局へ要求信号を送り再度受信して表示するとしても良い。

なお、本実施の形態の放送局 1 0は本発明の第 1装置の例であり、本 5

38 実施の形態の TV/S TB 3 1 0は本発明の第 2装置の例であり、本実施の形態の放送受信部 3 1 4は本発明の受信手段の例であり、本実施の形態の認識語彙生成部 3 54は本発明の認識語彙セット生成手段の例であり、本実施の形態の音声認識部 3 5 2は本発明の音声認識手段の例であり、本実施の形態の音声認識部 3 5 2は本発明の特定手段の例であり、本実施の形態の表示部 3 1 8は本発明の表示手段の例であり、本実施の形態の認識語彙適応部 35 8は本発明の出現頻度補正手段の例である。

(実施の形態 2)

次に、本発明の実施の形態 2における双方向放送による買い物支援システムについて説明する。

本発明の実施の形態 2における双方向放送による買い物支援システムの概念構成を示すブロック図は、図 1で、認識語彙記憶部 3 5 1を認識語彙記憶部 36 1に変更し、音声認識部 3 5 2を音声認識部 36 2に変更したものに相当する。従って図 1の説明は実施の形態 1 と重複するので省略する。図 9に、双方向放送による買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能プロック図を示す。

TV/ S TB 31 0は、図 9に示すように、放送受信部 3 1 3、認識語彙生成部 3 6 0、認識語彙記憶部 3 6 1、音声認識部 3 6 2、時間表現辞書 3 1 6、記憶時間制御部 3 1 5、付加情報記憶部 3 1 7、表示部 3 1 8、送信部 3 1 9、認識履歴記憶部 3 63カゝら構成される。

放送受信部 3 1 3、時間表現辞書 3 1 6、記憶時間制御部 3 1 5、付加情報記憶部 3 1 7、表示部 3 1 8、及ぴ送信部 3 1 9については実施の形態 1 と同様であるので説明を省略する。

認識語彙生成部 3 60·は、放送受信部 3 1 3で受信した番組付加情報から音声認識の対象語彙である認識語彙セットを生成する手段である。なお、実施の形態 1 とは異なり認識語彙生成部 3 60は、一つの単語が複数の単語クラスに含まれる場合に認識語彙セットを生成するところが実施の形態 1とは異なっている。認識語彙記憶部 3 6 1は、一つの単語が複数の単語クラスに含まれる場合に生成された認識語彙セットを記憶する手段である。音声認識部 3 6 2は、認識語彙記憶部 3 6 1と時間表現辞書 3 1 6とを認識語彙辞書として使用して音声認識を行う手段である。認識履歴記憶部 3 6 3は、音声認識部 3 6 2で既に認識された単語及びその単語が含まれる単語クラスを記憶しておく手段であり、例えば半導体メモリ一またはハードディスク装置で構成される。

図 1 0に、認識語彙生成部 3 6 0の部分の詳細な構成を示す、認識語彙生成部 3 6 0は、認識語彙抽出部 3 6 4、認識語彙拡張部 3 6 6、類義語辞書 3 6 5、認識語彙適応部 3 6 7から構成される。

認識語彙抽出部 3 6 4は、番組付加情報に含まれるキーワード情報に対応する単語をキーヮードとして抽出する手段である。認識語彙拡張部 3 6 6は、抽出されたキーヮードを拡張して認識語彙セットを生成する手段である。類義語辞書 3 6 5は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された辞書である。このように、実施の形態 2の類義語辞書 3 6 5は、一つの単語が複数の単語クラスに含まれる場合も扱うことが可能である。認識語彙適応部 3 6 7は、音声認識結果に応じて類義語辞書 3 6 5に記載されている各単語が出現する頻度を補正する手段である。

次に、このような本実施の形態の動作を説明する。

図 1 2は、本実施の形態の買い物支援システムが認識語彙セットを生成して、付加情報と対応させて認識語彙記憶部 3 6 1に記憶させるまでの動作を示すフローチャートである。また、図 1 5は、視聴者が発声した音声を認識した場合の動作を示すフローチャートである。まず、図 1 2に基づいて、認識語彙セットを生成して、付加情報と対応させて認識語彙記憶部 3 6 1に認識語彙セットを記憶させるまでの動作を説明する。その後、視聴者が発声した音声を音声認識する場合の動作を説明する。図 1 2において、実施の形態 1と同様に、放送局 1 0からは、放送内容に登場する対象物に対応付けられた付加情報であって対象物を特定するためのキーヮード情報を含む付加情報が放送内容とともに放送されてくる。放送受信部 3 1 3は、この放送を受信する。

ここで、図 1 1に実施の形態 2で用いる類義語辞書 400を示す。類義語辞書 4,0 0は実施の形態 1のものとは異なり一つの単語が複数の単語クラスに含まれる場合をも扱うことが出来るものである。類義語辞書 400は、単語 ·40 1と、その単語の読み 46 1 と、その単語が含まれる単語クラス 1 (40 2) と、単語クラス 2 (40 3) · · ·単語クラス η (404)、その単語の出現頻度 40 5とが記載された辞書である。なお、単語クラスとは、単語間の類義性を基準にして、複数の単語が分類されたものである。実施の形態 2の類義語辞書では一つの単語 40 1が _η個の単語クラスに含まれている。また、本実施の形態の買い物支援システムを使用する初期状態においては、十分に大きい日本語コーパスから求められた出現頻度 405が記載されている。この出現頻度 40 5は、実施の形態 1 とは異なり、十分に大きい日本語コーパスにおける出現頻度が記載されている。

例えば、単語 40 1の一例としてジャケットがあり、ジャケットの読み 46 1はジャケットであり、ジャケットが含まれる単語クラス 1 (4 02) は衣類であり、単語クラス 2 (40 3 ) は流行などである。ジャケットの出現する出現頻度 405は 0. 020である。

ステップ 3 7 0において、付加情報としてジャケットの付加情報が送られてきたとする。なお、この.付加情報については実施の形態 1で説明したものと同様である。次に、ステップ 3 7 1において、認識語彙抽出部 3 6 4は、付加情報に含まれるキーワード情報を抽出する。すなわち、ジャケットの付加情報が送られてきた場合には、キーヮード情報としてジャケットに対応する情報を抽出する。そして、認識語彙拡張部 3 6 6は、類義語辞書 3 6 5を利用して、抽出したキーヮード情報に対応するキーヮードと同一の単語クラス 1 ( 4 0 2 )、単語クラス 2 ( 4 0 3 )、 · · ·単語クラス n ( 4 0 4 ) に属する単語から構成される認識語彙セットを生成する。

具体的に説明すると、対象物がジャケットである付加情報のキーヮード情報に対応するキーヮードがジャケットであるとする。そうすると認識語彙抽出部 3 6 4は、この付加情報からキーワード情報に対応する.キ一ワードであるジャケットを抽出する。

そして、認識語彙拡張部 3 6 6は、キーヮードであるジャケットを含む単語クラス 1 ( 4 0 2 ) が衣類であり、単語クラス 2 ( 4 0 3 ) が流行などであるので、単語クラスが衣類、流行等である単語を抽出する。図 1 1の類義語辞書 4 0 0の場合、単語クラスが衣類である単語は、ジャケットなどであることがわかる。そうすると、認識語彙拡張部 3 6 6 は、ジャケットなどを認識語彙セットを構成する単語とする。

図 1 3にこのようにして作成された認識語彙セット 4 0 6の例を示す。認識語彙セット 4 0 6は、ジャケット、服、上着、バッグなどから構成されている。また、認識語彙セットの単語 4 0 6には類義語辞書 4 0 0 の出現頻度も頻度 4 0 9として記載される。

次に、ステップ 3 7 2において、認識語彙拡張部 3 6 6は、認識語彙セットにおける各単語の頻度 4 0 9を求める。すなわち、認識語彙セット内の各単語の蘋度 4 0 9を合計すると 1になるように認識語彙セット 4 0 6で頻度 4 0 9を規格化する。

図 1 4に、このようにして頻度 4 0 9が規格化された認識語彙セット 4 1 0を示す。最終的には、認識語彙セット 4 1 0として、単語の読み 4 1 1 と規格化された頻度であるセット内頻度 4 1 2が記載される。次に、ステップ 3 7 3において、認識語彙適応部 3 7 3は、認識履歴記憶部 3 6 3より付加情報のキーヮード情報に対応するキーヮードが含まれる単語クラスに含まれる単語を抽出する。すなわち、認識履歴記憶部 3 6 3は半導体メモリ一またはハードディスクから構成されており、認識履歴記憶部 3 6 3には、既に行われた音声認識により認識された単語及ぴその単語が属する単語クラスが記憶されており、これらの単語のうち、ジャケットというキーヮードが含まれる単語クラスに含まれる単語を抽出する。一般的には実施の形態 2ではジャケットに含まれる単語クラスとレては、図 1 1の類義語辞書 4 0 1が示すように衣類、流行など複数の単語クラスがある。

次に、ステップ 3 7 4において、認識語彙適応部 3 7 3は、認識語彙セット 4 1 0の単語のうちステップ^ 7 3で抽出された単語と一致する単語のセット内頻度 4 1 2に関して、（認識履歴中の出現数/想定単語出現数）を加算する。一方、認識語彙セット 4 1 0の単語のうちステップ 3 7 3で抽出されなかった単語のセット内頻度 4 1 2に関して、（セット内頻度 X認識履歴中の認識語彙セット内単語の総出現数） / (想定単語出現数）を減算する。

次に、ステップ 3 7 5において、認識語彙適応部 3 7 3は、ステップ 3 7 4でセット内頻度 4 1 2が捕正された認識語彙セット 4 1 0を付加情報と対応させて認識語彙記憶部 3 6 1に記憶させる。

以上で、認識語彙記憶部 3 6 1に認識語彙セット 4 1 0が付加情報と対応させて記憶される。

認識語彙セットを用いて音声認識部 3 6 2が付加情報を特定する動作は実施の形態 1 と同様であるので説明を省略する。次に、音声認識する場合の動作について説明する。以下に説明する動作は、すでに生成されている認識語彙セットを音声認識された後も繰り返し使う場合に、その音声認識結果を反映するための処理である。

すなわち、図 1 5に示すフローチヤ一トで、ステップ 3 8 0において、音声認識部 3 6 2が単語 Aを認識したとする。具体的には単語 Aとしてゥヮギが認識されたとする。

ステップ 3 8 1で、認識語彙適応部 3 6 7は、類義語辞書 4 0 0を参照して単語 Aが含まれる単語クラスを抽出する。

次に、ステップ 3 8 2で、認識語彙適応部 3 6 7は、認識履歴記憶部 3 6 3に単語 Aと単語 Aが含まれる単語クラスとを記憶させる。ただし、認識履歴記憶部 3 6 3.の単語記憶数の上限を超える場合は、最古の単語から順に削除する。

ステップ 3 8 1、 3 8 2で認識履歴記憶部 3 6 3に記憶された単語 A などの単語は、上述した図 1 2のステップ 3 7 3、 3 7 4で用いられる。 . 一方、ステップ 3 8 3において、認識語彙適応部 3 6 7は、類義語辞書 4 0 0で読みが Aである単語を検索する。本実施の形態では、単語 A としてゥヮギが認識されているので、ゥヮギが読みである単語を検索して、上着という単語を抽出する。

次に、ステップ 3 8 4において、認識語彙適応部 3 6 7は、認識語彙セット 4 1 0中の単語 Aのセット内頻度 4 1 2に（ 1 /想定単語出現数）を加算する。具体的には、想定単語総数を 1 0 0とした場合には上着の頻度は 0 . 1 + 0 . 0 1 = 0 . 1 1に補正される。

次に、ステップ 3 8 5において、認識語彙適応部 3 8 5は、認識語彙セット 4 1 0中の単語 A以外の単語の頻度から（セット内頻度 X ( 1 / 想定単語総数））を減算する。具体的には、ジャケットの頻度は、 0 . 2 一（0 . 2 X 1 / 1 0 0 ) = 0 . 1 9 8と捕正され、服の頻度は、 0 . 3— （0 . 3 1 / 1 0 0 ) = 0 . 2 9 7と補正される。

音声認識する毎にステップ 3 8 0からステップ³ 8 5までの処理を繰り返す。

以,上のように、本実施の形態の買い物支援システムによれば、視聴者が興味を持った、番組中に登場した物や音楽等について、番組そのものの視聴を、メモをとる等の作業で妨げることなく、自然な発声を行うだけで、番組の視聴と連続的に、情報を取得し、購入することが可能になる。

また、認識語彙セットを利用することにより、付加情報に含まれるキーヮード情報に対応するキーワードのみならず、そのキーヮードに類義性のある単語を発声することによつても認識語彙セットを特定出来、従つて付加情報を特定することが出来るようになる。

なお、実施の形態 2でも実施の形態 1で説明した種々の変形例を適用することが出来ることは言うまでもない。

なお、本実施の形態の放送局 1 0は本発明の第 1装置の例であり、本実施の形態の T V / S T B 3 1 0は本発明の第 2装置の例であり、本実施の形態の放送受信部 3 1 3は本発明の受信手段の例であり、本実施の形態の認識語彙生成部 3 6 0は本発明の認識語彙セット生^手段の例であり、本実施の形態の音声認識部 3 6 2は本発明の音声認識手段の例であり、本実施の形態の音声認識部 3 6 2は本発明の特定手段の例であり、本実施の形態の表示部 3 1 8は本発明の表示手段の例であり、本実施の形態の認識語彙適応部 3 6 7は本発明の出現頻度補正手段の例である。

(実施の形態 3 )

次に、本発明の実施の形態 3における双方向放送による買い物支援システムについて説明する。

本発明の実施の形態 3における双方向放送による買い物支援 · の概念構成を示すプロック図は、図 1で、認識語彙記憶部 3 5 1を文法記憶部 3 7 6に変更し、音声認識部 3 5 2を音声認識部 3 7 7に変更したものに相当する。従って図 1の説明は実施の形態 1 と重複するので省略する。図 1 6に、双方向放送による買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能ブロック図を示す。

T V / S T B 3 1 0は、図 1 6に示すように放送受信部 3 1 3、認識語彙生成部 3 7 1、類義語辞書 3 7 4、語彙重み修正部 3 7 5、文法記憶部 3 7 6、音声認識部 3 7 7、認識履歴記憶部 3 6 3、付加情報記憶部 3 1 7、表示部 3 1 8、送信部 3 1 9、リモートコントローラ 3 2 0、マイクロホン 3 2 1、記憶時間制御部 3 1 5から構成される。また、認識語彙生成部 3 7 1は、ドメイン別ルール 3 7 2、及び文法選択部 3 7 3力ら構成される。すなわち、認識語彙生成部 3 7 1は半導体メモリーまたはハードディスクの機能を有し、半導体メモリ一またはハードディスクにドメイン別ルール 3 7 2を記憶しているものとする。また、文法記憶部 3 7 6は、半導体メモリ一またはハードディスクの機能を有しており、それらの中に後述する N g r a m文法情報を記憶しているものとする。

放送受信部 3 1 3、記憶時間制御部 3 1 5、付加情報記憶部 3 1 7、表示部 3 1 8、送信部 3 1 9、リモートコントローラ 3 2 0、マイクロホン 3 2 1については第 1の実施の形態と同様であるので、詳細な説明を省略する。

認識語彙生成部 3 7 1は、ドメイン別ルール 3 7 2に示すようにドラマ、屋外、秋などのドメイン毎の N g r a m文法情報を自らが有する半導体メモリ一またはハードディスクに予め記憶しており、放送受信部 3 1 3から送られてくるシーンコードに対応するドメインの N g r a m文法情報を選択する手段である。すなわち、文法選択部 3 7 3は、放送受信部 3 1 3から出力されてくるシーンコードに対応するドメインの N g r a m文法情報を選択する手段である。

文法記憶部 3 7 6は、半導体メモリーまたはハードディスクの機能を有し、文法選択部 3 7 3で選択された N g r a m文法情報をこれらの半導体メモリ一またはハードディスクに記憶する手段である。

語彙重み修正部 3 7 5は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書 3 7 4を利用して、 N g r a m 文法情報の表現形式における、所定の単語クラスを基準とする所定の単語が出現する頻度を、認識履歴記憶部 3 6 3に記憶されている既に行われた音声認識の音声認識結果の履歴情報に基づいて補正する手段である。音声認識部 3 7 7は、文法記憶部 3 7 6に記憶されている N g r a m 文法情報を利用して、視聴者が発声した音声を連続音声認識する手段でめる。

次に、このような本実施の形態の動作を説明する。

まず、図 1 7のフローチャートを用いて動作の概要を説明する。

放送局 1 0からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報及び N g r a m文法情報を特定するためのシーンコードも放送されてくる。放送受信部 3 1 3 は、この放送を受信する。

ステップ 3 9 0において、文法選択部 3 7 3は、放送受信部 3 1 3から出力されてくるデータからシーンコード及ぴ付加情報が含むキーヮード情報を抽出する。ここで、シーンコードとは、認識語彙生成部 3 7 1 がドメィン毎に記憶している N g r a ra文法情報を特定するための情報である。

次に、ステップ 3 9 1において、文法選択部 3 7 3は、放送受信部 3 1 3から出力されたシーンコードに対応するドメインの N g r a m文法情報を選択する。

次に、ステップ 3 9 2において、語彙重み修正部 3 7 5は、 N g r a m文法情報の表現形式における、所定の単語クラスを基準とする所定の単語が出現する頻度を認識履歴記憶部 3 6 3に記憶されている認識履歴情報と類義語辞書 3 7 4を用いて補正する。

次に、ステップ 3 9 3において、認識語彙重み修正部 3 7 5は、補正した N g r a m文法情報を文法記憶部 3 7 6に記憶させる。

このようにして文法記憶部 3 7 6に記憶された N g r a m文法情報が音声認識部 3 7 7で音声認識のために用いられる。ステップ 3 9 3において、認識語彙重み修正部 3 7 5が、認識履歴情報と類義語辞書 3 7 4 を用いて N g r a m文法情報を補正するので、放送された番組やマ一シャルに登場する対象物を視聴者が発声するときの表現に適するように音声認識することが出来るようになる。従って、放送された番組やコマ一シャルに登場する対象物に対応付けられた付加情報を視聴者の発声するときの表現に適するように特定することが出来るようになる。以下このことを詳細に説明する。

次に、図 1 8のフローチャートを用いて、実施の形態 3の買い物支援システムの詳細な動作の説明を行う。

図 1 8において、上述したように、放送局 1 0からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーヮード情報を含む付加情報及び N g r a m文法情報を特定するためのシーンコードも放送されてくる。

ステップ 4 0 0において、放送受信部 3 1 3は、この放送を受信する。ステップ 4 0 1において、文法選択部 3 7 3は、放送受信部 3 1 3から出力されてくるデータからシーンコード及び付加情報が含むキーヮード情報を抽出する。

ここで、シーンコードとは、認識語彙生成部 3 7 1がドメイン毎に記憶し'ている N g r a m文法情報を特定するための情報である。例えばシーンコードの例としては、ドラマ、屋外、秋などのドメインを特定するためのコードである。認識語彙生成部 3 ？ 1にはドイン別ルール 3 7 •2に示すようにドメイン別に N g r a m文法情報力 S格納されている。従って、シーンコードを指定することにより、指定したシーンコードに対応するドメインの N g r a m文法情報を特定することが出来る。

また、実施の形態 1 と同様に、付加情報としてジャケットの付加情報が送られてきたとする。この場合付加情報としてはジャケットを示すキ一ワード情報のほかに付加情報としては、ジャケットの値段や色やサイズなどの説明、'ジャケットの販売元の説明なども含まれることは実施の形態 1と同様である。

文法選択部 3 7 3は、シーンコードに対応するドメインの N g r a m 文法情報をドメイン別ルール 3 7 2から選択すると、選択した N g r a m文法情報を文法記憶部 3 7 6に記憶させる。

ここで、 N g r a m文法情報の一般式は次の数 1のようになる。

(数 1 )

_P »/_{W i}— _{l W}一 . _{W i}—„_{+ 1 )}

数 1において、 P (Wi I Wi-iWi-2 - · · Wi-_n+i) は、十分大きな日本語コーパスにおいて単語列 Wi-iWi-₂ · · · Wi-_n+iの後ろに単語 Wiが現れる確率を表しており、 N (WiWi-l - · - Wi-n+l) は、十分大きな日本語コーパスにおいて単語列 WiWi— 1 · · 'Wi-n+lが現れた頻度を表している。

N g r a m文法では数 1を以下の数 2のように近似する。

(数 2)

PW W^W, ₂...W, W(fiC_M

N(c,— … N(

数 2において、 P (Ci I Ci-l - · · Ci-n+l) は、十分大きな日本語コ一パスにおいて単語クス列 Ci-i · · · Ci_-n+iの後ろに単語クラス Ciが現れた確率を表している。また、 P (Wi I Ci) は、十分大きな日本語コ一パスにおいて、単語クラス Ciに含まれる単語のうち、単語 Wiが出現する確率を表している。

特に η= 2の場合には、数 1は数 3のようになる。

(数 3) D

また、数 2は数 4のようになる, (数 4)

N(C,C,一,）"舉

U N(c_f)

以下 n = 2の場合について説明するが、 nが 2より大きい場合については、単語クラス Ci-lなどを単語クラス列 Ci-l · · ' Ci-n+lなどと読み替えればよい。

数 4において、 P (Wi I WM) は、単語 Wi-iの後ろに単語 Wiが現れる確率を表しており、 P (Ci I CM) は、十分大きな日本語コーパスにおいて、単語クラス Ci— 1に含まれる単語の後ろに単語クラス Ciに含まれる単語が出現する確率を表しており、 P (Wi I Ci) は、前述した日本語コーパスにおいて、単語クラス Ciに含まれる単語のうち、単語 Wiが出現する確率を表している。ここで、単語クラス Ciや Ci-iなどは類義語辞書 3 74で定義されている。類義語辞書 3 74は、例えば実施の形態 1 で説明した図 5の類義語辞書 3 90と同様のものであるとする。すなわち、数 4は、単語 Wi-iの後ろに単語 Wiが現れる確率は、単語クラス Ci-i に含まれる単語の後ろに単語クラス Ciに含まれる単語が出現する確率と単語クラス Ciに含まれる単語のうち単語 Wiが出現する確率との積で表されることを示している。

図 1 9に、このようにして文法記憶部 37 6に記憶された N g r am 文法情報の例である N g r a m文法情報 454を示す。 N g r a m文法情報 4 54において、例えばァノという単語の後ろにゥヮギという単語が現れる確率は、 [指示語]という単語クラスに含まれる単語の後ろに [衣類] という単語クラスに含まれる単語が現れる確率と [衣類] という単語クラスに含まれる単語のうちケヮギという単語が現れる確率との積で表されている。 ' 次に、ステップ 402、及びステップ 40 3において、語彙重み修正部 3 75は、 Ng r a m文法情報の表現形式における、所定の単語クラスを基準とする所定の単語が出現する頻度を認識履歴記憶部 3 6 3に記憶されている認識履歴情報と類義語辞書 374を用いて補正する。すなわち、数 4における P (Wi I C を認識履歴記憶部 3 6 3に記憶されている認識履歴情報と類義語辞書 3 7 4とを用いて補正する。

図 2 0に、ステップ 4 0 2及びステップ 4 0 3の動作を説明するための図を示す。以下図 2 0を用いてステップ 4 0 2及びステップ 4 0 3の動作を具体的に説明する。

まず、ステップ 4 0 2において、上述したように付加情報に含まれるキーヮード情報に対応するキーヮードはジャケットである。類義語辞書 3 7 4には、ジャケットは単語クラス [衣類] に含まれると定義されているとする。そして、類義語辞書 3 7 4に単語クラス [衣類] に含まれる単語として、 C i 4 2 4に示すようにジャケット、フク、ゥヮギ、シャッが定義されているとする。このような場合には、語彙重み修正部 3 7 5は、 C i 4 2 4に示すように、付加情報に含まれるキーヮード情報に対応するキーヮードがジャケットである場合には、 [衣類] という単語クラスに属する単語であるジャケット、フク、ゥヮギ、シャツを抽出する。次に、ステップ 4 0 3において、認識履歴記憶部 3 6 3に、認識履歴情報 4 2 1 として、パンプス、クチべ二、テレビ、ジャケットなどの単語が記憶されている。認識履歴記憶部 3 6 3に記憶されている認識履歴情報 4 2 1は、既に行われた音声認識の結果認識された単語の履歴を示すものである。

また、文法選択部 3 7 3が N g r a m文法情報をシーンコードカゝら特定して選択した際の数 4における P (Wi I C i) は、初期状態 4 2 1のようになつているとする。すなわち、単語クラス [衣類] に含まれる単語のうち、ジャケットが現れる確率が 0 . 4であり、単語クラス [衣類] に含まれる単語のうち、フクが現れる確率が 0 . 3であり、単語クラス

[衣類] に含まれる単語のうち、ゥヮギが現れる確率が 0 . 2であり、単語クラス [衣類] に含まれる単語のうち、シャツが現れる確率が 0 . 1であるとする。このような場合、語彙重み修正部 3 7 5は、単語ジャケットが含まれる単語クラスである [衣類] に属する単語であるジャケット、フク、ゥヮギ、シャツのうち、認識履歴情報 4 2 1に含まれる各単語の数 4における P (Wi I C に（認識履歴情報 4 2 1中の出現数） / (想定単語出現数）だけ加算する。ここで想定単語出現数とは、実施の形態 1で説明したものと同様の意味である。認識履歴情報 4 2 1には、ジャケット、フク、ゥヮギ、シャツのうち、ジャケットとフクが含まれていおり、ジャケットは 2回出現しており、フクは 1回出現している。このような場合、想定単語出現数を 1 0 0とする場合には、 P (ジャケット I [衣類] ) に 2 / 1 0 0を加算する。また、 P (フク I [衣類] ) に 1 Z 1 0 0を加算する。

また、語彙重み修正部 3 7 5は、単語ジャケットが含まれる単語クラスである [衣類] に属する単語であるジャケット、フク、ゥヮギ、シャッのうち、認識履歴情報 4 2 1に含まれない各単語の数 4における P (W i I C から（（補正前の P (Wi I [衣類] ) ) / (単語クラス [衣類] に属する単語で認識履歴情報 4 2 1に含まれなかった各単語の P (Wi I

[衣類]) の総和）） X ( (認識履歴情報 4 2 1中の単語クラス [衣類] に属する単語の出現総数）/ (想定出現単語総数））を減算する'。すなわち、一般的には、認識履歴情報 4 2 1に含まれない各単語の数 4における JP

(Wi I C から（（補正前の P (Wi I C O ) / (単語クラス C iに属する単語で認識履歴情報 4 2 1に含まれなかった各単語の P (Wi I C i) の総和）） X ( (認識履歴情報 4 2 1中の単語クラス C iに属する単語の出現総数） / (想定出現単語総数））を減算する。

認識履歴情報 4 2 1には、ジャケット、フク、ゥヮギ、シャツのうち、ゥヮギとシャツが含まれていない。このような場合、想定単語出現数を 1 0 0とする場合には、 P (ゥヮギ I [衣類] ) から（0 . 2 / ( P (ゥヮギ I [衣類] +P (シャツ I [衣類])) χ (3Z1 o 0) を減算する。また、 P (シャツ I [衣類]) から（0. 1/ (P (ゥヮギ i [衣類] + P (シャツ I [衣類])) X (3/1 00) を減算する。

また、語彙重み修正部 37 5は、単語ジャケットが含まれる単語クラスである [衣類] に属する単語であるジャケット、フク、ゥヮギ、シャッのうち、いずれの単語も認識履歴情報 42 1に含まれていない場合には、単語クラス [衣類]に関して数 4における P (Wi I C を補正せず、そのまま用いる。

上記のように語彙重み修正部 3 7 5が数 4における P (Wi I Ci) を補正すると、図 20の適応後 42 2に示すように捕正される。

次に、ステップ 404において、語彙重み修正部 3 75は、数 4における P (Wi I C を捕正した数 4に示した N g r a m文法情報を付加情報と対応させて文法記憶部 3 76に記憶させる。

次に、音声認識の際には、音声認識部 3 7 7は、視聴者が発声した音声を文法記憶部 3 76に記憶されている N g r a m文法情報を用いて音声認識する。

視聴者が「あのジャケットいいな」と発声した場合には、音声認識部 3 7 7は、文法記憶部 3 76に記憶されている補正された N g r a m文法情報を用いて連続音声認識する。その結果「あのジャケットいいな」という文章が認識される。 N g r a m文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。 '

N g r a m文法情報を用いることにより、音声認識部 3 77力 S「あの」、「ジャケット」、「いいな」という単語を認識したとする。そうすると、次に音声認識部 3 77は、付加情報に含まれるキーワード情報に対応するキーヮードであるジャケットが音声認識された単語であるジャケットと一致するので、ジャケットの付加情報を特定する。そして、特定したジャケットの付加情報を付加情報記憶部 3 1 7に記憶させる。これ以降の付加情報の処理に関する動作は実施の形態 1 と同様であるので説明を省略する。

また、音声認識部 3 6 3が上記のように単語を認識するたぴに認識した単語を認識履歴記憶部 3 6 3に記憶させる。

そして、放送局 1 0から新たにシーンコードが送られてくるまでは、語彙重み修正部 3 7 5は、認識履歴情報記憶部 3 6 3に新たに単語が記憶されるたびにその新たに記憶された単語を認識履歴情報 4 2 1 としてステップ 4 0 2及ぴステップ 4 0 3の動作を繰り返す。このようにして語彙重み修正部 3 7 5は、音声認識中にも数 4における P (Wi I C を捕正する。

そして、放送局 1 0から新たにシーンコードが送られてきた場合には、認識重み修正部 3 7 5は、シーンコードが送られてくるまでの認識履歴情報 4 2 1を対象として図 1 8のステップ 4 0 2、 4 0 3の動作を行う。なお、実施の形態 3で N g r a m文法情報を用いて音声認識した後、付加情報に含まれるキーヮード情報に対応するキーヮードを用いて付加情報を特定する際に、実施の形態 1または実施の形態 2で説明した認識語彙セットを用いて付加情報を特定することも出来る。このようにすれば、本実施の形態の効果に加え、実施の形態 1や実施の形態 2の効果をも得ることが出来る。

さらに、本実施の形態の認識語彙生成部 3 7 1に格納されているドメィン別ルール 3 7 2 として示す N g r a m文法情報は、予めィンタネットなどのネットワークを利用してダウンロードしたものを用いても構わない。

さらに、本実施の形態では、文法選択部 3 7 2がシーンコードが入力されると、そのシーンコードに対応するドメインの N g r a m文法情報を選択するとして説明したが、これに限らない。放送局 1 0から N g r a m文法情報を特定するための情報である N g r a m文法情報特定用キーヮード情報が送られてきて、ドメイン別ルール 3 7 2に記憶されている N g r a m文法情報にも N g r a m文法情報特定用キーワード情報が付加されており、文法選択部は、それらの N g r a m文法情報特定用キーヮードの合致の程度に応じて N g r a m文法情報を特定し、特定した N g r a m文法情報を選択しても構わない。

さらに、本実施の形態では、 N g r a m文法情報を用いて音声認識するとして説明しが、これに限らず、 N g r a m以外の言語モデルを用いて音声認識しても本実施の形態と同様の効果を得ることが出来る。ここで N g r a m以外の言語デルとは、例えば隠れマルコフモデル（h i d d e n Ma r k o v m ο· d e 1 )、確率文脈自由文法（ p r o b a b i l i s t i c c o n t e x t— r r e e g r a mm a r ) どである。 N g r a m以外の言語モデル、たとえば隠れマルコフモデル, において、認識結果に基づいて、認識された単語を出力す'る「状態」から音声認識によって認識された単語が出力される出力確率を增加させる、あるいは確率文脈自由文法において、認識された単語へ展開する「非終端記号」（例えば認識された単語が属するクラスを表す）力認識された単語を「終端記号」として生成する確率を增加させるとしてもよい。

このように、認識重み修正部 3 7 5が、数 4における P (Wi I C を捕正するので、視聴者が発声する表現に適した連続音声がより認識されやすくなる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の発声するときの表現に適するように特定することが出来るようになる。

なお、本実施の形態の放送局 1 0は本発明の第 1装置の例であり、本実施の形態の TV/S TB 3 1 0は本発明の第 2装置の例であり、本実施の形態の放送受信部 3 1 3は本発明の受信手段の例であり、本実施の形態の認識語彙生成部 3 7 1は本発明の言語モデル特定手段の例であり、本実施の形態の語彙重み修正部 3 7 5は本発明の補正手段の例であり、本実施の形態の音声認識部 3 7 7は本発明の音声認識手段の例であり、本実施の形態の音声認識部 3 7 7は本発明の特定手段の例であり、本実施の形態の表示部 3 1 8は本発明の表示手段の例であり、本実施の形態のシーンコードは本発明の I Dの例である。

(実施の形態 4)

次に、本発明の実施の形態 4における双方向放送による買い物支援システムについて説明する。

本発明の実施の形態 4における双方向放送による買い物支援システムの概念構成を示すブロック図は、図 1で、認識語彙記憶部 3 5 1を文法記憶部 3 76に変更し、音声認識部 3 5 2を音声認識部 3 77に変更したものに相当する。従って図 1の説明は実施の形態 1 と重複するので省略する。図 2 1に、双方向放送による買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能プロック図を示す。

TV/S TB 3 1 0は、図 2 1に示すように放送受信部 3 1 3、文法記憶部 3 76、音声認識部 3 7 7、商品データ記憶部 3 1 7、表示部 3 1 8、送信部 3 1 9、クラス化部 3 8 2、認識履歴記憶部 36 3、類義語辞書 3 74、クラス重み修正部 38 1から構成される。

放送受信部 3 1 3、付加情報記憶部 3 1 7、表示部 3 1 8、送信部 3 1 9、リモートコントローラ 320、マイクロホン 3 2 1については第 1の実施の形態と同様であるので、詳細な説明を省略する。また、文法記憶部 3 76、音声認識部 3 7 7、認識履歴記憶部 3 6 3については第 3の実施の形態と同様であるので詳細な説明を省略する。

クラス重み修正部 38 1は、単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書 3 7 4を利用して、 N g r a m文法情報の表現形式における、所定の単語クラスの後ろに所定の単語クラスが出現する頻度を捕正する手段である。

音声認識部 3 7 7は、音声認識された結果認識された単語から類義語辞書 3 7 4を利用して、その単語が含まれるクラスを特定し、認識された単語とその単語が含まれるクラスとを認識履歴記憶部 3 6 3に記憶させる手段である。

次に、このような実施の形態 4の動作を実施の形態 3との相違点を中心に説明する。

まず、図 2 2のフローチヤ一トを用いて動作の概要を説明する。

放送局 1 0からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーワード情報を含む付加情報及び N g r a m文法情報も放送されてくる。放送受信部 3 1 3は、この放送を受信する。

ステップ 4 1 0において、放送受信部 3 1 3は、文法記憶部 3 7 6に放送されてきた N g r a m文法情報を記憶させる。

次に、ステップ 4 1 1において、クラス重み修正部 3 8 1は、 N g r a m文法情報の表現形式における、所定の単語クラスの後ろに所定の単語クラスが出現する頻度を認識履歴記憶部 3 6 3に記憶されている認識履歴情報を用いて補正する。

次に、ステップ 4 1 2において、クラス重み修正部 3 8 1は、捕正した N g r a m文法情報を文法記憶部 3 7 6に記憶させる。

このようにして文法記憶部 3 7 6に記憶された N g r a m文法情報が、実施の形態 3と同様に音声認識部 3 7 7で音声認識のために用いられる。ステップ 4 1 1において、クラス重み修正部 3 8 1が、認識履歴情報を用いて N g r a m文法情報を捕正するので、放送された番組やコマーシャルに登場する対象物を視聴者の興味に適するように音声認識することが出来るようになる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の発声するときの興味に適するように特定することが出来るようになる。以下このことを詳細に説明する。

次に、図 2 3のフローチャートを用いて、実施の形態 4の買い物支援システムの詳細な動作の説明を行う。

図 2 3において、上述したように、放送局 1 0からは、放送されてくる放送内容が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーヮード情報を含む付加情報及び N g r a m文法情報も放送されてくる。

ステップ 4 2 0において、放送受信部 3 1 3は、この放送を受信して、 N g r a m文法情報を文法記憶部 3 7 6に記憶させる。

N g r a m文法情報については実施の'形態 3で説明したので説明を省略する。実施の形態 4では、実施の形態 3とは異なり数 4における P ( C i I C M) を認識履歴記憶部 3 6 3の認識履歴情報を用いて補正する。

図 2 4に、数 4における P ( C i I C i-i) の例を示す。例えば図 2 4で指示語という単語クラスの後ろに衣類というクラスが出現する確率は 0 · 3 0であることがわかる。

次に、ステップ 4 2 1において、放送受信部 3 1 3は付加情報を受信すると付加情報記憶部 3 1 7に記憶させる。ここで、受信した付加情報は実施の形態 3と词様にジャケットの付加情報であるとする。

次に、ステップ 4 2 2、及びステップ 4 2 3において、クラス重み修正部 3 8 1は、 N g r a m文法情報の表現形式における、所定の単語クラスの後ろに所定の単語クラスが出現する頻度を認識履歴記憶部 3 6 3 に記憶されている認識履歴情報を用いて補正する。すなわち、数 4における P ( C i I C i-i) を認識履歴記憶部 3 6 3に記憶されている認識履歴情報を用いて補正する。

図 2 5に、ステップ 4 2 2及ぴステップ 4 2 3の動作を説明するための図を示す。以下図 2 5を用いてステップ 4 2 2及びステップ 4 2 3の動作を具体的に説明する。

まず、ステップ 4 2 2において、上述したように付加情報に含まれるキーヮード情報に'対応するキーヮードはジャケットである。類義語辞書

3 7 4には、ジャケットは単語クラス [衣類] に含まれると定義されているとする。また、認識履歴記憶部 3 6 3には、図 2 5の認識履歴情報

4 5 1に示すような認識履歴情報が記憶されているとする。

この認識履歴情報 4 5 1は、音声認識された単語とその単語が含まれる単語クラスとから構成されている。すなわち、音声認識部 3 7 7が音声認識を行った結果認識した単語を含む単語クラスをクラス化部 3 8 2 が類義語辞書 3 7 4を用いて検出する。そして、クラス化部 3 8 2は、認識された単語とその単語が含まれる単語クラスとを予め認識履歴記憶部 3 6 3に記憶させておく。このように認識履歴情報 4 5 1は、クラス化部 3 8 2により生成されたものである。

クラス重み修正部 3 8 1は、付加情報のキーヮード情報に対応するキ一ワードであるジャケットが含まれる単語クラスである [衣類] を類義語辞書 3 7 4を用いて特定し、さらに、単語クラス [衣類] に属する単語を認識履歴情報 4 5 1から抽出する。認識履歴情報 4 5 1に示すように、単語クラス [衣類] に属する単語としてジャケットが 2回、フクが 2回抽出されている。

次に、ステップ 4 2 3において、単語クラスは、類義語辞書 3 7 4にクラスの集合 4 5 0に示すように n個の単語クラスが定義されているとする。放送受信部 3 1 3が N g r a m文法情報を受信して、文法記憶部 3 7 6に記憶させた際の数 4における P (Ci I Ci-i) は、初期状態 4 5 2のようになっているとする。例えば、単語クラス [指示語] に含まれる単語の後ろに単語クラス [衣類] に含まれる単語が現れる確率が 0. 7であり、単語クラス [指示語]に含まれる単語の後ろに単語クラス [家具] が現れる確率が 0. 3である。

このような場合、クラス重み修正部 3 8 1は、ある単語クラスに含まれる単語の後ろに単語クラス [衣類] に含まれる単語が現れる確率である P ([衣類] I C I) に、単語クラス [衣類] に含まれる単語が認識履歴情報 4 5 1に出現する出現数を想定出現単語総数で割った値を加算する。すなわち、 Ciが付加情報のキーヮード情報に対応するキーヮードを含む単語クラスである場合に、ある単語クラスに含まれる単語の後ろに Ciに含まれる単語が現れる確率に、単語クラス Ciに含まれる単語が認識履歴情報 4 5 1に出現する出現数を想定出現単語総数で割った値を加算する。 '

初期状態 4 5 2の P ([衣類] 1 [指示語]) には、認識履歴情報 4 5 1に単語クラス [衣類] の単語が 4個現れているので、想定単語出現総数を 1 00として 4/1 0 0が加算されていることがわかる。

一方、クラス重み修正部 3 8 1は、単語クラス [衣類] 以外の単語クラスを Cjとした場合、 P (Cj I CM) から、（（修正前の P (Cj I CM)) x (認〉識履歴のなかった単語クラス Cjの P (Cj I Ci-i) の総和）） x ((認識履歴情報 4 5 1中の単語クラス [衣類] に属する単語の出現総数） / (想定出現単語総数））を減算する。すなわち、 Cjが付加情報のキーヮ一ド情報に対応するキーヮードを含む単語クラス以外の単語クラスであり、 Ciが付加情報のキーヮード情報に対応するキーヮードを含む単語クラスである場合に、 P (Cj I Ci-i) から、（（修正前の P (Cj I Ci-i)) ノ認識履歴のなかった単語クラス Cjの P (Cj I CM) の総和））） x (認識履歴情報 4 5 1中の Ciに属する単語の出現総数） / (想定出現単語総数）を減算する。

初期状態 4 5 2の P ([家具] I [指示語]) からは、（ 0. 3 / 0. 3) X (4/ 1 0 0) だけ減算されていることがわかる。このようにすることにより、図 2 5の適応後 4 5 3に示すように数 4における P (Cj I C .が補正される。

次に、ステップ 4 24において、クラス重み修正部 3 8 1は、数 4における P (Ci I Ci» 1) を補正した数 4に示した N g r a m文法情報を付加情報と対応させて文法記憶部 3 7 6に記憶させる。

次に、音声認識の際には、音声認識部 3 7 7は、視聴者が発声した音声を文法記憶部 3 7 6に記憶されている N g r a m文法情報を用いて音尸 Sii、識する。

視聴者が「あのジャケットいいな」と発声した場合には、音声認識部 3 7 7は、文法記憶部 3 7 6に記憶されている補正された N g r a m文法情報を用いて連続音声認識する。その結果「あのジャケットいいな」という文章が認識される。 N g r a m文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。 '

N g r a m文法情報を用いることにより、音声認識部 3 7 7力 S「あの」、「ジャケット」、「いいな」という単語を認識したとする。そうすると、次に音声認識部 3 7 7は、付加情報に含まれるキーワード情報に対応するキーヮードであるジャケットが音声認識された単語であるジャケットと一致するので、ジャケットの付加情報を特定する。そして、特定したジャケットの付加情報を付加情報記憶部 3 1 7に記憶させる。これ以降の付加情報の処理に関する動作は実施の形態 1 と同様であるので説明を省略する。 '

このように、クラス重み修正部 3 8 1が、数 4における P (Ci I Ci 1) を補正するので、視聴者の趣味に適した連続音声がより認識されやすくなる。従って、放送された番組やコマーシャルに登場する対象物に対応付けられた付加情報を視聴者の趣味に適するように特定することが出来るようになる。

なお、本実施の形態においても上記各実施の形態で説明した種々の変形例が適用出来ることは言う間でもない。

なお、本実施の形態では、 N g r a m文法情報が放送局 1 0から.送られてくるとして説明したが、実施の形態 3と同様に N g r a m文法情報をシーンコードなどにより選択するようにすることも出来る。また、逆に実施の形態 3で、 N g r a m文法情報をシーンコードから選択する代わりに、実施の形態 4で説明したように、 N g r a m文法情報が放送局から送られてくるとしても構わない。

さらに、本実施の形態では、 N g r a m文法情報を用いて音声認識を行うとして説明したが、これに限らない。 N g r a m以外の言語モデルを用いても構わない。ここで、 N g r a m以外の言語モデルとは、例えば、隠れマルコフモデル（h i d d e n Ma r k o v mo d e l )、確率文脈自由文法 (p r o b a b i l i s t i c c o n t e x t— f r e e g r a mm a r ) などである。 N g r a m以外の言語モデノレ、たとえば隠れマルコフモデルにおいて、認識結果に基づいて、認識された単語を出力する「状態」を S 1 とすると、 S 1へ遷移するアークを持つ状態 S iそれぞれについて、 S iから S 1への遷移確率を増加させる。あるいは確率文脈自由文法において、認識された単語（終端記号）を展開する「非終端記号」を C 1 とすると、 C 1を含む記号列を展開する生成規則の確率を増加させるものとしてもよい。

なお、本実施の形態の放送局 1 0は本発明の第 1装置の例であり、本実施の形態の T V/S TB 3 1 0は本発明の第 2装置の例であり、.本実施の形態の放送受信部 3 1 3は本発明の受信手段の例であり、本実施の形態のクラス重み修正部 3 8 1は本発明の捕正手段の例であり、本実施の形態の音声認識部 3 77は本発明の音声認識手段の例であり、本実施の形態の音声認識部 3 77は本発明の特定手段の例であり、本実施の形態の表示部 3 1 8は本発明の表示手段の例である。

(実施の形態 5)

次に、本発明の実施の形態 5における買い物支援システムについて説明する。

本発明の実施の形態 5における買い物支援システムの概念構成を示すブロック図は、図 1で、認識語彙記憶部 3 5 1を時間 ·言語モデル情報記憶部 200 5に変更し、音声認識部 3 52を音声認識部 3 77に変更したものに相当する。従って図 1の説明は実施の形態 1 と重複するので省略する。図 2 9に、買い物支援システムの詳細を示す機能ブロック図を示す。 ¹

TV/ S TB 3 1 0は、図 29に示すように放送受信部 3 1 3、制御部 200 1、音響出力部 200 3、画像表示部 2004、時間選択入力手段 20 02、時間 ·言語モデル情報記憶部 200 5、情報選択部 20 06、音声認識部 3 7 7、マイクロホン 32 1、及ぴ送信部 3 1 9から構成される。 ' 放送受信部 3 1 3、送信部 3 1 9、リモートコントローラ 3 20、マイク口ホン 3 2 1については第 1の実施の形態と同様であるので、詳細な説明を省略する。

制御部 200 1は、音響出力部 200 3、画像表示部 2004、情報選択部 2006などを制御する手段である。

音響信号出力部 200 3は、制御部 200 1から出力された音響信号を音響信号出力部 200 3が有するスピーカから音声として出力する手段である。

画像表示部 2 0 0 4は、制御部 2 0 0 1から出力された映像信号を画像表示部 2 0 0 4が有するディスプレイに表示する手段である。

時間選択入力手段 2 0 0 2は、ボタンスィッチを含み、買い物支援システムの使用者が番組視聴中に興味を持ったものがある場合にはその時の時間位置を指定する手段である。

時間 ·言語モデル情報記憶部 2 0 0 5は、時間選択入力手段 2 0 0 2 で指定された時間位置と、その時間位置に対応する言語モデル情報を記憶する手段である。 · 音声認識部 3 7 7は、買い物支援システムの使用者が発声した音声を N g r a m文法情報を用いて音声認識する手段である。

情報選択部 2 0 0 6は、音声認識部 3 7 7が音声認識することにより認識した単語と、付加情報に含まれるキーヮード情報に対応するキーヮードとの合致の程度に応じて付加情報を選択する手段である。なお、情報選択部 2 0 0 6は、第 3の実施の形態の認識語彙生成部 3 7 1、類義語辞書 3 7 4、語彙重み修正部 3 7 5、認識履歴記憶部 3 6 3、付加情報記憶部 3 1 7などの各種の機能を有している。

送信部 3 1 9は、選択された付加情報に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する手段である。

なお、本実施の形態の T V / S T B 3 1 0は、視聴している番組などを記録するハードディスクが内蔵されているものとする。

次に、このような本実施の形態の動作を説明する。

図 3 0に本実施の形態の T V/ S T B 3 1 0の動作を示すフローチヤートを示す。以下、図 3 0に基づいて動作を説明する。

放送局 1 0からは、放送されてくる放送内容である番組内容 2 0 0 7 が放送されるとともに、放送内容に登場する対象物に対応付けられた付加情報であって対象物の特定を行うためのキーヮード情報を含む付加情報である番組付加情報（商品情報） 2 0 0 8及び N g r a m文法情報である番組付加情報（N g r a m文法） 2 0 0 9が放送されてくる。放送受信部 3 1 3は、この放送を受信する。すなわち、第 3の実施の形態とは、異なり本実施の形態では、番組付加情報（N g r a m文法） 2 0 0 9も放送局から放送されてくる。

制御部 2 0 0 1は、放送受信部 3 1 3で受信された番組内容 2 0 0 7 を番組内容 2 0 1 0として音響信号出力部 2 0 0 3及ぴ画像表示部 2 0 0 4に出力するとともに、音響信号出力部 2 0 0 3が番組内容 2 0 1 0 の音声信号をスピーカから出力するよう制御し、また画像表示部 2 0 0 4が番組内容 2 0 1 0の映像信号をディスプレイに表示するよう制御する。また、制御部 2 0 0 1は、番組内容 2 0 0 7、番組付加情報（商品情報） 2 0 0 8、番組付加情報（N g r a m文法） 2 0 0 9など放送されてくる情報を、一旦内蔵のハードディスクに記録するように制御する。今、音響信号出力部 2 0 0 3のスピー力と画像表示部 2 0 0 4のディスプレイとに、例えばドラマの番組が出力されているとする。そして、本実施の形態の買い物支援システムの使用者は、ドラマを視聴しているとする。

そして、視聴者が番組を視聴している最中に、登場人物の洋服や、ドラマのセットとして用いられている家具や本など番組中で興味があるものがディスプレイに映った場合、この使用者は、時間選択入力手段 2 0 0 2を操作して、時間的な付箋を貼り付ける。

すなわち、使用者は、番組視聴中に興味あるものがディスプレイに映つた時に、時間選択入力手段 2 0 0 2が有するポタンスィツチを押す。時間選択入力手段 2 0 0 2は、使用者がポタンスィッチを押すことによって入力した付箋を貼る命令が入力された時点の時刻より 1 0秒前の時刻と付箋を貼る命令が入力された時点の時刻より 1 0秒後の時刻とを時間位置として制御部 2 0 0 1に出力する（ステップ 5 0 1 )。

制御部 2 0 0 1は、時間選択入力手段 2 0 0 2から時間位置を入力されると、その時間位置と、その時間位置に含まれる番組付加情報（N g r a m文法） 2 0 0 9とを対応付けて、時間情報おょぴ時間に対応する N g r a m文法 2 0 1 1 として時間 ·言語モデル情報記憶部 2 0 0 5に格納する（ステップ 5 0 2 )。

次に、使用者が番組の視聴を終了した後、または視聴を中断した後、制御部 2 0 0 1は、時間 ·言語モデル情報記憶部 2 0 0 5に格納されている時間位置おょぴ時間に対応する N g r a m文法 2 O i lを読み出し- その読み出された時間位置に含まれる番組内容の音声信号及び映像信号を内蔵のハードディスクから抽出し、それぞれ音響信号出力部 2 0 0 3 及ぴ画像表示部 2 0 0 4に出力する（ステップ 5 0 3 )。このようにして、時間 ·言語モデル情報記憶部 2 0 0 5に格納されている時間位置に含まれるシーンが、洋服を着たドラマの登場人物が映っているシーンであるとすると、時間位置で指定される時間幅すなわち 2 0秒間分の洋服を着たドラマの登場人物が映っているシーンが再度使用者に提示される。

, また、制御部 2 0 0 1は、読み出した時間位置に対応する N g r a m 文法情報を情報選択部 2 0 0 6に出力する。情報選択部 2 0 0 6は、この N g r a m文法情報を音声認識部 3 7 7に出力する。

また、制御部 2 0 0 1は、読み出した時間位置に含まれる番組付加情報（商品情報） 2 0 0 8を内蔵ノ'、ードディスクから抽出し、情報選択部 2 0 0 6に出力する。

使用者は、再度提示された時間位置で指定されたシーンを見て登場人物が着ている洋服を特定する音声をマイクロホン 3 2 1に入力する（ステツプ 5 0 4 )。例えば、使用者は、「あの、洋服いいな」とマイクロホン 3 2 1に向かって発声する。 ' そうすると、音声認識部 3 7 7は、時間 ·言語モデル情報記憶部 2 0 0 5から読み出されてきた番組付加情報（N g r a m文法） 2 0 0 9である N g r a m文法情報を用いて、「あの、洋服いいな」という音声信号を音声認識する（ステップ 5 0 5 )。

すなわち、使用者が「あの洋服いいな」と発声した場合には、音声認識部 3 7 7は、時間 ·言語モデル情報記憶部 2 0 0 5から読み出され、実施の形態 3のように最適化された N g r a m文法情報を用いて連続音声認識する。なお、 N g r a m文法情報を最適化する方法は実施の形態 3と同様であるので、詳細な説明を省略する。その結果「あの洋服いいな」という文章が認識される。 N g r a m文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。

N g r a m文法情報を用いることにより、音声認識部 3 7 7が「あの」、「洋服」、「いいな」という単語を認識したとする。そうすると、次に音声認識部 3 7 7は、「あの」、「洋服」、「いいな」という単語列を情報選択部 2 0 0 6に出力する。

情報選択部 2 0 0 6は、抽出された付加情報（商品情報） 2 0 1 3に含まれるキーワード情報に対応するキーヮードである洋服が音声認識された単語である洋服と一致するので、洋服の付加情報を特定する。そして、特定した洋服の付加情報を選択された情報 2 0 1 3として送信部 3 1 9に出力する。送信部 3 1 9は、選択された情報 2 0 1 3に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する (ステップ 5 0 6 )。

なお、時間選択入力手段 2 0 0 2がタツチパネルを含むものである場合には、使用者は、番組視聴中に興味あるものがディスプレイに映った時に、タツチパネルの付箋ポタンに触れればよい。また、時間選択入力手段 2 0 0 2がマイクを含むものである場合には、使用者は、番組視聴中に興味あるものがディスプレイに映った時に、「付箋'を貼って」などと発声すればよい。

さらに、本実施の形態では、情報選択部 20 0 6が時間 '言語モデル情報記憶部 2 0 0 5から読み出された N g r a m文法情報が、実施の形態 3と同様の方法により最適化するとして説明したが、これに限らず、実施の形態 4と同様の方法により最適化しても構わない。

さらに、本実施の形態では、時間'言語モデル情報記憶部 2 0 0 5が、時間位置と番組付加情報（N g r a m文法） 2 0 0 9である N g r a m 文法情報とを時間情報および時間に対応する N g r a m文法 2 0 1 1として格納するとして説明したが、これに限らない。時間 '言語モデル情報記憶部 2 0 0 5が、時間位置のみを格納し、 N g r a m文法情報は格納しなくても構わない。なお、この場合には、制御部 2 0 0 1は、ステップ 5 03において、読み出した時間位置に含まれる N g r a m文法情報を内蔵ハードディスクに格納されている番組付加情報（N g r a m文法） 2 00 9から抽出して、情報選択部 2 00 6に出力すればよい。

さらに、本実施の形態では、時間 ·言語モデル情報記憶部 2 0 0 5が、時間位置と番組付加情報（N g r a m文法） 2 0 0 9である N g r a m 文法情報とを時間情報および時間に対応する N g r a m.文法 2 0 1 1 として格納するとして説明したが、これに限らない。時間 '言語モデル情報記憶部 2 00 5が、時間位置と番組付加情報（N g r a m文法） 2 0 0 9である N g r a m文法情報に加え、時間位置に含まれる番組付加情報（商品情報） 2 0 0 8を格納しても構わない。なお、この場合には、制御部 20 0 1は、ステップ 5 0 3において、読み出した時間位置に含まれる付加情報（商品情報） 2 0 0 8を時間 ·言語モデル情報記憶部 2 0 0 5から読み出し、情報選択部 2 00 6に出力すればよい。さらに、本実施の形態では、放送局 1 0から番組付加情報（N g r a m文法） 2 0 0 9が送信されてくるとして説明したが、番組付加情報（N g r a m文法） 2 0 0 9の代わりに実施の形態 1や実施の形態 2で説明した認識語彙セットが放送局 1 0から放送されてきても構わない。なお、この場合には、制御部 2 0 0 1、音声認識部 3 7 7、及び情報選択部 2 0 0 6は、 N g r a m文法情報の代わりに認識語彙セットを扱い、情報選択部 2 0 0 6及び音声認識部 3 7 7の動作は第 1の実施の形態や第 2 の実施の形態と同様に認識語彙セットを用いて、付加情報（商品情報） 2 0 0 8を特定するものとする。

さらに、本実施の形態では、番組付加情報（商品情報） 2 0 0 8の全てを内蔵のハードディスクに記録し、時間選択入力手段 2 0 0 2で指定された時間位置に含まれる番組付加情報（商品情報） 2 0 0 8のみを提示するとして説明したが、これに限らない。時間軸選択入力手段 2 0 0 2で指定された時間位置に含まれる番組付加情報（商品情報） 2 0 0 8 のみを記憶しておき提示しても構わない。

このように本実施の形態によれば、番組視聴中ではなく番組終了後または番組中断後に付加情報（商品情報）を特定する動作を行うので、番組視聴中に使用者の番組の視聴を中断することなく付加情報（商品情報）の特定を行うことが出来る。

(実施の形態 6 )

次に、本発明の実施の形態 6における買い物支援システムについて説明する。

本発明の実施の形態 6における買い物支援システムの概念構成を示すブロック図は、図 1で、認識語彙記憶部 3 5 1を商品情報 ·言語モデル情報記憶部 2 0 1 5に変更し、音声認識部 3 5 2を音声認識部 3 7 7に変更したものに相当する。従って図 1の説明は実施の形態 1 と重複するので省略する。図 3 1に、買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能ブロック図を示す。

T V/S T B 3 1 0は、図 3 1に示すように放送受信部 3 1 3、制御部 200 1、音響出力部 200 3、画像表示部 2004、時間選択入力手段 200 2、商品情報 ·言語モデル情報記憶部 20 1 5、情報選択部 20 1 6、音声認識部 3 77、マイクロホン 32 1、及び送信部 3 1 9 から構成される。

放送受信部 3 1 3、送信部 3 1 9、リモートコントローラ 3 20、マイク口ホン 3 2 1については第 1の実施の形態と同様であるので、詳細な説明を省略する。

制御部 200 1は、音響出力部 200 3、画像表示部 2004、情報選択部 200 6などを制御する手段である。

音響信号出力部 2003は、制御部 200 1から出力された音響信号を音響信号出力部 200 3が有するスピーカから音声として出力する手段である。

画像表示部 2004は、制御部 200 1から出力された映像信号を画像表示部 2004が有するディスプレイに表示する手段である。

時間選択入力手段 2002は、ボタンスィッチを含み、買い物支援システムの使用者が番組視聴中に興味を持ったものがある場合にはその時の時間位置を指定する手段である。

商品情報 ·言語モデル情報記憶部 20 1 5は、時間選択入力手段 20 0 2で指定された時間位置に対応する付加情報として言語モデル情報 (N g r a m文法情報）と商品情報とを記憶する手段である。

音声認識部 3 7 7は、買い物支援システムの使用者が発声した音声を N g r a m文法情報を用いて音声認識する手段である。

情報選択部 20 1 6は、音声認識部 3 7 7が音声認識することにより認識した単語と、付加情報に含まれるキーヮード情報に対応するキーヮードとの合致の程度に応じて付加情報を選択する手段である。なお、情報選択部 2 0 0 6は、第 3の実施の形態の認識語彙生成部 3 7 1、類義語辞書 3 7 4、語彙重み修正部 3 7 5、認識履歴記憶部 3 6 3、付加情報記憶部 3 1 7などの各種の機能を有している。

なお、本実施の形態の T V Z S T B 3 1 0は、実施の形態 5のように視聴している番組などを記録するハードディスクが内蔵されていてもよいが、ハードディスクが内蔵されていなくても構わない。

次に、このような本実施の形態の動作を第 5の実施の形態との相違点を中心に説明する。

図 3 1に本実施の形態の T V Z S T B 3 1 0の動作を示すフローチヤートを示す。以下、図 3 1に基づいて動作を説明する。

制御部 2 0 0 1は、放送受信部 3 1 3で受信された番組内容 2 0 0 7 を番組内容 2 0 1 0として音響信号出力部 2 0 0 3及び画像表示部 2 0 0 4に出力するとともに、音響信号出力部 2 0 0 3が番組内容 2 0 1 0 の音声信号をスピーカから出力するよう制御し、また画像表示部 2 0 0 4が番組内容 2 0 1 0の映像信号をディスプレイに表示するよう制御する。 .

今、音響信号出力部 2 0 0 3のスピーカと画像表示部 2 0 0 4のディ. スプレイとに、例えばドラマの番組が出力されているとする。そして、本実施の形態の買い物支援システムの使用者は、ドラマを視聴しているとする。

ステップ 5 1 1の動作は、第 5の実施の形態のステップ 5 0 1の動作と同様である。

次に、制御部 2 0 0 1は、時間選択入力手段 2 0 0 2から時間位置を入力されると、その時間位置に含まれる番組付加情報（商品情報） 2 0 0 8である商品情報と番組付加情報（N g r a m文法） 2 0 0 9である N g r a m文法情報とを選択された時間に対応する商品情報と N g r a πι文法 2 0 1 7として、商品情報 ·言語モデル情報記憶部 2 0 1 5に格納する（ステップ 5 1 2 )。

次に、使用者が番組の視聴を終了した後、または視聴を中断した後、制御部 2 0 0 1は、商品情報 ·言語モデル情報記憶部 2 0 1 5に格納されている N g r a m文法情報と商品情報とを読み出し、商品情報を一覧表にして画像表示部 2 0 0 4に出力する。画像表示部 2 0 0 4は商品情報の一覧表をディスプレイに表示する。（ステップ 5 1 3 )。図 3 3にこのようにして表示された商品情報の例を示す。すなわち、時間選択入力手段 2 0 0 2が時間位置を指定した範囲に映っていた商品の商品情報が図 3 3のように表示される。このようにして使用者に時間位置を指定した商品情報が提示される。

また、制御部 2 0 0 1は、読み出した N g r a m文法情報と商品情報とを情報選択部 2 0 0 6に出力する。情報選択部 2 0 0 6は、この N g r a m文法情報を音声認識部 3 7 7に出力する。使用者は、図 3 3の商品情報の一覧表を見ながら、洋服を特定する音声をマイクロホン 3 2 1に入力する（ステップ 5 14)。例えば、使用者は、「あの、洋服いいな」とマイクロホン 3 2 1に向かって発声する。なお、ステップ 5 1 4以降の動作は第 5の実施の形態の動作と同様であるので説明を省略する。

なお、第 5の実施の形態で説明した変形例は、第 6の実施の形態でも同様に適用することが出来る。

(実施の形態 7)

次に、本発明の実施の形態 7における買い物支援システムについて説明する。

本発明の実施の形態 7における買い物支援システムの概念構成を示すプロック図は、図 1で、認識語彙記憶部 3 5 1を音声 ·商品情報 ·言語モデル情報記憶部 201 9に変更し、音声認識部 3 5 2を音声認識部 3 7 7に変更したものに相当する。従って図 1の説明は実施の形態 1 と重複するので省略する。図 34に、買い物支援システム（以下買い物支援システムと呼ぶ）の詳細を示す機能プロック図を示す

T V/S TB 3 1 0は、図 34に示すように放送受信部 3 1 3、制御部 20 1 8、音響出力部 200 3、画像表示部 2004、音声 ·商品情報 ·言語モデル情報記憶部 20 1 9、情報選択部 2020、音声認識部 3 7 7、マイクロホン 32 1、及ぴ送信部 3 1 9から構成される。

制御部 2 0 1 8は、音響出力部 2 0 0 3、画像表示部 2 0 0 4、情報選択部 2 0 0 6などを制御する手段である。

音響信号出力部 2 0 0 3は、制御部 2 0 0 1から出力された音響信号を音響信号出力部 2 0 0 3が有するスピーカから音声として出力する手段である。 '

画像表示部 2 0 0 4は、制御部 2 0 1 8から出力された映像信号を画像表示部 2 0 0 4が有するディスプレイに表示する手段である。

音声 ·商品情報 ·言語モデル情報記憶部 2 0 1 9は、番組視聴中に買い物支援システムの使用者がマイクロホン 3 2 1に向かって発声した時点を含む 2 0秒間の間に含まれる付加情報として言語モデル情報（N g r a m文法情報）と商品情報と、使用者が発声した音声を記憶する手段である。

情報選択部 2 0 2 0は、音声認識部 3 7 7が音声認識することにより認識した単語と、付加情報に含まれるキーヮード情報に対応するキーヮードと合致の程度に応じて付加情報を選択する手段である。なお、情報選択部 2 0 2 0は、第 3の実施の形態の認識語彙生成部 3 7 1、類義語辞書 3 7 4、語彙重み修正部 3 7 5、認識履歴記憶部 3 6 3、付加情報記憶部 3 1 7などの各種の機能を有している。

なお、本実施の形態の T V S T B 3 1 0は、実施の形態 5のように視聴している番組などを記録するハードディスクが内蔵されていてもよいが、ハードディスクが内蔵されていなくても構わない。次に、このような本実施の形態の動作を第 5の実施の形態及び第 6の実施の形態との相違点を中心に説明する。

図 3 5に本実施の形態の T V / S T B 3 1 0の動作を示すフローチヤートを示す。以下、図 3 5に基づいて動作を説明する。

制御部 2 0 1 8は、放送受信部 3 1 3で受信された番組内容 2 0 0 7 を番組内容 2 0 1 0として音響信号出力部 2 0 0 3及ぴ画像表示部 2 0 0 4に出力するとともに、音響信号出力部 2 0 0 3が番組内容 2 0 1 0 の音声信号をスピーカから出力するよう制御し、また画像表示部 2 0 0 4が番組内容 2 0 1 0の映像信号をディスプレイに表示するよ,う制御する。

今、音響信号出力部 2 0 0 3のスピーカと画像表示部 2 0 0 4のディスプレイとに、例えばドラマの番組が出力されているとする。そして、本実施の形態の買い物支援システムの使用者は、ドラマを視聴しているとする。

そして、視聴者が番組を視聴している最中に、登場人物の洋服や、ドラマのセットとして用いられている家具や本など番組中で興味があるものがディスプレイに映った場合、この使用者は、マイクロホン 3 2 1に向かって発声する（ステップ 5 2 1 )。次に、制御部 2 0 1 8は、ステップ 5 2 1で入力された入力音声と、その入力音声が入力された時の時間位置を含む 2 0秒間の間に含まれる商品情報と N g r a m文法情報を音声 ·商品情報 ·言語モデル情報記憶部に格納する（ステップ 5 2 2 )。つまり、制御部 2 0 1 8は、入力音声が入力された時点を含む 2 0秒間の間に含まれる番組付加情報（商品情報） 2 0 0 8である商品情報と、番組付加.情報（N g r a m文法） 2 0 0 9'である N g r a m文法情報とを選択された時間に対応する商品情報と N g r a m文法 2 0 1 7として音声 ·商品情報 ·言語モデル情報記憶部 2 0 1 9に格納する。また、制御部 2 0 1 8は、ステップ 5 2 1で入力された入力音声を時間選択時の入力音声 2 0 2 2として音声 ·商品情報 ·言語モデル情報記憶部 2 0 1 9に格納する。

次に制御部 5 2 3は、番組の視聴を中断することなく、音声 ·商品情報 ·言語モデル情報記憶部 2 0 1 9に記憶された時間選択時の入力音声 2 0 2 2を、その入力音声に^応する、音声 ·商品情報 ·言語モデル情報記憶部 2 0 1 9に記憶されている N g r a m文法情報を用いて音声,認識部 3 7 7が音声入力するように制御する。この制御に従って、音声認識部 3 7 7は、音声認識を行う（ステップ 5 2 3 )。そして、情報選択部 2 0 2 0は、商品情報の特定が可能な場合は商品情報の特定を行う。この商品情報の特定の動作は、第 3の実施の形態と同様にして行う。なお、ステップ 5 2 3の動作を行っている場合には、番組の視聴は中断されなレ、。

次に、音声認識部 3 7 7による音声認、識の結果、情報選択部 2 0 2 0 が商品情報を特定出来る場合には、ステップ 5 2 8に進み、商品情報を特定できない場合には、ステップ 5 2 5に進む（ステップ 5 2 4 )。なお、商品情報を特定出来る場合とは、例えば、「あの洋服いいな」など時間選択時の入力音声 2 0 2 2が具体的な商品を示している場合であり、商品情報を特定出来ない場合とは、例えば「あれ、いいな」など時間選択時の入力音声 2 0 2 2が具体的な商品を示していない場合である。

ステップ 5 2 8において、制御部 2 0 1 8は、番組視聴終了後または番組視聴中断後に、特定された商品情報を使用者に提示するよう情報選択部 2 0 2 0、音響出力部 2 0 0 3、画像表示部 2 0 0 4を制御する。この制御に従って、画像表示部 2 0 0 4のディスプレイには、特定された商品情報が表示され、ステップ 5 3 0に進む。

一方、ステップ 5 2 5において、番組視聴終了後または番組視聴中断後に、制御部 2 0 1 8は、時間選択時の入力音声 2 0 2 2が入力された時点を含む 2 0秒間に含まれる商品情報を音声 ·商品情報 ·言語モデル情報記憶部 2 0 1 9から読み出して、商品情報の一覧表として画像表示部 2 0 0 4に出力する。そして、雨像表示部は商品情報の一覧表表示する。図 3 3にこのようにして表示された商品情報の例を示す。すなわち、時間選択時の入力音声 2 0 2 2が入力された時点を含む 2 0秒間に含まれる商品情報が図 3 3のように表示される。このようにして使用者に時間位置を指定した商品情報が提示される。

使用者は、図 3 3の一覧表を見ながら、マイクロホン 3 2 1に向かつて、特定したい商品情報を特定する音声を入力する（ステップ 5 2 6 )。例えば、洋服を特定したい場合には、「あの、洋服いいな」など洋服を特定する音声をマイクロホン 3 2 1に向かって発声する。

次に、音声認識部 3 7 7は、時間選択時の入力音声 2 0 2 2が入力された時点を含む 2 0秒間に含まれる N g r a m文法情報を音声 '商品情報 ·言語モデル情報記憶部 2 0 1 9から読み出し、読み出した N g r a m文法情報を用いて音声認識を行う（ステップ 5 2 7 )。すなわち、使用者が「あの洋服いいな」と発声した場合には、音声認識部 3 7 7は、時間 ·言語モデル情報記憶部 2 0 0 5から読み出され、実施の形態 3のように最適化された N g r a m文法情報を用いて連続音声認識する。なお、 N g r a m文法情報を最適化する方法は実施の形態 3と同様であるので、詳細な説明を省略する。その結果「あの洋服いいな」という文章が認識される。 N g r a m文法情報は、音声認識する際に音声認識された読みの列を単語に区切る際に用いられる。

N g r a m文法情報を用いることにより、音声認識部 3 7 7が「あの」、「洋服」、「いいな」という単語を認識したとする。そうすると、次に音声認識部 3 7 7は、「あの」、「洋服」、「いいな」という単語列を情報選択部 2 0 2 0に出力する。

情報選択部 2 0 0 6は、音声 ·商品情報 ·言語モデル情報記憶部 2 0 1 9に含まれるキーヮード情報に対応するキーヮードである洋服が音声認識された単語である洋服と一致するので、洋服の付加情報を特定する。ステップ 5 3 0において、情報選択部 2 0 2 0は、特定された付加情報を選択された情報 2 0 1 3 として送信部 3 1 9に出力する。送信部 3 1 9は、選択された情報 2 0 1 3に含まれる購入情報を対応する付加情報の識別番号等とあわせて放送局へ送信する（ステップ 5 3 0 )。

なお、第 7の実施の形態では、ステップ 5 2 6において図 3 3の一覧表を見てから音声を入力するとしたが、第 5の実施の形態のように、時間位置で指定されるシーンが再度提示されたのを見て音声入力するとしてもよい。

なお、第 5の実施の形態で説明した変形例は、第 7の実施の形態でも同様に適用することが出来る。

このように本実施の形態によれば、番組視聴中ではなく番組終了後または番組中断後に付加情報（商品情報）を提示したり、特定したりする動作を行うので、番組視聴中に使用者の番組の視聴を中断することなく付加情報（商品情報）の特定を行うことが出来る。なお、本実施の形態では、図 3 5に示すフローチャートに従って動作するとして説明したが、これに限らず、図 3 6に示すフローチャートに従って動作しても構わない。図 3 6に示すフローチャートでは、図 3 5 に示すフローチヤ一トとはステップ 5 2 2の挿入位置が異なっている。すなわち、図 3 5ではステップ 5 24の前にステップ 5 2 2を行っていたのに対して、図 3 6では、ステップ 5 24で音声認識により商品情報が特定できなかった場合にのみステップ 5 2 2が行われている。このように音声認識により商品情報が特定できなかった場合にのみ音声入力のあった時間位置に対応する商品情報と N g r a m文法を格納するとしても本実施の形態と同等の効果を得ることが出来る。

(関連技術 1) '

次に、本発明に関連する技術である関連技術 1について説明する。図 2 6は、本発明の関連技術 1における買い物支援システムのうち、買い物のための番組付加情報を番組作成と同時に自動作成する部分を示す機能ブロック図である。図 2 7に本発明の関連技術 1における買い物支援システムのうち番組付加情報を番組作成と同時に自動作成する動作を示す流れ図を示す。

図 2 6において番組記録装置 1 0 1 0及び付加情報コード発信機 1 0 2 0が示されている。

付加情報コード発信機 1 0 2 0は、番組付加情報のコード番号を電波あるいは赤外線により発信する発信機である。

番組記録装置 1 0 1 0は、マイクロホン 1 0 1 1、カメラ 1 0 1 2、受信部 1 0 1 3、付加情報照合用データベース 1 0 1 4、情報照合部 1 0 1 7、番組付加情報データベース 1 0 1 5、及び番組記憶部 1 0 1 6 を備える。

受信部 1 0 1 3は、付加情報コード発信機 1 0 20の信号を受信する手段である。付加情報照合用データベース 1 0 1 4は、番組付加情報のコード番号と番組付加情報の照合情報とが記録されているデータベースである。情報照合部 1 0 1 7は、付加情報照合用データベース 1 0 1 4 の内容から、カメラおよびマイクロホンから入力した画像および音響信号中に受信部 1 0 1 3で受信した付加情報コードに対応する物あるいは生物あるいは人物が記録されているか否かを判断する手段である。番組付加情報データベース 1 0 1 5は、番組に記録する付加情報を記憶したデータベースである。番組記憶部 1 0 1 6は、画像および音響信号および番組付加情報を同期して記録する手段である。

次に、このような関連技術 1の動作を説明する。

以下、図 2 7を参照して説明する。なお、図 2 7の流れ図に従う動作を行った場合には、物、生物、あるいは人物などの多数の対象物のうち、その対象物が映像中に捉えられている場合のみにその対象物の番組付加情報を放送する放送内容を自動的に作成することが出来るようになる。まず、図 2 7の流れ図に基づいて、動作の概要を説明する。

まず、撮影に先立って付加情報コード発信機 1 0 2 0を対応する付加情報がある物、生物、あるいは人物に取り付ける（ステップ 1 0 3 1 )。撮影はカメラ 1 0 1 2とマイクロホン 1 0 1 1より、画像と音響信号を入力すると同時に受信部 1 0 1 3より付加情報コード発信機が発信した信号を受信する（ステップ 1 0 3 2 )。

次に、情報照合部 1 0 1 7において発信機の信号の有無および受信した信号に付加情報コードが含まれているか否かを判断する（ステップ 1 0 3 3 )。ステップ 1 0 3 3において発信機の信号が無いあるいは受信信号に付加情報コードが含まれていなかった場合は、カメラ 1 0 1 2およぴマイクロホン 1 0 1 1より入力された画像と音響信号のみを記録する (ステップ 1 0 4 0 )。 TJP2003/017015

81 一方、ステップ 1 0 3 3において受信内容に付加情報コードがあった場合は、付加情報照合用データベース 1 0 1 4より付加情報コードに対応した照合情報を抽出し（ステップ 1 0 3 4)、情報照合部 1 0 1 7は力メラ 1 0 1 2およびマイクロホン 1 0 1 1より入力ざれた画像および音響信号中に照合情報に該当するものがあるかどうかを判断する（ステツプ 1 0 3 5 )。

ステップ 1 0 3 5で入力された画像および音響信号中に照合情報に該当するものが無いと判断された場合はカメラ 1 0 1 2およびマイクロホン 1 0 1 1より入力された画像と音響信号のみを記録する（ステップ 1 0 4 0)。

ステップ 1 0 3 5で入力された画像および音響信号中に照合情報に該当するものがあると判断された場合は番組付加情報データベース 1 0 1 5より該当する番組付加情報を抽出し、画像および音響信号に同期して記録する（ステップ 1 0 3 6 )。

図 2 8に、番組やコマーシャルなどの放送内容を製作している撮影現場を示す。撮影現場にはカメラ 1 0 1 2が設置されており、カメラ 1 0 1 2は設置場所を移動することが出来る。例えばカメラ 1 0 1 2は、力メラ 1 0 1 2 aの位置からカメラ 1 0 1 2 bの位置まで自由に移動することが出来る。

また、撮影現場にはそれぞれ異なった固定位置に位置固定発信機 1 0 3 0 a、 1 0 3 0 b , 1 0 3 0 cが設置されている。これらの位置固定発信機 1 0 3 0 a、 1 0 3 0 b、 1 0 3 0 cは、 3次元の固定座標を作る。なお、図 2 8では固定位置に 3台の位置固定発信機 1 0 3 0 a、 1 0 3 0 b、 1 0 3 0 cが設置されているとして説明したが、これに限らず、 3台以上の位置固定発信機を固定位置に設置しても構わない。

カメラ 1 0 1 2は、移動や姿勢変更をすることが出来るが、位置固定発信機 1 0 3 0 a 、 1 0 3 0 b , 1 0 3 0 cそれぞれからの信号を受信することにより、カメラ 1 0 1 2自身の座標上の位置及ぴ姿勢の情報を計算することが出来る。

一方、付加情報コード発信機 1 0 2 0は、位置固定発信機 1 0' 3 0 a 、

1 0 3 0 b , 1 0 3 0 cからの信号を受信することにより、自分の座標上の位置を計算する。そして、付加情報コード発信機 1 0 2 0は、自分の座標上の位置を発信する。

また、カメラ 1 0 1 2は、カメラ 1 0 1 2自身の座標上の位置と姿勢、付加情報コード発信機 1 0 2 0の座標上の位置、カメラ 1 0 1 2の内部情報としての焦点距離と視野角より、付加情報コード発信機 1 0 2 0がそのカメラ 1 0 1 2の撮影範囲内に存在するか否かを判断する。

そして、カメラ 1 0 1 2は、付加情報コード発信機 1 0 2 0がカメラ

1 0 1 2の撮影範囲内の存在すると判断した場合には、その付加情報コード発信機 1 0 2 0から送られてきた付加情報コードを情報照会部 1 0

1 7に出力する。また、カメラ 1 0 1 2は、付加情報コード発信機 1 0

2 0がカメラ 1 0 1 2の撮影範囲内には存在しないと判断した場合には、その付加情報コード発信機 1 0 2 0から送られてきた付加情報コードを情報照会部 1 0 1 7には出力しない。このようにすすることにより情報照会部 1 0 1 7は、付加情報コード 1 0 2 0が送られてきた場合にはその付加情報コード 1 0 2 0に対応する番組付加情報を映像音声と同期させて記録することにより対象物が映像中に捉えられている場合のみにその対象物に対応つけられた番組付加情報を放送する放送内容を自動的に作成することが出来る。

以上のように本関連技術 1における番組付加情報を番組作成と同時に自動作成システムによれば、番組作成後に製作者が全シーンを確認して番組付加情報を番組に付加、記録していく作業が不要となり、番組作成の作業時間の短縮および作業コストの削減が可能となる。

なお、本関連技術 1では、付加情報コード発信機 1 0 2 0は付加情報のコード番号を発信したが、付加情報照合用データを発信し、情報照合部 1 0 1 6は付加情報照合用データベースを利用せず、受信したデータに基づいて画像および音響信号との照合を行うとしても良い。

なお、本関連技術 1では、情報照合部 1 0 1 7は番組付加情報データベースよりコード番号に対応する番組付加情報を抽出して画像および音響信号と同期させて記録するとしたが、番組と付加情報とをリンクするタグ情報を記録するとしても良い。

尚.、本発明のプログラムは、上述した本発明の第 2装置の全部又は一部の手段（又は、装置、素子等）の機能をコンピュータにより実行させるためのプログラムであって、コンピュータと協働して動作するプログラムである。

又、本発明の記録媒体は、上述した本発明の第 2装置の全部又は一部の手段（又は、装置、素子等）の全部又は一部の機能をコンピュータにより実行させるためのプログラムを担持した記録媒体であり、コンビュータにより読み取り可能且つ、読み取られた前記プログラムが前記コンピュータと協動して前記機能を実行する記録媒体である。

尚、本発明の上記「一部の手段（又は、装置、素子等）」とは、それらの複数の手段の內の、一つ又は幾つかの手段を意味し、本発明の上記「一部のステップ（又は、工程、動作、作用等）」とは、それらの複数のステップの Λの、一つ又は幾つかのステップを意味する。

又、本発明の上記「手段（又は、装置、素子等）の機能」とは、前記手段の全部又は一部の機能を意味し、本発明の上記「ステップ（又は、工程、動作、作用等）の動作」とは、前記ステップの全部又は一部の動作を意味する。又、本発明のプログラムの一利用形態は、コンピュータにより読み取り可能な記録媒体に記録され、コンピュータと協働して動作する態様であっても良い。 .

又、本発明のプログラムの一利用形態は、伝送媒体中を伝送し、コンピュータにより読みとられ、コンピュータと協働して動作する態様であつても良レ、。

又、本発明のデータ構造としては、データベース、データフォーマツト、データテーブル、データリスト、データの種類などを含む。

又、記録媒体としては、 R O M等が含まれ、伝送媒体としては、インターネット等の伝送媒体、光 ·電波 ·音波等が含まれる。

又、上述した本発明のコンピュータは、 C P U等の純然たるハードウエアに限らず、ファームウェアや、 O S、更に周辺機器を含むものであつても良い。

尚、以上説明した様に、本発明の構成は、ソフトウエア的に実現しても良いし、ハードゥヱァ的に実現しても良い。産業上の利用可能性

以上説明したところから明らかなように、本発明は、放送された番組やコマーシャルに登場する対象物をより手間がかからずより簡単に入手することが出来る放送受信方法、放送受信システム、第 1装置、第 2装置、記録媒体、及びプログラムを提供することが出来る。

また、本発明は、放送された番組やコマーシャルに登場する対象物を視聴者が発声するときの表現に適するようにして手間がかからず簡単に入手することが出来る放送受信方法、放送受信システム、第 1装置、第 2装置、記録媒体、及ぴプログラムを提供することが出来る。

また、本発明は、放送された番組やコマーシャルに登場する対象物を 17015

85 視聴者の興味に適するようにして手間がかからず簡単に入手することが出来る放送受信方法、放送受信システム、第 1装置、第 2装置、記録媒体、及びプログラムを提供することが出来る。

Claims

請求の範囲

1 . 放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する放送を受信する受信ステップと、

単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記キーヮード情報に対応する単語を含む前記単語クラスに属する単語から構成される認識語彙セットを前記付加情報と対応させて生成する認識語彙セット生成ステップと、

視聴者が発声した音声を音声認識する音声認識ステツプと、その音声認識結果により認識された単語が前記認識語彙セットに含まれる場合、その認識語彙セットに対応する前記キーヮード情報を特定する特定ステップと、

その特定した前記キーワード情報に対応付けられた付加情報を表示する表示ステップとを備えた、放送受信方法。

2 . 放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する放送手段を有する第 1装置と、

前記第 1装置から放送される前記放送を受信する受信手段、及び単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記キーヮード情報に対応する単語を含む前記単語クラスに属する単語から構成される認識語彙セットを前記付加情報と対応させて生成する認識語彙セット生成手段及び、視聴者が発声した音声を音声認識する音声認識手段、及びその音声認識結果により認識された単語が前記認識語彙セットに含まれる場合、その認識語彙セットに対応する前記キーヮード情報を特定する特定手段、及ぴその特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段を有する第 2装置とを備えた、放送受信システム。

3 . 放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する放送手段を備え、前記放送は、前記放送を受信する受信手段、及び単語間の類義性を基準にして、複数の単語が各単語クラスに分類された類義語辞書を利用して、前記キーヮード情報に対応する単語を含む前記単語クラスに属する単語から構成される認識語彙セットを前記付加情報と対応させて生成する認識語彙セット生成手段、及び視聴者が発声した音声を音声認識する音声認識手段、及びその音声認識結果により認識された単語が前記認識語彙セットに含まれる場合、その認識語彙セットに対応する前記キーヮ一ド情報を特定する特定手段、及びその特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段を有する第 2装置によって受信される、第 1装置。

4 . 放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する放送手段を有する第 1装置から放送される前記放送を受信する受信手段と、

視聴者が発声した音声を音声認識する音声認識手段と、

その特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段とを備えた、第 2装置。

5 . 前記類義語辞書の各単語には、予め決められた出現頻度が付加されており、

前記音声認識手段は、前記音声認識の候補として複数の単語が認識された場合、前記出現頻度の高い方の単語を前記音声認識結果で認識された単語として特定する、請求の範囲第 4項記載の第 2装置。

6 . 前記音声認識結果の認識結果に応じて、前記出現頻度を書き替える出現頻度補正手段を備えた、請求の範囲第 5項記載の第 2装置。

7 . 前記音声認識結果の履歴情報に応じて、前記認識語彙セットの各単語に対応する前記出現頻度を書き替える出現頻度補正手段を備え、前記認識語彙セットの各単語には、その単語に対応する前記出現頻度が付加されており、

前記音声認識手段は、前記認識語彙セットの前記出現頻度を用いて前記音声認識を行う、請求の範囲第 5項記載の第 2装置。 .

8 . 表示された前記付加情報に対する所定の操作が行われた場合、そ' の所定の操作に対応する指示を所定の送信先に送信する送信手段を備えた、請求の範囲第 4〜 7項のいずれかに記載の第 2装置。

9 . 前記番組付加情報は商品販売情報及び Zまたはサービス販売情報であり、

前記所定の操作に対応する指示とは、前記商品及ぴまたは前記サービスの資料請求または購入指示情報である、請求の範囲第 8項記載の第 2装置である。

1 0 . 請求の範囲第 4項記載の第 2装置の、放送局から放送されてくる放送内容に登場する対象物に対応付けられた付加情報であって前記対象物を特定するためのキーヮード情報を含む前記付加情報を前記放送内容と同時に放送する放送手段を有する第 1装置から放送される前記放送を受信する受信手段と、

視聴者が発声した音声を音声認識する音声認識手段と、

その音声認識結果により認識された単語が前記認識語彙セットに含まれる場合、その認識語彙セットに対応する前記キーヮード情報を特定する特定手段と、

その特定した前記キーヮード情報に対応付けられた付加情報を表示する表示手段としてコンピュータを機能させるためのプログラム。

1 1 . 請求の範囲第 1 0項記載のプログラムを担持した記録媒体であつて、コンピュータにより処理可能な記録媒体。