JP2005301427A

JP2005301427A - 情報処理装置および情報処理方法、並びにプログラム

Info

Publication number: JP2005301427A
Application number: JP2004113283A
Authority: JP
Inventors: Takushi Okuda; 拓史奥田; Hidetoshi Ichioka; 秀俊市岡; Hitoshi Kimura; 仁史木村; Akisuke Onuma; 顕介大沼
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-04-07
Filing date: 2004-04-07
Publication date: 2005-10-27

Abstract

【課題】辞書の更新を容易に行う。
【解決手段】辞書更新装置１００では、項目内容抽出部１０２が、番組情報データから所定の項目内容を抽出し、登録単語検出部１０３が、その項目内容から辞書９１に登録された登録単語と同一の単語を検出する。前区切り子抽出部１３１は、登録単語検出部１０３により複数の検出単語が検出された場合、その検出単語の直前にある文字のうち、共通性があり、かなカナ漢字数字英字以外の文字である文字を前区切り子として抽出する。同様に、後区切り子抽出部１３２は、後区切り子を抽出する。単語抽出部１０５は、項目内容から、前区切り子と後区切り子に囲まれた単語を抽出し、単語選択部１０６は、その単語のうち、辞書９１に登録されていない未登録単語を辞書９１に登録する。例えば、辞書を内蔵するデジタル放送受信装置に適用することができる。
【選択図】図２

Description

本発明は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、辞書の更新を容易に行うことができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。

近年、テレビジョン放送等において、視聴者であるユーザに対して、いわゆる新聞のラジオ・テレビ欄に相当する、番組の放送スケジュールを示す電子データの番組案内情報であるEPG（Electronic Program Guide）が提供されるサービスが存在する。

そこで、このEPGと内蔵する辞書とを用いてユーザの嗜好を学習し、その嗜好に基づいて、ユーザの好みの番組を抽出する機器が知られている(例えば、特許文献１参照)。

特開２００２−１０１３５９号公報

ところで、機器が内蔵する辞書を、例えば、新たなアイドル、グループ等の名前に対応させるために更新する場合、機器の製造元は、辞書を更新するためのサービスプロバイダを用意する必要がある。例えば、サービスプロバイダは、辞書を更新する更新データを作成し、ユーザ登録を行ったユーザに対して、辞書更新の案内を行う。

しかしながら、サービスプロバイダを、機器の発売後、何年も維持するためには、大きなコストが生じ、機器の製造元にとって大きな負担となる。また、サービスプロバイダは、辞書を更新するために、更新データを作成する必要がある。

一方、ユーザは、ユーザ登録を行い、サービスプロバイダによって行われる辞書更新の案内に応じて、機器を電話回線、ネットワーク等に接続し、ユーザが選択可能なメニューを表すメニュー画面から、辞書更新のメニューを選択する。そして、ユーザは、サービスプロバイダが作成した更新データを、電話回線、ネットワーク等を介して取得し、辞書を更新する。

従って、ユーザは、ユーザ登録を行い、さらに機器を電話回線、ネットワーク等に接続する必要がある。

本発明は、このような状況に鑑みてなされたものであり、辞書の更新を容易に行うことができるようにするものである。

本発明の情報処理装置は、コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出手段と、項目内容抽出手段により抽出された項目内容から、辞書に登録された登録単語と同一の単語を検出する検出手段と、検出手段により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出手段と、検出手段により検出された複数の検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出手段と、項目内容から、前区切り子抽出手段により抽出された前区切り子と、後区切り子抽出手段により抽出された後区切り子とに囲まれた単語を抽出する単語抽出手段と、単語抽出手段により抽出された単語のうち、辞書に登録されていない未登録単語を、新たな登録単語として辞書に登録する辞書登録手段とを備えることを特徴とする。

このかなカナ漢字数字英字以外の文字は、記号である。

かなカナ漢字数字英字以外の文字は、スペース、コンマ、コロン、セミコロン、または括弧である。

辞書登録手段には、未登録単語が、辞書に登録しない単語として予め設定されている除外単語ではない場合、辞書に登録させることができる。

この除外単語は、アナウンサー、アナ、ほか、またはゲストである。

辞書登録手段には、さらに、単語抽出手段により単語が抽出された日付を、単語ごとに記録させ、辞書のデータ量が所定の値以上であるとき、登録単語のうち、日付が最も古い単語を削除させることができる。

辞書登録手段には、さらに、単語抽出手段により単語が所定の期間内に抽出された抽出回数を、単語ごとに記録させ、日付が最も古い単語が複数ある場合、その日付が最も古い複数の単語のうち、抽出回数の少ない単語を削除させることができる。

辞書登録手段には、さらに、単語抽出手段により単語が抽出された抽出回数を、単語ごとに記録させ、辞書のデータ量が所定の値以上であるとき、登録単語のうち、抽出回数が最も少ない単語を削除させることができる。

本発明の情報処理方法は、コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップと、項目内容抽出ステップの処理により抽出された項目内容から、辞書に登録された登録単語と同一の単語を検出する検出ステップと、検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップと、検出ステップの処理により検出された複数の検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップと、項目内容から、前区切り子抽出ステップの処理により抽出された前区切り子と、後区切り子抽出ステップの処理により抽出された後区切り子とに囲まれた単語を抽出する単語抽出ステップと、単語抽出ステップの処理により抽出された単語のうち、辞書に登録されていない未登録単語を、新たな登録単語として辞書に登録する辞書登録ステップとを含むことを特徴とする。

本発明のプログラムは、コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップと、項目内容抽出ステップの処理により抽出された項目内容から、辞書に登録された登録単語と同一の単語を検出する検出ステップと、検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップと、検出ステップの処理により検出された複数の検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップと、項目内容から、前区切り子抽出ステップの処理により抽出された前区切り子と、後区切り子抽出ステップの処理により抽出された後区切り子とに囲まれた単語を抽出する単語抽出ステップと、単語抽出ステップの処理により抽出された単語のうち、辞書に登録されていない未登録単語を、新たな登録単語として辞書に登録する辞書登録ステップとを含むことを特徴とする。

本発明の情報処理装置および情報処理方法、並びにプログラムにおいては、コンテンツのメタデータから所定の項目内容を抽出し、項目内容から、辞書に登録された登録単語と同一の単語を検出する。そして、複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出するとともに、複数の検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する。項目内容から、前区切り子と、後区切り子とに囲まれた単語を抽出し、その単語のうち、辞書に登録されていない未登録単語を、新たな登録単語として辞書に登録する。

本発明によれば、辞書の更新を容易に行うことが可能となる。

以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。

請求項１に記載の情報処理装置は、
所定の単語が登録される辞書(例えば、図１の辞書９１)を有する情報処理装置において、
コンテンツ(例えば、番組)のメタデータ(例えば、番組情報データ)から所定の項目内容(例えば、出演者という項目の内容)を抽出する項目内容抽出手段(例えば、図２の項目内容抽出部１０２)と、
前記項目内容抽出手段により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出手段(例えば、図２の登録単語検出部１０３)と、
前記検出手段により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出手段(例えば、図２の前区切り子抽出部１３１)と、
複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出手段(例えば、図２の後区切り子抽出部１３２)と、
前記項目内容から、前記前区切り子抽出手段により抽出された前記前区切り子と、前記後区切り子抽出手段により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出手段(例えば、図２の単語抽出部１０５)と、
前記単語抽出手段により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録手段(例えば、図２の単語選択部１０６)と
を備えることを特徴とする。

請求項４に記載の情報処理装置は、
前記辞書登録手段は、前記未登録単語が、前記辞書に登録しない単語として予め設定されている除外単語(例えば、図２の除外単語１２１)ではない場合、前記辞書に登録する(例えば、図７のステップＳ２９の処理)
ことを特徴とする。

請求項６に記載の情報処理装置は、
前記辞書登録手段は、さらに、
前記単語抽出手段により単語が抽出された日付を、単語ごとに記録し(例えば、図７のステップＳ２６，Ｓ３０の処理)、
前記辞書のデータ量が所定の値以上であるとき、前記登録単語のうち、前記日付が最も古い単語を削除する(例えば、図７のステップＳ２８の処理)
ことを特徴とする。

請求項９に記載の情報処理方法は、
所定の単語が登録される辞書を有する情報処理装置の情報処理方法において、
コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップ(例えば、図６のステップＳ１２)と、
前記項目内容抽出ステップの処理により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出ステップ(例えば図６のステップＳ１３)と、
前記検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップ(例えば、図６のステップＳ１５)と、
複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップ(例えば、図７のステップＳ２２)と、
前記項目内容から、前記前区切り子抽出ステップの処理により抽出された前記前区切り子と、前記後区切り子抽出ステップの処理により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出ステップ(例えば、図７のステップＳ２３)と、
前記単語抽出ステップの処理により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録ステップ(例えば、図７のステップＳ２９)と
を含むことを特徴とする。

請求項１０に記載のプログラムは、
所定の単語が登録される辞書の更新処理をコンピュータに行わせるプログラムにおいて、
コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップ(例えば、図６のステップＳ１２)と、
前記項目内容抽出ステップの処理により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出ステップ(例えば、図６のステップＳ１３)と、
前記検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップ（例えば、図６のステップＳ１５）と、
複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップ（例えば、図７のステップＳ２２）と、
前記項目内容から、前記前区切り子抽出ステップの処理により抽出された前記前区切り子と、前記後区切り子抽出ステップの処理により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出ステップ(例えば、図７のステップＳ２３)と、
前記単語抽出ステップの処理により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録ステップ(例えば、図７のステップＳ２９)と
を含むことを特徴とする。

以下に、本発明の実施の形態を説明する。

図１は、本発明を適用したデジタル放送受信装置の一実施の形態のハードウェア構成例を示すブロック図である。

図１のデジタル放送受信装置１は、アンテナ４１によりデジタル放送信号を受信し、その受信したデジタル放送信号をデコードして得られる映像信号や音声信号などを、表示装置２７またはスピーカ２８に出力する。これにより、ユーザは、表示装置２７に表示された映像と、スピーカ２８から出力される音声とを視聴することができる。即ち、ユーザは、放送局から放送される各種の番組を視聴することができる。ここで、番組とは、通常のテレビ番組（テレビジョン放送番組）に限らず、音楽、文字放送、プログラム等が放送されるものも含むものとする。

また、デジタル放送信号には、放送される番組のビデオデータとオーディオデータの他に、EPG（Electronic Program Guide:電子番組表）等の番組情報のデータ(メタデータ)（以下、番組情報データという）等も多重され、送信されてくる。なお、番組情報データには、例えば、番組のタイトル、出演者、番組の解説が含まれている。

図１のデジタル放送受信装置１では、チューナ２１、デスクランブラ２２、カードＩ／Ｆ(Interface)２３、DEMUX（デマルチプレクサ）２４、表示装置２７、および操作部２９が、バス１１を介して、ペリフェラルコントローラ（Peripheral Controller）１０に接続されている。また、CPU(Central Processing Unit)２０が、バス１２を介して、ROM(Read Only Memory)３０が、バス１３を介して、HDD（Hard Disk Drive）/RAM（Random Access Memory）/Flash３１が、バス１４を介して、それぞれペリフェラルコントローラ１０に接続されている。さらに、HDD３２が、バス１５を介してペリフェラルコントローラ１０に接続されている。

ペリフェラルコントローラ１１にはまた、必要に応じて、バス１５を介してドライブ３３が接続される。ドライブ３３には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体５１が適宜装着され、それらから読み出されたプログラムが、必要に応じてHDD３２にインストールされる。

デジタル放送受信装置１にインストールされ、デジタル放送受信装置１によって実行可能な状態とされるプログラムを格納するプログラム格納媒体は、磁気ディスク(フロッピディスクを含む)、光ディスク（CD-ROM(Compact Disk-Read Only Memory)、DVD（Digital Versatile Disk）を含む）、光磁気ディスク（MD（Mini-Disk）（登録商標）を含む）、もしくは半導体メモリなどよりなるリムーバブル記録媒体５１、またはプログラムが一時的もしくは永続的に格納されるROM３０や、HDD３２などにより構成される。プログラム格納媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースを介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行うことができる。

デジタル放送受信装置１では、CPU２０が、例えば、EEPROM（Electronically Erasable and Programmable Read Only Memory）などのROM３０にインストールされている録画もしくは再生を行う録画再生プログラム８１、または辞書９１の更新を行う辞書更新プログラム８２を実行することにより、各種の処理を実行する。ここで、辞書９１とは、例えば、後述するユーザの嗜好情報を取得するために、キーワードとして用いられる単語を登録するものである。なお、辞書９１には、人名、グループ名等の単語を登録することができるが、以下では、人名を登録するものとする。

ペリフェラルコントローラ１０は、バス１１乃至１５のいずれか２個を介して送受信されるデータの中継を行う。

CPU２０は、ROM３０に記録されている録画再生プログラム８１または辞書更新プログラム８２を実行することにより、デジタル放送受信装置１の各部を制御する。また、CPU２０は、後述する操作部２９から入力されるユーザの操作に対応する操作信号にしたがって、デジタル放送受信装置１の各部を制御する。

CPU２０は、デジタル放送受信装置１の各部を制御することにより、例えば、放送される番組のビデオデータとオーディオデータを再生させ、HDD３２に記録(録画)させる。また、CPU２０は、デジタル放送受信装置１の各部を制御することにより、例えば、後述するDEMUX２４から供給される番組情報データに基づいて、HDD/RAM/Flash３１に記憶されている辞書９１を更新する。

チューナ２１には、アンテナ４１が接続されている。チューナ２１は、例えば、放送局等より送信されるデジタル放送信号のトランスポートストリームを、アンテナ４１を介して受信し、バス１１を介して、デスクランブラ２２に供給する。なお、チューナ２１では、アンテナ４１からのトランスポートストリームの中から、ユーザの選局に対応するトランスポートストリームのＴＳ(Transport Stream)パケットをデスクランブラ２２に供給することができる。

デスクランブラ２２は、チューナ２１から供給されたＴＳパケットのスクランブルを、後述するカードI/F２３からバス１１を介して供給されるデスクランブル情報に基づいて解除し、バス１１を介してDEMUX２４に供給する。

カードI/F２３は、不図示のＩＣ（Integrated Circuit）カードから、ＴＳパケットに施されているスクランブルを解除するためのデスクランブル情報を読み出し、バス１１を介してデスクランブラ２２に供給する。なお、ＩＣカードは、例えば、Ｂキャスカードであり、放送局によりユーザに対して予め発行されている。

DEMUX２４は、デスクランブラ２２から供給されたＴＳパケットを、ビデオデータ、オーディオデータ、番組情報データに分離し、ビデオデータをビデオデコーダ２５に、オーディオデータをオーディオデコーダ２６に、それぞれ供給する。また、DEMUX２４は、必要に応じて、ビデオデータとオーディオデータを、番組データとして、バス１１、ペリフェラルコントローラ１０、およびバス１５を介して、HDD３２に供給し、記録(録画)させるとともに、番組情報データのうち、HDD３２に記録させた番組データに対応する番組のタイトルをHDD３２に供給し、記録させる。

また、DEMUX２４は、HDD３２に記録されている番組データを再生する場合、HDD３２から読み出され、バス１５、ペリフェラルコントローラ１０、およびバス１１を介して供給される番組データを、ビデオデータとオーディオデータに分離し、ビデオデータをビデオデコーダ２５に、オーディオデータをオーディオデコーダ２６に、それぞれ供給する。さらに、DEMUX２４は、番組情報データを、バス１１、ペリフェラルコントローラ１０、およびバス１２を介してCPU２０に供給する。

ビデオデコーダ２５は、DEMUX２４から供給されるビデオデータをデコードし、NTSC(National Television System Committee)方式等にしたがった映像信号に変換して、表示装置２７に出力し、表示させる。なお、表示装置２７には、その他、CPU２０の制御により、GUI（Graphical User Interface）用の映像信号等が表示される。

オーディオデコーダ２６は、DEMUX２４から供給されるオーディオデータをデコードし、音声信号を得て、スピーカ２８に出力する。スピーカ２８は、オーディオデコーダ２６からの音声信号を出力する。

操作部２９は、例えば、不図示の操作ボタンなどからなる。ここで、表示装置２７には、例えば、HDD３２に、番組データとともに記録されているすべての番組タイトルを表示させることができるが、その場合、例えば、ユーザは、番組タイトルを見ながら、所望の番組タイトルの選択操作などを操作部２９によって行う。操作部２９は、ユーザの操作を受け付けて、その操作に対応する操作信号を、バス１１、ペリフェラルコントローラ１０、およびバス１２を介してCPU２０に供給する。そして、CPU２０は、例えば、その操作信号に基づいて、HDD３２に記録されている番組データのうち、ユーザにより選択された番組タイトルに対応する番組データを、HDD３２から、バス１５、ペリフェラルコントローラ１０、およびバス１１を介してDEMUX２４に供給させることにより、ユーザの所望の番組を再生させる。

ROM３０は、録画再生プログラム８１および辞書更新プログラム８２を記憶している。

HDD/RAM/Flash３１は、例えば、辞書９１を記憶している。ここで、HDD/RAM/Flash３１とは、HDD、RAM、FlashRAM、またはそれらのうちの任意の２以上のものである。この辞書９１に登録されている単語は、例えば、後述する推薦番組の呈示に用いることができる。なお、HDD/RAM/Flash３１には、その他、CPU２０の動作上必要なデータを記憶することができる。

HDD３２には、例えば、DEMUX２４から供給される番組データとその番組データに対応する番組のタイトルが記憶されている。ドライブ３３は、リムーバブル記録媒体５１へのデータの記録を制御するとともに、リムーバブル記録媒体５１からのデータの再生を制御する。

以上のように構成されるデジタル放送受信装置１では、アンテナ４１において放送局から放送される各種の番組のデジタル放送信号が受信され、チューナ２１、デスクランブラ２２、DEMUX２４、およびビデオデコーダ２５を介して、表示装置２７に供給されて映像が表示されるとともに、チューナ２１、デスクランブラ２２、DEMUX２４、およびオーディオデコーダ２６を介してスピーカ２８に供給されて、音声が出力される。

また、デジタル放送受信装置１では、デジタル放送信号に多重されてくる番組情報データが、アンテナ４１、チューナ２１、デスクランブラ２２、およびDEMUX２４を介してCPU２０に供給され、その番組情報データに基づいて、辞書９１が更新される。

図２は、図１のデジタル放送受信装置１（のCPU２０）が辞書更新プログラム８２を実行することによって機能的に実現される辞書更新装置の構成例を示している。

デジタル放送受信装置１に対応する辞書更新装置１００は、番組情報抽出部１０１、項目内容抽出部１０２、登録単語検出部１０３、区切り子抽出部１０４、単語抽出部１０５、単語選択部１０６、現在日時計時部１０７、および記憶部１１１で構成される。

辞書更新装置１００において、番組情報抽出部１０１は、例えば、図１のDEMUX２４に対応する。番組情報抽出部１０１は、デジタル放送信号のＴＳパケットから、番組情報データを抽出し、項目内容抽出部１０２に供給する。

項目内容抽出部１０２は、番組情報抽出部１０１から供給される番組情報データから、所定の項目の内容(以下、項目内容という)を抽出し、登録単語検出部１０３、区切り子抽出部１０４、および単語抽出部１０５に供給する。

登録単語検出部１０３は、後述する記憶部１１１の辞書９１に登録されている登録単語を読み出して認識する。そして、登録単語検出部１０３は、項目内容抽出部１０２から供給される項目内容から、登録単語と同一の単語を検出し、検出単語として区切り子抽出部１０４に供給する。

区切り子抽出部１０４は、前区切り子抽出部１３１と後区切り子抽出部１３２から構成される。前区切り子抽出部１３１は、項目内容抽出部１０２から供給される項目内容において、登録単語検出部１０３から供給される検出単語の直前にある文字のうち、共通性のある文字を抽出する。前区切り子抽出部１３１は、その文字が、例えば、JIS（Japan Industrial Standard）に準拠したかなカナ漢字数字英字以外の文字である場合、その文字を前区切り子として抽出し、単語抽出部１０５に供給する。

後区切り子抽出部１３２は、前区切り子抽出部１３１と同様に、項目内容抽出部１０２から供給される項目内容において、登録単語検出部１０３から供給される検出単語の直後にある文字のうち、共通性があり、かなカナ漢字数字英字以外の文字を後区切り子として抽出し、単語抽出部１０５に供給する。なお、前区切り子抽出部１３１と後区切り子抽出部１３２は、それぞれ前区切り子と後区切り子として、２文字以上の文字を抽出することもできるが、以下の説明では、１文字を抽出するものとする。

単語抽出部１０５は、項目内容抽出部１０２から供給される項目内容から、区切り子抽出部１０４の前区切り子抽出部１３１から供給される前区切り子と、後区切り子抽出部１３２から供給される後区切り子とに囲まれた単語を抽出する。また、単語抽出部１０５は、辞書９１に登録しない単語として記憶されている除外単語１２１を記憶部１１１から読み出し、除外単語１２１に基づいて、前区切り子と後区切り子を用いて抽出した単語(以下、抽出単語という)を選択し、その選択した抽出単語を単語選択部１０６に供給する。

単語選択部１０６は、記憶部１１１から辞書９１に登録されている登録単語を読み出し、単語抽出部１０５から供給される抽出単語から、登録単語と同一ではない単語（辞書９１にまだ登録されていない単語（以下、未登録単語という））を抽出する。そして、単語選択部１０６は、未登録単語と、後述する現在日時計時部１０７から供給される現在日時に基づいて、辞書９１を更新する。

現在日時計時部１０７は、現在の日時を計時し、単語選択部１０６に供給する。

なお、項目内容抽出部１０２、登録単語検出部１０３、区切り子抽出部１０４、単語抽出部１０５、単語選択部１０６、および現在日時計時部１０７は、図１における辞書更新プログラム８２（を実行しているCPU２０）に対応する。

記憶部１１１は、例えば、図１のHDD/RAM/Flash３１に対応する。記憶部１１１は、所定の単語を登録する辞書９１と、辞書９１に登録しない単語として予め設定されている除外単語１２１とを記憶する。なお、辞書９１には、例えば、製造元により、少なくとも２個の単語が予め登録されている。

以上のように構成される辞書更新装置１００では、番組情報抽出部１０１がデジタル放送信号のＴＳパケットから、番組情報データを抽出し、項目内容抽出部１０２が、番組情報データから、所定の項目内容を抽出する。登録単語検出部１０３は、その項目内容から、辞書９１に登録されている登録単語と同一の単語を検出し、区切り子抽出部１０４は、その検出単語の直前と直後にある文字から、前区切り子と後区切り子を抽出する。単語抽出部１０５は、項目内容から、前区切り子と後区切り子に囲まれた単語を抽出し、除外単語１２１に基づいて抽出単語を選択して単語選択部１０６に供給する。そして、単語選択部１０６は、単語抽出部１０５により選択された抽出単語と、現在日時計時部１０７から供給される現在日時とに基づいて、辞書９１を更新する。

辞書更新装置１００では、デジタル放送信号の放送される番組のビデオデータとオーディオデータに多重化されて送信されてくる番組情報データを用いて、辞書９１を更新するので、辞書更新装置１００をネットワーク等に接続せずに、容易に辞書９１を更新することができる。また、辞書更新装置１００を製造する製造元は、辞書９１を更新するためのサービスプロバイダを容易する必要がなく、コストを削減することができる。

図３は、図２の番組情報抽出部１０１が抽出する番組情報データの例を示している。

図３の番組情報データは、「ジャンル」、「題名（タイトル）」、「放送日時」、「放送局名」、「映画の放送された年および配給元」、「放映時間」、「監督」、「撮影者（カメラマン）」、「脚本家」、「音楽担当者」、「出演者」、および「解説」といった項目に分かれている。

項目「ジャンル」には、「映画−邦画」が、項目「題名(タイトル)」には、「東海道三谷怪談」が、項目「放送日時」には、「08/14（水）22:43,08/15（水）00:00」が、項目「放送局名」には、「WOWO」が、項目「映画の放映された年および配給元」には、「1959年（西宝）」が、項目「放映時間」には、「オリジナル７４分」が、それぞれの項目の内容として記述されている。

また、項目「監督」には、「［監督］中川信男」が、項目「脚本家」には、「［脚本］大貫正一石田義寛」が、項目「撮影者（カメラマン）」には、「［撮影］西本正二」が、項目「音楽担当者」には、「［音楽］渡辺宙太」が、項目「出演者」には、「［出演］石○さとみ，岸○五郎，浅○ゆう子，藤○志保，［語り］石○さとみ」が、項目「解説」には、「［解説］‘５９西宝☆様式美たっぷりに有名な“三谷怪談”の世界を描く邦画ホラーの傑作」が、それぞれの項目の内容として記述されている。

図３に示すような番組情報データが番組情報抽出部１０１から供給された場合、図２の項目内容抽出部１０２では、番組情報データの「ジャンル」、「題名」、「放送日時」などの項目の内容のうち、所定の項目の内容を抽出する。例えば、項目内容抽出部１０２は、項目「出演者」の内容である「［出演］石○さとみ，岸○五郎，浅○ゆう子，藤○志保，［語り］石○さとみ」を抽出する。なお、番組情報データの各項目の項目内容の前には、例えば、不図示の項目タグが記述されている。項目内容抽出部１０２は、例えば、抽出対象となる項目の項目タグを検索し、その項目タグから次の項目タグまでに記述された内容を、抽出することにより、抽出対象となる項目の項目内容を抽出する。

図４は、図２の記憶部１１１に記憶される辞書９１の例を示している。

図４の辞書９１には、登録単語として、単語「石○さとみ」、「岸○五郎」、「浅○ゆう子」が登録されている。また、辞書９１には、登録単語「石○さとみ」に対応して、その登録単語と同一の単語が単語抽出部１０５により抽出された日時を表す抽出日時「2003.9.27.15:00」(2003年9月27日15時)が記憶されている。さらに、辞書９１には、登録単語「岸○五郎」に対応して、抽出日時「2004.2.2.10:00」（2004年2月2日10時）が、登録単語「浅○ゆう子」に対応して、抽出日時「19997.3.27.12:00」(19997年3月27日12時)が記憶されている。

図５は、図２の記憶部１１１に記憶される除外単語１２１の例を示している。

図５では、除外単語１２１として、「アナウンサー」、「アナ」、「ほか」、「ナレーション」、「交響楽団」、「弁護士」、「教授」、「大学」、「解説」、「出演」、「通訳」、「監督」、「レギュラー」、「ゲスト」が記憶されている。即ち、例えば、項目内容に人名と同様に記述されるが、人名ではない（辞書９１に登録しない）単語が、除外単語１２１として予め設定され、記憶部１１１に記憶されている。

次に、図６と図７を参照して、図２の辞書更新装置１００が行う辞書更新処理を説明する。この辞書更新処理は、番組情報抽出部１０１にデジタル放送信号のＴＳパケットが供給されたとき、開始される。

ステップＳ１１において、番組情報抽出部１０１は、デジタル放送信号のＴＳパケットから、番組情報データを抽出し、項目内容抽出部１０２に供給して、ステップＳ１２に進む。

ステップＳ１２において、項目内容抽出部１０２は、番組情報抽出部１０１から供給された番組情報データから、「出演者」という項目があるかどうかを判定し、「出演者」という項目がないと判定した場合、処理を終了する。

ステップＳ１２において、「出演者」という項目があると判定された場合、ステップＳ１３に進み、項目内容抽出部１０２は、「出演者」という項目の内容を抽出し、登録単語検出部１０３、区切り子抽出部１０４、および単語抽出部１０５に供給する。そして、登録単語検出部１０３は、その項目の内容から、記憶部１１１の辞書９１に登録されている登録単語と同一の単語を検出する。

例えば、番組情報抽出部１０１が、図３に示した番組情報データを抽出した場合、項目内容抽出部１０２は、「出演者」という項目の内容である「［出演］石○さとみ，岸○五郎，浅○ゆう子，藤○志保，［語り］石○さとみ」を抽出し、登録単語検出部１０３に供給する。登録単語検出部１０３は、記憶部１１１から辞書９１に登録されている登録単語を読み出し、項目の内容である「［出演］石○さとみ，岸○五郎，浅○ゆう子，藤○志保，［語り］石○さとみ」から、登録単語と同一の単語を検出する。

即ち、辞書９１に、図４に示した登録単語が登録されている場合、登録単語検出部１０３では、項目の内容から、登録単語と同一の単語である「[出演]」の直後の「石○さとみ」、「岸○五郎」、「浅○ゆう子」、「[語り]」の直後の「石○さとみ」が検出される。

ステップＳ１３の処理後は、ステップＳ１４に進み、登録単語検出部１０３は、ステップＳ１３で検出した単語（以下、検出単語という）が２個以上あるかどうかを判定し、２個以上ではない（１個である）と判定した場合、処理を終了する。

また、ステップＳ１４において、ステップＳ１３で検出した検出単語が２個以上であると判定された場合、ステップＳ１５に進み、登録単語検出部１０３は、その検出単語すべてを区切り子抽出部１０４に供給する。そして、区切り子抽出部１０４の前区切り子抽出部１３１は、ステップＳ１３で項目内容抽出部１０２から供給された項目内容から、検出単語の直前にある文字すべてを抽出する。

例えば、項目内容抽出部１０２から供給された項目内容が、図３で説明した「［出演］石○さとみ，岸○五郎，浅○ゆう子，藤○志保，［語り］石○さとみ」であり、登録単語検出部１０３から供給された検出単語が「[出演]」の直後の「石○さとみ」、「岸○五郎」、「浅○ゆう子」、「[語り]」の直後の「石○さとみ」である場合、「［出演］」の直後の検出単語「石○さとみ」の直前の文字である「］」（大括弧）、検出単語「岸○五郎」の直前の文字である「，」（コンマ）、検出単語「浅○ゆう子」の直前の文字である「，」（コンマ）、「[語り]」の直後の検出単語「石○さとみ」の直前の文字である「]」(大括弧)が抽出される。

ステップＳ１５の処理後は、ステップＳ１６に進み、前区切り子抽出部１３１は、ステップＳ１５で抽出した検出単語の直前にある文字（以下、前抽出文字という）に、同一の前抽出文字が２個以上あるかどうかを判定し、２個以上はないと判定した場合、処理を終了する。即ち、前区切り子抽出部１３１は、ステップＳ１５で抽出した前抽出文字のうち、同一の前抽出文字が２個以上はない文字を削除する。

ステップＳ１６において、ステップＳ１５で抽出した前抽出文字に同一の前抽出文字が２個以上あると判定された場合、その前抽出文字には共通性があるので、ステップＳ１７に進み、前区切り子抽出部１３１は、その前抽出文字が、かなカナ漢字数字英字以外であるかどうかを判定する。

例えば、前抽出文字として、「］」（大括弧）、「，」（コンマ）、「，」（コンマ）、「]」(大括弧)がそれぞれ抽出された場合、「］」(大括弧)と「，」(コンマ)は、それぞれ２個ずつあるので、「]」（大括弧）と「，」（コンマ）がかなカナ漢字数字英字以外であるかどうかを判定する。

ステップＳ１７において、前抽出文字が、かなカナ漢字数字英字以外ではない（かなカナ漢字数字英字のいずれかである）と判定された場合、前区切り子抽出部１３１は、処理を終了する。即ち、前区切り子抽出部１３１は、前抽出文字のうち、かなカナ漢字数字英字のいずれかである文字を削除する。

一方、ステップＳ１７において、前抽出文字が、かなカナ漢字数字英字以外であると判定された場合、前区切り子抽出部１３１は、ステップＳ１８に進み、その前抽出文字を、単語の直前を区切る記号である前区切り子に決定し、単語抽出部１０５に供給する。

例えば、前抽出文字として、「］」（大括弧）、「，」（コンマ）、「，」（コンマ）、「]」(大括弧)がそれぞれ抽出された場合、「]」(大括弧)と「，」(コンマ)は、それぞれ２個ずつあり、かなカナ漢字数字英字以外であるので、「］」（大括弧）と「，」（コンマ）が前区切り子に決定され、単語抽出部１０５に供給される。

ステップＳ１６乃至Ｓ１８では、前抽出文字に共通性があり、その前抽出文字が、かなカナ漢字数字英字以外である場合、その前抽出文字を前区切り子に決定するので、確実に前区切り子を抽出することができる。

即ち、番組情報データの項目内容は、ある規則にしたがって、放送局により記述されることが多く、単語を区切る記号は共通である可能性が高い。また、単語を区切る記号は、一般的には、スペース、コンマ、コロン、セミコロン、括弧等の記号である。従って、前抽出文字に共通性があり、前抽出文字が、かなカナ漢字数字英字以外である場合、前抽出文字を前区切り子にすることにより、確実に前区切り子を抽出することができる。

ステップＳ１８の処理後は、図７のステップＳ１９に進み、区切り子抽出部１０４の後区切り子抽出部１３２は、前区切り子抽出部１３１と同様に、ステップＳ１３で項目内容抽出部１０２から供給された項目内容から、ステップＳ１５で登録単語検出部１０３から供給された検出単語の直後にある文字を抽出する。

例えば、項目内容抽出部１０２から供給された項目内容が、図３で説明した「［出演］石○さとみ，岸○五郎，浅○ゆう子，藤○志保，［語り］石○さとみ」であり、登録単語検出部１０３から供給された検出単語が「[出演］」の直後の「石○さとみ」、「岸○五郎」、「浅○ゆう子」、「[語り]」の直後の「石○さとみ」である場合、「[出演]」の直後の検出単語「石○さとみ」の直後の文字である「，」（コンマ）、検出単語「岸○五郎」の直後の文字である「，」（コンマ）、検出単語「浅○ゆう子」の直後の文字である「，」（コンマ）、「[語り]」の直後の検出単語「石○さとみ」の直後の文字である「（改行）」が抽出される。

ステップＳ１９の処理後は、ステップＳ２０に進み、後区切り子抽出部１３１は、前区切り子抽出部１３１と同様に、ステップＳ１９で抽出した検出単語の直後にある文字（以下、後抽出文字という）に、同一の後抽出文字が２個以上あるかどうかを判定し、２個以上はないと判定した場合、処理を終了する。

ステップＳ２０において、後抽出文字に同一の後抽出文字が２個以上あると判定された場合、その後抽出文字には共通性があるので、ステップＳ２１に進み、後区切り子抽出部１３２は、前区切り子抽出部１３１と同様に、その後抽出文字が、かなカナ漢字数字英字以外であるかどうかを判定する。

例えば、後抽出文字として、「，」（コンマ）、「，」（コンマ）、「，」（コンマ）、「(改行)」がそれぞれ抽出された場合、「，」(コンマ)は、３個あるので、「，」（コンマ）がかなカナ漢字数字英字以外であるかどうかを判定する。なお、「(改行)」は１個であるので、「（改行）」は後抽出文字から削除され、以降の処理は行われない。

ステップＳ２１において、後抽出文字が、かなカナ漢字数字英字以外ではない（かなカナ漢字数字英字のいずれかである）と判定された場合、後区切り子抽出部１３２は、前区切り子抽出部１３１と同様に、処理を終了する。

一方、ステップＳ２１において、後抽出文字が、かなカナ漢字数字英字以外であると判定された場合、後区切り子抽出部１３２は、ステップＳ２２に進み、前区切り子抽出部１３１と同様に、その後抽出文字を、単語の直後を区切る記号である後区切り子に決定し、単語抽出部１０５に供給する。

例えば、後抽出文字として、「，」（コンマ）、「，」（コンマ）、「，」（コンマ）、「（改行）」がそれぞれ抽出された場合、「，」(コンマ)は、３個あり、かなカナ漢字数字英字以外であるので、「，」（コンマ）が後区切り子に決定され、単語抽出部１０５に供給される。

ステップＳ２０乃至Ｓ２２では、後抽出文字に共通性があり、その後抽出文字がかなカナ漢字数字英字以外である場合、その後抽出文字を区切り子に決定するので、ステップＳ１６乃至Ｓ１８と同様に、確実に後区切り子を抽出することができる。

ステップＳ２２の処理後は、ステップＳ２３に進み、単語抽出部１０５は、ステップＳ１３で項目内容抽出部１０２から供給された項目内容から、ステップＳ１８で前区切り子抽出部１３１から供給された前区切り子と、ステップＳ２２で後区切り子抽出部１３２から供給された後区切り子とで挟まれる単語を抽出する。

例えば、項目内容が「［出演］石○さとみ，岸○五郎，浅○ゆう子，藤○志保，［語り］石○さとみ」であり、前区切り子が「］」（大括弧）と「，」（コンマ）、後区切り子が「，」（コンマ）であるとき、単語抽出部１０５は、前区切り子である「］」（大括弧）と後区切り子である「，」（コンマ）とで挟まれる「[出演]」の直後の単語「石○さとみ」、および前区切り子である「，」（コンマ）と後区切り子である「，」（コンマ）で挟まれる単語「岸○五郎」、「浅○ゆう子」、並びに「藤○志保」を抽出する。

ステップＳ２３の処理後は、ステップＳ２４に進み、単語抽出部１０５は、ステップＳ２３で抽出された抽出単語が記憶部１１１に記憶されている除外単語１２１であるかどうかを判定し、抽出単語は除外単語１２１であると判定した場合、処理を終了する。即ち、単語抽出部１０５は、抽出単語のうち、除外単語を削除する。

一方、ステップＳ２４において、抽出単語は除外単語１２１ではないと判定された場合、ステップＳ２５に進み、単語抽出部１０５は、その抽出単語を単語選択部１０６に供給する。そして、単語選択部１０６は、その抽出単語が登録単語と同一の単語であるかどうかを判定する。

例えば、図５に示した除外単語１２１が記憶部１１１に記憶されている場合、抽出単語が「石○さとみ」、「岸○五郎」、「浅○ゆう子」、「藤○志保」であるとき、抽出単語である「石○さとみ」、「岸○五郎」、「浅○ゆう子」、「藤○志保」は除外単語１２１ではないので、その抽出単語を単語選択部１０６に供給する。そして、例えば、辞書９１に、図４に示した登録単語が登録されている場合、単語選択部１０６は、抽出単語のうち「石○さとみ」、「岸○五郎」、「浅○ゆう子」は、辞書９１に登録されている登録単語と同一の単語であると判定する。

ステップＳ２５において、抽出単語が登録単語と同一の単語であると判定された場合、ステップＳ２６に進み、単語選択部１０６は、現在日時計時部１０７が計時する現在日時に基づいて、辞書９１における抽出単語と同一の登録単語に対応して記憶されている単語を抽出した日時を表す抽出日時を、現在日時に更新する。そして、単語選択部１０６は、処理を終了する。

例えば、図４に示した辞書９１が記憶部１１１に記憶されており、抽出単語が「石○さとみ」である場合、現在日時が2004年2月27日19時38分であるとき、抽出単語「石○さとみ」と同一の登録単語「石○さとみ」に対応して記憶されている抽出日時である「2003.9.27.15:00」（2003年9月27日15時00分）を、現在日時「2004.2.27.19:38」（2004年2月27日19時38分）に更新する。

ステップＳ２５において、抽出単語が登録単語と同一ではないと判定された場合、ステップＳ２７に進み、単語選択部１０６は、辞書９１のデータ量が所定の値以上であるかどうかを判定し、所定の値以上であると判定した場合、ステップＳ２８に進み、単語選択部１０６は、辞書９１に登録されている登録単語のうち、抽出日時が最も古い登録単語を削除する。なお、所定の値とは、例えば、記憶部１１１の記憶領域のうち、辞書９１のために予め用意された記憶領域の記憶容量から、１つの単語の登録に要するデータ量を減算した値である。

例えば、図４に示した辞書９１が記憶部１１１に記憶されている場合、辞書９１のデータ量が所定の値以上であるとき、単語選択部１０６は、抽出日時が最も古い「1997.3.27.12:00」である登録単語の「浅○ゆう子」を、辞書９１から削除する。

ステップＳ２７で辞書９１のデータ量が所定の値以上ではないと判定された場合、またはステップＳ２８の処理後は、ステップＳ２９に進み、単語選択部１０６は、単語抽出部１０５から供給された抽出単語のうち、登録単語と同一ではない単語を辞書９１に登録する。

例えば、辞書９１に、図４に示した登録単語が記憶されており、抽出単語が「藤○志保」である場合、抽出単語である「藤○志保」と同一の登録単語は辞書９１に登録されていないので、辞書９１に登録する。

ステップＳ２９の処理後は、ステップＳ３０に進み、単語選択部１０６は、ステップ２９で辞書９１に登録した抽出単語に対応付けて、現在日時計時部１０７が計時する現在日時を、抽出日時として記録し、処理を終了する。

以上のように、図６と図７の辞書更新処理は、番組情報抽出部１０１にデジタル放送信号のＴＳパケットが供給される毎に行われるので、辞書９１を常に更新することができる。

次に、図８乃至図２４を参照して、辞書更新装置１００の辞書更新処理による辞書９１の更新について、さらに説明する。

図８は、図２の項目内容抽出部１０２が抽出する「出演者」という項目の内容の例を示している。

図８では、項目内容抽出部１０２により、「［出演］（管弦楽）東○フィルハーモニー交響楽団，（指揮）円○寺雅彦」という項目内容が抽出されている。

この場合、例えば、図４に示された辞書９１が記憶部１１１に記憶されているとき、辞書９１に登録されている登録単語と同一の単語「石○さとみ」「岸○五朗」「浅○ゆう子」が項目内容に含まれていないので、図６のステップＳ１３において、登録単語検出部１０３では、登録単語と同一の単語が検出されない（０個の検出単語が検出される）。そして、ステップＳ１４において、登録単語検出部１０３は、登録単語が２個以上はないと判定し、処理を終了する。

即ち、項目内容から、人名である登録単語が１つも検出されない場合、その項目内容に含まれている単語は、人名ではないとして、その項目内容に含まれている単語は、辞書９１に登録されない。これにより、辞書９１に人名ではない単語が登録されることを防止することができる。

図９は、図２の項目内容抽出部１０２が抽出する「出演者」という項目の内容の他の例を示している。また、図１０は、図２の記憶部１１１に記憶される辞書９１の他の例を示している。

図９に示す項目内容が抽出され、図１０に示す辞書９１が記憶部１１１に記憶されているとき、辞書９１に登録されている登録単語と同一の「富○和子」、「小○昌俊」、「矢○栄子」、「野○勝枝」、「名○伸一」、「田○和成」、「並○一夫」、「宮○悠」、「宮○剛」、「宮○洋子」、「嶋○綾子」、「青○公美」の１２個の単語が、項目内容に含まれているので、図６のステップＳ１３において、登録単語検出部１０３は、それらの１２個の単語を検出する。そして、ステップＳ１４において、登録単語検出部１０３は、ステップＳ１３で検出した検出単語が２個以上であると判定し、ステップＳ１５に進む。

ステップＳ１５乃至Ｓ１８において、検出単語「小○昌俊」、「矢○栄子」、「野○勝枝」、「名○伸一」、「田○和成」、「並○一夫」、「宮○悠」、「宮○剛」、「宮○洋子」、「嶋○綾子」、「青○公美」の直前にある文字である「，」（コンマ）が前区切り子に決定される。なお、検出単語「富○和子」の直前にある文字である「］」（大括弧）は、他の検出単語の直前にはないので、前区切り子には決定されない。

その後、ステップＳ１９乃至Ｓ２２において、検出単語「富○和子」、「小○昌俊」、「矢○栄子」、「野○勝枝」、「名○伸一」、「田○和成」、「並○一夫」、「宮○悠」、「宮○剛」、「宮○洋子」、「嶋○綾子」、「青○公美」の直後にある文字である「，」（コンマ）が後区切り子に決定される。

そして、ステップＳ２３において、前区切り子「，（コンマ）」と後区切り子「，（コンマ）」に挟まれる単語である「小○昌俊」、「矢○栄子」、「宮○敏子」、「野○勝枝」、「名○伸一」、「田○和成」、「並○一夫」、「宮○悠」、「宮○剛」、「宮○洋子」、「大○裕美子」、「嶋○綾子」、「青○公美」が抽出され、例えば、図５に示した除外単語１２１が記憶部１１１に記憶されている場合、ステップＳ２４において、抽出単語は、すべて除外単語ではないとされる。

ステップＳ２５乃至ステップＳ３０において、抽出単語のうち、登録単語と同一の単語である単語「小○昌俊」、「矢○栄子」、「野○勝枝」、「名○伸一」、「田○和成」、「並○一夫」、「宮○悠」、「宮○剛」、「宮○洋子」、「嶋○綾子」、「青○公美」については、それぞれの単語と同一の登録単語に対応する抽出日時が現在日時に更新され、登録単語と同一の単語ではない単語「宮○敏子」、「大○裕美子」については、それぞれの単語が辞書９１に登録される。このとき、単語「宮○敏子」と「大○裕美子」のそれぞれに対応付けて、現在日時が抽出日時として記憶される。なお、単語「宮○敏子」または「大○裕美子」が登録される前の辞書９１のデータ量が所定の値以上である場合、登録単語に対応付けて記憶されている抽出日時が最も古い登録単語から順に、辞書９１から削除され、単語「宮○敏子」、「大○裕美子」が登録される。

図９に示したように、「出演者」の項目の内容として、複数の人名（例えば、「富○和子」）が、１個の人名ずつコンマで区切られて記述されている場合、図２の辞書更新装置１００は、前区切り子「，（コンマ）」と後区切り子「，（コンマ）」を抽出し、その前区切り子と後区切り子に挟まれる人名を辞書９１に登録することができる。

即ち、項目内容は、放送局によりある規則にしたがって記述されることが多い。従って、辞書更新装置１００は、項目内容から、既に辞書９１に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子と後区切り子として抽出することにより、その前区切り子と後区切り子に挟まれている単語が人名であると認識することができる。換言すれば、辞書更新装置１００は、「人名，」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置１００は前区切り子「，」（コンマ）と後区切り子「，」（コンマ）に挟まれる単語を辞書９１に登録することにより、人名を辞書９１に登録することができる。

図１１は、図２の項目内容抽出部１０２が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図１２は、図２の記憶部１１１に記憶される辞書９１のさらに他の例を示している。

図１１に示すような項目内容が抽出され、図１２に示すような辞書９１が記憶部１１１に記憶されているとき、辞書９１に登録されている登録単語と同一の「久○夕子」、「植○喜八郎」、「隠○めぐみ」の３個の単語が項目内容に含まれているので、図６のステップＳ１３において、登録単語検出部１０３は、それらの３個の単語を検出する。

ステップＳ１５乃至Ｓ１８において、検出単語「久○夕子」、「植○喜八郎」、「隠○めぐみ」の直前にある文字である「」（スペース）が前区切り子に決定される。また、ステップＳ１９乃至Ｓ２２において、検出単語「久○夕子」、「植○喜八郎」、「隠○めぐみ」の直後にある文字である「（」（小括弧）が後区切り子に決定される。

そして、ステップＳ２３において、前区切り子「（スペース）」と後区切り子「（（小括弧）」に挟まれる単語である「曳○伸之」、「渡○真実」、「久○夕子」、「植○喜八郎」、「佐○美由紀」、「隠○めぐみ」、「佐○ユリ」が抽出され、例えば、図５に示した除外単語１２１が記憶部１１１に記憶されている場合、ステップＳ２４において、抽出単語は、すべて除外単語ではないとされる。

ステップＳ２５乃至ステップＳ３０において、抽出単語のうち、登録単語と同一の単語である「久○夕子」、「植○喜八郎」、「隠○めぐみ」については、それぞれの単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語である「曳○伸之」、「渡○真実」、「佐○美由紀」、「佐○ユリ」については、それぞれの単語が辞書９１に登録される。このとき、単語「曳○伸之」、「渡○真実」、「佐○美由紀」、「佐○ユリ」に対応付けて現在日時が抽出日時として記憶される。なお、図９および図１０と同様に、新たな単語が登録される前の辞書９１のデータ量が所定の値以上である場合、登録単語に対応付けて記憶されている抽出日時が最も古い登録単語から順に辞書９１から削除され、新たな単語が登録される。

図１１に示したように、「出演者」の項目の内容として、人名の後に、役名（例えば、「ロンパパ/宇宙人・父」）が括弧書きで記述され、その役名と次の人名との間にスペースが挟まれている場合においても、図２の辞書更新装置１００は、既に辞書９１に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「」（スペース）と後区切り子「（」（小括弧）として抽出することにより、「（スペース）人名（人名以外のもの）」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置１００は前区切り子「」（スペース）と後区切り子「（」（小括弧）に挟まれる単語を辞書９１に登録することにより、役名等の人名以外のものを辞書９１に登録しないようにすることができる。

図１３は、図２の項目内容抽出部１０２が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図１４は、図２の記憶部１１１に記憶される辞書９１のさらに他の例を示している。

図１３に示すような項目内容が抽出され、図１４に示すような辞書９１が記憶部１１１に記憶されているとき、辞書９１に登録されている登録単語と同一の「大○内奈々子」、「小○真珠」、「川○麻衣子」、「神○悟志」、「北○佐和子」、「西○和彦」の６個の単語が項目内容に含まれているので、図６のステップＳ１３において、登録単語検出部１０３は、それらの６個の単語を検出する。

ステップＳ１５乃至Ｓ１８において、検出単語「大○内奈々子」、「小○真珠」、「川○麻衣子」、「神○悟志」、「北○佐和子」、「西○和彦」の直前にある文字である「（スペース）」が前区切り子に決定される。また、ステップＳ１９乃至Ｓ２２において、検出単語「大○内奈々子」、「小○真珠」、「川○麻衣子」、「神○悟志」、「北○佐和子」、「西○和彦」の直後にある文字である「」（スペース）が後区切り子に決定される。

そして、ステップＳ２３において、前区切り子「」（スペース）と後区切り子「」（スペース）に挟まれる単語である「大○内奈々子」、「小○真珠」、「川○麻衣子」、「神○悟志」、「北○佐和子」、「西○和彦」、「ほか」が抽出され、例えば、図５に示した除外単語１２１が記憶部１１１に記憶されている場合、ステップＳ２４において、「ほか」のみが除外単語１２１であるとされ、辞書９１に登録されない。

即ち、人名と同様に記述されるが、人名ではない単語は、除外単語１２１として予め記憶部１１１に記憶されているので、辞書更新装置１００では、抽出単語が除外単語１２１であるかどうかを判定し、除外単語１２１であると判定した場合、その抽出単語を辞書９１に登録しないことにより、辞書９１に人名以外の単語が登録されることを防止することができる。

ステップＳ２５乃至Ｓ３０において、「ほか」以外の抽出単語は、すべて登録単語と同一の単語であるので、それらの単語に対応する抽出日時が現在日時に更新されるが、辞書９１には、新たな単語は登録されない。

図１５は、図２の項目内容抽出部１０２が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図１６は、図２の記憶部１１１に記憶される辞書９１のさらに他の例を示している。

図１５に示すような項目内容が抽出され、図１６に示すような辞書９１が記憶部１１１に記憶されているとき、辞書９１に登録されている登録単語と同一の「福○謙二」、「野○卓」、「政○マヤ」、「深○里奈」、「安○幸代」の５個の単語が項目内容に含まれているので、図６のステップＳ１３において、登録単語検出部１０３は、それらの５個の登録単語を検出する。

ステップＳ１５乃至Ｓ１８において、検出単語「福○謙二」、「野○卓」、「政○マヤ」、「深○里奈」、「安○幸代」の直前にある文字である「）」（小括弧）が前区切り子に決定される。また、ステップＳ１９乃至Ｓ２２において、検出単語「福○謙二」、「安○幸代」の直後にある文字である「（改行）」と、検出単語「野○卓」、「政○マヤ」、「深○里奈」の直後にある「」（スペース）が後区切り子に決定される。

そして、ステップＳ２３において、前区切り子「）」（小括弧）と後区切り子「（改行）」に挟まれる単語である「福○謙二」、「渡○卓哉」、「安○幸代」、並びに前区切り子「）」（小括弧）と後区切り子「」（スペース）に挟まれる単語である「野○卓」、「政○マヤ」、「深○里奈」が抽出され、例えば、図５に示した除外単語１２１が記憶部１１１に記憶されている場合、ステップＳ２４において、抽出単語は、すべて除外単語ではないとされる。

ステップＳ２５乃至ステップＳ３０において、抽出単語のうち、登録単語と同一の単語である「福○謙二」、「野○卓」、「政○マヤ」、「深○里奈」、「安○幸代」については、それぞれの単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語「渡○卓哉」については、その単語が辞書９１に登録される。このとき、単語「渡○卓哉」に対応付けて現在日時が抽出日時として記憶される。

図１５に示したように、「出演者」の項目の内容として、人名の後に、出演者の担当する曜日（例えば、「月〜金」）が括弧書きで記述されている場合においても、図１１と同様に、図２の辞書更新装置１００は、既に辞書９１に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「）」（小括弧）と、後区切り子「（改行）」または「」（スペース）として抽出することにより、「（人名以外のもの）人名（スペースまたは改行）」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置１００は前区切り子「）」（小括弧）と、後区切り子「（改行）」または「」（スペース）に挟まれる単語を辞書９１に登録することにより、出演者の担当する曜日等の人名以外のものを辞書９１に登録しないようにすることができる。

図１７は、図２の項目内容抽出部１０２が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図１８は、図２の記憶部１１１に記憶される辞書９１のさらに他の例を示している。

図１７に示すような項目内容が抽出され、図１８に示すような辞書９１が記憶部１１１に記憶されているとき、辞書９１に登録されている登録単語と同一の「鳥○浩輔」、「石○堅」、「高○正也」、「松○鷹志」、「荒○香恵」、「子○武人」、「松○吉郎」、「吉○裕行」、「鈴○健一」の９個の単語が項目内容に含まれているので、図６のステップＳ１３において、登録単語検出部１０３は、それらの９個の単語を検出する。

ステップＳ１５乃至Ｓ１８において、検出単語「鳥○浩輔」、「石○堅」、「高○正也」、「松○鷹志」、「荒○香恵」、「子○武人」、「松○吉郎」、「吉○裕行」、「鈴○健一」の直前にある文字である「：」（コロン）が前区切り子に決定される。また、ステップＳ１９乃至Ｓ２２において、検出単語「鳥○浩輔」、「石○堅」、「高○正也」、「松○鷹志」、「荒○香恵」、「子○武人」、「松○吉郎」、「吉○裕行」、「鈴○健一」の直後にある文字である「」（スペース）が後区切り子に決定される。

そして、ステップＳ２３において、前区切り子「：」（コロン）と、後区切り子「」（スペース）に挟まれる単語である「鳥○浩輔」、「加○夏希」、「日○野朱里」、「石○堅」、「高○正也」、「松○鷹志」、「荒○香恵」、「子○武人」、「松○吉郎」、「吉○裕行」、「鈴○健一」が抽出され、例えば、図５に示した除外単語１２１が記憶部１１１に記憶されている場合、ステップＳ２４において、抽出単語は、すべて除外単語ではないとされる。

ステップＳ２５乃至ステップＳ３０において、抽出単語のうち、登録単語と同一の単語である「鳥○浩輔」、「石○堅」、「高○正也」、「松○鷹志」、「荒○香恵」、「子○武人」、「松○吉郎」、「吉○裕行」、「鈴○健一」については、それぞれの単語と同一の登録単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語「加○夏希」、「日○野朱里」については、それぞれの単語が辞書９１に登録される。このとき、単語「加○夏希」、「日○野朱里」に対応付けて現在日時が抽出日時として記憶される。

図１７に示したように、「出演者」の項目の内容として、役名（例えば、「叶恭介」）が、図１１の括弧内に記述されている場合とは異なり、「：」（コロン）の直前に記述されている（コロンにより役名と人名が区切られている）場合においても、図２の辞書更新装置１００は、既に辞書９１に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「：」（コロン）と、後区切り子「」（スペース）として抽出することにより、「（人名以外のもの）：（人名）」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置１００は前区切り子「：」（コロン）と、後区切り子「」（スペース）に挟まれる単語を辞書９１に登録することにより、役名等の人名以外のものを辞書９１に登録しないようにすることができる。

図１９は、図２の項目内容抽出部１０２が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図２０は、図２の記憶部１１１に記憶される辞書９１のさらに他の例を示している。

図１９に示すような項目内容が抽出され、図２０に示すような辞書９１が記憶部１１１に記憶されているとき、辞書９１に登録されている登録単語と同一の「高○かおり」、「大○樹生」、「三○京子」、「大○裕太」、「倉○てつを」、「加○竜」、「香○美子」の７個の単語が項目内容に含まれているので、図６のステップＳ１３において、登録単語検出部１０３は、それらの７個の単語を検出する。

ステップＳ１５乃至Ｓ１８において、検出単語「大○樹生」、「三○京子」、「大○裕太」、「倉○てつを」、「加○竜」、「香○美子」の直前にある文字である「）」（小括弧）が前区切り子に決定される。なお、登録単語「高○かおり」の直前にある文字である「］」（大括弧）は、他の検出単語の直前にはないので、前区切り子には決定されない。また、ステップＳ１９乃至Ｓ２２において、検出単語「高○かおり」、「大○樹生」、「三○京子」、「大○裕太」、「倉○てつを」、「加○竜」、「香○美子」の直後にある文字である「（」（小括弧）が後区切り子に決定される。

そして、ステップＳ２３において、前区切り子「）」（小括弧）と、後区切り子「（」（小括弧）に挟まれる単語である「大○樹生」、「三○京子」、「大○裕太」、「倉○てつを」、「小○麻子」、「加○竜」、「香○美子」が抽出され、例えば、図５に示した除外単語１２１が記憶部１１１に記憶されている場合、ステップＳ２４において、抽出単語は、すべて除外単語ではないとされる。

ステップＳ２５乃至ステップＳ３０において、抽出単語のうち、登録単語と同一の単語である「大○樹生」、「三○京子」、「大○裕太」、「倉○てつを」、「加○竜」、「香○美子」については、それぞれの単語と同一の登録単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語「小○麻子」については、その単語が辞書９１に登録される。このとき、単語「小○麻子」に対応付けて現在日時が抽出日時として記憶される。

図１９に示したように、「出演者」の項目の内容として、役名（例えば、「小川明美」）が、図１１と同様に括弧書きされているが、続けて次の人名が書かれている場合、図２の辞書更新装置１００は、既に辞書９１に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「）」（小括弧）と、後区切り子「（」（小括弧）として抽出することにより、「人名（人名以外のもの）」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置１００は前区切り子「）」（小括弧）と、後区切り子「（」（小括弧）に挟まれる単語を辞書９１に登録することにより、役名等の人名以外のものを辞書９１に登録しないようにすることができる。

図２１は、図２の項目内容抽出部１０２が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図２２は、図２の記憶部１１１に記憶される辞書９１のさらに他の例を示している。

図２１に示すような項目内容が抽出され、図２２に示すような辞書９１が記憶部１１１に記憶されているとき、辞書９１に登録されている登録単語と同一の「高○克典」、「羽○美智子」、「保○尚輝」、「恵○彰」、「勝○政信」、「吹○満」、「島○和歌子」、「典○えり」、「益○梨恵」、「秋○太作」、「長○裕之」、「津○雅彦」、「野○陽子」の１３個の単語が項目内容に含まれているので、図６のステップＳ１３において、登録単語検出部１０３は、それらの１３個の単語を検出する。

ステップＳ１５乃至Ｓ１８において、検出単語「羽○美智子」、「保○尚輝」、「恵○彰」、「勝○政信」、「吹○満」、「島○和歌子」、「典○えり」、「益○梨恵」、「秋○太作」、「長○裕之」、「津○雅彦」、「野○陽子」の直前にある文字である「」（スペース）が前区切り子に決定される。なお、検出単語「高○克典」の直前にある文字である「］」（大括弧）は、他の検出単語の直前にはないので、前区切り子には決定されない。

また、ステップＳ１９乃至Ｓ２２において、検出単語「高○克典」、「羽○美智子」、「保○尚輝」、「恵○彰」、「勝○政信」、「吹○満」、「島○和歌子」、「典○えり」、「益○梨恵」、「秋○太作」、「長○裕之」、「津○雅彦」の直後にある文字である「」（スペース）が後区切り子に決定される。なお、検出単語「野○陽子」の直後にある文字である「［」（大括弧）は、他の検出単語の直前にはないので、後区切り子には決定されない。

そして、ステップＳ２３において、前区切り子「」（スペース）と、後区切り子「」（スペース）に挟まれる単語である「羽○美智子」、「保○尚輝」、「恵○彰」、「勝○政信」、「吹○満」、「島○和歌子」、「典○えり」、「益○梨恵」、「白○静」、「秋○太作」、「長○裕之」、「津○雅彦」が抽出され、例えば、図５に示した除外単語１２１が記憶部１１１に記憶されている場合、ステップＳ２４において、抽出単語は、すべて除外単語ではないとされる。

ステップＳ２５乃至ステップＳ３０において、抽出単語のうち、登録単語と同一の単語である「羽○美智子」、「保○尚輝」、「恵○彰」、「勝○政信」、「吹○満」、「島○和歌子」、「典○えり」、「益○梨恵」、「秋○太作」、「長○裕之」、「津○雅彦」については、それぞれの単語と同一の登録単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語「白○静」については、その単語が辞書９１に登録される。このとき、単語「白○静」に対応付けて現在日時が抽出日時として記憶される。

図２１に示したように、「出演者」の項目の内容として、最後の人名の直後に「［他］」が記述されている場合においても、図２の辞書更新装置１００は、既に辞書９１に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「」（スペース）と、後区切り子「」（スペース）として抽出することにより、「人名」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置１００は前区切り子「」（スペース）と、後区切り子「」（スペース）に挟まれる単語を辞書９１に登録することにより、「他」等の人名以外のものを辞書９１に登録しないようにすることができる。

図２３は、図２の項目内容抽出部１０２が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図２４は、図２の記憶部１１１に記憶される辞書９１のさらに他の例を示している。

図２３に示すような項目内容が抽出され、図２４に示すような辞書９１が記憶部１１１に記憶されているとき、辞書９１に登録されている登録単語と同一の「池○昌子」、「菅○政子」、「中○浩二」、「森○至」の４個の単語が項目内容に含まれているので、図６のステップＳ１３において、登録単語検出部１０３は、それらの４個の単語を検出する。

ステップＳ１５乃至Ｓ１８において、検出単語「池○昌子」、「菅○政子」、「中○浩二」、「森○至」の直前にある文字である「/」（斜線）が前区切り子に決定される。また、ステップＳ１９乃至Ｓ２２において、検出単語「池○昌子」、「菅○政子」、「中○浩二」の直後にある文字である「」（スペース）が後区切り子に決定される。なお、検出単語「森○至」の直後にある文字である「ほ」は、他の検出単語の直前にはないので、後区切り子には決定されない。

そして、ステップＳ２３において、前区切り子「/」（斜線）と、後区切り子「」（スペース）に挟まれる単語である「高○真琴」、「池○昌子」、「菅○政子」、「中○浩二」が抽出され、例えば、図５に示した除外単語１２１が記憶部１１１に記憶されている場合、ステップＳ２４において、抽出単語は、すべて除外単語ではないとされる。

ステップＳ２５乃至ステップＳ３０において、抽出単語のうち、登録単語と同一の単語である「池○昌子」、「菅○政子」、「中○浩二」については、それぞれの単語と同一の登録単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語「高○真琴」については、その単語が辞書９１に登録される。このとき、単語「高○真琴」に対応付けて現在日時が抽出日時として記憶される。

図２３に示したように、「出演者」の項目の内容として、役名が、図１１、図１７、図１９とは異なり、「/」（斜線）の直前に記述されている（役名と人名が/（斜線）で分けられている）場合、図２の辞書更新装置１００は、既に辞書９１に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「/」（斜線）と、後区切り子「」（スペース）として抽出することにより、「役名/人名」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置１００は前区切り子「/」（斜線）と、後区切り子「」（スペース）に挟まれる単語を辞書９１に登録することにより、役名や「ほか」等の人名以外の単語を辞書９１に登録しないようにすることができる。

以上においては、図１のデジタル放送受信装置１が、ROM３０に記憶された辞書更新プログラム８２を実行することによって機能的に実現される辞書更新装置１００の処理を説明したが、上述したように、デジタル放送受信装置１は、録画再生プログラム８１を実行することにより、デジタル放送の録画や再生を行うこともできる。

また、デジタル放送受信装置１は、所定のプログラムを実行することにより、辞書９１を用いて、ユーザに対して番組を推薦することもできる。

この場合、デジタル放送受信装置１は、番組情報データを基に、ユーザの嗜好情報にマッチングする番組を選択する。ユーザへの番組の推薦方法としては、例えば、ユーザが選択したキーワードを用いて番組を推薦するキーワード使用方法、ユーザが過去に視聴した番組の履歴を利用して番組を推薦する視聴履歴利用方法等が知られている。

デジタル放送受信装置１は、キーワード使用方法を用いてユーザへ番組の推薦を行う場合、例えば、次のような一連の処理を実行することで、推薦番組をユーザに呈示する。

即ち、例えば、デジタル放送受信装置１では、CPU２０の制御により、辞書９１に登録されている登録単語が、表示装置２７に表示される。そして、ユーザは、操作部２９を操作して表示装置２７に表示されている登録単語の中から、ユーザの好みの単語を、キーワードとして選択する。操作部２９は、ユーザの操作に対応する操作信号をCPU２０に送信し、CPU２０は、その操作信号に基づいて、ユーザによりキーワードとして選択された登録単語をHDD３２に記憶する。

CPU２０は、DEMUX２４から送信されてくる番組情報データの中から、HDD３２に記憶されたキーワードを検索する。キーワードの検索によって、キーワードと同一の単語（以下、キーワード単語という）を番組情報データから検出することができた場合、そのキーワード単語を含む番組情報データに対応する番組を、推薦番組としてユーザに呈示する。

図２５は、ユーザにキーワードを選択させるために表示装置２７に表示される表示画面の例である。なお、図２５では、辞書９１に「水○豊」、「寺○康文」、「高○沙耶」、「鈴○砂羽」が登録単語として登録されている。

図２５では、登録単語である「水○豊」、「寺○康文」、「高○沙耶」、「鈴○砂羽」の４つの単語が表示されている。ユーザは、操作部２９を操作してカーソルを表示装置２７に表示されている４つの単語のうちの所望の人物の名前に移動してを選択する。図２５では、ユーザにより「水○豊」のみが選択されている。

次に、図２６は、登録単語「水○豊」、「寺○康文」、「高○沙耶」、「鈴○砂羽」が登録されている辞書９１が、上述したように更新され、単語「前○愛」が、辞書９１に新たに登録された場合の、ユーザにキーワードを選択させるために表示装置２７に表示される表示画面を示している。

図２６では、図２５に示した登録単語である「水○豊」、「寺○康文」、「高○沙耶」、「鈴○砂羽」の他に、新たな登録単語「前○愛」が表示されている。従って、ユーザは、「前○愛」も選択することができ、これにより、図２５の場合よりも、ユーザの選択肢を広げることができる。

なお、デジタル放送受信装置１では、ユーザにキーワードを選択させるのではなく、ユーザが自らキーワードを入力するようにすることもできる。

図２７と図２８を参照して、ユーザにキーワードを入力させる場合に、表示装置２７に表示される表示画面について説明する。

図２７では、ユーザが操作部２９を操作することにより、かなである「いしかわ」が入力されている。図２７に示すように、ユーザが「いしかわ」を入力した後、漢字変換を指示すると、図２８に示すように、一般的な漢字変換候補である「石川」「石河」「いしかわ」「イシカワ」に加えて、登録単語のうち、最初の文字が「石川」や「石河」から始まる単語（例えば、「石川太郎」）が漢字変換候補とされる。即ち、辞書９１に登録されている登録単語が、漢字変換候補に加えられる。

これにより、ユーザは、例えば、「石川太郎」をキーワードとして入力したい場合、「いしかわ」という４文字を入力し、漢字変換を指示するだけで、「石川太郎」というキーワードを容易に入力することができる。一般的には、「石川太郎」を入力する場合、「いしかわ」を入力して漢字変換を指示し、「石川」を選択して確定を指示した後、さらに「たろう」を入力して同様の処理を繰り返さなければいけないが、辞書９１に登録されている登録単語を用いることにより、ユーザの操作を容易にすることができる。

また、デジタル放送受信装置１は、視聴履歴利用方式を用いてユーザへ番組の推薦を行う場合、例えば、次のような一連の処理を実行することで、推薦番組をユーザに呈示する。

即ち、例えば、デジタル放送受信装置１では、ユーザにより番組の選局や録画などが行われる毎に、その選局や録画などの対象としていた番組の番組情報データをHDD３２に蓄積していき、番組情報データがHDD３２にある程度蓄積されると、それらの番組の番組情報データに含まれる単語のうちの、上述した辞書９１に登録されている１以上の単語と同一の単語を処理対象として、頻度或いはtf/idf法により重み付けし、重み付けられた処理対象の各単語のそれぞれを要素とするベクトル（以下、特徴ベクトルと称する）を生成する。さらに、CPU２０は、１以上の特徴ベクトルに基づいてユーザの嗜好を示すベクトル（以下、ユーザ嗜好ベクトルと称する）を生成する。即ち、ユーザ嗜好ベクトルが、視聴履歴方式におけるユーザ嗜好情報である。

また、CPU２０は、推薦候補となる番組の番組情報データを取得し、その番組情報データに含まれる単語のうちの、特徴ベクトルの各要素に対応する単語（即ち、辞書９１に登録されている１以上の登録単語）と同一の単語を処理対象として、頻度或いはtf/idf法により重み付けし、重み付けされた処理対象の各単語のそれぞれを要素とするベクトル（以下、コンテンツメタベクトルと称する）を生成する。

そして、CPU２０は、ユーザ嗜好ベクトルと、推薦候補に対するコンテンツメタベクトルとの類似度を演算し、その類似度が高いと判定した場合、その推薦候補を推薦番組としてユーザに呈示する。

以上のように、視聴履歴利用方式が採用される場合、辞書９１に登録されている１以上の登録単語と同一の単語を処理対象として生成された特徴ベクトルに基づいて、ユーザの嗜好ベクトルが生成されるので、辞書９１を常に更新することにより、ユーザの嗜好をより正確に抽出することができる。

なお、本実施の形態では、デジタル放送信号を受信し、辞書９１を更新したが、デジタル放送信号以外のコンテンツのメタデータを受信し、辞書９１を更新することも可能である。

また、かなカナ漢字数字英字以外の文字は、スペース、コンマ、コロン、セミコロン、括弧等の記号であれば、どのようなものでもよい。

また、本実施の形態では、図７のステップＳ２８において、単語選択部１０６は、辞書９１に登録されている登録単語のうち、登録単語に対応付けて記憶されている抽出日時が最も古い登録単語を削除したが、辞書９１において、単語抽出部１０５が登録単語と同一の単語を抽出した回数を、登録単語毎に記憶し、単語選択部１０６は、その回数が最も少ない単語を削除することが可能である。さらに、辞書９１には、抽出日時のほか、所定の期間内に単語抽出部１０５により登録単語と同一の単語が抽出された回数を、登録単語毎に記憶させ、単語選択部１０６は、最も古い抽出日時の登録単語が複数ある場合、その複数の登録単語のうちの、抽出された回数が最も少ない登録単語を削除するようにすることも可能である。

さらに、本実施の形態では、図６のステップＳ１４で検出単語が２個以上あるかどうかを判定するようにしたが、３以上の個数以上あるかどうかを判定するようにすることもできる。また、図６のステップＳ１６または図７のステップＳ２０で、同一の前抽出文字または後抽出文字が２個以上あるかどうかを判定するようにしたが、３以上の個数以上あるかどうかを判定するようにすることもできる。

また、図７のステップＳ２５で抽出単語が登録単語と同一の単語ではないと判定された場合、単語選択部１０６は、その抽出単語が３文字以上の単語であるかどうかを判定し、３文字以上の単語であると判定した場合のみ、ステップＳ２７に進むようにすることもできる。この場合、例えば、辞書９１に人名を登録するとき、人名以外の単語の辞書９１への登録を防止することができる。即ち、一般的に、人名は３文字以上であることが多い。従って、３文字以上の単語のみを辞書９１に新たに登録することにより、辞書９１に人名以外の単語が登録されることを防止することができる。

以上のように、辞書更新装置１００では、項目内容抽出部１０２が番組情報データから所定の項目内容を抽出し、その項目内容を用いて辞書９１を更新するようにしたので、容易に辞書９１を更新することができる。

本発明を適用したデジタル放送受信装置の一実施の形態のハードウェア構成例を示すブロック図である。図１のデジタル放送受信装置が辞書更新プログラムを実行することによって機能的に実現される辞書更新装置の構成例を示す図である。図２の番組情報抽出部が抽出する番組情報データの例を示す図である。図２の記憶部に記憶される辞書の例を示す図である。図２の記憶部に記憶される除外単語の例を示している。図２の辞書更新装置が行う辞書更新処理を説明するフローチャートである。図２の辞書更新装置が行う辞書更新処理を説明するフローチャートである。図２の項目内容抽出部が抽出する「出演者」という項目の内容の例を示す図である。図２の項目内容抽出部が抽出する「出演者」という項目の内容の他の例を示す図である。図２の記憶部に記憶される辞書の他の例を示す図である。図２の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。図２の記憶部に記憶される辞書のさらに他の例を示す図である。図２の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。図２の記憶部に記憶される辞書のさらに他の例を示す図である。図２の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。図２の記憶部に記憶される辞書のさらに他の例を示す図である。図２の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。図２の記憶部に記憶される辞書のさらに他の例を示す図である。図２の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。図２の記憶部に記憶される辞書のさらに他の例を示す図である。図２の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。図２の記憶部に記憶される辞書のさらに他の例を示す図である。図２の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。図２の記憶部に記憶される辞書のさらに他の例を示す図である。ユーザにキーワードを選択させるために表示装置に表示される表示画面の例を示す図である。ユーザにキーワードを選択させるために表示装置に表示される表示画面の他の例を示す図である。ユーザにキーワードを入力させる場合に、表示装置に表示される表示画面について説明する図である。ユーザにキーワードを入力させる場合に、表示装置に表示される表示画面について説明する図である。

符号の説明

１デジタル放送受信装置，１０ペリフェラルコントローラ，１１乃至１５バス，２０ CPU，２１チューナ，２２デスクランブラ，２３カードI/F，２４ DEMUX，２５ビデオデコーダ，２６オーディオデコーダ，２７表示装置，２８スピーカ，２９操作部，３０ ROM，３１ HDD/RAM/Flash，３２ HDD，８１録画再生プログラム，８２辞書更新プログラム，９１辞書，１００辞書更新装置，１０１番組情報抽出部、１０２項目内容抽出部，１０３登録単語検出部，１０４区切り子抽出部，１０５単語抽出部，１０６単語選択部，１０７現在日時計時部，１１１記憶部，１２１除外単語

Claims

所定の単語が登録される辞書を有する情報処理装置において、
コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出手段と、
前記項目内容抽出手段により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出手段と、
前記検出手段により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出手段と、
前記検出手段により検出された複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出手段と、
前記項目内容から、前記前区切り子抽出手段により抽出された前記前区切り子と、前記後区切り子抽出手段により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出手段と、
前記単語抽出手段により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録手段と
を備えることを特徴とする情報処理装置。
前記かなカナ漢字数字英字以外の文字は、記号である
ことを特徴とする請求項１に記載の情報処理装置。
前記かなカナ漢字数字英字以外の文字は、スペース、コンマ、コロン、セミコロン、または括弧である
ことを特徴とする請求項１に記載の情報処理装置。
前記辞書登録手段は、前記未登録単語が、前記辞書に登録しない単語として予め設定されている除外単語ではない場合、前記辞書に登録する
ことを特徴とする請求項１に記載の情報処理装置。
前記除外単語は、アナウンサー、アナ、ほか、またはゲストである
ことを特徴とする請求項４に記載の情報処理装置。
前記辞書登録手段は、さらに、
前記単語抽出手段により単語が抽出された日付を、単語ごとに記録し、
前記辞書のデータ量が所定の値以上であるとき、前記登録単語のうち、前記日付が最も古い単語を削除する
ことを特徴とする請求項１に記載の情報処理装置。
前記辞書登録手段は、さらに、
前記単語抽出手段により単語が所定の期間内に抽出された抽出回数を、単語ごとに記録し、
前記日付が最も古い単語が複数ある場合、その日付が最も古い複数の単語のうち、前記抽出回数の少ない単語を削除する
ことを特徴とする請求項６に記載の情報処理装置。
前記辞書登録手段は、さらに、
前記単語抽出手段により単語が抽出された抽出回数を、単語ごとに記録し、
前記辞書のデータ量が所定の値以上であるとき、前記登録単語のうち、前記抽出回数が最も少ない単語を削除する
ことを特徴とする請求項１に記載の情報処理装置。
所定の単語が登録される辞書を有する情報処理装置の情報処理方法において、
コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップと、
前記項目内容抽出ステップの処理により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出ステップと、
前記検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップと、
前記検出ステップの処理により検出された複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップと、
前記項目内容から、前記前区切り子抽出ステップの処理により抽出された前記前区切り子と、前記後区切り子抽出ステップの処理により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出ステップと、
前記単語抽出ステップの処理により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録ステップと
を含むことを特徴とする情報処理方法。
所定の単語が登録される辞書の更新処理をコンピュータに行わせるプログラムにおいて、
コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップと、
前記項目内容抽出ステップの処理により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出ステップと、
前記検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップと、
前記検出ステップの処理により検出された複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップと、
前記項目内容から、前記前区切り子抽出ステップの処理により抽出された前記前区切り子と、前記後区切り子抽出ステップの処理により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出ステップと、
前記単語抽出ステップの処理により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録ステップと
を含むことを特徴とするプログラム。