JP2005301427A - 情報処理装置および情報処理方法、並びにプログラム - Google Patents

情報処理装置および情報処理方法、並びにプログラム Download PDF

Info

Publication number
JP2005301427A
JP2005301427A JP2004113283A JP2004113283A JP2005301427A JP 2005301427 A JP2005301427 A JP 2005301427A JP 2004113283 A JP2004113283 A JP 2004113283A JP 2004113283 A JP2004113283 A JP 2004113283A JP 2005301427 A JP2005301427 A JP 2005301427A
Authority
JP
Japan
Prior art keywords
word
dictionary
registered
extracted
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004113283A
Other languages
English (en)
Inventor
Takushi Okuda
拓史 奥田
Hidetoshi Ichioka
秀俊 市岡
Hitoshi Kimura
仁史 木村
Akisuke Onuma
顕介 大沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004113283A priority Critical patent/JP2005301427A/ja
Publication of JP2005301427A publication Critical patent/JP2005301427A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】辞書の更新を容易に行う。
【解決手段】辞書更新装置100では、項目内容抽出部102が、番組情報データから所定の項目内容を抽出し、登録単語検出部103が、その項目内容から辞書91に登録された登録単語と同一の単語を検出する。前区切り子抽出部131は、登録単語検出部103により複数の検出単語が検出された場合、その検出単語の直前にある文字のうち、共通性があり、かなカナ漢字数字英字以外の文字である文字を前区切り子として抽出する。同様に、後区切り子抽出部132は、後区切り子を抽出する。単語抽出部105は、項目内容から、前区切り子と後区切り子に囲まれた単語を抽出し、単語選択部106は、その単語のうち、辞書91に登録されていない未登録単語を辞書91に登録する。例えば、辞書を内蔵するデジタル放送受信装置に適用することができる。
【選択図】図2

Description

本発明は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、辞書の更新を容易に行うことができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。
近年、テレビジョン放送等において、視聴者であるユーザに対して、いわゆる新聞のラジオ・テレビ欄に相当する、番組の放送スケジュールを示す電子データの番組案内情報であるEPG(Electronic Program Guide)が提供されるサービスが存在する。
そこで、このEPGと内蔵する辞書とを用いてユーザの嗜好を学習し、その嗜好に基づいて、ユーザの好みの番組を抽出する機器が知られている(例えば、特許文献1参照)。
特開2002−101359号公報
ところで、機器が内蔵する辞書を、例えば、新たなアイドル、グループ等の名前に対応させるために更新する場合、機器の製造元は、辞書を更新するためのサービスプロバイダを用意する必要がある。例えば、サービスプロバイダは、辞書を更新する更新データを作成し、ユーザ登録を行ったユーザに対して、辞書更新の案内を行う。
しかしながら、サービスプロバイダを、機器の発売後、何年も維持するためには、大きなコストが生じ、機器の製造元にとって大きな負担となる。また、サービスプロバイダは、辞書を更新するために、更新データを作成する必要がある。
一方、ユーザは、ユーザ登録を行い、サービスプロバイダによって行われる辞書更新の案内に応じて、機器を電話回線、ネットワーク等に接続し、ユーザが選択可能なメニューを表すメニュー画面から、辞書更新のメニューを選択する。そして、ユーザは、サービスプロバイダが作成した更新データを、電話回線、ネットワーク等を介して取得し、辞書を更新する。
従って、ユーザは、ユーザ登録を行い、さらに機器を電話回線、ネットワーク等に接続する必要がある。
本発明は、このような状況に鑑みてなされたものであり、辞書の更新を容易に行うことができるようにするものである。
本発明の情報処理装置は、コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出手段と、項目内容抽出手段により抽出された項目内容から、辞書に登録された登録単語と同一の単語を検出する検出手段と、検出手段により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出手段と、検出手段により検出された複数の検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出手段と、項目内容から、前区切り子抽出手段により抽出された前区切り子と、後区切り子抽出手段により抽出された後区切り子とに囲まれた単語を抽出する単語抽出手段と、単語抽出手段により抽出された単語のうち、辞書に登録されていない未登録単語を、新たな登録単語として辞書に登録する辞書登録手段とを備えることを特徴とする。
このかなカナ漢字数字英字以外の文字は、記号である。
かなカナ漢字数字英字以外の文字は、スペース、コンマ、コロン、セミコロン、または括弧である。
辞書登録手段には、未登録単語が、辞書に登録しない単語として予め設定されている除外単語ではない場合、辞書に登録させることができる。
この除外単語は、アナウンサー、アナ、ほか、またはゲストである。
辞書登録手段には、さらに、単語抽出手段により単語が抽出された日付を、単語ごとに記録させ、辞書のデータ量が所定の値以上であるとき、登録単語のうち、日付が最も古い単語を削除させることができる。
辞書登録手段には、さらに、単語抽出手段により単語が所定の期間内に抽出された抽出回数を、単語ごとに記録させ、日付が最も古い単語が複数ある場合、その日付が最も古い複数の単語のうち、抽出回数の少ない単語を削除させることができる。
辞書登録手段には、さらに、単語抽出手段により単語が抽出された抽出回数を、単語ごとに記録させ、辞書のデータ量が所定の値以上であるとき、登録単語のうち、抽出回数が最も少ない単語を削除させることができる。
本発明の情報処理方法は、コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップと、項目内容抽出ステップの処理により抽出された項目内容から、辞書に登録された登録単語と同一の単語を検出する検出ステップと、検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップと、検出ステップの処理により検出された複数の検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップと、項目内容から、前区切り子抽出ステップの処理により抽出された前区切り子と、後区切り子抽出ステップの処理により抽出された後区切り子とに囲まれた単語を抽出する単語抽出ステップと、単語抽出ステップの処理により抽出された単語のうち、辞書に登録されていない未登録単語を、新たな登録単語として辞書に登録する辞書登録ステップとを含むことを特徴とする。
本発明のプログラムは、コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップと、項目内容抽出ステップの処理により抽出された項目内容から、辞書に登録された登録単語と同一の単語を検出する検出ステップと、検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップと、検出ステップの処理により検出された複数の検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップと、項目内容から、前区切り子抽出ステップの処理により抽出された前区切り子と、後区切り子抽出ステップの処理により抽出された後区切り子とに囲まれた単語を抽出する単語抽出ステップと、単語抽出ステップの処理により抽出された単語のうち、辞書に登録されていない未登録単語を、新たな登録単語として辞書に登録する辞書登録ステップとを含むことを特徴とする。
本発明の情報処理装置および情報処理方法、並びにプログラムにおいては、コンテンツのメタデータから所定の項目内容を抽出し、項目内容から、辞書に登録された登録単語と同一の単語を検出する。そして、複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出するとともに、複数の検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する。項目内容から、前区切り子と、後区切り子とに囲まれた単語を抽出し、その単語のうち、辞書に登録されていない未登録単語を、新たな登録単語として辞書に登録する。
本発明によれば、辞書の更新を容易に行うことが可能となる。
以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。
請求項1に記載の情報処理装置は、
所定の単語が登録される辞書(例えば、図1の辞書91)を有する情報処理装置において、
コンテンツ(例えば、番組)のメタデータ(例えば、番組情報データ)から所定の項目内容(例えば、出演者という項目の内容)を抽出する項目内容抽出手段(例えば、図2の項目内容抽出部102)と、
前記項目内容抽出手段により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出手段(例えば、図2の登録単語検出部103)と、
前記検出手段により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出手段(例えば、図2の前区切り子抽出部131)と、
複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出手段(例えば、図2の後区切り子抽出部132)と、
前記項目内容から、前記前区切り子抽出手段により抽出された前記前区切り子と、前記後区切り子抽出手段により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出手段(例えば、図2の単語抽出部105)と、
前記単語抽出手段により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録手段(例えば、図2の単語選択部106)と
を備えることを特徴とする。
請求項4に記載の情報処理装置は、
前記辞書登録手段は、前記未登録単語が、前記辞書に登録しない単語として予め設定されている除外単語(例えば、図2の除外単語121)ではない場合、前記辞書に登録する(例えば、図7のステップS29の処理)
ことを特徴とする。
請求項6に記載の情報処理装置は、
前記辞書登録手段は、さらに、
前記単語抽出手段により単語が抽出された日付を、単語ごとに記録し(例えば、図7のステップS26,S30の処理)、
前記辞書のデータ量が所定の値以上であるとき、前記登録単語のうち、前記日付が最も古い単語を削除する(例えば、図7のステップS28の処理)
ことを特徴とする。
請求項9に記載の情報処理方法は、
所定の単語が登録される辞書を有する情報処理装置の情報処理方法において、
コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップ(例えば、図6のステップS12)と、
前記項目内容抽出ステップの処理により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出ステップ(例えば図6のステップS13)と、
前記検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップ(例えば、図6のステップS15)と、
複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップ(例えば、図7のステップS22)と、
前記項目内容から、前記前区切り子抽出ステップの処理により抽出された前記前区切り子と、前記後区切り子抽出ステップの処理により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出ステップ(例えば、図7のステップS23)と、
前記単語抽出ステップの処理により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録ステップ(例えば、図7のステップS29)と
を含むことを特徴とする。
請求項10に記載のプログラムは、
所定の単語が登録される辞書の更新処理をコンピュータに行わせるプログラムにおいて、
コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップ(例えば、図6のステップS12)と、
前記項目内容抽出ステップの処理により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出ステップ(例えば、図6のステップS13)と、
前記検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップ(例えば、図6のステップS15)と、
複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップ(例えば、図7のステップS22)と、
前記項目内容から、前記前区切り子抽出ステップの処理により抽出された前記前区切り子と、前記後区切り子抽出ステップの処理により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出ステップ(例えば、図7のステップS23)と、
前記単語抽出ステップの処理により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録ステップ(例えば、図7のステップS29)と
を含むことを特徴とする。
以下に、本発明の実施の形態を説明する。
図1は、本発明を適用したデジタル放送受信装置の一実施の形態のハードウェア構成例を示すブロック図である。
図1のデジタル放送受信装置1は、アンテナ41によりデジタル放送信号を受信し、その受信したデジタル放送信号をデコードして得られる映像信号や音声信号などを、表示装置27またはスピーカ28に出力する。これにより、ユーザは、表示装置27に表示された映像と、スピーカ28から出力される音声とを視聴することができる。即ち、ユーザは、放送局から放送される各種の番組を視聴することができる。ここで、番組とは、通常のテレビ番組(テレビジョン放送番組)に限らず、音楽、文字放送、プログラム等が放送されるものも含むものとする。
また、デジタル放送信号には、放送される番組のビデオデータとオーディオデータの他に、EPG(Electronic Program Guide:電子番組表)等の番組情報のデータ(メタデータ)(以下、番組情報データという)等も多重され、送信されてくる。なお、番組情報データには、例えば、番組のタイトル、出演者、番組の解説が含まれている。
図1のデジタル放送受信装置1では、チューナ21、デスクランブラ22、カードI/F(Interface)23、DEMUX(デマルチプレクサ)24、表示装置27、および操作部29が、バス11を介して、ペリフェラルコントローラ(Peripheral Controller)10に接続されている。また、CPU(Central Processing Unit)20が、バス12を介して、ROM(Read Only Memory)30が、バス13を介して、HDD(Hard Disk Drive)/RAM(Random Access Memory)/Flash31が、バス14を介して、それぞれペリフェラルコントローラ10に接続されている。さらに、HDD32が、バス15を介してペリフェラルコントローラ10に接続されている。
ペリフェラルコントローラ11にはまた、必要に応じて、バス15を介してドライブ33が接続される。ドライブ33には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体51が適宜装着され、それらから読み出されたプログラムが、必要に応じてHDD32にインストールされる。
デジタル放送受信装置1にインストールされ、デジタル放送受信装置1によって実行可能な状態とされるプログラムを格納するプログラム格納媒体は、磁気ディスク(フロッピディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory)、DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブル記録媒体51、またはプログラムが一時的もしくは永続的に格納されるROM30や、HDD32などにより構成される。プログラム格納媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースを介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行うことができる。
デジタル放送受信装置1では、CPU20が、例えば、EEPROM(Electronically Erasable and Programmable Read Only Memory)などのROM30にインストールされている録画もしくは再生を行う録画再生プログラム81、または辞書91の更新を行う辞書更新プログラム82を実行することにより、各種の処理を実行する。ここで、辞書91とは、例えば、後述するユーザの嗜好情報を取得するために、キーワードとして用いられる単語を登録するものである。なお、辞書91には、人名、グループ名等の単語を登録することができるが、以下では、人名を登録するものとする。
ペリフェラルコントローラ10は、バス11乃至15のいずれか2個を介して送受信されるデータの中継を行う。
CPU20は、ROM30に記録されている録画再生プログラム81または辞書更新プログラム82を実行することにより、デジタル放送受信装置1の各部を制御する。また、CPU20は、後述する操作部29から入力されるユーザの操作に対応する操作信号にしたがって、デジタル放送受信装置1の各部を制御する。
CPU20は、デジタル放送受信装置1の各部を制御することにより、例えば、放送される番組のビデオデータとオーディオデータを再生させ、HDD32に記録(録画)させる。また、CPU20は、デジタル放送受信装置1の各部を制御することにより、例えば、後述するDEMUX24から供給される番組情報データに基づいて、HDD/RAM/Flash31に記憶されている辞書91を更新する。
チューナ21には、アンテナ41が接続されている。チューナ21は、例えば、放送局等より送信されるデジタル放送信号のトランスポートストリームを、アンテナ41を介して受信し、バス11を介して、デスクランブラ22に供給する。なお、チューナ21では、アンテナ41からのトランスポートストリームの中から、ユーザの選局に対応するトランスポートストリームのTS(Transport Stream)パケットをデスクランブラ22に供給することができる。
デスクランブラ22は、チューナ21から供給されたTSパケットのスクランブルを、後述するカードI/F23からバス11を介して供給されるデスクランブル情報に基づいて解除し、バス11を介してDEMUX24に供給する。
カードI/F23は、不図示のIC(Integrated Circuit)カードから、TSパケットに施されているスクランブルを解除するためのデスクランブル情報を読み出し、バス11を介してデスクランブラ22に供給する。なお、ICカードは、例えば、Bキャスカードであり、放送局によりユーザに対して予め発行されている。
DEMUX24は、デスクランブラ22から供給されたTSパケットを、ビデオデータ、オーディオデータ、番組情報データに分離し、ビデオデータをビデオデコーダ25に、オーディオデータをオーディオデコーダ26に、それぞれ供給する。また、DEMUX24は、必要に応じて、ビデオデータとオーディオデータを、番組データとして、バス11、ペリフェラルコントローラ10、およびバス15を介して、HDD32に供給し、記録(録画)させるとともに、番組情報データのうち、HDD32に記録させた番組データに対応する番組のタイトルをHDD32に供給し、記録させる。
また、DEMUX24は、HDD32に記録されている番組データを再生する場合、HDD32から読み出され、バス15、ペリフェラルコントローラ10、およびバス11を介して供給される番組データを、ビデオデータとオーディオデータに分離し、ビデオデータをビデオデコーダ25に、オーディオデータをオーディオデコーダ26に、それぞれ供給する。さらに、DEMUX24は、番組情報データを、バス11、ペリフェラルコントローラ10、およびバス12を介してCPU20に供給する。
ビデオデコーダ25は、DEMUX24から供給されるビデオデータをデコードし、NTSC(National Television System Committee)方式等にしたがった映像信号に変換して、表示装置27に出力し、表示させる。なお、表示装置27には、その他、CPU20の制御により、GUI(Graphical User Interface)用の映像信号等が表示される。
オーディオデコーダ26は、DEMUX24から供給されるオーディオデータをデコードし、音声信号を得て、スピーカ28に出力する。スピーカ28は、オーディオデコーダ26からの音声信号を出力する。
操作部29は、例えば、不図示の操作ボタンなどからなる。ここで、表示装置27には、例えば、HDD32に、番組データとともに記録されているすべての番組タイトルを表示させることができるが、その場合、例えば、ユーザは、番組タイトルを見ながら、所望の番組タイトルの選択操作などを操作部29によって行う。操作部29は、ユーザの操作を受け付けて、その操作に対応する操作信号を、バス11、ペリフェラルコントローラ10、およびバス12を介してCPU20に供給する。そして、CPU20は、例えば、その操作信号に基づいて、HDD32に記録されている番組データのうち、ユーザにより選択された番組タイトルに対応する番組データを、HDD32から、バス15、ペリフェラルコントローラ10、およびバス11を介してDEMUX24に供給させることにより、ユーザの所望の番組を再生させる。
ROM30は、録画再生プログラム81および辞書更新プログラム82を記憶している。
HDD/RAM/Flash31は、例えば、辞書91を記憶している。ここで、HDD/RAM/Flash31とは、HDD、RAM、FlashRAM、またはそれらのうちの任意の2以上のものである。この辞書91に登録されている単語は、例えば、後述する推薦番組の呈示に用いることができる。なお、HDD/RAM/Flash31には、その他、CPU20の動作上必要なデータを記憶することができる。
HDD32には、例えば、DEMUX24から供給される番組データとその番組データに対応する番組のタイトルが記憶されている。ドライブ33は、リムーバブル記録媒体51へのデータの記録を制御するとともに、リムーバブル記録媒体51からのデータの再生を制御する。
以上のように構成されるデジタル放送受信装置1では、アンテナ41において放送局から放送される各種の番組のデジタル放送信号が受信され、チューナ21、デスクランブラ22、DEMUX24、およびビデオデコーダ25を介して、表示装置27に供給されて映像が表示されるとともに、チューナ21、デスクランブラ22、DEMUX24、およびオーディオデコーダ26を介してスピーカ28に供給されて、音声が出力される。
また、デジタル放送受信装置1では、デジタル放送信号に多重されてくる番組情報データが、アンテナ41、チューナ21、デスクランブラ22、およびDEMUX24を介してCPU20に供給され、その番組情報データに基づいて、辞書91が更新される。
図2は、図1のデジタル放送受信装置1(のCPU20)が辞書更新プログラム82を実行することによって機能的に実現される辞書更新装置の構成例を示している。
デジタル放送受信装置1に対応する辞書更新装置100は、番組情報抽出部101、項目内容抽出部102、登録単語検出部103、区切り子抽出部104、単語抽出部105、単語選択部106、現在日時計時部107、および記憶部111で構成される。
辞書更新装置100において、番組情報抽出部101は、例えば、図1のDEMUX24に対応する。番組情報抽出部101は、デジタル放送信号のTSパケットから、番組情報データを抽出し、項目内容抽出部102に供給する。
項目内容抽出部102は、番組情報抽出部101から供給される番組情報データから、所定の項目の内容(以下、項目内容という)を抽出し、登録単語検出部103、区切り子抽出部104、および単語抽出部105に供給する。
登録単語検出部103は、後述する記憶部111の辞書91に登録されている登録単語を読み出して認識する。そして、登録単語検出部103は、項目内容抽出部102から供給される項目内容から、登録単語と同一の単語を検出し、検出単語として区切り子抽出部104に供給する。
区切り子抽出部104は、前区切り子抽出部131と後区切り子抽出部132から構成される。前区切り子抽出部131は、項目内容抽出部102から供給される項目内容において、登録単語検出部103から供給される検出単語の直前にある文字のうち、共通性のある文字を抽出する。前区切り子抽出部131は、その文字が、例えば、JIS(Japan Industrial Standard)に準拠したかなカナ漢字数字英字以外の文字である場合、その文字を前区切り子として抽出し、単語抽出部105に供給する。
後区切り子抽出部132は、前区切り子抽出部131と同様に、項目内容抽出部102から供給される項目内容において、登録単語検出部103から供給される検出単語の直後にある文字のうち、共通性があり、かなカナ漢字数字英字以外の文字を後区切り子として抽出し、単語抽出部105に供給する。なお、前区切り子抽出部131と後区切り子抽出部132は、それぞれ前区切り子と後区切り子として、2文字以上の文字を抽出することもできるが、以下の説明では、1文字を抽出するものとする。
単語抽出部105は、項目内容抽出部102から供給される項目内容から、区切り子抽出部104の前区切り子抽出部131から供給される前区切り子と、後区切り子抽出部132から供給される後区切り子とに囲まれた単語を抽出する。また、単語抽出部105は、辞書91に登録しない単語として記憶されている除外単語121を記憶部111から読み出し、除外単語121に基づいて、前区切り子と後区切り子を用いて抽出した単語(以下、抽出単語という)を選択し、その選択した抽出単語を単語選択部106に供給する。
単語選択部106は、記憶部111から辞書91に登録されている登録単語を読み出し、単語抽出部105から供給される抽出単語から、登録単語と同一ではない単語(辞書91にまだ登録されていない単語(以下、未登録単語という))を抽出する。そして、単語選択部106は、未登録単語と、後述する現在日時計時部107から供給される現在日時に基づいて、辞書91を更新する。
現在日時計時部107は、現在の日時を計時し、単語選択部106に供給する。
なお、項目内容抽出部102、登録単語検出部103、区切り子抽出部104、単語抽出部105、単語選択部106、および現在日時計時部107は、図1における辞書更新プログラム82(を実行しているCPU20)に対応する。
記憶部111は、例えば、図1のHDD/RAM/Flash31に対応する。記憶部111は、所定の単語を登録する辞書91と、辞書91に登録しない単語として予め設定されている除外単語121とを記憶する。なお、辞書91には、例えば、製造元により、少なくとも2個の単語が予め登録されている。
以上のように構成される辞書更新装置100では、番組情報抽出部101がデジタル放送信号のTSパケットから、番組情報データを抽出し、項目内容抽出部102が、番組情報データから、所定の項目内容を抽出する。登録単語検出部103は、その項目内容から、辞書91に登録されている登録単語と同一の単語を検出し、区切り子抽出部104は、その検出単語の直前と直後にある文字から、前区切り子と後区切り子を抽出する。単語抽出部105は、項目内容から、前区切り子と後区切り子に囲まれた単語を抽出し、除外単語121に基づいて抽出単語を選択して単語選択部106に供給する。そして、単語選択部106は、単語抽出部105により選択された抽出単語と、現在日時計時部107から供給される現在日時とに基づいて、辞書91を更新する。
辞書更新装置100では、デジタル放送信号の放送される番組のビデオデータとオーディオデータに多重化されて送信されてくる番組情報データを用いて、辞書91を更新するので、辞書更新装置100をネットワーク等に接続せずに、容易に辞書91を更新することができる。また、辞書更新装置100を製造する製造元は、辞書91を更新するためのサービスプロバイダを容易する必要がなく、コストを削減することができる。
図3は、図2の番組情報抽出部101が抽出する番組情報データの例を示している。
図3の番組情報データは、「ジャンル」、「題名(タイトル)」、「放送日時」、「放送局名」、「映画の放送された年および配給元」、「放映時間」、「監督」、「撮影者(カメラマン)」、「脚本家」、「音楽担当者」、「出演者」、および「解説」といった項目に分かれている。
項目「ジャンル」には、「映画−邦画」が、項目「題名(タイトル)」には、「東海道三谷怪談」が、項目「放送日時」には、「08/14(水)22:43,08/15(水)00:00」が、項目「放送局名」には、「WOWO」が、項目「映画の放映された年および配給元」には、「1959年(西宝)」が、項目「放映時間」には、「オリジナル74分」が、それぞれの項目の内容として記述されている。
また、項目「監督」には、「[監督]中川信男」が、項目「脚本家」には、「[脚本]大貫正一 石田義寛」が、項目「撮影者(カメラマン)」には、「[撮影]西本正二」が、項目「音楽担当者」には、「[音楽]渡辺宙太」が、項目「出演者」には、「[出演]石○さとみ,岸○五郎,浅○ゆう子,藤○志保,[語り]石○さとみ」が、項目「解説」には、「[解説]‘59西宝☆様式美たっぷりに有名な“三谷怪談”の世界を描く邦画ホラーの傑作」が、それぞれの項目の内容として記述されている。
図3に示すような番組情報データが番組情報抽出部101から供給された場合、図2の項目内容抽出部102では、番組情報データの「ジャンル」、「題名」、「放送日時」などの項目の内容のうち、所定の項目の内容を抽出する。例えば、項目内容抽出部102は、項目「出演者」の内容である「[出演]石○さとみ,岸○五郎,浅○ゆう子,藤○志保,[語り]石○さとみ」を抽出する。なお、番組情報データの各項目の項目内容の前には、例えば、不図示の項目タグが記述されている。項目内容抽出部102は、例えば、抽出対象となる項目の項目タグを検索し、その項目タグから次の項目タグまでに記述された内容を、抽出することにより、抽出対象となる項目の項目内容を抽出する。
図4は、図2の記憶部111に記憶される辞書91の例を示している。
図4の辞書91には、登録単語として、単語「石○さとみ」、「岸○五郎」、「浅○ゆう子」が登録されている。また、辞書91には、登録単語「石○さとみ」に対応して、その登録単語と同一の単語が単語抽出部105により抽出された日時を表す抽出日時「2003.9.27.15:00」(2003年9月27日15時)が記憶されている。さらに、辞書91には、登録単語「岸○五郎」に対応して、抽出日時「2004.2.2.10:00」(2004年2月2日10時)が、登録単語「浅○ゆう子」に対応して、抽出日時「19997.3.27.12:00」(19997年3月27日12時)が記憶されている。
図5は、図2の記憶部111に記憶される除外単語121の例を示している。
図5では、除外単語121として、「アナウンサー」、「アナ」、「ほか」、「ナレーション」、「交響楽団」、「弁護士」、「教授」、「大学」、「解説」、「出演」、「通訳」、「監督」、「レギュラー」、「ゲスト」が記憶されている。即ち、例えば、項目内容に人名と同様に記述されるが、人名ではない(辞書91に登録しない)単語が、除外単語121として予め設定され、記憶部111に記憶されている。
次に、図6と図7を参照して、図2の辞書更新装置100が行う辞書更新処理を説明する。この辞書更新処理は、番組情報抽出部101にデジタル放送信号のTSパケットが供給されたとき、開始される。
ステップS11において、番組情報抽出部101は、デジタル放送信号のTSパケットから、番組情報データを抽出し、項目内容抽出部102に供給して、ステップS12に進む。
ステップS12において、項目内容抽出部102は、番組情報抽出部101から供給された番組情報データから、「出演者」という項目があるかどうかを判定し、「出演者」という項目がないと判定した場合、処理を終了する。
ステップS12において、「出演者」という項目があると判定された場合、ステップS13に進み、項目内容抽出部102は、「出演者」という項目の内容を抽出し、登録単語検出部103、区切り子抽出部104、および単語抽出部105に供給する。そして、登録単語検出部103は、その項目の内容から、記憶部111の辞書91に登録されている登録単語と同一の単語を検出する。
例えば、番組情報抽出部101が、図3に示した番組情報データを抽出した場合、項目内容抽出部102は、「出演者」という項目の内容である「[出演]石○さとみ,岸○五郎,浅○ゆう子,藤○志保,[語り]石○さとみ」を抽出し、登録単語検出部103に供給する。登録単語検出部103は、記憶部111から辞書91に登録されている登録単語を読み出し、項目の内容である「[出演]石○さとみ,岸○五郎,浅○ゆう子,藤○志保,[語り]石○さとみ」から、登録単語と同一の単語を検出する。
即ち、辞書91に、図4に示した登録単語が登録されている場合、登録単語検出部103では、項目の内容から、登録単語と同一の単語である「[出演]」の直後の「石○さとみ」、「岸○五郎」、「浅○ゆう子」、「[語り]」の直後の「石○さとみ」が検出される。
ステップS13の処理後は、ステップS14に進み、登録単語検出部103は、ステップS13で検出した単語(以下、検出単語という)が2個以上あるかどうかを判定し、2個以上ではない(1個である)と判定した場合、処理を終了する。
また、ステップS14において、ステップS13で検出した検出単語が2個以上であると判定された場合、ステップS15に進み、登録単語検出部103は、その検出単語すべてを区切り子抽出部104に供給する。そして、区切り子抽出部104の前区切り子抽出部131は、ステップS13で項目内容抽出部102から供給された項目内容から、検出単語の直前にある文字すべてを抽出する。
例えば、項目内容抽出部102から供給された項目内容が、図3で説明した「[出演]石○さとみ,岸○五郎,浅○ゆう子,藤○志保,[語り]石○さとみ」であり、登録単語検出部103から供給された検出単語が「[出演]」の直後の「石○さとみ」、「岸○五郎」、「浅○ゆう子」、「[語り]」の直後の「石○さとみ」である場合、「[出演]」の直後の検出単語「石○さとみ」の直前の文字である「]」(大括弧)、検出単語「岸○五郎」の直前の文字である「,」(コンマ)、検出単語「浅○ゆう子」の直前の文字である「,」(コンマ)、「[語り]」の直後の検出単語「石○さとみ」の直前の文字である「]」(大括弧)が抽出される。
ステップS15の処理後は、ステップS16に進み、前区切り子抽出部131は、ステップS15で抽出した検出単語の直前にある文字(以下、前抽出文字という)に、同一の前抽出文字が2個以上あるかどうかを判定し、2個以上はないと判定した場合、処理を終了する。即ち、前区切り子抽出部131は、ステップS15で抽出した前抽出文字のうち、同一の前抽出文字が2個以上はない文字を削除する。
ステップS16において、ステップS15で抽出した前抽出文字に同一の前抽出文字が2個以上あると判定された場合、その前抽出文字には共通性があるので、ステップS17に進み、前区切り子抽出部131は、その前抽出文字が、かなカナ漢字数字英字以外であるかどうかを判定する。
例えば、前抽出文字として、「]」(大括弧)、「,」(コンマ)、「,」(コンマ)、「]」(大括弧)がそれぞれ抽出された場合、「]」(大括弧)と「,」(コンマ)は、それぞれ2個ずつあるので、「]」(大括弧)と「,」(コンマ)がかなカナ漢字数字英字以外であるかどうかを判定する。
ステップS17において、前抽出文字が、かなカナ漢字数字英字以外ではない(かなカナ漢字数字英字のいずれかである)と判定された場合、前区切り子抽出部131は、処理を終了する。即ち、前区切り子抽出部131は、前抽出文字のうち、かなカナ漢字数字英字のいずれかである文字を削除する。
一方、ステップS17において、前抽出文字が、かなカナ漢字数字英字以外であると判定された場合、前区切り子抽出部131は、ステップS18に進み、その前抽出文字を、単語の直前を区切る記号である前区切り子に決定し、単語抽出部105に供給する。
例えば、前抽出文字として、「]」(大括弧)、「,」(コンマ)、「,」(コンマ)、「]」(大括弧)がそれぞれ抽出された場合、「]」(大括弧)と「,」(コンマ)は、それぞれ2個ずつあり、かなカナ漢字数字英字以外であるので、「]」(大括弧)と「,」(コンマ)が前区切り子に決定され、単語抽出部105に供給される。
ステップS16乃至S18では、前抽出文字に共通性があり、その前抽出文字が、かなカナ漢字数字英字以外である場合、その前抽出文字を前区切り子に決定するので、確実に前区切り子を抽出することができる。
即ち、番組情報データの項目内容は、ある規則にしたがって、放送局により記述されることが多く、単語を区切る記号は共通である可能性が高い。また、単語を区切る記号は、一般的には、スペース、コンマ、コロン、セミコロン、括弧等の記号である。従って、前抽出文字に共通性があり、前抽出文字が、かなカナ漢字数字英字以外である場合、前抽出文字を前区切り子にすることにより、確実に前区切り子を抽出することができる。
ステップS18の処理後は、図7のステップS19に進み、区切り子抽出部104の後区切り子抽出部132は、前区切り子抽出部131と同様に、ステップS13で項目内容抽出部102から供給された項目内容から、ステップS15で登録単語検出部103から供給された検出単語の直後にある文字を抽出する。
例えば、項目内容抽出部102から供給された項目内容が、図3で説明した「[出演]石○さとみ,岸○五郎,浅○ゆう子,藤○志保,[語り]石○さとみ」であり、登録単語検出部103から供給された検出単語が「[出演]」の直後の「石○さとみ」、「岸○五郎」、「浅○ゆう子」、「[語り]」の直後の「石○さとみ」である場合、「[出演]」の直後の検出単語「石○さとみ」の直後の文字である「,」(コンマ)、検出単語「岸○五郎」の直後の文字である「,」(コンマ)、検出単語「浅○ゆう子」の直後の文字である「,」(コンマ)、「[語り]」の直後の検出単語「石○さとみ」の直後の文字である「(改行)」が抽出される。
ステップS19の処理後は、ステップS20に進み、後区切り子抽出部131は、前区切り子抽出部131と同様に、ステップS19で抽出した検出単語の直後にある文字(以下、後抽出文字という)に、同一の後抽出文字が2個以上あるかどうかを判定し、2個以上はないと判定した場合、処理を終了する。
ステップS20において、後抽出文字に同一の後抽出文字が2個以上あると判定された場合、その後抽出文字には共通性があるので、ステップS21に進み、後区切り子抽出部132は、前区切り子抽出部131と同様に、その後抽出文字が、かなカナ漢字数字英字以外であるかどうかを判定する。
例えば、後抽出文字として、「,」(コンマ)、「,」(コンマ)、「,」(コンマ)、「(改行)」がそれぞれ抽出された場合、「,」(コンマ)は、3個あるので、「,」(コンマ)がかなカナ漢字数字英字以外であるかどうかを判定する。なお、「(改行)」は1個であるので、「(改行)」は後抽出文字から削除され、以降の処理は行われない。
ステップS21において、後抽出文字が、かなカナ漢字数字英字以外ではない(かなカナ漢字数字英字のいずれかである)と判定された場合、後区切り子抽出部132は、前区切り子抽出部131と同様に、処理を終了する。
一方、ステップS21において、後抽出文字が、かなカナ漢字数字英字以外であると判定された場合、後区切り子抽出部132は、ステップS22に進み、前区切り子抽出部131と同様に、その後抽出文字を、単語の直後を区切る記号である後区切り子に決定し、単語抽出部105に供給する。
例えば、後抽出文字として、「,」(コンマ)、「,」(コンマ)、「,」(コンマ)、「(改行)」がそれぞれ抽出された場合、「,」(コンマ)は、3個あり、かなカナ漢字数字英字以外であるので、「,」(コンマ)が後区切り子に決定され、単語抽出部105に供給される。
ステップS20乃至S22では、後抽出文字に共通性があり、その後抽出文字がかなカナ漢字数字英字以外である場合、その後抽出文字を区切り子に決定するので、ステップS16乃至S18と同様に、確実に後区切り子を抽出することができる。
ステップS22の処理後は、ステップS23に進み、単語抽出部105は、ステップS13で項目内容抽出部102から供給された項目内容から、ステップS18で前区切り子抽出部131から供給された前区切り子と、ステップS22で後区切り子抽出部132から供給された後区切り子とで挟まれる単語を抽出する。
例えば、項目内容が「[出演]石○さとみ,岸○五郎,浅○ゆう子,藤○志保,[語り]石○さとみ」であり、前区切り子が「]」(大括弧)と「,」(コンマ)、後区切り子が「,」(コンマ)であるとき、単語抽出部105は、前区切り子である「]」(大括弧)と後区切り子である「,」(コンマ)とで挟まれる「[出演]」の直後の単語「石○さとみ」、および前区切り子である「,」(コンマ)と後区切り子である「,」(コンマ)で挟まれる単語「岸○五郎」、「浅○ゆう子」、並びに「藤○志保」を抽出する。
ステップS23の処理後は、ステップS24に進み、単語抽出部105は、ステップS23で抽出された抽出単語が記憶部111に記憶されている除外単語121であるかどうかを判定し、抽出単語は除外単語121であると判定した場合、処理を終了する。即ち、単語抽出部105は、抽出単語のうち、除外単語を削除する。
一方、ステップS24において、抽出単語は除外単語121ではないと判定された場合、ステップS25に進み、単語抽出部105は、その抽出単語を単語選択部106に供給する。そして、単語選択部106は、その抽出単語が登録単語と同一の単語であるかどうかを判定する。
例えば、図5に示した除外単語121が記憶部111に記憶されている場合、抽出単語が「石○さとみ」、「岸○五郎」、「浅○ゆう子」、「藤○志保」であるとき、抽出単語である「石○さとみ」、「岸○五郎」、「浅○ゆう子」、「藤○志保」は除外単語121ではないので、その抽出単語を単語選択部106に供給する。そして、例えば、辞書91に、図4に示した登録単語が登録されている場合、単語選択部106は、抽出単語のうち「石○さとみ」、「岸○五郎」、「浅○ゆう子」は、辞書91に登録されている登録単語と同一の単語であると判定する。
ステップS25において、抽出単語が登録単語と同一の単語であると判定された場合、ステップS26に進み、単語選択部106は、現在日時計時部107が計時する現在日時に基づいて、辞書91における抽出単語と同一の登録単語に対応して記憶されている単語を抽出した日時を表す抽出日時を、現在日時に更新する。そして、単語選択部106は、処理を終了する。
例えば、図4に示した辞書91が記憶部111に記憶されており、抽出単語が「石○さとみ」である場合、現在日時が2004年2月27日19時38分であるとき、抽出単語「石○さとみ」と同一の登録単語「石○さとみ」に対応して記憶されている抽出日時である「2003.9.27.15:00」(2003年9月27日15時00分)を、現在日時「2004.2.27.19:38」(2004年2月27日19時38分)に更新する。
ステップS25において、抽出単語が登録単語と同一ではないと判定された場合、ステップS27に進み、単語選択部106は、辞書91のデータ量が所定の値以上であるかどうかを判定し、所定の値以上であると判定した場合、ステップS28に進み、単語選択部106は、辞書91に登録されている登録単語のうち、抽出日時が最も古い登録単語を削除する。なお、所定の値とは、例えば、記憶部111の記憶領域のうち、辞書91のために予め用意された記憶領域の記憶容量から、1つの単語の登録に要するデータ量を減算した値である。
例えば、図4に示した辞書91が記憶部111に記憶されている場合、辞書91のデータ量が所定の値以上であるとき、単語選択部106は、抽出日時が最も古い「1997.3.27.12:00」である登録単語の「浅○ゆう子」を、辞書91から削除する。
ステップS27で辞書91のデータ量が所定の値以上ではないと判定された場合、またはステップS28の処理後は、ステップS29に進み、単語選択部106は、単語抽出部105から供給された抽出単語のうち、登録単語と同一ではない単語を辞書91に登録する。
例えば、辞書91に、図4に示した登録単語が記憶されており、抽出単語が「藤○志保」である場合、抽出単語である「藤○志保」と同一の登録単語は辞書91に登録されていないので、辞書91に登録する。
ステップS29の処理後は、ステップS30に進み、単語選択部106は、ステップ29で辞書91に登録した抽出単語に対応付けて、現在日時計時部107が計時する現在日時を、抽出日時として記録し、処理を終了する。
以上のように、図6と図7の辞書更新処理は、番組情報抽出部101にデジタル放送信号のTSパケットが供給される毎に行われるので、辞書91を常に更新することができる。
次に、図8乃至図24を参照して、辞書更新装置100の辞書更新処理による辞書91の更新について、さらに説明する。
図8は、図2の項目内容抽出部102が抽出する「出演者」という項目の内容の例を示している。
図8では、項目内容抽出部102により、「[出演](管弦楽)東○フィルハーモニー交響楽団,(指揮)円○寺雅彦」という項目内容が抽出されている。
この場合、例えば、図4に示された辞書91が記憶部111に記憶されているとき、辞書91に登録されている登録単語と同一の単語「石○さとみ」「岸○五朗」「浅○ゆう子」が項目内容に含まれていないので、図6のステップS13において、登録単語検出部103では、登録単語と同一の単語が検出されない(0個の検出単語が検出される)。そして、ステップS14において、登録単語検出部103は、登録単語が2個以上はないと判定し、処理を終了する。
即ち、項目内容から、人名である登録単語が1つも検出されない場合、その項目内容に含まれている単語は、人名ではないとして、その項目内容に含まれている単語は、辞書91に登録されない。これにより、辞書91に人名ではない単語が登録されることを防止することができる。
図9は、図2の項目内容抽出部102が抽出する「出演者」という項目の内容の他の例を示している。また、図10は、図2の記憶部111に記憶される辞書91の他の例を示している。
図9に示す項目内容が抽出され、図10に示す辞書91が記憶部111に記憶されているとき、辞書91に登録されている登録単語と同一の「富○和子」、「小○昌俊」、「矢○栄子」、「野○勝枝」、「名○伸一」、「田○和成」、「並○一夫」、「宮○悠」、「宮○剛」、「宮○洋子」、「嶋○綾子」、「青○公美」の12個の単語が、項目内容に含まれているので、図6のステップS13において、登録単語検出部103は、それらの12個の単語を検出する。そして、ステップS14において、登録単語検出部103は、ステップS13で検出した検出単語が2個以上であると判定し、ステップS15に進む。
ステップS15乃至S18において、検出単語「小○昌俊」、「矢○栄子」、「野○勝枝」、「名○伸一」、「田○和成」、「並○一夫」、「宮○悠」、「宮○剛」、「宮○洋子」、「嶋○綾子」、「青○公美」の直前にある文字である「,」(コンマ)が前区切り子に決定される。なお、検出単語「富○和子」の直前にある文字である「]」(大括弧)は、他の検出単語の直前にはないので、前区切り子には決定されない。
その後、ステップS19乃至S22において、検出単語「富○和子」、「小○昌俊」、「矢○栄子」、「野○勝枝」、「名○伸一」、「田○和成」、「並○一夫」、「宮○悠」、「宮○剛」、「宮○洋子」、「嶋○綾子」、「青○公美」の直後にある文字である「,」(コンマ)が後区切り子に決定される。
そして、ステップS23において、前区切り子「,(コンマ)」と後区切り子「,(コンマ)」に挟まれる単語である「小○昌俊」、「矢○栄子」、「宮○敏子」、「野○勝枝」、「名○伸一」、「田○和成」、「並○一夫」、「宮○悠」、「宮○剛」、「宮○洋子」、「大○裕美子」、「嶋○綾子」、「青○公美」が抽出され、例えば、図5に示した除外単語121が記憶部111に記憶されている場合、ステップS24において、抽出単語は、すべて除外単語ではないとされる。
ステップS25乃至ステップS30において、抽出単語のうち、登録単語と同一の単語である単語「小○昌俊」、「矢○栄子」、「野○勝枝」、「名○伸一」、「田○和成」、「並○一夫」、「宮○悠」、「宮○剛」、「宮○洋子」、「嶋○綾子」、「青○公美」については、それぞれの単語と同一の登録単語に対応する抽出日時が現在日時に更新され、登録単語と同一の単語ではない単語「宮○敏子」、「大○裕美子」については、それぞれの単語が辞書91に登録される。このとき、単語「宮○敏子」と「大○裕美子」のそれぞれに対応付けて、現在日時が抽出日時として記憶される。なお、単語「宮○敏子」または「大○裕美子」が登録される前の辞書91のデータ量が所定の値以上である場合、登録単語に対応付けて記憶されている抽出日時が最も古い登録単語から順に、辞書91から削除され、単語「宮○敏子」、「大○裕美子」が登録される。
図9に示したように、「出演者」の項目の内容として、複数の人名(例えば、「富○和子」)が、1個の人名ずつコンマで区切られて記述されている場合、図2の辞書更新装置100は、前区切り子「,(コンマ)」と後区切り子「,(コンマ)」を抽出し、その前区切り子と後区切り子に挟まれる人名を辞書91に登録することができる。
即ち、項目内容は、放送局によりある規則にしたがって記述されることが多い。従って、辞書更新装置100は、項目内容から、既に辞書91に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子と後区切り子として抽出することにより、その前区切り子と後区切り子に挟まれている単語が人名であると認識することができる。換言すれば、辞書更新装置100は、「人名,」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置100は前区切り子「,」(コンマ)と後区切り子「,」(コンマ)に挟まれる単語を辞書91に登録することにより、人名を辞書91に登録することができる。
図11は、図2の項目内容抽出部102が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図12は、図2の記憶部111に記憶される辞書91のさらに他の例を示している。
図11に示すような項目内容が抽出され、図12に示すような辞書91が記憶部111に記憶されているとき、辞書91に登録されている登録単語と同一の「久○夕子」、「植○喜八郎」、「隠○めぐみ」の3個の単語が項目内容に含まれているので、図6のステップS13において、登録単語検出部103は、それらの3個の単語を検出する。
ステップS15乃至S18において、検出単語「久○夕子」、「植○喜八郎」、「隠○めぐみ」の直前にある文字である「 」(スペース)が前区切り子に決定される。また、ステップS19乃至S22において、検出単語「久○夕子」、「植○喜八郎」、「隠○めぐみ」の直後にある文字である「(」(小括弧)が後区切り子に決定される。
そして、ステップS23において、前区切り子「 (スペース)」と後区切り子「((小括弧)」に挟まれる単語である「曳○伸之」、「渡○真実」、「久○夕子」、「植○喜八郎」、「佐○美由紀」、「隠○めぐみ」、「佐○ユリ」が抽出され、例えば、図5に示した除外単語121が記憶部111に記憶されている場合、ステップS24において、抽出単語は、すべて除外単語ではないとされる。
ステップS25乃至ステップS30において、抽出単語のうち、登録単語と同一の単語である「久○夕子」、「植○喜八郎」、「隠○めぐみ」については、それぞれの単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語である「曳○伸之」、「渡○真実」、「佐○美由紀」、「佐○ユリ」については、それぞれの単語が辞書91に登録される。このとき、単語「曳○伸之」、「渡○真実」、「佐○美由紀」、「佐○ユリ」に対応付けて現在日時が抽出日時として記憶される。なお、図9および図10と同様に、新たな単語が登録される前の辞書91のデータ量が所定の値以上である場合、登録単語に対応付けて記憶されている抽出日時が最も古い登録単語から順に辞書91から削除され、新たな単語が登録される。
図11に示したように、「出演者」の項目の内容として、人名の後に、役名(例えば、「ロンパパ/宇宙人・父」)が括弧書きで記述され、その役名と次の人名との間にスペースが挟まれている場合においても、図2の辞書更新装置100は、既に辞書91に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「 」(スペース)と後区切り子「(」(小括弧)として抽出することにより、「(スペース)人名(人名以外のもの)」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置100は前区切り子「 」(スペース)と後区切り子「(」(小括弧)に挟まれる単語を辞書91に登録することにより、役名等の人名以外のものを辞書91に登録しないようにすることができる。
図13は、図2の項目内容抽出部102が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図14は、図2の記憶部111に記憶される辞書91のさらに他の例を示している。
図13に示すような項目内容が抽出され、図14に示すような辞書91が記憶部111に記憶されているとき、辞書91に登録されている登録単語と同一の「大○内奈々子」、「小○真珠」、「川○麻衣子」、「神○悟志」、「北○佐和子」、「西○和彦」の6個の単語が項目内容に含まれているので、図6のステップS13において、登録単語検出部103は、それらの6個の単語を検出する。
ステップS15乃至S18において、検出単語「大○内奈々子」、「小○真珠」、「川○麻衣子」、「神○悟志」、「北○佐和子」、「西○和彦」の直前にある文字である「 (スペース)」が前区切り子に決定される。また、ステップS19乃至S22において、検出単語「大○内奈々子」、「小○真珠」、「川○麻衣子」、「神○悟志」、「北○佐和子」、「西○和彦」の直後にある文字である「 」(スペース)が後区切り子に決定される。
そして、ステップS23において、前区切り子「 」(スペース)と後区切り子「 」(スペース)に挟まれる単語である「大○内奈々子」、「小○真珠」、「川○麻衣子」、「神○悟志」、「北○佐和子」、「西○和彦」、「ほか」が抽出され、例えば、図5に示した除外単語121が記憶部111に記憶されている場合、ステップS24において、「ほか」のみが除外単語121であるとされ、辞書91に登録されない。
即ち、人名と同様に記述されるが、人名ではない単語は、除外単語121として予め記憶部111に記憶されているので、辞書更新装置100では、抽出単語が除外単語121であるかどうかを判定し、除外単語121であると判定した場合、その抽出単語を辞書91に登録しないことにより、辞書91に人名以外の単語が登録されることを防止することができる。
ステップS25乃至S30において、「ほか」以外の抽出単語は、すべて登録単語と同一の単語であるので、それらの単語に対応する抽出日時が現在日時に更新されるが、辞書91には、新たな単語は登録されない。
図15は、図2の項目内容抽出部102が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図16は、図2の記憶部111に記憶される辞書91のさらに他の例を示している。
図15に示すような項目内容が抽出され、図16に示すような辞書91が記憶部111に記憶されているとき、辞書91に登録されている登録単語と同一の「福○謙二」、「野○卓」、「政○マヤ」、「深○里奈」、「安○幸代」の5個の単語が項目内容に含まれているので、図6のステップS13において、登録単語検出部103は、それらの5個の登録単語を検出する。
ステップS15乃至S18において、検出単語「福○謙二」、「野○卓」、「政○マヤ」、「深○里奈」、「安○幸代」の直前にある文字である「)」(小括弧)が前区切り子に決定される。また、ステップS19乃至S22において、検出単語「福○謙二」、「安○幸代」の直後にある文字である「(改行)」と、検出単語「野○卓」、「政○マヤ」、「深○里奈」の直後にある「 」(スペース)が後区切り子に決定される。
そして、ステップS23において、前区切り子「)」(小括弧)と後区切り子「(改行)」に挟まれる単語である「福○謙二」、「渡○卓哉」、「安○幸代」、並びに前区切り子「)」(小括弧)と後区切り子「 」(スペース)に挟まれる単語である「野○卓」、「政○マヤ」、「深○里奈」が抽出され、例えば、図5に示した除外単語121が記憶部111に記憶されている場合、ステップS24において、抽出単語は、すべて除外単語ではないとされる。
ステップS25乃至ステップS30において、抽出単語のうち、登録単語と同一の単語である「福○謙二」、「野○卓」、「政○マヤ」、「深○里奈」、「安○幸代」については、それぞれの単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語「渡○卓哉」については、その単語が辞書91に登録される。このとき、単語「渡○卓哉」に対応付けて現在日時が抽出日時として記憶される。
図15に示したように、「出演者」の項目の内容として、人名の後に、出演者の担当する曜日(例えば、「月〜金」)が括弧書きで記述されている場合においても、図11と同様に、図2の辞書更新装置100は、既に辞書91に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「)」(小括弧)と、後区切り子「(改行)」または「 」(スペース)として抽出することにより、「(人名以外のもの)人名(スペースまたは改行)」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置100は前区切り子「)」(小括弧)と、後区切り子「(改行)」または「 」(スペース)に挟まれる単語を辞書91に登録することにより、出演者の担当する曜日等の人名以外のものを辞書91に登録しないようにすることができる。
図17は、図2の項目内容抽出部102が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図18は、図2の記憶部111に記憶される辞書91のさらに他の例を示している。
図17に示すような項目内容が抽出され、図18に示すような辞書91が記憶部111に記憶されているとき、辞書91に登録されている登録単語と同一の「鳥○浩輔」、「石○堅」、「高○正也」、「松○鷹志」、「荒○香恵」、「子○武人」、「松○吉郎」、「吉○裕行」、「鈴○健一」の9個の単語が項目内容に含まれているので、図6のステップS13において、登録単語検出部103は、それらの9個の単語を検出する。
ステップS15乃至S18において、検出単語「鳥○浩輔」、「石○堅」、「高○正也」、「松○鷹志」、「荒○香恵」、「子○武人」、「松○吉郎」、「吉○裕行」、「鈴○健一」の直前にある文字である「:」(コロン)が前区切り子に決定される。また、ステップS19乃至S22において、検出単語「鳥○浩輔」、「石○堅」、「高○正也」、「松○鷹志」、「荒○香恵」、「子○武人」、「松○吉郎」、「吉○裕行」、「鈴○健一」の直後にある文字である「 」(スペース)が後区切り子に決定される。
そして、ステップS23において、前区切り子「:」(コロン)と、後区切り子「 」(スペース)に挟まれる単語である「鳥○浩輔」、「加○夏希」、「日○野朱里」、「石○堅」、「高○正也」、「松○鷹志」、「荒○香恵」、「子○武人」、「松○吉郎」、「吉○裕行」、「鈴○健一」が抽出され、例えば、図5に示した除外単語121が記憶部111に記憶されている場合、ステップS24において、抽出単語は、すべて除外単語ではないとされる。
ステップS25乃至ステップS30において、抽出単語のうち、登録単語と同一の単語である「鳥○浩輔」、「石○堅」、「高○正也」、「松○鷹志」、「荒○香恵」、「子○武人」、「松○吉郎」、「吉○裕行」、「鈴○健一」については、それぞれの単語と同一の登録単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語「加○夏希」、「日○野朱里」については、それぞれの単語が辞書91に登録される。このとき、単語「加○夏希」、「日○野朱里」に対応付けて現在日時が抽出日時として記憶される。
図17に示したように、「出演者」の項目の内容として、役名(例えば、「叶恭介」)が、図11の括弧内に記述されている場合とは異なり、「:」(コロン)の直前に記述されている(コロンにより役名と人名が区切られている)場合においても、図2の辞書更新装置100は、既に辞書91に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「:」(コロン)と、後区切り子「 」(スペース)として抽出することにより、「(人名以外のもの):(人名) 」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置100は前区切り子「:」(コロン)と、後区切り子「 」(スペース)に挟まれる単語を辞書91に登録することにより、役名等の人名以外のものを辞書91に登録しないようにすることができる。
図19は、図2の項目内容抽出部102が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図20は、図2の記憶部111に記憶される辞書91のさらに他の例を示している。
図19に示すような項目内容が抽出され、図20に示すような辞書91が記憶部111に記憶されているとき、辞書91に登録されている登録単語と同一の「高○かおり」、「大○樹生」、「三○京子」、「大○裕太」、「倉○てつを」、「加○竜」、「香○美子」の7個の単語が項目内容に含まれているので、図6のステップS13において、登録単語検出部103は、それらの7個の単語を検出する。
ステップS15乃至S18において、検出単語「大○樹生」、「三○京子」、「大○裕太」、「倉○てつを」、「加○竜」、「香○美子」の直前にある文字である「)」(小括弧)が前区切り子に決定される。なお、登録単語「高○かおり」の直前にある文字である「]」(大括弧)は、他の検出単語の直前にはないので、前区切り子には決定されない。また、ステップS19乃至S22において、検出単語「高○かおり」、「大○樹生」、「三○京子」、「大○裕太」、「倉○てつを」、「加○竜」、「香○美子」の直後にある文字である「(」(小括弧)が後区切り子に決定される。
そして、ステップS23において、前区切り子「)」(小括弧)と、後区切り子「(」(小括弧)に挟まれる単語である「大○樹生」、「三○京子」、「大○裕太」、「倉○てつを」、「小○麻子」、「加○竜」、「香○美子」が抽出され、例えば、図5に示した除外単語121が記憶部111に記憶されている場合、ステップS24において、抽出単語は、すべて除外単語ではないとされる。
ステップS25乃至ステップS30において、抽出単語のうち、登録単語と同一の単語である「大○樹生」、「三○京子」、「大○裕太」、「倉○てつを」、「加○竜」、「香○美子」については、それぞれの単語と同一の登録単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語「小○麻子」については、その単語が辞書91に登録される。このとき、単語「小○麻子」に対応付けて現在日時が抽出日時として記憶される。
図19に示したように、「出演者」の項目の内容として、役名(例えば、「小川明美」)が、図11と同様に括弧書きされているが、続けて次の人名が書かれている場合、図2の辞書更新装置100は、既に辞書91に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「)」(小括弧)と、後区切り子「(」(小括弧)として抽出することにより、「人名(人名以外のもの)」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置100は前区切り子「)」(小括弧)と、後区切り子「(」(小括弧)に挟まれる単語を辞書91に登録することにより、役名等の人名以外のものを辞書91に登録しないようにすることができる。
図21は、図2の項目内容抽出部102が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図22は、図2の記憶部111に記憶される辞書91のさらに他の例を示している。
図21に示すような項目内容が抽出され、図22に示すような辞書91が記憶部111に記憶されているとき、辞書91に登録されている登録単語と同一の「高○克典」、「羽○美智子」、「保○尚輝」、「恵○彰」、「勝○政信」、「吹○満」、「島○和歌子」、「典○えり」、「益○梨恵」、「秋○太作」、「長○裕之」、「津○雅彦」、「野○陽子」の13個の単語が項目内容に含まれているので、図6のステップS13において、登録単語検出部103は、それらの13個の単語を検出する。
ステップS15乃至S18において、検出単語「羽○美智子」、「保○尚輝」、「恵○彰」、「勝○政信」、「吹○満」、「島○和歌子」、「典○えり」、「益○梨恵」、「秋○太作」、「長○裕之」、「津○雅彦」、「野○陽子」の直前にある文字である「 」(スペース)が前区切り子に決定される。なお、検出単語「高○克典」の直前にある文字である「]」(大括弧)は、他の検出単語の直前にはないので、前区切り子には決定されない。
また、ステップS19乃至S22において、検出単語「高○克典」、「羽○美智子」、「保○尚輝」、「恵○彰」、「勝○政信」、「吹○満」、「島○和歌子」、「典○えり」、「益○梨恵」、「秋○太作」、「長○裕之」、「津○雅彦」の直後にある文字である「 」(スペース)が後区切り子に決定される。なお、検出単語「野○陽子」の直後にある文字である「[」(大括弧)は、他の検出単語の直前にはないので、後区切り子には決定されない。
そして、ステップS23において、前区切り子「 」(スペース)と、後区切り子「 」(スペース)に挟まれる単語である「羽○美智子」、「保○尚輝」、「恵○彰」、「勝○政信」、「吹○満」、「島○和歌子」、「典○えり」、「益○梨恵」、「白○静」、「秋○太作」、「長○裕之」、「津○雅彦」が抽出され、例えば、図5に示した除外単語121が記憶部111に記憶されている場合、ステップS24において、抽出単語は、すべて除外単語ではないとされる。
ステップS25乃至ステップS30において、抽出単語のうち、登録単語と同一の単語である「羽○美智子」、「保○尚輝」、「恵○彰」、「勝○政信」、「吹○満」、「島○和歌子」、「典○えり」、「益○梨恵」、「秋○太作」、「長○裕之」、「津○雅彦」については、それぞれの単語と同一の登録単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語「白○静」については、その単語が辞書91に登録される。このとき、単語「白○静」に対応付けて現在日時が抽出日時として記憶される。
図21に示したように、「出演者」の項目の内容として、最後の人名の直後に「[他]」が記述されている場合においても、図2の辞書更新装置100は、既に辞書91に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「 」(スペース)と、後区切り子「 」(スペース)として抽出することにより、「人名 」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置100は前区切り子「 」(スペース)と、後区切り子「 」(スペース)に挟まれる単語を辞書91に登録することにより、「他」等の人名以外のものを辞書91に登録しないようにすることができる。
図23は、図2の項目内容抽出部102が抽出する「出演者」という項目の内容のさらに他の例を示している。また、図24は、図2の記憶部111に記憶される辞書91のさらに他の例を示している。
図23に示すような項目内容が抽出され、図24に示すような辞書91が記憶部111に記憶されているとき、辞書91に登録されている登録単語と同一の「池○昌子」、「菅○政子」、「中○浩二」、「森○至」の4個の単語が項目内容に含まれているので、図6のステップS13において、登録単語検出部103は、それらの4個の単語を検出する。
ステップS15乃至S18において、検出単語「池○昌子」、「菅○政子」、「中○浩二」、「森○至」の直前にある文字である「/」(斜線)が前区切り子に決定される。また、ステップS19乃至S22において、検出単語「池○昌子」、「菅○政子」、「中○浩二」の直後にある文字である「 」(スペース)が後区切り子に決定される。なお、検出単語「森○至」の直後にある文字である「ほ」は、他の検出単語の直前にはないので、後区切り子には決定されない。
そして、ステップS23において、前区切り子「/」(斜線)と、後区切り子「 」(スペース)に挟まれる単語である「高○真琴」、「池○昌子」、「菅○政子」、「中○浩二」が抽出され、例えば、図5に示した除外単語121が記憶部111に記憶されている場合、ステップS24において、抽出単語は、すべて除外単語ではないとされる。
ステップS25乃至ステップS30において、抽出単語のうち、登録単語と同一の単語である「池○昌子」、「菅○政子」、「中○浩二」については、それぞれの単語と同一の登録単語に対応する抽出日時が現在日時に更新され、登録単語と同一ではない単語「高○真琴」については、その単語が辞書91に登録される。このとき、単語「高○真琴」に対応付けて現在日時が抽出日時として記憶される。
図23に示したように、「出演者」の項目の内容として、役名が、図11、図17、図19とは異なり、「/」(斜線)の直前に記述されている(役名と人名が/(斜線)で分けられている)場合、図2の辞書更新装置100は、既に辞書91に登録されている人名である登録単語と同一の単語の直前直後の文字を、それぞれ前区切り子「/」(斜線)と、後区切り子「 」(スペース)として抽出することにより、「役名/人名 」という規則にしたがって、項目内容が記述されていることを認識することができる。従って、辞書更新装置100は前区切り子「/」(斜線)と、後区切り子「 」(スペース)に挟まれる単語を辞書91に登録することにより、役名や「ほか」等の人名以外の単語を辞書91に登録しないようにすることができる。
以上においては、図1のデジタル放送受信装置1が、ROM30に記憶された辞書更新プログラム82を実行することによって機能的に実現される辞書更新装置100の処理を説明したが、上述したように、デジタル放送受信装置1は、録画再生プログラム81を実行することにより、デジタル放送の録画や再生を行うこともできる。
また、デジタル放送受信装置1は、所定のプログラムを実行することにより、辞書91を用いて、ユーザに対して番組を推薦することもできる。
この場合、デジタル放送受信装置1は、番組情報データを基に、ユーザの嗜好情報にマッチングする番組を選択する。ユーザへの番組の推薦方法としては、例えば、ユーザが選択したキーワードを用いて番組を推薦するキーワード使用方法、ユーザが過去に視聴した番組の履歴を利用して番組を推薦する視聴履歴利用方法等が知られている。
デジタル放送受信装置1は、キーワード使用方法を用いてユーザへ番組の推薦を行う場合、例えば、次のような一連の処理を実行することで、推薦番組をユーザに呈示する。
即ち、例えば、デジタル放送受信装置1では、CPU20の制御により、辞書91に登録されている登録単語が、表示装置27に表示される。そして、ユーザは、操作部29を操作して表示装置27に表示されている登録単語の中から、ユーザの好みの単語を、キーワードとして選択する。操作部29は、ユーザの操作に対応する操作信号をCPU20に送信し、CPU20は、その操作信号に基づいて、ユーザによりキーワードとして選択された登録単語をHDD32に記憶する。
CPU20は、DEMUX24から送信されてくる番組情報データの中から、HDD32に記憶されたキーワードを検索する。キーワードの検索によって、キーワードと同一の単語(以下、キーワード単語という)を番組情報データから検出することができた場合、そのキーワード単語を含む番組情報データに対応する番組を、推薦番組としてユーザに呈示する。
図25は、ユーザにキーワードを選択させるために表示装置27に表示される表示画面の例である。なお、図25では、辞書91に「水○豊」、「寺○康文」、「高○沙耶」、「鈴○砂羽」が登録単語として登録されている。
図25では、登録単語である「水○豊」、「寺○康文」、「高○沙耶」、「鈴○砂羽」の4つの単語が表示されている。ユーザは、操作部29を操作してカーソルを表示装置27に表示されている4つの単語のうちの所望の人物の名前に移動してを選択する。図25では、ユーザにより「水○豊」のみが選択されている。
次に、図26は、登録単語「水○豊」、「寺○康文」、「高○沙耶」、「鈴○砂羽」が登録されている辞書91が、上述したように更新され、単語「前○愛」が、辞書91に新たに登録された場合の、ユーザにキーワードを選択させるために表示装置27に表示される表示画面を示している。
図26では、図25に示した登録単語である「水○豊」、「寺○康文」、「高○沙耶」、「鈴○砂羽」の他に、新たな登録単語「前○愛」が表示されている。従って、ユーザは、「前○愛」も選択することができ、これにより、図25の場合よりも、ユーザの選択肢を広げることができる。
なお、デジタル放送受信装置1では、ユーザにキーワードを選択させるのではなく、ユーザが自らキーワードを入力するようにすることもできる。
図27と図28を参照して、ユーザにキーワードを入力させる場合に、表示装置27に表示される表示画面について説明する。
図27では、ユーザが操作部29を操作することにより、かなである「いしかわ」が入力されている。図27に示すように、ユーザが「いしかわ」を入力した後、漢字変換を指示すると、図28に示すように、一般的な漢字変換候補である「石川」「石河」「いしかわ」「イシカワ」に加えて、登録単語のうち、最初の文字が「石川」や「石河」から始まる単語(例えば、「石川太郎」)が漢字変換候補とされる。即ち、辞書91に登録されている登録単語が、漢字変換候補に加えられる。
これにより、ユーザは、例えば、「石川太郎」をキーワードとして入力したい場合、「いしかわ」という4文字を入力し、漢字変換を指示するだけで、「石川太郎」というキーワードを容易に入力することができる。一般的には、「石川太郎」を入力する場合、「いしかわ」を入力して漢字変換を指示し、「石川」を選択して確定を指示した後、さらに「たろう」を入力して同様の処理を繰り返さなければいけないが、辞書91に登録されている登録単語を用いることにより、ユーザの操作を容易にすることができる。
また、デジタル放送受信装置1は、視聴履歴利用方式を用いてユーザへ番組の推薦を行う場合、例えば、次のような一連の処理を実行することで、推薦番組をユーザに呈示する。
即ち、例えば、デジタル放送受信装置1では、ユーザにより番組の選局や録画などが行われる毎に、その選局や録画などの対象としていた番組の番組情報データをHDD32に蓄積していき、番組情報データがHDD32にある程度蓄積されると、それらの番組の番組情報データに含まれる単語のうちの、上述した辞書91に登録されている1以上の単語と同一の単語を処理対象として、頻度或いはtf/idf法により重み付けし、重み付けられた処理対象の各単語のそれぞれを要素とするベクトル(以下、特徴ベクトルと称する)を生成する。さらに、CPU20は、1以上の特徴ベクトルに基づいてユーザの嗜好を示すベクトル(以下、ユーザ嗜好ベクトルと称する)を生成する。即ち、ユーザ嗜好ベクトルが、視聴履歴方式におけるユーザ嗜好情報である。
また、CPU20は、推薦候補となる番組の番組情報データを取得し、その番組情報データに含まれる単語のうちの、特徴ベクトルの各要素に対応する単語(即ち、辞書91に登録されている1以上の登録単語)と同一の単語を処理対象として、頻度或いはtf/idf法により重み付けし、重み付けされた処理対象の各単語のそれぞれを要素とするベクトル(以下、コンテンツメタベクトルと称する)を生成する。
そして、CPU20は、ユーザ嗜好ベクトルと、推薦候補に対するコンテンツメタベクトルとの類似度を演算し、その類似度が高いと判定した場合、その推薦候補を推薦番組としてユーザに呈示する。
以上のように、視聴履歴利用方式が採用される場合、辞書91に登録されている1以上の登録単語と同一の単語を処理対象として生成された特徴ベクトルに基づいて、ユーザの嗜好ベクトルが生成されるので、辞書91を常に更新することにより、ユーザの嗜好をより正確に抽出することができる。
なお、本実施の形態では、デジタル放送信号を受信し、辞書91を更新したが、デジタル放送信号以外のコンテンツのメタデータを受信し、辞書91を更新することも可能である。
また、かなカナ漢字数字英字以外の文字は、スペース、コンマ、コロン、セミコロン、括弧等の記号であれば、どのようなものでもよい。
また、本実施の形態では、図7のステップS28において、単語選択部106は、辞書91に登録されている登録単語のうち、登録単語に対応付けて記憶されている抽出日時が最も古い登録単語を削除したが、辞書91において、単語抽出部105が登録単語と同一の単語を抽出した回数を、登録単語毎に記憶し、単語選択部106は、その回数が最も少ない単語を削除することが可能である。さらに、辞書91には、抽出日時のほか、所定の期間内に単語抽出部105により登録単語と同一の単語が抽出された回数を、登録単語毎に記憶させ、単語選択部106は、最も古い抽出日時の登録単語が複数ある場合、その複数の登録単語のうちの、抽出された回数が最も少ない登録単語を削除するようにすることも可能である。
さらに、本実施の形態では、図6のステップS14で検出単語が2個以上あるかどうかを判定するようにしたが、3以上の個数以上あるかどうかを判定するようにすることもできる。また、図6のステップS16または図7のステップS20で、同一の前抽出文字または後抽出文字が2個以上あるかどうかを判定するようにしたが、3以上の個数以上あるかどうかを判定するようにすることもできる。
また、図7のステップS25で抽出単語が登録単語と同一の単語ではないと判定された場合、単語選択部106は、その抽出単語が3文字以上の単語であるかどうかを判定し、3文字以上の単語であると判定した場合のみ、ステップS27に進むようにすることもできる。この場合、例えば、辞書91に人名を登録するとき、人名以外の単語の辞書91への登録を防止することができる。即ち、一般的に、人名は3文字以上であることが多い。従って、3文字以上の単語のみを辞書91に新たに登録することにより、辞書91に人名以外の単語が登録されることを防止することができる。
以上のように、辞書更新装置100では、項目内容抽出部102が番組情報データから所定の項目内容を抽出し、その項目内容を用いて辞書91を更新するようにしたので、容易に辞書91を更新することができる。
本発明を適用したデジタル放送受信装置の一実施の形態のハードウェア構成例を示すブロック図である。 図1のデジタル放送受信装置が辞書更新プログラムを実行することによって機能的に実現される辞書更新装置の構成例を示す図である。 図2の番組情報抽出部が抽出する番組情報データの例を示す図である。 図2の記憶部に記憶される辞書の例を示す図である。 図2の記憶部に記憶される除外単語の例を示している。 図2の辞書更新装置が行う辞書更新処理を説明するフローチャートである。 図2の辞書更新装置が行う辞書更新処理を説明するフローチャートである。 図2の項目内容抽出部が抽出する「出演者」という項目の内容の例を示す図である。 図2の項目内容抽出部が抽出する「出演者」という項目の内容の他の例を示す図である。 図2の記憶部に記憶される辞書の他の例を示す図である。 図2の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。 図2の記憶部に記憶される辞書のさらに他の例を示す図である。 図2の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。 図2の記憶部に記憶される辞書のさらに他の例を示す図である。 図2の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。 図2の記憶部に記憶される辞書のさらに他の例を示す図である。 図2の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。 図2の記憶部に記憶される辞書のさらに他の例を示す図である。 図2の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。 図2の記憶部に記憶される辞書のさらに他の例を示す図である。 図2の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。 図2の記憶部に記憶される辞書のさらに他の例を示す図である。 図2の項目内容抽出部が抽出する「出演者」という項目の内容のさらに他の例を示す図である。 図2の記憶部に記憶される辞書のさらに他の例を示す図である。 ユーザにキーワードを選択させるために表示装置に表示される表示画面の例を示す図である。 ユーザにキーワードを選択させるために表示装置に表示される表示画面の他の例を示す図である。 ユーザにキーワードを入力させる場合に、表示装置に表示される表示画面について説明する図である。 ユーザにキーワードを入力させる場合に、表示装置に表示される表示画面について説明する図である。
符号の説明
1 デジタル放送受信装置, 10 ペリフェラルコントローラ, 11乃至15 バス, 20 CPU, 21 チューナ, 22 デスクランブラ, 23 カードI/F, 24 DEMUX, 25 ビデオデコーダ, 26 オーディオデコーダ, 27 表示装置, 28 スピーカ, 29 操作部, 30 ROM, 31 HDD/RAM/Flash, 32 HDD, 81 録画再生プログラム, 82 辞書更新プログラム, 91 辞書, 100 辞書更新装置, 101 番組情報抽出部、 102 項目内容抽出部, 103 登録単語検出部, 104 区切り子抽出部, 105 単語抽出部, 106 単語選択部, 107 現在日時計時部, 111 記憶部, 121 除外単語

Claims (10)

  1. 所定の単語が登録される辞書を有する情報処理装置において、
    コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出手段と、
    前記項目内容抽出手段により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出手段と、
    前記検出手段により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出手段と、
    前記検出手段により検出された複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出手段と、
    前記項目内容から、前記前区切り子抽出手段により抽出された前記前区切り子と、前記後区切り子抽出手段により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出手段と、
    前記単語抽出手段により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録手段と
    を備えることを特徴とする情報処理装置。
  2. 前記かなカナ漢字数字英字以外の文字は、記号である
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記かなカナ漢字数字英字以外の文字は、スペース、コンマ、コロン、セミコロン、または括弧である
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 前記辞書登録手段は、前記未登録単語が、前記辞書に登録しない単語として予め設定されている除外単語ではない場合、前記辞書に登録する
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記除外単語は、アナウンサー、アナ、ほか、またはゲストである
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記辞書登録手段は、さらに、
    前記単語抽出手段により単語が抽出された日付を、単語ごとに記録し、
    前記辞書のデータ量が所定の値以上であるとき、前記登録単語のうち、前記日付が最も古い単語を削除する
    ことを特徴とする請求項1に記載の情報処理装置。
  7. 前記辞書登録手段は、さらに、
    前記単語抽出手段により単語が所定の期間内に抽出された抽出回数を、単語ごとに記録し、
    前記日付が最も古い単語が複数ある場合、その日付が最も古い複数の単語のうち、前記抽出回数の少ない単語を削除する
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記辞書登録手段は、さらに、
    前記単語抽出手段により単語が抽出された抽出回数を、単語ごとに記録し、
    前記辞書のデータ量が所定の値以上であるとき、前記登録単語のうち、前記抽出回数が最も少ない単語を削除する
    ことを特徴とする請求項1に記載の情報処理装置。
  9. 所定の単語が登録される辞書を有する情報処理装置の情報処理方法において、
    コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップと、
    前記項目内容抽出ステップの処理により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出ステップと、
    前記検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップと、
    前記検出ステップの処理により検出された複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップと、
    前記項目内容から、前記前区切り子抽出ステップの処理により抽出された前記前区切り子と、前記後区切り子抽出ステップの処理により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出ステップと、
    前記単語抽出ステップの処理により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録ステップと
    を含むことを特徴とする情報処理方法。
  10. 所定の単語が登録される辞書の更新処理をコンピュータに行わせるプログラムにおいて、
    コンテンツのメタデータから所定の項目内容を抽出する項目内容抽出ステップと、
    前記項目内容抽出ステップの処理により抽出された前記項目内容から、前記辞書に登録された登録単語と同一の単語を検出する検出ステップと、
    前記検出ステップの処理により検出された複数の検出単語それぞれの前にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を前区切り子として抽出する前区切り子抽出ステップと、
    前記検出ステップの処理により検出された複数の前記検出単語それぞれの後にある文字のうち、共通性のある文字を抽出し、その文字が、かなカナ漢字数字英字以外の文字であるとき、その文字を後区切り子として抽出する後区切り子抽出ステップと、
    前記項目内容から、前記前区切り子抽出ステップの処理により抽出された前記前区切り子と、前記後区切り子抽出ステップの処理により抽出された前記後区切り子とに囲まれた単語を抽出する単語抽出ステップと、
    前記単語抽出ステップの処理により抽出された前記単語のうち、前記辞書に登録されていない未登録単語を、新たな登録単語として前記辞書に登録する辞書登録ステップと
    を含むことを特徴とするプログラム。
JP2004113283A 2004-04-07 2004-04-07 情報処理装置および情報処理方法、並びにプログラム Withdrawn JP2005301427A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004113283A JP2005301427A (ja) 2004-04-07 2004-04-07 情報処理装置および情報処理方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004113283A JP2005301427A (ja) 2004-04-07 2004-04-07 情報処理装置および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2005301427A true JP2005301427A (ja) 2005-10-27

Family

ID=35332923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004113283A Withdrawn JP2005301427A (ja) 2004-04-07 2004-04-07 情報処理装置および情報処理方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2005301427A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007201529A (ja) * 2006-01-23 2007-08-09 Kyocera Corp 放送受信方法および装置
JP2009060567A (ja) * 2007-08-07 2009-03-19 Sony Corp 情報処理装置および方法、並びにプログラム
JP2012027569A (ja) * 2010-07-21 2012-02-09 Brother Ind Ltd 印刷装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007201529A (ja) * 2006-01-23 2007-08-09 Kyocera Corp 放送受信方法および装置
JP2009060567A (ja) * 2007-08-07 2009-03-19 Sony Corp 情報処理装置および方法、並びにプログラム
JP2012027569A (ja) * 2010-07-21 2012-02-09 Brother Ind Ltd 印刷装置

Similar Documents

Publication Publication Date Title
US8566785B2 (en) Information processing device, method of processing information, and program
KR101413353B1 (ko) 정보 처리 장치, 정보 처리 방법 및 정보 처리 프로그램
US7756916B2 (en) Display method
US20060167859A1 (en) System and method for personalized searching of television content using a reduced keypad
US7860861B2 (en) Information processing apparatus, information processing method, and program for the same
JP2004526373A (ja) マルチメディアコンテンツ情報に基づいたビデオプログラムのパレンタル制御システム
KR20090076172A (ko) 키워드 제공 방법 및 이를 적용한 영상기기
US7577972B2 (en) Extracting keywords from multilingual alphabetic and glyph scripts in an electronic programming guide
JP4200393B2 (ja) 情報処理装置および情報処理方法
JP2010087976A (ja) 情報処理装置、情報取得方法、情報取得プログラム及び情報検索システム
KR100988255B1 (ko) 정보 처리 장치 및 방법, 및 프로그램이 기록된 컴퓨터로 판독가능한 매체
JPH11252477A (ja) 受信機
US20100169930A1 (en) Broadcasting receiver and method of searching for keyword of broadcasting receiver
US20090183202A1 (en) Method and apparatus to display program information
JP2005301427A (ja) 情報処理装置および情報処理方法、並びにプログラム
US20080016068A1 (en) Media-personality information search system, media-personality information acquiring apparatus, media-personality information search apparatus, and method and program therefor
CN101601284A (zh) 用于搜索电子节目指南的方法和装置
JP2008027186A (ja) 情報検索装置および情報検索方法
JP2014102811A (ja) 情報処理装置及び情報処理方法
KR101508988B1 (ko) 멀티미디어 컨텐츠 리스트 제공방법 및 이를 적용한멀티미디어 기기
JP4531589B2 (ja) 情報検索装置、情報検索方法、情報検索制御プログラムおよびそれを記録した記録媒体、ならびに情報検索装置を備えたテレビ放送受信装置
KR100705073B1 (ko) 선호채널에 관한 이피지 정보의 표시를 위한 텔레비젼수상기 및 방법
JP2008067282A (ja) コンテンツ再生装置、テレビジョン受信装置
JP2009060551A (ja) 映像処理装置
JP4623070B2 (ja) キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070703