JP5713567B2 - 情報処理装置、プログラム及び記録媒体 - Google Patents

情報処理装置、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5713567B2
JP5713567B2 JP2010025640A JP2010025640A JP5713567B2 JP 5713567 B2 JP5713567 B2 JP 5713567B2 JP 2010025640 A JP2010025640 A JP 2010025640A JP 2010025640 A JP2010025640 A JP 2010025640A JP 5713567 B2 JP5713567 B2 JP 5713567B2
Authority
JP
Japan
Prior art keywords
group
data
keyword
data group
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010025640A
Other languages
English (en)
Other versions
JP2011164851A (ja
Inventor
貴久 白川
貴久 白川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2010025640A priority Critical patent/JP5713567B2/ja
Publication of JP2011164851A publication Critical patent/JP2011164851A/ja
Application granted granted Critical
Publication of JP5713567B2 publication Critical patent/JP5713567B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、プログラム及び記録媒体に関し、特に、ユーザの操作しているデータに関連する情報やユーザの所望する情報の検索に好ましく適用される技術に関するものである。
今日、インターネット等のネットワーク環境の普及に伴って、ネットワーク上のサーバに対して情報検索を行う情報検索システムが広く利用されている。このような情報検索システムとしては、例えばGoogle(登録商標)やヤフー(登録商標)等から提供されるインターネット検索エンジンも含まれる。これらの情報検索システムにおいては、入力された検索キーワードのヒット件数が多いことが少なくとも含まれるいくつかの条件をもとに重要と判断される情報を上から順に紹介するのが一般的である。検索する側からは検索キーワードが唯一の制御手段であるため、ユーザは、所望の情報を検索するために検索キーワードを正確に入力する必要がある。
しかし、ユーザがどのような検索キーワードを入力すればよいか分からない場合にシステムで支援したり、操作負担の軽減のために自動化したい場合もある。その場合、システムで検索キーワードの意味情報を理解した上で検索キーワードを作成することは技術的に困難であることから、機械的に検索キーワードを作成することになる。そして、これらの情報検索システムにおける、機械的に作成されたキーワードを用いた検索結果はノイズ(ゴミ情報)が多く、ユーザの求める情報としての質は悪くなる。
例えば特許文献1には、ユーザがファイルを経験したときの経験の強さを用いて、ユーザが目的のファイルを迅速に見つけることができるようにした検索方法が開示されている。当該検索方法では、過去の閲覧経験の強弱(閲覧時間の長さ)に基づいて検索結果の順序を変更している。
特開2006−185164号公報
特許文献1で開示された検索方法は、過去の閲覧時間の長さに基づいて検索結果の順序を変更してユーザ所望のファイルを見つけようとするものだが、必ずしも閲覧時間の長さがユーザの望む検索結果に結び付くわけではない。むしろ、ユーザの操作している時期・期間に着目し、所定の時期・期間にユーザが操作したデータに関連する情報の方がユーザの興味が反映されているといえる。また、情報についてデータを操作した場所に着目し、所定の場所やエリアでユーザが操作したデータに関連する情報がユーザの興味に反映されている場合もある。
また、ユーザの求める情報としての質の良い検索結果を得るためには、より多くの検索キーワードを入力すればよいが、精度の高い検索結果を得るための検索キーワードにプライバシー情報が多分に含まれる場合、このような情報までネットワークを介して情報検索システムに送ってしまうことはプライバシー保護の観点から適切とはいえない。
そこで、本発明は、プライバシー保護を講じつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示できるようにすることを目的とする。
本発明の一側面である情報処理装置は、第1データ群と第2データ群を記憶する記憶手段と、前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きい文字列の群を第1キーワード群として抽出し、前記第2データ群から、前記第1データ群との関連が前記第2データ群との関連より小さい文字列の群を、第2キーワード群として抽出するキーワード抽出手段と、データの検索を行う検索装置に対して前記第1キーワード群による検索を要求し、検索結果を取得する検索手段と、前記検索結果が前記第2キーワード群のいずれかを含む場合、ユーザへのデータ提示の順位を下げる提示順位付け手段と、を有することを特徴とする。
或いは、第1データ群と第2データ群を記憶する記憶手段と、前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きい文字列の群を第1キーワード群として抽出し、前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きいとともに前記第1キーワード群と異なる文字列の群を、第3キーワード群として抽出するキーワード抽出手段と、データの検索を行う検索装置に対して前記第1キーワード群による検索を要求し、検索結果を取得する検索手段と、前記検索結果が前記第3キーワード群のいずれかを含む場合、ユーザへのデータ提示の順位を上げる提示順位付け手段と、を有することを特徴とする。
本発明の一側面であるプログラムは、第1データ群と第2データ群を記憶する記憶手段を備える情報処理装置に用いられるプログラムであって、コンピュータに、前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きい文字列の群を第1キーワード群として抽出し、前記第2データ群から、前記第1データ群との関連が前記第2データ群との関連より小さい文字列の群を、第2キーワード群として抽出するキーワード抽出処理と、データの検索を行う検索装置に対して前記第1キーワード群による検索を要求し、検索結果を取得する検索処理と、前記検索結果が前記第2キーワード群のいずれかを含む場合、ユーザへのデータ提示の順位を下げる提示順位付け処理と、を実行させることを特徴とする。
或いは、第1データ群と第2データ群を記憶する記憶手段を備える情報処理装置に用いられるプログラムであって、コンピュータに、前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きい文字列の群を第1キーワード群として抽出し、前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きいとともに前記第1キーワード群と異なる文字列の群を、第3キーワード群として抽出するキーワード抽出処理と、データの検索を行う検索装置に対して前記第1キーワード群による検索を要求し、検索結果を取得する検索処理と、前記検索結果が前記第3キーワード群のいずれかを含む場合、ユーザへのデータ提示の順位を上げる提示順位付け処理と、を実行させることを特徴とする。
本発明の一側面である記録媒体は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、プライバシー保護を講じつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示することが可能となる。
本発明の実施形態に係るPCのハードウェア構成を示した図である。 本発明の実施形態に係るPCの機能構成を示した図である。 本発明の実施形態に係る情報提示処理の流れを示したチャート図である。 本発明の実施形態(第1)に係るキーワード抽出処理の流れを示したチャート図である。 本発明の実施形態(第1)に係る順位付け処理の流れを示したチャート図である。 本発明の実施形態(第2)に係るキーワード抽出処理の流れを示したチャート図である。 本発明の実施形態(第2)に係る順位付け処理の流れを示したチャート図である。 本発明の実施形態(第3)に係る順位付け処理の流れを示したチャート図である。 本発明の実施形態におけるキーワード群及びこれを用いた順位付けを説明するための図である。
以下、本発明の実施形態について図面を参照して説明する。
[第1実施形態]
本発明の第1実施形態は、ユーザが着目している(例えば所定期間(例えば直近)に操作した)データである第1データ群から抽出した第1キーワード群を用いて外部の検索装置から検索結果を取得し、その検索結果について、ユーザの情報処理装置が保持するデータのうち第1データ群を除いた第2データ群から抽出した第2キーワード群を用いてユーザへの提示データの順位付けを行うことにより、プライバシー情報の流出を抑制しつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示しようとするものである。
はじめに、本実施形態に係るPCの構成について説明する。図1は、本実施形態に係るPCのハードウェア構成を示した図である。本実施形態のPC1は、一般的なハードウェア構成を持つPCであり、CPU2、メモリ3、ハードディスク4、入力装置5、出力装置6を備える。CPU2は、メモリ3に格納されたOSや本実施形態特有のプログラムに従って、情報処理装置の全体動作制御を行うとともに、第1データ群から第1キーワード群を抽出して外部の検索装置から第1キーワード群による検索結果を取得し、第2データ群から第2キーワード群を抽出して該検索結果について第2キーワード群を用いて提示データの順位付けを行う。メモリ3は、OSや本実施形態特有のプログラムを格納する記憶領域(ROM)、CPU2の各種処理等で用いる作業用の記憶領域(RAM)を持つ。ハードディスク4は、ユーザの操作対象となるデータ等、各種データを保持する外部記憶装置である。入力装置5は、ユーザによる操作情報の入力を行う装置である。出力装置6は、各種データの画面出力を行う装置である。
図2は、本実施形態に係るPCの機能構成を示した図である。本実施形態のPCは、CPU2がメモリ3に格納された本実施形態特有のプログラムを読み込んで、第1データ群から第1キーワード群を抽出して外部の検索装置から第1キーワード群による検索結果を取得し、第2データ群から第2キーワード群を抽出して該検索結果について第2キーワード群を用いて提示データの順位付けを行うための機能部である制御部100を構成する。制御部100は、プロパティ取得手段110、キーワード抽出手段120、検索手段130、提示順位付け手段140を論理的に有する。
プロパティ取得手段110は、ハードディスク4に記憶されたデータ(ファイル)からプロパティを取得する。例えば、記憶されたデータが画像データの場合、GPS情報、日時、タグ情報(撮影機種、撮影感度等の撮影情報)等がプロパティとなる。また、Webページの場合、タイトル、本文、入力した文字データ等がプロパティとなる。
キーワード抽出手段120は、プロパティ取得手段110が取得したプロパティのうち時系列(操作履歴)でグルーピングした所定期間に対応するプロパティ(第1データ群)から、第1データ群特有のキーワード(第1キーワード群)を抽出する。また、プロパティ取得手段110が取得したプロパティのうち第1データ群を除くプロパティ(第2データ群)から、第2データ群特有のキーワード(第2キーワード群)を抽出する。
なお、第1データ群には、プロパティのほか後述するようにファイルも含む。また、ユーザが所定期間に操作したデータ(プロパティ、ファイル)のほかに、該操作データと共通する情報を含む関連データが第1データ群に含まれていてもよい。ユーザが所定期間に操作したデータに共通する情報としては、例えばニューヨークへの旅行中に撮影した写真画像のプロパティとしてのGPS情報(ニューヨークの位置情報)といった場所やエリアに関する情報が考えられる。そして、関連データは、ハードディスク4に記憶された所定期間の操作データ以外のデータ(例えば所定期間が直近の場合には過去に操作したデータ)で、このような場所やエリアに関する情報を含むデータである。
検索手段130は、データの検索を行う外部の検索装置に対して、キーワード抽出手段120が抽出した第1キーワード群による検索を要求し、その検索結果を取得する。当該検索装置は、前述のGoogle(登録商標)やヤフー(登録商標)といったインターネット検索エンジンのほか、画像検索サービスのフリッカー、明細書検索サービスの特許庁ホームページにより各種検索サービスを行うサーバ装置が含まれる。
提示順位付け手段140は、検索手段130が取得した検索結果について、キーワード抽出手段120が抽出した第2キーワード群を用いてユーザに提示するデータの順位付けを行う。
次に、本実施形態に係るPC1が行う動作について説明する。図3は本実施形態に係る情報提示処理の流れを示したチャート図、図4は本実施形態に係るキーワード抽出処理の流れを示したチャート図、図5は本実施形態に係る順位付け処理の流れを示したチャート図である。はじめに、本実施形態のPCが行う全体の処理(情報提示処理:検索サービス等による検索結果を順位付けしてユーザに提示する処理)について述べる。
まず、プロパティ取得手段110は、ハードディスク4に記憶されたファイルからプロパティを取得し(S1)、時系列(操作履歴)でグルーピングしてキーワード抽出に用いるプロパティ情報として保持する(S2)。操作履歴は、データの更新日時から把握することができる。また、グルーピングは、時系列(操作履歴)のほかにファイルの種類(拡張子)に基づいて行ってもよいし、ユーザに能動的に指定させてもよい。そして、プロパティ取得手段110は、時系列(操作履歴)でグルーピングされたプロパティとファイルをキーワード抽出手段120に送信する(S3)。ファイルを一緒に送信するのは、プロパティのみでは有効なキーワード抽出が期待できない場合があるためである(例えばWord(登録商標)のプロパティはタイトル、作成者等のみで本文の内容は含まれていない)。
次に、キーワード抽出手段120は、プロパティ取得手段110からグルーピングされたプロパティとファイルを受信した後、所定期間(ここでは直近とする)に対応するプロパティとファイル(第1データ群)から第1キーワード群を抽出し、受信したプロパティ及びファイルのうち第1データ群を除いたもの(第2データ群)から第2キーワード群を抽出する(S4)。キーワード抽出処理の詳細については後述する。そして、キーワード抽出手段120は、抽出したキーワード群のうち第1キーワード群を検索手段130に送信する(S5)。
次に、検索手段130は、外部の検索装置(例えばWebサーバ)に対して、キーワード抽出手段120から受信した第1キーワード群とともに検索要求を送信する(S6)。外部の検索装置は、PC1(検索手段130)から検索要求を受信した後、第1キーワード群を用いてデータ検索を行い(S7)、検索結果をPC1(検索手段130)に送信する(S8)。外部の検索装置からPC1に送信される検索結果には、画面表示される結果リストのみならず、表示対象のデータであるファイルが含まれる。含まれていない場合は、結果リストをもとにデータを取得すればよい。
次に、検索手段130は、キーワード抽出手段120に対して検索結果を受信した旨を通知するとともに(S9)、提示順位付け手段140に検索結果を送信する(S10)。キーワード抽出手段120は、検索手段130からの通知を受けて、抽出したキーワード群のうち第2キーワード群を提示順位付け手段140に送信する(S11)。
次に、提示順位付け手段140は、キーワード抽出手段120から受信した第2キーワード群を用いて、検索手段130から受信した検索結果について、ユーザに対する検索結果の表示順位付けを行う(S12)。順位付け処理の詳細については後述する。そして、提示順位付け手段140は、順位付け処理結果を出力装置6(ここでは表示装置とする)に出力するための表示データを生成し(S13)、出力装置6(表示装置)に送信する(S14)。
次に、出力装置6(表示装置)は、提示順位付け手段140から受信した表示データを検索結果として画面表示する(S15)。なお、出力装置6は、表示装置のほかに音声出力装置でもよく、その場合には提示順位付け手段140で生成された音声出力データを検索結果として出力する。
キーワード群の抽出処理について説明する。はじめに、図4(a)を参照して第1キーワード群の抽出処理について述べる。キーワード抽出手段120は、プロパティ取得手段110から受信したグルーピングされたプロパティとファイルから第1データ群に含まれ、未処理のプロパティ及びファイルを取得する(S101/YES、S102)。例えば、第1データ群の判断に用いるパラメータとして、現在の日付から3ヶ月前の日付をあらかじめ設定しておき、更新日がこれらの日付の範囲に含まれる場合に第1データ群に該当すると判断するようにすることができる。また、パラメータはユーザにより任意の値を設定できるようにしてもよく、こうすることでユーザが着目したい期間のプロパティやファイルを自由に指定することが可能である。
次に、キーワード抽出120は、取得した未処理のプロパティ及びファイルについて単語に分解する処理を行う(S103)。単語の分解は公知の形態素解析ツールを用いて行うことができる。このような形態素解析ツールでは、対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付き単語リスト)を情報源として用いて、自然言語で書かれた文を形態素(言語で意味を持つ最小単位、ここでいう単語)の列に分解する。
次に、キーワード抽出120は、未処理の単語を取得し(S104/YES、S105)、該単語の第1データ群中の出現頻度を求める(S106)。第1データ群中の出現頻度は、該単語を用いて第1データ群のプロパティ及びファイルを検索し、出現する回数(頻度)をカウントすることで求めることができる。また、同様にして、該単語の第2データ群中の出現頻度を求める(S107)。
次に、キーワード抽出120第1データ群中の出現頻度と第2データ群中の出現頻度との比と所定の閾値(第1閾値)を比較し(S108)、出現頻度比が第1閾値より大きい場合(S108/YES)、該単語を第1キーワード群に追加する(S109)。
これらの処理(S104〜S109)を未処理の単語がなくなるまで行い(S104/YES)、未処理の単語がなくなったら第1データ群のうち未処理のデータについて処理を行う(S101/YES、S102以降)。第1データ群で未処理のデータがなくなったら(S101/NO)、第1キーワード群の抽出処理を終了する。
本実施形態では、図9(a)に示すように、第1データ群に含まれる単語(単語A)の、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より大きい場合に、該単語を第1キーワード群とする。このキーワード抽出手法は、文書データベースから文書を検索する技術として用いられるTFIDF法の考え方に沿うものである。TFIDF法では、求められる文書の特徴とは関係のない単語(助詞、接続詞等)による影響を排除して、求められる文書の特徴ベクトル(評価値)を得る。本実施形態において、第1データ群中の出現頻度と第2データ群中の出現頻度の比を用いるのは、第1データ群に特有の単語をキーワードとして抽出するためである。
次いで、図4(b)を参照して第2キーワード群の抽出処理について述べる。基本的な処理は第1キーワード群の抽出処理と同様である。キーワード抽出手段120は、プロパティ取得手段110から受信したグルーピングされたプロパティとファイルから第2データ群に含まれ(第1データ群ではなく)、未処理のプロパティ及びファイルを取得する(S111/YES、S112)。
次に、キーワード抽出120は、取得した未処理のプロパティ及びファイルについて単語に分解する処理を行う(S113)。そして、未処理の単語を取得して(S114/YES、S115)、該単語の第2データ群中の出現頻度を求め(S116)、該単語の第1データ群中の出現頻度を求める(S117)。そして、第2データ群中の出現頻度と第1データ群中の出現頻度との比と所定の閾値(第2閾値)を比較し(S118)、出現頻度比が第2閾値より大きい場合(S118/YES)、該単語を第2キーワード群に追加する(S119)。
これらの処理(S114〜S119)を未処理の単語がなくなるまで行い(S114/YES)、未処理の単語がなくなったら第1データ群のうち未処理のデータについて処理を行う(S111/YES、S112以降)。第1データ群で未処理のデータがなくなったら(S111/NO)、第1キーワード群の抽出処理を終了する。
本実施形態では、図9(a)に示すように、第2データ群に含まれる単語(単語B)の、第2データ群中の出現頻度と第1データ群中の出現頻度の比が第2閾値より大きい場合に、該単語を第2キーワード群とする。第2データ群中の出現頻度と第1データ群中の出現頻度の比を用いるのは、第2データ群に特有の単語をキーワードとして抽出するためである。
本実施形態の順位付け処理(第2キーワード群を用いた順位付け処理)について図5を参照して説明する。まず、提示順位付け手段140は、検索手段130から受信した検索結果のうち未処理のものを取得する(S121/YES、S122)。そして、取得した検索結果を第2キーワード群で検索する(S123)。当該検索結果に第2キーワード群が含まれている場合(S124/YES)、該データ(第2キーワード群が含まれていたデータ)の表示順位を最下位にする(S125)。もしくは、最下位にする代わりに、該当した第2のキーワードの出現頻度比と第2の閾値との差異の大小で決まる順位だけ順位を下げる方法を用いてもよい。当該検索結果に第2キーワード群が含まれていない場合(S124/NO)、別の未処理の検索結果について同様の処理を行う(S121/YES、S122以降)。以上の処理を未処理の検索結果がなくなるまで行い、未処理の検索結果がなくなったら(S121/NO)、第2キーワード群を用いた順位付け処理を終了する。
本実施形態の検索・順位付け処理の概念図を図9(b)に示す。本実施形態では、第1段階として、ユーザの着目しているデータ(第1データ群)特有の単語(第1キーワード群)を用いてネット上で検索を行う。ここでの検索結果は、第1キーワード群を含むものだが、同時に、PC1が保持するデータのうち第1データ群を除く第2データ群特有の単語(第2キーワード群)を含むものもある。そして、第2段階として、第1キーワード群による検索結果を第2キーワード群で検索し、該当するものの順位を下げる。これにより、該検索結果の中から第2データ群に関連するものを排除している。結果として、第1データ群に関連したデータを優先的に表示することができる。暫定的な結果を表示することができ、またメモリ消費量も少なくて済むというメリットがある。
[第2実施形態]
本発明の第2実施形態は、第1データ群から抽出した第1キーワード群を用いて外部の検索装置から検索結果を取得し、その検索結果について、第1データ群から抽出した第3キーワード群を用いてユーザへの提示データの順位付けを行うことにより、プライバシー情報の流出を抑制しつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示しようとするものである。第1実施形態との違いは、提示データの順位付けに、第1キーワード群とは別の閾値を用いて第1データ群から抽出したキーワード群(第3キーワード群)を用いる点である。第1実施形態と共通する点は説明を省略し、相違する点について述べる。
本実施形態のキーワード群の抽出処理について図6を参照して説明する。キーワード抽出手段120は、プロパティ取得手段110から受信したグルーピングされたプロパティとファイルから第1データ群に含まれ、未処理のプロパティ及びファイルを取得する(S201/YES、S202)。
次に、キーワード抽出120は、取得した未処理のプロパティ及びファイルについて単語に分解する処理を行う(S203)。そして、未処理の単語を取得し(S204/YES、S205)、該単語の第1データ群中の出現頻度を求め(S206)、該単語の第2データ群中の出現頻度を求める(S207)。
次に、キーワード抽出120は、第1データ群中の出現頻度と第2データ群中の出現頻度との比と所定の閾値(第1閾値)を比較し(S208)、出現頻度比が第1閾値より大きい場合(S208/YES)、該単語を第1キーワード群に追加する(S209)。出現頻度比が第1閾値以下の場合(S208/NO)、出現頻度比と所定の閾値(第3閾値)を比較し(S210)、出現頻度比が第3閾値より大きい場合(S210/YES)、該単語を第3キーワード群に追加する(S211)。
これらの処理(S204〜S211)を未処理の単語がなくなるまで行い(S204/YES)、未処理の単語がなくなったら第1データ群のうち未処理のデータについて処理を行う(S201/YES、S202以降)。第1データ群で未処理のデータがなくなったら(S201/NO)、第1及び第3キーワード群の抽出処理を終了する。
本実施形態では、図9(a)に示すように、第1データ群に含まれる単語(単語A)の、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より大きい場合に、該単語を第1キーワード群とし、この出現頻度比が第3閾値より大きく第1閾値以下の場合に、該単語を第3キーワード群としている。第1データ群中の出現頻度と第2データ群中の出現頻度の比を用いるのは、第1データ群に特有の単語をキーワードとして抽出するためである。また、第3閾値を用いて第3キーワード群を抽出しているのは、第1キーワード群を補完するキーワードを得るためである。
本実施形態の順位付け処理(第3キーワード群を用いた順位付け処理)について図7を参照して説明する。まず、提示順位付け手段140は、検索手段130から受信した検索結果のうち未処理のものを取得する(S221/YES、S222)。そして、取得した検索結果を第3キーワード群で検索する(S223)。当該検索結果に第3キーワード群が含まれている場合(S224/YES)、該データ(第3キーワード群が含まれていたデータ)の表示順位を最上位にする(S225)。もしくは、最上位にする代わりに、該当した第3のキーワードの出現頻度比と第3の閾値との差異の大小で決まる順位だけ順位を上げる方法を用いてもよい。当該検索結果に第3キーワード群が含まれていない場合(S224/NO)、別の未処理の検索結果について同様の処理を行う(S221/YES、S222以降)。以上の処理を未処理の検索結果がなくなるまで行い、未処理の検索結果がなくなったら(S221/NO)、第3キーワード群を用いた順位付け処理を終了する。
本実施形態の検索・順位付け処理の概念図を図9(b)に示す。本実施形態では、第1段階として、ユーザの着目しているデータ(第1データ群)特有の単語(第1キーワード群)を用いてネット上で検索を行う。ここでの検索結果は、第1データ群特有の単語の一部(第1キーワード群)で検索したもので、精度の甘さが残っている。そして、第2段階として、第1キーワード群による検索結果を第3キーワード群で検索し、該当するものの順位を上げる。これにより、第1データ群特有の単語をさらに用いて(第3キーワード群を用いて)、第1データ群に関連するものを検索している。結果として、第1データ群に関連したデータを優先的に表示することができる。さらに、ここで優先的に表示されるデータは、ユーザが着目したデータとしての質が高い。
[第3実施形態]
本発明の第3実施形態は、第1実施形態と第2実施形態を組み合わせたもので、プライバシー情報の流出を抑制しつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示しようとするものである。第1実施形態及び第2実施形態で触れられていない処理について述べる。
本実施形態の順位付け処理(第2及び第3キーワード群を用いた順位付け処理)について図8を参照して説明する。まず、提示順位付け手段140は、検索手段130から受信した検索結果のうち未処理のものを取得する(S321/YES、S322)。そして、取得した検索結果を第2キーワード群で検索する(S323)。当該検索結果に第2キーワード群が含まれている場合(S324/YES)、該データ(第2キーワード群が含まれていたデータ)の表示順位を最下位にする(S325)。当該検索結果に第2キーワード群が含まれていない場合(S324/NO)、次の処理(S326以降)に進む。
次に、提示順位付け手段140は、取得した検索結果を第3キーワード群で検索する(S326)。当該検索結果に第3キーワード群が含まれている場合(S327/YES)、該データ(第3キーワード群が含まれていたデータ)の表示順位を最上位にする(S328)。当該検索結果に第3キーワード群が含まれていない場合(S327/NO)、別の未処理の検索結果について同様の処理を行う(S221/YES、S222以降)。以上の処理を未処理の検索結果がなくなるまで行い、未処理の検索結果がなくなったら(S221/NO)、第2及び第3キーワード群を用いた順位付け処理を終了する。
本実施形態では、第1実施形態や第2実施形態と同様に、第1データ群に関連したデータを優先的に表示することができる。また、第2実施形態でも述べたように、ここで優先的に表示されるデータは、ユーザが着目したデータとしての質が高い。さらに、第1実施形態で述べたように、暫定的な結果を表示することができ、またメモリ消費量も少なくて済むというメリットがある。
第1実施形態から第3実施形態として述べた本発明は、具体的な例として、例えばWebページ検索、画像検索、論文検索等に適用することができる。Webページ検索では、プロパティであるタイトル、本文、入力した文字データ等から第1キーワード群、第2キーワード群等を抽出し、外部の検索装置であるGoogle(登録商標)やヤフー(登録商標)等のインターネット検索エンジンから第1キーワード群を用いた検索結果を取得し、PCにおいて第2キーワード群等を用いて検索結果の表示順位付けを行う。
画像検索では、位置情報(GPS情報)、時間情報(日時)、タグ情報(撮影機種、撮影感度、顔画像認識結果等)をプロパティとして用いて、これらから第1キーワード群、第2キーワード群等を抽出し、外部の検索装置である画像検索サービスのフリッカーから第1キーワード群を用いた検索結果を取得し、PCにおいて第2キーワード群等を用いて検索結果の表示順位付けを行う。例えば、秋に京都で撮影した画像データが第1データ群であるとき、京都の紅葉に関連した画像を優先的に画面表示することが可能である。また、第1キーワード群に撮影機種や撮影感度が含まれる場合、撮影手法に関するWebページをインターネット検索エンジンから取得して画面表示することも可能である。
また、清水寺、二条城、四条河原町、・・・等での撮影画像がある場合、通常、個々の位置情報では頻度が不足して第1キーワード群にはならず、第3キーワード群となる。そのため、個々の詳細な位置情報は検索サイトには送信されず、十分な頻度となる「京都」というより広範囲な概要情報だけが送信される。これにより、プライバシー情報を保護することができる。その上で、第3キーワード群である「清水寺」、「二条城」、「四条河原町」等を用いて、ユーザの興味から遠い撮影画像がない地点での情報から、有用な情報を浮き上がらせることができる。
さらに、第1データ群に、ユーザが所定期間に操作したデータのほかに、該操作データと共通する情報を含む関連データを含めるようにした場合、以下のようなことが可能である。すなわち、例えばユーザが直近にニューヨークへの旅行写真を用いてブログの更新をしていたような場合、直近操作データに関する場所であるニューヨークを共通の情報として持つ他の保持データからも第1キーワード群を抽出でき、こうして抽出した第1キーワード群を用いることで、ユーザの興味がより反映されているデータを検索して提示することができる。
なお、上述する実施形態は、本発明の好適な実施形態であり、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。本発明が適用される情報処理装置として、PCのほか、携帯電話機やPDA等の携帯端末が挙げられる。
また、本実施形態のPC1で実行されるプログラムは、先に述べた各手段(プロパティ取得手段110、キーワード抽出手段120、検索手段130、提示順位付け手段140)を含むモジュール構成となっており、実際のハードウェアを用いて具体的手段を実現する。すなわち、コンピュータ(CPU)が所定の記録媒体からプログラムを読み出して実行することにより上記各手段が主記憶装置上にロードされて生成される。
本実施形態のPC1で実行されるプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードさせることにより提供されるように構成してもよい。また、上記プログラムをインターネット等のネットワーク経由で提供あるいは配布するように構成してもよい。
また、上記プログラムは、インストール可能な形式又は実行可能な形式のファイルで、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD、不揮発性のメモリカード等のコンピュータで読み取り可能な記録媒体に記録されて提供されるように構成してもよい。また、上記プログラムは、ROM等にあらかじめ組み込んで提供するように構成してもよい。
この場合、上記記録媒体から読み出された又は通信回線を通じてロードし実行されたプログラムコード自体が前述の実施形態の機能を実現することになる。そして、そのプログラムコードを記録した記録媒体は本発明を構成する。
1 PC
2 CPU
3 メモリ
4 ハードディスク
5 入力装置
6 出力装置
100 制御部
110 プロパティ取得手段
120 キーワード抽出手段
130 検索手段
140 提示順位付け手段

Claims (15)

  1. 第1データ群と第2データ群を記憶する記憶手段と、
    前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きい文字列の群を第1キーワード群として抽出し、
    前記第2データ群から、前記第1データ群との関連が前記第2データ群との関連より小さい文字列の群を、第2キーワード群として抽出するキーワード抽出手段と、
    データの検索を行う検索装置に対して前記第1キーワード群による検索を要求し、検索結果を取得する検索手段と、
    前記検索結果が前記第2キーワード群のいずれかを含む場合、ユーザへのデータ提示の順位を下げる提示順位付け手段と、を有する
    ことを特徴とする情報処理装置。
  2. 前記キーワード抽出手段は、前記第1データ群に含まれる文字列の中から、前記第1データ群における出現頻度が前記第2データ群における出現頻度より大きい文字列の群を、前記第1キーワード群として抽出し、
    前記第2データ群に含まれる文字列の中から、前記第1データ群における出現頻度が前記第2データ群における出現頻度より小さい文字列の群を、前記第2キーワード群として抽出することを特徴とする、請求項1に記載の情報処理装置。
  3. 第1データ群と第2データ群を記憶する記憶手段と、
    前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きい文字列の群を第1キーワード群として抽出し、
    前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きいとともに前記第1キーワード群と異なる文字列の群を、第3キーワード群として抽出するキーワード抽出手段と、
    データの検索を行う検索装置に対して前記第1キーワード群による検索を要求し、検索結果を取得する検索手段と、
    前記検索結果が前記第3キーワード群のいずれかを含む場合、ユーザへのデータ提示の順位を上げる提示順位付け手段と、を有する
    ことを特徴とする情報処理装置。
  4. 前記キーワード抽出手段は、前記第1データ群に含まれる文字列の中から、前記第1データ群における出現頻度が前記第2データ群における出現頻度より大きい文字列の群を、前記第1キーワード群として抽出し、
    前記第1データ群に含まれる文字列の中から、前記第1データ群における出現頻度が前記第2データ群における出現頻度より大きいとともに前記第1キーワード群と異なる文字列の群を、前記第3キーワード群として抽出することを特徴とする、請求項3に記載の情報処理装置。
  5. 前記記憶手段に記憶されたデータからプロパティを取得するプロパティ取得手段をさらに有し、
    前記キーワード抽出手段は、少なくとも前記プロパティ取得手段で取得されたプロパティを用いて抽出を行うことを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
  6. 前記第1データ群には、ユーザが所定期間に操作したデータが含まれることを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。
  7. 前記第1データ群には、ユーザが所定期間に操作したデータと共通する情報を含む関連データが含まれることを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
  8. 前記キーワード抽出手段は、キーワード抽出の際、時間に関するキーワードについて、タイムスタンプを、年、半期、四半期、季節、月、日、オフィスアワー、午前、午後、起床時間帯、通勤通学時間帯、昼食時間帯、間食時間帯、夕食時間帯に置き換え、場所に関するキーワードについて、緯度経度及び観測精度の情報を、矩形や円形の複数の大きさの距離範囲、住所情報、郵便番号情報に置き換えることを特徴とする請求項5から7のいずれか1項に記載の情報処理装置。
  9. 第1データ群と第2データ群を記憶する記憶手段を備える情報処理装置に用いられるプログラムであって、
    コンピュータに、
    前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きい文字列の群を第1キーワード群として抽出し、
    前記第2データ群から、前記第1データ群との関連が前記第2データ群との関連より小さい文字列の群を、第2キーワード群として抽出するキーワード抽出処理と、
    データの検索を行う検索装置に対して前記第1キーワード群による検索を要求し、検索結果を取得する検索処理と、
    前記検索結果が前記第2キーワード群のいずれかを含む場合、ユーザへのデータ提示の順位を下げる提示順位付け処理と、を実行させる
    ことを特徴とするプログラム。
  10. 前記キーワード抽出処理は、前記第1データ群に含まれる文字列の中から、前記第1データ群における出現頻度が前記第2データ群における出現頻度より大きい文字列の群を、前記第1キーワード群として抽出し、
    前記第2データ群に含まれる文字列の中から、前記第1データ群における出現頻度が前記第2データ群における出現頻度より小さい文字列の群を、前記第2キーワード群として抽出することを特徴とする、請求項9に記載のプログラム。
  11. 第1データ群と第2データ群を記憶する記憶手段を備える情報処理装置に用いられるプログラムであって、
    コンピュータに、
    前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きい文字列の群を第1キーワード群として抽出し、
    前記第1データ群から、前記第1データ群との関連が前記第2データ群との関連より大きいとともに前記第1キーワード群と異なる文字列の群を、第3キーワード群として抽出するキーワード抽出処理と、
    データの検索を行う検索装置に対して前記第1キーワード群による検索を要求し、検索結果を取得する検索処理と、
    前記検索結果が前記第3キーワード群のいずれかを含む場合、ユーザへのデータ提示の順位を上げる提示順位付け処理と、を実行させる
    ことを特徴とするプログラム。
  12. 前記キーワード抽出処理は、前記第1データ群に含まれる文字列の中から、前記第1データ群における出現頻度が前記第2データ群における出現頻度より大きい文字列の群を、前記第1キーワード群として抽出し、
    前記第1データ群に含まれる文字列の中から、前記第1データ群における出現頻度が前記第2データ群における出現頻度より大きいとともに前記第1キーワード群と異なる文字列の群を、前記第3キーワード群として抽出することを特徴とする、請求項11に記載のプログラム。
  13. 前記記憶手段に記憶されたデータからプロパティを取得するプロパティ取得処理をコンピュータにさらに実行させ、
    前記キーワード抽出処理は、少なくとも前記プロパティ取得処理で取得されたプロパティを用いて抽出を行うことを特徴とする請求項9から12のいずれか1項に記載のプログラム。
  14. 前記第1データ群には、
    ユーザが所定期間に操作したデータと、
    ユーザが所定期間に操作したデータと共通する情報を含む関連データと、
    が含まれることを特徴とする請求項9から13のいずれか1項に記載のプログラム。
  15. 請求項9から14のいずれか1項に記載のプログラムを記録しコンピュータ読み取り可能なことを特徴とする記録媒体。
JP2010025640A 2010-02-08 2010-02-08 情報処理装置、プログラム及び記録媒体 Active JP5713567B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010025640A JP5713567B2 (ja) 2010-02-08 2010-02-08 情報処理装置、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010025640A JP5713567B2 (ja) 2010-02-08 2010-02-08 情報処理装置、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2011164851A JP2011164851A (ja) 2011-08-25
JP5713567B2 true JP5713567B2 (ja) 2015-05-07

Family

ID=44595472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010025640A Active JP5713567B2 (ja) 2010-02-08 2010-02-08 情報処理装置、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5713567B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319338A (zh) * 2023-09-07 2023-12-29 哈尔滨时代宏图科技开发有限公司 一种基于区块链的数据信息智能管理***及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3607093B2 (ja) * 1998-09-10 2005-01-05 シャープ株式会社 情報管理装置、および、そのプログラムが記録された記録媒体
JP4917061B2 (ja) * 2007-12-18 2012-04-18 日本電信電話株式会社 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体
JP5228584B2 (ja) * 2008-04-07 2013-07-03 日本電気株式会社 興味情報特定システム、興味情報特定方法、および興味情報特定用プログラム

Also Published As

Publication number Publication date
JP2011164851A (ja) 2011-08-25

Similar Documents

Publication Publication Date Title
US11681654B2 (en) Context-based file selection
KR101934449B1 (ko) 검색 쿼리에 응답하여 콘텐츠에 매칭될 이미지에 대해 동적 랭킹을 진행하기 위한 방법 및 시스템
US10509817B2 (en) Displaying search results on a one or two dimensional graph
US8260775B2 (en) Geotemporal search
US8782041B1 (en) Text search for weather data
US20100114856A1 (en) Information search apparatus, information search method, and storage medium
US20160092689A1 (en) Indexing and Searching Documents with Restricted Portions
CN107766399B (zh) 用于使图像与内容项目匹配的方法和***及机器可读介质
US8670617B2 (en) Systems and methods for linking content to individual image features
CN107491465B (zh) 用于搜索内容的方法和装置以及数据处理***
WO2015188719A1 (zh) 结构化数据与图片的关联方法与关联装置
JP2007219655A (ja) 施設情報管理システム、施設情報管理方法および施設情報管理プログラム
JP2015144011A (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
JP2019191975A (ja) 人材選定装置、人材選定システム、人材選定方法及びプログラム
CN107766398A (zh) 用于使图像与内容项目匹配的方法、装置和数据处理***
US11216894B2 (en) Image-based semantic accommodation search
US9792378B2 (en) Computerized systems and methods for identifying a character string for a point of interest
JP5713567B2 (ja) 情報処理装置、プログラム及び記録媒体
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム
JP5454751B2 (ja) 検索方法、検索システム、プログラム及びコンピュータ
US20120158773A1 (en) Method, system and computer program product for activating information of object computer system
JP2010224667A (ja) 文字入力支援装置及び文字入力支援方法
JP5708868B1 (ja) プログラム、情報処理装置及び方法
KR101620957B1 (ko) 크롤링 기능을 갖는 웹브라우징 시스템 및 그 방법
JP6370082B2 (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20110830

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150310

R150 Certificate of patent or registration of utility model

Ref document number: 5713567

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250