JP2007157048A - 体験情報評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

体験情報評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2007157048A
JP2007157048A JP2005354784A JP2005354784A JP2007157048A JP 2007157048 A JP2007157048 A JP 2007157048A JP 2005354784 A JP2005354784 A JP 2005354784A JP 2005354784 A JP2005354784 A JP 2005354784A JP 2007157048 A JP2007157048 A JP 2007157048A
Authority
JP
Japan
Prior art keywords
experience
keyword
expression
text document
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005354784A
Other languages
English (en)
Other versions
JP4468294B2 (ja
Inventor
Yoshiyo Ikeda
佳代 池田
Masahiro Oku
雅博 奥
Toru Sadakata
徹 定方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005354784A priority Critical patent/JP4468294B2/ja
Publication of JP2007157048A publication Critical patent/JP2007157048A/ja
Application granted granted Critical
Publication of JP4468294B2 publication Critical patent/JP4468294B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】注目キーワードに対応した体験情報を提示する。
【解決手段】 本発明は、物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、注目キーワードが入力されると、該注目キーワードと体験表現との関係が格納されている体験表現辞書記憶手段を参照し、該注目キーワードに関連した体験表現を選定し、入力された入力テキスト文書群の各テキスト文書の中において、注目キーワードと体験表現との出現位置関係を測定し、注目キーワードと体験表現の関係性及び、測定された体験表現との出現位置関係に基づいて、入力テキスト文書群の各テキスト文書を評価し、評価結果と入力テキストを関連付けて出力する。
【選択図】図1

Description

本発明は、体験情報評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、インターネットのようなあらゆる種類の情報が混在するような状況の中から、その情報に含まれる文章を解析し、注目するキーワードに関する体験談を提供することができる、注目キーワードを利用した体験情報評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
近年、ホテルや旅行、電化製品など様々な事柄に関して、多くの人々がインターネット上で個人の意見を公開している。この公開場所は、ショッピングサイト自身が運営しているような様々な人の意見が集まる掲示板や、個人の意見をまとめたWeblogや個人のホームページのような場所等がある。特に、実体験に基づくユーザの声は、クチコミ情報もしくは評判情報としてマーケティングや商品開発、商品の購入検討などの支援として利用価値が高い。
このため、ユーザが実際にある物事を体験したことを記述した情報か否かを判定する技術がある。これは、体験したことを記述する時に現れる記述的特徴である動詞の過去形を体験表現とし、それが記述された文章を体験情報として判定するというものである。
上記のような技術を利用する場合は、文章の形態素解析を行うことがしばしばある。この形態素解析の技術として、例えば、語の共起を用いて同形語の読み分けを行う日本語形態素解析システムがある。語の共起は人にとって識別しやすいため、間違えにくく、確実にシステムの精度を上げることができる(例えば、非特許文献1参照)。
本件で扱う「体験情報」とは、ユーザが実際にある物事を体験したことを記述した情報を指す。例えば、図12に示すようなものがある。図12において、A,C,Dは、書き手が実際に体験したこともしくは、継続して体験していることについて、「行っています」「食事をしています」「行ってきました」のような体験表現を利用して表現している。また、図12のB,Eは、書き手が実際に体験した結果得た意見や感想を「よかった」「悪かった」のような体験表現を利用して表現している。
体験表現でないものには、図12のF,Gに示すようなものがある。
図12のFは、マシンが安いという条件を示しているだけで、書き手が体験したものかどうかは特定できない。Gについても、アメニティと料金という条件を示しているだけで、書き手が体験したものかどうかは特定できない。
体験情報は、長文にわたるものもあれば、図12のA〜Eのように、1文で表現されるものもある。
渕武志、他、"保守性を考慮したい日本語形態素解析システム"情報処理学会自然言語処理研究会報告 117-09, vol. 1997-no, 004, pp59-66
ユーザが欲しい情報を探そうとした時、何らかのキーワードを用いて、その情報が蓄積されているデータベースや、検索エンジンなどを利用して検索を行う。ユーザがある物事についての体験情報を探そうとした時、上記のようにキーワード検索を行ってしまうと広告やそのキーワードの説明などといった体験情報以外の情報が多く混ざってしまい、欲しい情報へ辿り着くことが困難である。特に、近年では、個人の意見などが記載されるようなWeblogや掲示板などが多く存在しているため、話の話題が混ざり合った文書が多量に存在していることから、例え、検索を行う情報源を体験情報のみに限定したとしても、キーワードとは何ら関係のない体験情報が拾い上げられてしまい、やはり、ユーザの欲しい情報へ辿り着くことが困難である。
例えば、
例1)「今日、○×レストランに行きました。記念感謝祭のため、1万円のコースが5000円で食べることができました。美味しいし、安いし、大満足でした。…。そうそう、携帯電話XXXほしいな。」
のような情報があったとする。これは、「レストラン」について「行きました」という体験を表す表現が含まれていることから、「レストラン」の体験情報と言える。しかしながら、ユーザが「携帯電話」についての情報を探すために、検索を行ってもこの情報が提示されてしまう。
また、従来の技術では、あるテキスト文書が体験情報か否かの判定はできるが、ある注目するキーワードに関する体験情報か否かを判定することはできなかった。
本発明は、上記の点に鑑みなされたもので、ユーザが注目するキーワードに対応する体験表現を用いて、そのキーワードに関連した文書集合を優先順位付けすることが可能な体験情報評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理説明図である。
本発明(請求項1)は、注目するキーワード(以下、注目キーワード)を利用した体験情報評価方法であって、
物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
体験表現選定処理手段が、注目キーワードが入力されると、該注目キーワードと体験表現との関係が格納されている体験表現辞書記憶手段を参照し、該注目キーワードに関連した体験表現を選定し、体験表現記憶手段に格納する、体験表現選定ステップ(ステップ1)と、
キーワード距離測定処理手段が、入力された入力テキスト文書群の各テキスト文書の中において、注目キーワードと体験表現選定ステップで選定され、体験表現記憶手段に格納されている体験表現との出現位置関係を測定するキーワード距離測定ステップ(ステップ2)と、
評価手段が、注目キーワードと体験表現の関係性及び、キーワード距離測定ステップにより測定された体験表現との出現位置関係に基づいて、入力テキスト文書群の各テキスト文書を評価し、評価結果と入力テキスト文書を関連付けて文書記憶手段に出力する評価ステップ(ステップ3)と、を行う。
また、本発明(請求項2)は、請求項1の体験情報評価方法の評価ステップ(ステップ3)において、
注目キーワードと体験表現の関係性の強弱に基づき、入力テキスト文書群の中のテキスト文書間の順序関係を決定するランキング算出ステップを行う。
また、本発明(請求項3)は、請求項2の体験情報評価方法のランキング算出ステップにおいて、
入力テキスト文書の更新日付が利用できる場合は、該更新日付の新鮮度に基づき、該入力テキスト文書群の中のテキスト文書間の順序関係を決定する。
また、本発明(請求項4)は、請求項2または、3の体験情報評価方法のランキング算出ステップにおいて、
注目キーワードと体験表現の関係性の強弱は、該注目キーワードと体験表現の出現位置関係や体験表現の出現頻度などによって表され、これらを利用したランキング評価式によって入力テキスト文書群の中のテキスト文書間の順序関係を決定し、
また、体験表現辞書記憶手段に体験表現の重みが格納されている場合は、その重みを、ランキング評価式に適用する。
また、本発明(請求項5)は、請求項4の体験情報評価方法のランキング評価式として、
注目キーワードと体験表現の出現位置から測定された距離が近いほど評価式の値が高くなり、
注目キーワードに関連する体験表現の出現頻度によって得られた重みが高いほど評価式の値が高くなり、
また、前記入力テキスト文書の更新日付を利用する場合は、該入力テキスト文書が新しいほど評価式の値が高くなり、
体験表現辞書記憶手段に格納されている体験表現の重みを利用する場合は、該重みが高いほど評価式の値が高くなる、評価式を用いる。
また、本発明(請求項6)は、請求項4の体験情報評価方法のランキング評価式として、
注目キーワードと体験表現の出現位置によって値が変化し、
入力テキスト文書の中で、注目キーワードに関連する体験表現が該注目キーワードより先に記述されている場合は、評価式の値が低くなり
入力テキスト文書の中で、注目キーワードに関連する体験表現が注目キーワードより後に記述されている場合は、評価式の値が高くなる、評価式を用いる。
図2は、本発明の原理構成図である。
本発明(請求項7)は、注目するキーワード(以下、注目キーワード)を利用した体験情報評価装置であって、
物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
注目キーワードが入力されると、該注目キーワードと体験表現との関係が格納されている体験表現辞書記憶手段21を参照し、該注目キーワードに関連した体験表現を選定し、体験表現記憶手段20に格納する、体験表現選定処理手段300と、
入力された入力テキスト文書群の各テキスト文書の中において、注目キーワードと体験表現選定処理手段300で選定され、体験表現記憶手段20に格納されている体験表現との出現位置関係を測定するキーワード距離測定手段310と、
注目キーワードと体験表現の関係性及び、キーワード距離測定手段310により測定された体験表現との出現位置関係に基づいて、入力テキスト文書群の各テキスト文書を評価し、評価結果と入力テキスト文書を関連付けて文書記憶手段22に出力する評価手段320と、を有する。
また、本発明(請求項8)は、請求項7の体験情報評価装置の評価手段320において、
注目キーワードと体験表現の関係性の強弱に基づき、入力テキスト文書群の中のテキスト文書間の順序関係を決定するランキング算出手段を有する。
また、本発明(請求項9)は、請求項8の体験情報評価装置のランキング算出手段において、
入力テキスト文書の更新日付が利用できる場合は、該更新日付の新鮮度に基づき、該入力テキスト文書群の中のテキスト文書間の順序関係を決定する。
また、本発明(請求項10)は、請求項8または9の体験情報評価装置のランキング算出手段において、
注目キーワードと体験表現の関係性の強弱は、該注目キーワードと体験表現の出現位置関係や体験表現の出現頻度などによって表され、これらを利用したランキング評価式によって入力テキスト文書群の中のテキスト文書間の順序関係を決定し、
また、体験表現辞書記憶手段に体験表現の重みが格納されている場合は、その重みを、ランキング評価式に適用する。
また、本発明(請求項11)は、請求項10の体験情報評価装置のランキング算出手段において、
ランキング評価式として、
注目キーワードと体験表現の出現位置から測定された距離が近いほど評価式の値が高くなり、
注目キーワードに関連する体験表現の出現頻度によって得られた重みが高いほど評価式の値が高くなり、
また、入力テキスト文書の更新日付を利用する場合は、該入力テキスト文書が新しいほど評価式の値が高くなり、
体験表現辞書記憶手段に格納されている体験表現の重みを利用する場合は、該重みが高いほど評価式の値が高くなる、評価式を用いる。
また、本発明(請求項12)は、請求項10の体験情報評価装置のランキング算出手段において、
ランキング評価式として、
注目キーワードと体験表現の出現位置によって値が変化し、
入力テキスト文書の中で、注目キーワードに関連する体験表現が該注目キーワードより先に記述されている場合は、評価式の値が低くなり
入力テキスト文書の中で、注目キーワードに関連する体験表現が注目キーワードより後に記述されている場合は、評価式の値が高くなる、評価式を用いる。
本発明(請求項13)は、コンピュータに、請求項1乃至6記載の体験情報評価方法の各ステップを実行させる体験情報評価プログラムである。
本発明(請求項14)は、コンピュータに、請求項1乃至6記載の体験情報評価方法の各ステップを実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体である。
上記のように本発明では、ユーザが注目するキーワードに対応する体験表現を用いて、そのキーワードに関連した文書集合を優先順位付けすることができるため、ユーザが注目するキーワードとより関係の強い体験情報を含む文書が上位に来るように順位付けすることができる。
また、入力テキスト文書の更新日付が利用できる場合は、上記に加えて、より新鮮な文書が上位に来るように順位付けすることができる。
本発明によれば、前述の「発明が解決しようとする課題」の例1)のような情報において、
「レストラン」と関連する体験表現:行きました、行ったことがあります、たべてみました、予約しました、
「携帯電話」と関連する体験表現:買いました,使ってみました,試しました、
のようなキーワードと体験表現との関係性を基に、例文を評価すると、
「レストラン」に関連する体験表現「行きました」は存在するが、「携帯電話」に関連する体験表現は存在しないことから、例1)は、「レストラン」と関連する体験情報としては、優先順位が高くなるが、「携帯電話」と関連する体験情報ではないと判断され、優先順位が低くなる。
このようにして、注目キーワードと体験表現の関係によって、同じ文書であっても優先順位を変化させることができる。
これは、従来技術に比べて、注目キーワードに関する体験情報が取得しやすくなり、特に評判情報のような人々の体験情報が価値を持つ場合などに、有益である。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の概要を説明するための図であり、図4は、本発明の一実施の形態における注目キーワードを利用した体験情報評価装置の構成を示す。
本実施の形態では、図3に示すように、1つ以上のテキスト文書が集まったテキスト文書群と1つまたは複数の注目キーワードの入力があったときに、テキスト文書1つ1つについて、
(1)注目キーワードと関連する体験表現を選定し、
(2)注目キーワードに関連した体験情報との関係性の強弱を距離を測定することにより計算し、
(3)順位付けを行う。
以下に、本実施の形態を詳細に説明する。
図4に示す装置は、コンピュータ30とこのコンピュータ30にネットワーク40を介して接続される、もしくは、コンピュータ30に内蔵されている体験表現記憶部20、体験表現辞書記憶部21、文書記憶部22で構成されている。
コンピュータ30は、RAM、ROM、磁気ディスク等からなるメモリ、CPU、ディスプレイによる表示部11、及びマウスやキーボード等からなる指示入力部12から構成されており、CPUが実行するソフトウェアプログラムによって実現される体験表現選定処理部31と、キーワード距離測定処理部32と、ランキング算出処理部33とを備えている。
図5は、本発明の一実施の形態における体験表現辞書記憶部の例を示す。
例えば、図5のように、体験表現辞書記憶部21は、地名や人物名などの「カテゴリ名」と注目キーワードとして与えられるキーワードに対応する「語句」とその語句に「関連する体験表現」で構成されている。
体験表現は、物事を体験・経験したことを表すような語句が相当する。例えば、注目キーワードとして、「レストラン」という語句が与えられた場合、それに関連する体験表現は、「行った(5),行ったことがある(5),食べてみた(5),予約した(3),…」になる。ここで、括弧内に書かれている数字は、それぞれの体験表現の重みであり、関連する語句に対してどれだけ関係が深いのかの強度を表している。この重みは必須ではない。注目キーワードが辞書に存在しない場合は、「カテゴリ名」の欄から関連する体験表現を探すこともできる。また、「カテゴリ名」に入れる語句は、分類辞典などを利用して決定しても良いし、利用目的合わせて装置を構築する際に、適宜作成してもよい。但し、この「カテゴリ名」の欄は、必須ではない。また、これら全ての情報は、事前に与えられている。
体験表現においては、図5のように表現そのものが格納されている場合もあれば、品詞の原形{行く,見る,食べる,等}とそれに対応する表現形態{してみた,したことがある,等}が格納されている場合もある。また、品詞の原形{行く,見る,食べる,等]とそれに対応する図6のような形態素解析した後の品詞の組み合わせのルール{動詞語幹+動詞活用語尾+動詞接尾辞+動詞語幹の連用「みる」+動詞接尾辞の終止「ました」、等}が格納されている場合もあれば、上記が混合された情報が格納されている場合もある。
図7の体験表現記憶部20の例のように、体験表現記憶部20には、注目キーワードとそれに関連する体験表現とがセットになって格納されている。図5のように体験表現それぞれに重みが与えられている場合は、その重みも体験表現とともに格納されている。体験表現記憶部20には、事前に情報が格納されている場合もあるが、処理を行う過程で、随時情報が格納されたり、削除されたりする場合もある。
文書記憶部22には、与えられたテキスト文書群とそのテキスト文書それぞれに記述されている注目キーワードの位置情報やその注目キーワードに関連する体験表現の位置情報、そのテキスト文書と注目キーワードの関係性を示すランク値などが格納されている。事前にテキスト文書群のみ格納されているか、テキスト文書が与えられた時に、テキスト文書を随時格納するかのどちらかの方法が取られ、その後、処理を行う過程で、注目キーワードの位置情報や体験表現の位置情報、ランク値などが随時格納されていく。
体験表現記憶部20と体験表現辞書記憶部21、文書記憶部22は、このように構成される装置の基で、以降に説明する処理を実行することで、本発明を実現するように動作する。本実施の形態では、注目キーワードを「温泉」とし、その注目キーワードを利用した体験情報ランキングの例を示すことにする。
入力となるテキストは、例えば、図8に示す例のようなものがある。出力は、入力テキスト文書それぞれのランク値である。詳細については、各処理部に示す。
[1]体験表現選定処理部31:
指示入力部12から入力された注目キーワードを基に注目キーワードに関連する体験表現を選定する処理を行う。絞込み方法は、様々であるが、本実施の形態では、図9を用いて説明する。図9は、本発明の一実施の形態における体験表現選定処理のフローチャートである。体験表現選定処理部31には、S(S>0)個の注目キーワードが入力されるものとする。
ステップ101) 体験表現選定処理部31は、注目キーワードが入力として与えられた時に、変数kに1を代入する。
ステップ102) 図5のような体験表現辞書記憶部21の「語句」欄と「関連する体験表現(重み)」欄を参照し、k番目の注目キーワードが格納されている「語句」欄を探し、それに付随する「関連する体験表現(重み)」欄の体験表現を取り出す。
ステップ103) 上記のステップ102で得た関連する体験表現をk番目の注目キーワードと共に体験表現記憶部20に格納する。
ステップ104) 注目キーワードの総数S>kならば、kにk+1を代入し、ステップ102に戻る(S=kになるまでこの処理を繰り返す)。注目キーワードの総数S=kならば、終了する。
図5のような体験表現辞書記憶部21があったとき、注目キーワードが「温泉」であればそれに関連する体験表現は、「行ってみた(5),行ってきた(5),寄ってみた(2),…」を選定することができる。本実施の形態では、体験表現それぞれに重みがついている例を示す。しかし、重みはあってもなくてもよい。これらを図7のように体験表現記憶部20に格納し、処理が終了する。
[2]キーワード距離測定処理部32:
入力テキスト文書群の各テキスト文書の中において、注目キーワードと体験表現選定処理部31にて選定された体験表現との出現位置関係を測定する。出現位置関係の測定方法は、様々であるが、本実施の形態では、図10を用いて説明する。
図10は、本発明の一実施の形態におけるキーワード距離測定処理のフローチャートである。以下では、キーワード距離測定処理部32に、注目キーワード、注目キーワードの数(S)、注目キーワード各々に関連する体験表現、1つ以上のテキスト文書、テキスト文書の数(N)が入力されるものとする。
ステップ201) 変数aに1を代入する。
ステップ202) 変数kに1を代入する。
ステップ203) a番目の入力テキスト文書に対し、形態素解析を行う。
ステップ204) ステップ203の処理にて形態素解析した出力結果の中からk番目の注目キーワードと、その注目キーワードに関連する体験表現があるか否かを検査する。注目キーワードと体験表現の両者が存在する場合は、ステップ205の処理に移行し、どちらか一方が存在しない、または、両者が存在しない場合は、ステップ207の処理へ移行する。
ステップ205) 入力テキスト文書中に、ステップ204にてk番目の注目キーワードとそれに関連する体験表現が発見された場合は、それぞれの出現位置から距離を測定する。ここでの距離とは、k番目の注目キーワードとそれに関連する体験表現との間の距離を指す。k番目の注目キーワードに関連する体験表現が複数存在する場合は、それぞれの体験表現とk番目の注目キーワードとの距離を測定する。また、k番目の注目キーワードが複数存在する場合も同様に、それぞれの注目キーワードとそれに関連する体験表現との距離を測定する。このようにして、同じ注目キーワードや同じ体験表現であっても、出現位置が異なれば、別のものとして距離を測定する。
測定方法は様々であるが、例えば、注目キーワードが出現する位置と体験表現が出現する位置をバイト数でカウントし、何バイト離れているかを測定する方法がある。バイト数の代わりに文字数や文の数、形態素の要素数でカウントする方法などもある。
ステップ206) k番目の注目キーワードと関連する体験表現それぞれと距離を文書記憶部22へ格納する。ここで、文書記憶部22にテキスト文書が格納されていなければ、a番目のテキスト文書も共に格納する。
ステップ207) 注目キーワードの総数S>kならば、ステップ208に移行し、そうでなければステップ209に移行する。
ステップ208) kにk+1を代入し、ステップ204に移行する。
ステップ209) 入力テキストの総数N>aならば、ステップ210に移行し、N=aになるまでこの処理を繰り返す。そして、N=aになったら、処理を終了する。
ステップ210) aにa+1を代入し、ステップ202に移行する。
本実施の形態では、入力として注目キーワード各々に関連する体験表現を与えているが、処理の最初に、体験表現記憶部21から取り出す方式や、ステップ204の処理の中で、体験表現記憶部21から取り出す方式でもよい。
また、本実施の形態では、入力としてテキスト文書を与えているが、文書記憶部22にテキスト文書が予め格納されている場合は、処理の最初に、文書記憶部22からテキスト文書を取り出す方式や、ステップ203の処理の中で、必要テキスト文書を文書記憶部22から取り出す方式でもよい。
本実施の形態では、ステップ203の処理にて形態素解析を行っているが、この処理は必須ではない。但し、体験表現辞書記憶部21や体験表現記憶部20に形態素解析された体験表現が格納されている場合は、ステップ203の処理が必要となる。ステップ203で形態素解析を行わない場合は、ステップ203の処理をスキップし、ステップ204の処理で、注目キーワードと体験表現を入力テキスト文書から文字列マッチングにて探していくことで処理が実現できる。
本実施の形態では、ステップ205において体験表現と注目キーワードの距離を測定しているが、本ステップ中で距離を測定せずに、注目キーワードと体験表現の位置のみを確認し、ステップ206においてこれらの位置情報を文書記憶部22へ格納する方法もある。このときの注目キーワードや体験表現の位置情報とは、該当する注目キーワードや体験表現が入力テキスト文書の最初からカウントして何文字目にあるのかという文字数や、バイト数、形態素解析の要素数などに相当する。
入力テキスト文書として、図8に示すテキスト文書入力例のような文書が与えられ、注目キーワード「温泉」に関連する体験表現として「行ってみた(5),行ってきた(5),寄ってみた(2),…」が与えられた時を説明する。図8の入力テキスト文書の形態素解析を行うと、図6のようになる。形態素解析エンジンは、様々であるので、解析結果は異なることも考えられる。図6を見ると、注目キーワード「温泉」が存在し、「行ってみた」という体験表現も存在することがわかる。ここで、入力テキスト文書では、「行ってみました」という体験表現であるが、「行ってみました」は「行ってみた」の丁寧な言葉であるので、同一と見做される。日本語の表記は様々に存在するため、体験表現のルールとして丁寧語を含めた敬語は、敬語を用いていない表現と同一として見做すように予め決めておくことが適当である。
体験表現として、品詞の原形{行く,見る,食べる,等}とそれに対応する形態素解析した後の品詞の組み合わせのルール{動詞語幹+動詞活用語尾+動詞接尾辞+動詞語幹の連用「みる」+動詞接尾辞の終止「ました」等}が入力として与えられた場合は、テキスト文書の形態素解析結果で得られる品詞の組み合わせとその中で使われている動詞の原型(動詞語幹)や形容詞(形容詞語幹)を見て体験表現が存在するか否かを検査する。
次に、注目キーワードと体験表現の出現位置から距離を測定する。図6の通り「温泉」と「行ってみました」の間には、「へ」という1文字が存在する。距離は、バイト数であれば2バイトとなり、文字数であれば1、形態素の要素数であれば、格助詞1つであるから、1と測定できる。注目キーワードより前に体験表現がある場合は、−Xバイトや−X文字、−X要素のようにマイナスをつけて距離を測定する。この距離をテキスト文書と共に文書記憶部22へ格納する。
[3]ランキング算出処理部33:
キーワード距離測定処理部32にて測定された距離などを基に注目キーワードと体験表現の関係性の強弱、さらに、入力テキスト文書の更新日付が利用できる場合はその新鮮度に基づき、入力テキスト文書群の順序関係を決定する。ランキング算出方法は、様々であるが、本実施の形態では、図11を用いて説明する。
図11は、本発明の一実施の形態におけるランキング算出処理のフローチャートである。
以下では、キーワード距離測定処理部32に、テキスト文書の数(N)、各々テキスト文書におけるS個の注目キーワードとそれに関連する体験表現との距離が入力されるものとする。
ステップ301) 変数aに1を代入する。
ステップ302) a番目の入力テキスト文書についてランキング評価式に基づきランク値の算出を行う。
ステップ303) a番目の入力テキスト文書のランク値をテキスト文書と関連付けて文書記憶部22に格納する。
ステップ304) 入力テキスト文書の数N>aであれば、ステップ305に移行し、N=aを満たすまで、処理を繰り返し、N=aであれば処理を終了する。
ステップ305) aにa+1を代入し、ステップ302に移行する。
本ランキング算出処理部33では、入力として注目キーワードとそれに関連する体験表現との距離が与えられる例を示しているが、ステップ305の中で、必要に応じて文書記憶部22から該当する距離を参照し、ランキング評価式に利用してもよい。
キーワード距離測定処理部32において、体験表現と注目キーワードの距離を測定せず、位置情報のみを文書記憶部22に格納する場合は、次のことを行う。
ステップ304と305の間、もしくは、ステップ305の中において、文書記憶部22の中の該当する体験表現と注目キーワードの位置情報から距離を求めて、ステップ305のランキング評価式に利用する。距離の測定方法は様々あるが、例えば、該当する体験表現の位置(文字数やバイト数や形態素解析要素数など)から該当する注目キーワードの位置を差し引くことで求められる。該当する体験表現が入力テキスト文書中の20文字目にあり、該当する注目キーワードが10文字目にある場合、距離は(20−10)で10となる。
上記のステップ302にあるランキング評価式は、注目キーワードと体験表現の距離や体験表現の出現頻度などによって表され、入力テキスト文書各々の間の順序関係を決定するようなランク値を算出する。ランキング評価式で求められるランク値は、値が高いほどその文書が注目キーワードに強く関連する体験情報であることを示す。
ランキング評価式は、入力テキスト文書の更新日付が取得できる場合は、その新鮮度を、体験表現辞書記憶部21に体験表現の重みが格納されている場合はその重みを、利用することもできる。
ランキング評価式は、注目キーワードと体験表現の距離が近いほどランク値が高くなり、注目キーワードに関連する体験表現の出現頻度によって得られた重みが高いほどランク値が高くなる。また、入力テキスト文書の更新日付を利用する場合は、入力テキスト文書が新しいほどランク値が高くなり、体験表現辞書記憶部21に体験表現の重みを利用する場合は、その重みが高いほどランク値が高くなる。ランキング評価式は、
・注目キーワードの総数Sにおいて、k番目の注目キーワードをW
・Wに関連する体験表現で、その表現が入力テキスト文書中に存在する数がU個ある場合、i番目の体験表現をE(i≦U)、
・Eが入力テキスト文書中に存在する数がP個ある場合、j番目のE:Eij
との距離をDkij
・Eの重みをO
・入力テキスト文書の新鮮度をT,
・入力テキスト文書群の総数をN
の時、ランキング評価式はf(D,O,T)で表される。
この評価式は、例えば、次のようなものがある。
Figure 2007157048
TまたはOが得られない場合、もしくはTまたはOを利用しない場合は、TやOの代わりに1を掛けるような(式1´)で表すこともできる。(式1´)は、TとOの両者を利用しない式を示しているが、どちらか一方のみを利用することも可能である。
Figure 2007157048
入力テキスト文書の新鮮度Tは、例えば、入力テキスト文書が複数存在した場合で、かつ、それらが更新日付(Time)を持っていた時、更新日付が新しいものほどTの値が大きくなるように設定される。例えば、UNIX(登録商標)TIMEで更新日付が与えられている時には、
T=Time (式2)
で表すこともできる。または、全ての入力テキスト文書の更新日付の中から一番古い時刻を1とし、その時刻からの時間経過分(秒数等)だけ値を加算していく方法もある。
また、重みOは、体験表現記憶部20で与えられている値そのままを利用してもよいが、入力テキスト文書群全体からひとつの入力テキストの重みを決めるようなTF-IDFのような式を用いて算出した値を利用することもできる。
=(“解析対象のテキスト文書内での注目キーワードWに対する体験表現Eの出現回数”+1)×{log(N÷“入力テキスト文書群の中でEが出現する文書数”)+1}
式(3)
または、
=“解析対象のテキスト文書内での注目キーワードWに対する体験表現Eの出現回数”×(log“入力テキスト文書群の中でEが出現する文書数”+1) 式(4)
や、
=“解析対象のテキスト文書内での注目キーワードWに対する体験表現Eの出現回数”ד体験表現記憶部により与えられた重み” 式(5)
等でもよい。
上記の式(3)では、注目キーワードに関連する体験表現が、他のテキスト文書に少なく解析対象のテキスト文書中に多く存在する時に、重みが大きくなる。式(4)では、入力テキスト文書全体の中で、ある注目キーワードに関連する体験表現が多く使われている時に、その体験表現を持つテキスト文書の重みがより大きくなる。式(5)では、解析対象の文書中にある注目キーワードに関連する体験表現が多く出現する時に、重みが大きくなる。
本実施の形態において、図8の入力テキストを基にランク値を算出する例を示す。
ランキング評価式(式1)を計算すると、注目キーワード「温泉」に関連する体験表現として「行ってみた(5)」があり、その距離は2バイトとして計算した場合、
O=5,D=2より
f(D,O)=5÷2=2.5
となる。
kijがマイナスになる場合、つまり、入力テキストのなかで、注目キーワードよりも前方に該当する体験表現が出現している場合は、注目キーワードと体験表現の関係が薄いとみなし、該当する体験表現は、ランキング評価式で算出対象から外すこともできる。もしくは、予め設定した値Yによって除算し、Dkijがプラスの場合よりも低い値をとるように設定してもよい。例えば、(式1)や(式1´)の括弧内全体をYで割ることや、DkijそのものをYで割る等がある。
以上によって、算出されたランク値を入力テキスト文書と関連付けて文書記憶部22へ格納する。
このようにして、算出されたそれぞれの入力テキスト文書のランク値の大きい順に提示することで、更新日付が新しく、かつ、注目キーワードにより関連する体験情報を上位に提示することができる。これらに加えて、文書記憶部22を参照し、各入力テキスト文書中に存在する注目キーワードや、入力テキスト文書中に存在する前記注目キーワードに関連する体験表現を、ランキング結果と共に提示することもできる。
また、本発明は、上記の体験表現選定処理部31、キーワード距離測定処理部32、ランキング算出処理部の動作をプログラムとして構築し、コンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
さらに、構築されたプログラムをハードディスク装置や、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、注目キーワードを利用した体験情報の検索技術に適用可能であると共に、Web検索の分類にも適用可能であり、分野や商品などに限定されるものではない。
例えば、インターネット上の人々の意見や評価が記述された評判情報を検索する際に利用したり、対象となる物事を購入や利用する時の検討の指標にしたり、収集した評判情報の日付を基に最近の話題となっている物事を分析する技術に適用可能である。
また、情報の信頼性を高めるために、人々の体験情報を探す時に利用することや、これを利用した商品企画やマーケティングなどに適用可能である。
本発明の原理説明図である。 本発明の原理構成図である。 本発明の概要を説明するための図である。 本発明の一実施の形態における注目キーワードを利用した体験情報評価装置の構成図である。 本発明の一実施の形態における体験表現辞書記憶部の例である。 本発明の一実施の形態における形態素解析結果の例である。 本発明の一実施の形態における体験表現記憶部の例である。 本発明の一実施の形態におけるテキスト文書入力例である。 本発明の一実施の形態における体験表現選定処理のフローチャートである。 本発明の一実施の形態におけるキーワード距離測定処理のフローチャートである。 本発明の一実施の形態におけるランキング算出処理のフローチャートである。 体験情報の例である。
符号の説明
11 表示部
12 指示入力部
20 体験表現記憶手段、体験表現記憶部
21 体験表現辞書記憶手段、体験表現辞書記憶部
22 文書記憶手段、文書記憶部
30 コンピュータ
31 体験表現選定処理部
32 キーワード距離測定処理部
33 ランキング算出処理部
300 体験表現選定処理手段、
310 キーワード距離測定手段
320 評価手段

Claims (14)

  1. 注目するキーワード(以下、注目キーワード)を利用した体験情報評価方法であって、
    物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
    体験表現選定処理手段が、前記注目キーワードが入力されると、該注目キーワードと前記体験表現との関係が格納されている体験表現辞書記憶手段を参照し、該注目キーワードに関連した体験表現を選定し、体験表現記憶手段に格納する、体験表現選定ステップと、
    キーワード距離測定処理手段が、入力された入力テキスト文書群の各テキスト文書の中において、前記注目キーワードと前記体験表現選定ステップで選定され、前記体験表現記憶手段に格納されている前記体験表現との出現位置関係を測定するキーワード距離測定ステップと、
    評価手段が、前記注目キーワードと体験表現の関係性及び、前記キーワード距離測定ステップにより測定された前記体験表現との出現位置関係に基づいて、前記入力テキスト文書群の各テキスト文書を評価し、評価結果と前記入力テキストを関連付けて文書記憶手段に出力する評価ステップと、
    を行うことを特徴とする体験情報評価方法。
  2. 前記評価ステップにおいて、
    前記注目キーワードと体験表現の関係性の強弱に基づき、前記入力テキスト文書群の中のテキスト文書間の順序関係を決定するランキング算出ステップを行う、
    請求項1記載の体験情報評価方法。
  3. 前記ランキング算出ステップにおいて、
    前記入力テキスト文書の更新日付が利用できる場合は、該更新日付の新鮮度に基づき、該入力テキスト文書群の中のテキスト文書間の順序関係を決定する、
    請求項2記載の体験情報評価方法。
  4. 前記ランキング算出ステップにおいて、
    前記注目キーワードと体験表現の関係性の強弱は、該注目キーワードと体験表現の出現位置関係や体験表現の出現頻度などによって表され、これらを利用したランキング評価式によって入力テキスト文書群の中のテキスト文書間の順序関係を決定し、
    また、前記体験表現辞書記憶手段に体験表現の重みが格納されている場合は、該重みを前記ランキング評価式に適用する、
    請求項2または3記載の体験情報評価方法。
  5. 前記ランキング評価式として、
    前記注目キーワードと体験表現の出現位置から測定された距離が近いほど評価式の値が高くなり、
    前記注目キーワードに関連する体験表現の出現頻度によって得られた重みが高いほど評価式の値が高くなり、
    また、前記入力テキスト文書の更新日付を利用する場合は、該入力テキスト文書が新しいほど評価式の値が高くなり、
    前記体験表現辞書記憶手段に格納されている体験表現の重みを利用する場合は、該重みが高いほど前記評価式の値が高くなる、
    評価式を用いる請求項4記載の体験情報評価方法。
  6. 前記ランキング評価式として、
    前記注目キーワードと体験表現の出現位置によって値が変化し、
    前記入力テキスト文書の中で、前記注目キーワードに関連する体験表現が該注目キーワードより先に記述されている場合は、評価式の値が低くなり
    前記入力テキスト文書の中で、前記注目キーワードに関連する体験表現が注目キーワードより後に記述されている場合は、評価式の値が高くなる、
    評価式を用いる請求項5記載の体験情報評価方法。
  7. 注目するキーワード(以下、注目キーワード)を利用した体験情報評価装置であって、
    物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
    前記注目キーワードが入力されると、該注目キーワードと前記体験表現との関係が格納されている体験表現辞書記憶手段を参照し、該注目キーワードに関連した体験表現を選定し、体験表現記憶手段に格納する、体験表現選定処理手段と、
    入力された入力テキスト文書群の各テキスト文書の中において、前記注目キーワードと前記体験表現選定処理手段で選定され、前記体験表現記憶手段に格納されている前記体験表現との出現位置関係を測定するキーワード距離測定手段と、
    前記注目キーワードと体験表現の関係性及び、前記キーワード距離測定手段により測定された前記体験表現との出現位置関係に基づいて、前記入力テキスト文書群の各テキスト文書を評価し、評価結果と前記入力テキスト文書を関連付けて文書記憶手段に出力する評価手段と、
    を有することを特徴とする体験情報評価装置。
  8. 前記評価手段は、
    前記注目キーワードと体験表現の関係性の強弱に基づき、前記入力テキスト文書群の中のテキスト文書間の順序関係を決定するランキング算出手段を有する、
    請求項7記載の体験情報評価装置。
  9. 前記ランキング算出手段は、
    前記入力テキスト文書の更新日付が利用できる場合は、該更新日付の新鮮度に基づき、該入力テキスト文書群の中のテキスト文書間の順序関係を決定する、
    請求項8記載の体験情報評価装置。
  10. 前記ランキング算出手段は、
    前記注目キーワードと体験表現の関係性の強弱は、該注目キーワードと体験表現の出現位置関係や体験表現の出現頻度などによって表され、これらを利用したランキング評価式によって入力テキスト文書群の中のテキスト文書間の順序関係を決定し、
    また、前記体験表現辞書記憶手段に体験表現の重みが格納されている場合は、該重みを、前記ランキング評価式に適用する、
    請求項8または9記載の体験情報評価装置。
  11. 前記ランキング算出手段は、
    前記ランキング評価式として、
    前記注目キーワードと体験表現の出現位置から測定された距離が近いほど評価式の値が高くなり、
    前記注目キーワードに関連する体験表現の出現頻度によって得られた重みが高いほど評価式の値が高くなり、
    また、前記入力テキスト文書の更新日付を利用する場合は、該入力テキスト文書が新しいほど評価式の値が高くなり、
    前記体験表現辞書記憶手段に格納されている体験表現の重みを利用する場合は、該重みが高いほど前記評価式の値が高くなる、
    評価式を用いる請求項10記載の体験情報評価装置。
  12. 前記ランキング算出手段は、
    前記ランキング評価式として、
    前記注目キーワードと体験表現の出現位置によって値が変化し、
    前記入力テキスト文書の中で、前記注目キーワードに関連する体験表現が該注目キーワードより先に記述されている場合は、評価式の値が低くなり
    前記入力テキスト文書の中で、前記注目キーワードに関連する体験表現が注目キーワードより後に記述されている場合は、評価式の値が高くなる、
    評価式を用いる請求項10記載の体験情報評価装置。
  13. コンピュータに、
    請求項1乃至6記載の体験情報評価方法の各ステップを実行させることを特徴とする体験情報評価プログラム。
  14. コンピュータに、
    請求項1乃至6記載の体験情報評価方法の各ステップを実行させるプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2005354784A 2005-12-08 2005-12-08 体験情報評価装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Active JP4468294B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005354784A JP4468294B2 (ja) 2005-12-08 2005-12-08 体験情報評価装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005354784A JP4468294B2 (ja) 2005-12-08 2005-12-08 体験情報評価装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2007157048A true JP2007157048A (ja) 2007-06-21
JP4468294B2 JP4468294B2 (ja) 2010-05-26

Family

ID=38241304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005354784A Active JP4468294B2 (ja) 2005-12-08 2005-12-08 体験情報評価装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4468294B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043115A (ja) * 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法および文書検索プログラム
JP2012511769A (ja) * 2008-12-11 2012-05-24 ネオパット インク 使用者の意図に基づく情報検索方法及び情報提供方法
JP2013182422A (ja) * 2012-03-01 2013-09-12 Nikon Corp 電子機器
CN110276065A (zh) * 2018-03-15 2019-09-24 北京京东尚科信息技术有限公司 一种处理物品评论的方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104144209A (zh) * 2014-07-08 2014-11-12 深圳市赛亿科技开发有限公司 一种物联网产品交流方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012511769A (ja) * 2008-12-11 2012-05-24 ネオパット インク 使用者の意図に基づく情報検索方法及び情報提供方法
JP2012043115A (ja) * 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法および文書検索プログラム
JP2013182422A (ja) * 2012-03-01 2013-09-12 Nikon Corp 電子機器
CN110276065A (zh) * 2018-03-15 2019-09-24 北京京东尚科信息技术有限公司 一种处理物品评论的方法和装置

Also Published As

Publication number Publication date
JP4468294B2 (ja) 2010-05-26

Similar Documents

Publication Publication Date Title
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
US9836511B2 (en) Computer-generated sentiment-based knowledge base
KR101981075B1 (ko) 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체
US8332208B2 (en) Information processing apparatus, information processing method, and program
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
CN107315738A (zh) 一种文本信息的创新度评估方法
CN105069103A (zh) App搜索引擎利用用户评论的方法及***
JP4866153B2 (ja) 対話型質問方法、対話型質問システム、対話型質問プログラム及びそのプログラムを記録した記録媒体
KR20170120389A (ko) 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
JP4468294B2 (ja) 体験情報評価装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2021047817A (ja) 出力装置、及び出力プログラム
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
Duma et al. Applying core scientific concepts to context-based citation recommendation
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
CN115860283B (zh) 基于知识工作者画像的贡献度预测方法及装置
JP4726683B2 (ja) 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Sun Textual features of peer review predict top-cited papers: An interpretable machine learning perspective
JP2006286026A (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
Rai et al. Identification of landscape preferences by using social media analysis
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP5594225B2 (ja) 知識獲得装置、知識取得方法、及びプログラム
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP5614687B2 (ja) 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置
JP2010282403A (ja) 文書検索方法
JP2008009623A (ja) 体験強度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100223

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100224

R150 Certificate of patent or registration of utility model

Ref document number: 4468294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350