JP5949340B2 - Word importance calculation device, word importance calculation method, and computer program - Google Patents
Word importance calculation device, word importance calculation method, and computer program Download PDFInfo
- Publication number
- JP5949340B2 JP5949340B2 JP2012191170A JP2012191170A JP5949340B2 JP 5949340 B2 JP5949340 B2 JP 5949340B2 JP 2012191170 A JP2012191170 A JP 2012191170A JP 2012191170 A JP2012191170 A JP 2012191170A JP 5949340 B2 JP5949340 B2 JP 5949340B2
- Authority
- JP
- Japan
- Prior art keywords
- importance
- word
- document
- pair
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ユーザにとっての単語の重要性の度合いを算出する装置および方法などに関する。 The present invention relates to an apparatus and a method for calculating a degree of importance of a word for a user.
従来、ユーザが関心または興味を持っている事項を表わす単語を、ユーザのプロファイルとして取り扱うことがある。さらに、単語ごとに、ユーザにとっての重要性の度合いを表わす重要度を算出しデータベースなどに登録しておくことがある。 Conventionally, a word representing a matter that the user is interested in or interested in may be handled as a user profile. Furthermore, for each word, an importance level indicating the degree of importance for the user may be calculated and registered in a database or the like.
単語を1つずつ入力することは、面倒である。そこで、ユーザが閲覧した文書の中から単語を抽出することが、考えられる。 Entering words one by one is cumbersome. Therefore, it is conceivable to extract words from the document viewed by the user.
また、ユーザが情報を閲覧しているときの生体情報を検出し、ユーザにとっての、この情報の有用性を、生体情報に基づいて判別する技術が、提案されている(特許文献1)。 Further, a technique has been proposed in which biometric information when a user is browsing information is detected and the usefulness of this information for the user is determined based on the biometric information (Patent Document 1).
特許文献1に記載される技術は、心理情報に基づいてユーザにとっての情報の有用性を判別する概念に過ぎない。精度の高いプロファイルを作成するためには、文書に含まれる単語ごとの重要性の度合いをできるだけ正確に求める必要がある。
The technique described in
本発明は、このような問題点に鑑み、文書に含まれる単語ごとの、ユーザにとっての重要性の度合いを、従来よりも精度よく求めることを、目的とする。 The present invention has been made in view of such a problem, and an object of the present invention is to obtain the degree of importance for a user for each word included in a document with higher accuracy than before.
本発明の一形態に係る単語重要度算出装置は、ユーザの、文書の閲覧中の各時刻における前記文書に対する興味の度合いである興味度を入力する、興味度入力手段と、入力された前記興味度の変化のパターンを検知する、変化パターン検知手段と、検知された前記パターンに基づいて、前記文書に含まれる単語ごとの、前記ユーザにとっての重要性の度合いである重要度を算出する、重要度算出手段と、を有する。 An apparatus for calculating word importance according to an aspect of the present invention includes an interest level input unit that inputs an interest level that is a degree of interest of a user at each time during browsing of the document, and the input interest level. A change pattern detection unit that detects a pattern of change in degree, and calculates an importance that is a degree of importance for the user for each word included in the document based on the detected pattern. Degree calculation means.
好ましくは、前記変化パターン検知手段は、前記パターンとして、第一の長さの時間における前記興味度の変化率が第一の率以上である第一のパターンおよび前記第一の長さよりも長い第二の長さの時間における前記興味度の変化率が前記第二の率よりも小さい第二の率以上である第二のパターンのうちの少なくともいずれかを検知し、前記重要度算出手段は、前記第一のパターンが検知された場合は、前記重要度として、前記第二のパターンのみ検知された場合よりも、高い度数を算出する。 Preferably, the change pattern detecting means includes, as the pattern, a first pattern in which a change rate of the degree of interest in a first length of time is equal to or greater than a first rate and a first pattern longer than the first length. Detecting at least one of the second patterns in which the change rate of the degree of interest in a second length of time is equal to or greater than a second rate smaller than the second rate, and the importance degree calculation unit includes: When the first pattern is detected, a higher frequency is calculated as the importance than when only the second pattern is detected.
または、前記重要度算出手段は、前記単語それぞれの重要度を、当該単語が前記文書に表れる頻度に応じて算出する。 Alternatively, the importance calculation means calculates the importance of each word according to the frequency with which the word appears in the document.
または、前記重要度算出手段は、前記各時刻における前記興味度の中間値が所定の値以上である場合に、前記単語それぞれの前記重要度を算出し、そうでない場合は、算出しない。 Alternatively, the importance level calculation means calculates the importance level of each of the words when the intermediate value of the interest level at each time is greater than or equal to a predetermined value, and does not calculate otherwise.
または、前記重要度算出手段は、前記単語のうちの前記文書の中の前記ユーザが注目した部分に含まれる単語の前記重要度として、他の単語の前記重要度よりも高い度数を算出する。 Alternatively, the importance calculation means calculates a frequency higher than the importance of other words as the importance of the word included in the portion of the word that is noticed by the user in the document.
または、前記重要度算出手段は、前記単語のうちの所定の書式で表わされる単語の前記重要度として、他の単語の前記重要度よりも高い度数を算出する。または、前記単語のうちの前記文書の中の所定の欄に表われる単語の前記重要度として、他の単語の前記重要度よりも高い度数を算出する。 Alternatively, the importance calculation means calculates a frequency higher than the importance of other words as the importance of words expressed in a predetermined format among the words. Alternatively, a frequency higher than the importance of other words is calculated as the importance of the word appearing in a predetermined column in the document.
または、検知された前記パターンに基づいて、前記文書に含まれる複数の単語同士からなるペアごとの、前記ユーザにとっての重要性の度合いであるペア重要度を算出する、ペア重要度算出手段、を有する。 Or, based on the detected pattern, pair importance calculation means for calculating pair importance, which is a degree of importance for the user, for each pair consisting of a plurality of words included in the document, Have.
または、前記ペア重要度算出手段は、前記第一のパターンが検知された場合は、前記ペア重要度として、前記第二のパターンのみ検知された場合よりも、高い度数を算出する。 Alternatively, the pair importance calculation means calculates a higher frequency as the pair importance than when only the second pattern is detected when the first pattern is detected.
または、前記ペア重要度算出手段は、前記ペアのうちの前記文書の中の前記ユーザが注目した部分に含まれるペアの前記ペア重要度として、他のペアの前記ペア重要度よりも高い度数を算出する。 Alternatively, the pair importance calculation means may calculate a higher degree than the pair importance of the other pair as the pair importance of the pair included in the portion of the document that is noticed by the user in the document. calculate.
または、前記単語ごとの前記重要度および前記ペアごとの前記ペア重要度を示すプロファイルデータを記憶するプロファイルデータ記憶手段と、前記ユーザが指定した検索クエリーを前記プロファイルデータに基づいて補正し、当該補正した検索クエリーに基づいて情報を検索する処理を行う検索処理手段と、を有する。 Alternatively, profile data storage means for storing profile data indicating the importance for each word and the pair importance for each pair, and a search query specified by the user is corrected based on the profile data, and the correction Retrieval processing means for performing processing for retrieving information based on the retrieved query.
本発明によると、文書に含まれる単語ごとの、ユーザにとっての重要性の度合いを、従来よりも精度よく求めることができる。 According to the present invention, the degree of importance for a user for each word included in a document can be obtained with higher accuracy than before.
図1は、文書管理システム1SYの全体的な構成の例を示す図である。図2は、プロファイル管理サーバ1のハードウェア構成の例を示す図である。図3は、プロファイル管理サーバ1の機能的構成の例を示す図である。図4は、端末装置2のハードウェア構成の例を示す図である。図5は、端末装置2の機能的構成の例を示す図である。
FIG. 1 is a diagram illustrating an example of the overall configuration of the document management system 1SY. FIG. 2 is a diagram illustrating an example of a hardware configuration of the
文書管理システム1SYは、図1に示すように、プロファイル管理サーバ1、端末装置2、ドキュメントサーバ3、画像形成装置4、および通信回線5などによって構成される。
As shown in FIG. 1, the document management system 1SY includes a
文書管理システム1SYは、種々の情報、特に文書を管理しユーザに提供するためのシステムである。文書管理システム1SYは、企業、役所、または学校などの組織に設置され、組織のメンバーによって用いられる。以下、ある企業において文書管理システム1SYが用いられる場合を例に説明する。したがって、この企業の従業員が文書管理システム1SYのユーザである。各ユーザには、ユニークなID(identification)であるユーザコードが1つずつ与えられている。 The document management system 1SY is a system for managing various information, particularly documents, and providing them to users. The document management system 1SY is installed in an organization such as a company, a government office, or a school, and is used by members of the organization. Hereinafter, a case where the document management system 1SY is used in a certain company will be described as an example. Therefore, employees of this company are users of the document management system 1SY. Each user is given one user code, which is a unique ID (identification).
プロファイル管理サーバ1、端末装置2、ドキュメントサーバ3、および画像形成装置4は、通信回線5を介して通信を行うことができる。通信回線5として、固定電話回線、携帯電話網、PHS(Personal Handy-phone System)回線、専用線、インターネット、またはいわゆるLAN(Local Area Network)回線などが用いられる。LAN回線の全部または一部として、無線LANの回線を用いることができる。
The
プロファイル管理サーバ1は、ユーザごとのプロファイルを管理する。プロファイルとして、特に、ユーザに関連する単語を管理する。また、ユーザに関連する単語をキーワードとして用いて文書の検索を支援する。これらについては、後に詳細に説明する。
The
プロファイル管理サーバ1は、図2に示すように、CPU(Central Processing Unit)10a、RAM(Random Access Memory)10b、ROM(Read Only Memory)10c、ハードディスク10d、およびNIC(Network Interface Card)10eなどによって構成される。
As shown in FIG. 2, the
NIC10eは、端末装置2、ドキュメントサーバ3、および画像形成装置4のほか、インターネット上のウェブサーバなどと通信を行うための装置である。
The NIC 10 e is a device for communicating with the
ROM10cまたはハードディスク10dには、図3に示す文書データ収集部101、興味度データ取得部102、必要部分抽出部103、単語重要度算出部104、ペア重要度算出部105、変化パターン判定部106、重要度調整部107、プロファイルデータ生成部108、検索処理部109、文書データ記憶部121、興味度データ記憶部122、およびプロファイルデータ記憶部123などの機能を実現するためのプログラムが記憶されている。このプログラムは、プロファイルの管理および情報の検索のためのものである。このプログラムは、必要に応じてRAM10bにロードされ、CPU10aによって実行される。
The
図1に戻って、端末装置2は、文書(ドキュメント)の作成および編集を行ったり、プロファイル管理サーバ1、ドキュメントサーバ3、および画像形成装置4などが提供する種々のサービスを受けたりするための装置である。端末装置2として、パーソナルコンピュータ、タブレットコンピュータ(タブレットPC)、携帯電話端末、またはスマートフォンなどが用いられる。以下、端末装置2としてタブレットコンピュータが用いられる場合を例に説明する。
Returning to FIG. 1, the
端末装置2は、図4に示すように、CPU20a、RAM20b、フラッシュメモリ20c、タッチパネルディスプレイ20d、操作ボタン群20e、無線LAN通信装置20f、近距離無線通信装置20g、携帯電話通信装置20h、マイクロフォン20i、スピーカ20j、デジタルカメラ20k、およびジャイロセンサ20mなどによって構成される。
As shown in FIG. 4, the
タッチパネルディスプレイ20dは、ユーザに対してメッセージを与えるための画面、処理の結果を示す画面、またはユーザが指示を入力するための画面などを表示する。また、タッチパネルディスプレイ20dは、タッチされた位置を検知し、CPU20aにその位置を通知する。
The
操作ボタン群20eは、いわゆるホーム画面に戻るためのボタン、音量を調整するためのボタン、および電源のオン/オフを切り換えるためのボタンなどによって構成される。
The
無線LAN通信装置20f、近距離無線通信装置20g、および携帯電話通信装置20hは、いずれも、無線によって他の装置と通信を行うための装置である。ただし、それぞれ、通信の方式などが異なる。
The wireless
無線LAN通信装置20fは、無線LANの規格、つまり、IEEE(Institute of Electrical and Electronics Engineers)802.11の規格に基づいて通信を行う。
The wireless
近距離無線通信装置20gは、近距離無線通信の規格に基づいて通信を行う。例えば、Bluetooth(登録商標)またはZigBeeなどの規格に基づいて通信を行う。また、ワイヤレスキーボード、ワイヤレスマウス、エアペン(Air Pen)、視線追従型ヘッドマウントディスプレイ、赤外線カメラ、およびジェスチャコントローラなどを、近距離無線通信装置20gを介して端末装置2に接続することもできる。なお、ジェスチャコントローラは、深度センサまたはジャイロセンサなどを有し、ユーザがジェスチャによって本体(本例では、端末装置2)をコントロールするための入力装置である。ジェスチャコントローラとして、マイクロソフト社のKinectまたはリープモーション社のLEAPなどが用いられる。
The short-range
携帯電話通信装置20hは、CDMA(Code Division Multiple Access)2000またはW−CDMA(Wideband-CDMA)などの規格に基づいて通信を行う。
The cellular
マイクロフォン20iは、集音し音声データを生成する。スピーカ20jは、音声データに基づいて音声を出力する。デジタルカメラ20kは、画像を撮影し画像データを生成する。動画像を撮影し動画像の画像データを生成することも、できる。ジャイロセンサ20mは、端末装置2の姿勢を検知する。
The microphone 20i collects sound and generates voice data. The
フラッシュメモリ20cには、文書(ドキュメント)の作成用のアプリケーション(例えば、ワープロソフト)がインストールされている。そのほか、メーラ、ウェブブラウザ、スケジューラ、メッセンジャ、IP電話アプリケーション、および声紋判別アプリケーションなどのアプリケーションがインストールされている。
An application (for example, word processing software) for creating a document (document) is installed in the
さらに、フラッシュメモリ20cには、図5に示す閲覧開始操作検知部201、文書データ提供部202、興味度検出部203、興味度変化データ記憶部204、閲覧終了操作検知部205、全体興味度算出部206、興味度データ提供部207、および検索クライアント208などの機能を実現するためのプログラムが記憶されている。
Furthermore, the
これらのプログラムは、必要に応じてRAM20bにロードされ、CPU20aによって実行される。
These programs are loaded into the
図1に戻って、ドキュメントサーバ3は、文書のデータを管理する。ドキュメントサーバ3として、複数台のサーバが設けられている。特に、ドキュメントサーバ31は、ファイルサーバであって、ワープロソフトなどのアプリケーションによって作成された文書のデータをファイル単位で管理する。ドキュメントサーバ32は、ウェブサーバであって、文書のデータをウェブページの単位で管理する。
Returning to FIG. 1, the
画像形成装置4は、コピー、PCプリント、ファックス、およびスキャナなどの機能を集約した装置である。一般に、「複合機」または「MFP(Multi Function Peripherals)」などと呼ばれることがある。
The
「PCプリント」は、端末装置2から受信した画像データに基づいて画像を用紙に印刷する機能である。「ネットワークプリンティング」または「ネットワークプリント」などと呼ばれることもある。
“PC print” is a function for printing an image on paper based on image data received from the
次に、図3に示すプロファイル管理サーバ1の各部および図5に示す端末装置2の各部について、プロファイルの生成のためのデータの収集の処理、プロファイルの生成の処理、および情報の検索の処理に大別して説明する。
Next, for each part of the
〔プロファイルの生成のためのデータの収集の処理〕
図6は、各時刻の興味度データ6KAの例を示す図である。
[Process of collecting data for profile generation]
FIG. 6 is a diagram illustrating an example of the interest level data 6KA at each time.
ユーザが文書を端末装置2によって使用し始めるタイミングが、プロファイルの生成のために必要なデータを収集する処理の開始のタイミングである。
The timing at which the user starts using the document by the
端末装置2において、閲覧開始操作検知部201は、ユーザが文書の閲覧を開始する操作を行ったことを検知する。
In the
閲覧を開始する操作の検知は、キーロガーによって実現することができる。なお、キーロガーは、キーボード、マウス、またはタッチパネルディスプレイによる入力を随時、監視するエージェントである。すなわち、閲覧開始操作検知部201は、キーロガーによってユーザが行った操作の手順を検知し、検知した操作の手順と所定の操作の手順とをマッチングする。そして、両者が一致すれば、閲覧を開始する操作が行われたと、検知する。所定の操作の手順は、例えば、所定のアプリケーションを起動し、ファイルのオープンのコマンドを入力し、文書のデータを選択する、という操作の手順である。この例によると、閲覧開始操作検知部201は、ユーザが選択した文書のデータをも検知することができる。
Detection of an operation for starting browsing can be realized by a key logger. Note that the key logger is an agent that monitors input from the keyboard, mouse, or touch panel display as needed. In other words, the browsing start
また、このような操作によって端末装置2において、従来通り、アプリケーションが起動し、ユーザによって選択された文書のデータがドキュメントサーバ3からダウンロードされまたは端末装置2のデータベースから読み出され、そして、文書が表示される。これにより、ユーザは、文書を閲覧することができる。
Further, by such an operation, the application is started in the
文書データ提供部202は、閲覧開始操作検知部201によって検知された文書のデータを、このユーザのユーザコードと対応付けてプロファイル管理サーバ1へ送信する。以下、ユーザが選択した文書を「カレント文書」と記載し、カレント文書のデータを「文書データ6DC」と記載する。
The document
プロファイル管理サーバ1の文書データ収集部101(図3参照)は、端末装置2から送信されてきた文書データ6DCを取得し、文書データ記憶部121に記憶させる。
The document data collection unit 101 (see FIG. 3) of the
端末装置2の興味度検出部203は、カレント文書に対するユーザの興味の強さの度合いを表わす興味度RIを検出する。興味度RIは、例えば次の方法によって検出することができる。
The interest
1つ目の方法は、ユーザの視線に基づいて検出する方法である。具体的には、デジタルカメラ20kまたは視線追従型ヘッドマウントディスプレイによってユーザの顔を撮影し視線およびその動きを検出する。また、予め、視線がカレント文書の画面に定まっている時間(凝視している時間)が長いほど高い興味度を導く関数またはテーブルを用意しておく。そして、ユーザの視線に基づいてカレント文書の画面に定まっている時間を算出し、関数またはテーブルに基づいて興味度RIを検出する。視線に基づく興味度の検出の公知の技術として、特開平11−85762号公報に記載される技術がある。
The first method is a detection method based on the user's line of sight. Specifically, the user's face is photographed by the
2つ目の方法は、ユーザの姿勢に基づいて検出する方法である。具体的には、デジタルカメラ20kによってユーザと対象の物体(本例では、カレント文書の画面)との距離を計測する。また、予め、距離(ユーザと対象の物体との距離)と興味度との関係を表わす関数またはテーブルを用意しておく。そして、計測した距離および関数またはテーブルに基づいて興味度RIを検出する。または、距離の変化量に基づいて興味度を検出する方法を用いてもよい。
The second method is a detection method based on the user's posture. Specifically, the distance between the user and the target object (in this example, the screen of the current document) is measured by the
3つ目の方法は、生体情報に基づいて検出する方法である。具体的には、デジタルカメラ20k、視線追従型ヘッドマウントディスプレイ、または赤外線カメラによってユーザの眼球の運動および瞬きのほか、瞳孔の大きさを検出する。また、眼球の運動、瞬きの回数もしくは頻度、または瞳孔の大きさもしくはその変化と興味度との関係を表わす関数またはテーブルを予め用意しておく。そして、検出したこれらの情報および関数またはテーブルに基づいて興味度RIを検出する。人間の目に関する情報に基づいて興味度を検出する公知の技術の例として、WO2008/072739号公報に記載される技術がある。
The third method is a detection method based on biological information. Specifically, the size of the pupil is detected in addition to the movement and blinking of the user's eyeball by the
これらの方法によると、ユーザがカレント文書を閲覧している様子を撮影するだけでよいので、ユーザの作業(ワーク)を阻害することなく、興味度RIをリアルタイムに検出することができる。 According to these methods, since it is only necessary to photograph the state in which the user is browsing the current document, the degree of interest RI can be detected in real time without obstructing the user's work (work).
なお、上記3つ以外の方法によって興味度RIを検出してもよい。または、精度を高めるために、複数の方法を組み合わせても用いてもよい。 Note that the degree of interest RI may be detected by a method other than the above three methods. Alternatively, a plurality of methods may be used in combination to increase accuracy.
興味度検出部203は、ユーザがカレント文書の閲覧を開始してから終了するまでの間、所定の時間(例えば、1〜10秒)ごとに興味度RIを検出する。
The interest
検出された興味度RIは、その時点の時刻と対応付けられて、興味度データ6KAとして興味度変化データ記憶部204に記憶される。つまり、興味度変化データ記憶部204には、図6のような、時刻ごとの興味度RI、つまり、興味度RIの変化のデータが、記憶される。
The detected degree of interest RI is stored in the interest degree change
閲覧終了操作検知部205は、ユーザがカレント文書の閲覧を終了する操作を行ったことを検知する。
The browsing end
閲覧を終了する操作の検知も、閲覧を開始する操作の検知と同様に、キーロガーによって実現することができる。すなわち、閲覧終了操作検知部205は、キーロガーによってユーザが行った操作を検知し、検知した操作と所定の操作とをマッチングする。そして、両者が一致すれば、閲覧を終了する操作が行われたと、検知する。所定の操作は、例えば、所定のアプリケーションの終了のコマンドの入力、文書のファイルを閉じるコマンドの入力、または他の文書のファイルをオープンするコマンドの入力、または他のアプリケーションへの切換えなどの操作などである。
The detection of the operation for ending the browsing can also be realized by a key logger similarly to the detection of the operation for starting the browsing. That is, the browsing end
全体興味度算出部206は、カレント文書の閲覧の終了の操作が閲覧終了操作検知部205によって検知されると、興味度変化データ記憶部204に記憶されている、各時刻の興味度データ6KAに基づいて、閲覧中の全体的な興味の度合いを表わす全体興味度REを算出する。例えば、各興味度データ6KAに示される興味度RIの平均値を全体興味度REとして算出する。または、これらの興味度RIのうちの最大値と最小値との中間値(例えば、ちょうど真ん中の値)を全体興味度REとして算出してもよい。
When the operation for ending the browsing of the current document is detected by the browsing end
興味度データ提供部207は、興味度データ6Kを生成し、プロファイル管理サーバ1へ送信する。興味度データ6Kには、閲覧が終了したことを示す信号、全体興味度算出部206によって算出された全体興味度RE、興味度検出部203によって検出された各時刻の興味度RI、および閲覧者(ユーザ)のユーザコードが示されている。
The interest degree
プロファイル管理サーバ1において、興味度データ取得部102は、端末装置2から送信されてきた興味度データ6Kを取得し、興味度データ記憶部122に記憶させる。
In the
〔プロファイルの生成の処理〕
図7は、必要部分抽出処理の流れの例を説明するフローチャートである。図8は、変化パターンと重要性特性との関係の例を示す図である。図9は、変化パターンごとの重み付けの方法の例を示す図である。図10は、プロファイルデータ6PDの例を示す図である。
[Profile generation processing]
FIG. 7 is a flowchart illustrating an example of the flow of necessary part extraction processing. FIG. 8 is a diagram illustrating an example of the relationship between the change pattern and the importance characteristic. FIG. 9 is a diagram illustrating an example of a weighting method for each change pattern. FIG. 10 is a diagram illustrating an example of the profile data 6PD.
必要部分抽出部103は、興味度データ取得部102によって興味度データ6Kが取得されると、カレント文書の中からプロファイルの生成に必要な部分を抽出する処理を、例えば図7に示す手順で実行する。
When the
必要部分抽出部103は、興味度データ6Kに示される全体興味度REと閾値αとを比較する(#701)。全体興味度REが閾値α以上である場合は(#702でYes)、文書データ記憶部121から文書データ6DCを読み出す(#703)。そして、文書データ6DCに基づいて、プロファイルの生成のために必要でない部分をカレント文書から削除する(#704)。
The necessary
例えば、必要部分抽出部103は、カレント文書が電子メールである場合は、電子メールのヘッダおよびレターヘッドを削除する。カレント文書がウェブページである場合は、ウェブページのバナー広告を削除する。または、ウェブページの必要な部分と不要な部分とを、領域判別に関する公知の技術によって区別し、不要な部分を削除してもよい。公知の技術として、エバーノート社のWebクリッパまたはClealyで採用されている技術が用いられる。
For example, if the current document is an e-mail, the necessary
このようにして、カレント文書から抽出された必要な部分のデータを、以下、「必要部分データ6HB」と記載する。 The necessary portion data extracted from the current document in this way is hereinafter referred to as “required portion data 6HB”.
そして、必要部分抽出部103は、必要部分データ6HBを文書データ記憶部121に保存する(#705)。
Then, the necessary
一方、全体興味度REが閾値α未満である場合は(#702でNo)、必要部分抽出部103は、ステップ#703以降の処理を中止する。次に説明する単語重要度算出部104などによる処理も中止され、必要部分抽出部103は、次の興味度データ6Kが受信されるのを待つ。
On the other hand, when the overall interest level RE is less than the threshold value α (No in # 702), the necessary
単語重要度算出部104は、必要部分データ6HBに示される文書(必要な部分)から単語を抽出し、単語ごとの重要性の度合い(以下、「重要度W」と記載する。)を算出する。
The word
抽出の処理は、例えば、次の方法で行うことができる。必要部分データ6HBに示される文書が英語またはフランス語などで記述されている場合は、単語抽出部105は、スペースまたは改行のコードに基づいて単語同士を切り分け抽出すればよい。日本語で記述されている場合は、形態素解析の技術を用いて単語を抽出する。この技術を実装しているソフトウェアとして、奈良先端科学技術大学院大学の松本裕治研究室の茶筅(ChaSen)および工藤拓氏のMecabが挙げられる。これらのソフトウェアによって形態素解析を行うことによって、単語を抽出すればよい。
The extraction process can be performed, for example, by the following method. When the document indicated by the necessary partial data 6HB is described in English or French, the
一方、重要度Wの算出は、例えば、次の方法で行うことができる。1つ目の方法は、パターンマッチングによる方法である。この方法は、「○○は調査すべきである」のような、よく使う重要な言い回しのテンプレートを予め登録しておく。そして、「○○」に該当する該当する単語に、該当する回数に応じて所定の点数を与えることによって、重要度Wを算出する。 On the other hand, the importance W can be calculated by the following method, for example. The first method is a pattern matching method. In this method, a frequently used important wording template such as “XX should be investigated” is registered in advance. Then, the degree of importance W is calculated by giving a predetermined score to the corresponding word corresponding to “XX” according to the number of times corresponding to the word.
2つ目の方法は、文書に単語が出現する回数に応じて算出する方法である。例えば、
TF−IDF(Term Frequency Inverse Document Frequency)法による方法である。この方法によると、次に示す式に基づいて重要度を算出する。
The second method is a method of calculating according to the number of times a word appears in a document. For example,
This is a method based on the TF-IDF (Term Frequency Inverse Document Frequency) method. According to this method, the importance is calculated based on the following equation.
「ni,j」は、単語iの、文書jにおける出現回数である。|D|は、文書の総数である。|{d:d∋ti}は、単語iを含む文書の総数である。上述の式の「idf」は、一般語フィルタとして働く。そして、多くの文書に出現する単語(一般語)の重要度を下げる役割を果たす。 “N i, j ” is the number of appearances of the word i in the document j. | D | is the total number of documents. | {D: d∋t i } is the total number of documents including the word i. “Idf” in the above formula acts as a general word filter. And it plays the role which lowers the importance of the word (general word) which appears in many documents.
ペア重要度算出部105は、必要部分データ6HBに示される文書(必要な部分)から複数の単語からなるペアを抽出し、ペアごとの重要性の度合い(以下、「ペア重要度S」と記載する。)を算出する。
The pair
ペアは、単語重要度算出部104によって抽出された単語同士を任意に組み合わせることによって、抽出することができる。ただし、この方法によると、非常に多くのペアが抽出され得るが、単語同士の関連性が低いペアが含まれることがある。そこで、1つの塊、例えば、1つのセンテンスまたは1つの段落などに含まれる単語同士をペアとして抽出してもよい。以下、2つの単語が1つのペアをなす場合を例に説明する。
A pair can be extracted by arbitrarily combining words extracted by the word
ペア重要度Sの算出は、例えば、次の方法で行うことができる。単語重要度算出部104は、抽出したペアを構成する2つの単語同士の、文書内における距離を求める。そして、所定の関数またはテーブルに基づいて、その距離に応じた重要度を算出する。所定の関数またはテーブルには、距離が短いほど重要度が高くなるように、距離と重要度との関係が定義されている。
The pair importance S can be calculated by, for example, the following method. The word
例えば、「南部地方|で|は、|気候|を|活かし|た|特産品|で|村おこし|の|協力者|を|募集し|て|いる。」というセンテンスの中から「南部地方」および「気候」のペアが抽出されたとする。なお、「|」は、単語と単語との区切りの記号である。句読点などの記号は、無視する。このペアを構成する2つの単語の距離(いわゆるワード距離)は、自らを含め、4ワードである。よって、ペア重要度算出部105は、このペアのペア重要度Sを、4ワードに対応する重要度を所定の関数またはテーブルから導くことによって、算出する。同様に、「南部地方」と「特産品」との距離は、8ワードである。よって、ペア重要度算出部105は、両単語のペアのペア重要度Sを、8ワードに対応する重要度を所定の関数またはテーブルから導くことによって、算出する。
For example, from the sentence “Southern Region | In |” | “Climate | | Utilization | TA | Special Products | In | ”And“ climate ”pairs are extracted. Note that “|” is a delimiter between words. Ignore symbols such as punctuation marks. The distance between two words constituting the pair (so-called word distance) is 4 words including itself. Therefore, the pair
または、ペア重要度算出部105は、シソーラス(分類辞典)を参照し、両単語の持つ意味的な繋がりに基づいて重要度を求めても算出してもよい。
Alternatively, the pair
これらの方法は、ペアを構成する両単語の関係性の度合いを、ペアの重要度として算出していると、言える。 It can be said that these methods calculate the degree of relationship between the two words constituting the pair as the importance of the pair.
同一の単語が複数抽出された場合は、同一のペアが複数回、出現する。例えば、WD1という単語が2つ抽出され、WD2という単語が3つ抽出された場合は、2×3、つまり、6回、両単語のペアが出現する。このような場合は、2つの単語同士の距離が最も近いときの重要度をペア重要度Sとして採用すればよい。または、それぞれの重要度の平均値を取ってもよい。または、出現回数の多さに応じた重要度をペア重要度Sとして採用してもよい。つまり、出現回数が多いほどペア重要度Sを大きくしてもよい。 When a plurality of the same words are extracted, the same pair appears a plurality of times. For example, when two words WD1 are extracted and three words WD2 are extracted, 2 × 3, that is, pairs of both words appear six times. In such a case, the importance when the distance between the two words is the shortest may be adopted as the pair importance S. Or you may take the average value of each importance. Alternatively, importance corresponding to the number of appearances may be adopted as the pair importance S. That is, the pair importance S may be increased as the number of appearances increases.
または、ペア重要度算出部105は、上記の演算を行わず、すべてのペアのペア重要度Sを一律に所定の値(ただし、「0」以外の値。例えば、「1」)に決めてもよい。
Alternatively, the pair
変化パターン判定部106は、ユーザの興味度RIの変化に表れるパターン(以下、「変化パターン」と記載する。)を、次のように判定する。
The change
変化パターン判定部106は、例えば1〜10秒程度の短い時間Laに急激に興味度RIが上昇するパターン(以下、「急上昇パターン」と記載する。)が表れているか否かを、次のように判別する。カレント文書の閲覧中の各時刻から時間Laの経過後までの興味度RIの変化率を算出する。つまり、例えば、ある時刻T1における変化率として、時刻T1の時間La前における興味度RIから時刻T1における興味度RIへの増加量を時間Laで割った値を、算出する。そして、変化率が閾値βa以上である時刻があれば、変化パターンとして急上昇パターンが表れていると、判定する。
For example, the change
さらに、変化パターン判定部106は、例えば10秒〜1分程度の長い時間Lbに興味度RIが上昇するパターン(以下、「緩上昇パターン」と記載する。)が表れているか否かを、次のように判別する。カレント文書の閲覧中の各時刻から時間Lbの経過後までの興味度RIの変化率を算出する。つまり、例えば、ある時刻T1における変化率として、時刻T1の時間Lb前における興味度RIから時刻T1における興味度RIへの増加量を時間Lbで割った値を、算出する。そして、変化率が閾値βb以上である時刻があれば、変化パターンとして緩上昇パターンが表れていると、判定する。ただし、閾値βa>閾値βb、である。
Further, the change
また、急上昇パターンおよび緩上昇パターンのいずれも表れていない場合は、変化パターン判定部106は、変化パターンとして「上昇小パターン」が表れていると、判定する。
Further, when neither the sudden rise pattern nor the slow rise pattern appears, the change
なお、時間LaおよびLbの長さは、ユーザの読書のスピードなどに応じて適宜、変更することができる。ただし、時間La<時間Lb、である。閾値βaおよびβbも、適宜、変更することができる。 The lengths of the times La and Lb can be changed as appropriate according to the reading speed of the user. However, time La <time Lb. The threshold values βa and βb can also be changed as appropriate.
重要度調整部107は、単語重要度算出部104によって算出された各単語の重要度Wおよびペア重要度算出部105によって算出された各ペアのペア重要度Sを、変化パターン判定部106によって判定された変化パターンに基づいて調整する。
The importance
ところで、一般に、文書の中のユーザにとっての重要な部分は、変化パターンに応じて、重要性について図8に示すような特性を有することが多い。 By the way, in general, an important part for a user in a document often has a characteristic as shown in FIG. 8 according to the change pattern.
つまり、変化パターンとして急上昇パターンが表れる場合は、ユーザの目に留まった単語自体が重要であることが多い。一方、緩上昇パターンが表れる場合は、単語自体よりも全体的な内容が重要であることが多い。また、どちらの場合も、単語同士のペアが重要であることが多い。 That is, when a sudden rise pattern appears as a change pattern, the word itself that is noticeable to the user is often important. On the other hand, when a slowly rising pattern appears, the overall content is often more important than the word itself. In both cases, word-to-word pairs are often important.
そこで、重要度調整部107は、このような傾向に鑑み、図9に示すように、各単語の重要度Wおよび各ペアのペア重要度Sを調整する。
Therefore, in view of such a tendency, the importance
つまり、変化パターンが急上昇パターンであると変化パターン判定部106によって判定された場合は、重要度調整部107は、各単語の重要度Wに所定の値γa(γa>0)を加える。さらに、各ペアのペア重要度Sに所定の値γb(γb>0)を加える。または、各ペアのペア重要度Sに所定の値γc(γc>1)を掛けてもよい。
That is, when the change
または、変化パターンが急上昇パターンではなく緩上昇パターンであると変化パターン判定部106によって判定された場合は、重要度調整部107は、各ペアのペア重要度Sに所定の値γd(γd>0)を加える。または、各ペアのペア重要度Sに所定の値γe(γe>1)を掛けてもよい。
Alternatively, when the change
なお、所定の値γb>所定の値γd、である。また、所定の値γc>所定の値γe、である。つまり、急上昇パターンが出現するときのほうが、急上昇パターンが出現せず緩上昇パターンが出現するときよりも、増加量を多くする。 Note that the predetermined value γb> the predetermined value γd. Further, the predetermined value γc> the predetermined value γe. That is, the amount of increase is greater when the sudden rise pattern appears than when the slow rise pattern appears without the sudden rise pattern.
また、ほぼ同時に目に留まった単語同士は、全体的な内容を表わす単語同士よりも、直接的な結び付きが大きい。そこで、ほぼ同時に目に留まった単語同士のペアに対する増加量をより大きくしてもよい。 In addition, words that are noticed almost simultaneously have a greater direct connection than words that represent the overall content. Therefore, the amount of increase with respect to pairs of words that are noticed almost simultaneously may be increased.
変化パターンが上昇小パターンであると変化パターン判定部106によって判定された場合は、重要度調整部107は、重要度Wの調整もペア重要度Sの調整も、行わない。
When the change
プロファイルデータ生成部108は、ユーザのプロファイルデータ6PDを生成する。プロファイルデータ6PDには、図10のように、単語ごとの重要度Wおよび識別子(単語コード)と、ペアごとのペア重要度Sおよび識別子(ペアコード)などが示される。これらの単語およびペアは、そのユーザの特徴を表わす重要なキーワードであると、言える。なお、ペアを構成する単語を「南部地方−特産品」のように文字で表わす代わりに「WD0001−WD0002」のように単語コードで表わしてもよい。
The profile
生成されたプロファイルデータ6PDは、そのユーザのユーザコードと対応付けられてプロファイルデータ記憶部123に記憶される。
The generated profile data 6PD is stored in the profile
なお、そのユーザのプロファイルデータ6PDが既にプロファイルデータ記憶部123に記憶されている場合は、プロファイルデータ生成部108は、そのプロファイルデータ6PDを更新してもよい。更新の処理は、例えば次のように行うことができる。
If the profile data 6PD of the user is already stored in the profile
既にプロファイルデータ6PDに示される単語については、プロファイルデータ生成部108は、その単語の重要度Wを例えば次の式に基づいて算出し直す。
Wi=(1−P)・W0i+P・W1i
ただし、0≦P≦1、である。W0iは、既存のプロファイルデータ6PDに示される単語iの重要度である。W1iは、今回算出された単語iの重要度である。
For the word already indicated in the profile data 6PD, the profile
Wi = (1−P) · W0i + P · W1i
However, 0 ≦ P ≦ 1. W0i is the importance of the word i indicated in the existing profile data 6PD. W1i is the importance of the word i calculated this time.
Pの値は、任意に設定することができる。過去の閲覧の際の結果を重要視するのであれば、Pの値を小さくすればよいし、今回の閲覧の際の結果を重要視するのであれば、Pの値を大きくすればよい。過去の閲覧の際の結果を全く考慮しないのであれば、Pを「1」にすればよい。 The value of P can be set arbitrarily. If the result of past browsing is regarded as important, the value of P may be reduced. If the result of current browsing is regarded as important, the value of P may be increased. If the results of past browsing are not considered at all, P may be set to “1”.
既存のペアのペア重要度Sも同様の方法で算出し直せばよい。つまり、次の式に基づいて算出し直せばよい。
Sk=(1−Q)・S0k+Q・S1k
ただし、0≦Q≦1、である。Sk0は、既存のプロファイルデータ6PDに示されるペアknのペア重要度Sである。Sk1は、今回算出されたペア重要度Sである。
The pair importance S of an existing pair may be recalculated by the same method. That is, it is sufficient to recalculate based on the following equation.
Sk = (1-Q) · S0k + Q · S1k
However, 0 ≦ Q ≦ 1. Sk0 is the pair importance S of the pair kn shown in the existing profile data 6PD. Sk1 is the pair importance S calculated this time.
そして、プロファイルデータ生成部108は、単語iの重要度Wを、算出し直したWiに書き換え、ペアkのペア重要度Sを、算出し直したペア重要度Skに書き換える。
Then, the profile
上の各式によると、重要度Wおよびペア重要度Sは、次のように更新される。「南部地方」のこれまでの重要度Wが「6」であり、今回算出された重要度Wが「5」であり、Pが「0.3」である場合は、これらの値に基づいて重要度Wを算出し直すと、
W=(1−0.3)・6+0.3・5=5.7
になる。
According to the above equations, the importance W and the pair importance S are updated as follows. When the importance W so far of the “Southern region” is “6”, the importance W calculated this time is “5”, and P is “0.3”, based on these values When the importance W is recalculated,
W = (1-0.3) .6 + 0.3.5 = 5.7
become.
また、「南部地方」と「特産品」とのペアのペア重要度Sが「9」であり、今回算出されたペア重要度Sが「10」であり、Qが「0.3」である場合は、これらの値に基づいてペア重要度Sを算出し直すと、
S=(1−0.3)・9+0.3・10=9.3
になる。
Further, the pair importance S of the pair of “Southern region” and “special product” is “9”, the pair importance S calculated this time is “10”, and Q is “0.3”. If the pair importance S is recalculated based on these values,
S = (1-0.3) · 9 + 0.3 · 10 = 9.3
become.
なお、初めて抽出された単語については、プロファイルデータ生成部108は、今回算出されたペア重要度Sおよび新しい単語コードとともにプロファイルデータ6PDに追記する。また、初めて抽出されたペアのペア重要度Sについても同様に、今回算出されたペア重要度Sおよび新しいペアコードとともにプロファイルデータ6PDに追記する。
In addition, about the word extracted for the first time, the profile
〔情報の検索の処理〕
検索処理部109は、情報の検索の処理を、プロファイルデータ6PDを用いて例えば次のように実行する。
[Information search process]
The
ユーザが端末装置2に所定のコマンドを入力すると、検索クライアント208(図5参照)が起動する。なお、検索クライアント208は、検索処理部109による検索のサービスを受けるクライアントのモジュールである。
When the user inputs a predetermined command to the
検索クライアント208は、検索のキーワード(以下、「検索キー」と記載する。)を入力するための入力画面をタッチパネルディスプレイ20dに表示させる。そして、ユーザが入力した検索キーおよびこのユーザのユーザコードを示す検索要求データ6QDをプロファイル管理サーバ1へ送信する。
The
プロファイル管理サーバ1において、検索処理部109は、検索要求データ6QDを取得すると、検索要求データ6QDに示される検索キーを次のように補正する。検索要求データ6QDに示されるユーザコードのプロファイルデータ6PDをプロファイルデータ記憶部123から読み出す。そして、検索要求データ6QDに示される検索キー(単語)がプロファイルデータ6PDに示される場合は、この検索キーとのペア重要度Sが最も高い単語を選出する。
In the
例えば、検索キーが「南部地方」であり、「南部地方」と各単語との関連度が図10に示す通りである場合は、ペア重要度Sの最も高い「村おこし」を選出する。 For example, if the search key is “south region” and the degree of association between “south region” and each word is as shown in FIG. 10, “village revitalization” having the highest pair importance S is selected.
検索処理部109は、この検索キーと選出した単語との組合せ(例えば、「南部地方」および「村おこし」)を検索クエリとして用いて検索を行う。検索は、プロファイル管理サーバ1に備わっている検索エンジンを用いてもよいし、他の装置(例えば、ドキュメントサーバ32)の検索エンジンを用いてもよい。また、この検索キーと選出した単語とをANDで繋いでもよいし、ORで繋いでもよい。つまり、いわゆるAND検索を行ってもよいし、いわゆるOR検索を行ってもよい。
The
なお、検索キーがプロファイルデータ6PDに示されない場合は、検索処理部109は、従来通り、端末装置2からの検索キーのみを検索クエリとして用いて検索を行う。
When the search key is not indicated in the profile data 6PD, the
そして、検索処理部109は、検索結果を示す検索結果データ6ADを、要求元である端末装置2へ送信する。
Then, the
端末装置2において、検索クライアント208は、検索結果データ6ADを受信すると、検索結果をタッチパネルディスプレイ20dに表示させる。
In the
または、検索処理部109は、検索要求データ6QDに示される検索キー(単語)がプロファイルデータ6PDに示される場合に、この検索キーとのペア重要度Sが所定の値以上であり、かつ、重要度Wが最も高い単語を選出し補足してもよい。
Alternatively, when the search key (word) indicated in the search request data 6QD is indicated in the profile data 6PD, the
または、検索処理部109は、上述のいずれかの方法で選出した単語を、検索要求データ6QDに示される単語と置き換えて、検索してもよい。
Alternatively, the
図11は、端末装置2の全体的な処理の流れの例を説明するフローチャートである。図12は、プロファイル管理サーバ1の全体的な処理の流れの例を説明するフローチャートである。図13は、重要度調整処理の流れの例を説明するフローチャートである。
FIG. 11 is a flowchart illustrating an example of the overall processing flow of the
次に、プロファイル管理サーバ1および端末装置2の全体的な処理の流れを、フローチャートを参照しながら説明する。
Next, the overall processing flow of the
端末装置2は、カレント文書の閲覧の開始の操作を検知すると(図11の#851でYes)、文書データ6DCをプロファイル管理サーバ1へ送信する(#852)。さらに、所定の時間ごとに興味度RIを検出し記録する(#853)。
When the
そして、端末装置2は、カレント文書の閲覧の終了の操作を検知すると(#854でYes)、全体興味度REを算出し(#855)、全体興味度REおよび各時刻の興味度RIなどを示すデータ、つまり、興味度データ6Kを生成し、プロファイル管理サーバ1へ送信する(#856)。
When the
または、端末装置2は、検索キーを受け付けると(#857でYes)、この検索キーなどを示すデータつまり検索要求データ6QDを生成し、プロファイル管理サーバ1へ送信する(#858)。その後、プロファイル管理サーバ1から検索結果データ6ADを受信すると、検索の結果を表示する(#859)。
Alternatively, when receiving the search key (Yes in # 857), the
なお、図11に記載する全体的な処理は、最初から最後まで通しで行われるとは、限らない。端末装置2に対して行われた操作または入力されたデータなどに応じて、一部の処理が適宜、実行される。例えば、コマンド判別手段によって操作またはデータに基づいてコマンドを判別し、コマンドに対応するモジュールに対してディスパッチすればよい。図12についても、同様である。
Note that the overall processing illustrated in FIG. 11 is not always performed from the beginning to the end. Depending on the operation performed on the
一方、プロファイル管理サーバ1は、端末装置2からデータを受信すると(図12の#801)、そのデータの種類に応じて次の処理を実行する。
On the other hand, when receiving data from the terminal device 2 (# 801 in FIG. 12), the
文書データ6DCを受信した場合は(#802でYes)、プロファイル管理サーバ1は、それを記憶しておく(#803)。
When the document data 6DC is received (Yes in # 802), the
または、興味度データ6Kを受信した場合は(#804でYes)、プロファイル管理サーバ1は、興味度データ6Kを記憶し(#805)、プロファイルの生成に必要な部分をカレント文書の中から抽出する処理を実行する(#806)。この処理の手順は、前に図7で説明した通りである。なお、この処理において、全体興味度REと閾値αとを比較した結果、全体興味度REが閾値α未満であることが分かった場合は(#807でNo)、プロファイルの生成のための以降の処理(#808〜#812)を中止する。
Alternatively, when the
プロファイル管理サーバ1は、プロファイルの生成に必要な部分の中から単語を抽出し、それぞれの単語の重み付けを行う(#808)。つまり、それぞれの単語の重要度Wを算出する。
The
また、プロファイル管理サーバ1は、プロファイルの生成に必要な部分の中から複数の単語のペアを抽出し、それぞれのペアの重み付けを行う(#809)。つまり、それぞれのペアのペア重要度Sを算出する。
Further, the
重要度Wおよびペア重要度Sを算出する処理と前後してまたは並行して、プロファイル管理サーバ1は、変化パターンを判定する(#810)。
Before or after or in parallel with the process of calculating the importance W and the pair importance S, the
判定した変化パターンに応じて、プロファイル管理サーバ1は、ステップ#808および#809でそれぞれ算出した重要度Wおよびペア重要度Sを調整する処理を行う(#811)。この処理は、図13に示す手順で行われる。
In accordance with the determined change pattern, the
変化パターンが急上昇パターンである場合は(#721でYes)、プロファイル管理サーバ1は、各単語の重要度Wを、所定の値γaを加えることによって増加させる(#722)。さらに、各ペアのペア重要度Sを、所定の値γbを加えまたは所定の値γcを掛けることによって増加させる(#723)。
If the change pattern is a sudden increase pattern (Yes in # 721), the
変化パターンが緩上昇パターンである場合は(#724でYes)、プロファイル管理サーバ1は、各ペアのペア重要度Sを、所定の値γdを加えまたは所定の値γeを掛けることによって増加させる(#725)。
When the change pattern is a gradual increase pattern (Yes in # 724), the
そして、プロファイル管理サーバ1は、適宜調整した各単語の重要度Wおよび各ペアのペア重要度Sを用いてプロファイルデータ6PDを生成し記憶する(図12の#812)。ただし、既にこのユーザのプロファイルデータ6PDがある場合は、登録済の単語の重要度Wおよび登録済のペアのペア重要度Sを更新する。
Then, the
または、検索要求データ6QDを受信した場合は(#813でYes)、ユーザが指定した検索キーを、このユーザのプロファイルデータ6PDに基づいて補正し(#814)、補正した検索キーで情報を検索する(#815)。そして、検索結果を示すデータつまり検索結果データ6ADを端末装置2へ送信する(#816)。 Alternatively, when the search request data 6QD is received (Yes in # 813), the search key specified by the user is corrected based on the user profile data 6PD (# 814), and information is searched using the corrected search key. (# 815). Then, data indicating the search result, that is, search result data 6AD is transmitted to the terminal device 2 (# 816).
プロファイル管理サーバ1は、以上の処理を、端末装置2からデータを受信するごとに、適宜、実行する。
The
本実施形態によると、文書に含まれる単語ごとの、ユーザにとっての重要性の度合いを、従来よりも精度よく求めることができる。 According to the present embodiment, the degree of importance for the user for each word included in the document can be obtained with higher accuracy than in the past.
以下、本実施形態の幾つかの変形例を、説明する。本実施形態と重複する点については、説明を省略する。 Hereinafter, some modified examples of the present embodiment will be described. The description overlapping with this embodiment is omitted.
〔第一の変形例〕
図14は、端末装置2の機能的構成の変形例を示す図である。
[First modification]
FIG. 14 is a diagram illustrating a modification of the functional configuration of the
上述の実施形態によると、プロファイル管理サーバ1は、ステップ#811において、各単語の重要度Wを一律に決定し、各ペアのペア重要度Sを一律に決定した。しかし、ユーザの興味の度合いが部分ごとに異なることがある。そこで、重要度Wおよびペア重要度Sをより精度よく調整するために、プロファイル管理サーバ1および端末装置2を次のように構成してもよい。
According to the embodiment described above, the
図14に示すように、端末装置2に、注目部分検知部209を設ける。注目部分検知部209は、ユーザがカレント文書の閲覧を開始してから終了するまでの間、所定の時間(例えば、1〜10秒)ごとに、カレント文書の中でユーザが注目している部分(以下、「注目部分」と記載する。)検知する。なお、興味度検出部203が興味度RIを検知する時刻に検知するのが望ましい。
As shown in FIG. 14, the target
検知は、例えば、次の方法によって行うことができる。注目部分検知部209は、デジタルカメラ20kまたは視線追従型ヘッドマウントディスプレイが検知する、ユーザの瞳(視線)の方向に基づいて、注目部分を検知する。公知の技術によると、注目部分は、単語の単位で検知することができる。
The detection can be performed, for example, by the following method. The attention
<参考>
http://www.toshiba.co.jp/tech/review/2005/11/60_11pdf/rd01.pdf
http://www.murata.co.jp/zaidan/annual/pdf/k03/2011/a04106.pdf
または、注目部分検知部209は、キーロガーによって、ユーザが下線を引きまたは手書きのコメントを加えている箇所を、注目部分として検知する。エアペンが指す場所を検知することによって、注目部分を検知してもよい。
<Reference>
http://www.toshiba.co.jp/tech/review/2005/11/60_11pdf/rd01.pdf
http://www.murata.co.jp/zaidan/annual/pdf/k03/2011/a04106.pdf
Or the attention
または、カレント文書が複数のページによって構成されている場合は、注目部分検知部209は、現在表示されているページを注目箇所として検出してもよい。
Alternatively, when the current document is composed of a plurality of pages, the attention
興味度データ提供部207は、興味度データ6Kの代わりに、興味度データ6Lを生成し、プロファイル管理サーバ1へ送信する。
The interest level
興味度データ6Lには、興味度データ6Kに示される内容に加え、注目部分検知部209によって検知された、時刻ごとの注目部分が示されている。
In the
プロファイル管理サーバ1の必要部分抽出部103(図3参照)は、図7で説明した通り、ステップ#704において、プロファイルの生成のために必要でない部分をカレント文書から削除する。上述の実施形態では、不要な部分(削除する部分)の例として、電子メールのヘッダおよびレターヘッドを挙げたが、第一の変形例では、さらに、興味度データ6Lに示される注目箇所以外の部分をも、削除する。これにより、重要度Wおよびペア重要度Sをより高い精度で算出することができる。
The necessary part extraction unit 103 (see FIG. 3) of the
また、変化パターン判定部106は、カレント文書の全体についての変化パターンを判定したが、興味度データ6Lに基づいて、注目箇所ごとの変化パターンを判定してもよい。そして、重要度調整部107は、注目箇所ごとに、それの変化パターンに応じて重要度Wおよびペア重要度Sを調整してもよい。
The change
第一の変形例によると、ユーザの目に留まった単語をより正確に特定し、その単語に対して高い重み付けを行うことができる。例えば、新しいお菓子の企画をしている人であれば、情報を探しているときに、「スナック菓子のトレンド」の中の「スナック菓子」および「トレンド」の単語に目が留まりやすい。第一の変形例によると、これらの単語に対して高い重み付けを行うことができる。 According to the first modification, it is possible to more accurately identify a word that has been noticed by the user and to perform high weighting on the word. For example, if a person is planning a new candy, when looking for information, the words “snack candy” and “trend” in the “snack candy trend” tend to attract attention. According to the first modification, high weighting can be performed on these words.
また、ユーザがカレント文書の中のある程度の塊(センテンス、段落、項、節など)の内容に興味が沸いた場合であっても、これらの塊を注目部分として抽出するので、注目部分の中の複数の単語同士の関連性つまりペア重要度Sをより正確に算出することができる。例えば、「南部地方では、気候を生かした特産品で村おこしの協力者を募集している。特産品は、海に近い地域性を生かした塩や寒暖差の大きさを生かした紅茶である。」という注目部分に、一瞬で興味を掻き立てる単語がなくても、ペアとして重要な要素を抽出し、ペア重要度Sをより正確に算出することができる。 Even if the user is interested in the contents of a certain amount of chunks (sentences, paragraphs, paragraphs, sections, etc.) in the current document, these chunks are extracted as the attention part. It is possible to calculate the relevance of a plurality of words, that is, the pair importance S more accurately. For example, “In the southern region, we are looking for collaborators of village revitalization with special products that take advantage of the climate. Special products are salt that makes use of the locality close to the sea and tea that makes use of the magnitude of the temperature difference. Even if there is no word that is intriguing in a moment, the important element as a pair can be extracted and the pair importance S can be calculated more accurately.
〔第二の変形例〕
図15は、重要度調整処理の流れの変形例を説明するフローチャートである。
[Second modification]
FIG. 15 is a flowchart illustrating a modified example of the flow of the importance level adjustment process.
上述の実施形態および第一の変形例では、プロファイル管理サーバ1の重要度調整部107は、必要部分抽出部103によって抽出された部分の各単語の重要度Wを一律に調整し、各ペアのペア重要度Sを一律に調整した。
In the above-described embodiment and the first modification, the importance
しかし、調整する単語およびペアを図15に示す方法によって調整してもよい。変化パターン判定部106は、時刻ごとの変化パターンを判定する。
However, the words and pairs to be adjusted may be adjusted by the method shown in FIG. The change
重要度調整部107は、変化パターンが急上昇パターンである時刻における注目部分を選出し(図15の#731でYes、#732)、この注目部分に属する各単語の重要度Wを、所定の値γaを加えることによって増加させる(#733)。さらに、この注目部分に属する各ペアのペア重要度Sを、所定の値γbを加えまたは所定の値γcを掛けることによって増加させる(#734)。
The importance
さらに、重要度調整部107は、変化パターンが急上昇パターンではなく緩上昇パターンである時刻における注目部分を選出し(#735でYes、#736)、この注目部分に属する各ペアのペア重要度Sを、所定の値γdを加えまたは所定の値γeを掛けることによって増加させる(#737)。
Further, the importance
〔第三の変形例〕
図16は、必要部分抽出処理の流れの変形例を説明するフローチャートである。
[Third Modification]
FIG. 16 is a flowchart for explaining a modified example of the flow of the necessary part extraction process.
上述の実施形態および各変形例では、プロファイル管理サーバ1は、全体興味度REが閾値α以上である場合にのみ、重要度Wおよびペア重要度Sを算出し、プロファイルデータ6PDを生成しまたは更新した(図7および図12参照)。しかし、全体興味度REが閾値α未満であっても、変化パターンとして急上昇パターンまたは緩上昇パターンが表れていれば、これらの処理を行ってもよい。
In the above embodiment and each modification, the
すなわち、必要部分抽出部103は、図16に示す手順で処理を行う。興味度データ6Kに示される全体興味度REと閾値αとを比較し(図16の#741)、全体興味度REが閾値α以上である場合は(#742でYes)、カレント文書から必要な部分を抽出する処理を行う(#744〜#746)。全体興味度REが閾値α未満である場合であっても(#742でNo)、変化パターンが急上昇パターンまたは緩上昇パターンであると変化パターン判定部106によって判定された場合は(#743でYes)、カレント文書から必要な部分を抽出する処理を行う(#744〜#746)。変化パターンが上昇無パターンであると判定された場合は(#743でNo)、それ以降の処理を中止し、次の興味度データ6Kが受信されるのを待つ。なお、ステップ#744〜#746の処理の内容は、図7のステップ#703〜#705の処理と同様である。
That is, the necessary
〔第四の変形例〕
図17は、変化率と所定の値との関係を定義するテーブルの例を示す図である。
[Fourth modification]
FIG. 17 is a diagram illustrating an example of a table that defines the relationship between the rate of change and a predetermined value.
上述の実施形態および各変形例では、変化パターンが急上昇パターンである場合に、変化率を問わず一律に重要度Wを増加させ、一律にペア重要度Sを増加させた。しかし、変化率に応じて増加させる量を変えてもよい。例えば、図17(A)のような、変化率が多いほど所定の値γaが大きくなる関係を表わすテーブルを予め用意しておく。そして、このテーブルに基づいて変化率に応じた所定の値γaを求め、重要度Wを算出すればよい。テーブルの代わりに関数を用いてもよい。ペア重要度Sについても、同様である(図17(B)および(C)参照)。 In the above-described embodiment and each modification, when the change pattern is a sudden increase pattern, the importance W is increased uniformly regardless of the change rate, and the pair importance S is increased uniformly. However, the amount to be increased may be changed according to the rate of change. For example, as shown in FIG. 17A, a table representing a relationship in which the predetermined value γa increases as the change rate increases is prepared in advance. Then, a predetermined value γa corresponding to the rate of change is obtained based on this table, and the importance W may be calculated. Functions may be used instead of tables. The same applies to the pair importance S (see FIGS. 17B and 17C).
変化パターンが緩上昇パターンである場合も同様に、図17(D)または(E)に示すテーブルを用いて、重要度Wの増加量を変化率に応じて変えてもよい。 Similarly, when the change pattern is a gradual increase pattern, the amount of increase in importance W may be changed according to the change rate using the table shown in FIG.
〔その他の変形例〕
特定の書式が設定され目立つ単語に対しては、他の単語よりも高い重要度を与えてもよい。例えば、太字の単語、フォントサイズが所定のサイズ以上の単語、文書のタイトルとして用いられている単語、および章のタイトルまたは小見出しとして用いられている単語に対して、他の単語よりも高い重要度を与えてもよい。または、要約の欄に用いられている単語に対して、他の単語よりも高い重要度を与えてもよい。ペアの一部または全部の単語に特定の書式が設定されている場合についても同様に、他のペアよりも高い重要度(ペア重要度)を与えてもよい。
[Other variations]
For words that have a particular format and are conspicuous, higher importance may be given than other words. For example, bold words, words whose font size is larger than a certain size, words used as document titles, and words used as chapter titles or subheadings are higher in importance than other words May be given. Alternatively, the word used in the summary column may be given higher importance than other words. Similarly, when a specific format is set for some or all words of a pair, higher importance (pair importance) than other pairs may be given.
または、変化パターンを、興味度RIの変化率だけでなく、ユーザのアクションまたは集中の度合い(集中度)をも参照して、判定してもよい。例えば、ある時刻T1における変化パターンを、時刻T1における興味度RIの変化率が閾値βa以上であることだけでなく、時刻T1においてユーザが所定のアクションを行ったことまたは集中度が所定の値以上であることを、急上昇パターンであると判定する条件としてもよい。緩上昇パターンの判定についても、同様である。 Alternatively, the change pattern may be determined with reference to not only the change rate of the degree of interest RI but also the user's action or the degree of concentration (concentration level). For example, the change pattern at a certain time T1 is not only that the rate of change of the degree of interest RI at the time T1 is equal to or higher than the threshold value βa, but also that the user has performed a predetermined action at the time T1 or the degree of concentration is higher than a predetermined value It is good also as conditions which determine with it being a sudden rise pattern. The same applies to the determination of the gradual rise pattern.
これにより、誰かに話し掛けられることなど、他の原因で興味度が急上昇した場合を除外することができ、変化パターンの判定の精度を高めることができる。なお、アクションおよび集中度は、公知の技術によって検知することができる。 As a result, it is possible to exclude a case where the interest level suddenly increases due to other causes such as talking to someone, and the accuracy of determination of the change pattern can be improved. The action and the degree of concentration can be detected by a known technique.
プロファイル管理サーバ1および端末装置2それぞれの役割を、適宜、変更することができる。
The roles of the
例えば、変化パターンの判定を、プロファイル管理サーバ1の代わりに端末装置2が行ってもよい。または、上述の実施形態および各変形例では、検索クエリの補正だけでなく検索もプロファイル管理サーバ1が行ったが、補正の結果をプロファイル管理サーバ1から端末装置2へ送信し、検索は端末装置2が行ってもよい。
For example, the
または、ペア重要度Sおよび重要度Wの算出およびプロファイルデータ6PDの生成などの処理をすべて、端末装置2が行ってもよい。
Alternatively, the
または、カレント文書を画像形成装置4に印刷させた場合に、より高い重要度Wおよびペア重要度Sを与えてもよい。
Alternatively, when the current document is printed on the
上述の実施形態および各変形例では、所定の値を加算しまたは掛けるアルゴリズムを用いて重要度を調整したが、他のアルゴリズムを用いてもよい。 In the above-described embodiment and each modified example, the importance is adjusted using an algorithm for adding or multiplying a predetermined value, but other algorithms may be used.
その他、文書管理システム1SY、プロファイル管理サーバ1、および端末装置2の全体または各部の構成、処理内容、処理順序、データの構成などは、本発明の趣旨に沿って適宜変更することができる。
In addition, the configuration of the whole or each part of the document management system 1SY, the
1 プロファイル管理サーバ(単語重要度算出装置)
102 興味度データ取得部(興味度入力手段)
104 単語重要度算出部(重要度算出手段)
105 ペア重要度算出部(ペア重要度算出手段)
106 変化パターン判定部(変化パターン検知手段)
107 重要度調整部(重要度算出手段、ペア重要度算出手段)
109 検索処理部(検索処理手段)
123 プロファイルデータ記憶部(プロファイルデータ記憶手段)
6PD プロファイルデータ
S ペア重要度
W 重要度
1 Profile management server (word importance calculation device)
102 Interest level data acquisition unit (interest level input means)
104 word importance calculation unit (importance calculation means)
105 Pair importance calculation unit (pair importance calculation means)
106 Change pattern determination unit (change pattern detection means)
107 Importance adjustment unit (importance calculation means, pair importance calculation means)
109 Search processing unit (search processing means)
123 profile data storage unit (profile data storage means)
6PD profile data S Pair importance W Importance
Claims (13)
入力された前記興味度の変化のパターンを検知する、変化パターン検知手段と、
検知された前記パターンに基づいて、前記文書に含まれる単語ごとの、前記ユーザにとっての重要性の度合いである重要度を算出する、重要度算出手段と、
を有することを特徴とする単語重要度算出装置。 An interest level input means for inputting an interest level, which is a degree of interest in the document at each time when the user is browsing the document;
A change pattern detection means for detecting a pattern of change in the degree of interest input;
Importance calculating means for calculating the importance, which is the degree of importance for the user, for each word included in the document based on the detected pattern;
A word importance calculation device characterized by comprising:
前記重要度算出手段は、前記第一のパターンが検知された場合は、前記重要度として、前記第二のパターンのみ検知された場合よりも、高い度数を算出する、
請求項1に記載の単語重要度算出装置。 The change pattern detection means includes, as the pattern, a first pattern in which a change rate of the degree of interest in a first length of time is equal to or higher than a first rate and a second length longer than the first length. Detecting at least one of the second patterns in which the change rate of the degree of interest in the time is equal to or higher than a second rate smaller than the second rate;
When the first pattern is detected, the importance calculation unit calculates a higher frequency as the importance than when only the second pattern is detected.
The word importance calculation device according to claim 1.
請求項1または請求項2に記載の単語重要度算出装置。 The importance calculation means calculates the importance of each word according to the frequency with which the word appears in the document.
The word importance calculation device according to claim 1 or 2.
請求項1ないし請求項3のいずれかに記載の単語重要度算出装置。 The importance calculation means calculates the importance of each of the words when the intermediate value of the interest at each time is equal to or greater than a predetermined value, and does not calculate otherwise.
The word importance calculation device according to any one of claims 1 to 3.
請求項1ないし請求項4のいずれかに記載の単語重要度算出装置。 The importance calculation means calculates a frequency higher than the importance of the other words as the importance of the word included in the portion of the word that the user noticed in the document.
The word importance calculation apparatus according to any one of claims 1 to 4.
請求項1ないし請求項4のいずれかに記載の単語重要度算出装置。 The importance calculating means calculates a frequency higher than the importance of other words as the importance of the word represented in a predetermined format among the words.
The word importance calculation apparatus according to any one of claims 1 to 4 .
請求項1ないし請求項4のいずれかに記載の単語重要度算出装置。 The importance calculation means calculates a higher frequency than the importance of other words as the importance of the word appearing in a predetermined column in the document of the words.
The word importance calculation apparatus according to any one of claims 1 to 4 .
請求項1ないし請求項7のいずれかに記載の単語重要度算出装置。 Based on the detected pattern, a pair importance degree calculating unit that calculates a pair importance degree that is a degree of importance for the user for each pair including a plurality of words included in the document,
The word importance calculation apparatus according to any one of claims 1 to 7.
請求項8に記載の単語重要度算出装置。 The pair importance calculation means, when the first pattern is detected, calculates a higher frequency as the pair importance than when only the second pattern is detected,
The word importance calculation device according to claim 8.
請求項8または請求項9に記載の単語重要度算出装置。 The pair importance calculation means calculates a frequency higher than the pair importance of another pair as the pair importance of a pair included in a portion of the document that is noticed by the user in the document. ,
The word importance calculation apparatus according to claim 8 or 9.
前記ユーザが指定した検索クエリーを前記プロファイルデータに基づいて補正し、当該補正した検索クエリーに基づいて情報を検索する処理を行う検索処理手段と、を有する、
請求項8ないし請求項10のいずれかに記載の単語重要度算出装置。 Profile data storage means for storing profile data indicating the importance for each word and the pair importance for each pair;
Search processing means for correcting the search query specified by the user based on the profile data and performing a process of searching for information based on the corrected search query,
The word importance calculation device according to claim 8.
ユーザの、文書の閲覧中の各時刻における前記文書に対する興味の度合いである興味度の入力を受け付ける処理と、
入力された前記興味度の変化のパターンを検知する処理と、
検知された前記パターンに基づいて、前記文書に含まれる単語ごとの、前記ユーザにとっての重要性の度合いである重要度を算出する処理と、
を実行することを特徴とする単語重要度算出方法。 Computer
A process of receiving an input of an interest level, which is a degree of interest in the document at each time when the user is browsing the document;
A process of detecting the input pattern of change in interest;
Based on the detected pattern, for each word included in the document, a process of calculating importance that is a degree of importance for the user;
A word importance calculation method characterized by executing:
ユーザの、文書の閲覧中の各時刻における前記文書に対する興味の度合いである興味度の入力を受け付ける処理と、
入力された前記興味度の変化のパターンを検知する処理と、
検知された前記パターンに基づいて、前記文書に含まれる単語ごとの、前記ユーザにとっての重要性の度合いである重要度を算出する処理と、
を実行させることを特徴とするコンピュータプログラム。 On the computer,
A process of receiving an input of an interest level, which is a degree of interest in the document at each time when the user is browsing the document;
A process of detecting the input pattern of change in interest;
Based on the detected pattern, for each word included in the document, a process of calculating importance that is a degree of importance for the user;
A computer program for executing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012191170A JP5949340B2 (en) | 2012-08-31 | 2012-08-31 | Word importance calculation device, word importance calculation method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012191170A JP5949340B2 (en) | 2012-08-31 | 2012-08-31 | Word importance calculation device, word importance calculation method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014048888A JP2014048888A (en) | 2014-03-17 |
JP5949340B2 true JP5949340B2 (en) | 2016-07-06 |
Family
ID=50608500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012191170A Expired - Fee Related JP5949340B2 (en) | 2012-08-31 | 2012-08-31 | Word importance calculation device, word importance calculation method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5949340B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6717046B2 (en) | 2016-05-17 | 2020-07-01 | 富士通株式会社 | Interest level evaluation device, method and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007141059A (en) * | 2005-11-21 | 2007-06-07 | National Institute Of Information & Communication Technology | Reading support system and program |
US20090077065A1 (en) * | 2007-09-13 | 2009-03-19 | Samsung Electronics Co., Ltd. | Method and system for information searching based on user interest awareness |
JP2009271735A (en) * | 2008-05-08 | 2009-11-19 | Konica Minolta Holdings Inc | Document browsing system and method of displaying additional information associated with document |
-
2012
- 2012-08-31 JP JP2012191170A patent/JP5949340B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014048888A (en) | 2014-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210352030A1 (en) | Computerized system and method for automatically determining and providing digital content within an electronic communication system | |
KR102197364B1 (en) | Mobile video search | |
RU2595594C2 (en) | Method and apparatus for automatically summarising contents of electronic documents | |
US10332506B2 (en) | Computerized system and method for formatted transcription of multimedia content | |
CN108701155B (en) | Expert detection in social networks | |
JP4337064B2 (en) | Information processing apparatus, information processing method, and program | |
US20150379336A1 (en) | Handwriting input conversion apparatus, computer-readable medium, and conversion method | |
CA2918840C (en) | Presenting fixed format documents in reflowed format | |
US20140351179A1 (en) | Information push method and apparatus | |
JP2018504727A (en) | Reference document recommendation method and apparatus | |
WO2015120713A1 (en) | Method and apparatus for acquiring entry, computer storage medium and device | |
US20160171106A1 (en) | Webpage content storage and review | |
KR20090068380A (en) | Improved mobile communication terminal | |
KR20140108326A (en) | Evaluation information generation method and system, and computer storage medium | |
JP6419969B2 (en) | Method and apparatus for providing image presentation information | |
JP5484113B2 (en) | Document image related information providing apparatus and document image related information acquisition system | |
JP5199768B2 (en) | Tagging support method and apparatus, program, and recording medium | |
JP2014052809A (en) | Information classification program and information processor | |
JP5949340B2 (en) | Word importance calculation device, word importance calculation method, and computer program | |
US9607076B2 (en) | Device and method for determining interest, and computer-readable storage medium for computer program | |
WO2024036616A1 (en) | Terminal-based question and answer method and apparatus | |
KR20150011026A (en) | Method and device for pushing media information in real time | |
JP5954053B2 (en) | Search support system, search support method, and computer program | |
JP5866310B2 (en) | Information processing apparatus, information processing method, and program | |
JP6488399B2 (en) | Information presentation system and information presentation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160411 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160523 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5949340 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |