JP4005672B2 - 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 - Google Patents

文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 Download PDF

Info

Publication number
JP4005672B2
JP4005672B2 JP21715497A JP21715497A JP4005672B2 JP 4005672 B2 JP4005672 B2 JP 4005672B2 JP 21715497 A JP21715497 A JP 21715497A JP 21715497 A JP21715497 A JP 21715497A JP 4005672 B2 JP4005672 B2 JP 4005672B2
Authority
JP
Japan
Prior art keywords
document
matrix
vector
user
document processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21715497A
Other languages
English (en)
Other versions
JPH1145286A (ja
Inventor
直之 野村
勝彦 水戸部
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP21715497A priority Critical patent/JP4005672B2/ja
Publication of JPH1145286A publication Critical patent/JPH1145286A/ja
Application granted granted Critical
Publication of JP4005672B2 publication Critical patent/JP4005672B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書処理装置、文書処理プログラムを記憶した記憶媒体、及び文書処理方法に関し、更に詳細には、ユーザーの嗜好を視覚化して表現し、ユーザーによる差異や経時的変化を認識できる文書処理装置、文書処理プログラムを記憶した記憶媒体及び文書処理方法に関する。
【0002】
【従来の技術】
従来の文書処理装置、文書処理プログラムを記憶した記憶媒体、及び文書処理方法による文書処理においては、文書をベクトル化して文書ベクトルとして表すことが行われている。この文書ベクトルは、それぞれの文書におけるキーワードの出現回数等を要素として取得され、各文書を特徴付けるものとなっているので、文書の検索・分類等を行う場合の目安として有用である。
【0003】
【発明が解決しようとする課題】
しかし、同一の文書でも、例えば営業用や技術資料用等の利用目的その他のユーザーの嗜好が異なると、重要部位等に差異が生じる。また、同一のユーザーであっても、その嗜好は経時的に変化する場合がある。そのため、従来より、文書の特徴を文書ベクトルとして表すのと同様に、ユーザーの嗜好を視覚化して表現し、ユーザーによる差異や経時的変化を認識できる技術が望まれていた。
【0004】
本発明は、上述のような課題を解決するためになされたもので、ユーザーの嗜好を視覚化して表現し、ユーザーによる差異や経時的変化を認識できる文書処理装置、文書処理プログラムを記憶した記憶媒体、及び文書処理方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
請求項1に記載の発明は、過去に処理された文書から、ユーザーと、前記ユーザーの嗜好を表す複数のキーワードの一方を行、他方を列とし、前記ユーザーに対する前記各キーワードの重要度を要素値とするGP行列を取得するGP行列取得手段と、前記GP行列を視覚化するGP行列視覚化手段と、文書を特徴付ける文書ベクトルを取得する文書ベクトル取得手段と、を備え、前記GP行列視覚化手段は、前記GP行列から前記キーワードの重要度を要素値とするGPベクトルを、前記文書ベクトルを前記GP行列を用いてシフトさせて取得し、このGPベクトルをn(n≧2)次元化して前記文書ベクトルと表示することを特徴とする文書処理装置を提供することにより前記目的を達成する。
請求項に記載の発明は、前記GP行列視覚化手段は、同一のユーザーに対する前記GPベクトルの経時的変化を表示することを特徴とする請求項1に記載の文書処理装置を提供する。
請求項に記載の発明は、前記GP行列視覚化手段は、複数の前記ユーザーそれぞれについての前記GPベクトルを同時に表示するものであることを特徴とする請求項1又は請求項2に記載の文書処理装置を提供する。
請求項に記載の発明は、過去に処理された文書から、ユーザーと、前記ユーザーの嗜好を表す複数のキーワードの一方を行、他方を列とし、前記ユーザーに対する前記各キーワードの重要度を要素値とするGP行列を取得するGP行列取得機能と、前記GP行列を視覚化するGP行列視覚化機能と、文書を特徴付ける文書ベクトルを取得する文書ベクトル取得機能と、をコンピュータに実現させるためのコンピュータ読みとり可能な文書処理プログラムが記憶された記憶媒体であって、前記GP行列視覚化機能は、前記GP行列から前記キーワードの重要度を要素値とするGPベクトルを、前記文書ベクトルを前記GP行列を用いてシフトさせて取得し、このGPベクトルをn(n≧2)次元化して前記文書ベクトルと表示することを特徴とする文書処理プログラムが記憶された記憶媒体を提供することにより前記目的を達成する。
請求項に記載の発明は、前記GP行列視覚化機能は、同一のユーザーに対する前記GPベクトルの経時的変化を表示することを特徴とする請求項4に記載の文書処理プログラムが記憶された記憶媒体を提供する。
請求項に記載の発明は、前記GP行列視覚化機能は、複数の前記ユーザーそれぞれについての前記GPベクトルを同時に表示するものであることを特徴とする請求項4又は請求項5に記載の文書処理プログラムが記憶された記憶媒体を提供する。
請求項に記載の発明は、GP行列取得手段、GP行列視覚化手段、及び文書ベクトル取得手段を備えた文書処理装置において、文書を処理する際に用いられる文書処理方法であって、前記GP行列取得手段が、過去に処理された文書から、ユーザーと、前記ユーザーの嗜好を表す複数のキーワードの一方を行、他方を列とし、前記ユーザーに対する前記各キーワードの重要度を要素値とするGP行列を取得する第1のステップと、前記GP行列視覚化手段が、前記GP行列を視覚化する第2のステップと、前記文書ベクトル取得手段が、文書を特徴付ける文書ベクトルを取得する第3のステップと、を備え、前記第2のステップは、前記GP行列から前記キーワードの重要度を要素値とするGPベクトルを、前記文書ベクトルを前記GP行列を用いてシフトさせて取得し、このGPベクトルをn(n≧2)次元化して前記文書ベクトルと表示することを特徴とする文書処理方法を提供することにより前記目的を達成する。
【0006】
【発明の実施の形態】
以下、本発明の文書処理装置、文書処理プログラムを記憶した記憶媒体、及び文書処理方法の好適な実施の形態について、図1から図10を参照して詳細に説明する。
(1)実施形態の概要
本実施形態では、ユーザーが過去の処理文書中における出現頻度等から、処理重要語およびこれらの処理重要度によりユーザーの嗜好を表すGP行列を取得する。そして基準文書の重要語の重要度を要素とする文書ベクトルをGP行列によりシフトさせて嗜好文書ベクトルを取得し、嗜好文書ベクトルの各要素(重要度)を分野別に総計し、分野別重要度F(X)を算出し、分野別重要度F(X)の高い3分野A,B,Cを各軸とする3次元上に、嗜好文書ベクトルを表現する。
【0007】
(2)実施形態の詳細
図1は、本発明の文書処理装置の一実施形態であり、本発明の文書処理プログラムを記憶した記憶媒体の一実施形態の該プログラムが読み取られたコンピュータの構成を表したブロック図である。
この図1に示すように、文書処理装置(コンピュータ)は、装置全体を制御するための制御部11を備えている。この制御部11には、データバス等のバスライン21を介して、入力装置としてのキーボード12やマウス13、表示装置14、印刷装置15、記憶装置16、記憶媒体駆動装置17、通信制御装置18、および、入出力I/F19、および、文字認識装置20が接続されている。
制御部11は、CPU111、ROM112、RAM113を備えている。
ROM112は、CPU111が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。
【0008】
RAM113は、CPU111にワーキングメモリとして使用されるランダムアクセスメモリである。このRAM113には、本実施形態による文書ベクトル取得処理を行うためのエリアとして、文書ベクトル取得の対象となる文書を格納する対象文書格納エリア1131、キーワード格納エリア1132、文書ベクトル格納エリア1134が確保され、また、GP行列取得処理を行うためのエリアとして、行列格納エリア1135、GP行列視覚化処理を行うためのエリアとして、GPベクトル格納エリア1138その他の各種エリアが確保されるようになっている。
【0009】
キーボード12は、かな文字を入力するためのかなキーやテンキー、各種機能を実行するための機能キー、カーソルキー、等の各種キーが配置されている。
マウス13は、ポインティングデバイスであり、表示装置14に表示されたキーやアイコン等を左クリックすることで対応する機能の指定を行う入力装置である。
表示装置14は、例えばCRTや液晶ディスプレイ等が使用される。この表示装置14には、文書ベクトルを得る対象文書の内容や、本実施形態により取得されたGP行列が視覚化された嗜好文書ベクトル、等が表示されるようになっている。
印刷装置15は、表示装置14に表示された文書や、記憶装置16の文書データベース164に格納された文書等の印刷を行うためのものである。この印刷装置としては、レーザプリンタ、ドットプリンタ、インクジェットプリンタ、ページプリンタ、感熱式プリンタ、熱転写式プリンタ、等の各種印刷装置が使用される。
【0010】
記憶装置16は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。この記憶装置16に使用される記憶媒体としては、主としてハードディスクが使用されるが、後述の記憶媒体駆動装置17で使用される各種記憶媒体のうちの読み書き可能な記憶媒体を使用するようにしてもよい。
記憶装置16は、仮名漢字変換辞書161、プログラム格納部162、文書データベース164、文書ベクトルデータベース166、行列データベース168、図示しないその他の格納部(例えば、この記憶装置16内に格納されているプログラムやデータ等をバックアップするための格納部)等を有している。
プログラム格納部162には、本実施形態における文書ベクトル取得処理プログラム、GP行列取得処理プログラム、GP行列視覚化処理プログラム等の各種プログラムの他、仮名漢字変換辞書161を使用して入力された仮名文字列を漢字混り文に変換する仮名漢字変換プログラム等の各種プログラムが格納されている。
【0011】
文書データベース164には、仮名漢字変換プログラムにより作成された文書や、他の装置で作成されて記憶媒体駆動装置17や通信制御装置18から読み込まれた文書が格納される。この文書データベース164に格納される各文書の形式は特に限定されるものではなく、テキスト形式の文書、HTML(Hyper Text Markup Language)形式の文書、JIS形式の文書等の各種形式の文書の格納が可能である。
更にこの文書データベース164には、文書を処理したユーザーのメンバー及びその処理回数が各文書に対応付けて格納されている。前記処理回数は、所定期間毎に値を0にリセットされる。
文書ベクトルデータベース166には、文書データベース164に格納されている各文書に対応する文書ベクトルが格納されるようになっている。
【0012】
図2は、文書ベクトルデータベース166の内容を概念的に表した説明図である。
この図2に示されるように、文書ベクトルデータベース166には、上記所定期間内に処理された文書中から自動抽出されたキーワード(処理重要語(句を含む))x、及びこの処理重要語に対する重要度(処理重要度)が各文書の文書ベクトルの要素値f(x)として、格納されている。この文書ベクトルは各文書(A、B、C…)毎に格納され、文書データベース164に格納されている各文書と対応づけられている。
【0013】
行列データベース168には、過去の所定期間に行われた文書処理の処理内容により取得される行列Ga,Gb,Gcが格納されている。GP(Group Personalize )ベクトルはこれらの行列Ga,Gb,Gcにより取得されるGP行列から取得される。
図3(a)〜(c)は、行列Ga,Gb,Gcの一例を示す説明図である。
【0014】
行列Gaは、図3(a)に示すように、上記処理重要語を行に、同処理文書を列にとった行列であり、各要素は処理重要語の処理重要度f(x)を表している。行列Gbは、図3(b)に示すように、前記処理文書を行にとり、ユーザーのメンバー(処理者)を列にとった行列であり、各要素は、メンバーが各文書を前記所定期間内に処理した回数となっている。この処理回数は文書データベース164から読み込まれる。行列Gcは、図3(c)に示すように、行および列がともにユーザーのメンバーそれぞれの重要度係数を示している。
行列Ga及び行列Gbは所定期間ごとに書き換えられ、行列Gcは操作者からの入力により適宜書き換えられる。
【0015】
記憶媒体駆動装置17は、CPU111が外部の記憶媒体からコンピュータプログラムや文書を含むデータ等を読み込むための駆動装置である。記憶媒体に記憶されているコンピュータプログラムには、本実施形態の文書処理装置により実行される各種処理のためのプログラム、および、そこで使用される辞書、データ等も含まれる。
ここで、記憶媒体とは、コンピュータプログラムやデータ等が記憶される記憶媒体をいい、具体的には、フロッピーディスク、ハードディスク、磁気テープ等の磁気記憶媒体、メモリチップやICカード等の半導体記憶媒体、CD−ROMやMO、PD(相変化書換型光ディスク)等の光学的に情報が読み取られる記憶媒体、紙カードや紙テープ等の用紙(および、用紙に相当する機能を持った媒体)を用いた記憶媒体、その他各種方法でコンピュータプログラム等が記憶される記憶媒体が含まれる。本実施形態の文書処理装置において使用される記憶媒体としては、主として、CD−ROMやフロッピーディスクが使用される。
記憶媒体駆動装置17は、これらの各種記憶媒体からコンピュータプログラムを読み込む他に、フロッピーディスクのような書き込み可能な記憶媒体に対してRAM113や記憶装置16に格納されているデータ等を書き込むことが可能である。
【0016】
本実施形態の文書処理装置では、制御部11のCPU111が、記憶媒体駆動装置17にセットされた外部の記憶媒体からコンピュータプログラムを読み込んで、記憶装置16の各部に格納(インストール)する。そして、本実施形態による類似度算出等の各種処理を実行する場合、記憶装置16から該当プログラムをRAM113に読み込み、実行するようになっている。
但し、記憶装置16からではなく、記憶媒体駆動装置17により外部の記憶媒体から直接RAM113に読み込んで実行することも可能である。また、文書処理装置によっては、本実施形態の自動要約処理プログラム等を予めROM112に記憶しておき、これをCPU111が実行するようにしてもよい。
【0017】
通信制御装置18は、他のパーソナルコンピュータやワードプロセッサ等との間でテキスト形式やHTML形式等の各種形式の文書やビットマップデータ等の各種データの送受信を行うことができるようになっている。
入出力I/F19は、音声や音楽等の出力を行うスピーカ等の各種機器を接続するためのインターフェースである。
文字認識装置20は、用紙等に記載された文字をテキスト形式やHTML等の各種形式で認識する装置であり、イメージスキャナや文字認識プログラム等で構成されている。
【0018】
本実施形態では、キーボード12の入力操作により作成した文書(RAM113の所定格納エリアに格納)の他、外部で作成して所定の記憶媒体に格納した文書で記憶媒体駆動装置17から読み込んだ文書、予め文書データベースに格納されている文書、通信制御装置18からダウンロードした文書、及び文字認識装置20で文字認識した文書、等の各種文書を対象文書として取得する(文書取得手段)ことが可能である。
【0019】
次に、上述のような構成の文書処理装置の動作であって、本発明の文書処理方法の一実施形態について図4〜図9を参照して説明する。
【0020】
本実施形態においては、所定期間毎に、該所定期間内に行われた文書処理の処理内容基づいて新たな処理重要語及び処理重要度が取得され、行列データベース168内の行列Ga及び行列Gbが書き換えられる。
【0021】
図4は、行列Ga,Gb書き換え処理の動作を表したフローチャートである。CPU111は、所定期間内に処理された文書(処理文書)を文書データベース164から順次取得してRAM113の所定作業領域に格納し(ステップ11)、各処理文書についての重要語(処理重要語)及びその重要度(処理重要度)を取得する(ステップ12)。
【0022】
図5は、各文書についての処理重要語・処理重要度取得処理の動作を表したフローチャートである。
図5に示すように、CPU111は、文書データベース164から取得した処理文書について、各処理文書毎に形態素解析を行うことで自立語を抽出する(ステップ121)と共に、名詞句、複合名詞句等を含めた候補語(句)を処理文書から抽出する(ステップ122)。
次に、抽出した候補語(句)の処理文書での出現頻度、評価関数から、各候補語(句)の処理重要度f(x)を取得する(ステップ123)。ここで、評価関数としては、例えば、所定の重要語が予め指定されている場合にはその重要語に対する重み付け、単語、名詞句、複合名詞句等の候補語(句)の種類による重み付け等が使用される。
【0023】
さらにCPU111は、取得した処理重要度f(x)の値をもとに候補語(句)から処理重要語a,b,c,…を取得し(ステップ124)、この処理重要語a,b,c,…及びその処理重要度f(a),f(b),f(c)…を重要語データベース165に格納する(ステップ125)。すべての処理文書について、処理重要語及びその処理重要度を取得すると、図4に示す行列Ga,Gb書き換え処理ルーチンへリターンする。
【0024】
続いて、CPU111は、行列データベース168の行列Gaを、前記処理重要語a,b,c,…を行に、前記所定期間の処理文書を列に、また処理重要度f(x)を各要素にとったものに書き換える(ステップ13)。
このとき、行列Gaの行数は、各処理文書の処理重要語の和集合の数とし、各処理文書において含まれていない処理重要語については、その処理重要度f(x)は0と定義される。
【0025】
例えば図2おいて、処理文書Bの処理重要語は「重要、重要語、重要度、…」、処理文書Cの処理重要語は「重要、…、政治、…」であり、これらの処理重要語に対応する処理重要度は、処理文書Bについては( 1,18,19,…)、処理文書Cについては(18,…,21,…)である。
これに対して行列Gaにおいては、その行は「重要、重要語、重要度、…、政治、…」とし、両文書の列における要素値はつぎの通り定義される。
処理文書Bの列=( 1,18,19,…, 0,…)、
処理文書Cの列=(18, 0, 0,…,21,…)
【0026】
また、CPU111は、文書データベース164から、各文書の処理回数を取得し(ステップ14)、行列Gbを、所定期間内の処理文書を行に、文書データベース164から取得した処理回数を各要素としたものに書き換えて(ステップ15)、行列Ga,Gb書き換え処理を終了する。
【0027】
GP行列の取得に際しては、CPU111は、前述のようにして取得され格納された行列Ga,Gb,Gcを行列データベース168から取得し、次の式に従ってGP行列を取得する。
GP=Ga・Gb・Gc
従って、本実施形態におけるGP行列は、文書ベクトル取得に用いられたキーワードを行に、ユーザーの各メンバーを列にとってなっており、GP行列の各要素は、メンバー毎の過去の文書処理におけるキーワードの重要度f(x)に各メンバーの重要度を加味して表した数値となっている。
【0028】
続いて、本実施形態におけるGP行列の視覚化処理の動作について図6及び図7を用いて説明する。
図6はGP行列の視覚化処理の動作を示すフローチャートである。
GP行列が取得されると、続いてCPU111は、基準文書を取得し(ステップ21)、RAM113の対象文書格納エリア1131に格納する。基準文書は、操作者からの指示に従って、RAM113、記憶装置16の文書データベース164、記憶媒体駆動装置17,または通信制御装置18から取得する。
そして、CPU111は、対象文書格納エリア1131に格納した基準文書の文書ベクトルVを求める(ステップ22)。
【0029】
図7は、文書ベクトル作成処理の動作を表したフローチャートである。
CPU111は、文書ベクトルデータベース166に格納されているキーワードを、基準文書から検出(ステップ221)し、基準文書での出現頻度、評価関数から、キーワードの重要度f(x)を得る(ステップ222)。そして、各キーワードの重要度f(x)を要素として、文書ベクトルV=(f(a),f(b),…)を取得し(ステップ223)、RAM113の文書ベクトル格納エリア1134に格納し(ステップ224)して、図6に示すGP行列視覚化処理にリターンする。
【0030】
続いて、CPU111は 文書ベクトルとGP行列との次元合わせを行う(ステップ23)。即ち、文書ベクトルVの次元数とGP行列の行数とを、基準文書のキーワードとGP行列の行があらわす処理重要語の和集合の数とし、文書ベクトルVのみに含まれるキーワードに対する行列Gaの要素値、および、GP行列の行のみに含まれる重要語に対する文書ベクトルVの要素値は、”0”と定義する。
例えば、基準文書のキーワードが「重要、重要語、重要度、…」、GP行列の行があらわす処理重要語が「重要、…、政治、…」であり、基準文書の文書ベクトルV=( 1,18,19,…)、GP行列の、ある1列が(18,…,21,…)である場合、次元を合わせると、基準文書の文書ベクトルV=( 1,18,19,…, 0,…)、GP行列の1列は(18, 0, 0,…,21,…)となる。
【0031】
続いてCPU111は、次元合わせをした後のGP行列をもとにGPベクトルを取得する(ステップ24)。
図8は、GP行列からGPベクトルを算出する行程を概念的に説明する説明図である。
【0032】
CPU111は、まず、GP行列の各要素gij( i=1〜メンバー数m、j=1〜処理重要語の和集合の数k)の各行毎の要素の平均値を算出して列ベクトル(総GPベクトル)を得る(図8(1)→(2))。この総GPベクトルは、各要素giが処理重要語毎のユーザーグループ全体における過去の文書処理での出現頻度(但し各処理重要語の予め決められた処理重要語の重み等や、メンバーの重要度が加味されている)を反映した数値となっている。
CPU111は、更に、この総GPベクトルの各要素giを文書の処理回数の総数で割って、1列のGPベクトルを得る(図8(2)→(3))。この様に、総GPベクトルを文書の処理回数の総数で割るのは、行列Gbに文書の処理回数が要素として含まれており、処理回数が増えるに従ってGPベクトルが大きくなっていくのを回避し、異なる期間の長さにおいてGPベクトルを求めても、期間の長さが影響しなくするためである。
【0033】
続いて、CPU111は、そして、CPU111は、GPベクトルの各要素とこの各要素に対応する文書ベクトルVの要素とを掛け合わせて、嗜好文書ベクトルV’を得る。嗜好文書ベクトルV’は、嗜好文書ベクトルデータベース167に格納して(ステップ25)。嗜好文書ベクトル取得処理を終了する。
【0034】
次に、CPU111は、文書嗜好ベクトルV’=(f’(a),f’(b),…)の要素f’(a),f’(b),…を分野別に区分する(ステップ26)。
図9は文書嗜好ベクトルV’の各要素を区分する分野の一例を示す表である。
そして、分野別に要素をまとめて合計して分野別重要度F(X)を算出し(ステップ27)、分野別重要度F(X)の最も高い3分野を選択し、これらの3分野の分野別重要度F(A),F(B),F(C)を要素とする分野別ベクトルV’’=(F’(A),F’(B),F(C))を、前記3分野をx軸,y軸,z軸とした3次元の座標上に表現して表示装置14上に表示して、GP行列の視覚化処理を終了する(ステップ28)。
図10は、2つのユーザー(A,B)それぞれの分野別ベクトルを表示装置14に表示した一例を示すものである。このように、本実施形態においては、GP行列は、分野別ベクトルV’’として3次元に視覚化され表示される。この分野別ベクトル表示から、ユーザーAは、政治および環境・自然分野に嗜好が強く、ユーザーBは、ライフサイエンス分野に嗜好が強い傾向があることが一目で理解できる。
【0035】
この様に、本実施形態によると、ユーザーの嗜好を表すGP行列により分野別ベクトルV’’が取得され、ユーザーの嗜好の反映された分野別ベクトルV’’を表示装置14に3次元表示するので、ユーザーの嗜好が目視により確認できる。
【0036】
尚、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。
例えば、上述の実施形態においては文書処理装置としてコンピュータを用いているが、コンピュータに限定されるものではなく、ワードプロセッサ等であってもよい。
上述の実施形態においては、GP行列は、処理者の過去の文書処理回数(行列G)と各文書におけるキーワードの出現頻度(行列G)、および各処理者の重要度(行列Gc)とから取得されているが、処理者毎の過去の文書処理回数(行列G)と各文書におけるキーワードの出現頻度(行列G)のみにより取得してもよい。また、例えば、各文書の処理時間や、他の文書作成に引用された件数等も加味して取得してもよい。
更に、GP行列を上述の実施形態と同様に行列Ga〜行列Gc等の行列から取得する場合において、行列Ga〜行列Gc等の各行列の要素はそれぞれキーワードの文書中の出現頻度や、メンバーが各文書を処理した回数を反映した数値となっていればよく、直接出現頻度や処理回数そのものを表していなくてもよい。
上述の実施形態においては行列Ga〜Gcは所定期間毎に書き換えられているが、文書処理を行う毎に、または所定回数の文書処理を行う毎等に書き換えてもよい。
【0037】
GP行列の視覚化は、GPベクトルにより基準文書をシフトさせて取得した文書嗜好ベクトルをn次元化して表示せずに、GPベクトルを直接n次元化して表示してもよい。
【0038】
また、文書嗜好ベクトルやGPベクトルの表示は、分野別ベクトルのように3次元に変換して表示しなくてもよく、例えば、図11に示すように、要素(キーワード)毎に要素値(重要度)をカラーバーで表したり、レーダーチャートにより表示する等、GPベクトルの全ての要素について表示してもよい。
更に、文書嗜好ベクトルやGPベクトルを3次元に変換して表示する場合であっても、その変換手法は、上記実施形態の如く分野別に要素をまとめて合計した分野別重要度F(X)の最も高い3分野を選択した分野別ベクトルV’’=(F’(A),F’(B),F(C))を表示する手法に限られるものではなく、要素を3分野に区分して分野別に要素をまとめて3次元のベクトルとする手法や、GPベクトルの要素のうちのもっとも値の高い3つを要素として3次元のベクトルとする手法等とすることもできる。
文書嗜好ベクトルやGPベクトルを3次元に変換して表示する場合であっても、その表示手法は、3次元座標上にベクトルのまま表示する以外の手法でもよく、例えば、(x,y,z)軸にかえて3色(赤,緑,青)の色を用いて各要素の値をこれらの3色の輝度に換えた色表示等で表現してもよい。
上記実施形態のように3次元での文書嗜好ベクトルやGPベクトル表示する場合に、更にその軸をマウスによりポイントする等で指定すると、図12に示すように、軸が表す分野に含まれるキーワードが表示され、このキーワード中の1つをポイントすることにより操作者に選択させて当該キーワードを軸とするベクトルを表示するようにし、文書嗜好ベクトルの各要素を分野別にまとめずに、各要素のうち最も値の高い3つのキーワードを軸として3次元表示してもよい。
【0039】
嗜好文書ベクトルV’とともに文書ベクトルVを表示してもよい。このように嗜好文書ベクトルV’と文書ベクトルVの両方を表示することにより、ユーザーの嗜好を、文書ベクトルVと嗜好文書ベクトルV’とのなす角度として認識可能となる。
一定期間毎に区切って文書嗜好ベクトルやGPベクトルを求めて、このGPベクトルの経時的変化を目視可能に表示して、ユーザーの嗜好の変化を追跡できるようにしてもよい。このように文書嗜好ベクトルやGPベクトルの経時的変化を目視可能に表示する手法としては、図13に示すように、分野別ベクトルの終点の奇跡を曲線として表示するものや、図14に示すように、カラーバーグラフを重ねて表示するもの等が挙げられる。
また、上述した本実施形態を下記のように構成するようにしてもよい。
(1)図15に示すように、過去に処理された文書から、ユーザーと、前記ユーザーの嗜好を表す複数のキーワードの一方を行、他方を列とし、前記ユーザーに対する前記各キーワードの重要度を要素値とするGP行列を取得するGP行列取得手段101と、前記GP行列を視覚化するGP行列視覚化手段102と、を具備する文書処理装置。
(2)図15に示すように、(1)に記載の文書処理装置において、前記GP行列視覚化手段102は、前記GP行列から前記キーワードの重要度を要素値とするGPベクトルを取得し、このGPベクトルをn(n≧2)次元化して表示する文書処理装置。
(3)図16に示すように、(2)に記載の文書処理装置において、文書を特徴付ける文書ベクトルを取得する文書ベクトル取得手段103を備え、前記GP行列視覚化手段102は、前記文書ベクトルを前記GP行列を用いてシフトさせて前記GPベクトルを取得し、前記文書ベクトルと前記GPベクトルとを表示する文書処理装置。
(4)図16に示すように(2)または(3)に記載の文書処理装置において、文書を特徴付ける文書ベクトルを取得する文書ベクトル取得手段103を備え、前記GP行列視覚化手段102は、同一のユーザーに対する前記GPベクトルの経時的変化を表示する文書処理装置。
(5)図15または図16に示すように、(2)から(4)のうちのいずれか1の文書処理装置において、前記GP行列視覚化手段102は、複数の前記ユーザーそれぞれについての前記GPベクトルを同時に表示するものである文書処理装置。
(6)図17に示すように、過去に処理された文書から、ユーザーと、前記ユーザーの嗜好を表す複数のキーワードの一方を行、他方を列とし、前記ユーザーに対する前記各キーワードの重要度を要素値とするGP行列を取得するGP行列取得機能201と、前記GP行列を視覚化するGP行列視覚化機能202と、をコンピュータに実現させるためのコンピュータ読みとり可能な文書処理プログラムが記憶された記憶媒体。
(7)図17に示すように、(6)に記載の記憶媒体において、前記GP行列視覚化機能202は、前記GP行列から前記キーワードの重要度を要素値とするGPベクトルを取得し、このGPベクトルをn(n≧2)次元化して表示する文書処理プログラムが記憶された記憶媒体。
(8)図18に示すように、(7)に記載の記憶媒体において、文書を特徴付ける文書ベクトルを取得する文書ベクトル取得機能203を備え、前記GP行列視覚化機能202は、前記文書ベクトルを前記GP行列を用いてシフトさせて前記GPベクトルを取得し、前記文書ベクトルと前記GPベクトルとを表示する文書処理プログラムが記憶された記憶媒体。
(9)図18に示すように、(7)または(8)に記載の記憶媒体において、文書を特徴付ける文書ベクトルを取得する文書ベクトル取得機能203を備え、前記GP行列視覚化機能202は、同一のユーザーに対する前記GPベクトルの経時的変化を表示する文書処理プログラムが記憶された記憶媒体。
(10)図17または図18に示すように、(7)から(9)のうちのいずれか1に記載の記憶媒体において、前記GP行列視覚化機能202は、複数の前記ユーザーそれぞれについての前記GPベクトルを同時に表示するものである文書処理プログラムが記憶された記憶媒体。
(11)図19に示すように、過去に処理された文書から、ユーザーと、前記ユーザーの嗜好を表す複数のキーワードの一方を行、他方を列とし、前記ユーザーに対する前記各キーワードの重要度を要素値とするGP行列を取得301し、前記GP行列を視覚化302することを特徴とする文書処理方法。
(12)図19に示すように、(11)に記載の文書処理方法において、前記GP行列から前記キーワードの重要度を要素値とするGPベクトルを取得し、このGPベクトルをn(n≧2)次元化して表示することにより前記GP行列を視覚化302する文書処理方法。
【0040】
【発明の効果】
以上説明したように、本発明によれば、ユーザーの嗜好を特徴付けるn次元化されたGPベクトルが視覚化表示されるので、ユーザーの嗜好が目視により確認できる。
【図面の簡単な説明】
【図1】本発明の文書処理装置の一実施形態であり、本発明の文書処理プログラムを記憶した記憶媒体の一実施形態の該プログラムが読み取られたコンピュータの構成を表したブロック図である。
【図2】図1の実施形態における文書ベクトルデータベースの内容を概念的に表した説明図である。
【図3】図1の実施形態における行列Ga,Gb,Gcの一例を示す説明図である。
【図4】図1の実施形態による行列Ga,Gb書き換え処理の動作を示すフローチャートである。
【図5】図1の実施形態による処理重要語・処理重要度取得処理の動作を示すフローチャートである。
【図6】図1の実施形態によるGP行列の視覚化処理の動作を示すフローチャートである。
【図7】図1の実施形態による文書ベクトル作成処理の動作を表したフローチャートである。
【図8】図1の実施形態におけるGPベクトルのその取得手法を示す説明図である。
【図9】図1の実施形態における文書嗜好ベクトルの各要素を区分する分野の一例を示す表である。
【図10】図1の実施形態において2つのユーザーそれぞれの分野別ベクトルを表示装置に表示した一例を示すものである。
【図11】本発明の他の実施形態におけるGP行列視覚化手段のGPベクトルの表示手法の一例を示す図である。
【図12】本発明の他の実施形態におけるGP行列視覚化手段のGPベクトルの表示手法の一例を示す図である。
【図13】本発明の他の実施形態におけるGP行列視覚化手段のGPベクトルの表示手法の一例を示す図である。
【図14】本発明の他の実施形態におけるGP行列視覚化手段のGPベクトルの表示手法の一例を示す図である。
【図15】請求項1に記載した発明のクレーム対応図である。
【図16】請求項3に記載した発明のクレーム対応図である。
【図17】請求項6に記載した発明のクレーム対応図である。
【図18】請求項8に記載した発明のクレーム対応図である。
【図19】請求項11に記載した発明のクレーム対応図である。
【符号の説明】
11 制御部
112 ROM
113 RAM
1131 対象文書格納エリア
1132 キーワード格納エリア
1134 文書ベクトル格納エリア
1135 行列格納エリア
1136 類似度格納エリア
1138 GPベクトル格納エリア
12 キーボード
13 マウス
14 表示装置
15 印刷装置
16 記憶装置
161 仮名漢字変換辞書
162 プログラム格納部
164 文書データベース
165 重要語データベース
166 文書ベクトルデータベース
168 行列データベース
101 GP行列取得手段
102 GP行列視覚化手段
103 文書ベクトル取得手段
201 GP行列取得機能
202 GP行列視覚化機能
203 文書ベクトル取得機能

Claims (7)

  1. 過去に処理された文書から、ユーザーと、前記ユーザーの嗜好を表す複数のキーワードの一方を行、他方を列とし、前記ユーザーに対する前記各キーワードの重要度を要素値とするGP行列を取得するGP行列取得手段と、
    前記GP行列を視覚化するGP行列視覚化手段と、
    文書を特徴付ける文書ベクトルを取得する文書ベクトル取得手段と、を備え、
    前記GP行列視覚化手段は、前記GP行列から前記キーワードの重要度を要素値とするGPベクトルを、前記文書ベクトルを前記GP行列を用いてシフトさせて取得し、このGPベクトルをn(n≧2)次元化して前記文書ベクトルと表示する
    ことを特徴とする文書処理装置。
  2. 前記GP行列視覚化手段は、同一のユーザーに対する前記GPベクトルの経時的変化を表示することを特徴とする請求項1に記載の文書処理装置。
  3. 前記GP行列視覚化手段は、複数の前記ユーザーそれぞれについての前記GPベクトルを同時に表示するものであることを特徴とする請求項1又は請求項2に記載の文書処理装置。
  4. 過去に処理された文書から、ユーザーと、前記ユーザーの嗜好を表す複数のキーワードの一方を行、他方を列とし、前記ユーザーに対する前記各キーワードの重要度を要素値とするGP行列を取得するGP行列取得機能と、
    前記GP行列を視覚化するGP行列視覚化機能と、
    文書を特徴付ける文書ベクトルを取得する文書ベクトル取得機能と、
    をコンピュータに実現させるためのコンピュータ読みとり可能な文書処理プログラムが記憶された記憶媒体であって、
    前記GP行列視覚化機能は、前記GP行列から前記キーワードの重要度を要素値とするGPベクトルを、前記文書ベクトルを前記GP行列を用いてシフトさせて取得し、このGPベクトルをn(n≧2)次元化して前記文書ベクトルと表示する
    ことを特徴とする文書処理プログラムが記憶された記憶媒体。
  5. 前記GP行列視覚化機能は、同一のユーザーに対する前記GPベクトルの経時的変化を表示することを特徴とする請求項4に記載の文書処理プログラムが記憶された記憶媒体。
  6. 前記GP行列視覚化機能は、複数の前記ユーザーそれぞれについての前記GPベクトルを同時に表示するものであることを特徴とする請求項4又は請求項5に記載の文書処理プログラムが記憶された記憶媒体。
  7. GP行列取得手段、GP行列視覚化手段、及び文書ベクトル取得手段を備えた文書処理装置において、文書を処理する際に用いられる文書処理方法であって、
    前記GP行列取得手段が、過去に処理された文書から、ユーザーと、前記ユーザーの嗜好を表す複数のキーワードの一方を行、他方を列とし、前記ユーザーに対する前記各キーワードの重要度を要素値とするGP行列を取得する第1のステップと、
    前記GP行列視覚化手段が、前記GP行列を視覚化する第2のステップと、
    前記文書ベクトル取得手段が、文書を特徴付ける文書ベクトルを取得する第3のステップと、を備え、
    前記第2のステップは、前記GP行列から前記キーワードの重要度を要素値とするGPベクトルを、前記文書ベクトルを前記GP行列を用いてシフトさせて取得し、このGPベクトルをn(n≧2)次元化して前記文書ベクトルと表示する
    ことを特徴とする文書処理方法。
JP21715497A 1997-07-28 1997-07-28 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 Expired - Fee Related JP4005672B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21715497A JP4005672B2 (ja) 1997-07-28 1997-07-28 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21715497A JP4005672B2 (ja) 1997-07-28 1997-07-28 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Publications (2)

Publication Number Publication Date
JPH1145286A JPH1145286A (ja) 1999-02-16
JP4005672B2 true JP4005672B2 (ja) 2007-11-07

Family

ID=16699707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21715497A Expired - Fee Related JP4005672B2 (ja) 1997-07-28 1997-07-28 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Country Status (1)

Country Link
JP (1) JP4005672B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321221B1 (en) 1998-07-17 2001-11-20 Net Perceptions, Inc. System, method and article of manufacture for increasing the user value of recommendations
US6334127B1 (en) * 1998-07-17 2001-12-25 Net Perceptions, Inc. System, method and article of manufacture for making serendipity-weighted recommendations to a user
US6412012B1 (en) 1998-12-23 2002-06-25 Net Perceptions, Inc. System, method, and article of manufacture for making a compatibility-aware recommendations to a user
US7461058B1 (en) 1999-09-24 2008-12-02 Thalveg Data Flow Llc Optimized rule based constraints for collaborative filtering systems
US6990238B1 (en) * 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US7788123B1 (en) 2000-06-23 2010-08-31 Ekhaus Michael A Method and system for high performance model-based personalization
JP2004016746A (ja) 2002-06-20 2004-01-22 Nippon Colin Co Ltd 循環動態評価装置
JP2005128864A (ja) * 2003-10-24 2005-05-19 Ishisaki:Kk 人体カラーの数値的評価システムおよび評価評価方法
JP6591644B1 (ja) * 2018-09-20 2019-10-16 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JPH1145286A (ja) 1999-02-16

Similar Documents

Publication Publication Date Title
JP4890851B2 (ja) 意味論的文書スマートネール
US7313754B2 (en) Method and expert system for deducing document structure in document conversion
US6078403A (en) Method and system for specifying format parameters of a variable data area within a presentation document
US11733785B2 (en) Stylizing text by providing alternate glyphs
US10210141B2 (en) Stylizing text by replacing glyph with alternate glyph
JP4005672B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1153394A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145289A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4021525B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000194725A (ja) 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体
JP2001216311A (ja) イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2009093389A (ja) 情報処理装置、情報処理方法、およびプログラム
JPH1153398A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4030624B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2000194724A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH10289245A (ja) 画像処理装置及びその制御方法
JPH1145278A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP3154992B2 (ja) 情報検索装置、及び情報検索プログラムが記憶された記憶媒体
JP4044644B2 (ja) 電子掲示板システム、電子掲示板プログラムが記憶された記憶媒体、及び電子掲示板の活性化方法
JP2000353163A (ja) データベース処理装置、及びデータベース処理のためのプログラムが記憶された記憶媒体
JP3489326B2 (ja) テーブル生成方法
US20200279172A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2000194723A (ja) 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145281A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070824

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130831

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees