JP2014056516A - 文書集合からの知識構造の抽出装置、方法、およびプログラム - Google Patents

文書集合からの知識構造の抽出装置、方法、およびプログラム Download PDF

Info

Publication number
JP2014056516A
JP2014056516A JP2012202037A JP2012202037A JP2014056516A JP 2014056516 A JP2014056516 A JP 2014056516A JP 2012202037 A JP2012202037 A JP 2012202037A JP 2012202037 A JP2012202037 A JP 2012202037A JP 2014056516 A JP2014056516 A JP 2014056516A
Authority
JP
Japan
Prior art keywords
unit
document
keyword
cluster
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012202037A
Other languages
English (en)
Other versions
JP2014056516A5 (ja
JP5700007B2 (ja
Inventor
Yasudai Tanaka
靖大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Canon MJ IT Group Holdings Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Canon MJ IT Group Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc, Canon MJ IT Group Holdings Inc filed Critical Canon Marketing Japan Inc
Priority to JP2012202037A priority Critical patent/JP5700007B2/ja
Publication of JP2014056516A publication Critical patent/JP2014056516A/ja
Publication of JP2014056516A5 publication Critical patent/JP2014056516A5/ja
Application granted granted Critical
Publication of JP5700007B2 publication Critical patent/JP5700007B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書集合における抽出キーワード間の関係に基づき、関連が深い抽出キーワードを、柔軟に、近くに配置可能な仕組みを提供する。
【解決手段】分野分類された文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出し、この算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させて表示した後、当該ユニットにおける前記文書に含まれるキーワードの出現頻度から当該キーワードの配置情報を算出して、ユニットに合わせて表示する。
【選択図】図3

Description

本発明は、電子化された文書集合から知識構造の抽出を行う情報処理装置及び制御に関する。
近年、ビッグデータの活用に取り組む企業が増えている。今まで記録として保存していた膨大なデータを分析することにより、隠れた知見を見つけ出し、企業活動に役立てていこうという取り組みである。
現在は、販売データのような構造化されたデータを分析するデータマイニングが主流であるが、自然言語処理技術を用いて、ビジネス文書のような構造化されていないデータを分析するテキストマイニングについても注目が高まってきている。
テキストマイニングには、ユーザによって入力された検索条件に対して、文書あるいは文に存在するキーワードや共起の頻度を集計して表やグラフで見せる単純な機能や、文書集合の概要を表現するため、特徴的なキーワードとその関係を1つの図にまとめて示すキーワードマップのような機能がある。
例えば、検索語を含めた関連語間の関係をマップ上に表示し、検索語に関連性の高い語を近傍に配置すると共に、マップ上の高い語のフォントサイズを大きく示すことで、関連性の強いことが一目でユーザに知らしめる技術が開示されている(例えば、特許文献1参照)。
また、文書検索を行うにあたり、検索キーワードを持つ文書に含まれる単語の出現頻度に限らず、全体の文書に含まれる当該単語の出現頻度を用いてクラス化を行い、当該クラス毎に、特徴的な単語を特定して、特徴的な単語同士の共起強度等を用いることで、グラフ形式で特徴後間の関係を表示することで、バランスのとれた文書の検索を行う技術が開示されている(例えば、特許文献2参照)。
特開2008−250625号公報 特開平10−74210号公報
しかしながら、上記特許文献1のシステムでは、抽出されたキーワードは、検索キーワードとの関連度合いに依存して配置され、抽出キーワード間の関係を表現することができない。
また、上記特許文献2のシステムでは、抽出されたキーワードの共起関係に基づいて生成されたリンクが生成されるので、抽出キーワード間の関係を表現することができる。
しかしながら、実施例にあるように1つの抽出キーワードが親へのリンクを1つしか持たない場合、リンクの末端になるキーワードは関係が深くても異なるリンクに接続されてしまう可能性がある。また、2つ以上のリンクを可能とする場合、現実的なリンクや配置が困難になると考えられる。
そこで、本発明の目的は、文書集合における抽出キーワード間の関係に基づき、関連が深い抽出キーワードを、柔軟に、近くに配置可能な仕組みを提供することである。
上記目的を達成するための第1の発明は、文書内容に基づいて当該文書を分野分類する分野分類手段と、前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出手段と、前記寄与度算出手段により算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類手段と、前記ユニット分類手段によって分類されたユニットを表示する表示手段と、前記ユニット分類手段によってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成手段と、前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示手段に対する前記キーワードの配置情報を算出する配置情報算出手段と、前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して前記表示手段に表示するリンク生成表示手段と、を備えたことを特徴とする知識構造抽出装置である。
上記目的を達成するための第2の発明は、知識構造抽出装置において文書から関連するキーワードを抽出して表示する知識構造抽出方法であって、前記知識構造抽出装置の分野分類手段は、文書内容に基づいて当該文書を分野分類しする分野分類ステップと、前記知識構造抽出装置の寄与度算出手段は、前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出ステップと、前記知識構造抽出装置のユニット分類手段は、前記寄与度算出ステップにより算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類ステップと、前記知識構造抽出装置の表示手段は、前記ユニット分類ステップによって分類されたユニットを表示する表示ステップと、前記知識構造抽出装置のクラスタ生成手段は、前記ユニット分類ステップによってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成ステップと、前記知識構造抽出装置の配置情報算出手段は、前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示ステップに対する前記キーワードの配置情報を算出する配置情報算出ステップと、前記知識構造抽出装置のリンク生成手段は、前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して表示するリンク生成表示ステップと、を実行することを特徴とする知識構造抽出方法である。
上記目的を達成するための第3の発明は、文書から関連するキーワードを抽出して表示する知識構造抽出装置において実行されるプログラムであって、前記知識構造抽出装置を、文書内容に基づいて当該文書を分野分類する分野分類手段と、前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出手段と、前記寄与度算出手段により算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類手段と、前記ユニット分類手段によって分類されたユニットを表示する表示手段と、前記ユニット分類手段によってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成手段と、前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示手段に対する前記キーワードの配置情報を算出する配置情報算出手段と、前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して前記表示手段に表示するリンク生成表示手段と、して機能させることと特徴とするプログラムである。
本発明によれば、指定された文書集合から特徴的なキーワードを抽出し、抽出キーワード間の関係に基づき、関連が深い抽出キーワードを近くに配置することが可能となり、より直観的で理解しやすい図を作成することができるようになる。
本発明の知識構造抽出システムの構成の一例を示すシステム構成図である。 本発明の知識構造抽出装置、及び利用者端末に適用可能な情報処理装置のハードウェア構成を示すブロック図である。 本発明における知識構造抽出装置における知識構造抽出処理の一例を示すフローチャートである。 本発明の知識構造抽出処理における文書収集処理の一例を示すフローチャートである。 本発明における利用端末から取得するURL履歴の一例を示す図である。 本発明の知識構造抽出処理における分野分析処理の一例を示すフローチャートである。 本発明の分野分析処理における重み付き分野情報取得処理の概要を示す図である。 本発明の知識構造抽出処理におけるキーワード抽出処理の一例を示すフローチャートである。 本発明における文書情報保存領域における文書情報テーブルの一例を示す図である。 本発明の知識構造抽出処理における文書配置処理の一例を示すフローチャートである。 本発明の文書配置処理において使用される自己組織化マップと表示位置の一例を示す図である。 本発明のユニット情報の一例を示す図である。 本発明の文書配置処理における自己組織化マップユニットのクラスタリング結果の概要を示す図である。 本発明の文書配置処理において生成される自己組織化マップユニットのクラスタリングテーブルの一例を示す図である。 本発明における文書情報保存領域における文書情報テーブルの一例を示す図である。 本発明の知識構造抽出処理におけるキーワード配置処理の一例を示すフローチャートである。 本発明のキーワード配置処理において生成されるキーワード配置テーブルの一例を示す図である。 本発明のキーワード配置処理において生成されたキーワード配置情報に基づき、自己組織化マップ上にキーワードを配置した様子の一例を示す図である。 本発明の知識構造抽出処理におけるリンク生成処理の一例を示すフローチャートである。 本発明のリンク生成処理において生成されたリンク情報に基づき、自己組織化マップ上に配置されたキーワードにリンクを付与した様子の一例を示す図である。 本発明の分野分析処理における重み付き分野情報取得処理の概要を示す図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は、本発明の知識構造抽出システムの構成の一例を示すシステム構成図である。
図1は、知識構造抽出装置100、および1又は複数の利用者端末130がローカルエリアネットワークを介して接続される構成となっている。また利用者端末130は外部ネットワーク140に接続可能な構成となっている。
知識構造抽出装置100は、利用者端末130から取得したウェブページの閲覧履歴から、ウェブページの内容を取得・分析し、ウェブページ閲覧内容の概要を示す図を作成し、利用者端末130に返す。
利用者端末130は、外部ネットワーク140を介して閲覧したウェブページの閲覧履歴を、知識構造抽出装置100に送り、知識構造抽出装置100により生成された閲覧内容の概要を図示したものを取得する。
また、本実施形態の知識構造抽出システム、利用者端末130から取得する文書がウェブの閲覧履歴以外であってもよい。
以下、図2を用いて、図1に示した知識構造抽出装置100、利用者端末130に適用可能な情報処理装置のハードウェア構成について説明する。
図2は、図1に示した知識構造抽出装置100、利用者端末130に適用可能な情報処理装置のハードウェア構成を示すブロック図である。
図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。
203はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。
また、205は入力コントローラで、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。206はビデオコントローラで、CRTディスプレイ(CRT)210等の表示器への表示を制御する。なお、図2では、CRT210と記載しているが、表示器はCRTだけでなく、液晶ディスプレイ等の他の表示器であってもよい。これらは必要に応じて管理者が使用するものである。
207はメモリコントローラで、ブートプログラム,各種のアプリケーション,フォントデータ,ユーザファイル,編集ファイル,各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
208は通信I/Fコントローラで、ネットワーク(例えば、図1に示したLAN400)を介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。
なお、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRT210上での表示を可能としている。また、CPU201は、CRT210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ211に格納されており、これらについての詳細な説明も後述する。
以下、本実施形態における知識構造抽出システムの全体の流れを説明する。
利用者端末130は、利用者の指示により、特定期間におけるウェブページの閲覧履歴の全てまたは一部を知識構造抽出装置100に送信する。送信するウェブページの閲覧履歴を利用者が選択する構成にしてもよい。
知識構造抽出装置100は、利用者端末130よりウェブページの閲覧履歴を受信すると、ウェブページの内容を分析し、抽出した知識構造を利用者端末130において表示可能な形式で返信する。
利用者端末130は、知識構造抽出装置100から抽出した知識構造を受信すると、受信した知識構造をブラウザ121に図示する。
本実施形態においてウェブページの分類および二次元平面上への配置において、自己組織化マップを用いる。また、自己組織化マップにより分類されたユニットのクラスタリングにウォード法を用いる。
「参考文献」
(1)T.Kohonen,“The self-organizing map”,Proceeding of IEEE, vol.78, no.9,Sept.1990
(2)JoeH.Ward,Jr.,Hierarchical Grouping to Optimize an Objective Function, Journal of the American Statistical Association,Vol.58,1963
以下、図3を参照して、本実施形態の知識構造抽出システムにおける知識構造抽出処理について説明する。
ステップS301において文書収集部101は、利用者端末130より受信したウェブページの閲覧履歴から、知識構造抽出対象となるウェブページを選別し、ウェブページの本文テキストを取得し、文書情報保存領域102に保存する。
ステップS302おいて分野分析部103は、文書情報保存領域102に保存されたウェブページの本文テキストを解析し、分野情報104を抽出する。
ステップS303においてキーワード抽出部105は、文書情報保存領域102に保存されたウェブページの本文テキストを解析し、キーワード情報106を抽出する。
ステップS302およびS303は並列に処理を実行するように構成してもよいし、同一の処理において、分野情報104およびキーワード情報106の両方を抽出するように構成してもよい。
ステップS304において文書配置部107は、分野情報104に対し自己組織化マップを用いて、各ウェブページに対し、内容の近いウェブページが二次元平面上でも近くなるような位置を決定し、文書配置情報108として生成する。
ステップS305においてキーワード配置部109は、ステップS303において抽出されたキーワード情報106のキーワードに対し、ステップS304で生成した文書配置情報108を参照して、キーワードの二次元平面上での位置を決定し、キーワード配置情報110として生成する。また、キーワードの属する文書と、文書が属する自己組織化マップのユニットの情報から、キーワードと関連が高いクラスタを特定する。
ステップS306においてリンク生成部111は、キーワードを、ステップS305で関連付けたクラスタの情報の階層関係に応じて、キーワード間のリンク情報を生成する。リンク情報を含め生成された各種情報を知識構造情報として知識構造情報保存領域112に保存する。
ステップS307において表示・編集部113は、知識構造情報保存領域112に保存された知識構造情報から、図20に示すような文書集合全体を概括するような図を生成し、利用者端末に送信する。
図4では文書収集処理S301の詳細について記載する。
ステップS401において文書収集部101は、利用者端末からウェブページの閲覧履歴をURL一覧として受信する。図5にURL一覧の例を示す。
ステップS402において文書収集部101は、受信したURL一覧に対し、ステップS407までの繰り返し処理を開始する。
ステップS403において文書収集部101は、処理中のURLが処理の対象であるか否かを判定する。URLが処理対象である場合はステップS404に処理を移す。URLが処理対象でない場合は、ステップS407に処理を移す。
処理の対象であるか否かの判定は、例えば閲覧時刻が直近1日以内であるとか特定のユーザのみを対象にするとか、定期的に閲覧している特定のURLを除外する等、任意の条件に基づいてよい。
ステップS404において文書収集部101は、処理中のURLで示された文書を、ネットワークを介して取得する。
ステップS405において文書収集部101は、取得した文書から本文テキストを抽出する。広告などの不要部分を除去する処理を行ってもよい。
ステップS406において文書収集部101は、本文テキストをURL情報とともに文書情報保存領域102の文書情報テーブル901に保存する。図9に文書情報テーブル901の一例を示す。
ステップS407において文書収集部101は、次のURLがある場合、ステップS402からの処理を実施する。次のURLがない場合、処理を終了する。
文書収集処理S301の具体例について記載する。
ステップS401において文書収集部101は、利用者端末から図5に示すウェブページの閲覧履歴をURL一覧として受信する。
ステップS402において文書収集部101は、URL501に対し、ステップS407までの繰り返し処理を開始する。
ステップS403において文書収集部101は、URL501が処理の対象であるか否かを判定する。ここではアクセスしたユーザが「nagai」であるURLを処理対象とする。URL501のユーザが「sakai」であるので、ステップS407に処理を移す。
ステップS407において文書収集部101は、次のURL502があるので、ステップS402に処理を移す。
以降、文書収集部101は、URL502以降のURLに対し、URL503の直前まで同様の処理を行う。
ステップS402において文書収集部101は、URL503に対し、ステップS407までの繰り返し処理を開始する。
ステップS403において文書収集部101は、URL503のユーザが「nagai」であるので、ステップS404に処理を移す。
ステップS404において文書収集部101は、URL503で示された文書を、ネットワークを介して取得する。
ステップS405において文書収集部101は、取得した文書から本文テキストを抽出する。広告などの不要部分を除去する処理を行ってもよい。
ステップS406において文書収集部101は、抽出した本文テキストとURL情報を文書情報907として図9に示す文書情報テーブル901に保存する。この時点では文書情報907の分野カラム905およびキーワードカラム906は空である。
ステップS407において文書収集部101は、次のURL504があるので、ステップS402からの処理を実施する。
以下、同様の処理を繰り返す。
図6では分野分析処理S302の詳細について記載する。
ステップS601において分野分析部103は、文書情報保存領域102の文書情報テーブル901に保存された文書情報に対して、ステップS604までの繰り返し処理を開始する。
ステップS602において分野分析部103は、文書情報のテキストを解析して、文書が属する分野を特定する。本発明の分野分類では、文書が属する分野を1つに決めるのではなく、図7に示すように、複数の、特定した分野と分野に属する度合いの組として表現する。以降、文書に対する複数の分野と度合いの組を、重み付き分野情報と呼ぶ。文書の分野分類は、単純ベイズ分類器などの既存の方法を用いて実現することが可能である。
単純ベイズ分類器では、文書を構成する単語がある分野に属する文書群において出現する頻度から、その文書が文書群に属する確率を求めることができる。この確率に基づき、分野に属する度合いを数値化し、重み付き分野情報として取得する。重み付き分野情報の取得は、単純ベイズ以外の方法で行ってもよい。
ステップS603において分野分析部103は、ステップS602で取得した重み付き分野情報を文書情報保存領域102の文書情報テーブル901に追加する。
ステップS604において分野分析部103は、次の文書情報がある場合、ステップS601からの処理を実施する。次の文書情報がない場合、処理を終了する。
分野分析処理S302の具体例について記載する。
ステップS601において分野分析部103は、文書情報テーブル901に保存された文書情報907に対して、ステップS604までの繰り返し処理を開始する。
ステップS602において分野分析部103は、文書情報907のテキストカラム904のテキスト701を解析して、重み付き分野情報702を取得する。
ステップS603において分野分析部103は、ステップS602で取得した重み付き分野情報702を文書情報テーブル901の文書情報907の分野カラム905に追加する。
ステップS604において分野分析部103は、次の文書情報908があるので、ステップS601からの処理を実施する。
以下同様の処理を繰り返す。
図8ではキーワード抽出処理S303の詳細について記載する。
ステップS801においてキーワード抽出部105は、文書情報保存領域102の文書情報テーブル901に保存された文書情報に対して、ステップS604までの繰り返し処理を開始する。
ステップS802において、キーワード抽出部105は、文書情報のテキストを解析して、文書に含まれるキーワードを抽出する。
本発明のキーワード抽出では、文書を構成するキーワードごとに他の文書と弁別するのに寄与する度合いを数値化し、弁別に寄与する度合いの高いものを、度合いの数値とともにキーワードとして抽出する。以降、キーワードと弁別に寄与する度合いの組を、重み付きキーワード情報と呼ぶ。
キーワードの文書弁別に寄与する度合いはtf・idf値を用いることができる。キーワードの文書弁別に寄与する度合いはtf・idf値以外の値を用いてもよい。tf・idf値を求めるためには、文書集合におけるキーワードの出現頻度などの統計情報が必要となる。
文書集合としては分析の対象とした文書全体とする場合が多いが、本発明においては、各種文書を集めた大規模な文書集合から予め抽出した統計情報を用いる。これは分析対象全体を表現し、分析対象全体でよく出現するキーワードが抽出対象外となるのを防ぐためである。
ステップS803においてキーワード抽出部105は、ステップS802で取得した重み付きキーワード情報を文書情報保存領域102の文書情報テーブル901に追加する。
ステップS804においてキーワード抽出部105は、次の文書情報がある場合、ステップS801からの処理を実施する。次の文書情報がない場合、処理を終了する。
キーワード抽出処理S303の具体例について記載する。
ステップS801においてキーワード抽出部105は、文書情報テーブル901に保存された文書情報907に対して、ステップS604までの繰り返し処理を開始する。
ステップS802において、キーワード抽出部105は、文書情報907のテキストカラム904のテキスト701を解析して、重み付きキーワード情報2101(図21参照)を取得する
ステップS803においてキーワード抽出部105は、ステップS802で取得した重み付きキーワード情報2101を文書情報テーブル901の文書情報907のキーワードカラム906に追加する。
ステップS804においてキーワード抽出部105は、次の文書情報908があるので、ステップS801からの処理を実施する。
以下同様の処理を繰り返す。
図10では文書配置処理S304の詳細について記載する。
本実施形態の文書配置処理においては、重み付き分野情報をベクトルと見做し、自己組織化マップを適用することで二次元平面上に文書を配置する。
ステップS1001において文書配置部107は、文書情報保存領域102の文書情報テーブル901に保存された文書情報に対して自己組織化マップの学習を行う。自己組織化マップの学習および分類、ウォード法によるクラスタリングに必要な、重み付き分野(ベクトル)どうしの距離の算出式の一例を図24に示す。これ以外の方法により距離を定義してもよい。
「式1」
Figure 2014056516
図11に可視化した自己組織化マップの一例を示す。図の六角形はユニットと呼ばれ、自己組織化マップは学習が終了すると、分類対象をいずれかのユニットに分類することができるようになる。図11におけるユニット内の番号はユニットの識別番号であり、図12に示すユニット情報テーブルに各ユニットの情報が格納される。
各ユニットは重み付きの分野カラム1207に分野情報を持つ。yカラム1203は左上を起点としてユニットの縦方向の位置を、xカラム1204は左上を起点としてユニットの横方向の位置を意味する。
ステップS1002において文書配置部107は、学習が終わった自己組織化マップのユニットに対して、ウォード法などの階層的クラスタリングを実施する。階層的クラスタリングにより各ユニットは重み付き分野情報が近い順にまとめられる。
図13に階層的クラスリングの結果の一例を示す。一番末端の番号はユニットの識別番号であり、途中の番号はクラスタの識別番号を示す。
ステップS1003において文書配置部107は、クラスタの情報を保存する。
図14にクラスタ情報を保存するテーブルの一例を示す。
ステップS1004において文書配置部107は、文書情報保存領域102の文書情報テーブル901に保存された文書に対して、ステップS1007までの繰り返し処理を開始する。
ステップS1005において文書配置部107は、処理中の文書情報が属するユニットを特定する。処理中の文書は、抽出した重み付き分野情報に最も近い重み付き分野情報を持つユニットに属すると判定される。
ステップS1006において文書配置部107は、ユニットの情報を文書情報保存領域102の文書情報テーブル901に保存する。
図15にユニット情報を含んだ文書情報テーブル901の一例を示す。
ステップS1007において文書配置部107は、次の文書情報がある場合、ステップS1004からの処理を実施する。次の文書情報がない場合、処理を終了する。
文書配置処理S304の具体例について記載する。
ステップS1001において文書配置部107は、文書情報テーブル901に保存された文書情報に対して自己組織化マップの学習を行い、ユニット情報テーブル1201を得る。
ステップS1002において文書配置部107は、ユニット情報テーブル1201に含まれる各ユニットに対し、分野カラム1207から求めたお互いの距離により階層的クラスタリングを実施して図13の樹形図で示されるクラスタリング結果を得る。
ステップS1003において文書配置部107は、図13の樹形図で示されたクラスタリング結果を保存して、クラスタ情報テーブル1401を得る。
ステップS1004において文書配置部107は、文書情報907に対して、ステップS1012までの繰り返し処理を開始する。
ステップS1005において文書配置部107は、文書情報907の重み付き分野情報とユニット情報テーブル1201における各ユニットの分野カラム1207との距離を算出し、最も距離の小さいユニット情報1208を文書情報907が属するユニットとして特定する。
ステップS1006において文書配置部107は、図15に示すように、文書情報テーブル901の文書情報907のuidカラム1501にユニット情報1411の識別番号を追加する。
ステップS1007において文書配置部107は、次の文書情報908があるのでステップS1004からの処理を実施する。
以下、同様の処理を繰り返すことで、全ての文書の自己組織化マップ上での配置位置が定まる。
図16ではキーワード配置処理S305の詳細について記載する。
ステップS1601においてキーワード配置部109は、文書情報保存領域102の文書情報テーブル901の文書情報に対して、ステップS1607までの繰り返し処理を開始する。
ステップS1602においてキーワード配置部109は、ステップS1601で取得された文書情報に含まれるキーワードに対し、ステップS1606までの繰り返し処理を開始する。
ステップS1603においてキーワード配置部109は、処理中のキーワードがキーワード配置情報テーブル1701に登録されているか否かを判定する。キーワードがキーワード配置情報テーブル1701に登録済みであれば、ステップS1605に処理を移す。キーワードがキーワード配置情報テーブル1701に登録されていなければ、ステップS1604に処理を移す。
ステップS1604においてキーワード配置部109は、処理中のキーワードをキーワード配置情報テーブル1701に登録する。
ステップS1605においてキーワード配置部109は、キーワード配置情報テーブル1701における処理中のキーワードに対し、処理中の文書情報が属するユニットの識別番号を追加する。
既にユニットの識別番号が登録されている場合は、出現頻度を1増やす。
ステップS1606においてキーワード配置部109は、次のキーワードがある場合、ステップS1602からの処理を実施する。次のキーワードがない場合、ステップS1607に処理を移す。
ステップS1607においてキーワード配置部109は、次の文書情報がある場合、ステップS1601からの処理を実施する。次のキーワードがない場合、ステップS1608に処理を移す。
ステップS1608においてキーワード配置部109は、キーワード配置情報テーブル1701におけるキーワード配置情報に対し、ステップS1613までの繰り返し処理を開始する。
ステップS1609においてキーワード配置部109は、処理中のキーワード配置情報のユニット識別番号と対応するユニット情報と出現頻度から位置を算出し、処理中のキーワードの位置情報とする。位置を算出する式の一例を式2に示すが、別の方法により算出してもよい。
「式2」

Figure 2014056516
ステップS1610においてキーワード配置部109は、ステップS1604で算出したキーワード配置情報の位置情報に追加する。
ステップS1611においてキーワード配置部109は、処理中のキーワードを含むユニットの集合に対し、ステップS1008において取得したクラスタ情報を参照し、最もユニットの集合が合致するクラスタを取得する。合致の度合いの判定には式3に示す式により算出する。
「式3」
Figure 2014056516
ステップS1612においてキーワード配置部109は、ステップS1611において取得したクラスタ情報の識別番号をキーワード配置情報に追加する。
ステップS1613においてキーワード配置部109は、次のキーワード配置情報がある場合、ステップS1608からの処理を実施する。次のキーワード配置情報がない場合、処理を終了する。
キーワード配置処理S305の具体例について記載する。
図16ではキーワード配置処理S305の詳細について記載する。
ステップS1601においてキーワード配置部109は、文書情報テーブル901の文書情報907に対して、ステップS1607までの繰り返し処理を開始する。
ステップS1602においてキーワード配置部109は、文書情報907に含まれるキーワード「高感度」に対し、ステップS1606までの繰り返し処理を開始する。
ステップS1603においてキーワード配置部109は、処理中のキーワード「高感度」がキーワード配置情報テーブル1701に登録されていないので、ステップS1604に処理を移す。
ステップS1604においてキーワード配置部109は、処理中のキーワード「高感度」をキーワード配置情報テーブル1701に登録する。
ステップS1605においてキーワード配置部109は、キーワード配置情報テーブル1701における処理中のキーワード「高感度」に対し、文書情報907が属するユニットの識別番号「14」を追加する。
ステップS1606においてキーワード配置部109は、次のキーワード「カメラ」があるので、ステップS1602からの処理を実施する。
以下、ステップS1602〜S1606までの処理を繰り返し、文書情報907のキーワードを全て処理して、ステップS1607に処理を移す。
ステップS1607においてキーワード配置部109は、次の文書情報908があるので、ステップS1601からの処理を実施する。
以下、ステップS1601〜S1607までの処理を繰り返し、キーワード配置情報テーブル1701を得る。
ステップS1608においてキーワード配置部109は、キーワード配置情報テーブル1701におけるキーワード配置情報1709に対し、ステップS1613までの繰り返し処理を開始する。
ステップS1609においてキーワード配置部109は、キーワード配置情報1709のユニット識別番号と対応するユニット情報と出現頻度から位置を算出する。ユニット情報テーブルから、ユニット識別番号7のユニットの位置は(1, 2)を得る。他のユニット識別番号についても同様に位置を取得して、式2の式よりキーワードの位置(3.15, 2.55)を算出する。
y=(1*2+1*2+2*3+4*3+5*3+2*3+1*4+3*4+1*4)/20=3.15
x=(1*1+1*2+2*1+4*2+5*3+2*4+1*2+3*3+1*4)/20=2.55
ステップS1610においてキーワード配置部109は、ステップS1604で算出した位置情報(3.15, 2.55)をキーワード配置情報1709のyカラム1704およびxカラム1705に追加する。
ステップS1611においてキーワード配置部109は、キーワード配置情報1709が含むユニット集合に対し、クラスタ情報テーブル1401を参照し、最もユニットの集合が合致するクラスタを取得する。
クラスタ情報1402は全てのユニットを含む最上位のクラスタである。キーワード配置情報1709のユニット集合とクラスタ情報1402のユニット集合の合致度を式3より算出する。
合致するユニットの数は{7, 8, 13, 14, 15, 16, 20, 21, 22}の9であり、キーワード配置情報1709のユニット数も9である。クラスタ情報1402のユニット数は36である。
(クラスタ情報1402との合致度)=(2*9)/(9+36)=0.4
キーワード配置情報1709のユニット集合とクラスタ情報1403のユニット集合の合致度を式3より算出する。合致するユニットの数は{7,8,14,15,16,21,22}の7であり、キーワード配置情報1709のユニット数は{7,8,13,14,15,16,20,21,22}の9である。クラスタ情報1407のユニット数は{7,8,14,15,16,21,22}の7である。
(クラスタ情報1407との合致度)=(2*7)/(7+9)=0.875
このような計算を全てのクラスタについて算出し、最も合致度の高いクラスタを選択する。キーワード配置情報1709に対してはクラスタ情報1407が最も合致する。
ステップS1612においてキーワード配置部109は、クラスタ情報1407の識別番号64をキーワード配置情報1709のクラスタ識別番号1707に追加する。
ステップS1613においてキーワード配置部109は、次のキーワード配置情報1710があるので、ステップS1608からの処理を実施する。
以下、同様の処理を繰り返す。
図19ではリンク生成処理S306の詳細について記載する。
ステップS1901においてリンク生成部111は、ステップS1008で取得したクラスタ情報に対し、ステップS1912までの繰り返し処理を開始する。
ステップS1902においてリンク生成部111は、処理中のクラスタに対応付けられたキーワードをキーワード配置情報から取得する。
ステップS1903においてリンク生成部111は、処理中のクラスタに対応付けられたキーワードに対し、ステップS1910までの繰り返し処理を開始する。
ステップS1904においてリンク生成部111は、処理中のクラスタの上位のクラスタを取得する。
ステップS1905においてリンク生成部111は、ステップS1904で取得したクラスタに対応付けられたキーワードを上位キーワードとして取得する。
ステップS1906においてリンク生成部111は、上位キーワードがあるか否かを判定する。上位キーワードがある場合、ステップS1907に移す。上位キーワードがない場合、ステップS1909に処理を移す。
ステップS1907においてリンク生成部111は、処理中のキーワードに最も関連する上位キーワードを選択する。選択の基準としては、処理中のキーワード配置情報のユニット集合のうち、上位のキーワード配置情報のユニット集合に含まれている割合や、キーワード配置情報の位置(y, x)から算出した距離を用いることができる。他の選択基準を用いてもよい。
ステップS1908においてリンク生成部111は、キーワード配置情報のリンク情報に上位キーワードを設定する。
ステップS1909においてリンク生成部111は、ステップS1904で取得した上位のクラスタが最上位であるか否かを判定する。上位のクラスタが最上位である場合、ステップS1910に処理を移す。上位のクラスタが最上位でない場合、ステップS1904に処理を移す。
ステップS1910においてリンク生成部111は、処理中のクラスタに対応付けられた次のキーワードがある場合、ステップS1903からの処理を実施する。次のキーワードがない場合、ステップS1911に処理を移す。
ステップS1911においてリンク生成部111は、次のクラスタがある場合、ステップS1901からの処理を実施する。次のクラスタがない場合、処理を終了する。
リンク生成処理S306の具体例について記載する。
ステップS1901においてリンク生成部111は、クラスタ情報1402に対し、ステップS1912までの繰り返し処理を開始する。
ステップS1902においてリンク生成部111は、クラスタ情報1402(クラスタ識別番号72)に対応付けられたキーワード配置情報1711(「高画質」)を取得する。
ステップS1903においてリンク生成部111は、クラスタ情報1402に対応付けられたキーワード配置情報1711に対し、ステップS1910までの繰り返し処理を開始する。
ステップS1904においてリンク生成部111は、クラスタ情報1402の上位のクラスタ情報を取得しようとするが存在しないため。上位のクラスタ情報を取得できない。
ステップS1905においてリンク生成部111は、ステップS1904で上位のクラスタ情報を取得できなかったので、上位のキーワードも取得できない。
ステップS1906においてリンク生成部111は、上位キーワードがないので、ステップS1909に処理を移す。
ステップS1909においてリンク生成部111は、ステップS1904で取得した上位のクラスタ情報1402が最上位であるので、ステップS1910に処理を移す。
ステップS1910においてリンク生成部111は、クラスタ情報1402に対応付けられた次のキーワード配置情報がないので、ステップS1911に処理を移す。
ステップS1911においてリンク生成部111は、次のクラスタ情報1403があるので、ステップS1901からの処理を実施する。
ステップS1901においてリンク生成部111は、クラスタ情報1403に対し、ステップS1912までの繰り返し処理を開始する。
ステップS1902においてリンク生成部111は、クラスタ情報1403(クラスタ識別番号71)に対応付けられたキーワード配置情報1712(「非球面レンズ」)を取得する。
ステップS1903においてリンク生成部111は、クラスタ情報1403に対応付けられたキーワード配置情報1712に対し、ステップS1910までの繰り返し処理を開始する。
ステップS1904においてリンク生成部111は、クラスタ情報1403の上位のクラスタ情報1402を取得する。
ステップS1905においてリンク生成部111は、ステップS1904で上位のクラスタ情報1402に(クラスタ識別番号72)に対応付けられたキーワード配置情報1711を取得する。
ステップS1906においてリンク生成部111は、上位のキーワード配置情報があるので、ステップS1907に処理を移す。
ステップS1907においてリンク生成部111は、キーワード配置情報1712に最も関連する上位のキーワード配置情報としてキーワード配置情報1711を選択する。
ステップS1908においてリンク生成部111は、キーワード配置情報1712の上位キーワードカラム1708に上位キーワードの識別番号「25」を設定する。
ステップS1910においてリンク生成部111は、クラスタ情報1403に対応付けられた次のキーワード配置情報がないので、ステップS1911に処理を移す。
ステップS1911においてリンク生成部111は、次のクラスタ情報1404があるので、ステップS1901からの処理を実施する。
以下、同様の処理を繰り返す。
キーワード配置情報を用いることで図20のようなマインドマップ用の図を作成することができる。
以上、本発明によれば、指定された文書集合から特徴的なキーワードを抽出し、抽出キーワード間の関係に基づき、関連が深い抽出キーワードを近くに配置することが可能となり、より直観的で理解しやすい図を作成することができるようになる。
以上、実施形態例を詳述したが、本発明は、例えば、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。また、本発明におけるプログラムは、各処理方法をコンピュータが実行可能(読み取り可能)なプログラムであり、本発明の記憶媒体は、各処理方法をコンピュータが実行可能なプログラムが記憶されている。
なお、本発明におけるプログラムは、各装置の処理方法ごとのプログラムであってもよい。
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読取り実行することによっても、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,DVD−ROM,磁気テープ,不揮発性のメモリカード,ROM,EEPROM,シリコンディスク等を用いることができる。
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータで稼働しているOS等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ,データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステム、あるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
100 知識構造抽出装置
130 利用者端末
140 外部ネットワーク
201 CPU
202 ROM
203 RAM
204 システムバス
205 入力コントローラ
206 ビデオコントローラ
207 メモリコントローラ
208 通信I/Fコントローラ
209 入力部
210 ディスプレイ
211 外部メモリ

Claims (3)

  1. 文書内容に基づいて当該文書を分野分類する分野分類手段と、
    前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出手段と、
    前記寄与度算出手段により算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類手段と、
    前記ユニット分類手段によって分類されたユニットを表示する表示手段と、
    前記ユニット分類手段によってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成手段と、
    前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示手段に対する前記キーワードの配置情報を算出する配置情報算出手段と、
    前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して前記表示手段に表示するリンク生成表示手段と、
    を備えたことを特徴とする知識構造抽出装置。
  2. 知識構造抽出装置において文書から関連するキーワードを抽出して表示する知識構造抽出方法であって、
    前記知識構造抽出装置の分野分類手段は、文書内容に基づいて当該文書を分野分類しする分野分類ステップと、
    前記知識構造抽出装置の寄与度算出手段は、前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出ステップと、
    前記知識構造抽出装置のユニット分類手段は、前記寄与度算出ステップにより算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類ステップと、
    前記知識構造抽出装置の表示手段は、前記ユニット分類ステップによって分類されたユニットを表示する表示ステップと、
    前記知識構造抽出装置のクラスタ生成手段は、前記ユニット分類ステップによってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成ステップと、
    前記知識構造抽出装置の配置情報算出手段は、前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示ステップに対する前記キーワードの配置情報を算出する配置情報算出ステップと、
    前記知識構造抽出装置のリンク生成手段は、前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して表示するリンク生成表示ステップと、
    を実行することを特徴とする知識構造抽出方法。
  3. 文書から関連するキーワードを抽出して表示する知識構造抽出装置において実行されるプログラムであって、
    前記知識構造抽出装置を、
    文書内容に基づいて当該文書を分野分類する分野分類手段と、
    前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出手段と、
    前記寄与度算出手段により算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類手段と、
    前記ユニット分類手段によって分類されたユニットを表示する表示手段と、
    前記ユニット分類手段によってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成手段と、
    前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示手段に対する前記キーワードの配置情報を算出する配置情報算出手段と、
    前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して前記表示手段に表示するリンク生成表示手段と、
    して機能させることと特徴とするプログラム。

JP2012202037A 2012-09-13 2012-09-13 情報処理装置、方法、およびプログラム Active JP5700007B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012202037A JP5700007B2 (ja) 2012-09-13 2012-09-13 情報処理装置、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012202037A JP5700007B2 (ja) 2012-09-13 2012-09-13 情報処理装置、方法、およびプログラム

Publications (3)

Publication Number Publication Date
JP2014056516A true JP2014056516A (ja) 2014-03-27
JP2014056516A5 JP2014056516A5 (ja) 2014-09-04
JP5700007B2 JP5700007B2 (ja) 2015-04-15

Family

ID=50613756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012202037A Active JP5700007B2 (ja) 2012-09-13 2012-09-13 情報処理装置、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5700007B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9563652B2 (en) 2015-03-31 2017-02-07 Ubic, Inc. Data analysis system, data analysis method, data analysis program, and storage medium
WO2020133186A1 (zh) * 2018-12-28 2020-07-02 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端
JP2021015430A (ja) * 2019-07-11 2021-02-12 京セラドキュメントソリューションズ株式会社 書類管理装置及び書類管理システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JP2005322245A (ja) * 2004-04-30 2005-11-17 Microsoft Corp 要約を使用して表示ページを分類する方法およびシステム
JP2009075881A (ja) * 2007-09-20 2009-04-09 Fujitsu Ltd テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JP2005322245A (ja) * 2004-04-30 2005-11-17 Microsoft Corp 要約を使用して表示ページを分類する方法およびシステム
JP2009075881A (ja) * 2007-09-20 2009-04-09 Fujitsu Ltd テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200301427004; 多田 薫弘: '事業戦略立案における質的情報分析のためのSOM適用法についての一考察' 日本ファジイ学会誌 第14巻 第1号, 20020215, p.64-73, 日本ファジイ学会 *
JPN6014030535; 多田 薫弘: '事業戦略立案における質的情報分析のためのSOM適用法についての一考察' 日本ファジイ学会誌 第14巻 第1号, 20020215, p.64-73, 日本ファジイ学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9563652B2 (en) 2015-03-31 2017-02-07 Ubic, Inc. Data analysis system, data analysis method, data analysis program, and storage medium
KR20170130604A (ko) 2015-03-31 2017-11-28 가부시키가이샤 프론테오 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체
US10204153B2 (en) 2015-03-31 2019-02-12 Fronteo, Inc. Data analysis system, data analysis method, data analysis program, and storage medium
WO2020133186A1 (zh) * 2018-12-28 2020-07-02 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端
JP2021015430A (ja) * 2019-07-11 2021-02-12 京セラドキュメントソリューションズ株式会社 書類管理装置及び書類管理システム

Also Published As

Publication number Publication date
JP5700007B2 (ja) 2015-04-15

Similar Documents

Publication Publication Date Title
Tuarob et al. Automated discovery of lead users and latent product features by mining large scale social media networks
US11468342B2 (en) Systems and methods for generating and using knowledge graphs
CN110297935A (zh) 图像检索方法、装置、介质及电子设备
US11222183B2 (en) Creation of component templates based on semantically similar content
Chen et al. Mining user requirements to facilitate mobile app quality upgrades with big data
US20180053097A1 (en) Method and system for multi-label prediction
US10146800B2 (en) Management and dynamic assembly of presentation material
Hou et al. Newsminer: Multifaceted news analysis for event search
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN110765301B (zh) 图片处理方法、装置、设备及存储介质
CN112703495A (zh) 利用实体链接和本体数据推断主题
JP5700007B2 (ja) 情報処理装置、方法、およびプログラム
Wei et al. Online education recommendation model based on user behavior data analysis
WO2019151502A1 (ja) 提示装置、提示方法および提示プログラム
Noubours et al. NLP as an essential ingredient of effective OSINT frameworks
Li et al. A Novel Approach for Protein‐Named Entity Recognition and Protein‐Protein Interaction Extraction
US20160170983A1 (en) Information management apparatus and information management method
CN111753199B (zh) 用户画像构建方法及设备、电子设备和介质
CN114445043A (zh) 基于开放生态化云erp异质图用户需求精准发现方法及***
NL2025417B1 (en) Intelligent Content Identification and Transformation
Al-Ayyoub et al. Aspect-based sentiment analysis of Arabic laptop
JP7168826B2 (ja) データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム
US20230214429A1 (en) System and method of determining content similarity by comparing semantic entity attributes
JP2011248827A (ja) 言語横断型情報検索方法、言語横断型情報検索システム及び言語横断型情報検索プログラム
Tang et al. Locality alignment discriminant analysis for visualizing regional English

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150202

R150 Certificate of patent or registration of utility model

Ref document number: 5700007

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250