JP4269713B2 - Data processing device - Google Patents

Data processing device Download PDF

Info

Publication number
JP4269713B2
JP4269713B2 JP2003047522A JP2003047522A JP4269713B2 JP 4269713 B2 JP4269713 B2 JP 4269713B2 JP 2003047522 A JP2003047522 A JP 2003047522A JP 2003047522 A JP2003047522 A JP 2003047522A JP 4269713 B2 JP4269713 B2 JP 4269713B2
Authority
JP
Japan
Prior art keywords
data
candidate group
word
definition
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003047522A
Other languages
Japanese (ja)
Other versions
JP2004258873A (en
Inventor
尚史 吉田
猛志 永峯
明男 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2003047522A priority Critical patent/JP4269713B2/en
Publication of JP2004258873A publication Critical patent/JP2004258873A/en
Application granted granted Critical
Publication of JP4269713B2 publication Critical patent/JP4269713B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ドキュメントデータ、映像データ、録音データなどのように言語による内容表現を含むデータを処理する技術に関し、特に、複数のデータ間に定義語と参照語との参照関係に基づく関係付けを行う技術に関する。
【0002】
【従来の技術】
ドキュメントデータはその文書の内容が言語により記述され、映像データや録音データはその内容が音声言語によって記録されている。ドキュメントデータに対しては公知のように形態素解析を施すことによりその記述内容から単語を抽出することができ、また、映像データや録音データに対しては、例えば、公知のように音声認識処理によって記録内容をドキュメントデータ化し、当該ドキュメントデータに形態素解析を施すことにより音声記録から単語を抽出することができる。
【0003】
ここで、本発明はドキュメントデータのみならず、映像データや録音データなどのようにその内容が言語により表現記録されているデータに広く適用することができるものであるが、説明を明確にするために以下の説明では主にドキュメントデータを代表例と用いる。
【0004】
このような言語による内容表現を含むデータは、企業、教育期間、個人などのデータベースに蓄積され、或いは、インターネットやローカルネットワーク上のデータサーバに蓄積されて、必要に応じて検索処理により取り出して利用される。
例えば、ドキュメントデータの全文や要約などの一部を対象として、利用者が指定した検索キーワードとの一致に基づいて該当するドキュメントデータを検索するキーワード検索は広く実用されている。
【0005】
このようなキーワード検索では、指定された検索キーワードの数が少ないと検索結果として得られるドキュメントデータ数がノイズを含む膨大なものとなってしまうため、複数の検索キーワードを論理式で組み合わせて検索を行い、利用者の目的に沿う検索結果が得られるようにしている。
しかしながら、このような方法にあっても、利用者が対象とするドキュメントデータの詳細な内容を知らないと的確な検索キーワードを指定することができないため、求めるドキュメントデータを獲得することは困難である。
【0006】
また、従来の検索方法では、指定した検索キーワードを含むか否かといった単純な検索結果であるため、検索結果として得られたドキュメントデータ間には共通する検索キーワードを含むといった程度の関係しかなく、ドキュメントデータ同士で関連するドキュメントデータ群を検索結果として得ることはできなかった。
【0007】
また、WWW環境におけるサーチエンジンに代表される全文検索技術では、与えられた検索キーワードを含むドキュメントを或る順序付けを行って一覧として提示可能となっている(非特許文献1参照。:文献7)。これにより、例えば、最も検索キーワードにより参照されているドキュメントデータを重要と考え、その重要の程度により順序付けを行った一覧として検索結果を提示することができる。
しかしながら、このような方法にあっても、検索キーワードに基づく重要度を加味しているだけで、ドキュメントデータ同士で関連するドキュメントデータ群を検索結果として得ることはできなかった。
【0008】
なお、ドキュメントデータ中から専門用語を抽出する技術(非特許文献2、非特許文献3、非特許文献4参照。)や、専門分野において定義されている語(定義語)の抽出に関する技術(非特許文献1、非特許文献2、非特許文献5、特許文献1、特許文献2参照。)について種々な方法が提案されている。
また、教材となるドキュメントデータの検索を支援するための方法も提案されている(特許文献3参照。)。
【0009】
【特許文献1】
特開2000―259657号公報
【特許文献2】
特願2002―169236号
【特許文献3】
特開平4―301874号公報
【非特許文献1】
Page, L., Brin, S., Motwani, R. and Winograd, T.: The PageRank Citation Ranking: Bringing Order to the Web, Technical report, Stanford Digital Library Technologies Project (1998).
【非特許文献2】
黒橋、「専門用語辞典の自動的ハイパーテキスト化の方法」、人工知能学会誌,Vol.7,No.2,1992
【非特許文献3】
湯本、「出現頻度と連接頻度に基づく専門用語抽出」、情報処理研究報告書、情報学基礎,64-17(自然言語処理145-17),2001
【非特許文献4】
伊東、「用語体系の統合及び可視化システムの試作」、情報処理研究報告書、情報学基礎、65-1,2001
【非特許文献5】
木田、「新聞記事からの用語集作成のためのテキスト分析」、情報処理研究報告書、自然言語処理、134-12,1999
【0010】
【発明が解決しようとする課題】
本発明は上記従来の事情に鑑みなされたもので、複数のドキュメントなどのデータを互いに関連性をもった群として抽出することができる技術を提供することを目的としている。
また、本発明はドキュメントなどにおいて未定義語の少ないデータ群を抽出することができる技術を提供することを目的としている。
なお、本発明の更なる目的は以下に説明するところにより明らかである。
【0011】
【課題を解決するための手段】
本発明は、上記目的を達成するために、定義語と参照語との関係に基づくドキュメントなどのデータ間の依存関係を利用することにより、複数のデータが関連し合って一つの体系を構成しているデータ群を抽出する。また、本発明は、参照語や定義語の使用態様の割合を利用することにより、未定義語の程度を抽出し、これを応用することにより、未定義語の少ないデータ群を利用者に提供することを可能とする。
【0012】
ここで、定義語とは、専門分野において或る内容を表現するために専門的に用いられる名詞(すなわち、専門用語)の内の内容意味の定義記述を伴う語であり、例えば、或るドキュメント中において「AAAとは、aaaaaという意味である。」という記述がある場合、「AAA」が定義語であり、「aaaaa」が定義記述である。
また、参照語とは、専門用語の内の定義語以外の語(換言すれば、定義記述を伴わずに用いられている専門用語)であり、上記例で、或るドキュメント中に「…AAAを適用することにより…」という記述がある場合、「AAA」はいずれかのドキュメントで定義されているが、当該記述では定義記述を伴っていないので参照語である。
【0013】
本発明は上記目的を達成するデータ処理装置、データ処理方法、コンピュータプログラムとして実施することができ、本発明の要旨は、データの内容表現に含まれる定義語と参照語との参照関係に基づいて複数のデータ間を関係付ける参照関係付処理を行うことにより、言語による内容表現を含むデータについて複数のデータ間に関係付けを施す技術である。
【0014】
より具体的には、本発明に係るデータ処理装置は、関連付け対象の複数のデータに対して、指定されたデータを候補群に加え、当該データ内容に含まれる参照語が定義されている内容を含む他のデータを前記候補群に加えて当該データ間にリンク付けをし、当該候補群に加えられたデータについて定義語が参照語として利用されている度合いを示す内部自己参照度及び定義語に対する参照語の割合を示す外部自己参照度を求めて当該参照度を指定された基準値と比較する処理を、当該参照度が指定された基準値に達するまで繰り返し行って出力対象となる候補群を形成する参照関係付処理手段を、備えている。
なお、候補群に含まれるデータ間のリンク関係を視覚的に画面表示する出力処理手段を備えたり、データの内容表現中から当該データに含まれる定義語及び参照語を抽出するメタデータ付与手段並びに複数のデータから参照関係付処理手段による処理対象となる複数のデータを検索する前処理検索手段を備えるようにしてもよい。
【0015】
また、本発明に係るデータ処理方法は、関連付け対象の複数のデータに対して、指定されたデータ内容に含まれる参照語が定義されている内容を含む他のデータと当該データとの間にリンク付けをする処理を、所定の停止条件に達するまで繰り返し行うことにより、言語による内容表現を含むデータについて複数のデータ間に関係付けを施す。
【0016】
また、本発明に係るコンピュータプログラムは、指定されたデータを候補群として特定する第1の機能と、当該データ内容に含まれる参照語が定義されている内容を含む他のデータを検索して前記候補群に加えて特定する第2の機能と、当該候補群として特定されるデータ間にリンク付けする第3の機能と、当該候補群に特定された複数のデータについて定義語が参照語として利用されている度合いを示す内部自己参照度及び定義語に対する参照語の割合を示す外部自己参照度を求める第4の機能と、当該求めた参照度を指定された基準値と比較する第5の機能と、当該参照度が指定された基準値に達するまで前記第2から第5の機能による処理を繰り返し行って出力対象となる候補群を形成する第6の機能とを、コンピュータに実現することにより、言語による内容表現を含むデータについて複数のデータ間に関係付けを施す処理をコンピュータにより実施する。
【0017】
上記のような構成の本発明によると、複数のドキュメントデータ群が関連しあってひとつの体系を構成している場合において、定義語と参照語に基づくドキュメントデータ間の依存関係を抽出して利用するので、ドキュメントデータ単体ではなく、ドキュメントデータ群をそれぞれのデータ間の関連とともに検索結果として得ることができるようになる。
【0018】
更には、本発明によると、定義語と参照語との使用態様に応じた割合を利用するので、未定義語の程度を抽出することが可能となって、これを応用することにより、未定義語の少ないドキュメントデータ群を利用者に提供することが可能となる。
例えば、教育の場に本発明を適用することにより、定義語と参照語との関係に基づく関連性があり且つ未定義語が少ないドキュメントデータ群を抽出することができ、教材に適したドキュメントデータ群を学習者に提供することができる。なお、これとは逆に、未定義語の多いドキュメントデータ群を抽出することもでき、専門的なドキュメントデータ群を専門家に提供することもできる。
【0019】
【発明の実施の形態】
本発明をドキュメントデータの検索処理に適用した一実施態様に基づいて具体的に説明する。
本例のデータ処理装置は図1に示すような機能構成を有している。なお、本例ではコンピュータで本発明に係るプログラムを実行することにより下記の各機能を構成しているが、専用回路構成によりこれら機能を構成してもよい。
【0020】
本例のデータ処理装置は、検索対象のドキュメントデータを保持するデータベース1、データベースに保持された各ドキュメントデータDに対して定義語及び参照語を含むメタデータMを付属させるメタデータ付与部2、利用者からの操作入力を受け付けるキーボードやポインティングデバイスを有した入力部3、利用者から入力されたキーワードに基づいてデータベース1から該当するドキュメントデータ群を前処理としてキーワード検索する前処理検索部4、処理のための作業領域となる作業メモリ5、利用者から入力に応じて前処理検索で得られたドキュメントデータ群11に対して定義語と参照語とに基づく関係付け処理を行う参照関係処理部6、定義語と参照語との使用態様に応じた割合である自己参照度を算出して関係付け処理を制御する関連付制御部7、関係付け処理によって得られたドキュメントデータの候補集合12を利用者から入力に応じた出力形態に加工する出力処理部8、利用者に対して候補集合12を提示するための画面を有する出力部9とを備えている。
【0021】
なお、本例では、データベース1を前処理検索の対象としているが、例えばネットワーク上に提供されている種々なドキュメントデータを前処理検索の対象とするようにしてもよく、この前処理検索の結果にメタデータ付与部2でメタデータMを付与するようにしてもよい。
また、例えば或る程度専門的なドキュメントデータDのみを保持するデータベース1である場合には、これら全てのドキュメントデータDを関係付け処理の対象として前処理検索を行わないようにすることもできる。
また、ドキュメントデータ以外の映像データや録音データを対象とする場合には、これらデータ内容の言語表現部分を音声認識などでドキュメントデータ化して当該データに付属させておけばよい。
【0022】
ここで、ドキュメントにおける定義語と参照語との関係を図2を参照して説明しておく。
ドキュメントAの記述内容に「定義内容の記述」を伴った「定義語」の他に、「参照語a」と「参照語b」とがある場合、「参照語a」と同じ種類の専門用語がその「定義の記述」を伴った「定義語a」として記述されているドキュメントBは、ドキュメントAによって参照される関係にある。本例では、このような定義語と参照語との参照関係に基づいたドキュメント間の参照関係を利用して、前処理検索の結果11として得られたドキュメントデータ群に対してドキュメントデータ間の関係付けを行い、その結果を候補集合12としている。
【0023】
次に、上記の各機能部の詳細な機能とともに、本例のデータ処理装置による処理を説明する。
本例のデータ処理装置による処理は、大まかに言えば図3に示すように、主にメタデータ付与部2により定義語及び参照語の抽出・付与を行うメタデータ抽出処理(ステップS1)、主に前処理部4によりキーワード検索を行う前処理検索(ステップS2)、主に参照関係処理部6及び関係付制御部7により行う参照関係処理(ステップS3)、主に出力処理部8で行う出力処理(ステップS4)の手順で実行される。
【0024】
メタデータ抽出処理(ステップS1)では、例えば特許文献1や特許文献2に開示されるような公知の技術を用いて、データベース1の各ドキュメントデータDに対して、定義語及び参照語を抽出してメタデータMとして付属させる。具体的には、形態素解析によって名詞を抽出し、当該名詞を含む文のパターン認識で当該名詞が定義語か参照語かを判定する。例えば、「AAAとは、aaaaaである。」、「AAAとは、aaaaaにほかならない。」、「AAAとは、aaaaaを意味する。」、「AAAとは、aaaaaの略である。」などの文記述では、「AAA」を定義語、「aaaaa」をその定義内容の記述部分として認識する。また、同じ種類の語「AAA」であってその定義内容の記述を伴って記述されていない語を参照語として認識する。
【0025】
換言すれば、定義語とはドキュメントデータにおいて定義されている専門用語であり、参照語とは、ドキュメントデータにおいて他の語の記述を参照している専門用語である。また、専門用語とは、ドキュメントデータを構成している単語の内のドキュメントデータが述べている内容の分野の学界・業界において広く用いられている語である。
本例のメタデータ付与部2による処理では、定義語と参照語とを抽出する場合において、次のようなLevelを設定することが可能であり、これらLevelを高くするほどより定義語と参照語の抽出精度を上げることができる。
【0026】
Level-1: scopeの設定、
Level-2: 抽出された定義語および参照語を対象としたsuffixや prefixの処理の適用、
Level-3: 抽出された定義語および参照語を対象としたLa yout情報の適用、
【0027】
Level-1では、ドキュメントデータDの全文において、どの部分を定義語や参照語の抽出の対象とするかを規定する。例えば、HTML形式のドキュメントにおいて、各ドキュメントの先頭の1行や最後の3行は他の項目へのリンクである場合が多いので、それ以外の部分を定義語や参照語の抽出の対象とする。なお、これは、抽出の対象とするドキュメントデータの形式に依存するので、あらかじめ調査の上設定する。
【0028】
Level-2では、形態素解析などの自然言語処理によって抽出された定義語および参照語について、語の接尾語(suffix)や接頭語(prefix)を排除しても意味が変わらない語については、suffixやpre fixを排除したものを定義語および参照語とする。例えば、「ファイル名」と「ファイル」という語が抽出され、これらは同じ意味として使用されている場合に、「名」を排除して「ファイル」とする。
【0029】
Level-3では、次のようなレイアウト情報に関する経験則を用いて、定義語をより性格に抽出する。
・ドキュメントデータ中のタイトルや項目の見出しの先頭に出現する専門用語を定義語とする。
・ドキュメントデータ中の箇条書きの項目の先頭に出現する専門用語を定義語とする。
・ドキュメントデータ中の表の要素の先頭に出現する専門用語を定義語とする。
【0030】
キーワード検索を行う前処理検索(ステップS2)では、公知のように、入力部3から利用者によって入力されたキーワード(或いは、キーワード論理式)に基づいて、データベース1の全てのドキュメントデータDを対象とした全文検索を行い、このキーワード検索結果として得られたドキュメントデータ群を作業メモリ5に前処理結果11として保持する。
【0031】
前処理結果11として得られたドキュメントデータ群に対してドキュメント間の関係付けを行う参照関係処理(ステップS3)は、図4に示すような手順の処理がなされる。
まず、参照関係処理部6の制御処理により、前処理結果11を出力部9で利用者に提示し、入力部3により利用者から前処理結果11内から1つのドキュメントデータの指定入力がされると(ステップS11)、当該ドキュメントデータを作業メモリ5に候補集合11として保持させる(ステップS12)。
ここで、利用者による指定基準としては、例えば、前処理検索で与えたキーワードを最も多く含む、最も多く参照されているなどが考えられるが、当該基準は任意である。また、本例では、利用者操作によって1つのドキュメントデータを選択するようにしているが、参照関係処理部6に選択基準を設定しておき、当該基準に基づいて自動的に選択するようにしてもよい。
【0032】
次いで、参照関係処理部6は、ドキュメントデータのメタデータMを利用して、上記選択されたドキュメントデータ中の参照語が定義されている他のドキュメントデータを前処理結果11内から1つずつ探し出して(ステップS13)、当該他のドキュメントデータを候補集合12に加えるとともに、当該候補集合12内のドキュメントデータについて参照語と定義語との関係でドキュメントデータ間にリンクを付与する(ステップS14)。
これによって、候補集合12内には参照語と定義語との参照関係でリンク付けされたドキュメントデータ群が保持されることとなる。
【0033】
なお、最初に選択指定された1つのドキュメントデータと参照関係がある他のドキュメントデータを特定してリンク付けするようにしても、或いは、候補集合12内に逐次保持される全てのドキュメントデータに対して参照関係がある他のドキュメントデータを特定してリンク付けするようにしてもよい。前者のように設定する場合には、最初に指定された1つのドキュメントに直接的に関係するドキュメントの集合をリンク付けすることができ、後者のように設定する場合には、最初に指定された1つのドキュメントに他のドキュメントを介して間接的に関係するドキュメントまでリンク付けすることができるので、いずれの設定にするかは使用目的などに応じて選択すればよい。
【0034】
次いで、候補集合12内に入れられた複数のドキュメントデータについて、それらのメタデータMに基づいて関係付制御部7が自己参照度を算出し(ステップS15)、利用者が入力部3から入力指定した停止条件に達しているかを当該自己参照度に基づいて判定する(ステップS16)。すなわち、停止条件に達するまではステップS13からS15の処理を繰り返し行って候補集合12内に関係するドキュメントデータを順次保持させ、停止条件に達したところで参照関係処理部6による当該処理を停止させる。
【0035】
ここで、本例では、利用者が入力部3から入力指定した自己参照度に係る閾値を超えたことにより参照関係処理部6による処理を停止させ、これによって、後述するようにより利用者のニーズに沿った内容のドキュメント候補集合12が得られるようにしているが、この停止条件は候補集合12に保持されたドキュメントデータの数としてもよく、これによっても語の参照関係による内容の関係性をもったドキュメント候補集合12が得られる。
【0036】
本例では2種類の自己参照度を算出する。1つは下記の通りに定義される内部自己参照度であり、ドキュメント中で定義語が参照語としてどの程度使われているかの割合を示す。内部自己参照度は、直感的に言えば、或る定義された語が他で頻繁に使われている尺度であり、教材などのように専門用語は定義されてから用いられるドキュメントについては内部自己参照度は一般的に高くなる。
他の1つは下記の通りに定義される外部自己参照度であり、定義語に対する参照語の割合を示す。外部自己参照度は、直感的に言えば、特段に定義記述をすることなく専門用語(参照語)頻繁に使われている尺度であり、専門的な文書などのように未定義な専門用語が数多く用いられるドキュメントについては外部自己参照度は一般的に高くなる。
【0037】
したがって、これら内部自己参照度や外部自己参照度を指定することにより、候補集合12に含まれるドキュメントデータの数を制限することができるばかりか、未定義語の少ない教育関係のドキュメントの収集、或いは、専門性の高いドキュメントの収集といったような利用者の種々な目的に沿ったドキュメント群をこれらドキュメント間の関係付けをして得ることができる。
【0038】
「内部自己参照度」=(定義語の内で参照語として出現した語の種類の数)/(定義語の種類の数)、
「外部自己参照度」=(参照語として出現した語の種類の数)/(定義語の種類の数)、
【0039】
次いで、出力処理(ステップS4)では、候補集合12に含まれるドキュメントデータ群に対して、利用者からの指定に応じて出力処理部8が次ぎのような様々な順序付けを行って出力部9の画面に表示出力させる。
【0040】
1つの順序付け態様は概念構造に応じた順序付けであり、関係付け構造に応じてドキュメントデータ(或いは、そのアイコンやタイトルなどの識別子)を順序付けて表示する。具体的には、候補集合12に含まれるドキュメントデータ群を対象として、或るドキュメントデータ中の定義語が別のドキュメントデータ中の参照語として出現している場合に、この2ドキュメントデータ間に方向つきリンクを設定するという関係付け処理がすべての定義語についてなされているので、この方向つきリンク群とドキュメントデータ群をグラフィカルに表示する。例えば図5や図6に示すように、各ドキュメントを識別子マークDで表示し、これらの間に参照関係の判る関係付けも表示する。なお、この順序付けにより、ドキュメントデータ群を未定義用語のない順序で出力可能となる。
【0041】
他の順序付け態様は定義語の数に応じた順序付けであり、ドキュメントデータ中に出現した定義語の数により順序付けを行って表示する。具体的には、候補集合12のドキュメントデータ群を対象として、それぞれのドキュメントデータに対応する定義語の数により順序付けを行い、その順序でドキュメントデータ群を画面9に表示する。
この順序付けにより、定義語の多いドキュメントデータから順に、すなわち、示唆の多いドキュメントデータから順に表示され、利用者にとっては効率的な順序でドキュメントデータを得ることができる。
【0042】
また、他の順序付け態様は参照語の数に応じた順序付けであり、ドキュメントデータ中に出現した参照語の数により順序付けを行って表示する。具体的には、候補集合12のドキュメントデータ群を対象として、それぞれのドキュメントデータに対応する参照語の数により順序付けを行い、その順序でドキュメントデータ群を画面9に表示する。
この順序付けにより、参照語の多いドキュメントデータから順に、すなわち、多くの用語を含んでいる専門性の高い高度なドキュメントデータから順に表示され、利用者にとって効率的な順序でドキュメントデータを得ることができる。
【0043】
【実施例】
「実施例1」:教材ドキュメントデータを対象とした学習者のための検索環境。
或る学科における複数の講義の教材ドキュメントデータがWWW環境に蓄積されている。
通常の全文検索技術では、与えられたキーワードを含む教材ドキュメントデータを獲得可能であるが、検索結果として出力された教材ドキュメント中に学習者にとって意義の判らない用語がある場合、全文検索技術を繰り返し適用して教材ドキュメントデータを探す必要がある。
【0044】
このような状況において、本発明による技術を用いると、次の手順により従来の操作を簡素化及び自動化することができる。
内部自已参照度の閾値を1.0(定義されている語がすべて参照されている)、外部自已参照度の閾値を1.0(定義されている語より参照されている語が多く存在する)としておく。
WWW環境において蓄積されている教材ドキュメントデータ群を対象として、定義語および参照語を抽出しておく。
【0045】
利用者は、複数の講義の教材ドキュメントデータを対象としてキーワードを与え、そのキーワードに関する内容を学習するための教材ドキュメントデータを選択し、その教材ドキュメントデータにおいて参照されている語が定義されている他のドキュメントデータ群を獲得可能となる。
具体的には、図7に示すように、関係付け処理の対象としてドキュメントIDが0001〜0005のドキュメントデータがあり、これらにはそれぞれ定義語及び参照語が付与されている場合に、利用者が定義語「ユビキタスコンピューティング」が与えられたドキュメントID0005であるドキュメントデータを選択したとする。
【0046】
これに応じて、候補集合12にIDが0005であるドキュメントデータが入れられる。なお、この段階で、定義語がユビキタスコンピューティングで、参照語はなしであるので、内部自已参照度は0/1(=0.0)、外部自己参照度は0/1(=0.0)である。
そして、IDが0005であるドキュメントデータは、「システムソフトウェア」を参照語としているので、「システムソフトウェア」を定義語に持つIDが0003のドキュメントも候補集合12のリストに入れられる。この段階で候補集合12のリストは0005と0003であり、内部自己参照度は1/3(約0.3){定義語:ユビキタスコンピューティング、システムソフトウェア、オペレーティングシステム、そのうちの参照語:システムソフトウェア}であり、外部自已参照度は2/3(約0.6){定義語:ユビキタスコンピューテイング、システムソフトウェア、オペレーテイングシステム、参照語:システムソフトウェア、アーキテクチヤ}である。
【0047】
そして、IDが0003のドキュメントデータは、「アーキテクチャ」を参照語としているので、「アーキテクチャ」を定義語に持つIDが0001のドキュメントデータが候補集合12のリストに入れられる。この段階で候補集合12のリストは0005、0003、0001であり、内部自已参照度は2/4(=0.5){定義語:ユビキタスコンピューテイング、システムソフトウェア、オペレーテイングシステム、アーキテクチャ、その内の参照語:システムソフトウェア、アーキテクチャ}、外部自己参照度は5/4(=1.25){定義語:ユビキタスコンピューティング、システムソフトウェア、オペレーティングシステム、アーキテクチャ、参照語:システムソフトウェア、アーキテクチャ、CPU、手続き処理、Pentium(登録商標)}である。
【0048】
この結果、外部自已参照度の閾値を1.0としている場合(すなわち、定義されている語より参照されている語が多く存在する)には、本例では前の段階で関係付け処理を停止して、図8に示すように候補集合12のドキュメント群(0003、0005)を利用者に対する出力結果とする。
【0049】
「実施例2」:技術ドキュメントデータを用いた知識の電子化。
社内LAN環境において技術ドキュメントデータが電子化され格納されている。これらのドキュメントデータに予め定義語およぴ参照語を抽出して付与しておく。
利用者は、キーワードを指定し、その検索結果から或る技術ドキュメントデータを指定する。これにより、そのドキュメントデータにおいて参照されている専門語が定義されている技術ドキュメントデータ群も同時に獲得可能となり、社内の部門において技術の担当者が変更となっても会社として知識が共有され、業務の効率化が期待できる。
【0050】
例えば、上記の実施例1において、内部自已参照度の閾値を1.0(すなわち、定義されている語がすべて参照されている)、外部自已参照度の閾値を2.0(すなわち、定義されている語より参照されている語が多く存在する)とし、結果の出力を定義語の数に応じた順序とすると、IDが0001のドキュメントデータも候補集合12に入り、最終的に図9に示すような結果が画面9に出力される。
【0051】
「実施例3」:電子マニュアルを対象とした未定義語のない検索。
既存の電子マニュアルは、構成しているドキュメントデータが多く、困難が生じた際に参照しても有効に利用されない。
そこで、既存の電子マニュアルを対象として予め定義語および参照語を抽出して付与しておく。
利用者は、キーワードを指定し、或る電子マニュアルのドキュメントデータを指定すると、そのドキュメントデータにおいて参照されている電子マニュアル中の専門用語が定義されている他のドキュメントデータ群も同時に獲得可能となり、電子マニュアルを読んでいる時に困難が生じた際に必要最小限のドキュメントデータだけを参照可能となる。
【0052】
【発明の効果】
以上説明したように、本発明によると、ドキュメントなどのように言語による内容表現を含むデータに対して、内容表現に含まれる定義語と参照語との関係に基づいて複数のデータ間に関係付けを行うようにしたため、複数のドキュメントなどのデータを互いに関連性をもった群として抽出することができ、利用者にとって利用しやすい検索結果を得ることができる。
【図面の簡単な説明】
【図1】 本発明の一例に係るデータ処理装置の構成を示す図である。
【図2】 定義語と参照語との参照関係を説明する図である。
【図3】 本発明の一例に係るデータ処理手順を説明する図である。
【図4】 本発明の一例に係る参照関係処理を説明する図である。
【図5】 本発明の一例に係る結果表示態様を説明する図である。
【図6】 本発明の一例に係る結果表示態様を説明する図である。
【図7】 本発明の実施例を説明する図である。
【図8】 本発明の実施例に係る結果を説明する図である。
【図9】 本発明の実施例に係る結果を説明する図である。
【符号の説明】
1:データベース、 2:メタデータ付与部、
3:入力部、 4:前処理検索部、
5:作業メモリ、 6:参照関係処理部、
7:関係付制御部、 8:出力処理部、
9:出力部、 11:前処理結果、
12:候補集合、 D:ドキュメントデータ、
M:メタデータ(定義語、参照語)、
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technique for processing data including content expression in a language such as document data, video data, recording data, and the like, and in particular, relates a plurality of data based on a reference relationship between a definition word and a reference word. It relates to the technology to be performed.
[0002]
[Prior art]
Document data describes the contents of the document in a language, and video data and sound recording data have the contents recorded in an audio language. For document data, words can be extracted from the description content by performing morphological analysis as is well known, and for video data and recorded data, for example, by well-known speech recognition processing By converting the recorded contents into document data and performing morphological analysis on the document data, words can be extracted from the voice record.
[0003]
Here, the present invention can be widely applied not only to document data, but also to data whose contents are expressed and recorded in a language such as video data or sound recording data. In the following description, document data is mainly used as a representative example.
[0004]
Data including content expressions in such language is stored in a database of companies, education periods, individuals, etc., or stored in a data server on the Internet or a local network, and retrieved and used as needed by a search process. Is done.
For example, a keyword search for searching corresponding document data based on a match with a search keyword designated by a user for a part of the entire document data or a summary is widely used.
[0005]
In such a keyword search, if the number of specified search keywords is small, the number of document data obtained as search results will be enormous, including noise. And search results that meet the user's purpose are obtained.
However, even with such a method, it is difficult to acquire the desired document data because the user cannot specify an accurate search keyword without knowing the detailed contents of the target document data. .
[0006]
In addition, since the conventional search method is a simple search result whether or not the specified search keyword is included, the document data obtained as a search result has only a relationship that includes a common search keyword, Document data groups related to each other cannot be obtained as search results.
[0007]
Further, in a full-text search technique typified by a search engine in the WWW environment, documents including a given search keyword can be ordered and presented as a list (see Non-Patent Document 1: Reference 7). . Thereby, for example, it is possible to present the search result as a list in which the document data referred to most by the search keyword is considered important, and is ordered according to the degree of importance.
However, even with such a method, it is not possible to obtain a document data group related to document data as a search result only by adding importance based on a search keyword.
[0008]
It should be noted that a technique for extracting technical terms from document data (see Non-Patent Document 2, Non-Patent Document 3, and Non-Patent Document 4) and a technique for extracting words (definition words) defined in a specialized field (non-patent documents). Various methods have been proposed for Patent Document 1, Non-Patent Document 2, Non-Patent Document 5, Patent Document 1, and Patent Document 2.
In addition, a method for supporting search of document data as teaching materials has been proposed (see Patent Document 3).
[0009]
[Patent Document 1]
JP 2000-259657 A
[Patent Document 2]
Japanese Patent Application No. 2002-169236
[Patent Document 3]
JP-A-4-301874
[Non-Patent Document 1]
Page, L., Brin, S., Motwani, R. and Winograd, T .: The PageRank Citation Ranking: Bringing Order to the Web, Technical report, Stanford Digital Library Technologies Project (1998).
[Non-Patent Document 2]
Kurohashi, “Method of automatic hypertext conversion of technical term dictionary”, Journal of Artificial Intelligence, Vol.7, No.2,1992
[Non-Patent Document 3]
Yumoto, “Extraction of technical terms based on appearance frequency and connection frequency”, Information Processing Research Report, Fundamentals of Informatics, 64-17 (Natural Language Processing 145-17), 2001
[Non-Patent Document 4]
Ito, “Integration of Terminology and Prototyping of Visualization System”, Information Processing Research Report, Informatics Fundamentals, 65-1, 2001
[Non-Patent Document 5]
Kida, “Text analysis for creating glossaries from newspaper articles”, Information Processing Research Report, Natural Language Processing, 134-12,1999
[0010]
[Problems to be solved by the invention]
The present invention has been made in view of the above-described conventional circumstances, and an object thereof is to provide a technique capable of extracting data such as a plurality of documents as a group having relevance to each other.
It is another object of the present invention to provide a technique capable of extracting a data group with few undefined words in a document or the like.
Further objects of the present invention will be apparent from the following description.
[0011]
[Means for Solving the Problems]
In order to achieve the above object, the present invention uses a dependency relationship between data such as documents based on the relationship between a definition word and a reference word, thereby forming a system in which a plurality of data are related to each other. To extract the data group. In addition, the present invention extracts the degree of undefined words by using the ratio of usage of reference words and defined words, and applies this to provide a user with a data group with fewer undefined words. It is possible to do.
[0012]
Here, a definition word is a word accompanied by a definition description of content meaning in a noun (ie, technical term) that is used professionally to express a certain content in a specialized field. In the description, when there is a description “AAA means aaaaaa”, “AAA” is a definition word and “aaaaaa” is a definition description.
A reference word is a word other than a definition word in technical terms (in other words, a technical term used without a definition description). In the above example, “... AAA” "AAA" is defined in any document, but the description does not include a definition description and is a reference word.
[0013]
The present invention can be implemented as a data processing device, a data processing method, and a computer program that achieve the above object, and the gist of the present invention is based on a reference relationship between a definition word and a reference word included in data content expression. This is a technique for associating a plurality of pieces of data with respect to data including content expressions in a language by performing a reference association process for relating a plurality of pieces of data.
[0014]
More specifically, the data processing device according to the present invention adds the designated data to the candidate group for a plurality of association target data, and defines the content in which the reference word included in the data content is defined. The internal self-reference level and the definition word indicating the degree to which the definition word is used as a reference word for the data added to the candidate group by adding other data to the candidate group and linking between the data. The process of obtaining the external self-reference level indicating the percentage of reference words and comparing the reference level with the specified standard value is repeated until the reference level reaches the specified standard value, and a candidate group to be output is selected. Reference relation processing means to be formed is provided.
It is to be noted that an output processing means for visually displaying a link relation between data included in the candidate group is provided, a metadata providing means for extracting a definition word and a reference word included in the data from the data content expression, and A pre-processing search unit that searches a plurality of data to be processed by the reference relation processing unit from a plurality of data may be provided.
[0015]
Further, the data processing method according to the present invention provides a link between the data and the other data including the content in which the reference word included in the designated data content is defined for the plurality of data to be associated. The process of attaching is repeated until a predetermined stop condition is reached, thereby associating a plurality of data with respect to data including the content expression in the language.
[0016]
Further, the computer program according to the present invention searches the other data including the first function for specifying the designated data as a candidate group and the content in which the reference word included in the data content is defined. The second function to be specified in addition to the candidate group, the third function to link between the data specified as the candidate group, and the definition word used as a reference word for a plurality of data specified in the candidate group A fourth function for obtaining an internal self-reference level indicating the degree of being performed and an external self-reference level indicating the ratio of the reference word to the definition word, and a fifth function for comparing the determined reference level with a designated reference value And a sixth function for forming a candidate group to be output by repeatedly performing the processes of the second to fifth functions until the reference level reaches a designated standard value. By, and it carries out a process of performing association between a plurality of data for data including the content expressed in the language by the computer.
[0017]
According to the present invention configured as described above, in the case where a plurality of document data groups are related to each other to form one system, the dependency between the document data based on the definition word and the reference word is extracted and used. Therefore, the document data group can be obtained as a search result together with the relationship between the respective data, not the document data alone.
[0018]
Furthermore, according to the present invention, since the ratio according to the use form of the definition word and the reference word is used, it is possible to extract the degree of the undefined word, and by applying this, the undefined word is undefined. It becomes possible to provide a document data group with few words to the user.
For example, by applying the present invention to an educational setting, it is possible to extract a document data group having a relation based on the relationship between a defined word and a reference word and having a small number of undefined words, and document data suitable for teaching materials. Groups can be provided to learners. On the contrary, a document data group with many undefined words can be extracted, and a specialized document data group can be provided to an expert.
[0019]
DETAILED DESCRIPTION OF THE INVENTION
The present invention will be specifically described based on an embodiment in which the present invention is applied to document data search processing.
The data processing apparatus of this example has a functional configuration as shown in FIG. In this example, the following functions are configured by executing a program according to the present invention on a computer. However, these functions may be configured by a dedicated circuit configuration.
[0020]
The data processing apparatus of this example includes a database 1 that holds document data to be searched, a metadata adding unit 2 that attaches metadata M including definition words and reference words to each document data D held in the database, An input unit 3 having a keyboard and a pointing device for accepting an operation input from a user, a pre-processing search unit 4 that searches a corresponding document data group from the database 1 as a pre-processing based on a keyword input by the user, Work memory 5 that is a work area for processing, and a reference relation processing unit that performs an association process based on a definition word and a reference word on a document data group 11 obtained by a preprocessing search according to an input from a user 6. A self-reference degree that is a ratio according to the usage mode of the definition word and the reference word is calculated and related processing The association control unit 7 to control, the output processing unit 8 that processes the candidate set 12 of document data obtained by the association process into an output form according to the input from the user, and presents the candidate set 12 to the user And an output unit 9 having a screen for the purpose.
[0021]
In this example, the database 1 is the target of the preprocessing search. However, for example, various document data provided on the network may be the target of the preprocessing search. Alternatively, the metadata giving unit 2 may give the metadata M.
Further, for example, in the case of the database 1 that holds only some document data D that is specialized to some extent, it is possible to prevent the preprocessing search from being performed on all these document data D as objects of the correlation process.
When video data other than document data or sound recording data is targeted, the language expression portion of these data contents may be converted into document data by voice recognition or the like and attached to the data.
[0022]
Here, the relationship between the definition word and the reference word in the document will be described with reference to FIG.
In addition to “definition word” accompanied by “description of definition content” in the description content of document A, if there are “reference word a” and “reference word b”, technical terms of the same type as “reference word a” Document B described as “definition word a” accompanied by “definition description” has a relationship referred to by document A. In this example, using the reference relationship between documents based on the reference relationship between the definition word and the reference word, the relationship between the document data with respect to the document data group obtained as a result 11 of the preprocessing search. The result is a candidate set 12.
[0023]
Next, the processing by the data processing apparatus of this example will be described together with the detailed functions of the above functional units.
The processing by the data processing apparatus of this example roughly includes a metadata extraction process (step S1) in which a definition word and a reference word are mainly extracted / assigned by the metadata giving unit 2, as shown in FIG. Pre-processing search for keyword search by the pre-processing unit 4 (step S2), reference-related processing mainly performed by the reference relationship processing unit 6 and the association control unit 7 (step S3), output mainly performed by the output processing unit 8 It is executed according to the procedure of the process (step S4).
[0024]
In the metadata extraction process (step S1), a definition word and a reference word are extracted from each document data D of the database 1 using a known technique disclosed in, for example, Patent Document 1 or Patent Document 2. And attached as metadata M. Specifically, a noun is extracted by morphological analysis, and it is determined whether the noun is a definition word or a reference word by pattern recognition of a sentence including the noun. For example, “AAA is aaaaaa”, “AAA is nothing but aaaaaa”, “AAA means aaaaaa”, “AAA is an abbreviation for aaaaaa”, and the like. In the sentence description, “AAA” is recognized as a definition word, and “aaaaaa” is recognized as a description part of the definition content. Further, a word of the same type “AAA” that is not described with a description of its definition is recognized as a reference word.
[0025]
In other words, the definition word is a technical term defined in the document data, and the reference word is a technical term referring to the description of another word in the document data. The terminology is a word widely used in academia / industry in the field of the content described by the document data among the words constituting the document data.
In the processing by the metadata assigning unit 2 in this example, when the definition word and the reference word are extracted, the following levels can be set, and the higher the level, the more the definition word and the reference word. The extraction accuracy can be increased.
[0026]
Level-1: scope setting,
Level-2: Applying suffix and prefix processing for extracted definition words and reference words,
Level-3: Application of La yout information for extracted definition words and reference words,
[0027]
Level-1 stipulates which part of the entire document data D is to be extracted as a definition word or reference word. For example, in an HTML document, the first line and the last three lines of each document are often links to other items, so the other parts are extracted from definition words and reference words. . Since this depends on the format of the document data to be extracted, it is set in advance after investigation.
[0028]
In Level-2, for the definition words and reference words extracted by natural language processing such as morphological analysis, the suffix does not change even if the word suffix (suffix) or prefix (prefix) is excluded. A definition word and a reference word are those excluding or prefix. For example, when the words “file name” and “file” are extracted and used as the same meaning, “name” is excluded and “file” is obtained.
[0029]
In Level-3, the definition words are extracted more personally by using the following rules of thumb for layout information.
・ Definition terms are technical terms that appear at the beginning of titles and item headings in document data.
・ The terminology that appears at the beginning of the bulleted items in the document data is defined as the definition word.
・ The terminology used at the beginning of the table elements in the document data is defined as the definition word.
[0030]
In the pre-processing search (step S2) for performing a keyword search, as is well known, all document data D in the database 1 are targeted based on keywords (or keyword logical expressions) input by the user from the input unit 3. The document data group obtained as a keyword search result is stored in the work memory 5 as the preprocessing result 11.
[0031]
The reference relationship process (step S3) for associating documents with the document data group obtained as the preprocessing result 11 is performed according to the procedure shown in FIG.
First, by the control process of the reference relation processing unit 6, the preprocessing result 11 is presented to the user by the output unit 9, and the input unit 3 inputs one document data from the preprocessing result 11 by the user. (Step S11), the document data is held in the work memory 5 as the candidate set 11 (Step S12).
Here, as the specification criteria by the user, for example, the most frequently used keywords included in the preprocessing search and the most frequently referenced keywords are considered, but the criteria are arbitrary. In this example, one document data is selected by a user operation. However, a selection criterion is set in the reference relation processing unit 6, and the selection is automatically performed based on the criterion. Also good.
[0032]
Next, the reference relation processing unit 6 uses the document data metadata M to search one by one from the preprocessing result 11 for other document data in which the reference word in the selected document data is defined. In step S13, the other document data is added to the candidate set 12, and the document data in the candidate set 12 is given a link between the document data in relation to the reference word and the definition word (step S14).
As a result, a document data group linked by the reference relationship between the reference word and the definition word is held in the candidate set 12.
[0033]
It should be noted that the other document data having a reference relationship with the first selected and designated document data may be specified and linked, or for all the document data sequentially held in the candidate set 12 Other document data having a reference relationship may be specified and linked. When setting like the former, a set of documents directly related to the first specified document can be linked, and when setting like the latter, the first specified Since a document can be linked to a document indirectly related to another document via another document, which setting should be selected according to the purpose of use or the like.
[0034]
Next, for a plurality of document data put in the candidate set 12, the association control unit 7 calculates a self-reference degree based on the metadata M (step S15), and the user designates input from the input unit 3 It is determined based on the self-reference degree whether the stop condition is reached (step S16). That is, until the stop condition is reached, the processes of steps S13 to S15 are repeated to sequentially hold the document data related to the candidate set 12, and when the stop condition is reached, the reference relation processing unit 6 stops the process.
[0035]
Here, in this example, the process by the reference relation processing unit 6 is stopped when the threshold value related to the self-reference degree specified by the user through the input unit 3 is exceeded, and as a result, the user's needs are reduced as described later. However, the stop condition may be the number of document data held in the candidate set 12, and the content relationship based on the word reference relationship is also determined by this stop condition. A candidate document set 12 is obtained.
[0036]
In this example, two types of self-reference are calculated. One is an internal self-reference level defined as follows, and indicates the ratio of the definition word used as a reference word in the document. Intuitively speaking, internal self-reference is a measure that a defined word is frequently used elsewhere. The degree of reference is generally high.
The other one is the external self-reference level defined as follows, and indicates the ratio of the reference word to the definition word. Intuitively speaking, external self-reference is a measure that is frequently used for technical terms (reference terms) without any special definition, and undefined technical terms such as technical documents. For many documents, the external self-reference is generally high.
[0037]
Therefore, by specifying the internal self-reference level and the external self-reference level, the number of document data included in the candidate set 12 can be limited, and the collection of educational documents with few undefined words, or A group of documents can be obtained by associating these documents with various purposes such as collection of highly specialized documents.
[0038]
"Internal self-reference" = (number of types of words that appear as reference words in the definition word) / (number of types of definition words),
"External self-reference" = (number of types of words that appeared as reference words) / (number of types of definition words),
[0039]
Next, in the output process (step S4), the output processing unit 8 performs the following various orders on the document data group included in the candidate set 12 in accordance with the designation from the user, and the output unit 9 Display output on the screen.
[0040]
One ordering mode is ordering according to the conceptual structure, and the document data (or identifiers such as icons and titles) are ordered and displayed according to the relational structure. Specifically, for a document data group included in the candidate set 12, when a definition word in one document data appears as a reference word in another document data, the direction between the two document data Since the association process of setting a linked link is performed for all definition words, the link group with direction and the document data group are graphically displayed. For example, as shown in FIGS. 5 and 6, each document is displayed with an identifier mark D, and a relationship in which a reference relationship is known is displayed between them. This ordering makes it possible to output document data groups in an order without undefined terms.
[0041]
Another ordering mode is ordering according to the number of definition words, and the ordering is performed according to the number of definition words appearing in the document data. Specifically, the document data groups in the candidate set 12 are targeted, and ordering is performed according to the number of definition words corresponding to each document data, and the document data groups are displayed on the screen 9 in that order.
By this ordering, the document data are displayed in order from the document data having many definition words, that is, from the document data having many suggestions, and the document data can be obtained in an efficient order for the user.
[0042]
Another ordering mode is ordering according to the number of reference words, and the ordering is performed according to the number of reference words that appear in the document data. More specifically, the document data groups in the candidate set 12 are targeted, and ordering is performed according to the number of reference words corresponding to each document data, and the document data groups are displayed on the screen 9 in that order.
By this ordering, the document data is displayed in order from the document data with many reference words, that is, from the highly specialized document data including many terms, and the document data can be obtained in an efficient order for the user. .
[0043]
【Example】
[Example 1]: A search environment for learners targeting teaching material document data.
The teaching material document data of a plurality of lectures in a certain department are accumulated in the WWW environment.
With normal full-text search technology, it is possible to acquire teaching material document data that includes a given keyword, but if there is a term that is not meaningful to the learner in the teaching material document that is output as a search result, the full-text search technology is repeated. It is necessary to apply and search for teaching material document data.
[0044]
In such a situation, when the technique according to the present invention is used, the conventional operation can be simplified and automated by the following procedure.
Internal self-reference threshold is 1.0 (all defined words are referenced), external self-reference threshold is 1.0 (more words are referenced than defined words) ).
Definition words and reference words are extracted for a teaching material document data group accumulated in the WWW environment.
[0045]
The user gives keywords to the teaching material document data of multiple lectures, selects the teaching material document data for learning the contents related to the keyword, and the words referred to in the teaching material document data are defined. Document data group can be acquired.
Specifically, as shown in FIG. 7, there is document data with document IDs 0001 to 0005 as objects of association processing, and when a definition word and a reference word are assigned to each of them, the user It is assumed that the document data corresponding to the document ID 0005 given the definition word “ubiquitous computing” is selected.
[0046]
In response to this, the document data whose ID is 0005 is entered in the candidate set 12. At this stage, since the definition word is ubiquitous computing and there is no reference word, the internal self-referenced degree is 0/1 (= 0.0), and the external self-referenced degree is 0/1 (= 0.0). It is.
Since the document data whose ID is 0005 uses “system software” as a reference word, the document whose ID is “0003” whose definition word is “system software” is also included in the list of candidate sets 12. At this stage, the list of candidate sets 12 is 0005 and 0003, and the internal self-reference is 1/3 (about 0.3) {definition: ubiquitous computing, system software, operating system, of which reference terms: system software } And the external self-referenced degree is 2/3 (about 0.6) {definition word: ubiquitous computing, system software, operating system, reference word: system software, architecture}.
[0047]
Since the document data with ID 0003 uses “architecture” as a reference word, the document data with ID “0001” having “architecture” as a definition word is entered in the list of candidate sets 12. At this stage, the list of candidate sets 12 is 0005, 0003, 0001, and the internal reference degree is 2/4 (= 0.5) {definition: ubiquitous computing, system software, operating system, architecture, of which Reference word: system software, architecture}, external self-reference is 5/4 (= 1.25) {definition word: ubiquitous computing, system software, operating system, architecture, reference word: system software, architecture, CPU, Procedure processing, Pentium (registered trademark)}.
[0048]
As a result, when the threshold value of the external self reference degree is 1.0 (that is, there are more words that are referred to than the defined words), in this example, the association process is stopped at the previous stage. Then, as shown in FIG. 8, the document group (0003, 0005) of the candidate set 12 is set as the output result for the user.
[0049]
“Example 2”: digitization of knowledge using technical document data.
Technical document data is digitized and stored in an in-house LAN environment. A definition word and a reference word are extracted and assigned to these document data in advance.
The user designates a keyword and designates certain technical document data from the search result. This makes it possible to acquire a group of technical document data in which the technical terms referenced in the document data are defined at the same time, and even if the person in charge of technology changes in the company department, knowledge is shared as a company. Efficiency can be expected.
[0050]
For example, in the first embodiment, the internal self-referenced threshold value is 1.0 (that is, all defined words are referenced), and the external self-referenced threshold value is 2.0 (that is, defined). 9), and the output of the result is an order corresponding to the number of definition words, the document data with ID 0001 also enters the candidate set 12, and finally FIG. The result as shown is output on the screen 9.
[0051]
“Example 3”: Search without an undefined word in an electronic manual.
Existing electronic manuals are composed of a large amount of document data, and cannot be used effectively even if they are referenced when difficulties arise.
Therefore, a definition word and a reference word are extracted and assigned in advance for an existing electronic manual.
When a user designates a keyword and designates document data of a certain electronic manual, other document data groups in which technical terms in the electronic manual referred to in the document data are defined can be obtained simultaneously. When difficulty arises when reading an electronic manual, only the minimum necessary document data can be referred to.
[0052]
【The invention's effect】
As described above, according to the present invention, data including a content expression in a language such as a document is related to a plurality of data based on the relationship between a definition word and a reference word included in the content expression. Thus, data such as a plurality of documents can be extracted as a group having relevance to each other, and a search result that can be easily used by the user can be obtained.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of a data processing apparatus according to an example of the present invention.
FIG. 2 is a diagram illustrating a reference relationship between a definition word and a reference word.
FIG. 3 is a diagram illustrating a data processing procedure according to an example of the present invention.
FIG. 4 is a diagram illustrating reference relation processing according to an example of the present invention.
FIG. 5 is a diagram illustrating a result display mode according to an example of the present invention.
FIG. 6 is a diagram illustrating a result display mode according to an example of the present invention.
FIG. 7 is a diagram illustrating an embodiment of the present invention.
FIG. 8 is a diagram illustrating a result according to an example of the present invention.
FIG. 9 is a diagram illustrating a result according to an example of the present invention.
[Explanation of symbols]
1: database, 2: metadata adding unit,
3: input unit, 4: preprocessing search unit,
5: working memory, 6: reference relation processing unit,
7: Control unit with relation, 8: Output processing unit,
9: Output unit, 11: Pre-processing result,
12: Candidate set D: Document data
M: metadata (definition word, reference word),

Claims (5)

言語による内容表現を含むデータについて、複数のデータ間に関係付けを施すデータ処理装置であって、
関連付け対象の複数のデータに対して、指定されたデータを候補群に加え、当該データ内容に含まれる参照語が定義されている内容を含む他のデータを前記候補群に加えて当該データ間にリンク付けをし、当該候補群データ中に出現する定義語数に対する、当該候補群データ中において当該定義語が参照語として出現する数の割合を示す内部自己参照度及び当該候補群データ中に出現する定義語数に対する、当該候補群データ中に出現する参照語数の割合を示す外部自己参照度を求めて当該参照度を指定された基準値と比較する処理を、当該参照度が指定された基準値に達するまで繰り返し行って出力対象となる候補群を形成する参照関係付処理手段を、備えたことを特徴とするデータ処理装置。
A data processing apparatus that associates a plurality of pieces of data with respect to data including content representation in a language,
For a plurality of data to be associated, the designated data is added to the candidate group, and other data including the contents in which the reference word included in the data content is defined is added to the candidate group, Linked to the number of definition words appearing in the candidate group data, the internal self-reference level indicating the ratio of the number of the definition words appearing as reference words in the candidate group data, and appearing in the candidate group data The process of obtaining the external self-reference level indicating the ratio of the number of reference words appearing in the candidate group data to the number of defined words and comparing the reference level with the specified standard value is changed to the standard value with the specified reference level. A data processing apparatus comprising: a reference relation processing unit that repeatedly performs a process until it reaches a target group to be output.
請求項に記載のデータ処理装置において、
前記候補群に含まれるデータ間のリンク関係を視覚的に画面表示する出力処理手段を、備えたことを特徴とするデータ処理装置。
The data processing apparatus according to claim 1 ,
A data processing apparatus comprising: output processing means for visually displaying a link relation between data included in the candidate group on a screen.
請求項1又は請求項に記載のデータ処理装置において、
データの内容表現中から当該データに含まれる定義語及び参照語を抽出するメタデータ付与手段と、
複数のデータから参照関係付処理手段による処理対象となる複数のデータを検索する前処理検索手段とを備えたことを特徴とするデータ処理装置。
In the data processing device according to claim 1 or 2 ,
Metadata adding means for extracting definition words and reference words included in the data from the data content expression;
A data processing apparatus comprising: preprocessing search means for searching a plurality of data to be processed by the reference association processing means from a plurality of data.
言語による内容表現を含むデータについて、複数のデータ間に関係付けを施す処理をコンピュータにより実施させるプログラムであって、
指定されたデータを候補群として特定する第1の機能と、当該データ内容に含まれる参照語が定義されている内容を含む他のデータを検索して前記候補群に加えて特定する第2の機能と、当該候補群として特定されるデータ間にリンク付けする第3の機能と、当該候補群データ中に出現する定義語数に対する、当該候補群データ中において当該定義語が参照語として出現する数の割合を示す内部自己参照度及び当該候補群データ中に出現する定義語数に対する、当該候補群データ中に出現する参照語数の割合を示す外部自己参照度を求める第4の機能と、当該求めた参照度を指定された基準値と比較する第5の機能と、当該参照度が指定された基準値に達するまで前記第2から第5の機能による処理を繰り返し行って出力対象となる候補群を形成する第6の機能とを、コンピュータに実現させることを特徴とするプログラム。
A program that causes a computer to perform a process of associating a plurality of data with respect to data including content expression in a language,
A first function for specifying designated data as a candidate group, and a second function for searching for other data including contents in which a reference word included in the data content is defined and specifying the candidate data in addition to the candidate group The number of occurrences of the definition word as a reference word in the candidate group data with respect to the function, the third function for linking between data specified as the candidate group , and the number of definition words appearing in the candidate group data A fourth function for obtaining an external self-reference level indicating a ratio of the number of reference words appearing in the candidate group data with respect to the internal self-reference level indicating the ratio of the reference number and the number of definition words appearing in the candidate group data; A fifth function for comparing the reference degree with the designated reference value, and a candidate group to be output by repeatedly performing the processes from the second to fifth functions until the reference degree reaches the designated reference value. And a sixth function of the adult, program characterized by causing realized on the computer.
請求項に記載のデータ処理プログラムにおいて、
前記候補群に含まれるデータ間のリンク関係を視覚的に画面表示する機能を、コンピュータに実現させることを特徴とするプログラム。
In the data processing program according to claim 4 ,
A program for causing a computer to realize a function of visually displaying a link relation between data included in the candidate group on a screen.
JP2003047522A 2003-02-25 2003-02-25 Data processing device Expired - Fee Related JP4269713B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003047522A JP4269713B2 (en) 2003-02-25 2003-02-25 Data processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003047522A JP4269713B2 (en) 2003-02-25 2003-02-25 Data processing device

Publications (2)

Publication Number Publication Date
JP2004258873A JP2004258873A (en) 2004-09-16
JP4269713B2 true JP4269713B2 (en) 2009-05-27

Family

ID=33113756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003047522A Expired - Fee Related JP4269713B2 (en) 2003-02-25 2003-02-25 Data processing device

Country Status (1)

Country Link
JP (1) JP4269713B2 (en)

Also Published As

Publication number Publication date
JP2004258873A (en) 2004-09-16

Similar Documents

Publication Publication Date Title
US9639609B2 (en) Enterprise search method and system
RU2487403C1 (en) Method of constructing semantic model of document
JP4654776B2 (en) Question answering system, data retrieval method, and computer program
KR101088983B1 (en) Data search system and data search method using a global unique identifier
US20070022072A1 (en) Text differentiation methods, systems, and computer program products for content analysis
US20090265330A1 (en) Context-based document unit recommendation for sensemaking tasks
US20140149390A1 (en) Automatically Providing Relevant Search Results Based on User Behavior
JP2003114906A (en) Meta-document managing system equipped with user definition validating personality
JP2005122295A (en) Relationship figure creation program, relationship figure creation method, and relationship figure generation device
AU2020103004A4 (en) Method to build a document semantic and entity relationship model
JP2021144348A (en) Information processing device and information processing method
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
US11409814B2 (en) Systems and methods for crawling web pages and parsing relevant information stored in web pages
JP2003271609A (en) Information monitoring device and information monitoring method
JP2009288870A (en) Document importance calculation system, and document importance calculation method and program
WO1999014690A1 (en) Keyword adding method using link information
JP4428703B2 (en) Information retrieval method and system, and computer program
JP2007164635A (en) Method, device and program for acquiring synonymous vocabulary
JP2012104051A (en) Document index creating device
JP4269713B2 (en) Data processing device
CN109213830B (en) Document retrieval system for professional technical documents
JP2005025418A (en) Question answering device, question answering method, and program
JP2008269106A (en) Schema extraction method, information processor, computer program, and recording medium
JP2007011892A (en) Vocabulary acquisition method and device, program, and storage medium storing program
Tsapatsoulis Web image indexing using WICE and a learning-free language model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070928

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090216

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140306

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees