JP2006139708A - テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム - Google Patents

テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム Download PDF

Info

Publication number
JP2006139708A
JP2006139708A JP2004330939A JP2004330939A JP2006139708A JP 2006139708 A JP2006139708 A JP 2006139708A JP 2004330939 A JP2004330939 A JP 2004330939A JP 2004330939 A JP2004330939 A JP 2004330939A JP 2006139708 A JP2006139708 A JP 2006139708A
Authority
JP
Japan
Prior art keywords
word
similarity
data
text data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004330939A
Other languages
English (en)
Inventor
Eiji Kenmochi
栄治 剣持
Nahoko Sato
奈穂子 佐藤
Atsuo Shimada
敦夫 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004330939A priority Critical patent/JP2006139708A/ja
Publication of JP2006139708A publication Critical patent/JP2006139708A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】精度よくテキスト間の類似度を算出するテキストデータ類似度算出方法。
【解決手段】 複数のテキストデータから単語を抽出し、各単語間の係り受け情報を解析(S101)し、抽出された単語の数に基づき各単語の重み因子を算出する重み因子算出ステップ(S102)と、単語情報抽出ステップにより抽出された前記テキストデータの各単語間の前記係り受け情報に基づき、該テキストデータの構造データを生成(S103)し、テキストデータの一から前記構造データ生成ステップにより生成された第1の構造データの各単語と、他のテキストデータの一から生成された第2の構造データの各単語との類似度を算出する単語間類似度算出ステップと、単語間類似度算出ステップにより算出された類似度及び前記重み因子に基づき第1の構造データと第2の構造データとの類似度を算出する部分構造データ類似度算出ステップ(S105)と、を有する。
【選択図】 図1

Description

本発明は、電子化されたテキストデータ間の類似度を算出するテキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラムに関する。
World Wide Webになどのインターネット技術の発達に伴い、容易に大量のテキストデータにアクセスすることが可能となった(ここでテキストとは、任意の単語列であるとし、例えば、文節、句、文、段落、あるいは文書等もすべてテキストと総称する。)。この大量のテキストデータの中からユーザの興味のあるテキストデータのみを探し出す技術として様々なテキスト検索技術が提案され、また収集したテキストデータ自体の構造を把握するための技術としてテキスト自動分類技術が提案されている。
これらテキスト検索技術やテキスト自動分類技術の性能は、テキストの特徴量をどのように定義するか、またその特徴量を用いてテキスト間の類似度をどのように定義するかに大きく依存する。例えば、テキストの特徴量としてテキストに含まれる単語を要素とするテキストベクトルを採用し、テキスト間の類似度をベクトル間の内積や余弦として定義する方法が広く知られている。テキストベクトルを用いた方法では、文書と質問文とを互いに多次元の特徴ベクトルとして表現し、それらのベクトルの間の距離によって類似度を計測して、質問文に類似した文書から順番にランキングを行なう。
しかしながら、これらの類似度の定義方法は、単語間に直交性を仮定しなければならないため、算出される類似度の精度の低さが指摘されている。
そこで、よりテキスト間の意味的な類似性を含めた様々な関係性を測ることのできる特徴量表現と類似度の定義が数多く提案されている(例えば、特許文献1〜3参照。)。
例えば、特許文献1記載の発明は、入力文の構文的な機能単位と、検索対象文書の構文的な機能単位とを比較照合し、その合致度合いによって検索対象文書をいくつかの層に弁別すると共に、弁別された検索対象文書の各層ごとに、検索対象文書の単語頻度と入力文に含まれる単語集合との適合度を計算し、適合度の高いものを検索対象として順に抽出する。
特許第3040945号公報 特開2002−169803号公報 特許第3353829号公報
しかしながら、特許文献1ないし3に記載されたテキスト検索技術等においても、いまだ算出される類似度の精度が低い場合がある。
本発明は、上記問題に鑑み、精度よくテキスト間の類似度を算出するテキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラムを提供することを目的とする。
上記問題に鑑み、本発明は、複数のテキストデータから単語を抽出し、各単語間の係り受け情報を解析する単語情報抽出ステップと、単語情報抽出ステップにより抽出された単語の数に基づき各単語の重み因子を算出する重み因子算出ステップと、記単語情報抽出ステップにより抽出された前記テキストデータの各単語と各単語の前記係り受け情報に基づき、該テキストデータの構造データを生成する構造データ生成ステップと、テキストデータの一から前記構造データ生成ステップにより生成された第1の構造データの各単語と、他のテキストデータの一から生成された第2の構造データの各単語との類似度を算出する単語間類似度算出ステップと、単語間類似度算出ステップにより算出された類似度及び前記重み因子に基づき第1の構造データと第2の構造データとの類似度を算出する部分構造データ類似度算出ステップと、を有することを特徴とするテキストデータ類似度算出方法を提供する。
本発明によれば、精度よくテキスト間の類似度を算出するテキストデータ類似度算出方法を提供することができる。なお、テキストデータとは、任意の単語列であるとし、例えば、文節、句、文、段落、あるいは文書等もすべてテキストデータと称する。
本発明の一形態において、単語間類似度算出ステップにより算出された類似度のうち、第1の構造データの各単語毎に最大の類似度を抽出する最大類似度抽出ステップ、を有し、部分構造データ類似度算出ステップは、最大類似度抽出ステップにより抽出された最大の類似度に基づき第1の構造データと第2の構造データとの類似度を算出する、ことを特徴とする。単語間の類似度のうち最大の類似度を用いて算出することにより、テキストデータ間の類似度を精度よく算出できる。また、部分構造データの表層的な類似性に加え、包含関係も観測可能な部分構造データの類似度を提供できる。
また、本発明の一形態において、テキストデータの各単語間の係り受け情報に基づく、所定の一の単語と当該一の単語を含む各単語との文法的距離を抽出する文法的距離抽出ステップを有し、部分構造データ類似度算出ステップは、文法的距離抽出ステップにより抽出された、第1の構造データが有する単語の文法的距離と、第2の構造データが有する単語の文法的距離とに更に基づき、第1及び第2の構造データの類似度を算出することを特徴とする。構造データにおける単語の文法的距離を、第1及び第2の構造データ間の類似度の算出に反映させることで、テキストデータ間の類似度を精度よく算出できる。
文法的距離を類似度に反映させる一形態として、部分構造データ類似度算出ステップは、第1の構造データが有する単語の文法的距離と、第2の構造データが有する単語の文法的距離との差の絶対値を、0より大きく1以下の文法的距離導入定数にべき乗する、ことを特徴とする。
また、本発明の一形態において、第1の構造データの各単語の、複数の前記テキストデータにおける出現頻度を抽出する出現頻度抽出ステップと、単語と出現頻度抽出ステップにより抽出された出現頻度とを要素とする単語頻度行列を生成する単語頻度行列生成ステップと、を有することを特徴とする。
本発明によれば、部分構造データに含まれるすべての異なる単語の、各テキストデータにおける出現頻度からなるテキスト-単語頻度行列を算出し、各部分構造データを構成する自立語間の類似度をテキスト-単語頻度行列から抽出する単語ベクトル間の演算により算出することで、各自立語の同一のテキストに出現することによる類似性を考慮した部分構造データの類似度を提供できる。
また、本発明の一形態において、単語頻度行列生成ステップにより生成された単語頻度行列に特異値分解を適用し、単語特徴行列を算出する単語特徴行列算出ステップを有し、単語間類似度算出ステップは、単語特徴行列算出ステップにより算出された単語特徴行列から得られる単語ベクトルを演算して類似度を算出する、ことを特徴とする。
本発明によれば、単語の多義性・同義性の影響を軽減して、テキストデータ間の類似度を精度よく算出できる。
また、本発明の一形態において、単語情報抽出ステップにより抽出された第1の構造データの単語を組合わせて検索条件を生成する検索条件生成ステップと、検索条件生成ステップにより生成された検索条件に該当するテキストデータを複数の前記テキストデータとは別の外部テキストデータDBから取得するテキストデータ取得ステップと、を有することを特徴とする。
本発明によれば、外部からテキストデータを取得することで、テキスト数と単語数を十分大きくとることができ、データ構造における依存性を軽減してテキストデータ間の類似度を精度よく算出できる。また、外部からテキストデータを取得する検索条件は、第1の構造データが有する単語の論理式であることを特徴とする。
また、上記問題に鑑み、本発明は、複数のテキストデータから単語を抽出し、各単語間の係り受け情報を解析する単語情報抽出手段と、単語情報抽出手段により抽出された単語の数に基づき各単語の重み因子を算出する重み因子算出手段と、単語情報抽出手段により抽出された前記テキストデータの各単語と各単語の前記係り受け情報に基づき、該テキストデータの構造データを生成する構造データ生成手段と、テキストデータの一から前記構造データ生成手段により生成された第1の構造データの各単語と、他のテキストデータの一から生成された第2の構造データの各単語との類似度を算出する単語間類似度算出手段と、単語間類似度算出手段により算出された類似度及び前記重み因子に基づき第1の構造データと第2の構造データとの類似度を算出する部分構造データ類似度算出手段と、を有することを特徴とするテキストデータ類似度算出装置を提供する。
また、本発明の一形態において、単語間類似度算出手段により算出された類似度のうち、第1の構造データの各単語毎に最大の類似度を抽出する最大類似度抽出手段、を有し、部分構造データ類似度算出手段は、前記最大類似度抽出手段により抽出された前記最大の類似度に基づき第1の構造データと第2の構造データとの類似度を算出する、ことを特徴とする。
また、本発明の一形態において、テキストデータの各単語間の係り受け情報に基づく、所定の一の単語と当該一の単語を含む各単語との文法的距離を抽出する文法的距離抽出手段を有し、部分構造データ類似度算出手段は、文法的距離抽出手段により抽出された、第1の構造データが有する単語の文法的距離と、第2の構造データが有する単語の文法的距離とに更に基づき、第1及び第2の構造データの類似度を算出する、ことを特徴とする。
文法的距離を構造データの類似度の算出に反映するため、部分構造データ類似度算出手段は、第1の構造データが有する単語の文法的距離と、第2の構造データが有する単語の文法的距離との差の絶対値を、0より大きく1以下の文法的距離導入定数にべき乗する、ことを特徴とする。
また、本発明の一形態において、第1の構造データの各単語の、複数の前記テキストデータにおける出現頻度を抽出する出現頻度抽出手段と、単語と前記出現頻度抽出手段により抽出された出現頻度とを要素とする単語頻度行列を生成する単語頻度行列生成手段と、を有することを特徴とする。
また、本発明の一形態において、単語頻度行列生成手段により生成された単語頻度行列に特異値分解を適用し、単語特徴行列を算出する単語特徴行列算出手段を有し、単語間類似度算出手段は、単語特徴行列算出手段により算出された単語特徴行列から得られる単語ベクトルを演算して類似度を算出する、ことを特徴とする。
また、本発明の一形態において、単語情報抽出手段により抽出された第1の構造データの単語を組合わせて検索条件を生成する検索条件生成手段と、検索条件生成手段により生成された検索条件に該当するテキストデータを複数の前記テキストデータとは別の外部テキストデータDBから取得するテキストデータ取得手段と、を有することを特徴とする。
また、本発明の一形態において、検索条件は、第1の構造データが有する単語の論理式であることを特徴とする。
また、上記問題に鑑み、本発明は、請求項1ないし8記載のテキストデータ類似度算出方法をコンピュータに実行させるテキストデータ類似度算出プログラムを提供する。
精度よくテキスト間の類似度を算出するテキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラムを提供することができる。
以下、本発明を実施するための最良の形態について、図面を参照しながら実施例を挙げて説明する。
〔用語の定義〕
始めに、本実施の形態で用いる部分構造データに関する用語の定義、部分構造データの類似性の定式化、及び、部分構造データについて説明する。なお、本実施の形態においては、体言と用言に関連する品詞を持つ単語のみに着目し定式化を行うが、部分構造データの類似性の定式化は体言又は用言に関連する品詞に限定されるものではない。
(1)「単語」の定義
自立語をpwで示すこととし、自立語として以下に示す2種類を定義する。なお、自立語で活用をもつものは、その実表記と終止形表記に適宜変換可能なものとする。
(a)体言系自立語:pw1
体言系自立語pw1は、名詞、未登録語、記号、数詞に相当する品詞をもつ自立語と定義する。 ただし、数詞に接辞が伴う場合は、その他自立語とする場合がある。
(b)用言系自立語:pw2
用言系自立語pw2は、動詞、形容詞、形容動詞に相当する品詞をもつ自立語と定義する。ただし、連用形か形容動詞であって、格助詞か接辞を伴う場合は、体言系自立語になる。なお、付属語をaw、助詞をaw1、助動詞をaw2、および接辞をaw3で示す。
(2)「文節」の定義
文節をbで示すこととし、文節として以下に示す2種類を定義する。なお、各文節は、表記に加え、後述の抽出キーからの文法的距離に関する情報を保持するものとする。
ただし、以下において”::=”は定義式を、また記号”*”、”+”、”?”は正規表現のメタ記号であり、それぞれ直前の文字列の、”*”は1以上の繰り返し、”+”は0以上の繰り返し、”+”は高々1の存在を示す。すなわち、文字列:aを例にすると、a+、a*、a?すべて文字列aに対し真であり、文字列:aaを例にすると、a+、a*は真となる。
(a)体言系文節:b(n)
体言系文節:b(n)は、
b(n) ::= aw3*pw1+aw3*aw1*
と定義する。
(b)用言系文節:b(p)
用言系文節:b(p)は、
b(p) ::= pw2+aw2*aw1*
と定義する。
(3)「文節間の文法的距離」の定義
文節:aと文節:bに修飾関係が存在する場合、文節:aと文節:bには文法的距離1が存在すると定義する。さらに、文法的距離は推移的であることとし、例えば、さらに 文節:bと文節:cに修飾関係が存在する場合、文節:aと文節:cには文法的距離2が存在すると定義する。
(4)「基本部分構造データ」の定義
基本部分構造データとして、以下の3つを定義する。基本部分構造データは、構成要素としてb(p)を有し、該b(p)が部分構造データにおける抽出キーとなる。抽出キーは、文法的距離を抽出する際の修飾関係における起点の自立語である。
(a)基本部分構造データ1:B1
基本部分構造データB1は、
B1 ::= b(n) 、ただしb(n)は特定のb(p)と文法的距離1をもつ
と定義する。
(b)基本部分構造データ2:B2
基本部分構造データB2は、
B2 ::= b(n) 、ただしb(n)は文末に存在する
と定義する。
(c)基本部分構造データ3:B3
基本部分構造データB3は、
B3 ::= B1*b(p)(B2|b(n))? ただしB1、B2、b(n)のb(p)との文法的距離は1である
と定義する。
(5)「拡張部分構造データ」の定義
拡張部分構造データとして、以下の2つを定義する。
(a)拡張部分構造データ1:Bext1
拡張部分構造データBext1は、基本構造データ1もしくは基本部分構造データ2の抽出キーである体言文節と1以上の文法的距離をもつすべてのB1、B2、もしくはb(n)の結合、と定義する。
(b)拡張部分構造データ2:Bext2
拡張部分構造データBext2は、基本データ構造3に含まれる基本データ構造1もしくは基本データ構造2を拡張部分構造データに変換したもの、と定義する。なお、以下では、部分構造データと表現した場合、特に断らない限り、基本部分構造データと拡張部分構造データの双方を含む。
続いて、上記の定義に基づき、部分構造データ間の類似度の算出について説明する。図1は、部分構造データ間の類似度の算出処理の手順を示すフローチャート図である。以下、順に説明する。
〔部分構造データの生成〕 ステップS101
部分構造データの生成では、主として形態素解析と係り受け解析を行う。形態素解析とは、与えられたテキストを用意されている辞書を基に形態素(語の最小単位)に分ける処理である。また、形態素解析では各形態素に対し品詞や基本型などの情報も得ることができる。形態素解析により、テキストから、文書を構成する単語の情報、文節(ひとつの自立語か、ひとつの自立語にひとつ以上の付属語がついた形式の日本語文法上の一単位)情報が得られる。
文節間の係り受け関係とは、文節と文節の間に存在する文法的関係であり、たとえば、「私が食べた林檎。」という文では、体言性文節「私が」は、用言性文節「食べた」を文法的に修飾しており、「私が」が「食べた」に係る、もしくは係り受け関係にある、という。その係り受け関係名は格助詞「ガ」を伴うことから「ガ格連用修飾関係」という。連用修飾とは、ある文節が用言性文節を修飾する現象をさす。また、用言性文節「食べた」は、体言性文節「林檎。」を文法的に修飾しており、その係り受け関係名は「連体修飾関係」という。連体修飾とは、ある文節が体言性文節を修飾する現象をさす。また、係り受け関係名のうち、「並列」は、連体修飾の1バリエーションとして処理する。ここで、用言とは、単独で文節になりうる自立語のうち、活用がある単語であり、たとえば動詞や形容詞の類を言う。用言性文節とは、用言を含み、述語を形成する文節を言う。本実施例では、用言性文節以外は体言性文節としている。体言句は活用しない自立語で構成され、最後に位置する自立語が名詞類である連文節と定義する。サ変名詞の自立語は、用言性文節も体言性文節も生成するが、たとえば直後に助詞や断定の助動詞などがついていれば体言性文節、直後に補助動詞「する」「できる」などがついていれば、用言性文節、と付属語の接続のし方で、係り受け解析処理時にどちらか判断することができる。なお、本実施例では、形態素解析系および係り受け解析系ともに周知の手法を用いた。
図2は、テキストデータに形態素解析および係り受け解析を適用した結果の一例を示す。テキストデータとして、“文書構造の解析手法を提案する。(以下、テキスト1と称す)”、“テキストの構造を分析する。(以下、テキスト2と称す)”、及び“構造変換の手法を提案。(以下、テキスト3と称す)”という3つのテキスト(テキストの単位は文とする)を用いた。
なお、図2において、形態素解析では、切り出された単語のうち、動詞に相当する品詞をもつ単語は、語幹と語尾に分離された形式をとるように処理する。すなわち、“提案する”や“打つ”は[提案^する]、[打^つ]のようにセパレータ“^”付で出力される。また、係り受け解析の処理では、少なくとも文節の定義を満たす文節情報を生成するように処理される。
図2のように、形態素解析され各文節に分解された文節毎に、上記(2)の文節の定義に従い、文節情報が記載される。例えば、テキスト1では、[文書]はb(n)、[構造の]はb(n)、[解析]はb(n)、[手法を]がb(n)、[提案する]はb(p)の文節情報を有する。
次に、図2の結果より、上記(4)に示した「基本部分構造データ」の定義に基づき、基本部分構造データを抽出する。図3(a)は、基本部分構造データB1を、図3(b)は基本部分構造データB2を、図3(c)は、基本部分構造データB3を、それぞれ示す。なお、本実施例では、基本部分構造データは、文節内の付属語と動詞の語尾を省略する(例えば、“構造を”であれば〔構造〕と表記する。)。また、抽出キーには下線を付し、抽出キーからの文法的距離は表記情報のあとに数字で示す。
テキスト1の基本部分構造データB1は、用言性文節b(p)と文法的距離1を有する体言性文節b(n)であるので、基本部分構造データB1は[手法]となる。テキスト2の基本部分構造データB1は同様に[構造]となる。テキスト3では、基本部分構造データB1は抽出されない。
また、テキスト3の基本部分構造データB2は、文末の体言性文節b(n)であるので、[提案]となる。テキスト1及び2では、基本部分構造データB2は抽出されない。
また、基本部分構造データB3は、用言系文節b(p)に係る基本部分構造データB1であればよいので(基本部分構造データB2は0以上で真)、テキスト1では、[手法:1][提案]が基本部分構造データとなる。テキスト2においては、[構造:1][分析]が基本部分構造データとなる。なお、テキスト3では、基本部分構造データB3は抽出されない。
次に、図3に示した基本部分構造データから、上記(5)の拡張部分構造データの定義に従い、拡張部分構造データを生成する。図4は、拡張部分構造データの一例を示す。上記(5)の定義に従えば、テキスト1は、[文書:2][構造:1][解析:1][手法]が拡張部分構造データとなる。テキスト2は、[テキスト:1][構造]、テキスト3は、[構造:3][変換:2][手法:1][提案]が、拡張部分構造データとなる。
ついで、図4の拡張部分構造データから、品詞と表記情報を抽出する。図5は、拡張部分構造データから抽出された自立語とその品詞の単語データテーブルである。各自立語には、識別するための単語IDが付与される。なお、動詞の表記情報は、語幹と語尾の間にセパレータとして記号”^”を挿入する。また、付属語に関する情報は表示しない。
次いで、図5の単語データテーブルから、各テキスト毎に、テキスト1ないし3を単語IDで表示する。図6は、テキスト1ないし3を図5の単語IDで表示したテキストデータテーブルを示す。ずなわち、テキスト1は、単語IDにより{1,2,3,4,5}で表示され、テキスト2は{6,2,7}、テキスト3は{2,8,4,9}によりそれぞれ表示される。なお、図6では、テキスト1ないし3をテキストIDセット1ないし3と表した。
次いで、図6のテキストデータテーブルから、テキストデータ内に存在する係り受け関係を、係り受け関係が存在するテキストIDセットと受け単語が文末に存在するか否かの情報ともに抽出する。図7は、テキストデータテーブルから抽出された、係り受け関係を示す単語ID対、当該単語が含まれるテキストIDセット、文末情報、を有する係り受け関係データテーブルを示す。文末情報には、文末の係り受け関係を含む単語IDついにはtrueと、それ以外にはfalseと記録される。
例えば、[文書]に対しては、[文書]と[構造]に係り受け関係があるため、単語ID対は「1,2」と、文末情報には、文末でないため「false」と記録される。また、[提案]に対しては、[手法]と[提案]に係り受け関係があるため単語ID対は「4,9」と、文末情報には、trueと記録される。
次いで、図3の基本部分構造データから、当該基本部分構造データが存在するテキストIDセット、データタイプ(基本部分構造データの型B1ないしB3)及び構成単語セットを抽出する。図8は、基本部分構造データから抽出された、テキストIDセット、データタイプ及び構成単語セットにより構成される基本部分構造データテーブルを示す。
構成単語セットには、第一要素及び第二要素を格納する。構成単語セットは、2値変数であり、第一要素には単語ID、第二要素には当該単語と抽出キーからの文法的距離が格納される。例えば、文法的距離がゼロの場合は抽出キー自体を示し、文法的距離-1は、当該ID番号の基本部分構造データへの参照を示す。すなわち、図8の基本部分構造データのID2のデータの構成単語セットは、ID1のデータを参照しているので、{(1:−1),(5:0)}となる。
次いで、図4の拡張部分構造データから、データタイプ及び構成単語セットを抽出する。図9は、拡張部分構造データからテキスト内に存在する拡張部分構造データを、そのデータタイプ(拡張部分構造データ型Bext1ないし3)、および構成単語セットから抽出した拡張部分構造データテーブルを示す。構成単語セットの要素の構造は、図8の基本部分構造データテーブルと同一であるが、文法的距離が-1の場合の参照先は、拡張部分構造データのIDである。なお、基本部分構造データテーブルに示すように、予め拡張部分構造データを構成する単語要素の数を計数・記憶しておくことにより、後述する重み因子算出手段において、記憶された数値を読み込むだけでよく、処理の効率化が図れる。
以下の処理では、図9に示す拡張部分構造データテーブルの拡張部分構造データを処理対象データとする。
〔重み因子の算出〕ステップS102
重み因子算出処理では、入力された部分構造データを構成する自立語を計数し、その情報をもとに重み因子を算出する。本実施の形態では、計数した自立語数そのものを重み因子とする。なお、図9の拡張部分構造データテーブルのように、予め部分構造データを構成する自立語の数が計数されている場合は、その情報を取得すればよい。また、計数した部分構造データを構成する自立語の数に基づき、より複雑な重み因子を算出し、利用してもよい。
〔テキスト−単語頻度行列の算出〕ステップS103
単語頻度行列の算出では、部分構造データの各単語がテキストデータに含まれている頻度を算出し、テキスト-単語頻度行列として行列を生成する。テキスト-単語頻度行列は、部分構造データの生成元であるテキストデータから生成する。したがって、例えば、検索の対象となるデータベースなどに格納されているテキストデータ(以下、対象テキストデータという)から、テキストデータを構成する各単語の頻度が算出される。
図2に示すテキストデータについて、図5の単語データテーブル及び図6のテキストデータテーブルが利用可能である場合、テキスト-単語頻度行列生成の擬似コードを図10に示す。なお、テキスト-単語頻度行列は疎形式(要素の大部分が 0 である巨大行列)とし、図10の擬似コードにおいて、疎形式行列データを保持するコンテナ(変数):Xは、各要素がベクトル(リストもしくは1次元配列)コンテナであるベクトルコンテナであり、前記Xの要素であるベクトルコンテナ:Xは1つのテキストデータに対応し、xの各要素は、対象テキストデータ内での出現頻度が1以上である単語の識別番号を第一要素、その単語のテキストデータ内での出現頻度を第二要素とする2値コンテナである。この形式では、ベクトルコンテナ:x の要素値の第一要素にない識別番号の単語は頻度が0であることになる。
図5の単語データテーブル、図6のテキストデータテーブルに、図10の擬似コードによる処理を行うと、テキスト-単語頻度行列が得られる。図11は、ベクトルコンテナ形式で表されたテキスト-単語頻度行列を示す。なお、図11における2値コンテナは、第一要素が単語識別番号、第二要素が対象テキストデータにおける第一要素の識別番号の単語の出現頻度である。なお、図11ではテキスト-単語頻度行列のデータ形式として、2値ベクトルコンテナのベクトルコンテナを採用しているが、通常の2次元配列コンテナを利用してもよい。
〔テキスト−単語特徴行列の算出〕ステップS104
単語の同義性・多義性の影響を軽減した部分構造データ間の類似度を算出するため、単語特徴行列から得られるベクトルを単語特徴ベクトルとして用いる。単語特徴行列は、テキスト-単語頻度行列を特異値分解することで生成される。
・外部のテキストデータの取得
ところで、テキスト-単語頻度行列の特異値分解の結果として生成される単語特徴行列は、テキスト-単語頻度行列の構造への依存度が非常に高い。すなわち、100件のテキストデータで構成されるテキスト-単語頻度行列から求めた単語特徴行列を利用した単語対間類似度と、前記100件のテキストデータに別の1件のテキストデータを加えたテキスト-単語頻度行列から求める単語特徴行列を利用した単語間類似度では、同一の単語対であっても類似度の同一性は保証されない。このため、特異値分解を利用する場合は、行数と列数、すなわち、テキスト数と単語数を十分大きくとることで、データ構造における依存性を軽減することが好ましいとされる。
そこで、本実施の形態では、単語特徴行列は、テキスト-単語頻度行列の構造への依存性の影響を軽減するために、部分構造データの情報をもとに、部分構造データの抽出対象であるテキストデータ以外の外部テキストデータを取得することで、十分大きなテキスト-単語頻度行列を生成し、この行列の特異値分解から単語特徴ベクトルを生成する。
十分大きなテキスト-単語頻度行列を生成するため、対象テキストデータ以外の例えばインターネット等外部のテキストDB(データベース)からテキストデータを取得する。外部テキストデータの取得では、抽出された自立語を検索クエリとして検索システムに適用し、検索クエリに適合する所定数のテキストデータを取得する。なお、テキストデータの所定数は、特異値分解の算出条件として既知に定められている値を用いればよい。
図12は、図5に示す単語データテーブルを構成する単語データが利用可能な場合の外部のテキストデータの取得過程の擬似コードを示す。なお、図12の疑似コードでは、既知の検索システムSoを利用する。検索システムSoは、少なくとも、単語の論理形式を検索クエリとして受信(取得)し、この検索クエリをもとにWWW上のテキストデータを検索し、検索結果をテキストデータとして送信(取得)できる機能を有する。なお、図5の単語データテーブルより単語表記を取得する場合、活用する品詞(図5においては動詞)の単語は、語幹と終止形語尾を結合した文字列を取得する。さらに、本実施の形態において、取得する外部テキストデータ数は指定される所定数以下とする。
本実施の形態では検索クエリとして、各単語をOR結合した論理式を用いるが、より複雑な検索式を用いてもよい。例えば、図5に示す単語データテーブルの単語データをもとに生成した検索クエリ“文書 or 構造 or 解析 or 手法 or 提案する or テキスト or 分析する or 変換 or 提案”を検索システムSoに適用した結果として、図13に示す外部のテキストデータが取得される。
検索システムSoが取得した外部のテキストデータについても、図10の擬似コードを適用することで、テキスト−単語頻度行列が算出できる。図14は、図13の外部のテキストデータから算出されたテキスト−単語頻度行列を示す。
図14のテキスト−単語頻度行列と図11のテキスト−単語頻度行列とを結合すると、図15に示す大きなテキスト-単語頻度行列が得られる。
・テキスト−単語特徴行列の算出
次いで、図15のテキスト−単語頻度行列に基づきテキスト−単語特徴行列を算出する。上述のように、単語特徴行列は、テキスト−単語頻度行列を特異値分解することで生成する。特異値分解を行うと、単語特徴行列(単語特徴ベクトルの集合)と共にテキスト特徴行列も算出される。
特異値分解によって生成される2つの行列は、同一の単語の同義性・多義性の影響が軽減された特徴空間に付置されるため、単語特徴行列(単語特徴ベクトルの集合)もまた単語の同義性・多義性の影響が軽減されたものである。
テキスト-単語頻度行列に特異値分解を適用した結果得られるテキスト特徴行列(テキスト特徴ベクトル集合)を利用すれば、高精度な自動テキスト分類をおこなうことが可能となる。特異値分解により算出されたテキスト特徴ベクトルは、単語の多義性・同義性の影響を軽減する特徴を持つ。
図16は、図15のテキスト−単語頻度行列に特異値分解を適用した結果生成される単語特徴行列を示す。なお、図16における単語特徴行列は特徴次元として第5次元までを採用している。
なお、本実施の形態では、外部のテキストデータ取得にて取得した検索結果であるテキストデータに対し、検索クエリを構成する単語のみを用いて、テキスト-単語頻度行列を生成し、この行列を、部分構造データを抽出するテキストデータから生成したテキスト-単語頻度行列と結合して新たなテキスト-単語頻度行列を生成する処理を例示しているが、部分構造データを抽出する対象テキストデータと検索結果である外部のテキストデータからすべての構成単語を利用してテキスト-単語頻度行列を再算出してもよい。
〔部分構造データ間の類似度の算出〕ステップS105
まず、本実施の形態で用いる部分構造データ間の類似度を定式化する。本実施の形態において、部分構造データは以下に示す特徴が反映された類似度により類似性が定量化される。
特徴1:自立語間の類似性が反映できる。
特徴2:自立語がもつ抽出キーからの文法的距離情報を反映できる。
特徴3:包含関係を類似度に反映させるため、部分構造データの大きさを反映できる。
特徴4:自立語間の多義性・同義性を繁栄できる。
上述の4つの特徴を反映させるため、本実施の形態では類似度を式(1)のように定式化する。
Figure 2006139708
ただし、変数:Si、Sjは部分構造データ、変数:sik、sjlは部分構造データを構成する自立語を示し、また関数:size(S)は変数として与えられる部分構造データ:Sを構成する自立語の数を返す関数である。
また、式(1)において式(2)のように関数を定義する。
Figure 2006139708
式(2)の関数は、変数lの関数:X(l)でlに1からLを代入した値の最大値を返す。また、関数:dist(s)は変数として与えられる自立語:sの抽出キーからの文法的距離返す関数、および関数:sim(si,sj)は自立語:si、sj間の類似度を返す関数である。文法的距離の差を反映させるペナルティ定数(請求の範囲における文法的距離導入定数):αは、0より大きく1以下の定数である。
式1において、式(3)の部分は特徴1を、式(4)の部分は特徴2を、式(5)の部分は特徴3を、それぞれ反映する。
Figure 2006139708
また、上述のように特異値分解することで算出された単語特徴行列は、単語の同義性・多義性の影響が軽減されたものである。したがって、本実施の形態においては、テキスト-単語頻度行列に特異値分解を適用した結果生成される単語特徴行列(単語特徴ベクトルの集合)を用いて、自立語間の類似度を算出することで、特徴4が反映される。
なお、さらに単語の同義性・多義性の影響を軽減させるために、明示化しない同義語辞書、多義語辞書などのシソーラス辞書を利用してもよい。例えば、部分構造データを抽出したすべてのテキストデータをdi(i=1…N)、すべてのテキストデータに含まれる互いに異なる自立語をwj(j=1…M)とすると、テキストデータ:diにおける自立語:wjの出現頻度を(i,j)要素の値とするテキスト-単語頻度行列:XMxNが生成される。テキスト-単語頻度行列:XMxNの特異値分解を式(6)のように定式化する。
Figure 2006139708
式(6)においては、VkxMが単語特徴行列であり、各列ベクトルが、対応する自立語の特徴ベクトルである。ベクトル間の類似度として余弦測度を採用し、式(6)における第i列の列ベクトルをviとすると、第i列に対応する自立語:siと第j列に対応する自立語の類似度:sjは、式(7)のように定式化できる。なお、実際の類似度算出においては、各ベクトルをあらかじめ正規化しておくことで、分母の項は1となる。
Figure 2006139708
ただし、式(7)において式(8)の部分は、ベクトル:viとベクトル:vjの内積を、また添え字tは転置を示す。
本実施の形態では、式(1)、(6)及び(7)を用いて部分構造データ間の類似度を算出する。図17は、部分構造データ間の類似度を算出する処理の擬似コードを示す。部分構造データ間の類似度の算出手段では、一の部分構造データの他の一の部分構造データに対する類似度を算出する。類似度を算出する対象のデータとして、図9の拡張部分構造データテーブル及び図16に示す単語特徴行列を用いる。
図17の処理17aにより、図16の単語特徴行列の相関行列が得られる。図18は、図16の単語特徴行列の相関行列を示す。該相関行列には、自立語間の類似性(特徴1)と単語特徴行列を用いた場合は同義性・多義性(特徴4)が反映されている。
また、処理17bと処理17cにより、文法的距離を反映させ(特徴2)、処理17dにより部分構造データの大きさが反映される(特徴3)。
図18の相関行列及び図9の拡張部分構造データテーブルを用い、ID=1の部分構造データのID=5の部分データに対する類似度は、
(0.753x0.81 + 1.0x0.81 + 0.316x0.81 + 1.0x0.80 + 0.579x0.82) / 5 = 0.605、
ID=5の部分構造データのID=1の部分データに対する類似度は、
(1.0x0.81 + 0.752x0.81 + 1.0x0.80 + 0.743x0.81)/4 =0.749
となる。なお、ペナルティ定数は0.8とした。
本実施の形態では、部分構造データ間の類似度の算出過程に単語特徴行列から得られる単語特徴ベクトルを利用しているが、類似度の精度よりも計算効率を重視する場合、テキスト-単語頻度行列の行(単語)ベクトルを単語特徴ベクトルとして類似度の算出を行ってもよい。以上で、図1のフローチャート図の処理が終了する。
〔テキストデータ類似度算出プログラム〕
本実施の形態のテキストデータの類似度を算出するプログラム(以下、テキストデータ類似度算出プログラムという)及びその記録媒体について説明する。テキストデータ類似度算出プログラムは、図1のステップS101〜S105をコンピュータに実行させる。図19は、テキストデータ類似度算出プログラムを実行するコンピュータのハードウェア構成図の一例を示す。
図19のハードウェア構成図は、それぞれバスで相互に接続されているCPU31、入出力装置32、ドライブ装置33、通信装置34、主記憶装置35、記憶装置36、表示装置37を有するように構成される。
CPU31は、コンピュータが行う処理を統括的に制御する。入出力装置32は、キーボード及びマウスなどで構成され、ユーザからの様々な操作指示を入力するために用いられる。通信装置34は、インターネットやLANなどのネットワークに接続するためのインターフェイスであり、例えばモデム、ルータ等で構成される。主記憶装置35は、オペレーティングシステムやプログラム、データを一時保管する記憶領域である。記憶装置36には、テキストデータの類似度の算出を実現するプログラムがインストールされている。ドライブ装置33は、DVD−ROMやCD−ROMが挿入可能であり、記録媒体38からプログラムやデータを読み込み、また記録媒体38にプログラムやデータを書き込むことも可能である。表示装置37は、GUI(Graphycal User Interface)画面を形成し、操作に必要な各種ウィンドウやデータ等を表示する。
テキストデータ類似度算出プログラム39は、例えば記録媒体38に格納された状態で配布される。テキストデータ類似度算出プログラム39は、単語情報抽出手段41、重み因子算出手段42、構造データ生成手段43、単語間類似度算出手段44、テキストデータ取得手段45、最大類似度抽出手段46、部分構造データ類似度算出手段47、出現頻度抽出手段48、単語頻度行列生成手段49、検索条件生成手段50、単語特徴行列算出手段51、文法的距離抽出手段52、の各手段をコンピュータに実行させる。一例としては、図10、12、17で説明した擬似コードを所定のプログラム言語でコード化し、コンパイルなどされたものである。
単語情報抽出手段41は、複数のテキストデータから単語を抽出し、各単語間の係り受け情報を解析する。文法的距離抽出手段52は、テキストデータの各単語間の係り受け情報に基づく、所定の一の単語と当該一の単語を含む各単語との文法的距離を抽出する。構造データ生成手段43は、抽出されたテキストデータの各単語と各単語の前記係り受け情報を有する構造データを生成する。(以上がステップS101に相当)。
重み因子算出手段42は、単語情報抽出ステップにより抽出された単語の数に基づき各単語の重み因子を算出する(ステップS102に相当)。
出現頻度抽出手段48は、第一の構造データの各単語の、複数の前記テキストデータにおける出現頻度を抽出する。単語頻度行列生成手段49は、単語と出現頻度抽出手段48により抽出された出現頻度とを要素とする単語頻度行列を生成する。(以上ステップS103に相当)。
検索条件生成手段50は、単語抽出手段41により抽出された第一の構造データの単語を組合わせて検索条件を生成する。テキストデータ取得手段45は、検索条件生成手段50により生成された検索条件に該当するテキストデータを複数のテキストデータとは別の外部テキストデータDBから取得する。単語特徴行列算出手段51は、単語頻度行列生成手段49により生成された単語頻度行列に特異値分解を適用し、単語特徴行列を算出する(以上ステップS104に相当)。
単語間類似度算出手段44は、第一の構造データの各単語と、他のテキストデータの第2の構造データの各単語との類似度を、単語特徴行列(又は単語頻度行列)、文法的距離、重み因子に基づき算出する。なお、単語間類似度算出手段44は、最大類似度抽出手段46により、該単語間類似度算出手段44が算出した類似度のうち、第一の構造データの各単語毎に最大の類似度を抽出する。部分構造データ類似度算出手段47は、文法的距離、重み因子、単語間類似度、に基づき第一の構造データと他の構造データとの類似度を算出する。(以上ステップS105に相当)。
テキストデータ類似度算出プログラム39を記録した記録媒体38は、ドライブ装置33にセットされ、記憶装置36にインストールされる。
なお、テキストデータ類似度算出プログラム39を記録した記憶媒体38は、CD−ROM、DVD−ROM、フレキシブルディスク、光磁気ディスク(MO)等のように、情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることが可能である。また、テキストデータ類似度算出プログラム39は、ネットワークを介してダウンロードしてもよい。
また、テキストデータ類似度算出プログラム39がインストールされたコンピュータは、テキストデータ類似度算出装置となる。
これまで説明した部分構造データ間の類似度の算出方法により、テキストデータ間の類似度の算出方法の一例を示す。本実施例では、図20に示すテキストデータ4に関連する関連テキストデータを検索する。また、本実施例では、テキストデータ5及びテキストデータ6を、関連テキストデータの候補として、テキストデータ間の類似度を算出する。
まず、図20の各テキストデータから抽出した部分構造データを図21に示す。図21は、図4と同様の部分構造データであり、単語と抽出キーからの距離情報の2つの要素から構成される。
図22は、単語特徴行列(式(6)の行列V)を用いて算出した単語特徴行列の相関行列を示す。また、図23は、図22の単語特徴行列の相関行列と式1を用いて算出した、部分構造データ4に対する部分構造データ5と6の部分構造データ間類似度を示す。
図23の部分構造データ対において(i,j)は、部分構造データiに対する部分構造データiの類似度を示す。また、類似度1は、式(1)においてペナルティ定数を0.8とした類似度である。類似度2は、式(6)において、単語特徴行列としてテキスト-単語頻度行列を用い、式(1)においてペナルティ定数を0.8とした類似度である。すなわち、類似度2は、特異値分解による単語のテキスト間での共起性(多義性・同義性)を考慮せず、表記のマッチングのみを考慮した類似度である。類似度3は、式(1)においてペナルティ定数を0.8とし、また、すべての文節について抽出キーとの文法的距離を0とした類似度、すなわち、類似度3は、文法的距離を考慮しない類似度である。
図23の部分構造データの類似度に基づき、各テキストデータから抽出される部分構造データ間の類似度がテキストデータ間の関連度を示すこととし、テキストデータ4・5・6間の関連性を検証する。
テキストデータ4とテキストデータ5は、単語表記は同一であるものの、内容はあまり関連がないため、テキストデータ間の関連度は高くないほうが望ましい。図23の部分構造データ対(4,5)の類似度では、文法的な距離を考慮している類似度1および類似度2は、文法的な距離を考慮していない類似度3と比較すると非常に低い類似度を示している。すなわち、この結果から文法的な距離を考慮することでテキストの内容の類似度を反映してテキスト間の類似判断が可能となる。
また、テキストデータ4とテキストデータ6では、単語表記は異なるものの、内容は関連性があるため、テキストデータ間の関連度は高いほうが望ましい。図23の部分構造データ対(4,6)において、単語特徴ベクトルとしてここでは明示しないテキストデータ‐単語頻度行列の特異値分解から得られる単語特徴行列を用いることで単語間のテキストデータ内での共起性(多義性・同義性)を反映した類似度1と類似度3は、単語間のテキストデータ内での共起性を反映しない類似度2と比較すると高い類似度をもつことがわかる。すなわち、この結果から単語間のテキストデータ内での共起性を反映することの有効性が確認できる。
また、図23によれば、部分構造データ対(4,5)より部分構造データ対(4,6)の方が高い類似度を示すのは、類似度1のみ(その差も小さい)である。すなわち、類似度1ないし3の類似度により、テキストデータ3のほうが、テキストデータ2よりテキストデータ1と関連があるという結果を得ることができるのは類似度1のみである。かかる望ましい結果が得られることから、本実施の形態で提案する類似度の有効性が確認できる。すなわち、本実施の形態のテキストデータ類似度算出方法、テキストデータ類似度算出装置、テキストデータ類似度算出プログラムによれば、テキストデータ間の類似度を精度よく算出できる。テキストデータ類似度算出方法等によれば、データベースやインターネットから所望の文書を効率よく取得でき、また、自由記載形式のアンケート等、テキスト形式の情報の統計処理等に利用できる。
テキストデータの類似度の算出処理手順を示すフローチャート図の一例である。 本実施の形態で使用するテキストデータである。 基本部分構造データの一例を示す図である。 拡張部分構造データの一例を示す図である。 拡張部分構造データから抽出された単語データテーブルの一例を示す図である。 テキストデータテーブルの一例を示す図である。 係り受け関係データテーブルの一例を示す図である。 基本部分構造データテーブルの一例を示す図である。 拡張部分構造データテーブルの一例を示す図である。 テキスト-単語頻度行列生成の擬似コードの一例を示す図である。 テキスト-単語頻度行列の一例を示す図である。 外部のテキストデータの取得過程の擬似コードの一例を示す図である。 外部から取得されたテキストデータの一例を示す図である。 外部のテキストデータから算出されたテキスト−単語頻度行列の一例を示す図である。 テキスト-単語頻度行列の一例を示す図である。 テキスト−単語頻度行列に特異値分解を適用して生成された単語特徴行列の一例を示す図である。 部分構造データ間の類似度を算出する処理の擬似コードの一例である。 単語特徴行列の相関行列の一例を示す図である。 テキストデータ類似度算出プログラムを実行するコンピュータのハードウェア構成図の一例である。 実施例における類似度を算出するテキストデータである。 実施例における各テキストデータから抽出した部分構造データである。 実施例における単語特徴行列の相関行列である。 実施例におけるテキストデータ間の類似度を示す図である。
符号の説明
41 単語情報抽出手段
42 重み因子算出手段
43 構造データ生成手段
44 単語間類似度算出手段
45 テキストデータ取得手段
46 最大類似度抽出手段
47 部分構造データ類似度算出手段
48 出現頻度抽出手段
49 単語頻度行列生成手段
50 検索条件生成手段
51 単語特徴行列算出手段
52 文法的距離抽出手段

Claims (17)

  1. 複数のテキストデータから単語を抽出し、各単語間の係り受け情報を解析する単語情報抽出ステップと、
    前記単語情報抽出ステップにより抽出された単語の数に基づき各単語の重み因子を算出する重み因子算出ステップと、
    前記単語情報抽出ステップにより抽出された前記テキストデータの各単語と各単語の前記係り受け情報に基づき、該テキストデータの構造データを生成する構造データ生成ステップと、
    前記テキストデータの一から前記構造データ生成ステップにより生成された第1の構造データの各単語と、他のテキストデータの一から生成された第2の構造データの各単語との類似度を算出する単語間類似度算出ステップと、
    前記単語間類似度算出ステップにより算出された類似度及び前記重み因子に基づき第1の構造データと第2の構造データとの類似度を算出する部分構造データ類似度算出ステップと、を有することを特徴とするテキストデータ類似度算出方法。
  2. 前記単語間類似度算出ステップにより算出された類似度のうち、第1の構造データの各単語毎に最大の類似度を抽出する最大類似度抽出ステップ、を有し、
    前記部分構造データ類似度算出ステップは、前記最大類似度抽出ステップにより抽出された前記最大の類似度に基づき第1の構造データと第2の構造データとの類似度を算出する、
    ことを特徴とする請求項1記載のテキストデータ類似度算出方法。
  3. テキストデータの各単語間の係り受け情報に基づく、所定の一の単語と当該一の単語を含む各単語との文法的距離を抽出する文法的距離抽出ステップを有し、
    前記部分構造データ類似度算出ステップは、
    前記文法的距離抽出ステップにより抽出された、前記第1の構造データが有する単語の文法的距離と、前記第2の構造データが有する単語の文法的距離とに更に基づき、第1及び第2の構造データの類似度を算出する
    ことを特徴とする請求項1記載のテキストデータ類似度算出方法。
  4. 前記部分構造データ類似度算出ステップは、
    前記第1の構造データが有する単語の文法的距離と、前記第2の構造データが有する単語の文法的距離との差の絶対値を、
    0より大きく1以下の文法的距離導入定数にべき乗する、
    ことを特徴とする請求項3記載のテキストデータ類似度算出方法。
  5. 前記第1の構造データの各単語の、複数の前記テキストデータにおける出現頻度を抽出する出現頻度抽出ステップと、
    前記単語と前記出現頻度抽出ステップにより抽出された前記出現頻度とを要素とする単語頻度行列を生成する単語頻度行列生成ステップと、
    を有することを特徴とする請求項1記載のテキストデータ類似度算出方法。
  6. 前記単語頻度行列生成ステップにより生成された単語頻度行列に特異値分解を適用し、単語特徴行列を算出する単語特徴行列算出ステップを有し、
    前記単語間類似度算出ステップは、前記単語特徴行列算出ステップにより算出された前記単語特徴行列から得られる単語ベクトルを演算して類似度を算出する、
    ことを特徴とする請求項5記載のテキストデータ類似度算出方法。
  7. 前記単語情報抽出ステップにより抽出された第1の構造データの単語を組合わせて検索条件を生成する検索条件生成ステップと、
    前記検索条件生成ステップにより生成された検索条件に該当するテキストデータを複数の前記テキストデータとは別の外部テキストデータDBから取得するテキストデータ取得ステップと、
    を有することを特徴とする請求項5記載のテキストデータ類似度算出方法。
  8. 前記検索条件は、第1の構造データが有する単語の論理式であることを特徴とする請求項7記載のテキストデータ類似度算出方法。
  9. 複数のテキストデータから単語を抽出し、各単語間の係り受け情報を解析する単語情報抽出手段と、
    前記単語情報抽出手段により抽出された単語の数に基づき各単語の重み因子を算出する重み因子算出手段と、
    前記単語情報抽出手段により抽出された前記テキストデータの各単語と各単語の前記係り受け情報に基づき、該テキストデータの構造データを生成する構造データ生成手段と、
    前記テキストデータの一から前記構造データ生成手段により生成された第1の構造データの各単語と、他のテキストデータの一から生成された第2の構造データの各単語との類似度を算出する単語間類似度算出手段と、
    前記単語間類似度算出手段により算出された類似度及び前記重み因子に基づき第1の構造データと第2の構造データとの類似度を算出する部分構造データ類似度算出手段と、を有することを特徴とするテキストデータ類似度算出装置。
  10. 前記単語間類似度算出手段により算出された類似度のうち、第1の構造データの各単語毎に最大の類似度を抽出する最大類似度抽出手段、を有し、
    前記部分構造データ類似度算出手段は、前記最大類似度抽出手段により抽出された前記最大の類似度に基づき第1の構造データと第2の構造データとの類似度を算出する、
    ことを特徴とする請求項9記載のテキストデータ類似度算出装置。
  11. テキストデータの各単語間の係り受け情報に基づく、所定の一の単語と当該一の単語を含む各単語との文法的距離を抽出する文法的距離抽出手段を有し、
    前記部分構造データ類似度算出手段は、
    前記文法的距離抽出手段により抽出された、前記第1の構造データが有する単語の文法的距離と、前記第2の構造データが有する単語の文法的距離とに更に基づき、第1及び第2の構造データの類似度を算出する
    ことを特徴とする請求項9記載のテキストデータ類似度算出装置。
  12. 前記部分構造データ類似度算出手段は、
    前記第1の構造データが有する単語の文法的距離と、前記第2の構造データが有する単語の文法的距離との差の絶対値を、
    0より大きく1以下の文法的距離導入定数にべき乗する、
    ことを特徴とする請求項11記載のテキストデータ類似度算出方法。
  13. 前記第1の構造データの各単語の、複数の前記テキストデータにおける出現頻度を抽出する出現頻度抽出手段と、
    前記単語と前記出現頻度抽出手段により抽出された前記出現頻度とを要素とする単語頻度行列を生成する単語頻度行列生成手段と、
    を有することを特徴とする請求項9記載のテキストデータ類似度算出装置。
  14. 前記単語頻度行列生成手段により生成された単語頻度行列に特異値分解を適用し、単語特徴行列を算出する単語特徴行列算出手段を有し、
    前記単語間類似度算出手段は、前記単語特徴行列算出手段により算出された前記単語特徴行列から得られる単語ベクトルを演算して類似度を算出する、
    ことを特徴とする請求項13記載のテキストデータ類似度算出装置。
  15. 前記単語情報抽出手段により抽出された第1の構造データの単語を組合わせて検索条件を生成する検索条件生成手段と、
    前記検索条件生成手段により生成された検索条件に該当するテキストデータを複数の前記テキストデータとは別の外部テキストデータDBから取得するテキストデータ取得手段と、
    を有することを特徴とする請求項13記載のテキストデータ類似度算出装置。
  16. 前記検索条件は、第1の構造データが有する単語の論理式であることを特徴とする請求項15記載のテキストデータ類似度算出装置。
  17. 請求項1ないし8記載のテキストデータ類似度算出方法をコンピュータに実行させるテキストデータ類似度算出プログラム。
JP2004330939A 2004-11-15 2004-11-15 テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム Pending JP2006139708A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004330939A JP2006139708A (ja) 2004-11-15 2004-11-15 テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004330939A JP2006139708A (ja) 2004-11-15 2004-11-15 テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム

Publications (1)

Publication Number Publication Date
JP2006139708A true JP2006139708A (ja) 2006-06-01

Family

ID=36620481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004330939A Pending JP2006139708A (ja) 2004-11-15 2004-11-15 テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム

Country Status (1)

Country Link
JP (1) JP2006139708A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804810B1 (ko) * 2016-07-08 2017-12-05 금오공과대학교 산학협력단 유사문서 판별장치 및 이를 이용한 유사문서 판별방법
JP2018063596A (ja) * 2016-10-13 2018-04-19 富士通株式会社 文書比較プログラム、文書比較方法、及び文書比較装置
CN109471950A (zh) * 2018-11-19 2019-03-15 北京交通大学 腹部超声文本数据的结构化知识网络的构建方法
JP2019159918A (ja) * 2018-03-14 2019-09-19 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
CN110750977A (zh) * 2019-10-23 2020-02-04 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及***
JP2020161110A (ja) * 2019-03-25 2020-10-01 カシオ計算機株式会社 検索装置、検索方法、検索プログラム
CN113076404A (zh) * 2021-04-21 2021-07-06 厦门快商通科技股份有限公司 一种文本相似度计算方法、装置、计算机设备和存储介质
US11544455B2 (en) * 2017-06-21 2023-01-03 Nec Corporation Information processing device, information processing method, and recording medium

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804810B1 (ko) * 2016-07-08 2017-12-05 금오공과대학교 산학협력단 유사문서 판별장치 및 이를 이용한 유사문서 판별방법
JP2018063596A (ja) * 2016-10-13 2018-04-19 富士通株式会社 文書比較プログラム、文書比較方法、及び文書比較装置
US11544455B2 (en) * 2017-06-21 2023-01-03 Nec Corporation Information processing device, information processing method, and recording medium
JP7006402B2 (ja) 2018-03-14 2022-01-24 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
JP2019159918A (ja) * 2018-03-14 2019-09-19 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
CN109471950A (zh) * 2018-11-19 2019-03-15 北京交通大学 腹部超声文本数据的结构化知识网络的构建方法
CN109471950B (zh) * 2018-11-19 2022-04-01 北京交通大学 腹部超声文本数据的结构化知识网络的构建方法
JP7047825B2 (ja) 2019-03-25 2022-04-05 カシオ計算機株式会社 検索装置、検索方法、検索プログラム
JP2020161110A (ja) * 2019-03-25 2020-10-01 カシオ計算機株式会社 検索装置、検索方法、検索プログラム
CN110750977A (zh) * 2019-10-23 2020-02-04 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及***
CN110750977B (zh) * 2019-10-23 2023-06-02 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及***
CN113076404A (zh) * 2021-04-21 2021-07-06 厦门快商通科技股份有限公司 一种文本相似度计算方法、装置、计算机设备和存储介质
CN113076404B (zh) * 2021-04-21 2022-08-23 厦门快商通科技股份有限公司 一种文本相似度计算方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US7805303B2 (en) Question answering system, data search method, and computer program
Jacquemin Spotting and discovering terms through natural language processing
US8185377B2 (en) Diagnostic evaluation of machine translators
JP4650072B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP3790825B2 (ja) 他言語のテキスト生成装置
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
Sawant et al. Learning joint query interpretation and response ranking
US20100332217A1 (en) Method for text improvement via linguistic abstractions
KR20080084803A (ko) 교차-언어 지식 검색을 위한 시스템 및 방법
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2007087401A (ja) インデクシングシステム、インデクシング方法、質問テンプレート生成システム、質問テンプレート生成方法、及びプログラム
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Amaral et al. Priberam’s question answering system for Portuguese
JP2006139708A (ja) テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム
Bakari et al. Logic-based approach for improving Arabic question answering
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
Benajiba et al. Arabic question answering
Zuhori et al. Ontological knowledge extraction from natural language text
Bindu et al. Design and development of a named entity based question answering system for Malayalam language
Zhou et al. Combining probability models and web mining models: a framework for proper name transliteration
Melero et al. Selection of correction candidates for the normalization of Spanish user-generated content
Karimi et al. Natural language query and control interface for database using afghan language
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Kamath et al. Text and speech basics
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam