WO2009110550A1

WO2009110550A1 - 属性抽出方法、システム及びプログラム

Info

Publication number: WO2009110550A1
Application number: PCT/JP2009/054170
Authority: WO
Inventors: 弘紀水口; 正明土田; 大久寿居
Original assignee: 日本電気株式会社
Priority date: 2008-03-06
Filing date: 2009-03-05
Publication date: 2009-09-11
Also published as: US8463738B2; JPWO2009110550A1; US20100318525A1; JP5445787B2

Abstract

本発明は、文書における文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとして抽出し、属性グループが属性名の集合である度合を示す属性名スコアを計算し、属性名スコアに基づいて、属性グループのうちから属性名グループを選択し、属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、かつ、該同一な文字列又は画像の描画位置が属性名グループの文字列又は画像の描画位置と該同一の属性グループを選択し、該同一な描画位置の文字列又は画像から属性名を抽出し、選択された属性グループの文字列又は画像のうち該同一な描画位置の文字列又は画像以外から、属性名に対応する属性値を抽出する属性抽出方法である。

Description

属性抽出方法、システム及びプログラム

　本発明は属性抽出方法、システム及びプログラムに関する。

　属性とは、ものや事柄に関して備わっている性質や特徴のことで、ここでは、属性名と属性値からなる。一つのものや事柄は、複数の属性を持つ。例えば、あるパソコンのＣＰＵが１ＧＨｚ、メモリが５００MBであれば、そのパソコンの属性は、二つで、属性名ＣＰＵ・属性値１ＧＨｚ、属性名メモリ・属性値５０ＭＢである。

　この種の属性抽出システムは、文書それぞれの形式に即したプログラムを手動で作成する必要があり手間がかかっていた。

　また、属性部分の単語と属性値部分の単語の位置を記述した属性抽出用のテンプレートを用意し、これを元に抽出するシステムがある。しかし、あらかじめ定義したパターン以外では抽出できない。

　また、ＨＴＭＬ文書からタグのツリー構造を解析し繰り返しパターンを認識するシステムがある。しかし、繰り返し構造は認識できるが、どこが属性名でどこが属性値なのかは判別できない。また、タグツリー構造が必要であるため、ＨＴＭＬ以外の文書への適用は難しい。

　そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は文書の文字列又は画像の描画位置に基づいて、属性名、属性値を抽出することができる属性抽出方法、システム及びプログラムを提供することにある。

　上記課題を解決する本発明は、文書における文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとして抽出し、前記属性グループが属性名の集合である度合を示す属性名スコアを計算し、前記属性名スコアに基づいて、前記属性グループのうちから属性名グループを選択し、前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、かつ、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一の属性グループを選択し、前記該同一な描画位置の文字列又は画像から属性名を抽出し、前記選択された属性グループの文字列又は画像のうち前記該同一な描画位置の文字列又は画像以外から、前記属性名に対応する属性値を抽出する属性抽出方法である。

　また、上記課題を解決する本発明は、文書が記憶されている文書記憶部と、前記文書記憶部に記憶されている文書における文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を選択して属性グループを抽出する属性グループ抽出部と、前記属性グループが属性名の集合である度合を示す属性名スコアを計算し、前記属性名スコアに基づいて、前記属性グループ候補のうちから属性名グループを選択する属性名グループ選択部と、前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、かつ、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一の属性グループを選択し、前記該同一な描画位置の文字列又は画像から属性名を抽出し、前記選択された属性グループの文字列又は画像のうち前記該同一な描画位置の文字列又は画像以外から、前記属性名に対応する属性値を抽出する属性抽出部とを有する属性抽出システムである。

　また、上記課題を解決する本発明は、文書における文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとして抽出する属性グループ抽出処理と、前記属性グループが属性名の集合である度合を示す属性名スコアを計算し、前記属性名スコアに基づいて、前記属性グループのうちから属性名グループを選択する属性名グループ選択処理と、前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、かつ、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一の属性グループを選択し、前記該同一な描画位置の文字列又は画像から属性名を抽出する属性名抽出処理と、前記選択された属性グループの文字列又は画像のうち前記該同一な描画位置の文字列又は画像以外から、前記属性名に対応する属性値を抽出する属性値抽出処理とを情報処理装置に実行させるプログラムである。

　本発明によれば、文書の文字列又は画像の描画位置に基づいて、属性名、属性値を抽出することができる。

図１は第１の実施の形態における属性抽出システムの構成図である。図２は入力語の一例を示した図である。図３は文書群記憶部２に記憶されている文書群の一例を示した図である。図４は区切りパターン群記憶部３に記憶されている区切りパターンの一例を示した図である。図５は属性グループ抽出部６により属性グループ群記憶部４への登録の一例を示した図である。図６は属性グループ選択部７により属性グループ群記憶部４へのスコアの登録の一例を示した図である。図７は第１の実施の形態を説明する為の図である。図８は第１の実施の形態における動作フローチャートである。図９は第２の実施の形態における属性抽出システムの構成図である。図１０は属性候補群記憶部１０の記憶例を示した図である。図１１は共起頻度辞書１１の一例を示した図である。図１２は第２の実施の形態の動作フローチャートである。図１３は第３の実施の形態における属性抽出システムの構成図である。図１４は第２の属性グループ群記憶部２１の記憶例を示す図である。図１５は第３の実施の形態の動作フローチャートである。図１６は第４の実施の形態におけるブロック図である。図１７は出力語記憶部５の記憶例を示した図である。図１８は出力語記憶部５の記憶例を示した図である。図１９は出力語記憶部５の記憶例を示した図である。

符号の説明

１　入力語記憶部
２　文書群記憶部
３　区切りパターン群記憶部
４　属性グループ群記憶部
５　出力語記憶部
６　属性グループ抽出部
７　属性グループ選択部
８　属性値選択部

　本発明の実施の形態を説明する。

　＜第１の実施の形態＞
　第１の実施の形態を図面を参照して説明する。

　図１は第１の実施の形態における属性抽出システムの構成図である。

　第１の実施の形態における属性抽出システムは、入力語記憶部１と、文書群記憶部２と、区切りパターン群記憶部３と、属性グループ群記憶部４と、出力語記憶部５と、属性グループ抽出部６と、属性グループ選択部７と、属性値選択部８とを備える。

　入力語記憶部１は、利用者が属性を知りたい物や事柄のリストが記憶されている記憶部である。利用者は、属性を知りたい物や事柄等の事物を表す入力語を、入力語記憶部１に登録する。入力語の一例を図２示す。図２の例では、入力語として、「商品Ａ」から「商品Ｅ」まで登録されている。

　文書群記憶部２は、属性の抽出対象の文書が記憶されている。文書群記憶部２に記憶されている文書群の一例を図３に示す。図３では、記憶されている文書を識別する文書ＩＤと、その文書の文書データとが対応付けられて記憶されている。尚、記憶される文書は、ＨＴＭＬ等の構造化文書のみならず、カンマで区切られたテキスト等でも良い。

　区切りパターン群記憶部３は、テーブルやリストなどの構造を構成する文字列又は画像（以下、ブロックと記載する）に区切るための区切りパターン群が記憶されている。ここで、区切りパターンとは、テーブルやリスト構造の要素となるブロックを抽出するためのパターンであり、例えば、ＨＴＭＬのｔｄタグ内部や、ｌｉタグ内部、テキスト文書の「、」や「：」などの区切り文字である。区切りパターン群記憶部３に記憶されている区切りパターンの一例を図４に示す。

　属性グループ抽出部６は、文書群記憶部２に記憶されている文書を、区切りパターン群記憶部３に記憶されている区切りパターンで区切る。そして、区切られたブロック毎に、そのブロックの描画位置を計算し、ブロックの描画位置が縦方向、又は横方向に揃っているブロックの組みを属性グループとして抽出し、属性グループ群記憶部４に登録する。ブロックの描画位置の計算には、一般のレンダリングエンジンを用いる。例えば、ＨＴＭＬ形式文書であれば一般に公開されているＷｅｂブラウザなどである。

　属性グループ抽出部６により属性グループ群記憶部４への登録の一例を、図５に示す。図５の例では、文書ＩＤと、入力語と、グループＩＤと、ブロックから抽出された単語と、ブロックの左上位置及び右下位置と、スコアとが対応付けられて記憶される。尚、スコアについては、後述する。各列は、属性グループ内のブロックに対応している。文書ＩＤは、属性グループが出現した文書ＩＤ、入力語は文書内で属性グループの出現位置より前に出現した入力語、グループＩＤは属性グループのＩＤ、左上位置と右上位置は、文書ＩＤの文書を描画した際のブロックの描画位置を示す。尚、同じグループＩＤの単語は、同じ属性グループであることを示す。

　以下の説明において、文字列又は画像のブロックから抽出された単語を、単に単語と記載する。尚、文字列以外のブロック、例えば画像のブロックからの単語の抽出は、画像による文字認識等の技術を用いることができる。

　属性グループ選択部７は、属性グループ群記憶部４に記憶されている属性グループについて、属性グループが属性名の集合であることの度合を示す属性名スコア（以下、単にスコアと称する）を計算する。例えば、単語の出現頻度、出現確率を利用した統計量からスコアを計算し、属性名が記述されている可能性が高い属性グループを選択する。

　例えば、各ブロックの単語の出現確率の平均を計測し、属性グループのスコアとする。属性グループ選択部７により属性グループ群記憶部４へのスコアの登録の一例を、図６に示す。尚、図６では、属性グループ内のブロックから抽出された単語毎にその単語の出現確率をスコアとして登録しているが、各単語の出現確率の平均をひとつの属性グループのスコアとして登録しても良い。そして、属性グループ選択部７は、スコアに基づいて、属性名が記述されている可能性が高い属性名グループを選択する。具体的には、スコアがある閾値以上の値をもつ属性グループ候補、または、上位数％の属性グループ候補を、属性名グループとして選択する。

　属性値選択部８は、属性グループ選択部７により選択された属性名グループの単語を属性名とし、その属性名の単語のブロックと描画位置が重なるブロックを持つ属性グループのブロックから、その属性名に対応する属性値を抽出する。尚、属性値の抽出であるが、属性グループの単語のうち、属性名として抽出されている単語以外の単語から属性値を抽出する。

　例えば、図７において、グループＩＤ“１”が属性名グループとして選択された場合、グループＩＤ“１”の単語「ＣＰＵ」のブロックと、グループＩＤ“２”の単語「ＣＰＵ」のブロックとの描画位置が重なる。そこで、単語「ＣＰＵ」を属性名とし、グループＩＤ“２”の単語「ＣＰＵ」のブロック以外のブロックの単語「１ＧＨｚ」を、属性名「ＣＰＵ」の属性値として抽出する。同様に、グループＩＤ“１”の単語「ＨＤＤ」のブロック及び単語「価格」のブロックについても、それぞれ描画位置が重なるブロックを持つ属性グループから属性値を選択する。そして、ここで得られた属性名と属性値とを入力語とともに、出力語記憶部５に蓄積する。

　尚、上述の説明では、グループＩＤ“１”の単語「ＣＰＵ」と、グループＩＤ“２”の単語「ＣＰＵ」とが同一であるが、かならずしも完全同一である必要はなく、本発明の要旨を逸脱しない範囲での不一致は同一ものとみなす。例えば、文字列「“ＣＰＵ”」がある場合、属性名として適切な単語としては「ＣＰＵ」であり、「“”」は不要である。しかし、ある属性グループにおける文字列からの抽出段階で単語「“ＣＰＵ”」が抽出され、他の属性グループにおける文字列からの抽出段階で単語「ＣＰＵ」が抽出された場合、単語「“ＣＰＵ”」と単語「ＣＰＵ」とは同一とみなして、属性名や属性値の抽出作業を行う。

　次に、本実施の形態における動作を説明する。

　図８は、本実施の形態における動作フローチャートである。

　まず、属性グループ抽出部６が、入力語を含む文書を文書群記憶部２から一つ選択する（Ｓｔｅｐ１００）。例えば、図３に示す例では、入力語「製品Ａ」とすると、「製品Ａ」を含む文書「文書Ａ」を選択する。

　次に、属性グループ抽出部６が、区切りパターン群記憶部３から区切りパターンを取得し、区切りパターンで区切られたブロックの描画位置を計算する（Ｓｔｅｐ１０１）。ブロックの描画位置の計算には、一般のレンダリングエンジンを用いる。例えば、ＨＴＭＬ形式文書であれば一般に公開されているＷｅｂブラウザなどである。例えば、「文書Ａ」では、区切りパターンのうち「<td>*</td>」が適合する部分「<td>CPU</td>」「<td>1GHz</td>」などのそれぞれの描画位置を計算する。描画位置は画面上での左上座標（Ｘ，Ｙ)と右下座標（Ｘ，Ｙ）で特定する。以降、画面上の座標は、画面左上を原点とし横方向をＸ軸、縦方向をＹ軸として表現する。尚、以降の説明では、計算で得られた「文書Ａ」における「<td>CPU</td>」の描画位置が左上座標（１０，１０）と右下座標（４０，２０）とし、「<td>1GHz</td>」の描画位置が左上座標（４０，１０）と右下座標（８０，２０）とする。

　次に、属性グループ抽出部６が、区切りパターンで区切られたブロックから縦方向または横方向に続くブロックを属性グループとして抽出し、属性グループ群記憶部４に記憶する（Ｓｔｅｐ１０２）。例えば、「<td>CPU</td>」と「<td>1GHz</td>」との描画位置は左上Ｙ座標と右下Ｙ座標が同じであり、さらに、「<td>CPU</td>」の右下Ｘ座標と「<td>1GHz</td>」の左上Ｘ座標が同じであるので、横方向に続いている。したがって、この組を属性グループとする。ここで、横方向では同一Ｙ座標でなくとも良く、誤差を持たせてもよい。続いている点についても、誤差を持たせても良い。同様に縦方向続いている属性グループ候補を抽出する。縦方向でも同じＸ座標でなくとも良く、誤差を持たせても良い。続いて、抽出した属性グループについて、その文書ＩＤ、グループＩＤ、単語（ブロックにおける区切り文字を除いた文字列又はブロックから抽出した文字列）、左上座標、右下座標を、属性グループ候補群記憶部４に記憶する。尚、同じ属性グループ候補には同じグループＩＤをつける。また、スコアはこの時点では空とする。そして、入力語を含む文書がなくなるまで、上記を続ける。

　属性グループ選択部７は、属性グループのスコアを計算し、属性グループに付与する（Ｓｔｅｐ１０３）。計算されるスコアは、属性グループ候補が属性名の集合であることを示すスコアであり、大きい値ほど、属性名の集合である可能性が高い。属性名は複数の文書で同じ表現が使われることが多い。したがって、属性グループ候補のうち出現頻度の多い単語をより多く含むものは、属性名の集合である可能性が高い。

　例えば、属性グループスコアは、属性グループ候補の各単語の出現確率の平均とする。

　スコア（グループＧ）＝１／Ｊ＊Σ Ｐｊ
　Ｐｊ＝Ｗｊ／Ｎ
　ここで、ＷｊはグループＧの属性グループ候補のｊ番目の単語の属性グループ候補群内の出現頻度、Ｎは属性グループ候補群内の全ての単語の出現頻度合計、Ｐｊはｊ番目の単語の出現確率、ＪはグループＧの単語数である。

　例えば、図５の例のうち、グループＩＤ“１”（以下では単にグループ１と呼ぶ）の属性グループスコアは、「ＣＰＵ」、「ＨＤＤ」、「価格」の単語出現確率の平均である。全ての単語の出現頻度合計を３００、「ＣＰＵ」の出現頻度を５、「ＨＤＤ」の出現頻度を５、「価格」の出現頻度を２０とすると、グループ１のスコアであるスコア（グループ１）は、
スコア（グループ１）＝１／３＊（５／３００＋５／３００＋２０／３００）
＝１０／３００＝０．０３３
と計算できる。尚、属性グループ候補群記憶部４のスコアフィールドには、各単語の出現確率を記憶する。

　また、グループＩＤ“２”（以下ではグループ２と呼ぶ）の属性グループスコアは、「ＣＰＵ」、「１ＧＨｚ」の単語出現確率の平均である。

　「１ＧＨｚ」の出現頻度を３とすると、グループ２のスコアであるスコア（グループ２）は、
スコア（グループ２）＝１／２＊（５／３００＋３／３００）＝４／３００＝０．０１３
と計算できる。

　さらに、別な計算方法として、平均単語出現頻度との差分合計とすることもできる。以下に式で説明する。

　スコア（グループＧ）＝Σ（Ｗ０―Ｗｊ）
　Ｗ０＝Ｎ／Ｗ
　ここで、Ｗは属性グループ候補群内の全ての単語数である。Ｗ０は、単語出現頻度の平均値である。この他にも、単語出現頻度の合計や平均としても計算できる。しかし、単純な単語出現頻度のみでは、文書群の大きさによって値が異なるため、出現確率や平均との差を用いる方が良い。

　属性グループ選択部７は、属性グループのスコアを参照し、属性値の集合となる属性名グループを選択する（Ｓｔｅｐ１０４）。この属性値の集合となる属性名グループの選択は、属性グループのスコアがシステムに予め設定された閾値以上の属性グループを属性名グループとして選択する。例えば、上述の例では、閾値を０．０３とした場合、グループ１が属性名グループとして選択される。

　また、属性名グループの選択は、スコア上位から数％のグループを選択しても良い。単語出現確率の平均など、文書群の大きさによる偏りが緩和されている場合は、スコアとして閾値を設定できる。単純な単語出現頻度など、文書群の大きさによる偏りがある場合には、閾値を設定するのは難しいため、スコア順位の上位数％を選択することが好ましい。また、この二つの閾値を同時に設定しても良い。

　次に、属性値選択部８が、選択した属性名グループと、この属性名グループとクロスする属性グループとから、属性名、属性値、入力語を抽出する（Ｓｔｅｐ１０５）。ここで、クロスする属性グループとは、選択した属性名グループに対して同じ単語のブロックを共有（描画位置が該同一）し、直角の方向にブロックが続く属性グループである。

　属性値選択部８は、共有する単語を属性名、共有していない単語を属性値として抽出する。さらに、属性グループに対応する入力語も抽出する。

　例えば、図７では、属性グループ１とクロスする属性グループの一つは、属性グループ２である。属性グループ１は縦方向に続く属性グループであり、属性グループ２は横方向に続く属性グループ候補である。さらに、単語「ＣＰＵ」のブロックを共有している。属性グループ１と属性グループ２とで共有する単語「ＣＰＵ」を属性名とし、属性グループ２の単語（ブロックから抽出した単語）のうち、属性グループ１と共有していない単語「１ＧＨｚ」を属性値として抽出する。更に、属性グループ１の入力語「製品Ａ」を選択する。ここで、属性値が入力語と同じ場合、属性値として選択しない。さらに、選択した属性グループとクロスする属性グループに、共有していない単語が複数存在する場合、単語の出現確率が最大のものを選択する、または、複数の属性値を選択する。同様に他の属性グループからも属性名と属性値、入力語を選択する。

　最後に、入力語、属性名、属性値を出力して出力語記憶部５に記憶する（Ｓｔｅｐ１０７）。

　図１７に出力語記憶部５の一例を示す。図１７に示される出力語記憶部５では、入力語と属性名と属性値とで１レコードを構成しており、入力語と属性名と属性値とが対応付けられて記憶されている。例えば、入力語「製品Ａ」と、属性名「ＣＰＵ」と、属性値「１ＧＨｚ」とが対応付けられて記憶されている。

　本実施の形態によれば、属性グループ抽出部が、単語の描画位置によって属性グループを作成するため、テンプレートを用意する必要はない。属性グループ選択部による属性グループの単語の統計的な情報により属性名を認識することができる。

　＜第２の実施の形態＞
　第２の実施の形態を、図面を参照して説明する。

　図９に第２の実施の形態の構成図を示す。

　第２の実施の形態は、第１の実施の形態と比べ、属性候補群記憶部１０と共起頻度辞書１１と共起度計算部１２とが追加されている点が異なる。

　属性候補群記憶部１０は、属性名となる単語の候補（以降、属性候補と呼ぶ）を蓄えたデータベースが記憶されている。属性候補群記憶部１０の記憶例を図１０に示す。図１０に示される各レコードに記載されているものが属性候補である。

　共起頻度辞書１１は、属性グループ候補の単語同士の共起頻度を蓄積したデータベースである。共起語頻度計算部１２によって、計算された結果が蓄積される。共起頻度辞書１１の一例を図１１に示す。図１１に示される例では、共起する二つの単語「単語１」、「単語２」と、その共起頻度「頻度」とを表している。

　共起頻度計算部１２は、属性候補を読み込み、属性候補と、属性グループの単語との共起頻度を計算する。結果を共起頻度辞書に格納する。図１１に示される例では、単語１を属性候補、単語２を属性候補以外の単語とする。

　属性値選択部８は、共起語頻度を参照し、第１の実施の形態と同様に選択された属性グループの単語のうち、属性候補の単語、又は属性候補の単語と共起頻度の高い単語のみを属性名とし、この属性名のブロックとクロスする属性グループだけから属性値を選択する。ここで、共起頻度の高い単語とは、頻度の下限以上の単語、または、頻度の上位数％の単語、または、出現確率が閾値以上の単語である。

　次に、第２の実施の形態の動作を説明する。

　図１２は第２の実施の形態の動作フローチャートである。

　まず、第１の実施形態と同じく、属性グループ抽出部６が、入力語を含む文書を文書群から選択する（Ｓｔｅｐ１００）。

　第１の実施形態と同じく、属性グループ抽出部６が、区切りパターン群から区切りパターンを取得し、区切りパターンで区切られたブロック毎に描画位置を計算する（Ｓｔｅｐ１０１）。

　第１の実施形態と同じく、属性グループ抽出部６が、区切りパターンで区切られたブロックから縦方向または横方向に続くブロックの組を属性グループとして抽出し、属性グループ群記憶部４に保存する（Ｓｔｅｐ１０２）。

　入力語を含む文書がなくなるまで、上記を続ける。

　次に、共起頻度計算部１２が、属性候補群記憶部１０と属性グループ群記憶部４とを参照し、属性候補と、この属性候補を単語（ブロックから抽出された単語）として含む属性グループ内の単語（ブロックから抽出された単語）との頻度を計算し、共起頻度辞書１１に記憶する（Ｓｔｅｐ２００）。例えば、図１１の属性候補「ＣＰＵ」を含む属性グループが図６の属性グループ１であるとする。属性グループ１内の「ＨＤＤ」と「価格」の単語それぞれと、「ＣＰＵ」との共起頻度に１加える。すなわち、共起頻度辞書１１の単語１「ＣＰＵ」と単語２「ＨＤＤ」とのレコードと、単語１「ＣＰＵ」と単語２「価格」とのレコードに頻度１を加える。全ての属性候補について共起頻度を計算する。

　次に、第１の実施形態と同じく、属性名グループ選択部７が、属性グループのスコアを計算し、属性グループに付与する（Ｓｔｅｐ１０３）。そして、第１の実施形態と同じく、属性名グループ選択部７が、属性グループのスコアを参照し、属性値の集合となる属性名グループを選択する（Ｓｔｅｐ１０４）。

　属性値選択部８は、選択した属性名グループとクロスする属性グループから属性名、属性値、入力語を抽出する。ただし、抽出した属性名のうち、属性候補群に登録されている語と共起頻度辞書１１上で頻度が高い単語を属性名として持つ属性名、属性値、入力語の組を選択し次のステップに渡す。ここで、共起語頻度辞書１１上で頻度の高い単語とは、頻度の下限以上の単語、または、頻度の上位数％の単語、または、出現確率が閾値以上の単語である。頻度下限などの閾値は、システムに予め登録しておく。

　例えば、出現確率を用いる場合、単語Riの出現確率は、以下のように計算する。
出現確率（Ri）=Fi／RN
　ここで、Fiは共起語辞書の単語Riの頻度、RNは共起語辞書の全ての頻度の総和である。

　最後に、入力語、属性名、属性値を出力して出力語記憶部５に記憶する（Ｓｔｅｐ１０６）。

　図１８に出力語記憶部５の一例を示す。図１８に示される出力語記憶部５では、入力語と属性名と属性値とで１レコードを構成しており、入力語と属性名と属性値とが対応付けられて記憶されている。例えば、入力語「製品Ａ」と、属性名「ＣＰＵ」と、属性値「１ＧＨｚ」とが対応付けられて記憶されている。また、図１０に示される属性候補「液晶」と共起頻度が高い「価格」が属性名として出力されて記憶されており、その「価格」の属性値「２１万円」も出力されて記憶されている。

　本実施の形態によれば、属性名候補をあらかじめ用意し、共起頻度計算部１２が属性名候補と属性グループの単語との共起頻度を計算し、属性値選択部８が共起頻度の高い単語を属性名として採用することで、より精度が向上する。

　＜第３の実施の形態＞
　第３の実施の形態を、図面を参照して説明する。

　図１３は第３の実施の形態における属性抽出システムの構成図である。図１３を参照すると、第１の実施の形態に比べ、入力語再特定部２０が追加されている点が異なる。また、属性グループ群記憶部が第２の属性グループ群記憶部２１に変更されている。

　第２の属性グループ群記憶部２１の記憶例を図１４に示す。

　第２の属性グループ群記憶部２１に格納されている属性グループ候補は、上述した実施の形態にくらべ、再度入力語として扱うか否かを示す再入力フィールドが追加されている。

　入力語再特定部２０は、入力語を含む属性グループ候補のうち、入力語と同じカテゴリの単語を多く含む属性グループを特定する。例えば、属性グループ抽出部６の結果のうち、入力語を含む属性グループがある。この入力語を含む属性グループのうち、多くの入力語を含む属性グループを特定し、第２の属性グループ候補の再入力フィールドに「ＹＥＳ」を代入する。ここで、多くの入力語を含む属性グループとは、同じ文書中に出現する入力語数のうち、属性グループ内に出現する入力語数の割合が閾値より大きいものとする。また、一つの属性グループ内に出現する入力語数の下限のものでもよい。さらに、二つの条件を同時に満たすものとしてもよい。

　具体的に説明すると、入力語が「製品Ａ」、「製品Ｂ」、「製品Ｃ」とすると、図１４に示される属性グループ候補記憶部２１に記憶されているグループＩＤ１には、入力語と同じ「製品Ａ」、「製品Ｂ」、「製品Ｃ」の３つの単語を含んでいる。「文書Ａ」に出現する入力語は５つだったとすると、この属性グループに出現する入力語数の割合は、３／５である。ここで、条件が、入力語数の割合が６０％以上で、かつ、入力後の下限が３つ以上だとすると、グループＩＤ１は、再入力語となりうる単語を含んでいる属性グループであると判別できる。この結果から、グループＩＤ１の属性グループの再入力フィールドに「ＹＥＳ」を代入する。

　次に、第３の実施の形態の動作を説明する。

　図１５は第３の実施の形態の動作フローチャートである。

　まず、属性グループ抽出部６が、入力語、または、第２の属性グループ群記憶部２１に記憶されている属性グループのうち、再入力フィールドに「ＹＥＳ」がついているレコードの単語が出現する文書を文書群から選択する（Ｓｔｅｐ　３００）。

　次に、第１の実施形態と同じく、属性グループ抽出部６が、区切りパターン群から区切りパターンを取得し、区切りパターンで区切られたブロック毎に描画位置を計算する（Ｓｔｅｐ　３０１）。

　次に、第１の実施形態と同じく、属性グループ抽出部６が、区切りパターンで区切られたブロックから縦方向または横方向に続くブロックを属性グループ候補として抽出し、第２の属性グループ群記憶部２１に保存する（Ｓｔｅｐ　１０２）。そして、入力語を含む文書がなくなるまで、上記を続ける。

　次に、再入力語特定部２０が、入力語の出現割合や出現頻度を元に、入力語と同じカテゴリの単語を含む属性グループを特定し、第２の属性グループ候補の再入力フィールドに「ＹＥＳ」を代入し、再入力語を特定する（Ｓｔｅｐ　３０１）。

　続いて、第１の実施形態と同じく、属性名グループ選択部７が、属性グループスコアを計算し、属性グループに付与する（Ｓｔｅｐ　１０３）。

　属性グループ選択部７は、属性グループのスコアを参照し、属性値の集合となる属性名グループを選択する（Ｓｔｅｐ１０４）。

　属性値選択部８が、選択した属性名グループと、この属性名グループとクロスする属性グループとから、属性名、属性値、入力語を抽出する（Ｓｔｅｐ１０５）。ただし、再入力フィールドに「ＹＥＳ」とある単語は、属性値ではなく入力語として扱う。

　そして、全ての入力語と再入力語を含む文書を処理するまで、上記作業を行なう。

　最後に、入力語、属性名、属性値を出力し、出力語記憶部５に記憶する（Ｓｔｅｐ１０６）。

　図１９に出力語記憶部５の一例を示す。図１９に示される出力語記憶部５では、入力語と属性名と属性値とで１レコードを構成しており、入力語と属性名と属性値とが対応付けられて記憶されている。例えば、入力語「製品Ａ」と、属性名「ＣＰＵ」と、属性値「１ＧＨｚ」とが対応付けられて記憶されている。また、再入力語である「製品Ｉ」と属性名「ＣＰＵ」と、属性値「２ＧＨｚ」とが対応付けられて記憶されている。

　本実施の形態は、入力語再特定部により、入力語と同じカテゴリの単語を増やせるように構成されているため、入力語と同じカテゴリの製品名に関する属性名と属性値まで取得することができる。

　＜第４の実施の形態＞
　第４の実施の形態を、図面を参照して説明する。

　図１６は第４の実施の形態におけるブロック図である。

　第４の実施の形態では、本発明の属性抽出システム１０００と、属性抽出システム１０００を運用管理する辞書サービスシステム２０００と、属性抽出システム１０００によって作成された属性辞書データベースリスト３０００とを備える。

　辞書作成者は、システム運営者が管理する属性抽出システム１０００と辞書サービスシステム２０００とを利用し属性辞書を作成し、属性辞書データベースリスト３０００に登録する。

　属性辞書購入者は、希望する属性辞書を属性辞書データベースリスト３０００から検索し、希望する属性辞書があれば、システム運営者を介して辞書作成者から購入する。

　システム運営者は、金銭の受け渡しと属性抽出システム利用料を、販売が成立した時点で辞書作成者から受け取る。

　尚、上述した各実施の形態において、入力語記憶部１、属性グループ抽出部６、属性グループ選択部７、属性値選択部８等をハードウェアで構成したが、プログラムで動作するＣＰＵ等で構成することもできる。

　以上の如く、本発明の第１の態様は、文書における文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとして抽出し、前記属性グループが属性名の集合である度合を示す属性名スコアを計算し、前記属性名スコアに基づいて、前記属性グループのうちから属性名グループを選択し、前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、かつ、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一の属性グループを選択し、前記該同一な描画位置の文字列又は画像から属性名を抽出し、前記選択された属性グループの文字列又は画像のうち前記該同一な描画位置の文字列又は画像以外から、前記属性名に対応する属性値を抽出する属性抽出方法である。

　本発明の第２の態様は、上述の態様において、属性を知りたい事物に関する入力語を登録し、文書群のうちから、前記入力語を含む文書を抽出する。

　本発明の第３の態様は、上述の態様において、所定の規則に基づいて、文書を文字列又は画像に区切り、前記各文字列又は画像の描画位置を計算し、文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとする。

　本発明の第４の態様は、上述の態様において、前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一であり、かつ、前記属性名グループの文字列又は画像の描画位置方向に対して直角方向に文字列又は画像の描画位置がある属性グループを選択する。

　本発明の第５の態様は、上述の態様において、前記属性名スコアが所定の閾値よりも大きい属性グループを、属性名グループとして選択する。

　本発明の第６の態様は、上述の態様において、前記属性名スコアは、前記属性グループの各文字列又は画像の出現確率の平均である。

　本発明の第７の態様は、上述の態様において、属性名の候補である属性名候補と、前記属性名候補を含む属性グループの文字列又は画像との共起確率を計算し、前記属性名グループの文字列又は画像のうち、前記属性名候補又は前記属性名候補との共起確率に基づいて選択された文字列又は画像から属性名を選択し、この属性名を含む文字列又は画像を有し、かつ、前記属性名を含む文字列又は画像の描画位置が前記属性名グループの描画位置と該同一な属性グループの文字列又は画像から属性値を抽出する。

　本発明の第８の態様は、上述の態様において、文字列又は画像に前記入力語を含む属性グループの文字列又は画像から入力語となりうる第２の入力語を抽出し、前記第２の入力語を含む文書を抽出する。

　本発明の第９の態様は、文書が記憶されている文書記憶部と、前記文書記憶部に記憶されている文書における文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を選択して属性グループを抽出する属性グループ抽出部と、前記属性グループが属性名の集合である度合を示す属性名スコアを計算し、前記属性名スコアに基づいて、前記属性グループ候補のうちから属性名グループを選択する属性名グループ選択部と、前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、かつ、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一の属性グループを選択し、前記該同一な描画位置の文字列又は画像から属性名を抽出し、前記選択された属性グループの文字列又は画像のうち前記該同一な描画位置の文字列又は画像以外から、前記属性名に対応する属性値を抽出する属性抽出部とを有する属性抽出システムである。

　本発明の第１０の態様は、上述の態様において、属性を知りたい事物に関する入力語が記憶されている入力語記憶部を有し、前記属性グループ抽出部は、前記入力語を含む文書を対象とする。

　本発明の第１１の態様は、上述の態様において、前記属性グループ抽出部は、所定の規則に基づいて、文書を文字列又は画像に区切り、前記各文字列又は画像の描画位置を計算し、各文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとする。

　本発明の第１２の態様は、上述の態様において、前記属性抽出部は、前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一であり、かつ、前記属性名グループの文字列又は画像の描画位置方向に対して直角方向に文字列又は画像の描画位置がある属性グループを選択する。

　本発明の第１３の態様は、上述の態様において、前記属性名グループ選択部は、前記属性名スコアが所定の閾値よりも大きい属性グループを、属性名グループとして選択する。

　本発明の第１４の態様は、上述の態様において、前記属性名グループ選択部は、前記属性グループの文字列又は画像に含まれる単語の出現確率の平均を属性名スコアとして計算する。

　本発明の第１５の態様は、上述の態様において、属性名となる単語の候補である属性候補が記憶された属性候補記憶部と、属性名の候補である属性名候補と、前記属性名候補を含む属性グループの文字列又は画像との共起確率を計算する共起確率計算部とを有し、前記属性抽出部は、前記属性名グループの文字列又は画像のうち、前記属性名候補又は前記属性名候補との共起確率に基づいて選択された文字列又は画像から属性名を選択し、この属性名を含む文字列又は画像を有し、かつ、前記属性名を含む文字列又は画像の描画位置が前記属性名グループの描画位置と該同一な属性グループの文字列又は画像から属性値を抽出する。

　本発明の第１６の態様は、上述の態様において、文字列又は画像に前記入力語を含む属性グループの文字列又は画像から入力語となりうる第２の入力語を抽出する入力語抽出部を有する。

　本発明の第１７の態様は、上述の態様において、文書における文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとして抽出する属性グループ抽出処理と、前記属性グループが属性名の集合である度合を示す属性名スコアを計算し、前記属性名スコアに基づいて、前記属性グループのうちから属性名グループを選択する属性名グループ選択処理と、前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、かつ、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一の属性グループを選択し、前記該同一な描画位置の文字列又は画像から属性名を抽出する属性名抽出処理と、前記選択された属性グループの文字列又は画像のうち前記該同一な描画位置の文字列又は画像以外から、前記属性名に対応する属性値を抽出する属性値抽出処理とを情報処理装置に実行させるプログラムである。

　本発明の第１８の態様は、上述の態様において、属性を知りたい事物に関する入力語を登録し、文書群のうちから、前記入力語を含む文書を抽出する文書抽出処理を情報処理装置に実行させる。

　本発明の第１９の態様は、上述の態様において、前記属性名グループ選択処理は、所定の規則に基づいて、文書を文字列又は画像に区切る処理と、前記各文字列又は画像の描画位置を計算する処理と、文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとして抽出する処理とを有する。

　本発明の第２０の態様は、上述の態様において、前記属性名抽出処理は、前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一であり、かつ、前記属性名グループの文字列又は画像の描画位置方向に対して直角方向に文字列又は画像の描画位置がある属性グループを選択する。

　本発明の第２１の態様は、上述の態様において、前記属性名グループ選択処理は、前記属性名スコアが所定の閾値よりも大きい属性グループを、属性名グループとして選択する。

　本発明の第２２の態様は、上述の態様において、前記属性名スコアは、前記属性グループの各文字列又は画像の出現確率の平均である。

　本発明の第２３の態様は、上述の態様において、前記属性名抽出処理は、属性名の候補である属性名候補と、前記属性名候補を含む属性グループの文字列又は画像との共起確率を計算し、前記属性名グループの文字列又は画像のうち、前記属性名候補又は前記属性名候補との共起確率に基づいて選択された文字列又は画像から属性名を選択し、前記属性値抽出処理は、この属性名を含む文字列又は画像を有し、かつ、前記属性名を含む文字列又は画像の描画位置が前記属性名グループの描画位置と該同一な属性グループの文字列又は画像から属性値を抽出する。

　本発明の第２４の態様は、上述の態様において、文字列又は画像に前記入力語を含む属性グループの文字列又は画像から入力語となりうる第２の入力語を抽出し、前記第２の入力語を含む文書を抽出する処理を情報処理装置に実行させる。

　以上好ましい実施の形態、実施例及び態様をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び態様に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

　本出願は、２００８年３月６日に出願された日本出願特願２００８－５５７８９号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　文書における文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとして抽出し、
　前記属性グループが属性名の集合である度合を示す属性名スコアを計算し、前記属性名スコアに基づいて、前記属性グループのうちから属性名グループを選択し、
　前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、かつ、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一の属性グループを選択し、
　前記該同一な描画位置の文字列又は画像から属性名を抽出し、
　前記選択された属性グループの文字列又は画像のうち前記該同一な描画位置の文字列又は画像以外から、前記属性名に対応する属性値を抽出する属性抽出方法。
　属性を知りたい事物に関する入力語を登録し、文書群のうちから、前記入力語を含む文書を抽出する請求項１に記載の属性抽出方法。
　所定の規則に基づいて、文書を文字列又は画像に区切り、
　前記各文字列又は画像の描画位置を計算し、
　文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとする
請求項１又は請求項２に記載の属性抽出方法。
　前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一であり、かつ、前記属性名グループの文字列又は画像の描画位置方向に対して直角方向に文字列又は画像の描画位置がある属性グループを選択する請求項１から請求項３のいずれかに記載の属性抽出方法。
　前記属性名スコアが所定の閾値よりも大きい属性グループを、属性名グループとして選択する請求項１から請求項４のいずれかに記載の属性抽出方法。
　前記属性名スコアは、前記属性グループの各文字列又は画像の出現確率の平均である請求項１から請求項５のいずれかに記載の属性抽出方法。
　属性名の候補である属性名候補と、前記属性名候補を含む属性グループの文字列又は画像との共起確率を計算し、
　前記属性名グループの文字列又は画像のうち、前記属性名候補又は前記属性名候補との共起確率に基づいて選択された文字列又は画像から属性名を選択し、この属性名を含む文字列又は画像を有し、かつ、前記属性名を含む文字列又は画像の描画位置が前記属性名グループの描画位置と該同一な属性グループの文字列又は画像から属性値を抽出する
請求項１から請求項６のいずれかに記載の属性抽出方法。
　文字列又は画像に前記入力語を含む属性グループの文字列又は画像から入力語となりうる第２の入力語を抽出し、前記第２の入力語を含む文書を抽出する請求項２から請求項７のいずれかに記載の属性抽出方法。
　文書が記憶されている文書記憶部と、
　前記文書記憶部に記憶されている文書における文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を選択して属性グループを抽出する属性グループ抽出部と、
　前記属性グループが属性名の集合である度合を示す属性名スコアを計算し、前記属性名スコアに基づいて、前記属性グループ候補のうちから属性名グループを選択する属性名グループ選択部と、
　前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、かつ、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一の属性グループを選択し、前記該同一な描画位置の文字列又は画像から属性名を抽出し、前記選択された属性グループの文字列又は画像のうち前記該同一な描画位置の文字列又は画像以外から、前記属性名に対応する属性値を抽出する属性抽出部と
を有する属性抽出システム。
　属性を知りたい事物に関する入力語が記憶されている入力語記憶部を有し、
　前記属性グループ抽出部は、前記入力語を含む文書を対象とする
請求項９に記載の属性抽出システム。
　前記属性グループ抽出部は、所定の規則に基づいて、文書を文字列又は画像に区切り、前記各文字列又は画像の描画位置を計算し、各文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとする
請求項９又は請求項１０に記載の属性抽出システム。
　前記属性抽出部は、前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一であり、かつ、前記属性名グループの文字列又は画像の描画位置方向に対して直角方向に文字列又は画像の描画位置がある属性グループを選択する請求項９から請求項１１のいずれかに記載の属性抽出システム。
　前記属性名グループ選択部は、前記属性名スコアが所定の閾値よりも大きい属性グループを、属性名グループとして選択する請求項９から請求項１２のいずれかに記載の属性抽出システム。
　前記属性名グループ選択部は、前記属性グループの文字列又は画像に含まれる単語の出現確率の平均を属性名スコアとして計算する請求項９から請求項１３のいずれかに記載の属性抽出システム。
　属性名となる単語の候補である属性候補が記憶された属性候補記憶部と、
　属性名の候補である属性名候補と、前記属性名候補を含む属性グループの文字列又は画像との共起確率を計算する共起確率計算部とを有し、
　前記属性抽出部は、前記属性名グループの文字列又は画像のうち、前記属性名候補又は前記属性名候補との共起確率に基づいて選択された文字列又は画像から属性名を選択し、この属性名を含む文字列又は画像を有し、かつ、前記属性名を含む文字列又は画像の描画位置が前記属性名グループの描画位置と該同一な属性グループの文字列又は画像から属性値を抽出する
請求項９から請求項１４のいずれかに記載の属性抽出システム。
　文字列又は画像に前記入力語を含む属性グループの文字列又は画像から入力語となりうる第２の入力語を抽出する入力語抽出部を有する請求項１０から請求項１５のいずれかに記載の属性抽出システム。
　文書における文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとして抽出する属性グループ抽出処理と、
　前記属性グループが属性名の集合である度合を示す属性名スコアを計算し、前記属性名スコアに基づいて、前記属性グループのうちから属性名グループを選択する属性名グループ選択処理と、
　前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、かつ、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一の属性グループを選択し、前記該同一な描画位置の文字列又は画像から属性名を抽出する属性名抽出処理と、
　前記選択された属性グループの文字列又は画像のうち前記該同一な描画位置の文字列又は画像以外から、前記属性名に対応する属性値を抽出する属性値抽出処理と
を情報処理装置に実行させるプログラム。
　属性を知りたい事物に関する入力語を登録し、文書群のうちから、前記入力語を含む文書を抽出する文書抽出処理を情報処理装置に実行させる請求項１７に記載のプログラム。
　前記属性名グループ選択処理は、
　所定の規則に基づいて、文書を文字列又は画像に区切る処理と、
　前記各文字列又は画像の描画位置を計算する処理と、
　文字列又は画像の描画位置が一方向にならぶ文字列又は画像の組を属性グループとして抽出する処理と
を有する請求項１７又は請求項１８に記載のプログラム。
　前記属性名抽出処理は、
　前記属性名グループの少なくとも一以上の文字列又は画像と、該同一な文字列又は画像を含み、前記該同一な文字列又は画像の描画位置が前記属性名グループの前記文字列又は画像の描画位置と該同一であり、かつ、前記属性名グループの文字列又は画像の描画位置方向に対して直角方向に文字列又は画像の描画位置がある属性グループを選択する請求項１７から請求項１９のいずれかに記載のプログラム。
　前記属性名グループ選択処理は、前記属性名スコアが所定の閾値よりも大きい属性グループを、属性名グループとして選択する請求項１７から請求項２０のいずれかに記載のプログラム。
　前記属性名スコアは、前記属性グループの各文字列又は画像の出現確率の平均である請求項１７から請求項２１のいずれかに記載のプログラム。
　前記属性名抽出処理は、属性名の候補である属性名候補と、前記属性名候補を含む属性グループの文字列又は画像との共起確率を計算し、前記属性名グループの文字列又は画像のうち、前記属性名候補又は前記属性名候補との共起確率に基づいて選択された文字列又は画像から属性名を選択し、
　前記属性値抽出処理は、この属性名を含む文字列又は画像を有し、かつ、前記属性名を含む文字列又は画像の描画位置が前記属性名グループの描画位置と該同一な属性グループの文字列又は画像から属性値を抽出する
請求項１７から請求項２２のいずれかに記載のプログラム。
　文字列又は画像に前記入力語を含む属性グループの文字列又は画像から入力語となりうる第２の入力語を抽出し、前記第２の入力語を含む文書を抽出する処理を情報処理装置に実行させる請求項１８から請求項２３のいずれかに記載のプログラム。