JP5223293B2 - 位置表現抽出装置、方法及びプログラム - Google Patents
位置表現抽出装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5223293B2 JP5223293B2 JP2007277705A JP2007277705A JP5223293B2 JP 5223293 B2 JP5223293 B2 JP 5223293B2 JP 2007277705 A JP2007277705 A JP 2007277705A JP 2007277705 A JP2007277705 A JP 2007277705A JP 5223293 B2 JP5223293 B2 JP 5223293B2
- Authority
- JP
- Japan
- Prior art keywords
- expression
- information
- text content
- extracting
- coordinate information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、本発明の位置表現抽出装置、方法及びプログラムの第1の実施形態を図面を参照しながら詳細に説明する。
図1は、第1の実施形態の位置表現抽出装置10の内部構成を示す内部構成図である。図1において、第1の実施形態の位置表現抽出装置10は、位置表現抽出部11、非テキストコンテンツ位置情報抽出部12、代表位置表現判定部13、位置表現・位置座標対応情報テーブル14を少なくとも有して構成される。
次に、第1の実施形態の位置表現抽出装置10による位置表現抽出処理について図面を参照しながら説明する。
以上のように、第1の実施形態によれば、対象とするウェブ文書に複数の位置表現が存在する場合において、非テキストコンテンツから求めた位置情報を基準として、この基準から最も距離が近い位置表現を出力することで、対象のウェブ文書の主題に関連の強い位置表現を選択及び出力することが可能となる。
第1の実施形態では、処理対象として「ウェブ文書」を例示して説明したが、一般的なHTML言語で記述されたウェブページに限定されるものではない。また、例えば、RDFやPDFなどいわゆるリッチメディアと呼ばれる、テキストとそれ以外のさまざまなメディア情報(非テキストコンテンツ)を併せ持つ文書に適用することができる。
Claims (7)
- 少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルと、
入力された文書から1又は複数の位置表現を抽出し、上記位置表現・位置座標情報対応テーブルを参照して、抽出した上記各位置表現の位置座標情報を求める位置表現抽出手段と、
上記文書から1又は複数の非テキストコンテンツを抽出し、上記各非テキストコンテンツに含まれている1又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段と、
上記非テキストコンテンツ位置情報抽出手段により抽出された上記各位置情報が示す位置と、上記位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、上記各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段と
を備えることを特徴とする位置表現抽出装置。 - 上記代表位置表現判定手段は、上記各非テキストコンテンツの上記各位置情報が示す位置と、抽出された上記各位置表現の位置座標情報が示す位置との距離に応じて、上記各位置表現に対して優先順位を付与することを特徴とする請求項1に記載の位置表現抽出装置。
- 上記代表位置表現判定手段は、当該非テキストコンテンツの上記位置情報が示す位置と、抽出されたすべての上記位置表現の位置座標情報が示す位置との距離が、予め定めた閾値より大きい場合、当該非テキストコンテンツに対する代表位置表現を選択しないことを特徴とする請求項1又は2に記載の位置表現抽出装置。
- 上記代表位置表現判定手段は、上記各非テキストコンテンツの上記各位置情報が示す位置と、抽出された上記各位置表現の位置座標情報が示す位置との距離が最小となる位置表現を出力することに代えて、上記各非テキストコンテンツの上記各位置情報が示す位置と、抽出された上記各位置表現の位置座標情報が示す位置との距離が小さい順に複数の位置表現を並べ替えて、予め定められた個数の上記各位置表現を出力することを特徴とする請求項1〜3のいずれかに記載の位置表現抽出装置。
- 上記非テキストコンテンツ位置情報抽出手段は、上記各非テキストコンテンツに含まれる上記位置情報が位置座標情報でない場合、上記位置表現・位置座標情報対応テーブルを参照して、上記各非テキストコンテンツの各位置情報から位置座標情報を取得することを特徴とする請求項1に記載の位置表現抽出装置。
- コンピュータが、少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルと、位置表現抽出手段と、非テキストコンテンツ位置情報抽出手段と、代表位置表現判定手段とを備え、
上記位置表現抽出手段が、入力された文書から1又は複数の位置表現を抽出し、上記位置表現・位置座標情報対応テーブルを参照して、抽出した上記各位置表現の位置座標情報を求める位置表現抽出工程と、
上記非テキストコンテンツ位置情報抽出手段が、上記文書から1又は複数の非テキストコンテンツを抽出し、上記各非テキストコンテンツに含まれている1又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出工程と、
上記代表位置表現判定手段が、上記非テキストコンテンツ位置情報抽出手段により抽出された上記各位置情報が示す位置と、上記位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、上記各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定工程と
を有することを特徴とする位置表現抽出方法。 - コンピュータが、少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルを有し、
コンピュータを、
入力された文書から1又は複数の位置表現を抽出し、上記位置表現・位置座標情報対応テーブルを参照して、抽出した上記各位置表現の位置座標情報を求める位置表現抽出手段、
上記文書から1又は複数の非テキストコンテンツを抽出し、上記各非テキストコンテンツに含まれている1又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段、
上記非テキストコンテンツ位置情報抽出手段により抽出された上記各位置情報が示す位置と、上記位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、上記各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段
として機能させる位置表現抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007277705A JP5223293B2 (ja) | 2007-10-25 | 2007-10-25 | 位置表現抽出装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007277705A JP5223293B2 (ja) | 2007-10-25 | 2007-10-25 | 位置表現抽出装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009104528A JP2009104528A (ja) | 2009-05-14 |
JP5223293B2 true JP5223293B2 (ja) | 2013-06-26 |
Family
ID=40706116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007277705A Expired - Fee Related JP5223293B2 (ja) | 2007-10-25 | 2007-10-25 | 位置表現抽出装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5223293B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5533510B2 (ja) * | 2010-09-29 | 2014-06-25 | 日本電気株式会社 | コンテンツ作成支援装置、及び、コンテンツ作成支援装置の制御プログラム |
JP5731940B2 (ja) * | 2011-09-29 | 2015-06-10 | 株式会社Nttドコモ | テキスト位置判定装置及びテキスト位置判定方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004280659A (ja) * | 2003-03-18 | 2004-10-07 | Kddi Corp | 住所情報の自動抽出方法、抽出装置、位置情報提供方法及び提供装置 |
JP2007052581A (ja) * | 2005-08-17 | 2007-03-01 | Sony Corp | メタデータ生成装置、メタデータ生成システム、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラム |
JP4232774B2 (ja) * | 2005-11-02 | 2009-03-04 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
-
2007
- 2007-10-25 JP JP2007277705A patent/JP5223293B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009104528A (ja) | 2009-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5353148B2 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
US10437907B2 (en) | Link expansion service | |
US9361317B2 (en) | Method for entity enrichment of digital content to enable advanced search functionality in content management systems | |
JP2010073114A6 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
US9928415B2 (en) | Mathematical formula learner support system | |
JP2009122760A (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
US7899808B2 (en) | Text enhancement mechanism | |
CN108900554B (zh) | Http协议资产检测方法、***、设备及计算机介质 | |
JP5989170B2 (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
US8850359B2 (en) | Image processor and image processing method | |
US20070185832A1 (en) | Managing tasks for multiple file types | |
JP7290391B2 (ja) | 情報処理装置及びプログラム | |
JP2012038207A (ja) | データ検索装置及びその制御方法、コンピュータプログラム | |
US9898463B2 (en) | Document management server, document management method, and non-transitory storage medium storing program | |
JP5223293B2 (ja) | 位置表現抽出装置、方法及びプログラム | |
US20090313558A1 (en) | Semantic Image Collection Visualization | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP5712496B2 (ja) | アノテーション復元方法、アノテーション付与方法、アノテーション復元プログラム及びアノテーション復元装置 | |
JP4885678B2 (ja) | コンテンツ作成装置及びコンテンツ作成方法 | |
US20120197909A1 (en) | Method for determining a similarity of objects | |
CN103970799B (zh) | 一种电子文档的生成方法、装置和客户端 | |
JP5765452B2 (ja) | アノテーション付与復元方法及びアノテーション付与復元装置 | |
JP2011054006A (ja) | 画像のキーワード決定システム | |
JP2009110506A (ja) | 情報処理装置及び情報処理プログラム | |
JP2010009414A (ja) | 関連情報登録装置、関連情報登録方法および関連情報登録プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120731 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5223293 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |