JP4934115B2 - キーワード抽出装置、方法及びプログラム - Google Patents
キーワード抽出装置、方法及びプログラムInfo
- Publication number
- JP4934115B2 JP4934115B2 JP2008205896A JP2008205896A JP4934115B2 JP 4934115 B2 JP4934115 B2 JP 4934115B2 JP 2008205896 A JP2008205896 A JP 2008205896A JP 2008205896 A JP2008205896 A JP 2008205896A JP 4934115 B2 JP4934115 B2 JP 4934115B2
- Authority
- JP
- Japan
- Prior art keywords
- noun
- score
- keyword
- text
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
辞書データを用いるキーワード選定手法は、あらかじめ文書データの分類に有効と考えられる単語群を辞書データとして登録し、登録された単語をキーワードとして用いる手法である。この辞書データをキーワードとして利用する手法は、例えば特許文献1、特許文献2に記載されている。
分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法は、分類対象の文書データに含まれる文書の文法に基づいた形態素解析、あるいは独自の文法ルールによる解析を行い、その結果として抽出される単語をキーワードまたはその候補として用いる手法である。この手法は、例えば特許文献3、特許文献4に記載されている。
分類対象の文書データの総比較によるキーワード選定手法は、分類対象とる様々な文書データ各々の総比較を行い、様々な単語の出現頻度やその組み合わせデータを解析し、その解析結果に基づいてキーワードまたはキーワード候補を抽出する手法である。この手法は、例えば特許文献5に記載されている。
この問題点を解決しようとするアルゴリズムに、tf・idf(Term Frequency − Inverse Document Frequency、文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズム)がある(後述する)。
出手法における問題点を解決したキーワード抽出装置、方法及びプログラムを提供することを目的とする。
前記分割手段により分割された分割部分から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出手段と、
前記名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算手段と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断手段と、を備えることを特徴とするキーワード抽出装置。
前記判断手段によって前記キーワードであると判断された前記名詞の中で最も前記スコアが大きい最大スコア名詞を選択する選択手段と、
前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞および前記名詞の両方が含まれる検索件数とを検索し調査する検索手段と、
前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算手段と、
前記補正係数と前記演算手段によって演算された前記スコアとに基づいて、補正スコアを演算する補正スコア演算手段とを備え、
前記判断手段は、前記補正スコアに基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする(1)または(2)に記載のキーワード抽出装置。
前記判断手段は、前記補正スコアと前記スコアとの乗算演算値に基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする(3)に記載のキーワード抽出装置。
前記分割工程において分割された分割部分の形態素を抽出する形態素抽出工程と、
前記形態素抽出工程において抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出工程と、
前記名詞抽出工程において抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算工程と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断工程と、を備えることを特徴とするキーワード抽出方法。
図1には、本実施形態に係るキーワード抽出サーバ10と、ユーザ端末30とから構成される情報処理システム1を示す。なお、図1においては、情報処理システム1は、キーワード抽出サーバ10と、ユーザ端末30とがそれぞれ一つずつで示されているが、これに限られず、それぞれ複数台で構成されていてもよい。
演算部14は式(1)に基づいてスコアAを演算する。
判断基準は任意の値に予め設定しておくことが可能である。任意の値は試行錯誤を繰り返しながら決定することが可能である。
ここで、本発明を適用した場合において実現され得る具体的な処理手順について、図4に示すフローチャートを参照して説明する。なお、以下に示す処理手順は、一例であってこれ以外にも実現され得る処理手順は無数に存在する。
また、キーワードの特定方法の一例について以下に説明する。例えば、入力されたテキストが図5に示されるように以下の文章の場合に名詞抽出部13で抽出された名詞「デジカメ」、「カメラ」、「大写し」及び「グニャン」について本実施形態による補正スコアC(w)、スコアA(w)、スコアB(w)及び従来技術の一例であるtf・idfスコアについて演算過程を図6に示し、演算結果を図7に示し説明する。
[他のキーワードの特定方法]
新聞記事、雑誌記事、あるいはニュース情報等の情報源からキーワードを抽出したい場合がある。この場合にも、新聞記事、雑誌記事、あるいはニュース情報等の情報をテキスト化しておくことによって、本実施形態によるキーワード抽出サーバ10においてスコアA、スコアB、スコアCを使用した演算によってキーワードを抽出することができる。キーワードはスコアA、またはスコアCの値が高い値から選択することができる。
10 キーワード抽出サーバ
11 分割部
12 形態素抽出部
13 名詞抽出部
14 演算部
15 判断部
16 選択部
17 検索部
18 補正係数演算部
19 補正スコア演算部
20 文字情報データベース(DB)
30 ユーザ端末
Claims (5)
- インターネットにおいて送受信された文字情報を記憶した文字情報データベースと、
インターネットにおいて送受信された文字情報を記憶した前記文字情報データベースと異なる外部データベースと、
前記文字情報データベースから読み出されたテキストを句読点で分割する分割手段と、
前記分割手段により分割された分割部分から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出手段と、
前記名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしての基準スコアを演算する演算手段と、
前記演算の結果である前記基準スコアに基づいて、前記名詞をキーワード候補とするか否かを判断する判断手段と、
前記判断手段によって前記キーワード候補であると判断された前記名詞の中で最も前記基準スコアが大きい最大スコア名詞を選択する選択手段と、
前記最大スコア名詞と前記名詞とを前記外部データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数を検索し調査する検索手段と、
前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算手段と、
前記補正係数と前記演算手段によって演算された前記基準スコアとに基づいて、補正スコアを演算する補正スコア演算手段とを備え、
前記判断手段は、前記補正スコアと判断基準値とを比較して、前記キーワード候補と判断された前記名詞をキーワードとするか否かを判断することを特徴とするキーワード抽出装置。 - 前記演算手段は、前記名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を前記基準スコアとすることを特徴とする請求項1に記載のキーワード抽出装置。
- 前記補正係数演算手段は、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値を前記補正スコアとし、
前記判断手段は、前記補正スコアと前記基準スコアとの乗算演算値に基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする請求項1に記載のキーワード抽出装置。 - インターネットにおいて送受信された文字情報を記憶した文字情報データベースから読み出されたテキストを句読点で分割する分割工程と、
前記分割工程において分割された分割部分の形態素を抽出する形態素抽出工程と、
前記形態素抽出工程において抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出工程と、
前記名詞抽出工程において抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしての基準スコアを演算する演算工程と、
前記演算の結果である前記基準スコアに基づいて、前記名詞をキーワード候補とするか否かを判断する判断工程と、
前記判断工程において前記キーワード候補であると判断された前記名詞の中で最も前記基準スコアが大きい最大スコア名詞を選択する選択工程と、
前記最大スコア名詞と前記名詞とを、インターネットにおいて送受信された文字情報を記憶した前記文字情報データベースと異なる外部データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数を検索し調査する検索工程と、
前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算工程と、
前記補正係数と前記演算工程において演算された前記基準スコアとに基づいて、補正スコアを演算する補正スコア演算工程とを備え、
前記判断工程では、前記補正スコアに基づいて、前記名詞をキーワードとするか否かを判断することを特徴とするキーワード抽出方法。 - 請求項4に記載の方法をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205896A JP4934115B2 (ja) | 2008-08-08 | 2008-08-08 | キーワード抽出装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205896A JP4934115B2 (ja) | 2008-08-08 | 2008-08-08 | キーワード抽出装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010040020A JP2010040020A (ja) | 2010-02-18 |
JP4934115B2 true JP4934115B2 (ja) | 2012-05-16 |
Family
ID=42012454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008205896A Expired - Fee Related JP4934115B2 (ja) | 2008-08-08 | 2008-08-08 | キーワード抽出装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4934115B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101122436B1 (ko) * | 2010-09-30 | 2012-03-09 | 엔에이치엔(주) | 단어의 문서 관련도 점수 및 그래프 구조에 기반한 문서의 키워드 추출 방법 및 장치 |
CN104573055B (zh) * | 2015-01-21 | 2017-11-03 | 南京烽火星空通信发展有限公司 | 一种网络账号快速检索的分词方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5235105A (en) * | 1991-07-12 | 1993-08-10 | Hoechst Aktiengesellschaft | Process for the production of pure 3,3',4,4'-tetraamino-biphenyl |
JP2003162540A (ja) * | 2001-11-28 | 2003-06-06 | Seiko Epson Corp | データ検索装置およびデータ検索方法 |
JP2003281159A (ja) * | 2002-03-19 | 2003-10-03 | Fuji Xerox Co Ltd | 文書処理装置及び文書処理方法、文書処理プログラム |
JP4534666B2 (ja) * | 2004-08-24 | 2010-09-01 | 富士ゼロックス株式会社 | テキスト文検索装置及びテキスト文検索プログラム |
-
2008
- 2008-08-08 JP JP2008205896A patent/JP4934115B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010040020A (ja) | 2010-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101548096B1 (ko) | 문서 자동 요약 방법 및 서버 | |
US20180004838A1 (en) | System and method for language sensitive contextual searching | |
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
US8204736B2 (en) | Access to multilingual textual resources | |
JP2011118689A (ja) | 検索方法及びシステム | |
KR20150007647A (ko) | 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법 | |
CN107357777A (zh) | 提取标签信息的方法和装置 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
Silveira et al. | Combining a double clustering approach with sentence simplification to produce highly informative multi-document summaries | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
CN113743090B (zh) | 一种关键词提取方法及装置 | |
JP2004334766A (ja) | 単語分類装置、単語分類方法及び単語分類プログラム | |
JP7434125B2 (ja) | 文書検索装置、文書検索方法、及びプログラム | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム | |
JP6106489B2 (ja) | 語義解析装置、及びプログラム | |
Nwesri | Effective retrieval techniques for Arabic text | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JPH10254900A (ja) | 自動文書要約装置及び方法 | |
JP2007172179A (ja) | 意見抽出装置、意見抽出方法、および意見抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111025 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4934115 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A072 | Dismissal of procedure |
Free format text: JAPANESE INTERMEDIATE CODE: A072 Effective date: 20120710 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |