JP5308918B2 - キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム - Google Patents

キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム Download PDF

Info

Publication number
JP5308918B2
JP5308918B2 JP2009130604A JP2009130604A JP5308918B2 JP 5308918 B2 JP5308918 B2 JP 5308918B2 JP 2009130604 A JP2009130604 A JP 2009130604A JP 2009130604 A JP2009130604 A JP 2009130604A JP 5308918 B2 JP5308918 B2 JP 5308918B2
Authority
JP
Japan
Prior art keywords
keyword
list
keywords
search
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009130604A
Other languages
English (en)
Other versions
JP2010277415A (ja
Inventor
浩之 戸田
由美子 松浦
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009130604A priority Critical patent/JP5308918B2/ja
Publication of JP2010277415A publication Critical patent/JP2010277415A/ja
Application granted granted Critical
Publication of JP5308918B2 publication Critical patent/JP5308918B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンピュータ内部に存在する電子文書から、該文書の内容を適切に表現するキーワードを抽出する技術に関する。
Web上の電子文書を収集し、ユーザに検索を可能とするWebサーチエンジンは、インターネット上の情報取得にはなくてはならないツールとなっている。ところが近年、Webサーチエンジンが返却する文書数はますます増加し、ユーザの必要とする文書をWebサーチエンジンの検索結果から探し出すことが難しくなっている。
そこで従来から、電子文書を解析して該文書の内容を表現する語(キーワード)を抽出する様々な方法が提案されている。
一つは「固有表現抽出」と呼ばれる技術であり、これは文書を解析して用語を抽出するとともに、抽出した用語に人名、組織名、地名などのタイプを割り当てる技術である。これにより、タイプ別のキーワードが抽出でき、文書の分析や検索に利用することが可能となる。この技術は非特許文献1に記載されている。
また、別な技術として「名詞句抽出」と呼ばれる技術があり、これは品詞情報などを基にしたパターンや周辺に出現する形態素の分布などを基に、名詞もしくは名詞句を構成する形態素列をキーワードとして抽出する手法である。これは「固有表現抽出」と異なり、単にキーワードを抽出するのみであるが、「固有表現抽出」では抽出できないキーワードを抽出できる可能性もある。この技術は非特許文献2に記載されている。
David Nadeau,Satoshi Sekine,"A survey of named entity recognition and classification",Journal of Linguisticae Investigationes 30−1 2007. 石井恵,渡辺一成,"分類体系と名詞句を用いた検索インタフェースの提案とその評価",情報処理学会研究報告 HCI Vol.2000 No.12. Marius Pasca,"Acquisition of Categorized Named Entities for Web Search",Proceedings of the 13th ACM Conference on Information and Knowledge Management(CIKM−04),2004,pp.137−145.
しかしながら、非特許文献1の「固有表現抽出」では、キーワードの種類毎に人手で作成したトレーニングデータを大量に用意する必要があり、人名、地名、組織名以外の幅広い分野のキーワード抽出が困難なおそれがある。
また、非特許文献2の「名詞句抽出」では、基本的にはパターンを基に名詞句を網羅的に抽出するため、不自然な位置で区切れたキーワードや、逆に不自然に接続されたキーワードが抽出されるおそれがある。また、ここで取得されたキーワードをその種別に応じて分類することが困難なおそれもある。
本発明は、このような問題を解決するためになされたものであり、人手によるトレーニングデータを用いることなく、電子文書の内容を表現するキーワードを適切に抽出することを解決課題としている。
そこで本発明は、前記課題を解決するため、検索エンジンに入力される検索条件(クエリ)は、人が適切であると想定した単位で区切られたキーワードが含まれ、該キーワードを検索エンジンに投入した検索結果のタイトルや概要文は、該キーワードが利用される用例として適切なことを利用する。
本発明の一態様は、検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する方法であって、リスト生成手段が、前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成する第1ステップと、収集手段が、前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する第2ステップと、モデル生成手段が、前記第2ステップで収集された用例を基に前記モデルを生成する第3ステップと、を有する。
本発明の他の態様は、検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する装置であって、前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成するリスト生成手段と、前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する収集手段と、前記収集手段で収集された用例を基に前記モデルを生成するモデル生成手段と、を備える。
なお、本発明は、前記キーワード抽出装置としてコンピュータを機能させるプログラムの態様として提供してもよい。
本発明によれば、人手によるトレーニングデータを用いることなく、電子文書の内容を表現するキーワードを適切に抽出することができる。
本発明の実施形態に係るキーワード抽出装置の構成図。 同 キーワード抽出モデル生成の処理フロー。 同 キーワードの用例の分類例。
以下、本発明の実施形態を説明する。本発明によれば、検索エンジンのクエリログから得られるキーワードの集合および各キーワードの検索結果のタイトル・概要文の集合を基に、各キーワードの抽出モデルが生成される。
この抽出モデルは、各キーワードやその近傍の語が一般的に含んでいると想定される形態素や品詞などのパターンを示す。この抽出モデルを任意の電子文書に適用することにより、該文書から適切なキーワードを抽出する。
<装置構成例>
図1に示すように、本発明の実施形態に係るキーワード抽出装置1は、ネットワークを介して検索エンジン2と通信可能に接続されている。
前記検索エンジン2は、Web上に公開されている電子文書(Webページ)を検索する通常のWebサーチエンジンで構成され、ユーザ端末(図示省略)から受け付けたクエリを時系列に記録するクエリログ3と、該クエリに該当する電子文書を検索してユーザ端末に返信するための検索実行手段4とを備えている。
前記キーワード抽出装置1は、通常のコンピュータのハードウェア資源、即ちCPU(Central Processor Unit)、メモリ(RAM)、ハードディスクドライブ装置、通信インタフェースなどを備えている。このハードウェア資源とソフトウェアとの協働の結果、前記キーワード抽出装置1は、キーワードリスト生成手段5,キーワード分類手段6,用例収集手段7,モデル生成手段8,キーワード抽出モデルデータベース9,キーワード抽出手段10を実装する。
このうち前記各手段5〜8は、キーワードの抽出モデルを生成するモデル生成処理を実施する。即ち、前記キーワードリスト生成手段5は、前記クエリログ3を解析して一定の条件を満たすクエリをキーワードとして取得し、該キーワードのリストを生成する。
前記キーワード分類手段6は、前記クエリログ3および予め前記抽出装置1に登録してある大量の言語データ(コーパス)を解析して、前記リスト中の各キーワードをその種別に応じて分類する。
前記用例収集手段7は、前記種別毎に分類されたキーワードのリストを取得し、各キーワードを基に前記検索実行手段4にアクセスし、検索結果のタイトルおよび概要文から各キーワードの用例を取得する。
前記モデル生成手段8は、前記用例を基に、各キーワードを抽出するための抽出モデルを生成する。ここで生成された抽出モデルは、前記キーワード抽出モデルデータベース9に格納される。このデータベース9は、前記ハードディスクドライブ装置上に構築されているものとする。
前記キーワード抽出手段10は、前記キーワード抽出モデルデータベース9に格納された抽出モデルを任意の電子文書に適用して、該文書の内容を表現するキーワードを抽出するキーワード抽出処理を実施する。以下、この各処理の具体的内容を説明する。
<モデル生成処理>
まず、前記モデル生成処理を図2の処理フローに基づき詳細に説明する。このモデル生成処理は、前記キーワード抽出装置1の主要な処理に該当する。
ここでは、前記キーワードリスト生成手段5が前記通信インタフェースを介して前記クエリログ3へアクセスし、該クエリログ3を取得するものとする。
ここで前記クエリログ3には、過去にユーザ端末から前記検索エンジン2に投入されたクエリ(検索キーワード)のログが記録されている。このログは、入力されたクエリおよび入力された日時の組合せなどが時系列に記録されたものである。このクエリログ3の格納データ例を表1に示す。
Figure 0005308918
S01:前記キーワードリスト生成手段5は、前記クエリログ3を解析し、一定の条件を満たすクエリをキーワードとして抽出し、キーワードリストを生成する。条件の例としては、「検索条件として一定の頻度以上で利用されること」や「検索結果として一定数以上の文書が存在すること」などが挙げられる。使用する条件は、仕様に応じて予めプログラムに設定しておけばよい。
このように生成されたキーワードリストおよび前記クエリログ3は、前記キーワード分類手段6へ転送される。このとき、生成された前記キーワードリストは前記メモリなどに記憶してもよい。
S02:前記キーワード分類手段6は、前記クエリログ3を解析することで、S01で転送された前記キーワードリストの各キーワードを種別(カテゴリ)に応じて分類する。
分類方法としては、あらかじめ決められた種別に対して人手で分類する方法、あるいは非特許文献3のように人手で分類したキーワードの例を基に特定の種別のキーワードを発見する方法などが挙げられる。このとき、コンピュータで検索可能な大量の言語データ、即ち「コーパス」を予め前記キーワード抽出装置1に登録しておき、これを前記クエリログ3と併せて解析するようにしてもよい。
ここで分類されたリストは、前記キーワードリスト生成手段5を経由して前記用例収集手段7へ転送される。
S03:前記用例収集手段7は、S02で種別毎のキーワードリストが転送されると、各キーワードを基に前記検索実行手段4にアクセスし、検索結果のタイトルおよび概要文から各キーワードの用例を取得する。
即ち、前記用例収集手段7は、種別毎のキーワードリストが転送されると、該リストのキーワードを前記通信インタフェースを介して前記検索実行手段4に送信する。
前記検索実行手段4は、前記キーワードを受信すると、該キーワードに該当する検索結果の文書のタイトル、URL、および該文書中で該キーワードが含まれる部分を概要文として、前記通信インタフェースを介して前記キーワード抽出装置1に返信する。
このとき、前記検索実行手段4にて、前記用例収集手段7から受信したキーワードをもって新たに文書検索を行い、その検索結果の文書のタイトル、URLおよび概要文を返信するようにしてもよい。
このように前記キーワード抽出装置1に返信された前記タイトル、URLおよび概要文は、前記用例収集手段7に転送される。ここでは、前記用例収集手段7は、転送されたタイトルおよび概要文からキーワードの用例を取得する。
なお、初期のWebサーチエンジンでは文書の冒頭部分が概要文として用いられていたが、1990年代後半にGoogle(登録商標)が検索キーワード周辺のテキストを提示するようになり、現在の主流となっている。
S04:前記用例収集手段7は、取得した用例をキーワードの種別に応じて分類する。
ここで用例の分類例を図3に示す。ここでは各キーワード「○○大章典」「○○王冠」「京都○○杯」の用例が「レース名」という種別にそれぞれ分類されている。ここで分類された用例は、前記モデル生成手段8に転送される。
S05:前記モデル生成手段8は、S04で分類された用例が転送されると、種別毎にキーワードを抽出するためのモデルを生成する。モデルの生成に利用される素性としては、例えば以下のような例が挙げられる。
1.そのキーワードの構成形態素
2.そのキーワードの近傍の形態素
3.そのキーワードの構成形態素の品詞
4.そのキーワードの近傍の形態素の品詞
5.そのキーワードが出現する文脈で出現する形態素
例えば図3の例では、「京都○○杯」というキーワードに対し、素性1「そのキーワードの構成形態素」を適用した場合は、語尾に「杯」という形態素を含む「○○○杯」や、語頭に「京都」などの地名を含む「(地名)○○○」などのようなモデルが生成される。
また、「○○大章典」というキーワードに対し、素性2「そのキーワードの近傍の形態素」を適用した場合は、「○○大章典」の近傍の形態素(ここでは「第40回」や「(G2)」など)に着目し、「第○回○○○」や「○○○(G2)」などといったモデルが生成される。生成されたモデルは、前記キーワード抽出モデルデータベース9に格納される。
<キーワード抽出処理>
前記キーワード抽出手段10は、前記キーワード抽出モデルデータベース9に格納されたキーワード抽出モデルを用いて、任意の電子文書からキーワードを抽出する。
抽出処理の具体例としては、文書全体をパターンマッチングなどの文字列探索手法で探索し、該文書中から前記モデルに該当する文字列をキーワードとして抽出する方法が挙げられる。
なお、抽出されたキーワードは、ディスプレイなどの出力手段に出力してもよく、データベースなどの保存手段に保存してもよい。また、前記モデル生成手段8、前記キーワード抽出モデルデータベース9、および前記キーワード抽出手段10の具体的な実現形態については、サポート・ベクター・マシン(SVM:Support Vector Machine)やCRF(Conditional Randam Field)、決定木などの各種学習アルゴリズムを利用することが考えられる。
このように、前記キーワード抽出装置1によれば、検索エンジンへ投入されたキーワードと、検索エンジンが出力する検索結果のタイトルや概要文の情報を基に、自然な単位のキーワードを人手によるトレーニングデータを用いることなく種別毎に抽出することができる。
ここで抽出されたキーワードは、検索結果のタイトルおよび概要文から生成された抽出モデルに沿っていることから、情報の単位として適切であると考えられ、テキスト集合の分析などに利用できる。
また、抽出されたキーワードは文書の内容を適切に表現していると考えられることから、該キーワードを該文書の検索インデクスとして使用すれば文書検索時の検索精度の向上が期待できる。
本発明は、前記キーワード抽出装置1の各手段5〜10の一部もしくは全部としてコンピュータを機能させるプログラムに構成することもできる。この場合には、前記実施形態の処理ステップ(S01〜S05)の全てあるいは一部をコンピュータに実行させる。
このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に格納して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置(光学ドライブ装置など)を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…キーワード抽出装置
2…検索エンジン
3…クエリログ
4…検索実行手段
5…キーワードリスト生成手段
6…キーワード分類手段
7…用例収集手段
8…モデル生成手段
9…キーワード抽出モデルデータベース
10…キーワード抽出手段

Claims (3)

  1. 検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する方法であって、
    リスト生成手段が、前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成する第1ステップと、
    収集手段が、前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する第2ステップと、
    モデル生成手段が、前記第2ステップで収集された用例を基に前記モデルを生成する第3ステップと、
    分類手段が、前記リスト中のキーワードを種別毎に分類し、該種別毎にキーワードを抽出する第4ステップと、
    を有することを特徴とするキーワード抽出方法。
  2. 検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する装置であって、
    前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成するリスト生成手段と、
    前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する収集手段と、
    前記収集手段で収集された用例を基に前記モデルを生成するモデル生成手段と、
    前記リスト中のキーワードを種別毎に分類し、該種別毎にキーワードを抽出する分類手段と、
    を備えることを特徴とするキーワード抽出装置。
  3. 請求項に記載のキーワード抽出装置としてコンピュータを機能させることを特徴とするキーワード抽出プログラム。
JP2009130604A 2009-05-29 2009-05-29 キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム Expired - Fee Related JP5308918B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009130604A JP5308918B2 (ja) 2009-05-29 2009-05-29 キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009130604A JP5308918B2 (ja) 2009-05-29 2009-05-29 キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム

Publications (2)

Publication Number Publication Date
JP2010277415A JP2010277415A (ja) 2010-12-09
JP5308918B2 true JP5308918B2 (ja) 2013-10-09

Family

ID=43424307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009130604A Expired - Fee Related JP5308918B2 (ja) 2009-05-29 2009-05-29 キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム

Country Status (1)

Country Link
JP (1) JP5308918B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5528402B2 (ja) * 2011-08-26 2014-06-25 日本電信電話株式会社 キーワード関連地名抽出装置及び方法及びプログラム
US9792629B2 (en) * 2013-08-05 2017-10-17 Yahoo Holdings, Inc. Keyword recommendation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3787310B2 (ja) * 2002-03-08 2006-06-21 日本電信電話株式会社 キーワード決定方法、装置、プログラム、および記録媒体
JP2004234582A (ja) * 2003-02-03 2004-08-19 Hitachi Ltd 辞書構築方法,システム及び画面
JP4148247B2 (ja) * 2005-07-01 2008-09-10 日本電信電話株式会社 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5245255B2 (ja) * 2007-02-15 2013-07-24 富士通株式会社 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置

Also Published As

Publication number Publication date
JP2010277415A (ja) 2010-12-09

Similar Documents

Publication Publication Date Title
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
US8983963B2 (en) Techniques for comparing and clustering documents
JP5392077B2 (ja) オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
JP4724701B2 (ja) 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
US11687826B2 (en) Artificial intelligence (AI) based innovation data processing system
KR101933953B1 (ko) 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템
JP2020191075A (ja) Web APIおよび関連エンドポイントの推薦
JP4750832B2 (ja) 情報検索方法およびそのシステム
JP2002245061A (ja) キーワード抽出
Jean-Louis et al. An assessment of online semantic annotators for the keyword extraction task
Fantinuoli et al. Kudo interpreter assist: Automated real-time support for remote interpretation
JP2009122807A (ja) 連想検索システム
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
Lampos et al. Archiving the greek web
JP5308918B2 (ja) キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP5499546B2 (ja) 重要語抽出方法、装置、プログラム、記録媒体
KR102275095B1 (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP5393392B2 (ja) 時間表現抽出装置、時間表現抽出方法および時間表現抽出プログラム
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
JP2009282903A (ja) 知識抽出・検索装置およびその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130701

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5308918

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees