JP5308918B2

JP5308918B2 - キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム

Info

Publication number: JP5308918B2
Application number: JP2009130604A
Authority: JP
Inventors: 浩之戸田; 由美子松浦; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-05-29
Filing date: 2009-05-29
Publication date: 2013-10-09
Anticipated expiration: 2029-05-29
Also published as: JP2010277415A

Description

本発明は、コンピュータ内部に存在する電子文書から、該文書の内容を適切に表現するキーワードを抽出する技術に関する。

Ｗｅｂ上の電子文書を収集し、ユーザに検索を可能とするＷｅｂサーチエンジンは、インターネット上の情報取得にはなくてはならないツールとなっている。ところが近年、Ｗｅｂサーチエンジンが返却する文書数はますます増加し、ユーザの必要とする文書をＷｅｂサーチエンジンの検索結果から探し出すことが難しくなっている。

そこで従来から、電子文書を解析して該文書の内容を表現する語（キーワード）を抽出する様々な方法が提案されている。

一つは「固有表現抽出」と呼ばれる技術であり、これは文書を解析して用語を抽出するとともに、抽出した用語に人名、組織名、地名などのタイプを割り当てる技術である。これにより、タイプ別のキーワードが抽出でき、文書の分析や検索に利用することが可能となる。この技術は非特許文献１に記載されている。

また、別な技術として「名詞句抽出」と呼ばれる技術があり、これは品詞情報などを基にしたパターンや周辺に出現する形態素の分布などを基に、名詞もしくは名詞句を構成する形態素列をキーワードとして抽出する手法である。これは「固有表現抽出」と異なり、単にキーワードを抽出するのみであるが、「固有表現抽出」では抽出できないキーワードを抽出できる可能性もある。この技術は非特許文献２に記載されている。

ＤａｖｉｄＮａｄｅａｕ，ＳａｔｏｓｈｉＳｅｋｉｎｅ，"Ａｓｕｒｖｅｙｏｆｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎ"，ＪｏｕｒｎａｌｏｆＬｉｎｇｕｉｓｔｉｃａｅＩｎｖｅｓｔｉｇａｔｉｏｎｅｓ３０−１２００７．石井恵，渡辺一成，"分類体系と名詞句を用いた検索インタフェースの提案とその評価"，情報処理学会研究報告ＨＣＩＶｏｌ．２０００Ｎｏ．１２．ＭａｒｉｕｓＰａｓｃａ，"ＡｃｑｕｉｓｉｔｉｏｎｏｆＣａｔｅｇｏｒｉｚｅｄＮａｍｅｄＥｎｔｉｔｉｅｓｆｏｒＷｅｂＳｅａｒｃｈ"，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＡＣＭＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ（ＣＩＫＭ−０４），２００４，ｐｐ．１３７−１４５．

しかしながら、非特許文献１の「固有表現抽出」では、キーワードの種類毎に人手で作成したトレーニングデータを大量に用意する必要があり、人名、地名、組織名以外の幅広い分野のキーワード抽出が困難なおそれがある。

また、非特許文献２の「名詞句抽出」では、基本的にはパターンを基に名詞句を網羅的に抽出するため、不自然な位置で区切れたキーワードや、逆に不自然に接続されたキーワードが抽出されるおそれがある。また、ここで取得されたキーワードをその種別に応じて分類することが困難なおそれもある。

本発明は、このような問題を解決するためになされたものであり、人手によるトレーニングデータを用いることなく、電子文書の内容を表現するキーワードを適切に抽出することを解決課題としている。

そこで本発明は、前記課題を解決するため、検索エンジンに入力される検索条件（クエリ）は、人が適切であると想定した単位で区切られたキーワードが含まれ、該キーワードを検索エンジンに投入した検索結果のタイトルや概要文は、該キーワードが利用される用例として適切なことを利用する。

本発明の一態様は、検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する方法であって、リスト生成手段が、前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成する第１ステップと、収集手段が、前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する第２ステップと、モデル生成手段が、前記第２ステップで収集された用例を基に前記モデルを生成する第３ステップと、を有する。

本発明の他の態様は、検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する装置であって、前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成するリスト生成手段と、前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する収集手段と、前記収集手段で収集された用例を基に前記モデルを生成するモデル生成手段と、を備える。

なお、本発明は、前記キーワード抽出装置としてコンピュータを機能させるプログラムの態様として提供してもよい。

本発明によれば、人手によるトレーニングデータを用いることなく、電子文書の内容を表現するキーワードを適切に抽出することができる。

本発明の実施形態に係るキーワード抽出装置の構成図。同キーワード抽出モデル生成の処理フロー。同キーワードの用例の分類例。

以下、本発明の実施形態を説明する。本発明によれば、検索エンジンのクエリログから得られるキーワードの集合および各キーワードの検索結果のタイトル・概要文の集合を基に、各キーワードの抽出モデルが生成される。

この抽出モデルは、各キーワードやその近傍の語が一般的に含んでいると想定される形態素や品詞などのパターンを示す。この抽出モデルを任意の電子文書に適用することにより、該文書から適切なキーワードを抽出する。

＜装置構成例＞
図１に示すように、本発明の実施形態に係るキーワード抽出装置１は、ネットワークを介して検索エンジン２と通信可能に接続されている。

前記検索エンジン２は、Ｗｅｂ上に公開されている電子文書（Ｗｅｂページ）を検索する通常のＷｅｂサーチエンジンで構成され、ユーザ端末（図示省略）から受け付けたクエリを時系列に記録するクエリログ３と、該クエリに該当する電子文書を検索してユーザ端末に返信するための検索実行手段４とを備えている。

前記キーワード抽出装置１は、通常のコンピュータのハードウェア資源、即ちＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｏｒＵｎｉｔ）、メモリ（ＲＡＭ）、ハードディスクドライブ装置、通信インタフェースなどを備えている。このハードウェア資源とソフトウェアとの協働の結果、前記キーワード抽出装置１は、キーワードリスト生成手段５，キーワード分類手段６，用例収集手段７，モデル生成手段８，キーワード抽出モデルデータベース９，キーワード抽出手段１０を実装する。

このうち前記各手段５〜８は、キーワードの抽出モデルを生成するモデル生成処理を実施する。即ち、前記キーワードリスト生成手段５は、前記クエリログ３を解析して一定の条件を満たすクエリをキーワードとして取得し、該キーワードのリストを生成する。

前記キーワード分類手段６は、前記クエリログ３および予め前記抽出装置１に登録してある大量の言語データ（コーパス）を解析して、前記リスト中の各キーワードをその種別に応じて分類する。

前記用例収集手段７は、前記種別毎に分類されたキーワードのリストを取得し、各キーワードを基に前記検索実行手段４にアクセスし、検索結果のタイトルおよび概要文から各キーワードの用例を取得する。

前記モデル生成手段８は、前記用例を基に、各キーワードを抽出するための抽出モデルを生成する。ここで生成された抽出モデルは、前記キーワード抽出モデルデータベース９に格納される。このデータベース９は、前記ハードディスクドライブ装置上に構築されているものとする。

前記キーワード抽出手段１０は、前記キーワード抽出モデルデータベース９に格納された抽出モデルを任意の電子文書に適用して、該文書の内容を表現するキーワードを抽出するキーワード抽出処理を実施する。以下、この各処理の具体的内容を説明する。

＜モデル生成処理＞
まず、前記モデル生成処理を図２の処理フローに基づき詳細に説明する。このモデル生成処理は、前記キーワード抽出装置１の主要な処理に該当する。

ここでは、前記キーワードリスト生成手段５が前記通信インタフェースを介して前記クエリログ３へアクセスし、該クエリログ３を取得するものとする。

ここで前記クエリログ３には、過去にユーザ端末から前記検索エンジン２に投入されたクエリ（検索キーワード）のログが記録されている。このログは、入力されたクエリおよび入力された日時の組合せなどが時系列に記録されたものである。このクエリログ３の格納データ例を表１に示す。

Ｓ０１：前記キーワードリスト生成手段５は、前記クエリログ３を解析し、一定の条件を満たすクエリをキーワードとして抽出し、キーワードリストを生成する。条件の例としては、「検索条件として一定の頻度以上で利用されること」や「検索結果として一定数以上の文書が存在すること」などが挙げられる。使用する条件は、仕様に応じて予めプログラムに設定しておけばよい。

このように生成されたキーワードリストおよび前記クエリログ３は、前記キーワード分類手段６へ転送される。このとき、生成された前記キーワードリストは前記メモリなどに記憶してもよい。

Ｓ０２：前記キーワード分類手段６は、前記クエリログ３を解析することで、Ｓ０１で転送された前記キーワードリストの各キーワードを種別（カテゴリ）に応じて分類する。

分類方法としては、あらかじめ決められた種別に対して人手で分類する方法、あるいは非特許文献３のように人手で分類したキーワードの例を基に特定の種別のキーワードを発見する方法などが挙げられる。このとき、コンピュータで検索可能な大量の言語データ、即ち「コーパス」を予め前記キーワード抽出装置１に登録しておき、これを前記クエリログ３と併せて解析するようにしてもよい。

ここで分類されたリストは、前記キーワードリスト生成手段５を経由して前記用例収集手段７へ転送される。

Ｓ０３：前記用例収集手段７は、Ｓ０２で種別毎のキーワードリストが転送されると、各キーワードを基に前記検索実行手段４にアクセスし、検索結果のタイトルおよび概要文から各キーワードの用例を取得する。

即ち、前記用例収集手段７は、種別毎のキーワードリストが転送されると、該リストのキーワードを前記通信インタフェースを介して前記検索実行手段４に送信する。

前記検索実行手段４は、前記キーワードを受信すると、該キーワードに該当する検索結果の文書のタイトル、ＵＲＬ、および該文書中で該キーワードが含まれる部分を概要文として、前記通信インタフェースを介して前記キーワード抽出装置１に返信する。

このとき、前記検索実行手段４にて、前記用例収集手段７から受信したキーワードをもって新たに文書検索を行い、その検索結果の文書のタイトル、ＵＲＬおよび概要文を返信するようにしてもよい。

このように前記キーワード抽出装置１に返信された前記タイトル、ＵＲＬおよび概要文は、前記用例収集手段７に転送される。ここでは、前記用例収集手段７は、転送されたタイトルおよび概要文からキーワードの用例を取得する。

なお、初期のＷｅｂサーチエンジンでは文書の冒頭部分が概要文として用いられていたが、１９９０年代後半にＧｏｏｇｌｅ（登録商標）が検索キーワード周辺のテキストを提示するようになり、現在の主流となっている。

Ｓ０４：前記用例収集手段７は、取得した用例をキーワードの種別に応じて分類する。

ここで用例の分類例を図３に示す。ここでは各キーワード「○○大章典」「○○王冠」「京都○○杯」の用例が「レース名」という種別にそれぞれ分類されている。ここで分類された用例は、前記モデル生成手段８に転送される。

Ｓ０５：前記モデル生成手段８は、Ｓ０４で分類された用例が転送されると、種別毎にキーワードを抽出するためのモデルを生成する。モデルの生成に利用される素性としては、例えば以下のような例が挙げられる。
１．そのキーワードの構成形態素
２．そのキーワードの近傍の形態素
３．そのキーワードの構成形態素の品詞
４．そのキーワードの近傍の形態素の品詞
５．そのキーワードが出現する文脈で出現する形態素
例えば図３の例では、「京都○○杯」というキーワードに対し、素性１「そのキーワードの構成形態素」を適用した場合は、語尾に「杯」という形態素を含む「○○○杯」や、語頭に「京都」などの地名を含む「（地名）○○○」などのようなモデルが生成される。

また、「○○大章典」というキーワードに対し、素性２「そのキーワードの近傍の形態素」を適用した場合は、「○○大章典」の近傍の形態素（ここでは「第４０回」や「（Ｇ２）」など）に着目し、「第○回○○○」や「○○○（Ｇ２）」などといったモデルが生成される。生成されたモデルは、前記キーワード抽出モデルデータベース９に格納される。

＜キーワード抽出処理＞
前記キーワード抽出手段１０は、前記キーワード抽出モデルデータベース９に格納されたキーワード抽出モデルを用いて、任意の電子文書からキーワードを抽出する。

抽出処理の具体例としては、文書全体をパターンマッチングなどの文字列探索手法で探索し、該文書中から前記モデルに該当する文字列をキーワードとして抽出する方法が挙げられる。

なお、抽出されたキーワードは、ディスプレイなどの出力手段に出力してもよく、データベースなどの保存手段に保存してもよい。また、前記モデル生成手段８、前記キーワード抽出モデルデータベース９、および前記キーワード抽出手段１０の具体的な実現形態については、サポート・ベクター・マシン（ＳＶＭ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）やＣＲＦ（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄａｍＦｉｅｌｄ）、決定木などの各種学習アルゴリズムを利用することが考えられる。

このように、前記キーワード抽出装置１によれば、検索エンジンへ投入されたキーワードと、検索エンジンが出力する検索結果のタイトルや概要文の情報を基に、自然な単位のキーワードを人手によるトレーニングデータを用いることなく種別毎に抽出することができる。

ここで抽出されたキーワードは、検索結果のタイトルおよび概要文から生成された抽出モデルに沿っていることから、情報の単位として適切であると考えられ、テキスト集合の分析などに利用できる。

また、抽出されたキーワードは文書の内容を適切に表現していると考えられることから、該キーワードを該文書の検索インデクスとして使用すれば文書検索時の検索精度の向上が期待できる。

本発明は、前記キーワード抽出装置１の各手段５〜１０の一部もしくは全部としてコンピュータを機能させるプログラムに構成することもできる。この場合には、前記実施形態の処理ステップ（Ｓ０１〜Ｓ０５）の全てあるいは一部をコンピュータに実行させる。

このプログラムは、Ｗｅｂサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、ＣＤ−ＲＯＭ，ＤＶＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ，ＤＶＤ−Ｒ，ＤＶＤ−ＲＷ，ＭＯ，ＨＤＤ，Ｂｌｕ−ｒａｙＤｉｓｋ（登録商標）などの記録媒体に格納して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置（光学ドライブ装置など）を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。

１…キーワード抽出装置
２…検索エンジン
３…クエリログ
４…検索実行手段
５…キーワードリスト生成手段
６…キーワード分類手段
７…用例収集手段
８…モデル生成手段
９…キーワード抽出モデルデータベース
１０…キーワード抽出手段

Claims

検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する方法であって、
リスト生成手段が、前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成する第１ステップと、
収集手段が、前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する第２ステップと、
モデル生成手段が、前記第２ステップで収集された用例を基に前記モデルを生成する第３ステップと、
分類手段が、前記リスト中のキーワードを種別毎に分類し、該種別毎にキーワードを抽出する第４ステップと、
を有することを特徴とするキーワード抽出方法。
検索エンジンのログを利用して生成されたモデルを適用することで電子文書に含まれるキーワードを抽出する装置であって、
前記検索エンジンから取得したクエリログを解析して、一定の条件を満たすクエリを抽出してキーワードのリストを生成するリスト生成手段と、
前記検索エンジンから前記リスト中のキーワードの検索結果を取得し、該検索結果のタイトルおよび概要文においてキーワードが用いられる用例を収集する収集手段と、
前記収集手段で収集された用例を基に前記モデルを生成するモデル生成手段と、
前記リスト中のキーワードを種別毎に分類し、該種別毎にキーワードを抽出する分類手段と、
を備えることを特徴とするキーワード抽出装置。
請求項２に記載のキーワード抽出装置としてコンピュータを機能させることを特徴とするキーワード抽出プログラム。