JP7139271B2

JP7139271B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7139271B2
Application number: JP2019053170A
Authority: JP
Inventors: 俊平大倉
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2022-09-20
Anticipated expiration: 2039-03-20
Also published as: JP2020154790A

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

文章に含まれる固有表現（例えば固有名詞）を特徴量として用いることで、その文章の内容を、機械学習に利用可能な表現に置き換えることが研究されている。これに関連し、入力テキストを、形態素解析によってフレーズに区分し、予め印象要素とそのスコアがフレーズに対応付けられた印象辞書を用いて、入力テキストを区分したフレーズ毎に、印象要素及びスコアを対応付けたフレーズリストを生成し、入力テキストのフレーズ全体から各印象要素の尤度を算出し、当該尤度を、各印象要素のスコアとして対応付けた客観的印象を算出し、主観的印象に基づく当該印象要素のスコアと、客観的印象に基づく該印象要素のスコアとを比較した印象差分情報を算出する技術が知られている（例えば、特許文献１参照）。

特開２０１７－８４０１５号公報

世間では、新語や造語といった今まで使われていなかった新しい言葉が流行する場合がある。例えば、ユニークなタイトルが付けられた新作のコンテンツが公開され、そのコンテンツが人々の間で話題となれば、ユニークなタイトルが新しい言葉として流行することになる。しかしながら、従来の技術では、流行に合わせて辞書を頻繁に更新するのは困難な場合が多く、更には、どのような文章から辞書に登録すべき固有表現を探すべきなのかが十分に検討されていなかった。このようなことから、従来の技術では、文書から固有表現を精度よく抽出できない場合があった。

本発明は、上記の課題に鑑みてなされたものであり、文書から精度よく固有表現を抽出することができる情報処理装置、情報処理方法、及びプログラムを提供することを目的としている。

本発明の一態様は、文章を、少なくとも一文字以上を含む文字列に分割する分割部と、ユーザによって入力された複数のクエリに基づいて、前記分割部により分割された前記文字列ごとにスコアを算出する算出部と、前記算出部によって算出された前記スコアに基づいて、前記文章から固有表現を抽出する抽出部と、を備える情報処理装である。

本発明の一態様によれば、文書から精度よく固有表現を抽出することができる。

第１実施形態における情報処理装置１００を含む情報処理システム１の一例を示す図である。第１実施形態における情報処理装置１００の構成の一例を示す図である。検索ログ１３２の一例を示す図である。第１実施形態における制御部１１０の一連の処理の流れを示すフローチャートである。３文字のテキストから固有表現を抽出する方法を模式的に示す図である。３文字のテキストから固有表現を抽出する方法を模式的に示す図である。３文字のテキストから固有表現を抽出する方法を模式的に示す図である。３文字のテキストから固有表現を抽出する方法を模式的に示す図である。４文字のテキストから固有表現を抽出する方法を模式的に示す図である。４文字のテキストから固有表現を抽出する方法を模式的に示す図である。４文字のテキストから固有表現を抽出する方法を模式的に示す図である。４文字のテキストから固有表現を抽出する方法を模式的に示す図である。４文字のテキストから固有表現を抽出する方法を模式的に示す図である。４文字のテキストから固有表現を抽出する方法を模式的に示す図である。４文字のテキストから固有表現を抽出する方法を模式的に示す図である。４文字のテキストから固有表現を抽出する方法を模式的に示す図である。スコア算出対象のパターンの決定方法を説明するための図である。スコア算出対象のパターンの決定方法を説明するための図である。スコア算出対象のパターンの決定方法を説明するための図である。

以下、本発明を適用した情報処理装置、情報処理方法、及びプログラムを、図面を参照して説明する。

［概要］
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、文章を、少なくとも一文字以上を含む文字列に分割し、ユーザによって入力された複数のクエリの履歴である検索ログに基づいて、文字列ごとにスコアを算出する。そして、情報処理装置は、算出したスコアに基づいて、文章から固有表現を抽出する。これによって、文書から精度よく固有表現を抽出することができる。この結果、例えば、文章の内容を的確に表した分散表現を得ることができる。

＜第１実施形態＞
［全体構成］
図１は、第１実施形態における情報処理装置１００を含む情報処理システム１の一例を示す図である。第１実施形態における情報処理システム１は、例えば、一つ以上の端末装置１０と、サービス提供装置２０と、情報処理装置１００とを備える。これらの装置のうち一部または全部は、ネットワークＮＷを介して互いに接続される。なお、これらの装置のうち一部は、仮想的な装置として他の装置に包含されてもよく、例えば、サービス提供装置２０の機能の一部または全部が、情報処理装置１００の機能によって実現される仮想マシンであってもよいし、これとは反対に、情報処理装置１００の機能の一部または全部が、サービス提供装置２０の機能によって実現される仮想マシンであってもよい。

図１に示す各装置は、ネットワークＮＷを介して種々の情報を送受信する。ネットワークＮＷは、例えば、無線基地局、Ｗｉ‐Ｆｉアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図１に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークＮＷは、一部にローカルなネットワークを含んでもよい。

端末装置１０は、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、ＮＩＣ（Network Interface Card）などのネットワークカード、無線通信モジュールなどを含む。端末装置１０では、ウェブブラウザやアプリケーションプログラムなどのＵＡ（User Agent）が起動し、ユーザの入力に応じたリクエストをサービス提供装置２０に送信する。また、ＵＡが起動された端末装置１０は、サービス提供装置２０から取得した情報に基づいて、表示装置に各種画像を表示させる。

サービス提供装置２０は、例えば、ＵＡとして起動されたウェブブラウザからのリクエストに応じてウェブページを端末装置１０に提供するウェブサーバである。ウェブページは、例えば、ショッピングサイトやオークションサイト、フリーマーケットサイトといった各種ウェブサイトを構成するウェブページであってよい。また、サービス提供装置２０は、検索サイトやＳＮＳ（Social Networking Service）、メールサービスなどの各種サービスを提供するウェブページを端末装置１０に提供してもよい。また、サービス提供装置２０は、ＵＡとして起動されたアプリケーションからのリクエストに応じてコンテンツを端末装置１０に提供することで、販売サイトなどの各種ウェブサイトと同様のサービスを提供するアプリケーションサーバであってもよい。

情報処理装置１００は、サービス提供装置２０から検索ログを取得し、その検索ログを用いて、文章から固有表現を抽出する。本実施形態に係る固有表現には、例えば、名詞のような一つの単語（ワード）だけでなく、名詞と名詞とが他の品詞（例えば助詞）で接続された一つの句（フレーズ）や、名詞や動詞、助詞、助動詞などの種々の品詞を含む一つの文（センテンス）が含まれる。すなわち、人間が固有の表現として用いた言葉であれば、どんなに長い文章であっても固有表現となり得る。

［情報処理装置の構成］
図２は、第１実施形態における情報処理装置１００の構成の一例を示す図である。図示のように、情報処理装置１００は、例えば、通信部１０２と、制御部１１０と、記憶部１３０とを備える。

通信部１０２は、例えば、ＮＩＣ（Network Interface Card）等の通信インターフェースやＤＭＡ（Direct Memory Access）コントローラを含む。通信部１０２は、ネットワークＮＷを介して、サービス提供装置２０や他のウェブサーバと通信する。

制御部１１０は、例えば、取得部１１２と、テキスト分割部１１４と、フレーズスコア算出部１１６と、固有表現抽出部１１８とを備える。制御部１１０の構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などのプロセッサが記憶部１３０に格納されたプログラムを実行することにより実現される。また、制御部１１０の構成要素の一部または全部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などのハードウェア（回路部；circuitry）により実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

記憶部１３０は、例えば、ＨＤＤ（Hard Disc Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などにより実現される。記憶部１３０には、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、検索ログ１３２が格納される。

図３は、検索ログ１３２の一例を示す図である。図示の例のように、検索ログ１３２は、集計した期間ごとに、ユーザが検索エンジンに入力した各クエリや、そのクエリの入力回数などが対応付けられた履歴情報である。入力回数は、例えば、ユニークブラウザクッキー数であってよい。この場合、同じブラウザを介して同じクエリが何度も入力されても、そのクエリの入力回数は１回としてカウントされる。

［処理フロー］
以下、第１実施形態における制御部１１０の一連の処理の流れをフローチャートを用いて説明する。図４は、第１実施形態における制御部１１０の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてよい。

まず、取得部１１２は、通信部１０２を介して、サービス提供装置２０からコンテンツの一つであるテキストを取得する（Ｓ１００）。例えば、テキストは、ユーザが検索エンジンを利用して検索可能なテキストであり、具体的には、組織や団体、著名人などが自ら運営主体となっている公式サイトに掲載された記事や、組織や団体、著名人などと関係のない第三者が運営主体となっている一般サイト（非公式サイト）に記載された記事などである。

次に、取得部１１２は、通信部１０２を介して、サービス提供装置２０から検索ログ１３２を取得する（Ｓ１０２）。例えば、取得部１１２は、直近の数か月の間にユーザが入力したクエリの履歴を含む検索ログ１３２を取得する。

次に、テキスト分割部１１４は、取得部１１２によって取得されたテキストを一つまたは複数のフレーズに分割する（Ｓ１０４）。本実施形態に係るフレーズは、「は」、「が」、「を」といった助詞のように一文字であってもよいし、複数の文字を含む文字列であってもよい。すなわち、本実施形態の説明では、フレーズという用語を、複数の単語の集まりであるという辞書的な意味で使用するのではなく、一つの文字や、一つの単語、一つの句、一つの文といった、もう少し広義な意味で使用する。

例えば、テキスト分割部１１４は、テキストに含まれる文字数をＮとした場合、２の（Ｎ－１）乗通りのフレーズの組み合わせのパターンで、テキストを分割する。例えば、テキストは、Ｎ＝１であれば１通りのパターンで分割され、Ｎ＝２であれば２通りのパターンで分割され、Ｎ＝３であれば４通りのパターンで分割され、Ｎ＝４であれば８通りのパターンで分割される。

次に、フレーズスコア算出部１１６は、検索ログ１３２に基づいて、テキスト分割部１１４によって分割されたフレーズごとに、そのフレーズが固有表現であることの確からしさを定量化した指標値（以下、フレーズスコアと称する）を算出する（Ｓ１０６）。例えば、フレーズスコア算出部１１６は、数式（１）に基づいて、フレーズスコアを算出する。

式中Ｓは、フレーズスコアを表し、βは、スコア算出対象とするフレーズと一致するクエリの入力回数（そのクエリを使った検索回数）を表し、αは、１よりも大きい実数（例えば１０など）を表し、Ｌは、スコア算出対象とするフレーズの長さ、すなわちフレーズに含まれる文字数を表している。

例えば、スコア算出対象とするフレーズが、検索ログ１３２に含まれるクエリのいずれかと一致している場合、すなわち、スコア算出対象とするフレーズがクエリとして１回以上入力されている場合、フレーズスコア算出部１１６は、クエリの入力回数βが多く、且つフレーズ長Ｌが大きいほど、対象のフレーズのフレーズスコアＳを大きくし、クエリの入力回数βが少なく、且つフレーズ長Ｌが小さいほど、対象のフレーズのフレーズスコアＳを小さくする。なお、スコア算出対象とするフレーズが、検索ログ１３２に含まれるクエリのいずれかと一致しない場合、すなわち、スコア算出対象とするフレーズがクエリとして入力されていない場合、フレーズスコア算出部１１６は、対象のフレーズのフレーズスコアＳを０にする。

次に、固有表現抽出部１１８は、フレーズスコア算出部１１６によってフレーズごとに算出されたフレーズスコアに基づいて、テキストから固有表現を抽出する（Ｓ１０８）。これによって本フローチャートの処理が終了する。

図５から図８は、３文字のテキストから固有表現を抽出する方法を模式的に示す図である。これらの図は、「ＡＢＣ」という３文字のテキストが一つまたは複数のフレーズに分割されていることを模式的に示している。従って、テキストは、４（２^２）通りのパターンで分割される。

例えば、図５は、「ＡＢＣ」という一つのテキストを、「Ａ」という一文字だけのフレーズと、「Ｂ」という一文字だけのフレーズと、「Ｃ」という一文字だけのフレーズとに分割するパターン１を表している。フレーズスコア算出部１１６は、パターン１の場合、「Ａ」のフレーズについては、フレーズスコアＳ_Ａを算出し、「Ｂ」のフレーズについては、フレーズスコアＳ_Ｂを算出し、「Ｃ」のフレーズについては、フレーズスコアＳ_Ｃを算出している。

図６は、「ＡＢＣ」という一つのテキストを、「ＡＢ」という二文字のフレーズと、「Ｃ」という一文字だけのフレーズとに分割するパターン２を表している。フレーズスコア算出部１１６は、「ＡＢ」のフレーズについては、フレーズスコアＳ_ＡＢを算出し、「Ｃ」のフレーズについては、フレーズスコアＳ_Ｃを算出している。

図７は、「ＡＢＣ」という一つのテキストを、「Ａ」という一文字だけのフレーズと、「ＢＣ」という二文字のフレーズとに分割するパターン３を表している。フレーズスコア算出部１１６は、「Ａ」のフレーズについては、フレーズスコアＳ_Ａを算出し、「ＢＣ」のフレーズについては、フレーズスコアＳ_ＢＣを算出している。

図８は、「ＡＢＣ」という一つのテキストを、そのまま一つのフレーズとするパターン４を表している。フレーズスコア算出部１１６は、「ＡＢＣ」のフレーズについて、フレーズスコアＳ_ＡＢＣを算出している。

フレーズスコア算出部１１６は、上記のように各パターンについて個々のフレーズのフレーズスコアＳを算出すると、パターンごとにフレーズスコアＳの和を算出する。図５に例示するパターン１では、フレーズスコアＳの和は、（Ｓ_Ａ＋Ｓ_Ｂ＋Ｓ_Ｃ）となり、図６に例示するパターン２では、フレーズスコアＳの和は、（Ｓ_ＡＢ＋Ｓ_Ｃ）となり、図７に例示するパターン３では、フレーズスコアＳの和は、（Ｓ_Ａ＋Ｓ_ＢＣ）となり、図８に例示するパターン４では、フレーズスコアＳの和は、（Ｓ_ＡＢＣ）となる。

固有表現抽出部１１８は、これら４つのパターンの中から、フレーズスコアＳの和が最大となるパターンを選択し、そのパターンが表すフレーズを固有表現として抽出する。例えば、パターン４のフレーズスコアＳの和Ｓ_ＡＢＣが最大である場合、固有表現抽出部１１８は、「ＡＢＣ」という一つのフレーズを固有表現として抽出する。また、例えば、パターン２のフレーズスコアＳの和（Ｓ_ＡＢ＋Ｓ_Ｃ）が最大である場合、固有表現抽出部１１８は、「ＡＢ」というフレーズと「Ｃ」というフレーズとをそれぞれ固有表現として抽出する。

図９から図１６は、４文字のテキストから固有表現を抽出する方法を模式的に示す図である。これらの図は、「ＡＢＣＤ」という４文字のテキストが一つまたは複数のフレーズに分割されていることを模式的に示している。従って、テキストは、８（２^３）パターンで分割される。

例えば、図９は、「ＡＢＣＤ」という一つのテキストを、一文字ごとのフレーズに分割するパターン１－１を表している。図１０は、「ＡＢＣＤ」という一つのテキストを、「Ａ」、「Ｂ」、「ＡＢ」という３つのフレーズに分割するパターン１－２を表している。図１１は、「ＡＢＣＤ」という一つのテキストを、「ＡＢ」、「Ｃ」、「Ｄ」という３つのフレーズに分割するパターン２－１を表している。図１２は、「ＡＢＣＤ」という一つのテキストを、「ＡＢ」、「ＣＤ」という２つのフレーズに分割するパターン２－２を表している。図１３は、「ＡＢＣＤ」という一つのテキストを、「Ａ」、「ＢＣ」、「Ｄ」という３つのフレーズに分割するパターン３－１を表している。図１４は、「ＡＢＣＤ」という一つのテキストを、「Ａ」、「ＢＣＤ」という２つのフレーズに分割するパターン３－２を表している。図１５は、「ＡＢＣＤ」という一つのテキストを、「ＡＢＣ」、「Ｄ」という２つのフレーズに分割するパターン４－１を表している。図１６は、「ＡＢＣＤ」という一つのテキストを、そのまま一つのフレーズとするパターン４－２を表している。上記同様に、フレーズスコア算出部１１６は、各パターンについて個々のフレーズのフレーズスコアＳを算出すると、パターンごとにフレーズスコアＳの和を算出する。そして、固有表現抽出部１１８は、これら８つのパターンの中から、フレーズスコアＳの和が最大となるパターンを選択し、そのパターンが表すフレーズを固有表現として抽出する。

以上説明した第１実施形態によれば、テキストの文字数Ｎに基づく数の組み合わせのパターンで、そのテキストを一つまたは複数のフレーズに分割し、各パターンにおいて、分割したフレーズごとにフレーズスコアを算出し、パターンごとにフレーズスコアの和を算出し、算出した和が最大となるパターンのフレーズを固有表現として抽出する。これによって、文書から精度よく固有表現を抽出することができる。

従来より、予め固有表現が登録された辞書を用いて、テキストから固有表現を抽出することが行われているが、新語などの固有表現は日々出現しており、頻繁に辞書を更新する必要がある。しかしながら、辞書を日々更新することは現実的に困難である。また、一部のコミュニティで新語として使われ始めたニッチな用語などについては、固有表現として辞書に登録されにくい。

そのため、例えば、新作コンテンツのタイトルが「〇〇〇公式ガイドブック・◇◇から△△までの歩き方」のような一文であり、このタイトルを含むテキストに辞書を適用して固有表現を抽出する場合、「〇〇〇」、「公式」、「ガイドブック」、「◇◇」、「△△」、「歩き方」のような複数の単語が固有表現として抽出され、本来抽出すべき「〇〇〇公式ガイドブック・◇◇から△△までの歩き方」という一文が固有表現として抽出されないことになる。

一方で、クエリという性質について考えた場合、ある新作コンテンツのタイトルが文のように長いタイトルであれば、ユーザは、公式サイトや第三者のウェブサイトなどからタイトルを表す文字列をコピーし、検索サイトの入力欄に、コピーした文字列を張り付けることが想定される。この場合、固有表現であるコンテンツのタイトルと一語一句同じクエリが検索ログ１３２として収集されることになる。特に、直近数か月のようなごく最近の検索ログ１３２には、今現在流行しているような新語などがクエリとして含まれやすい。そのため、本実施形態では、テキストを分割したフレーズと検索ログ１３２のクエリとを比較することで、固有表現が長くても、或いは真新しい固有表現であっても、テキストから精度よく固有表現を抽出することができる。

また、括弧やアポストロフィ、プライムといった約物（記述記号）によって囲まれたテキストの一部を、固有表現として抽出することも考えられる。しかしながら、この手法では、人物の台詞や引用文などを固有表現として抽出する場合があり、それが一つの名詞として使用されている固有表現なのか、単に台詞や引用文なのかを区別することができない。また、コンテンツのキャラクター名や人名などは固有表現であるものの、通常括弧などで囲まれていないことから、テキストから抽出することができない。

これに対して、本実施形態では、約物に依らずに固有表現を抽出することができる。また、映画や書籍のタイトルには、しばしば副題が付けられており、その副題が約物によって囲まれている場合がある。仮に固有表現が約物で囲まれていたとしても、ユーザが約物で囲まれた固有表現をクエリとして入力していれば、本実施形態の手法によって、その約物を含む固有表現も抽出することができる。

また、単にテキストのフレーズと検索ログ１３２のクエリとを比較した場合、テキストには、「は」、「を」、「です」、「ます」といった比較的短いフレーズが出現しやすいため、それらのフレーズがクエリと偶然に一致し、フレーズスコアＳが大きくなる傾向となる。これに対して、本実施形態では、指数をフレーズ長Ｌとした任意の基数αと入力回数βとの積をフレーズスコアＳとするため、入力回数βが少ないフレーズであっても、フレーズ長Ｌが大きければフレーズスコアＳを大きくし、入力回数βが多いフレーズであっても、フレーズ長Ｌが小さければフレーズスコアＳを低くすることができる。この結果、助詞などを固有表現として抽出することを抑制しつつ、複数の名詞が助詞などで接続された句や文を一つの固有表現として精度よく抽出することができる。

＜第２実施形態＞
以下、第２実施形態について説明する。上述した第１実施形態では、フレーズの組み合わせである全パターンについてフレーズスコアの和を算出し、その和が最大となるパターンのフレーズを固有表現として抽出するものとして説明した。これに対して、第２実施形態では、全パターンについてフレーズスコアの和を算出するのではなく、検証すべきパターンを合理的に決定した上でフレーズスコアの和を算出する点で上述した第１実施形態と相違する。以下、第１実施形態との相違点を中心に説明し、第１実施形態と共通する点については説明を省略する。なお、第２実施形態の説明において、第１実施形態と同じ部分については同一符号を付して説明する。

図１７から図１９は、スコア算出対象のパターンの決定方法を説明するための図である。例えば、「ＡＢＣＤ」という４文字のテキストが与えられた場合、第２実施形態に係るテキスト分割部１１４は、図１７に例示するように、テキストの先頭の第１文字「Ａ」とそれに続く第２文字「Ｂ」との間を分割し、「Ａ」というフレーズと「Ｂ」というフレーズとを生成するとともに、これらの文字の間を分割せず、「ＡＢ」という２文字のフレーズを生成する。第２実施形態に係るフレーズスコア算出部１１６は、検索ログ１３２を用いて、フレーズ「Ａ」のフレーズスコアＳ_Ａとフレーズ「Ｂ」のフレーズスコアＳ_Ｂとの和（Ｓ_Ａ＋Ｓ_Ｂ）を算出するとともに、フレーズ「ＡＢ」のフレーズスコアＳ_ＡＢを算出する。テキスト分割部１１４は、これらを比較し、よりスコアが小さい方のパターンから派生したパターンを、次に検証するパターン候補から消去する。第１文字「Ａ」は、「第１文字列」の一例であり、第２文字「Ｂ」は、「第２文字列」の一例であり、フレーズ「ＡＢ」は、「第３文字列」の一例である。

図１７の例では、（Ｓ_Ａ＋Ｓ_Ｂ）よりもＳ_ＡＢの方が大きい。この場合、第２文字に続く第３文字「Ｃ」を含めたフレーズの組み合わせのパターンは、上述したパターン１とパターン２とパターン３とパターン４の計４種類となる。これらの４種類のパターンのうち、少なくともパターン１とパターン２とは、第３文字「Ｃ」を含める以前の結果と同じになる。例えば、パターン１のフレーズスコアの和は（Ｓ_Ａ＋Ｓ_Ｂ＋Ｓ_Ｃ）であり、パターン２のフレーズスコアの和は（Ｓ_ＡＢ＋Ｓ_Ｃ）であることから、前回が（Ｓ_Ａ＋Ｓ_Ｂ）よりもＳ_ＡＢの方が大きいという結果であれば、パターン１およびパターン２のフレーズスコアの和の大小関係は変化しない。従って、フレーズスコア算出部１１６は、テキストの先頭の第１文字「Ａ」とそれに続く第２文字「Ｂ」との間を分割するというパターン１についてはスコアを算出しない。

次に、テキスト分割部１１４は、図１８に例示するように、残された３種類のパターン３のスコアを比較する。図１８の例では、パターン４のフレーズスコアＳ_ＡＢＣが最も大きい。従って、フレーズスコア算出部１１６は、テキストの先頭の一文字「Ａ」とそれに続く三文字の組み合わせ「ＢＣＤ」との間を分割するパターン３－１と、テキストの先頭の二文字の組み合わせ「ＡＢ」とそれに続く二文字の組み合わせ「ＣＤ」との間を分割するパターン２－２と、テキストの先頭の三文字の組み合わせ「ＡＢＣ」とそれに続く一文字「Ｄ」との間を分割するパターン４－１と、テキストを分割せず一つのフレーズとするパターン４－２の合計４パターンについてのみスコアを算出する。このように、本手法では、文字列の最後のｋ文字目について検討するときには、ｋ個のパターンを比較する。

次に、フレーズスコア算出部１１６は、上記の４パターン（３－１、２－２、４－１、－２）のそれぞれのフレーズスコアの和を算出する。例えば、パターン４－１のフレーズスコアの和（Ｓ_ＡＢＣＤ＋Ｓ_Ｄ）が最も大きい場合、固有表現抽出部１１８は、「ＡＢＣ」というフレーズと「Ｄ」というフレーズとをそれぞれ固有表現として抽出する。このように、テキストの先頭の文字から順番に組み合わせていき、各組み合わせの候補をスコアの大きさに応じて、その組み合わせのパターンを取捨選択することで、最適な組み合わせを探索することができる。

なお、あるパターンのフレーズスコアが０となった場合、そのパターンに一文字追加した派生パターンについては、以後考慮しなくてもよい。フレーズスコアが０ということは、そのフレーズと一致するクエリの入力回数βが０であることを意味する。すなわち、どのユーザも、そのパターンによって表されるフレーズをクエリとして入力したことがないことを意味しており、そのパターンのフレーズが固有表現であるという蓋然性が極めて低いことを表している。

以上説明した第２実施形態によれば、テキストの先頭の文字から順番に組み合わせていき、その時点で各パターンのフレーズスコアを比較し、フレーズスコアがより小さいパターンを以降の処理対象から除外する。

例えば、映画やドラマ、アニメといったコンテンツには、ある単語Ａと、ある単語Ｂとの間に「の」や「と」といった助詞などを挟んだ固有名詞をタイトルとしているものがある。具体的には、「〇〇と□□」や「〇〇の△△」といったタイトルである。このようなコンテンツのタイトルを、全パターンについてフレーズスコアを求めた場合、「の」や「と」のような助詞が名詞の先頭に出現するようなフレーズについてもスコアを算出することになる。しかしながら、現実世界では、フレーズの冒頭に助詞が出現することは極めて稀であり、そのフレーズそのものが世に存在していないと見做すことができる。従って、テキストの先頭の文字から順番に組み合わせていき、その時点で各パターンのフレーズスコアを比較し、フレーズスコアがより小さいパターンを以降の処理対象から除外することで、効率よく固有名詞を抽出することができる。

上述した第１実施形態のように、全パターンの区切り方を試した場合、テキストに含まれる文字数をＮとすれば、２^Ｎ－１のようにスコアの算出回数が増加する。これに対して、第２実施形態では、文字の連続性を考慮して、パターン数を減らすため、スコアの算出回数をＮ^２回に抑えることができる。

＜ハードウェア構成＞
上述した実施形態の情報処理装置１００は、例えば、図１９に示すようなハードウェア構成により実現される。図１９は、実施形態の情報処理装置１００のハードウェア構成の一例を示す図である。

情報処理装置１００は、ＮＩＣ１００－１、ＣＰＵ１００－２、ＲＡＭ１００－３、ＲＯＭ１００－４、フラッシュメモリやＨＤＤなどの二次記憶装置１００－５、およびドライブ装置１００－６が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置１００－６には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置１００－５、またはドライブ装置１００－６に装着された可搬型記憶媒体に格納されたプログラムがＤＭＡコントローラ（不図示）などによってＲＡＭ１００－３に展開され、ＣＰＵ１００－２によって実行されることで、制御部１１０が実現される。制御部１１０が参照するプログラムは、ネットワークＮＷを介して他の装置からダウンロードされてもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…情報処理システム、１０…端末装置、２０…サービス提供装置、１００…情報処理装置、１０２…通信部、１１０…制御部、１１２…取得部、１１４…テキスト分割部、１１６…フレーズスコア算出部、１１８…固有表現抽出部、１３０…記憶部

Claims

文章に含まれる文字数に応じた数のパターンで、前記文章を少なくとも一文字以上を含む文字列に分割する分割部と、
ユーザによって入力された複数のクエリに基づいて、前記パターンごとに、前記分割部により前記文章から分割された各文字列のスコアを算出し、前記パターンごとに前記文字列の全てのスコアの和を算出する算出部と、
前記文字数に応じた数のパターンの中から、前記算出部によって算出された前記スコアの和が最大となるパターンを選択し、前記スコアの和が最大となるパターンにおける前記文字列を固有表現として抽出する抽出部と、を備え、
前記算出部は、入力回数が少ない前記クエリと一致する前記文字列であっても、前記文字列の長さが大きければ前記スコアを大きくし、前記入力回数が多い前記クエリと一致する前記文字列であっても、前記文字列の長さが小さければ前記スコアを小さくする、
情報処理装置。
前記算出部は、前記文字列と一致する前記クエリの入力回数と、前記文字列の長さとに基づいて、前記スコアを算出する、
請求項１に記載の情報処理装置。
前記分割部は、前記文章を第１位置で分割し、
前記算出部は、前記第１位置の直前に出現する、少なくとも一文字以上を含む第１文字列のスコアと、前記第１位置の直後に出現する、少なくとも一文字以上を含む第２文字列のスコアと、前記第１文字列および前記第２文字列を組み合わせた第３文字列のスコアとを算出し、
前記抽出部は、前記第１文字列のスコアと前記第２文字列のスコアとの和と、前記第３文字列のスコアとを比較し、よりスコアが小さい方の文字列を、前記固有表現の抽出対象から除外する、
請求項１又は２に記載の情報処理装置。
コンピュータが、
文章に含まれる文字数に応じた数のパターンで、前記文章を少なくとも一文字以上を含む文字列に分割し、
ユーザによって入力された複数のクエリに基づいて、前記パターンごとに、前記文章から分割した各文字列のスコアを算出し、
前記パターンごとに前記文字列の全てのスコアの和を算出し、
前記文字数に応じた数のパターンの中から、前記算出したスコアの和が最大となるパターンを選択し、
前記スコアの和が最大となるパターンにおける前記文字列を固有表現として抽出し、
入力回数が少ない前記クエリと一致する前記文字列であっても、前記文字列の長さが大きければ前記スコアを大きくし、
前記入力回数が多い前記クエリと一致する前記文字列であっても、前記文字列の長さが小さければ前記スコアを小さくする、
情報処理方法。
コンピュータに、
文章に含まれる文字数に応じた数のパターンで、前記文章を少なくとも一文字以上を含む文字列に分割する処理と、
ユーザによって入力された複数のクエリに基づいて、前記パターンごとに、前記文章から分割した各文字列のスコアを算出する処理と、
前記パターンごとに前記文字列の全てのスコアの和を算出する処理と、
前記文字数に応じた数のパターンの中から、前記算出したスコアの和が最大となるパターンを選択する処理と、
前記スコアの和が最大となるパターンにおける前記文字列を固有表現として抽出する処理と、
入力回数が少ない前記クエリと一致する前記文字列であっても、前記文字列の長さが大きければ前記スコアを大きくする処理と、
前記入力回数が多い前記クエリと一致する前記文字列であっても、前記文字列の長さが小さければ前記スコアを小さくする処理と、
を実行させるためのプログラム。