JP6621514B1

JP6621514B1 - 要約作成装置、要約作成方法、及びプログラム

Info

Publication number: JP6621514B1
Application number: JP2018202347A
Authority: JP
Inventors: ヴィジャイドルタニ; ラスグイドニオ; 容朱鄭
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-12-18
Anticipated expiration: 2038-10-26
Also published as: US20200134011A1; US11061950B2; JP2020067987A

Abstract

【課題】要約の精度を高める。【解決手段】要約作成装置（１０）の取得手段（１０１）は、文書から１又は複数の要素を抽出し、抽出された要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、文書から複数の要素及びその出現度を取得する。正規化手段（１０２）は、アルゴリズムごとに、取得手段（１０１）により取得された出現度を正規化する。選択手段（１０４）は、正規化手段（１０２）により正規化された出現度に基づいて、文書の中から少なくとも１つの文を選択する。作成手段（１０５）は、選択手段（１０４）により選択された文に基づいて、文書の要約を作成する。【選択図】図３

Description

本発明は、要約作成装置、要約作成方法、及びプログラムに関する。

従来、ウェブページ等の文書の要約を作成する技術が知られている。例えば、非特許文献１には、自然言語処理で用いられる複数のアルゴリズムとして、ＢＧ（Ｂｉ−Ｇｒａｍｓ）、ＮＥ（ＮａｍｅｄＥｎｔｉｔｉｅｓ）、ＳＤ（ＳｙｎｔａｃｔｉｃＤｅｐｅｎｄｅｎｃｉｅｓ）、及びＳＦ（ＳｅｍａｎｔｉｃＦｒａｍｅｓ）の４つを用いて、文書を特徴付ける要素を抽出し、その出現頻度を取得し、当該取得された出現頻度に基づいて文書に含まれる文を選択し、要約を作成する技術が記載されている。

http://www.aclweb.org/anthology/P15-2138

しかしながら、アルゴリズムによって抽出される要素は異なるため、その出現頻度の分布にはアルゴリズムごとの偏りがある。そのため、上記技術のように、複数のアルゴリズムを利用して要素を抽出し、その出現頻度に基づいて文書に含まれる文を選択すると、出現頻度の高い要素を抽出する傾向のあるアルゴリズムにより抽出された要素が優先的に採択され、結果として、複数のアルゴリズムを使用しているにもかかわらず、特定のアルゴリズムのみを用いた結果と差異がなくなってしまう。

アルゴリズムには、解析しようとする文書の種類によって、適不適が存在し、万能のアルゴリズムは知られていない。そのため、要約を作成しようとする文書の種類によって適したアルゴリズムを柔軟に追加変更することが望ましいが、特定のアルゴリズムにより抽出された要素が優先されてしまうと、アルゴリズムを追加変更することによっても結果がほとんど変わらず、要約の精度を十分に向上させることができない。

上記非特許文献１では、ＢＧにより抽出された要素の頻度と、それ以外のアルゴリズムにより抽出された要素の頻度との間に異なる重み付けをすることが示唆されているが、その重みをどのように設定すれば要約の精度を向上させることができるのかまったく不明であって、様々な文書に対して適した重みを発見的に人手で設定することは非現実的であり、事実上不可能である。

本発明は上記課題に鑑みてなされたものであって、その目的は、要約の精度を高めることが可能な要約作成装置、要約作成方法、及びプログラムを提供することである。

上記課題を解決するために、本発明に係る要約作成装置は、文書から１又は複数の要素を抽出し、抽出された前記要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、前記文書から複数の前記要素及びその出現度を取得する取得手段と、前記アルゴリズムごとに、前記取得手段により取得された出現度を正規化する正規化手段と、前記正規化手段により正規化された出現度に基づいて、前記文書の中から少なくとも１つの文を選択する選択手段と、前記選択手段により選択された文に基づいて、前記文書の要約を作成する作成手段と、を含むことを特徴とする。

本発明に係る要約作成方法は、文書から１又は複数の要素を抽出し、抽出された前記要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、前記文書から複数の前記要素及びその出現度を取得する取得ステップと、前記アルゴリズムごとに、前記取得ステップにより取得された出現度を正規化する正規化ステップと、前記正規化ステップにより正規化された出現度に基づいて、前記文書の中から少なくとも１つの文を選択する選択ステップと、前記選択ステップにより選択された文に基づいて、前記文書の要約を作成する作成ステップと、を含むことを特徴とする。

本発明に係るプログラムは、文書から１又は複数の要素を抽出し、抽出された前記要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、前記文書から複数の前記要素及びその出現度を取得する取得手段、前記アルゴリズムごとに、前記取得手段により取得された出現度を正規化する正規化手段、前記正規化手段により正規化された出現度に基づいて、前記文書の中から少なくとも１つの文を選択する選択手段、前記選択手段により選択された文に基づいて、前記文書の要約を作成する作成手段、としてコンピュータを機能させる。

また、本発明の一態様では、前記要約作成装置は、前記正規化手段により正規化された出現度に基づいて、前記要素をフィルタリングするフィルタリング手段を更に含み、前記選択手段は、前記フィルタリング手段によりフィルタリングされた要素の前記正規化された出現度を用いて、所定の選択条件に基づいて、前記文書の中から少なくとも１つの文を選択する、ことを特徴とする。

また、本発明の一態様では、前記所定の選択条件は、前記選択手段により選択される文に含まれる前記要素の前記正規化された出現度の総和が最大となり、かつ、当該選択される文が所定の分量未満になることである、ことを特徴とする。

また、本発明の一態様では、前記選択手段は、整数線形計画法を用いて前記文書の中から少なくとも１つの文を選択する、ことを特徴とする。

また、本発明の一態様では、前記フィルタリング手段は、前記正規化された出現度の分布に基づいてフィルタリング条件を設定し、当該設定されたフィルタリング条件に基づいてフィルタリングを実行する、ことを特徴とする。

また、本発明の一態様では、前記フィルタリング手段は、抽出に用いられたアルゴリズムに依らず、前記正規化された出現度が上位となる所定割合の要素が抽出されるように、フィルタリングを実行する、ことを特徴とする。

また、本発明の一態様では、前記複数のアルゴリズムには、Ｔｆ−Ｉｄｆ（Ｔｅｒｍｆｒｅｑｕｅｎｃｙ−Ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）法と、予め定められた属性の属性値を前記要素として抽出する属性抽出法と、の少なくとも一方が含まれる、ことを特徴とする。

また、本発明の一態様では、前記作成手段は、前記選択手段により選択された文を、当該文が前記文書中で出現する順番に従って並べることによって、前記要約を作成する、ことを特徴とする。

また、本発明の一態様では、前記文書は、商品、施設、又はサービスの説明文であり、前記複数のアルゴリズムには、前記商品、前記施設、又は前記サービスの属性の属性値を前記要素として抽出する属性抽出法を含み、前記正規化手段は、前記属性抽出法により取得された出現度の分布が、他のアルゴリズムにより取得された正規化後の出現度の分布に近づくように、正規化を実行する、ことを特徴とする。

本発明によれば、要約の精度を高めることが可能になる。

要約作成システムの全体構成を示す図である。サーバの物理的構成を示す図である。要約作成システムで実現される機能の一例を示す機能ブロック図である。各機能により実行される処理の説明図である。商品データベースのデータ格納例を示す図である。属性データベースのデータ格納例を示す図である。取得部により取得された要素と出現度の関係を示す図である。正規化の前後における各アルゴリズムの出現度の分布の変化を示す図である。作成部によって作成された要約の一例を示す図である。作成部によって作成された要約の一例を示す図である。要約作成システムで実行される処理の一例を示すフロー図である。

［１．要約作成システムの全体構成］
以下、本発明に関わる要約作成システムの実施形態の例を説明する。図１は、要約作成システムの全体構成を示す図である。図１に示すように、要約作成システム１は、サーバ１０、店舗端末２０、及びユーザ端末３０を含み、これらはインターネット等のネットワークＮに接続される。なお、図１では、サーバ１０、店舗端末２０、及びユーザ端末３０の各々を１台ずつ示しているが、これらは複数台あってもよい。

図２は、サーバ１０の物理的構成を示す図である。図２に示すように、サーバ１０は、サーバコンピュータであり、例えば、ＣＰＵ１１、メモリ１２、及び通信インタフェース１３を含み、これらはバス１４で接続されている。サーバ１０は、本発明に係る要約作成装置の一例である。ＣＰＵ１１は、メモリ１２に記憶されたプログラムやデータに従って処理を実行する。なお、図２では、ＣＰＵ１１を１つとしているが、サーバ１０は、少なくとも１つのプロセッサを含めばよく、２つ以上のＣＰＵ１１を含んでもよい。メモリ１２は、主記憶部及び補助記憶部を含む。例えば、主記憶部はＲＡＭなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信インタフェース１３は、有線通信又は無線通信用の通信インタフェースであり、例えば、ネットワークＮを介してデータ通信を行う。

店舗端末２０は、店舗の担当者が操作するコンピュータであり、ユーザ端末３０は、ユーザが操作するコンピュータである。店舗端末２０及びユーザ端末３０の各々は、例えば、パーソナルコンピュータ、携帯情報端末（タブレット型コンピュータを含む）、又は携帯電話機（スマートフォンを含む）等である。店舗端末２０及びユーザ端末３０の各々は、ＣＰＵ、メモリ、通信インタフェース、タッチパネルやマウス等の入力デバイス、及び液晶モニタ又は有機ＥＬモニタ等を含む。

なお、メモリ１２に記憶されるものとして説明するプログラム及びデータは、ネットワークＮを介してサーバ１０に供給されるようにしてもよい。また、サーバ１０のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、サーバ１０は、コンピュータ読み取り可能な情報記憶媒体を読み取る読取装置（例えば、光ディスクドライブやメモリカードスロット）や外部機器と直接的に接続するための入出力インタフェース（例えば、ＵＳＢ端子）を含んでもよい。情報記憶媒体に記憶されたプログラムやデータが読取装置又は入出力インタフェースを介して、サーバ１０に供給されるようにしてもよい。

［２．要約作成システムの概要］
要約作成システム１は、自然言語処理を行う、互いに異なる複数のアルゴリズムを使用して、文書の要約を作成する。要約作成システム１で用いられるアルゴリズムは、文書を解析して、当該文書から１又は複数の要素を抽出し、抽出された要素の各々の出現度を取得するものである。このようなアルゴリズムは、種々のものが知られており、文書の性質に応じて任意の既知の又は新規なアルゴリズムを使用してよい。本実施形態では、ＢＧ、ＮＥ、ＳＤ、ＳＦ、Ｔｆ−Ｉｄｆ（Ｔｅｒｍｆｒｅｑｕｅｎｃｙ−Ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）、及び属性抽出法の６つを使用する場合を例に挙げて説明する。これらのアルゴリズムは、教師データに基づく学習を必要としない非学習モデル（教師なしモデル）であり、言語的特徴に基づいて文書内の語を解析する。これらのアルゴリズムの概要は後述する。

文書は、要約の作成対象となる文字の集まりであり、例えば、ウェブページ、判決文、記事、論説、雑誌、小説、又は特許公報といった任意の種類の文書であってよい。文書は、コンピュータによる解析を行う都合上、電子データとして与えられるが、その電子データは任意のファイル形式であってよく、例えば、ドキュメントファイル、ＨＴＭＬファイル、ＸＭＬファイル、リッチテキストファイル、又はテキストファイルである。文書は、少なくとも１つの文を含み、文以外にも、画像、動画、又は表等が含まれていてもよい。

文は、１つの完結した意味を表す言語表現の単位であり、少なくとも１つの語を含む。語は、文字列又は単語である。日本語等であれば、文は、句点によって区切られる部分であり、例えば、文書の最初の語から最初の句点までの部分、又は、ある句点の次の語から次の句点までの部分である。英語等であれば、文は、ピリオドによって区切られる部分であり、例えば、文書の最初の語から最初のピリオドまでの部分、又は、あるピリオドの次の語から次のピリオドまでの部分である。

要約は、文書の論旨又は要点が簡潔に表されたものであり、文書よりも分量（文字数又はワード数）が少ない。要約は、少なくとも１つの文を含み、文以外にも、文書中の画像、動画、又は表等が含まれていてもよい。要約は、文書に含まれる文を改変せずに組み合わせたものであってもよいし、文書に含まれる文を改変したうえで組み合わせたものであってもよいが、本実施形態では、非学習モデルが利用されるので、文書内の文が改変されずに要約が作成される場合を説明する。

本実施形態では、文書の一例として、店舗がオンライン上で販売する商品のウェブページにおける説明文を説明する。ウェブページは、任意のレイアウトで作成されてよく、例えば、商品のタイトル、説明文、画像、動画、又は表等を含む。ウェブページは、予め定められたレイアウトで作成されてもよいし、特にレイアウトが定められていなくてもよい。ウェブページは、ユーザ端末３０のブラウザで表示されてもよいし、ユーザ端末３０にインストールされたアプリケーション上で表示されてもよい。

店舗の担当者は、店舗端末２０を操作して自由にウェブページを作成することができ、任意のテキスト、画像、動画、又は表をウェブページに埋め込むことができる。このため、店舗によっては、長い説明文を入力することがあり、ウェブページの可読性に乏しいことがある。このため、本実施形態の要約作成システム１は、ウェブページにおける説明文から、商品の説明として重要な部分だけを含む可読性の高い要約を作成し、ユーザに提供する。

既に説明したように、アルゴリズムを用いて抽出される要素は、アルゴリズムごとに異なり、また、アルゴリズムには、解析しようとする文書の種類によって、適不適が存在しているから、特定のアルゴリズムによる解析は、特定の観点に対する偏りがあると考えられる。このため、精度の高い要約、即ち、様々な観者による様々な観点から見て、総合的に文書の特徴を出来る限り多く含む要約を作成するためには、単一のアルゴリズムを使用するのではなく、複数のアルゴリズムを複合的に利用して文書を解析することが望ましい。

この点、従来技術で説明したように、複数のアルゴリズムを複合的に利用したとしても、特定のアルゴリズムにより抽出された要素が優先的に採択されてしまうと、結局は、特定のアルゴリズムのみを用いた結果と差異がなく、要約の精度を十分に向上させることができない。例えば、本実施形態のような商品のウェブページであれば、店舗の担当者は、消費者に商品を説明するため、商品の性質を説明文に優先的に記載すると考えられる。このため、かかる説明文には、商品の属性の名前や属性値がそれ以外の語や表現に比べ、高い頻度で含まれることになる。このため、先述した６つのアルゴリズムのうち、属性抽出法により抽出された要素の出現度の分布は、他のアルゴリズムにより抽出された要素の出現度の分布よりも全体的に高い値に偏ることになる。

そこで、本実施形態の要約作成システム１は、アルゴリズムごとに出現度を正規化してアルゴリズム間の出現度の分布の差を調整することによって、ある特定のアルゴリズムだけが採用されてしまうといったことを防止し、要約の精度を高めるようにしている。以降、要約作成システム１の詳細を説明する。

［３．要約作成システムで実現される機能］
図３は、要約作成システム１で実現される機能の一例を示す機能ブロック図であり、図４は、図３に示す各機能により実行される処理の説明図である。図３に示すように、要約作成システム１では、データ記憶部１００、取得部１０１、正規化部１０２、フィルタリング部１０３、選択部１０４、及び作成部１０５が実現される。本実施形態では、これら各機能がサーバ１０により実現される場合を説明する。

［３−１．データ記憶部］
データ記憶部１００は、メモリ１２を主として実現される。データ記憶部１００は、要約を作成するために必要なデータを記憶する。ここでは、データ記憶部１００が記憶するデータの一例として、商品データベースＤＢ１と、属性データベースＤＢ２と、について説明する。

図５は、商品データベースＤＢ１のデータ格納例を示す図である。図５に示すように、商品データベースＤＢ１は、商品に関する各種情報が格納されるデータベースである。ウェブページは、商品データベースＤＢ１に格納された情報に基づいて表示される。商品データベースＤＢ１には、商品を一意に識別する商品ＩＤに関連付けて、説明文、画像、口コミ、及び作成部１０５によって作成された要約等の情報が格納される。なお、図５では、説明文等を英語で記載しているが、日本語や中国語といった任意の言語であってよい。

商品データベースＤＢ１に格納された説明文は、作成部１０５による要約の作成対象の文書である。商品データベースＤＢ１に格納された全ての説明文が要約の作成対象となってもよいし、所定の分量（所定の文字数又は所定のワード数。例えば、１００文字又は５０単語。）以上の説明文だけが要約の作成対象となってもよい。先述したように、説明文は、店舗の担当者が店舗端末２０から任意の文章を入力可能である。説明文の分量（文字数）は、上限値が設定されていてもよいが、特に分量に制限がなくてもよい。図５では、説明文をテキストのみで示しているが、所定のマークアップ言語を利用して説明文が作成されてもよく、この場合には、説明文にテーブルタグ等が含まれてもよい。

画像は、カメラで撮影された商品の画像であり、店舗端末２０からアップロードされる。口コミは、商品を購入したユーザのユーザ端末３０からアップロードされた当該商品の感想であり、任意の文章が入力される。商品によっては、多数の口コミが存在するので、後述する変形例のように、口コミが要約の作成対象となってもよい。

なお、商品データベースＤＢ１に格納される情報は、上記の例に限られない。商品データベースＤＢ１には、商品に関する任意の情報が格納されるようにすればよく、例えば、商品を取り扱う店舗を一意に識別する店舗ＩＤ、商品のタイトル、ジャンル、カテゴリ、動画、又は在庫数といった種々の情報が格納されてもよい。

図６は、属性データベースＤＢ２のデータ格納例を示す図である。図６に示すように、属性データベースＤＢ２は、商品の属性と属性値の組み合わせが格納されるデータベースである。属性データベースＤＢ２に格納された情報は、属性抽出法で利用される。属性データベースＤＢ２は、要約作成システム１の管理者や店舗の担当者によって作成されてもよいし、説明文中に含まれる単語が抽出されることによって作成されてもよい。なお、図６では、属性と属性値を英語で記載しているが、日本語や中国語といった任意の言語であってよい。

属性は、商品の分類であり、例えば、色、サイズ、ブランド、重量、価格帯、又は産地等である。別の言い方をすれば、属性は、商品の特徴、種類、性質、ジャンル、又はカテゴリである。商品の詳細は、ウェブページに表示される商品の説明文に記載されるため、属性は、説明文に含まれる単語の分類ということもできる。属性データベースＤＢ２には、属性の名前（項目名）を示す文字列が格納される。なお、属性の名前には、表記ゆれが存在することがあるので、同じ意味を表す複数の名前が１つの属性としてまとめられていてもよい。

属性値は、商品の具体的な特徴を示す情報である。属性値は、文字列、数値、又はこれらの組み合わせで示される。属性には、複数の属性値が関連付けられており、属性と属性値は１対多の関係にある。例えば、色という属性であれば、属性値は、赤、青、緑、又は黒といった色の名前となる。また例えば、サイズという属性であれば、属性値は、Ｓ、Ｍ、Ｌ、又はＸＬといったサイズの名前となる。また例えば、ブランドという属性であれば、属性値はブランド名である。

［３−２．取得部］
取得部１０１は、ＣＰＵ１１を主として実現される。取得部１０１は、商品の説明文から１又は複数の要素を抽出し、抽出された要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、文書から複数の要素及びその出現度を取得する。取得部１０１は、アルゴリズムごとに、商品の説明文の中から要素を抽出する処理と、当該要素の出現度を計算する処理と、を実行する。

取得部１０１は、任意の組み合わせのアルゴリズムを利用してよく、例えば、Ｔｆ−Ｉｄｆ法と、予め定められた属性の属性値を要素として抽出する属性抽出法と、の少なくとも一方が含まれる。Ｔｆ−Ｉｄｆ法又は属性抽出法の何れか一方だけが利用されてもよいが、本願の発明者達は、これらのアルゴリズムと商品の説明文との相性がよいことを独自に発見したため、本実施形態では、これらの両方とも利用するものとする。また、本実施形態では、商品の説明文が文書に相当するので、複数のアルゴリズムには、商品の属性の属性値を要素として抽出する属性抽出法が含まれる。

本実施形態で要素とは、要約を作成しようとする文書からアルゴリズムによって抽出される文字又は語、あるいはそれらの組み合わせである。多くの場合、要素は、文書中に含まれる文字や語をひとまとまりとして抜き出したものであるが、ＳＦのように、文書中に含まれない語を要素として抽出する場合もある。通常、要素は１〜数文字又は１〜数語程度の言語的クラスタである。

アルゴリズムにおいて、要素は、出現度の計算対象である。要素は、自然言語処理ではコンセプトと呼ばれることもある。要素は、それ自体意味のある語によって構成されることもあるし、それ自体では特に意味がない文字によって構成されることもあり、使用するアルゴリズムや解析対象となる文章の言語によっても異なる。例えば、代表的なアルゴリズムであるＢＧにおいて、解析対象となる文章が英語である場合には、要素は隣接する２つの単語であり、解析対照となる文書が日本語である場合には、要素は隣接する２文字である。要素は、複数のアルゴリズムで共通であってもよいが、本実施形態では、アルゴリズムごとに別々に要素が抽出される。このため、あるアルゴリズムが抽出した要素と同じ要素は、他のアルゴリズムでは抽出されないこともあるし、偶然抽出されることもある。本実施形態では、要素の出現度は、当該要素を抽出したアルゴリズムによって計算され、当該要素を抽出しなかった他のアルゴリズムが計算するわけではない。

また、本実施形態で「出現度」とは、特定の文書からある要素が抽出される回数（これを「出現頻度」と呼ぶ。）に基づいて求められる値であり、出現頻度が高いほど出現度も高く、出現頻度が低いほど出現度も低くなるように定められる。そして、出現度には、出現頻度が含まれる。本実施形態で使用される６つのアルゴリズムのうち、ＢＧ、ＮＥ、ＳＤ、ＳＦ及び属性抽出法では出現度として出現頻度を用い、Ｔｆ−Ｉｄｆでは出現度としてＴｆ−Ｉｄｆスコアを用いる。

一般に、特定の文書中に多く出現する要素は、その文書を特徴付ける重要な要素であると考えられるため、出現度がより高い要素は、より重要であると考えられる。即ち、出現度は、文書の中での要素の重要度の推定値であると考えられる。自然言語処理では、出現度は特徴量又はスコアと呼ばれることもある。多くのアルゴリズムにおいて、出現度は解析対象となる単一の文書について計算されるが、Ｔｆ−Ｉｄｆのように、出現度を計算するに当たって、単一の文書における要素の出現頻度だけでなく、複数の文書（文書全体）にわたる要素の出現の有無を考慮するものも存在する。

取得部１０１は、商品データベースＤＢ１に格納された商品の説明文を取得し、アルゴリズムごとに、当該説明文に含まれる要素の出現度を取得する。以降の説明では、要素にｉの符号を付し、出現度にｗ_ｎ，ｉの符号を付して説明する。

要素ｉ及び出現度ｗ_ｎ，ｉのｉは、自然数であり、要素を一意に識別する数値である。ここでは、ｉの初期値を１とし、アルゴリズムが要素を抽出するたびにｉの値がインクリメントされる。なお、本実施形態では、後述するフィルタリングの後に要素を示す数値が採番し直されるので、ｉは、フィルタリング前の要素を示す数値である。

出現度ｗ_ｎ，ｉのｎは、自然数であり、アルゴリズムを一意に識別する数値である。本実施形態では、ＢＧ、ＮＥ、ＳＤ、ＳＦ、Ｔｆ−Ｉｄｆ、及び属性抽出法の６つのアルゴリズムが利用されるので、ここでは、ｎの値は、これらの順番に１〜６の各々の数値が付与されるものとする。出現度ｗ_ｎ，ｉは、ｎの値が示すアルゴリズムで計算された要素ｉの出現度を示すことになる。

図４に示すように、取得部１０１は、商品データベースＤＢ１に格納された任意の商品の説明文を取得し、当該取得した説明文を６つのアルゴリズムの各々に入力する。取得部１０１は、アルゴリズムごとに、当該アルゴリズムで定義された方法に基づいて、商品の説明文に含まれる要素ｉを抽出し、当該要素ｉが出現する回数をカウントして出現度ｗ_ｎ，ｉを取得する。要素の抽出方法及び出現度の計算方法自体は、アルゴリズムで定められた方法を利用すればよく、例えば、次のようにして計算される。

例えば、ＢＧは、連続した２語の出現度によって文書を解析するアルゴリズムなので（例えば、「https://lagunita.stanford.edu/c4x/Engineering/CS-224N/asset/slp4.pdf」を参照）、取得部１０１は、説明文に含まれる連続した２語（隣り合う２語のセット）を要素ｉとして抽出し、説明文の中で当該要素ｉが出現した回数をカウントすることによって出現度ｗ_１，ｉを取得する。日本語等であれば、連続した２文字が要素ｉとなり、英語等であれば、連続した２単語が要素ｉとなる。なお、ＢＧは、いわゆるｎ−ｇｒａｍの一例であり、１−ｇｒａｍを利用するのであれば要素ｉは１語となり、３−ｇｒａｍ以上を利用するのであれば要素ｉは３語以上となる。なお、取得部１０１は、出現度が閾値（例えば、２）以上のものだけを要素ｃ_ｉとして抽出し、１回しか出現しないものは排除してもよい。この点は、他のアルゴリズムについても同様である。

また例えば、ＮＥは、文書中に存在する固有表現を解析するアルゴリズムなので（例えば、「https://www.nltk.org/book/ch07.html」を参照）、取得部１０１は、説明文に含まれる固有表現（例えば、固有名詞）を要素ｉとして抽出し、説明文の中で当該要素ｉが出現した回数をカウントすることによって出現度ｗ_２，ｉを取得する。例えば、予め定められた固有表現のリスト内に存在する語が説明文に存在していれば、ＮＥにおける要素となりうる。また例えば、固有表現はカッコやダブルクォーテーション等の記号で囲われた単語は固有表現であることが多いので、これらの記号で囲われた部分は、ＮＥにおける要素となりうる。また例えば、英語等の言語であれば、文中に大文字で記載されるものは固有表現であることが多いので、文中に大文字で記載された部分は、ＮＥにおける要素となりうる。

また例えば、ＳＤは、文書中に存在する語同士の関連性を解析するアルゴリズムなので（例えば、「https://nlp.stanford.edu/software/dependencies_manual.pdf」を参照）、取得部１０１は、説明文において文法的に関係性のある語の組を要素ｉとして抽出し、説明文の中で当該要素ｉが出現した回数をカウントすることによって出現度ｗ_３，ｉを取得する。例えば、複数の単語を単語間の分法を付して抽出したものが、ＳＤにおける要素となる。また例えば、名詞の所有格である「〜’s」又は「〜ｓ’」は、その後の名詞に係る語（係り受けのある語）のため、ＳＤにおける要素となりうる。また例えば、複数の名詞が並んでいる場合には互いに関係性のある語なので、ＳＤにおける要素となりうる。また例えば、受動態の動詞は名詞に係ることが多いため、ＳＤにおける要素となりうる。

また例えば、ＳＦは、文書中に存在する語を意味的に解析するアルゴリズムなので（例えば、「https://en.wikipedia.org/wiki/Frame_semantics_(linguistics)」を参照）、取得部１０１は、説明文において意味的に関係性のある語を要素ｉとして抽出し、説明文の中で当該要素ｉが出現した回数をカウントして出現度ｗ_４，ｉを取得する。例えば、複数の単語の組み合わせに単語間の意味的な繋がりが付されたものが、ＳＦにおける要素として抽出される。また例えば、物とその所有主体、物とその属性（色やサイズなど）、全体とその一部分、あるいは上位概念と下位概念といった語の組み合わせはＳＦにおける要素となりうる。なお、ＳＦにおける要素は、説明文中に存在しない他の名称に置き換わることがある。

また例えば、Ｔｆ−Ｉｄｆは、特定のウェブページに存在する語を抽出するアルゴリズムなので（例えば、「https://ja.wikipedia.org/wiki/Tf-idf」を参照）、取得部１０１は、説明文に含まれる少なくとも１つの語を要素ｉとして抽出し、当該ウェブページの中で当該要素ｉが出現した回数と、他のウェブページの中で当該要素ｉが出現した回数と、をカウントして出現度ｗ_５，ｉを取得する。Ｔｆ−Ｉｄｆでは、複数のウェブページで万遍なく使用されている語ではなく、ある特定のウェブページにおいて特異的に多く用いられている語が出現度ｗ_５，ｉが高いと評価されるので、要素ｉが抽出された特定のウェブページの中での出現回数が多いほど出現度ｗ_５，ｉは高くなる一方、他の多くのウェブページにおいて普遍的に出現するほど出現度ｗ_５，ｉは低くなる。

また例えば、属性抽出法は、文書に含まれる属性又は属性値を分析するアルゴリズムなので、取得部１０１は、説明文に含まれる属性又は属性値を要素ｉとして抽出し、説明文の中で当該要素ｉが出現した回数をカウントして出現度ｗ_６，ｉとして取得する。本実施形態では、属性データベースＤＢ２に属性と属性値の組み合わせが格納されているので、属性データベースＤＢ２内の属性の名前又は属性値と一致する語がウェブページ内に存在していれば、属性抽出法における要素となる。また例えば、属性データベースＤＢ２に定義された属性値と一致する語が存在する場合に、当該属性値に関連付けられた属性の名前が抽出されてもよい。なお、特に属性値を定義せずに属性の名前だけを定義しておいてもよく、この場合には、説明文中に「Ｃｏｌｏｒ：ｒｅｄ」といった語が出現した場合に、属性抽出法における要素としてもよい。この場合、「Ｃｏｌｏｒ」だけが要素となってもよいし、「ｒｅｄ」も含めて要素としてもよい。

図７は、取得部１０１により取得された要素ｉと出現度ｗ_ｎ，ｉの関係を示す図である。図７に示すように、取得部１０１は、上記説明した各アルゴリズムを利用して要素ｉと出現度ｗ_ｎ，ｉを取得し、これらを抽出したアルゴリズムと関連付けてデータ記憶部１００に一時的に保持する。アルゴリズムごとに取得された各要素ｉの出現度ｗ_ｎ，ｉは、後述する正規化部１０２によって正規化される。

［３−３．正規化部］
正規化部１０２は、ＣＰＵ１１を主として実現される。正規化部１０２は、アルゴリズムごとに、取得部１０１により取得された出現度ｗ_ｎ，ｉを正規化する。以降、正規化後の出現度をｗ´_ｎ，ｉと記載する。

正規化部１０２は、アルゴリズムごとに、当該アルゴリズムによって抽出された要素ｉの出現度ｗ_ｎ，ｉの分布に基づいて、出現度ｗ_ｎ，ｉが示す値を正規化する。なお、正規化自体は、種々の手法を適用可能であり、本実施形態では、ｍｉｎ−ｍａｘ正規化法を用いるため、正規化後の出現度ｗ´_ｎ，ｉが示す値の範囲は特定の範囲に制限される。値の範囲をどのように設定するかは任意である。もちろん、これ以外の方法、例えば、ｚ−ｓｃｏｒｅ正規化法等の他の手法を用いてもよく、その場合、正規化後の出現度ｗ´_ｎ，ｉが示す値の範囲や、平均値・分散等の統計量は、正規化に用いる手法に依存する。

ｍｉｎ−ｍａｘ正規化法は、その分布内の値の最小値と最大値が一定となるようにリスケーリングするものであり、異なるアルゴリズム間では、統計量として最小値と最大値が共通となる。具体的には、正規化部１０２は、アルゴリズムごとの出現度ｗ_ｎ，ｉの最小値をｗ_{ｎ，ｍｉｎ}、最大値をｗ_{ｎ，ｍａｘ}とおくと、正規化後の出現度ｗ´_ｎ，ｉを次の数式１により計算する。

ここでａ，ｂは任意のスケーリングパラメータであり、本実施形態ではａ＝１０、ｂ＝１としているから、正規化後の出現度ｗ´_ｎ，ｉの分布は、異なるアルゴリズムごとに最小値が１、最大値が１０となる。

図４に示すように、例えば、正規化部１０２は、ＢＧを利用して抽出された要素ｉの出現度ｗ_１，ｉの正規化を行い、正規化された出現度ｗ´_１，ｉを取得する。他のアルゴリズムについても同様に、正規化部１０２は、ＮＥ、ＳＤ、ＳＦ、Ｔｆ−Ｉｄｆ、及び属性抽出法の各々のアルゴリズムごとに、当該アルゴリズムを利用して抽出された要素ｉの出現度ｗ_ｎ，ｉの正規化を行い、正規化された出現度ｗ´_ｎ，ｉを取得する。

図８は、正規化の前後における各アルゴリズムの出現度の分布の変化を示す図である。図８の縦軸は出現度であり、要素ｉの出現度を円で示している。図８に示す例では、属性抽出法の出現度ｗ_６，ｉは、他のアルゴリズムの出現度ｗ_１，ｉ〜ｗ_５，ｉに比べて著しく高い。また、Ｔｆ−Ｉｄｆによる出現度ｗ_５，ｉは、ＢＧ〜ＳＦの４つのアルゴリズムによる出現度ｗ_１，ｉ〜ｗ_４，ｉよりも高い値を示しているため、これら出現度の大小を単純にある一意の閾値と比較することは妥当ではない。そこで、正規化部１０２は、それぞれのアルゴリズムによって取得された出現度ｗ_ｎ，ｉを正規化することによって、正規化後のそれぞれのアルゴリズムについての出現度ｗ´_ｎ，ｉの分布を互いに近づける。言い換えれば、正規化部１０２は、特定のアルゴリズムにより取得された出現度ｗ_ｍ，ｉの分布が、他のアルゴリズムにより取得された正規化後の出現度ｗ´_{ｎ，ｉ｜ｎ≠ｍ}の分布に近づくように正規化を行う。ここで、ある出現度の分布が、他の出現度の分布に近づくとは、先の出現度についての任意の統計量（例えば、平均値、分散、中央値、最大値、最小値等）の一つ又は複数が、後の出現度についての同種の統計量により近くなる又は一致することをいうものとする。

図８に示すように、正規化後の各出現度ｗ´_１，ｉ〜ｗ´_６，ｉの分布は、大きな偏りがなく、Ｔｆ−Ｉｄｆによる正規化後の出現度ｗ´_５，ｉ及び、属性抽出法による正規化後の出現度ｗ´_６，ｉのいずれも、ＢＧ〜ＳＦの４つのアルゴリズムによる正規化後の出現度ｗ´_１，ｉ〜ｗ´_４，ｉと同一の値域に分布していることがわかる。即ち、正規化部１０２は、正規化を実行することで、各アルゴリズムで抽出された要素ｉの正規化された出現度ｗ´_ｎ，ｉのスケールを互いに揃え、これら出現度ｗ´_１，ｉ〜ｗ´_６，ｉの大小をある一意の閾値と比較することを可能とする。図８の例では、正規化部１０２は、特に、Ｔｆ−Ｉｄｆにより取得された出現度ｗ_５，ｉと、属性抽出法により取得された出現度ｗ_６，ｉの分布が、他のアルゴリズムにより取得された正規化後の出現度ｗ´_１，ｉ〜ｗ´_４，ｉの分布に近づくように正規化を実行したことになる。もちろん、程度の差こそあれ、正規化部１０２は、特定のいずれのアルゴリズムにより取得された出現度ｗ_ｍ，ｉについても、その分布が他のアルゴリズムにより取得された正規化後の出現度ｗ´_{ｎ，ｉ｜ｎ≠ｍ}に近づくように正規化を行っている。

［３−４．フィルタリング部］
フィルタリング部１０３は、ＣＰＵ１１を主として実現される。フィルタリング部１０３は、正規化部１０２により正規化された出現度ｗ´_ｎ，ｉに基づいて、要素をフィルタリングする。フィルタリング部１０３は、要素ｉの正規化された出現度ｗ´_ｎ，ｉとフィルタリング条件とに基づいて、要素ｉをフィルタリングする。

フィルタリング条件は、抽出された全ての要素ｉの中の一部を抽出するための条件であればよく、正規化された出現度ｗ´_ｎ，ｉに関する任意の条件が設定されてよい。例えば、出現度ｗ´_ｎ，ｉの閾値がフィルタリング条件として設定されてもよいし、出現度ｗ´_ｎ，ｉの上位Ｘ％（Ｘは１００未満の正数。例えば、Ｘ＝１０〜３０程度。）といった条件がフィルタリング条件として設定されてもよい。他にも例えば、正規化された出現度ｗ´_ｎ，ｉの降順となるように要素ｉをソートしたうえで所定順序までの要素ｉを抽出するといった条件がフィルタリング条件として設定されてもよい。

フィルタリング条件は、固定値であってもよいが、本実施形態では、動的に設定されるものとする。ここで、動的にフィルタリング条件を設定するとは、フィルタリング部１０３が、各アルゴリズムにより取得された正規化された出現度ｗ´_ｎ，ｉの分布に基づいて、その都度フィルタリング条件を設定することをいう。即ち、フィルタリング部１０３は、正規化された出現度ｗ´_ｎ，ｉの分布に基づいてフィルタリング条件を設定し、当該設定されたフィルタリング条件に基づいてフィルタリングを実行する。このようにして設定されたフィルタリング条件は、他の文書について設定されたフィルタリング条件と偶然一致することもあるが、通常は文書ごとに異なる。

本実施形態では、フィルタリング条件の一例として、正規化された出現度ｗ´_ｎ，ｉの閾値ｔｈを説明する。フィルタリング部１０３は、正規化された出現度ｗ´_ｎ，ｉの分布に基づいて、閾値ｔｈを動的に設定することになる。図８に示すように、ここでは、フィルタリング部１０３は、正規化された出現度ｗ´_ｎ，ｉが上位となる所定割合の要素ｉが抽出されるように、閾値ｔｈを設定する。フィルタリング部１０３は、抽出に用いられたアルゴリズムに依らず、正規化された出現度ｗ´_ｎ，ｉが上位となる所定割合の要素ｉが抽出されるように、フィルタリングを実行することになる。所定割合は、任意の割合であればよく、図８では２０％としているが、２０％未満であってもよいし、２０％より多くてもよい。

なお、フィルタリングは、主に、後述する選択部１０４が要素ｉを選択する際の母集団を減らす目的で実行されるので、抽出された要素ｉがそもそも少なかった場合には、フィルタリングは省略してもよい。また、要素ｉの数に応じてフィルタリング条件が設定されてもよい。例えば、上記では、上位２０％の要素ｉが抽出されるように閾値ｔｈが設定される場合を説明したが、要素ｉが少なければ、より多くの要素ｉが抽出されるように、閾値ｔｈを下げてフィルタリング条件を甘くしてもよい。これとは逆に、要素ｉが多ければ、要素ｉを絞り込むために、閾値ｔｈを下げてフィルタリング条件を厳しくしてもよい。

なお、図４に示すように、本実施形態では、フィルタリング後の要素は、連番となるように採番し直されるものとする。このため、以降の説明では、フィルタリング後の要素をｋと記載し、当該要素の正規化された出現度をｗ_ｋ（以降では特にアルゴリズムを区別する必要がないため、ｎの数値を省略する。）と記載する。

要素ｋ及び出現度ｗ_ｋのｋは、自然数であり、フィルタリング後の要素を一意に識別する数値である。ここでは、ｋの初期値を１とし、フィルタリング部１０３が要素をフィルタリングして抽出するたびにｋの値がインクリメントされる。フィルタリングによって要素が絞り込まれるので、ｋの最大値は、フィルタリング前の要素を示すｉの最大値よりも小さい。なお、要素を識別する数値は、特に採番し直さなくてもよく、もともとのｉの値が要素の識別情報として用いられてもよい（その場合、ｋの値は、連番ではなく飛び飛びのものが用いられることになる）。

［３−５．選択部］
選択部１０４は、ＣＰＵ１１を主として実現される。選択部１０４は、正規化部１０２により正規化された出現度ｗ_ｋに基づいて、ウェブページの中から少なくとも１つの文を選択する。選択部１０４により選択された文は、要約を作成するために利用される文である。選択部１０４は、１つだけの文を選択してもよいし、複数の文を選択してもよい。

なお、以降の説明では、ウェブページ内の商品の説明文に含まれる個々の文にｊの符号を付して説明する。文ｊのｊは、自然数であり、文を一意に識別する数値である。ここでは、ｊの初期値を１とし、ウェブページ内の商品の説明文の頭から順番に各文にｊの数値が付与される。

本実施形態では、文ｊを選択するための選択条件が定められており、選択部１０４は、当該選択条件に基づいて、商品の説明文の中から文ｊを選択する。選択条件は、予め定められた条件であればよく、例えば、出現度ｗ_ｋの高さに関する条件であってもよいし、選択される文ｊの分量に関する条件であってもよい。なお、選択される文ｊの分量とは、選択される分ｊに含まれる単語数又は文字数、あるいはそれらに関する量を示すものとする。

本実施形態では、フィルタリングが実行されるので、選択部１０４は、フィルタリング部１０３によりフィルタリングされた要素ｋの正規化された出現度ｗ_ｋを用いて、所定の選択条件に基づいて、商品の説明文の中から少なくとも１つの文ｊを選択する。フィルタリングで抽出されなかった要素については、所定の選択条件の判定対象とはならず、フィルタリングで抽出された要素ｋが判定対象となる。別の言い方をすれば、フィルタリングで抽出されなかった要素は、選択部１０４による選択の母集団には含まれず、フィルタリングで抽出された要素ｋだけが母集団となる。

本実施形態では、所定の選択条件が、選択部１０４により選択される文ｊに含まれる要素の正規化された出現度ｗ_ｋの総和が最大となり、かつ、当該選択される文ｊが所定の分量未満になることである場合を説明する。このような選択条件下において解を求める問題は、最適化問題（ＯｐｔｉｍｉｚａｔｉｏｎＰｒｏｂｌｅｍ）の内、整数線形計画問題（ＩｎｔｅｇｅｒＬｉｎｅａｒＰｒｏｂｌｅｍ）として知られており、ＮＰ困難のクラスに属することが知られている。そのため、選択部１０４は、整数線形計画法（ＩＬＰ：ＩｎｔｅｇｅｒＬｉｎｅａｒＰｒｏｇｒａｍ）を用いて、商品の説明文の中から少なくとも１つの文ｊを選択する。即ち、選択部１０４は、所定の制約条件を満たしつつ、所定の目的関数を最大化する近似解となるように、商品の説明文の中から少なくとも１つの文ｊを選択する。整数線形計画法のアルゴリズムには、全ての要素ｉのうち、フィルタリング部１０３によりフィルタリングされた要素ｋが入力される。

図４に示すように、本実施形態では、目的関数を下記の数式２で示し、制約条件を下記の数式３〜４で示す。選択部１０４は、数式３〜４の制約条件を満たす中で、数式２の値が最大となるように、要素ｋと文ｊを選択する。なお、下記の数式２〜４では、要素ｋが選択された場合にはｃ_ｋの値は１となり、要素ｋが選択されなかった場合にはｃ_ｋの値は０となる。また、文ｊが選択された場合にはｓ_ｊの値は１となり、文ｊが選択されなかった場合にはｓ_ｊの値は０となる。

数式２は、選択された要素ｋの出現度ｗ_ｋの総和である。なお、同じ要素ｋが複数の文ｊ中に存在することがあるが、この場合は当該要素ｋの出現度ｗ_ｋが重複して加算されるわけではなく、当該要素ｋの出現度ｗ_ｋは１回だけ加算される。

数式３のｌ_ｊは、文ｊの長さである。長さｌ_ｊは、文字数（記号数）であってもよいしワード数であってもよい。数式３のＬは、要約の分量の上限値であり、任意の数値を設定可能である。例えば、Ｌは、１５０文字程度としてもよいし、５０ワード程度としてもよい。数式３が示す制約条件は、選択された文ｊの長さｌ_ｊの総和が閾値Ｌ以下となることを意味する。

数式４のＯ_ｃｃｋｊは、文ｊの中に要素ｋが含まれている場合に１となり、文ｊの中に要素ｋが含まれていない場合に０となる。数式４が示す制約条件は、ある文ｊが選択された場合には、当該文ｊに含まれる要素ｋは、必ず選択されるということを意味する。即ち、ある文ｊが選択されたにもかかわらず、その選択された文ｊに含まれる要素ｋが選択されないということはなく、そのような要素ｋは必ず選択されなければならない。一方で、ある文ｊが選択されなかった場合には、その選択されなかった文ｊに含まれる要素ｋが選択されないとは限らない。そのような要素ｋは、選択された別の文ｊにも含まれているかもしれないからである。

数式５のＯ_ｃｃｋｊは、数式４と同様である。数式５が示す制約条件は、選択された要素ｋは、選択された文ｊのいずれかには必ず含まれているということを意味する。即ち、要素ｋが選択されたにもかかわらず、選択された文ｊの中のどの文にも含まれていないといったことはなく、少なくとも１つの選択された文ｊには含まれていなければならない。

なお、上記では、整数線形計画法による近似的解法により、所定の制約条件を満たしつつ、所定の目的関数を最大化する近似解として、選択条件を満たす文ｊを選択したが、選択部１０４は、他の手法を利用して、選択条件を満たす文ｊを選択してもよい。例えば、選択部１０４は、総当たり法等を用いて完全解を求めてもよい。あるいは、他の探索アリゴリズム、例えば任意の発見的解法（Ｈｅｕｒｉｓｔｉｃ）等を利用してもよい。

［３−６．作成部］
作成部１０５は、ＣＰＵ１１を主として実現される。作成部１０５は、選択部１０４により選択された文ｊ（即ち、ｓ_ｊ＝１であるような文ｊ）に基づいて、商品の説明文の要約を作成する。作成部１０５は、選択部１０４により選択された文ｊをそのまま並べることによって要約を作成してもよいし、選択部１０４により選択された文ｊの一部を編集することによって要約を作成してもよい。なお、選択部１０４により選択された文ｊが１つだけであった場合には、作成部１０５は、当該１つの文ｊをそのまま要約としてもよいし、当該１つの文ｓ_ｊの一部を編集することによって要約を作成してもよい。なお、編集とは、文ｊの中の一部の語を削除・改変すること、文ｊに語を追加（挿入）することである。

本実施形態では、作成部１０５は、選択部１０４により選択された文ｊを、当該文ｊが説明文中で出現する順番に従って並べることによって、要約を作成する。即ち、作成部１０５は、説明文の中での文ｊの順番を変えず、説明文の中での並び順通りに文ｊを並べることによって、要約を作成する。本実施形態では、説明文の頭から順番にｊの値が採番されるので、作成部１０５は、選択部１０４により選択された文ｊを、ｊの値の昇順に並べることによって、要約を作成する。

図９及び図１０は、作成部１０５によって作成された要約の一例を示す図である。なお、図９及び図１０では、公知の技術であるＴｅｘｔＲａｎｋ及びＰＧ（ＰｏｉｎｔｅｒＧｅｎｅｒａｔｏｒｎｅｔｗｏｒｋ）の各々との対比も示している。ＴｅｘｔＲａｎｋは、本実施形態で説明したアルゴリズムと同様に非学習モデル（教師なしモデル）の一種であり、ＰａｇｅＲａｎｋというウェブページの重要度を抽出する技術を自然言語に流用したアルゴリズムである。なお、ＰＧは、教師データを必要とする学習モデル（教師ありモデル）の一種であり、深層学習における畳み込みニューラルネットワークを利用したアルゴリズムである。ＰＧは、入力した文書に含まれる文をそのまま流用するのではなく、改変を加えたうえで要約を作成する点が特徴とされている。

図９及び図１０に示すように、ＴｅｘｔＲａｎｋの要約は、本実施形態に係る要約作成システム１により作成された要約に比べて長く冗長であり要約の精度が低く、ＰＧの要約は、文法的又は意味的に誤った文章が生成されて、一部が不明瞭な内容となっている。また、本発明者達の研究によれば、ＴｅｘｔＲａｎｋでは、比較的短い説明文の場合には当該説明文がそのまま要約として出力されることがあり、ＰＧでは、ブランド名やモデル名といった要約を作成するうえで重要な固有表現が説明文に含まれている場合に、これらの固有表現がしばしば抜け落ちてしまうことがわかっている。一方、図９及び図１０に示すように、本実施形態に係る要約作成システム１が作成した要約は、商品の説明文の重要な部分が抜け落ちることなく簡潔に記載されており、要約の精度が高くなっている。

［４．要約作成システムで実行される処理］
図１１は、要約作成システム１で実行される処理の一例を示すフロー図である。図１１に示す処理は、サーバ１０によって実行され、ＣＰＵ１１がメモリ１２に記憶されたプログラムに従って動作することによって実行される。下記に説明する処理は、図３に示す機能ブロックにより実行される処理の一例である。

図１１に示すように、まず、ＣＰＵ１１は、メモリ１２に記憶された商品データベースＤＢ１を参照し、要約の作成対象となる商品の説明文を取得する（Ｓ１）。Ｓ１においては、ＣＰＵ１１は、商品データベースＤＢ１に説明文が格納された商品の中から任意の商品の商品を選択すればよく、例えば、要約がまだ作成されていない説明文を、要約の作成対象として選択する。

ＣＰＵ１１は、複数のアルゴリズムの各々に基づいて、商品の説明文に含まれる複数の要素ｃ_ｉの各々の出現度ｗ_ｎ，ｉを取得する（Ｓ２）。Ｓ２においては、ＣＰＵ１１は、ＢＧ、ＮＥ、ＳＤ、ＳＦ、Ｔｆ−Ｉｄｆ、及び属性抽出法の各々を利用して、説明文の中から要素ｉを抽出し、当該要素ｉが出現した回数に基づいて出現度ｗ_ｎ，ｉを取得する。

ＣＰＵ１１は、アルゴリズムごとに、要素ｉの出現度ｗ_ｎ，ｉを正規化する（Ｓ３）。Ｓ３においては、ＣＰＵ１１は、ｍｉｎ−ｍａｘ正規化法に基づいて、各アルゴリズムが抽出した要素ｉの出現度ｗ_ｎ，ｉの正規化を行い、正規化後の出現度ｗ´_ｎ，ｉを取得する。

ＣＰＵ１１は、Ｓ３において正規化された出現度ｗ´_ｎ，ｉの分布に基づいて、フィルタリングの閾値ｔｈを設定する（Ｓ４）。Ｓ４においては、ＣＰＵ１１は、全ての要素ｉのうち、正規化された出現度ｗ´_ｎ，ｉの上位所定割合の要素ｉが抽出されるように閾値ｔｈを設定する。

ＣＰＵ１１は、Ｓ３において正規化された出現度ｗ´_ｎ，ｉと、Ｓ４で設定した閾値ｔｈと、に基づいて、要素ｉをフィルタリングする（Ｓ５）。Ｓ５においては、ＣＰＵ１１は、各要素ｉの出現度ｗ´_ｎ，ｉと閾値ｔｈを比較し、全ての要素ｉの中から、閾値ｔｈ以上の出現度ｗ´_ｎ，ｉの要素ｉを抽出する。先述したように、フィルタリングが実行されると、要素を識別する数値が採番し直されて要素ｋとなる。

ＣＰＵ１１は、Ｓ５でフィルタリングされた要素ｋの正規化された出現度ｗ_ｋに基づいて、商品の説明文の中から少なくとも１つの文ｊを選択する（Ｓ６）。Ｓ６においては、ＣＰＵ１１は、整数線形計画法に基づいて、数式３〜４の各々を満たしつつ、数式２が示す目的関数を最大化する近似解となるように、少なくとも１つの文ｊを選択する。即ち、ＣＰＵ１１は、選択された文ｊの分量が上限値Ｌ以下となり、選択された文ｊに含まれる要素ｋは必ず選択され、かつ、選択された要素ｋは選択された文ｊの何れかには必ず含まれている中で、当該選択された要素ｋの出現度ｗ_ｋの総和が最大になるように、文ｊを選択する。

ＣＰＵ１１は、Ｓ６で選択した文ｊに基づいて、要約を作成し（Ｓ７）、本処理は終了する。Ｓ７においては、ＣＰＵ１１は、Ｓ６で選択した文ｊを順番に並べて要約を作成する。文ｊが１つだけであれば、当該１つの文ｊをそのまま要約とする。ＣＰＵ１１は、Ｓ７で作成した要約を商品データベースＤＢ１に格納する。商品データベースＤＢ１に要約が格納されると、ユーザが商品のウェブページにアクセスした場合に、ユーザ端末３０に要約が表示される。

以上説明した要約作成システム１によれば、複数のアルゴリズムの各々に基づいて商品の説明文に含まれる複数の要素ｉの各々の出現度ｗ_ｎ，ｉを取得し、アルゴリズムごとに出現度ｗ_ｎ，ｉを正規化したうえで、少なくとも１つの文ｊを選択して要約を作成するので、全体的に出現度ｗ_ｎ，ｉが高いアルゴリズムにより抽出された要素ｉばかりが偏って選択されるといったことを防止し、要約の精度を高めることができる。即ち、より多くの観点で文ｊを選択して要約を作成することで、特定の観点だけで要約が作成されてしまうといったことを防止し、要約の精度を高めることができる。

また、正規化された出現度ｗ´_ｎ，ｉに基づいて要素ｉをフィルタリングしたうえで、所定の条件に基づいて少なくとも１つの文ｊを選択することで、文ｊを選択する際の母集団が少なくなるので、要約を作成する際のサーバ１０の処理負荷を軽減することができ、より迅速に要約を作成することができる。

また、正規化された出現度ｗ´_ｎ，ｉの総和が最大となり、かつ、選択される文ｊの分量が所定の分量未満となるように、少なくとも１つの文ｊが選択されて要約が作成されることで、商品の説明文の中で重要な部分を含み、かつ、適度な長さの要約を作成することができ、要約の精度を効果的に高めることができる。

また、整数線形計画法を用いて説明文の中から少なくとも１つの文ｊを選択することで、要約の精度を効果的に高めることができる。更に、整数線形計画問題は、ＮＰ困難であり、処理項目数の増加が計算量の著しい増加をもたらすことが知られているが、正規化された出現度ｗ´_ｎ，ｉに基づいて要素ｉをフィルタリングすることで処理項目数を減らすことができ、要約を作成する際のサーバ１０の処理負荷を軽減することができ、より迅速に要約を作成することができる。また、整数線形計画法を用いた要約作成は、非学習モデルによる処理であるため、教師データの作成、学習器の作成、及びＲＮＮによる大規模な演算等が不要になり、自然言語処理における効率化を図ることができる。

また、正規化された出現度ｗ´_ｎ，ｉの分布に基づいてフィルタリング条件が設定されてフィルタリングが実行されることで、出現度ｗ´_ｎ，ｉの分布に応じた最適なフィルタリング条件が設定され、フィルタリングの精度を高めることができる。その結果、商品の説明文の中でより重要な部分を抽出することができ、要約の精度を効果的に高めることができる。

また、要素ｉの抽出に用いられたアルゴリズムに依らず、正規化された出現度ｗ´_ｎ，ｉが上位となる所定割合の要素ｋが抽出されるように、フィルタリングが実行されることで、商品の説明文の中でより重要な部分を利用して要約を作成することができ、要約の精度を効果的に高めることができる。

また、アルゴリズムとしてＴｆ−Ｉｄｆと属性抽出法の少なくとも一方を含めることで、これらと相性の良い商品の説明文の要約の精度を効果的に高めることができる。

また、商品の説明文の中から選択された文ｊを、商品の説明文中で出現する順番に従って並べて要約を作成することによって、要約が自然な流れの文章となり、要約の精度を効果的に高めることができる。

また、商品等の説明文の要約を作成する場合には、属性抽出法の出現度ｗ_６，ｉが全体的に高くなりがちであるが、属性抽出法により取得された出現度ｗ_６，ｉの分布が他のアルゴリズムにより取得された出現度ｗ_１，ｉ〜ｗ_５，ｉの分布に近づくように、正規化が実行されることで、属性抽出法より抽出された要素ｉばかりが偏って選択されることを防止し、要約の精度を高めることができる。即ち、属性抽出法以外のアルゴリズムにより抽出された要素ｉをも満遍なく選択するようにすることにより、より多くの観点で文ｊを選択して要約を作成することができ、属性抽出法等の特定のアルゴリズムに基づく観点だけで要約が作成されてしまうことを防止し、要約の精度を高めることができる。

［５．変形例］
なお、本発明は、以上に説明した実施形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。

例えば、商品データベースＤＢ１に格納された全ての商品の説明文が要約の作成対象となる場合を説明したが、一部の説明文だけが要約の作成対象となってもよい。例えば、説明文の分量が少ない場合には要約を作成する必要がないので、所定の分量以上の説明文だけが要約の作成対象となってもよい。この場合、サーバ１０は、商品データベースＤＢ１に格納された商品の説明文の分量が所定の分量以上であるか否かを判定する。サーバ１０は、所定の分量以上の説明文については、取得部１０１、正規化部１０２、フィルタリング部１０３、選択部１０４、及び作成部１０５の各々の処理を実行して要約を作成し、所定の分量未満の説明文については、これらの処理を実行せずに要約を作成しないようにしてもよい。

また例えば、実施形態では、１つの文書から１つの要約が作成される場合を説明したが、複数の文書から１つの要約が作成されてもよい。この場合、取得部１０１は、複数の文書の各々に含まれる要素ｉの出現度ｗ_ｎ，ｉを取得する。正規化部１０２、フィルタリング部１０３、及び選択部１０４の処理は、複数の文書から取得された要素ｉの出現度ｗ_ｎ，ｉが用いられるという点で異なるだけであり、処理内容は実施形態で説明した通りである。作成部１０５は、複数の文書をまとめた１つの要約を作成することになる。例えば、実施形態で説明した口コミが文書に相当する場合、作成部１０５は、ある商品の複数の口コミをまとめた１つの要約を作成してもよい。

また例えば、文書の一例として商品の説明文を説明したが、文書は、任意の内容であってよく、例えば、施設又はサービスの説明文であってもよい。施設は、ホテル、旅館、又はレストラン等の宿泊施設であってもよいし、イベント会場、会社、又は工場等の施設であってもよい。サービスは、任意のサービスであってよく、例えば、宿泊施設の提供サービス、レストランにおける食事の提供サービス、金融サービス、又は保険サービスである。複数のアルゴリズムには、施設又はサービスの属性の属性値を要素として抽出する属性抽出法が含まれていてもよい。施設又はサービスの説明文は、施設又はサービスの性質を考慮して入力されるので、説明文の中に施設又はサービスの属性や属性値が含まれることが多く、属性抽出法の出現度が高くなりがちである。このため、属性抽出法により抽出された施設又はサービスの説明文の要素の出現度が正規化されて、他のアルゴリズムの出現度のスケールに合わせるようにしてもよい。

また例えば、ウェブページが文書に相当する場合には、ニュース記事、掲示板、チャット、ＳＮＳ、又はインターネット上の百科事典等の種々のウェブページの要約を作成するために、要約作成システム１が用いられてもよい。先述したように、ウェブページ以外の文書の要約を作成するために、要約作成システム１が用いられてもよい。また例えば、要約作成システム１で利用されるアルゴリズムは、実施形態で説明した６つの組み合わせに限られず、任意の組み合わせであってよい。例えば、実施形態で説明した６つのアルゴリズムのうちの２つ〜５つだけが利用されてもよいし、これらとは別のアルゴリズムが利用されてもよい。

また例えば、要約作成システム１の各機能のうち、フィルタリング部１０３は省略してもよい。また例えば、データ記憶部１００は、要約作成システム１に含まれている必要はなく、データベースサーバによって実現されてもよい。また例えば、サーバ１０で実現されるものとして説明した機能は、サーバ１０以外のコンピュータによって実現されてもよく、例えば、店舗端末２０において実現されてもよい。即ち、サーバ１０以外のコンピュータが本発明に係る要約作成装置に相当してもよい。

１要約作成システム、Ｎネットワーク、１０サーバ、１１ＣＰＵ、１２メモリ、１３通信インタフェース、１４バス、２０店舗端末、３０ユーザ端末、ｔｈ閾値、１００データ記憶部、１０１取得部、１０２正規化部、１０３フィルタリング部、１０４選択部、１０５作成部、ＤＢ１商品データベース、ＤＢ２属性データベース。

Claims

文書から１又は複数の要素を抽出し、抽出された前記要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、前記文書から複数の前記要素及びその出現度を取得する取得手段と、
前記アルゴリズムごとに、前記取得手段により取得された出現度を正規化する正規化手段と、
前記正規化手段により正規化された出現度の分布に基づいてフィルタリング条件を設定し、当該設定されたフィルタリング条件に基づいて前記要素をフィルタリングするフィルタリング手段と、
前記フィルタリング手段によりフィルタリングされた要素の前記正規化された出現度を用いて、所定の選択条件に基づいて、前記文書の中から少なくとも１つの文を選択する選択手段と、
前記選択手段により選択された文に基づいて、前記文書の要約を作成する作成手段と、
を含むことを特徴とする要約作成装置。
文書から１又は複数の要素を抽出し、抽出された前記要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、前記文書から複数の前記要素及びその出現度を取得する取得手段と、
前記アルゴリズムごとに、前記取得手段により取得された出現度を正規化する正規化手段と、
前記正規化手段により正規化された出現度に基づいて、前記文書の中から少なくとも１つの文を選択する選択手段と、
前記選択手段により選択された文に基づいて、前記文書の要約を作成する作成手段と、
を含み、
前記文書は、商品、施設、又はサービスの説明文であり、
前記複数のアルゴリズムには、前記商品、前記施設、又は前記サービスの属性の属性値を前記要素として抽出する属性抽出法を含み、
前記正規化手段は、前記属性抽出法により取得された出現度の分布が、他のアルゴリズムにより取得された正規化後の出現度の分布に近づくように、正規化を実行する、
ことを特徴とする要約作成装置。
前記所定の選択条件は、前記選択手段により選択される文に含まれる前記要素の前記正規化された出現度の総和が最大となり、かつ、当該選択される文が所定の分量未満になることである、
ことを特徴とする請求項１に記載の要約作成装置。
前記選択手段は、整数線形計画法を用いて前記文書の中から少なくとも１つの文を選択する、
ことを特徴とする請求項３に記載の要約作成装置。
前記フィルタリング手段は、抽出に用いられたアルゴリズムに依らず、前記正規化された出現度が上位となる所定割合の要素が抽出されるように、フィルタリングを実行する、
ことを特徴とする請求項１、３、又は４の何れかに記載の要約作成装置。
前記複数のアルゴリズムには、Ｔｆ−Ｉｄｆ（Ｔｅｒｍｆｒｅｑｕｅｎｃｙ−Ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）法と、予め定められた属性の属性値を前記要素として抽出する属性抽出法と、の少なくとも一方が含まれる、
ことを特徴とする請求項１、３、４、又は５の何れかに記載の要約作成装置。
前記作成手段は、前記選択手段により選択された文を、当該文が前記文書中で出現する順番に従って並べることによって、前記要約を作成する、
ことを特徴とする請求項１〜６の何れかに記載の要約作成装置。
文書から１又は複数の要素を抽出し、抽出された前記要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、前記文書から複数の前記要素及びその出現度を取得する取得ステップと、
前記アルゴリズムごとに、前記取得ステップにより取得された出現度を正規化する正規化ステップと、
前記正規化ステップにより正規化された出現度の分布に基づいてフィルタリング条件を設定し、当該設定されたフィルタリング条件に基づいて前記要素をフィルタリングするフィルタリングステップと、
前記フィルタリングステップによりフィルタリングされた要素の前記正規化された出現度を用いて、所定の選択条件に基づいて、前記文書の中から少なくとも１つの文を選択する選択ステップと、
前記選択ステップにより選択された文に基づいて、前記文書の要約を作成する作成ステップと、
を含むことを特徴とする要約作成方法。
文書から１又は複数の要素を抽出し、抽出された前記要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、前記文書から複数の前記要素及びその出現度を取得する取得ステップと、
前記アルゴリズムごとに、前記取得ステップにより取得された出現度を正規化する正規化ステップと、
前記正規化ステップにより正規化された出現度に基づいて、前記文書の中から少なくとも１つの文を選択する選択ステップと、
前記選択ステップにより選択された文に基づいて、前記文書の要約を作成する作成ステップと、
を含み、
前記文書は、商品、施設、又はサービスの説明文であり、
前記複数のアルゴリズムには、前記商品、前記施設、又は前記サービスの属性の属性値を前記要素として抽出する属性抽出法を含み、
前記正規化ステップは、前記属性抽出法により取得された出現度の分布が、他のアルゴリズムにより取得された正規化後の出現度の分布に近づくように、正規化を実行する、
ことを特徴とする要約作成方法。
文書から１又は複数の要素を抽出し、抽出された前記要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、前記文書から複数の前記要素及びその出現度を取得する取得手段、
前記アルゴリズムごとに、前記取得手段により取得された出現度を正規化する正規化手段、
前記正規化手段により正規化された出現度の分布に基づいてフィルタリング条件を設定し、当該設定されたフィルタリング条件に基づいて前記要素をフィルタリングするフィルタリング手段、
前記フィルタリング手段によりフィルタリングされた要素の前記正規化された出現度を用いて、所定の選択条件に基づいて、前記文書の中から少なくとも１つの文を選択する選択手段、
前記選択手段により選択された文に基づいて、前記文書の要約を作成する作成手段、
としてコンピュータを機能させるためのプログラム。
文書から１又は複数の要素を抽出し、抽出された前記要素の各々の出現度を取得するアルゴリズムであって、互いに異なる複数のアルゴリズムを用いて、前記文書から複数の前記要素及びその出現度を取得する取得手段、
前記アルゴリズムごとに、前記取得手段により取得された出現度を正規化する正規化手段、
前記正規化手段により正規化された出現度に基づいて、前記文書の中から少なくとも１つの文を選択する選択手段、
前記選択手段により選択された文に基づいて、前記文書の要約を作成する作成手段、
としてコンピュータを機能させるためのプログラムであって、
前記文書は、商品、施設、又はサービスの説明文であり、
前記複数のアルゴリズムには、前記商品、前記施設、又は前記サービスの属性の属性値を前記要素として抽出する属性抽出法を含み、
前記正規化手段は、前記属性抽出法により取得された出現度の分布が、他のアルゴリズムにより取得された正規化後の出現度の分布に近づくように、正規化を実行する、
プログラム。