JP6596565B1

JP6596565B1 - 抽出システムおよびプログラム

Info

Publication number: JP6596565B1
Application number: JP2018244861A
Authority: JP
Inventors: 正徳平野; 泰紀坂地; 裕康松島; 潔和泉; 惇雄加藤; 嗣人森岡; 慎太郎長尾; 笙子木村
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-10-23
Anticipated expiration: 2038-12-27
Also published as: JP2020107051A

Abstract

【課題】テーマに関連する抽出対象を抽出するユーザの作業負担の軽減、作業効率の向上、抽出結果の適正化を図ることができる抽出システムを提供する。【解決手段】抽出システム１０では、テーマの単語と他の単語との間の類似度Ｓｗｏｒｄを用いて、テーマに関連する関連単語を決定した後、各関連単語の類似度Ｓｗｏｒｄと、各抽出対象の特徴を示す固有テキストデータとの照合により得られた適合率であるテキストデータ基準関連度Ｐｗｏｒｄとを用いて、各関連単語の修正関連度ＳＰｗｏｒｄを算出し、この修正関連度ＳＰｗｏｒｄの大小で着目単語を決定し、固有テキストデータにおける各着目単語やテーマ単語についての単語別出現回数ＣＯＵＮＴｗｏｒｄを求め、これらを用いて各抽出対象についての抽出対象・テーマ関連度ＦＳを算出する。【選択図】図１

Description

本発明は、組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムおよびプログラムに係り、例えば、テーマ型ファンドの構成銘柄とする候補銘柄を抽出し、または候補銘柄の選定作業を支援する場合等に利用できる。

一般に、投資信託は、複数の株式や債券等の銘柄により構成され、近年増加傾向にある個人投資家による投資対象としても人気が高い金融商品であるが、各構成銘柄やそれらの構成比率は、固定的なものではなく変化する。この際、構成銘柄の選定作業は、通常、投資信託の運用会社に所属するファンドマネージャにより行われる。

ところで、テーマ型ファンドと呼ばれる投資信託があり、これは、特定のテーマに関連した企業の株式や債券等を投資対象とした投資信託である。テーマとしては、例えば、人工知能（ＡＩ）、ロボット、健康、情報技術（ＩＴ）、情報通信技術（ＩＣＴ）、バイオ等がある。投資信託の運用会社は、投資家にとって魅力ある金融商品を開発し、運用していかなければならないが、そのためには、有望なテーマを決め、そしてそのテーマに沿った候補銘柄を選定しなければならない。しかし、テーマに関連する銘柄を探すことは、多くの情報の中から必要な情報だけを抽出する作業となるため、ファンドマネージャに負担を強いることになる。通常は、テーマに関連するキーワードを用いて、ウェブ検索等を行うことにより関連銘柄を抽出する作業等が行われている。

なお、後述するように、本発明は、単語間の類似度を取り扱うとともに、単語とテキストデータとのマッチングを行う技術であるから、これらの観点で、本発明に関連する技術としては、単語の分散表現の技術（単語を高次元のベクトルで表現する技術）であるｗｏｒｄ２ｖｅｃ等を利用して組織と人とのマッチングの度合いを測定するマッチング測定装置が知られている（特許文献１参照）。

特開２０１８−１２４７２９号公報

前述したように、投資信託の運用会社が、テーマ型ファンドを開発し、運用する場合には、テーマに沿った候補銘柄の選定作業が必要となるので、手間や時間がかかり、ファンドマネージャの負担は大きい。従って、有望な銘柄を見落としてしまう可能性もある。

また、ファンドマネージャは、必ずしもテーマ自体に精通しているとは限らないので、このことも、過大な負担や、有望な銘柄の見落としに繋がる。さらに、テーマ型ファンドが、世界中の株式や債券等を投資対象とするグローバルファンドである場合には、候補銘柄を探す範囲が広がるため、ファンドマネージャの負担は、より大きくなり、有望な銘柄を見落とす可能性も、より一層高まる。

従って、テーマ型ファンドの開発および運用にかかるファンドマネージャの手間や時間を軽減することができ、あるいは、テーマ自体について専門的な知識を有していなくてもテーマに沿った適切な株式等の銘柄を選定することができる銘柄（その銘柄の発行企業）の抽出システムの開発が望まれる。

また、以上に述べたことは、テーマ型ファンドの構成銘柄とする候補銘柄を抽出する場合に限らず、あるテーマに従って、すなわち何らかの目的を持って、そのテーマに関連する組織、人物、物品、商品、サービス、事象、またはその他の抽出対象を抽出する場合にも同様にいえることである。

本発明の目的は、テーマに関連する抽出対象を抽出するユーザの作業負担の軽減、作業効率の向上、抽出結果の適正化を図ることができる抽出システムおよびプログラムを提供するところにある。

本発明は、組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
学習用のテキストデータを用いて単語間の関連性を学習する学習処理で得られた学習結果データを記憶するモデル記憶手段と、
複数の抽出対象の各々について用意された抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
モデル記憶手段に記憶された学習結果データを用いて、テーマ入力受付手段により受け付けたテーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度算出手段と、
この類似度算出手段により決定した各関連単語、および、テーマの単語について、固有テキストデータ記憶手段に記憶された固有テキストデータとの照合を行うことにより、各関連単語および／またはテーマの単語を含む固有テキストデータに関連付けられた抽出対象識別情報を抽出し、テーマの単語についての照合で抽出した抽出対象の集合に対する、各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
類似度算出手段により算出した各関連単語についての類似度と、テキストデータ基準関連度算出手段により算出した各関連単語についてのテキストデータ基準関連度とを用いて、各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
この修正関連度算出手段により決定した各着目単語、および、テーマの単語について、それぞれの単語が、テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて固有テキストデータ記憶手段に記憶された固有テキストデータの中に出現する単語別出現回数を求め、各着目単語についての単語別出現回数に各着目単語についての修正関連度を乗じた値またはこの値に各着目単語の重み係数を乗じた値、並びに、テーマの単語についての単語別出現回数またはこの単語別出現回数にテーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
この抽出対象・テーマ関連度算出手段により算出した抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
を備えたことを特徴とするものである。

ここで、「テーマの単語」とは、何らかの目的を持って「抽出対象」を抽出するときに使用するキーワードのことである。

また、「抽出対象」としての「組織」、「人物」、「物品」、「商品」、「サービス」、「事象」は、例示列挙であり、その他の「抽出対象」でもよい。この「抽出対象」は、与えられるテーマに関連して抽出される対象であれば、どのような対象でもよく、詳細については、後述する。

さらに、「抽出対象を抽出し、または抽出作業を支援する」において「支援」と記載されているのは、システム処理で抽出された複数の抽出対象の中から、ユーザが自らの判断で選定や更なる絞り込みを行うために必要となる情報（抽出された各抽出対象についてのテーマとの関連性の大きさの程度を示す情報）を出力してユーザに提供してもよい趣旨である。

そして、「出力手段」により出力される情報は、列記された「状態」で示される情報が含まれていればよい趣旨であり、その他の情報を併せて出力してもよく、例えば、抽出対象についての抽出対象・テーマ関連度を算出する際に用いた各着目単語、それらの単語別出現回数や修正関連度を併せて出力してもよい。また、「出力手段」における「出力形式」としての「画面表示」、「印刷」、「音声出力」、「ファイル出力」、「データ送信」、「これらの組合せ」は、例示列挙であり、その他の「出力形式」でもよい。例えば、「出力形式」は、立体映像による出力（ホログラフィ出力を含む）でもよく、暗号化したデータの出力でもよく、画面表示や印刷の場合は、テキスト、グラフ、表、またはそれらを複合させた画面表示や印刷のいずれでもよい。

また、「類似度」は、単語間の関連性を示す類似度であれば、いずれの手法により求めた類似度でもよい。従って、類似度を算出する際に用いる「学習結果データ」は、いずれのアルゴリズムによる機械学習で得られたデータであってもよい。但し、「修正関連度算出手段」による処理において、類似度と、テキストデータ基準関連度とを用いて修正関連度を算出する場合（例えば、調和平均または加重調和平均を求める場合等）には、類似度の数値は、テキストデータ基準関連度と数値レベルを合わせることが好ましい。例えば、テキストデータ基準関連度が０〜１の範囲の値をとるなら、類似度も、同じように０〜１の範囲の値をとるか、または、０〜１の範囲の値をとるように調整した類似度とすることが好ましい。この調整には、例えば０〜１００の範囲の値を０〜１の範囲の値に調整する等の桁合わせの他に、例えば、−１〜１の範囲の値を０〜１の範囲の値にすること等も含まれる。なお、「修正関連度算出手段」による処理で、類似度やテキストデータ基準関連度に重み付けをする場合（例えば、調和平均ではなく、加重調和平均を求める場合等）には、その重みにより、数値レベルを合わせることも可能であるが、あくまでも、それらの重み（例えば、加重調和平均の重み等）は、類似度と、テキストデータ基準関連度との相対的な重み付けを行うために設定することが好ましい。

そして、「類似度」は、上記のように、テキストデータ基準関連度と数値レベルを合わせることが好ましいが、そのことを前提とし、「類似度算出手段」において「モデル記憶手段に記憶された学習結果データを用いて、テーマ入力受付手段により受け付けたテーマの単語と他の単語との間の類似度を算出」することには、識別器の出力値（例えば、ニューラル・ネットワーク（ＮＮ）の場合には、出力層の値）を使用せずに、学習結果データを用いて類似度を算出することの他に、学習結果データを用いた識別器による識別処理で得られた出力値（例えば、ＮＮの場合には、出力層の値）を類似度とすることや、その出力値を使用して類似度を算出することも含まれる。この際、出力値の中にテーマの単語に対応する値（例えば、ＮＮの場合には、出力層においてテーマの単語に対応するノードの値）が含まれている場合には、その値は除外すればよい。

このような本発明の抽出システムにおいては、テーマの単語と他の単語との間の類似度を用いて、テーマに関連する関連単語を決定した後、各関連単語の類似度と、各抽出対象の特徴を示す固有テキストデータとの照合により得られた適合率であるテキストデータ基準関連度とを用いて、各関連単語の修正関連度を算出し、この修正関連度の大小で着目単語を決定し、固有テキストデータにおける各着目単語やテーマ単語についての単語別出現回数を求め、これらを用いて各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する。このため、算出される抽出対象・テーマ関連度は、各抽出対象の特徴を示す固有テキストデータの内容を反映した値となり、各抽出対象についてのテーマへの関連度を示す適切な指標値が得られることになる。

従って、ユーザは、手間や時間をかけることなく、テーマに関連する抽出対象を抽出することが可能となるか、または、抽出にあたり、ユーザによる最終的な判断作業（確認作業や更なる選定作業を含む）を介在させる場合には、その判断作業を容易に行うことが可能となるので、ユーザの作業負担の軽減、作業効率の向上が図られる。

また、システムによる抽出対象の自動抽出、あるいは各抽出対象についてのテーマへの関連度を示す適切な指標値の提供により、抽出すべき抽出対象を見落としてしまう可能性が低くなるので、適正な抽出結果が得られるか、または、抽出にあたり、ユーザによる最終的な判断作業（確認作業や更なる選定作業を含む）を介在させる場合には、その判断作業の適正化が図られる。

さらに、ユーザは、テーマについての専門知識を有していなくても、テーマに関連する適切な抽出対象を抽出することが可能となるので、この点でも、適正な抽出結果が得られるか、または、抽出にあたり、ユーザによる最終的な判断作業（確認作業や更なる選定作業を含む）を介在させる場合には、その判断作業の適正化が図られ、これらにより前記目的が達成される。

＜調和平均または加重調和平均により修正関連度を算出する構成＞

また、本発明における「修正関連度算出手段」は、各関連単語についての類似度と、各関連単語についてのテキストデータ基準関連度とを用いて、各関連単語についての修正関連度を算出する構成であればよいので、例えば、単純平均や加重平均、相乗平均、二乗平均平方根（ＲＭＳ）を求める構成等でもよいが、率の平均をとるという観点では、次のような構成とすることが好ましい。

すなわち、前述した抽出システムにおいて、
修正関連度算出手段は、
類似度算出手段により算出した各関連単語についての類似度と、テキストデータ基準関連度算出手段により算出した各関連単語についてのテキストデータ基準関連度との調和平均または加重調和平均を求めることにより、各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する構成とされていることが望ましい。

ここで、「調和平均または加重調和平均」を求める際に、テキストデータ基準関連度の項の数は、１つでもよく、複数でもよい。例えば、固有テキストデータ記憶手段に記憶された固有テキストデータが更新等により時間的に変化するような場合に、最新の固有テキストデータに基づくテキストデータ基準関連度を用いてもよいが、その他に、新旧（または３以上の複数時点）の固有テキストデータに基づく複数のテキストデータ基準関連度を用いて、類似度との調和平均または加重調和平均を求めてもよい。また、固有テキストデータは、抽出対象の特徴を示すデータであるが、例えば、別の業者等により用意された複数系統の固有テキストデータがあってもよく（１つの抽出対象に対し、別系統の複数の固有テキストデータがあってもよく）、例えば、業者ξの用意したＡ社、Ｂ社、Ｃ社、…についての各固有テキストデータと、業者ηの用意したＡ社、Ｂ社、Ｃ社、…についての各固有テキストデータとがあってもよい。従って、このような場合に、例えば、業者ξの用意したＡ社についての固有テキストデータと、業者ηの用意したＡ社についての固有テキストデータとを合体させてＡ社についての１つの固有テキストデータとし、Ｂ社、Ｃ社、…についても同様にし、それらの固有テキストデータに基づくテキストデータ基準関連度を求め、それを用いて、類似度との調和平均または加重調和平均を求めてもよいが、その他に、業者ξ系統の固有テキストデータに基づくテキストデータ基準関連度と、業者η系統の固有テキストデータに基づくテキストデータ基準関連度とを別々に求め、複数のテキストデータ基準関連度を用いて、類似度との調和平均または加重調和平均を求めてもよい。

＜学習処理で得られた単語ベクトルを用いてコサイン類似度を算出する構成＞

また、前述したように、本発明における「類似度」は、単語間の関連性を示す類似度であれば、いずれの手法により求めた類似度でもよいが、次のように、単語の分散表現としての単語ベクトルのコサイン類似度とすることにより、既存の多くのアルゴリズムを適用することが可能となり、また、既存の多くのツールを利用することも可能となる。さらに、単語の分散表現としての単語ベクトルを用いるアルゴリズムは、今後も様々なものが開発されると予想されるため、それらを適用することも可能となる。

すなわち、前述した抽出システムにおいて、
モデル記憶手段は、
学習結果データとして、単語の分散表現としての単語ベクトルを記憶する構成とされ、
類似度算出手段は、
モデル記憶手段に記憶された単語ベクトルを用いて、類似度として、テーマの単語と他の単語との間のコサイン類似度を算出する処理を実行する構成とされていることが望ましい。

ここで、「モデル記憶手段」に記憶される「単語ベクトル」としては、例えば、ワード・ツー・ベック（ｗｏｒｄ２ｖｅｃ）のモデルであるコンティニュアス・バッグ・オブ・ワード（ＣＢＯＷ）やスキップ・グラム（Ｓｋｉｐ−ｇｒａｍ）、あるいは、グローヴ（ＧｌｏＶｅ）、ファースト・テキスト（ｆａｓｔＴｅｘｔ）、リカレント・ニューラル・ネットワーク（ＲＮＮ）の１種であるロング・ショート・ターム・メモリ（ＬＳＴＭ）によるエルモ（ＥＬＭｏ）、さらには、ニューラル・ネットワーク（ＮＮ）以外でも、例えば、ライン（ＬＩＮＥ）等のアルゴリズムによる単語ベクトルを用いることができる。

＜複数種類のモデルを用いる構成＞

また、前述した抽出システムにおいて、
モデル記憶手段は、
異なる設定パラメータを用いて同じアルゴリズムで得られた複数種類の学習結果データ、異なるアルゴリズムで得られた複数種類の学習結果データ、またはこれらの学習結果データを混在させた複数種類の学習結果データを、複数種類のモデルとして記憶する構成とされ、
類似度算出手段は、
モデル記憶手段に記憶された複数種類の学習結果データを用いて、複数種類のモデルの各々について、テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした他の単語のうち、予め定められた数の上位の単語を各モデルで選択し、各モデルで選択した単語の中から関連単語を決定するとともに、各モデルで選択した単語の類似度を用いて、関連単語の類似度を算出する処理を実行する構成とされていることが望ましい。

ここで、「各モデルで選択した単語の中から関連単語を決定するとともに、各モデルで選択した単語の類似度を用いて、関連単語の類似度を算出する処理」には、次のような処理が含まれる。先ず、各モデルで選択される上位の単語の組合せは、一致しないことが多いので、各モデルで“ずれ”が生じることになる。従って、各モデルで例えば上位１００位以内の単語を選択すると、ずれ分を含めて例えば１５０個の単語が選択され、一方、全てのモデルで選択されている単語は、例えば７０個等となる。次に、この例の１５０個の単語の中には、１つのモデルでしか選択されていない単語、２つのモデルで選択されている単語、３つのモデルで選択されている単語、…、全てのモデルで選択されている単語がある。従って、例えば、２以上のモデルで選択されている単語を関連単語として決定してもよく、３以上のモデル、４以上のモデル、５以上のモデル、…で選択されている単語を関連単語として決定してもよく、過半数のモデルで選択されている単語を関連単語として決定してもよく、全てのモデルで選択されている単語を関連単語として決定してもよい。

そして、このように関連単語として決定した単語について、各モデルの当該単語の類似度を用いて、当該単語についての統合後の類似度（本願では、特に調和平均や加重調和平均の場合は、アンサンブルした類似度とも呼ぶ。）を算出する。統合後の類似度は、例えば、各モデルの当該単語の類似度の単純平均、加重平均、相乗平均等で求めてもよく、調和平均や加重調和平均等で求めてもよく、あるいは、これらの各種平均をとる前に、突出した値を除外するという観点で、各モデルの当該単語の類似度のうちの最大および／または最小の類似度を除いた状態としてから、各種平均をとるようにしてもよい。例えば、タイプ１〜９のモデルがあり、それらの全てのモデルで当該単語が選択されている場合に、タイプ３のモデルの当該単語の類似度が最大であり、タイプ５のモデルの当該単語の類似度が最小であったとすると、タイプ１，２，４，６〜９のモデルの当該単語の類似度の各種平均をとる。また、例えば、タイプ１〜９のモデルがあり、そのうちタイプ１，２，４，５，８の合計５つのモデルで当該単語が選択されている場合に、タイプ２のモデルの当該単語の類似度が最大であり、タイプ８のモデルの当該単語の類似度が最小であったとすると、タイプ１，４，５のモデルの当該単語の類似度の各種平均をとる。

このように複数種類のモデルを用いる構成とした場合には、各モデル間の類似度のばらつきを吸収し、より適切な単語を、関連単語として決定することが可能となる。

＜各モデルの類似度の調和平均または加重調和平均を求め、複数種類のモデルをアンサンブルする構成＞

また、前述したように、本発明では、モデルは、１つでもよく、複数種類のモデルを用いてもよいが、複数種類のモデルを用いる場合には、次のような構成を好適に採用することができる。

すなわち、前述した複数種類のモデルを用いる構成とする場合において、
モデル記憶手段は、
異なる設定パラメータを用いて同じアルゴリズムで得られた複数種類の学習結果データ、異なるアルゴリズムで得られた複数種類の学習結果データ、またはこれらの学習結果データを混在させた複数種類の学習結果データを、複数種類のモデルとして記憶する構成とされ、
類似度算出手段は、
モデル記憶手段に記憶された複数種類の学習結果データを用いて、複数種類のモデルの各々について、テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした他の単語のうち、予め定められた数の上位の単語を各モデルで選択し、各モデルで選択した単語が一致していない場合のずれ分の単語を含め、少なくとも１つのモデルで選択された単語の全てについて、対応する単語が選択されていないモデルの当該単語の類似度をゼロとみなすとともに、単語毎に、算出した全てのモデルの類似度の調和平均または加重調和平均を求めることにより、複数種類のモデルをアンサンブルした類似度を算出し、このアンサンブルした類似度の大きさがゼロにならない単語を、関連単語として決定する処理を実行する構成とされていることが望ましい。

ここで、調和平均または加重調和平均をとる「類似度」は、単語間の関連性を示す類似度であれば、いずれの手法により求めた類似度でもよく、前述した単語の分散表現としての単語ベクトルのコサイン類似度でもよい。

このように各モデルの類似度の調和平均または加重調和平均を求め、複数種類のモデルをアンサンブルする構成とした場合には、各モデル間の類似度のばらつきを吸収し、より適切な単語を、関連単語として決定することが可能となるとともに、いずれかのモデルの類似度がゼロになると、調和平均または加重調和平均もゼロになるという性質を利用して、関連単語の決定処理を容易に行うことが可能となる。

＜単語間の類似度の算出に使用する単語ベクトルの任意性を考慮した構成＞

また、以上に述べた抽出システムは、各種のアルゴリズムによる機械学習で得られた学習結果データ（例えば、機械学習で得られた単語ベクトル等）を用いる構成とされているが、単語ベクトルを用いて単語間の類似度を算出する構成とする場合には、機械学習で得られた学習結果データとしての単語ベクトルそのものではなく、学習結果データとしての単語ベクトルを加工、調整、または混合（異なるアルゴリズムによる機械学習で得られた単語ベクトルを混成させる等）して作成した単語ベクトルや、機械学習によらない手法で集計作業等を行って作成した単語ベクトル等としてもよく、あるいは、本発明とは別の目的で作成された単語ベクトルを流用してもよく、その場合には、本発明は、次のような構成となる。

すなわち、本発明は、組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
単語の分散表現としての単語ベクトルを記憶するモデル記憶手段と、
複数の抽出対象の各々について用意された抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
モデル記憶手段に記憶された単語ベクトルを用いて、テーマ入力受付手段により受け付けたテーマの単語と他の単語との間の類似度としてコサイン類似度を算出し、このコサイン類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対するコサイン類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度算出手段と、
この類似度算出手段により決定した各関連単語、および、テーマの単語について、固有テキストデータ記憶手段に記憶された固有テキストデータとの照合を行うことにより、各関連単語および／またはテーマの単語を含む固有テキストデータに関連付けられた抽出対象識別情報を抽出し、テーマの単語についての照合で抽出した抽出対象の集合に対する、各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
類似度算出手段により算出した各関連単語についての類似度と、テキストデータ基準関連度算出手段により算出した各関連単語についてのテキストデータ基準関連度とを用いて、各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
この修正関連度算出手段により決定した各着目単語、および、テーマの単語について、それぞれの単語が、テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて固有テキストデータ記憶手段に記憶された固有テキストデータの中に出現する単語別出現回数を求め、各着目単語についての単語別出現回数に各着目単語についての修正関連度を乗じた値またはこの値に各着目単語の重み係数を乗じた値、並びに、テーマの単語についての単語別出現回数またはこの単語別出現回数にテーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
この抽出対象・テーマ関連度算出手段により算出した抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
を備えたことを特徴とするものである。

また、このような構成（単語間の類似度の算出に使用する単語ベクトルの任意性を考慮した構成）とした場合においても、前述した「複数種類のモデルを用いる構成」や「各モデルの類似度の調和平均または加重調和平均を求め、複数種類のモデルをアンサンブルする構成」を採用することができる。その場合には、モデル記憶手段には、複数種類の学習結果データとしての単語ベクトルの代わりに、異なる手法で作成（加工、調整、または混合を含む。）された複数種類の単語ベクトルを、複数種類のモデルとして記憶させておけばよい。また、その場合に、異なる手法で作成（加工、調整、または混合を含む。）された複数種類の単語ベクトルの中に、学習結果データとしての１種類または複数種類の単語ベクトルが含まれていてもよく、そのようにした場合は、機械学習により得られた単語ベクトルのモデルと、それ以外の単語ベクトルのモデルとの統合（調和平均や加重調和平均の場合は、アンサンブル）となる。

＜予め用意された類似度を記憶しておく構成＞

また、以上に述べた抽出システムは、モデル記憶手段に記憶された学習結果データ（例えば、機械学習で得られた単語ベクトル等）や、必ずしも機械学習で得られたデータではない単語ベクトルを用いて、類似度算出手段により類似度を算出する構成とされているが、予め用意された類似度を、類似度記憶手段に記憶しておき、類似度取得手段により、この類似度記憶手段から、与えられたテーマの単語と他の単語との間の類似度を取得してもよく、その場合には、モデル記憶手段の代わりに、類似度記憶手段が設けられ、類似度算出手段の代わりに、類似度取得手段が設けられることになるので、本発明は、次のような構成となる。

すなわち、本発明は、組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
テーマの単語として入力され得る全ての単語と、他の単語との関連性を示す類似度を記憶する類似度記憶手段と、
複数の抽出対象の各々について用意された抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
テーマ入力受付手段によりテーマの単語を受け付けた際に、類似度記憶手段に記憶されたテーマの単語と他の単語との間の類似度を取得し、この類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度取得手段と、
この類似度取得手段により決定した各関連単語、および、テーマの単語について、固有テキストデータ記憶手段に記憶された固有テキストデータとの照合を行うことにより、各関連単語および／またはテーマの単語を含む固有テキストデータに関連付けられた抽出対象識別情報を抽出し、テーマの単語についての照合で抽出した抽出対象の集合に対する、各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
類似度取得手段により取得した各関連単語についての類似度と、テキストデータ基準関連度算出手段により算出した各関連単語についてのテキストデータ基準関連度とを用いて、各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
この修正関連度算出手段により決定した各着目単語、および、テーマの単語について、それぞれの単語が、テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて固有テキストデータ記憶手段に記憶された固有テキストデータの中に出現する単語別出現回数を求め、各着目単語についての単語別出現回数に各着目単語についての修正関連度を乗じた値またはこの値に各着目単語の重み係数を乗じた値、並びに、テーマの単語についての単語別出現回数またはこの単語別出現回数にテーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
この抽出対象・テーマ関連度算出手段により算出した抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
を備えたことを特徴とするものである。

ここで、「類似度記憶手段」において「テーマの単語として入力され得る全ての単語と、他の単語との関連性を示す類似度を記憶する」とされているのは、必ずしも全ての単語がテーマの単語として入力できるようになっている必要はなく、一部の単語のみが、テーマの単語として入力できるようになっていてもよい趣旨であり、その場合には、記憶される類似度の数は、テーマの単語として入力され得る単語数×全単語数（または、全単語数−１）となる。また、全ての単語がテーマの単語として入力できるようになっていてもよく、その場合には、記憶される類似度の数は、全単語数（または、全単語数−１）×全単語数（または、全単語数−１）となる。但し、単語αと単語βとの類似度は、単語βと単語αとの類似度と同じであるから、半分の量のデータの記憶でもよい。

また、「類似度記憶手段」に記憶させる「類似度」は、機械学習で得られた学習結果データ（例えば単語ベクトル等）を用いて算出された類似度（例えば、コサイン類似度等）でもよく、機械学習以外の手法により作成（加工、調整、または混合を含む。）された類似度でもよい。さらに、「類似度記憶手段」に記憶させる「類似度」は、各モデルの類似度を、調和平均または加重調和平均によりアンサンブルした類似度や、その他の平均により統合した類似度としてもよい。

＜テーマ型ファンドの構成銘柄とする候補銘柄の発行企業を抽出する構成＞

また、以上に述べた抽出システムにおいて、
テーマ入力受付手段は、
テーマの単語として、テーマ型ファンドの構成銘柄とする候補銘柄の発行企業を抽出するためのキーワードとなる単語の入力を受け付ける処理を実行する構成とされ、
固有テキストデータ記憶手段に記憶される固有テキストデータには、企業が投資家に向けて発信するインベスター・リレーションズ情報が含まれ、
抽出対象・テーマ関連度算出手段は、
抽出対象・テーマ関連度として、各企業についてのテーマ型ファンドのテーマへの関連度を示す企業・テーマ関連度を算出する処理を実行する構成とされていることが望ましい。

このようにテーマ型ファンドの構成銘柄とする候補銘柄の発行企業を抽出する構成とした場合には、各企業により発信されるインベスター・リレーションズ情報（ＩＲ情報）の内容が、各企業の特徴を示しつつ、ある程度、統一された内容となっているので、固有テキストデータとして採用するのに適している。すなわち、ＩＲ情報は、フォーマットが定まっているわけではないが、ルール・原則・慣例等に従って記載されているので、いずれの企業も、ある程度、類似する書き方で、類似する内容を記載している。このため、データに偏りが少ないので、抽出対象・テーマ関連度として算出される企業・テーマ関連度は、信頼性の高い指標値となる。

なお、各企業のホームページ情報には、様々な情報が記載されているが、その中にＩＲ情報が含まれている場合がある。この場合には、当該ホームページの中のＩＲ情報の記載部分は、ここでいうＩＲ情報であるものとし、当該ホームページの中のそれ以外の記載部分と区別するものとする。

＜プログラムの発明＞

また、本発明のプログラムは、以上に述べた抽出システムとして、コンピュータを機能させるためのものである。

なお、上記のプログラムまたはその一部は、例えば、光磁気ディスク（ＭＯ）、コンパクトディスク（ＣＤ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、フレキシブルディスク（ＦＤ）、磁気テープ、読出し専用メモリ（ＲＯＭ）、電気的消去および書換可能な読出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、フラッシュディスク等の記録媒体に記録して保存や流通等させることが可能であるとともに、例えば、ＬＡＮ、ＭＡＮ、ＷＡＮ、インターネット、イントラネット、エクストラネット等の有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に載せて搬送することも可能である。さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。

以上に述べたように本発明によれば、出力処理で用いられる抽出対象・テーマ関連度は、各抽出対象の特徴を示す固有テキストデータの内容を反映した値となり、各抽出対象についてのテーマへの関連度を示す適切な指標値を得ることができるので、ユーザは、手間や時間をかけることなく、テーマに関連する抽出対象を抽出することできるか、または、抽出にあたり、ユーザによる最終的な判断作業（確認作業や更なる選定作業を含む）を介在させる場合には、その判断作業を容易に行うことができるため、ユーザの作業負担の軽減、作業効率の向上を図ることができるうえ、抽出対象の見落としの可能性を低減することができ、また、テーマについての専門知識を有していなくてもテーマに関連する適切な抽出対象を抽出することができることから、適正な抽出結果を得ることができるか、または、抽出にあたり、ユーザによる最終的な判断作業を介在させる場合には、その判断作業の適正化を図ることができるという効果がある。

本発明の一実施形態の抽出システムの全体構成図。前記実施形態のモデル記憶手段の概略構成図。前記実施形態の抽出システムによる抽出対象（一例として企業）の抽出処理の流れを示すフローチャートの図。前記実施形態の各モデルのコサイン類似度の算出処理の詳細説明図。前記実施形態の複数種類のモデルについての類似度Ｓの調和平均または加重調和平均により各モデルをアンサンブルした類似度Ｓｗｏｒｄを算出する処理の詳細説明図。前記実施形態のテキストデータ基準関連度Ｐｗｏｒｄの算出処理の詳細説明図。前記実施形態の抽出対象・テーマ関連度（一例として企業・テーマ関連度）ＦＳの算出処理の詳細説明図。前記実施形態の抽出結果表示画面の出力の一例を示す図。前記実施形態の実験結果（その１）を示す図。前記実施形態の実験結果（その２）を示す図。

以下に本発明の一実施形態について図面を参照して説明する。図１には、本実施形態の抽出システム１０の全体構成が示されている。図２には、モデル記憶手段４３の概略構成が示され、図３には、抽出システム１０による抽出対象（ここでは、一例として企業）の抽出処理の流れがフローチャートで示されている。また、図４には、各モデルのコサイン類似度Ｓの算出処理、図５には、複数種類のモデルについての類似度Ｓの調和平均または加重調和平均により各モデルをアンサンブルした類似度Ｓｗｏｒｄを算出する処理、図６には、テキストデータ基準関連度Ｐｗｏｒｄの算出処理、図７には、抽出対象・テーマ関連度（ここでは、一例として企業・テーマ関連度）ＦＳの算出処理についての詳細が示されている。さらに、図８には、抽出結果表示画面１００の出力の一例が示され、図９および図１０には、実験結果が示されている。

＜抽出システム１０の全体構成＞

図１において、抽出システム１０は、組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行する抽出サーバ２０を備えて構成されている。この抽出サーバ２０には、ネットワーク１を介して、ユーザが操作する１台または複数台のユーザ端末５０、およびシステム管理者が操作する１台または複数台の管理者端末６０が接続されている。

ここで、ネットワーク１は、例えばインターネット等の広域ネットワークでもよく、例えばＬＡＮやイントラネット等の限定的な域内ネットワークでもよく、有線であるか、無線であるか、有線・無線の混在型であるかは問わない。

抽出サーバ２０は、１台または複数台のコンピュータにより構成され、組織等の抽出対象の抽出またはその支援に関する各種処理を実行する処理手段３０と、各種処理に必要なデータを記憶する設定データ記憶手段４１、学習データ記憶手段４２、モデル記憶手段４３、算出類似度記憶手段４４、固有テキストデータ記憶手段４５、セット記憶手段４６、修正関連度記憶手段４７、および抽出対象・テーマ関連度記憶手段４８とを含んで構成されている。

このうち、処理手段３０は、設定手段３１と、学習手段３２と、テーマ入力受付手段３３と、類似度算出手段３４と、テキストデータ基準関連度算出手段３５と、修正関連度算出手段３６と、抽出対象・テーマ関連度算出手段３７と、出力手段３８とを含んで構成されている。

これらの処理手段３０に含まれる各手段３１〜３８は、抽出サーバ２０を構成するコンピュータ本体の内部に設けられた中央演算処理装置（ＣＰＵ）、およびこのＣＰＵの動作手順を規定する１つまたは複数のプログラム、並びに、主メモリやキャッシュメモリ等の作業用メモリ等により実現される。なお、これらの各手段３１〜３８の詳細は、後述する。

また、設定データ記憶手段４１、学習データ記憶手段４２、モデル記憶手段４３、および固有テキストデータ記憶手段４５は、例えばハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）等により好適に実現されるが、記憶容量やアクセス速度等に問題が生じない範囲であれば、例えば、ＤＶＤ、ＣＤ、ＭＯ、磁気テープ等の他の記録媒体を採用してもよい。また、各記憶手段４１，４２，４３，４５のデータ保存形式は、データベースでもよく、フラットファイル、テキストファイル、ＰＤＦファイル等のファイル形式でもよい。なお、これらの各記憶手段４１，４２，４３，４５の詳細は、後述する。

一方、算出類似度記憶手段４４、セット記憶手段４６、修正関連度記憶手段４７、および抽出対象・テーマ関連度記憶手段４８は、主メモリやキャッシュメモリ等の作業用メモリにより実現されるが、これらを不揮発性メモリにより構成してもよい。なお、これらの各記憶手段４４，４６，４７，４８の詳細は、後述する。

ユーザ端末５０および管理者端末６０は、コンピュータにより構成され、例えばマウスやキーボード等の入力手段と、例えば液晶ディスプレイ等の表示手段とを備えている。これらのユーザ端末５０および管理者端末６０は、例えば、スマートフォン、タブレット端末、携帯情報端末（ＰＤＡ）等の携帯機器でもよい。

＜設定手段３１の構成＞

設定手段３１は、システム管理者の操作により管理者端末６０からネットワーク１を介して送信されてくる各種の設定データを受信し、設定データ記憶手段４１に記憶させる処理を実行するものである。設定データは、例えば、設定ファイル等の形式で保存される。

また、設定手段３１は、ユーザの操作によりユーザ端末５０からネットワーク１を介して送信されてくる各種の設定データを受信し、設定データ記憶手段４１に記憶させる処理も実行する。この場合は、システム管理者により登録された設定データのデフォルト値（初期値）をユーザが変更し、ユーザ毎の設定データが、ユーザ識別情報と関連付けられて設定データ記憶手段４１に記憶される。例えば、ユーザ毎の設定ファイル等の形式で保存される。また、ユーザによるデフォルト値の変更ではなく、最初からユーザの意思で指定される設定データを、設定データ記憶手段４１に記憶してもよい。なお、ユーザによる設定データ（デフォルト値を変更した値や、最初からユーザの意思で指定した値）は、保存せずに、その都度、入力するものとしてもよく、その場合には、設定データ記憶手段４１の一部が、主メモリやキャッシュメモリ等の作業用メモリにより構成されることになる。

具体的には、設定データには、類似度算出手段３４により関連単語を決定する際（詳細は後述するが、処理の結果としてＮ５個（例えば、Ｎ５＝７０）の単語が関連単語として選択決定される。）に用いる各モデルにおける類似度Ｓの個数Ｎ３（例えば、Ｎ３＝１００）、修正関連度算出手段３６によりＮ５個の関連単語の中から選択決定する着目単語の個数Ｎ６（例えば、Ｎ６＝１０）、後述する式（１）におけるμ（ｊ）、式（２）におけるσ，τまたはλ、式（３）におけるκ（ｉ）がある。また、出力手段３８により出力する抽出対象の指定情報（例えば、上位１０位以内を出力する、１１位〜２０位を出力する、２位および３位のみを出力する等の指定情報）も、設定データである。

なお、これらの設定データは、システムによっては、抽出対象の別（組織・商品・サービス等の別）、ボキャブラリ数、ユーザの性質等に応じ、固定値としてもよい。また、学習に用いる設定パラメータ（例えば、ｗｏｒｄ２ｖｅｃのハイパーパラメータであるディメンジョンやウィンドウサイズ等）は、本実施形態では、設定データ記憶手段４１に記憶させる設定データではなく、モデル記憶手段４３に記憶させる設定データであるものとする。

さらに、設定手段３１は、システム管理者の操作により管理者端末６０からネットワーク１を介して送信されてくる学習用のテキストデータを受信し、学習データ記憶手段４２に記憶させる処理も実行する。また、設定手段３１は、システム管理者の操作により管理者端末６０からネットワーク１を介して送信されてくる固有テキストデータ（ＩＲ情報、ＨＰ情報等）を受信し、固有テキストデータ記憶手段４５に記憶させる処理も実行する。

＜学習手段３２＞

学習手段３２は、学習データ記憶手段４２に記憶された学習用のテキストデータを用いて、形態素解析、各種のアルゴリズムによる機械学習を行い、得られた学習結果データを、モデル記憶手段４３（図２参照）に記憶させる処理を実行するものである。

学習用のテキストデータには、例えば、ニュースのテキストデータや、ウィキペディア等のインターネットから収集したテキストデータ等を用いる。この学習用のテキストデータは、Ｎ１個（例えば、Ｎ１＝１８億）の単語を含むデータであり、膨大な量のデータである。この中には、重なりのないユニークな単語が、Ｎ２個（例えば、Ｎ２＝１１５万）含まれている。なお、学習用のテキストデータの量は、システムによっては、抽出対象の別、入力されるテーマの単語の性質等に応じ、相対的に少ないデータ量としてもよい。

また、本実施形態で利用する学習結果データは、一例として、単語の分散表現としての高次元の単語ベクトルの集合である重み行列Ｗとする。なお、本発明の抽出処理に利用可能な単語ベクトルは、必ずしも機械学習で得られた学習結果データとしての単語ベクトルである必要はないのは、既に詳述している通りである。

具体的には、図４に示すように、例えばｗｏｒｄ２ｖｅｃ等による学習で得られた単語ベクトルの集合である重み行列Ｗ（行が単語ベクトルになっている。）を利用することができる。本実施形態では、一例として、３種類のディメンジョン（＝２００，４００，８００）、および３種類のウィンドウサイズ（＝４，８，１２）を設定することにより、合計で３×３＝９タイプの重み行列Ｗ１，Ｗ２，…，Ｗ９を用意し、９タイプのモデルとしてモデル記憶手段４３（図２参照）に記憶させる。これらの９タイプのモデルは、各モデルによるコサイン類似度Ｓが、後述するように調和平均または加重調和平均によりアンサンブルされるので、統合された１つのモデルであると考えてもよい。ディメンジョン数は、単語ベクトルの次元数であり、例えばｗｏｒｄ２ｖｅｃ等のニューラルネットワーク（ＮＮ）のアルゴリズムで得られた単語ベクトルの場合には、ＮＮの中間層（隠れ層）のノード数と同等である。

この際、ｗｏｒｄ２ｖｅｃ等による学習を行うと、図４に示すように、ボキャブラリ数Ｎ２（例えば、Ｎ２＝１１５万）×ディメンジョン数の重み行列Ｗ（ワード・ベクター・ルックアップ・テーブル等と称される。）と、ディメンジョン数×ボキャブラリ数Ｎ２の重み行列Ｗ’（アウトプット・レイヤー・ウェイト・マトリックス等と称される。）とが得られるが、本実施形態では、前者の重み行列Ｗのみを利用するので、モデル記憶手段４３（図２参照）には、Ｗ，Ｗ’のうち、前者の重み行列Ｗ（Ｗ１，Ｗ２，…，Ｗ９）だけを記憶してもよい。なお、列が単語ベクトルになっている重み行列Ｗ’（Ｗ１’，Ｗ２’，…，Ｗ９’）を利用してもよいが、ここでは、ｗｏｒｄ２ｖｅｃの既存のモジュールを利用してコサイン類似度Ｓを得るために、重み行列Ｗのほうを用いるものとする。

＜テーマ入力受付手段３３＞

テーマ入力受付手段３３は、ユーザにより入力されてユーザ端末５０からネットワーク１を介して送信されてくるテーマの単語を受け付ける処理を実行するものである。具体的には、ユーザからの要求に応じ、抽出結果表示画面１００（図８参照）の表示用データ（Ｗｅｂデータ等）をネットワーク１を介してユーザ端末５０へ送信するとともに、この画面１００のテーマ単語入力部１０１に入力されたテーマの単語が、ユーザ端末５０から送信されてくるので、そのデータを受信する処理を実行する。この際、入力できるテーマの単語は、全ての単語（ボキャブラリ数Ｎ２＝例えば１１５万）としてもよく、システムによっては、一部の単語に制限してもよい。

テーマの単語は、何らかの目的を持って抽出対象を抽出するためのキーワードとなる単語である。抽出対象は、例えば、組織、人物、生き物、物品、商品、サービス、不動産、乗り物、スポーツ、時代、場所、事象等、様々なものがあり、抽出対象に応じて固有テキストデータが用意されることになる。換言すれば、各抽出対象の特徴を示す適切な固有テキストデータが得られない場合には、そのようなもの（物・事象等）は、抽出対象となり得ない。但し、固有テキストデータは、既存のテキストデータを利用するだけではなく、本発明の抽出システム１０を構築し、運用するにあたり、積極的に作成してもよく、その際の作成者は、システム管理者でもよく、作成作業を依頼された業者等でもよく、不特定多数の協力者（有償・無償を問わない。）でもよい。従って、様々なもの（物・事象等）を抽出対象とすることができる。

本実施形態では、抽出対象は、一例として、株式や債券等の有価証券を発行する企業（株式等の銘柄と考えてもよい。）であり、特に、テーマ型ファンドの構成銘柄とする候補銘柄の発行企業であるものとする。従って、固有テキストデータは、一例として、各企業のインベスター・リレーションズ情報（以下、「ＩＲ情報」と略記することがある。）やホームページ情報（以下、「ＨＰ情報」と略記することがある。）であるものとする。また、各企業が出願した特許や実用新案の公開公報や特許公報の記載情報を利用してもよい。

より一般には、本発明における「抽出対象」である「組織」には、企業だけではなく、例えば、官公庁、国、地方公共団体、任意団体、病院、学校等も含まれ、与えられるテーマに関連して抽出される組織、すなわち本システムのユーザにより何らかの目的を持って抽出される組織であればよい。従って、例えば、高校生がテーマの単語（例えば、自分が学びたいことや、自分の興味のあることを端的に示すキーワード）を入力して進学先の大学を抽出する場合における大学は、ここでいう「抽出対象」としての「組織」に該当する。具体的には、例えば、高校生がテーマの単語として「飛行機」を入力すると、航空学科のある大学、航空会社への就職率が高い大学、飛行機同好会のある大学等が抽出される場合における大学が、ここでいう「抽出対象」としての「組織」である。この場合には、固有テキストデータとして、例えば、大学の入試案内、大学のＨＰ情報等の広報情報を採用することができる。

また、「組織」以外の「抽出対象」も同様であり、与えられるテーマに関連して抽出される対象、すなわち本システムのユーザにより何らかの目的を持って抽出される対象であればよい。「抽出対象」としての「人物」は、主としてタレントやスポーツ選手のようなマスメディアへの露出の多い有名人・著名人であるが、その他に、例えば、ある程度、名前が世間に知られている会社の社長、大富豪、犯罪者、芸術家、クリエイタ、建築家、歴史上の過去の人物等も含まれる。例えば、テーマの単語として「骨折」を入力すると、撮影中に骨折した特定のタレントが抽出される場合におけるタレントが、ここでいう「抽出対象」としての「人物」である。この場合には、固有テキストデータとして、例えば、タレント名鑑、選手名鑑、人物名鑑等を採用することができる。

「抽出対象」としての「生き物」は、例えば、自分が展開する事業のキャラクタとして使いたい動物、自分がペットとして飼いたい動物等であり、具体的には、例えば、犬や猫等の動物、鳥、魚、昆虫、爬虫類等である。テーマの単語は、自分が展開する事業に関連する用語、自分の性格を示すキーワード等である。例えば、日中翻訳ソフトウェアの開発で、テーマの単語として「中国語」を入力すると、パンダやタツノオトシゴ等の生き物が抽出される場合における生き物が、ここでいう「抽出対象」としての「生き物」である。この場合には、固有テキストデータとして、例えば、生物百科事典等を採用することができる。

「抽出対象」としての「物品」や「商品」には、固体・液体・気体のいずれの状態のものも含まれ、例えば、自分の事業に役立つ物品、自分が購入したい商品、自分が捨てるべき物品等であり、具体的には、例えば、食品、衣類、嗜好品、ゲーム機、武器、音楽（楽曲）、部品を含む工業製品、プログラム等である。この場合には、固有テキストデータとして、例えば、商品カタログ、製品カタログ等を採用することができる。

「抽出対象」としての「サービス」は、自分の事業に役立つ外部のサービス、自分の事業に取り入れるべきサービス、自分が提供したい、または提供を受けたいサービス等であり、具体的には、例えば、運輸、販売、金融、保険に関するサービス、飲食物の提供、弁護士や税理士等の代理業のサービス、温泉、演劇等が含まれる。この場合には、固有テキストデータとして、例えば、サービス案内、専門誌や雑誌の掲載情報等を採用することができる。

「抽出対象」としての「不動産」には、土地およびその定着物である建物・立木等が含まれる。住みたい家のイメージを示すテーマの単語を入力すると、物件が抽出される等である。この場合には、固有テキストデータとして、例えば、不動産仲介業者の保有する各種資料等を採用することができる。

「抽出対象」としての「乗り物」は、例えば、自分の事業の実施に必要となる乗り物、これから利用すべき乗り物、自分が購入すべき乗り物等であり、具体的には、例えば、船舶、飛行機、電車、自動車、バイク、自転車等が含まれる。例えば、自分が始める事業を示すテーマの単語として「スキューバダイビング」を入力すると、特定の小型ボート、顧客送迎に向いた特定の自動車が抽出される等である。この場合には、固有テキストデータとして、例えば、乗り物の製品カタログ、マニュアル、仕様書等を採用することができる。

「抽出対象」としての「スポーツ」は、例えば、ダイエットやリハビリ等の何らかの目的で自分がやりたいスポーツや、気分転換する、発散する、発声する等の目的を持って観戦したいスポーツ等であり、具体的には、例えば、野球、テニス、サッカー等が含まれる。例えば、テーマの単語として「筋肉」と入力すると、レスリング等が抽出され、「デート」と入力すると、ボーリングやテニス等が抽出され、「スリル」や「大空」や「絶叫」と入力すると、スカイダイビング等が抽出され、「応援」と入力すると、野球やサッカー等が抽出される等である。但し、スポーツの種類は、それ程、多くはないので、「抽出対象」を、より細分化してもよい。つまり、より細分化した状態の各スポーツの特徴を示す固有テキストデータを用意してもよい。この場合には、固有テキストデータとして、例えば、各種スポーツ団体の発行する刊行物、ホームページ等を採用することができる。

「抽出対象」としての「時代」は、例えば、自分の研究テーマとして選択したい時代、ドラマの設定に使用したい時代等であり、具体的には、例えば、平安時代、奈良時代、江戸時代等の歴史上の時代の他に、例えば、ガラケー時代やスマホ時代のような流行に関する時代等も含まれる。この場合には、固有テキストデータとして、例えば、歴史年表の該当部分等を採用することができる。

「抽出対象」としての「場所」は、例えば、旅行先、営業先としての場所（国、地域）等である。例えば、テーマの単語として「サソリ」と入力すると、旅行先としてサハラ砂漠が抽出される等である。この場合には、固有テキストデータとして、例えば、地域の観光案内情報等を採用することができる。

「抽出対象」としての「事象」は、無体物であり、出来事、事柄、現象、事件、ニュース、特許権や商標権等の権利の他に、例えば、病気（病名）等も含まれる。例えば、テーマの単語として「円高」と入力すると、利上げのニュースが抽出される等である。また、特許権や商標権等の権利の抽出では、特許庁データベースを用いた通常のキーワード検索とは異なり、固有テキストデータの内容を反映した状態での案件の抽出となる。

＜類似度算出手段３４の構成＞

類似度算出手段３４は、モデル記憶手段４３（図２参照）に記憶された学習結果データ（本実施形態では、単語ベクトルの集合からなる重み行列Ｗとする。）を用いて、テーマ入力受付手段３３により受け付けたテーマの単語と他の単語との間の類似度Ｓを算出し、この類似度Ｓの大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行するものである。

ここで、本実施形態では、後述するように、調和平均または加重調和平均による各モデルのアンサンブルを行う前に上位Ｎ３（例えば、Ｎ３＝１００）位以内の類似度Ｓを選択している点で、「予め定められた数の上位の単語」に絞っていることになり、また、その後に調和平均または加重調和平均の値がゼロにならない類似度Ｓを選択している点で、「閾値に対する類似度の大きさで選択した単語」にも該当するので、双方の選択基準を折衷していることになる。閾値がゼロになっている（ゼロであるか否かが判別基準となっている）のは、詳細は後述するが、実際にはゼロではない小さな数値を有する一部の類似度Ｓをゼロとみなしたからである。

より詳細には、類似度算出手段３４は、先ず、図４に示すように、タイプ１〜９の各々のモデルについて、モデル記憶手段４３（図２参照）に記憶されている重み行例Ｗ（Ｗ１〜Ｗ９）を用いて、テーマの単語についての単語ベクトルＶ（ｋ，ｊ）と、他の単語についての単語ベクトルＶ（ｉ，ｊ）との間のコサイン類似度Ｓ（ｉ，ｊ）を算出し、算出類似度記憶手段４４に記憶させる。図４に示すように、コサイン類似度Ｓ（ｉ，ｊ）は、Ｖ（ｋ，ｊ）とＶ（ｉ，ｊ）との内積を、Ｖ（ｋ，ｊ）の大きさとＶ（ｉ，ｊ）の大きさとの積で除した値である。このコサイン類似度Ｓ（ｉ，ｊ）の算出処理は、例えばｗｏｒｄ２ｖｅｃのモジュール等のように、既存のツールの機能を利用して実行してもよい。

ここで、ｋは、テーマの単語の番号である。ｉは、各単語の番号であり、ｉ＝１，２，３，…，ｋ−１，ｋ＋１，…，Ｎ２−２，Ｎ２−１，Ｎ２をとり、Ｎ２は、ボキャブラリ数（例えば、Ｎ２＝１１５万）である。ｋが抜けているのは、Ｎ２個の単語のうち、テーマの単語を除くという意味であり、テーマの単語と、それ以外の全ての単語との間で、コサイン類似度Ｓ（ｉ，ｊ）を算出するという意味である。ｊは、モデルのタイプの番号であり、ｊ＝１，２，３，…，Ｍをとり、本実施形態では、一例として、モデルの数Ｍ＝９である。

従って、図４に示すように、例えば、タイプ１のモデルについては、重み行例Ｗ１を用いて、テーマの単語についての単語ベクトルＶ（ｋ，１）と、他の単語についての単語ベクトルＶ（ｉ，１）との間のコサイン類似度Ｓ（ｉ，１）を算出する。同様に、タイプ９のモデルについては、重み行例Ｗ９を用いて、テーマの単語についての単語ベクトルＶ（ｋ，９）と、他の単語についての単語ベクトルＶ（ｉ，９）との間のコサイン類似度Ｓ（ｉ，９）を算出する。タイプ２〜８のモデルも同様である。

それから、類似度算出手段３４は、タイプ１〜９の各々のモデルについて、算出して算出類似度記憶手段４４に記憶しているコサイン類似度Ｓ（ｉ，ｊ）の中から、大きさが上位Ｎ３（例えば、Ｎ３＝１００）位以内のコサイン類似度Ｓ（ｉ，ｊ）を選択する。ここで、ｉ＝１，２，３，…，ｋ−１，ｋ＋１，…，Ｎ２−２，Ｎ２−１，Ｎ２であり、ｊ＝１，２，３，…，９である。番号ｉの数は、Ｎ２個（例えば１１５万個）の単語から、番号ｋのテーマの単語を１つを除くので、（Ｎ２−１）個である。

例えば、タイプ１のモデルについては、（Ｎ２−１）個（例えば、（１１５万−１）個）のコサイン類似度Ｓ（ｉ，１）（ｉ＝１，２，３，…，ｋ−１，ｋ＋１，…，Ｎ２−２，Ｎ２−１，Ｎ２）の中から、上位Ｎ３位以内（例えば、１００位以内）のコサイン類似度Ｓ（ｉ，１）を選択する。その結果、図５に示すように、Ｓ（１０，１），Ｓ（１３，１），Ｓ（２７，１），Ｓ（３５，１），…，Ｓ（８７６，１）が選択されたとする。

同様に、タイプ２のモデルについては、（Ｎ２−１）個（例えば、（１１５万−１）個）のコサイン類似度Ｓ（ｉ，１）（ｉ＝１，２，３，…，ｋ−１，ｋ＋１，…，Ｎ２−２，Ｎ２−１，Ｎ２）の中から、上位Ｎ３位以内（例えば１００位以内）のコサイン類似度Ｓ（ｉ，２）を選択する。その結果、図５に示すように、Ｓ（１０，２），Ｓ（１３，２），Ｓ（２９，２），Ｓ（３５，２），…，Ｓ（８７６，２）が選択されたとする。

さらに、タイプ９のモデルについては、（Ｎ２−１）個（例えば、（１１５万−１）個）のコサイン類似度Ｓ（ｉ，９）（ｉ＝１，２，３，…，ｋ−１，ｋ＋１，…，Ｎ２−２，Ｎ２−１，Ｎ２）の中から、上位Ｎ３位以内（例えば１００位以内）のコサイン類似度Ｓ（ｉ，９）を選択する。その結果、図５に示すように、Ｓ（１０，９），Ｓ（１３，９），Ｓ（２７，９），Ｓ（２９，９），Ｓ（３５，９），…，Ｓ（８７６，９）が選択されたとする。

そして、タイプ１〜９の各モデルで選択された上位Ｎ３位以内（例えば１００位以内）のＳ（ｉ，ｊ）の単語の番号ｉは、通常、一致していないので、９タイプ全体で考えた場合には、各モデルで選択した単語が一致していない場合のずれ分の単語を含め、少なくとも１つのモデルで選択された単語の数は、Ｎ３（例えば１００）個よりも大きくなる。この数を、Ｎ４（例えば１５０）とする。図５の例では、Ｎ４個（例えば１５０個）の単語の番号は、ｉ＝１０，１３，２７，２９，３５，…，８７６である。

また、Ｎ３個（例えば１００個）の単語の番号がずれて選択されることにより、全体でＮ４個（例えば１５０個）の単語の番号が選択されているので、タイプ１〜９のモデルの各々についてみれば、（Ｎ４−Ｎ３）個（例えば、１５０−１００＝５０個）の単語の番号に対応するコサイン類似度Ｓ（ｉ，ｊ）が選択されていないため、存在しない状態である。このように、対応するコサイン類似度Ｓ（ｉ，ｊ）が存在しない番号の単語については、コサイン類似度Ｓ（ｉ，ｊ）＝０とみなすものとする。すなわち、実際には、それらのコサイン類似度Ｓ（ｉ，ｊ）の値は存在するが、上位Ｎ３位以内（例えば１００位以内）に入らないような小さな数値であるため、０とみなすことになる。

例えば、図５の例では、タイプ１のモデルについては、Ｎ４個（例えば１５０個）の単語の番号ｉ＝１０，１３，２７，２９，３５，…，８７６のうち、番号ｉ＝２９のＳ（２９，１）が存在しないので、Ｓ（２９，１）＝０とみなす。同様に、タイプ２のモデルについては、Ｎ４個（例えば１５０個）の単語の番号ｉ＝１０，１３，２７，２９，３５，…，８７６のうち、番号ｉ＝２７のＳ（２７，２）が存在しないので、Ｓ（２７，２）＝０とみなす。

その後、類似度算出手段３４は、タイプ１〜９の各々のモデルについて、次の式（１）により、Ｎ４個（例えば１５０個）の番号ｉ＝１０，１３，２７，２９，３５，…，８７６の単語毎に、算出類似度記憶手段４４に記憶しているコサイン類似度Ｓ（ｉ，ｊ）の調和平均または加重調和平均（重み付き調和平均）を求めることにより、９つのタイプのモデルをアンサンブルした類似度Ｓｗｏｒｄ（ｉ）を算出する。

ここで、ｉは、選択されたＮ４個（例えば１５０個）の単語の番号であり、図５の例では、ｉ＝１０，１３，２７，２９，３５，…，８７６となる。なお、番号を詰めて、ｉ＝１，２，３，…，Ｎ４−１，Ｎ４としてもよい。ｊは、タイプの番号で、ｊ＝１，２，３，…，Ｍであり、Ｍは、タイプの数で、ここでは、Ｍ＝９である。

μ（ｊ）は、タイプｊのモデルの重みであり、設定データとして、設定データ記憶手段４１に記憶されている。全てのモデルのμ（ｊ）を、μ（ｊ）＝１とすると、式（１）は、調和平均を求める式となる。加重調和平均とする場合には、例えば、μ（１）だけ、μ（１）＝２とし、残りをμ（２），…，μ（９）＝１とすれば、タイプ１のモデルの重み行列Ｗ１と全く同じ重み行列が合計で２つある状態と考えることができるので、９個のモデルの加重調和平均は、合計で１０個のモデルの調和平均をとっていることに相当する。但し、μ（ｊ）は、各モデルの相対的な重みを定めることができればよいので、自然数である必要はない。加重調和平均は、例えば、ディメンジョンやウィンドウサイズについて、強調したいモデルがある場合に、そこに相対的に大きな重みを付けたり、ｗｏｒｄ２ｖｅｃのＣＢＯＷのモデルとＳｋｉｐ−ｇｒａｍのモデルとの混成とする場合に、ＣＢＯＷとＳｋｉｐ−ｇｒａｍとで重みを変える場合等に利用することができる。

この式（１）は、任意の番号ｉの単語について、タイプ１〜９の各モデルのコサイン類似度Ｓ（ｉ，１），Ｓ（ｉ，２），…，Ｓ（ｉ，９）のうちのいずれかの値（少なくとも１つの値）がゼロになった場合には、Ｓｗｏｒｄ（ｉ）＝０となる。図５の例では、タイプ２のモデルについての番号ｉ＝２７のＳ（２７，２）＝０であるから、番号ｉ＝２７のＳｗｏｒｄ（２７）＝０となる。同様に、タイプ１のモデルについての番号ｉ＝２９のＳ（２９，１）＝０であるから、番号ｉ＝２９のＳｗｏｒｄ（２９）＝０となる。

続いて、類似度算出手段３４は、アンサンブルした類似度Ｓｗｏｒｄ（ｉ）の値がゼロにならなかった単語を選択し、それらを関連単語として決定し、関連単語およびその関連単語についての類似度（similarity）の値であるＳｗｏｒｄ（ｉ）を、算出類似度記憶手段４４に記憶させる。なお、番号ｉは、詰めてｉ＝１，２，３，…として記憶してもよい。図５の例では、Ｓｗｏｒｄ（２７），Ｓｗｏｒｄ（２９）は、ゼロであるから、関連単語として選択されない。従って、結局、複数種類のモデルをアンサンブルしたＳｗｏｒｄ（ｉ）の値がゼロになることなく、関連単語として選択される単語は、タイプ１〜９の各モデルで選択された上位Ｎ３位以内（例えば１００位以内）のＳ（ｉ，ｊ）の番号ｉのうち、全てのモデルで選択された番号、すなわち全てのモデルで重なっている番号の単語である。この結果、関連単語として決定した単語の個数がＮ５個（例えば７０個）になったとする。このＮ５の値は、当然にＮ３（例えば１００）以下の値となり、Ｎ５＝Ｎ３となるのは、タイプ１〜９の全てのモデルについて上位Ｎ３位以内（例えば１００位以内）のＳ（ｉ，ｊ）の単語の組合せが一致している場合（順位まで一致している必要はない。）のみである。

上記のように、関連単語として決定した単語の個数Ｎ５は、当然にＮ３（例えば１００）以下の値となるが、Ｎ３は、設定データとして設定データ記憶手段４１に記憶されている。また、関連単語を絞り込んで決定することになる着目単語の個数Ｎ６（例えば１０）も、設定データとして設定データ記憶手段４１に記憶されている。従って、決定した関連単語の個数Ｎ５が、Ｎ６以下（例えば１０以下）になるか、またはＮ６を下回って（例えば１０未満になって）しまった場合に、ユーザに対し、その旨を報知する処理（警告や確認のための画面表示や音声等による出力処理）を行うようにしてもよい。この場合には、ユーザは、Ｎ３のデフォルト値（例えば１００）を、より大きな値（例えば５００）に変更してもよく、または既にデフォルト値を変更して自分専用の設定値を入力している場合には、その設定値を再度変更してもよい。Ｎ３の変更後の設定値は、自分専用の設定データとして、例えば設定ファイル等の保存形式で設定データ記憶手段４１に保存してもよく、保存せずに、その場限りの設定値としてもよい。Ｎ３を変更した場合には、その変更後のＮ３を用いて類似度算出手段３４による処理を繰り返す。但し、コサイン類似度Ｓ（ｉ，ｊ）を算出する処理を繰り返す必要はなく、算出して算出類似度記憶手段４４に記憶しているコサイン類似度Ｓ（ｉ，ｊ）の中から上位Ｎ３位以内の値を選択する処理から、繰り返せばよい。また、ユーザは、上記の報知を無視して処理を進めてもよく、その場合には、既に関連単語の個数Ｎ５（例えば、Ｎ５＝４）が、着目単語の個数Ｎ６のデフォルト値（例えば１０）以下または未満になっているので、Ｎ５個（例えば４個）の関連単語について、テキストデータ基準関連度算出手段３５によるテキストデータ基準関連度Ｐｗｏｒｄ（ｉ）の算出処理や、修正関連度算出手段３６による修正関連度ＳＰｗｏｒｄ（ｉ）の算出処理は、そのまま実行し、その後、関連単語の個数Ｎ５（例えば、Ｎ５＝４）を、着目単語の個数Ｎ６とするための置換処理（Ｎ６を、デフォルト値から、Ｎ５と同じ値に自動的に置き換える処理）を行って、抽出対象・テーマ関連度算出手段３７による抽出対象・テーマ関連度ＦＳの算出処理へ進めばよい。

＜テキストデータ基準関連度算出手段３５の構成＞

テキストデータ基準関連度算出手段３５は、類似度算出手段３４により決定したＮ５個（例えば７０個）の各関連単語、および、テーマの単語について、固有テキストデータ記憶手段４５に記憶された固有テキストデータ（本実施形態では、一例として、企業のＩＲ情報やＨＰ情報）との照合を行うことにより、各関連単語および／またはテーマの単語を含む固有テキストデータを抽出し、その固有テキストデータに関連付けられた抽出対象識別情報（本実施形態では、一例として、企業識別情報である銘柄識別情報）を抽出してセット記憶手段４６（図６参照）に記憶させ、さらに、テーマの単語についての照合で抽出した抽出対象（本実施形態では、企業）の集合（マスターセット）に対する、各関連単語についての照合で抽出した抽出対象（本実施形態では、企業）の集合（テストセット）の適合率（precision）を算出し、算出した各適合率を、各関連単語についてのテキストデータ基準関連度Ｐｗｏｒｄとしてセット記憶手段４６に記憶させる処理を実行するものである。

より詳細には、テキストデータ基準関連度算出手段３５は、先ず、算出類似度記憶手段４４に記憶しているＮ５個（例えば７０個）の各関連単語、テーマの単語のうちのいずれかが、固有テキストデータ記憶手段４５に記憶された各抽出対象（ここでは各企業）の固有テキストデータの中に含まれているか否かを判断し、いずれかの単語が含まれている場合には、その単語（各関連単語、またはテーマの単語）と関連付けて、その単語が含まれていた固有テキストデータに関連付けられた抽出対象識別情報（ここでは企業識別情報である銘柄識別情報）を、セット記憶手段４６（図６参照）に記憶させる。この際、ある１つの企業の固有テキストデータの中に、各関連単語およびテーマの単語の双方が含まれていた場合には、それぞれの単語と関連付けて、それらの単語が含まれていた固有テキストデータに関連付けられた抽出対象識別情報（ここでは企業識別情報である銘柄識別情報）を、セット記憶手段４６（図６参照）に記憶させる。

図６の例では、テーマの単語である「ＡＩ」が、Ａ社、Ｂ社、Ｃ社、Ｄ社、Ｅ社、Ｆ社、Ｈ社、Ｌ社、Ｍ社、Ｐ社の固有テキストデータの中に含まれていたので、これらの企業についての企業識別情報（銘柄識別情報）を、マスターセットとして「ＡＩ」と関連付けてセット記憶手段４６（図６参照）に記憶させる。なお、テーマの単語の番号は、０としている。

また、関連単語である「自然言語処理」が、Ｅ社、Ｆ社、Ｇ社、Ｈ社、Ｌ社の固有テキストデータの中に含まれていたので、これらの企業についての企業識別情報（銘柄識別情報）を、テストセットとして「自然言語処理」と関連付けてセット記憶手段４６（図６参照）に記憶させる。なお、関連単語である「自然言語処理」の番号は、詰めて１としている。

さらに、関連単語である「機械学習」が、Ｈ社、Ｌ社、Ｍ社、Ｐ社、Ｑ社、Ｒ社の固有テキストデータの中に含まれていたので、これらの企業についての企業識別情報（銘柄識別情報）を、テストセットとして「機械学習」と関連付けてセット記憶手段４６（図６参照）に記憶させる。なお、関連単語である「機械学習」の番号は、詰めて２としている。

図６では、例えば、次のようなことがわかる。Ｃ社の固有テキストデータには、「ＡＩ」が含まれている。Ｇ社の固有テキストデータには、「自然言語処理」は含まれているが、「ＡＩ」は含まれていない。Ｈ社の固有テキストデータには、「ＡＩ」が含まれているとともに、「自然言語処理」および「機械学習」も含まれている。

続いて、テキストデータ基準関連度算出手段３５は、セット記憶手段４６（図６参照）に記憶させたマスターセットおよび各テストセットを用いて、マスターセットに対する各テストセットの適合率を算出し、算出した各適合率を、各関連単語についてのテキストデータ基準関連度Ｐｗｏｒｄ（ｉ）としてセット記憶手段４６（図６参照）に記憶させる。ここで、ｉ＝１，２，３，…，Ｎ５であり、Ｎ５（例えば７０）は、関連単語の個数である。従って、ここでは、番号ｉは、詰めている。

図６の例では、関連単語である「自然言語処理」は、Ｅ社、Ｆ社、Ｇ社、Ｈ社、Ｌ社の合計５社の固有テキストデータに含まれ、これらの５社の固有テキストデータのうち、テーマの単語である［ＡＩ］を含んでいるのは、Ｅ社、Ｆ社、Ｈ社、Ｌ社の合計４社の固有テキストデータであるから、マスターセットに対する「自然言語処理」用のテストセットの適合率は、４／５＝０．８０００となるので、この値を、関連単語である「自然言語処理」についてのテキストデータ基準関連度Ｐｗｏｒｄ（１）とし、「自然言語処理」と関連付けてセット記憶手段４６（図６参照）に記憶させる。

また、関連単語である「機械学習」は、Ｈ社、Ｌ社、Ｍ社、Ｐ社、Ｑ社、Ｒ社の合計６社の固有テキストデータに含まれ、これらの６社の固有テキストデータのうち、テーマの単語である［ＡＩ］を含んでいるのは、Ｈ社、Ｌ社、Ｍ社、Ｐ社の合計４社の固有テキストデータであるから、マスターセットに対する「機械学習」用のテストセットの適合率は、４／６＝０．６６６７となるので、この値を、関連単語である「機械学習」についてのテキストデータ基準関連度Ｐｗｏｒｄ（２）とし、「機械学習」と関連付けてセット記憶手段４６（図６参照）に記憶させる。

＜修正関連度算出手段３６の構成＞

修正関連度算出手段３６は、次の式（２）により、類似度算出手段３４により算出して算出類似度記憶手段４４に記憶されている各関連単語についての類似度Ｓｗｏｒｄ（ｉ）と、テキストデータ基準関連度算出手段３５により算出してセット記憶手段４６（図６参照）に記憶されている各関連単語についてのテキストデータ基準関連度Ｐｗｏｒｄ（ｉ）との調和平均または加重調和平均（重み付き調和平均）を求めることにより、各関連単語についての修正関連度ＳＰｗｏｒｄ（ｉ）を算出し、この修正関連度ＳＰｗｏｒｄ（ｉ）の大きさで順位付けした各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度ＳＰｗｏｒｄ（ｉ）の大きさで選択した単語を、着目単語として決定し、決定した各着目単語およびそれらの着目単語の修正関連度ＳＰｗｏｒｄ（ｉ）を修正関連度記憶手段４７に記憶させる処理を実行するものである。

ここで、ｉは、関連単語として決定された単語の番号であり、ｉ＝１，２，３，…，Ｎ５をとり、Ｎ５（例えば７０）は、関連単語の個数である。従って、ここでは、番号ｉは、詰めている。

σは、類似度Ｓｗｏｒｄ（ｉ）の重みであり、τは、テキストデータ基準関連度Ｐｗｏｒｄ（ｉ）の重みであり、いずれも設定データとして、設定データ記憶手段４１に記憶されている。また、σ＝τ＝１とすると、式（２）は、調和平均を求める式となる。加重調和平均とする場合には、Ｓｗｏｒｄ（ｉ）とＰｗｏｒｄ（ｉ）との２つの対象データしかないので、重みσ，τは、１つにまとめてλ（＝τ／σ）としてもよい。また、λを、τ／σではなく、σ／τとしても同じことである。σ，τまたはλは、Ｓｗｏｒｄ（ｉ）とＰｗｏｒｄ（ｉ）との相対的な重みを定めることができればよいので、自然数である必要はない。加重調和平均は、例えば、固有テキストデータとの照合の影響を強調したいときに、Ｐｗｏｒｄ（ｉ）側（すなわちτ側）に相対的に大きな重みを付ける場合等に利用することができる。

上述したように、修正関連度算出手段３６は、関連単語から着目単語への絞り込みを行う際の選択基準として、「予め定められた数の上位の単語」または「閾値に対する修正関連度ＳＰｗｏｒｄ（ｉ）の大きさで選択した単語」を採用することができるが、本実施形態では、前者の選択基準を採用し、修正関連度ＳＰｗｏｒｄ（ｉ）の値が、上位Ｎ６個（例えば１０個）の関連単語を、着目単語として選択決定する。

この際、選択決定の判断処理の閾値となる個数Ｎ６は、設定データとして設定データ記憶手段４１に記憶されている。ユーザが、このＮ６をデフォルト値（例えば１０）から自分専用の設定値に変更することができるようにしてもよい。また、自分専用の設定値に変更した後に、再度その設定値を変更することができるようにしてもよい。変更後のＮ６の設定値は、関連単語の個数Ｎ５（例えば７０）よりも小さな値とする必要があるが、デフォルト値（例えば１０）よりも小さくする（例えば８等とする）か、大きくする（例えば１２等とする）かは、ユーザの自由である。また、Ｎ６の変更後の設定値は、自分専用の設定データとして、例えば設定ファイル等の保存形式で設定データ記憶手段４１に保存してもよく、保存せずに、その場限りの設定値としてもよい。Ｎ６を変更した場合には、その変更後のＮ６を用いて、抽出対象・テーマ関連度算出手段３７による抽出対象・テーマ関連度ＦＳの算出処理を行うことになる。従って、ユーザは、出力手段３８による出力処理の結果（図８参照）を参照してから、Ｎ６を変更してもよい。

＜抽出対象・テーマ関連度算出手段３７の構成＞

抽出対象・テーマ関連度算出手段３７は、修正関連度算出手段３６により決定した各着目単語、および、テーマの単語について、それぞれの単語が、テキストデータ基準関連度算出手段３５により抽出した各抽出対象識別情報（セット記憶手段４６（図６参照）に記憶されている各抽出対象識別情報）と関連付けられて固有テキストデータ記憶手段４５に記憶された固有テキストデータの中に出現する単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）を求め、次の式（３）により、各着目単語についての単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）に各着目単語についての修正関連度ＳＰｗｏｒｄ（ｉ）を乗じた値またはこの値に各着目単語の重み係数κ（ｉ）を乗じた値、並びに、テーマの単語についての単語別出現回数ＣＯＵＮＴｗｏｒｄ（０）またはこの単語別出現回数ＣＯＵＮＴｗｏｒｄ（０）にテーマの単語の重み係数κ（０）を乗じた値を合計することにより、各抽出対象（本実施形態では、一例として、各企業）についてのテーマへの関連度を示す抽出対象・テーマ関連度ＦＳを算出し、算出した抽出対象・テーマ関連度ＦＳを、抽出対象識別情報（企業識別情報である銘柄識別情報）と関連付けて抽出対象・テーマ関連度記憶手段４８に記憶させる処理を実行するものである。

ここで、ｉは、単語の番号であり、ｉ＝０，１，２，３，…，Ｎ６をとり、番号ｉ＝０は、テーマの単語の番号であり、番号ｉ＝１〜Ｎ６は、着目単語として決定された単語の番号であり、Ｎ６（例えば１０）は、着目単語の個数である。従って、ここでは、番号ｉは、詰めている。テーマの単語（ｉ＝０）についての修正関連度は、ＳＰｗｏｒｄ（０）＝１とする。

κ（ｉ）は、各単語（テーマの単語、各着目単語）の重み係数であり、いずれも設定データとして、設定データ記憶手段４１に記憶されている。原則的には、全ての単語（ｉ＝０，１，…，Ｎ６）の重み係数について、κ（ｉ）＝１としてよい。単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）には、重みとして修正関連度ＳＰｗｏｒｄ（ｉ）が乗じられているからである。従って、修正関連度ＳＰｗｏｒｄ（ｉ）による重み付けについて、更なる重み付けをする場合等に、１以外の値であるκ（ｉ）を利用することができる。例えば、１番大きいＳＰｗｏｒｄ（ｉ）または１番大きいＣＯＵＮＴｗｏｒｄ（ｉ）には、κ（ｉ）＝３を乗じ、２番目に大きいＳＰｗｏｒｄ（ｉ）または２番目に大きいＣＯＵＮＴｗｏｒｄ（ｉ）には、κ（ｉ）＝２を乗じる等のような更なる重み付けを行うことができる。また、テーマの単語（ｉ＝０）と、各着目単語（ｉ＝１〜Ｎ６）との相対的な重み付けに、κ（ｉ）を利用してもよく、その場合には、κ（０）と、その他のκ（ｉ）（ｉ＝１〜Ｎ６）とを別の値に設定すればよい。この際、テーマの単語（ｉ＝０）についての修正関連度は、ＳＰｗｏｒｄ（０）＝１とし、さらに重み係数κ（０）を乗じているので、κ（０）×ＳＰｗｏｒｄ（０）を１つの重み係数と考えてもよく、あるいは、κ（０）を使用せずに、ＳＰｗｏｒｄ（０）自体を、１とするのではなく、重み係数と考えてもよい。なお、式（３）により求まる抽出対象・テーマ関連度ＦＳの値は、抽出対象（ここでは企業）を順位付けするための相対的な評価用の数値であるから、κ（ｉ）（ｉ＝０，１，…，Ｎ６）は、相対的な重み付けをすることができる数値であればよいので、どのようなレベルの値でもよく（例えば、０〜１の範囲でも、０〜１００の範囲でも、どのような範囲をとる数値でもよいという意味である。）、整数である必要もない。

より詳細には、抽出対象・テーマ関連度算出手段３７は、先ず、セット記憶手段４６（図６参照）に記憶されている各抽出対象（ここでは、各企業）の固有テキストデータが１つまたは複数の文章により構成されていることから、文章単位で、テーマの単語や各着目単語が、固有テキストデータに含まれているか否かを判断する。すなわち、各企業の固有テキストデータは、ＩＲ情報やＨＰ情報等により構成され、ＩＲ情報も、１つの文章（例えば１つの文章ファイル）ではなく、複数の文章により構成されることがあり、ＨＰ情報も、１つの文章（例えば１つの文章ファイル）ではなく、複数の文章により構成されることがあるので、文章毎に、テーマの単語が含まれるか否か、および、複数の着目単語の各々が含まれるか否かを判断する。

図７の例では、Ｈ社の固有テキストデータについて、テーマの単語（「ＡＩ」）や各着目単語（「自然言語処理」、「機械学習」等）が含まれているか否かを判断している。図６に示すように、Ｈ社の固有テキストデータには、「ＡＩ」、「自然言語処理」、「機械学習」の全てが含まれている。これを、文章単位で見ると、図７に示すように、文章１には、「自然言語処理」および「ＡＩ」が含まれ、文章２には、「ＡＩ」が含まれ、文章３には、「機械学習」が含まれ、文章４には、「機械学習」および「ＡＩ」が含まれている等の状態であるため、このような状態の各文章１，２，３，４，…において、「ＡＩ」、「自然言語処理」、「機械学習」等の単語のそれぞれが出現する回数を求め、その回数を単語毎に累積して単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）（ｉ＝０，１，…，Ｎ６）を求める。例えば、テーマの単語「ＡＩ」（ｉ＝０）が、文章１で４回出現し、文章２で３回出現し、文章４で２回出現したとすると、ＣＯＵＮＴｗｏｒｄ（０）＝４＋３＋２＋…というカウント処理が行われる。着目単語である「自然言語処理」や「機械学習」等についても同様である。そして、図７の例では、Ｈ社の固有テキストデータについて、カウント処理を行っているので、このようなカウント処理を、セット記憶手段４６（図６参照）に記憶されている全ての抽出対象（ここでは企業）について行う。

続いて、抽出対象・テーマ関連度算出手段３７は、修正関連度記憶手段４７に記憶されている各着目単語についての修正関連度ＳＰｗｏｒｄ（ｉ）（ｉ＝１〜Ｎ６）を取得し、取得した修正関連度ＳＰｗｏｒｄ（ｉ）と、テーマの単語（ｉ＝０）についてのＳＰｗｏｒｄ（０）＝１と、カウントして得られた単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）（ｉ＝０，１，…，Ｎ６）と、設定データ記憶手段４１に記憶されている重み係数κ（ｉ）（ｉ＝０，１，…，Ｎ６）とを用いて、式（３）により、各抽出対象（ここでは各企業）についての抽出対象・テーマ関連度ＦＳ（ここでは、企業・テーマ関連度ＦＳ、または組織・テーマ関連度ＦＳである。）を算出する。

図７の例では、Ｈ社についての企業・テーマ関連度ＦＳを算出する処理を行っているので、この算出処理を、セット記憶手段４６（図６参照）に記憶されている全ての抽出対象（ここでは企業）について行う。

＜出力手段３８の構成＞

出力手段３８は、抽出対象・テーマ関連度算出手段３７により算出した抽出対象・テーマ関連度ＦＳ（ここでは、企業・テーマ関連度ＦＳ）を用いて、抽出した抽出対象（ここでは企業、またはそれに相当する銘柄）を、各種の出力形式で出力する処理を実行するものである。出力は、主として、ユーザ端末５０に向けたネットワーク１を介した出力用のデータの送信により実行され、ユーザ端末５０を操作するユーザへの情報提供となるが、管理者端末６０や、連携する他のシステム（不図示）に対しても、出力用のデータを送信する構成とされていてもよい。

ここで、出力形式としては、画面表示、印刷、音声出力、ファイル出力、データ送信、これらの組合せ等がある。また、立体映像による出力（ホログラフィ出力を含む）でもよく、暗号化したデータの出力でもよく、画面表示や印刷の場合は、テキスト、グラフ、表、またはそれらを複合させた画面表示や印刷のいずれでもよい。データ送信の場合には、ユーザ端末５０や管理者端末６０へのデータ送信のみならず、連携する他のシステム（不図示）へのデータ送信であってもよい。出力手段３８は、これらの各種の出力形式をユーザが選択可能な構成としてもよく、特定の出力形式でのみ出力する構成（例えば、画面表示だけを行う構成等）としてもよい。

また、ユーザに対し、抽出した抽出対象（ここでは企業、またはそれに相当する銘柄）を出力する際には、様々な表現（出力情報の提示状態）での出力を採用することができ、要するに、何らかの形で抽出対象・テーマ関連度ＦＳ（ここでは、企業・テーマ関連度ＦＳ）を用いた表現が行われていれば、ユーザに役立つ情報の出力となる。

例えば、抽出対象・テーマ関連度ＦＳの大きさで定まる順位に従って、抽出対象（ここでは企業）を並べて表示してもよい。降順でも、昇順でもよい。この際、ユーザは、ＦＳの値自体を知ることができてもよく、知ることができなくてもよい。

また、抽出対象・テーマ関連度ＦＳの大きさで定まる順位に従って、ＦＳの値およびその値に対応する抽出対象（ここでは企業）を並べて表示してもよい。降順でも、昇順でもよい。

さらに、抽出対象・テーマ関連度ＦＳの大きさで定まる順位に従った並び順とすることなく、ＦＳの値およびその値に対応する抽出対象（ここでは企業）の組合せを出力してもよい。この場合、ＦＳの大きさでソートしていない状態であるため、ユーザは、ソートしている場合に比べ、ＦＳの順位の確認はしづらい面があるものの、リストを参照することで、ＦＳの大小を把握することができる。また、出力される抽出対象（ここでは企業）の個数が少ない場合には、ソートしない出力状態でも容易にＦＳの大小を把握することができる。

そして、予め定められた数の上位の抽出対象（ここでは企業）を選択して出力してもよい。例えば、抽出対象・テーマ関連度ＦＳの値が上位２０位以内の抽出対象（ここでは企業）を選択して出力してもよい。この際、ユーザは、ＦＳの値自体を知ることができてもよく、知ることができなくてもよい。

また、抽出対象・テーマ関連度ＦＳの値が、ユーザにより指定された特定の順位の抽出対象（ここでは企業）を選択して出力してもよい。この際、ユーザは、ＦＳの値自体を知ることができてもよく、知ることができなくてもよい。例えば、ユーザにより上位２０位以内と指定された場合に、上位２０位以内の抽出対象を選択して出力してもよい。同様に、上位１１位〜２０位と指定された場合や、上位２位および３位と指定された場合等に、対応する抽出対象を選択して出力してもよい。例えば、前回は、上位１０位以内を抽出したので、今回は、上位１１位〜２０位を抽出する場合等に対応することができる。また、例えば、他社や他人と異なる抽出対象（商品等）を抽出したい場合や、あえて２番手、３番手を狙いたい場合等のように、何らかの事情で、特殊な指定をする場合等にも対応することができる。

また、以上に述べた状態で出力される情報に加え、抽出対象（ここでは企業）についての固有テキストデータの少なくとも一部を出力してもよい。さらに、抽出対象についてのＦＳを式（３）により算出する際に用いたテーマの単語や各着目単語、それらの単語についての単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）、修正関連度ＳＰｗｏｒｄ（ｉ）を併せて出力してもよい。

具体的には、出力手段３８は、例えば、図８に示すような抽出結果表示画面１００を出力する。この抽出結果表示画面１００には、テーマ単語入力部１０１と、抽出対象・テーマ関連度ＦＳの大きさの順位に従って抽出対象（ここでは企業）を並べて表示する抽出対象表示部１１０と、この抽出対象表示部１１０でユーザにより選択された抽出対象について式（３）によりＦＳを求める際に用いたテーマの単語や各着目単語に関する情報を表示する着目単語表示部１２０とが設けられている。

抽出対象表示部１１０には、抽出対象・テーマ関連度ＦＳ（ここでは、企業・テーマ関連度ＦＳ）を表示する「関連度」表示部１１１と、抽出対象識別情報である企業識別情報として機能する銘柄識別情報を表示する「銘柄コード」表示部１１２と、抽出対象の名称（ここでは、企業名）を表示する「銘柄名」表示部１１３とが設けられている。

着目単語表示部１２０には、テーマの単語および各着目単語を表示する「Ｗｏｒｄ」表示部１２１と、テーマの単語および各着目単語についての修正関連度ＳＰｗｏｒｄ（ｉ）を表示する「関連度」表示部１２２と、テーマの単語や各着目単語が含まれている固有テキストデータの格納ファイルの名称を表示する「ｆｉｌｅ」表示部１２３と、固有テキストデータを構成する文章の内容および単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）の内訳を表示する「Ｓｅｎｔｅｎｃｅ」表示部１２４とが設けられている。

図８の例では、「Ｓｅｎｔｅｎｃｅ」表示部１２４には、ＩＲ情報については、内容および件数（単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）の内訳）が表示され、ＨＰ情報については、内容は表示されず、件数（単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）の内訳）だけが表示されるようになっている。但し、図８は、表示の一例であり、例えば、ＨＰ情報についても内容を表示するようにしてもよく、また、固有テキストデータの中に含まれているテーマの単語や各着目単語を、色付け等により強調表示してもよい。

また、図８の例では、銘柄コードを銘柄識別情報（抽出対象識別情報）としているが、銘柄名を銘柄識別情報として使用してもよく、あるいは銘柄コードおよび銘柄名の組合せを、銘柄識別情報として使用してもよい。海外（例えば米国やカナダ等）の銘柄の場合は、ティッカーシンボル（ティッカーコード）を銘柄識別情報として使用してもよい。より一般には、抽出対象識別情報には、抽出対象を示すコード（名称の略記号も含む）を用いてもよく、抽出対象の名称を用いてもよく、それらの組合せを用いてもよい。なお、抽出対象を出力（画面表示等）することには、抽出対象の名称を出力すること、抽出対象を示すコード（名称の略記号も含む）を出力すること、抽出対象のロゴ（企業ロゴ等）やキャラクタを出力すること、それらの組合せを出力すること等が含まれ、データ処理上のキーとなる抽出対象識別情報と、それに対応する情報（例えば、キーとなる抽出対象識別情報をコードとする場合における名称やロゴ等）とは、テーブル（図示されない抽出対象マスタ記憶手段）に関連付けて記憶しておけばよい。

＜各記憶手段４１〜４８の構成＞

設定データ記憶手段４１は、各種の設定データを記憶するものである。設定データとしては、例えば、類似度算出手段３４により関連単語を決定する際（処理の結果としてＮ５個（例えば、Ｎ５＝７０）の単語が関連単語として選択決定される。）に用いる各モデルにおける類似度Ｓの個数Ｎ３（例えば、Ｎ３＝１００）、修正関連度算出手段３６によりＮ５個の関連単語の中から選択決定する着目単語の個数Ｎ６（例えば、Ｎ６＝１０）、式（１）におけるμ（ｊ）、式（２）におけるσ，τまたはλ、式（３）におけるκ（ｉ）、出力手段３８により出力する抽出対象の指定情報（例えば、上位１０位以内を出力する、１１位〜２０位を出力する、２位および３位のみを出力する等の指定情報）がある。

学習データ記憶手段４２は、学習手段３２による機械学習で用いる学習用のテキストデータを記憶するものである。学習用のテキストデータは、例えば、ニュースのテキストデータや、ウィキペディア等のインターネットから収集したテキストデータ等である。

モデル記憶手段４３は、図２に示すように、学習結果データであるタイプ１〜９の各モデルの重み行列Ｗ（Ｗ１，Ｗ２，…，Ｗ９）や、それらの重み行列Ｗ（Ｗは、単語ベクトルの集合）を作成した際の設定パラメータ（例えば、ｗｏｒｄ２ｖｅｃのハイパーパラメータであるディメンジョンやウィンドウサイズ等）を記憶するものである。

算出類似度記憶手段４４は、類似度算出手段３４により算出したタイプ１〜９の各モデルについてのコサイン類似度Ｓ（ｉ，ｊ）、式（１）により算出した類似度Ｓｗｏｒｄ（ｉ）を記憶するものである。

固有テキストデータ記憶手段４５は、各抽出対象（ここでは、各企業）の特徴を示す固有テキストデータを、抽出対象識別情報（ここでは、企業識別情報）と関連付けて記憶するものである。固有テキストデータとしては、例えば、ＩＲ情報やＨＰ情報等がある。

セット記憶手段４６は、図６に示すように、マスタセットおよびテストセット、すなわち、テキストデータ基準関連度算出手段３５により抽出した抽出対象識別情報（ここでは、企業識別情報である銘柄識別情報）を、テーマの単語や各関連単語およびそれらの単語の番号と関連付けて記憶するとともに、テキストデータ基準関連度算出手段３５により算出したテキストデータ基準関連度Ｐｗｏｒｄ（ｉ）を、各関連単語およびそれらの単語の番号と関連付けて記憶するものである。

修正関連度記憶手段４７は、修正関連度算出手段３６により決定した各着目単語およびそれらの着目単語の修正関連度ＳＰｗｏｒｄ（ｉ）を記憶するものである。

抽出対象・テーマ関連度記憶手段４８は、抽出対象・テーマ関連度算出手段３７により算出した抽出対象・テーマ関連度ＦＳ（ここでは、企業・テーマ関連度ＦＳ）を、抽出対象識別情報（ここでは、企業識別情報である銘柄識別情報）と関連付けて記憶するものである。

＜抽出システム１０による抽出処理、または抽出作業の支援処理の流れ＞

このような本実施形態においては、以下のようにして抽出システム１０により、抽出対象（ここでは企業）の抽出処理、または抽出作業の支援処理が行われる。

図３において、システム運用開始前の事前処理として、システム管理者は、管理者端末６０を操作し、抽出対象（ここでは企業）に固有の情報である固有テキストデータとして収集したＩＲ情報、ＨＰ情報等の登録処理を行う。この登録処理は、設定手段３１により実行され、各抽出対象（ここでは各企業）の固有テキストデータが、抽出対象識別情報（ここでは企業識別情報）と関連付けられて固有テキストデータ記憶手段４５に記憶される（ステップＳ１）。

続いて、システム管理者は、管理者端末６０を操作し、学習用のテキストデータの登録処理を行う。この登録処理は、設定手段３１により実行され、学習用のテキストデータが、学習データ記憶手段４２に記憶される（ステップＳ２）。そして、学習手段３２により、ｗｏｒｄ２ｖｅｃ等のアルゴリズムによる学習処理が行われ、得られた学習結果データとしての重み行例Ｗ（Ｗ１，Ｗ２，…，Ｗ９）、すなわち単語ベクトルの集合が、モデル記憶手段４３（図２参照）に記憶される（ステップＳ２）。この学習処理については、学習手段３２の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。

それから、システム管理者は、管理者端末６０を操作し、設定データ（例えば、Ｎ３＝１００、Ｎ６＝１０、式（１）におけるμ（ｊ）、式（２）におけるσ，τまたはλ、式（３）におけるκ（ｉ）等）を入力する。この入力は、設定手段３１により受け付けられ、入力された設定データは、設定データ記憶手段４１に記憶される（ステップＳ３）。

その後、システムの運用が開始されると、ユーザは、ユーザ端末５０を操作し、図８の抽出結果表示画面１００のテーマ単語入力部１０１に、テーマの単語を入力する（ステップＳ４）。この入力は、テーマ入力受付手段３３により受け付けられる。

それから、類似度算出手段３４により、タイプ１〜９の各モデルについて、テーマの単語と他の単語との間のコサイン類似度Ｓ（ｉ，ｊ）を算出し（図４参照）、算出類似度記憶手段４４に記憶させるとともに、各モデルについて、コサイン類似度Ｓ（ｉ，ｊ）が上位Ｎ３位以内（例えば１００位以内）の単語を選択する（ステップＳ５）。この処理については、類似度算出手段３４の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。

続いて、類似度算出手段３４により、タイプ１〜９の各モデルのうちの少なくとも１つのモデルで選択されたＮ４個の単語（例えば、Ｎ４＝１５０）の全てについて、対応する単語が選択されていないモデルの当該単語のコサイン類似度Ｓ（ｉ，ｊ）を０とみなすとともに、式（１）により、タイプ１〜９の全てのモデルのコサイン類似度Ｓ（ｉ，ｊ）の調和平均または加重調和平均を求めることにより、タイプ１〜９の全てのモデルをアンサンブルした類似度Ｓｗｏｒｄ（ｉ）を算出し、算出した類似度Ｓｗｏｒｄ（ｉ）がゼロにならなかった単語を、関連単語として決定し（図５参照）、決定したＮ５個（例えば、Ｎ５＝７０）の各関連単語についての類似度Ｓｗｏｒｄ（ｉ）を、算出類似度記憶手段４４に記憶させる（ステップＳ６）。この処理については、類似度算出手段３４の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。

その後、テキストデータ基準関連度算出手段３５により、Ｎ５個（例えば７０個）の各関連単語およびテーマの単語について、固有テキストデータとの照合を行うことにより、それらの単語の少なくとも１つを含む固有テキストデータに関連付けられた抽出対象識別情報（ここでは企業識別情報である銘柄識別情報）を抽出し、セット記憶手段４６（図６参照）に記憶させる（ステップＳ７）。この処理については、テキストデータ基準関連度算出手段３５の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。

それから、テキストデータ基準関連度算出手段３５により、テーマの単語についての照合で抽出した抽出対象（ここでは企業）の集合（マスターセット）に対する、Ｎ５個（例えば７０個）の関連単語についての照合で抽出した抽出対象（ここでは企業）の集合（テストセット）の適合率を算出し、これらの適合率を、テキストデータ基準関連度Ｐｗｏｒｄ（ｉ）とし、セット記憶手段４６（図６参照）に記憶させる（ステップＳ８）。この処理については、テキストデータ基準関連度算出手段３５の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。

続いて、修正関連度算出手段３６により、式（２）を用いて、タイプ１〜９の各モデルをアンサンブルした類似度Ｓｗｏｒｄ（ｉ）と、テキストデータ基準関連度Ｐｗｏｒｄ（ｉ）との調和平均または加重調和平均を求めることにより、Ｎ５個（例えば７０個）の関連単語についての修正関連度ＳＰｗｏｒｄ（ｉ）を算出する。そして、算出した修正関連度ＳＰｗｏｒｄ（ｉ）が上位Ｎ６以内（例えば１０位以内）の単語を、着目単語として決定し、決定したＮ６個（例えば１０個）の各着目単語およびそれらの着目単語の修正関連度ＳＰｗｏｒｄ（ｉ）を、修正関連度記憶手段４７に記憶させる（ステップＳ９）。この処理については、修正関連度算出手段３６の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。

さらに、抽出対象・テーマ関連度算出手段３７により、Ｎ６個（例えば１０個）の各着目単語およびテーマの単語について、それぞれが固有テキストデータに出現する単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）を求めた後、式（３）により、単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）に修正関連度ＳＰｗｏｒｄ（ｉ）および重み係数κ（ｉ）を乗じ、各単語についてのそれらの値を合計することにより、抽出対象・テーマ関連度ＦＳ（ここでは、企業・テーマ関連度ＦＳ）を算出し、抽出対象・テーマ関連度記憶手段４８に記憶させる（ステップＳ１０）。この処理については、抽出対象・テーマ関連度算出手段３７の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。

その後、出力手段３８により、抽出対象・テーマ関連度記憶手段４８に記憶されている抽出対象・テーマ関連度ＦＳ（ここでは、企業・テーマ関連度ＦＳ）を用いて、抽出した抽出対象（ここでは、企業）についての画面表示・印刷・音声出力・ファイル出力・データ送信等による出力処理を実行する（ステップＳ１１）。この出力処理については、出力手段３８の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。

＜本実施形態の効果＞

このような本実施形態によれば、次のような効果がある。すなわち、抽出システム１０では、テーマの単語と他の単語との間の類似度Ｓｗｏｒｄ（ｉ）を用いて、テーマに関連する関連単語を決定した後、各関連単語の類似度Ｓｗｏｒｄ（ｉ）と、各抽出対象の特徴を示す固有テキストデータとの照合により得られた適合率であるテキストデータ基準関連度Ｐｗｏｒｄ（ｉ）との調和平均または加重調和平均により、各関連単語の修正関連度ＳＰｗｏｒｄ（ｉ）を算出し、この修正関連度ＳＰｗｏｒｄ（ｉ）の大小で着目単語を決定し、固有テキストデータにおける各着目単語やテーマ単語についての単語別出現回数ＣＯＵＮＴｗｏｒｄ（ｉ）を求め、これらを用いて各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度ＦＳ（本実施形態では、一例として、企業・テーマ関連度ＦＳ）を算出することができる。このため、算出される抽出対象・テーマ関連度ＦＳは、各抽出対象（各企業）の特徴を示す固有テキストデータの内容を反映した値となり、各抽出対象（各企業）についてのテーマへの関連度を示す適切な指標値を得ることができる。

従って、ユーザは、手間や時間をかけることなく、テーマに関連する抽出対象（ここでは、株式等の発行企業、または銘柄）を抽出することができる。そして、例えば、テーマ型ファンドの構成銘柄とする候補銘柄を抽出する場合には、抽出した各候補銘柄について、テーマへの関連度を示す企業・テーマ関連度ＦＳを得ることができるので、ファンドマネージャによるその後の選定作業を容易に行うことができる。このため、ユーザ（例えば、ファンドマネージャ）の作業負担の軽減、作業効率の向上を図ることができる。

また、抽出システム１０による抽出対象（本実施形態では、企業）の自動抽出、あるいは各抽出対象（各企業）についてのテーマへの関連度を示す適切な指標値の提供により、抽出すべき抽出対象（企業）を見落としてしまう可能性を低減することができる。このため、適正な抽出結果を得ることができる。そして、例えば、テーマ型ファンドの構成銘柄とする候補銘柄を抽出する場合には、ユーザによる最終的な判断作業として、ファンドマネージャによるその後の選定作業があるので、その選定作業の適正化を図ることができる。

さらに、抽出システム１０では、ユーザは、テーマについての専門知識を有していなくても、テーマに関連する適切な抽出対象を抽出することができるので、この点でも、適正な抽出結果を得ることができる。そして、例えば、テーマ型ファンドの構成銘柄とする候補銘柄を抽出する場合には、ファンドマネージャによるその後の選定作業の適正化を図ることができる。

また、抽出システム１０では、単語間の関連性を示す類似度Ｓ（ｉ，ｊ）として、単語の分散表現としての単語ベクトルのコサイン類似度Ｓ（ｉ，ｊ）を採用しているので、既存の多くのアルゴリズム（例えば、ｗｏｒｄ２ｖｅｃのＣＢＯＷやＳｋｉｐ−ｇｒａｍ、ＧｌｏＶｅ、ＥＬＭｏ、ＬＩＮＥ等）を適用することができ、また、既存の多くのツールを利用することもできる。さらに、単語の分散表現としての単語ベクトルを用いるアルゴリズムは、今後も様々なものが開発されると予想されるため、それらを適用することもできる。

さらに、抽出システム１０では、類似度算出手段３４は、モデル記憶手段４３（図２参照）に記憶された複数のタイプ１〜９のモデルの重み行列Ｗ（Ｗ１，Ｗ２，…，Ｗ９）を用いて、タイプ１〜９のモデルの各々について、コサイン類似度Ｓ（ｉ，ｊ）を算出し、式（１）により調和平均または加重調和平均を求め、複数（９つ）のモデルをアンサンブルした類似度Ｓｗｏｒｄ（ｉ）を算出し、このＳｗｏｒｄ（ｉ）を用いて、関連単語を決定する構成とされているので、各モデル間のコサイン類似度Ｓ（ｉ，ｊ）のばらつきを吸収し、より適切な単語を、関連単語として決定することができるとともに、いずれかのモデルのコサイン類似度Ｓ（ｉ，ｊ）がゼロになると、調和平均または加重調和平均もゼロになるという性質を利用して、関連単語の決定処理を容易に行うことができる。

また、抽出システム１０は、各企業の固有テキストデータとして、インベスター・リレーションズ情報（ＩＲ情報）を用いるので、例えば、テーマ型ファンドの構成銘柄とする候補銘柄の発行企業を抽出する場合には、テーマに沿った適切な企業（銘柄）を、候補銘柄として抽出することができる。すなわち、各企業により発信されるＩＲ情報の内容は、各企業の特徴を示しつつ、ある程度、統一された内容となっているので、固有テキストデータとして採用するのに適している。より詳細に述べれば、ＩＲ情報は、フォーマットが定まっているわけではないが、ルール・原則・慣例等に従って記載されているので、いずれの企業も、ある程度、類似する書き方で、類似する内容を記載している。このため、データに偏りが少ないので、抽出システム１０で算出される抽出対象・テーマ関連度ＦＳ（企業・テーマ関連度ＦＳ）は、より信頼性の高い指標値となることから、テーマに沿った適切な企業（銘柄）を、候補銘柄として抽出することができる。

＜実験＞

本発明の効果を確かめるために、次のような実験を行った。学習用のテキストデータとして、Ｎ１＝１，８０９，７３６，３６５の単語を含むファイルを用意した。このうち、重なりのないユニークな単語は、Ｎ２＝１，１４７，９７３個（ボキャブラリ数）となった。ｗｏｒｄ２ｖｅｃによる学習では、図２に示した通りのディメンジョン、ウィンドウサイズによる合計９つのタイプのモデルを用意した。固有テキストデータは、各企業のＩＲ情報およびＨＰ情報とした。テーマの単語として「健康」を入力した。

図９には、実験結果として、各関連単語について、各モデルをアンサンブルした類似度Ｓｗｏｒｄ（ｉ）、テキストデータ基準関連度Ｐｗｏｒｄ（ｉ）、修正関連度ＳＰｗｏｒｄ（ｉ）の各値が示されている。図９中の左側部分に示された上位１０位以内のＳＰｗｏｒｄ（ｉ）の単語は、関連単語のうち着目単語として選択された単語（Ｎ６＝１０とした場合）であり、図９中の右側部分に示された上位１１位〜２０位のＳＰｗｏｒｄ（ｉ）の単語は、関連単語のうち着目単語として選択されなかった単語である。

修正関連度ＳＰｗｏｒｄ（ｉ）の大きさが１０位の単語「生活習慣」と、１４位の単語「予防」とを比較してみると（但し、番号ｉは、詰めて説明する。）、「予防」の類似度Ｓｗｏｒｄ（１４）は、「生活習慣」の類似度Ｓｗｏｒｄ（１０）よりも大きい。しかし、「予防」の修正関連度ＳＰｗｏｒｄ（１４）は、「生活習慣」の修正関連度ＳＰｗｏｒｄ（１０）よりも明らかに小さい（関連度が低い）ので、「予防」は、着目単語として選択されなかった。これは、「予防」のテキストデータ基準関連度Ｐｗｏｒｄ（１４）が、「生活習慣」のテキストデータ基準関連度Ｐｗｏｒｄ（１０）よりも小さい（低い）からである。この逆転の原因は、「予防」が様々な分野で出現する一般的な単語だからであると思われる。これにより、式（２）により算出した修正関連度ＳＰｗｏｒｄ（ｉ）の順位による着目単語の選択処理が、適切であることが示された。すなわち、テキストデータ基準関連度Ｐｗｏｒｄ（ｉ）の値を、着目単語の選択に反映させることの妥当性が示された。

図１０には、実験結果として、調和平均により複数種類のモデルをアンサンブルした場合と、調和平均をとることなく単一のモデルを用いた場合との比較結果が示されている。図１０中の左側部分には、式（１）により調和平均を求めて合計９つのモデルをアンサンブルしたコサイン類似度Ｓｗｏｒｄ（ｉ）が示されている。図１０中の右側部分には、タイプ２のモデル（ディメンジョン＝２００、ウィンドウサイズ＝８）のコサイン類似度Ｓ（ｉ，２）が示されている。

単一モデル（タイプ２のモデル）による図１０中の右側部分には、１１位に「増進」があるが、複数種類のモデルをアンサンブルした図１０中の左側部分には、「増進」はないので、「増進」は、関連単語として選択されていない。これは、タイプ１〜９の各々のモデルについて、上位１００位以内のＳ（ｉ，ｊ）（ｊ＝１〜９）を選択し（Ｎ３＝１００とした場合）、式（１）により調和平均を求める際に、タイプ２のモデルについての「増進」のコサイン類似度Ｓ（ｉ，２）は、上位１００位以内に入っているが、タイプ２以外のタイプ１，３〜９のいずれかのモデルについての「増進」のコサイン類似度Ｓ（ｉ，ｊ）（ｊ＝１，３〜９のいずれか）が、上位１００位以内に入らなかったことを意味する。これにより、式（１）により複数種類のモデルをアンサンブルする処理が、適切であることが示された。

［変形の形態］

なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。

例えば、前記実施形態では、抽出システム１０は、抽出サーバ２０と、ユーザ端末５０や管理者端末６０とをネットワーク１で接続するサーバ・クライアント型のシステムとされていたが、本発明の抽出システムは、これに限定されるものではなく、スタンドアロンのシステムとしてもよい。

また、前記実施形態では、式（１）により複数種類のモデルをアンサンブルした類似度Ｓｗｏｒｄ（ｉ）を算出し、この類似度Ｓｗｏｒｄ（ｉ）を用いて、関連単語を決定していたが、本発明は、これに限定されるものではなく、単一のモデルの類似度により、関連単語を決定してもよい。この場合、単一のモデルの類似度が上位Ｎ３位以内（例えば、Ｎ３＝１００）となる単語が、そのまま関連単語として決定されることになるので、関連単語の個数Ｎ５は、設定データであるＮ３と一致することになる。従って、前記実施形態のように、設定データである上位Ｎ３個（例えば１００個）に対し、処理の結果次第で、選択決定される関連単語の個数Ｎ５が、例えば７０個になったり、４０個になったりという具合に、変化することはない。

なお、複数種類のモデルを用いる構成とする場合に、式（１）によらずに、統合後の類似度Ｓｗｏｒｄ（ｉ）を算出してもよく、その場合の統合後の類似度については、既に詳述しているので、ここでは詳しい説明を省略する。

さらに、前記実施形態では、コサイン類似度Ｓ（ｉ，ｊ）の算出に用いる単語ベクトルは、学習処理で得られた学習結果データであったが、本発明で利用する単語ベクトルは、学習処理で得られた学習結果データに限定されるものではなく、例えば、学習結果データとしての単語ベクトルを加工、調整、または混合（異なるアルゴリズムによる機械学習で得られた単語ベクトルを混成させる等）して作成した単語ベクトルや、機械学習によらない手法で集計作業等を行って作成した単語ベクトル等としてもよい。

そして、前記実施形態では、類似度としてコサイン類似度を採用していたが、本発明で利用する類似度は、コサイン類似度に限定されるものではなく、要するに、単語間の関連性を示す類似度であればよい。

また、前記実施形態の抽出システム１０は、類似度算出手段３４により類似度を算出する構成とされていたが、本発明の抽出システムは、予め用意された類似度を、類似度記憶手段Ｘ（不図示）に記憶しておき、類似度取得手段Ｙ（不図示）により、この類似度記憶手段Ｘから、与えられたテーマの単語と他の単語との間の類似度を取得する構成としてもよい。このような構成とする場合には、モデル記憶手段４３の代わりに、類似度記憶手段Ｘを設け、類似度算出手段３４の代わりに、類似度取得手段Ｙを設ければよい。また、この場合、前記実施形態のようにテーマの単語が与えられてから類似度算出手段３４により類似度を算出するのではなく、処理に使用する類似度を予め用意しておくため、どのようなテーマの単語が入力されても（但し、入力することができるテーマの単語に制限を設けてもよい。）、入力されたテーマの単語と他の単語との間の類似度が予め用意されて類似度記憶手段Ｘに記憶されている状態とする必要がある。

さらに、前記実施形態の修正関連度算出手段３６は、式（２）に示すように、各関連単語の類似度Ｓｗｏｒｄ（ｉ）と、各抽出対象の特徴を示す固有テキストデータとの照合により得られた適合率であるテキストデータ基準関連度Ｐｗｏｒｄ（ｉ）との調和平均または加重調和平均を求めることにより、各関連単語の修正関連度ＳＰｗｏｒｄ（ｉ）を算出する構成とされていたが、本発明の修正関連度算出手段は、これに限定されるものではなく、例えば、単純平均や加重平均、相乗平均、二乗平均平方根（ＲＭＳ）、またはその他の平均を求める構成等でもよいが、率の平均をとるという観点では、前記実施形態のような調和平均または加重調和平均を求める構成とすることが好ましい。なお、類似度Ｓｗｏｒｄ（ｉ）と、テキストデータ基準関連度Ｐｗｏｒｄ（ｉ）とを用いて、修正関連度ＳＰｗｏｒｄ（ｉ）を算出すればよいので、平均を求める処理以外の処理としてもよい。

そして、前記実施形態の式（２）では、テキストデータ基準関連度Ｐｗｏｒｄ（ｉ）の項の数は、１つとされていたが、複数としてもよく、複数とする場合については、既に詳述しているので、ここでは詳しい説明を省略する。なお、複数のテキストデータ基準関連度Ｐｗｏｒｄ（ｉ）に重みを付ける場合には、それぞれ異なる重みとしてもよく、従って、Ｓｗｏｒｄ（ｉ）の重みと、複数のＰｗｏｒｄ（ｉ）のそれぞれの重みを設定するようにしてもよい。

以上のように、本発明の抽出システムおよびプログラムは、例えば、テーマ型ファンドの構成銘柄とする候補銘柄を抽出し、または候補銘柄の選定作業を支援する場合等に用いるのに適している。

１０抽出システム
３３テーマ入力受付手段
３４類似度算出手段
３５テキストデータ基準関連度算出手段
３６修正関連度算出手段
３７抽出対象・テーマ関連度算出手段
３８出力手段
４３モデル記憶手段
４５固有テキストデータ記憶手段

Claims

組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
学習用のテキストデータを用いて単語間の関連性を学習する学習処理で得られた学習結果データを記憶するモデル記憶手段と、
複数の前記抽出対象の各々について用意された前記抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
前記モデル記憶手段に記憶された前記学習結果データを用いて、前記テーマ入力受付手段により受け付けた前記テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度算出手段と、
この類似度算出手段により決定した各関連単語、および、前記テーマの単語について、前記固有テキストデータ記憶手段に記憶された前記固有テキストデータとの照合を行うことにより、前記各関連単語および／または前記テーマの単語を含む前記固有テキストデータに関連付けられた抽出対象識別情報を抽出し、前記テーマの単語についての照合で抽出した抽出対象の集合に対する、前記各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、前記各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
前記類似度算出手段により算出した前記各関連単語についての前記類似度と、前記テキストデータ基準関連度算出手段により算出した前記各関連単語についてのテキストデータ基準関連度とを用いて、前記各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした前記各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
この修正関連度算出手段により決定した各着目単語、および、前記テーマの単語について、それぞれの単語が、前記テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて前記固有テキストデータ記憶手段に記憶された前記固有テキストデータの中に出現する単語別出現回数を求め、前記各着目単語についての単語別出現回数に前記各着目単語についての前記修正関連度を乗じた値またはこの値に前記各着目単語の重み係数を乗じた値、並びに、前記テーマの単語についての単語別出現回数またはこの単語別出現回数に前記テーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
この抽出対象・テーマ関連度算出手段により算出した前記抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って前記抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく前記抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての前記固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
を備えたことを特徴とする抽出システム。
前記修正関連度算出手段は、
前記類似度算出手段により算出した前記各関連単語についての前記類似度と、前記テキストデータ基準関連度算出手段により算出した前記各関連単語についてのテキストデータ基準関連度との調和平均または加重調和平均を求めることにより、前記各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした前記各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する構成とされている
ことを特徴とする請求項１に記載の抽出システム。
前記モデル記憶手段は、
前記学習結果データとして、単語の分散表現としての単語ベクトルを記憶する構成とされ、
前記類似度算出手段は、
前記モデル記憶手段に記憶された前記単語ベクトルを用いて、前記類似度として、前記テーマの単語と他の単語との間のコサイン類似度を算出する処理を実行する構成とされている
ことを特徴とする請求項１または２に記載の抽出システム。
前記モデル記憶手段は、
異なる設定パラメータを用いて同じアルゴリズムで得られた複数種類の学習結果データ、異なるアルゴリズムで得られた複数種類の学習結果データ、またはこれらの学習結果データを混在させた複数種類の学習結果データを、複数種類のモデルとして記憶する構成とされ、
前記類似度算出手段は、
前記モデル記憶手段に記憶された複数種類の学習結果データを用いて、複数種類のモデルの各々について、前記テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした他の単語のうち、予め定められた数の上位の単語を各モデルで選択し、各モデルで選択した単語の中から前記関連単語を決定するとともに、各モデルで選択した単語の類似度を用いて、前記関連単語の類似度を算出する処理を実行する構成とされている
ことを特徴とする請求項１〜３のいずれかに記載の抽出システム。
前記モデル記憶手段は、
異なる設定パラメータを用いて同じアルゴリズムで得られた複数種類の学習結果データ、異なるアルゴリズムで得られた複数種類の学習結果データ、またはこれらの学習結果データを混在させた複数種類の学習結果データを、複数種類のモデルとして記憶する構成とされ、
前記類似度算出手段は、
前記モデル記憶手段に記憶された複数種類の学習結果データを用いて、複数種類のモデルの各々について、前記テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした他の単語のうち、予め定められた数の上位の単語を各モデルで選択し、各モデルで選択した単語が一致していない場合のずれ分の単語を含め、少なくとも１つのモデルで選択された単語の全てについて、対応する単語が選択されていないモデルの当該単語の類似度をゼロとみなすとともに、単語毎に、算出した全てのモデルの類似度の調和平均または加重調和平均を求めることにより、複数種類のモデルをアンサンブルした類似度を算出し、このアンサンブルした類似度の大きさがゼロにならない単語を、前記関連単語として決定する処理を実行する構成とされている
ことを特徴とする請求項４に記載の抽出システム。
組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
単語の分散表現としての単語ベクトルを記憶するモデル記憶手段と、
複数の前記抽出対象の各々について用意された前記抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
前記モデル記憶手段に記憶された前記単語ベクトルを用いて、前記テーマ入力受付手段により受け付けた前記テーマの単語と他の単語との間の類似度としてコサイン類似度を算出し、このコサイン類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対するコサイン類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度算出手段と、
この類似度算出手段により決定した各関連単語、および、前記テーマの単語について、前記固有テキストデータ記憶手段に記憶された前記固有テキストデータとの照合を行うことにより、前記各関連単語および／または前記テーマの単語を含む前記固有テキストデータに関連付けられた抽出対象識別情報を抽出し、前記テーマの単語についての照合で抽出した抽出対象の集合に対する、前記各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、前記各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
前記類似度算出手段により算出した前記各関連単語についての前記類似度と、前記テキストデータ基準関連度算出手段により算出した前記各関連単語についてのテキストデータ基準関連度とを用いて、前記各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした前記各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
この修正関連度算出手段により決定した各着目単語、および、前記テーマの単語について、それぞれの単語が、前記テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて前記固有テキストデータ記憶手段に記憶された前記固有テキストデータの中に出現する単語別出現回数を求め、前記各着目単語についての単語別出現回数に前記各着目単語についての前記修正関連度を乗じた値またはこの値に前記各着目単語の重み係数を乗じた値、並びに、前記テーマの単語についての単語別出現回数またはこの単語別出現回数に前記テーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
この抽出対象・テーマ関連度算出手段により算出した前記抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って前記抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく前記抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての前記固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
を備えたことを特徴とする抽出システム。
組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
前記テーマの単語として入力され得る全ての単語と、他の単語との関連性を示す類似度を記憶する類似度記憶手段と、
複数の前記抽出対象の各々について用意された前記抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
前記テーマ入力受付手段により前記テーマの単語を受け付けた際に、前記類似度記憶手段に記憶された前記テーマの単語と他の単語との間の類似度を取得し、この類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度取得手段と、
この類似度取得手段により決定した各関連単語、および、前記テーマの単語について、前記固有テキストデータ記憶手段に記憶された前記固有テキストデータとの照合を行うことにより、前記各関連単語および／または前記テーマの単語を含む前記固有テキストデータに関連付けられた抽出対象識別情報を抽出し、前記テーマの単語についての照合で抽出した抽出対象の集合に対する、前記各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、前記各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
前記類似度取得手段により取得した前記各関連単語についての前記類似度と、前記テキストデータ基準関連度算出手段により算出した前記各関連単語についてのテキストデータ基準関連度とを用いて、前記各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした前記各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
この修正関連度算出手段により決定した各着目単語、および、前記テーマの単語について、それぞれの単語が、前記テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて前記固有テキストデータ記憶手段に記憶された前記固有テキストデータの中に出現する単語別出現回数を求め、前記各着目単語についての単語別出現回数に前記各着目単語についての前記修正関連度を乗じた値またはこの値に前記各着目単語の重み係数を乗じた値、並びに、前記テーマの単語についての単語別出現回数またはこの単語別出現回数に前記テーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
この抽出対象・テーマ関連度算出手段により算出した前記抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って前記抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく前記抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての前記固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
を備えたことを特徴とする抽出システム。
前記テーマ入力受付手段は、
前記テーマの単語として、テーマ型ファンドの構成銘柄とする候補銘柄の発行企業を抽出するためのキーワードとなる単語の入力を受け付ける処理を実行する構成とされ、
前記固有テキストデータ記憶手段に記憶される前記固有テキストデータには、企業が投資家に向けて発信するインベスター・リレーションズ情報が含まれ、
前記抽出対象・テーマ関連度算出手段は、
前記抽出対象・テーマ関連度として、各企業についてのテーマ型ファンドのテーマへの関連度を示す企業・テーマ関連度を算出する処理を実行する構成とされている
ことを特徴とする請求項１〜７のいずれかに記載の抽出システム。
請求項１〜８のいずれかに記載の抽出システムとして、コンピュータを機能させるためのプログラム。