JP6596565B1 - 抽出システムおよびプログラム - Google Patents

抽出システムおよびプログラム Download PDF

Info

Publication number
JP6596565B1
JP6596565B1 JP2018244861A JP2018244861A JP6596565B1 JP 6596565 B1 JP6596565 B1 JP 6596565B1 JP 2018244861 A JP2018244861 A JP 2018244861A JP 2018244861 A JP2018244861 A JP 2018244861A JP 6596565 B1 JP6596565 B1 JP 6596565B1
Authority
JP
Japan
Prior art keywords
word
theme
relevance
extraction
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018244861A
Other languages
English (en)
Other versions
JP2020107051A (ja
Inventor
正徳 平野
泰紀 坂地
裕康 松島
潔 和泉
惇雄 加藤
嗣人 森岡
慎太郎 長尾
笙子 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2018244861A priority Critical patent/JP6596565B1/ja
Application granted granted Critical
Publication of JP6596565B1 publication Critical patent/JP6596565B1/ja
Publication of JP2020107051A publication Critical patent/JP2020107051A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

【課題】テーマに関連する抽出対象を抽出するユーザの作業負担の軽減、作業効率の向上、抽出結果の適正化を図ることができる抽出システムを提供する。【解決手段】抽出システム10では、テーマの単語と他の単語との間の類似度Swordを用いて、テーマに関連する関連単語を決定した後、各関連単語の類似度Swordと、各抽出対象の特徴を示す固有テキストデータとの照合により得られた適合率であるテキストデータ基準関連度Pwordとを用いて、各関連単語の修正関連度SPwordを算出し、この修正関連度SPwordの大小で着目単語を決定し、固有テキストデータにおける各着目単語やテーマ単語についての単語別出現回数COUNTwordを求め、これらを用いて各抽出対象についての抽出対象・テーマ関連度FSを算出する。【選択図】図1

Description

本発明は、組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムおよびプログラムに係り、例えば、テーマ型ファンドの構成銘柄とする候補銘柄を抽出し、または候補銘柄の選定作業を支援する場合等に利用できる。
一般に、投資信託は、複数の株式や債券等の銘柄により構成され、近年増加傾向にある個人投資家による投資対象としても人気が高い金融商品であるが、各構成銘柄やそれらの構成比率は、固定的なものではなく変化する。この際、構成銘柄の選定作業は、通常、投資信託の運用会社に所属するファンドマネージャにより行われる。
ところで、テーマ型ファンドと呼ばれる投資信託があり、これは、特定のテーマに関連した企業の株式や債券等を投資対象とした投資信託である。テーマとしては、例えば、人工知能(AI)、ロボット、健康、情報技術(IT)、情報通信技術(ICT)、バイオ等がある。投資信託の運用会社は、投資家にとって魅力ある金融商品を開発し、運用していかなければならないが、そのためには、有望なテーマを決め、そしてそのテーマに沿った候補銘柄を選定しなければならない。しかし、テーマに関連する銘柄を探すことは、多くの情報の中から必要な情報だけを抽出する作業となるため、ファンドマネージャに負担を強いることになる。通常は、テーマに関連するキーワードを用いて、ウェブ検索等を行うことにより関連銘柄を抽出する作業等が行われている。
なお、後述するように、本発明は、単語間の類似度を取り扱うとともに、単語とテキストデータとのマッチングを行う技術であるから、これらの観点で、本発明に関連する技術としては、単語の分散表現の技術(単語を高次元のベクトルで表現する技術)であるword2vec等を利用して組織と人とのマッチングの度合いを測定するマッチング測定装置が知られている(特許文献1参照)。
特開2018−124729号公報
前述したように、投資信託の運用会社が、テーマ型ファンドを開発し、運用する場合には、テーマに沿った候補銘柄の選定作業が必要となるので、手間や時間がかかり、ファンドマネージャの負担は大きい。従って、有望な銘柄を見落としてしまう可能性もある。
また、ファンドマネージャは、必ずしもテーマ自体に精通しているとは限らないので、このことも、過大な負担や、有望な銘柄の見落としに繋がる。さらに、テーマ型ファンドが、世界中の株式や債券等を投資対象とするグローバルファンドである場合には、候補銘柄を探す範囲が広がるため、ファンドマネージャの負担は、より大きくなり、有望な銘柄を見落とす可能性も、より一層高まる。
従って、テーマ型ファンドの開発および運用にかかるファンドマネージャの手間や時間を軽減することができ、あるいは、テーマ自体について専門的な知識を有していなくてもテーマに沿った適切な株式等の銘柄を選定することができる銘柄(その銘柄の発行企業)の抽出システムの開発が望まれる。
また、以上に述べたことは、テーマ型ファンドの構成銘柄とする候補銘柄を抽出する場合に限らず、あるテーマに従って、すなわち何らかの目的を持って、そのテーマに関連する組織、人物、物品、商品、サービス、事象、またはその他の抽出対象を抽出する場合にも同様にいえることである。
本発明の目的は、テーマに関連する抽出対象を抽出するユーザの作業負担の軽減、作業効率の向上、抽出結果の適正化を図ることができる抽出システムおよびプログラムを提供するところにある。
本発明は、組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
学習用のテキストデータを用いて単語間の関連性を学習する学習処理で得られた学習結果データを記憶するモデル記憶手段と、
複数の抽出対象の各々について用意された抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
モデル記憶手段に記憶された学習結果データを用いて、テーマ入力受付手段により受け付けたテーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度算出手段と、
この類似度算出手段により決定した各関連単語、および、テーマの単語について、固有テキストデータ記憶手段に記憶された固有テキストデータとの照合を行うことにより、各関連単語および/またはテーマの単語を含む固有テキストデータに関連付けられた抽出対象識別情報を抽出し、テーマの単語についての照合で抽出した抽出対象の集合に対する、各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
類似度算出手段により算出した各関連単語についての類似度と、テキストデータ基準関連度算出手段により算出した各関連単語についてのテキストデータ基準関連度とを用いて、各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
この修正関連度算出手段により決定した各着目単語、および、テーマの単語について、それぞれの単語が、テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて固有テキストデータ記憶手段に記憶された固有テキストデータの中に出現する単語別出現回数を求め、各着目単語についての単語別出現回数に各着目単語についての修正関連度を乗じた値またはこの値に各着目単語の重み係数を乗じた値、並びに、テーマの単語についての単語別出現回数またはこの単語別出現回数にテーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
この抽出対象・テーマ関連度算出手段により算出した抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
を備えたことを特徴とするものである。
ここで、「テーマの単語」とは、何らかの目的を持って「抽出対象」を抽出するときに使用するキーワードのことである。
また、「抽出対象」としての「組織」、「人物」、「物品」、「商品」、「サービス」、「事象」は、例示列挙であり、その他の「抽出対象」でもよい。この「抽出対象」は、与えられるテーマに関連して抽出される対象であれば、どのような対象でもよく、詳細については、後述する。
さらに、「抽出対象を抽出し、または抽出作業を支援する」において「支援」と記載されているのは、システム処理で抽出された複数の抽出対象の中から、ユーザが自らの判断で選定や更なる絞り込みを行うために必要となる情報(抽出された各抽出対象についてのテーマとの関連性の大きさの程度を示す情報)を出力してユーザに提供してもよい趣旨である。
そして、「出力手段」により出力される情報は、列記された「状態」で示される情報が含まれていればよい趣旨であり、その他の情報を併せて出力してもよく、例えば、抽出対象についての抽出対象・テーマ関連度を算出する際に用いた各着目単語、それらの単語別出現回数や修正関連度を併せて出力してもよい。また、「出力手段」における「出力形式」としての「画面表示」、「印刷」、「音声出力」、「ファイル出力」、「データ送信」、「これらの組合せ」は、例示列挙であり、その他の「出力形式」でもよい。例えば、「出力形式」は、立体映像による出力(ホログラフィ出力を含む)でもよく、暗号化したデータの出力でもよく、画面表示や印刷の場合は、テキスト、グラフ、表、またはそれらを複合させた画面表示や印刷のいずれでもよい。
また、「類似度」は、単語間の関連性を示す類似度であれば、いずれの手法により求めた類似度でもよい。従って、類似度を算出する際に用いる「学習結果データ」は、いずれのアルゴリズムによる機械学習で得られたデータであってもよい。但し、「修正関連度算出手段」による処理において、類似度と、テキストデータ基準関連度とを用いて修正関連度を算出する場合(例えば、調和平均または加重調和平均を求める場合等)には、類似度の数値は、テキストデータ基準関連度と数値レベルを合わせることが好ましい。例えば、テキストデータ基準関連度が0〜1の範囲の値をとるなら、類似度も、同じように0〜1の範囲の値をとるか、または、0〜1の範囲の値をとるように調整した類似度とすることが好ましい。この調整には、例えば0〜100の範囲の値を0〜1の範囲の値に調整する等の桁合わせの他に、例えば、−1〜1の範囲の値を0〜1の範囲の値にすること等も含まれる。なお、「修正関連度算出手段」による処理で、類似度やテキストデータ基準関連度に重み付けをする場合(例えば、調和平均ではなく、加重調和平均を求める場合等)には、その重みにより、数値レベルを合わせることも可能であるが、あくまでも、それらの重み(例えば、加重調和平均の重み等)は、類似度と、テキストデータ基準関連度との相対的な重み付けを行うために設定することが好ましい。
そして、「類似度」は、上記のように、テキストデータ基準関連度と数値レベルを合わせることが好ましいが、そのことを前提とし、「類似度算出手段」において「モデル記憶手段に記憶された学習結果データを用いて、テーマ入力受付手段により受け付けたテーマの単語と他の単語との間の類似度を算出」することには、識別器の出力値(例えば、ニューラル・ネットワーク(NN)の場合には、出力層の値)を使用せずに、学習結果データを用いて類似度を算出することの他に、学習結果データを用いた識別器による識別処理で得られた出力値(例えば、NNの場合には、出力層の値)を類似度とすることや、その出力値を使用して類似度を算出することも含まれる。この際、出力値の中にテーマの単語に対応する値(例えば、NNの場合には、出力層においてテーマの単語に対応するノードの値)が含まれている場合には、その値は除外すればよい。
このような本発明の抽出システムにおいては、テーマの単語と他の単語との間の類似度を用いて、テーマに関連する関連単語を決定した後、各関連単語の類似度と、各抽出対象の特徴を示す固有テキストデータとの照合により得られた適合率であるテキストデータ基準関連度とを用いて、各関連単語の修正関連度を算出し、この修正関連度の大小で着目単語を決定し、固有テキストデータにおける各着目単語やテーマ単語についての単語別出現回数を求め、これらを用いて各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する。このため、算出される抽出対象・テーマ関連度は、各抽出対象の特徴を示す固有テキストデータの内容を反映した値となり、各抽出対象についてのテーマへの関連度を示す適切な指標値が得られることになる。
従って、ユーザは、手間や時間をかけることなく、テーマに関連する抽出対象を抽出することが可能となるか、または、抽出にあたり、ユーザによる最終的な判断作業(確認作業や更なる選定作業を含む)を介在させる場合には、その判断作業を容易に行うことが可能となるので、ユーザの作業負担の軽減、作業効率の向上が図られる。
また、システムによる抽出対象の自動抽出、あるいは各抽出対象についてのテーマへの関連度を示す適切な指標値の提供により、抽出すべき抽出対象を見落としてしまう可能性が低くなるので、適正な抽出結果が得られるか、または、抽出にあたり、ユーザによる最終的な判断作業(確認作業や更なる選定作業を含む)を介在させる場合には、その判断作業の適正化が図られる。
さらに、ユーザは、テーマについての専門知識を有していなくても、テーマに関連する適切な抽出対象を抽出することが可能となるので、この点でも、適正な抽出結果が得られるか、または、抽出にあたり、ユーザによる最終的な判断作業(確認作業や更なる選定作業を含む)を介在させる場合には、その判断作業の適正化が図られ、これらにより前記目的が達成される。
<調和平均または加重調和平均により修正関連度を算出する構成>
また、本発明における「修正関連度算出手段」は、各関連単語についての類似度と、各関連単語についてのテキストデータ基準関連度とを用いて、各関連単語についての修正関連度を算出する構成であればよいので、例えば、単純平均や加重平均、相乗平均、二乗平均平方根(RMS)を求める構成等でもよいが、率の平均をとるという観点では、次のような構成とすることが好ましい。
すなわち、前述した抽出システムにおいて、
修正関連度算出手段は、
類似度算出手段により算出した各関連単語についての類似度と、テキストデータ基準関連度算出手段により算出した各関連単語についてのテキストデータ基準関連度との調和平均または加重調和平均を求めることにより、各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する構成とされていることが望ましい。
ここで、「調和平均または加重調和平均」を求める際に、テキストデータ基準関連度の項の数は、1つでもよく、複数でもよい。例えば、固有テキストデータ記憶手段に記憶された固有テキストデータが更新等により時間的に変化するような場合に、最新の固有テキストデータに基づくテキストデータ基準関連度を用いてもよいが、その他に、新旧(または3以上の複数時点)の固有テキストデータに基づく複数のテキストデータ基準関連度を用いて、類似度との調和平均または加重調和平均を求めてもよい。また、固有テキストデータは、抽出対象の特徴を示すデータであるが、例えば、別の業者等により用意された複数系統の固有テキストデータがあってもよく(1つの抽出対象に対し、別系統の複数の固有テキストデータがあってもよく)、例えば、業者ξの用意したA社、B社、C社、…についての各固有テキストデータと、業者ηの用意したA社、B社、C社、…についての各固有テキストデータとがあってもよい。従って、このような場合に、例えば、業者ξの用意したA社についての固有テキストデータと、業者ηの用意したA社についての固有テキストデータとを合体させてA社についての1つの固有テキストデータとし、B社、C社、…についても同様にし、それらの固有テキストデータに基づくテキストデータ基準関連度を求め、それを用いて、類似度との調和平均または加重調和平均を求めてもよいが、その他に、業者ξ系統の固有テキストデータに基づくテキストデータ基準関連度と、業者η系統の固有テキストデータに基づくテキストデータ基準関連度とを別々に求め、複数のテキストデータ基準関連度を用いて、類似度との調和平均または加重調和平均を求めてもよい。
<学習処理で得られた単語ベクトルを用いてコサイン類似度を算出する構成>
また、前述したように、本発明における「類似度」は、単語間の関連性を示す類似度であれば、いずれの手法により求めた類似度でもよいが、次のように、単語の分散表現としての単語ベクトルのコサイン類似度とすることにより、既存の多くのアルゴリズムを適用することが可能となり、また、既存の多くのツールを利用することも可能となる。さらに、単語の分散表現としての単語ベクトルを用いるアルゴリズムは、今後も様々なものが開発されると予想されるため、それらを適用することも可能となる。
すなわち、前述した抽出システムにおいて、
モデル記憶手段は、
学習結果データとして、単語の分散表現としての単語ベクトルを記憶する構成とされ、
類似度算出手段は、
モデル記憶手段に記憶された単語ベクトルを用いて、類似度として、テーマの単語と他の単語との間のコサイン類似度を算出する処理を実行する構成とされていることが望ましい。
ここで、「モデル記憶手段」に記憶される「単語ベクトル」としては、例えば、ワード・ツー・ベック(word2vec)のモデルであるコンティニュアス・バッグ・オブ・ワード(CBOW)やスキップ・グラム(Skip−gram)、あるいは、グローヴ(GloVe)、ファースト・テキスト(fastText)、リカレント・ニューラル・ネットワーク(RNN)の1種であるロング・ショート・ターム・メモリ(LSTM)によるエルモ(ELMo)、さらには、ニューラル・ネットワーク(NN)以外でも、例えば、ライン(LINE)等のアルゴリズムによる単語ベクトルを用いることができる。
<複数種類のモデルを用いる構成>
また、前述した抽出システムにおいて、
モデル記憶手段は、
異なる設定パラメータを用いて同じアルゴリズムで得られた複数種類の学習結果データ、異なるアルゴリズムで得られた複数種類の学習結果データ、またはこれらの学習結果データを混在させた複数種類の学習結果データを、複数種類のモデルとして記憶する構成とされ、
類似度算出手段は、
モデル記憶手段に記憶された複数種類の学習結果データを用いて、複数種類のモデルの各々について、テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした他の単語のうち、予め定められた数の上位の単語を各モデルで選択し、各モデルで選択した単語の中から関連単語を決定するとともに、各モデルで選択した単語の類似度を用いて、関連単語の類似度を算出する処理を実行する構成とされていることが望ましい。
ここで、「各モデルで選択した単語の中から関連単語を決定するとともに、各モデルで選択した単語の類似度を用いて、関連単語の類似度を算出する処理」には、次のような処理が含まれる。先ず、各モデルで選択される上位の単語の組合せは、一致しないことが多いので、各モデルで“ずれ”が生じることになる。従って、各モデルで例えば上位100位以内の単語を選択すると、ずれ分を含めて例えば150個の単語が選択され、一方、全てのモデルで選択されている単語は、例えば70個等となる。次に、この例の150個の単語の中には、1つのモデルでしか選択されていない単語、2つのモデルで選択されている単語、3つのモデルで選択されている単語、…、全てのモデルで選択されている単語がある。従って、例えば、2以上のモデルで選択されている単語を関連単語として決定してもよく、3以上のモデル、4以上のモデル、5以上のモデル、…で選択されている単語を関連単語として決定してもよく、過半数のモデルで選択されている単語を関連単語として決定してもよく、全てのモデルで選択されている単語を関連単語として決定してもよい。
そして、このように関連単語として決定した単語について、各モデルの当該単語の類似度を用いて、当該単語についての統合後の類似度(本願では、特に調和平均や加重調和平均の場合は、アンサンブルした類似度とも呼ぶ。)を算出する。統合後の類似度は、例えば、各モデルの当該単語の類似度の単純平均、加重平均、相乗平均等で求めてもよく、調和平均や加重調和平均等で求めてもよく、あるいは、これらの各種平均をとる前に、突出した値を除外するという観点で、各モデルの当該単語の類似度のうちの最大および/または最小の類似度を除いた状態としてから、各種平均をとるようにしてもよい。例えば、タイプ1〜9のモデルがあり、それらの全てのモデルで当該単語が選択されている場合に、タイプ3のモデルの当該単語の類似度が最大であり、タイプ5のモデルの当該単語の類似度が最小であったとすると、タイプ1,2,4,6〜9のモデルの当該単語の類似度の各種平均をとる。また、例えば、タイプ1〜9のモデルがあり、そのうちタイプ1,2,4,5,8の合計5つのモデルで当該単語が選択されている場合に、タイプ2のモデルの当該単語の類似度が最大であり、タイプ8のモデルの当該単語の類似度が最小であったとすると、タイプ1,4,5のモデルの当該単語の類似度の各種平均をとる。
このように複数種類のモデルを用いる構成とした場合には、各モデル間の類似度のばらつきを吸収し、より適切な単語を、関連単語として決定することが可能となる。
<各モデルの類似度の調和平均または加重調和平均を求め、複数種類のモデルをアンサンブルする構成>
また、前述したように、本発明では、モデルは、1つでもよく、複数種類のモデルを用いてもよいが、複数種類のモデルを用いる場合には、次のような構成を好適に採用することができる。
すなわち、前述した複数種類のモデルを用いる構成とする場合において、
モデル記憶手段は、
異なる設定パラメータを用いて同じアルゴリズムで得られた複数種類の学習結果データ、異なるアルゴリズムで得られた複数種類の学習結果データ、またはこれらの学習結果データを混在させた複数種類の学習結果データを、複数種類のモデルとして記憶する構成とされ、
類似度算出手段は、
モデル記憶手段に記憶された複数種類の学習結果データを用いて、複数種類のモデルの各々について、テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした他の単語のうち、予め定められた数の上位の単語を各モデルで選択し、各モデルで選択した単語が一致していない場合のずれ分の単語を含め、少なくとも1つのモデルで選択された単語の全てについて、対応する単語が選択されていないモデルの当該単語の類似度をゼロとみなすとともに、単語毎に、算出した全てのモデルの類似度の調和平均または加重調和平均を求めることにより、複数種類のモデルをアンサンブルした類似度を算出し、このアンサンブルした類似度の大きさがゼロにならない単語を、関連単語として決定する処理を実行する構成とされていることが望ましい。
ここで、調和平均または加重調和平均をとる「類似度」は、単語間の関連性を示す類似度であれば、いずれの手法により求めた類似度でもよく、前述した単語の分散表現としての単語ベクトルのコサイン類似度でもよい。
このように各モデルの類似度の調和平均または加重調和平均を求め、複数種類のモデルをアンサンブルする構成とした場合には、各モデル間の類似度のばらつきを吸収し、より適切な単語を、関連単語として決定することが可能となるとともに、いずれかのモデルの類似度がゼロになると、調和平均または加重調和平均もゼロになるという性質を利用して、関連単語の決定処理を容易に行うことが可能となる。
<単語間の類似度の算出に使用する単語ベクトルの任意性を考慮した構成>
また、以上に述べた抽出システムは、各種のアルゴリズムによる機械学習で得られた学習結果データ(例えば、機械学習で得られた単語ベクトル等)を用いる構成とされているが、単語ベクトルを用いて単語間の類似度を算出する構成とする場合には、機械学習で得られた学習結果データとしての単語ベクトルそのものではなく、学習結果データとしての単語ベクトルを加工、調整、または混合(異なるアルゴリズムによる機械学習で得られた単語ベクトルを混成させる等)して作成した単語ベクトルや、機械学習によらない手法で集計作業等を行って作成した単語ベクトル等としてもよく、あるいは、本発明とは別の目的で作成された単語ベクトルを流用してもよく、その場合には、本発明は、次のような構成となる。
すなわち、本発明は、組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
単語の分散表現としての単語ベクトルを記憶するモデル記憶手段と、
複数の抽出対象の各々について用意された抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
モデル記憶手段に記憶された単語ベクトルを用いて、テーマ入力受付手段により受け付けたテーマの単語と他の単語との間の類似度としてコサイン類似度を算出し、このコサイン類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対するコサイン類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度算出手段と、
この類似度算出手段により決定した各関連単語、および、テーマの単語について、固有テキストデータ記憶手段に記憶された固有テキストデータとの照合を行うことにより、各関連単語および/またはテーマの単語を含む固有テキストデータに関連付けられた抽出対象識別情報を抽出し、テーマの単語についての照合で抽出した抽出対象の集合に対する、各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
類似度算出手段により算出した各関連単語についての類似度と、テキストデータ基準関連度算出手段により算出した各関連単語についてのテキストデータ基準関連度とを用いて、各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
この修正関連度算出手段により決定した各着目単語、および、テーマの単語について、それぞれの単語が、テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて固有テキストデータ記憶手段に記憶された固有テキストデータの中に出現する単語別出現回数を求め、各着目単語についての単語別出現回数に各着目単語についての修正関連度を乗じた値またはこの値に各着目単語の重み係数を乗じた値、並びに、テーマの単語についての単語別出現回数またはこの単語別出現回数にテーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
この抽出対象・テーマ関連度算出手段により算出した抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
を備えたことを特徴とするものである。
また、このような構成(単語間の類似度の算出に使用する単語ベクトルの任意性を考慮した構成)とした場合においても、前述した「複数種類のモデルを用いる構成」や「各モデルの類似度の調和平均または加重調和平均を求め、複数種類のモデルをアンサンブルする構成」を採用することができる。その場合には、モデル記憶手段には、複数種類の学習結果データとしての単語ベクトルの代わりに、異なる手法で作成(加工、調整、または混合を含む。)された複数種類の単語ベクトルを、複数種類のモデルとして記憶させておけばよい。また、その場合に、異なる手法で作成(加工、調整、または混合を含む。)された複数種類の単語ベクトルの中に、学習結果データとしての1種類または複数種類の単語ベクトルが含まれていてもよく、そのようにした場合は、機械学習により得られた単語ベクトルのモデルと、それ以外の単語ベクトルのモデルとの統合(調和平均や加重調和平均の場合は、アンサンブル)となる。
<予め用意された類似度を記憶しておく構成>
また、以上に述べた抽出システムは、モデル記憶手段に記憶された学習結果データ(例えば、機械学習で得られた単語ベクトル等)や、必ずしも機械学習で得られたデータではない単語ベクトルを用いて、類似度算出手段により類似度を算出する構成とされているが、予め用意された類似度を、類似度記憶手段に記憶しておき、類似度取得手段により、この類似度記憶手段から、与えられたテーマの単語と他の単語との間の類似度を取得してもよく、その場合には、モデル記憶手段の代わりに、類似度記憶手段が設けられ、類似度算出手段の代わりに、類似度取得手段が設けられることになるので、本発明は、次のような構成となる。
すなわち、本発明は、組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
テーマの単語として入力され得る全ての単語と、他の単語との関連性を示す類似度を記憶する類似度記憶手段と、
複数の抽出対象の各々について用意された抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
テーマ入力受付手段によりテーマの単語を受け付けた際に、類似度記憶手段に記憶されたテーマの単語と他の単語との間の類似度を取得し、この類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度取得手段と、
この類似度取得手段により決定した各関連単語、および、テーマの単語について、固有テキストデータ記憶手段に記憶された固有テキストデータとの照合を行うことにより、各関連単語および/またはテーマの単語を含む固有テキストデータに関連付けられた抽出対象識別情報を抽出し、テーマの単語についての照合で抽出した抽出対象の集合に対する、各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
類似度取得手段により取得した各関連単語についての類似度と、テキストデータ基準関連度算出手段により算出した各関連単語についてのテキストデータ基準関連度とを用いて、各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
この修正関連度算出手段により決定した各着目単語、および、テーマの単語について、それぞれの単語が、テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて固有テキストデータ記憶手段に記憶された固有テキストデータの中に出現する単語別出現回数を求め、各着目単語についての単語別出現回数に各着目単語についての修正関連度を乗じた値またはこの値に各着目単語の重み係数を乗じた値、並びに、テーマの単語についての単語別出現回数またはこの単語別出現回数にテーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
この抽出対象・テーマ関連度算出手段により算出した抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
を備えたことを特徴とするものである。
ここで、「類似度記憶手段」において「テーマの単語として入力され得る全ての単語と、他の単語との関連性を示す類似度を記憶する」とされているのは、必ずしも全ての単語がテーマの単語として入力できるようになっている必要はなく、一部の単語のみが、テーマの単語として入力できるようになっていてもよい趣旨であり、その場合には、記憶される類似度の数は、テーマの単語として入力され得る単語数×全単語数(または、全単語数−1)となる。また、全ての単語がテーマの単語として入力できるようになっていてもよく、その場合には、記憶される類似度の数は、全単語数(または、全単語数−1)×全単語数(または、全単語数−1)となる。但し、単語αと単語βとの類似度は、単語βと単語αとの類似度と同じであるから、半分の量のデータの記憶でもよい。
また、「類似度記憶手段」に記憶させる「類似度」は、機械学習で得られた学習結果データ(例えば単語ベクトル等)を用いて算出された類似度(例えば、コサイン類似度等)でもよく、機械学習以外の手法により作成(加工、調整、または混合を含む。)された類似度でもよい。さらに、「類似度記憶手段」に記憶させる「類似度」は、各モデルの類似度を、調和平均または加重調和平均によりアンサンブルした類似度や、その他の平均により統合した類似度としてもよい。
<テーマ型ファンドの構成銘柄とする候補銘柄の発行企業を抽出する構成>
また、以上に述べた抽出システムにおいて、
テーマ入力受付手段は、
テーマの単語として、テーマ型ファンドの構成銘柄とする候補銘柄の発行企業を抽出するためのキーワードとなる単語の入力を受け付ける処理を実行する構成とされ、
固有テキストデータ記憶手段に記憶される固有テキストデータには、企業が投資家に向けて発信するインベスター・リレーションズ情報が含まれ、
抽出対象・テーマ関連度算出手段は、
抽出対象・テーマ関連度として、各企業についてのテーマ型ファンドのテーマへの関連度を示す企業・テーマ関連度を算出する処理を実行する構成とされていることが望ましい。
このようにテーマ型ファンドの構成銘柄とする候補銘柄の発行企業を抽出する構成とした場合には、各企業により発信されるインベスター・リレーションズ情報(IR情報)の内容が、各企業の特徴を示しつつ、ある程度、統一された内容となっているので、固有テキストデータとして採用するのに適している。すなわち、IR情報は、フォーマットが定まっているわけではないが、ルール・原則・慣例等に従って記載されているので、いずれの企業も、ある程度、類似する書き方で、類似する内容を記載している。このため、データに偏りが少ないので、抽出対象・テーマ関連度として算出される企業・テーマ関連度は、信頼性の高い指標値となる。
なお、各企業のホームページ情報には、様々な情報が記載されているが、その中にIR情報が含まれている場合がある。この場合には、当該ホームページの中のIR情報の記載部分は、ここでいうIR情報であるものとし、当該ホームページの中のそれ以外の記載部分と区別するものとする。
<プログラムの発明>
また、本発明のプログラムは、以上に述べた抽出システムとして、コンピュータを機能させるためのものである。
なお、上記のプログラムまたはその一部は、例えば、光磁気ディスク(MO)、コンパクトディスク(CD)、デジタル・バーサタイル・ディスク(DVD)、フレキシブルディスク(FD)、磁気テープ、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュディスク等の記録媒体に記録して保存や流通等させることが可能であるとともに、例えば、LAN、MAN、WAN、インターネット、イントラネット、エクストラネット等の有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に載せて搬送することも可能である。さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。
以上に述べたように本発明によれば、出力処理で用いられる抽出対象・テーマ関連度は、各抽出対象の特徴を示す固有テキストデータの内容を反映した値となり、各抽出対象についてのテーマへの関連度を示す適切な指標値を得ることができるので、ユーザは、手間や時間をかけることなく、テーマに関連する抽出対象を抽出することできるか、または、抽出にあたり、ユーザによる最終的な判断作業(確認作業や更なる選定作業を含む)を介在させる場合には、その判断作業を容易に行うことができるため、ユーザの作業負担の軽減、作業効率の向上を図ることができるうえ、抽出対象の見落としの可能性を低減することができ、また、テーマについての専門知識を有していなくてもテーマに関連する適切な抽出対象を抽出することができることから、適正な抽出結果を得ることができるか、または、抽出にあたり、ユーザによる最終的な判断作業を介在させる場合には、その判断作業の適正化を図ることができるという効果がある。
本発明の一実施形態の抽出システムの全体構成図。 前記実施形態のモデル記憶手段の概略構成図。 前記実施形態の抽出システムによる抽出対象(一例として企業)の抽出処理の流れを示すフローチャートの図。 前記実施形態の各モデルのコサイン類似度の算出処理の詳細説明図。 前記実施形態の複数種類のモデルについての類似度Sの調和平均または加重調和平均により各モデルをアンサンブルした類似度Swordを算出する処理の詳細説明図。 前記実施形態のテキストデータ基準関連度Pwordの算出処理の詳細説明図。 前記実施形態の抽出対象・テーマ関連度(一例として企業・テーマ関連度)FSの算出処理の詳細説明図。 前記実施形態の抽出結果表示画面の出力の一例を示す図。 前記実施形態の実験結果(その1)を示す図。 前記実施形態の実験結果(その2)を示す図。
以下に本発明の一実施形態について図面を参照して説明する。図1には、本実施形態の抽出システム10の全体構成が示されている。図2には、モデル記憶手段43の概略構成が示され、図3には、抽出システム10による抽出対象(ここでは、一例として企業)の抽出処理の流れがフローチャートで示されている。また、図4には、各モデルのコサイン類似度Sの算出処理、図5には、複数種類のモデルについての類似度Sの調和平均または加重調和平均により各モデルをアンサンブルした類似度Swordを算出する処理、図6には、テキストデータ基準関連度Pwordの算出処理、図7には、抽出対象・テーマ関連度(ここでは、一例として企業・テーマ関連度)FSの算出処理についての詳細が示されている。さらに、図8には、抽出結果表示画面100の出力の一例が示され、図9および図10には、実験結果が示されている。
<抽出システム10の全体構成>
図1において、抽出システム10は、組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行する抽出サーバ20を備えて構成されている。この抽出サーバ20には、ネットワーク1を介して、ユーザが操作する1台または複数台のユーザ端末50、およびシステム管理者が操作する1台または複数台の管理者端末60が接続されている。
ここで、ネットワーク1は、例えばインターネット等の広域ネットワークでもよく、例えばLANやイントラネット等の限定的な域内ネットワークでもよく、有線であるか、無線であるか、有線・無線の混在型であるかは問わない。
抽出サーバ20は、1台または複数台のコンピュータにより構成され、組織等の抽出対象の抽出またはその支援に関する各種処理を実行する処理手段30と、各種処理に必要なデータを記憶する設定データ記憶手段41、学習データ記憶手段42、モデル記憶手段43、算出類似度記憶手段44、固有テキストデータ記憶手段45、セット記憶手段46、修正関連度記憶手段47、および抽出対象・テーマ関連度記憶手段48とを含んで構成されている。
このうち、処理手段30は、設定手段31と、学習手段32と、テーマ入力受付手段33と、類似度算出手段34と、テキストデータ基準関連度算出手段35と、修正関連度算出手段36と、抽出対象・テーマ関連度算出手段37と、出力手段38とを含んで構成されている。
これらの処理手段30に含まれる各手段31〜38は、抽出サーバ20を構成するコンピュータ本体の内部に設けられた中央演算処理装置(CPU)、およびこのCPUの動作手順を規定する1つまたは複数のプログラム、並びに、主メモリやキャッシュメモリ等の作業用メモリ等により実現される。なお、これらの各手段31〜38の詳細は、後述する。
また、設定データ記憶手段41、学習データ記憶手段42、モデル記憶手段43、および固有テキストデータ記憶手段45は、例えばハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)等により好適に実現されるが、記憶容量やアクセス速度等に問題が生じない範囲であれば、例えば、DVD、CD、MO、磁気テープ等の他の記録媒体を採用してもよい。また、各記憶手段41,42,43,45のデータ保存形式は、データベースでもよく、フラットファイル、テキストファイル、PDFファイル等のファイル形式でもよい。なお、これらの各記憶手段41,42,43,45の詳細は、後述する。
一方、算出類似度記憶手段44、セット記憶手段46、修正関連度記憶手段47、および抽出対象・テーマ関連度記憶手段48は、主メモリやキャッシュメモリ等の作業用メモリにより実現されるが、これらを不揮発性メモリにより構成してもよい。なお、これらの各記憶手段44,46,47,48の詳細は、後述する。
ユーザ端末50および管理者端末60は、コンピュータにより構成され、例えばマウスやキーボード等の入力手段と、例えば液晶ディスプレイ等の表示手段とを備えている。これらのユーザ端末50および管理者端末60は、例えば、スマートフォン、タブレット端末、携帯情報端末(PDA)等の携帯機器でもよい。
<設定手段31の構成>
設定手段31は、システム管理者の操作により管理者端末60からネットワーク1を介して送信されてくる各種の設定データを受信し、設定データ記憶手段41に記憶させる処理を実行するものである。設定データは、例えば、設定ファイル等の形式で保存される。
また、設定手段31は、ユーザの操作によりユーザ端末50からネットワーク1を介して送信されてくる各種の設定データを受信し、設定データ記憶手段41に記憶させる処理も実行する。この場合は、システム管理者により登録された設定データのデフォルト値(初期値)をユーザが変更し、ユーザ毎の設定データが、ユーザ識別情報と関連付けられて設定データ記憶手段41に記憶される。例えば、ユーザ毎の設定ファイル等の形式で保存される。また、ユーザによるデフォルト値の変更ではなく、最初からユーザの意思で指定される設定データを、設定データ記憶手段41に記憶してもよい。なお、ユーザによる設定データ(デフォルト値を変更した値や、最初からユーザの意思で指定した値)は、保存せずに、その都度、入力するものとしてもよく、その場合には、設定データ記憶手段41の一部が、主メモリやキャッシュメモリ等の作業用メモリにより構成されることになる。
具体的には、設定データには、類似度算出手段34により関連単語を決定する際(詳細は後述するが、処理の結果としてN5個(例えば、N5=70)の単語が関連単語として選択決定される。)に用いる各モデルにおける類似度Sの個数N3(例えば、N3=100)、修正関連度算出手段36によりN5個の関連単語の中から選択決定する着目単語の個数N6(例えば、N6=10)、後述する式(1)におけるμ(j)、式(2)におけるσ,τまたはλ、式(3)におけるκ(i)がある。また、出力手段38により出力する抽出対象の指定情報(例えば、上位10位以内を出力する、11位〜20位を出力する、2位および3位のみを出力する等の指定情報)も、設定データである。
なお、これらの設定データは、システムによっては、抽出対象の別(組織・商品・サービス等の別)、ボキャブラリ数、ユーザの性質等に応じ、固定値としてもよい。また、学習に用いる設定パラメータ(例えば、word2vecのハイパーパラメータであるディメンジョンやウィンドウサイズ等)は、本実施形態では、設定データ記憶手段41に記憶させる設定データではなく、モデル記憶手段43に記憶させる設定データであるものとする。
さらに、設定手段31は、システム管理者の操作により管理者端末60からネットワーク1を介して送信されてくる学習用のテキストデータを受信し、学習データ記憶手段42に記憶させる処理も実行する。また、設定手段31は、システム管理者の操作により管理者端末60からネットワーク1を介して送信されてくる固有テキストデータ(IR情報、HP情報等)を受信し、固有テキストデータ記憶手段45に記憶させる処理も実行する。
<学習手段32>
学習手段32は、学習データ記憶手段42に記憶された学習用のテキストデータを用いて、形態素解析、各種のアルゴリズムによる機械学習を行い、得られた学習結果データを、モデル記憶手段43(図2参照)に記憶させる処理を実行するものである。
学習用のテキストデータには、例えば、ニュースのテキストデータや、ウィキペディア等のインターネットから収集したテキストデータ等を用いる。この学習用のテキストデータは、N1個(例えば、N1=18億)の単語を含むデータであり、膨大な量のデータである。この中には、重なりのないユニークな単語が、N2個(例えば、N2=115万)含まれている。なお、学習用のテキストデータの量は、システムによっては、抽出対象の別、入力されるテーマの単語の性質等に応じ、相対的に少ないデータ量としてもよい。
また、本実施形態で利用する学習結果データは、一例として、単語の分散表現としての高次元の単語ベクトルの集合である重み行列Wとする。なお、本発明の抽出処理に利用可能な単語ベクトルは、必ずしも機械学習で得られた学習結果データとしての単語ベクトルである必要はないのは、既に詳述している通りである。
具体的には、図4に示すように、例えばword2vec等による学習で得られた単語ベクトルの集合である重み行列W(行が単語ベクトルになっている。)を利用することができる。本実施形態では、一例として、3種類のディメンジョン(=200,400,800)、および3種類のウィンドウサイズ(=4,8,12)を設定することにより、合計で3×3=9タイプの重み行列W1,W2,…,W9を用意し、9タイプのモデルとしてモデル記憶手段43(図2参照)に記憶させる。これらの9タイプのモデルは、各モデルによるコサイン類似度Sが、後述するように調和平均または加重調和平均によりアンサンブルされるので、統合された1つのモデルであると考えてもよい。ディメンジョン数は、単語ベクトルの次元数であり、例えばword2vec等のニューラルネットワーク(NN)のアルゴリズムで得られた単語ベクトルの場合には、NNの中間層(隠れ層)のノード数と同等である。
この際、word2vec等による学習を行うと、図4に示すように、ボキャブラリ数N2(例えば、N2=115万)×ディメンジョン数の重み行列W(ワード・ベクター・ルックアップ・テーブル等と称される。)と、ディメンジョン数×ボキャブラリ数N2の重み行列W’(アウトプット・レイヤー・ウェイト・マトリックス等と称される。)とが得られるが、本実施形態では、前者の重み行列Wのみを利用するので、モデル記憶手段43(図2参照)には、W,W’のうち、前者の重み行列W(W1,W2,…,W9)だけを記憶してもよい。なお、列が単語ベクトルになっている重み行列W’(W1’,W2’,…,W9’)を利用してもよいが、ここでは、word2vecの既存のモジュールを利用してコサイン類似度Sを得るために、重み行列Wのほうを用いるものとする。
<テーマ入力受付手段33>
テーマ入力受付手段33は、ユーザにより入力されてユーザ端末50からネットワーク1を介して送信されてくるテーマの単語を受け付ける処理を実行するものである。具体的には、ユーザからの要求に応じ、抽出結果表示画面100(図8参照)の表示用データ(Webデータ等)をネットワーク1を介してユーザ端末50へ送信するとともに、この画面100のテーマ単語入力部101に入力されたテーマの単語が、ユーザ端末50から送信されてくるので、そのデータを受信する処理を実行する。この際、入力できるテーマの単語は、全ての単語(ボキャブラリ数N2=例えば115万)としてもよく、システムによっては、一部の単語に制限してもよい。
テーマの単語は、何らかの目的を持って抽出対象を抽出するためのキーワードとなる単語である。抽出対象は、例えば、組織、人物、生き物、物品、商品、サービス、不動産、乗り物、スポーツ、時代、場所、事象等、様々なものがあり、抽出対象に応じて固有テキストデータが用意されることになる。換言すれば、各抽出対象の特徴を示す適切な固有テキストデータが得られない場合には、そのようなもの(物・事象等)は、抽出対象となり得ない。但し、固有テキストデータは、既存のテキストデータを利用するだけではなく、本発明の抽出システム10を構築し、運用するにあたり、積極的に作成してもよく、その際の作成者は、システム管理者でもよく、作成作業を依頼された業者等でもよく、不特定多数の協力者(有償・無償を問わない。)でもよい。従って、様々なもの(物・事象等)を抽出対象とすることができる。
本実施形態では、抽出対象は、一例として、株式や債券等の有価証券を発行する企業(株式等の銘柄と考えてもよい。)であり、特に、テーマ型ファンドの構成銘柄とする候補銘柄の発行企業であるものとする。従って、固有テキストデータは、一例として、各企業のインベスター・リレーションズ情報(以下、「IR情報」と略記することがある。)やホームページ情報(以下、「HP情報」と略記することがある。)であるものとする。また、各企業が出願した特許や実用新案の公開公報や特許公報の記載情報を利用してもよい。
より一般には、本発明における「抽出対象」である「組織」には、企業だけではなく、例えば、官公庁、国、地方公共団体、任意団体、病院、学校等も含まれ、与えられるテーマに関連して抽出される組織、すなわち本システムのユーザにより何らかの目的を持って抽出される組織であればよい。従って、例えば、高校生がテーマの単語(例えば、自分が学びたいことや、自分の興味のあることを端的に示すキーワード)を入力して進学先の大学を抽出する場合における大学は、ここでいう「抽出対象」としての「組織」に該当する。具体的には、例えば、高校生がテーマの単語として「飛行機」を入力すると、航空学科のある大学、航空会社への就職率が高い大学、飛行機同好会のある大学等が抽出される場合における大学が、ここでいう「抽出対象」としての「組織」である。この場合には、固有テキストデータとして、例えば、大学の入試案内、大学のHP情報等の広報情報を採用することができる。
また、「組織」以外の「抽出対象」も同様であり、与えられるテーマに関連して抽出される対象、すなわち本システムのユーザにより何らかの目的を持って抽出される対象であればよい。「抽出対象」としての「人物」は、主としてタレントやスポーツ選手のようなマスメディアへの露出の多い有名人・著名人であるが、その他に、例えば、ある程度、名前が世間に知られている会社の社長、大富豪、犯罪者、芸術家、クリエイタ、建築家、歴史上の過去の人物等も含まれる。例えば、テーマの単語として「骨折」を入力すると、撮影中に骨折した特定のタレントが抽出される場合におけるタレントが、ここでいう「抽出対象」としての「人物」である。この場合には、固有テキストデータとして、例えば、タレント名鑑、選手名鑑、人物名鑑等を採用することができる。
「抽出対象」としての「生き物」は、例えば、自分が展開する事業のキャラクタとして使いたい動物、自分がペットとして飼いたい動物等であり、具体的には、例えば、犬や猫等の動物、鳥、魚、昆虫、爬虫類等である。テーマの単語は、自分が展開する事業に関連する用語、自分の性格を示すキーワード等である。例えば、日中翻訳ソフトウェアの開発で、テーマの単語として「中国語」を入力すると、パンダやタツノオトシゴ等の生き物が抽出される場合における生き物が、ここでいう「抽出対象」としての「生き物」である。この場合には、固有テキストデータとして、例えば、生物百科事典等を採用することができる。
「抽出対象」としての「物品」や「商品」には、固体・液体・気体のいずれの状態のものも含まれ、例えば、自分の事業に役立つ物品、自分が購入したい商品、自分が捨てるべき物品等であり、具体的には、例えば、食品、衣類、嗜好品、ゲーム機、武器、音楽(楽曲)、部品を含む工業製品、プログラム等である。この場合には、固有テキストデータとして、例えば、商品カタログ、製品カタログ等を採用することができる。
「抽出対象」としての「サービス」は、自分の事業に役立つ外部のサービス、自分の事業に取り入れるべきサービス、自分が提供したい、または提供を受けたいサービス等であり、具体的には、例えば、運輸、販売、金融、保険に関するサービス、飲食物の提供、弁護士や税理士等の代理業のサービス、温泉、演劇等が含まれる。この場合には、固有テキストデータとして、例えば、サービス案内、専門誌や雑誌の掲載情報等を採用することができる。
「抽出対象」としての「不動産」には、土地およびその定着物である建物・立木等が含まれる。住みたい家のイメージを示すテーマの単語を入力すると、物件が抽出される等である。この場合には、固有テキストデータとして、例えば、不動産仲介業者の保有する各種資料等を採用することができる。
「抽出対象」としての「乗り物」は、例えば、自分の事業の実施に必要となる乗り物、これから利用すべき乗り物、自分が購入すべき乗り物等であり、具体的には、例えば、船舶、飛行機、電車、自動車、バイク、自転車等が含まれる。例えば、自分が始める事業を示すテーマの単語として「スキューバダイビング」を入力すると、特定の小型ボート、顧客送迎に向いた特定の自動車が抽出される等である。この場合には、固有テキストデータとして、例えば、乗り物の製品カタログ、マニュアル、仕様書等を採用することができる。
「抽出対象」としての「スポーツ」は、例えば、ダイエットやリハビリ等の何らかの目的で自分がやりたいスポーツや、気分転換する、発散する、発声する等の目的を持って観戦したいスポーツ等であり、具体的には、例えば、野球、テニス、サッカー等が含まれる。例えば、テーマの単語として「筋肉」と入力すると、レスリング等が抽出され、「デート」と入力すると、ボーリングやテニス等が抽出され、「スリル」や「大空」や「絶叫」と入力すると、スカイダイビング等が抽出され、「応援」と入力すると、野球やサッカー等が抽出される等である。但し、スポーツの種類は、それ程、多くはないので、「抽出対象」を、より細分化してもよい。つまり、より細分化した状態の各スポーツの特徴を示す固有テキストデータを用意してもよい。この場合には、固有テキストデータとして、例えば、各種スポーツ団体の発行する刊行物、ホームページ等を採用することができる。
「抽出対象」としての「時代」は、例えば、自分の研究テーマとして選択したい時代、ドラマの設定に使用したい時代等であり、具体的には、例えば、平安時代、奈良時代、江戸時代等の歴史上の時代の他に、例えば、ガラケー時代やスマホ時代のような流行に関する時代等も含まれる。この場合には、固有テキストデータとして、例えば、歴史年表の該当部分等を採用することができる。
「抽出対象」としての「場所」は、例えば、旅行先、営業先としての場所(国、地域)等である。例えば、テーマの単語として「サソリ」と入力すると、旅行先としてサハラ砂漠が抽出される等である。この場合には、固有テキストデータとして、例えば、地域の観光案内情報等を採用することができる。
「抽出対象」としての「事象」は、無体物であり、出来事、事柄、現象、事件、ニュース、特許権や商標権等の権利の他に、例えば、病気(病名)等も含まれる。例えば、テーマの単語として「円高」と入力すると、利上げのニュースが抽出される等である。また、特許権や商標権等の権利の抽出では、特許庁データベースを用いた通常のキーワード検索とは異なり、固有テキストデータの内容を反映した状態での案件の抽出となる。
<類似度算出手段34の構成>
類似度算出手段34は、モデル記憶手段43(図2参照)に記憶された学習結果データ(本実施形態では、単語ベクトルの集合からなる重み行列Wとする。)を用いて、テーマ入力受付手段33により受け付けたテーマの単語と他の単語との間の類似度Sを算出し、この類似度Sの大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行するものである。
ここで、本実施形態では、後述するように、調和平均または加重調和平均による各モデルのアンサンブルを行う前に上位N3(例えば、N3=100)位以内の類似度Sを選択している点で、「予め定められた数の上位の単語」に絞っていることになり、また、その後に調和平均または加重調和平均の値がゼロにならない類似度Sを選択している点で、「閾値に対する類似度の大きさで選択した単語」にも該当するので、双方の選択基準を折衷していることになる。閾値がゼロになっている(ゼロであるか否かが判別基準となっている)のは、詳細は後述するが、実際にはゼロではない小さな数値を有する一部の類似度Sをゼロとみなしたからである。
より詳細には、類似度算出手段34は、先ず、図4に示すように、タイプ1〜9の各々のモデルについて、モデル記憶手段43(図2参照)に記憶されている重み行例W(W1〜W9)を用いて、テーマの単語についての単語ベクトルV(k,j)と、他の単語についての単語ベクトルV(i,j)との間のコサイン類似度S(i,j)を算出し、算出類似度記憶手段44に記憶させる。図4に示すように、コサイン類似度S(i,j)は、V(k,j)とV(i,j)との内積を、V(k,j)の大きさとV(i,j)の大きさとの積で除した値である。このコサイン類似度S(i,j)の算出処理は、例えばword2vecのモジュール等のように、既存のツールの機能を利用して実行してもよい。
ここで、kは、テーマの単語の番号である。iは、各単語の番号であり、i=1,2,3,…,k−1,k+1,…,N2−2,N2−1,N2をとり、N2は、ボキャブラリ数(例えば、N2=115万)である。kが抜けているのは、N2個の単語のうち、テーマの単語を除くという意味であり、テーマの単語と、それ以外の全ての単語との間で、コサイン類似度S(i,j)を算出するという意味である。jは、モデルのタイプの番号であり、j=1,2,3,…,Mをとり、本実施形態では、一例として、モデルの数M=9である。
従って、図4に示すように、例えば、タイプ1のモデルについては、重み行例W1を用いて、テーマの単語についての単語ベクトルV(k,1)と、他の単語についての単語ベクトルV(i,1)との間のコサイン類似度S(i,1)を算出する。同様に、タイプ9のモデルについては、重み行例W9を用いて、テーマの単語についての単語ベクトルV(k,9)と、他の単語についての単語ベクトルV(i,9)との間のコサイン類似度S(i,9)を算出する。タイプ2〜8のモデルも同様である。
それから、類似度算出手段34は、タイプ1〜9の各々のモデルについて、算出して算出類似度記憶手段44に記憶しているコサイン類似度S(i,j)の中から、大きさが上位N3(例えば、N3=100)位以内のコサイン類似度S(i,j)を選択する。ここで、i=1,2,3,…,k−1,k+1,…,N2−2,N2−1,N2であり、j=1,2,3,…,9である。番号iの数は、N2個(例えば115万個)の単語から、番号kのテーマの単語を1つを除くので、(N2−1)個である。
例えば、タイプ1のモデルについては、(N2−1)個(例えば、(115万−1)個)のコサイン類似度S(i,1)(i=1,2,3,…,k−1,k+1,…,N2−2,N2−1,N2)の中から、上位N3位以内(例えば、100位以内)のコサイン類似度S(i,1)を選択する。その結果、図5に示すように、S(10,1),S(13,1),S(27,1),S(35,1),…,S(876,1)が選択されたとする。
同様に、タイプ2のモデルについては、(N2−1)個(例えば、(115万−1)個)のコサイン類似度S(i,1)(i=1,2,3,…,k−1,k+1,…,N2−2,N2−1,N2)の中から、上位N3位以内(例えば100位以内)のコサイン類似度S(i,2)を選択する。その結果、図5に示すように、S(10,2),S(13,2),S(29,2),S(35,2),…,S(876,2)が選択されたとする。
さらに、タイプ9のモデルについては、(N2−1)個(例えば、(115万−1)個)のコサイン類似度S(i,9)(i=1,2,3,…,k−1,k+1,…,N2−2,N2−1,N2)の中から、上位N3位以内(例えば100位以内)のコサイン類似度S(i,9)を選択する。その結果、図5に示すように、S(10,9),S(13,9),S(27,9),S(29,9),S(35,9),…,S(876,9)が選択されたとする。
そして、タイプ1〜9の各モデルで選択された上位N3位以内(例えば100位以内)のS(i,j)の単語の番号iは、通常、一致していないので、9タイプ全体で考えた場合には、各モデルで選択した単語が一致していない場合のずれ分の単語を含め、少なくとも1つのモデルで選択された単語の数は、N3(例えば100)個よりも大きくなる。この数を、N4(例えば150)とする。図5の例では、N4個(例えば150個)の単語の番号は、i=10,13,27,29,35,…,876である。
また、N3個(例えば100個)の単語の番号がずれて選択されることにより、全体でN4個(例えば150個)の単語の番号が選択されているので、タイプ1〜9のモデルの各々についてみれば、(N4−N3)個(例えば、150−100=50個)の単語の番号に対応するコサイン類似度S(i,j)が選択されていないため、存在しない状態である。このように、対応するコサイン類似度S(i,j)が存在しない番号の単語については、コサイン類似度S(i,j)=0とみなすものとする。すなわち、実際には、それらのコサイン類似度S(i,j)の値は存在するが、上位N3位以内(例えば100位以内)に入らないような小さな数値であるため、0とみなすことになる。
例えば、図5の例では、タイプ1のモデルについては、N4個(例えば150個)の単語の番号i=10,13,27,29,35,…,876のうち、番号i=29のS(29,1)が存在しないので、S(29,1)=0とみなす。同様に、タイプ2のモデルについては、N4個(例えば150個)の単語の番号i=10,13,27,29,35,…,876のうち、番号i=27のS(27,2)が存在しないので、S(27,2)=0とみなす。
その後、類似度算出手段34は、タイプ1〜9の各々のモデルについて、次の式(1)により、N4個(例えば150個)の番号i=10,13,27,29,35,…,876の単語毎に、算出類似度記憶手段44に記憶しているコサイン類似度S(i,j)の調和平均または加重調和平均(重み付き調和平均)を求めることにより、9つのタイプのモデルをアンサンブルした類似度Sword(i)を算出する。
Figure 0006596565
ここで、iは、選択されたN4個(例えば150個)の単語の番号であり、図5の例では、i=10,13,27,29,35,…,876となる。なお、番号を詰めて、i=1,2,3,…,N4−1,N4としてもよい。jは、タイプの番号で、j=1,2,3,…,Mであり、Mは、タイプの数で、ここでは、M=9である。
μ(j)は、タイプjのモデルの重みであり、設定データとして、設定データ記憶手段41に記憶されている。全てのモデルのμ(j)を、μ(j)=1とすると、式(1)は、調和平均を求める式となる。加重調和平均とする場合には、例えば、μ(1)だけ、μ(1)=2とし、残りをμ(2),…,μ(9)=1とすれば、タイプ1のモデルの重み行列W1と全く同じ重み行列が合計で2つある状態と考えることができるので、9個のモデルの加重調和平均は、合計で10個のモデルの調和平均をとっていることに相当する。但し、μ(j)は、各モデルの相対的な重みを定めることができればよいので、自然数である必要はない。加重調和平均は、例えば、ディメンジョンやウィンドウサイズについて、強調したいモデルがある場合に、そこに相対的に大きな重みを付けたり、word2vecのCBOWのモデルとSkip−gramのモデルとの混成とする場合に、CBOWとSkip−gramとで重みを変える場合等に利用することができる。
この式(1)は、任意の番号iの単語について、タイプ1〜9の各モデルのコサイン類似度S(i,1),S(i,2),…,S(i,9)のうちのいずれかの値(少なくとも1つの値)がゼロになった場合には、Sword(i)=0となる。図5の例では、タイプ2のモデルについての番号i=27のS(27,2)=0であるから、番号i=27のSword(27)=0となる。同様に、タイプ1のモデルについての番号i=29のS(29,1)=0であるから、番号i=29のSword(29)=0となる。
続いて、類似度算出手段34は、アンサンブルした類似度Sword(i)の値がゼロにならなかった単語を選択し、それらを関連単語として決定し、関連単語およびその関連単語についての類似度(similarity)の値であるSword(i)を、算出類似度記憶手段44に記憶させる。なお、番号iは、詰めてi=1,2,3,…として記憶してもよい。図5の例では、Sword(27),Sword(29)は、ゼロであるから、関連単語として選択されない。従って、結局、複数種類のモデルをアンサンブルしたSword(i)の値がゼロになることなく、関連単語として選択される単語は、タイプ1〜9の各モデルで選択された上位N3位以内(例えば100位以内)のS(i,j)の番号iのうち、全てのモデルで選択された番号、すなわち全てのモデルで重なっている番号の単語である。この結果、関連単語として決定した単語の個数がN5個(例えば70個)になったとする。このN5の値は、当然にN3(例えば100)以下の値となり、N5=N3となるのは、タイプ1〜9の全てのモデルについて上位N3位以内(例えば100位以内)のS(i,j)の単語の組合せが一致している場合(順位まで一致している必要はない。)のみである。
上記のように、関連単語として決定した単語の個数N5は、当然にN3(例えば100)以下の値となるが、N3は、設定データとして設定データ記憶手段41に記憶されている。また、関連単語を絞り込んで決定することになる着目単語の個数N6(例えば10)も、設定データとして設定データ記憶手段41に記憶されている。従って、決定した関連単語の個数N5が、N6以下(例えば10以下)になるか、またはN6を下回って(例えば10未満になって)しまった場合に、ユーザに対し、その旨を報知する処理(警告や確認のための画面表示や音声等による出力処理)を行うようにしてもよい。この場合には、ユーザは、N3のデフォルト値(例えば100)を、より大きな値(例えば500)に変更してもよく、または既にデフォルト値を変更して自分専用の設定値を入力している場合には、その設定値を再度変更してもよい。N3の変更後の設定値は、自分専用の設定データとして、例えば設定ファイル等の保存形式で設定データ記憶手段41に保存してもよく、保存せずに、その場限りの設定値としてもよい。N3を変更した場合には、その変更後のN3を用いて類似度算出手段34による処理を繰り返す。但し、コサイン類似度S(i,j)を算出する処理を繰り返す必要はなく、算出して算出類似度記憶手段44に記憶しているコサイン類似度S(i,j)の中から上位N3位以内の値を選択する処理から、繰り返せばよい。また、ユーザは、上記の報知を無視して処理を進めてもよく、その場合には、既に関連単語の個数N5(例えば、N5=4)が、着目単語の個数N6のデフォルト値(例えば10)以下または未満になっているので、N5個(例えば4個)の関連単語について、テキストデータ基準関連度算出手段35によるテキストデータ基準関連度Pword(i)の算出処理や、修正関連度算出手段36による修正関連度SPword(i)の算出処理は、そのまま実行し、その後、関連単語の個数N5(例えば、N5=4)を、着目単語の個数N6とするための置換処理(N6を、デフォルト値から、N5と同じ値に自動的に置き換える処理)を行って、抽出対象・テーマ関連度算出手段37による抽出対象・テーマ関連度FSの算出処理へ進めばよい。
<テキストデータ基準関連度算出手段35の構成>
テキストデータ基準関連度算出手段35は、類似度算出手段34により決定したN5個(例えば70個)の各関連単語、および、テーマの単語について、固有テキストデータ記憶手段45に記憶された固有テキストデータ(本実施形態では、一例として、企業のIR情報やHP情報)との照合を行うことにより、各関連単語および/またはテーマの単語を含む固有テキストデータを抽出し、その固有テキストデータに関連付けられた抽出対象識別情報(本実施形態では、一例として、企業識別情報である銘柄識別情報)を抽出してセット記憶手段46(図6参照)に記憶させ、さらに、テーマの単語についての照合で抽出した抽出対象(本実施形態では、企業)の集合(マスターセット)に対する、各関連単語についての照合で抽出した抽出対象(本実施形態では、企業)の集合(テストセット)の適合率(precision)を算出し、算出した各適合率を、各関連単語についてのテキストデータ基準関連度Pwordとしてセット記憶手段46に記憶させる処理を実行するものである。
より詳細には、テキストデータ基準関連度算出手段35は、先ず、算出類似度記憶手段44に記憶しているN5個(例えば70個)の各関連単語、テーマの単語のうちのいずれかが、固有テキストデータ記憶手段45に記憶された各抽出対象(ここでは各企業)の固有テキストデータの中に含まれているか否かを判断し、いずれかの単語が含まれている場合には、その単語(各関連単語、またはテーマの単語)と関連付けて、その単語が含まれていた固有テキストデータに関連付けられた抽出対象識別情報(ここでは企業識別情報である銘柄識別情報)を、セット記憶手段46(図6参照)に記憶させる。この際、ある1つの企業の固有テキストデータの中に、各関連単語およびテーマの単語の双方が含まれていた場合には、それぞれの単語と関連付けて、それらの単語が含まれていた固有テキストデータに関連付けられた抽出対象識別情報(ここでは企業識別情報である銘柄識別情報)を、セット記憶手段46(図6参照)に記憶させる。
図6の例では、テーマの単語である「AI」が、A社、B社、C社、D社、E社、F社、H社、L社、M社、P社の固有テキストデータの中に含まれていたので、これらの企業についての企業識別情報(銘柄識別情報)を、マスターセットとして「AI」と関連付けてセット記憶手段46(図6参照)に記憶させる。なお、テーマの単語の番号は、0としている。
また、関連単語である「自然言語処理」が、E社、F社、G社、H社、L社の固有テキストデータの中に含まれていたので、これらの企業についての企業識別情報(銘柄識別情報)を、テストセットとして「自然言語処理」と関連付けてセット記憶手段46(図6参照)に記憶させる。なお、関連単語である「自然言語処理」の番号は、詰めて1としている。
さらに、関連単語である「機械学習」が、H社、L社、M社、P社、Q社、R社の固有テキストデータの中に含まれていたので、これらの企業についての企業識別情報(銘柄識別情報)を、テストセットとして「機械学習」と関連付けてセット記憶手段46(図6参照)に記憶させる。なお、関連単語である「機械学習」の番号は、詰めて2としている。
図6では、例えば、次のようなことがわかる。C社の固有テキストデータには、「AI」が含まれている。G社の固有テキストデータには、「自然言語処理」は含まれているが、「AI」は含まれていない。H社の固有テキストデータには、「AI」が含まれているとともに、「自然言語処理」および「機械学習」も含まれている。
続いて、テキストデータ基準関連度算出手段35は、セット記憶手段46(図6参照)に記憶させたマスターセットおよび各テストセットを用いて、マスターセットに対する各テストセットの適合率を算出し、算出した各適合率を、各関連単語についてのテキストデータ基準関連度Pword(i)としてセット記憶手段46(図6参照)に記憶させる。ここで、i=1,2,3,…,N5であり、N5(例えば70)は、関連単語の個数である。従って、ここでは、番号iは、詰めている。
図6の例では、関連単語である「自然言語処理」は、E社、F社、G社、H社、L社の合計5社の固有テキストデータに含まれ、これらの5社の固有テキストデータのうち、テーマの単語である[AI]を含んでいるのは、E社、F社、H社、L社の合計4社の固有テキストデータであるから、マスターセットに対する「自然言語処理」用のテストセットの適合率は、4/5=0.8000となるので、この値を、関連単語である「自然言語処理」についてのテキストデータ基準関連度Pword(1)とし、「自然言語処理」と関連付けてセット記憶手段46(図6参照)に記憶させる。
また、関連単語である「機械学習」は、H社、L社、M社、P社、Q社、R社の合計6社の固有テキストデータに含まれ、これらの6社の固有テキストデータのうち、テーマの単語である[AI]を含んでいるのは、H社、L社、M社、P社の合計4社の固有テキストデータであるから、マスターセットに対する「機械学習」用のテストセットの適合率は、4/6=0.6667となるので、この値を、関連単語である「機械学習」についてのテキストデータ基準関連度Pword(2)とし、「機械学習」と関連付けてセット記憶手段46(図6参照)に記憶させる。
<修正関連度算出手段36の構成>
修正関連度算出手段36は、次の式(2)により、類似度算出手段34により算出して算出類似度記憶手段44に記憶されている各関連単語についての類似度Sword(i)と、テキストデータ基準関連度算出手段35により算出してセット記憶手段46(図6参照)に記憶されている各関連単語についてのテキストデータ基準関連度Pword(i)との調和平均または加重調和平均(重み付き調和平均)を求めることにより、各関連単語についての修正関連度SPword(i)を算出し、この修正関連度SPword(i)の大きさで順位付けした各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度SPword(i)の大きさで選択した単語を、着目単語として決定し、決定した各着目単語およびそれらの着目単語の修正関連度SPword(i)を修正関連度記憶手段47に記憶させる処理を実行するものである。
Figure 0006596565
ここで、iは、関連単語として決定された単語の番号であり、i=1,2,3,…,N5をとり、N5(例えば70)は、関連単語の個数である。従って、ここでは、番号iは、詰めている。
σは、類似度Sword(i)の重みであり、τは、テキストデータ基準関連度Pword(i)の重みであり、いずれも設定データとして、設定データ記憶手段41に記憶されている。また、σ=τ=1とすると、式(2)は、調和平均を求める式となる。加重調和平均とする場合には、Sword(i)とPword(i)との2つの対象データしかないので、重みσ,τは、1つにまとめてλ(=τ/σ)としてもよい。また、λを、τ/σではなく、σ/τとしても同じことである。σ,τまたはλは、Sword(i)とPword(i)との相対的な重みを定めることができればよいので、自然数である必要はない。加重調和平均は、例えば、固有テキストデータとの照合の影響を強調したいときに、Pword(i)側(すなわちτ側)に相対的に大きな重みを付ける場合等に利用することができる。
上述したように、修正関連度算出手段36は、関連単語から着目単語への絞り込みを行う際の選択基準として、「予め定められた数の上位の単語」または「閾値に対する修正関連度SPword(i)の大きさで選択した単語」を採用することができるが、本実施形態では、前者の選択基準を採用し、修正関連度SPword(i)の値が、上位N6個(例えば10個)の関連単語を、着目単語として選択決定する。
この際、選択決定の判断処理の閾値となる個数N6は、設定データとして設定データ記憶手段41に記憶されている。ユーザが、このN6をデフォルト値(例えば10)から自分専用の設定値に変更することができるようにしてもよい。また、自分専用の設定値に変更した後に、再度その設定値を変更することができるようにしてもよい。変更後のN6の設定値は、関連単語の個数N5(例えば70)よりも小さな値とする必要があるが、デフォルト値(例えば10)よりも小さくする(例えば8等とする)か、大きくする(例えば12等とする)かは、ユーザの自由である。また、N6の変更後の設定値は、自分専用の設定データとして、例えば設定ファイル等の保存形式で設定データ記憶手段41に保存してもよく、保存せずに、その場限りの設定値としてもよい。N6を変更した場合には、その変更後のN6を用いて、抽出対象・テーマ関連度算出手段37による抽出対象・テーマ関連度FSの算出処理を行うことになる。従って、ユーザは、出力手段38による出力処理の結果(図8参照)を参照してから、N6を変更してもよい。
<抽出対象・テーマ関連度算出手段37の構成>
抽出対象・テーマ関連度算出手段37は、修正関連度算出手段36により決定した各着目単語、および、テーマの単語について、それぞれの単語が、テキストデータ基準関連度算出手段35により抽出した各抽出対象識別情報(セット記憶手段46(図6参照)に記憶されている各抽出対象識別情報)と関連付けられて固有テキストデータ記憶手段45に記憶された固有テキストデータの中に出現する単語別出現回数COUNTword(i)を求め、次の式(3)により、各着目単語についての単語別出現回数COUNTword(i)に各着目単語についての修正関連度SPword(i)を乗じた値またはこの値に各着目単語の重み係数κ(i)を乗じた値、並びに、テーマの単語についての単語別出現回数COUNTword(0)またはこの単語別出現回数COUNTword(0)にテーマの単語の重み係数κ(0)を乗じた値を合計することにより、各抽出対象(本実施形態では、一例として、各企業)についてのテーマへの関連度を示す抽出対象・テーマ関連度FSを算出し、算出した抽出対象・テーマ関連度FSを、抽出対象識別情報(企業識別情報である銘柄識別情報)と関連付けて抽出対象・テーマ関連度記憶手段48に記憶させる処理を実行するものである。
Figure 0006596565
ここで、iは、単語の番号であり、i=0,1,2,3,…,N6をとり、番号i=0は、テーマの単語の番号であり、番号i=1〜N6は、着目単語として決定された単語の番号であり、N6(例えば10)は、着目単語の個数である。従って、ここでは、番号iは、詰めている。テーマの単語(i=0)についての修正関連度は、SPword(0)=1とする。
κ(i)は、各単語(テーマの単語、各着目単語)の重み係数であり、いずれも設定データとして、設定データ記憶手段41に記憶されている。原則的には、全ての単語(i=0,1,…,N6)の重み係数について、κ(i)=1としてよい。単語別出現回数COUNTword(i)には、重みとして修正関連度SPword(i)が乗じられているからである。従って、修正関連度SPword(i)による重み付けについて、更なる重み付けをする場合等に、1以外の値であるκ(i)を利用することができる。例えば、1番大きいSPword(i)または1番大きいCOUNTword(i)には、κ(i)=3を乗じ、2番目に大きいSPword(i)または2番目に大きいCOUNTword(i)には、κ(i)=2を乗じる等のような更なる重み付けを行うことができる。また、テーマの単語(i=0)と、各着目単語(i=1〜N6)との相対的な重み付けに、κ(i)を利用してもよく、その場合には、κ(0)と、その他のκ(i)(i=1〜N6)とを別の値に設定すればよい。この際、テーマの単語(i=0)についての修正関連度は、SPword(0)=1とし、さらに重み係数κ(0)を乗じているので、κ(0)×SPword(0)を1つの重み係数と考えてもよく、あるいは、κ(0)を使用せずに、SPword(0)自体を、1とするのではなく、重み係数と考えてもよい。なお、式(3)により求まる抽出対象・テーマ関連度FSの値は、抽出対象(ここでは企業)を順位付けするための相対的な評価用の数値であるから、κ(i)(i=0,1,…,N6)は、相対的な重み付けをすることができる数値であればよいので、どのようなレベルの値でもよく(例えば、0〜1の範囲でも、0〜100の範囲でも、どのような範囲をとる数値でもよいという意味である。)、整数である必要もない。
より詳細には、抽出対象・テーマ関連度算出手段37は、先ず、セット記憶手段46(図6参照)に記憶されている各抽出対象(ここでは、各企業)の固有テキストデータが1つまたは複数の文章により構成されていることから、文章単位で、テーマの単語や各着目単語が、固有テキストデータに含まれているか否かを判断する。すなわち、各企業の固有テキストデータは、IR情報やHP情報等により構成され、IR情報も、1つの文章(例えば1つの文章ファイル)ではなく、複数の文章により構成されることがあり、HP情報も、1つの文章(例えば1つの文章ファイル)ではなく、複数の文章により構成されることがあるので、文章毎に、テーマの単語が含まれるか否か、および、複数の着目単語の各々が含まれるか否かを判断する。
図7の例では、H社の固有テキストデータについて、テーマの単語(「AI」)や各着目単語(「自然言語処理」、「機械学習」等)が含まれているか否かを判断している。図6に示すように、H社の固有テキストデータには、「AI」、「自然言語処理」、「機械学習」の全てが含まれている。これを、文章単位で見ると、図7に示すように、文章1には、「自然言語処理」および「AI」が含まれ、文章2には、「AI」が含まれ、文章3には、「機械学習」が含まれ、文章4には、「機械学習」および「AI」が含まれている等の状態であるため、このような状態の各文章1,2,3,4,…において、「AI」、「自然言語処理」、「機械学習」等の単語のそれぞれが出現する回数を求め、その回数を単語毎に累積して単語別出現回数COUNTword(i)(i=0,1,…,N6)を求める。例えば、テーマの単語「AI」(i=0)が、文章1で4回出現し、文章2で3回出現し、文章4で2回出現したとすると、COUNTword(0)=4+3+2+…というカウント処理が行われる。着目単語である「自然言語処理」や「機械学習」等についても同様である。そして、図7の例では、H社の固有テキストデータについて、カウント処理を行っているので、このようなカウント処理を、セット記憶手段46(図6参照)に記憶されている全ての抽出対象(ここでは企業)について行う。
続いて、抽出対象・テーマ関連度算出手段37は、修正関連度記憶手段47に記憶されている各着目単語についての修正関連度SPword(i)(i=1〜N6)を取得し、取得した修正関連度SPword(i)と、テーマの単語(i=0)についてのSPword(0)=1と、カウントして得られた単語別出現回数COUNTword(i)(i=0,1,…,N6)と、設定データ記憶手段41に記憶されている重み係数κ(i)(i=0,1,…,N6)とを用いて、式(3)により、各抽出対象(ここでは各企業)についての抽出対象・テーマ関連度FS(ここでは、企業・テーマ関連度FS、または組織・テーマ関連度FSである。)を算出する。
図7の例では、H社についての企業・テーマ関連度FSを算出する処理を行っているので、この算出処理を、セット記憶手段46(図6参照)に記憶されている全ての抽出対象(ここでは企業)について行う。
<出力手段38の構成>
出力手段38は、抽出対象・テーマ関連度算出手段37により算出した抽出対象・テーマ関連度FS(ここでは、企業・テーマ関連度FS)を用いて、抽出した抽出対象(ここでは企業、またはそれに相当する銘柄)を、各種の出力形式で出力する処理を実行するものである。出力は、主として、ユーザ端末50に向けたネットワーク1を介した出力用のデータの送信により実行され、ユーザ端末50を操作するユーザへの情報提供となるが、管理者端末60や、連携する他のシステム(不図示)に対しても、出力用のデータを送信する構成とされていてもよい。
ここで、出力形式としては、画面表示、印刷、音声出力、ファイル出力、データ送信、これらの組合せ等がある。また、立体映像による出力(ホログラフィ出力を含む)でもよく、暗号化したデータの出力でもよく、画面表示や印刷の場合は、テキスト、グラフ、表、またはそれらを複合させた画面表示や印刷のいずれでもよい。データ送信の場合には、ユーザ端末50や管理者端末60へのデータ送信のみならず、連携する他のシステム(不図示)へのデータ送信であってもよい。出力手段38は、これらの各種の出力形式をユーザが選択可能な構成としてもよく、特定の出力形式でのみ出力する構成(例えば、画面表示だけを行う構成等)としてもよい。
また、ユーザに対し、抽出した抽出対象(ここでは企業、またはそれに相当する銘柄)を出力する際には、様々な表現(出力情報の提示状態)での出力を採用することができ、要するに、何らかの形で抽出対象・テーマ関連度FS(ここでは、企業・テーマ関連度FS)を用いた表現が行われていれば、ユーザに役立つ情報の出力となる。
例えば、抽出対象・テーマ関連度FSの大きさで定まる順位に従って、抽出対象(ここでは企業)を並べて表示してもよい。降順でも、昇順でもよい。この際、ユーザは、FSの値自体を知ることができてもよく、知ることができなくてもよい。
また、抽出対象・テーマ関連度FSの大きさで定まる順位に従って、FSの値およびその値に対応する抽出対象(ここでは企業)を並べて表示してもよい。降順でも、昇順でもよい。
さらに、抽出対象・テーマ関連度FSの大きさで定まる順位に従った並び順とすることなく、FSの値およびその値に対応する抽出対象(ここでは企業)の組合せを出力してもよい。この場合、FSの大きさでソートしていない状態であるため、ユーザは、ソートしている場合に比べ、FSの順位の確認はしづらい面があるものの、リストを参照することで、FSの大小を把握することができる。また、出力される抽出対象(ここでは企業)の個数が少ない場合には、ソートしない出力状態でも容易にFSの大小を把握することができる。
そして、予め定められた数の上位の抽出対象(ここでは企業)を選択して出力してもよい。例えば、抽出対象・テーマ関連度FSの値が上位20位以内の抽出対象(ここでは企業)を選択して出力してもよい。この際、ユーザは、FSの値自体を知ることができてもよく、知ることができなくてもよい。
また、抽出対象・テーマ関連度FSの値が、ユーザにより指定された特定の順位の抽出対象(ここでは企業)を選択して出力してもよい。この際、ユーザは、FSの値自体を知ることができてもよく、知ることができなくてもよい。例えば、ユーザにより上位20位以内と指定された場合に、上位20位以内の抽出対象を選択して出力してもよい。同様に、上位11位〜20位と指定された場合や、上位2位および3位と指定された場合等に、対応する抽出対象を選択して出力してもよい。例えば、前回は、上位10位以内を抽出したので、今回は、上位11位〜20位を抽出する場合等に対応することができる。また、例えば、他社や他人と異なる抽出対象(商品等)を抽出したい場合や、あえて2番手、3番手を狙いたい場合等のように、何らかの事情で、特殊な指定をする場合等にも対応することができる。
また、以上に述べた状態で出力される情報に加え、抽出対象(ここでは企業)についての固有テキストデータの少なくとも一部を出力してもよい。さらに、抽出対象についてのFSを式(3)により算出する際に用いたテーマの単語や各着目単語、それらの単語についての単語別出現回数COUNTword(i)、修正関連度SPword(i)を併せて出力してもよい。
具体的には、出力手段38は、例えば、図8に示すような抽出結果表示画面100を出力する。この抽出結果表示画面100には、テーマ単語入力部101と、抽出対象・テーマ関連度FSの大きさの順位に従って抽出対象(ここでは企業)を並べて表示する抽出対象表示部110と、この抽出対象表示部110でユーザにより選択された抽出対象について式(3)によりFSを求める際に用いたテーマの単語や各着目単語に関する情報を表示する着目単語表示部120とが設けられている。
抽出対象表示部110には、抽出対象・テーマ関連度FS(ここでは、企業・テーマ関連度FS)を表示する「関連度」表示部111と、抽出対象識別情報である企業識別情報として機能する銘柄識別情報を表示する「銘柄コード」表示部112と、抽出対象の名称(ここでは、企業名)を表示する「銘柄名」表示部113とが設けられている。
着目単語表示部120には、テーマの単語および各着目単語を表示する「Word」表示部121と、テーマの単語および各着目単語についての修正関連度SPword(i)を表示する「関連度」表示部122と、テーマの単語や各着目単語が含まれている固有テキストデータの格納ファイルの名称を表示する「file」表示部123と、固有テキストデータを構成する文章の内容および単語別出現回数COUNTword(i)の内訳を表示する「Sentence」表示部124とが設けられている。
図8の例では、「Sentence」表示部124には、IR情報については、内容および件数(単語別出現回数COUNTword(i)の内訳)が表示され、HP情報については、内容は表示されず、件数(単語別出現回数COUNTword(i)の内訳)だけが表示されるようになっている。但し、図8は、表示の一例であり、例えば、HP情報についても内容を表示するようにしてもよく、また、固有テキストデータの中に含まれているテーマの単語や各着目単語を、色付け等により強調表示してもよい。
また、図8の例では、銘柄コードを銘柄識別情報(抽出対象識別情報)としているが、銘柄名を銘柄識別情報として使用してもよく、あるいは銘柄コードおよび銘柄名の組合せを、銘柄識別情報として使用してもよい。海外(例えば米国やカナダ等)の銘柄の場合は、ティッカーシンボル(ティッカーコード)を銘柄識別情報として使用してもよい。より一般には、抽出対象識別情報には、抽出対象を示すコード(名称の略記号も含む)を用いてもよく、抽出対象の名称を用いてもよく、それらの組合せを用いてもよい。なお、抽出対象を出力(画面表示等)することには、抽出対象の名称を出力すること、抽出対象を示すコード(名称の略記号も含む)を出力すること、抽出対象のロゴ(企業ロゴ等)やキャラクタを出力すること、それらの組合せを出力すること等が含まれ、データ処理上のキーとなる抽出対象識別情報と、それに対応する情報(例えば、キーとなる抽出対象識別情報をコードとする場合における名称やロゴ等)とは、テーブル(図示されない抽出対象マスタ記憶手段)に関連付けて記憶しておけばよい。
<各記憶手段41〜48の構成>
設定データ記憶手段41は、各種の設定データを記憶するものである。設定データとしては、例えば、類似度算出手段34により関連単語を決定する際(処理の結果としてN5個(例えば、N5=70)の単語が関連単語として選択決定される。)に用いる各モデルにおける類似度Sの個数N3(例えば、N3=100)、修正関連度算出手段36によりN5個の関連単語の中から選択決定する着目単語の個数N6(例えば、N6=10)、式(1)におけるμ(j)、式(2)におけるσ,τまたはλ、式(3)におけるκ(i)、出力手段38により出力する抽出対象の指定情報(例えば、上位10位以内を出力する、11位〜20位を出力する、2位および3位のみを出力する等の指定情報)がある。
学習データ記憶手段42は、学習手段32による機械学習で用いる学習用のテキストデータを記憶するものである。学習用のテキストデータは、例えば、ニュースのテキストデータや、ウィキペディア等のインターネットから収集したテキストデータ等である。
モデル記憶手段43は、図2に示すように、学習結果データであるタイプ1〜9の各モデルの重み行列W(W1,W2,…,W9)や、それらの重み行列W(Wは、単語ベクトルの集合)を作成した際の設定パラメータ(例えば、word2vecのハイパーパラメータであるディメンジョンやウィンドウサイズ等)を記憶するものである。
算出類似度記憶手段44は、類似度算出手段34により算出したタイプ1〜9の各モデルについてのコサイン類似度S(i,j)、式(1)により算出した類似度Sword(i)を記憶するものである。
固有テキストデータ記憶手段45は、各抽出対象(ここでは、各企業)の特徴を示す固有テキストデータを、抽出対象識別情報(ここでは、企業識別情報)と関連付けて記憶するものである。固有テキストデータとしては、例えば、IR情報やHP情報等がある。
セット記憶手段46は、図6に示すように、マスタセットおよびテストセット、すなわち、テキストデータ基準関連度算出手段35により抽出した抽出対象識別情報(ここでは、企業識別情報である銘柄識別情報)を、テーマの単語や各関連単語およびそれらの単語の番号と関連付けて記憶するとともに、テキストデータ基準関連度算出手段35により算出したテキストデータ基準関連度Pword(i)を、各関連単語およびそれらの単語の番号と関連付けて記憶するものである。
修正関連度記憶手段47は、修正関連度算出手段36により決定した各着目単語およびそれらの着目単語の修正関連度SPword(i)を記憶するものである。
抽出対象・テーマ関連度記憶手段48は、抽出対象・テーマ関連度算出手段37により算出した抽出対象・テーマ関連度FS(ここでは、企業・テーマ関連度FS)を、抽出対象識別情報(ここでは、企業識別情報である銘柄識別情報)と関連付けて記憶するものである。
<抽出システム10による抽出処理、または抽出作業の支援処理の流れ>
このような本実施形態においては、以下のようにして抽出システム10により、抽出対象(ここでは企業)の抽出処理、または抽出作業の支援処理が行われる。
図3において、システム運用開始前の事前処理として、システム管理者は、管理者端末60を操作し、抽出対象(ここでは企業)に固有の情報である固有テキストデータとして収集したIR情報、HP情報等の登録処理を行う。この登録処理は、設定手段31により実行され、各抽出対象(ここでは各企業)の固有テキストデータが、抽出対象識別情報(ここでは企業識別情報)と関連付けられて固有テキストデータ記憶手段45に記憶される(ステップS1)。
続いて、システム管理者は、管理者端末60を操作し、学習用のテキストデータの登録処理を行う。この登録処理は、設定手段31により実行され、学習用のテキストデータが、学習データ記憶手段42に記憶される(ステップS2)。そして、学習手段32により、word2vec等のアルゴリズムによる学習処理が行われ、得られた学習結果データとしての重み行例W(W1,W2,…,W9)、すなわち単語ベクトルの集合が、モデル記憶手段43(図2参照)に記憶される(ステップS2)。この学習処理については、学習手段32の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。
それから、システム管理者は、管理者端末60を操作し、設定データ(例えば、N3=100、N6=10、式(1)におけるμ(j)、式(2)におけるσ,τまたはλ、式(3)におけるκ(i)等)を入力する。この入力は、設定手段31により受け付けられ、入力された設定データは、設定データ記憶手段41に記憶される(ステップS3)。
その後、システムの運用が開始されると、ユーザは、ユーザ端末50を操作し、図8の抽出結果表示画面100のテーマ単語入力部101に、テーマの単語を入力する(ステップS4)。この入力は、テーマ入力受付手段33により受け付けられる。
それから、類似度算出手段34により、タイプ1〜9の各モデルについて、テーマの単語と他の単語との間のコサイン類似度S(i,j)を算出し(図4参照)、算出類似度記憶手段44に記憶させるとともに、各モデルについて、コサイン類似度S(i,j)が上位N3位以内(例えば100位以内)の単語を選択する(ステップS5)。この処理については、類似度算出手段34の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。
続いて、類似度算出手段34により、タイプ1〜9の各モデルのうちの少なくとも1つのモデルで選択されたN4個の単語(例えば、N4=150)の全てについて、対応する単語が選択されていないモデルの当該単語のコサイン類似度S(i,j)を0とみなすとともに、式(1)により、タイプ1〜9の全てのモデルのコサイン類似度S(i,j)の調和平均または加重調和平均を求めることにより、タイプ1〜9の全てのモデルをアンサンブルした類似度Sword(i)を算出し、算出した類似度Sword(i)がゼロにならなかった単語を、関連単語として決定し(図5参照)、決定したN5個(例えば、N5=70)の各関連単語についての類似度Sword(i)を、算出類似度記憶手段44に記憶させる(ステップS6)。この処理については、類似度算出手段34の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。
その後、テキストデータ基準関連度算出手段35により、N5個(例えば70個)の各関連単語およびテーマの単語について、固有テキストデータとの照合を行うことにより、それらの単語の少なくとも1つを含む固有テキストデータに関連付けられた抽出対象識別情報(ここでは企業識別情報である銘柄識別情報)を抽出し、セット記憶手段46(図6参照)に記憶させる(ステップS7)。この処理については、テキストデータ基準関連度算出手段35の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。
それから、テキストデータ基準関連度算出手段35により、テーマの単語についての照合で抽出した抽出対象(ここでは企業)の集合(マスターセット)に対する、N5個(例えば70個)の関連単語についての照合で抽出した抽出対象(ここでは企業)の集合(テストセット)の適合率を算出し、これらの適合率を、テキストデータ基準関連度Pword(i)とし、セット記憶手段46(図6参照)に記憶させる(ステップS8)。この処理については、テキストデータ基準関連度算出手段35の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。
続いて、修正関連度算出手段36により、式(2)を用いて、タイプ1〜9の各モデルをアンサンブルした類似度Sword(i)と、テキストデータ基準関連度Pword(i)との調和平均または加重調和平均を求めることにより、N5個(例えば70個)の関連単語についての修正関連度SPword(i)を算出する。そして、算出した修正関連度SPword(i)が上位N6以内(例えば10位以内)の単語を、着目単語として決定し、決定したN6個(例えば10個)の各着目単語およびそれらの着目単語の修正関連度SPword(i)を、修正関連度記憶手段47に記憶させる(ステップS9)。この処理については、修正関連度算出手段36の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。
さらに、抽出対象・テーマ関連度算出手段37により、N6個(例えば10個)の各着目単語およびテーマの単語について、それぞれが固有テキストデータに出現する単語別出現回数COUNTword(i)を求めた後、式(3)により、単語別出現回数COUNTword(i)に修正関連度SPword(i)および重み係数κ(i)を乗じ、各単語についてのそれらの値を合計することにより、抽出対象・テーマ関連度FS(ここでは、企業・テーマ関連度FS)を算出し、抽出対象・テーマ関連度記憶手段48に記憶させる(ステップS10)。この処理については、抽出対象・テーマ関連度算出手段37の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。
その後、出力手段38により、抽出対象・テーマ関連度記憶手段48に記憶されている抽出対象・テーマ関連度FS(ここでは、企業・テーマ関連度FS)を用いて、抽出した抽出対象(ここでは、企業)についての画面表示・印刷・音声出力・ファイル出力・データ送信等による出力処理を実行する(ステップS11)。この出力処理については、出力手段38の構成の説明で既に詳述しているため、ここでは詳しい説明を省略する。
<本実施形態の効果>
このような本実施形態によれば、次のような効果がある。すなわち、抽出システム10では、テーマの単語と他の単語との間の類似度Sword(i)を用いて、テーマに関連する関連単語を決定した後、各関連単語の類似度Sword(i)と、各抽出対象の特徴を示す固有テキストデータとの照合により得られた適合率であるテキストデータ基準関連度Pword(i)との調和平均または加重調和平均により、各関連単語の修正関連度SPword(i)を算出し、この修正関連度SPword(i)の大小で着目単語を決定し、固有テキストデータにおける各着目単語やテーマ単語についての単語別出現回数COUNTword(i)を求め、これらを用いて各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度FS(本実施形態では、一例として、企業・テーマ関連度FS)を算出することができる。このため、算出される抽出対象・テーマ関連度FSは、各抽出対象(各企業)の特徴を示す固有テキストデータの内容を反映した値となり、各抽出対象(各企業)についてのテーマへの関連度を示す適切な指標値を得ることができる。
従って、ユーザは、手間や時間をかけることなく、テーマに関連する抽出対象(ここでは、株式等の発行企業、または銘柄)を抽出することができる。そして、例えば、テーマ型ファンドの構成銘柄とする候補銘柄を抽出する場合には、抽出した各候補銘柄について、テーマへの関連度を示す企業・テーマ関連度FSを得ることができるので、ファンドマネージャによるその後の選定作業を容易に行うことができる。このため、ユーザ(例えば、ファンドマネージャ)の作業負担の軽減、作業効率の向上を図ることができる。
また、抽出システム10による抽出対象(本実施形態では、企業)の自動抽出、あるいは各抽出対象(各企業)についてのテーマへの関連度を示す適切な指標値の提供により、抽出すべき抽出対象(企業)を見落としてしまう可能性を低減することができる。このため、適正な抽出結果を得ることができる。そして、例えば、テーマ型ファンドの構成銘柄とする候補銘柄を抽出する場合には、ユーザによる最終的な判断作業として、ファンドマネージャによるその後の選定作業があるので、その選定作業の適正化を図ることができる。
さらに、抽出システム10では、ユーザは、テーマについての専門知識を有していなくても、テーマに関連する適切な抽出対象を抽出することができるので、この点でも、適正な抽出結果を得ることができる。そして、例えば、テーマ型ファンドの構成銘柄とする候補銘柄を抽出する場合には、ファンドマネージャによるその後の選定作業の適正化を図ることができる。
また、抽出システム10では、単語間の関連性を示す類似度S(i,j)として、単語の分散表現としての単語ベクトルのコサイン類似度S(i,j)を採用しているので、既存の多くのアルゴリズム(例えば、word2vecのCBOWやSkip−gram、GloVe、ELMo、LINE等)を適用することができ、また、既存の多くのツールを利用することもできる。さらに、単語の分散表現としての単語ベクトルを用いるアルゴリズムは、今後も様々なものが開発されると予想されるため、それらを適用することもできる。
さらに、抽出システム10では、類似度算出手段34は、モデル記憶手段43(図2参照)に記憶された複数のタイプ1〜9のモデルの重み行列W(W1,W2,…,W9)を用いて、タイプ1〜9のモデルの各々について、コサイン類似度S(i,j)を算出し、式(1)により調和平均または加重調和平均を求め、複数(9つ)のモデルをアンサンブルした類似度Sword(i)を算出し、このSword(i)を用いて、関連単語を決定する構成とされているので、各モデル間のコサイン類似度S(i,j)のばらつきを吸収し、より適切な単語を、関連単語として決定することができるとともに、いずれかのモデルのコサイン類似度S(i,j)がゼロになると、調和平均または加重調和平均もゼロになるという性質を利用して、関連単語の決定処理を容易に行うことができる。
また、抽出システム10は、各企業の固有テキストデータとして、インベスター・リレーションズ情報(IR情報)を用いるので、例えば、テーマ型ファンドの構成銘柄とする候補銘柄の発行企業を抽出する場合には、テーマに沿った適切な企業(銘柄)を、候補銘柄として抽出することができる。すなわち、各企業により発信されるIR情報の内容は、各企業の特徴を示しつつ、ある程度、統一された内容となっているので、固有テキストデータとして採用するのに適している。より詳細に述べれば、IR情報は、フォーマットが定まっているわけではないが、ルール・原則・慣例等に従って記載されているので、いずれの企業も、ある程度、類似する書き方で、類似する内容を記載している。このため、データに偏りが少ないので、抽出システム10で算出される抽出対象・テーマ関連度FS(企業・テーマ関連度FS)は、より信頼性の高い指標値となることから、テーマに沿った適切な企業(銘柄)を、候補銘柄として抽出することができる。
<実験>
本発明の効果を確かめるために、次のような実験を行った。学習用のテキストデータとして、N1=1,809,736,365の単語を含むファイルを用意した。このうち、重なりのないユニークな単語は、N2=1,147,973個(ボキャブラリ数)となった。word2vecによる学習では、図2に示した通りのディメンジョン、ウィンドウサイズによる合計9つのタイプのモデルを用意した。固有テキストデータは、各企業のIR情報およびHP情報とした。テーマの単語として「健康」を入力した。
図9には、実験結果として、各関連単語について、各モデルをアンサンブルした類似度Sword(i)、テキストデータ基準関連度Pword(i)、修正関連度SPword(i)の各値が示されている。図9中の左側部分に示された上位10位以内のSPword(i)の単語は、関連単語のうち着目単語として選択された単語(N6=10とした場合)であり、図9中の右側部分に示された上位11位〜20位のSPword(i)の単語は、関連単語のうち着目単語として選択されなかった単語である。
修正関連度SPword(i)の大きさが10位の単語「生活習慣」と、14位の単語「予防」とを比較してみると(但し、番号iは、詰めて説明する。)、「予防」の類似度Sword(14)は、「生活習慣」の類似度Sword(10)よりも大きい。しかし、「予防」の修正関連度SPword(14)は、「生活習慣」の修正関連度SPword(10)よりも明らかに小さい(関連度が低い)ので、「予防」は、着目単語として選択されなかった。これは、「予防」のテキストデータ基準関連度Pword(14)が、「生活習慣」のテキストデータ基準関連度Pword(10)よりも小さい(低い)からである。この逆転の原因は、「予防」が様々な分野で出現する一般的な単語だからであると思われる。これにより、式(2)により算出した修正関連度SPword(i)の順位による着目単語の選択処理が、適切であることが示された。すなわち、テキストデータ基準関連度Pword(i)の値を、着目単語の選択に反映させることの妥当性が示された。
図10には、実験結果として、調和平均により複数種類のモデルをアンサンブルした場合と、調和平均をとることなく単一のモデルを用いた場合との比較結果が示されている。図10中の左側部分には、式(1)により調和平均を求めて合計9つのモデルをアンサンブルしたコサイン類似度Sword(i)が示されている。図10中の右側部分には、タイプ2のモデル(ディメンジョン=200、ウィンドウサイズ=8)のコサイン類似度S(i,2)が示されている。
単一モデル(タイプ2のモデル)による図10中の右側部分には、11位に「増進」があるが、複数種類のモデルをアンサンブルした図10中の左側部分には、「増進」はないので、「増進」は、関連単語として選択されていない。これは、タイプ1〜9の各々のモデルについて、上位100位以内のS(i,j)(j=1〜9)を選択し(N3=100とした場合)、式(1)により調和平均を求める際に、タイプ2のモデルについての「増進」のコサイン類似度S(i,2)は、上位100位以内に入っているが、タイプ2以外のタイプ1,3〜9のいずれかのモデルについての「増進」のコサイン類似度S(i,j)(j=1,3〜9のいずれか)が、上位100位以内に入らなかったことを意味する。これにより、式(1)により複数種類のモデルをアンサンブルする処理が、適切であることが示された。
[変形の形態]
なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。
例えば、前記実施形態では、抽出システム10は、抽出サーバ20と、ユーザ端末50や管理者端末60とをネットワーク1で接続するサーバ・クライアント型のシステムとされていたが、本発明の抽出システムは、これに限定されるものではなく、スタンドアロンのシステムとしてもよい。
また、前記実施形態では、式(1)により複数種類のモデルをアンサンブルした類似度Sword(i)を算出し、この類似度Sword(i)を用いて、関連単語を決定していたが、本発明は、これに限定されるものではなく、単一のモデルの類似度により、関連単語を決定してもよい。この場合、単一のモデルの類似度が上位N3位以内(例えば、N3=100)となる単語が、そのまま関連単語として決定されることになるので、関連単語の個数N5は、設定データであるN3と一致することになる。従って、前記実施形態のように、設定データである上位N3個(例えば100個)に対し、処理の結果次第で、選択決定される関連単語の個数N5が、例えば70個になったり、40個になったりという具合に、変化することはない。
なお、複数種類のモデルを用いる構成とする場合に、式(1)によらずに、統合後の類似度Sword(i)を算出してもよく、その場合の統合後の類似度については、既に詳述しているので、ここでは詳しい説明を省略する。
さらに、前記実施形態では、コサイン類似度S(i,j)の算出に用いる単語ベクトルは、学習処理で得られた学習結果データであったが、本発明で利用する単語ベクトルは、学習処理で得られた学習結果データに限定されるものではなく、例えば、学習結果データとしての単語ベクトルを加工、調整、または混合(異なるアルゴリズムによる機械学習で得られた単語ベクトルを混成させる等)して作成した単語ベクトルや、機械学習によらない手法で集計作業等を行って作成した単語ベクトル等としてもよい。
そして、前記実施形態では、類似度としてコサイン類似度を採用していたが、本発明で利用する類似度は、コサイン類似度に限定されるものではなく、要するに、単語間の関連性を示す類似度であればよい。
また、前記実施形態の抽出システム10は、類似度算出手段34により類似度を算出する構成とされていたが、本発明の抽出システムは、予め用意された類似度を、類似度記憶手段X(不図示)に記憶しておき、類似度取得手段Y(不図示)により、この類似度記憶手段Xから、与えられたテーマの単語と他の単語との間の類似度を取得する構成としてもよい。このような構成とする場合には、モデル記憶手段43の代わりに、類似度記憶手段Xを設け、類似度算出手段34の代わりに、類似度取得手段Yを設ければよい。また、この場合、前記実施形態のようにテーマの単語が与えられてから類似度算出手段34により類似度を算出するのではなく、処理に使用する類似度を予め用意しておくため、どのようなテーマの単語が入力されても(但し、入力することができるテーマの単語に制限を設けてもよい。)、入力されたテーマの単語と他の単語との間の類似度が予め用意されて類似度記憶手段Xに記憶されている状態とする必要がある。
さらに、前記実施形態の修正関連度算出手段36は、式(2)に示すように、各関連単語の類似度Sword(i)と、各抽出対象の特徴を示す固有テキストデータとの照合により得られた適合率であるテキストデータ基準関連度Pword(i)との調和平均または加重調和平均を求めることにより、各関連単語の修正関連度SPword(i)を算出する構成とされていたが、本発明の修正関連度算出手段は、これに限定されるものではなく、例えば、単純平均や加重平均、相乗平均、二乗平均平方根(RMS)、またはその他の平均を求める構成等でもよいが、率の平均をとるという観点では、前記実施形態のような調和平均または加重調和平均を求める構成とすることが好ましい。なお、類似度Sword(i)と、テキストデータ基準関連度Pword(i)とを用いて、修正関連度SPword(i)を算出すればよいので、平均を求める処理以外の処理としてもよい。
そして、前記実施形態の式(2)では、テキストデータ基準関連度Pword(i)の項の数は、1つとされていたが、複数としてもよく、複数とする場合については、既に詳述しているので、ここでは詳しい説明を省略する。なお、複数のテキストデータ基準関連度Pword(i)に重みを付ける場合には、それぞれ異なる重みとしてもよく、従って、Sword(i)の重みと、複数のPword(i)のそれぞれの重みを設定するようにしてもよい。
以上のように、本発明の抽出システムおよびプログラムは、例えば、テーマ型ファンドの構成銘柄とする候補銘柄を抽出し、または候補銘柄の選定作業を支援する場合等に用いるのに適している。
10 抽出システム
33 テーマ入力受付手段
34 類似度算出手段
35 テキストデータ基準関連度算出手段
36 修正関連度算出手段
37 抽出対象・テーマ関連度算出手段
38 出力手段
43 モデル記憶手段
45 固有テキストデータ記憶手段

Claims (9)

  1. 組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
    テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
    学習用のテキストデータを用いて単語間の関連性を学習する学習処理で得られた学習結果データを記憶するモデル記憶手段と、
    複数の前記抽出対象の各々について用意された前記抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
    前記モデル記憶手段に記憶された前記学習結果データを用いて、前記テーマ入力受付手段により受け付けた前記テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度算出手段と、
    この類似度算出手段により決定した各関連単語、および、前記テーマの単語について、前記固有テキストデータ記憶手段に記憶された前記固有テキストデータとの照合を行うことにより、前記各関連単語および/または前記テーマの単語を含む前記固有テキストデータに関連付けられた抽出対象識別情報を抽出し、前記テーマの単語についての照合で抽出した抽出対象の集合に対する、前記各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、前記各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
    前記類似度算出手段により算出した前記各関連単語についての前記類似度と、前記テキストデータ基準関連度算出手段により算出した前記各関連単語についてのテキストデータ基準関連度とを用いて、前記各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした前記各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
    この修正関連度算出手段により決定した各着目単語、および、前記テーマの単語について、それぞれの単語が、前記テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて前記固有テキストデータ記憶手段に記憶された前記固有テキストデータの中に出現する単語別出現回数を求め、前記各着目単語についての単語別出現回数に前記各着目単語についての前記修正関連度を乗じた値またはこの値に前記各着目単語の重み係数を乗じた値、並びに、前記テーマの単語についての単語別出現回数またはこの単語別出現回数に前記テーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
    この抽出対象・テーマ関連度算出手段により算出した前記抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って前記抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく前記抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての前記固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
    を備えたことを特徴とする抽出システム。
  2. 前記修正関連度算出手段は、
    前記類似度算出手段により算出した前記各関連単語についての前記類似度と、前記テキストデータ基準関連度算出手段により算出した前記各関連単語についてのテキストデータ基準関連度との調和平均または加重調和平均を求めることにより、前記各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした前記各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する構成とされている
    ことを特徴とする請求項1に記載の抽出システム。
  3. 前記モデル記憶手段は、
    前記学習結果データとして、単語の分散表現としての単語ベクトルを記憶する構成とされ、
    前記類似度算出手段は、
    前記モデル記憶手段に記憶された前記単語ベクトルを用いて、前記類似度として、前記テーマの単語と他の単語との間のコサイン類似度を算出する処理を実行する構成とされている
    ことを特徴とする請求項1または2に記載の抽出システム。
  4. 前記モデル記憶手段は、
    異なる設定パラメータを用いて同じアルゴリズムで得られた複数種類の学習結果データ、異なるアルゴリズムで得られた複数種類の学習結果データ、またはこれらの学習結果データを混在させた複数種類の学習結果データを、複数種類のモデルとして記憶する構成とされ、
    前記類似度算出手段は、
    前記モデル記憶手段に記憶された複数種類の学習結果データを用いて、複数種類のモデルの各々について、前記テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした他の単語のうち、予め定められた数の上位の単語を各モデルで選択し、各モデルで選択した単語の中から前記関連単語を決定するとともに、各モデルで選択した単語の類似度を用いて、前記関連単語の類似度を算出する処理を実行する構成とされている
    ことを特徴とする請求項1〜3のいずれかに記載の抽出システム。
  5. 前記モデル記憶手段は、
    異なる設定パラメータを用いて同じアルゴリズムで得られた複数種類の学習結果データ、異なるアルゴリズムで得られた複数種類の学習結果データ、またはこれらの学習結果データを混在させた複数種類の学習結果データを、複数種類のモデルとして記憶する構成とされ、
    前記類似度算出手段は、
    前記モデル記憶手段に記憶された複数種類の学習結果データを用いて、複数種類のモデルの各々について、前記テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした他の単語のうち、予め定められた数の上位の単語を各モデルで選択し、各モデルで選択した単語が一致していない場合のずれ分の単語を含め、少なくとも1つのモデルで選択された単語の全てについて、対応する単語が選択されていないモデルの当該単語の類似度をゼロとみなすとともに、単語毎に、算出した全てのモデルの類似度の調和平均または加重調和平均を求めることにより、複数種類のモデルをアンサンブルした類似度を算出し、このアンサンブルした類似度の大きさがゼロにならない単語を、前記関連単語として決定する処理を実行する構成とされている
    ことを特徴とする請求項4に記載の抽出システム。
  6. 組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
    テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
    単語の分散表現としての単語ベクトルを記憶するモデル記憶手段と、
    複数の前記抽出対象の各々について用意された前記抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
    前記モデル記憶手段に記憶された前記単語ベクトルを用いて、前記テーマ入力受付手段により受け付けた前記テーマの単語と他の単語との間の類似度としてコサイン類似度を算出し、このコサイン類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対するコサイン類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度算出手段と、
    この類似度算出手段により決定した各関連単語、および、前記テーマの単語について、前記固有テキストデータ記憶手段に記憶された前記固有テキストデータとの照合を行うことにより、前記各関連単語および/または前記テーマの単語を含む前記固有テキストデータに関連付けられた抽出対象識別情報を抽出し、前記テーマの単語についての照合で抽出した抽出対象の集合に対する、前記各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、前記各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
    前記類似度算出手段により算出した前記各関連単語についての前記類似度と、前記テキストデータ基準関連度算出手段により算出した前記各関連単語についてのテキストデータ基準関連度とを用いて、前記各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした前記各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
    この修正関連度算出手段により決定した各着目単語、および、前記テーマの単語について、それぞれの単語が、前記テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて前記固有テキストデータ記憶手段に記憶された前記固有テキストデータの中に出現する単語別出現回数を求め、前記各着目単語についての単語別出現回数に前記各着目単語についての前記修正関連度を乗じた値またはこの値に前記各着目単語の重み係数を乗じた値、並びに、前記テーマの単語についての単語別出現回数またはこの単語別出現回数に前記テーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
    この抽出対象・テーマ関連度算出手段により算出した前記抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って前記抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく前記抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての前記固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
    を備えたことを特徴とする抽出システム。
  7. 組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
    テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
    前記テーマの単語として入力され得る全ての単語と、他の単語との関連性を示す類似度を記憶する類似度記憶手段と、
    複数の前記抽出対象の各々について用意された前記抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
    前記テーマ入力受付手段により前記テーマの単語を受け付けた際に、前記類似度記憶手段に記憶された前記テーマの単語と他の単語との間の類似度を取得し、この類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度取得手段と、
    この類似度取得手段により決定した各関連単語、および、前記テーマの単語について、前記固有テキストデータ記憶手段に記憶された前記固有テキストデータとの照合を行うことにより、前記各関連単語および/または前記テーマの単語を含む前記固有テキストデータに関連付けられた抽出対象識別情報を抽出し、前記テーマの単語についての照合で抽出した抽出対象の集合に対する、前記各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、前記各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
    前記類似度取得手段により取得した前記各関連単語についての前記類似度と、前記テキストデータ基準関連度算出手段により算出した前記各関連単語についてのテキストデータ基準関連度とを用いて、前記各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした前記各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
    この修正関連度算出手段により決定した各着目単語、および、前記テーマの単語について、それぞれの単語が、前記テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて前記固有テキストデータ記憶手段に記憶された前記固有テキストデータの中に出現する単語別出現回数を求め、前記各着目単語についての単語別出現回数に前記各着目単語についての前記修正関連度を乗じた値またはこの値に前記各着目単語の重み係数を乗じた値、並びに、前記テーマの単語についての単語別出現回数またはこの単語別出現回数に前記テーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
    この抽出対象・テーマ関連度算出手段により算出した前記抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って前記抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく前記抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての前記固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
    を備えたことを特徴とする抽出システム。
  8. 前記テーマ入力受付手段は、
    前記テーマの単語として、テーマ型ファンドの構成銘柄とする候補銘柄の発行企業を抽出するためのキーワードとなる単語の入力を受け付ける処理を実行する構成とされ、
    前記固有テキストデータ記憶手段に記憶される前記固有テキストデータには、企業が投資家に向けて発信するインベスター・リレーションズ情報が含まれ、
    前記抽出対象・テーマ関連度算出手段は、
    前記抽出対象・テーマ関連度として、各企業についてのテーマ型ファンドのテーマへの関連度を示す企業・テーマ関連度を算出する処理を実行する構成とされている
    ことを特徴とする請求項1〜7のいずれかに記載の抽出システム。
  9. 請求項1〜8のいずれかに記載の抽出システムとして、コンピュータを機能させるためのプログラム。
JP2018244861A 2018-12-27 2018-12-27 抽出システムおよびプログラム Active JP6596565B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018244861A JP6596565B1 (ja) 2018-12-27 2018-12-27 抽出システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018244861A JP6596565B1 (ja) 2018-12-27 2018-12-27 抽出システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP6596565B1 true JP6596565B1 (ja) 2019-10-23
JP2020107051A JP2020107051A (ja) 2020-07-09

Family

ID=68314211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018244861A Active JP6596565B1 (ja) 2018-12-27 2018-12-27 抽出システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP6596565B1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941961A (zh) * 2019-11-29 2020-03-31 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
WO2021144861A1 (ja) * 2020-01-14 2021-07-22 日本電信電話株式会社 情報処理装置、情報処理方法、および、情報処理プログラム
JP2021196657A (ja) * 2020-06-09 2021-12-27 株式会社プレイド 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102559006B1 (ko) * 2020-11-06 2023-07-25 윤경 태몽과 관련된 이미지를 획득하는 방법 및 디바이스

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941961A (zh) * 2019-11-29 2020-03-31 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN110941961B (zh) * 2019-11-29 2023-08-25 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
WO2021144861A1 (ja) * 2020-01-14 2021-07-22 日本電信電話株式会社 情報処理装置、情報処理方法、および、情報処理プログラム
JP2021196657A (ja) * 2020-06-09 2021-12-27 株式会社プレイド 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2020107051A (ja) 2020-07-09

Similar Documents

Publication Publication Date Title
JP6596565B1 (ja) 抽出システムおよびプログラム
Lucy et al. Content analysis of textbooks via natural language processing: Findings on gender, race, and ethnicity in Texas US history textbooks
US10387776B2 (en) Recurrent neural network architectures which provide text describing images
English Mapping the sports journalism field: Bourdieu and broadsheet newsrooms
Wu et al. Harvesting social knowledge from folksonomies
US20110191336A1 (en) Contextual image search
US20140280179A1 (en) System and Apparatus for Information Retrieval
WO2022094379A1 (en) Systems and methods for the automatic classification of documents
Hamdy et al. Automatic Recommendation of Software Design Patterns: Text Retrieval Approach.
Thomas Ideology and elective affinity
Zhang A method of recommending physical education network course resources based on collaborative filtering technology
Dawes et al. The mathematical structure of Alexander’s A Pattern Language: An analysis of the role of invariant patterns
Tomasula et al. Our tools make us (and our literature) post
Guadarrama et al. Understanding object descriptions in robotics by open-vocabulary object retrieval and detection
Burnham Class, capital and crisis: A return to fundamentals
Bhanuse et al. Optimal e-learning course recommendation with sentiment analysis using hybrid similarity framework
CN110909021A (zh) 查询改写模型的构建方法、装置及其应用
CN112084376A (zh) 基于图谱知识的推荐方法、推荐***及电子装置
Milosevic et al. Classification of intangible social innovation concepts
Kara et al. Job Recommendation Based on Extracted Skill Embeddings
Saad et al. Practical aspects of zero-shot learning
US20210141816A1 (en) Methods for determining a comparative valuation for an asset
Beysolow II et al. Topic modeling and word embeddings
Alepidou et al. A semantic tag recommendation framework for collaborative tagging systems
Bouhoun et al. Information Retrieval Using Domain Adapted Language Models: Application to Resume Documents for HR Recruitment Assistance

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190123

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190930

R150 Certificate of patent or registration of utility model

Ref document number: 6596565

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250