以下、図面を参照して、実施形態について説明する。
図1は、本実施形態に係る注目対象予測装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、注目対象予測装置30を構成する。
この注目対象予測装置30は、例えば証券市場等における複数の対象の中から注目すべき対象を予測する機能を有する。なお、この場合における対象としては例えば企業等が含まれる。
図2は、図1に示す注目対象予測装置30の主として機能構成を示すブロック図である。図2に示すように、注目対象予測装置30は、データ収集部31、対象表現評価部32、対象数値変化率評価部33、時系列予測モデル生成部34、対象注目度算出部35および対象ランキング表示部36を含む。本実施形態において、これらの各部31〜36は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
また、注目対象予測装置30は、対象表現格納部22を含む。本実施形態において、対象表現格納部22は、例えば図1に示す外部記憶装置20に格納される。
対象表現格納部22には、上記した対象毎に、当該対象に関連する文字列(以下、対象表現と表記)が格納される。この対象表現には、当該対象(企業)の名称、略称、愛称および当該企業が保有するブランド名等が含まれる。
データ収集部31は、予め定められた期間(以下、学習データ収集期間と表記)内における文字列を含むテキスト情報を収集し、当該テキスト情報を時系列順に含む時系列テキストデータを取得する。なお、データ収集部31によって収集されるテキスト情報には、例えばWebサイト等から発信されるニュースのヘッドライン等が含まれる。
また、データ収集部31は、対象毎に、上記した学習データ収集期間内における当該対象に関する数値を含む数値情報を収集し、当該数値情報を時系列順に含む時系列数値データを取得する。データ収集部31によって収集される数値情報には、対象(企業)の株価等が含まれる。なお、データ収集部31は、数値情報を例えばWebサイト等から収集する。
更に、データ収集部31は、上記した学習データ収集期間後から現在までの期間(以下、予測データ収集期間と表記)内における文字列を含むテキスト情報を収集する。
対象表現評価部32は、対象毎に対象表現格納部22に格納されている対象表現(当該対象に関連する文字列)およびデータ収集部31によって取得された時系列テキストデータに含まれる時系列順のテキスト情報に基づいて、当該対象毎に時系列順の評価値を算出する。
また、対象表現評価部32は、対象毎に対象表現格納部22に格納されている対象表現およびデータ収集部31によって上記した予測データ収集期間内に収集されたテキスト情報に基づいて、当該対象毎に評価値を算出する。
対象数値変化率評価部33は、対象毎にデータ収集部31によって取得された時系列数値データに含まれる時系列順における前後の数値情報に含まれる数値に基づいて、当該対象毎に当該時系列順の変化率を算出する。
時系列予測モデル生成部34は、対象毎に対象表現評価部32によって算出された時系列順の評価値および当該対象毎に対象数値変化率評価部33によって算出された時系列順の変化率に基づいて、後述する時系列予測モデルを生成する。時系列予測モデル生成部34によって生成された時系列予測モデルは、対象毎の注目度を算出する際に用いられる。なお、時系列予測モデル生成部34によって生成された時系列予測モデルは、例えば当該時系列予測モデル生成部34内部に格納される。
対象注目度算出部35は、対象毎の注目度を算出する。対象注目度算出部35は、対象毎に対象表現評価部32によって算出された時系列順の評価値、対象毎に対象数値変化率評価部33によって算出された時系列順の変化率および対象毎に対象表現評価部32によって算出された評価値を用いて、当該対象毎の注目度を算出する。具体的には、対象注目度算出部35は、時系列予測モデル生成部34内部に格納された時系列予測モデル(時系列予測モデル生成部34によって生成された時系列予測モデル)、対象毎に対象表現評価部32によって算出された評価値および複数の予め定められたパラメータを用いて、対象毎の注目度を算出する。
対象ランキング表示部36は、対象注目度算出部35によって算出された対象毎の注目度を提示する。具体的には、対象ランキング表示部36は、複数の対象を対象注目度算出部35によって算出された注目度順に並び替え、当該複数の対象をランキング形式で表示する。
図3は、図2に示す対象表現格納部22のデータ構造の一例を示す。図3に示すように、対象表現格納部22には、対象と当該対象に関連する文字列(対象表現)とが対応づけて格納されている。ここでは、対象として「A社」、「B社」、「C社」および「D社」が存在するものとする。
図3に示す例では、対象表現格納部22には、対象「A社」と対象表現「A社」、「X1ブランド」および「X2ブランド」とが対応づけて格納されている。これによれば、対象「A社」に関連する文字列が「A社」、「X1ブランド」および「X2ブランド」であることが示されている。
また、対象表現格納部22には、対象「B社」と対象表現「B社」、「B1社」および「Yブランド」とが対応づけて格納されている。これによれば、対象「B社」に関連する文字列が「B社」、「B1社」および「Yブランド」であることが示されている。
また、対象表現格納部22には、対象「C社」と対象表現「C社」および「Zブランド」とが対応づけて格納されている。これによれば、対象「C社」に関連する文字列が「C社」および「Zブランド」であることが示されている。
また、対象表現格納部22には、対象「D社」と対象表現「D社」および「D1社」とが対応づけて格納されている。これによれば、対象「D社」に関連する文字列が「D社」および「D1社」であることが示されている。
次に、図4のフローチャートを参照して、本実施形態に係る注目対象予測装置30の処理手順について説明する。
まず、注目対象予測装置30の初期化が実行される(ステップS1)。ここでは、データ収集部31は、テキスト情報(ニュースのヘッドライン)を収集する例えばWebサイトの設定、数値情報(対象の株価)を収集する例えばWebサイトの設定、当該収集の単位時間(データ収集単位時間)および当該収集の最大回数(データ収集最大回数)の設定を行う。
なお、これらの設定項目の値は、予めファイル等に記載しておいてもよいし、利用者によってインタフェースを通じて入力(設定)されても構わない。
データ収集部31は、利用者の操作に応じてモードを設定する(ステップS2)。このとき、利用者は、例えば学習モード、予測モードおよび終了モードのいずれか1つを選択することができる。学習モードは、テキスト情報および数値情報を収集し、上記した時系列予測モデルを生成するためのモードである。予測モードは、複数の対象の中から注目すべき対象を予測し、当該注目すべき対象を提示するためのモードである。また、終了モードは、注目対象予測装置30の動作(処理)を終了するためのモードである。
ステップS2においては、例えば利用者からのモードの選択を一定時間待ち、当該一定時間が経過しても当該利用者によってモードが選択されない場合には、学習モードが自動的に設定されてもよい。
なお、後述するようにデータ収集部31によって設定されたモードに応じて注目対象予測装置30の動作は異なる。
次に、データ収集部31は、学習モードが設定されたか否かを判定する(ステップS3)。学習モードが設定されたと判定された場合(ステップS3のYES)、後述する時系列予測モデル更新処理が実行される(ステップS4)。なお、この時系列予測モデル更新処理は、データ収集部31、対象表現評価部32、対象数値変化率評価部33および時系列予測モデル生成部34によって実行される。ステップS4の処理が実行されると、上記したステップS2に戻って処理が繰り返される。
なお、上記したようにステップS2において利用者からのモードの選択がされないような場合には学習モードが設定されるため、明示的に利用者によって予測モードまたは終了モードが選択されない限り、時系列予測モデル更新処理が繰り返されることになる。この場合、時系列予測モデル更新処理は、例えば上記した注目対象予測装置30の初期化処理において設定されたデータ収集単位時間の間隔で繰り返される。
一方、学習モードが設定されていないと判定された場合(ステップS3のNO)、データ収集部31は、予測モードが設定されたか否かを判定する(ステップS5)。
予測モードが設定されたと判定された場合(ステップS5のYES)、後述する対象ランキング処理が実行される(ステップS6)。なお、この対象ランキング処理は、データ収集部31、対象表現評価部32、対象注目度算出部35および対象ランキング表示部36によって実行される。ステップS6の処理が実行されると、上記したステップS2に戻って処理が繰り返される。
一方、予測モードが設定されていないと判定された場合(ステップS5のNO)、つまり、終了モードが設定された場合、注目対象予測装置30の動作(処理)は終了される。
次に、図5のフローチャートを参照して、上述した時系列予測モデル更新処理(図4に示すステップS4の処理)の処理手順について説明する。なお、時系列予測モデル更新処理は、上述したように学習モードが設定された場合に実行される処理である。
まず、データ収集部31は、学習データ収集期間を設定する(ステップS11)。例えば以前に時系列予測モデル更新処理が実行されていない場合、つまり、今回の時系列予測モデル更新処理が1回目である場合には、注目対象予測装置30の初期化処理(図4に示すステップS1の処理)において設定されたデータ収集単位時間にデータ収集最大回数から1を減算した値を掛けた時間(つまり、「データ収集単位時間*(データ収集最大回数−1)」)を現在から遡った時点(の直後)から現在までの期間を学習データ収集期間として設定する。具体的には、データ収集単位時間として1日が設定されており、データ収集最大回数として5回が設定されており、現在の日付が「2010/1/8」である場合には、現在の日付「2010/1/8」から「1日*(5−1)」の時間を現在から遡った時点から現在までの期間、つまり、「2010/1/4〜2010/1/8」までの5日分(つまり、データ収集単位時間のデータ収集最大回数分)の期間が学習データ収集期間として設定される。
一方、以前に時系列予測モデル更新処理が実行されている場合、つまり、今回の時系列予測モデル更新処理が2回目以降である場合には、データ収集部31は、前回の時系列予測モデル更新処理において設定された学習データ収集期間後(つまり、当該時系列予測モデル更新処理の終了後)から現在までの期間(つまり、1データ収集単位時間分の期間)を学習データ収集期間として設定する。具体的には、前回の時系列予測モデル更新処理において設定された学習データ収集期間が「2010/1/4〜2010/1/8」であり、現在の日付が「2010/1/9」である場合には、「2010/1/9」の1日分(つまり、1データ収集単位時間分)の期間が学習データ収集期間として設定される。
つまり、今回の時系列予測モデル更新処理が1回目である場合には学習データ収集期間として1データ収集単位時間より長い期間(データ収集単位時間のデータ収集最大回数分の期間)が設定され、今回の時系列予測モデル更新処理が2回目以降である場合には学習データ収集期間として1データ収集単位時間が設定される。
次に、データ収集部31によって設定された学習データ収集期間に基づいて、テキスト解析処理が実行される(ステップS12)。このテキスト解析処理においては、データ収集部31によって設定された学習データ収集期間内における時系列テキストデータが取得され、当該取得された時系列テキストデータに基づいて対象毎の評価値(以下、対象表現評価値と表記)が算出される。
なお、データ収集部31によって設定された学習データ収集期間が1データ収集単位時間より長い場合(つまり、今回の時系列予測モデル更新処理が1回目である場合)、テキスト解析処理においては、当該学習データ収集期間内におけるデータ収集単位時間毎の対象表現評価値(つまり、時系列順の対象表現評価値)が対象毎に算出される。一方、データ収集部31によって設定された学習データ収集期間が1データ収集単位時間である場合(つまり、今回の時系列予測モデル更新処理が2回目以降である場合)、テキスト解析処理においては、当該学習データ収集期間内における1データ収集単位時間分の対象表現評価値が対象毎に算出される。なお、テキスト解析処理の詳細については後述する。
テキスト解析処理が実行されると、対象表現評価部32は、当該テキスト解析処理において算出された対象毎の対象表現評価値に基づいて、当該対象毎の時系列順の対象表現評価値を更新する(ステップS13)。なお、対象毎の時系列順の対象表現評価値は、例えば対象表現評価部32の内部に格納される。
なお、上記したように学習データ収集期間が1データ収集単位時間より長い場合、ステップS13においては、テキスト解析処理において算出された対象毎の時系列順の対象表現評価値(つまり、学習データ収集期間内におけるデータ収集単位時間毎の対象表現評価値)がそのまま格納される。一方、学習データ収集期間が1データ収集単位時間である場合、ステップS13においては、前回の時系列予測モデル更新処理において既に格納されている対象毎の時系列順の対象表現評価値において最も古い日付(時間帯)の対象表現評価値が削除され、テキスト解析処理において算出された対象表現評価値(つまり、1収集単位時間分の対象表現評価値)が当該時系列順の対象表現評価値の最後に格納される。つまり、対象表現評価部32の内部には、データ収集最大回数と同じ数の対象表現評価値が対象毎に格納される。
次に、データ収集部31によって設定された学習データ収集期間に基づいて、対象数値解析処理が実行される(ステップS14)。この対象数値解析処理においては、データ収集部31によって設定された学習データ収集期間内における時系列数値データが取得され、当該取得された時系列数値データに基づいて対象毎の変化率(以下、対象数値変化率と表記)が算出される。
なお、上記したテキスト解析処理と同様に、データ収集部31によって設定された学習データ収集期間が1データ収集単位時間より長い場合、対象数値解析処理においては、当該学習データ収集期間内におけるデータ収集単位時間毎の対象数値変化率(つまり、時系列順の対象数値変化率)が対象毎に算出される。一方、データ収集部31によって設定された学習データ収集期間が1データ収集単位時間である場合、対象数値解析処理においては、当該学習データ収集期間内における1データ収集単位時間分の対象数値変化率が対象毎に算出される。なお、対象数値解析処理の詳細については後述する。
対象数値解析処理が実行されると、対象表現評価部32は、当該対象数値解析処理において算出された対象毎の対象数値変化率に基づいて、当該対象毎の時系列順の対象数値変化率を更新する(ステップS15)。なお、対象毎の時系列順の対象数値変化率は、例えば対象数値変化率評価部33の内部に格納される。
なお、上記したように学習データ収集期間が1データ収集単位時間より長い場合、ステップS15においては、対象数値解析処理において算出された対象毎の時系列順の対象数値変化率(つまり、学習データ収集期間内におけるデータ収集単位時間毎の対象数値変化率)がそのまま格納される。一方、学習データ収集期間が1データ収集単位時間である場合、ステップS15においては、前回の時系列予測モデル更新処理において既に格納されている対象毎の時系列順の対象数値変化率において最も古い日付(時間帯)の対象数値変化率が削除され、対象数値解析処理において算出された対象数値変化率(つまり、1収集単位時間分の対象表現評価値)が当該時系列順の対象数値変化率の最後に格納される。
なお、後述するように対象数値変化率は時系列数値データに含まれる時系列順の数値情報における前後の数値情報に含まれる数値に基づいて算出されるため、対象数値変化率評価部33の内部には、上記した対象表現評価部32の内部に格納される対象毎の対象表現評価値の数(つまり、データ収集最大回数)より1つ少ない数の対象数値変化率が対象毎に格納される。
次に、時系列予測モデル生成部34は、テキスト解析処理において算出された対象毎の時系列順の対象表現評価値(対象表現評価部32の内部に格納された対象表現評価値)および対象数値解析処理において算出された対象毎の時系列順の対象数値変化率(対象数値変化率評価部33の内部に格納された対象数値変化率)に基づいて、時系列予測モデルを生成する(ステップS16)。この場合、時系列予測モデル生成部34は、例えば予め用意されている式(1)を用いて時系列予測モデルを生成する。
式(1)において、pは、上記した注目対象予測装置30の初期化処理において設定されたデータ収集最大回数から1を減算した値(つまり、「データ収集最大回数−1」)を表す。また、tは、対象を表す。更に、iは、上記した対象表現評価値および対象数値変化率の時系列順において最も古い日付(最初の日付)を1とした場合における各日付を表す。
また、式(1)において、αは、減衰率を表しており、過去の結果をどの程度反映するかを示すパラメータである。αは、[0,1]の範囲の値をとり、この値が大きい程、過去の結果を反映することになる。なお、α=0の場合には「0の0乗は1」とみなす。
一方、式(1)において、βは、表現重視度を表しており、対象tを評価するにあたって、対象表現評価値を対象数値変化率と比べてどの程度重視するかを表すパラメータである。βは、[0,1]の範囲の値をとり、この値が大きい程、対象表現評価値を重視することになる。
上記したように時系列予測モデルは、対象毎の時系列順の対象表現評価値および対象毎の時系列順の対象数値変化率を用いて式(1)により生成される。つまり、時系列予測モデルには、式(1)において上記したパラメータ(αおよびβ)の具体的な値の組に対して対象毎に算出された値の各々が含まれる。
ステップS16において生成された時系列予測モデルは、例えば時系列予測モデル生成部34の内部に格納される。このように時系列予測モデル更新処理が実行される度に時系列予測モデルが更新される。
なお、上記したように時系列予測モデル更新処理が実行された場合、例えば当該時系列予測モデル更新処理において設定された学習データ収集期間が注目対象予測装置30内において設定される。
次に、図6のフローチャートを参照して、上述したテキスト解析処理(図5に示すステップS12の処理)の処理手順について説明する。このテキスト解析処理は、データ収集部31および対象表現評価部32によって実行される。
まず、データ収集部31は、図5に示すステップS11において設定された学習データ収集期間内における文字列を含むテキスト情報を収集する(ステップS21)。この場合、データ収集部31は、上記した注目対象予測装置30の初期化処理において設定されたWebサイト(テキスト情報を収集するWebサイト)にアクセスし、例えば学習データ収集期間内の日付が付与されているテキスト情報を収集(ダウンロード)する。このデータ収集部31によって収集されるテキスト情報に付与されている日付は、当該テキスト情報(例えば、ニュースのヘッドライン)が発信された日付を表す。なお、注目対象予測装置30の初期化処理において複数のWebサイトが設定された場合には、当該各Webサイトからテキスト情報が収集される。
データ収集部31は、収集されたテキスト情報を当該テキスト情報に付与されている日付順(つまり、時系列順)に整列して、当該テキスト情報を時系列順に含む時系列テキストデータを取得する。
データ収集部31は、取得された時系列テキストデータを対象表現評価部32に渡す。なお、対象表現評価部32に渡された時系列テキストデータは、例えば対象表現評価部32の内部に格納される。
以下、対象表現評価部32は、データ収集部31から渡された時系列テキストデータに含まれる時系列順のテキスト情報の各々についてステップS22〜S24の処理を実行する。
対象表現評価部32は、データ収集部31から渡された時系列テキストデータから、当該時系列テキストデータに含まれる時系列順のテキスト情報のうちの1つを取り出す(ステップS22)。
対象表現評価部32は、取り出されたテキスト情報が対象表現格納部22に格納されている対象表現(対象に関連する文字列)を含むか否かを判定する(ステップS23)。このステップS23においては、対象表現格納部22に格納されている対象表現の各々について処理が実行される。
テキスト情報が対象表現を含むと判定された場合(ステップS23のYES)、対象表現評価部32は、当該テキスト情報に付与されている日付における、対象表現格納部22において当該対象表現に対応づけられている対象のスコア(件数)に1を加算する(ステップS24)。
一方、テキスト情報が対象表現を含まないと判定された場合(ステップS23のNO)、ステップS24の処理は実行されない。
次に、対象表現評価部32は、データ収集部31から渡された時系列テキストデータに含まれる全てのテキスト情報について上記したステップS22〜S24の処理が実行されたか否かを判定する(ステップS25)。
全てのテキスト情報について処理が実行されていないと判定された場合(ステップS25のNO)、上記したステップS22に戻って処理が繰り返される。この場合、ステップS22〜S24の処理が実行されていないテキスト情報がステップS22において取り出される。このようにテキスト情報の各々についてステップS22〜S24の処理が繰り返されることによって、学習データ収集期間内の各日付における対象毎のスコアを得ることができる。
一方、全てのテキスト情報について処理が実行されたと判定された場合(ステップS25のYES)、対象表現評価部32は、学習データ収集期間内の各日付における対象毎の対象表現評価値を算出する(ステップS26)。
対象表現評価部32によって学習データ収集期間内の各日付における対象毎の対象表現評価値の全てが算出されると、テキスト解析処理は終了される。
対象表現評価部32によって算出された学習データ収集期間内の各日付における対象毎の対象表現評価値は、対象毎、かつ、時系列順(日付順)に整列されて、上記したように対象表現評価部32の内部に格納される。
上記した図6に示すステップS23の処理においては単にテキスト情報が対象表現を含むか否かを判定するものとして説明したが、例えば自然言語処理技術に基づいて当該テキスト情報から固有名詞を抽出し、当該固有名詞の中に対象表現と一致するものが存在するか否かが判定される構成であっても構わない。また、対象表現に文字区切りの情報または品詞等の情報を付与して登録しておき、例えばテキスト情報の形態素解析結果と比較することにより、テキスト情報に対象表現が含まれるか否かが判定される構成であっても構わない。
また、ステップS24においては単に対象表現を含むテキスト情報の数をスコアとしてカウントしているが、例えばテキスト情報に付随する時刻またはサイトに関する情報等を利用したテキスト情報の重みを考慮して、当該重みを加味した値をスコアとしても構わない。
次に、図7のフローチャートを参照して、上述した対象数値解析処理(図5に示すステップS14の処理)の処理手順について説明する。この対象数値解析処理は、データ収集部31および対象数値変化率評価部33によって実行される。
まず、データ収集部31は、図5に示すステップS11において設定された学習データ収集期間内における対象に関する数値を含む数値情報を当該対象毎に収集する(ステップS31)。この場合、データ収集部31は、注目対象予測装置30の初期化処理において設定されたWebサイト(数値情報を収集するWebサイト)にアクセスし、例えば学習データ収集期間内の日付が付与されている数値情報を収集(ダウンロード)する。このデータ収集部31によって収集される数値情報に付与されている日付は、当該数値情報(例えば、対象の株価)が発信された日付を表す。なお、注目対象予測装置30の初期化処理において複数のWebサイトが設定された場合には、当該各Webサイトからテキスト情報が収集される。
データ収集部31は、対象毎に収集された数値情報を当該数値情報に付与されている日付順(つまり、時系列順)に整列して、当該数値情報を時系列順に含む対象毎の時系列数値データを取得する。
データ収集部31は、取得された対象毎の時系列数値データを対象数値変化率評価部33に渡す。なお、対象数値変化率評価部33に渡された対象毎の時系列数値データは、例えば対象数値変化率評価部33の内部に格納される。また、ここで説明している対象数値解析処理は上記したように時系列予測モデル更新処理において実行されるが、今回の時系列予測モデル更新処理が2回目以降である場合には、前回の時系列予測モデル更新処理における対象数値解析処理のステップS31において対象毎に収集された数値情報を時系列順に含む時系列数値データ(以下、前回の時系列数値データと表記)が対象数値変化率評価部33の内部に格納されているものとする。
以下、対象数値変化率評価部33は、データ収集部31から渡された対象毎の時系列数値データの各々についてステップS32〜S36の処理を実行する。
対象数値変化率評価部33は、データ収集部31から渡された対象毎の時系列数値データのうちの1つ対象の時系列数値データを取り出す(ステップS32)。
次に、対象数値変化率評価部33は、取り出された時系列数値データに時系列順に含まれる数値情報の各々についてステップS33〜S35の処理を実行する。なお、対象数値変化率評価部33は、取り出された時系列数値データに含まれる数値情報を例えば時系列順に処理する。
対象数値変化率評価部33は、ステップS32において取り出された時系列数値データから、当該時系列数値データに含まれる時系列順の数値情報のうちの1つを取り出す(ステップS33)。
対象数値変化率評価部33は、対象数値変化率評価部33の内部に格納されている時系列数値データに基づいて、ステップS33において取り出された数値情報の前に数値情報があるか否かを判定する(ステップS34)。ここで、ステップS33において取り出された数値情報がステップS32において取り出された時系列数値データに含まれる数値情報の時系列順における最初の数値情報であっても、上記したように前回の時系列数値データが残存している場合には、ステップS33において取り出された数値情報の前に数値情報があると判定される。
ステップS33において取り出された数値情報の前に数値情報があると判定された場合、対象数値変化率評価部33は、当該取り出された数値情報および時系列順において当該数値情報の直前の数値情報(以下、直前数値情報と表記)に基づいて、当該直前数値情報に付与されている日付におけるステップS32において時系列数値データが取り出された対象の対象数値変化率を算出する(ステップS35)。
次に、対象数値変化率評価部33は、ステップS32において取り出された時系列数値データに含まれる全ての数値情報について上記したステップS33〜S35の処理が実行されたか否かを判定する(ステップS36)。
ステップS32において取り出された時系列数値データに含まれる全ての数値情報について処理が実行されていないと判定された場合(ステップS36のNO)、上記したステップS33に戻って処理が繰り返される。この場合、ステップS33〜S35の処理が実行されていない数値情報がステップS33において取り出される。
ここで、上記したようにステップS32において取り出された時系列数値データに含まれる全ての数値情報についてステップS33〜S35の処理が繰り返されると、学習データ収集期間内の各日付における当該ステップS32において時系列数値データが取り出された対象の対象数値変化率が算出される。このように算出された学習データ収集期間内の各日付における対象の対象数値変化率は、当該日付順(時系列順)に整列されて、対象数値変化率評価部33の内部に格納される。
一方、ステップS32において取り出された時系列数値データに含まれる全ての数値情報について処理が実行されたと判定された場合(ステップS36のYES)、対象数値変化率評価部33は、データ収集部31から渡された対象毎の時系列数値データの全てについてステップS32〜S36の処理が実行されたか否かを判定する(ステップS37)。
対象毎の時系列数値データの全てについて処理が実行されていないと判定された場合(ステップS37のNO)、上記したステップS32に戻って処理が繰り返される。この場合、ステップS32〜S36の処理が実行されていない対象の時系列数値データがステップS32において取り出される。
一方、対象毎に時系列数値データの全てについて処理が実行されたと判定された場合(ステップS37のYES)、対象数値解析処理は終了される。
このように対象数値解析処理が実行されることによって、対象毎に時系列順の対象数値変化率が算出される。なお、対象数値解析処理において算出された対象数値変化率は、上記したように対象数値変化率評価部33の内部に格納される。
次に、図8〜図41を参照して、上述した時系列予測モデル更新処理について具体的に説明する。ここでは、複数の対象(企業)には、A社、B社、C社、D社等が含まれるものとする。
なお、注目対象予測装置30の初期化処理において設定されたデータ収集単位時間は1日であり、データ収集最大回数は5回であるものとする。また、対象表現格納部22は、前述した図3に示すデータ構造を有するものとする。
時系列予測モデル更新処理においては、まず、学習データ収集期間がデータ収集部31によって設定される。ここでは、今回の時系列予測モデル更新処理が1回目であるものとする。ここで、現在の日付が「2010/1/8」である場合には、上記したデータ収集単位時間(1日)およびデータ収集最大回数(5回)により、「2010/1/4〜2010/1/8」が学習データ収集期間として設定される。
次に、データ収集部31によって設定された学習データ収集期間に基づいて、テキスト解析処理が実行される。
テキスト解析処理においては、まず、学習データ収集期間内におけるテキスト情報がデータ収集部31によって収集される。データ収集部31は、注目対象予測装置30の初期化処理において設定されたWebサイトから、例えばニュースのヘッドラインをテキスト情報として収集する。これにより、データ収集部31は、収集されたテキスト情報を時系列順に含む時系列テキストデータを取得する。
ここで、図8は、データ収集部31によって収集された学習データ収集期間「2010/1/4〜2010/1/8」内におけるテキスト情報(ニュースのヘッドライン)を時系列順に含む時系列テキストデータの一例を示す。
なお、図8に示すように、時系列テキストデータに含まれるテキスト情報には、例えば日付、時刻および発信サイト(を示す情報)が付与されている。
具体的には、例えばテキスト情報「B1社新製品を発表」には、日付「2010/1/4」、時刻「8:00」および発信サイト「zサイト」が付与されている。これによれば、テキスト情報「B1社新製品を発表」が「2010/1/4」の「8:00」に「zサイト」から発信されたことが示されている。
次に、対象表現評価部32は、データ収集部31によって取得された時系列テキストデータから、当該時系列テキストデータに含まれる時系列順のテキスト情報のうちの1つを取り出す。ここでは、図8に示す時系列テキストデータに含まれる時系列順のテキスト情報のうち、テキスト情報「B1社新製品を発表」が取り出されたものとする。
対象表現評価部32は、取り出されたテキスト情報が対象表現格納部22に格納されている対象表現を含むか否かを判定する。ここで、図3に示す対象表現格納部22を参照すると、テキスト情報「B1社新製品を発表」には、対象「B社」に対応づけて対象表現格納部22に格納されている対象表現「B1社」が含まれている。
この場合、対象表現評価部32は、テキスト情報「B1社新製品を発表」に付与されている日付「2010/1/4」における、対象表現「B1社」に対応づけられている対象「B社」のスコアに1を加算する。
ここでは、図8に示す時系列テキストデータに含まれるテキスト情報「B1社新製品を発表」について説明したが、他のテキスト情報についても同様である。
上記したように図8に示す時系列テキストデータに含まれるテキスト情報の全てについて処理が実行されると、対象表現評価部32は、学習データ収集期間内の各日付における対象毎の対象表現評価値を算出する。なお、対象表現評価値は、学習データ収集期間内の各日付における対象毎のスコアおよび上記した式(2)を用いて算出される。
ここで、例えば日付「2010/1/4」における対象「B社」の対象表現評価値の算出について具体的に説明する。この日付「2010/1/4」における対象「B社」の対象表現評価値は、上記した式(2)により、日付「2010/1/4」における全ての対象のスコアの合計に対する日付「2010/1/4」における対象「B社」のスコアの割合として算出される。
ここでは、日付「2010/1/4」における対象「B社」の対象表現評価値の算出について説明したが、他の対象表現評価値についても同様に算出される。
上記したように今回の時系列予測モデル更新処理は1回目であるので、このように学習データ収集期間内の各日付における対象毎の対象表現評価値が算出されると、当該算出された対象表現評価値は、対象毎、かつ、時系列順(日付順)に整列されて、そのまま対象表現評価部32の内部に格納される。
ここで、図9〜図12は、対象表現評価部32の内部に格納された対象毎の時系列順の対象表現評価値の一例を示す。
図9は、複数の対象のうちの対象「A社」の時系列順の対象表現評価値の一例を示す。図10は、複数の対象のうちの対象「B社」の時系列順の対象表現評価値の一例を示す。図11は、複数の対象のうちの対象「C社」の時系列順の対象表現評価値の一例を示す。図12は、複数の対象のうちの対象「D社」の時系列順の対象表現評価値の一例を示す。
なお、図9〜図12に示すように、各対象の時系列順の対象表現評価値には、上記した学習データ収集期間「2010/1/4〜2010/1/8」内の各日付が付与された対象表現評価値が含まれる。
ここでは、対象「A社」、「B社」、「C社」および「D社」の時系列順の対象表現評価値について説明したが、対象表現評価部32の内部には、これら以外の対象の時系列順の対象表現評価値についても同様に格納されている。
次に、データ収集部31によって設定された学習データ収集期間に基づいて、対象数値解析処理が実行される。
対象数値解析処理においては、まず、対象毎に学習データ収集期間内における当該対象に関する数値を含む数値情報がデータ収集部31によって収集される。データ収集部31は、注目対象予測装置30の初期化処理において設定されたWebサイトから、例えば対象(企業)毎の株価を数値情報として収集する。これにより、データ収集部31は、収集された数値情報を時系列順に含む時系列数値データを取得する。
ここで、図13〜図16は、データ収集部31によって対象毎に収集された学習データ収集期間「2010/1/4〜2010/1/8」内における数値情報(対象の株価)を時系列順に含む時系列数値データの一例を示す。
図13は、複数の対象のうちの対象「A社」について収集された数値情報(A社の株価)を時系列順に含む時系列数値データの一例を示す。図14は、複数の対象のうちの対象「B社」について収集された数値情報(B社の株価)を時系列順に含む時系列数値データの一例を示す。図15は、複数の対象のうちの対象「C社」について収集された数値情報(C社の株価)を時系列順に含む時系列数値データの一例を示す。図16は、複数の対象のうちの対象「D社」について収集された数値情報(D社の株価)を時系列順に含む時系列数値データの一例を示す。
なお、図13〜図16に示すように、時系列数値データに含まれる数値情報には、日付(を示す情報)が付与されている。
具体的には、例えば図13に示す時系列数値データに含まれる数値情報「1020」には、日付「2010/1/4」が付与されている。これによれば、数値情報「1020」は、日付「2010/1/4」のA社の株価であることが示されている。
ここで、対象数値変化率評価部33は、データ収集部31によって取得された対象毎の時系列数値データのうちの1つの対象の時系列数値データを取り出す。ここでは、上記した図13に示す対象「A社」の時系列数値データが取り出されたものとする。
次に、対象数値変化率評価部33は、取り出された対象「A社」の時系列数値データから、当該時系列数値データに含まれる時系列順の数値情報のうちの1つを取り出す。ここでは、図13に示す対象「A社」の時系列数値データに含まれる時系列順の数値情報のうちの数値情報「1020」が取り出されたものとする。
ここで、上記したように今回の時系列予測モデル更新処理は1回目であるため、対象数値変化率評価部33によって取り出された数値情報「1020」の前には数値情報がない。
また、対象「A社」の時系列数値データに含まれる全ての数値情報について処理がされていないため、対象数値変化率評価部33は、例えば時系列順において数値情報「1020」の次の数値情報「1000」を対象「A社」の時系列数値データから取り出す。
ここで取り出された数値情報「1000」の前には数値情報「1020」がある。したがって、対象数値変化率評価部33は、取り出された数値情報「1000」および直前数値情報である数値情報「1020」と上記した式(3)とを用いて、当該数値情報「1020」に付与されている日付「2010/1/4」における対象「A社」の対象数値変化率を算出する。この場合、日付「2010/1/4」における対象「A社」の対象数値変化率は、式(3)により|1000−1020|/1020≒0.02となる。
ここでは、日付「2010/1/4」における対象「A社」の対象数値変化率の算出について説明したが、他の対象数値変化率についても同様に算出される。
上記したように今回の時系列予測モデル更新処理は1回目であるので、このように学習データ収集期間内の各日付における対象毎の対象数値変化率が算出されると、当該算出された対象数値変化率は、対象語と、かつ、時系列順(日付順)に整列されて、そのまま対象数値変化率評価部33の内部に格納される。
ここで、図17〜図20は、対象数値変化率評価部33の内部に格納された対象毎の時系列順の対象数値変化率の一例を示す。
図17は、複数の対象のうちの対象「A社」の時系列順の対象数値変化率の一例を示す。図18は、複数の対象のうちの対象「B社」の時系列順の対象数値変化率の一例を示す。図19は、複数の対象のうちの対象「C社」の時系列順の対象数値変化率の一例を示す。図20は、複数の対象のうちの対象「D社」の時系列順の対象数値変化率の一例を示す。
なお、図17〜図20に示すように、各対象の時系列順の対象数値変化率には、上記した学習データ収集期間「2010/1/4〜2010/1/8」内の各日付が付与された対象数値変化率が含まれる。
具体的には、例えば図17に示す対象「A社」の時系列順の対象数値変化率には、日付「2010/1/4」が付与された対象数値変化率「0.02」が含まれている。なお、この日付「2010/1/4」は、対象数値変化率「0.02」の算出の際に用いられた直前数値情報(図13に示す数値情報「1020」)に付与されている日付である。
また、日付「2010/1/8」は上記した学習データ収集期間「2010/1/4〜2010/1/8」内であるが、当該日付「2010/1/8」が付与される対象数値変化率は、日付「2010/1/9」の数値情報が収集された後に算出されるため、図17〜図20に示すように空欄となっている。
ここでは、対象「A社」、「B社」、「C社」および「D社」の時系列順の対象数値変化率について説明したが、対象数値変化率評価部33の内部には、これら以外の対象の時系列順の対象数値変化率についても同様に格納されている。
次に、時系列予測モデル生成部34は、対象表現評価部32の内部に格納された対象毎の時系列順の対象表現評価値(例えば、図9〜図12)および対象数値変化率評価部33の内部に格納された対象毎の時系列順の対象数値変化率(例えば、図17〜図20)に基づいて、時系列予測モデルを生成する。この場合、時系列予測モデル生成部34は、上記した式(1)を用いて時系列予測モデルを生成する。
ここで、例えば対象「A社」について時系列予測モデルが生成される場合について具体的に説明する。この場合、式(1)における対象tは、対象「A社」である。また、データ収集最大回数は5回であるため、pは、4(データ収集最大回数−1)である。また、i=1は、日付「2010/1/4」を表す。以下同様に、i=2は日付「2010/1/5」を表し、i=3は日付「2010/1/6」を表し、i=4は日付「2010/1/7」を表し、i=5は日付「2010/1/8」を表す。
図21は、時系列予測モデル生成部34によって生成された時系列予測モデルの一例を示す。
なお、上述したように時系列予測モデルには、式(1)においてパラメータ(αおよびβ)の具体的な値の組に対して対象毎に算出された値が含まれる。
図21に示す例では、パラメータαが0.00、0.25、0.50、0.75、1.00の各値であり、パラメータβが0.25、0.50、0.75の各値である場合に、当該パラメータαおよびβのそれぞれの組に対して式(1)により対象毎に算出された値を含む時系列予測モデルが示されている。
上記したように時系列予測モデル生成部34によって時系列予測モデルが生成されると、時系列予測モデル更新処理は終了される。なお、時系列予測モデル生成部34によって生成された時系列予測モデルは、当該時系列予測モデル生成部34の内部に格納される。
ここで、上記した図4において説明したように時系列予測モデル更新処理が終了された場合であって、利用者の操作に応じて予測モードまたは終了モードが設定されない場合(つまり、学習モードが設定された場合)には、再び時系列予測モデル更新処理(つまり、2回目の時系列予測モデル更新処理)が実行される。この場合、時系列予測モデル更新処理は、前回の時系列予測モデル更新処理において設定された学習データ収集期間から1データ収集単位時間が経過した後に実行される。
以下、上記説明した1回目の時系列予測モデル更新処理(以下、前回の時系列予測モデル更新処理と表記)が実行された後に、再び時系列予測モデル更新処理(つまり、2回目の時系列予測モデル更新処理)が実行される場合について具体的に説明する。なお、現在の日付は、「2010/1/9」であるものとする。
まず、データ収集部31は、学習データ収集期間を設定する。ここでは、今回の時系列予測モデル更新処理が2回目であり、現在の日付は「2010/1/9」であるため、前回の時系列予測モデル更新処理において設定された学習データ収集期間の直後から現在の日付まで、つまり、「2010/1/9(〜2010/1/9)」が学習データ収集期間として設定される。なお、前回の時系列予測モデル更新処理が実行された際に、例えば当該前回の時系列予測モデル更新処理において設定された学習データ収集期間「2010/1/4〜2010/1/8」(学習モードにおける前のデータ収集日)は設定されているものとする。
次に、データ収集部31によって設定された学習データ収集期間に基づいて、テキスト解析処理が実行される。
テキスト解析処理においては、まず、学習データ収集期間内におけるテキスト情報がデータ収集部31によって収集される。ここでは、学習データ収集期間が「2010/1/9」であるため、「2010/1/9」分のニュースのヘッドラインがテキスト情報として収集される。これにより、データ収集部31は、収集されたテキスト情報を含む時系列テキストデータを取得する。ここでデータ収集部31によって取得された時系列テキストデータには、日付「2010/1/9」が付与されているテキスト情報のみが含まれる。
以下、対象表現評価部32は、データ収集部31によって取得された時系列テキストデータに含まれるテキスト情報および対象表現格納部22に格納されている対象表現を用いて、上記した式(2)により学習データ収集期間内の日付(ここでは、日付「2010/1/9」)における対象毎の対象表現評価値を算出する。対象表現評価値の算出については、前述した通りであるため、その詳しい説明を省略する。
ここで、図22〜図25は、対象表現評価部32によって算出された日付「2010/1/9」における対象毎の対象表現評価値の一例を示す。
図22は、複数の対象のうちの対象「A社」の対象表現評価値の一例を示す。図23は、複数の対象のうちの対象「B社」の対象表現評価値の一例を示す。図24は、複数の対象のうちの対象「C社」の対象表現評価値の一例を示す。図25は、複数の対象のうちの対象「D社」の対象表現評価値の一例を示す。
なお、図22〜図25に示すように、各対象の対象表現評価値には、上記した学習データ収集期間「2010/1/9」内の日付(つまり、「2010/1/9」)が付与されている。
次に、上記した図22〜図25に示す各対象の対象表現評価値は対象表現評価部32の内部に格納されることによって、当該各対象の時系列順の対象表現評価値が更新される。
ここで、例えば対象「A社」の時系列順の対象表現評価値の更新について具体的に説明する。この場合、上述した図9に示す対象「A社」の時系列順の対象表現評価値のうち、最も古い日付が付与されている対象表現評価値「0.01」が対象表現評価部32の内部から削除される。更に、図22に示す対象「A社」の対象表現評価値「0.40」が対象表現評価部32の内部に格納される。これによって、図9に示す対象「A社」の時系列順の対象表現評価値は、図26に示す対象「A社」の時系列順の対象表現評価値に更新される。
同様に、図10に示す対象「B社」の時系列順の対象表現評価値は、図27に示す対象「B社」の時系列順の対象表現評価値に更新される。また、図11に示す対象「C社」の時系列順の対象表現評価値は、図28に示す対象「C社」の時系列順の対象表現評価値に更新される。図12に示す対象「D社」の時系列順の対象表現評価値は、図29に示す対象「D社」の時系列順の対象表現評価値に更新される。
ここでは、対象「A社」、「B社」、「C社」および「D社」について説明したが、これら以外の対象の対象表現評価値についても同様に更新される。
次に、データ収集部31によって設定された学習データ収集期間に基づいて、対象数値解析処理が実行される。
対象数値解析処理においては、まず、学習データ収集期間内における数値情報がデータ収集部31によって収集される。ここでは、学習データ収集期間が「2010/1/9」であるため、データ収集部31は、「2010/1/9」の対象(企業)毎の株価を数値情報として収集する。これにより、データ収集部31は、収集された数値情報を含む時系列数値データを取得する。ここでデータ収集部31によって取得された時系列数値データには、日付「2010/1/9」が付与されている数値情報のみが含まれる。
ここで、図30〜図33は、データ収集部31によって対象毎に収集された学習データ収集期間「2010/1/9」内における数値情報(対象の株価)を含む時系列数値データの一例を示す。
図30は、複数の対象のうちの対象「A社」について収集された日付「2010/1/9」の数値情報(A社の株価)を含む時系列数値データの一例を示す。図31は、複数の対象のうちの対象「B社」について収集された日付「2010/1/9」の数値情報(B社の株価)を含む時系列数値データの一例を示す。図32は、複数の対象のうちの対象「C社」について収集された日付「2010/1/9」の数値情報(C社の株価)を含む時系列数値データの一例を示す。図33は、複数の対象のうちの対象「D社」について収集された日付「2010/1/9」の数値情報(D社の株価)を含む時系列数値データの一例を示す。
なお、図30〜図33に示す時系列数値データに含まれる数値情報には、上記した学習データ収集期間「2010/1/9」内の日付「2010/1/9」が付与されている。
次に、対象数値変化率評価部33は、データ収集部31によって取得された対象毎の時系列数値データに含まれる数値情報および当該数値情報の直前の数値情報(直前数値情報)を用いて、上記した式(3)により対象毎の対象数値変化率を算出する。
例えば対象「A社」の対象数値変化率は、図30に示す対象「A社」の日付「2010/1/9」の数値情報「550」および当該数値情報「550」の直前の数値情報(ここでは、図13に示す対象「A社」の日付「2010/1/8」の数値情報「750」)を用いて、式(3)により算出される。
ここでは、対象「A社」について説明したが、対象「B社」、「C社」および「D社」等の他の対象についても同様に対象数値変化率が算出される。
ここで、図34〜図37は、対象数値変化率評価部33によって算出された対象毎の対象数値変化率の一例を示す。
図34は、複数の対象のうちの対象「A社」の対象数値変化率の一例を示す。図35は、複数の対象のうちの対象「B社」の対象数値変化率の一例を示す。図36は、複数の対象のうちの対象「C社」の対象数値変化率の一例を示す。図37は、複数の対象のうちの対象「D社」の対象数値変化率の一例を示す。
なお、図34〜図37に示すように、各対象の対象数値変化率には、当該対象数値変化率の算出に用いられた直前の数値情報に付与されている日付(ここでは、日付「2010/1/8」)が付与されている。
次に、上記した図34〜図37に示す各対象の対象数値変化率は対象数値変化率評価部33の内部に格納されることによって、当該各対象の時系列順の対象数値変化率が更新される。
ここで、例えば対象「A社」の時系列順の対象数値変化率の更新について具体的に説明する。この場合、上述した図17に示す対象「A社」の時系列順の対象数値変化率のうち、最も古い日付が付与されている対象数値変化率「0.02」が対象数値変化率評価部33の内部から削除される。更に、図34に示す対象「A社」の対象数値変化率「0.27」が対象数値変化率評価部33の内部に格納される。なお、この対象「A社」の対象数値変化率「0.27」には、日付「2010/1/8」が付与される。これによって、図17に示す対象「A社」の時系列順の対象数値変化率は、図38に示す対象「A社」の時系列順の対象数値変化率に更新される。なお、日付「2010/1/9」が付与される対象数値変化率は、日付「2010/1/10」の数値情報が収集された後に算出されるため図38に示すように空欄となっている。
同様に、図18に示す対象「B社」の時系列順の対象数値変化率は、図39に示す対象「B社」の時系列順の対象数値変化率に更新される。また、図19に示す対象「C社」の時系列順の対象数値変化率は、図40に示す対象「C社」の時系列順の対象数値変化率に更新される。図20に示す対象「D社」の時系列順の対象数値変化率は、図41に示す対象「D社」の時系列順の対象数値変化率に更新される。
ここでは、対象「A社」、「B社」、「C社」および「D社」について説明したが、これら以外の対象の対象数値変化率についても同様に更新される。
次に、時系列予測モデル生成部34は、対象表現評価部32の内部に格納された対象毎の時系列順の対象表現評価値(例えば、図26〜図29)および対象数値変化率評価部33の内部に格納された対象毎の時系列順の対象数値変化率(例えば、図38〜図41)を用いて、上記した式(1)により時系列予測モデルを生成する。なお、時系列予測モデルの生成処理については、前述した通りであるため、その詳しい説明を省略する。
時系列予測モデル生成部34によって生成された時系列予測モデルは、当該時系列予測モデル生成部34の内部に格納される(つまり、上書きされる)。これによって、時系列予測モデル更新処理においては、時系列予測モデルが更新される。
次に、図42のフローチャートを参照して、上述した対象ランキング処理(図4に示すステップS6の処理)の処理手順について説明する。なお、対象ランキング処理は、上述したように予測モードが設定された場合に実行される処理である。
まず、データ収集部31は、学習モードにおける前のデータ収集日(時系列予測モデル更新処理において設定された学習データ収集期間)が設定されているか否か、つまり、時系列予測モデル更新処理が実行されたことによって時系列予測モデルが生成されているか否かを判定する(ステップS41)。
学習モードにおける前のデータ収集日が設定されていると判定された場合(ステップS41のYES)、データ収集部31は、予測データ収集期間を設定する(ステップS42)。この場合、データ収集部31は、学習モードにおける前のデータ収集日の直後(つまり、時系列予測モデル更新処理において設定された学習データ収集期間後)から現在の日付までを、予測データ収集期間として設定する。なお、対象ランキング処理は上記した学習モードが設定された場合に実行される時系列予測モデル更新処理の間に実行されるため、データ収集部31によって設定される予測データ収集期間は、注目対象予測装置30の初期化処理において設定されたデータ収集単位時間より短くなるが、当該期間を1単位とみなすものとする。
次に、データ収集部31によって設定された学習データ収集期間に基づいて、テキスト解析処理が実行される(ステップS43)。なお、このテキスト解析処理は、前述した学習データ収集期間を予測データ収集期間とした場合の図5に示すステップS12の処理(図6に示す処理)と同様であるため、その詳しい説明を省略する。つまり、ステップS43のテキスト解析処理によれば、予測データ収集期間内の日付における対象毎の対象表現評価値(1データ収集単位時間分の対象表現評価値)が算出される。
対象注目度算出部35は、ステップS43のテキスト解析処理によって算出された対象毎の対象表現評価値および時系列予測モデル生成部34の内部に格納されている時系列予測モデル(上述した時系列予測モデル更新処理において生成された時系列予測モデル)に基づいて、対象毎の注目度を算出する。
換言すれば、対象注目度算出部35は、ステップS43のテキスト解析処理によって算出された対象毎の対象表現評価値に時系列予測モデルを適用することにより、当該対象の次期における注目度を算出する。
この場合、対象注目度算出部35は、例えば予め用意されている式(4)を用いて対象毎の注目度を算出する。
ここで、時系列予測モデル生成部34の内部に上述した図21に示す時系列予測モデルが格納されており、ステップS43のテキスト解析処理によって例えば上述した図22に示す対象「A社」の対象表現評価値「0.40」が算出された場合を想定する。この場合において、パラメータα(減衰率)として0.25、パラメータβ(表現重視度)として0.50が利用者によって指定されているとすると、対象「A社」の注目度として0.461191(=0.40+0.25*0.244763)が算出される。なお、この対象「A社」の注目度の算出に用いられた値「0.244763」は、図21に示す時系列予測モデルに含まれるα=0.25およびβ=0.50である場合に上述した式(1)により算出された値である。
ここでは、対象「A社」の注目度について説明したが、他の対象「B社」、「C社」および「D社」等についても同様に注目度が算出される。なお、対象注目度算出部35によって対象毎に算出される注目度は、値が大きい程、当該対象が次期において注目されることを表す。
ここで、図43は、対象注目度算出部35によって算出された対象「A社」、「B社」、「C社」および「D社」の各々の注目度の一例を示す。
図43に示す例では、対象「A社」の注目度は、0.461191である。この対象「A社」の注目度「0.461191」は、上記したようにα=0.25およびβ=0.50が利用者によって指定されている場合であって、上述した図22に示す対象「A社」の対象表現評価値「0.40」に図21に示す時系列予測モデルが適用された場合に算出された注目度である。
また、対象「B社」の注目度は、0.005530である。この対象「B社」の注目度「0.005530」は、上記したようにα=0.25およびβ=0.50が利用者によって指定されている場合であって、上述した図23に示す対象「B社」の対象表現評価値「0.00」に図21に示す時系列予測モデルが適用された場合に算出された注目度である。
また、対象「C社」の注目度は、0.171399である。この対象「C社」の注目度「0.171399」は、上記したようにα=0.25およびβ=0.50が利用者によって指定されている場合であって、上述した図24に示す対象「C社」の対象表現評価値「0.15」に図21に示す時系列予測モデルが適用された場合に算出された注目度である。
また、対象「D社」の注目度は、0.022962である。この対象「D社」の注目度「0.022962」は、上記したようにα=0.25およびβ=0.50が利用者によって指定されている場合であって、上述した図25に示す対象「D社」の対象表現評価値「0.02」に図21に示す時系列予測モデルが適用された場合に算出された注目度である。
図43においては、対象「A社」、「B社」、「C社」および「D社」以外の対象の注目度については省略されている。
再び図42に戻ると、対象ランキング表示部36は、対象注目度算出部35によって対象毎に算出された注目度(の大きさ)に基づいて、当該対象を当該注目度順に並べ替える(ステップS45)。
対象ランキング表示部36は、対象が注目度順に並べ替えられた結果(つまり、対象毎の注目度のランキング結果)を利用者に対して提示(表示)する(ステップS46)。
ここで、図44は、対象ランキング表示部36によって表示される対象毎の注目度のランキング結果の一例を示す。図44においては、対象「A社」、「B社」、「C社」および「D社」以外の対象については省略されている。
図44に示すように、対象毎の注目度のランキング結果においては、上記した図43に示す注目度が大きい順に対象がランキング形式で表示される。
図44に示す例では、対象「A社」、「C社」、「D社」および「B社」の順で当該対象が注目度とともに表示されている。
なお、図44においては対象「A社」、「B社」、「C社」および「D社」の全てについて表示されるものとして説明したが、例えば注目度が上位n(nは1以上の整数)の対象のみが表示される構成であっても構わない。
ここで、図44に示すように対象毎の注目度のランキング結果が表示されると、利用者は、当該注目度の算出に用いられたパラメータ(αおよびβ)の更新(変更)を指示することができる。この場合、利用者は、更新後のパラメータの値を指定することができる。
次に、このような利用者の指示に応じてパラメータの更新がされたか否かが判定される(ステップS47)。
パラメータの更新がされたと判定された場合(ステップS47のYES)、ステップS44に戻って処理が繰り返される。この場合、対象注目度算出部35は、利用者によって指定されたパラメータの値に基づいて、対象毎の注目度を再び算出する。このように再び対象毎の注目度が算出された後、上記したステップS45およびS46の処理が実行される。
ここで、図45は、パラメータの更新後に対象ランキング表示部36によって表示される対象毎の注目度のランキング結果の一例を示す。なお、図45に示す対象毎の注目度は、パラメータαが0.25から1.00に更新され、パラメータβが0.50から0.25に更新された場合に算出された注目度である。
このように、利用者の指示に応じてパラメータが更新されることにより、減衰率(α)および表現重視度(β)の様々な値の組の場合における対象毎の注目度のランキング結果を利用者に提示することができる。
上記したように本実施形態においては、利用者の操作に応じて学習モードが設定された場合には、学習データ収集期間(予め定められた期間)内におけるテキスト情報を収集し、当該収集されたテキスト情報を時系列順に含む時系列テキストデータを取得し、対象毎に対象表現格納部22に格納されている対象表現(対象に関連する文字列)および当該取得された時系列テキストデータに含まれる時系列順のテキスト情報に基づいて、当該対象毎に時系列順の対象表現評価値を算出し、対象毎に学習データ収集期間(予め定められた期間)内における数値情報を収集し、当該数値情報を時系列順に含む時系列数値データを取得し、対象毎に取得された時系列数値データに含まれる時系列順における前後の数値情報に含まれる数値に基づいて、対象毎に時系列順の対象数値変化率を算出する。また、本実施形態においては、利用者の操作に応じて予測モードが設定された場合には、予測データ収集期間(学習データ収集期間後から現在までの期間)内におけるテキスト情報を収集し、対象毎に対象表現格納部22に格納されている対象表現および当該収集されたテキスト情報に基づいて、当該対象毎に対象表現評価値を算出し、当該対象毎に算出された時系列順の対象表現評価値、当該対象毎に算出された時系列順の対象数値変化率および当該対象毎に算出された対象表現評価値を用いて、対象毎の注目度を算出し、当該算出された対象毎の注目度を利用者に提示する。
これにより、本実施形態においては、複数の対象の中から注目すべき対象を予測し、当該注目すべき対象を利用者に提示することができるため、利用者は、多数の対象の中から注目すべき対象を容易かつ簡便に選別することが可能となる。
つまり、本実施形態においては、現時点までにおける対象に対応する数値情報の変化を参照するだけでなく、数値情報の変化に影響を与える対象表現(対象に関連する文字列)の出現頻度(上述した当該対象のスコア)を参照することにより、例えば専門家等による知識を前提とすることなく、複数の情報源の情報に基づいた注目すべき対象の選別を支援することができる。
具体的には、本実施形態において、例えばニュースのヘッドラインをテキスト情報とし、企業の株価を数値情報とすることで、利用者は、証券市場において多数の企業(銘柄)の中から注目すべき銘柄を容易かつ簡便に選別することができる。なお、本実施形態は、例えばプラント監視の分野等にも適用することができる。具体的には、プラント監視の分野における保守員によって記録される日報をテキスト情報とし、プラントから収集される計測データを数値情報とすることで、利用者は、多数のプラントの中から注目すべきプラント(例えば、故障等の可能性があるプラント)を選別することができる。
また、本実施形態においては、学習モードが設定された場合に、対象毎に算出された時系列順の対象表現評価値および対象毎に算出された時系列順の変化率に基づいて時系列予測モデルを生成しておくことで、予測モードが設定された場合における対象毎の注目度の算出に必要な処理量を軽減することができる。
なお、本実施形態においては、各対象に対して1種類の数値情報(例えば、株価)しか存在しないものとして説明したが、当該各対象に対して複数の数値情報があり、当該複数の数値情報から算出される複数の対象毎の時系列順の対象数値変化率から時系列予測モデルが生成されても構わない。すなわち、本実施形態における対象(企業)の株価の数値情報に、例えば株価の出来高の数値情報を加えて時系列予測モデルが生成されても構わない。
また、本実施形態においては、データ収集部31がテキスト情報を提供するWebサイトおよび数値情報を提供するWebサイトから各データを収集するものとして説明したが、例えばネットワーク環境でつながっている他の情報システム等からデータが収集されても構わない。
また、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。