JP2020129232A - 機械学習装置、プログラム及び機械学習方法 - Google Patents

機械学習装置、プログラム及び機械学習方法 Download PDF

Info

Publication number
JP2020129232A
JP2020129232A JP2019021083A JP2019021083A JP2020129232A JP 2020129232 A JP2020129232 A JP 2020129232A JP 2019021083 A JP2019021083 A JP 2019021083A JP 2019021083 A JP2019021083 A JP 2019021083A JP 2020129232 A JP2020129232 A JP 2020129232A
Authority
JP
Japan
Prior art keywords
evaluation
sentence
unit
information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019021083A
Other languages
English (en)
Other versions
JP7280705B2 (ja
Inventor
近藤 浩史
Hiroshi Kondo
浩史 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Research Institute Ltd
Original Assignee
Japan Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Research Institute Ltd filed Critical Japan Research Institute Ltd
Priority to JP2019021083A priority Critical patent/JP7280705B2/ja
Publication of JP2020129232A publication Critical patent/JP2020129232A/ja
Application granted granted Critical
Publication of JP7280705B2 publication Critical patent/JP7280705B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】サンプルデータの中に、分類対象となるデータと、分類対象にならないデータが混在している場合にも、分類精度が低下することのない機械学習装置、プログラム及び機械学習方法を提供する。【解決手段】評価対象に関する評価及び評価対象の状態又は評価の理由を示す1以上の説明文が対応付けられた評価情報に含まれる1以上の説明文を教師データとして利用して、入力された文が、評価対象に対する評価、評価対象の状態又は評価の理由を示す文であるか否かを判定するための第1学習モデルを構築する評価用モデル構築部を含むモデル構築部と、評価用モデル構築部が構築した第1学習モデルを用いて、テキストデータに含まれる1以上の文の中から、評価対象に関連する文を抽出する抽出部を含む指標推定部と、を備える。【選択図】図1

Description

本発明は、機械学習装置、プログラム及び機械学習方法に関する。
学習モデルを利用して、公報に社内分類を付与する分類システムが知られている(例えば、特許文献1)。
[先行技術文献]
[特許文献]
[特許文献1]特開2018−026119号公報
特許文献1の分類システムにおいては、分類システムに入力されるサンプルデータの種類が予め特定されており、入力されたサンプルデータの全てに社内分類が付与される。そのため、サンプルデータの中に、分類対象となるデータと、分類対象にならないデータが混在している場合には、分類精度が低下する、システムリソースの利用効率が低下するなどの課題がある。
本発明の第1の態様においては、機械学習装置が提供される。上記の機械学習装置は、例えば、(i)評価対象に関する評価、及び、(ii)評価対象の状態又は評価の理由を示す1以上の説明文が対応付けられた評価情報に含まれる1以上の説明文を教師データとして利用して、入力された文が、評価対象に対する評価、評価対象の状態又は評価の理由を示す文であるか否かを判定するための第1学習モデルを構築する第1モデル構築部を備える。上記の機械学習装置は、例えば、第1モデル構築部が構築した第1学習モデルを用いて、テキストデータに含まれる1以上の文の中から、評価対象に関連する文を抽出する抽出部を備える。
上記の機械学習装置において、第1学習モデルは、入力された文を、評価対象の状態又は評価の理由を示す文、又は、評価対象の状態又は評価の理由を示す文ではない文の何れかに分類する文章分類器を含んでよい。上記の機械学習装置において、第1学習モデルは、複数の文章分類器を含んでよい。上記の機械学習装置において、複数の文章分類器のそれぞれは、入力された文が、評価対象の状態又は評価の理由を示す文であることの確からしさを示すスコアを出力してよい。上記の機械学習装置において、抽出部は、複数の文章分類器のそれぞれが出力したスコアの合計値が、予め定められた閾値よりも大きい場合に、入力された文を、評価対象に関連する文として抽出してよい。
上記の機械学習装置において、抽出部は、テキストデータに含まれる1以上の文の少なくとも一部を、第1学習モデルに入力し、第1学習モデルが評価対象の状態又は評価の理由を示す文であると判定した文を、評価対象に関連する文として抽出する第1抽出部を有してよい。上記の機械学習装置において、抽出部は、評価対象に関連するキーワード又はキーフレーズを示す情報を取得する条件取得部を有してよい。上記の機械学習装置において、抽出部は、テキストデータに含まれる1以上の文の中から、キーワードを含む文、キーフレーズに合致する文、キーワードに類似する単語を含む文、及び、キーフレーズに類似する条件に合致する文の少なくとも1つを、評価対象に関連する文、又は、評価対象に関連する文の候補として抽出する第2抽出部を有してよい。上記の機械学習装置において、第1抽出部は、第2抽出部が評価対象に関連する文の候補として抽出した文を、第1学習モデルに入力してよい。上記の機械学習装置において、第1抽出部は、第1学習モデルが評価対象の状態又は評価の理由を示す文であると判定した文を、評価対象に関連する文として抽出してよい。
上記の機械学習装置において、第2抽出部は、連続する2以上の文を含む文章であって、キーワードを含む文、キーフレーズに合致する文、キーワードに類似する単語を含む文、及び、キーフレーズに類似する条件に合致する文の少なくとも1つを含む文章を、評価対象に関連する文の候補として抽出してよい。上記の機械学習装置は、テキストデータの種類を区別するための種別情報を取得する種別情報取得部を備えてよい。上記の機械学習装置において、第2抽出部は、種別情報により示されるテキストデータの種類に基づいて、テキストデータに含まれる1以上の文の中から、キーワードを含む文、キーフレーズに合致する文、キーワードに類似する単語を含む文、及び、キーフレーズに類似する条件に合致する文の少なくとも1つを、評価対象に関連する文及び評価対象に関連する文の候補の何れとして抽出するかを決定してよい。
上記の機械学習装置は、評価情報を教師データとして利用して、入力された文に、評価対象に関する評価を付与するための第2学習モデルを構築する第2モデル構築部を備えてよい。上記の機械学習装置は、第2モデル構築部が構築した第2学習モデルを用いて、抽出部が抽出した文に、評価対象に関する評価を付与する評価付与部を備えてよい。
上記の機械学習装置は、評価付与部による評価に基づいて、特定の期間における評価対象の状態又は動向を示す指標を算出する指標算出部を備えてよい。上記の機械学習装置は、特定の期間を示す情報を取得する期間情報取得部を備えてよい。上記の機械学習装置は、複数のテキストデータのそれぞれを、複数のテキストデータのそれぞれの内容に関連する時期、複数のテキストデータのそれぞれが記録された時期、又は、複数のテキストデータのそれぞれを含む電子ファイルが作成若しくは更新された時期を示す時期情報と対応づけて取得するテキストデータ取得部を備えてよい。上記の機械学習装置において、抽出部は、複数のテキストデータのうち、当該テキストデータに対応付けられた時期情報により示される時期が特定の期間に含まれるテキストデータに含まれる複数の文の中から、評価対象に関連する文を抽出してよい。上記の機械学習装置において、評価付与部は、抽出部が複数のテキストデータの少なくとも一部から抽出した複数の文に、評価対象に関する評価を付与してよい。上記の機械学習装置において、指標算出部は、評価付与部が複数の文のそれぞれに付与した評価に基づいて、指標を算出してよい。
上記の機械学習装置において、テキストデータは、情報提供者の発言若しくはジェスチャにより提示された情報、又は、情報提供者が知覚した情報を含んでよい。上記の機械学習装置は、評価付与部による評価に基づいて、特定の期間における評価対象の状態又は動向を示す指標を算出する指標算出部を備えてよい。上記の機械学習装置は、複数のテキストデータのそれぞれを、複数のテキストデータのそれぞれの情報提供者の属性を示す属性情報と対応づけて取得するテキストデータ取得部を備えてよい。上記の機械学習装置において、評価付与部は、抽出部が複数のテキストデータの少なくとも一部から抽出した複数の文のそれぞれに対して、各文が含まれていたテキストデータに対応する属性情報により示される情報提供者の属性に基づいて、評価対象に関する評価を付与してよい。上記の機械学習装置において、指標算出部は、評価付与部が複数の文のそれぞれに付与した評価に基づいて、指標を算出してよい。
本発明の第2の態様においては、機械学習方法が提供される。上記の機械学習方法は、例えば、(i)評価対象に関する評価、及び、(ii)評価対象の状態又は評価の理由を示す1以上の説明文が対応付けられた評価情報に含まれる1以上の説明文を教師データとして利用して、入力された文が、評価対象の状態、評価対象に対する評価又は評価の理由を示す文であるか否かを判定するための第1学習モデルを構築する第1モデル構築段階を有する。上記の機械学習方法は、例えば、第1モデル構築段階において構築された第1学習モデルを用いて、テキストデータに含まれる1以上の文の中から、評価対象に関連する文を抽出する抽出段階を有する。
本発明の第3の態様においては、プログラムが提供される。上記のプログラムを格納する非一時的コンピュータ可読媒体が提供されてもよい。上記のプログラムは、例えば、コンピュータを、上記の第1の態様に係る機械学習装置として機能させるためのプログラムである。上記のプログラムは、コンピュータに、上記の第2の態様に係る機械学習方法を実行させるためのプログラムであってもよい。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
指標推定システム100のシステム構成の一例を概略的に示す。 格納部126の内部構成の一例を概略的に示す。 データテーブル300の一例を概略的に示す。 データテーブル400の一例を概略的に示す。 モデル構築部144の内部構成の一例を概略的に示す。 指標推定部166の内部構成の一例を概略的に示す。 機械学習型抽出部634の内部構成の一例を概略的に示す。 評価対象抽出部630における情報処理の一例を概略的に示す。 評価対象抽出部630における情報処理の一例を概略的に示す。 評価対象抽出部630における情報処理の一例を概略的に示す。 データテーブル1100の一例を概略的に示す。 コンピュータ3000のシステム構成の一例を概略的に示す。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、図面において、同一または類似の部分には同一の参照番号を付して、重複する説明を省く場合がある。
[指標推定システム100の概要]
図1は、指標推定システム100のシステム構成の一例を概略的に示す。本実施形態において、指標推定システム100は、(i)各種のSNSに登録された情報、ネットワーク上の各種の掲示板に登録された情報、各種のニュースで報道された情報、景況感に関する各種のアンケートにより収集された情報、顧客等との折衝において得られた情報、営業日報又は業務日報に記載された情報などを取得し、(ii)経済指標の推定値を出力する。これにより、指標推定システム100のユーザは、経済活動の状態又は動向を、政府、中央銀行などの公的機関が公表する経済指標と同等の精度で、当該経済指標の公表時期よりも早い時期に把握することができる。
政府、中央銀行などの公的機関が公表する経済指標は、例えば、政府、中央銀行などの公的機関が公表する経済活動に関する調査結果(公的な調査結果と称される場合がある。)に記載される。上記の経済指標としては、日本銀行による「企業短期経済観測調査」に記載された各種の指数、内閣府による「景気ウォッチャー調査」に記載された各種の指数、経済産業省による「生産動態統計調査」に記載された各種の指数などが例示される。「企業短期経済観測調査」に記載された指数としては、「業況判断指数」(日銀短観と称される場合がある)が例示される。「景気ウォッチャー調査」に記載された指数としては、「現状判断」が例示される。「生産動態統計調査」に記載された指数としては、各種の「鉱工業指数」が例示される。経済指標の他の例としては、内閣府から公表される景気動向指数がある。
本実施形態において、指標推定システム100は、通信部122と、入出力部124と、格納部126と、要求受付部128と、教師データ取得部142と、モデル構築部144と、サンプルデータ取得部162と、テキストデータ生成部164と、指標推定部166とを備える。本実施形態において、指標推定システム100は、通信ネットワーク10を介して、ユーザ端末12、教師データ提供サーバ14、及び、サンプルデータ提供サーバ16の少なくとも1つとの間で情報を送受することができる。
本実施形態において、通信ネットワーク10は、ユーザ端末12、教師データ提供サーバ14、及び、サンプルデータ提供サーバ16の少なくとも1つと、指標推定システム100との間で、情報を伝達する。通信ネットワーク10は、有線通信の伝送路であってもよく、無線通信の伝送路であってもよく、無線通信の伝送路及び有線通信の伝送路の組み合わせであってもよい。
通信ネットワーク10は、無線通信網、インターネット、P2Pネットワーク、専用回線、VPN、電力線通信回線などを含んでもよい。無線通信網における通信方式は、(i)3G方式、LTE方式、4G方式、5G方式などの移動体通信方式であってもよく、(ii)Bluetooth(登録商標)、Zigbee(登録商標)、NFC(Near Field Communication)のような近距離無線方式、WiFi(登録商標)のような無線LAN方式、WiMAX(登録商標)のような無線MAN方式、無線WAN方式などの無線データ通信方式であってもよい。
本実施形態において、ユーザ端末12は、通信ネットワーク10を介して指標推定システム100との間で情報を送受することのできる情報処理端末であればよく、その詳細は特に限定されない。ユーザ端末12は、指標推定システム100のユーザにより、指標推定システム100のユーザインタフェースとして利用され得る。ユーザ端末12としては、パーソナルコンピュータ、携帯端末などが例示される。携帯端末としては、携帯電話、スマートフォン、PDA、タブレット、ノートブック・コンピュータ又はラップトップ・コンピュータ、ウエアラブル・コンピュータなどが例示される。
本実施形態において、教師データ提供サーバ14は、公的な調査結果のデータを管理する。例えば、教師データ提供サーバ14は、複数の調査のそれぞれについて、当該調査の種類を示す情報と、当該調査の対象期間を示す情報と、当該調査の調査結果のデータとを対応付けて格納する。教師データ提供サーバ14は、指標推定システム100からの要求に応じて、指標推定システム100が要求する調査結果のデータを、指標推定システム100に送信する。
調査の種類の例としては、調査の名称、調査対象の種類、調査の目的、調査におけるヒアリング対象者の属性などが例示される。調査の名称としては、企業短期経済観測調査、景気ウォッチャー調査、生産動態統計調査などが例示される。調査におけるヒアリング対象者の属性としては、年齢、性別、調査対象との関連度合などが例示される。調査対象との関連度合としては、ヒアリング対象者が所属する団体の業種、当該団体の規模、当該団体が活動する地域、当該団体における当該ヒアリング対象者の肩書、当該ヒアリング対象者の職種などが例示される。ヒアリング対象者の肩書としては、所属部署、役職などが例示される。調査対象との関連度合の他の例としては、調査対象に関する予測精度、調査対象に関連する業務又は役職の経験年数などが例示される。
ヒアリング対象者及び調査対象の関連度合は、連続的な数値により表されてもよく、段階的な区分により表されてもよい。例えば、関連度合は、調査対象に対する予測精度が良好である程、関連度合を表す数値が大きくなるように設定される。関連度合は、調査対象に関連する業務又は役職の経験年数が長い程、関連度合を表す数値が大きくなるように設定されてもよい。関連度合は、役職の階級が上級であるほど、関連度合を表す数値が大きくなるように設定されてもよい。
例えば、調査対象が経済活動である場合、「次の四半期の景気が現在よりも良くなると予想し、実際に、景気が良くなった場合」、「次の四半期の景気が現在よりも良くなると予想したが、実際には景気動向に変化がなかった場合」、「次の四半期の景気が現在よりも良くなると予想したが、実際には景気が悪化した場合」の順に、関連度合を表す数値として大きな値が付与される。「次の四半期の景気が現在よりも良くなると予想し、実際に、景気が良くなった場合」の関連具合は、1以上であってよく、「次の四半期の景気が現在よりも良くなると予想したが、実際には景気動向に変化がなかった場合」及び「次の四半期の景気が現在よりも良くなると予想したが、実際には景気が悪化した場合」の関連具合は1より小さくてもよい。
本実施形態において、サンプルデータ提供サーバ16は、指標推定システム100による分析の対象となる各種のデータ(サンプルデータと称される場合がある。)を管理する。サンプルデータは、作成者又は更新者ごとに管理されてもよく、作成者又は更新者及び作成日又は更新日ごとに管理されてもよい。例えば、サンプルデータが営業日報、業務日報などのデータである場合、当該営業日報、業務日報などのデータが保存されるごとに、1つのサンプルデータとして扱われる。サンプルデータが営業日報、業務日報などのデータである場合、当該営業日報、業務日報などを作成又は更新した担当者ごとに、1つのサンプルデータとして扱われてもよい。サンプルデータが営業日報、業務日報などのデータである場合、担当者ごと、且つ、営業日ごとに、1つのサンプルデータとして扱われてもよい。例えば、サンプルデータがSNS上に投稿されたデータである場合、投稿ごとに、1つのサンプルデータとして取り扱われる。
例えば、サンプルデータ提供サーバ16は、複数のサンプルデータのそれぞれについて、(i)当該サンプルデータの作成時刻又は更新時刻を示す情報、及び、当該サンプルデータの作成者、更新者又は管理者を示す情報の少なくとも一方と、(ii)当該サンプルデータとを対応付けて格納する。サンプルデータ提供サーバ16は、複数のサンプルデータのそれぞれについて、(i)当該サンプルデータの作成時刻又は更新時刻を示す情報、及び、当該サンプルデータの作成者、更新者又は管理者を示す情報の少なくとも一方と、(ii)当該サンプルデータの種類を示す情報と、(iii)当該サンプルデータとを対応付けて格納してもよい。サンプルデータ提供サーバ16は、指標推定システム100からの要求に応じて、指標推定システム100が要求するサンプルデータを、指標推定システム100に送信する。
サンプルデータは、テキストデータであってもよく、音声データであってもよく、画像データであってもよく、任意のアプリケーションプログラム用のデータであってもよい。画像データは、静止画像データであってもよく、動画像データであってもよい。サンプルデータに含まれる情報としては、各種のSNSに登録された情報、各種のニュースで報道された情報、各種のアンケートにより収集された情報、顧客等との折衝において得られた情報、営業日報又は業務日報に記載された情報などが例示される。
サンプルデータには、情報提供者の発言若しくはジェスチャにより提示された情報、又は、情報提供者が知覚した情報が含まれてよい。ジェスチャとしては、身振り、手振り、仕草、表情などが例示される。発言、ジェスチャなどに関する情報としては、(i)発言内容又はジェスチャを示す情報、(ii)情報提供者の発言又はジェスチャに関する、上記の担当者による要約又は補足説明を示す情報などが例示される。補足説明としては、上記の発言又はジェスチャの背景、担当者の感想などが例示される。
例えば、サンプルデータが営業日報、業務日報などのデータである場合、ヒアリング作業の担当者は、ヒアリング対象者の発言、ジェスチャなどに関する情報を営業日報、業務日報などに書き込むことで、当該営業日報、業務日報などを作成又は更新する。この場合のヒアリング対象者は、情報提供者の一例であってよい。例えば、サンプルデータがSNS上に投稿されたデータである場合、投稿者は、自己が知覚した情報を、SNS上に投稿する。この場合の投稿者は、情報提供者の一例であってよい。サンプルデータの種類の詳細は後述される。
[指標推定システム100の各部の概要]
本実施形態において、通信部122は、通信ネットワーク10を介して、ユーザ端末12、教師データ提供サーバ14、及び、サンプルデータ提供サーバ16の少なくとも1つとの間で情報を送受する。例えば、通信部122は、ユーザ端末12、教師データ提供サーバ14、及び、サンプルデータ提供サーバ16の少なくとも1つに、各種の要求を送信する。通信部122は、ユーザ端末12、教師データ提供サーバ14、及び、サンプルデータ提供サーバ16の少なくとも1つから、上記の要求に対する応答を受信する。
一実施形態において、通信部122は、ユーザ端末12に対して、指標推定システム100のユーザとのインタラクションを要求する。例えば、通信部122は、ユーザ端末12に、指標推定システム100のユーザに提示される情報を送信する。通信部122は、各種の入力画面の情報を送信してよい。ユーザ端末12は、上記のインタラクションに関する要求に基づいて、通信部122から受け取った情報を、ユーザに提示する。情報の提示態様は特に限定されない。上記の情報は、画像として表示又は投影されてもよく、音声として出力されてもよい。ユーザ端末12は、ユーザに対して情報の入力を要求又は催促してよい。ユーザ端末12は、ユーザが入力した情報を、通信部122に送信してよい。これにより、通信部122は、指標推定システム100のユーザがユーザ端末12に入力した情報を取得することができる。
他の実施形態において、通信部122は、教師データ提供サーバ14に対して、特定の調査結果に関するデータの送信を要求する。これにより、通信部122は、教師データ提供サーバ14から、各種の調査結果のデータを取得することができる。取得された調査結果のデータは、例えば、モデル構築部144における機械学習用の教師データとして用いられる。
さらに他の実施形態において、通信部122は、サンプルデータ提供サーバ16に対して、特定のサンプルデータの送信を要求する。これにより、通信部122は、サンプルデータ提供サーバ16から、各種のサンプルデータを取得することができる。取得されたサンプルデータは、例えば、指標推定部166における推定処理用の入力データとして用いられる。
本実施形態において、入出力部124は、指標推定システム100のユーザからの情報の入力を受け付ける。入出力部124は、指標推定システム100のユーザに情報を提示する。入出力部124は、指標推定システム100のユーザにより、指標推定システム100のユーザインタフェースとして利用され得る。入出力部124は、キーボード、ポインティングデバイス、タッチパネル、マイク、カメラ、音声入力システム、ジェスチャ入力システムなどの入力装置を有してよい。入出力部124は、表示機器、投影機器、音声出力機器、振動機器などの出力装置を有してよい。
本実施形態において、格納部126は、各種の情報を格納する。格納部126は、指標推定システム100の情報処理において利用される情報を格納してよい。格納部126は、指標推定システム100の情報処理においせ生成された情報を格納してよい。格納部126の詳細は後述される。
本実施形態において、要求受付部128は、指標推定システム100に対する各種の要求を受け付ける。例えば、要求受付部128は、ユーザからの要求であって、指標推定システム100に関する各種の設定を登録するための要求を受け付ける。要求受付部128は、受け付けられた要求を、当該要求の処理に適した要素に転送してよい。
指標推定システム100に関する設定としては、指標推定システム100が推定する指標の種類に関する設定、指標推定システム100における機械学習に関する各種の設定、指標推定システム100に入力されるサンプルデータに関する各種の設定などが例示される。指標の種類としては、企業短期経済観測調査に記載された各種の指数、景気ウォッチャー調査に記載された各種の指数、生産動態統計調査に記載された各種の指数、景気動向指数などが例示される。機械学習に関する設定としては、機械学習用の教師データに関する設定、学習モデルに関する設定などが例示される。教師データに関する設定としては、データのURI、データ形式などが例示される。サンプルデータに関する設定としては、データのURI、データ形式などが例示される。
一実施形態において、要求受付部128が、指標推定システム100のユーザからの要求を受け付ける。要求受付部128は、ユーザ端末12又は入出力部124を介して、ユーザからの要求を取得してよい。他の実施形態において、要求受付部128は、ユーザ端末12、教師データ提供サーバ14及びサンプルデータ提供サーバ16の少なくとも1つからの要求を受け付けてよい。
本実施形態において、教師データ取得部142は、教師データ提供サーバ14に対して、特定の調査結果のデータの送信を要求する。調査結果のデータは、例えば、当該調査の種類と、当該調査の対象期間とにより特定される。これにより、教師データ取得部142は、教師データ提供サーバ14から、特定の調査結果のデータを取得することができる。
一実施形態において、教師データ取得部142は、取得された調査結果のデータを、格納部126に格納する。他の実施形態において、教師データ取得部142は、取得された調査結果のデータを、モデル構築部144に出力してよい。
本実施形態において、モデル構築部144は、教師データ取得部142が取得した調査結果のデータを教師データとして用いて、指標推定部166において利用される学習モデルを構築する。モデル構築部144の詳細は後述される。
本実施形態において、サンプルデータ取得部162は、サンプルデータ提供サーバ16に対して、特定のサンプルデータの送信を要求する。これにより、通信部122は、サンプルデータ提供サーバ16から、各種のサンプルデータを取得することができる。サンプルデータ取得部162は、1以上のサンプルデータのそれぞれを、各サンプルデータの内容に関連する時期、各サンプルデータが記録された時期、又は、各サンプルデータを含む電子ファイルが作成若しくは更新された時期を示す情報と対応づけて取得してよい。サンプルデータ取得部162は、1以上のサンプルデータのそれぞれを、各サンプルデータの情報提供者の属性を示す情報と対応付けて取得してもよい。
サンプルデータは、例えば、(i)当該サンプルデータの種類と、(ii)当該サンプルデータが作成若しくは更新された時刻、又は、当該時刻に関する範囲(上記の時刻、又は、当該時刻に関する範囲は、時期と称される場合がある。)とにより特定される。サンプルデータの種類は、例えば、当該サンプルデータを管理するサンプルデータ提供サーバ16のURLにより特定される。サンプルデータの種類は、当該種類を識別するための識別情報により特定されてもよい。サンプルデータの種類は、当該サンプルデータの名称、作成者、更新者、及び、情報提供者の少なくとも1つにより特定されてもよい。サンプルデータの種類は、当該サンプルデータの内容を示す情報を提供した情報提供者の属性により特定されてもよい。情報提供者の属性は、年齢、性別、評価対象との関連度合などが例示される。情報提供者の属性の具体例は、上述されたヒアリング対象者の属性の具体例と同様であってよい。
サンプルデータが作成又は更新された時期は、当該サンプルデータを格納する電子ファイルに当該サンプルデータが記録された時期であってもよく、当該電子ファイルが作成又は更新された時期であってもよい。なお、サンプルデータが作成又は更新された時期の代わりに、当該サンプルデータの内容に関連する時期が用いられてもよい。例えば、サンプルデータ中に、「2018年の12月の売り上げは、前年比10%増であった」というように、評価対象に関する時期を示す情報が含まれている場合、当該時期が、当該サンプルデータの内容に関連する時期として利用される。
一実施形態において、サンプルデータ取得部162は、取得されたサンプルデータを、格納部126に格納する。サンプルデータ取得部162は、取得されたサンプルデータを、当該サンプルデータの種類を区別するための情報(種別情報と称される場合がある)と対応付けて、格納部126に格納してもよい。他の実施形態において、サンプルデータ取得部162は、取得されたサンプルデータを、指標推定部166に出力してよい。さらに他の実施形態において、取得されたサンプルデータがテキストデータ以外の形式のデータである場合、又は、取得されたサンプルデータにテキストデータ以外の形式のデータが含まれる場合、サンプルデータ取得部162は、取得されたサンプルデータを、テキストデータ生成部164に出力してよい。
本実施形態において、サンプルデータ取得部162が取得したサンプルデータがテキストデータ以外の形式のデータである場合、又は、当該サンプルデータにテキストデータ以外の形式のデータが含まれる場合、テキストデータ生成部164は、当該テキストデータ以外の形式のデータから、テキストデータを生成する。テキストデータ生成部164は、特定のサンプルデータから生成されたテキストデータを、当該サンプルデータの一部として、格納部126に格納してよい。テキストデータ生成部164は、特定のサンプルデータから生成されたテキストデータを、当該サンプルデータの一部として、指標推定部166に出力してもよい。
一実施形態において、テキストデータ生成部164は、サンプルデータに含まれる音声データに対して、音声認識処理を実行することで、当該音声データに含まれる人間の音声を記録したテキストデータを生成する。他の実施形態において、テキストデータ生成部164は、サンプルデータに含まれる画像データに対して、画像認識処理を実行することで、当該画像データに含まれる文字又は手話を記録したテキストデータを生成する。
本実施形態において、指標推定部166は、サンプルデータ取得部162が取得したサンプルデータを用いて、ユーザにより指定された種類の指標の推定値を出力する。出力される指標の種類は、例えば、ユーザによる設定又は初期設定に基づいて決定される。
具体的には、まず、指標推定部166は、サンプルデータ取得部162が取得した複数のサンプルデータの中から、ユーザにより指定された期間に作成又は更新された複数のサンプルデータを抽出する。次に、指標推定部166は、抽出された複数のサンプルデータのそれぞれを1以上の文に分割することで、分析対象となる複数の文を得る。次に、指標推定部166は、分析対象となる複数の文の中から、経済活動に関連する可能性の高い文を、評価対象となる文として抽出する。
次に、指標推定部166は、評価対象となる文のそれぞれについて、当該文により示される経済活動の状態又は動向の程度を評価して、当該評価に対応するスコア(評価スコアと称される場合がある。)を付与する。次に、指標推定部166は、評価対象となる文のそれぞれに付与された評価スコアを、ユーザにより指定された指標の種類に応じて適切に処理することで、当該指標を算出する。
本実施形態によれば、指標推定システム100は、各種のSNSに登録された情報、各種のニュースで報道された情報、各種のアンケートにより収集された情報、顧客等との折衝において得られた情報(折衝記録に記載された情報と称される場合がある)、営業日報又は業務日報に記載された情報などのビックデータを利用して、評価対象の評価に関連する指標を算出することができる。指標推定部166の詳細は後述される。
本実施形態においては、指標推定システム100が、経済活動を評価対象とし、経済活動の状態又は動向を示す指標として各種の経済指標の推定値を出力する場合を例として、指標推定システム100の詳細が説明された。しかしながら、指標推定システム100の評価対象は、経済活動に限定されない。他の実施形態において、指標推定システム100は、個人、団体若しくは法人、商品若しくはサービス、又は、地域若しくはランドマークの人気度又は知名度を評価対象としてもよい。
また、本実施形態においては、指標推定システム100が、政府、中央銀行などの公的機関が公表する経済活動に関する調査結果を教師データとして利用する場合を例として、指標推定システム100の詳細が説明される。しかしながら、指標推定システム100は本実施形態に限定されない。他の実施形態において、指標推定システム100は、民間の調査機関による調査結果を教師データとして利用してもよい。
指標推定システム100は、機械学習装置の一例であってよい。通信部122は、条件取得部、種別情報取得部、期間情報取得部、テキストデータ取得部の一例であってよい。入出力部124は、条件取得部、種別情報取得部、期間情報取得部、テキストデータ取得部の一例であってよい。要求受付部128は、条件取得部、種別情報取得部、期間情報取得部、テキストデータ取得部の一例であってよい。モデル構築部144は、第1モデル構築部、及び、第2モデル構築部の一例であってよい。サンプルデータ取得部162は、種別情報取得部、及び、テキストデータ取得部の一例であってよい。テキストデータ生成部164は、種別情報取得部、及び、テキストデータ取得部の一例であってよい。指標推定部166は、抽出部、指数算出部の一例であってよい。
景況感は、経済活動に関する評価の一例であってよい。経済活動は、評価対象の一例であってよい。調査対象は、評価対象の一例であってよい。公的な調査結果は、評価情報の一例であってよい。サンプルデータは、テキストデータの一例であってよい。経済指標は、指標の一例であってよい。ヒアリング対象者は、情報提供者の一例であってよい。
[指標推定システム100の各部の具体的な構成]
指標推定システム100の各部は、ハードウエアにより実現されてもよく、ソフトウエアにより実現されてもよく、ハードウエアとソフトウエアとの組み合わせにより実現されてもよい。指標推定システム100の構成要素の少なくとも一部がソフトウエアにより実現される場合、当該ソフトウエアにより実現される構成要素は、一般的な構成の情報処理装置において、当該構成要素に関する動作を規定したプログラムを起動することにより実現されてよい。
プログラムは、CD−ROM、DVD−ROM、メモリ、ハードディスクなどのコンピュータ読み取り可能な媒体に記憶されていてもよく、ネットワークに接続された記憶装置に記憶されていてもよい。プログラムは、コンピュータ読み取り可能な媒体又はネットワークに接続された記憶装置から、指標推定システム100の少なくとも一部を構成するコンピュータにインストールされてよい。プログラムが実行されることにより、コンピュータが、指標推定システム100の各部の少なくとも一部として機能してもよい。
コンピュータを指標推定システム100の各部の少なくとも一部として機能させるプログラムは、指標推定システム100の各部の動作を規定したモジュールを備えてよい。これらのプログラム又はモジュールは、データ処理装置、入力装置、出力装置、記憶装置等に働きかけて、コンピュータを指標推定システム100の各部として機能させたり、コンピュータに指標推定システム100の各部における情報処理方法を実行させたりする。
プログラムに記述された情報処理は、当該プログラムがコンピュータに読込まれることにより、当該プログラムに関連するソフトウエアと、指標推定システム100の各種のハードウエア資源とが協働した具体的手段として機能する。そして、上記の具体的手段が、本実施形態におけるコンピュータの使用目的に応じた情報の演算又は加工を実現することにより、当該使用目的に応じた指標推定システム100が構築される。
上記のプログラムは、コンピュータに、機械学習方法を実行させるためのプログラムであってよい。上記の機械学習方法は、例えば、(i)評価対象に関する評価、及び、(ii)評価対象の状態又は評価の理由を示す1以上の説明文が対応付けられた評価情報に含まれる1以上の説明文を教師データとして利用して、入力された文が、評価対象の状態、評価対象に対する評価又は評価の理由を示す文であるか否かを判定するための第1学習モデルを構築する第1モデル構築段階を有する。上記の機械学習方法は、例えば、第1モデル構築段階において構築された第1学習モデルを用いて、テキストデータに含まれる1以上の文の中から、評価対象に関連する文を抽出する抽出段階を有する。
図2は、格納部126の内部構成の一例を概略的に示す。本実施形態において、格納部126は、設定情報格納部222と、サンプルデータ格納部226と、教師データ格納部224と、モデル情報格納部228とを備える。
本実施形態において、設定情報格納部222は、要求受付部128が受け付けた、指標推定システム100に関する設定を示す情報を格納する。上記の設定としては、指標推定システム100が推定する指標の種類に関する設定、指標推定システム100における機械学習に関する各種の設定、指標推定システム100に入力されるサンプルデータに関する各種の設定などが例示される。
本実施形態において、教師データ格納部224は、教師データ取得部142が取得した各種のデータを、モデル構築部144のモデル構築処理において利用される教師データとして格納する。教師データ格納部224は、例えば、複数の教師データのそれぞれについて、当該データの識別情報と、当該データの種類を示す情報及び当該データの対象期間を示す情報の少なくとも一方と、当該データとを対応付けて格納してよい。
データの種類は、当該データの内容を示す情報を提供した情報提供者の属性であってよい。教師データが各種の調査結果のデータである場合、情報提供者としては、当該調査におけるヒアリング対象者が例示される。上記のデータが特定の調査結果のデータである場合、データの種類の具体例は、上述された調査の種類の具体例と同様であってよい。
本実施形態において、サンプルデータ格納部226は、サンプルデータ取得部162が取得したサンプルデータを格納する。サンプルデータ格納部226は、複数のサンプルデータのそれぞれについて、(i)当該サンプルデータの識別情報と、(ii)当該サンプルデータの種類を示す情報、当該サンプルデータの作成時刻又は更新時刻を示す情報、及び、当該サンプルデータの作成者、更新者又は管理者を示す情報の少なくとも1つと、(iii)当該サンプルデータとを対応付けて格納してよい。サンプルデータ格納部226は、複数のサンプルデータのそれぞれについて、当該サンプルデータとともに、又は、当該サンプルデータに代えて、テキストデータ生成部164が生成したテキストデータを格納してよい。
本実施形態において、モデル情報格納部228は、モデル構築部144が構築した学習モデルに関する各種の情報を格納する。例えば、モデル情報格納部228は、複数の学習モデルのそれぞれについて、当該モデルの識別情報と、当該モデルのアルゴリズムを示す情報と、当該モデルのパラメータの値を示す情報とを対応付けて格納する。モデル情報格納部228は、複数の学習モデルのそれぞれについて、当該モデルに関する他の情報を格納してもよい。
図3は、データテーブル300の一例を概略的に示す。データテーブル300は、教師データ格納部224に格納された教師データの一例であってよい。データテーブル300は、特定の期間を対象期間とする景気ウォッチャー調査の一例であってよい。
景気ウォッチャー調査は、地域の景気に関連の深い動きを観察できる立場にある人々(ヒアリング対象者と称される場合がある。)の協力を得て、地域ごとに景気動向を的確かつ迅速に把握し、景気動向判断の基礎資料とすることを目的として実施される。景気ウォッチャー調査における調査項目としては、(i)景気の現状に対する判断、(ii)現状に対する判断の理由、(iii)上記の理由に関する追加説明、及び、具体的状況の説明、(iv)景気の先行きに対する判断、(v)先行きに対する判断の理由などが例示される。
本実施形態において、データテーブル300は、経済活動の分野を示す情報312と、調査対象となる地域を示す情報314と、ヒアリング対象者の業種及び職種を示す情報316と、景気の現状判断を示す情報322と、判断の理由を示す情報324と、追加説明及び具体的状況の説明を示す情報326とを対応付けて格納する。データテーブル300の各行は、評価情報の一例であってよい。経済活動の分野を示す情報312、調査対象となる地域を示す情報314、及び、ヒアリング対象者の業種及び職種を示す情報316のそれぞれは、調査の種類の一例であってよい。景気の現状判断を示す情報322は、評価対象に関する評価の一例であってよい。判断の理由を示す情報324は、評価の理由を示す説明文の一例であってよい。追加説明及び具体的状況の説明を示す情報326は、評価対象の状態を示す説明文の一例であってよい。
なお、データテーブル300のデータ構造は本実施形態に限定されない。他の実施形態において、データテーブル300は、経済活動の分野を示す情報312、調査対象となる地域を示す情報314、及び、ヒアリング対象者の業種及び職種を示す情報316、判断の理由を示す情報324の少なくとも1つを備えなくてもよい。さらに他の実施形態において、データテーブル300は、データテーブル300の各行を識別するための識別情報を格納するための列、調査の種類を示す情報を格納するための列、及び、調査が実施された時期を示す情報を格納するための列の少なくとも1つをさらに備えてもよい。
図4は、データテーブル400の一例を概略的に示す。データテーブル400は、サンプルデータ格納部226に格納されたサンプルデータの一例であってよい。本実施形態においては、サンプルデータとして、企業の営業担当者が、顧客との会話、折衝などの内容を記録した営業日報が入力された場合を例として、データテーブル400の詳細が説明される。しかしながら、サンプルデータが本実施形態に限定されないことに留意されたい。本実施形態において、上記の顧客は、ヒアリング対象者の一例であってよい。
本実施形態において、データテーブル400の各行(レコードと称される場合がある。)には、単一の文の情報が格納される。例えば、単一のサンプルデータに複数の文が含まれる場合、データテーブル400は、当該サンプルデータに関する情報を、複数のレコードに分割して格納する。複数のレコードのそれぞれには、上記の複数の文のそれぞれに関する情報が格納される。
本実施形態において、データテーブル400は、サンプルID412と、センテンスID414と、各文の記録時刻を示す情報416と、各文の内容を示す情報418と、データの種類を示す情報420とを対応づけて格納する。サンプルID412は、複数のサンプルデータのそれぞれを識別することのできる情報であればよく、その詳細は特に限定されない。センテンスID414は、複数の文のそれぞれを識別することのできる情報であればよく、その詳細は特に限定されない。
記録時刻を示す情報416は、複数の文のそれぞれが作成又は更新された時刻を示す。内容を示す情報418は、複数の文のそれぞれの内容を示す。データの種類を示す情報420は、複数の文のそれぞれの種類を示す。文の種類としては、当該文が含まれていたサンプルデータの種類、当該文の内容を示す情報を提供した情報提供者の属性などが例示される。サンプルデータが営業日報、業務日報又は折衝記録に関するテキストデータである場合、情報提供者としては、ヒアリング対象となった顧客などが例示される。
図4に示された例によれば、データの種類を示す情報420として、情報提供者の属性を示す情報が格納されている。上記の属性は、例えば、サンプルデータ取得部162が、営業日報の文章又は各文を解析することにより、各文に付与される。上記の属性は、営業担当者が、営業日報の文章又は各文に対応する属性を入出力部124に入力することにより、各文に付与されてもよい。
なお、データテーブル400のデータ構造は本実施形態に限定されない。他の実施形態において、複数の文のそれぞれについて、データテーブル400は、サンプルID412と、センテンスID414と、内容を示す情報418とを対応付けて格納する第1のデータテーブルと、複数のサンプルデータのそれぞれについて、サンプルID412と、記録時刻を示す情報416とを対応付けて格納する第2のデータテーブルとに分割されていてもよい。
図5は、モデル構築部144の内部構成の一例を概略的に示す。本実施形態において、モデル構築部144は、抽出用モデル構築部522と、評価用モデル構築部524とを備える。
上述のとおり、モデル構築部144は、指標推定部166において利用される各種の学習モデルを構築する。上述のとおり、指標推定部166は、分析対象となる複数の文の中から、経済活動に関連する可能性の高い文を、評価対象となる文として抽出する。また、指標推定部166は、評価対象となる文のそれぞれについて、当該文により示される経済活動の状態又は動向の程度を評価して、当該評価に対応するスコアを付与する。
本実施形態において、抽出用モデル構築部522は、上記の分析対象となる複数の文の中から、評価対象となる文を抽出するための学習モデルを構築する。具体的には、抽出用モデル構築部522は、(i)評価対象に関する評価、及び、(ii)評価対象の状態又は評価の理由を示す1以上の説明文が対応付けられた評価情報に含まれる1以上の説明文を教師データとして利用して、入力された文が、評価対象の状態、評価対象に対する評価又は評価の理由を示す文であるか否かを判定するための学習モデルを構築する。
例えば、抽出用モデル構築部522は、データテーブル300を構成する複数のレコードの追加説明及び具体的状況の説明を示す情報326を教師データとして利用して、入力された文が、(i)経済活動に対する評価、(ii)経済活動の状態、又は、(iii)当該評価の理由を示す文であるか否かを判定するための学習モデルを構築する。上記の学習モデルによれば、当該学習モデルに入力された複数の文のそれぞれは、追加説明及び具体的状況の説明を示す情報326に含まれる文に類似する文と、追加説明及び具体的状況の説明を示す情報326に含まれる文に類似しない文とに分類される。そして、追加説明及び具体的状況の説明を示す情報326に含まれる文に類似する文は、(i)経済活動に対する評価、(ii)経済活動の状態、又は、(iii)当該評価の理由を示す文であると判定される。
上記の学習モデルの種類は、特に限定されない。学習モデルの種類としては、ニューラルネットワークモデル(NNと略称される場合がある)、畳み込みニューラルネットワーク(CNNと略称される場合がある。)、ロジスティック回帰モデル(LRと略称される場合がある)、シンプルワードエンベッディングモデル(SWEMと略称される場合がある)、ロングショートタームメモリモデル(LSTMと略称される場合がある)、Bidirectional LTSMなどが例示される。
上記の学習モデルは、入力された文を、「(i)経済活動に対する評価、(ii)経済活動の状態、又は、(iii)当該評価の理由を示す第1の文」、又は、「第1の文ではない第2の文」の何れかに分類する文章分類器を含んでよい。上記の学習モデルは、「評価対象の状態又は評価の理由を示す文」、又は、「評価対象の状態又は評価の理由を示す文ではない文」の何れかに分類する文章分類器を含んでもよい。文章分類器は、センテンスエンベッディングの生成器と、分類器とのペアにより構成されてよい。上記の学習モデルは、複数の文章分類器を含んでよい。
抽出用モデル構築部522は、サンプルデータの種類に応じた学習モデルを構築してもよい。抽出用モデル構築部522は、サンプルデータの種類に応じて、利用される学習モデルの種類を決定してよい。抽出用モデル構築部522は、サンプルデータの種類に応じて、利用される学習モデルの種類の数を決定してよい。抽出用モデル構築部522は、サンプルデータの種類に応じて、利用される学習モデルの組み合わせを決定してもよい。サンプルデータは、学習モデルの入力データの一例であってよい。入力データの他の例としては、サンプルデータに含まれる1以上の文のデータが挙げられる。
抽出用モデル構築部522は、サンプルデータに含まれる1以上の文のそれぞれと、各文の種類を示す情報とが対応付けられた情報を教師データとして用いて、上記の学習モデルを構築してもよい。これにより、例えば、各文に関する情報提供者の属性に応じた判定結果を出力する学習モデルが構築される。
本実施形態において、評価用モデル構築部524は、上記の評価対象となる文のそれぞれに、評価スコアを付与するための学習モデルを構築する。具体的には、評価情報を教師データとして利用して、入力された文に評価スコアを付与するための学習モデルを構築する。
例えば、評価用モデル構築部524は、データテーブル300を構成する複数のレコードの景気の現状判断を示す情報322と、追加説明及び具体的状況の説明を示す情報326とを教師データとして利用して、入力された文に評価スコアを付与するための学習モデルを構築する。
上記の学習モデルの種類は、特に限定されない。上記の学習モデルは、畳み込みニューラルネットワークを利用した回帰モデルであってよい。
データテーブル300において、景気の現状判断が段階的な区分により示されている場合、評価用モデル構築部524は、各区分に対応するスコアを決定してよい。これにより、各文に付与する評価スコアを連続的な数値で表現することができる。例えば、景気の現状判断が、「良くなる」、「やや良くなる」、「変わらない」、「やや悪くなる」及び「悪くなる」という5段階評価で表されている場合、評価用モデル構築部524は、「良くなる」という評価に2というスコアを付与する。同様に、評価用モデル構築部524は、「やや良くなる」、「変わらない」、「やや悪くなる」及び「悪くなる」という評価のそれぞれに、1、0、−1及び−2というスコアを付与する。これにより、評価用モデル構築部524が構築した学習モデルは、入力された文の評価スコアとして、−2から2までの範囲で任意の数値を付与する。
抽出用モデル構築部522は、第2モデル構築部の一例であってよい。評価用モデル構築部524は、第1モデル構築部の一例であってよい。
図6は、指標推定部166の内部構成の一例を概略的に示す。本実施形態において、指標推定部166は、種別判定部620と、評価対象抽出部630と、評価部640と、指標生成部650とを備える。本実施形態において、評価対象抽出部630は、キーワード型抽出部632と、機械学習型抽出部634とを有する。
種別判定部620は、分析対象として指標推定部166に入力されたサンプルデータの種類を判定する。例えば、種別判定部620は、格納部126を参照して、入力されたサンプルデータの種別情報を取得し、当該種別情報に基づいて、サンプルデータの種類を判定する。種別判定部620は、入力されたサンプルデータの内容を解析して、当該サンプルデータの種類を判定してもよい。
種別判定部620は、判定結果を示す情報を、例えば、評価対象抽出部630に出力する。種別判定部620は、判定結果を示す情報を、評価部640に出力してもよい。一実施形態において、種別判定部620は、サンプルデータごとに、当該サンプルデータの種類を示す情報を、評価対象抽出部630及び評価部640の少なくとも一方に出力する。他の実施形態において、種別判定部620は、サンプルデータに含まれる1以上の文のそれぞれについて、当該文の種類を示す情報を、評価対象抽出部630及び評価部640の少なくとも一方に出力する。
種別判定部620は、入力されたサンプルデータの種類に関する判定結果を利用して、単一のサンプルデータを構成する1又は複数の文のそれぞれに対して、当該文の種類を示す情報を付与してもよい。種別判定部620は、各文の種類を示す情報を、サンプルデータ格納部226に格納してよい。例えば、種別判定部620は、各文の種類を示す情報を、データテーブル400に格納する。
一実施形態において、種別判定部620は、単一のサンプルデータと、単一の種類とを対応付ける。例えば、種別判定部620は、単一のサンプルデータを構成する1又は複数の文のそれぞれに対して、当該文の種類を示す情報として、同一の情報を付与する。例えば、サンプルデータの種類を示す情報により、当該サンプルデータが特定のSNSに投稿された情報であることが示される場合、種別判定部620は、当該サンプルデータに含まれる全ての文に対して、当該文が特定のSNSに投稿された情報であることを示す情報を付与する。
他の実施形態において、種別判定部620は、単一のサンプルデータと、複数の種類とを対応付ける。例えば、種別判定部620は、単一のサンプルデータを構成する複数の文のうち、第1の群に属する1以上の文、及び、第2の群に属する1以上の文のそれぞれに対して、各群に属する文の種類を示す情報として、異なる情報を付与する。例えば、サンプルデータの種類を示す情報により、当該サンプルデータが折衝記録、営業日報又は業務日報に記録された情報であることが示される場合、種別判定部620は、第1のヒアリング対象者から得られた情報に関する文章に含まれる文には、第1のヒアリング対象者の属性を示す情報を付与し、第2のヒアリング対象者から得られた情報に関する文章に含まれる文には、第2のヒアリング対象者の属性を示す情報を付与する。
本実施形態において、評価対象抽出部630は、設定情報格納部222を参照して、分析対象となる期間に関する設定情報を取得する。評価対象抽出部630は、サンプルデータ格納部226を参照して、分析対象となる期間に合致する時期に作成又は更新されたサンプルデータ(分析対象となるサンプルデータと称される場合がある)を取得する。評価対象抽出部630は、分析対象となる複数のサンプルデータのそれぞれに関するテキストデータを、各サンプルデータの内容に関連する時期、各サンプルデータが記録された時期、又は、各サンプルデータを含む電子ファイルが作成若しくは更新された時期を示す情報と対応づけて取得する。評価対象抽出部630は、分析対象となる複数のサンプルデータのそれぞれに関するテキストデータを、各サンプルデータの情報提供者の属性を示す情報と対応付けて取得してもよい。その後、評価対象抽出部630は、抽出用モデル構築部522が構築した学習モデルを用いて、上記のサンプルデータに含まれる1以上の文の中から、経済活動に関連する文を抽出する。
本実施形態において、評価対象抽出部630は、少なくとも、機械学習型抽出部634を利用して、サンプルデータに含まれる1以上の文の中から、経済活動に関連する文を抽出する。評価対象抽出部630は、抽出された文を、評価部640に出力する。
評価対象抽出部630は、キーワード型抽出部632及び機械学習型抽出部634を利用して、サンプルデータに含まれる1以上の文の中から、経済活動に関連する文を抽出してもよい。評価対象抽出部630は、サンプルデータの種類に基づいて、キーワード型抽出部632を用いた抽出処理と、機械学習型抽出部634を用いた抽出処理との組み合わせ方を決定してよい。
本実施形態において、キーワード型抽出部632は、サンプルデータに含まれる1以上の文の中から、予め定められたキーワード又はキーフレーズに関する条件に合致する文を抽出する。例えば、キーワード型抽出部632は、サンプルデータに含まれる1以上の文の中から、キーワードを含む文、キーフレーズに合致する文、キーワードに類似する単語を含む文、及び、キーフレーズに類似する条件に合致する文の少なくとも1つ(キーワードなどに合致する文と称される場合がある。)を、経済活動に関連する文、又は、経済活動に関連する文の候補として抽出する。
キーワード型抽出部632は、設定情報格納部222を参照して、キーワード又はキーフレーズに関する条件を示す設定情報を取得してよい。キーワード又はキーフレーズに関する設定情報は、キーワードを示す情報、及び、キーフレーズを示す情報の少なくとも一方を含む。キーワード又はキーフレーズに関する設定情報は、キーワードに類似する単語を含む文を抽出するか否かを示す情報、及び、キーフレーズに類似する条件に合致する文を抽出するか否かを示す情報の少なくとも一方を含んでもよい。
キーワード型抽出部632は、種別判定部620の判定結果に基づいて、抽出処理の条件を決定してもよい。これにより、入力されるデータの種類に応じた、適切な条件が設定される。一実施形態において、キーワード型抽出部632は、種別判定部620の判定結果に基づいて、キーワードに類似する単語を決定してよい。キーワード型抽出部632は、種別判定部620の判定結果に基づいて、キーワードに類似する単語の個数を決定してもよい。他の実施形態において、キーワード型抽出部632は、種別判定部620の判定結果に基づいて、キーフレーズに類似する条件を決定してよい。キーワード型抽出部632は、種別判定部620の判定結果に基づいて、キーフレーズに類似する条件の個数を決定してもよい。
キーワード型抽出部632は、種別判定部620の判定結果に基づいて、サンプルデータに含まれる1以上の文の中から、キーワードを含む文、キーフレーズに合致する文、キーワードに類似する単語を含む文、及び、キーフレーズに類似する条件に合致する文の少なくとも1つを、(i)経済活動に関連する文として抽出するか、又は、(ii)経済活動に関連する文の候補として抽出するかを決定してもよい。例えば、経済活動に関連する文として抽出された文は、評価部640に出力される。一方、経済活動に関連する文の候補として抽出された文は、機械学習型抽出部634に出力される。
キーワードなどに合致する文だけでなく、キーワードなどに合致する文の近傍に配された1以上の文も、その他の文と比較して、経済活動に関連する文である可能性が高い。そこで、キーワード型抽出部632は、連続する2以上の文を含む文章であって、キーワードを含む文、キーフレーズに合致する文、キーワードに類似する単語を含む文、及び、キーフレーズに類似する条件に合致する文の少なくとも1つを含む文章を、経済活動に関連する文の候補として抽出してもよい。
この場合において、キーワード型抽出部632は、種別判定部620の判定結果に基づいて、上記の文章に含まれる文の個数を決定してもよい。一実施形態において、上記の文の個数は、サンプルデータに含まれるノイズが多いほど、上記の文の個数が少なくなるように設定されてよい。ここで、ノイズとは、経済活動に関連しない文を示す。これにより、評価部640に出力される1以上の文にノイズが混入することが抑制され得る。他の実施形態において、上記の文の個数は、サンプルデータに含まれるノイズが多いほど、上記の文の個数が多くなるように設定されてもよい。これにより、経済活動に関連する文の抽出漏れが抑制され得る。
本実施形態において、機械学習型抽出部634は、抽出用モデル構築部522が構築した学習モデルを利用して、サンプルデータに含まれる1以上の文の中から、経済活動に関連する文を抽出する。具体的には、機械学習型抽出部634は、サンプルデータに含まれる1以上の文の少なくとも一部を学習モデルに入力し、当該学習モデルが、経済活動の状態を示す文又は経済活動に関する評価の理由を示す文であると判定した文を、経済活動に関連する文として抽出する。
一実施形態において、機械学習型抽出部634は、分析対象となるサンプルデータの全てを、学習モデルに入力する。他の実施形態において、機械学習型抽出部634は、キーワード型抽出部632が経済活動に関連する文の候補として抽出した文を、学習モデルに入力する。さらに他の実施形態において、機械学習型抽出部634は、分析対象となるサンプルデータのうち、キーワード型抽出部632により抽出されなかった文を、学習モデルに入力する。
本実施形態において、評価部640は、評価対象抽出部630が抽出した文に、評価スコアを付与する。評価部640は、評価用モデル構築部524が構築した学習モデルを用いて、評価対象抽出部630が抽出した文に、評価スコアを付与してよい。例えば、評価部640は、評価用モデル構築部524が構築した学習モデルに、評価対象抽出部630が抽出した1以上の文のそれぞれを入力する。評価部640は、学習モデルの出力を、各文の評価スコアとして決定する。
評価部640は、種別判定部620の判定結果を利用して、評価対象抽出部630が抽出した文に評価スコアを付与してもよい。例えば、評価部640は、評価用モデル構築部524が構築した学習モデルに、評価対象抽出部630が抽出した1以上の文のそれぞれと、各文に関する種別判定部620の判定結果とを入力する。評価部640は、学習モデルの出力を、各文の評価スコアとして決定する。
上述されたとおり、各文のデータの種類は、例えば、各文が含まれていたサンプルデータのURI、当該サンプルデータの作成者又は更新者、当該サンプルデータに関する情報提供者の属性などに基づき決定される。評価部640は、種別判定部620の判定結果として、例えば、情報提供者の属性を利用する。これにより、評価部640は、評価対象抽出部630が抽出した複数の文のそれぞれに対して、各文に関する情報提供者の属性に基づいて、評価対象に関する評価を付与することができる。
評価部640は、情報提供者の評価対象に対する造詣が深い程、当該情報提供者により提供された情報が、指標生成部650により生成される指標に与える影響が大きくなるように、評価スコアを付与してよい。例えば、指標生成部650が、日銀短観の代替となり得る指標を生成する場合、不特定多数のユーザが利用することのできるSNS上に、匿名の投稿者により投稿された情報よりも、企業の経営者により提供された情報の方が、情報源として相応しい。そこで、例えば、公的な調査のヒアリング対象者の属性と、情報提供者の属性との類似度合が予め定められた基準よりも大きい場合、評価部640は、学習モデルの出力値が所定値より大きいときには、学習モデルの出力値よりも大きな値を評価スコアとして決定し、学習モデルの出力値が所定値より小さいときには、学習モデルの出力値よりも小さな値を評価スコアとして決定する。
これにより、評価スコアの決定において、例えば、各文に関する情報提供者の属性が考慮され得る。教師データとして用いられる景気ウォッチャー調査、生産動態統計調査などにおいては、ヒアリング対象者として、特定の属性を有する個人、団体又は法人が選択される。そのため、教師データとして用いられた調査のヒアリング対象者と、評価対象として入力された各文に関する情報提供者の属性とが合致又は類似する場合に、当該類似の度合を考慮した評価スコアが付与されることにより、指標生成部650により生成される指標の信頼性が向上する。
評価部640は、種別判定部620の判定結果を利用して、評価用モデル構築部524が構築した学習モデルが出力したスコアを補正することで、評価対象抽出部630が抽出した文に、評価スコアを付与してもよい。例えば、まず、評価部640は、評価用モデル構築部524が構築した学習モデルに、評価対象抽出部630が抽出した1以上の文のそれぞれを入力する。評価部640は、学習モデルの出力を、各文の評価スコアの暫定値として決定する。次に、評価部640は、例えば、学習モデルの出力に、各文のデータの種類に応じた補正係数を乗じて得られた値を、各文の評価スコアとして決定する。
評価部640は、種別判定部620の判定結果として、例えば、情報提供者の属性を利用する。これにより、評価部640は、評価対象抽出部630が抽出した複数の文のそれぞれに対して、各文に関する情報提供者の属性に基づいて、評価対象に関する評価を付与することができる。
例えば、補正係数の値を、上記の情報提供者及び評価対象の関連度合が大きいほど、当該補正係数の値が大きくなるように設定することで、指標生成部650により生成される指標の精度が向上し得る。例えば、補正係数の値を、上記の情報提供者による過去の景気予測の精度が高いほど、当該補正係数の値が大きくなるように設定することで、指標生成部650により生成される経済指標の精度が向上し得る。
本実施形態において、指標生成部650は、評価対象抽出部630が抽出した複数の文のそれぞれに付与された評価スコアに基づいて、分析対象期間における経済活動の状態を示す指標を算出する。指標の算出方法は、指標の種類に応じて適切に決定される。これにより、指標推定システム100は、分析対象期間における指標の推定値を出力することができる。
一実施形態において、指標生成部650は、評価対象抽出部630が抽出した複数の文のそれぞれに付与された評価スコアを集計することで、指標を算出する。他の実施形態において、指標生成部650は、評価対象抽出部630が抽出した複数の文のそれぞれに付与された評価スコアの統計値を用いて、指標を算出する。統計値としては、平均値、中央値、四分位数、分散などが例示される。さらに他の実施形態において、指標生成部650は、評価対象抽出部630が抽出した複数の文のそれぞれに付与された評価スコア及びその統計値の少なくとも一方を、予め定められた数式に代入する、又は、予め定められたアルゴリズムに基づいて処理することで、指標を算出する。指標生成部650は、種別判定部620の判定結果を利用して、上記の数式又はアルゴリズムのパラメータを決定してもよい。指標生成部650は、情報提供者の属性を利用して、上記の数式又はアルゴリズムのパラメータを決定してもよい。
指標生成部650は、算出された指標を正規化してもよい。一実施形態において、指標生成部650は、分析対象期間よりも長い期間における指標の最大値及び最小値を利用して、当該指標を正規化する。他の実施形態において、指標生成部650は、評価スコアが付与された文の個数を利用して、指標を正規化してもよい。
種別判定部620は、種別情報取得部の一例であってよい。評価対象抽出部630は、期間情報取得部、及び、抽出部の一例であってよい。キーワード型抽出部632は、条件取得部、及び、第2抽出部の一例であってよい。機械学習型抽出部634は、第1抽出部の一例であってよい。評価部640は、評価付与部の一例であってよい。指標生成部650は、指標算出部の一例であってよい。
図7は、機械学習型抽出部634の内部構成の一例を概略的に示す。本実施形態において、機械学習型抽出部634は、学習モデル720と、判定部740とを備える。本実施形態において、学習モデル720は、文章分類器722と、文章分類器724と、文章分類器726と、文章分類器728とを有する。
本実施形態において、学習モデル720に含まれる、文章分類器722、文章分類器724、文章分類器726及び文章分類器728のそれぞれは、入力された文が、経済活動の状態又は経済活動に関する評価の理由を示す文であることの確からしさを示すスコアを、判定部740に出力する。判定部740は、文章分類器722、文章分類器724、文章分類器726及び文章分類器728のそれぞれが出力したスコアの合計値が、予め定められた閾値よりも大きい場合に、入力された文を、経済活動に関連する文として抽出する。
本実施形態において、文章分類器722は、センテンスエンベディングの生成器としてTF−IDFモデルを利用し、分類器としてLRモデルを利用する。本実施形態において、文章分類器724は、センテンスエンベディングの生成器としてLSTMモデルを利用し、分類器としてNNモデルを利用する。本実施形態において、文章分類器726は、センテンスエンベディングの生成器としてCNNモデルを利用し、分類器としてNNモデルを利用する。本実施形態において、文章分類器728は、センテンスエンベディングの生成器としてSWEMモデルを利用し、分類器としてLRモデルを利用する。
学習モデル720の構成は、種別判定部620の判定結果に基づいて決定されてよい。例えば、学習モデル720を構成する文章分類器に用いられるモデルの種類は、種別判定部620の判定結果に基づいて決定される。学習モデル720を構成する文章分類器に用いられるモデルの組み合わせは、種別判定部620の判定結果に基づいて決定されてよい。学習モデル720を構成する文章分類器の個数は、種別判定部620の判定結果に基づいて決定されてよい。
図8、図9及び図10を用いて、評価対象抽出部630が、キーワード型抽出部632及び機械学習型抽出部634を利用して、サンプルデータに含まれる1以上の文の中から、経済活動に関連する文を抽出する情報処理の概要が説明される。図8は、評価対象抽出部630における情報処理の一例を概略的に示す。図9は、評価対象抽出部630における情報処理の他の例を概略的に示す。図10は、評価対象抽出部630における情報処理のさらに他の例を概略的に示す。
なお、評価対象抽出部630における情報処理はこれらの実施形態に限定されない。他の実施形態において、評価対象抽出部630は、機械学習型抽出部634のみを利用して、サンプルデータに含まれる1以上の文の中から、経済活動に関連する文を抽出する。
図8に示された実施形態によれば、分析対象となるサンプルデータの全てが、まず、キーワード型抽出部632に入力される。本実施形態によれば、キーワード型抽出部632により抽出された全ての文が、機械学習型抽出部634に入力される。一方、キーワード型抽出部632により抽出されなかった文は、機械学習型抽出部634に入力されない。
図9に示された実施形態によれば、分析対象となるサンプルデータの全てが、まず、キーワード型抽出部632に入力される。本実施形態によれば、キーワード型抽出部632により抽出されなかった文が、機械学習型抽出部634に入力される。一方、キーワード型抽出部632により抽出された文は、機械学習型抽出部634に入力されることなく、評価部640に出力される。
図10に示された実施形態によれば、分析対象となるサンプルデータの全てが、まず、キーワード型抽出部632に入力される。本実施形態によれば、キーワード型抽出部632により抽出された文の一部は、機械学習型抽出部634に入力されることなく、評価部640に出力される。一方、キーワード型抽出部632により抽出された文の残りの部分は、機械学習型抽出部634に入力される。
例えば、キーワード型抽出部632は、連続する2以上の文を含む文章であって、キーワードを含む文、キーフレーズに合致する文、キーワードに類似する単語を含む文、及び、キーフレーズに類似する条件に合致する文の少なくとも1つを含む文章を、経済活動に関連する文の候補として抽出する場合を考える。この場合において、キーワードを含む文、キーフレーズに合致する文、キーワードに類似する単語を含む文、及び、キーフレーズに類似する条件に合致する文は、経済活動に関連する文である可能性が比較的高い。そこで、これらの文は、機械学習型抽出部634に入力されることなく、評価部640に出力される。一方、キーワード型抽出部632が抽出した残りの文は、経済活動に関連する文である可能性が比較的低い。そこで、これらの文は、機械学習型抽出部634に入力される。
図11は、データテーブル1100の一例を概略的に示す。本実施形態において、データテーブル1100の各行は、評価部640の評価結果の一例であってよい。本実施形態において、データテーブル1100は、サンプルID1112と、センテンスID1114と、記録時刻を示す情報1116と、評価スコアを示す情報1118とを示す。サンプルID1112、センテンスID1114、及び、記録時刻を示す情報1116のそれぞれは、サンプルID412、センテンスID414及び記録時刻を示す情報416と同様の構成を有してよい。評価スコアを示す情報1118は、評価部640により付与された評価スコアを示す。
図12は、本発明の複数の態様が全体的又は部分的に具現化されてよいコンピュータ3000の一例を示す。例えば、指標推定システム100は、コンピュータ3000により実現される。
コンピュータ3000にインストールされたプログラムは、コンピュータ3000に、本発明の実施形態に係る装置に関連付けられるオペレーション又は当該装置の1又は複数の「部」として機能させ、又は当該オペレーション又は当該1又は複数の「部」を実行させることができ、及び/又はコンピュータ3000に、本発明の実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ3000に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、CPU3012によって実行されてよい。
本実施形態によるコンピュータ3000は、CPU3012、RAM3014、グラフィックコントローラ3016、及びディスプレイデバイス3018を含み、それらはホストコントローラ3010によって相互に接続されている。コンピュータ3000はまた、通信インターフェース3022、ハードディスクドライブ3024、DVD−ROMドライブ3026、及びICカードドライブのような入出力ユニットを含み、それらは入出力コントローラ3020を介してホストコントローラ3010に接続されている。コンピュータはまた、ROM3030及びキーボード3042のようなレガシの入出力ユニットを含み、それらは入出力チップ3040を介して入出力コントローラ3020に接続されている。
CPU3012は、ROM3030及びRAM3014内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ3016は、RAM3014内に提供されるフレームバッファ等又はそれ自体の中に、CPU3012によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス3018上に表示されるようにする。
通信インターフェース3022は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブ3024は、コンピュータ3000内のCPU3012によって使用されるプログラム及びデータを格納する。DVD−ROMドライブ3026は、プログラム又はデータをDVD−ROM3001から読み取り、ハードディスクドライブ3024にRAM3014を介してプログラム又はデータを提供する。ICカードドライブは、プログラム及びデータをICカードから読み取り、及び/又はプログラム及びデータをICカードに書き込む。
ROM3030はその中に、アクティブ化時にコンピュータ3000によって実行されるブートプログラム等、及び/又はコンピュータ3000のハードウエアに依存するプログラムを格納する。入出力チップ3040はまた、様々な入出力ユニットをパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ3020に接続してよい。
プログラムが、DVD−ROM3001又はICカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもあるハードディスクドライブ3024、RAM3014、又はROM3030にインストールされ、CPU3012によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ3000に読み取られ、プログラムと、上記様々なタイプのハードウエアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ3000の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。
例えば、通信がコンピュータ3000及び外部デバイス間で実行される場合、CPU3012は、RAM3014にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インターフェース3022に対し、通信処理を命令してよい。通信インターフェース3022は、CPU3012の制御の下、RAM3014、ハードディスクドライブ3024、DVD−ROM3001、又はICカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。
また、CPU3012は、ハードディスクドライブ3024、DVD−ROMドライブ3026(DVD−ROM3001)、ICカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM3014に読み取られるようにし、RAM3014上のデータに対し様々なタイプの処理を実行してよい。CPU3012は次に、処理されたデータを外部記録媒体にライトバックしてよい。
様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU3012は、RAM3014から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM3014に対しライトバックする。また、CPU3012は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU3012は、当該複数のエントリの中から、第1の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
上で説明したプログラム又はソフトウエアモジュールは、コンピュータ3000上又はコンピュータ3000近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はRAMのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それにより、上記のプログラムを、ネットワークを介してコンピュータ3000に提供する。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
10 通信ネットワーク、12 ユーザ端末、14 教師データ提供サーバ、16 サンプルデータ提供サーバ、100 指標推定システム、122 通信部、124 入出力部、126 格納部、128 要求受付部、142 教師データ取得部、144 モデル構築部、162 サンプルデータ取得部、164 テキストデータ生成部、166 指標推定部、222 設定情報格納部、224 教師データ格納部、226 サンプルデータ格納部、228 モデル情報格納部、300 データテーブル、312 情報、314 情報、316 情報、322 情報、324 情報、326 情報、400 データテーブル、412 サンプルID、414 センテンスID、416 情報、418 情報、420 情報、522 抽出用モデル構築部、524 評価用モデル構築部、620 種別判定部、630 評価対象抽出部、632 キーワード型抽出部、634 機械学習型抽出部、640 評価部、650 指標生成部、720 学習モデル、722 文章分類器、724 文章分類器、726 文章分類器、728 文章分類器、740 判定部、1100 データテーブル、1112 サンプルID、1114 センテンスID、1116 情報、1118 情報、3000 コンピュータ、3001 DVD−ROM、3010 ホストコントローラ、3012 CPU、3014 RAM、3016 グラフィックコントローラ、3018 ディスプレイデバイス、3020 入出力コントローラ、3022 通信インターフェース、3024 ハードディスクドライブ、3026 DVD−ROMドライブ、3030 ROM、3040 入出力チップ、3042 キーボード

Claims (12)

  1. (i)評価対象に関する評価、及び、(ii)前記評価対象の状態又は前記評価の理由を示す1以上の説明文が対応付けられた評価情報に含まれる前記1以上の説明文を教師データとして利用して、入力された文が、前記評価対象に対する評価、前記評価対象の状態又は前記評価の理由を示す文であるか否かを判定するための第1学習モデルを構築する第1モデル構築部と、
    前記第1モデル構築部が構築した前記第1学習モデルを用いて、テキストデータに含まれる1以上の文の中から、前記評価対象に関連する文を抽出する抽出部と、
    を備える、機械学習装置。
  2. 前記第1学習モデルは、前記入力された文を、前記評価対象の状態又は前記評価の理由を示す文、又は、前記評価対象の状態又は前記評価の理由を示す文ではない文の何れかに分類する文章分類器を含む、
    請求項1に記載の機械学習装置。
  3. 前記抽出部は、
    前記テキストデータに含まれる前記1以上の文の少なくとも一部を、前記第1学習モデルに入力し、前記第1学習モデルが前記評価対象の状態又は前記評価の理由を示す文であると判定した文を、前記評価対象に関連する文として抽出する第1抽出部、
    を有する、
    請求項1又は請求項2に記載の機械学習装置。
  4. 前記抽出部は、
    前記評価対象に関連するキーワード又はキーフレーズを示す情報を取得する条件取得部と、
    前記テキストデータに含まれる前記1以上の文の中から、前記キーワードを含む文、前記キーフレーズに合致する文、前記キーワードに類似する単語を含む文、及び、前記キーフレーズに類似する条件に合致する文の少なくとも1つを、前記評価対象に関連する文、又は、前記評価対象に関連する文の候補として抽出する第2抽出部と、
    を有する、
    請求項3に記載の機械学習装置。
  5. 前記第1抽出部は、
    前記第2抽出部が前記評価対象に関連する文の候補として抽出した文を、前記第1学習モデルに入力し、
    前記第1学習モデルが前記評価対象の状態又は前記評価の理由を示す文であると判定した文を、前記評価対象に関連する文として抽出する、
    請求項4に記載の機械学習装置。
  6. 前記第2抽出部は、連続する2以上の文を含む文章であって、前記キーワードを含む文、前記キーフレーズに合致する文、前記キーワードに類似する単語を含む文、及び、前記キーフレーズに類似する条件に合致する文の少なくとも1つを含む文章を、前記評価対象に関連する文の候補として抽出する、
    請求項4又は請求項5に記載の機械学習装置。
  7. 前記テキストデータの種類を区別するための種別情報を取得する種別情報取得部をさらに備え、
    前記第2抽出部は、前記種別情報により示される前記テキストデータの前記種類に基づいて、前記テキストデータに含まれる前記1以上の文の中から、前記キーワードを含む文、前記キーフレーズに合致する文、前記キーワードに類似する単語を含む文、及び、前記キーフレーズに類似する条件に合致する文の少なくとも1つを、前記評価対象に関連する文及び前記評価対象に関連する文の候補の何れとして抽出するかを決定する、
    請求項4から請求項6までの何れか一項に記載の機械学習装置。
  8. 前記評価情報を教師データとして利用して、入力された文に、前記評価対象に関する評価を付与するための第2学習モデルを構築する第2モデル構築部と、
    前記第2モデル構築部が構築した前記第2学習モデルを用いて、前記抽出部が抽出した文に、前記評価対象に関する評価を付与する評価付与部と、
    をさらに備える、
    請求項1から請求項7までの何れか一項に記載の機械学習装置。
  9. 前記評価付与部による評価に基づいて、特定の期間における前記評価対象の状態又は動向を示す指標を算出する指標算出部と、
    前記特定の期間を示す情報を取得する期間情報取得部と、
    複数の前記テキストデータのそれぞれを、前記複数のテキストデータのそれぞれの内容に関連する時期、前記複数のテキストデータのそれぞれが記録された時期、又は、前記複数のテキストデータのそれぞれを含む電子ファイルが作成若しくは更新された時期を示す時期情報と対応づけて取得するテキストデータ取得部と、
    をさらに備え、
    前記抽出部は、前記複数のテキストデータのうち、当該テキストデータに対応付けられた時期情報により示される時期が前記特定の期間に含まれるテキストデータに含まれる複数の文の中から、前記評価対象に関連する文を抽出し、
    前記評価付与部は、前記抽出部が前記複数のテキストデータの少なくとも一部から抽出した複数の文に、前記評価対象に関する評価を付与し、
    前記指標算出部は、前記評価付与部が前記複数の文のそれぞれに付与した評価に基づいて、前記指標を算出する、
    請求項8に記載の機械学習装置。
  10. 前記テキストデータは、情報提供者の発言若しくはジェスチャにより提示された情報、又は、前記情報提供者が知覚した情報を含み、
    前記機械学習装置は、
    前記評価付与部による評価に基づいて、特定の期間における前記評価対象の状態又は動向を示す指標を算出する指標算出部と、
    複数の前記テキストデータのそれぞれを、前記複数のテキストデータのそれぞれの情報提供者の属性を示す属性情報と対応づけて取得するテキストデータ取得部と、
    をさらに備え、
    前記評価付与部は、前記抽出部が前記複数のテキストデータの少なくとも一部から抽出した複数の文のそれぞれに対して、各文が含まれていたテキストデータに対応する前記属性情報により示される情報提供者の属性に基づいて、前記評価対象に関する評価を付与し、
    前記指標算出部は、前記評価付与部が前記複数の文のそれぞれに付与した評価に基づいて、前記指標を算出する、
    請求項8に記載の機械学習装置。
  11. コンピュータを、請求項1から請求項10までの何れか一項に記載の機械学習装置として機能させるための、プログラム。
  12. (i)評価対象に関する評価、及び、(ii)前記評価対象の状態又は前記評価の理由を示す1以上の説明文が対応付けられた評価情報に含まれる前記1以上の説明文を教師データとして利用して、入力された文が、前記評価対象の状態、前記評価対象に対する評価又は前記評価の理由を示す文であるか否かを判定するための第1学習モデルを構築する第1モデル構築段階と、
    前記第1モデル構築段階において構築された前記第1学習モデルを用いて、テキストデータに含まれる1以上の文の中から、前記評価対象に関連する文を抽出する抽出段階と、
    を有する、機械学習方法。
JP2019021083A 2019-02-07 2019-02-07 機械学習装置、プログラム及び機械学習方法 Active JP7280705B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019021083A JP7280705B2 (ja) 2019-02-07 2019-02-07 機械学習装置、プログラム及び機械学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019021083A JP7280705B2 (ja) 2019-02-07 2019-02-07 機械学習装置、プログラム及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2020129232A true JP2020129232A (ja) 2020-08-27
JP7280705B2 JP7280705B2 (ja) 2023-05-24

Family

ID=72174588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019021083A Active JP7280705B2 (ja) 2019-02-07 2019-02-07 機械学習装置、プログラム及び機械学習方法

Country Status (1)

Country Link
JP (1) JP7280705B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312846A (zh) * 2021-06-02 2021-08-27 江苏邦鼎科技有限公司 一种基于混合工艺过程的智能检测方法及***
CN114493019A (zh) * 2022-01-29 2022-05-13 建信金融科技有限责任公司 发送方式的确定方法和装置
WO2022240558A1 (en) * 2021-05-10 2022-11-17 Nec Laboratories America, Inc. Keyphrase generation for text search with optimal indexing regularization via reinforcement learning
CN117131152A (zh) * 2023-10-26 2023-11-28 海易科技(北京)有限公司 信息存储方法、装置、电子设备和计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118797A (ja) * 2009-12-07 2011-06-16 Kddi Corp モバイルcgm分析システム、方法およびプログラム
WO2011090036A1 (ja) * 2010-01-19 2011-07-28 日本電気株式会社 動向情報検索装置、動向情報検索方法および記録媒体
CN103559207A (zh) * 2013-10-10 2014-02-05 江苏名通信息科技有限公司 一种基于社交媒体计算的金融行为分析***
JP2015172856A (ja) * 2014-03-12 2015-10-01 株式会社ゼンリンデータコム 情報収集評価装置、情報収集評価方法および情報収集評価プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118797A (ja) * 2009-12-07 2011-06-16 Kddi Corp モバイルcgm分析システム、方法およびプログラム
WO2011090036A1 (ja) * 2010-01-19 2011-07-28 日本電気株式会社 動向情報検索装置、動向情報検索方法および記録媒体
CN103559207A (zh) * 2013-10-10 2014-02-05 江苏名通信息科技有限公司 一种基于社交媒体计算的金融行为分析***
JP2015172856A (ja) * 2014-03-12 2015-10-01 株式会社ゼンリンデータコム 情報収集評価装置、情報収集評価方法および情報収集評価プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
佐藤史仁ほか: "テキストマイニングによる有価証券報告書からの因果関係文の抽出", 人工知能学会研究会資料 SIG−FIN−020 [ONLINE], JPN6022047685, 14 March 2018 (2018-03-14), pages 1 - 5, ISSN: 0004920093 *
小林和正ほか: "アナリストレポートからのアナリスト予想根拠情報の抽出と極性付与", 人工知能学会研究会資料 SIG−FIN−019 [ONLINE], JPN6022047683, 11 October 2017 (2017-10-11), pages 1 - 6, ISSN: 0004920094 *
酒井浩之ほか: "深層学習と拡張手がかり表現による業績要因文への極性付与", 人工知能学研究会資料 SIG−FIN−018 [ONLINE], JPN6022047682, 6 March 2017 (2017-03-06), pages 1 - 6, ISSN: 0004920095 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022240558A1 (en) * 2021-05-10 2022-11-17 Nec Laboratories America, Inc. Keyphrase generation for text search with optimal indexing regularization via reinforcement learning
CN113312846A (zh) * 2021-06-02 2021-08-27 江苏邦鼎科技有限公司 一种基于混合工艺过程的智能检测方法及***
CN114493019A (zh) * 2022-01-29 2022-05-13 建信金融科技有限责任公司 发送方式的确定方法和装置
CN117131152A (zh) * 2023-10-26 2023-11-28 海易科技(北京)有限公司 信息存储方法、装置、电子设备和计算机可读介质
CN117131152B (zh) * 2023-10-26 2024-02-02 海易科技(北京)有限公司 信息存储方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
JP7280705B2 (ja) 2023-05-24

Similar Documents

Publication Publication Date Title
CA3129745C (en) Neural network system for text classification
CN107506402B (zh) 搜索结果的排序方法、装置、设备及计算机可读存储介质
JP7280705B2 (ja) 機械学習装置、プログラム及び機械学習方法
US11500524B2 (en) Automatic generation of preferred views for personal content collections
US11023503B2 (en) Suggesting text in an electronic document
Liu et al. Harnessing global expertise: A comparative study of expertise profiling methods for online communities
Basiri et al. Exploiting reviewers’ comment histories for sentiment analysis
US11182540B2 (en) Passively suggesting text in an electronic document
Gao [Retracted] Research and Implementation of Intelligent Evaluation System of Teaching Quality in Universities Based on Artificial Intelligence Neural Network Model
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
Rhyn et al. A machine learning approach for classifying textual data in crowdsourcing
Rehan et al. Employees reviews classification and evaluation (ERCE) model using supervised machine learning approaches
US10289624B2 (en) Topic and term search analytics
US9058328B2 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
Bitto et al. Sentiment analysis from Bangladeshi food delivery startup based on user reviews using machine learning and deep learning
Procter et al. Enabling social media research through citizen social science
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
CN110737749B (zh) 创业计划评价方法、装置、计算机设备及存储介质
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
JP6842789B1 (ja) 介護に関する計画書の作成を支援する装置、方法及びプログラム
Marusenko et al. Mathematical methods for attributing literary works when solving the “Corneille–Molière” problem
JP6496078B2 (ja) 分析支援装置、分析支援方法、および分析支援プログラム
JP2020181495A (ja) 変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体
JP7180921B1 (ja) プログラム、情報処理装置および情報処理方法
US20240070188A1 (en) System and method for searching media or data based on contextual weighted keywords

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230512

R150 Certificate of patent or registration of utility model

Ref document number: 7280705

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150