JP7416111B2 - データ処理のための方法、装置及びプログラム - Google Patents

データ処理のための方法、装置及びプログラム Download PDF

Info

Publication number
JP7416111B2
JP7416111B2 JP2022041928A JP2022041928A JP7416111B2 JP 7416111 B2 JP7416111 B2 JP 7416111B2 JP 2022041928 A JP2022041928 A JP 2022041928A JP 2022041928 A JP2022041928 A JP 2022041928A JP 7416111 B2 JP7416111 B2 JP 7416111B2
Authority
JP
Japan
Prior art keywords
data
feature
user
training
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022041928A
Other languages
English (en)
Other versions
JP2022151738A (ja
Inventor
ウェンジュエン ウェイ
ルー フェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2022151738A publication Critical patent/JP2022151738A/ja
Application granted granted Critical
Publication of JP7416111B2 publication Critical patent/JP7416111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示の実施形態は機械学習の分野に関し、より具体的には、データ処理のための方法、装置及びプログラムに関する。
情報技術の急速な発展に伴い、データ規模が急激に増大している。このような背景や傾向の中で、機械学習はますます広く注目されている。中でも因果関係の発見は、例えばユーザサービス、医療健康、オンライン広告等の分野で、実生活において幅広く応用されている。ここでいう因果関係の発見とは、複数の特徴に関するサンプルデータから、複数の特徴の間に存在する因果関係を発見することを指す。例えばユーザサービスの分野において、発見された因果関係の結果をユーザ満足度等の把握に役立てることができる。医療健康の分野では、発見された因果関係の結果を患者の回復状況等の把握に役立てることができる。オンライン広告の分野では、発見された因果関係の結果をオンライン広告に対するユーザの関心等の把握に役立てることができる。
本開示の実施形態は、データ処理のための方法、装置及びプログラムを提供する。
本開示の第1の態様では、データ処理のための方法が提供される。当該方法は、複数の環境における複数のトレーニングデータセットを取得することであって、各トレーニングデータセットは、対応する環境におけるユーザの特徴セットの観測データを含み、特徴セットは、対象特徴、及び前記対象特徴に関連する複数の特徴を含むことと、複数のトレーニングデータセットに基づいて、異なる環境における因果関係の不変性に依拠して、複数の特徴の中から、対象特徴に影響を与えるとともに因果関係の不変性を有する少なくとも1つの特徴を決定することと、複数のトレーニングデータセットのうち少なくとも1つのトレーニングデータセットを用いて、少なくとも1つの特徴について予測モデルに学習させることと、を備える。予測モデルは、対象環境における対象ユーザの少なくとも1つの特徴の観測データに基づいて、対象ユーザの対象特徴についての予測結果を生成するために用いられる。
本開示の第2の態様では、データ処理のための方法が提供される。当該方法は、対象環境における対象ユーザのユーザデータを取得することであって、ユーザデータは対象ユーザの複数の特徴の観測データを含むことと、ユーザデータの中から少なくとも一部のユーザデータを抽出することであって、少なくとも一部のユーザデータは、複数の特徴のうち、対象特徴に影響を与え且つ因果関係の不変性を有する少なくとも1つの特徴の観測データを含むことと、少なくとも1つの特徴について学習させた予測モデルに従って、少なくとも一部のユーザデータに基づいて、対象ユーザの対象特徴についての予測結果を生成することと、を備える。
本開示の第3の態様では、データ処理のための装置が提供される。当該装置は、少なくとも1つのプロセッサユニットと、少なくとも1つのメモリとを備える。少なくとも1つのメモリは少なくとも1つのプロセッサユニットに結合され、少なくとも1つのプロセッサユニットによって実行されるための命令を格納する。命令は、少なくとも1つのプロセッサユニットによって実行された場合に、当該装置に以下の動作を実行させる。動作は、複数の環境における複数のトレーニングデータセットを取得することであって、各トレーニングデータセットは、対応する環境におけるユーザの特徴セットの観測データを含み、特徴セットは、対象特徴、及び前記対象特徴に関連する複数の特徴を含むことと、複数のトレーニングデータセットに基づいて、異なる環境における因果関係の不変性に依拠して、複数の特徴の中から、対象特徴に影響を与えるとともに因果関係の不変性を有する少なくとも1つの特徴を決定することと、複数のトレーニングデータセットのうち少なくとも1つのトレーニングデータセットを用いて、少なくとも1つの特徴について予測モデルに学習させることと、を備える。予測モデルは、対象環境における対象ユーザの少なくとも1つの特徴の観測データに基づいて、対象ユーザの対象特徴についての予測結果を生成するために用いられる。
本開示の第4の態様では、データ処理のための装置が提供される。当該装置は、少なくとも1つのプロセッサユニットと、少なくとも1つのメモリとを備える。少なくとも1つのメモリは少なくとも1つのプロセッサユニットに結合され、少なくとも1つのプロセッサユニットによって実行されるための命令を格納する。命令は、少なくとも1つのプロセッサユニットによって実行された場合に、当該装置に以下の動作を実行させる。動作は、対象環境における対象ユーザのユーザデータを取得することであって、ユーザデータは対象ユーザの複数の特徴の観測データを含むことと、ユーザデータの中から少なくとも一部のユーザデータを抽出することであって、少なくとも一部のユーザデータは、複数の特徴のうち、対象特徴に影響を与え且つ因果関係の不変性を有する少なくとも1つの特徴の観測データを含むことと、少なくとも1つの特徴について学習させた予測モデルに従って、少なくとも一部のユーザデータに基づいて、対象ユーザの対象特徴についての予測結果を生成することと、を備える。
本開示の第5の態様では、プログラムが提供される。当該プログラムには、マシン可読命令が記憶されており、当該マシン可読命令は、デバイスにより実行された場合、当該デバイスに、本開示の第1の態様に記載の方法を実行させる。
本開示の第6の態様では、プログラムが提供される。当該プログラムには、マシン可読命令が記憶されており、当該マシン可読命令は、デバイスにより実行された場合、当該デバイスに、本開示の第2の態様に記載の方法を実行させる。
発明の概要部分は、一連の概念を簡略化して紹介するためのものである。これらについては、以下の実施形態においてさらに説明を行う。発明の概要部分の記述は、本開示の重要又は必要な特徴を標記することを意図したものではなく、本開示の範囲を限定することも意図していない。本開示のその他の特徴は、以下の説明により容易に理解できるはずである。
本発明の目的、利点、及びその他の特徴は、以下の開示内容及び請求項から、より明らかになるはずである。ここでは、あくまで例示を目的として、図面を参照して好ましい実施形態の非限定的な説明を行う。
本開示のいくつかの実施形態を実現可能なデータ処理環境の例示の模式図である。 本開示の実施形態にかかる、予測モデルに学習させるための例示的方法のフローチャートを示す。 本開示の実施形態にかかる、予測モデルを用いるための例示的方法のフローチャートを示す。 本開示の実施形態にかかる、ユーザ満足度を予測するための例示的方法のフローチャートを示す。 本開示の実施形態にかかる、患者の回復状況を予測するための例示的方法のフローチャートを示す。 本開示のいくつかの実施形態にかかる、オンライン広告に対するユーザの関心を予測するための例示的方法のフローチャートを示す。 本開示の実施形態を実施可能な例示的なコンピューティングデバイスの概略ブロック図を示す。 各図において、同一又は対応する符号は、同一又は対応する部分を示す。
以下、図面を参照しつつ、本開示の実施形態についてより詳細に説明する。図には本開示のいくつかの実施形態が示されているが、本開示は様々な形式で実現することが可能であり、ここに記載された実施形態に限定されると解釈すべきではなく、これら実施形態はむしろ、本開示をより徹底的且つ完全に理解するために提供されるものである。この点は理解されなければならない。また、本開示の図面及び実施形態は例示的なものにすぎず、本開示の保護範囲を限定するためのものではない点も、理解されなければならない。
本開示の実施形態の説明において、「含む」及び類似の用語は開放的なもの、すなわち「…を含むが、これらに限定されない」と理解されるべきである。用語「…に基づいて」は、「少なくとも部分的に基づく」と理解されるべきである。用語「1つの実施形態」又は「当該実施形態」は、「少なくとも1つの実施形態」と理解されるべきである。用語「第1」、「第2」等は、異なるか又は同一の対象を示すことができる。以下の文中ではさらに、その他の明確な定義及び暗黙の定義が含まれる可能性がある。
上述したように、実生活では、大量の特徴の間に存在する因果関係を迅速かつ正確に発見することが望まれている。
例えば、ユーザサービスの分野において、事業者はユーザ満足度を把握するために、大量のユーザデータ(ユーザの年齢、月間消費インターネットトラフィック、無料トラフィックの割合、月間消費インターネットトラフィックの総費用等)を収集することができる。収集されたデータは異なる環境(例えば時間、地域等)からのものである可能性があるため、収集されたデータが同じ分布に属さない可能性がある。この場合、収集したデータが同じ分布からのものと仮定すると、ユーザ満足度を適切に予測できない。また、事業者はむしろ、新しい環境でのユーザ満足度を把握することを望んでいる可能性がある。しかしながら、新しい環境でのデータ分布は、学習データと同じ分布に属さない可能性があるため、新しい環境でのユーザ満足度を適切に予測することができない。
同様に、医療健康分野では、医師は患者の回復状況を把握するために、患者のデータ(患者の性別、年齢、職業、治療計画等)を大量に収集することができる。収集されたデータは異なる環境(例えば年齢、性別等)からのものである可能性があるため、収集されたデータが同じ分布に属さない可能性がある。この場合、収集したデータが同じ分布からのものと仮定すると、患者の回復状況を適切に予測できない。また、医師はむしろ、新しい環境での患者の回復状況を把握することを望んでいる可能性がある。しかしながら、新しい環境でのデータ分布は、学習データと同じ分布に属さない可能性があるため、新しい環境での患者の回復状況を適切に予測することができない。
さらに、オンライン広告の分野では、広告プロバイダは、オンライン広告に対するユーザの関心を把握するために、大量のユーザデータ(ユーザの性別、年齢、職業等)及び大量のオンライン広告データ(オンライン広告のサイズ、時間の長さ、表示位置、内容、品質等)を収集することができる。収集されたデータは異なる環境(例えば年齢、性別、地域等)からのものである可能性があるため、収集されたデータが同じ分布に属さない可能性がある。この場合、収集したデータが同じ分布からのものと仮定すると、オンライン広告に対するユーザの関心を適切に予測できない。また、広告プロバイダはむしろ、新しい環境でのオンライン広告に対するユーザの関心を把握することを望んでいる可能性がある。しかしながら、新しい環境でのデータ分布は、学習データと同じ分布に属さない可能性があるため、新しい環境での、オンライン広告に対するユーザの関心を適切に予測することができない。
上述の問題及び/又は他の潜在的問題のうち1つ以上を解決するために、本開示の実施形態は、データ処理に用いられる解決手段を提出する。この解決手段では、異なる環境において対象特徴に影響を与える、因果関係の不変性を有する特徴を発見し、こうした特徴について予測モデルに学習させることで、学習させた予測モデルに従って、新しい環境において対象特徴を正確に予測することができる。
以下、ユーザサービス分野の例示的シナリオと結びつけて本開示の各実施形態について詳細に説明する。理解すべき点として、これらは単に説明のために記述されるものであり、本開示の範囲を何ら限定するものではない。
図1は、本開示のいくつかの実施形態を実現可能なデータ処理環境100の例示の模式図である。環境100は、コンピューティングデバイス110を含む。コンピューティングデバイス110は、例えばパーソナルコンピュータ、タブレットコンピュータ、ウェアラブルデバイス、クラウドサーバ、メインフレーム、分散型コンピューティングシステム等、計算能力を有する任意のデバイスとすることができる。
コンピューティングデバイス110は、対象環境における対象ユーザのユーザデータ120を取得することができる。コンピューティングデバイス110は、ユーザデータ120に基づき、学習済みの予測モデル130を用いて、対象ユーザの対象特徴(例えば、ユーザ満足度)についての予測結果140(例えば、満足又は不満足、満足度がどのくらいか)を生成することができる。
学習済みの予測モデル130は、ユーザデータ120のうち、対象特徴に影響を与える、因果関係の不変性を有する少なくとも1つの特徴の観測データに基づいて、予測結果140を生成することができる。因果関係の不変性を有する特徴とは、次のような特徴を指す。異なる環境においてこれらの特徴の観測データが与えられた場合、対象特徴の分布が不変に保たれる。つまり、特徴が、異なる環境において因果関係の不変性を有する場合、異なる環境においてこれらの特徴が対象特徴に与える影響は、同じである。したがって、これらの特徴の観測データが与えられると、対象特徴は、異なる環境でも同じ分布に属することになる。
これに鑑み、因果関係の不変性を有しない特徴の観測データを含む可能性があるユーザデータ120を全て使用するよりも、因果関係の不変性を有する少なくとも1つの特徴の観測データを使用する方が、より正確な予測結果を得ることができる。
以下では、図2を参照しながら、対象特徴に影響を与えるとともに因果関係の不変性を有する特徴の決定と、予測モデル130の学習について説明する。さらに図3を参照しながら、学習済みの予測モデル130の使用について説明する。
図2は、本開示の実施形態にかかる、予測モデル130に学習させるための例示的方法200のフローチャートを示す。例えば、方法200は、図1に示すコンピューティングデバイス110によって実行することができる。理解すべき点として、方法200はさらに、図示されていない付加的ブロックを含んでもよく、且つ/又は示されたいくつかのブロックを省略してもよい。本開示の範囲は、この点において限定されない。
ブロック210において、コンピューティングデバイス110は、複数の環境における複数のトレーニングデータセットを取得する。複数の環境は、特定の分類における複数のグループとみなすことができる。前記特定の分類は、応用のシナリオに応じて決定することができる。例えば、複数の環境とは、地域的分類での複数のグループ(例えば、北京、上海等)であってよいし、年齢層による分類での複数のグループ(例えば、若年層、中年層、高齢者層等)、データ取得時間による分類での複数のグループ(例えば、1月、2月等)であってもよい。各トレーニングデータセットは、対応する環境におけるユーザの特徴セットの観測データを含む。当該特徴セットは、対象特徴と、対象特徴に関連する複数の特徴とを含む。
例えば、ユーザサービス分野の例示的シナリオでは、複数の環境は複数の地域であると仮定される。この場合、あるトレーニングデータセットは、北京のユーザの特徴セットの観測データを含んでもよく、別のトレーニングデータセットは、上海のユーザの特徴セットの観測データを含んでもよく、他も同様である。
また、複数の環境は、複数の年齢層であると仮定される。この場合、あるトレーニングデータセットは、若年層(例えば、18~30歳)のユーザの特徴セットの観測データを含んでもよく、別のトレーニングデータセットは、中年層(例えば、30~60歳)のユーザの特徴セットの観測データを含んでもよい。さらに別のトレーニングデータセットは、高齢者層(例えば、60歳より上)のユーザの特徴セットの観測データを含んでもよく、他も同様である。
さらに、複数の環境は、複数のデータ取得時間であると仮定される。この場合、1つのトレーニングデータセットは、1月に取得したユーザの特徴セットの観測データを含んでもよく、別のトレーニングデータセットは、2月に取得したユーザの特徴セットの観測データを含んでもよい。他も同様である。
いくつかの実施形態では、ユーザの特徴セットは、ユーザ行動の特徴、ユーザ満足度の特徴等を含んでもよい。例示として、ユーザ行動の特徴は、ユーザ属性の特徴(ユーザの性別、年齢、クラス等)、パッケージの特徴(パッケージ名、パッケージ費用、パッケージトラフィック等)、月間消費の特徴(発信/着信の通話時間の長さ、発信/着信の通話回数、無料トラフィック使用量、アプリケーショントラフィック使用量、トラフィック補充回数等)、月間費用の特徴(音声通話費用、パッケージ外音声通話の費用、トラフィック費用、国際ローミングトラフィック費用等)、及び/又はサービスの特徴(顧客サービス要求数、アカウントログイン数、サービス処理数、苦情件数等)等を含んでもよい。さらに、ユーザ行動の特徴は、ユーザのテキスト情報の特徴(ユーザのコメント、苦情内容等)、及び/又はウェブブラウジング情報の特徴等を含んでもよい。
さらに、例示として、ユーザ満足度の特徴は、ユーザの全体的な満足度、費用満足度、ネットワーク品質の満足度、音声通話品質の満足度、サービスプロモーションの満足度、サービス処理の満足度、事業所サービスの満足度、改善すべき点、及び/又は満足できる点等を含んでもよい。
したがって、特徴セットの観測データは、上記特徴の値とすることができる。
いくつかの実施形態において、複数のトレーニングデータセットを取得するために、コンピューティングデバイス110は、複数の環境のユーザからの特徴セットの観測データを収集することができる。コンピューティングデバイス110は、収集された観測データを、異なる環境を識別する環境パラメータに基づいてグループ分けすることで、複数の環境に対応する複数のトレーニングデータセットを得てもよい。
例えば、上述のように、複数の地域(例えば、北京、上海等)のユーザからの特徴セットの観測データを収集し、収集された観測データを異なる地域ごとにグループ分けすることで、複数の地域に対応する複数のトレーニングデータセットを得てもよい。また、複数の年齢層(例えば、若年層、中年層、高齢者層等)のユーザからの特徴セットの観測データを収集し、収集された観測データを異なる年齢層ごとにグループ分けすることで、複数の年齢層に対応する複数のトレーニングデータセットを得てもよい。さらに、複数のデータ取得時間(例えば、1月、2月等)のユーザからの特徴セットの観測データを収集し、収集された観測データを異なるデータ取得時間ごとにグループ分けすることで、複数のデータ取得時間に対応する複数のトレーニングデータセットを得てもよい。
さらに、いくつかの実施形態において、コンピューティングデバイス110は、複数のトレーニングデータセットに対して、前処理、特徴量エンジニアリング、及び/又は特徴選択等を行うことで、複数のトレーニングデータセットを強化してもよい。例えば、前処理のプロセスにおいて、コンピューティングデバイス110は、パッケージ名に基づいて、パッケージがトラフィック無制限パッケージであるか否かを示す新たな特徴を得てもよい。別の例示として、コンピューティングデバイス110は、苦情内容に基づいて、料金に対する苦情であるか、サービスに対する苦情であるか、ネットワーク品質に対する苦情であるか等を示す新たな特徴を得てもよい。さらに、コンピューティングデバイス110は、苦情内容の観測データ(例えば、苦情内容のテキスト)における語句の性質に基づいて、これらの新しい特徴の観測データを得てもよい。例えば、0~100で数値化して表したものであり、この場合0は苦情がないことを表し、100は極度の不満を表す。さらなる例示として、コンピューティングデバイス110は、ウェブブラウジング情報の特徴に基づいて、トラフィックや検索回数を示す新たな特徴を得てもよい。
いくつかの実施形態では、特徴量エンジニアリングのプロセスにおいて、コンピューティングデバイス110は、既存の特徴を加工して、新しい特性(例えば、シェア、限界比等)を示す新しい特徴を生成してもよい。例えば、これらの特徴は、音声通話費用のシェア(音声通話費用を総コストで除したもの)、発信通話回数のシェア(発信通話回数を総通話回数で除したもの)、及び/又は音声通話限界比(発信通話時間を音声通話費用で除したもの)等を含んでもよい。追加又は任意で、コンピューティングデバイス110は、周期的特徴を加工して、ある時間における新しい特性(例えば、平均値、分散、変動等)を示す新しい特徴を生成してもよい。例えば、これらの特徴は、平均音声通話費用(0.5*(先月の音声通話費用+先々月の音声通話費用))、及び/又は音声通話費用のシェアの変動(先月の音声通話費用のシェア-先々月の音声通話費用のシェア)等を含んでもよい。
いくつかの実施形態では、対象特徴(例えば、ユーザ満足度)に関連する特徴を選択するように、特徴をフィルタリングしてもよい。特徴選択のプロセスにおいて、コンピューティングデバイス110は、例えば、Lasso(Least absolute shrinkage and selection operator:最小絶対値縮小選択)アルゴリズム、Random Forest(ランダムフォレスト)アルゴリズム等の特徴選択方法を用いて、対象特徴に関連する特徴を選択してもよい。
ブロック220において、コンピューティングデバイス110は、複数のトレーニングデータセットに基づいて、異なる環境における因果関係の不変性に依拠して、複数の特徴の中から、対象特徴に影響を与えるとともに因果関係の不変性を有する少なくとも1つの特徴を決定する。
上述したように、因果関係の不変性を有する特徴とは、次のような特徴を指す。異なる環境においてこれらの特徴の観測データが与えられた場合、対象特徴の分布が不変に保たれる。つまり、特徴が、異なる環境において因果関係の不変性を有する場合、これらの特徴の観測データが与えられると、対象特徴は、異なる環境において同じ分布に属することになる。パッケージの特徴は対象特徴に影響を与えることができ、且つ因果関係の不変性を有するが、月間費用の特徴は、対象特徴に影響を与えず且つ/又は因果関係の不変性を有しないと仮定すると、少なくとも1つの特徴には、パッケージの特徴が含まれるが月額費用の特徴は含まれないことになる。
いくつかの実施形態では、複数の特徴の中から少なくとも1つの特徴を決定するために、コンピューティングデバイス110は、因果転移学習技術、不変因果予測(ICP:Invariant Causal Prediction)技術等の様々な因果技術を利用してもよい。
ブロック230において、コンピューティングデバイス110は、複数のトレーニングデータセットのうち少なくとも1つのトレーニングデータセットを用いて、少なくとも1つの特徴について予測モデルに学習させる。予測モデルは、対象環境における対象ユーザの少なくとも1つの特徴の観測データに基づいて、対象ユーザの対象特徴についての予測結果を生成するために用いられる。
予測モデルは、因果関係の不変性を有する特徴について学習する。その結果、予測モデルは、対象環境における、因果関係の不変性を有する対象ユーザの特徴の観測データに基づいて、対象ユーザの対象特徴についての予測結果を生成することができる。
いくつかの実施形態において、予測モデルは、少なくとも1つの特徴と対象特徴とが線形の因果関係及び非線形の因果関係のうちの1つを有することを示してもよい。例えば、少なくとも1つの特徴と対象特徴とが線形の因果関係を有するか非線形の因果関係を有するかに応じて、予測モデルを線形又は非線形としてもよい。
いくつかの実施形態において、予測モデルに学習させるために、コンピューティングデバイス110は、少なくとも1つのトレーニングデータセットの中からトレーニングサンプルセットを取得してもよい。各トレーニングサンプルは、対応するユーザの少なくとも1つの特徴の観測データと、対象特徴の観測データとを含む。例えば、上述のようにパッケージの特徴が対象特徴に影響を与えることができ、且つ因果関係の不変性を有すると仮定すると、1つのトレーニングサンプルは、対応するユーザのパッケージの特徴の観測データと、ユーザの満足度の観測データとであってもよい。
こうして、コンピューティングデバイス110は、機械学習アルゴリズムを用いて、トレーニングサンプルセットに基づいて予測モデルに学習させることができる。機械学習アルゴリズムは、例えばK近傍法、SVM(Support Vector Machine:サポートベクターマシン)アルゴリズム等、任意の適切な機械学習アルゴリズムであり得る。このように、異なる環境において因果関係の不変性を有する特徴の観測データを用いて予測モデルに学習させることで、学習させた予測モデルは、対象環境においてより正確な予測結果を取得することができる。
さらに、いくつかの実施形態において、トレーニングサンプルセットに基づいて予測モデルに学習させるために、コンピューティングデバイス110は、トレーニングサンプルセット内の各トレーニングサンプルに対しデータ変換を行う変換方式を決定してもよい。変換方式は、例えばDICA(Domain-Invariant Component Analysis:領域不変成分分析)アルゴリズム、SCA(Scatter Component Analysis:散布成分分析)アルゴリズムといったカーネルベースの最適化アルゴリズム等、様々な適切なアルゴリズムに基づいて決定してもよい。カーネルベースの最適化アルゴリズムでは、領域間の差異を最小化することで不変の変換を学習し、同時に、入力変数と出力変数の間の関数関係を保持することができる。この場合、変換後のトレーニングサンプルは、独立した同一分布を有することができる。したがって、コンピューティングデバイス110は、変換方式に基づいて、変換されたトレーニングサンプルセットを得て、変換されたトレーニングサンプルセットに基づいて予測モデルに学習させてもよい。
さらに、いくつかの実施形態において、コンピューティングデバイス110は、異なる環境の分類について、対応する予測モデルにそれぞれ学習させてもよい。例えば、コンピューティングデバイス110は、地域、年齢層及びデータ取得の時間について、個別の予測モデルにそれぞれ学習させてもよい。学習後の当該複数の予測モデル及び対応する環境の情報は、記憶装置に格納されてもよい。
図3は、本開示の実施形態にかかる、予測モデル130を使用するための例示的方法300のフローチャートを示す。例えば、方法300は、図1に示すコンピューティングデバイス110によって実行することができる。理解すべき点として、方法300はさらに、図示されていない付加的ブロックを含んでもよく、且つ/又は示されたいくつかのブロックを省略してもよい。本開示の範囲は、この点において限定されない。
ブロック310において、コンピューティングデバイス110は、対象環境における対象ユーザのユーザデータ120を取得する。ユーザデータ120は、対象ユーザの複数の特徴の観測データを含む。前記ユーザデータ120は、製品又はサービスの使用についてのユーザ行動データ、属性データ及び調査データの少なくとも1つを含むが、これらに限定されない。例えば、ユーザサービス分野における例示的なシナリオでは、対象ユーザの複数の特徴は、対象ユーザの行動の特徴を含んでもよい。行動の特徴の例示については上述したので、ここではその詳細な説明は省略する。複数の特徴の観測データは、上記特徴の値であってもよい。
ブロック320において、コンピューティングデバイス110は、ユーザデータ120から少なくとも一部のユーザデータを抽出する。少なくとも一部のユーザデータは、複数の特徴のうち、対象特徴に影響を与え且つ因果関係の不変性を有する少なくとも1つの特徴の観測データを含む。例示として、ユーザサービス分野の例示的シナリオでは、対象特徴はユーザ満足度であってもよい。ユーザ満足度の例示については上述したので、ここではその詳細な説明は省略する。対象特徴の予測結果は、対象特徴の予測値であってもよい。
上述したように、因果関係の不変性を有する特徴とは、次のような特徴を指す。異なる環境においてこれらの特徴の観測データが与えられた場合、対象特徴の分布が不変に保たれる。つまり、特徴が、異なる環境において因果関係の不変性を有する場合、これらの特徴の観測データが与えられると、対象特徴は、異なる環境において同じ分布に属することになる。パッケージの特徴は対象特徴に影響を与えることができ、且つ因果関係の不変性を有するが、月間費用の特徴は対象特徴に影響を与えないか、又は因果関係の不変性を有しないと仮定すると、少なくとも1つの特徴には、パッケージの特徴が含まれるが月額費用の特徴は含まれないことになる。
ブロック330において、コンピューティングデバイス110は、少なくとも一部のユーザデータに基づいて、対象ユーザの対象特徴についての予測結果140を生成する。
上記では、異なる環境で因果関係の不変性を有する特徴について学習するものとして予測モデルを説明した。これらの特徴は異なる環境において因果関係の不変性を有するため、対象環境においても因果関係の不変性を有する。この場合、学習済みの予測モデルは、対象環境において、因果関係の不変性を有する特徴の観測データに基づいて、対象特徴の予測結果を正確に予測することができる。したがって、いくつかの実施形態において、コンピューティングデバイス110は、少なくとも1つの特徴について学習させた予測モデル130に従い、少なくとも一部のユーザデータに基づいて、対象ユーザの対象特徴についての予測結果140を生成する。
さらに、いくつかの実施形態において、コンピューティングデバイス110は、複数の環境の中から対象環境を決定してもよい。いくつかの実施形態において、対象環境の決定は、コンピューティングデバイス110が自動で行ってもよいし、ユーザが手動で選択してもよい。例えば、ユーザサービス分野の例示的シナリオでは、希望する対象環境をユーザが選択してもよい。例えば、深センでのユーザ満足度の予測をユーザが希望する場合、ユーザは対象環境として深センを入力又は選択してもよい。この場合、異なる環境の分類ごとに、対応する予測モデルに学習させていたので、コンピューティングデバイス110は、入力された前記対象環境に関する情報を受け取り、対象環境に基づいて、対象環境の分類に対応する予測モデルを決定してもよい。例えば、地域、年齢層及びデータ取得時間について個別の予測モデルにそれぞれ学習させたと仮定する。ユーザが選択した対象環境が地域の分類に属するため、コンピューティングデバイス110は、地域に対応する予測モデルを選択して予測を行ってもよい。
したがって、さまざまな異なる環境の分類において、予測結果の精度を向上させることができる。また、対象環境をユーザが選択できるため、システムの柔軟性やユーザエクスペリエンスを向上させることができる。
いくつかの実施形態において、予測結果140は、後続の分析に用いられてもよい。例えば、ユーザサービスの分野では、ユーザ満足度を向上させるために、事業者がユーザ満足度の予測結果を用いて、異なるユーザに対し異なる戦略を採用することができる。医療健康分野では、治癒率を向上させるために、医師が患者の回復状況の予測結果を用いて、異なる患者ごとに異なる治療計画を策定することができる。オンライン広告の分野では、広告収益を増やすために、広告プロバイダがオンライン広告に対するユーザの関心を利用して、異なるユーザに対し異なる広告を配信することができる。
このため、いくつかの実施形態では、方法300は、予測結果140に基づいて第1情報を出力すること、又は第1操作を実行することをさらに含んでもよい。第1情報は、予測結果140に基づいて決定される、1つ又は複数の指示情報、戦略情報、推奨情報等を含んでもよいが、これらに限定されない。第1操作は、予測結果に基づいて戦略命令操作、識別操作、分析操作等を行うことを含んでもよいが、これらに限定されない。
また、予測結果140に基づいて行われた後続の操作から生成されたデータを、さらに予測モデル130を改良するために用いてもよい。こうすることで、予測結果の精度をさらに向上させることができるとともに、予測モデルを動的に更新することが可能になる。このため、いくつかの実施形態では、コンピューティングデバイス110は、予測結果140に基づいて行われた後続の動作から生成されたデータを取得し、こうしたデータに基づいて予測モデル130を更新してもよい。
図4は、本開示の実施形態にかかる、ユーザ満足度を予測するための例示的方法400のフローチャートを示す。例えば、方法400は、図1に示すコンピューティングデバイス110によって実行することができる。理解すべき点として、方法400はさらに、図示されていない付加的ブロックを含んでもよく、且つ/又は示されたいくつかのブロックを省略してもよい。本開示の範囲は、この点において限定されない。
ブロック410において、コンピューティングデバイス110は、対象環境(例えば、深セン等の対象地域)における対象ユーザのユーザ行動データを取得することができる。ユーザ行動データは、対象ユーザの複数の行動の特徴の観測データを含むことができる。行動の特徴の例示については上述したので、ここではその詳細な説明は省略する。複数の行動の特徴の観測データは、上述した行動の特徴の値であってもよい。
ブロック420において、コンピューティングデバイス110は、ユーザ行動データの中から少なくとも一部のユーザ行動データを抽出することができる。少なくとも一部のユーザ行動データは、複数の行動の特徴のうち、ユーザ満足度に影響を与え且つ因果関係の不変性を有する少なくとも1つの行動の特徴の観測データを含むことができる。
ブロック430において、コンピューティングデバイス110は、少なくとも一部のユーザ行動データに基づいて、対象ユーザのユーザ満足度についての予測結果を生成することができる。こうすることで、ユーザ満足度の予測精度を向上させることができる。
方法400は、ユーザ満足度の予測結果を用いて、当該1人又複数の対象ユーザに対する戦略情報を決定することをさらに含んでもよい。方法400は、戦略情報を出力すること、又は戦略情報に基づいて戦略操作を実行することをさらに含んでもよい。
図5は、本開示の実施形態にかかる、患者の回復状況を予測するための例示的方法500のフローチャートを示す。例えば、方法500は、図1に示すコンピューティングデバイス110によって実行することができる。理解すべき点として、方法500はさらに、図示されていない付加的ブロックを含んでもよく、且つ/又は示されたいくつかのブロックを省略してもよい。本開示の範囲は、この点において限定されない。
ブロック510において、コンピューティングデバイス110は、対象環境(例えば、若年層等、対象年齢層)における対象患者の患者データを取得することができる。患者データは、対象患者の複数の特徴の観測データを含むことができる。例えば、複数の特徴は、患者の性別、地域、治療計画等を含んでもよい。複数の特徴の観測データは、上記特徴の値であってもよい。
ブロック520において、コンピューティングデバイス110は、患者データの中から少なくとも一部の患者データを抽出することができる。少なくとも一部の患者データは、複数の特徴のうち、患者の回復状況に影響を与え且つ因果関係の不変性を有する少なくとも1つの観測データを含むことができる。
ブロック530において、コンピューティングデバイス110は、少なくとも一部の患者データに基づいて、対象患者の回復状況ついての測結果を生成することができる。こうすることで、患者の回復状況の予測精度を向上させることができる。
方法500は、対象患者の回復状況の予測結果を用いて、当該1人又は複数の対象患者に対する治療計画情報又は補助治療情報を決定することを、さらに含んでもよい。方法500は、治療計画情報又は補助治療情報を出力することをさらに含んでもよい。また、方法500は、治療計画情報又は補助治療情報に対する後続の分析を行うことを、さらに含んでもよい。こうすることで、当該1人又は複数の対象患者の治療計画について決定する際、又は当該1人又は複数の対象患者を治療する際に、医師を補助することができる。
図6は、本開示のいくつかの実施形態にかかる、オンライン広告に対するユーザの関心を予測するための例示的方法のフローチャート600を示す。例えば、方法600は、図1に示すコンピューティングデバイス110によって実行することができる。理解すべき点として、方法600はさらに、図示されていない付加的ブロックを含んでもよく、且つ/又は示されたいくつかのブロックを省略してもよい。本開示の範囲は、この点において限定されない。
ブロック610において、コンピューティングデバイス110は、対象環境(例えば、女性等、対象性別)における対象ユーザのユーザデータを取得することができる。ユーザデータは、対象ユーザに関連する複数の特徴の観測データを含むことができる。例えば、複数の特徴は、ユーザの年齢、職業、地域等のほか、ユーザが閲覧したオンライン広告のサイズ、時間の長さ、表示位置、内容、品質等を含んでもよい。複数の特徴の観測データは、上記特徴の値であってもよい。
ブロック620において、コンピューティングデバイス110は、ユーザデータの中から少なくとも一部のユーザデータを抽出することができる。少なくとも一部のユーザデータは、複数の特徴のうち、対象ユーザのオンライン広告への関心に影響を与え且つ因果関係の不変性を有する少なくとも1つの特徴の観測データを含むことができる。
ブロック630において、コンピューティングデバイス110は、少なくとも一部のユーザデータに基づいて、オンライン広告に対する対象ユーザの関心の予測結果を生成することができる。こうすることで、オンライン広告に対するユーザの関心について予測精度を向上させることができる。
方法600は、オンライン広告に対するユーザの関心の予測結果を用いて、当該1人又は複数の対象ユーザに対するオンライン広告の推奨戦略情報を決定すること、又は当該1人又は複数の対象ユーザに推奨するオンライン広告を決定することをさらに含んでもよい。方法600は、オンライン広告の推奨戦略情報を出力すること、又はオンライン広告の推奨戦略情報に基づいてオンライン広告を推奨することをさらに含んでもよい。さらに、方法600は、推奨するオンライン広告を当該1人又は複数の対象ユーザに提示することも含んでもよい。
図7は、本開示の実施形態を実施可能な例示的デバイス700のブロック模式図を示す。例えば、図1に示すコンピューティングデバイス110は、デバイス700によって実現することができる。図に示すように、デバイス700は、中央プロセッサユニット(CPU)701を含む。CPU701は、リードオンリーメモリ(ROM)702に格納されたコンピュータプログラムの命令、又は記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムの命令に基づき、各種の適切な動作及び処理を実行することができる。RAM703にはさらに、デバイス700の操作に必要な各種プログラム及びデータを格納することができる。CPU701、ROM702及びRAM703はバス704を介して互いに接続されている。入力/出力(I/O)インタフェース705もバス704に接続されている。
デバイス700における複数のコンポーネントは、I/Oインタフェース705に接続されている。複数のコンポーネントには、キーボード、マウス等の入力ユニット706、様々な種類のディスプレイ、スピーカ等の出力ユニット707、磁気ディスク、光ディスク等の記憶ユニット708、及びネットワークインタフェースカード、モデム、無線通信送受信機等の通信ユニット709が含まれる。通信ユニット709によって、デバイス700は、インターネットのようなコンピュータネットワーク及び/又は各種電信ネットワークを介して、他のデバイスと情報/データを交換することができる。
プロセッサユニット701は、例えば方法200、300、400、500及び/又は600のような上述した各プロセス及び処理を実行するように設定することができる。例えば、いくつかの実施形態において、方法200、300、400、500及び/又は600は、コンピュータソフトウェアプログラムとして実現可能であり、記憶ユニット708のようなマシン可読媒体に、有形記憶されている。いくつかの実施形態において、コンピュータプログラムの一部又は全部は、ROM702及び/又は通信ユニット709を経由してデバイス700にロード及び/又はインストールすることができる。コンピュータプログラムがRAM703にロードされCPU701により実行されると、上述した方法200、300、400、500及び/又は600の1つ又は複数のステップを実行することができる。
本開示は、システム、方法、及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、本開示の各態様を実行するためのコンピュータが読み取り可能なプログラム命令が格納されたコンピュータ可読記憶媒体を備えることができる。
コンピュータ可読記憶媒体は、命令実行デバイスにより使用される命令を保持し格納することができる有形デバイスであり得る。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁気記憶装置、半導体記憶装置又は上述の任意の適切な組合せであり得るが、これらに限られない。コンピュータ可読記憶媒体のより具体的な例として(全てではない)、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去・書き込み可能なリードオンリーメモリ(EPROM又はフラッシュメモリ)、スタティックRAM(SRAM:Static Random Access Memory)、携帯型コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリースティック、フロッピーディスク、機械的エンコーダディスク、例えば命令が格納されているパンチカード又は溝内の突起構造、及び上述の任意の適切な組合せが含まれる。ここで使用されるコンピュータ可読記憶媒体は、例えば無線電波若しくは他の自由伝播する電磁波、導波若しくは他の送信媒体を介して伝播する電磁波(例えば、光ケーブルを介する光パルス)、又は電線で送信される電気信号のような、瞬時の信号そのものであるとは解釈されない。
ここで説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理デバイスにダウンロードすることができ、又は、ネットワーク、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/若しくは無線ネットワークを介して外部のコンピュータ若しくは外部記憶装置にダウンロードすることができる。ネットワークは、銅線送信ケーブル、光ケーブル送信、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバを含むことができる。各計算/処理デバイスにおけるネットワークインタフェースカード又はネットワークインタフェースは、コンピュータ可読プログラム命令をネットワークから受信し、当該コンピュータ可読プログラム命令を転送し、各計算/処理デバイスのコンピュータ可読記憶媒体に格納されるようにする。
本開示の操作を実行するためのコンピュータプログラム命令は、アセンブラ指示文、命令セットアーキテクチャ(ISA:Instruction Set Architecture)、機械語命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又は、1種類若しくは複数種類のプログラミング言語の任意の組合せで記述されたソースコード若しくは対象コードであり得る。前記プログラミング言語は、Smalltalk、C++等のオブジェクト指向のプログラミング言語、及び、「C」言語又は類似のプログラミング語言のような一般的なプロセス式プログラミング言語を含む。コンピュータ可読プログラム命令は、全てユーザコンピュータ上で実行してもよいし、部分的にユーザコンピュータ上で実行してもよいし、1つの独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行するとともにリモートコンピュータ上で部分的に実行してもよいし、或いは、全てリモートコンピュータ又はサーバ上で実行してもよい。リモートコンピュータにかかる状況において、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータに接続することができるか、又は、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを利用しインターネットを介して接続する)。いくつかの実施形態では、コンピュータ可読プログラム命令のステータス情報を利用して、例えばプログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブルロジックアレイ(PLA)のような電子回路をパーソナライズすることができる。当該電子回路は、コンピュータ可読プログラム命令を実行することで、本開示の各態様を実現することができる。
ここでは、本開示の実施形態にかかる方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して、本開示の各態様を説明した。理解すべき点として、フローチャート及び/又はブロック図の各ブロック並びにフローチャート及び/又はブロック図の各ブロックの組合せは、いずれも、コンピュータ可読プログラム命令により実現可能である。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサユニットに提供されて、マシンを生成することができ、これらの命令がコンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサユニットにより実行された場合、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現する装置が生成される。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に格納されてもよい。これらの命令によって、コンピュータ、プログラミング可能なデータ処理装置及び/又はその他のデバイスは特定の方法で動作を行う。したがって、命令が格納されているコンピュータ可読媒体は、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現する各態様の命令が含まれている製品を含む。
コンピュータ可読プログラム命令を、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイスにロードして、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイス上で一連の操作ステップを実行させ、コンピュータが実現するプロセスを生成してもよい。こうすることで、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイスで実行される命令に、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現させる。
図中のフローチャート及びブロック図は、本開示の複数の実施形態にかかるシステム、方法、コンピュータプログラム製品の実現可能なアーキテクチャ、機能及び操作を表している。この点において、フローチャート又はブロック図の各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を示すことができ、前記モジュール、プログラムセグメント又は命令の一部は、規定されたロジック機能を実現するための1つ又は複数の実行可能な命令を含む。代替としてのいくつかの実現形態において、ブロック内に表記された機能は、図中の表記と異なる順序で発生してもよい。例えば、2つの連続するブロックは実際には基本的に並行して実行されてもよいし、場合によっては反対の順序で実行されてもよい。これは、関係する機能によって定められる。また、注意すべき点として、ブロック図及び/又はフローチャートの各ブロック、並びにブロック図及び/又はフローチャートのブロックの組合せは、規定された機能又は動作を実行する、ハードウェアに基づく専用システムで実現してもよいし、或いは、専用のハードウェアとコンピュータ命令との組合せにより実現してもよい。
以上、本開示の各実施形態を説明したが、上述した説明は、例示的なもので、全て網羅したものではなく、開示された各実施形態に限定されない。説明した各実施形態の範囲及び精神から逸脱しない状況において、当業者が複数の修正及び変更を行うことができることは明らかである。ここで使用された用語は、各実施形態の原理、実際の応用や市場での技術改良について最適な説明を行うこと、又は当業者に本明細書で開示された各実施形態を理解させることを意図して、選択したものである。

Claims (8)

  1. 複数の環境における複数のトレーニングデータセットを取得することであって、各トレーニングデータセットは、対応する環境におけるユーザの特徴セットの観測データを含み、前記特徴セットは、対象特徴と、前記対象特徴に関連する複数の特徴とを含むことと、
    前記複数のトレーニングデータセットに基づいて、異なる環境における因果関係の不変性に依拠して、前記複数の特徴の中から、前記対象特徴に影響を与えるとともに因果関係の不変性を有する少なくとも1つの特徴を決定することと、
    前記複数のトレーニングデータセットのうち少なくとも1つのトレーニングデータセットを用いて、少なくとも1つの前記特徴について予測モデルに学習させることと、
    を備え、
    前記予測モデルは、対象環境における対象ユーザの前記少なくとも1つの特徴の観測データに基づいて、前記対象ユーザの前記対象特徴についての予測結果を生成するために用いられる、
    データ処理のためのコンピュータが行う方法。
  2. 前記複数のトレーニングデータセットを取得することは、
    前記複数の環境のユーザからの前記特徴セットの観測データを収集することと、
    収集された観測データを、異なる環境を識別する環境パラメータに基づいてグループ分けすることで、前記複数の環境に対応する前記複数のトレーニングデータセットを得ることと、
    を備える、
    請求項1に記載の方法。
  3. 少なくとも1つの前記特徴を決定することは、
    因果転移学習技術を用いて、前記複数の特徴の中から前記少なくとも1つの特徴を決定することを備える、
    請求項1に記載の方法。
  4. 少なくとも1つの前記特徴を決定することは、
    不変因果予測技術を用いて、前記複数の特徴の中から前記少なくとも1つの特徴を決定することを備える、
    請求項1に記載の方法。
  5. 前記予測モデルに学習させることは、
    少なくとも1つの前記トレーニングデータセットの中からトレーニングサンプルセットを取得することであって、各トレーニングサンプルは、対応するユーザの前記少なくとも1つの特徴の観測データと、前記対象特徴の観測データとを含むことと、
    機械学習アルゴリズムを用いて、前記トレーニングサンプルセットに基づいて前記予測モデルに学習させることと、
    を備える、
    請求項1に記載の方法。
  6. 前記トレーニングサンプルセットに基づいて前記予測モデルに学習させることは、
    前記トレーニングサンプルセット内の各トレーニングサンプルに対しデータ変換を行う変換方式を決定することと、
    前記変換方式に基づいて、変換されたトレーニングサンプルセットを得ることと、
    前記変換されたトレーニングサンプルセットに基づいて前記予測モデルに学習させることと、
    を備える、
    請求項5に記載の方法。
  7. 少なくとも1つのプロセッサユニットと、
    少なくとも1つの前記プロセッサユニットに結合され、少なくとも1つの前記プロセッサユニットによって実行されるための命令を格納する少なくとも1つのメモリと、
    を備え、
    前記命令が少なくとも1つの前記プロセッサユニットによって実行された場合、請求項1~6のいずれか1項に記載の方法を実行する、
    データ処理のための装置。
  8. マシン可読命令が記憶されており、
    前記マシン可読命令は、デバイスにより実行された場合、前記デバイスに、請求項1~6のいずれか1項に記載の方法を実行させる、
    プログラム。
JP2022041928A 2021-03-23 2022-03-16 データ処理のための方法、装置及びプログラム Active JP7416111B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110309510.7 2021-03-23
CN202110309510.7A CN115115056A (zh) 2021-03-23 2021-03-23 用于数据处理的方法、装置和介质

Publications (2)

Publication Number Publication Date
JP2022151738A JP2022151738A (ja) 2022-10-07
JP7416111B2 true JP7416111B2 (ja) 2024-01-17

Family

ID=83322824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022041928A Active JP7416111B2 (ja) 2021-03-23 2022-03-16 データ処理のための方法、装置及びプログラム

Country Status (3)

Country Link
US (1) US20220309402A1 (ja)
JP (1) JP7416111B2 (ja)
CN (1) CN115115056A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122418A (ja) 2005-10-28 2007-05-17 Bioinformatics Institute For Global Good Inc 予測方法、予測装置および予測プログラム
WO2018180971A1 (ja) 2017-03-30 2018-10-04 日本電気株式会社 情報処理システム、特徴量説明方法および特徴量説明プログラム
JP2019200487A (ja) 2018-05-14 2019-11-21 株式会社東芝 利用数予測装置、利用数予測方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122418A (ja) 2005-10-28 2007-05-17 Bioinformatics Institute For Global Good Inc 予測方法、予測装置および予測プログラム
WO2018180971A1 (ja) 2017-03-30 2018-10-04 日本電気株式会社 情報処理システム、特徴量説明方法および特徴量説明プログラム
JP2019200487A (ja) 2018-05-14 2019-11-21 株式会社東芝 利用数予測装置、利用数予測方法及びプログラム

Also Published As

Publication number Publication date
CN115115056A (zh) 2022-09-27
JP2022151738A (ja) 2022-10-07
US20220309402A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
Phillips et al. Opening the black box: An open‐source release of Maxent
Lu et al. Machine learning for synthetic data generation: a review
Li et al. Discover and mitigate unknown biases with debiasing alternate networks
CN109189935B (zh) 一种基于知识图谱的app传播分析方法及***
De Nicola et al. Evaluating Italian public hospital efficiency using bootstrap DEA and CART
CN111695046B (zh) 基于时空移动数据表征学习的用户画像推断方法及装置
US12045843B2 (en) Systems and methods for tracking data shared with third parties using artificial intelligence-machine learning
US20220114607A1 (en) Method, apparatus and computer readable storage medium for data processing
Botella et al. Jointly estimating spatial sampling effort and habitat suitability for multiple species from opportunistic presence‐only data
Omay et al. The comparison of power and optimization algorithms on unit root testing with smooth transition
Ramachandramurthy et al. Distilling big data: Refining quality information in the era of yottabytes
Sharaf Addin et al. Customer mobile behavioral segmentation and analysis in telecom using machine learning
Keil Z‐scores unite pairwise indices of ecological similarity and association for binary data
CN111160638A (zh) 一种转化预估方法及装置
Chamoso et al. Social computing for image matching
CN117541853A (zh) 一种基于类别解耦的分类知识蒸馏模型训练方法和装置
JP7416111B2 (ja) データ処理のための方法、装置及びプログラム
JP2020181578A (ja) データ処理方法、装置、及び媒体
Zhu et al. A hybrid model for nonlinear regression with missing data using quasilinear kernel
JP2020047229A (ja) 記事解析装置、および、記事解析方法
CN112883256B (zh) 多任务处理方法、装置、电子设备及存储介质
CN115186173A (zh) 多媒体资源推送、智能体网络生成方法及装置
Chang et al. Incorporating AI Methods in Micro-dynamic Analysis to Support Group-Specific Policy-Making
KR20230059318A (ko) 유동 인구 분석 방법 및 장치
Colot et al. Leveraging fine-grained mobile data for churn detection through Essence Random Forest

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220722

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231218

R151 Written notification of patent or utility model registration

Ref document number: 7416111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151