WO2023053176A1

WO2023053176A1 - 学習装置、行動推薦装置、学習方法、行動推薦方法及び記憶媒体

Info

Publication number: WO2023053176A1
Application number: PCT/JP2021/035571
Authority: WO
Inventors: 遼介外川
Original assignee: 日本電気株式会社
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2023-04-06
Also published as: JPWO2023053176A1

Abstract

学習装置１Ｘの取得手段１５Ｘは、対象者の健康状態と対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、当該行動が対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得する。そして、学習装置１Ｘの学習手段１６Ｘは、履歴情報と、成否情報とに基づき、対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に、対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する。

Description

学習装置、行動推薦装置、学習方法、行動推薦方法及び記憶媒体

　本開示は、対象者の健康状態を変容するための行動の推薦に関する処理を行う学習装置、行動推薦装置、学習方法、行動推薦方法及び記憶媒体の技術分野に関する。

　対象者がとるべき行動を提示する装置又はシステムが知られている。例えば、特許文献１には、健康状態が改善したと判定された利用者の基本情報、身体情報及び行動情報を収集し、ある行動が健康状態の改善に寄与する条件を分析することで、利用者の身体機能及び生活習慣に応じた成功体験談を利用者に提示するシステムが開示されている。また、特許文献２には、健康診断結果のデータ等に基づき、健康状態改善等のための行動変容を促す改善行動ポートフォリオを対象者に提供するシステムが開示されている。

特開２０１５－２００９６９号公報特開２００９－１５７８３７号公報

　健康管理のための行動変容を対象者に提示する場合、当該対象者の過去の行動及び健康状態によって次にとるべき適切な行動は異なる。一方、特許文献１及び特許文献２には、対象者の過去の行動と健康状態の両方を勘案して推薦すべき行動を決定する点については開示されていない。

　本開示は、上述した課題を鑑み、対象者に推薦する行動を好適に決定することが可能な学習装置、行動推薦装置、学習方法、行動推薦方法及び記憶媒体を提供することを目的の１つとする。

　学習装置の一の態様は、
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、前記行動が前記対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得する取得手段と、
　前記履歴情報と、前記成否情報とに基づき、前記対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に、前記対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する学習手段と、
を有する学習装置である。

　行動推薦装置の一の態様は、
対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得する履歴情報取得手段と、
　前記履歴情報と、推薦モデルとに基づいて、前記対象者に対して推薦する行動である推薦行動を決定する推薦行動決定手段と、
　前記推薦行動に関する情報を出力する出力手段と、
を有し、
　前記推薦モデルは、複数の人物の健康状態と前記複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、前記複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである、
行動推薦装置である。

　学習方法の一の態様は、
　コンピュータが、
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、前記行動が前記対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得し、
　前記履歴情報と、前記成否情報とに基づき、前記対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に前記対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する、
学習方法である。なお、「コンピュータ」は、あらゆる電子機器（電子機器に含まれるプロセッサであってもよい）を含み、かつ、複数の電子機器により構成されてもよい。

　行動推薦方法の他の態様は、
　コンピュータが、
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得し、
　前記履歴情報と、推薦モデルとに基づいて、前記対象者に対して推薦する行動である推薦行動を決定し、
　前記推薦行動に関する情報を出力する行動推薦方法であって、
　前記推薦モデルは、複数の人物の健康状態と前記複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、前記複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである、
行動推薦方法である。

　記憶媒体の一の態様は、
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、前記行動が前記対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得し、
　前記履歴情報と、前記成否情報とに基づき、前記対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に前記対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する処理をコンピュータに実行させるプログラムが格納された記憶媒体である。

　記憶媒体の他の態様は、
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得し、
　前記履歴情報と、推薦モデルとに基づいて、前記対象者に対して推薦する行動である推薦行動を決定し、
　前記推薦行動に関する情報を出力する処理をコンピュータに実行させ、
　前記推薦モデルは、複数の人物の健康状態と前記複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、前記複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである、プログラムが格納された記憶媒体である。

　本開示の１つの効果の例として、対象者の過去の行動と健康状態を勘案して、対象者の健康を改善するための推薦行動を好適に決定することができる。

第１実施形態に係る行動推薦システムの概略構成を示す。（Ａ）学習装置のハードウェア構成を示す。（Ｂ）行動推薦装置のハードウェア構成を示す。ＳＡｉＬ法における推薦モデルの生成動作を模式的に示す図である。行動模倣器を最適化する動作を模式的に示す図である。学習装置の機能ブロックの一例である。推薦モデルの学習及び推薦モデルを用いた推薦行動の算出を模式的に示した図である。学習装置が実行する推薦モデルの学習処理を表すフローチャートの一例である。行動推薦装置の機能ブロックの一例である。行動推薦装置が実行する行動推薦処理のフローチャートの一例である。第２実施形態に係る行動推薦システムの概略構成を示す。第３実施形態における学習装置のブロック図である。第３実施形態において学習装置が実行するフローチャートの一例である。第４実施形態における行動推薦装置のブロック図である。第４実施形態において行動推薦装置が実行するフローチャートの一例である。

　以下、図面を参照しながら、学習装置、行動推薦装置、学習方法、行動推薦方法及び記憶媒体の実施形態について説明する。

　＜第１実施形態＞
　（１）システム構成
　図１は、第１実施形態に係る行動推薦システム１００の概略構成を示す。行動推薦システム１００は、対象者の健康管理に関するシステムであり、対象者の行動及び健康状態の履歴から次に実行すべき行動を推薦する推薦モデルの学習と、学習された推薦モデルを用いた行動の推薦とを行う。推薦モデルは、後述するように、行動と行動を行った者の健康状態との履歴を表す履歴情報と、行動を行った者に対して推薦する行動との関係を学習したモデルである。

　以後において、「対象者」は、行動推薦システム１００により行動の推薦を受けるものであって、組織により行動の管理が行われる者であってもよく、個人のユーザであってもよい。また、上述した「健康管理」には、体重・体脂肪率の改善等を目的としたダイエット支援、血糖値などその他検査項目の改善を目的とした健康増進などの一般的な健康管理の他、アスリートなどの特殊業務者のコンディション維持、リハビリを必要とする患者のリハビリテーションの管理なども含まれる。また、「行動」は、対象者の健康に影響がある任意の行動を含み、自ら実行する能動的な行動に限らず、マッサージや治療を受けるなどの受動的な行動も含む。

　行動推薦システム１００は、主に、学習装置１と、行動推薦装置２と、記憶装置３と、入力装置４と、出力装置５と、センサ６とを備える。ここで、学習装置１と記憶装置３、及び、行動推薦装置２と記憶装置３は、通信網を介し、又は、無線若しくは有線による直接通信によりデータ通信を行う。同様に、行動推薦装置２と入力装置４、行動推薦装置２と出力装置５、及び行動推薦装置２とセンサ６は、通信網を介し、又は、無線若しくは有線による直接通信によりデータ通信を行う。

　学習装置１は、記憶装置３の訓練データ記憶部３２が記憶する訓練データに基づいて、学習器である推薦モデルの機械学習を行い、機械学習により得られた推薦モデルのパラメータを記憶装置３のモデル情報記憶部３１に記憶する。ここで、推薦モデルは、対象者の行動と健康状態の履歴を表す情報（「行動・状態履歴情報」とも呼ぶ。）を入力データとし、対象者に推薦する行動（「推薦行動」とも呼ぶ。）を推論結果として出力する学習モデルである。このような推薦モデルの機械学習方法の一例として、本実施形態では、ＳＡｉＬ（Skill Acquisition Learning）法に基づく上述の推薦モデルの学習を行う。推薦モデルの学習の詳細については後述する。

　行動推薦装置２は、記憶装置３のモデル情報記憶部３１が記憶するパラメータに基づき推薦モデルを構成し、構成した推薦モデルと、対象者の直近の行動及び健康状態の履歴を表す行動・状態履歴情報とに基づき、対象者に推薦する推薦行動を決定する。この場合、行動推薦装置２は、入力装置４から供給される入力信号「Ｓ１」、センサ６から供給されるセンサ（検出）信号「Ｓ３」、又は／及び記憶装置３に記憶された情報に基づき、対象者の直近の行動及び健康状態の履歴を表す行動・状態履歴情報を取得する。そして、行動推薦装置２は、決定した推薦行動に関する情報を、出力装置５により出力する。この場合、行動推薦装置２は、対象者に推薦する推薦行動に関する出力信号「Ｓ２」を生成し、生成した出力信号Ｓ２を出力装置５に供給する。

　入力装置４は、各対象者に関する情報の手入力（外部入力）を受け付けるインターフェースである。なお、入力装置４を用いて情報の入力を行うユーザは、対象者本人であってもよく、対象者の活動を管理又は監督する者であってもよい。入力装置４は、例えば、タッチパネル、ボタン、キーボード、マウス、音声入力装置などの種々のユーザ入力用インターフェースであってもよい。入力装置４は、生成した入力信号Ｓ１を、行動推薦装置２へ供給する。出力装置５は、行動推薦装置２から供給される出力信号Ｓ２に基づき、所定の情報を表示又は音出力する。出力装置５は、例えば、ディスプレイ、プロジェクタ、スピーカ等である。

　センサ６は、対象者の生体信号等を測定し、測定した生体信号等を、センサ信号Ｓ３として行動推薦装置２へ供給する。この場合、センサ信号Ｓ３は、対象者の心拍、脳波、脈波、発汗量（皮膚電気活動）、ホルモン分泌量、脳血流、血圧、体温、筋電、呼吸数、加速度などの任意の生体信号（バイタル情報を含む）であってもよい。また、センサ６は、対象者から採取された血液を分析し、その分析結果を示すセンサ信号Ｓ３を出力する装置であってもよい。また、センサ６は、対象者が装着するウェアラブル端末であってもよく、対象者を撮影するカメラ又は対象者の発話の音声信号を生成するマイク等であってもよく、対象者が操作するパーソナルコンピュータやスマートフォンなどの端末であってもよい。上述のウェアラブル端末は、例えば、ＧＮＳＳ（Global Navigation Satellite System）受信機、加速度センサ、その他生体信号を検出するセンサ等を含んでおり、これらの各センサの出力信号をセンサ信号Ｓ３として出力する。また、センサ６は、パーソナルコンピュータやスマートフォンなどの操作量に相当する情報をセンサ信号Ｓ３として行動推薦装置２に供給してもよい。また、センサ６は、対象者の睡眠中に対象者から生体データ（睡眠時間を含む）を表すセンサ信号Ｓ３を出力するものであってもよい。

　記憶装置３は、学習装置１及び行動推薦装置２が実行する処理に必要な各種情報を記憶するメモリである。記憶装置３は、学習装置１及び行動推薦装置２に接続又はいずれか一方に内蔵されたハードディスクなどの外部記憶装置であってもよく、持ち運び自在なフラッシュメモリなどの記憶媒体であってもよい。また、記憶装置３は、学習装置１及び行動推薦装置２とデータ通信を行うサーバ装置であってもよい。また、記憶装置３は、複数の装置から構成されてもよい。

　記憶装置３は、機能的には、モデル情報記憶部３１と、訓練データ記憶部３２とを有している。

　モデル情報記憶部３１は、学習装置１が学習する推薦モデルのパラメータを記憶する。推薦モデルは、対象者に関する直前の行動及び健康状態の履歴を表す行動・状態履歴情報を入力データとし、当該対象者へ推薦する推薦行動を推論結果として出力するように学習される。推薦モデルのパラメータは、行動・状態履歴情報を入力データとして用い、当該行動・状態履歴情報が成功事例の行動・健康状態の履歴を表すもの（即ち正例）であるか又は失敗事例の行動・健康状態の履歴を表すものであるか（即ち負例）を表す教師ラベル（「成否情報」とも呼ぶ。）を用いた機械学習によって生成される。ここで、成功事例であるか失敗事例であるかは、対象の健康状態の改善の有無（及び改善度合い）に基づき判定され、具体的には対象者の健康管理にとって重要となる指標（ＫＰＩ：Ｋｅｙ　Ｐｅｒｆｏｒｍａｎｃｅ　Ｉｎｄｉｃａｔｏｒ）に基づき学習前において判定される。ＫＰＩは、「基準指標」の一例である。

　なお、推薦モデルとして、畳み込みニューラルネットワークなどのニューラルネットワークに基づくモデルが用いられる場合には、モデル情報記憶部３１には、モデルにおいて採用される層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの種々のパラメータの情報が記憶される。モデル情報記憶部３１に記憶されるパラメータは、学習装置１により生成及び更新される。

　訓練データ記憶部３２は、学習装置１による学習に用いられる学習用（訓練用）のデータである訓練データ（学習データ）を記憶する。訓練データは、訓練データ生成用の被検者（「訓練用被検者」とも呼ぶ。）の行動と健康状態を表す行動・状態履歴情報と、当該行動・状態履歴情報に対する正負ラベルとの組を複数組含んでいる。

　なお、図１に示す行動推薦システム１００の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、学習装置１と、行動推薦装置２と、記憶装置３とのうち少なくとも２つが同一装置により実現されてもよい。他の例では、学習装置１と行動推薦装置２とは、夫々、複数の装置により構成されてもよい。この場合、学習装置１を構成する複数の装置及び行動推薦装置２を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、有線又は無線での直接通信により又はネットワークを介した通信により装置間において行う。この場合、学習装置１は学習システムとして機能し、行動推薦装置２は行動推薦システムとして機能する。さらに別の例では、入力装置４及び出力装置５は、一体となって構成されてもよい。この場合、入力装置４及び出力装置５は、行動推薦装置２と一体又は別体となるタブレット型端末として構成されてもよい。また、入力装置４とセンサ６とは、一体となって構成されてもよい。

　（２）ハードウェア構成
　図２（Ａ）は、学習装置１のハードウェア構成を示す。学習装置１は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３とを含む。プロセッサ１１、メモリ１２及びインターフェース１３は、データバス１０を介して接続されている。

　プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、学習装置１の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ１１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＴＰＵ（Ｔｅｎｓｏｒ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサである。プロセッサ１１は、複数のプロセッサから構成されてもよい。プロセッサ１１は、コンピュータの一例である。

　メモリ１２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ１２には、学習装置１が実行する処理を実行するためのプログラムが記憶される。なお、メモリ１２が記憶する情報の一部は、学習装置１と通信可能な１又は複数の外部記憶装置により記憶されてもよく、学習装置１に対して着脱自在な記憶媒体により記憶されてもよい。

　インターフェース１３は、学習装置１と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。

　なお、学習装置１のハードウェア構成は、図２（Ａ）に示す構成に限定されない。例えば、学習装置１は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。

　図２（Ｂ）は、行動推薦装置２のハードウェア構成の一例を示す。行動推薦装置２は、ハードウェアとして、プロセッサ２１と、メモリ２２と、インターフェース２３とを含む。プロセッサ２１、メモリ２２、及びインターフェース２３は、データバス２０を介して接続されている。

　プロセッサ２１は、メモリ２２に記憶されているプログラムを実行することにより、行動推薦装置２の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ２１は、例えば、ＣＰＵ、ＧＰＵ、ＴＰＵ、量子プロセッサなどのプロセッサである。プロセッサ２１は、複数のプロセッサから構成されてもよい。プロセッサ２１は、コンピュータの一例である。

　メモリ２２は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ２２には、行動推薦装置２が実行する処理を実行するためのプログラムが記憶される。なお、メモリ２２が記憶する情報の一部は、行動推薦装置２と通信可能な記憶装置３などの外部記憶装置により記憶されてもよく、行動推薦装置２に対して着脱自在な記憶媒体により記憶されてもよい。また、メモリ２２は、記憶装置３が記憶する情報を代わりに記憶してもよい。

　インターフェース２３は、行動推薦装置２と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。

　なお、行動推薦装置２のハードウェア構成は、図２（Ｂ）に示す構成に限定されない。例えば、行動推薦装置２は、入力装置４、出力装置５、センサ６とインターフェース２３を介して接続する代わりに、これらのいずれかを内蔵してもよい。

　（３）推薦モデルの概要
　（３－１）ＳＡｉＬ法の基本説明
　次に、本実施形態において推薦モデルの学習に用いるＳＡｉＬ法に関する基本説明を行う。図３は、ＳＡｉＬ法における推薦モデルの生成動作を模式的に示す図である。図３に示されるように、推薦モデルは、行動方針選択器と、複数の行動模倣器（行動模倣器Ａ、行動模倣器Ｂ、…）とを含んでいる。ここで、丸印（〇）は訓練用被検者がとった行動を表し、三角印（△）は訓練用被検者の健康状態を表す。

　ここで、行動模倣器は、ある過去事例が入力されると、入力された過去事例に推薦行動を付加した行動推薦事例を出力するモデルである。図３では、行動とその行動の結果として発生した健康状態とが時系列により交互に示された５要素分の履歴を示す過去事例Ａが用いられている。そして、過去事例Aは、最後の行動を除いた４要素分の履歴として各行動模倣器に入力される。そして、各行動模倣器は、入力された４要素分の過去事例Ａに基づき推薦行動を推論し、入力された４要素分の過去事例Ａに推薦行動を付加した行動推薦事例Ｂを出力する。ここで、行動推薦事例Ｂは、推論された推薦行動を含む、行動と健康状態の計５要素分の履歴となっている。左側の過去事例Ａの下に示す矢印９０は、最後の行動を除いた４要素分の過去事例Ａの行動模倣器への入力を示しており、行動推薦事例Ｂの下の矢印９１は、行動推薦事例Ｂの行動模倣器からの出力を示している。

　入力された過去事例に基づき各行動模倣器が行動推薦事例を推論すると、行動方針選択器は、入力（即ち５要素分の過去事例Ａ）と推論結果とを比較し、推論の精度を基に最適な行動模倣器を選択する。図３の過去事例Ａと行動推薦事例Ｂの間の矢印９２は、入力である５要素分の過去事例Ａと、推論結果である行動推薦事例Ｂの比較を示している。矢印９２から行動方針選択器への矢印９３および矢印９２から行動模倣器に向けた矢印９４は、比較結果が行動方針選択器と行動模倣器に入力されることを示している。

　そして、学習装置１は、入力と推論結果の比較結果を基に、行動方針選択器と、行動模倣器を同時に学習することで推薦モデルを生成する。

　図４は、行動模倣器を最適化する動作を模式的に示す図である。学習装置１は、行動模倣器をＡＣＩＬ（Adversarial Cooperative Imitation Learning）法によって生成する。学習装置１は、行動方針選択器の一部である成功事例分類器において、行動模倣器が生成した事例と、過去の成功事例と比較する。また、学習装置１は、行動方針選択器の一部である失敗事例分類器において、行動模倣器が生成した事例と、過去の失敗事例と比較する。図４の過去の成功事例Ｘは、正例として用いられる入力データである。また、過去の失敗事例Ｚは、負例として用いられる入力データである。過去事例が正例であるか負例であるは、対応する成否情報を参照することで識別される。生成された事例Ｙは、入力データを基に行動模倣器によって生成されたデータである。

　成功事例分類器は、過去の成功事例と行動模倣器が生成した事例を見分ける（または分類する）動作を行う。そのため、行動模倣器と成功事例分類器は、過去の成功事例に近づけようとする行動模倣器と見分けようとする成功事例分類器とで、敵対しながら学習（最適な行動模倣器の選択）を進める。「敵対しながら学習を進める」とは、行動模倣器が成功事例との差が小さい事例を生成しようとするのに対し、成功事例分類器が小さな差をさらに見極めようとすることで、入力データである成功事例と推論結果である生成された事例との差が小さくなるように学習を進めていく処理のことをいう。

　一方、失敗事例分類器は、過去の失敗事例と行動模倣器が生成した事例を見分ける（または分類する）動作を行う。そのため、行動模倣器と失敗事例分類器は、過去の失敗事例に遠ざけようとする行動模倣器と見分けようとする成功事例分類器とで、協調しながら学習を進める。「協調しながら学習を進める」とは、行動模倣器が失敗事例との差が大きい事例を生成しようとするのに対し、差がより大きい事例を失敗事例分類器が選択しようとすることで、入力データである失敗事例と推論結果である生成された事例との差が大きくなるように学習を進めていく処理のことをいう。このように、学習装置１は、敵対と協調の両方を用いて機械学習を行うことで、致命的な失敗に至ることなく精度の高い推論を行うことができる推薦モデルを得ることが可能になる。

　ＡＣＩＬ法およびＳＡｉＬ法の詳細は、Lu Wand et al., " Adversarial Cooperative Imitation Learning for Dynamic Treatment Regimes", Proceedings of The Web Conference 2020 (WWW '20), ［２０２１年８月５日検索］Internet <URL: https://dl.acm.org/doi/10.1145/3366423.3380248>に記載されている。

　なお、図３及び図４の例では、学習装置１は、正例と負例の訓練データを用いて機械学習を行って推薦モデルを生成しているが、学習装置１は、正例の訓練データのみを用いて機械学習を行って推薦モデルを生成してもよい。

　（３－２）行動・状態履歴情報
　次に、推薦モデルの学習時又は推薦モデルを用いた推薦行動の決定時において推薦モデルへの入力データとして用いられる行動・状態履歴情報について具体的に説明する。

　行動・状態履歴情報は、対象者又は訓練用被検者の行動と健康状態とを交互に示した履歴を示す。以後では、行動・状態履歴情報において、ある時点における行動（即ち図３及び図４における１個分の丸印（〇）に該当する行動）を表す情報を「行動要素情報」と呼ぶ。上述の「時点」は時間的な幅（例えば数時間～数日単位の時間的な幅）を有してもよい。また、行動・状態履歴情報において、ある時点における健康状態（即ち図３及び図４における１個分の丸印（△）に該当する健康状態）を表す情報を「状態要素情報」と呼ぶ。

　行動要素情報が示す行動は、行動が行われたタイミング（時間帯や日時、対象者の状態が所定の状態になった時、など）と行動の内容とがセンサ６等により検出可能な行動、又は、入力装置４等への手入力等により履歴として記録することが可能な行動である。このような行動の例として、運動に関する行動（ウォーキング、ジョギング、ウエイトトレーニング、ストレッチ、各種スポーツ等の運動内容、運動をする頻度、運動量など）、食事に関する行動（摂取、摂取制限、食事の時間帯、など）、睡眠に関する行動（例えば睡眠時間や時間帯）、治療（整体治療や投薬治療も含む）やマッサージの施術などが挙げられる。そして、行動要素情報は、行動の種類を表す情報を含んでもよく、行動の種類と行動の度合い（行動量）の組み合わせを含む情報であってもよい。

　ここで、行動要素情報が「行動の種類」と「行動の度合い」の組み合わせを表す場合について例示する。例えば、「行動の種類」が歩行である場合には、「行動の度合い」は歩数又は歩行距離である。その他、「行動の種類」が運動に関する行動の種類（例えば、ジョギング、ウエイトトレーニング、その他各種スポーツ）である場合には、「行動の度合い」は距離、負荷、行動時間等である。また、「行動の種類」がカロリーの摂取制限である場合には、「行動の度合い」は摂取カロリー又は通常時により削減したカロリーの削減量である。その他、「行動の種類」が食事に関する行動の種類（糖質摂取／制限、タンパク質摂取／制限、その他栄養素の摂取／制限）である場合には、「行動の度合い」は対象の栄養素の摂取量又は通常と比較した削減量、又は食事摂取に関する指標値（例えばＧＩ（Glycemic Index）値）である。なお、行動要素情報は、行動の度合いに関する情報を含まなくてもよい。この場合、行動要素情報は、健康状態に影響がある行動の種類（例えばトレーニングの実行、糖質制限の実行等）を表す。

　また、推薦モデルが出力する推薦行動に関する情報（「推薦行動情報」とも呼ぶ。）は、行動要素情報と同様に、行動の種類、又は、行動の種類と行動の度合いの組み合わせを表す。推薦モデルが出力する推薦行動情報は、学習に用いた行動・状態履歴情報に含まれる行動要素情報と同一のデータ形式となる。

　状態要素情報は、センサ６等により検出可能な健康状態、又は、入力装置４等への手入力により履歴として取得することが可能な健康状態を表す情報であり、１又は複数の健康に関する指標値を含んでいる。健康に関する指標値は、例えば、血糖値や中性脂肪やコレステロール値等の血液検査で取得可能な数値、体重、ＢＭＩ，体脂肪率、血圧、心拍数などが該当する。状態要素情報は、成功事例か失敗事例かの判定においてキーとなる指標であるＫＰＩの算出に用いる健康状態の指標値を少なくとも含んでいる。以後では、上述のＫＰＩの算出に用いる健康状態の指標値を、「ＫＰＩ関連指標値」とも呼ぶ。なお、ＫＰＩ関連指標値は、ＫＰＩそのものであってもよい。

　また、状態要素情報は、ＫＰＩの算出に必要な指標値に加えて、ＫＰＩの算出に直接用いない任意の指標値を含んでもよい。以後では、ＫＰＩの算出に直接用いない健康状態に関する指標値を「ＫＰＩ周辺指標値」とも呼ぶ。例えば、ＫＰＩがＢＭＩである場合には、ＫＰＩ関連指標値は、体重及び身長であり、ＫＰＩ周辺指標値は、血圧、心拍数、血糖値などである。このように、ＫＰＩに直接関連するＫＰＩ関連指標値に加えて、ＫＰＩ周辺指標値を状態要素情報に含めることで、対象者の健康状態を総合的に勘案して最適な推薦行動を出力するように推薦モデルの学習及び推薦行動の決定を行うことが可能となる。

　（３－３）成否情報
　次に、推薦モデルの学習において教師ラベルとして用いられる成否情報について説明する。成否情報は、推薦モデルの学習においてペアとなる行動・状態履歴情報が成功事例（即ち正例）であるか失敗事例（即ち負例）であるかを示す情報であり、訓練データ記憶部３２に記憶されている。

　ここで、成否情報は、例えば、行動・状態履歴情報に含まれる状態要素情報のうち最新の健康状態を表す状態要素情報により算出されるＫＰＩが所定の好ましい値域に属する場合には、対応する行動・状態履歴情報が正例であることを示すように生成される。また、成否情報は、行動・状態履歴情報に含まれる状態要素情報のうち最新の健康状態を表す状態要素情報により算出されるＫＰＩが上述の値域外である場合には、対応する行動・状態履歴情報が負例であることを示すように生成される。例えば、ＫＰＩが体重であった場合には、成否情報は、一連の行動後又は一定期間後の体重が減少した場合には正例であることを示すように生成され、一連の行動後又は一定期間後の体重が減少しなかった場合には負例であることを示すように生成される。

　なお、正例又は負例の判定は、最新（最終）の健康状態のみに基づき決定されることに限定されず、最新の健康状態に至る過程での健康状態を勘案して行われてもよい。この場合、最新の健康状態と、中間の健康状態とに夫々条件を設け、それらの条件が満たされている行動・状態履歴情報に対して正例であることを示す成否情報が付与されてもよい。成否情報は、上述した生成例の他、任意の規則又は属人的手法に基づき生成されてもよい。

　（４）学習装置が実行する処理
　図５は、学習装置１の機能ブロックの一例である。学習装置１のプロセッサ１１は、機能的には、取得部１５と、学習部１６とを有する。

　取得部１５は、推薦モデルの学習にまだ用いられていない行動・状態履歴情報と成否情報の組を訓練データ記憶部３２からインターフェース１３を介して取得し、取得した行動・状態履歴情報と成否情報の組を学習部１６へ供給する。そして、取得部１５は、学習部１６が推薦モデルの学習を終了するまで、又は、訓練データ記憶部３２に記憶された全ての行動・状態履歴情報と成否情報の組を取得するまで、行動・状態履歴情報と成否情報の組の取得及び学習部１６への供給を行う。

　学習部１６は、取得部１５から供給される行動・状態履歴情報と成否情報の組に基づき、推薦モデルの学習を行う。具体的には、学習部１６は、成否情報に基づき行動・状態履歴情報が成功事例であるか失敗事例であるか判定し、さらに図３及び図４に示したようなＳＡｉＬ法に基づき、成功事例に近く、かつ、失敗事例に遠くなるような推論結果を出力するように行動指針選択器（成功事例分類器及び失敗事例分類器を含む）及び行動模倣器の学習を行う。そして、学習部１６は、勾配降下法や誤差逆伝播法などのパラメータ決定アルゴリズムにより、行動指針選択器及び行動模倣器の各パラメータを更新し、更新したパラメータをモデル情報記憶部３１に記憶する。そして、学習部１６は、所定の学習の終了条件が満たされた場合に、推薦モデルの学習を終了する。学習部１６は、例えば、予め定めた数の行動・状態履歴情報と成否情報の組に対する学習が完了した場合、学習を終了すべき旨のユーザ入力等を検知した場合、又は／及び、誤差が所定の閾値以下となった場合に、学習の終了条件が満たされたと判定する。

　ここで、取得部１５及び学習部１６の各構成要素は、例えば、プロセッサ１１がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばＦＰＧＡ（Field-Programmable Gate Array）又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。また、各構成要素の少なくとも一部は、ＡＳＳＰ（Application Specific Standard Produce）、ＡＳＩＣ（Application Specific Integrated Circuit）又は量子プロセッサ（量子コンピュータ制御チップ）により構成されてもよい。このように、各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。さらに、これらの各構成要素は、例えば、クラウドコンピューティング技術などを用いて、複数のコンピュータの協働によって実現されてもよい。

　図６は、推薦モデルの学習及び推薦モデルを用いた推薦行動の算出を模式的に示した図である。図示のように、学習部１６は、学習段階において、行動・状態履歴情報と成否情報の組を推薦モデルに入力することで推薦モデルの学習を行う。この場合、学習部１６は、失敗事例（ここでは成否情報が「０」）の行動・状態履歴情報と成功事例（ここでは成否情報が「１」）の行動・状態履歴情報とを夫々用いて推薦モデルの学習を行う。なお、ここでは、行動・状態履歴情報は、行動と健康状態の計４要素から構成されているが、これに限らず、可変長であってもよい。即ち、学習に用いられる行動・状態履歴情報として、例えば、計２要素（即ち１組の行動と健康状態）の行動・状態履歴情報が含まれてもよく、計６要素以上の行動・状態履歴情報が含まれていてもよい。

　図７は、学習装置１が実行する推薦モデルの学習処理を表すフローチャートの一例である。

　まず、学習装置１は、行動・状態履歴情報と成否情報の組を訓練データ記憶部３２から取得する（ステップＳ１１）。そして、学習装置１は、ステップＳ１１で取得した行動・状態履歴情報と成否情報の組に基づき、推薦モデルの学習を行う（ステップＳ１２）。この場合、学習装置１は、ステップＳ１１で取得した行動・状態履歴情報と成否情報の組に基づき、推薦モデルのパラメータを更新し、更新したパラメータをモデル情報記憶部３１に記憶する。

　そして、学習装置１は、学習が終了したか否か判定する（ステップＳ１３）。そして、学習装置１は、学習が終了したと判定した場合（ステップＳ１３；ＹＥＳ）、フローチャートの処理を終了する。一方、学習装置１は、学習が終了していないと判定した場合（ステップＳ１３；ＮＯ）、ステップＳ１１へ処理を戻す。

　（５）行動推薦装置が実行する処理
　図８は、行動推薦装置２の機能ブロックの一例である。行動推薦装置２のプロセッサ２１は、機能的には、対象者データ取得部２５と、履歴情報生成部２６と、推薦行動決定部２７と、出力制御部２８とを有する。なお、図８では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せはこれに限定されない。後述する他の機能ブロックの図においても同様である。

　対象者データ取得部２５は、対象者の行動・状態履歴情報（即ち、行動要素情報と状態要素情報）の生成に必要な対象者に関するデータ（「対象者データ」とも呼ぶ。）を、インターフェース２３を介して取得する。この場合、対象者データ取得部２５は、入力装置４が生成する入力信号Ｓ１、又は／及び、センサ６が生成するセンサ信号Ｓ３を取得する。なお、行動・状態履歴情報の生成に必要な対象者に関する任意の属性情報（年齢、身長、体重等）等が記憶装置３に記憶されている場合には、対象者データ取得部２５又は後述する履歴情報生成部２６は、行動・状態履歴情報の生成に必要な対象者の属性情報を記憶装置３から取得してもよい。また、対象者データ取得部２５が取得した対象者データは、例えば、対象者データ取得部２５が取得した取得日時又はユーザが指定した日時等と関連付けられて記憶装置３又はメモリ２２等に記憶されてもよい。

　履歴情報生成部２６は、対象者データ取得部２５が取得した時系列での対象者データから、対象者の時系列での行動と健康状態を抽出し、その抽出結果に基づき時系列での行動要素情報と状態要素情報を生成する。そして、履歴情報生成部２６は、生成した行動要素情報と状態要素情報の時系列データとなる行動・状態履歴情報を、推薦行動決定部２７に供給する。

　この場合、履歴情報生成部２６は、対象者データがセンサ信号Ｓ３である場合には、センサ信号Ｓ３に対して所定の特徴抽出処理を行うことで、対象者の健康状態を表す指標（ＫＰＩ関連指標及びＫＰＩ周辺指標）を算出する。例えば、履歴情報生成部２６は、センサ信号Ｓ３が心拍や発汗等の生体データである場合には、当該生体データに対して所定の特徴抽出処理及び抽出した特徴量に基づくストレス推定処理を行うことで、ＫＰＩ関連指標又はＫＰＩ周辺指標となるストレス値を算出する。なお、生体データからストレス度合いを推定する手法については種々の手法が提案されている。他の例では、履歴情報生成部２６は、センサ信号Ｓ３がスマートフォンやウエアラブルセンサの加速度センサ等の出力データである場合には、所定期間において取得されるセンサ信号Ｓ３から当該所定期間における歩数をカウントし、カウント結果に基づき所定期間における歩数を表す行動要素情報を生成する。

　このように、履歴情報生成部２６は、推薦モデルの入力形式に整合するデータ形式となるように、特徴抽出処理（ニューラルネットワーク等を用いた学習モデルを用いた特徴抽出技術を含む）などを行い、対象者データを行動要素情報と状態要素情報に変換する。そして、履歴情報生成部２６は、生成した時系列の行動要素情報と状態要素情報を含む行動・状態履歴情報を、推薦行動決定部２７に供給する。この場合、行動・状態履歴情報は、例えば、所定形式のテンソルにより表される。

　ここで、時系列での行動要素情報と状態要素情報の生成方法について補足説明する。例えば、履歴情報生成部２６は、行動・状態履歴情報に含める各行動要素情報において対象となる行動の観測期間を設けておき、設けた観測期間ごとに得られるセンサ信号Ｓ３等に基づき、観測期間ごとの行動を表す行動要素情報を生成する。同様に、履歴情報生成部２６は、行動・状態履歴情報に含める各状態要素情報において対象となる健康状態の観測タイミングを定めておき、当該観測タイミングにおいて得られるセンサ信号Ｓ３等に基づく対象者の健康状態を表す状態要素情報を生成する。この場合、健康状態の観測タイミングは、例えば、各行動の観測期間の直後又は各行動の観測期間の合間などに設定される。そして、履歴情報生成部２６は、直近に生成された所定個数分の時系列の行動要素情報と状態要素情報を含む行動・状態履歴情報を生成し、生成した行動・状態履歴情報を推薦行動決定部２７に供給する。

　推薦行動決定部２７は、モデル情報記憶部３１から推薦モデルのパラメータを取得し、当該パラメータに基づき構成した推薦モデルに対し、履歴情報生成部２６から供給される行動・状態履歴情報を入力し、入力された行動・状態履歴情報に基づき推薦モデルが出力する推薦行動を表す推薦行動情報を取得する。

　さらに、推薦行動決定部２７は、当該推薦行動情報と併せて、当該推薦行動を決定した根拠となる根拠情報を取得することができる。例えば、根拠情報は、対象者の行動・状態履歴情報に類似する行動・状態履歴情報の人物や対象者の属性に類似する属性の人物などに対する過去の推薦行動と、当該推薦行動により至った状態とを含む。具体的には、推薦行動決定部２７が、対象者に対して「一日に一時間のウォーキング」という内容の推薦行動情報を生成した場合、「対象者の健康状態に類似の人物ＡＡさんが『一日に一時間のウォーキング』により健康状態が改善されたため。」などの情報が根拠情報として生成される。これにより、対象者は納得感を持って推薦行動に取り組むことができるため、推薦行動に取り組む確度を向上させることができる。なお、根拠情報は、推薦行動決定部２７ではなく、他の構成が推薦モデルを用いて生成してもよい。

　ここで、推薦行動決定部２７の処理について再び図６を参照して補足説明する。図６の例では、推薦行動決定部２７は、行動、健康状態、行動、健康状態の４要素を有する行動・状態履歴情報を推薦モデルに入力し、その結果推薦モデルから出力される推薦行動を表す推薦行動情報を取得している。そして、推薦行動決定部２７は、取得した推薦行動情報を出力制御部２８へ供給する。なお、推薦モデルに入力する行動・状態履歴情報は、図６に示すように行動を最初の要素とし健康状態を最後の要素とする履歴を表すものである必要はなく、健康状態を最初の要素とする履歴を表すものであってもよく、行動を最後の要素とする履歴を表すものであってもよい。

　引き続き図８を参照して出力制御部２８の処理について説明する。出力制御部２８は、推薦行動決定部２７から供給される推薦行動情報に基づき、出力装置５を制御することで、決定した推薦行動に関する情報を出力する。この場合、推薦行動決定部２７は、推薦行動を行うことを促す画像情報、テキスト情報又は音声情報（これらをまとめて「推薦行動促進情報」とも呼ぶ。）を出力信号Ｓ２として生成し、出力制御部２８が当該出力信号Ｓ２を出力装置５に供給することで、推薦行動を行うことを促す画像情報、テキスト情報又は音声情報を出力装置５に実行させる。このとき、例えば、出力制御部２８は、推薦行動促進情報に基づき、「摂取カロリー（又は脂質、糖質）をＺ（Ｚは正数）だけ減らしてください」、「歩数をＶ（Ｖは正数）だけ増やしてください」などのテキスト情報の報知をユーザに対して行う。

　これにより、出力制御部２８は、対象者が次に実行すべき行動を好適に推薦することができる。なお、出力制御部２８は、推薦行動促進情報を出力信号Ｓ２として生成する代わりに、推薦行動情報又は推薦行動促進情報を記憶装置３又はメモリ２２に記憶してもよく、行動推薦装置２とデータ通信を行う外部装置に送信してもよい。

　ここで、対象者データ取得部２５、履歴情報生成部２６、推薦行動決定部２７、及び出力制御部２８の各構成要素は、例えば、プロセッサ２１がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばＦＰＧＡ又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。また、各構成要素の少なくとも一部は、ＡＳＳＰ、ＡＳＩＣ又は量子プロセッサ（量子コンピュータ制御チップ）により構成されてもよい。このように、各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。さらに、これらの各構成要素は、例えば、クラウドコンピューティング技術などを用いて、複数のコンピュータの協働によって実現されてもよい。

　図９は、行動推薦装置２による行動推薦処理のフローチャートの一例である。

　まず、行動推薦装置２は、対象者に関する対象者データを、入力装置４、センサ６又は記憶装置３の少なくともいずれから取得する（ステップＳ２１）。そして、行動推薦装置２は、行動推薦を行うタイミングであるか否か判定する（ステップＳ２２）。例えば、行動推薦装置２は、行動推薦を要求する入力信号Ｓ１を入力装置４から受信した場合、又は、予め定められた行動推薦を行う日時や時間帯になった場合、その他予め定めた行動推薦実行条件に該当する場合等に、行動推薦を行うタイミングであると判定する。この場合、行動推薦実行条件は、対象者の健康状態に基づき定められてもよい。行動推薦装置２は、例えば、予め定めた健康状態が検出された場合（例えば対象者の検出されたストレス値が所定値以上となった場合）、その他行動を推薦する必要があると判定される健康状態が検出された場合に、行動推薦実行条件が満たされたと判定してもよい。ステップＳ２２において、行動推薦装置２のプロセッサ２１は、「判定手段」として機能する。

　そして、行動推薦装置２は、行動推薦を行うタイミングではないと判定した場合（ステップＳ２２；ＮＯ），ステップＳ２１において引き続き対象者データを取得する処理を実行する。

　一方、行動推薦装置２は、行動推薦を行うタイミングであると判定した場合（ステップＳ２２；Ｙｅｓ）、ステップＳ２１で取得した対象者データに基づき、行動・状態履歴情報を生成する（ステップＳ２３）。そして、行動推薦装置２は、モデル情報記憶部３１を参照して構成した推薦モデルに、ステップＳ２３で生成した行動・状態履歴情報を入力し、推薦モデルが出力する推薦行動を表す推薦行動情報を取得する（ステップＳ２４）。そして、行動推薦装置２は、ステップＳ２４で取得した推薦行動情報に基づき、対象者に推薦する推薦行動に関する出力を出力装置５により行う（ステップＳ２５）。

　（６）応用例
　ここで、応用例について説明する。応用例として、対象者は健康診断受診者であり、行動推薦装置２は、年次又は月次などで定期的に実施される健康診断の診断データに基づき、対象者がとるべき行動を推薦する。この場合、診断データは、身長、体重、血液検査結果、尿検査結果、Ｘ線検査結果、心電図などの各診断項目の診断結果又は測定結果であり、これらの診断データが記憶装置３に記憶されている。

　そして、図９のステップＳ２２において行動推薦タイミングとなった場合、学習装置１は、記憶装置３を参照することで対象者の健康診断の診断データを取得し、当該診断データから対象者の健康診断の受診時点での健康状態を表す状態要素情報を生成する。また、学習装置１は、健康診断前に観測された対象者データに基づき、健康診断の受診前の行動を表す行動要素情報を上述した実施形態と同様に生成し、生成した行動要素情報と健康診断に基づく状態要素情報とを含む行動・状態履歴情報をステップＳ２３において生成する。その後、学習装置１は、ステップＳ２４において行動・状態履歴情報を推薦モデルに入力することで推薦モデルが出力する推薦行動情報を取得し、ステップＳ２５において推薦行動に関する出力を行う。

　このように、応用例によれば、学習装置１は、健康診断の診断データに基づき、健康診断受診者である対象者がとるべき行動を対象者に好適に推薦することができる。なお、学習装置１は、健康診断の診断データと、対象者が所有するウェアラブル端末や携帯端末に設けられたセンサ６が出力するセンサ信号Ｓ３との両方を用いて、対象者の健康状態を表す状態要素情報を生成してもよい。

　（７）変形例
　学習装置１は、訓練用被検者の属性の分類ごとに推薦モデルの学習を行い、行動推薦装置２は、対象者の属性に基づき、推薦行動を決定するための推薦モデルを選択してもよい。

　この場合、訓練用被検者は、所定の属性（例えば、年齢、性別、人種等）に基づき複数グループに分類され、学習装置１は、グループごとに分けられた訓練用被検者に対応する訓練データに基づき、グループごとに推薦モデルの学習を行い、学習により得られたグループごとの推薦モデルのパラメータをモデル情報記憶部３１に記憶する。そして、行動推薦装置２は、対象者の推薦行動を決定する場合、対象者の属性を記憶装置３に記憶された対象者の属性情報、又は、入力装置４又はセンサ６から取得される信号に基づき認識し、認識した対象者の属性に基づき、対象者が分類されるグループを認識する。そして、記憶装置３は、対象者が分類されたグループに対応する推薦モデルのパラメータをモデル情報記憶部３１から抽出して推薦モデルを構成し、当該推薦モデルを用いて対象者の推薦行動を決定する。

　このようにすることで、変形例に係る行動推薦システム１００は、対象者と属性が類似する訓練用被検者から取得した訓練データに基づき対象者がとるべき行動を学習し、対象者により適した行動を対象者に推薦することが可能となる。

　＜第２実施形態＞
　図１０は、第２実施形態における行動推薦システム１００Ａの概略構成を示す。第２実施形態に係る行動推薦システム１００Ａは、サーバクライアントモデルのシステムであり、サーバ装置として機能する行動推薦装置２Ａが第１実施形態における学習装置１及び行動推薦装置２の処理を行う。以後では、第１実施形態と同一構成要素については、適宜同一符号を付し、その説明を省略する。

　図１０に示すように、行動推薦システム１００Ａは、主に、サーバとして機能する行動推薦装置２Ａと、第１実施形態と同様のデータを記憶する記憶装置３と、クライアントとして機能する端末装置８とを有する。行動推薦装置２Ａと端末装置８とは、ネットワーク７を介してデータ通信を行う。

　端末装置８は、入力機能、表示機能、及び通信機能を有する端末であり、図１に示される入力装置４及び出力装置５として機能する。端末装置８は、例えば、パーソナルコンピュータ、タブレット型端末、ＰＤＡ（Ｐｅｒｓｏｎａｌ　Ｄｉｇｉｔａｌ　Ａｓｓｉｓｔａｎｔ）などであってもよい。端末装置８は、センサ６が出力する生体信号又はユーザ入力に基づく入力信号などを、行動推薦装置２Ａに送信する。

　行動推薦装置２Ａは、図２（Ａ）又は図２（Ｂ）に示されるハードウェア構成と、図５と図８に夫々示される各機能ブロック構成とを有する。そして、行動推薦装置２Ａは、図７のフローチャート等により示される推薦モデルの学習処理の実行後、図１に示す行動推薦装置２が入力装置及びセンサ６から取得する対象者に関する情報などを、ネットワーク７を介して端末装置８から対象者データとして受信し、受信した対象者データに基づき、図９のフローチャート等により示される行動推薦処理を実行する。この場合、行動推薦装置２Ａ（具体的には図８の出力制御部２８）は、端末装置８からの要求に基づき、行動推薦処理により決定した推薦行動に関する出力信号を、ネットワーク７を介して端末装置８へ送信する。この場合、端末装置８は、第１実施形態における出力装置５として機能する。

　以上のように、第２実施形態に係る行動推薦装置２Ａは、端末装置８のユーザの行動と健康状態の履歴に基づき決定した推薦行動に関する情報を、端末装置８のユーザに好適に提示することができる。なお、第２実施形態において、行動推薦装置２Ａとは別の装置が推薦モデルの学習処理を実行してもよい。

　＜第３実施形態＞
　図１１は、第３実施形態における学習装置１Ｘのブロック図である。学習装置１Ｘは、主に、取得手段１５Ｘと、学習手段１６Ｘとを有する。なお、学習装置１Ｘは、複数の装置により構成されてもよい。

　取得手段１５Ｘは、対象者の健康状態と対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、当該行動が対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得する。取得手段１５Ｘは、例えば、第１実施形態における学習装置１の取得部１５又は第２実施形態における行動推薦装置２Ａの取得部１５とすることができる。

　学習手段１６Ｘは、履歴情報と、成否情報とに基づき、対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に、対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する。学習手段１６Ｘは、例えば、第１実施形態における学習装置１の学習部１６又は第２実施形態における行動推薦装置２Ａの学習部１６とすることができる。

　図１２は、第３実施形態において学習装置１Ｘが実行するフローチャートの一例である。学習装置１Ｘの取得手段１５Ｘは、対象者の健康状態と対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、当該行動が対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得する（ステップＳ３１）。そして、学習装置１Ｘの学習手段１６Ｘは、履歴情報と、成否情報とに基づき、対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に、対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する（ステップＳ３２）。

　第３実施形態によれば、対象者の行動と健康状態の履歴を勘案して対象者に推薦する推薦行動を決定できるようなモデルの学習を行うことができる。

　＜第４実施形態＞
　図１３は、第４実施形態における行動推薦装置２Ｘのブロック図である。行動推薦装置２Ｘは、主に、履歴情報取得手段２６Ｘと、推薦行動決定手段２７Ｘと、出力手段２８Ｘとを有する。なお、行動推薦装置２Ｙは、複数の装置により構成されてもよい。

　履歴情報取得手段２６Ｘは、対象者の健康状態と対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得する。履歴情報取得手段２６Ｘは、第１実施形態における行動推薦装置２の履歴情報生成部２６又は第２実施形態における行動推薦装置２Ａの履歴情報生成部２６とすることができる。

　推薦行動決定手段２７Ｘは、履歴情報と、推薦モデルとに基づいて、対象者に対して推薦する行動である推薦行動を決定する。ここで、推薦モデルは、複数の人物の健康状態と複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである。推薦行動決定手段２７Ｘは、第１実施形態における行動推薦装置２の推薦行動決定部２７又は第２実施形態における行動推薦装置２Ａの推薦行動決定部２７とすることができる。

　出力手段２８Ｘは、推薦行動に関する情報を出力する。この場合、出力手段２８Ｘは、行動推薦装置２Ｘと有線又は無線により接続された又は行動推薦装置２Ｘに内蔵された出力装置に推薦行動に関する情報を表示又は／及び音声出力してもよく、行動推薦装置２Ｘと有線又は無線により接続された外部装置に推薦行動に関する情報を送信してもよく、行動推薦装置２Ｘと有線又は無線により接続された又は行動推薦装置２Ｘに内蔵された記憶装置に推薦行動に関する情報を記憶してもよい。出力手段２８Ｘは、第１実施形態における行動推薦装置２の出力制御部２８又は第２実施形態における行動推薦装置２Ａの出力制御部２８とすることができる。

　図１４は、第４実施形態において行動推薦装置２Ｘが実行するフローチャートの一例である。行動推薦装置２Ｘの履歴情報取得手段２６Ｘは、対象者の健康状態と対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得する（ステップＳ４１）。行動推薦装置２Ｘの推薦行動決定手段２７Ｘは、履歴情報と、推薦モデルとに基づいて、対象者に対して推薦する行動である推薦行動を決定する（ステップＳ４２）。ここで、推薦モデルは、複数の人物の健康状態と複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、複数の人物各々の健康状態と、複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである。そして、行動推薦装置２Ｘの出力手段２８Ｘは、推薦行動に関する情報を出力する（ステップＳ４３）。

　第４実施形態に係る行動推薦装置２Ｘは、対象者の行動と健康状態の履歴を勘案し、対象者に推薦すべき推薦行動を的確に決定及び出力することが可能となる。

　なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

［付記１］
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、前記行動が前記対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得する取得手段と、
　前記履歴情報と、前記成否情報とに基づき、前記対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に、前記対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する学習手段と、
を有する学習装置。
［付記２］
　前記履歴情報は、前記行動と、当該行動後に観測された前記健康状態とを時系列により交互に表す情報である、付記１に記載の学習装置。
［付記３］
　前記履歴情報は、前記行動の履歴として、当該行動の種類と当該行動の度合いとに関する情報を含む、付記１または２に記載の学習装置。
［付記４］
　前記履歴情報は、前記健康状態の履歴として、前記履歴が前記成功事例であるか否か判定するための基準となる基準指標の算出に用いる健康状態に関する指標を少なくとも含む、付記１～３のいずれか一項に記載の学習装置。
［付記５］
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得する履歴情報取得手段と、
　前記履歴情報と、推薦モデルとに基づいて、前記対象者に対して推薦する行動である推薦行動を決定する推薦行動決定手段と、
　前記推薦行動に関する情報を出力する出力手段と、
を有し、
　前記推薦モデルは、複数の人物の健康状態と前記複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、前記複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである、
行動推薦装置。
［付記６］
　前記推薦行動決定手段は、前記推薦行動に基づいて、前記対象者に報知するための推薦行動促進情報を生成し、
　前記出力手段は、前記推薦行動促進情報をさらに出力する
　付記５に記載の行動推薦装置。
［付記７］
　前記推薦行動が決定された根拠に関する根拠情報を生成する根拠情報生成手段をさらに備え、
　前記出力手段は、前記根拠情報を出力する
　付記５又は６に記載の行動推薦装置。
［付記８］
　前記対象者に行動推薦するタイミングであるか否かを判定するために判定手段をさらに備え、
　前記タイミングであると判定された場合に、前記出力手段は、前記推薦行動に関する情報を出力する
　付記５～７のいずれか一項に記載の行動推薦装置。
［付記９］
　前記対象者に関するデータである対象者データを取得する対象者データ取得手段をさらに有し、
　前記履歴情報取得手段は、前記対象者データに基づき、前記履歴情報を生成する、付記５～８のいずれか一項に記載の行動推薦装置。
［付記１０］
　前記対象者データは、前記対象者を観測するセンサが出力する信号を含む、付記９に記載の行動推薦装置。
［付記１１］
　前記対象者データ取得手段は、前記対象者データを前記対象者が使用する端末装置から取得し、
　前記出力制御手段は、前記端末装置に対し、前記推薦行動に関する情報を送信する、付記９または１０に記載の行動推薦装置。
［付記１２］
　前記履歴情報取得手段は、前記対象者が受信した健康診断の診断データに基づき、前記履歴情報を生成する、付記９～１１のいずれか一項に記載の行動推薦装置。
［付記１３］
　コンピュータが、
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、前記行動が前記対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得し、
　前記履歴情報と、前記成否情報とに基づき、前記対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に前記対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する、
学習方法。
［付記１４］
　コンピュータが、
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得し、
　前記履歴情報と、推薦モデルとに基づいて、前記対象者に対して推薦する行動である推薦行動を決定し、
　前記推薦行動に関する情報を出力する行動推薦方法であって、
　前記推薦モデルは、複数の人物の健康状態と前記複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、前記複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである、
行動推薦方法。
［付記１５］
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、前記行動が前記対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得し、
　前記履歴情報と、前記成否情報とに基づき、前記対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に前記対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する処理をコンピュータに実行させるプログラムが格納された記憶媒体。
［付記１６］
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得し、
　前記履歴情報と、推薦モデルとに基づいて、前記対象者に対して推薦する行動である推薦行動を決定し、
　前記推薦行動に関する情報を出力する処理をコンピュータに実行させ、
　前記推薦モデルは、複数の人物の健康状態と前記複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、前記複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである、
プログラムが格納された記憶媒体。
［付記１７］
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、前記行動が前記対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得する取得手段と、
　前記履歴情報と、前記成否情報とに基づき、前記対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に、前記対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する学習手段と、
を有する学習システム。
［付記１８］
　前記履歴情報は、前記行動と、当該行動後に観測された前記健康状態とを時系列により交互に表す情報である、付記１７に記載の学習システム。
［付記１９］
　前記履歴情報は、前記行動の履歴として、当該行動の種類と当該行動の度合いとに関する情報を含む、付記１７または１８に記載の学習システム。
［付記２０］
　前記履歴情報は、前記健康状態の履歴として、前記履歴が前記成功事例であるか否か判定するための基準となる基準指標の算出に用いる健康状態に関する指標を少なくとも含む、付記１７～１９のいずれか一項に記載の学習システム。
［付記２１］
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得する履歴情報取得手段と、
　前記履歴情報と、推薦モデルとに基づいて、前記対象者に対して推薦する行動である推薦行動を決定する推薦行動決定手段と、
　前記推薦行動に関する情報を出力する出力手段と、
を有し、
　前記推薦モデルは、複数の人物の健康状態と前記複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、前記複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである、
行動推薦システム。
［付記２２］
　前記推薦行動決定手段は、前記推薦行動に基づいて、前記対象者に報知するための推薦行動促進情報を生成し、
　前記出力手段は、前記推薦行動促進情報をさらに出力する
　付記２１に記載の行動推薦システム。
［付記２３］
　前記推薦行動が決定された根拠に関する根拠情報を生成する根拠情報生成手段をさらに備え、
　前記出力手段は、前記根拠情報を出力する
　付記２１又は２２に記載の行動推薦システム。
［付記２４］
　前記対象者に行動推薦するタイミングであるか否かを判定するために判定手段をさらに備え、
　前記タイミングであると判定された場合に、前記出力手段は、前記推薦行動に関する情報を出力する
　付記２１～２３のいずれか一項に記載の行動推薦システム。
［付記２５］
　前記対象者に関するデータである対象者データを取得する対象者データ取得手段をさらに有し、
　前記履歴情報取得手段は、前記対象者データに基づき、前記履歴情報を生成する、付記２１～２４のいずれか一項に記載の行動推薦システム。
［付記２６］
　前記対象者データは、前記対象者を観測するセンサが出力する信号を含む、付記２５に記載の行動推薦システム。
［付記２７］
　前記対象者データ取得手段は、前記対象者データを前記対象者が使用する端末装置から取得し、
　前記出力制御手段は、前記端末装置に対し、前記推薦行動に関する情報を送信する、付記２５または２６に記載の行動推薦システム。
［付記２８］
　前記履歴情報取得手段は、前記対象者が受信した健康診断の診断データに基づき、前記履歴情報を生成する、付記２５～２７のいずれか一項に記載の行動推薦システム。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

　ダイエット支援、健康増進、アスリートの健康管理、患者のリハビリテーションの管理などの健康のマネジメント（セルフマネジメントを含む）に関するサービスに利用される。

　１、１Ｘ　学習装置
　２、２Ａ、２Ｘ　行動推薦装置
　３　記憶装置
　４　入力装置
　５　出力装置
　６　センサ
　８　端末装置
　１００、１００Ａ　行動推薦システム

Claims

　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、前記行動が前記対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得する取得手段と、
　前記履歴情報と、前記成否情報とに基づき、前記対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に、前記対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する学習手段と、
を有する学習装置。
　前記履歴情報は、前記行動と、当該行動後に観測された前記健康状態とを時系列により交互に表す情報である、請求項１に記載の学習装置。
　前記履歴情報は、前記行動の履歴として、当該行動の種類と当該行動の度合いとに関する情報を含む、請求項１または２に記載の学習装置。
　前記履歴情報は、前記健康状態の履歴として、前記履歴が前記成功事例であるか否か判定するための基準となる基準指標の算出に用いる健康状態に関する指標を少なくとも含む、請求項１～３のいずれか一項に記載の学習装置。
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得する履歴情報取得手段と、
　前記履歴情報と、推薦モデルとに基づいて、前記対象者に対して推薦する行動である推薦行動を決定する推薦行動決定手段と、
　前記推薦行動に関する情報を出力する出力手段と、
を有し、
　前記推薦モデルは、複数の人物の健康状態と前記複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、前記複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである、
行動推薦装置。
　前記推薦行動決定手段は、前記推薦行動に基づいて、前記対象者に報知するための推薦行動促進情報を生成し、
　前記出力手段は、前記推薦行動促進情報をさらに出力する
　請求項５に記載の行動推薦装置。
　前記推薦行動が決定された根拠に関する根拠情報を生成する根拠情報生成手段をさらに備え、
　前記出力手段は、前記根拠情報を出力する
　請求項５又は６に記載の行動推薦装置。
　前記対象者に行動推薦するタイミングであるか否かを判定するために判定手段をさらに備え、
　前記タイミングであると判定された場合に、前記出力手段は、前記推薦行動に関する情報を出力する
　請求項５～７のいずれか一項に記載の行動推薦装置。
　前記対象者に関するデータである対象者データを取得する対象者データ取得手段をさらに有し、
　前記履歴情報取得手段は、前記対象者データに基づき、前記履歴情報を生成する、請求項５～８のいずれか一項に記載の行動推薦装置。
　前記対象者データは、前記対象者を観測するセンサが出力する信号を含む、請求項９に記載の行動推薦装置。
　前記対象者データ取得手段は、前記対象者データを前記対象者が使用する端末装置から取得し、
　前記出力制御手段は、前記端末装置に対し、前記推薦行動に関する情報を送信する、請求項９または１０に記載の行動推薦装置。
　前記履歴情報取得手段は、前記対象者が受信した健康診断の診断データに基づき、前記履歴情報を生成する、請求項９～１１のいずれか一項に記載の行動推薦装置。
　コンピュータが、
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、前記行動が前記対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得し、
　前記履歴情報と、前記成否情報とに基づき、前記対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に前記対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する、
学習方法。
　コンピュータが、
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得し、
　前記履歴情報と、推薦モデルとに基づいて、前記対象者に対して推薦する行動である推薦行動を決定し、
　前記推薦行動に関する情報を出力する行動推薦方法であって、
　前記推薦モデルは、複数の人物の健康状態と前記複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、前記複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである、
行動推薦方法。
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報と、前記行動が前記対象者の健康状態の変化に寄与したか否かを示す成否情報と、を取得し、
　前記履歴情報と、前記成否情報とに基づき、前記対象者の行動と健康状態との履歴を表す履歴情報が入力された場合に前記対象者の健康状態を改善するために推薦する推薦行動に関する情報を出力するモデルを学習する処理をコンピュータに実行させるプログラムが格納された記憶媒体。
　対象者の健康状態と前記対象者の健康状態の変化に寄与する行動との履歴を表す履歴情報を取得し、
　前記履歴情報と、推薦モデルとに基づいて、前記対象者に対して推薦する行動である推薦行動を決定し、
　前記推薦行動に関する情報を出力する処理をコンピュータに実行させ、
　前記推薦モデルは、複数の人物の健康状態と前記複数の人物の健康状態の変化に寄与する行動との履歴を表す履歴情報に基づいて、前記複数の人物各々の健康状態と、前記複数の人物各々の健康状態を改善するために推薦される推薦行動と、の関係を学習したモデルである、
プログラムが格納された記憶媒体。