JP2021058573A

JP2021058573A - 認知機能予測装置、認知機能予測方法、プログラム及びシステム

Info

Publication number: JP2021058573A
Application number: JP2020150612A
Authority: JP
Inventors: 祐希花房; Yuki Hanabusa; 斉志渡辺; Hiroshi Watanabe; 村山　宣人; Mobuto Murayama; 宣人村山; 宏季田中; Hiroki Tanaka; 中村　哲; Satoru Nakamura; 哲中村; 喬工藤; Takashi Kudo; 浩祥足立; Hiroyoshi Adachi
Original assignee: Suntory Holdings Ltd
Current assignee: Suntory Holdings Ltd
Priority date: 2019-10-08
Filing date: 2020-09-08
Publication date: 2021-04-15
Anticipated expiration: 2040-09-08
Also published as: JP7390268B2

Abstract

【課題】認知機能の低下に起因する状態又は症状を予測するための装置、方法、プログラム及びシステムを提供する。【解決手段】利用者に対し音声情報及び画像情報を伝達するための情報伝達部１１と、利用者音声及び／又は利用者画像を測定する測定部１２と、測定部で得られた測定結果に基づいて、音声的特徴データ、言語的特徴データ及び画像的特徴データから少なくとも１種の特徴データを作成する特徴データ作成部１３１と、特徴データから、特徴量を抽出するための特徴量抽出部１３２と、特徴量に基づき、利用者に認知機能の低下に起因する状態又は症状の傾向があるか否かを予測する認知機能予測部１３３とを備え、情報伝達部から伝達される情報は、非定型質問を含み、非定型質問は、利用者の年齢に応じた過去のイベントに関する質問を含む認知機能予測装置。【選択図】図１

Description

本発明は、認知機能予測装置、認知機能予測方法、プログラム及びシステムに関する。

近年、先進国では高齢化が進んでおり、特に日本の高齢化率（総人口の占める６５歳以上人口の割合）は、厚生労働省の調査によると、２０１７年に２７．５％となり、超高齢社会に突入している。今後も高齢化率は増加すると考えられており、高齢者の医療対策が重要な課題になっている。そのうちの一つに、認知症が挙げられる。認知症とは、記憶、思考、および行動などの認知機能が低下することで、日常生活に支障をきたす状態になることを指す。現在、認知症を含む認知機能の低下に起因する状態または症状の有効な治療方法は確立されておらず、患者およびその家族が将来の計画を立てるなどの診断後支援が必要となる。そのためには、認知機能の低下に起因する状態または症状の早期発見が重要となる。

認知機能の低下に起因する状態又は症状の早期発見は、神経心理検査や血液検査、脳画像検査などを組み合わせて行われる。しかし、この検査には、侵襲的な検査が含まれており、被験者に不安感やストレスを与えるため、被験者への負担が大きい。このため、非侵襲で手軽な検出法が必要とされている。よって、これまでに、非侵襲で手軽に認知機能の低下に起因する状態又は症状を検出する手法が、数多く提案されている。

提案された手法に、言語情報を用いた研究や音声情報を用いた研究がある（例えば、非特許文献１、２及び３）。これらは、写真の叙述や神経心理検査中の一方的な発話を分析したものがほとんどである。また、エージェントを用いて、対話的に検出する手法も提案されている（非特許文献４及び５）。この手法では、神経心理検査を元に作成された質問を３問用意し、その応答の音声情報や言語情報から検出を試みている。しかし、神経心理検査の質問は、高齢者が覚え、あらかじめ対策を講じられる可能性があった。

Ａｒａｍａｋｉ，Ｅ．，Ｓｈｉｋａｔａ，Ｓ．，Ｍｉｙａｂｅ，Ｍ．ａｎｄＫｉｎｏｓｈｉｔａ，Ａ．：Ｖｏｃａｂｕｌａｒｙｓｉｚｅｉｎｓｐｅｅｃｈｍａｙｂｅａｎｅａｒｌｙｉｎｄｉｃａｔｏｒｏｆｃｏｇ−ｎｉｔｉｖｅｉｍｐａｉｒｍｅｎｔ，ＰｌｏＳｏｎｅ，Ｖｏｌ．１１，Ｎｏ．５，ｐ．ｅ０１５５１９５（２０１６）ＭｃＫｈａｎｎ，Ｇ．Ｍ．，Ｋｎｏｐｍａｎ，Ｄ．Ｓ．，Ｃｈｅｒｔｋｏｗ，Ｈ．，Ｈｙ−ｍａｎ，Ｂ．Ｔ．，Ｊａｃｋ，Ｃ．Ｒ．，Ｋａｗａｓ，Ｃ．Ｈ．，Ｋｌｕｎｋ，Ｗ．Ｅ．，Ｋｏｒｏｓｈｅｔｚ，Ｗ．Ｊ．，Ｍａｎｌｙ，Ｊ．Ｊ．ａｎｄＭａｙｅｕｘ，Ｒ．：ＴｈｅｄｉａｇｎｏｓｉｓｏｆｄｅｍｅｎｔｉａｄｕｅｔｏＡｌｚｈｅｉｍｅｒ’ｓｄｉｓｅａｓｅ：ＲｅｃｏｍｍｅｎｄａｔｉｏｎｓｆｒｏｍｔｈｅＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｎＡｇｉｎｇ−Ａｌｚｈｅｉｍｅｒ’ｓＡｓｓｏｃｉａｔｉｏｎｗｏｒｋｇｒｏｕｐｓｏｎｄｉａｇｎｏｓｔｉｃｇｕｉｄｅｌｉｎｅｓｆｏｒＡｌｚｈｅｉｍｅｒ’ｓｄｉｓｅａｓｅ，Ａｌｚｈｅｉｍｅｒ’ｓ＆ｄｅｍｅｎｔｉａ：ｔｈｅｊｏｕｒｎａｌｏｆｔｈｅＡｌｚｈｅｉｍｅｒ’ｓＡｓｓｏｃｉａｔｉｏｎ，Ｖｏｌ．７，Ｎｏ．３，ｐｐ．２６３｛２６９（２０１１）｝Ｒｏａｒｋ，Ｂ．，Ｍｉｔｃｈｅｌｌ，Ｍ．，Ｈｏｓｏｍ，Ｊ．−Ｐ．，Ｈｏｌｌｉｎｇｓｈｅａｄ，Ｋ．ａｎｄＫａｙｅ，Ｊ．：Ｓｐｏｋｅｎｌａｎｇｕａｇｅｄｅｒｉｖｅｄｍｅａｓｕｒｅｓｆｏｒｄｅｔｅｃｔｉｎｇｍｉｌｄｃｏｇｎｉｔｉｖｅｉｍｐａｉｒｍｅｎｔ，ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｕｄｉｏ，ｓｐｅｅｃｈ，ａｎｄｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１９，Ｎｏ．７，ｐｐ．２０８１｛２０９０（２０１１）｝Ｔａｎａｋａ，Ｈ．，Ａｄａｃｈｉ，Ｈ．，Ｕｋｉｔａ，Ｎ．，Ｉｋｅｄａ，Ｍ．，Ｋａｚｕｉ，Ｈ．，Ｋｕｄｏ，Ｔ．ａｎｄＮａｋａｍｕｒａ，Ｓ．：ＤｅｔｅｃｔｉｎｇＤｅｍｅｎｔｉａＴｈｒｏｕｇｈＩｎｔｅｒａｃｔｉｖｅＣｏｍｐｕｔｅｒＡｖａｔａｒｓ，ＩＥＥＥｊｏｕｒｎａｌｏｆｔｒａｎｓｌａｔｉｏｎａｌｅｎｇｉｎｅｅｒｉｎｇｉｎｈｅａｌｔｈａｎｄｍｅｄｉｃｉｎｅ，Ｖｏｌ．５，ｐｐ．１｛１１（２０１７）｝Ｍｉｒｈｅｉｄａｒｉ，Ｂ．，Ｂｌａｃｋｂｕｒｎ，Ｄ．，Ｈａｒｋｎｅｓｓ，Ｋ．，Ｗａｌｋｅｒ，Ｔ．，Ｖｅｎｎｅｒｉ，Ａ．，Ｒｅｕｂｅｒ，Ｍ．ａｎｄＣｈｒｉｓｔｅｎｓｅｎ，Ｈ．：Ａｎａｖａｔａｒ−ｂａｓｅｄｓｙｓｔｅｍｆｏｒｉｄｅｎｔｉｆｙｉｎｇｉｎｄｉｖｉｄｕａｌｓｌｉｋｅｌｙｔｏｄｅｖｅｌｏｐｄｅｍｅｎｔｉａ，Ｐｒｏｃ．Ｉｎｔｅｒｓｐｅｅｃｈ２０１７，ｐｐ．３１４７｛３１５１（２０１７）｝

早期に認知機能の低下に起因する状態又は症状を検出するためには、定期的に、かつ、長期的にモニタリングする必要があるが、上記対話的に認知機能の低下に起因する状態又は症状を検出する場合、あらかじめ対策ができないようにする必要があった。

本発明は、認知機能の低下に起因する状態又は症状を予測するための装置、方法、プログラム及びシステムを提供することを目的とする。

（１）利用者に対し音声情報及び画像情報を伝達するための情報伝達部と、利用者音声及び／又は利用者画像を測定するための測定部と、上記測定部で得られた測定結果に基づいて、音声的特徴データ、言語的特徴データ及び画像的特徴データからなる群から選択される少なくとも１種の特徴データを作成するための特徴データ作成部と、上記特徴データ作成部で得られた特徴データから、特徴量を抽出するための特徴量抽出部と、上記特徴量抽出部で得られた少なくとも１種の特徴量に基づき、上記利用者に認知機能低下に起因する状態又は症状の傾向があるか否かを予測するように構成されている認知機能予測部とを備え、上記情報伝達部から伝達される情報は、非定型質問を含み、
上記非定型質問は、利用者の年齢に応じた過去のイベントに関する質問を含むことを特徴とする認知機能予測装置。
（２）利用者からの応答に基づき質問を作成するように構成されている質問作成部をさらに備え、上記非定型質問は、前記質問作成部にて作成された質問を含む（１）に記載の認知機能予測装置。
（３）上記特徴量抽出部は、上記測定部で得られた利用者音声に基づき上記特徴データ作成部で作成された音声的特徴データ及び言語的特徴データのうち少なくとも１種の特徴データに基づき、特徴量を抽出するように構成されている（１）又は（２）に記載の認知機能予測装置。
（４）上記特徴量抽出部は、上記測定部で得られた利用者画像に基づき上記特徴データ作成部で作成された視線パターン、フェイシャルアクションコーディングシステム及びフェイシャルランドマーク特徴からなる群より選択される少なくとも１種の画像的特徴データと、上記測定部で得られた利用者音声に基づき上記特徴データ作成部で作成された音声的特徴データ及び言語的特徴データのうち少なくとも１種の特徴データとに基づき、特徴量を抽出するように構成されている（１）又は（２）に記載の認知機能予測装置。
（５）上記認知機能予測部は、上記特徴量抽出部で抽出された特徴量に基づき、上記利用者に認知機能低下に起因する状態又は症状の傾向があるか否かを、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）、ロジスティック回帰分析、及び、深層学習からなる群から選択される少なくとも１つを用いて予測するように構成されている（１）〜（４）のいずれかに記載の認知機能予測装置。
（６）利用者に対し音声情報及び画像情報を伝達する情報伝達ステップと、利用者音声及び／又は利用者画像を測定する測定ステップと、上記測定部の測定結果に基づいて、音声的特徴データ、言語的特徴データ及び画像的特徴データからなる群から選択される少なくとも１種の特徴データを作成する特徴データ作成ステップと、上記特徴データ作成ステップで得られた特徴データから、特徴量を抽出する特徴量抽出ステップと、上記特徴量抽出部で得られた少なくとも１種の特徴量に基づき、上記利用者に認知機能低下に起因する状態又は症状の傾向があるか否かを予測する認知機能予測ステップとを備え、上記情報伝達部から伝達される情報は、非定型質問を含み、上記非定型質問は、利用者の年齢に応じた過去のイベントに関する質問を含むことを特徴とする認知機能予測方法。
（７）（６）に記載の認知機能予測方法をコンピュータに実行させるためのプログラム。
（８）利用者に対し音声情報及び画像情報を伝達するための情報伝達部と、利用者音声及び／又は利用者画像を測定するための測定部と、を備える利用者端末と、上記測定部の測定結果に基づいて、音声的特徴データ、言語的特徴データ及び画像的特徴データからなる群から選択される少なくとも１種の特徴データを作成するための特徴データ作成部と、上記特徴データ作成部で得られた特徴データから特徴量を抽出するための特徴量抽出部と、上記特徴量抽出部で抽出された少なくとも１種の特徴量に基づき上記利用者に認知機能低下に起因する状態又は症状の傾向があるか否かを予測するように構成されている認知機能予測部と、を備える認知機能予測装置とを有し、上記情報伝達部から伝達される情報は、非定型質問を含み、上記非定型質問は、利用者の年齢に応じた過去のイベントに関する質問を含むことを特徴とする認知機能予測システム。

本発明によれば、早期の認知機能の低下に起因する状態又は症状予測を簡便に行うことができる。

本発明の一実施形態の認知機能予測装置を説明するための図である。本発明の一実施形態における情報伝達部及び測定部を説明するための図である。本発明の一実施形態の認知機能予測システムを説明するための図である。本発明の一実施形態の認知機能予測方法を説明するためのフローチャートである。本発明の一実施形態の認知機能予測装置に用いられる質問の例示である。制御部における特徴量抽出部が抽出する特徴量を示した表である。本発明の一実施形態の認知機能予測装置における認知機能の低下に起因する状態又は症状の１種である認知症の判定精度の検証結果について示したグラフである。図７（ａ）は、判定方法としてＳＶＭを採用して認知症を予測する場合の予測精度の検証結果を示したグラフであり、図７（ｂ）は、ロジスティック回帰分析を採用して認知症を予測する場合の予測精度の検証結果を示したグラフである。本発明の一実施形態で用いられる画像的特徴データのみを用いた認知機能の低下に起因する状態又は症状の１種である認知症の判定精度の検証結果について示したグラフである。

以下、本発明の実施形態について図面を参照しながら詳細に説明する。なお、本発明は以下の記述のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において適宜変更可能である。

［認知機能予測装置］
図１は、本発明の一実施形態に係る認知機能予測装置を説明するための図である。
図１に示すように、認知機能予測装置１０は、情報伝達部１１、測定部１２、制御部１３、外部情報入力部２１及びデータベース３１を備える。制御部１３は、特徴データ作成部１３１、特徴量抽出部１３２、認知機能予測部１３３及び質問作成部１３４を備える。なお、本実施形態に係る認知機能予測装置１０は、利用者と対話を行うように構成されており、その対話における利用者の応答に基づいて、当該利用者が認知機能の低下に起因する状態又は症状であるか否かを予測するように構成されている。

情報伝達部１１は、認知機能予測装置１０の利用者（以下、単に「利用者」と記す）に対し、音声情報及び画像情報を伝達するためのものであり、例えば、ディスプレイ等の表示部１１１とスピーカ等の音声出力部１１２で構成される。ここで、情報伝達部１１の一例について図面を参照して説明する。図２は、情報伝達部及び測定部の一例を示す模式図である。

図２に示すように、情報伝達部１１は、画像を表示する表示部１１１と、音声を出力する音声出力部１１２とを備える。表示部１１１は、例えば、人を模した画像（アバター）１１１ａ及び／又はテキスト１１１ｂを表示することができる。情報伝達部１１は、利用者と対話を行うために、利用者に対する質問を音声出力部１１２において音声として出力することができる。また、音声出力部１１２により出力される音声情報に合わせて、表示部１１１に表示されるアバター１１１ａを動かすことができる。そのため、表示部１１１にアバター１１１ａが表示される場合、音声出力部１１２により出力される音声情報に合わせて、表示部１１１に表示されるアバター１１１ａの口や表情が動くように構成することができ、利用者がアバターと対話しているような環境を作り出すことができる。これにより、認知機能予測装置１０を利用し、情報伝達部１１より伝達される質問に回答する利用者の違和感や緊張を緩和することができる。

また、表示部１１１に表示されるアバター１１１ａは、利用者の好みに合わせて設定することができる。例えば、利用者の好みに合わせて、家族、ペット、友人、有名人、動物及びキャラクター等を模した画像をアバターとして設定することができる。このように利用者の好みに応じたアバター１１１ａを表示部１１１に表示させることで、利用者による認知機能予測装置１０の定期的な利用が促進され、早期段階で認知機能の低下に起因する状態又は症状を予測することができる。

また、音声出力部１１２から出力される音声は、利用者の好みに合わせて設定することができる。例えば、声の高さ低さの変更、声色、話し方、スピード、音量等を設定することができる。これにより、利用者の好みに応じたアバター１１１ａに最適な音声を設定することができ、利用者の違和感や緊張をより緩和し、聞き取りやすさを向上することができる。

なお、表示部１１１に表示される画像データ及び音声出力部１１２より出力される音声データは、制御部１３から与えられる。
例えば、利用者は外部情報入力部２１及び／又は集音部１２１から、好みの画像データや音声データを入力することができ、該画像データ及び音声データはデータベース３１に保管される。制御部１３は、データベース３１に保管されたデータを読み出し、表示部１１１に画像データを与え、音声出力部１１２に音声データを与えることができる。

測定部１２は、例えばマイクロフォン等で構成される集音部１２１と、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサやＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサ等で構成される撮像部１２２とを備える。集音部１２１は、利用者が発する音声を集音するために設けられており、撮像部１２２は利用者の表情等を撮像するために設けられている。例えば、集音部１２１は、利用者が図２に示す表示部１１１と向かい合った場合に、利用者の音声を集音し易い位置に設けられることが好ましい。撮像部１２２も同様であり、利用者が図２に示す表示部１１１と向かい合った場合に、利用者の表情等を撮像し易い位置に設けられることが好ましい。具体的に例えば、集音部１２１及び撮像部１２２は、表示部１１１の周囲のベゼル等に設けられることが好ましい。

図１に示す外部情報入力部２１は、所定の入力操作が可能なものであればよく、例えば、マウス、キーボード、タッチパネル等の入力インターフェースが挙げられる。

制御部１３は、特徴データ作成部１３１、特徴量抽出部１３２及び認知機能予測部１３３を備えている。制御部１３は、情報伝達部１１が利用者に情報を伝達するために必要なデータ（表示部１１１に表示される画像データ及び音声出力部１１２から出力される音声データ）を情報伝達部１１に与えることができる。また、制御部１３は、測定部１２の測定結果（集音部１２１から得られる音声データ及び／又は撮像部１２２から得られる画像のデータ）に基づいて、特徴データ作成部１３１において、音声的特徴データ、言語的特徴データ及び画像的特徴データからなる群から選択される少なくとも１種の特徴データを作成する。また、制御部１３における特徴量抽出部１３２において、特徴データ作成部１３１から得られた特徴データから特徴量を抽出し、認知機能予測部１３３において、特徴量抽出部１３２で得られた少なくとも１種の特徴量に基づき、利用者に認知機能の低下に起因する状態又は症状の傾向があるか否かを予測する。

制御部１３は、いわゆるコンピュータであり、図示しないＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の演算装置と、データメモリ、データ蓄積用のメモリ及びワーキングメモリといった公知の構成を備えている。特徴データ作成部１３１、特徴量抽出部１３２及び認知機能予測部１３３は、各々コンピュータ上で動作して所定の機能を発揮するハードウェアとプログラムとを含むものである。

上記制御部１３では、利用者が理解しやすいように、又は、利用者の好みに応じて、音声出力部１１２から出力される音声情報の音量及び／又は速度を調節することができる。また、上記制御部１３では、利用者の選択により、音声情報にテキスト１１１ｂを付与することができる。

データベース３１は、例えばハードディスクや半導体メモリなどの記録装置で構成され、上記の制御部１３が行う各種処理に必要なデータ（例えば、利用者に対する質問のデータ、アバター１１１ａを表示するためのデータなど）を記録している。

ここで、情報伝達部１１は、利用者に対し、非定型質問を含む情報を伝達するように構成されている。本明細書において「非定型質問」とは、利用者が認知機能予測装置を利用するたびに必ず質問される定型質問以外の質問である。
なお、定型質問としては、例えば、長谷川式認知症スケール（ＨＤＳ−Ｒ）及びＭＭＳＥ等の神経心理検査に含まれる日時、場所、計算等の質問が挙げられる。また、非定型質問としては、あらかじめ定められた複数の質問からランダムに選択される質問、利用者の年齢に応じた過去のイベントに関する質問、利用者の応答に基づき作成された質問等が含まれる。情報伝達部１１から利用者に対し伝達される非定型質問には、利用者の年齢に応じた過去のイベントに関する質問が必ず含まれるように構成されている。また、非定型質問は、少なくとも１０問から構成される非定型質問セットからランダムに３問選択される非定型質問セットであってもよい。

ここで、利用者の年齢に応じた過去のイベントに関する質問は、利用者が１０〜４０代だった頃のイベント（例えば、当時の出来事、事件、行事、事象、流行等）であることが好ましい。上記非定型質問に利用者が１０〜４０代だった頃の過去のイベントに関する質問を含むことで、認知機能の低下に起因する状態又は症状の予測精度が向上する可能性があるためである。
なお、利用者の年齢は、利用者の認知機能予測装置１０の利用時の年齢を、外部情報入力部２１や、測定部１２における集音部１２１、撮像部１２２を介して、制御部１３で利用毎に確認することとしてもよい。また、認知機能予測装置１０の利用開始時の初期設定において、予め利用者の年齢が外部情報入力部２１や、測定部１２における集音部１２１、撮像部１２２を介して入力され、データベース３１に保管されている利用者初期情報に基づき、制御部１３にて利用時の利用者年齢を算出するものとしてもよい。
利用者の年齢に応じた過去のイベントに関する質問は、制御部１３が上記のように確認又は算出した利用者年齢に基づき、予めデータベースに保管されている過去のイベントから利用者の年齢に基づき選択されるものであってよい。また、認知機能予測装置１０がインターネット等のネットワーク回線等に接続可能である場合は、制御部１３は、確認又は算出された利用者の年齢に基づき、利用者が特定の年代である過去のイベントに関する質問を、ウェブ情報や外部データベースから取得した情報から選択、作成することができる。

また、情報伝達部１１は、日時、場所及び人間関係から選択される少なくとも１つの定型質問と、利用者が１０〜４０代だった頃のイベントに関する少なくとも１つの非定型質問とを伝達するように構成されていることが好ましい。定型質問のうち、上述の日時、場所及び人間関係に関する質問は、見当識及び短期記憶（即時記憶）を基に回答される質問である。また、利用者が１０〜４０代だった頃のイベントに関する質問は、長期記憶（遠隔記憶）を基に回答される質問である。認知機能の低下に起因する状態又は症状の進行に伴い、短期記憶の低下に続き、長期記憶が低下することが知られており、これら二つの質問を組み合わせて利用者に質問することで、認知機能の低下に起因する状態又は症状の初期症状の進行度を図ることができる。

制御部１３は、利用者からの応答に基づき自由質問を作成するように構成されている質問作成部１３４をさらに備えることができる。質問作成部１３４は、特徴データ作成部１３１、特徴量抽出部１３２及び認知機能予測部１３３と同様に、コンピュータ上で動作して所定の機能を発揮するハードウェアとプログラムとを含むものである。
なお、質問作成部１３４で作成される質問（以下、単に自由質問と記載する。）は、利用者の応答に基づき作成される質問でもあってもよく、予め準備されている質問の中から、利用者の応答に基づき選択される質問であってもよい。例えば、上記自由質問は、制御部１３における質問作成部１３４が、予めデータベースに保管されている複数の質問から利用者の応答に基づき選択した質問であってもよく、利用者からの応答に基づき、予めデータベースに保管されているデータを組み合わせて作成された質問であってもよい。また、認知機能予測装置１０がインターネット等のネットワーク回線等に接続可能である場合、上記自由質問は、質問作成部１３４において利用者の応答に基づき、ウェブ情報や外部データベースから取得した情報から選択、作成された質問であってもよい。
情報伝達部１１において、利用者からの応答に基づく自由質問を伝達することで、利用者は、認知機能予測装置１０の利用にあたり、アバター１１１ａと対話をしている感覚を得ることができ、緊張感がほぐれ、自然な状態での利用者を測定することができ、認知機能予測の精度が向上するためである。

なお、利用者の趣味や興味等に関する情報を、利用者の認知機能予測装置１０の利用時、又は、認知機能予測装置１０の初期設定時に、外部情報入力部２１や、測定部１２における集音部１２１、撮像部１２２を介して入手し、制御部１３から、データベース３１に保管しておいてもよい。質問作成部１３４において自由質問が作成される際に、データベース３１から利用者の趣味や興味のある情報を読み出し、自由質問の分野を利用者の趣味や興味のある分野に特定することにより、認知機能予測装置１０から伝達される質問に対し、利用者の関心が高まり、定期的な認知機能予測装置１０の利用を促進することができる。これにより、早期認知機能予測が可能となる。
また、認知機能予測部１３３において、利用者の趣味や興味のある分野に関する質問と、そうではない分野に関する質問に対する特徴量の差を検出することにより、より高精度に認知機能の低下に起因する状態又は症状を予測することができる可能性がある。

制御部１３における特徴量抽出部１３２は、測定部１２で得られた利用者音声に基づき特徴データ作成部１３１で作成された音声的特徴データ及び言語的特徴データのうち少なくとも１種の特徴データに基づき、特徴量を抽出するように構成されていることが好ましい。また、制御部１３における特徴量抽出部１３２は、測定部１２で得られた利用者音声に基づき特徴データ作成部１３１で作成された音声的特徴データ及び言語的特徴データに基づき特徴量を抽出するように構成されていることがより好ましい。言い換えると、音声的特徴データに基づく特徴量と言語的特徴データに基づく特徴量との２種以上が抽出されることが好ましい。
特徴データ作成部１３１で作成された音声的特徴データ及び言語的特徴データに基づき特徴量を抽出することにより、認知機能の低下に起因する状態又は症状を有さない利用者と、軽度の認知機能の低下に起因する状態又は症状を有する利用者とを高精度で分類することができるためである。特に認知機能の低下に起因する状態又は症状が認知症である場合には、非認知症の利用者と経度認知障害（ＭＣＩ）の利用者とを高精度（９０％以上）で分類することができる。
なお、上記音声的特徴データから抽出される特徴量としては、ピッチ（基本周波数、声の高さ）、声量（パワー）、声質、反応時間、ポーズ（発話間隔）等が挙げられる。
また、上記言語的特徴データから抽出される特徴量としては、トークン数（形態素）数、フィラー、タイプトークン比（ＴＴＲ（ＴｙｐｅＴｏｋｅｎＲａｔｉｏ））、品詞情報（名詞、動詞、形容詞及び副詞の数等）、構文の複雑さ、語彙の選定及び語彙の難易度等が挙げられる。なお、上記タイプトークン比とは、利用者が応答時に発する音声に含まれる単語の総数であるトークン数と、上記利用者が応答時に発する音声に含まれる重複を許さない単語の総数であるタイプ数を前記トークン数で除した値である。

制御部１３における特徴量抽出部１３２では、測定部１２で得られた利用者画像に基づき特徴データ作成部１３１で作成された視線パターン、フェイシャルアクションコーディングシステム（ＦＡＣＳ）及びフェイシャルランドマーク特徴からなる群より選択される少なくとも１種の画像的特徴データと、測定部１２で得られた利用者音声に基づき特徴データ作成部１３１で作成された音声的特徴データ及び言語的特徴データのうち少なくとも１種の特徴データとに基づき、特徴量が抽出されるように構成されていることが好ましい。この場合、画像的特徴データから抽出される特徴量と、音声的特徴データ及び／又は言語的特徴データから抽出される特徴量との計２種以上が抽出される。また、測定部１２で得られた利用者画像に基づき特徴データ作成部で作成された上記画像的特徴データと、測定部１２で得られた利用者音声に基づき特徴データ作成部１３１で作成された音声的特徴データ及び言語的特徴データとに基づき、特徴量が抽出されるように構成されていることがより好ましい。この場合、画像的特徴データから抽出される特徴量、音声的特徴データから抽出される特徴量及び言語的特徴データから抽出される特徴量の計３種以上が抽出される。
音声的特徴データ及び／又は言語的特徴データに加え、画像的特徴データから、特徴量を抽出することにより、より高精度な認知機能予測が可能となるためである。また、利用者によっては、音声的特徴データにおいて外部雑音などのノイズが含まれるが、画像的特徴データから抽出される特徴量を併せて用いることにより、認知機能予測の精度を向上できる可能性があるためである。

なお、画像的特徴データは、公知の画像処理方法及び／又は画像認識方法を用いて作成されるが、例えば、インテル（登録商標）オープンＣＶ（ＩｎｔｅｌＯｐｅｎＳｏｕｒｃｅＣｏｍｐｕｔｅｒＶｉｓｉｏｎＬｉｂｒａｒｙ）や、フリーのツールＯｐｅｎＦａｃｅ等を利用して作成してもよい。また、例えば、オープンＣＶ等に登録されているオブジェクト検出プログラムを用いること等により顔認識プログラムを作成し、画像処理及び／又は画像認識を行ってもよい。なお、画像認識プログラムに必ずしもオープンＣＶを利用しなくてもよいし、既存のプログラムや、既存の画像認識回路を搭載したチップを利用してもよい。

また、特徴量抽出部１３２において特徴量を抽出するにあたって、個人差を吸収するために最尤線形回帰法（ＭＬＬＲ：ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ）といった手段により、特徴量を更新してもよい。これは、個人の少量の特徴、及びこれまでに収集した多数の人物の特徴から、特徴量分布を最尤推定により個人向けに適応的に変更する方法である。特徴量を抽出するにあたって、個人差を吸収するための処理を行うことにより、より高精度な認知機能予測が可能となるためである。

情報伝達部１１は、制御部１３における認知機能予測部１３３で得られた利用者に対する認知機能の低下に起因する状態又は症状の予測結果（認知機能予測結果）を表示することができる。
この場合、制御部１３は、認知機能予測部１３３で得られた認知機能予測結果を情報伝達部１１に送るように構成されている。

また、制御部１３は、図示しないが、例えば、プリンター等の印刷装置、インターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）に接続可能な通信装置等を介して認知機能予測部１３３で得られた認知機能予測結果を印刷又はデータ送信することができる。
また例えば、制御部１３は、認知機能予測部１３３で得られた認知機能予測結果を、通信手段を介して、利用者の親族やかかりつけ医療機関等に対して送信することができる。
上記印刷装置及び通信装置等は、本発明の認知機能予測装置１０に含まれていてもよく、通信回線を介して本発明の認知機能予測装置１０に繋がれていてもよい。

また、本発明の実施形態は、上記した認知機能予測装置１０の構成を、例えば、利用者が使用するパソコン、スマホ、タブレット、テレビ等で実現してもよい。また、本発明の実施形態は上述の認知機能予測装置１０のようにその構成要素の全てを一体の装置で構成されたものに限定されるものではなく、複数の装置で構成されたものであってもよい。例えば、情報伝達部１１と測定部１２とを備える利用者端末と、測定部１２で得られた測定結果を演算処理して認知機能の低下に起因する状態又は症状を予測する認知機能予測装置とを別体とする構成であってもよい。

［認知機能予測システム］
図３は、図１に記載の認知機能予測装置１０における情報伝達部１１と測定部１２とを別体として構成した例を示した図であり、本発明の一実施形態に係る認知機能予測システムを説明するための図である。
図３に示すように、認知機能予測システム４０は、利用者に対し音声情報及び画像情報を伝達するための情報伝達部１１と、利用者音声及び／又は利用者画像を測定するための測定部１２と、外部情報入力部２１とを有する利用者端末５０と、利用者端末５０における測定部１２からの測定結果に基づき、音声的特徴データ、言語的特徴データ及び画像的特徴データからなる群から選択される少なくとも１種の特徴データを作成するための特徴データ作成部１３１と、特徴データ作成部１３１で得られた特徴データから特徴量を抽出するための特徴量抽出部１３２と、特徴量抽出部１３２で得られた特徴量に基づき、利用者に認知機能の低下に起因する状態又は症状の傾向があるか否かを予測するように構成されている認知機能予測部１３３と、質問作成部１３４及びデータベース３１を有する認知機能予測装置６０と、を別体として備えるものである。このように利用者端末５０と、認知機能の低下に起因する状態又は症状を予測する認知機能予測装置６０とを別体とする場合、利用者端末５０と認知機能予測装置６０とは、通信回線により繋がれている。

通信回線としては、赤外線、近距離無線通信回線、ネットワーク回線、ローカルエリアネットワーク回線、電話回線等、一般的に用いられている通信回線を適宜選択することができる。また、利用者端末５０と認知機能予測装置６０との連結は、有線であるか無線であるかを問わず、一般的に用いられている通信回線を利用するのに必要な送受信機や通信部を備えることができる。

本実施形態を図３のように利用者端末５０と認知機能予測装置６０とに分けて構成した場合、例えば、利用者が既に使用しているスマートフォン、タブレット、パソコン及びテレビ等、情報伝達部１１と測定部１２とを備え、通信回線に接続可能な端末を、利用者端末５０として用いることができる。こうすることで、利用者が従来から使用している端末を利用者端末５０とすることができきるため、一実施形態である認知機能予測システムを利用する利用者の心理的負担を軽減することができる。これにより認知機能予測システムの定期的な利用が促進され、早期段階で認知機能の低下に起因する状態又は症状を予測することができる。

［認知機能予測方法］
次に、本実施形態の一つである認知機能予測方法を説明する。
本実施形態の認知機能予測方法は、利用者に対し音声情報及び画像情報を伝達する情報伝達ステップと、利用者音声及び／又は利用者画像を測定する測定ステップと、上記測定部の測定結果に基づいて、音声的特徴データ、言語的特徴データ及び画像的特徴データからなる群から選択される少なくとも１種の特徴データを作成する特徴データ作成ステップと、上記特徴データ作成ステップで得られた特徴データから特徴量を抽出する特徴量抽出ステップと、上記特徴量抽出ステップで得られた特徴量に基づき利用者に認知機能の低下に起因する状態又は症状の傾向があるか否かを予測する認知機能予測ステップとを備え、上記情報伝達部から伝達される情報は、非定型質問を含み、上記非定型質問は、利用者の年齢に応じた過去のイベントに関する質問を含む。

図４は、本発明の一実施形態の認知機能予測方法を説明するためのフローチャートである。また、図４のフローチャートは、図１で示した認知機能予測装置１０及び図３で示した認知機能予測システム４０の動作例を示している。なお図４では、簡便化のため、情報伝達部１１における表示部１１１で表示される画像データをアバター１１１ａとし、音声出力部１１２から出力される音声情報は、アバター１１１ａが質問しているように認識されるよう、擬人化表現を用いて記載する。

制御部において、利用者による認知機能予測装置の起動が検知されると、制御部は、情報伝達部に対し、非定型質問を含む質問を伝達する。情報伝達部を介して、アバターが質問しているように上記非定型質問を含む質問が利用者に対し伝達され、測定部により利用者の応答が測定される（ＳＴ１）。測定部における測定結果が制御部に送達され、制御部の特徴データ作成部にて、特徴データが作成される（ＳＴ２）。次に、特徴量抽出部にて、得られた特徴データから特徴量が抽出される（ＳＴ３）。そして、認知機能予測部にて、得られた特徴量から認知機能の低下に起因する状態又は症状か否かが予測される（ＳＴ４）。認知機能予測部で得られた認知機能予測結果は、制御部から情報伝達部へ伝達され、認知機能予測結果が出力される（ＳＴ５）。

なお、図４のフロー図には明記しないが、ＳＴ１で得られる測定結果、ＳＴ２で得られる特徴データ、ＳＴ３で得られる特徴量、ＳＴ４で得られる認知機能予測結果は、制御部１３により、適宜データベース３１に保管される。
また、ＳＴ１で使用される質問は、予めデータベース３１に保管されている質問データから選択された質問でもよく、利用者の応答に応じて、制御部１３における質問作成部１３４において作成された質問であってもよい。

また、認知機能予測結果の出力は、情報伝達部を用いて出力される場合に限定されず、上述の通り、印刷装置や通信装置を用いて出力することが可能である。また、ＳＴ５における認知機能予測結果の出力のタイミングは、ＳＴ４終了後であればいつでもよく、例えば、利用者本人、利用者の家族及び／又はかかりつけ医師が設定する任意のタイミングにおいて、利用者本人、利用者の家族及び／又はかかりつけ医師に提供されるようにしてもよい。

以上説明したフローチャートの少なくともＳＴ１からＳＴ４は、例えば、コンピュータとして構成される認知機能予測装置において実現されるプログラムによって処理される。

以上説明した本実施形態は、利用者の年齢に応じた過去のイベントに関する質問を含む非定型質問に対する利用者の応答を測定し、得られた測定結果から１以上の特徴データを作成し、特徴データから得られた１以上の特徴量に基づいて、利用者が認知機能の低下に起因する状態又は症状であるか否かを予測している。このため、本実施形態は、利用者の見当識、短期記憶と長期記憶に関する質問を含んでおり、より高精度に認知機能予測を行うことができる。認知機能の低下に起因する状態又は症状の中でも、認知症についてより高精度に認知機能予測を行うことができる。

なお、本明細書において、認知機能低下に起因する状態又は症状として、もの忘れ、記憶力低下、集中力低下、注意力低下、判断力低下、空間認識力低下、神経活動性低下、神経伝達機能低下、認知柔軟性低下、実行機能低下、情報処理速度低下、鬱様症状、認知症（アルツハイマー病などの疾患に起因するものを含む）のような状態又は症状が挙げられる。
なお、本明細書における認知機能予測装置は、認知症を予測するための認知症予測装置であることが好ましく、認知機能予測方法は認知症を予測するための認知症予測方法であることが好ましく、認知機能予測システムは認知症を予測するための認知症予測システムであることが好ましい。
本明細書において、認知機能の低下に起因する状態又は症状は認知症に読み替えることができ、認知機能予測装置は認知症予測装置と読み替えることができ、認知機能予測方法は認知症予測方法に読み替えることができ、認知機能予測システムは認知症予測システムに読み替えることができる。

次に本発明の実施形態に係る認知機能予測装置１０の動作の一例について説明する。なお、以下で説明する認知機能予測装置１０の動作は、図３に示される通信回線により接続されている利用者端末５０及び認知機能予測装置６０を備えた認知機能予測システム４０の動作と共通するものであり、認知機能予測システム４０の動作の一例として読み替えることができる。

最初に、例えば、制御部１３が、オペレータ（例えば被験者の親族等）または利用者による認知機能予測装置１０に対する所定の入力操作（例えば、外部情報入力部２１及び／又は測定部１２を介した操作）が行われたことを検出することで、認知機能予測装置１０の動作が開始される。

なお、初期設定として、認知機能予測装置１０に利用者情報を登録してもよい。このような利用者情報の登録は、例えば、外部情報入力部２１又は測定部１２に対し、利用者情報（氏名、年齢等）等の所定の情報が入力されたことが、制御部１３で検出されると、制御部１３は入力された利用者情報をデータベース３１に保管することにより達成される。上記利用者情報には、例えば、アバター１１１ａに関するデータも含まれる。
また、利用者情報として、外部情報入力部２１又は測定部１２を介して、指紋認証、虹彩認証、静脈認証、声紋認証及び顔認証等の生体情報を予め登録してもよい。最初に利用者の生体情報を登録することで、次回の認知機能予測装置１０の利用時に、測定部１２及び／又は外部情報入力部２１を介して制御部１３にて生体情報が検出されることにより利用者が特定され、スムーズに認知機能予測装置１０を作動させることができる。

認知機能予測装置１０が作動すると、まず、アバター１１１ａが自己紹介（名前を名乗る）をしていると利用者が感じるように、制御部１３が、データベース３１から必要な画像データ及び音声データを読み出し、当該データを情報伝達部１１に対して入力する。なお、以下では説明の簡略化のため、アバター１１１ａの擬人的な動作の説明のみを行い、アバター１１１ａが擬人的な動作をするために必要となる制御部１３の動作（データベース３１から必要な画像データ及び音声データを読み出し、当該データを情報伝達部１１に対して入力する動作）については説明を省略する。

アバター１１１ａが自己紹介を行うことによって、機械と対話する利用者の違和感や緊張を緩和することができる。また、アバター１１１ａが自己紹介を行ったあと、アバター１１１ａが利用者の自己紹介を促す（例えば、アバター１１１ａが「お名前は何といいますか」という質問を行う）ことで、機械と対話する利用者の違和感や緊張をさらに緩和することができる。

次に、アバター１１１ａは、利用者に対して質問を行う。例えば、アバター１１１ａが、「今日は何月何日ですか。」、「大阪万博について知っていることをお話しください。」、「あなたが２０代の頃に、印象に残っている出来事を教えてください。」等の複数の質問を行う。アバター１１１ａにより行われる複数の質問には、固定質問（長谷川式認知症スケール、ＭＭＳＥ等の神経心理検査に含まれる日時、場所、計算等の質問）の他、非定型質問を含み、非定型質問は、利用者の年齢に応じた過去のイベントに関する質問を含むものである。
例えば、アバター１１１ａは、図５に記載のような質問セットの中からランダムに少なくとも３問程度選択し、質問を行うが、図５の中では、Ｑ５〜Ｑ１３に関する質問が、利用者の年齢に応じた過去のイベントに関する質問に該当するため、Ｑ５〜Ｑ１３のいずれかの質問が含まれる。
なお、アバター１１１ａによる質問は、利用者の年齢に応じた過去のイベントに関する質問を含む少なくとも３問以上であることが好ましく、５問以上であることがより好ましい。

アバター１１１ａによる質問が行われてから利用者の回答が完了するまでの間、測定部１２が利用者の反応を測定する。なお、アバター１１１ａが、利用者に質問を行ったにもかかわらず利用者が何らの回答もしない場合（即ち、利用者に対する１つの質問が終了してから集音部１２１が利用者の音声を集音しない状態が所定の時間続いたことを制御部１３が検出した場合）、その質問の回答を待たずに次の質問に移ってもよい。上記所定の時間は、例えば、利用者の会話リズムに応じて決定されることとしてもよく、一律で例えば１５秒と設定してもよい。また、利用者が答え難い質問ほど、アバター１１１ａが回答を待つ時間を長くするように設定してもよい。
また、アバター１１１ａは、利用者が何らかの音声を発して回答した後に沈黙した場合（即ち、利用者に対する１つの質問が終了してから集音部１２１が利用者の音声を集音し、その後に集音部１２１が利用者の音声を集音しない状態が所定の時間続いたことを制御部１３が検出した場合）、利用者の回答が完了したとして次の動作を行ってもよい。

そして、制御部１３における特徴データ作成部１３１が、測定部１２の測定結果に基づいて、音声的特徴データ、言語的特徴データ及び画像的特徴データからなる群から選択される少なくとも１種の特徴データを作成する。具体的には、特徴データ作成部１３１にて、測定部１２における集音部１２１で得られた利用者音声データに対し、音声区間検出処理、音声認識処理等の各種処理を行い、音声的特徴データ及び言語的特徴データを準備することができる。また特徴データ作成部１３１にて、測定部１２における撮像部１２２で得られた利用者画像データに対し、フリーのツールＯｐｅｎＦａｃｅ等で表情特徴抽出処理を行い、画像的特徴に関するデータを準備することができる。なお、特徴データ作成部１３１では、音声的特徴データ及び／又は言語的特徴データ並びに画像的特徴データを作成することが好ましく、音声的特徴データ、言語的特徴データ及び画像的特徴データを作成することがより好ましい。

次に、制御部１３における特徴量抽出部１３２が、特徴データ作成部１３１で作成された特徴データから、特徴量を抽出する。上記特徴量は、特徴データ作成部１３１で作成された特徴データに基づき抽出されるものである。ここで、特徴量抽出部１３２が算出する特徴量について、図面を参照して説明する。図６は、制御部における特徴量抽出部１３２が抽出する特徴量を説明した表である。

図６に示すように、特徴量抽出部１３２は、特徴データ作成部１３１で作成された音声的特徴データ、言語的特徴データ及び画像的特徴データから、種々の特徴量を抽出するよう構成されている。特徴量抽出部１３２は、音声的特徴データから抽出される特徴量及び／又は言語的特徴データから抽出される特徴量、並びに、画像的特徴データから抽出される特徴量を抽出することが好ましく、音声的特徴データから抽出される特徴量、言語的特徴データから抽出される特徴量、及び、画像的特徴データから抽出される特徴量を抽出することがより好ましい。図６に示される各特徴量は、例えば次のような処理により抽出されるものである。

音声的特徴データからは、例えば、Ｓｎａｃｋｓｏｕｎｄｔｏｏｌｋｉｔ、ＯｐｅｎＳｍｉｌｅのような音声分析ツール等を使用することにより、ピッチ、声量（パワー）、声質、反応時間、ポーズ（発話間隔）等の特徴量を抽出することができる。
音声的特徴データから得られる特徴量は、利用者の音声の内容（音声に含まれる形態素や単語等）を解析することなく算出可能な、音声そのものに関する特徴量である。
「ピッチ」は、声の高さ、基本周波数である。ポーズは、利用者の発話（応答）の中で、沈黙が１秒以上の回数をカウントした合計数と発話間隔が最長の時間を特徴量としたものである。反応時間は、アバター１１１ａの質問終了時から利用者の応答開始までの時間差のことである。基本周波数に関しては、変動係数、平均値、最大値、中央値、最小値、レンジを特徴量とすることができる。また、声量（パワー）に関しては、平均値、最大値、最小値を特徴量とすることができる。また、声質に関しては、利用者の音声における第１倍音（ｈ１）と第３フォルマント（ａ３）の振幅差である。

言語的特徴データからは、例えば、ＭｅＣａｂのような形態素解析エンジン等を使用することにより、日本語の形態素解析を行うことができ、トークン（形態素）数、フィラー、タイプトークン比（ＴＴＲ（ＴｙｐｅＴｏｋｅｎＲａｔｉｏ））、品詞情報（名詞、動詞、形容詞及び副詞の数等）、構文の複雑さ、語彙の選定、語彙の難易度、及び、発話速度等の特徴量を抽出することができる。
すなわち、言語的特徴データから得られる特徴量は、利用者音声の内容に関する特徴量であり、利用者の音声の内容（音声に含まれる形態素や単語等）を解析することで抽出される。
言語特徴に分類される特徴量のそれぞれは、音声に含まれる形態素や単語の情報は、例えば、利用者の音声のデータに対して周知の音声認識方法を適用して利用者の音声を文字列に変換した上で、当該文字列に対して周知の形態素や単語の解析方法（例えば、Ｍｅｃａｂ）を適用することで得られる。
トークン数は、利用者の音声に含まれる単語の総数である。フィラーは、「うー」や「あー」といった特定の意味を持たない語句の数である。「ＴＴＲ」は、利用者の音声に含まれている重複を許さない単語の総数であるタイプ数をトークン数で除した値である。なお、ＴＴＲは、利用者が同じ単語を使用するほど、タイプ数が増えずにトークン数が増えるため、値が小さくなる。「難易度」は、語句の難しさのレベルを数値で定義した所定の辞書に基づいて決定される全ての名詞の難しさのレベルの中間値である。「発話速度」は、被験者の発話時間を単語数で除した値である。

画像的特徴データとしては、例えば、Ｏｐｅｎｆａｃｅを使用することにより、フェイシャルアクションユニット（ＦＡＣＳ）、フェイシャルランドマーク特徴及び視線パターン等の画像的特徴データが挙げられ、ＦＡＣＳから抽出した特徴量、フェイシャルランドマーク特徴から抽出した特徴量、及び、視線パターンから抽出した特徴量等を抽出することができる。また、アバター１１１ａの質問終了時から利用者が口を動かすまでの応答時間（口元反応時間）を画像的特徴データから抽出される特徴量としてもよい。画像的特徴データから得られる特徴量は、利用者の音声とは無関係に、利用者の外見のみから抽出される特徴量である。

測定部１２で得られた利用者音声に基づき作成された音声的特徴データ及び言語的特徴データのうち少なくとも１種の特徴データに基づき、特徴量が抽出されることが好ましく、音声的特徴データ及び言語的特徴データに基づき、特徴量が抽出されることがより好ましい。また、上記特徴量は、音声的特徴データ及び／又は言語的特徴データに基づき抽出された特徴量に加え、測定部１２で得られた利用者画像に基づき作成された視線パターン、フェイシャルアクションコーディングシステム及びフェイシャルランドマーク特徴のうち少なくとも１種の画像的特徴データから抽出された特徴量が含まれることがさらに好ましい。また、音声的特徴データ、言語的特徴データ及び上記画像的特徴データから抽出された特徴量が含まれることが最も好ましい。特徴量抽出部１３２で得られる特徴量に画像的特徴データから得られる特徴量が含まれることで、認知機能予測精度が向上するためである。
また、特徴量抽出部１３２では、ピッチ（声の高さ、基本周波数）、声量（パワー）、声質、反応時間及びポーズ（発話間隔）からなる群より選択される少なくとも１種の音声的特徴と、トークン（形態素）数、フィラー、タイプトークン比（ＴＴＲ（ＴｙｐｅＴｏｋｅｎＲａｔｉｏ））及び品詞情報（名詞、動詞、形容詞及び副詞の数等）からなる群より選択される少なくとも１種の言語的特徴量と、フェイシャルアクションユニットから抽出される特徴量、フェイシャルランドマーク特徴から抽出される特徴量及び視線パターンからから抽出される特徴量からなる群より選択される少なくとも１種の画像的特徴量とが抽出されることが好ましく、上記特徴量から１０種以上の特徴量が抽出されることがより好ましい。また、上記各特徴データから抽出されるそれぞれの特徴量を含むことが好ましい。認知機能予測結果の精度を向上できるためである。上述の各特徴量は、対話の際の脳の情報処理、認知活動をより反映した特徴量であると考えられるからである。

なお、上述のようにアバター１１１ａが複数の質問を行う場合は、例えば質問毎に算出される１０種類の特徴量を種類毎に平均化することで、最終的に質問数×１０個の特徴量が抽出される。

制御部１３における認知機能予測部１３３では、特徴量抽出部１３２で得られた少なくとも１種の特徴量に基づき利用者に認知機能の低下に起因する状態又は症状の傾向があるか否かを予測する。具体的に、認知機能予測部１３３は、測定部１２の測定結果に基づいて特徴量抽出部１３２において１以上の特徴量を抽出し、当該特徴量に基づいて利用者が認知機能の低下に起因する状態又は症状であるか否かを判定する。
なお、認知機能予測部１３３では、１０種以上の特徴量に基づき利用者に認知機能の低下に起因する状態又は症状の傾向があるか否かを予測することが好ましい。また、上記１０種以上の特徴量には、上記各特徴データから抽出されるそれぞれの特徴量を含むことがより好ましい。認知機能予測精度が高精度となるためである。

認知機能予測部１３３は、上記の１０種（１０次元）の特徴量に対して、所定の判定方法を適用することで、利用者が認知機能の低下に起因する状態又は症状であるか否かを予測する。この予測方法として、例えば、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）、ロジスティック回帰分析、及び、深層学習からなる群から選択される少なくとも１つの識別モデルを用いて予測するように構成されていることが好ましい。識別モデルの入力として、特徴量抽出部１３２で抽出された特徴量がそれぞれ最小値０、最大値１になるように正規化し、認知機能の低下に起因する状態又は症状があるグループ（例えば、認知症グループ）と認知機能の低下に起因する状態又は症状がないグループ（例えば、非認知症グループ）とを分類するモデルを学習させることにより判定方法を構築させることができる。なお、判定方法の構築にあたっては、反応時間（音声的特徴量）を含む１０種以上の特徴量を学習させることにより判定方法を構築させることが好ましい。

そして、制御部１３は、認知機能予測部１３３で得られた認知機能予測結果データを、情報伝達部１１等に出力する。

ここで、認知機能予測装置１０における認知機能の予測精度の検証結果について、図面を参照して説明する。図７は、本発明の実施形態に係る認知機能予測装置における認知機能の低下に起因する状態又は症状の１種である認知症の予測精度の検証結果について示したグラフである。図７（ａ）は、判定方法としてＳＶＭを採用して認知症を予測する場合の予測精度の検証結果を示したグラフであり、図７（ｂ）は、ロジスティック回帰分析を採用して認知症を予測する場合の予測精度の検証結果を示したグラフである。

図７（ａ）及び（ｂ）に示すグラフは、ｌｅａｖｅ−ｏｎｅ−ｐａｒｔｉｃｉｐａｎｔ−ｏｕｔ交差検証を用いて算出したＲＯＣ曲線及びＡＵＣ（ＡｒｅａＵｎｄｅｒｔｈｅＣｕｒｖｅ）値を示したグラフである。ｌｅａｖｅ−ｏｎｅ−ｐａｒｔｉｃｉｐａｎｔ−ｏｕｔ交差検証とは、複数の標本の中から１つを抜き出した残りの標本（学習用の標本）を用いて判定方法を構築するとともに、抜き出した１つの標本（テスト用の標本）に対して当該判定方法を適用して判定結果を得る検証方法であって、全ての標本が１回はテスト用の標本になるようにして複数の判定結果を得る検証方法である。また、図７（ａ）及び（ｂ）に示す検証結果は、認知症グループと非認知症グループが半々である２４人程度の協力者のそれぞれから２１種の特徴量を得るとともに、この２１種の特徴量のセットを１つの標本として算出したものである。
２１種の特徴量は、質問の応答にかかった時間（反応時間）、発話と発話との間の中で沈黙が１秒以上の回数をカウントした合計数（ポーズカウント数）、発話と発話の間（１秒以上）の時間平均値（ポーズ時間平均値）、発話と発話の間（１秒以上）の時間の最大値（ポーズ時間最大値）、基本周波数の平均値、基本周波数の最小値、基本周波数の最大値、基本周波数の中央値、基本周波数の最大値と最小値との差、基本周波数の標準偏差、基本周波数の変動係数、声量の平均値、声量の標準偏差、発話の長さ（発話時間）、数発話内のトークン数、発話内のフィラーの総数、発話内の動詞の総数、発話内の名詞の総数、発話内の形容詞の総数、発話内の副詞の総数、発話時間あたりのトークン数である。なお、本実施例において、アバター１１１ａは、図６に記載の１９問のうち、Ｑ５〜Ｑ１３の利用者の年齢に応じた過去のイベントに関する質問を少なくとも１つを含む質問セット（５問）をランダム選び、協力者にそれぞれ質問した。上記数発話は、アバター１１１ａからの複数の質問に対する利用者の全回答（利用者応答の全発話）であってもよく、利用者の年齢に応じた過去のイベントに関する質問を含む少なくとも３問の質問に対する回答（利用者応答の発話）であってもよい。

ＲＯＣ曲線は、特定の判定方法における陽性及び陰性の境界を決定付けるパラメータを変更しながら検証を行って得られる複数の検証結果を結んだ線であり、横軸が偽陽性率（陽性と判定されたが実際は陰性である割合）、縦軸が真陽性率（陽性と判定されて実際にも陽性である割合）である。また、図７（ａ）及び（ｂ）に示すグラフにおいて、偽陽性率と真陽性率が一致する場合を表す斜めの破線は、陽性及び陰性を完全にランダムに判定する場合に相当する。そのため、ＲＯＣ曲線が、当該破線よりも上側（ランダムに判定する場合よりも真陽性率が高い領域）にあり、当該破線から乖離しているほど、認知症の判定精度が高いと言える。また、ＡＵＣ値は、ＲＯＣ曲線の下側の面積の大きさを表しており、この値が最大値である１に近づくほど、認知症の判定精度が高いと言える。

図７（ａ）及び（ｂ）に示すように、ＳＶＭ及びロジスティック回帰のいずれを採用した場合のＲＯＣ曲線も、上述した斜めの斜線よりも上側にあり、当該斜線から充分乖離している。さらに、ＳＶＭ及びロジスティック回帰のいずれを採用した場合のＡＵＣ値も、最大値である１に極めて近い値（ＳＶＭ：０．９５、ロジスティック回帰：０．９２）になっている。したがって、本発明の実施形態に係る認知機能予測装置は、認知機能の低下に起因する状態又は症状の１種である認知症の予測精度が極めて高いことが分かる。

以上のように、本発明の実施形態に係る認知機能予測装置は、利用者の年齢に応じた過去のイベントに関する質問を含む非定型質問に対する利用者の応答を測定し、得られた測定結果から１以上の特徴データを作成し、特徴データから得られた１以上の特徴量に基づいて、利用者が認知機能の低下に起因する状態又は症状であるか否かを予測する。このため、本実施形態は、利用者の短期記憶と長期記憶に関する質問を含んでおり、より高精度な認知機能の低下に起因する状態又は症状予測が可能になる。

なお、図７（ａ）及び（ｂ）に例示した検証結果は、上述した２１種の特徴量を用いて利用者が認知機能の低下に起因する状態又は症状の１種である認知症か否かを判定した場合の検証結果であるが、必ずしもこの２１種の特徴量の全てを用いなくても認知症の判定精度を向上させることは可能である。特に、この２１種の特徴量の中で、認知症の判定精度の向上に資するものを選択的に用いて利用者が認知症か否かを判定することによって、認知症の判定精度の向上を見込むことができる。すなわち、認知機能の低下に起因する状態又は症状の向上に資する特徴量を選択的に用いて利用者が認知機能の低下に起因する状態又は症状か否かを判定することによって、認知機能の低下に起因する状態又は症状の判定精度の向上を見込むことができる。

また、図７（ａ）及び（ｂ）に例示した検証結果は、画像的特徴データから抽出された特徴量を含まないものであるが、画像的特徴データから抽出された特徴量を含めることとしてもよい。ここで、図８に示すグラフは、図７と同様にＬｅａｖｅ−ｏｎｅ−ｐａｒｔｉｃｉｐａｎｔ−ｏｕｔ交差検証を用いて算出したＲＯＣ曲線及びＡＵＣ（ＡｒｅａＵｎｄｅｒｔｈｅＣｕｒｖｅ）値を示したグラフであり、画像的特徴データを用いた認知機能の低下に起因する状態又は症状の１種である認知症の判定精度の検証について示したグラフである。図８に示す検証結果は、認知症グループと非認知症グループが半々である２４人程度の協力者のそれぞれから、画像的特徴データから抽出された３種の特徴量を得るとともに、この３種のセットを特徴量として、各協力者から抽出し算出したものである。
３種の特徴量は、フェイシャルアクションコーディングシステムから抽出された動作単位（ＡｃｔｉｏｎＵｎｉｔｓ（ＡＵｓ））と、視線パターンから抽出された特徴量、及び、フェイシャルランドマーク特徴から抽出された口元反応時間である。

図８に示すように、画像的特徴データから抽出された３種の特徴量の組合せを用い、ロジスティック回帰を採用した場合のＲＯＣ曲線は、異なる２つの質問（Ｑ１、Ｑ２）のいずれの場合も斜線よりも上側にあり、斜線から充分乖離している。更に、ＡＵＣ値も最大値である１に近い値（Ｑ１：０．７８、Ｑ２：０．８２）になっている。したがって、画像的特徴データから抽出される特徴量のみを用いた場合でも本発明の実施形態に係る認知機能予測装置は、認知機能の低下に起因する状態又は症状の予測精度が高く、具体的に認知症の予測精度が高いことが分かる。なお、図８中のＱ１及びＱ２は、定型質問であり、Ｑ１は、「今日は何月何日ですか」であり、Ｑ２は、「これまでに楽しかった思い出を話してください」である。
よって、画像的特徴データから抽出される特徴量と、言語的特徴データ及び／又は音声的特徴データから抽出される特徴量とを組み合わせることで、認知機能予測精度の個人差によるばらつきが解消され、一貫性のある認知機能予測が可能になると考えられる。

ここで、認知機能の低下に起因する状態又は症状の１種である認知症の予測におけるそれぞれの特徴量の有意性について説明する。
図７（ｂ）に示したロジスティック回帰法による検証結果では、２１種の特徴量の中でも１）反応時間、２）基本周波数の最大値と最小値との差、３）基本周波数の最大値、４）ポーズ時間の平均値、５）発話内の動詞の総数は、認知症の検出に当たって重要な特徴量であり、特に反応時間は、ロジスティック回帰法による認知症予測において、最も影響が大きい特徴量であり、認知症の早期発見に最も効果的な属性を示す。よって、認知機能の低下に起因する状態又は症状の早期発見に最も効果的な属性を示すと考えられる。

また、本発明においては、アバター１１１ａが利用者に対して行う質問に非定型質問が含まれており、非定型質問は、利用者の年齢に応じた過去のイベントに関する質問を含む。認知機能の低下に起因する状態又は症状を有する患者の中でも初期段階に属する患者は、過去のイベントに関する質問に対する反応時間は、健常者の同質問に対する反応時間と統計的な有意差を示さない。そのため、本質問を含むことにより、認知機能の低下に起因する状態又は症状の進行度、なかでも認知症の進行度を予測することができる。
なお、アバター１１１ａによる質問は、上記質問の他、認知機能の低下に起因する状態又は症状の初期段階の患者と、健常者のそれぞれにおける反応時間に統計学的な有意差がある質問を利用者に対して行うようにすると、好ましい。

また、認知機能予測装置の使用が想定される状況に応じて、質問の内容を決めると好ましい。例えば、自宅のテレビ、パソコン、タブレット及びスマートフォン等を認知機能予測システム４０における利用者端末５０として使用することが想定される場合、自宅で回答しやすい質問として、例えば、「朝食は何を食べましたか」などの質問を行ってもよい。

上述の実施形態では、アバター１１１ａが画像である場合について例示しているが（図２参照）、アバターはロボット等の立体的な物体であってもよい。ただし、アバターを画像とした方が、認知機能予測装置の構成を簡略化することができるため、好ましい。

本発明は、利用者が認知機能の低下に起因する状態又は症状であるか否かを予測する認知機能予測装置、認知機能予測システム、認知機能予測方法及びプログラムに利用可能である。

１０、６０：認知機能予測装置
１１：情報伝達部
１１１：表示部
１１１ａ：アバター
１１１ｂ：テキスト
１１２：音声出力部
１２：測定部
１２１：集音部
１２２：撮像部
１３：制御部
１３１：特徴データ作成部
１３２：特徴量抽出部
１３３：認知機能予測部
１３４：質問作成部
２１：外部情報入力部
３１：データベース
４０：認知機能予測システム
５０：利用者端末

Claims

利用者に対し音声情報及び画像情報を伝達するための情報伝達部と、
利用者音声及び／又は利用者画像を測定するための測定部と、
前記測定部で得られた測定結果に基づいて、音声的特徴データ、言語的特徴データ及び画像的特徴データからなる群から選択される少なくとも１種の特徴データを作成するための特徴データ作成部と、
前記特徴データ作成部で得られた特徴データから、特徴量を抽出するための特徴量抽出部と、
前記特徴量抽出部で得られた少なくとも１種の特徴量に基づき、前記利用者に認知機能低下に起因する状態又は症状の傾向があるか否かを予測するように構成されている認知機能予測部とを備え、
前記情報伝達部から伝達される情報は、非定型質問を含み、
前記非定型質問は、利用者の年齢に応じた過去のイベントに関する質問を含むことを特徴とする認知機能予測装置。
利用者からの応答に基づき質問を作成するように構成されている質問作成部をさらに備え、
前記非定型質問は、前記質問作成部にて作成された質問を含む請求項１に記載の認知機能予測装置。
前記特徴量抽出部は、前記測定部で得られた利用者音声に基づき前記特徴データ作成部で作成された音声的特徴データ及び言語的特徴データのうち少なくとも１種の特徴データに基づき、特徴量を抽出するように構成されている請求項１又は２に記載の認知機能予測装置。
前記特徴量抽出部は、前記測定部で得られた利用者画像に基づき前記特徴データ作成部で作成された視線パターン、フェイシャルアクションコーディングシステム及びフェイシャルランドマーク特徴からなる群より選択される少なくとも１種の画像的特徴データと、前記測定部で得られた利用者音声に基づき前記特徴データ作成部で作成された音声的特徴データ及び言語的特徴データのうち少なくとも１種の特徴データとに基づき、特徴量を抽出するように構成されている請求項１又は２に記載の認知機能予測装置。
前記認知機能予測部は、前記特徴量抽出部で抽出された特徴量に基づき、前記利用者に認知機能低下に起因する状態又は症状の傾向があるか否かを、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）、ロジスティック回帰分析、及び、深層学習からなる群から選択される少なくとも１つを用いて予測するように構成されている請求項１〜４のいずれか１項に記載の認知機能予測装置。
利用者に対し音声情報及び画像情報を伝達する情報伝達ステップと、
利用者音声及び／又は利用者画像を測定する測定ステップと、
前記測定部の測定結果に基づいて、音声的特徴データ、言語的特徴データ及び画像的特徴データからなる群から選択される少なくとも１種の特徴データを作成する特徴データ作成ステップと、
前記特徴データ作成ステップで得られた特徴データから、特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出部で得られた少なくとも１種の特徴量に基づき、前記利用者に認知機能低下に起因する状態又は症状の傾向があるか否かを予測する認知機能予測ステップとを備え、
前記情報伝達部から伝達される情報は、非定型質問を含み、
前記非定型質問は、利用者の年齢に応じた過去のイベントに関する質問を含むことを特徴とする認知機能予測方法。
請求項６に記載の認知機能予測方法をコンピュータに実行させるためのプログラム。
利用者に対し音声情報及び画像情報を伝達するための情報伝達部と、利用者音声及び／又は利用者画像を測定するための測定部と、を備える利用者端末と、
前記測定部の測定結果に基づいて、音声的特徴データ、言語的特徴データ及び画像的特徴データからなる群から選択される少なくとも１種の特徴データを作成するための特徴データ作成部と、前記特徴データ作成部で得られた特徴データから、特徴量を抽出するための特徴量抽出部と、前記特徴量抽出部で抽出された少なくとも１種の特徴量に基づき、前記利用者に認知機能低下に起因する状態又は症状の傾向があるか否かを予測するように構成されている認知機能予測部と、を備える認知機能予測装置とを有し、
前記情報伝達部から伝達される情報は、非定型質問を含み、
前記非定型質問は、利用者の年齢に応じた過去のイベントに関する質問を含むことを特徴とする認知機能予測システム。