JP6854554B1

JP6854554B1 - 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム

Info

Publication number: JP6854554B1
Application number: JP2020541455A
Authority: JP
Inventors: 康宏大宮; 将鈴木
Original assignee: PST CORPORATION,INC.
Current assignee: PST CORPORATION,INC.
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2021-04-07
Anticipated expiration: 2040-06-11
Also published as: EP4166092A1; WO2021250854A1; JPWO2021250854A1; US20230210451A1; EP4166092A4; JP7430398B2; JP2021194527A

Abstract

情報処理装置（１４）は、音声データから音響パラメータである特徴量を抽出する。情報処理装置（１４）は、音声データのスペクトログラム画像を生成する。情報処理装置（１４）は、特徴量と算出モデルとに基づいて、ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出する。情報処理装置（１４）は、スペクトログラム画像を学習済みモデルへ入力して、ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出する。情報処理装置（１４）は、第１のスコアと第２のスコアとを合成し、ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出する。情報処理装置（１４）は、合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。

Description

開示の技術は、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムに関する。

国際公開第２０２０／０１３２９６号公報には、精神系疾患又は神経系疾患を推定する装置が開示されている。この装置は、ユーザの音声データから各種の音響パラメータを算出し、それらの音響パラメータを用いて、ユーザが精神系疾患又は神経系疾患であるか否かを推定する。

上記国際公開第２０２０／０１３２９６号公報に開示されている装置は、音声データから算出される音響パラメータを用いて疾患を推定するものの、その精度に関しては改善の余地がある。

開示の技術は、上記の事情を鑑みてなされたものであり、ユーザが発した音声の時系列データから抽出されるパラメータを用いて精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を推定する場合と比べ、ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有しているか否かを精度良く推定することができる、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムを提供する。

上記の目的を達成するために本開示の第１態様は、ユーザが発した音声の時系列データである音声データを取得する取得部と、前記取得部により取得した前記音声データから、所定の音響パラメータである特徴量を抽出する抽出部と、前記取得部により取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成する生成部と、前記抽出部により抽出された前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出する第１スコア算出部と、前記生成部により生成された前記スペクトログラム画像を、前記スペクトログラム画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出する第２スコア算出部と、前記第１のスコアと前記第２のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出する合成スコア算出部と、前記合成スコア算出部により算出された前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する推定部と、を含む情報処理装置である。

本開示の第２態様は、ユーザが発した音声の時系列データである音声データを取得する取得部と、前記取得部により取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成する生成部と、前記取得部により取得した前記音声データから所定の音響パラメータである特徴量を抽出し、前記生成部により生成された前記スペクトログラム画像から学習済みモデルを用いることにより特徴量を抽出する抽出部と、前記抽出部により抽出された前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表すスコアを算出するスコア算出部と、前記スコア算出部により算出された前記スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する推定部と、を含み、前記学習済みモデルは、学習用のスペクトログラム画像と該学習用のスペクトログラム画像に対応する前記音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられた教師データにより予め学習された学習済みモデルである、情報処理装置である。

本開示の第３態様は、ユーザが発した音声の時系列データである音声データを取得する取得部と、前記取得部により取得した前記音声データから、所定の音響パラメータである特徴量を抽出する抽出部と、前記取得部により取得した前記音声データに対応する画像を生成する生成部と、前記抽出部により抽出された前記特徴量を、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第１の学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出する第１スコア算出部と、前記生成部により生成された前記画像を、前記画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第２の学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出する第２スコア算出部と、前記第１のスコアと前記第２のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出する合成スコア算出部と、前記合成スコア算出部により算出された前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する推定部と、を含む情報処理装置である。

本開示の第４態様は、ユーザが発した音声の時系列データである音声データを取得し、前記音声データから、所定の音響パラメータである特徴量を抽出し、前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成し、前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出し、前記スペクトログラム画像を、前記スペクトログラム画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出し、前記第１のスコアと前記第２のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出し、前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する、処理をコンピュータが実行する情報処理方法である。

本開示の第５態様は、ユーザが発した音声の時系列データである音声データを取得し、前記音声データから、所定の音響パラメータである特徴量を抽出し、前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成し、前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出し、前記スペクトログラム画像を、前記スペクトログラム画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出し、前記第１のスコアと前記第２のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出し、前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する、処理をコンピュータに実行させるための情報処理プログラムである。

開示の技術によれば、ユーザが発した音声の時系列データから抽出されるパラメータを用いて精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を推定する場合と比べ、ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有しているか否かを精度良く推定することができる、という効果が得られる。

第１実施形態の情報処理システムの概略構成の一例を示す図である。第１実施形態の概要を説明するための図である。第１実施形態の情報処理システムの利用形態の一例を模式的に示す図である。音声データとスペクトログラム画像とを説明するための図である。学習済みモデルを説明するための図である。教師データを説明するための図である。情報処理装置を構成するコンピュータの一例を示す図である。第１実施形態の情報処理装置が実行する処理の一例を示す図である。第２実施形態の概要を説明するための図である。教師データを説明するための図である。第３実施形態の情報処理システムの概略構成の一例を示す図である。第３実施形態の情報処理システムの利用形態の一例を模式的に示す図である。第３実施形態の情報処理システムの利用形態の一例を模式的に示す図である。第３実施形態のユーザ端末及び情報処理装置が実行する処理の一例を示す図である。第４実施形態の情報処理システムの概略構成の一例を示す図である。学習済みモデルから得られる特徴量を説明するための図である。実施例１の結果を示す図である。実施例１の結果を示す図である。実施例２の結果を示す図である。実施例２の結果を示す図である。実施例２の結果を示す図である。実施例２の結果を示す図である。

以下、図面を参照して開示の技術の実施形態を詳細に説明する。

＜第１実施形態の情報処理システム＞

図１に、第１実施形態に係る情報処理システム１０を示す。図１に示されるように、第１実施形態の情報処理システム１０は、マイク１２と、情報処理装置１４と、表示装置１６とを備えている。

情報処理システム１０は、マイク１２により集音されたユーザの音声に基づいて、ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状（以下、単に「精神系疾患、神経系疾患又はそれらの症状」とも称する。）を有しているか否かを推定する。

図２に、第１実施形態の情報処理システム１０の概要を説明するための図を示す。第１実施形態の情報処理システム１０の情報処理装置１４は、ユーザが発した音声の時系列データである音声データから音響パラメータを抽出する。また、情報処理装置１４は、ユーザの音声データを周波数解析することにより、スペクトログラム画像を生成する。

次に、情報処理装置１４は、図２に示されるように、音響パラメータを、音響パラメータから精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第１のスコアを算出するための算出モデルへ入力する。そして、情報処理装置１４は、図２に示されるように、第１のスコアを得る。

次に、情報処理装置１４は、スペクトログラム画像を、スペクトログラム画像から精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第２のスコアを算出するための学習済みモデルへ入力する。そして、情報処理装置１４は、図２に示されるように、第２のスコアを得る。学習済みモデルは、例えば、機械学習により学習されたニューラルネットワーク等により実現される。

次に、情報処理装置１４は、第１のスコアと第２のスコアとを合成することにより、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す合成スコアを算出する。そして、情報処理装置１４は、合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。

このように、第１実施形態の情報処理システム１０は、時系列データである音声データから抽出される音響パラメータのみならず、音声データから得られる画像も用いてユーザが何れかの疾患又は症状を有しているか否かを推定する。これにより、音響パラメータのみを用いた場合に比べて、ユーザが何れかの疾患又は症状を有しているか否かを精度良く推定することができる。

第１実施形態の情報処理システム１０は、例えば、図３に示されるような状況下においての利用が想定される。

図３の例では、医師等の医療従事者Ｈが、情報処理システム１０の一例であるタブレット型端末を保持している。医療従事者Ｈは、タブレット型端末が備えるマイク（図示省略）を用いて、被験者であるユーザＵの音声データ「ＸＸＸＸ」を集音する。そして、タブレット端末は、ユーザＵの音声データ「ＸＸＸＸ」に基づいて、ユーザＵが何れかの疾患又は症状を有しているか否かを推定し、推定結果を表示部（図示省略）へ出力する。医療従事者Ｈは、タブレット端末の表示部（図示省略）に表示された推定結果を参考にして、ユーザＵが何れかの疾患又は症状を有しているか否かを診断する。

以下、具体的に説明する。

マイク１２は、疾患又は症状推定対象のユーザが発した音声の時系列データである音声データを集音する。

情報処理装置１４は、マイク１２により集音された音声データに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを推定する。

図１に示されるように、情報処理装置１４は、機能的には、取得部２０と、抽出部２２と、生成部２４と、算出モデル記憶部２６と、学習済みモデル記憶部２８と、第１スコア算出部３０と、第２スコア算出部３２と、合成スコア算出部３４と、推定部３６とを備えている。情報処理装置１４は、後述するようなコンピュータにより実現される。

取得部２０は、マイク１２により集音されたユーザの音声データを取得する。

抽出部２２は、取得部２０により取得された音声データから、所定の音響パラメータである特徴量を抽出する。例えば、抽出部２２は、国際公開第２０２０／０１３２９６号公報に開示されている以下の音響パラメータを特徴量として抽出する。

生成部２４は、取得部２０により取得された音声データを周波数解析することにより、音声データのスペクトログラムを表すスペクトログラム画像を生成する。

図４に、スペクトログラム画像を説明するための図を示す。図４に示されるように、音声データＤは時系列データである。生成部２４は、音声データＤを周波数解析することにより、図４に示されるようなスペクトログラム画像Ｉｍを生成する。なお、スペクトログラム画像Ｉｍの横軸は時間軸であり、スペクトログラム画像Ｉｍの縦軸は周波数軸である。また、スペクトログラム画像Ｉｍの画素値は、各周波数成分の強度に相当する。なお、第１実施形態では、スペクトログラム画像はグレースケール画像である。

算出モデル記憶部２６には、音響パラメータである特徴量から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための算出モデルが格納されている。例えば、算出モデルは、以下の算出式によって表される。

Ｆ（ａ）＝ｘ_ａ１×ｆ_ａ１＋ｘ_ａ２×ｆ_ａ２＋，・・・，ｘ_ａｎ×ｆ_ａｎ
（１）

上記式（１）は、ユーザがある精神系疾患又は症状Ａを有している度合いを表す第１のスコアＦ（ａ）を算出するための算出式である。ｆ_ａ１，・・・，ｆ_ａｎは、上記の各音響パラメータの項目１）から１１）の中から選択された何れか１つ以上の特徴量である。また、ｘ_ａ１，・・・，ｘ_ａｎは疾患又は症状に固有の係数であり、予め設定されている。

また、ユーザがある神経系疾患又は症状Ｂを有している度合いを表す第１のスコアＦ（ｂ）は、上記式（１）と同様の形式で表され、例えば、以下の式（２）により表される。ｆ_ｂ１，・・・，ｆ_ｂｍは、上記の各音響パラメータの項目１）から１１）の中から選択された何れか１つ以上の特徴量である。ｘ_ｂ１，・・・，ｘ_ｂｍは疾患又は症状に固有の係数であり、予め設定されている。

Ｆ（ｂ）＝ｘ_ｂ１×ｆ_ｂ１＋ｘ_ｂ２×ｆ_ｂ２＋，・・・，ｘ_ｂｍ×ｆ_ｂｍ
（２）

また、ユーザが精神系疾患、神経系疾患又はそれらの症状の何れも有していない度合いを表す第１のスコアＦ（ｈ）は、記式（１）と同様の形式で表され、例えば、以下の式（３）により表される。ｆ_ｈ１，・・・，ｆ_ｈｉは、上記の各音響パラメータの項目１）から１１）の中から選択された何れか１つ以上の特徴量である。ｘ_ｈ１，・・・，ｘ_ｈｉは疾患又は症状に固有の係数であり、予め設定されている。

Ｆ（ｈ）＝ｘ_ｈ１×ｆ_ｈ１＋ｘ_ｈ２×ｆ_ｈ２＋，・・・，ｘ_ｈｉ×ｆ_ｈｉ
（３）

なお、２つ以上の疾患又は症状に共通項が存在しており、疾患又は症状Ａ及び疾患又は症状Ｂの少なくとも一方を有している度合いを表す第１のスコアＦ（ａｂ）を、以下の式（４）により算出してもよい。ｆ_ａｂ１，・・・，ｆ_ａｂｊは、上記の各音響パラメータの項目１）から１１）の中から選択された何れか１つ以上の特徴量である。ｘ_ａｂ１，・・・，ｘ_ｈａｂｊは固有の係数であり、予め設定されている。

Ｆ（ａｂ）＝ｘ_ａｂ１×ｆ_ａｂ１＋ｘ_ａｂ２×ｆ_ａｂ２＋，・・・，ｘ_ａｂｊ×ｆ_ａｂｊ
（４）

また、疾患又は症状Ａ及び疾患又は症状Ｂの少なくとも一方を有している度合いを表す第１のスコアＦ（ａｂ）を利用して、以下の式（５）（６）により、ユーザが疾患又は症状Ａを有している度合いを表す第１のスコアＦ（ａ）、及びユーザが疾患又は症状Ｂを有している度合いを表す第１のスコアＦ（ｂ）、をそれぞれ算出してもよい。

Ｆ（ａ）＝Ｆ（ａｂ）＋ｘ_ａ１×ｆ_ａ１＋ｘ_ａ２×ｆ_ａ２＋，・・・，ｘ_ａｎ×ｆ_ａｎ
（５）
Ｆ（ｂ）＝Ｆ（ａｂ）＋ｘ_ｂ１×ｆ_ｂ１＋ｘ_ｂ２×ｆ_ｂ２＋，・・・，ｘ_ｂｍ×ｆ_ｂｍ
（６）

学習済みモデル記憶部２８には、スペクトログラム画像から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め機械学習された学習済みモデルが格納されている。

図５に、学習済みモデルを説明するための図を示す。図５に示されるように、スペクトログラム画像の各箇所の画素値が学習済みモデルへ入力されると、学習済みモデルから精神系疾患、神経系疾患又はそれらの症状の度合いを表す第２のスコアが出力される。

図５に示される例では、ユーザが疾患又は症状Ａを有している度合いを表す第２のスコアＧ（ａ）：０．６と、ユーザが疾患又は症状Ｂを有している度合いを表す第２のスコアＧ（ｂ）：０．１と、ユーザが何れの疾患又は症状も有していない度合いを表す第２のスコアＧ（ｈ）：０．１とが、学習済みモデルから出力されている。

学習済みモデルは、予め設定された教師データにより予め機械学習されている。学習済みモデルは、機械学習により学習可能なモデルであれば、どのようなモデルであってもよい。図６は、教師データを説明するための図である。図６に示されるように、例えば、教師データは、学習用のスペクトログラム画像と当該学習用のスペクトログラム画像に対応する音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられたデータである。

第１スコア算出部３０は、抽出部２２により抽出された特徴量と、算出モデル記憶部２６に格納された算出式とに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第１のスコアを算出する。

具体的には、第１スコア算出部３０は、算出モデル記憶部２６に格納された算出式を読み出し、その算出式の特徴量部分に抽出部２２により抽出された特徴量の値を入力し、第１のスコアを算出する。

例えば、第１スコア算出部３０は、特徴量の値を算出式へ入力することにより、ユーザがある精神系疾患又は症状Ａを有している度合いを表す第１のスコアＦ（ａ）、ユーザがある神経系疾患又は症状Ｂを有している度合いを表す第１のスコアＦ（ｂ）、及びユーザが何れの疾患又は症状も有していない度合いを表す第１のスコアＦ（ｈ）を算出する。なお、第１のスコアＦ（ａ）は、ユーザが精神系疾患又はその症状を有している度合いを表す第１の精神系疾患スコアの一例である。また、第１のスコアＦ（ｂ）は、ユーザが神経系疾患又はその症状を有している度合いを表す第１の神経系疾患スコアの一例である。また、第１のスコアＦ（ｈ）は、ユーザが精神系疾患、神経系疾患又はそれらの症状の何れも有していない度合いを表す第１の健常系スコアの一例である。

第２スコア算出部３２は、生成部２４により生成されたスペクトログラム画像を、学習済みモデル記憶部２８に格納されている学習済みモデルへ入力して、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第２のスコアを算出する。

例えば、第２スコア算出部３２は、スペクトログラム画像の各画素値を学習済みモデルへ入力することにより、ユーザがある精神系疾患又は症状Ａを有している度合いを表す第２のスコアＧ（ａ）、ユーザがある神経系疾患又は症状Ｂを有している度合いを表す第２のスコアＧ（ｂ）、及びユーザが何れの疾患又は症状も有していない度合いを表す第２のスコアＧ（ｈ）を算出する。なお、第２のスコアＧ（ａ）は、ユーザが精神系疾患又はその症状を有している度合いを表す第２の精神系疾患スコアの一例である。また、第２のスコアＧ（ｂ）は、ユーザが神経系疾患又はその症状を有している度合いを表す第２の神経系疾患スコアの一例である。第２のスコアＧ（ｈ）は、ユーザが精神系疾患、神経系疾患又はそれらの症状の何れも有していない度合いを表す第２の健常系スコアの一例である。

なお、第２スコア算出部３２は、音声データの長さに応じてスペクトログラム画像のサイズを調整する。

例えば、疾患又は症状か否かを推定するための予め設定された複数のフレーズをユーザに発話させる場合には、その音声データの時間軸方向の長さはフレーズ毎に異なるものとなる。例えば、フレーズ「食欲があります」とフレーズ「本日は晴天なり」とでは、その長さが異なり、それぞれのフレーズの音声データから生成されたスペクトログラム画像も異なるサイズとなる。

そこで、第２スコア算出部３２は、スペクトログラム画像を学習済みモデルへ入力する際に、スペクトログラム画像のサイズを調整する。

具体的には、学習済みモデルの入力層のサイズよりも入力対象のスペクトログラム画像のサイズが大きい場合には、第２スコア算出部３２は、当該スペクトログラム画像内にランダムな切り取り位置を設定し、その切り取り位置に応じて画像を切り出す。そして、第２スコア算出部３２は、切り出したスペクトログラム画像を学習済みモデルへ入力して、第２のスコアを算出する。

一方、学習済みモデルの入力層のサイズよりも入力対象のスペクトログラム画像のサイズが小さい場合には、第２スコア算出部３２は、当該スペクトログラム画像の両サイドにランダムな幅で黒枠を挿入する。そして、第２スコア算出部３２は、黒枠が挿入されたスペクトログラム画像を学習済みモデルへ入力して、第２のスコアを算出する。

なお、モデルを学習させる際にも、このような手法によりスペクトログラム画像のサイズを調整する。なお、学習の際にスペクトログラム画像の両サイドにランダムな幅で黒枠を挿入してしまうと、学習が上手くいかない場合もあるため、全ての学習用のスペクトログラム画像の平均画像を生成し、その平均画像を対象のスペクトログラム画像の両サイドに挿入する。なお、この場合、画像の両サイドへの平均画像の挿入幅及び入力サイズよりも大きい画像の切り出し位置は、学習更新によるモデルの中間層の重みパラメータが微小に変更される毎に、ランダムにその幅及び位置を変更する。これにより、学習済みモデルの性能を向上させることが可能となる。

合成スコア算出部３４は、第１スコア算出部３０により算出された第１のスコアと第２スコア算出部３２により算出された第２のスコアとを合成することにより、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す合成スコアを算出する。例えば、合成スコア算出部３４は、第１のスコアと第２のスコアとの和を、合成スコアとして算出する。

例えば、合成スコア算出部３４は、第１のスコアＦ（ａ）と第２のスコアＧ（ａ）とを足し合わせることにより、ユーザがある精神系疾患又は症状Ａを有している度合いを表す合成スコアＳ（ａ）を算出する。また、合成スコア算出部３４は、第１のスコアＦ（ｂ）と第２のスコアＧ（ｂ）とを足し合わせることにより、ユーザがある神経系疾患又は症状Ｂを有している度合いを表す合成スコアＳ（ｂ）を算出する。また、合成スコア算出部３４は、第１のスコアＦ（ｈ）と第２のスコアＧ（ｈ）とを足し合わせることにより、ユーザが何れの疾患又は症状も有していない度合いを表す合成スコアＳ（ｈ）を算出する。

推定部３６は、合成スコア算出部３４により算出された合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。例えば、推定部３６は、ユーザは合成スコアが最も高い疾患又は症状を有していると推定する。または、例えば、推定部３６は、ユーザは合成スコアが所定の閾値以上である疾患又は症状を有していると推定する。例えば、推定部３６は、合成スコアが所定の閾値以上である疾患又は症状が精神系疾患又は症状Ａと神経系疾患又は症状Ｂであった場合には、ユーザは精神系疾患又は症状Ａ及び神経系疾患又は症状Ｂの両方を有していると推定する。また、例えば、推定部３６は、合成スコアＳ（ｈ）が最も高い場合には、ユーザは疾患又は症状を有していないと推定する。

推定部３６は、ユーザの疾患又は症状の有無に関する推定結果を出力する。なお、推定部３６は、各疾患又は症状の合成スコアそのものを推定結果として出力してもよい。

表示装置１６は、推定部３６から出力された推定結果を表示する。

情報処理装置１４を操作する医療従事者又はユーザは、表示装置１６から出力された推定結果を確認し、ユーザがどのような疾患又は症状を有している可能性があるのかを確認する。

情報処理装置１４は、例えば、図７に示すコンピュータ５０で実現することができる。コンピュータ５０はＣＰＵ５１、一時記憶領域としてのメモリ５２、及び不揮発性の記憶部５３を備える。また、コンピュータ５０は、外部装置及び出力装置等が接続される入出力interface（Ｉ／Ｆ）５４、及び記録媒体に対するデータの読み込み及び書き込みを制御するread/write（Ｒ／Ｗ）部５５を備える。また、コンピュータ５０は、インターネット等のネットワークに接続されるネットワークＩ／Ｆ５６を備える。ＣＰＵ５１、メモリ５２、記憶部５３、入出力Ｉ／Ｆ５４、Ｒ／Ｗ部５５、及びネットワークＩ／Ｆ５６は、バス５７を介して互いに接続される。

記憶部５３は、Hard Disk Drive（ＨＤＤ）、Solid State Drive（ＳＳＤ）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部５３には、コンピュータ５０を機能させるためのプログラムが記憶されている。ＣＰＵ５１は、プログラムを記憶部５３から読み出してメモリ５２に展開し、プログラムが有するプロセスを順次実行する。

［第１実施形態の情報処理システムの動作］

次に、第１実施形態の情報処理システム１０の具体的な動作について説明する。情報処理システム１０の情報処理装置１４は、図８に示される各処理を実行する。

まず、ステップＳ１００において、マイク１２により集音されたユーザの音声データを取得する。

次に、ステップＳ１０２において、抽出部２２は、上記ステップＳ１００で取得された音声データから、国際公開第２０２０／０１３２９６号公報に開示されているような所定の音響パラメータを特徴量として抽出する。

ステップＳ１０４において、生成部２４は、上記ステップＳ１００で取得された音声データを周波数解析することにより、音声データのスペクトログラムを表すスペクトログラム画像を生成する。

ステップＳ１０６において、第１スコア算出部３０は、上記ステップＳ１０２抽出された特徴量と、算出モデル記憶部２６に格納された算出式とに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第１のスコアを算出する。

ステップＳ１０８において、第２スコア算出部３２は、上記ステップＳ１０４で生成されたスペクトログラム画像を、学習済みモデル記憶部２８に格納されている学習済みモデルへ入力して、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第２のスコアを算出する。

ステップＳ１１０において、合成スコア算出部３４は、上記ステップＳ１０６で算出された第１のスコアと、上記ステップＳ１０８で算出された第２のスコアとを合成することにより、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す合成スコアを算出する。

ステップＳ１１２において、推定部３６は、上記ステップＳ１１０で算出された合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。

ステップＳ１１４において、推定部３６は、上記ステップＳ１１２で得られた推定結果を出力する。

表示装置１６は、推定部３６から出力された推定結果を表示する。情報処理装置１４を操作する医療従事者又はユーザは、表示装置１６から出力された推定結果を確認し、ユーザがどのような疾患又は症状を有している可能性があるのかを確認する。

以上説明したように、第１実施形態の情報処理システム１０は、ユーザが発した音声の時系列データである音声データを取得し、当該音声データから、所定の音響パラメータである特徴量を抽出する。そして、情報処理システム１０は、取得した音声データを周波数解析することにより、音声データのスペクトログラムを表すスペクトログラム画像を生成する。情報処理システム１０は、特徴量と、当該特徴量から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第１のスコアを算出する。情報処理システム１０は、スペクトログラム画像を、当該スペクトログラム画像から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第２のスコアを算出する。情報処理システム１０は、第１のスコアと第２のスコアとを合成することにより、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す合成スコアを算出する。そして、情報処理システム１０は、合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。これにより、ユーザが発した音声の時系列データから抽出されるパラメータを用いて精神系疾患、神経系疾患又はそれらの症状を推定する場合と比べ、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを精度良く推定することができる。より詳細には、従来の音響パラメータに加え音声データから得られるスペクトログラム画像を用いて疾患又は症状を推定することにより、ユーザの疾患又は症状を精度良く推定することができる。

また、スペクトログラム画像からユーザの疾患又は症状のスコアを算出する際には、学習済みモデルを用いることにより、スペクトログラム画像から第２のスコアを簡易に算出することができる。また、学習済みモデルへスペクトログラム画像を入力する際には、スペクトログラム画像のサイズを調整することにより、異なる長さのフレーズにも対応することができる。

＜第２実施形態の情報処理システム＞

次に、第２実施形態について説明する。なお、第２実施形態情報処理システムの構成は、第１実施形態と同様の構成となるため、同一符号を付して説明を省略する。

第２実施形態の情報処理システムは、音響パラメータである特徴量から第１のスコアを算出する際にも、ニューラルネットワーク等の学習済みモデルを用いる点が第１実施形態と異なる。

図９に、第２実施形態の情報処理システム１０の概要を説明するための図を示す。第２実施形態の情報処理システム１０は、第１実施形態の算出モデルとして、ニューラルネットワーク等の第１の学習済みモデルを用いる。

具体的には、第２実施形態の情報処理システム１０の情報処理装置１４は、図９に示されるように、音響パラメータである特徴量を、当該特徴量から精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第１のスコアを算出するための算出モデルである第１の学習済みモデルへ入力する。そして、第２実施形態の情報処理システム１０の情報処理装置１４は、第１の学習済みモデルから出力されたスコアを第１のスコアとする。

なお、第１実施形態の学習済みモデルは、図９に示される第２の学習済みモデルに相当する。このため、スペクトログラム画像が第２の学習済みモデルへ入力されると、その第２の学習済みモデルから第２のスコアが出力される。

以下、具体的に説明する。

第２実施形態の第１の学習済みモデルは、既知のニューラルネットワーク等により実現される。第１の学習済みモデルは、予め設定された教師データにより予め機械学習されている。図１０は、第１の学習済みモデルを学習させる際に用いる教師データを説明するための図である。図１０に示されるように、例えば、教師データは、学習用の特徴量群と、その特徴量群が得られた音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられたデータである。

第２実施形態の情報処理システムの他の構成及び作用については、第１実施形態と同様であるため、説明を省略する。

以上説明したように、第２実施形態の情報処理システムは、音響パラメータである特徴量から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め学習された第１の学習済みモデルを用いる。具体的には、第２実施形態の情報処理システムは、ユーザの音声データから抽出された特徴量を、第１の学習済みモデルへ入力して、第１のスコアを算出する。そして、第２実施形態の情報処理システムは、スペクトログラム画像を、第２の学習済みモデルへ入力して、第２のスコアを算出する。第２実施形態の情報処理システムは、第１のスコアと第２のスコアとを合成することにより、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す合成スコアを算出する。そして、第２実施形態の情報処理システムは、合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。これにより、ユーザが発した音声の時系列データから抽出されるパラメータを用いて精神系疾患、神経系疾患又はそれらの症状を推定する場合と比べ、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを精度良く推定することができる。

＜第３実施形態の情報処理システム＞

次に、第３実施形態について説明する。なお、第３実施形態の情報処理システムの構成のうちの、第１実施形態又は第２実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

図１１に、第３実施形態に係る情報処理システム３１０を示す。図１１に示されるように、第３実施形態の情報処理システム３１０は、ユーザ端末１８と、情報処理装置３１４とを備えている。

情報処理システム３１０の情報処理装置３１４は、ユーザ端末１８に備えられたマイク１２により集音されたユーザの音声に基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを推定する。

第３実施形態の情報処理システム３１０は、例えば、図１２及び図１３に示されるような状況下においての利用が想定される。

図１２の例では、医師等の医療従事者Ｈが情報処理装置３１４を操作しており、被験者であるユーザＵはユーザ端末１８を操作している。ユーザＵは、自らが操作するユーザ端末１８のマイク１２により自らの音声データ「ＸＸＸＸ」を集音する。そして、ユーザ端末１８は、インターネット等のネットワーク１９を介して音声データを情報処理装置３１４へ送信する。

情報処理装置３１４は、ユーザ端末１８から送信されたユーザＵの音声データ「ＸＸＸ」を受信する。そして、情報処理装置３１４は、受信した音声データに基づいて、ユーザＵが何れかの疾患又は症状を有しているか否かを推定し、推定結果を情報処理装置３１４の表示部３１５へ出力する。医療従事者Ｈは、情報処理装置３１４の表示部３１５に表示された推定結果を参考にして、ユーザＵが何れかの疾患又は症状を有しているか否かを診断する。

一方、図１３の例では、被験者であるユーザＵは、自らが操作するユーザ端末１８のマイク１２により自らの音声データ「ＸＸＸＸ」を集音する。そして、ユーザ端末１８は、インターネット等のネットワーク１９を介して音声データを情報処理装置３１４へ送信する。情報処理装置３１４は、ユーザ端末１８から送信されたユーザＵの音声データ「ＸＸＸ」を受信する。そして、情報処理装置３１４は、受信した音声データに基づいて、ユーザＵが何れかの疾患又は症状を有しているか否かを推定し、推定結果をユーザ端末１８へ送信する。ユーザ端末１８は、情報処理装置１４から送信された推定結果を受信し、その推定結果を表示部（図示省略）へ表示する。ユーザは、推定結果を確認し、自らがどのような疾患又は症状を有している可能性が高いのかを確認する。

［第３実施形態の情報処理システムの動作］

第３実施形態の情報処理システム３１０の具体的な動作について説明する。情報処理システム３１０のユーザ端末１８及び情報処理装置３１４は、図１４に示される各処理を実行する。

ステップＳ２００において、ユーザ端末１８の端末通信部３１３は、マイク１２により集音されたユーザの音声データを取得する。

ステップＳ２０２において、ユーザ端末１８の端末通信部３１３は、上記ステップＳ２００で取得した音声データを、ネットワーク１９を介して、情報処理装置３１４へ送信する。

ステップＳ２０３において、情報処理装置３１４の通信部３８は、ユーザ端末１８から送信された音声データを受信する。

図１４のステップＳ１００〜ステップＳ１１４の各処理は、第１実施形態の情報処理システム１０と同様に実行される。

なお、ステップＳ１１４で出力された推定結果は、ユーザ端末１８へ送信されてもよいし、情報処理装置１４が備える表示装置（図示省略）に表示されてもよい。

第３実施形態の情報処理システムの他の構成及び作用については、第１又は第２実施形態と同様であるため、説明を省略する。

以上説明したように、第３実施形態の情報処理システムは、クラウド上に設置された情報処理装置１４を用いてユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを推定することができる。

＜第４実施形態の情報処理システム＞

次に、第４実施形態について説明する。なお、第４実施形態の情報処理システムの構成のうち第１〜第３実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

図１５に、第４実施形態に係る情報処理システム４１０を示す。図１５に示されるように、第３実施形態の情報処理システム４１０の情報処理装置４１４は、機能的には、取得部２０と、生成部２４と、抽出部４２と、スコア算出部４４と、推定部４６とを備えている。

第４実施形態の抽出部４２は、第１〜第３実施形態と同様に、音声データから所定の音響パラメータを特徴量として抽出する。更に、第４実施形態の抽出部４２は、生成部２４により生成されたスペクトログラム画像からも特徴量を抽出する。

具体的には、抽出部４２は、学習済みモデル記憶部２８に格納されている学習済みモデルを用いて、生成部２４により生成されたスペクトログラム画像から特徴量を抽出する。

図１６に、学習済みモデルを用いての特徴量の抽出を説明するための図を示す。図１６に示されるように、学習済みモデルは、入力層、中間層、及び出力層を含んで構成されている。出力前層の値（中間層から出力される値）は、特徴量としても利用することが可能である。

そこで、第４実施形態の抽出部４２は、スペクトログラム画像の各画素値を学習済みモデルへ入力し、学習済みモデルの中間層から出力される値を特徴量として抽出する。

スコア算出部４４は、抽出部４２により抽出された特徴量と、算出モデル記憶部２６に格納されている算出モデルとに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表すスコアを算出する。

第４実施形態の算出モデルの一例である算出式としては、例えば、以下の式（７）等を用いることができる。なお、以下の式により算出されるスコアＦ（ａ）は、ユーザが疾患又は症状Ａを有している度合いを表す。なお、ｘ_ａｎ，ｙ_ａｍは固定されている係数であり、予め設定されている。これらの係数は、ｘ_ａｎ，ｙ_ａｍは、例えば、機械学習又は回帰分析等により求められる。ｆは音声データから抽出された音響パラメータを表す第１の特徴量であり、ｇはスペクトログラム画像から学習済みモデルを用いて抽出された第２の特徴量である。

Ｆ（ａ）＝ｘ_ａ１×ｆ（１）＋，・・・，ｘ_ａｎ×ｆ（ｎ）＋ｙ_ａ１×ｇ（１）＋，・・・，ｙ_ａｍ×ｇ（ｍ）
（７）

推定部４６は、スコア算出部４４により算出されたスコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。

第４実施形態の情報処理システムの他の構成及び作用については、第１〜第２実施形態と同様であるため、説明を省略する。

第４実施形態の情報処理システム４１０は、音声データから所定の音響パラメータである特徴量を抽出し、スペクトログラム画像から学習済みモデルを用いることにより特徴量を抽出する。そして、情報処理システム４１０は、特徴量と、当該特徴量から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表すスコアを算出する。そして、情報処理システム４１０は、スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。なお、学習済みモデルは、学習用のスペクトログラム画像と該学習用のスペクトログラム画像に対応する音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられた教師データにより予め学習された学習済みモデルである。これにより、ユーザが発した音声の時系列データから抽出されるパラメータを用いて精神系疾患、神経系疾患又はそれらの症状を推定する場合と比べ、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを精度良く推定することができる。

また、スペクトログラム画像から特徴量を抽出する際に用いる学習済みモデルは、学習用のスペクトログラム画像と疾患又は症状に関する正解ラベルとが対応付けられた教師データに基づき学習されているため、ユーザの疾患又は症状を精度良く推定するための特徴量を抽出することができる。

次に、実施例１を説明する。実施例１では、被験者が２４個のフレーズを発話し、その発話により得られる音声データを収集する。そして、それらの音声データに基づいて各手法を用いて被験者の疾患又は症状の推定を行う。

なお、第１のスコアを算出する際の学習済みモデルとしては、その一例として、以下の参考文献に開示されている、既知のニューラルネットワークであるＲｅｓＮｅｔを用いる。

参考文献：K. He, X. Zhang, S. Ren, and J. Sun. "Deep residual learning for image
recognition.", In Proc. of CVPR, 2016.

また、第２のスコアを算出する際の算出モデルとしては、上記式（１）〜（６）に示される線形式を用いる。

図１７に実験結果を示す。図１７の実験結果は、２４個のフレーズ（Ｐｈ．０１〜Ｐｈ．０２４）を複数の被験者に発話してもらい、その音声データに基づき被験者の疾患又は症状を推定した場合の実験結果である。

なお、以下において示される「ＣＩ」は認知機能障害群に相当し、神経系疾患又は認知機能障害症状を表す。認知機能障害群には、例えば、アルツハイマー型認知症、レビー小体型認知症、軽度認知機能障害、前頭側頭型認知症、脳血管性認知症、若年性認知症、アルコール性認知症、大脳皮質基底核症候群、嗜銀顆粒性認知症、水頭症、及びその他の認知機能障害の症状を呈する疾患、又は認知症障害症状が含まれる。また、「ＭＤｓ」は精神疾患群に相当し、精神系疾患又は精神障害症状を表す。精神疾患群には、大うつ病性障害、双極性障害、非定型うつ病、気分循環症、気分変調症、統合失調症、及びその他の精神疾患、又は精神障害症状が含まれる。「ＣＴＲＬ」は、精神系疾患、神経系疾患又はそれらの症状の何れも有していないことを表す。

図１７の実験結果は、被験者が「ＣＩ」であるか否かを推定した結果である。なお、「ｏｔｈｅｒｓ」は、被験者が「ＣＩ」以外であることを指す。

「第１のスコアによる推定」の行は、上記実施形態において、音響パラメータを特徴量として所定の算出式から算出される第１のスコアのみを用いて疾患又は症状を推定した場合のフレーズ別の正解率である。また、「第２のスコアによる推定」の行は、上記実施形態において、学習済みのＲｅｓＮｅｔから算出される第２のスコアのみを用いて疾患又は症状を推定した場合のフレーズ別の正解率である。

図１７に示されるように、第１のスコアのみを用いた場合よりも第２のスコアを用いた場合の方が、正解率が高いフレーズが多い。また、第１のスコアと第２のスコアとを足し合わせることにより合成された合成スコアを用いた場合には、更に高い正解率となっているフレーズが存在することがわかる。

以下の表に、合成スコアと各閾値とを用いて被験者が「ＣＩ」であるか否かを推定する場合の偽陽性率と陽性率とを示す。また、図１８に、以下の表の数値を用いて作成したＲＯＣ曲線を示す。

図１８を参照すると、学習済みのＲｅｓＮｅｔを用いて第２のスコアを算出しその第２のスコアを用いて疾患又は症状を推定する場合に比べて、合成スコアを用いて疾患又は症状を推定する方が、推定精度が良いことがわかる。

次に、実施例２を説明する。実施例１では被験者が「ＣＩ」であるか否かを推定したが、実施例２では被験者が「ＣＩ」、「ＭＤｓ」、及び「ＣＴＲＬ」の何れに該当するかを推定する。

図１９は、学習済みのＲｅｓＮｅｔにより第２のスコアを算出し、その第２のスコアのみを用いて疾患又は症状を推定した場合の結果である。図２０は、第１実施形態と同様に、第１のスコアと第２のスコアを足し合わせた合成スコアを算出し、その合成スコアを用いて疾患又は症状を推定した場合の結果である。

図２１は、第２実施形態と同様に、第１のスコアと既知のニューラルネットワークを用いて算出した第２のスコアを足し合わせた合成スコアを算出し、その合成スコアを用いて疾患又は症状を推定した場合の結果である。なお、図２１の結果は、第２のスコアを算出する際に、隠れ層が１層であるニューラルネットワークを用いた場合の結果である。

図２２は、第２実施形態と同様に、第１のスコアと既知のニューラルネットワークを用いて算出した第２のスコアを足し合わせた合成スコアを算出し、その合成スコアを用いて疾患又は症状を推定した場合の結果である。なお、図２２の結果は、第２のスコアを算出する際に、隠れ層が２層であるニューラルネットワークを用いた場合の結果である。

図１９〜図２２を参照すると、第２のスコアのみを用いて疾患又は症状を推定するよりも、合成スコアを用いて疾患又は症状を推定する方が、推定精度が良いことがわかる。更に、第１のスコアを算出する際には、ニューラルネットワークを用いた方が、推定精度が良いことがわかる。

以上のような結果から、第１〜第４実施形態の情報処理システムによれば、音声の時系列データから抽出されるパラメータを用いて精神系疾患、神経系疾患又はそれらの症状を推定する場合と比べ、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを精度良く推定することができることがわかる。

なお、本開示の技術は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

なお、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄ
Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。または、プロセッサとしては、ＧＰＧＰＵ（Ｇｅｎｅｒａｌ−ｐｕｒｐｏｓｅｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）を用いてもよい。また、各処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

また、上記各実施形態では、プログラムがストレージに予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の非一時的（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

また、本実施形態の各処理を、汎用演算処理装置及び記憶装置等を備えたコンピュータ又はサーバ等により構成して、各処理がプログラムによって実行されるものとしてもよい。このプログラムは記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。

また、上記実施形態では、第１のスコアと第２のスコアとの和を合成スコアとする場合を例に説明したが、これに限定されるものではない。例えば、第１のスコアと第２のスコアとの重み付け和を合成スコアとするようにしてもよい。

また、上記実施形態では、算出モデルは上記のような線形式又はニューラルネットワークで表される場合を例に説明したが、これに限定されるものではない。算出モデルはその他のモデルであってよく、例えば、ロジスティック回帰の様な非線形結合を用いてもよい。また、学習済みモデルは、ＲｅｓＮｅｔではなく他のモデルであってもよい。

また、上記実施形態の第１のスコアは、ユーザが精神系疾患又は症状を有している度合いを表す第１の精神系疾患又は症状スコア、ユーザが神経系疾患又は症状を有している度合いを表す第１の神経系疾患又は症状スコア、及びユーザが精神系疾患又は症状及び神経系疾患又は症状の何れも有していない度合いを表す第１の健常系スコアの何れか１つを含むようにしてもよい。この場合、第２のスコアは、ユーザが精神系疾患又は症状を有している度合いを表す第２の精神系疾患又は症状スコア、ユーザが神経系疾患又は症状を有している度合いを表す第２の神経系疾患又は症状スコア、及びユーザが精神系疾患又は症状及び神経系疾患又は症状の何れも有していない度合いを表す第２の健常系スコアの何れか１つを含む。そして、合成スコアが算出する際には、第１の精神系疾患又は症状スコアと第２の精神系疾患又は症状スコアとを合成し、第２の精神系疾患又は症状スコアと第１の神経系疾患又は症状スコアとを合成し、第１の健常系スコアと第２の健常系スコアとを合成することにより、合成スコアを算出する。

また、上記各実施形態では、音声データに対応する画像としてスペクトログラム画像を生成する場合を例に説明したが、これに限定されるものではない。音声データに対応する画像であれば、どのような画像であってもよい。例えば、上記図４に示されるような音声データＤの波形そのものを画像化し、その画像を学習済みモデルへ入力して第２のスコアを算出するようにしてもよい。この場合には、例えば、情報処理システムは、音声データから抽出された特徴量を、特徴量から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め学習された第１の学習済みモデルへ入力して、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第１のスコアを算出する。そして、情報処理システムは、音声データから生成された画像を、当該画像から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め学習された第２の学習済みモデルへ入力して、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第２のスコアを算出する。

本明細書に記載された全ての文献、特許出願、および技術規格は、個々の文献、特許出願、および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims

ユーザが発した音声の時系列データである音声データを取得する取得部と、
前記取得部により取得した前記音声データから、所定の音響パラメータである特徴量を抽出する抽出部と、
前記取得部により取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成する生成部と、
前記抽出部により抽出された前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出する第１スコア算出部と、
前記生成部により生成された前記スペクトログラム画像を、前記スペクトログラム画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出する第２スコア算出部と、
前記第１のスコアと前記第２のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出する合成スコア算出部と、
前記合成スコア算出部により算出された前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する推定部と、
を含む情報処理装置。
前記予め設定された算出モデルは、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第１の学習済みモデルであり、
前記スペクトログラム画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された学習済みモデルは、第２の学習済みモデルであり、
前記第１スコア算出部は、前記抽出部により抽出された前記特徴量を、前記第１の学習済みモデルへ入力して、前記第１のスコアを算出し、
前記第２スコア算出部は、前記生成部により生成された前記スペクトログラム画像を、前記第２の学習済みモデルへ入力して、前記第２のスコアを算出する、
請求項１に記載の情報処理装置。
前記合成スコア算出部は、前記第１のスコアと前記第２のスコアとの和に応じて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを算出する、
請求項１に記載の情報処理装置。
前記合成スコア算出部は、前記第１のスコアと前記第２のスコアとの重み付け和に応じて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを算出する、
請求項１に記載の情報処理装置。
前記第１のスコアは、前記ユーザが精神系疾患又は症状を有している度合いを表す第１の精神系疾患又は症状スコア、前記ユーザが神経系疾患又は症状を有している度合いを表す第１の神経系疾患又は症状スコア、及び前記ユーザが精神系疾患又は症状及び神経系疾患又は症状の何れも有していない度合いを表す第１の健常系スコアの何れか１つを含み、
前記第２のスコアは、前記ユーザが精神系疾患又は症状を有している度合いを表す第２の精神系疾患又は症状スコア、前記ユーザが神経系疾患又は症状を有している度合いを表す第２の神経系疾患又は症状スコア、及び前記ユーザが精神系疾患又は症状及び神経系疾患又は症状の何れも有していない度合いを表す第２の健常系スコアの何れか１つを含み、
前記第１の精神系疾患又は症状スコアと前記第２の精神系疾患又は症状スコアとを合成し、
前記第２の精神系疾患又は症状スコアと前記第１の神経系疾患又は症状スコアとを合成し、又は
前記第１の健常系スコアと前記第２の健常系スコアとを合成することにより、
前記合成スコアを算出する、
請求項１〜請求項３の何れか１項に記載の情報処理装置。
ユーザが発した音声の時系列データである音声データを取得する取得部と、
前記取得部により取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成する生成部と、
前記取得部により取得した前記音声データから所定の音響パラメータである特徴量を抽出し、前記生成部により生成された前記スペクトログラム画像から学習済みモデルを用いることにより特徴量を抽出する抽出部と、
前記抽出部により抽出された前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表すスコアを算出するスコア算出部と、
前記スコア算出部により算出された前記スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する推定部と、
を含み、
前記学習済みモデルは、学習用のスペクトログラム画像と該学習用のスペクトログラム画像に対応する前記音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられた教師データにより予め学習された学習済みモデルである、
情報処理装置。
ユーザが発した音声の時系列データである音声データを取得する取得部と、
前記取得部により取得した前記音声データから、所定の音響パラメータである特徴量を抽出する抽出部と、
前記取得部により取得した前記音声データに対応する画像を生成する生成部と、
前記抽出部により抽出された前記特徴量を、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第１の学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出する第１スコア算出部と、
前記生成部により生成された前記画像を、前記画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第２の学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出する第２スコア算出部と、
前記第１のスコアと前記第２のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出する合成スコア算出部と、
前記合成スコア算出部により算出された前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する推定部と、
を含む情報処理装置。
マイクを備えるユーザ端末と、請求項１〜請求項７の何れか１項に記載の情報処理装置とを含む情報処理システムであって、
前記ユーザ端末は、前記マイクにより取得された前記音声データを前記情報処理装置へ送信し、
前記情報処理装置の前記取得部は、前記ユーザ端末から送信された前記音声データを取得し、
前記情報処理装置の通信部は、前記推定部により推定された推定結果をユーザ端末へ送信し、
前記ユーザ端末は、前記情報処理装置から送信された前記推定結果を受信する、
情報処理システム。
ユーザが発した音声の時系列データである音声データを取得し、
前記音声データから、所定の音響パラメータである特徴量を抽出し、
前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成し、
前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出し、
前記スペクトログラム画像を、前記スペクトログラム画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出し、
前記第１のスコアと前記第２のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出し、
前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する、
処理をコンピュータが実行する情報処理方法。
ユーザが発した音声の時系列データである音声データを取得し、
取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成し、
取得した前記音声データから所定の音響パラメータである特徴量を抽出し、生成された前記スペクトログラム画像から学習済みモデルを用いることにより特徴量を抽出し、
抽出された前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表すスコアを算出し、
算出された前記スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定し、
かつ、前記学習済みモデルは、学習用のスペクトログラム画像と該学習用のスペクトログラム画像に対応する前記音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられた教師データにより予め学習された学習済みモデルである、
処理をコンピュータが実行する情報処理方法。
ユーザが発した音声の時系列データである音声データを取得し、
取得した前記音声データから、所定の音響パラメータである特徴量を抽出し、
取得した前記音声データに対応する画像を生成し、
抽出された前記特徴量を、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第１の学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出し、
生成された前記画像を、前記画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第２の学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出し、
前記第１のスコアと前記第２のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出し、
算出された前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する、
処理をコンピュータが実行する情報処理方法。
ユーザが発した音声の時系列データである音声データを取得し、
前記音声データから、所定の音響パラメータである特徴量を抽出し、
前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成し、
前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出し、
前記スペクトログラム画像を、前記スペクトログラム画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出し、
前記第１のスコアと前記第２のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出し、
前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する、
処理をコンピュータに実行させるための情報処理プログラム。
ユーザが発した音声の時系列データである音声データを取得し、
取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成し、
取得した前記音声データから所定の音響パラメータである特徴量を抽出し、生成された前記スペクトログラム画像から学習済みモデルを用いることにより特徴量を抽出し、
抽出された前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表すスコアを算出し、
算出された前記スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定し、
かつ、前記学習済みモデルは、学習用のスペクトログラム画像と該学習用のスペクトログラム画像に対応する前記音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられた教師データにより予め学習された学習済みモデルである、
処理をコンピュータに実行させるための情報処理プログラム。
ユーザが発した音声の時系列データである音声データを取得し、
取得した前記音声データから、所定の音響パラメータである特徴量を抽出し、
取得した前記音声データに対応する画像を生成し、
抽出された前記特徴量を、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第１の学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第１のスコアを算出し、
生成された前記画像を、前記画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第２の学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第２のスコアを算出し、
前記第１のスコアと前記第２のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出し、
算出された前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する、
処理をコンピュータに実行させるための情報処理プログラム。