JP7486208B2 - 疾患予測装置、予測モデル生成装置および疾患予測用プログラム - Google Patents

疾患予測装置、予測モデル生成装置および疾患予測用プログラム Download PDF

Info

Publication number
JP7486208B2
JP7486208B2 JP2021561395A JP2021561395A JP7486208B2 JP 7486208 B2 JP7486208 B2 JP 7486208B2 JP 2021561395 A JP2021561395 A JP 2021561395A JP 2021561395 A JP2021561395 A JP 2021561395A JP 7486208 B2 JP7486208 B2 JP 7486208B2
Authority
JP
Japan
Prior art keywords
matrix
disease
unit
calculation unit
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021561395A
Other languages
English (en)
Other versions
JPWO2021106825A5 (ja
JPWO2021106825A1 (ja
Inventor
泰士郎 岸本
國經 梁
道孝 吉村
桃子 吉村
卓仙 藤田
將 三村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Keio University
Original Assignee
Keio University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Keio University filed Critical Keio University
Publication of JPWO2021106825A1 publication Critical patent/JPWO2021106825A1/ja
Publication of JPWO2021106825A5 publication Critical patent/JPWO2021106825A5/ja
Priority to JP2024071232A priority Critical patent/JP2024097049A/ja
Application granted granted Critical
Publication of JP7486208B2 publication Critical patent/JP7486208B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Description

本発明は、疾患予測装置、予測モデル生成装置および疾患予測用プログラムに関し、特に、被験者が特定の疾患に罹っている可能性や重症度を予測する技術および、この予測に用いる予測モデルを生成する技術に関するものである。
うつ病は、抑うつ気分、意欲・興味・精神活動・食欲の低下、不安・緊張・焦燥感・疲労感の持続、不眠などを特徴とした精神障害であり、精神的ストレスや身体的ストレスが重なることなどによって引き起こされる。早めに治療を始めるほど回復が早いことが知られているので、早期診断および早期治療を心がけることが大切である。うつ病の診断基準については種々のものが提供されているが、機械学習を用いた診断法も提案されている(例えば、特許文献1参照)。
特許文献1に記載のシステムでは、患者から収集されたスピーチパターンから少なくとも1つのスピーチ特徴を算出し、算出したスピーチ特徴の少なくとも一部に基づいて、患者のうつ状態についてのスコアまたは評価を提供する統計モデルを学習し、この統計モデルを用いて患者の精神状態を判別する。この特許文献1には、機械学習に用いるスピーチ特徴の例として、韻律特徴、短いスピーチサンプル(例えば、20ミリ秒長)から算出される低レベル特徴、および長いスピーチサンプル(例えば、発話レベル)から算出さるた高レベル一時的特徴が開示されている。
韻律特徴の具体例として、音声の休止期間、様々な抽出領域に渡るピッチおよびエネルギーの測定値、メル周波数ケプストラム係数(MFCCs:Mel Frequency Cepstral Coefficients)、新規ケプストラム特徴(novel cepstral features)、一時的変動パラメータ(例えば、発声速度、期間内におけるプロミネンス、ピークの分布、ポーズの長さおよび周期、音節期間等)、スピーチ周期性、ピッチ変動、および音声/無音声比が開示されている。
また、低レベル特徴の具体例として、減衰振動ケプストラム係数(DOCC: Damped Oscillator Cepstral Coefficients)、正規化変調ケプストラム係数(NMCCs: Normalized Modulation Cepstral Coefficients)、媒体期間スピーチ振幅(MMeDuSA: Medium Duration Speech Amplitudes)特徴、ガンマトーンケプストラム係数(GCCs: Gammatone Cepstral Coefficients)、ディープTV、音声表音的特徴(Acoustic Phonetic:例えば、フォルマント情報、平均ヒルベルト包絡線、サブ帯域における周期的および非周期的エネルギー等)が開示されている。
さらに、高レベル一時的特徴の具体例として、傾き特徴、Dev特徴、エネルギー等高線特徴(En?con)、ピッチ関連特徴、強度関連特徴が開示されている。
特許文献1に記載のうつ病評価モデルには、一例として3つの分類子(ガウシアンバックエンド(GB:Gaussian Backend)、決定木(DT:Decision Trees)、ニューラルネットワーク(NN:Neural Network)が用いられる。GB分類子を用いる実施形態において、特定の数の特徴(例えば、最良の4つの特徴)が選択され、さらに、システムコンビネーションが患者のスピーチに対して実行される。このようなうつ病評価モデルを用いることにより、典型的な臨床評価よりも正確な予想を提供することが可能とされる。
特表2017-532082号公報
上記特許文献1には、患者のスピーチパターンからいくつかのスピーチ特徴を算出し、これを機械学習済みのうつ病評価モデルに入力することにより、うつ病の可能性を予測できることが記載されている。しかしながら、算出したスピーチ特徴の少なくとも1つを用いることが記載されているのみである。機械学習による予測の精度を上げるためには、使用する特徴量の数を増やすことが1つの方法であるが、単に数を増やすだけでは予測精度の向上に限界がある。
予測精度を更に上げるために、例えば、算出した複数の特徴量を統合的に用いることが考えられる。上記特許文献1においても、正規化相互相関関数を用いることが記載されている(段落[0028]参照)。しかしながら、相互相関は、2つの特徴量についての線形的な相関の分析には有効であるが、非線形な関係を捉えることはできない。うつ病に罹っている患者が話す声は、複数の特徴量が非線形的な関係性を有し、かつそれが非定常的に変化する可能性があるため、特徴量の相互相関を分析するだけでは予測精度を十分に向上させることができないという問題がある。
本発明は、このような問題を解決するために成されたものであり、被験者が特定の疾患に罹っている可能性や重症度の予測精度を向上させることができるようにすることを目的とする。
上記した課題を解決するために、本発明では、時系列に値が変化する一連の時系列データを所定時間単位ごとに分割して分析することにより、複数種類の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出する特徴量算出部と、所定時間単位ごとに時系列に算出された複数種類の音響的特徴量について、複数種類の音響的特徴量ごとに時間軸に沿って設定した所定時間長の移動窓に含まれる複数種類の音響的特徴量どうしの関係値を算出する処理を、移動窓を所定遅延量ずつ遅延させて行うことにより、複数の関係値の組み合わせから成る空間遅延行列を算出する行列算出部と、空間遅延行列に対して所定の演算を行うことにより、空間遅延行列に特有の行列特有データを算出する行列演算部と、行列特有データを学習済みの疾患予測モデルに入力することによって被験者の疾患レベルを予測する疾患予測部とを備え、複数種類の音響的特徴量どうしの関係値として、トレンド除去相互相関解析値または相互情報量の少なくとも一方を算出するようにしている。
上記のように構成した本発明によれば、時系列に値が変化する時系列データから所定時間単位ごとに算出された複数種類の特徴量をもとに、トレンド除去相互相関解析値または相互情報量から成る関係値を算出しているので、特徴量どうしの非線形的かつ非定常的な関係性を反映した関係値を得て、その関係値に基づいて被験者の疾患レベルを予測することができる。これにより、複数種類の特徴量の関係性が時間の経過と共に非線形的かつ非定常的に変化する被験者の時系列データを用いて、被験者の疾患レベル(特定の疾患に罹っている可能性や重症度など)をより高精度に予測することができる。
第1の実施形態による予測モデル生成装置の機能構成例を示すブロック図である。 第1の実施形態による疾患予測装置の機能構成例を示すブロック図である。 第1の実施形態の行列算出部による空間遅延行列の算出内容を説明するための図である。 第1の実施形態の行列算出部による空間遅延行列の算出内容を説明するための図である。 第2の実施形態による予測モデル生成装置の機能構成例を示すブロック図である。 第2の実施形態による疾患予測装置の機能構成例を示すブロック図である。 第2の実施形態のテンソル生成部により生成される3次元テンソルの一例を示す図である。
(第1の実施形態)
以下、本発明の第1の実施形態を図面に基づいて説明する。図1は、第1の実施形態による予測モデル生成装置10の機能構成例を示すブロック図である。第1の実施形態による予測モデル生成装置10は、被験者が特定の疾患に罹っている可能性または罹患している場合の重症度を予測するための疾患予測モデルを生成するものである。疾患予測モデルの生成は、機械学習を用いて行う。第1の実施形態では一例として、うつ病に罹っている可能性または重症度を予測するための疾患予測モデルを生成するものとする。
図1に示すように、第1の実施形態による予測モデル生成装置10は、機能構成として、学習用データ入力部11、特徴量算出部12、行列算出部13、行列分解部14(行列演算部に相当)および予測モデル生成部15を備えている。これらの機能ブロック11~15は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、各機能ブロック11~15は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶された疾患予測用プログラムが動作することによって実現される。
学習用データ入力部11は、うつ病の疾患レベルが既知である複数人の対象者が他者との間で行った一連の会話音声のデータ(時系列に値が変化する時系列データの一例)を学習用データとして入力する。ここでいう「対象者」とは、うつ病に罹患している患者および罹患していない健常者であり、このような対象者が会話を行う「他者」とは、例えば医師である。
疾患レベルとは、対象者が罹患しているうつ病の重症度に対応する値であり、うつ病に関して一般的に重症度の尺度として用いられている「うつ病重症度評価尺度」に対応した値である。うつ病重症度評価尺度は、例えば、専門家面接によるハミルトンうつ病評価尺度(HAM-D:Hamilton Depression Rating Scale)、16項目の自己記入式の評価尺度で評価される簡易抑うつ症状尺度(QIDS-J:Quick Inventory of Depressive Symptomatology)、アメリカ精神医学会の診断基準DSM-IV(The Diagnostic and Statistical Manual of Mental Disorders)などである。
うつ病に罹患している患者については、事前の医師による診断または自己診断によって、上述したうつ病重症度評価尺度に基づきうつ病の重症度が特定されており、当該重症度に応じた疾患レベルが正解ラベルとして会話音声のデータに付与されている。また、うつ病に罹患していない健常者については、最低値の疾患レベル(ゼロ値であってもよい)が正解ラベルとして会話音声のデータに付与されている。なお、会話音声のデータに正解ラベルが付与されているというのは、正解ラベルのデータが会話音声のデータと共に一体的に構成されているという意味では必ずしもなく、会話音声のデータと正解ラベルのデータとが別のデータとして存在し、互いが関連付けられているものであってもよい。
会話音声のデータは、対象者が医師との間で行った自由会話を録音した音声データのうち、対象者の発話音声のみを抽出した音声データある。対象者と医師との間の自由会話は、例えば、5~10分程度の問診形式で行う。すなわち、医師が対象者に対して質問し、対象者がその質問に対して答えるといった形式の会話を繰り返し行う。そして、そのときの会話をマイクより入力して録音し、公知の話者認識技術を用い、一連の会話音声から対象者および医師の音響的特徴を抽出した上で、その音響的特徴の違いに基づいて対象者の発話部分の音声データを抽出する。
この場合において、医師の音声を事前に録音してその音響的特徴を記憶しておいて、対象者と医師との間で行われる一連の会話音声のうち、記憶した音響的特徴またはそれに近い特徴を有する音声部分を医師による発話音声として認識し、それ以外の音声部分を対象者による発話音声の音声データとして抽出するようにしてもよい。また、会話音声に基づいて話者認識を行う際に、雑音や反響音などのノイズを除去して話者音声のみを抽出するノイズ除去処理その他の前処理を行うようにしてもよい。
なお、対象者と医師との会話音声から対象者の音声データを抽出する方法はこれに限定されない。例えば、対象者と医師とが電話を通じて会話を行う場合や、ネットワークを通じて端末とサーバとが接続されてなる遠隔医療システムなどを通じて会話を行う場合などでは、対象者が使用する電話機または端末から入力される音声を録音することにより、対象者の音声データを簡単に取得することが可能である。
特徴量算出部12は、学習用データ入力部11により入力された会話音声のデータ(対象者の発話音声の音声データ)を分析することにより、複数種類の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出する。所定時間単位は、対象者の会話音声を短く分割した個々の時間単位をいい、例えば数十ミリ秒から数秒程度の時間が所定時間単位として用いられる。すなわち、特徴量算出部12は、対象者の会話音声を所定時間単位ごとに区切って分析し、それぞれの所定時間単位から複数種類の音響的特徴量を算出することにより、複数種類の音響的特徴量に関する時系列情報を得る。
ここで算出する音響的特徴量は、上述した話者認識の際に抽出する音響的特徴とは異なるものであってよい。特徴量算出部12は、例えば、対象者の声の強さ、基本周波数、ケプストラムピークプロミネンス(CPP)、フォルマント周波数、メル周波数ケプストラム係数(MFCC)のうち少なくとも2つ以上を算出する。これらの音響的特徴量は、うつ病に罹っている患者に特有の特徴が現れる可能性があるものである。具体的には、以下の通りである。
・声の強さ:うつ病患者の場合は低くなる傾向がある。
・基本周波数:抑うつに罹患している患者の場合は、より低く、かつ一定時間内における最小周期区間の繰り返し回数がより少なくなる傾向がある。
・CPP:声門における息切れの特性を表す特徴量であり、うつ病患者に生じることのある発声障害の重症度の測定値として使用されている。
・フォルマント周波数:音声スペクトルにおいて時間的に移動している複数のピークであり、周波数の低い順に第1フォルマント、第2フォルマント、・・・、第Nフォルマントという。フォルマント周波数は声道の形状と関係し、抑うつとフォルマント周波数の音量との間には相関があることが知られている。
・MFCC:声道特性を表す特徴量であり、重症度の異なるうつ病患者における筋肉制御の喪失の程度の間接的指標となり得るものである。
行列算出部13は、特徴量算出部12により所定時間単位ごとに時系列に算出された複数種類の音響的特徴量について、所定時間長の移動窓に含まれる複数種類の音響的特徴量どうしの関係値を算出する処理を、移動窓を所定遅延量ずつ遅延させて行うことにより、複数の関係値の組み合わせから成る空間遅延行列を算出する。ここで、行列算出部13は、複数種類の音響的特徴量どうしの関係値として、トレンド除去相互相関解析(DCCA:Detrended Cross-Correlation Analysis)による解析値(以下、DCCA係数という)または相互情報量の少なくとも一方を算出する。少なくとも一方とは、DCCA係数を個々の行列要素とする空間遅延行列を算出してもよいし、相互情報量を個々の行列要素とする空間遅延行列を算出してもよいし、その両方を算出してもよいという意味である。
トレンド除去相互相関解析は、フラクタル解析の一種であり、時系列データに含まれる線形関係のトレンドを差分操作によって除去した上で相互相関を解析する手法である。線形関係のトレンドを除去して分析することにより、複数の音響的特徴量どうしの非線形的かつ非定常的な関係性を分析することが可能である。すなわち、複数の音響的特徴量どうしの非線形的な関係性で、かつそれが時間の経過と共に変動し得る非定常的な関係性を、DCCA係数の時系列情報によって表すことが可能である。
相互情報量は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量であり、2つの音響的特徴量が共有する情報量の尺度と言える。例えば、一方の音響的特徴量が特定された場合に、もう一方の音響的特徴量をどれだけの確度で推測できるようになるかを示すものであり、例えば2つの音響的特徴量が完全に独立したものである場合、相互情報量はゼロとなる。言い換えると、相互情報量は、2つの音響的特徴量がどの程度、線形的または非線形的な関係性を有しているかを表す指標であると言え、相互情報量の時系列情報によって、複数の音響的特徴量どうしの非線形的かつ非定常的な関係性を表すことが可能である。
以下に、図3および図4を用いて、行列算出部13による空間遅延行列の算出内容を説明する。ここでは説明を簡単にするため、2つの音響的特徴量X,Yから空間遅延行列を算出する例について説明する。
いま、特徴量算出部12により所定時間単位ごとに時系列に算出された第1の音響的特徴量Xと、所定時間単位ごとに時系列に算出された第2の音響的特徴量Yとを次の(式1)および(式2)のように表す。
X=[x,x,・・・,x] ・・・(式1)
Y=[y,y,・・・,y] ・・・(式2)
,x,・・・,xは、T個の所定時間単位ごとに算出された第1の音響的特徴量Xの時系列情報である。y,y,・・・,yは、T個の所定時間単位ごとに算出された第2の音響的特徴量Yの時系列情報である。
図3(a)は、T=8とした場合に、2つの音響的特徴量X,Yを時系列に並べて示したものであり、上から下の方向に時間が経過している。T=8というのは、対象者の会話音声(一連の会話の中の1回の発話音声であってもよいし、全ての発話音声であってもよい)の全区間を8個に分割したことを意味する。行列算出部13は、図3(a)のように配列される2つの音響的特徴量X,Yの時系列情報に対して、所定時間長の移動窓を所定遅延量ずつ遅延させて順次設定する。図3に示す例では、所定遅延量δは固定長の値であり、δ=2に設定されている。また、所定時間長pは移動窓を設定するごとに変わる可変長の値であり、p=2,4,6,8(δ=2の整数倍の値)である。
図4は、可変設定される複数の移動窓に含まれる2つの音響的特徴量X,Yどうしの関係値をそれぞれ算出して行列表現したものである。図4の例では、4×4の正方行列を空間遅延行列として算出している。すなわち、図3(a)の時系列情報に対して16個の移動窓を設定して、それぞれの移動窓から2つの音響的特徴量X,Yどうしの関係値をそれぞれ算出した結果が、図4に示す空間遅延行列となる。上述したように、2つの音響的特徴量X,Yどうしの関係値は、DCCA係数または相互情報量の少なくとも一方であり、この関係値を求める演算をf(X,Y)で表すものとする。
本実施形態では、空間遅延行列の16個の要素(m,n)における関係値Amn(m=1,2,3,4、n=1,2,3,4)を、次の(式3)に示す演算によって算出するようにしている。
mn=f(Xm,Yn) ・・・(式3)
m=[x1+(m-1)*δ,x1+(m-1)*δ+1,x1+(m-1)*δ+2,・・・,x1+(m-1)*δ+(p-1)]
n=[y1+(n-1)*δ,y1+(n-1)*δ+1,y1+(n-1)*δ+2,・・・,y1+(n-1)*δ+(p-1)]
(m=n=1のときp=8、1<m,n≦2のときp=6、2<m,n≦3のときp=4、3<m,n≦4のときp=2)
図3(b)は、図4に示す空間遅延行列の要素(1,1)の位置における関係値A11を(式3)に基づいて算出する際に設定される移動窓(太枠部分)を示している。すなわち、要素(1,1)の関係値A11を算出する場合、(式3)においてm=1,n=1,δ=2,p=8として図3(b)のような移動窓を設定し、この移動窓に含まれる以下の音響的特徴量X1,Y1を用いて関係値A11=f(X1,Y1)を算出する。
1=[x1,x2,x3,x4,x5,x6,x7,x8]
1=[y1,y2,y3,y4,y5,y6,y7,y8]
図3(c)は、図4に示す空間遅延行列の要素(1,2)の位置における関係値A12を(式3)に基づいて算出する際に設定される移動窓(太枠部分)を示している。すなわち、要素(1,2)の関係値A12を算出する場合、(式3)においてm=1,n=2,δ=2,p=6として図3(c)のような移動窓を設定し、この移動窓に含まれる以下の音響的特徴量X1,Y2を用いて関係値A12=f(X1,Y2)を算出する。
1=[x1,x2,x3,x4,x5,x6]
2=[y3,y4,y5,y6,y7,y8]
図3(d)は、図4に示す空間遅延行列の要素(2,1)の位置における関係値A21を(式3)に基づいて算出する際に設定される移動窓(太枠部分)を示している。すなわち、要素(2,1)の関係値A21を算出する場合、(式3)においてm=2,n=1,δ=2,p=6として図3(d)のような移動窓を設定し、この移動窓に含まれる以下の音響的特徴量X2,Y1を用いて関係値A21=f(X2,Y1)を算出する。
2=[x3,x4,x5,x6,x7,x8]
1=[y1,y2,y3,y4,y5,y6]
図3(e)は、図4に示す空間遅延行列の要素(4,4)の位置における関係値A44を(式3)に基づいて算出する際に設定される移動窓(太枠部分)を示している。すなわち、要素(4,4)の関係値A44を算出する場合、(式3)においてm=4,n=4,δ=2,p=2として図3(e)のような移動窓を設定し、この移動窓に含まれる以下の音響的特徴量X4,Y4を用いて関係値A44=f(X4,Y4)を算出する。
4=[x7,x8]
4=[y7,y8]
行列分解部14は、行列算出部13により算出された空間遅延行列に対して分解演算を行うことにより、空間遅延行列に特有の行列特有データとして、行列分解値を算出する。行列分解部14は、分解演算の一例として固有値分解を行い、空間遅延行列に特有の固有値を算出する。なお、分解演算として、対角化、特異値分解、ジョルダン分解その他の演算を行うようにしてもよい。
以上のように特徴量算出部12、行列算出部13および行列分解部14により算出される固有値は、対象者の会話音声から抽出される複数種類の音響的特徴量の時系列情報に関して、非線形的および非定常的な関係性を反映した固有のスカラ値であると言える。本実施形態では、学習用データ入力部11により入力された複数人の会話音声のデータのそれぞれについて、特徴量算出部12、行列算出部13および行列分解部14の処理を行うことによって複数人分の固有値を得る。そして、その固有値を予測モデル生成部15に入力して機械学習処理を行うことにより、疾患予測モデルを生成する。
予測モデル生成部15は、行列分解部14により算出された複数人分の固有値および会話音声のデータに正解ラベルとして付与されている疾患レベルの情報を用いて、被験者に関する固有値が入力された際に被験者の疾患レベルを出力するための疾患予測モデルを生成する。ここでいう被験者とは、うつ病に罹患しているか否か、罹患している場合の重症度が未知の者である。疾患予測モデルは、例えばニューラルネットワーク(パーセプトロン、畳み込みニューラルネットワーク、再起型ニューラルネットワーク、残差ネットワーク、RBFネットワーク、確率的ニューラルネットワーク、スパイキングニューラルネットワーク、複素ニューラルネットワークなどの何れでもよい)を活用した機械学習に基づく予測モデルである。
すなわち、予測モデル生成部15は、対象者の会話音声から算出された固有値と、それに対する疾患レベルの正解データとを含む複数人分のデータセットを学習用データとしてニューラルネットワークに与えて機械学習することにより、ある対象者の固有値が入力された際にそれに対応する正解としての疾患レベルが高い確率で出力されやすくなるように、ニューラルネットワークの各種パラメータを調整する。そして、予測モデル生成部15は、生成した疾患予測モデルを予測モデル記憶部100に記憶させる。
なお、ここではニューラルネットワークによる予測モデルを用いる例について説明したが、これに限定されるものではない。例えば、予測モデルの形態は、回帰モデル(ロジスティック回帰、サポートベクターマシーンなどをベースとする予測モデル)、木モデル(決定木、ランダムフォレスト、勾配ブースティング木などをベースとする予測モデル)、ベイズモデル(ベイズ推論などをベースとする予測モデル)、クラスタリングモデル(k近傍法、階層型クラスタリング、非階層型クラスタリング、トピックモデルなどをベースとする予測モデル)などのうち何れかとすることも可能である。ここに挙げた予測モデルは一例に過ぎず、これに限定されるものではない。
図2は、第1の実施形態による疾患予測装置20の機能構成例を示すブロック図である。第1の実施形態による疾患予測装置20は、図1に示した予測モデル生成装置10により生成された疾患予測モデルを用いて、被験者がうつ病に罹っている可能性または罹患している場合の重症度を予測するものである。
図2に示すように、第1の実施形態による疾患予測装置20は、機能構成として、予測対象データ入力部21、特徴量算出部22、行列算出部23、行列分解部24および疾患予測部25を備えている。これらの機能ブロック21~25は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、各機能ブロック21~25は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶された疾患予測用プログラムが動作することによって実現される。
予測対象データ入力部21は、うつ病に罹っている可能性または罹患している場合の重症度が未知の被験者が他者(医師)との間で行った一連の会話音声のデータを予測対象データとして入力する。予測対象データ入力部21が入力する会話音声のデータは、学習用データ入力部11が入力する会話音声のデータと同様であり、被験者の発話音声の音声データである。
特徴量算出部22、行列算出部23および行列分解部24は、予測対象データ入力部21により入力された会話音声のデータ(被験者の発話部分の音声データ)に対して、図1に示した特徴量算出部12、行列算出部13および行列分解部14と同様の処理を実行する。これにより、特定の被験者の会話音声から抽出される複数種類の音響的特徴量の時系列情報に関して、非線形的および非定常的な関係性を反映した行列分解値(例えば、固有値)を算出する。
疾患予測部25は、行列分解部24により算出された固有値を、予測モデル記憶部100に記憶されている学習済みの疾患予測モデルに入力することにより、被験者の疾患レベルを予測する。上述したように、予測モデル記憶部100に記憶された疾患予測モデルは、固有値が入力された際に被験者の疾患レベルを出力するように、学習用データを用いた機械学習処理によって予測モデル生成装置10により生成されている。
以上詳しく説明したように、第1の実施形態では、会話音声のデータから音響的特徴量を抽出して機械学習を行い、これにより生成される疾患予測モデルに基づいて被験者の疾患レベルを予測するに際して、複数種類の音響的特徴量どうしの関係値を用いた空間遅延行列を算出し、さらに空間遅延行列から行列分解値を算出してこれを疾患予測モデルの入力値として用いるようにしている。特に、第1の実施形態では、複数種類の音響的特徴量どうしの関係値として、DCCA係数または相互情報量の少なくとも一方に関する関係値を算出するようにしている。
このように構成した第1の実施形態によれば、時系列に値が変化する会話音声のデータから所定時間単位ごとに算出された複数種類の音響的特徴量の時系列情報をもとに、DCCA係数または相互情報量から成る関係値を算出しているので、非線形的かつ非定常的な関係性を反映した関係値を得て、その関係値に基づいて被験者の疾患レベルを予測することができる。これにより、複数種類の音響的特徴量の関係性が時間の経過と共に非線形的かつ非定常的に変化する被験者の会話音声のデータを用いて、被験者の疾患レベル(特定の疾患に罹っている可能性や重症度など)をより高精度に予測することができる。
なお、上記第1の実施形態では、図1に示す予測モデル生成装置10と図2に示す疾患予測装置20とを別装置として構成する例について説明したが、本発明はこれに限定されない。例えば、図1に示す機能ブロック11~14と図2に示す機能ブロック21~24とは基本的に同様の処理を行うものなので、これらを1つにまとめて、疾患予測モデルを生成する機能と疾患レベルを予測する機能とを備えた1つの装置として構成するようにしてもよい。これは、後に述べる第2の実施形態についても同様である。
また、上記第1の実施形態において、図1に示す機能ブロック11~15のうち一部を端末装置が備える一方、残りの一部をサーバ装置が備え、端末装置とサーバ装置とが協働して疾患予測モデルを生成するようにしてもよい。同様に、図2に示す機能ブロック21~25のうち一部を端末装置が備える一方、残りの一部をサーバ装置が備え、端末装置とサーバ装置とが協働して疾患レベルを予測するようにしてもよい。これは、後に述べる第2の実施形態についても同様である。
また、上記第1の実施形態では説明を簡単にするため、2つの音響的特徴量X,Yから1つの空間遅延行列を算出し、当該1つの空間遅延行列から行列分解値を算出する例について説明したが、3つ以上の音響的特徴量の組み合わせから2つ以上の空間遅延行列を算出し、当該2つ以上の空間遅延行列からそれぞれ行列分解値を算出するようにしてもよい。例えば、3つの音響的特徴量X,Y,Zを用いる場合、音響的特徴量X,Yの組み合わせから第1の空間遅延行列を算出し、音響的特徴量X,Zの組み合わせから第2の空間遅延行列を算出し、音響的特徴量Y,Zの組み合わせから第3の空間遅延行列を算出した上で、3つの空間遅延行列からそれぞれ行列分解値を算出するようにしてもよい。音響的特徴量の様々な組み合わせに基づいて固有値を算出することにより、疾患予測モデルの入力値として使用するパラメータの数を増やし、予測の精度を上げることが可能である。
(第2の実施形態)
次に、本発明の第2の実施形態を図面に基づいて説明する。図5は、第2の実施形態による予測モデル生成装置10’の機能構成例を示すブロック図である。第2の実施形態による予測モデル生成装置10’も、被験者が特定の疾患に罹っている可能性または罹患している場合の重症度を予測するための疾患予測モデルを生成するものである。
図5において、図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。図5に示すように、第2の施形態による予測モデル生成装置10’は、図1に示した行列算出部13、行列分解部14および予測モデル生成部15に代えて、行列算出部13’、テンソル生成部16(行列演算部に相当)および予測モデル生成部15’を備えている。
行列算出部13’は、特徴量算出部12により所定時間単位ごとに時系列に算出された複数種類の特徴量どうしの関係値(トレンド除去相互相関解析値または相互情報量)を算出する処理を、特徴量の組み合わせを変えてそれぞれ行うことにより、同じ行数および同じ列数から成る複数の空間遅延行列を算出する。
例えば、行列算出部13’は、第1フォルマント周波数(F1)、第2フォルマント周波数(F2)、ケプストラムピークプロミネンス(CPP)および強度(I)の4つの特徴量を用いて、F1とF2との関係値を示した空間遅延行列、F1とCPPとの関係値を示した空間遅延行列、F1とIとの関係値を示した空間遅延行列、F2とCPPとの関係値を示した空間遅延行列、F2とIとの関係値を示した空間遅延行列、CPPとIとの関係値を示した空間遅延行列を算出する。これら6つの空間遅延行列は、同じ行数および同じ列数から成る同次元の空間遅延行列である。ここでは、4つの特徴量F1,F2,CPP,Iから何れか2つを選んで得られる全ての組み合わせについて空間遅延行列を算出する例を示したが、一部の組み合わせについて空間遅延行列を算出するようにしてもよい。
別の例として、行列算出部13’は、複数個のメル周波数ケプストラム係数(MFCC)から何れか2つを選んで得られる全てまたは一部の組み合わせについて、MFCCどうしの関係値を示した複数の空間遅延行列を算出するようにしてもよい。この場合に生成される複数の空間遅延行列は、同じ行数および同じ列数から成る同次元の空間遅延行列である。4つの特徴量F1,F2,CPP,Iから何れか2つを選んで得られる全てまたは一部の組み合わせと、複数個のMFCCから何れか2つを選んで得られる全てまたは一部の組み合わせとの両方について、複数の空間遅延行列を算出するようにしてもよい。
さらに、行列算出部13’は、以上のようにして算出した複数の空間遅延行列(以下、オリジナルの空間遅延行列という)どうしの差分を演算することにより、1以上の差分系列の空間遅延行列を算出するようにしてもよい。例えば、複数のオリジナルの空間遅延行列をM1,M2,M3,M4,M5,M6で表記するとき、1以上の差分系列の空間遅延行列とは、M2-M1,M3-M2,M4-M3,M5-M4,M6-M5などの差分演算によって求められるものである。
ここで、行列算出部13’は、複数のオリジナルの空間遅延行列どうしの差分を演算することによって複数の1次差分系列の空間遅延行列を算出するとともに、当該複数の1次差分系列の空間遅延行列どうしの差分を演算することによって1以上の2次差分系列の空間遅延行列を算出するようにしてもよい。以上に例示したM2-M1,M3-M2,M4-M3,M5-M4,M6-M5が複数の1次差分系列の空間遅延行列である。2次差分系列の空間遅延行列とは、例えば(M3-M2)-(M2-M1),(M4-M3)-(M3-M2),(M5-M4)-(M4-M3),(M6-M5)-(M5-M4)などの差分演算によって求められるものである。さらに、3次以上の差分系列の空間遅延行列を算出するようにしてもよい。
テンソル生成部16は、行列算出部13’により算出された複数の空間遅延行列を用いて、空間遅延行列に特有の行列特有データとして、複数種類の特徴量どうしの関係値(トレンド除去相互相関解析値または相互情報量)の3次元テンソルを生成する。行列算出部13’が差分系列の空間遅延行列を算出している場合、テンソル生成部16は、行列算出部13’により算出された複数のオリジナルの空間遅延行列および1以上の差分系列の空間遅延行列を用いて3次元テンソルを生成する。
図7は、第2の実施形態のテンソル生成部16により生成される3次元テンソル(i,j,k)の一例を示す図である。図7に示す例では、テンソル生成部16は、第1の3次元テンソル71および第2の3次元テンソル72を生成している。第1の3次元テンソル71は、例えば、4つの特徴量F1,F2,CPP,Iから算出される複数の空間遅延行列(オリジナルの空間遅延行列および差分系列の空間遅延行列)711,712,713,・・・をスタックすることによって生成される。何れの空間遅延行列もn行×m列の行列である。第2の3次元テンソル72は、例えば、複数のMFCCから算出される複数の空間遅延行列(オリジナルの空間遅延行列および差分系列の空間遅延行列)721,722,723,・・・をスタックすることによって生成される。何れの空間遅延行列もn行×m列の行列である。なお、図7に示した3次元テンソルは一例であり、これに限定されるものではない。
予測モデル生成部15’は、テンソル生成部16により生成された関係値の3次元テンソルおよび会話音声のデータに正解ラベルとして付与されている疾患レベルの情報を用いて、被験者に関する関係値の3次元テンソルが入力された際に被験者の疾患レベルを出力するための疾患予測モデルを生成する。
すなわち、予測モデル生成部15’は、対象者(特定の疾患に罹患している患者および罹患していない健常者)の会話音声から算出された関係値の3次元テンソルと、それに対する疾患レベルの正解データとを含む複数人分のデータセットを学習用データとしてニューラルネットワークに与えて機械学習することにより、ある対象者の3次元テンソルが入力された際にそれに対応する正解としての疾患レベルが高い確率で出力されやすくなるように、ニューラルネットワークの各種パラメータを調整する。そして、予測モデル生成部15’は、生成した疾患予測モデルを予測モデル記憶部100に記憶させる。
図6は、第2の実施形態による疾患予測装置20’の機能構成例を示すブロック図である。第2の実施形態による疾患予測装置20’は、図5に示した予測モデル生成装置10’により生成された疾患予測モデルを用いて、被験者が特定の疾患に罹っている可能性または罹患している場合の重症度を予測するものである。この図6において、図2に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
図6に示すように、第2の実施形態による疾患予測装置20’は、図2に示した行列算出部23、行列分解部24および疾患予測部25に代えて、行列算出部23’、テンソル生成部26および疾患予測部25’を備えている。
特徴量算出部22、行列算出部23’、テンソル生成部26は、予測対象データ入力部21により入力された会話音声のデータ(被験者の発話部分の音声データ)に対して、図5に示した特徴量算出部12、行列算出部13’およびテンソル生成部16と同様の処理を実行する。これにより、特定の被験者の会話音声から抽出される複数種類の音響的特徴量の時系列情報に関して、非線形的および非定常的な関係性を反映した関係値を要素とする3次元テンソルを生成する。
疾患予測部25’は、テンソル生成部26により算出された関係値の3次元テンソルを、予測モデル記憶部100に記憶されている学習済みの疾患予測モデルに入力することにより、被験者の疾患レベルを予測する。上述したように、予測モデル記憶部100に記憶された疾患予測モデルは、3次元テンソルが入力された際に被験者の疾患レベルを出力するように、学習用データを用いた機械学習処理によって予測モデル生成装置10’により生成されている。
以上詳しく説明したように、第2の実施形態では、特徴量どうしの非線形的および非定常的な関係性を反映した複数の関係値を要素とする空間遅延行列そのものを3次元テンソルという形態で疾患予測モデルに入力するようにしている。すなわち、空間遅延行列からスカラ値である固有値を算出して疾患予測モデルに入力する第1の実施形態と異なり、情報量を圧縮していない空間遅延行列を疾患予測モデルの入力として使用するようにしている。これにより、被験者が特定の疾患に罹っている可能性や重症度の予測精度をより向上させることができる。
なお、ここでは3次元テンソル(特許請求の範囲のN=3のケース)を生成する例について説明したが、Nは1、2または4以上の値であってもよい。N=2の場合、第1の実施形態と同様の処理によって生成される1つの空間遅延行列が2次元テンソルに相当する。N=1の場合、1つの空間遅延行列において、mまたはnの何れかの値が1である空間遅延行列が1次元テンソルに相当する。
上記第1および第2の実施形態では、対象者または被験者と医師との問診形式による自由会話を録音して会話音声のデータを得る例について説明したが、本発明はこれに限定されない。例えば、対象者または被験者が日常生活の中で行っている自由会話を録音し、その音声データを用いて上記実施形態で説明した処理を行うようにしてもよい。
また、上記第1および第2の実施形態では、うつ病の疾患レベルを予測する例について説明したが、本発明はこれに限定されない。例えば、睡眠困難、不安の精神的症状、不安の身体的症状、精神運動抑制、興味の減退など、被験者のうつ状態のさまざまな側面に関する個々の項目ごとに疾患レベルを予測するようにしてもよい。
また、上記第1および第2の実施形態において、被験者の疾患レベルの予測を定期的または非定期的に繰り返し行うことにより、うつ状態の改善または悪化の状況を捉えるようにしてもよい。
また、上記第1および第2の実施形態では、音響的特徴量として、声の強さ、基本周波数、CPP、フォルマント周波数、MFCCのうち少なくとも2つ以上を算出する例について説明したが、これらは一例であり、これ以外の音響的特徴量を算出するようにしてもよい。
また、上記第1および第2の実施形態では、所定遅延量をδ=2の固定長とする例について説明したが、本発明はこれに限定されない。すなわち、所定遅延量を可変長として空間遅延行列を算出することにより、空間遅延行列から算出する固有値のバリエーションを更に増やすようにしてもよい。
また、上記第1および第2の実施形態では、会話音声のデータを分析することによって疾患レベルの予測を行う例について説明したが、時系列に値が変化するデータであれば、DCCA係数または相互情報量の少なくとも一方を用いた空間遅延行列を算出して行列分解値を求めることに関して有効である。
例えば、人の顔を撮影した動画データを分析し、人の顔に特有の複数種類の特徴量を抽出して、DCCA係数または相互情報量の少なくとも一方から成る関係値を個々の行列要素とする空間遅延行列を算出することが可能である。顔に関する特徴量として、例えば、所定時間単位での表情(無表情、喜び、驚き、怒り、悲しみ)の割合、強さ、平均持続時間、次の表情に移行する可能性などを用いることが可能である。また、顔に関する別の特徴量として、瞬目に関するもの、例えば左と右の瞬きのタイミング、時間差などを用いることも可能である。
また、時系列に値が変化するデータの別の例として、人の身体(例えば、頭、胸、肩、腕など)の動きを撮影した動画データを用いることも可能である。なお、人の身体の動きを捉えた時系列データは、動画データである必然性はない。例えば、加速度センサや赤外線センサなどにより検出される時系列データであってもよい。
また、会話音声の音声データから抽出した音響的特徴量、動画データから抽出した表情や瞬目に関する特徴量、動画データまたはセンサデータなどから抽出した体動に関する特徴量をマルチモーダルパラメータとして使用して、空間遅延行列の算出および行列分解値の算出を行い、得られた行列分解値を用いて疾患レベルの予測を行うようにしてもよい。
また、上記第1および第2の実施形態では、音響的特徴量どうしの関係値としてDCCA係数または相互情報量の少なくとも一方を用いる例について説明したが、これしか用いてはいけないという趣旨ではなく、これ以外の関係値を併用するようにしてもよい。例えば、2つの事象どうしの線形的な関係性を捉えることに有効な相互相関の相関係数を更に算出し、これも加えて空間遅延行列を算出するようにすることも可能である。より具体的には、上述のようにマルチモーダルパラメータを使用する場合において、DCCA係数または相互情報量の少なくとも一方を用いて関係値を算出する特徴量と、相互相関の相関係数またはそれ以外の係数を用いて関係値を算出する特徴量とを使い分けるようにしてもよい。
また、上記第1および第2の実施形態では、疾患の一例としてうつ病の疾患レベルを予測する例について説明したが、予測可能な疾患はこれに限定されない。例えば、認知症、不眠症、注意欠陥・多動性障害(ADHD:Attention-deficit hyperactivity disorder)、統合失調症、心的外傷後ストレス障害(PTSD:Post Traumatic Stress Disorder)その他の神経・精神障害に関する疾患の予測を行うことも可能である。
その他、上記第1および第2の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
10,10’ 予測モデル生成装置
11 学習用データ入力部
12 特徴量算出部
13,13’ 行列算出部
14 行列分解部(行列演算部)
15,15’ 予測モデル生成部
16 テンソル生成部(行列演算部)
20,20’ 疾患予測装置
21 予測対象データ入力部
22 特徴量算出部
23,23’ 行列算出部
24 行列分解部(行列演算部)
25,25’ 疾患予測部
26 テンソル生成部(行列演算部)
100 予測モデル記憶部

Claims (17)

  1. 時系列に値が変化する一連の時系列データを所定時間単位ごとに分割して分析することにより、複数種類の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出する特徴量算出部と、
    上記特徴量算出部により所定時間単位ごとに時系列に算出された上記複数種類の音響的特徴量について、上記複数種類の音響的特徴量ごとに時間軸に沿って設定した所定時間長の移動窓に含まれる複数種類の音響的特徴量どうしの関係値として、トレンド除去相互相関解析値または相互情報量の少なくとも一方を算出する処理を、上記移動窓を所定遅延量ずつ遅延させて行うことにより、複数の関係値の組み合わせから成る空間遅延行列を算出する行列算出部と、
    上記行列算出部により算出された上記空間遅延行列に対して所定の演算を行うことにより、上記空間遅延行列に特有の行列特有データを算出する行列演算部と、
    上記行列演算部により算出された上記行列特有データを学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する疾患予測部とを備え、
    上記疾患予測モデルは、上記行列特有データが入力された際に上記被験者の疾患レベルを出力するように、学習用データを用いた機械学習処理により生成されている
    ことを特徴とする疾患予測装置。
  2. 上記行列演算部は、上記行列算出部により算出された上記空間遅延行列に対して分解演算を行うことにより、上記空間遅延行列に特有の行列分解値を算出する行列分解部を含み、
    上記疾患予測部は、上記行列分解部により算出された上記行列分解値を上記学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する
    ことを特徴とする請求項1に記載の疾患予測装置。
  3. 上記行列演算部は、上記行列算出部により算出された1以上の上記空間遅延行列を用いて、上記関係値のN次元テンソル(N≧1)を生成するテンソル生成部を含み、
    上記疾患予測部は、上記テンソル生成部により生成された上記N次元テンソルを上記学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する
    ことを特徴とする請求項1に記載の疾患予測装置。
  4. 上記行列算出部は、上記関係値を算出する処理を上記音響的特徴量の組み合わせを変えてそれぞれ行うことにより、同じ行数および同じ列数から成る複数の空間遅延行列を算出し、
    上記テンソル生成部は、上記行列算出部により算出された上記複数の空間遅延行列を用いて、上記関係値の3次元テンソルを生成し、
    上記疾患予測部は、上記テンソル生成部により生成された上記3次元テンソルを上記学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する
    ことを特徴とする請求項3に記載の疾患予測装置。
  5. 上記行列算出部は、上記関係値を算出する処理を上記音響的特徴量の組み合わせを変えてそれぞれ行うことにより、同じ行数および同じ列数から成る複数のオリジナルの空間遅延行列を算出するとともに、当該複数のオリジナルの空間遅延行列どうしの差分を演算することによって1以上の差分系列の空間遅延行列を算出し、
    上記テンソル生成部は、上記行列算出部により算出された上記複数のオリジナルの空間遅延行列および上記1以上の差分系列の空間遅延行列を用いて上記3次元テンソルを生成する
    ことを特徴とする請求項4に記載の疾患予測装置。
  6. 上記行列算出部は、上記複数のオリジナルの空間遅延行列どうしの差分を演算することによって複数の1次差分系列の空間遅延行列を算出するとともに、上記複数の1次差分系列の空間遅延行列どうしの差分を演算することによって1以上の2次差分系列の空間遅延行列を算出することを特徴とする請求項5に記載の疾患予測装置。
  7. 上記特徴量算出部は、上記被験者と他者との一連の会話音声のデータを分析することにより、上記被験者による発話音声に関する複数種類の音響的特徴量を算出することを特徴とする請求項1~6の何れか1項に記載の疾患予測装置。
  8. 上記特徴量算出部は、上記被験者の声の強さ、基本周波数、ケプストラムピークプロミネンス(CPP)、フォルマント周波数、メル周波数ケプストラム係数(MFCC)のうち少なくとも2つ以上を算出することを特徴とする請求項7に記載の疾患予測装置。
  9. 上記特徴量算出部は、3種類以上の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出することを特徴とする請求項1に記載の疾患予測装置。
  10. 上記特徴量算出部は、上記被験者と他者との一連の会話音声に係る時系列データを分析することにより、上記被験者による発話音声に関する複数種類の音響的特徴量として、上記被験者の声の強さ、基本周波数、ケプストラムピークプロミネンス(CPP)、フォルマント周波数、メル周波数ケプストラム係数(MFCC)のうち少なくとも3種類以上を算出することを特徴とする請求項9に記載の疾患予測装置。
  11. 上記行列算出部は、上記3種類以上の音響的特徴量の組み合わせから2つ以上の空間遅延行列を算出し、
    上記行列演算部は、上記2つ以上の空間遅延行列からそれぞれ特有の上記行列特有データを算出する
    ことを特徴とする請求項9または10に記載の疾患予測装置。
  12. 疾患レベルが既知である複数人の対象者に関して取得された、時系列に値が変化する一連の時系列データを学習用データとして入力する学習用データ入力部と、
    上記学習用データ入力部により入力された上記一連の時系列データを所定時間単位ごとに分割して分析することにより、複数種類の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出する特徴量算出部と、
    上記特徴量算出部により所定時間単位ごとに時系列に算出された上記複数種類の音響的特徴量について、上記複数種類の音響的特徴量ごとに時間軸に沿って設定した所定時間長の移動窓に含まれる複数種類の音響的特徴量どうしの関係値として、トレンド除去相互相関解析値または相互情報量の少なくとも一方を算出する処理を、上記移動窓を所定遅延量ずつ遅延させて行うことにより、複数の関係値の組み合わせから成る空間遅延行列を算出する行列算出部と、
    上記行列算出部により算出された上記空間遅延行列に対して所定の演算を行うことにより、上記空間遅延行列に特有の行列特有データを算出する行列演算部と、
    上記行列演算部により算出された上記行列特有データを用いて、被験者に関する行列特有データが入力された際に上記被験者の疾患レベルを出力するための疾患予測モデルを生成する予測モデル生成部とを備え、
    上記学習用データ入力部により入力された複数人の時系列データのそれぞれについて、上記特徴量算出部、上記行列算出部および上記行列演算部の処理を行い、複数人の特有データを上記予測モデル生成部に入力して機械学習処理を行うことにより、上記疾患予測モデルを生成することを特徴とする予測モデル生成装置。
  13. 上記行列演算部は、上記行列算出部により算出された上記空間遅延行列に対して分解演算を行うことにより、上記空間遅延行列に特有の行列分解値を算出する行列分解部を含み、
    上記予測モデル生成部は、上記行列分解部により算出された上記行列分解値を用いて、被験者に関する行列分解値が入力された際に上記被験者の疾患レベルを出力するための疾患予測モデルを生成する
    ことを特徴とする請求項12に記載の予測モデル生成装置。
  14. 上記行列演算部は、上記行列算出部により算出された1以上の上記空間遅延行列を用いて、上記関係値のN次元テンソル(N≧1)を生成するテンソル生成部を含み、
    上記予測モデル生成部は、上記テンソル生成部により生成された上記N次元テンソルを用いて、被験者に関する3次元テンソルが入力された際に上記被験者の疾患レベルを出力するための疾患予測モデルを生成する
    ことを特徴とする請求項12に記載の予測モデル生成装置。
  15. 時系列に値が変化する一連の時系列データを所定時間単位ごとに分割して分析することにより、複数種類の音響的特徴量をそれぞれ所定時間単位ごとに時系列に算出する特徴量算出手段、
    上記特徴量算出手段により所定時間単位ごとに時系列に算出された上記複数種類の音響的特徴量について、上記複数種類の音響的特徴量ごとに時間軸に沿って設定した所定時間長の移動窓に含まれる複数種類の音響的特徴量どうしの関係値として、トレンド除去相互相関解析値または相互情報量の少なくとも一方を算出する処理を、上記移動窓を所定遅延量ずつ遅延させて行うことにより、複数の関係値の組み合わせから成る空間遅延行列を算出する行列算出手段、
    上記行列算出手段により算出された上記空間遅延行列に対して所定の演算を行うことにより、上記空間遅延行列に特有の行列特有データを算出する行列演算手段、および
    上記行列演算手段により算出された上記行列特有データを、上記行列特有データが入力された際に被験者の疾患レベルを出力するように学習用データを用いた機械学習処理により生成されている学習済みの疾患予測モデルに入力し、上記被験者の疾患レベルを予測する疾患予測手段
    としてコンピュータを機能させるための疾患予測用プログラム。
  16. 上記行列演算手段は、上記行列算出手段により算出された上記空間遅延行列に対して分解演算を行うことにより、上記空間遅延行列に特有の行列分解値を算出する行列分解手段を含み、
    上記疾患予測手段は、上記行列分解手段により算出された上記行列分解値を上記学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する
    ことを特徴とする請求項15に記載の疾患予測用プログラム。
  17. 上記行列演算手段は、上記行列算出手段により算出された1以上の上記空間遅延行列を用いて、上記関係値のN次元テンソル(N≧1)を生成するテンソル生成手段を含み、
    上記疾患予測手段は、上記テンソル生成手段により生成された上記N次元テンソルを上記学習済みの疾患予測モデルに入力し、被験者の疾患レベルを予測する
    ことを特徴とする請求項15に記載の疾患予測用プログラム。
JP2021561395A 2019-11-25 2020-11-24 疾患予測装置、予測モデル生成装置および疾患予測用プログラム Active JP7486208B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024071232A JP2024097049A (ja) 2019-11-25 2024-04-25 疾患予測装置、予測モデル生成装置および疾患予測用プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019212031 2019-11-25
JP2019212031 2019-11-25
PCT/JP2020/043563 WO2021106825A1 (ja) 2019-11-25 2020-11-24 疾患予測装置、予測モデル生成装置および疾患予測用プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024071232A Division JP2024097049A (ja) 2019-11-25 2024-04-25 疾患予測装置、予測モデル生成装置および疾患予測用プログラム

Publications (3)

Publication Number Publication Date
JPWO2021106825A1 JPWO2021106825A1 (ja) 2021-06-03
JPWO2021106825A5 JPWO2021106825A5 (ja) 2023-11-01
JP7486208B2 true JP7486208B2 (ja) 2024-05-17

Family

ID=76128893

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021561395A Active JP7486208B2 (ja) 2019-11-25 2020-11-24 疾患予測装置、予測モデル生成装置および疾患予測用プログラム
JP2024071232A Pending JP2024097049A (ja) 2019-11-25 2024-04-25 疾患予測装置、予測モデル生成装置および疾患予測用プログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024071232A Pending JP2024097049A (ja) 2019-11-25 2024-04-25 疾患予測装置、予測モデル生成装置および疾患予測用プログラム

Country Status (4)

Country Link
US (1) US20230005624A1 (ja)
EP (1) EP4068303A4 (ja)
JP (2) JP7486208B2 (ja)
WO (1) WO2021106825A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002306492A (ja) 2001-04-16 2002-10-22 Electronic Navigation Research Institute カオス論的ヒューマンファクタ評価装置
WO2002087434A1 (fr) 2001-04-25 2002-11-07 Bio-Complex System Research Institute Procede d'evaluation de l'efficacite d'un etat biologique et d'une action modifiant un etat biologique, appareil et systeme d'evaluation, programme d'evaluation et support d'enregistrement dudit programme
JP2004240394A (ja) 2002-12-12 2004-08-26 Sense It Smart Corp 話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9763617B2 (en) * 2011-08-02 2017-09-19 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
CA2928005C (en) * 2013-10-20 2023-09-12 Massachusetts Institute Of Technology Using correlation structure of speech dynamics to detect neurological changes
EP3160334B1 (en) 2014-08-22 2021-12-01 SRI International Speech-based assessment of a patient's state-of-mind

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002306492A (ja) 2001-04-16 2002-10-22 Electronic Navigation Research Institute カオス論的ヒューマンファクタ評価装置
WO2002087434A1 (fr) 2001-04-25 2002-11-07 Bio-Complex System Research Institute Procede d'evaluation de l'efficacite d'un etat biologique et d'une action modifiant un etat biologique, appareil et systeme d'evaluation, programme d'evaluation et support d'enregistrement dudit programme
JP2004240394A (ja) 2002-12-12 2004-08-26 Sense It Smart Corp 話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラム

Also Published As

Publication number Publication date
US20230005624A1 (en) 2023-01-05
WO2021106825A1 (ja) 2021-06-03
JP2024097049A (ja) 2024-07-17
EP4068303A1 (en) 2022-10-05
JPWO2021106825A1 (ja) 2021-06-03
EP4068303A4 (en) 2023-12-27

Similar Documents

Publication Publication Date Title
Narendra et al. The detection of Parkinson's disease from speech using voice source information
EP3762942B1 (en) System and method for generating diagnostic health information using deep learning and sound understanding
Muzammel et al. End-to-end multimodal clinical depression recognition using deep neural networks: A comparative analysis
Daqrouq et al. Speaker identification using vowels features through a combined method of formants, wavelets, and neural network classifiers
WO2020102223A2 (en) Intelligent health monitoring
Goyal et al. A hybrid approach for Parkinson’s disease diagnosis with resonance and time-frequency based features from speech signals
Korzekwa et al. Interpretable deep learning model for the detection and reconstruction of dysarthric speech
Tsai et al. Embedding stacked bottleneck vocal features in a LSTM architecture for automatic pain level classification during emergency triage
Mendoza et al. Classification of vocal aging using parameters extracted from the glottal signal
Quatieri et al. Multimodal biomarkers to discriminate cognitive state
Almaghrabi et al. Bio-acoustic features of depression: A review
Aversano et al. A machine learning approach for early detection of parkinson’s disease using acoustic traces
Majda-Zdancewicz et al. Deep learning vs feature engineering in the assessment of voice signals for diagnosis in Parkinson’s disease
Nishikawa et al. Machine learning model for discrimination of mild dementia patients using acoustic features
Singh et al. Forensic anthropometry from voice: an articulatory-phonetic approach
Pérez-Toro et al. Transferring quantified emotion knowledge for the detection of depression in Alzheimer’s disease using forestnets
Benayad et al. Features selection by genetic algorithm optimization with k-nearest neighbour and learning ensemble to predict Parkinson disease
JP7486208B2 (ja) 疾患予測装置、予測モデル生成装置および疾患予測用プログラム
Kodali et al. Automatic classification of the severity level of Parkinson’s disease: A comparison of speaking tasks, features, and classifiers
Raju et al. AUTOMATIC SPEECH RECOGNITION SYSTEM USING MFCC-BASED LPC APPROACH WITH BACK PROPAGATED ARTIFICIAL NEURAL NETWORKS.
Singhal et al. Voice signal-based disease diagnosis using iot and learning algorithms for healthcare
Akshay et al. Identification of Parkinson disease patients classification using feed forward technique based on speech signals
Almaloglou et al. Design and validation of a new diagnostic tool for the differentiation of pathological voices in parkinsonian patients
Jenei et al. Severity estimation of depression using convolutional neural network
Miliaresi et al. A deep multimodal voice pathology classifier with electroglottographic signal processing capabilities

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220518

A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20220518

AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231024

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231024

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20231024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240425

R150 Certificate of patent or registration of utility model

Ref document number: 7486208

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150