JP2004240394A - 話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラム - Google Patents
話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラム Download PDFInfo
- Publication number
- JP2004240394A JP2004240394A JP2003182824A JP2003182824A JP2004240394A JP 2004240394 A JP2004240394 A JP 2004240394A JP 2003182824 A JP2003182824 A JP 2003182824A JP 2003182824 A JP2003182824 A JP 2003182824A JP 2004240394 A JP2004240394 A JP 2004240394A
- Authority
- JP
- Japan
- Prior art keywords
- speaker voice
- voice
- analysis
- user
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
【課題】ユーザが自分の健康状態をいつでも好きな場所で簡単にチェックできるようにする。
【解決手段】ユーザの携帯電話1a,1bより入力した話者音声をCTIサーバ5およびDBサーバ6を通じてデータベース7に録音し、当該録音した話者音声を解析サーバ8にてカオス解析してユーザの疲労度を表す特徴量を求め、その解析結果を、WEBサーバ4を通じて携帯電話1a,1bに提示するようにすることにより、ユーザが任意の場所で携帯電話1a,1bを利用して声を録音するだけで、これまでは曖昧な表現でしか表せなかった「疲労度」を、明確な数値として提供できるようにする。
【選択図】 図1
【解決手段】ユーザの携帯電話1a,1bより入力した話者音声をCTIサーバ5およびDBサーバ6を通じてデータベース7に録音し、当該録音した話者音声を解析サーバ8にてカオス解析してユーザの疲労度を表す特徴量を求め、その解析結果を、WEBサーバ4を通じて携帯電話1a,1bに提示するようにすることにより、ユーザが任意の場所で携帯電話1a,1bを利用して声を録音するだけで、これまでは曖昧な表現でしか表せなかった「疲労度」を、明確な数値として提供できるようにする。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラムに関し、特に、パターン認識を得意とするニューラルネットワークを使用して、日々不規則的に変化するユーザの音声のゆらぎを解析し、健康や精神の状態を数値として算出する方式に関するものである。
【0002】
【従来の技術】
近年は健康志向ブームである。折から様々な健康関連商品が市販され、多くの人が以前にも増して自分の健康に気を遣うようになっている。ところで、半健康状態の原因の多くは、現代社会に蔓延するストレスによると云われている。大人に限らず、青少年にもストレスが溜まっており、それに起因する病気も多い。
【0003】
このような中、自分の健康状態を自身でチェックする努力が成されている。そのための計測装置として、体重計、体脂肪率計、血圧計、脈拍計などが提供されている。
【0004】
【発明が解決しようとする課題】
しかしながら、体重計や体脂肪率計などは比較的簡単に使用できるものの、これが置かれている家庭内で使用できるのみで、外出先などでいつでも自由に計測することができないという問題があった。また、この計測値だけでそのときの健康状態を把握するのは実質的に不可能であるという問題もあった。
【0005】
また、血圧計や脈拍計にいたっては、いつでもどこでも自由に計測することができないばかりでなく、計測するためには収納場所から装置を取り出してバンドを腕に巻き、スイッチを入れてから暫くの時間待たなければならず、取り扱いが非常に面倒であるという問題もあった。
【0006】
本発明は、このような問題を解決するために成されたものであり、自分の健康状態をいつでも好きな場所で簡単にチェックできるようにすることを目的としている。
【0007】
【課題を解決するための手段】
本発明の話者音声解析システムは、サーバ装置とクライアント装置とがネットワークを介して接続可能に構成されたシステムであって、上記サーバ装置は、上記クライアント装置より入力されたユーザの話者音声を当該クライアント装置から上記ネットワークを介して取得する話者音声取得手段と、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備え、上記クライアント装置は、上記ユーザの話者音声を入力する音声入力手段と、上記音声入力手段により入力された上記話者音声を上記サーバ装置に向けて提供する話者音声提供手段と、上記解析結果提供手段により上記サーバ装置から提供された上記解析結果を取得して出力する解析結果取得および出力手段とを備えたことを特徴とする。
【0008】
本発明の他の態様では、上記話者音声解析手段は、上記話者音声取得手段により取得した上記話者音声をもとに、音声のカオス性特徴量である状態ベクトルを算出する特徴量算出手段と、上記特徴量算出手段により求められた状態ベクトルを入力し、当該状態ベクトルと複数の係数とを用いたニューラルネットワーク演算を行うことにより、上記ユーザの健康状態や精神状態等を表す指標値を求めるニューラルネットワーク演算手段とを備えて構成されることを特徴とする。
【0009】
本発明の他の態様では、上記ユーザの健康状態や精神状態等を表す指標値に関する目標値を算出する目標値算出手段と、上記状態ベクトルが上記ニューラルネットワークの入力に与えられたときの上記ニューラルネットワークの出力値と、上記目標値算出手段により求められた目標値との誤差を最小化することによって、上記ニューラルネットワーク内の複数の係数を最適化させる学習手段とを備えたことを特徴とする。
【0010】
本発明の他の態様では、上記目標値算出手段は、フリッカー試験および被験者が自身で疲労の具合をアンケート形式で答える調査の結果得られるデータ値を利用して所定の演算を行うことにより、疲労度の目標値を算出することを特徴とする。
【0011】
また、本発明のサーバ装置は、クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段と、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備えたことを特徴とする。
【0012】
また、本発明による話者音声の解析を利用した健康診断方法は、クライアント装置にてユーザの話者音声を入力してネットワークを介してサーバ装置に送信する話者音声送信ステップと、上記話者音声送信ステップで送信された上記話者音声を上記サーバ装置が受信する話者音声受信ステップと、上記話者音声受信ステップで受信した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析ステップと、上記話者音声解析ステップで解析された結果を上記クライアント装置に向けて提供する解析結果提供ステップと、上記解析結果提供ステップで提供された解析結果を上記クライアント装置が取得して出力する解析結果出力ステップとを有することを特徴とする。
【0013】
また、本発明の話者音声解析プログラムは、クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段、および上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段、としてコンピュータを機能させるためのものである。
【0014】
【発明の実施の形態】
以下、本発明の一実施形態を図面に基づいて説明する。
図1は、本実施形態による話者音声解析システムの全体構成例を示すブロック図である。
【0015】
図1において、1a,1bはユーザが使用する携帯電話であり、通話機能やインターネット接続機能を備えている。2aは携帯電話パケット網、2bはインターネット、2cは公衆回線網である。3はファイアウォール機能を備えたルータ、4はWEBサーバ、5はCTI(Computer Telephony Integration)サーバ、6はDBサーバ、7はデータベース(DB)、8は解析サーバである。
【0016】
WEBサーバ4は、ユーザに対するインタフェースとしてWWWブラウザ画面を携帯電話1a,1bに提供し、当該ブラウザ画面を通じて携帯電話1a,1bから必要な情報を取得したり、話者音声の解析結果を出力したりする。WWWブラウザ画面を通じて取得する情報の中には、ユーザの個人情報(氏名、メールアドレス、携帯電話番号、性別等の基本情報の他、生年月日、血液型、出身地、体調、性格、パスワード等の追加情報を含む)、種々のメニュー操作情報がある。
【0017】
CTIサーバ5は、携帯電話1a,1bのダイヤル操作に合わせて、あらかじめ録音してある音声を自動的に再生し、当該音声による自動応答を行って携帯電話1a,1bから必要な情報を取得する。ここで取得する情報は、ユーザの話者音声である。この話者音声は、どのような言葉を発したものであっても良いが、例えば2〜10秒程度の音声を取得するものとする。好ましくは、予備実験をして、音声のゆらぎ(カオス性)を抽出しやすい言葉を特定し、その言葉を発するようにする。
【0018】
上述のWEBサーバ4によって携帯電話1a,1bに提供されるブラウザ画面上には、ユーザがCTIサーバ5に対して簡単に電話をかけることができるように、“<a href=“tel:電話番号”>”というタグがHTMLにて記述されている。ユーザがブラウザ画面上で“TEL”というリンクを選択すると、携帯電話1a,1bが自動的にCTIサーバ5に電話をかけるようになっている。CTIサーバ5はこの自動コール機能によりかけられてきた電話の自動着信を行う。その後、音声による自動応答を行うことによってユーザの声を録音し、DBサーバ6を通じてデータベース7に登録する。
【0019】
DBサーバ6は、WEBサーバ4、CTIサーバ5および解析サーバ8の各サーバ間で共有される情報の管理を行う。例えば、WEBサーバ4およびCTIサーバ5を通じて携帯電話1a,1bから取得したデータ(個人情報データ、話者音声データ等)や、解析サーバ8により行われた話者音声の解析結果をデータベース7に保存する。また、携帯電話1a,1bからの要求に応じて、上述の解析結果をデータベース7から取り出してWEBサーバ4に提供する。
【0020】
解析サーバ8は、CTIサーバ5からの解析要求を監視し、要求検出時に所定の解析処理を実行する。すなわち、解析サーバ8は、CTIサーバ5から解析要求のあった話者音声をデータベース7より読み込み、これをカオス解析する。そして、その解析結果をDBサーバ6に供給してデータベース7に保存する。このカオス解析の詳細については後述する。
【0021】
上記ルータ3、WEBサーバ4、CTIサーバ5、DBサーバ6、データベース7および解析サーバ8により本実施形態のサーバ装置10が構成される。このサーバ装置10を構成するそれぞれのサーバは、実際にはコンピュータのCPUあるいはMPU、RAM、ROMなどを備えて構成され、RAMやROMに記憶されたプログラムが動作することによって実現できる。
【0022】
したがって、コンピュータが本実施形態の機能を果たすように動作させるプログラムを例えばCD−ROMのような記録媒体に記録し、コンピュータに読み込ませることによって実現できるものである。上記プログラムを記録する記録媒体としては、CD−ROM以外に、フレキシブルディスク、ハードディスク、磁気テープ、光ディスク、光磁気ディスク、DVD、不揮発性メモリカード等を用いることができる。また、上記プログラムをインターネット2b等のネットワークを介してコンピュータにダウンロードすることによっても実現できる。
【0023】
また、本実施形態によるサーバ装置10の機能をネットワーク環境で実現するべく、全部あるいは一部のプログラムが他のコンピュータで実行されるようになっていても良い。
【0024】
また、コンピュータが供給されたプログラムを実行することにより本実施形態の機能が実現されるだけでなく、そのプログラムがコンピュータにおいて稼働しているOS(オペレーティングシステム)あるいは他のアプリケーションソフト等と共同して本実施形態の機能が実現される場合や、供給されたプログラムの処理の全てあるいは一部がコンピュータの機能拡張ボードや機能拡張ユニットにより行われて本実施形態の機能が実現される場合も、かかるプログラムは本実施形態に含まれる。
【0025】
次に、上記のように構成した本実施形態による話者音声解析システムの動作について説明する。図2は、当該解析システムの全体的な動作を示すシーケンスフローチャートである。図2に示すように、最初にユーザは、携帯電話1a,1bからWEBサーバ4にアクセスし、これによって提供されるブラウザ画面上でメニュー操作をして、お疲れ診断サイトに入る(ステップS1)。
【0026】
図3は、携帯電話1a,1bに表示されるメニュー画面の例を示す図である。図3(a)に示すトップメニューにおいて、“最新情報”または“受診受付”の項目を選択し、更にメニュー操作を続けていくと、“診断”という項目(図示せず)が現れる。この項目を選択することにより、図3(b)のような画面が表示され、自己チェックを開始する準備ができる。
【0027】
次に、図3(b)の画面上でユーザが“電話をする”の項目を選択すると(ステップS2)、これに応じて携帯電話1a,1bがCTIサーバ5に対して自動的に電話をかける(ステップS3)。CTIサーバ5は、WEBサーバ4の自動コール機能によりかけられてきた電話を自動で着信すると、携帯電話1a,1bに対して音声による自動応答を行うことにより、ユーザに音声の録音を促す(ステップS4)。
【0028】
ユーザは、CTIサーバ5により行われる音声ガイダンスに従って自分の声を入力した後、“#”のボタンを押下する。これによりCTIサーバ5は、ユーザの話者音声を取得し、これをデータベース7に保存する(ステップS5)。そして、携帯電話1a,1bに録音終了メッセージを出力して携帯電話1a,1bとの回線を切断する(ステップS6)。
【0029】
図4は、上記ステップS4〜S6の処理内容を詳細に示すフローチャートである。図4において、CTIサーバ5は、携帯電話1a,1bからの着信があったかどうかを監視しており(ステップS11)、着信があると、まずは冒頭メッセージ(“あなたの声を登録してチェックを行います。ガイダンスに従って操作して下さい。”など)を出力する(ステップS12)。
【0030】
次にCTIサーバ5は、“発信音の後に音声を登録し、#を押して下さい。”などのメッセージを流すことにより、ユーザに音声の録音を要求する(ステップS13)。これに応じてユーザは、自分の声を入力した後、“#”のボタンを押下することによって音声を録音する(ステップS14)。次に、CTIサーバ5は、録音された音声を再生し(ステップS15)、その内容で良いかどうかをユーザに確かめる(ステップS16)。
【0031】
例えば、内容が良ければ“#”、内容を変更する場合は“9”のプッシュボタンを押すようにメッセージを流す。そして、“9”のプッシュボタンが押されたときにはステップS13に戻り、音声の録音をやり直す。また、“#”のプッシュボタンが押されたときは、“音声を登録しました。”などの終了メッセージを出力した後(ステップS17)、回線を切断する(ステップS18)。
【0032】
図2に戻り、以上のようにして話者音声の録音が完了すると、次にCTIサーバ5は、録音した話者音声の解析を解析サーバ8に対して要求する(ステップS7)。この解析要求を受信した解析サーバ8は、後で詳述するカオス解析処理を行って、その解析結果をデータベース7に保存する(ステップS8)。その後、ユーザは、WEBサーバ4にアクセスして携帯電話1a,1bのメニュー画面から“診断結果表示”の項目を選択すると、WEBサーバ4は要求された解析結果をデータベース7から取り出して表示する(ステップS9)。
【0033】
図5および図6は、解析サーバ8の動作を示すフローチャートである。このうち図5は解析サーバ8のメイン動作を示すフローチャート、図6はカオス解析処理の詳細動作を示すフローチャートである。図5において、最初に電源が投入されると、解析サーバ8は、システム情報設定などの所定の初期化処理を行う(ステップS21)。
【0034】
次に、解析サーバ8は、本処理終了チェックを行い(ステップS22)、終了要求があったかどうかを判断する(ステップS23)。終了要求がない場合はカオス解析処理を行う(ステップS24)。その後一定時間スリープ状態になった後(ステップS25)、ステップS22に戻る。一方、本処理終了要求があった場合は、所定の後処理を行って(ステップS26)、本処理を終了する。
【0035】
上記ステップS24のカオス解析処理は、図6のフローチャートに従って行われる。図6において、解析サーバ8は、解析要求チェックを行い(ステップS31)、CTIサーバ5からの解析要求があったかどうかを判断する(ステップS32)。解析要求がない場合はそのままカオス解析処理を抜ける。一方、解析要求があった場合は、データベース7に録音されている話者音声のデータから解析データを抽出する(ステップS33)。
【0036】
この解析データの抽出は、以下のようにして行う。すなわち、まず、データベース7に録音されている音声の時系列データから、あらかじめ指定されたサンプル点数分のデータを、無音部除去処理のために時系列の中央部から抽出する。例えば、音声時系列データの絶対値の最大値を求め、ある1点から20点連続でデータ値が先に求めた最大値の5分の1(20%)未満の場合は、それらの点を省略する。また、1点でも最大値の5分の1(20%)以上のデータがあった場合は、その20点の中間点を出力データとする。全音声時系列データの中央部から、この出力データをあらかじめ指定されたサンプル点数分抽出する。
【0037】
時系列の解析データを抽出した後、解析サーバ8は、その時系列データをカオス計算し、話者音声の特徴量を求める(ステップS34)。このカオス計算では、最初にリアプノフ指数(L)、エントロピー(E)、F−constant(F)の3つのパラメータを計算し、計算した各パラメータをニューラルネットワークプログラムに入力することにより、話者音声の時系列データを数値化する。
【0038】
リアプノフ指数とは、xn+1=f(xn)で表される力学系において、接近した2点から出発した2つの軌跡に関する時間n→∞での乖離度を意味し、次の(式1)で定義される。ここで、Nは再構成ベクトルの総数である。
【0039】
【数1】
【0040】
また、エントロピーとは、系の不規則性の定量的な目安あるいは系の状態を指定するのに必要な情報量を意味し、次の(式2)で定義される。ここでは、ある測定の結果が必ず単位区間上にあるような仮想的な統計系を考え、この区間をN個の小区間に分割する。そして、i番目の小区間が可能な結果のうちのある特定の範囲を含むならば、それに確立Piを割り当てることができる。分かりやすく表現すると、エントロピーが小さいほど整理されて、利用価値が高い情報量であり、エントロピーが大きいほど乱れていて、役に立たない情報量と言える。
【0041】
【数2】
【0042】
また、フラクタル次元とは、通常の次元の概念を非整数の領域まで拡張したもので、ヒグチフラクタル次元、ハウスドルフ(Hausdorff)次元、相関次元等が提案されている。このうちヒグチフラクタル次元は、時系列波形を1次元の幾何構造とみなしたときの形状的な複雑さの程度を意味し、構造が複雑、すなわち、変動が大きいほど大きな値をとる。
【0043】
このヒグチフラクタル次元の計算アルゴリズムでは、等時間間隔でサンプリングされた時系列データX(1),X(2),・・・,X(N)を入力データとする。まず、この入力された時系列データから、次の(式3)で示すような新しい時系列データXm kを作る。ここで、mは初期時間、kは時間間隔であり、[ ]はガウス記号を表す((N−m)/kを超えない整数値)。
【0044】
【数3】
【0045】
このアルゴリズムによれば、結局、k組の時系列データを作ることになる。例えば、k=3、N=100の場合は、
X1 3:X(1),X(4),X(7),・・・,X(97),X(100)
X2 3:X(2),X(5),X(8),・・・,X(98)
X3 3:X(3),X(6),X(9),・・・,X(99)
の3組の時系列データを生成する。
【0046】
次に、時系列データXm kの曲線の長さLm(k)を、次の(式4)のように定義する。ここで、(N−1)/{[(N−m)/k]・k}の項は、時系列の曲線の長さを標準化するための係数である。
【0047】
【数4】
【0048】
k組の時系列データXm kについて求めた曲線の長さLm(k)の平均を<L(k)>とし、これを時間間隔kの曲線の長さと定義する。もし、<L(k)>∝k−Dの関係が成り立てば、Dがフラクタル次元となる。すなわち、横軸をlog10k、縦軸をlog10<L(k)>として点をプロットして直線部分の傾きを求め、これに−1をかけた値がヒグチフラクタル次元となる。
【0049】
F−constantは、ヒグチフラクタル次元の計算結果について、横軸log10kが10以下と10以上とで分離して傾きを求めてD1,D2とし、F−constant=(D2+D1)/(D2−D1)の式によって求める。すなわち、D1はミクロな時間スケールにおけるフラクタル次元、D2はマクロな時間スケールにおけるフラクタル次元となる。このようにF−constantは、小さなスケールと大きなスケールのフラクタル次元の関係を表す。
【0050】
従来、人は一定の状態を維持していることが健康であると考えられてきた。しかし、最近の研究では、一定の状態を保つのではなく、適度な「ゆらぎ」があった方がより健康的であり、外的要因に対して適応力があることが分かっている(ホメオダイナミクス)。そこで、本実施形態では、携帯電話1a,1bで録音した声からその人の「ゆらぎ」特有のデータ(リアプノフ指数、エントロピー、F−constant)を抽出し、これをニューラルネットワークにより解析してその人の疲労度を数値によって表現する。
【0051】
図7は、本実施形態によるニューラルネットワーク演算の例を示す図である。図7に示すように、本実施形態のニューラルネットワークは、入力層1つ、中間層2つおよび出力層1つからなる4層構造を有している。入力層に音声のカオス性特徴量である状態ベクトル(L,E,F)を入力し、中間層の各層間を結ぶ結線の重み係数を変更していくことで、出力層から適当な数値を出力する。
【0052】
そして、出力された複数の数値A−1〜A−3のうち値が最も大きなものを、ユーザの疲労度を表す数値Aとして決定する。この疲労度を表す数値Aは0〜1の間で正規化されたものであり、これに基づいてユーザの疲労度が、例えば図8に示すように0〜100の何れかの値で表される。なお、図7では説明の簡便上、第1中間層は4個、第2中間層は3個、出力層は3個のノードのみを示しているが、各層においてより多くのノード(例えば、第1中間層、第2中間層、出力層の何れも100個)を含むように階層構造を構成しても良い。
【0053】
図7の例で、ニューラルネットワーク内の演算にはシグモイド関数を使用する。なお、ここで用いる層間結線の係数の初期データとしては、例えばシステムの運用前に50〜100人程度の被験者に対して事前テストを行い、その結果に応じて算出した適当な値を運用前にシステムに登録する。以下に、この事前テストの詳細について説明する。
【0054】
事前テストでは、まず、被験者に対してフリッカー試験を行うとともに、疲労度についての自覚症しらべ(被験者が自身で疲労の具合をアンケート形式で答える調査)を行う。フリッカー試験とは、被験者に不連続の点滅光を直視させて、点滅の周波数を徐々に変化させる。そして、被験者がその点滅光のちらつきを感じ始めたとき、あるいは感じなくなったときの点滅の周波数を測定する試験である。
【0055】
例えば、点滅の周波数を徐々に上げていった場合、これを見ている被験者は、そのうち点滅が感じられなくなっていく。点滅が感じられなくなったときの点滅の周波数をフリッカー値として得る。逆に、点滅の周波数を徐々に下げていき、これを見ている被験者が光のちらつきを感じ始めたときの点滅の周波数をフリッカー値として得ても良い。
【0056】
フリッカー値は、精神疲労や中枢神経系の覚醒水準の指標として用いられる。値が小さくなるほど疲れているという評価ができる。得られるフリッカー値をより客観性のあるものとするために、フリッカー試験を複数回行って、フリッカー値の平均をとるのが好ましい。ちなみに、個人差はあるが、疲労があまりない通常時のフリッカー値の平均は38Hzくらいだと言われている。
【0057】
また、自覚症しらべは、被験者自身がそのときに感じる自覚的疲労度を調査するためのアンケート調査であり、日本産業衛生学会により作成されている。アンケート内容は、次の5つの項目群に分けられる。
I群 眠気感:ねむい、あくびが出る、やる気が乏しい、全身がだるい、等
II群 不安感:不安な感じ、憂鬱な気分、落ち着かない、いらいらする、等
III群 不快感:頭が痛い、頭が重い、気分が悪い、頭がぼんやりする、等
IV群 だるさ感:腕がだるい、腰が痛い、足がだるい、肩がこる、等
V群 ぼやけ感:目がしょぼつく、目が疲れる、目が乾く、物がぼやける、等
【0058】
被験者は、これら5つの項目群ごとに設けられた複数の質問に対して、感じる程度に応じて1〜5のレベルで回答する。そして、5つの項目群ごとにスコアの平均値を求め、項目群別に疲労状況を評価する。スコアが大きくなるほど疲れているという評価ができる。
【0059】
以上に説明したフリッカー値および自覚症しらべのスコアは何れも、疲労度を評価する指標として信頼性のあるものである。本実施形態では、これらの指標を用いて更に客観的な疲労度値を得るために、次の(式5)に基づいて、被験者の疲労度を表した数値(0〜100の何れかの値をとる)を算出する。
疲労度=−フリッカー平均値+0.5×I群平均スコア+0.5×II群平均スコア+4×III群平均スコア+0.5×IV群平均スコア+0.5×V群平均スコア+25 ・・・(式5)
なお、この(式5)は単なる例示であり、本発明はこの演算内容に限定されるものではない。
【0060】
次に、被験者の音声データを録音する。この録音した音声データについて状態ベクトル(L,E,F)を算出し、それを図7に示したニューラルネットワークの入力層に入力する。そして、上述の(式5)により算出した疲労度を表す数値にできるだけ近い値が出力層から出力されるように、バックプロパゲーションの学習則によりニューラルネットワークを学習させる。概ね50〜100人の被験者に対して学習を行うことにより、未知のユーザの状態ベクトルを入力しても、当該ユーザについてほぼ正しい疲労度を出力することができるようになる。
【0061】
バックプロパゲーション法(逆誤差伝播法)によるニューラルネットワークの学習は、出力データ(被験者の音声データからニューラルネットワークを通じて求めた疲労度値)と、教師データとの誤差を最小にするように、各結線の係数を調整する。設定誤差の詳細については後述する。
【0062】
すなわち、バックプロパゲーション法では、ある被験者について(式5)により算出した疲労度値と、同じ被験者について録音した音声データに基づく状態ベクトル(L,E,F)を入力層に入力したときに出力層から出力される疲労度値との誤差が少なくなるように、各結合係数W1〜W3を出力層から入力層に向かって変化させていく。
【0063】
ニューラルネットワークへの入力データをX(x1,x2,・・・,xj)、結合係数をW(w1,w2,・・・,wj)で表すとすると、これらの結合総和がニューロン状態Sとなり、次の(式6)で表される。
S=x1・w1+x2・w2+・・・+xj・wj ・・・(式6)
このニューロン状態Sは、更に活性化関数f(s)によって処理される。f(s)は次の(式7)で表すシグモイド関数で定義され、これにより入力・出力を0から1への連続値で扱うことが可能となる。
f(s)=1/(1+e−S) ・・・(式7)
【0064】
ニューラルネットワークの出力層に出力データY=f(s)が与えられたら、結合係数Wを変更する際の変化分σを求める。変化分σは、次の(式8)のように表されるシグモイド関数の変化量Δf(s)に対して、ニューロンの出力データと教師データとの誤差Eを掛け合わせることにより、(式9)のように求まる。この変化分σを用いて結合係数Wを調整していくことが学習となる。
【0065】
【数5】
【0066】
上述したシグモイド関数の変化量Δf(s)と誤差Eとを掛け合わせることによって、誤差Eは、0から1までの小数で表される。このとき、誤差Eが大きいと変化分σが大きい値をとり、誤差Eが小さいと変化分σが小さい値をとる。出力層につながるニューロンの結合係数W3を変更するのであれば、当該結合係数W3の変更は次の(式10)のようになる。
W3ij(t+1)=W3ij(t)+a×σj ・・・(式10)
ここで、aは1未満の結合定数であり、通常は0.8に設定する。
【0067】
出力層に所属する結合係数W3を更新した後は、中間層に属する結合係数W2を変更する。ここでは、上述の(式10)より新たな変化分σ’が生まれる。この変化分σ’は、次の(式11)のように、出力層からの結合係数W3と変化分σとの結合総和に対して、シグモイド関数の変化量Δf(s)を掛け合わせたものを用いる。
【0068】
【数6】
【0069】
このようにして得た変化分σ’を用いて、出力層に属する結合係数W3の更新と同様にして、中間層の結合係数W2を次の(式12)により変更する。
W2ij(t+1)=W2ij(t)+a×σj’ ・・・(式12)
このような計算を、入力層に属する結合係数W1を更新するまで繰り返し行っていく。
【0070】
この際、ニューラルネットワークで学習が行われた度合いを表す評価要素が必要となる。その評価要素を評価関数あるいはコスト関数と表現するが、このコスト関数にはRMS誤差(平均二乗誤差)を用いており、次の(式13)のようにニューロンの出力データYと教師データTとにより表される。このコスト関数を最小とするように、ニューラルネットワークの学習が進められていく。
【0071】
【数7】
【0072】
なお、以上のようなニューラルネットワークの学習を通じてシステムに初期設定した係数W1〜W3の値は、その初期設定の後(システムの運用中)も任意に変更することが可能である。例えば、これらの係数W1〜W3をデータベースに登録して、システムの運用中でもニューラルネットワークの学習により変更可能とする。そのために、システムの運用中に音声の解析を実施したユーザに対しても、その都度フリッカー試験や自覚症しらべのアンケート調査を行い、その結果を用いて係数W1〜W3を更新するようにする。
【0073】
この場合において、フリッカー試験や自覚症しらべをユーザがわざわざ試験室に出向いて行わなくても済むようにするために、これらの試験も携帯電話1a,1b上で行えるようにするのが好ましい。具体的には、特定のウェブサイトから携帯電話にプログラムをダウンロードし、当該プログラムに従って携帯電話の画面上に点滅光を表示する。そして、これを見たユーザが点滅光のちらつきを感じ始めたとき、あるいは感じなくなったときに所定のボタンを押すことにより、フリッカー値を得るようにすることが可能である。
【0074】
また、自覚症しらべに関しては、CGI(Common Gateway Interface)を利用してアンケート調査を行うことが可能である。このようにして携帯電話1a,1b上で求めたフリッカー値および自覚症しらべのスコアは、図1のサーバ装置10に送信して、DBサーバ6を通じてデータベース7に登録する。そして、当該データベース7に登録されたフリッカー値および自覚症しらべのスコアから上述の(式5)に従って教師データを算出し、ニューラルネットワークの学習を行う。
【0075】
なお、事前テストの際にも、フリッカー試験や自覚症しらべを携帯電話1a,1bから行うようにしても良い。このようにすれば、事前テスト自体も簡便に行うことができるというメリットを有する。
【0076】
ここで、ニューラルネットワークと、状態ベクトル(L,E,F)および疲労度値Aとの関係について概説する。本質的に各座標軸が1つの力学変数と対応づけられているグラフのことを状態空間という。状態空間における1点は、ある時刻におけるシステムの状態を表す。カオス的システムは状態空間において複雑な軌道をとるが、その軌道は状態空間の特定領域だけを通り、他の領域を通ることはない。その軌道によって、カオスアトラクタが描かれる。
【0077】
このカオスアトラクタは、カオス性を備えた時系列データを多次元状態空間に埋め込むことにより再構成ができる。埋め込みにはターケンスの方法より、埋め込み遅延時間τを用いて1個の状態変数からn個の状態変数を復元すればよい。埋め込みができれば、再構成されたカオスアトラクタは元のアトラクタを変形したものとなり、リアプノフ指数L、エントロピーE、ヒグチフラクタル次元F等が位相的に保存される。1変量の時系列データからカオスアトラクタを再構成するためには、遅延時間座標系への変換による埋め込みを行えばよい。
【0078】
カオスは、微少な外乱によって軌道不安定性が生じても、状態空間において定常的振る舞いを表すアトラクタの幾何学的構造は変化しないという安定性を有する(「決定論的カオス理論に基づく時系列解析システム」計装8月号Vol.40、No.8(1997))。したがって、本実施形態のニューラルネットワークでは、上述したように状態ベクトル(L,E,F)を入力層に入力して、安定した疲労度値Aを出力層から出力することができる。
【0079】
図6に戻って説明する。上記図7に示したような手法によってカオス計算を行い、話者音声の特徴量を求めた後は、データベース7に録音されている当該話者音声のファイルを削除する(ステップS35)。そして、当該カオス計算による解析結果をDBサーバ6に供給し、データベース7に登録して(ステップS36)、一連のカオス解析処理を終了する。
【0080】
上述したように、ユーザは、携帯電話1a,1bからWEBサーバ4にアクセスすることにより、解析結果をいつでも見ることができる。図9は、携帯電話1a,1bに表示される診断結果の画面例を示す図である。図9(a)に示すように、解析結果表示のトップ画面では、新着の診断結果と過去の診断結果とを一覧で表示する。
【0081】
このトップ画面で新着の診断結果を選択すると、図9(b)の詳細画面に遷移し、その人の疲労度の詳細を確認できる。また、過去の診断結果の一覧では、疲労度を表す数値が表示されており、疲労度の推移を見ることができる。その中の何れかを選択することにより、過去の診断結果を見ることもできる。
【0082】
以上詳しく説明したように、本実施形態においては、ユーザの携帯電話1a,1bより入力した話者音声をCTIサーバ5およびDBサーバ6を通じてデータベース7に録音し、当該録音した話者音声を解析サーバ8にてカオス解析してユーザの疲労度を表す特徴量を求める。そして、ユーザからの要求に応じて、解析結果をWEBサーバ4を通じて携帯電話1a,1bに提示するようにしている。
【0083】
これにより、ユーザは携帯電話1a,1bを利用して声を録音するだけで、自分の健康状態をいつでも好きな場所から簡単にチェックすることができる。しかも、これまでは曖昧な表現でしか表せなかった「疲労度」を、明確な数値として得ることができる。また、本システムを継続的に利用することで、疲労度の変化を追いながら生活習慣を正したり、残業を減らしたりするなどの動機付けも得ることができる。
【0084】
また、本実施形態によれば、フリッカー値および自覚症しらべのスコアを用いて教師データを算出し、これによりニューラルネットワークの学習を行っている。これにより、フリッカー試験および自覚症しらべの結果が反映されたより客観性のある疲労度値を、携帯電話1a,1bを利用して声を録音するだけで簡単に取得することができる。
【0085】
なお、上記実施形態では、ユーザが使用する端末として携帯電話1a,1bを用いているが、音声入力機能とネットワーク接続機能とを備えた携帯用の端末であれば、携帯電話1a,1b以外の端末(例えばノート型パーソナルコンピュータ、PDA(Personal Digital Assistants)等)もユーザ端末として用いることが可能である。
【0086】
また、上記実施形態では、カオス解析にニューラルネットワークを利用しているが、状態ベクトル(L,E,F)と疲労度値Aとの相関を演算する手法はこれに限定されるものではない。例えば、統計学的な手法によって相関を演算し、これによって疲労度値Aを求めるようにしても良い。
【0087】
また、上記実施形態では、ニューラルネットワークの学習に使う教師データを求める際に、フリッカー試験および自覚症しらべを行う例について説明したが、これに限定されるものではない。すなわち、これらの試験に代えて、あるいは、これらの試験に加えて、尿のpH値やタンパク質等を測定する試験や、血圧や脈拍を測定する試験、脳波や心電図を測定する試験、血中・尿中の代謝物質を測定する試験などの全部または一部を行い、その結果に基づいて所定の演算式により教師データを算出するようにしても良い。このようにすれば、これら複数の試験結果がミックスされた、より客観性のある疲労度値を、携帯電話1a,1bを利用して音声入力するだけで簡単に取得することができる。
【0088】
また、上記実施形態では、ユーザの健康状態の一例として疲労度を求める場合について説明したが、本発明はこれに限定されるものではない。例えば、解析サーバ8の音声解析エンジンを改良することで、二日酔い度診断、血液ドロドロ度診断、本気(浮気)度診断、相性診断、うそ発見診断など生体の「ゆらぎ」に関係した解析を行うことも可能である。すなわち、疲労度以外の健康状態や、精神状態などを解析することも可能である。
【0089】
また、人の音声から痴呆の疑いがあるか否かを診断することも可能である。上述した疲労度のフリッカー試験や自覚症しらべ等と同様、痴呆の診断に関しても、痴呆度を評価する指標として客観的で信頼性のあるものが従来から提供されている。改訂長谷川式簡易知能評価スケール(HDS−R)、MMS(Mini−Mental State)、かなひろいテストなどのスクリーニングテストが代表的なものである(これらは何れも公知であるので、ここでは詳細な説明は割愛する)。
【0090】
例えば、被験者にHDS−Rのテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には1点、痴呆の疑いが無いとの結果が得られた場合には0点を与える。また、MMSのテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には1点、痴呆の疑いが無いとの結果が得られた場合には0点を与える。同様に、かなひろいテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には1点、痴呆の疑いが無いとの結果が得られた場合には0点を与える。そして、これら3つのテスト結果の合計が0〜1点の場合は痴呆の疑い無し、2〜3点の場合は痴呆の疑い有りとする。そして、この結果をニューラルネットワークの教師データとして用いる。
【0091】
次に、被験者の音声データを録音する。この録音した音声データから状態ベクトル(L,E,F)を抽出し、それをニューラルネットワークの入力層に入力する。ここでのニューラルネットワークは、例えば、3個の入力層(L,E,Fの3つのカオスパラメータ)、100個×2個の中間層、2個の出力層(「痴呆の疑い無し」「痴呆の疑い有り」)で構成する。
【0092】
そして、入力層に3つのカオスパラメータ(L,E,F)を入力したら、出力層において「痴呆の疑い無し」「痴呆の疑い有り」のどちらかのセルが正しく発火するように、バックプロパゲーションの学習則によりニューラルネットワークを学習させる。この場合も、概ね50〜100人の被験者に対して学習を行うことにより、未知のユーザの状態ベクトルを入力しても、当該ユーザについてほぼ正しい痴呆度を出力することができるようになる。
【0093】
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0094】
【発明の効果】
以上説明したように本発明によれば、ユーザは携帯用のクライアント装置を利用して声を録音するだけで、自分の健康状態や精神状態等をいつでも好きな場所で簡単にチェックすることができるようになる。
【図面の簡単な説明】
【図1】本実施形態による話者音声解析システムの全体構成を示すブロック図である。
【図2】本実施形態による話者音声解析システムの全体的な動作を示すシーケンスフローチャートである。
【図3】本実施形態の携帯電話に表示されるメニュー画面の例を示す図である。
【図4】本実施形態のCTIサーバにより行われる録音動作を示すフローチャートである。
【図5】本実施形態による解析サーバのメイン動作を示すフローチャートである。
【図6】本実施形態の解析サーバにより行われるカオス解析処理の詳細動作を示すフローチャートである。
【図7】本実施形態の解析サーバにより行われるニューラルネットワーク演算の例を示す図である。
【図8】カオス解析結果の疲労度レベルに関する例を示す図である。
【図9】カオス解析結果の画面表示例を示す図である。
【符号の説明】
1a,1b 携帯電話
2a 携帯電話パケット網
2b インターネット
2c 公衆回線網
3 ルータ
4 WEBサーバ
5 CTIサーバ
6 DBサーバ
7 データベース
8 解析サーバ
10 サーバ装置
【発明の属する技術分野】
本発明は話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラムに関し、特に、パターン認識を得意とするニューラルネットワークを使用して、日々不規則的に変化するユーザの音声のゆらぎを解析し、健康や精神の状態を数値として算出する方式に関するものである。
【0002】
【従来の技術】
近年は健康志向ブームである。折から様々な健康関連商品が市販され、多くの人が以前にも増して自分の健康に気を遣うようになっている。ところで、半健康状態の原因の多くは、現代社会に蔓延するストレスによると云われている。大人に限らず、青少年にもストレスが溜まっており、それに起因する病気も多い。
【0003】
このような中、自分の健康状態を自身でチェックする努力が成されている。そのための計測装置として、体重計、体脂肪率計、血圧計、脈拍計などが提供されている。
【0004】
【発明が解決しようとする課題】
しかしながら、体重計や体脂肪率計などは比較的簡単に使用できるものの、これが置かれている家庭内で使用できるのみで、外出先などでいつでも自由に計測することができないという問題があった。また、この計測値だけでそのときの健康状態を把握するのは実質的に不可能であるという問題もあった。
【0005】
また、血圧計や脈拍計にいたっては、いつでもどこでも自由に計測することができないばかりでなく、計測するためには収納場所から装置を取り出してバンドを腕に巻き、スイッチを入れてから暫くの時間待たなければならず、取り扱いが非常に面倒であるという問題もあった。
【0006】
本発明は、このような問題を解決するために成されたものであり、自分の健康状態をいつでも好きな場所で簡単にチェックできるようにすることを目的としている。
【0007】
【課題を解決するための手段】
本発明の話者音声解析システムは、サーバ装置とクライアント装置とがネットワークを介して接続可能に構成されたシステムであって、上記サーバ装置は、上記クライアント装置より入力されたユーザの話者音声を当該クライアント装置から上記ネットワークを介して取得する話者音声取得手段と、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備え、上記クライアント装置は、上記ユーザの話者音声を入力する音声入力手段と、上記音声入力手段により入力された上記話者音声を上記サーバ装置に向けて提供する話者音声提供手段と、上記解析結果提供手段により上記サーバ装置から提供された上記解析結果を取得して出力する解析結果取得および出力手段とを備えたことを特徴とする。
【0008】
本発明の他の態様では、上記話者音声解析手段は、上記話者音声取得手段により取得した上記話者音声をもとに、音声のカオス性特徴量である状態ベクトルを算出する特徴量算出手段と、上記特徴量算出手段により求められた状態ベクトルを入力し、当該状態ベクトルと複数の係数とを用いたニューラルネットワーク演算を行うことにより、上記ユーザの健康状態や精神状態等を表す指標値を求めるニューラルネットワーク演算手段とを備えて構成されることを特徴とする。
【0009】
本発明の他の態様では、上記ユーザの健康状態や精神状態等を表す指標値に関する目標値を算出する目標値算出手段と、上記状態ベクトルが上記ニューラルネットワークの入力に与えられたときの上記ニューラルネットワークの出力値と、上記目標値算出手段により求められた目標値との誤差を最小化することによって、上記ニューラルネットワーク内の複数の係数を最適化させる学習手段とを備えたことを特徴とする。
【0010】
本発明の他の態様では、上記目標値算出手段は、フリッカー試験および被験者が自身で疲労の具合をアンケート形式で答える調査の結果得られるデータ値を利用して所定の演算を行うことにより、疲労度の目標値を算出することを特徴とする。
【0011】
また、本発明のサーバ装置は、クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段と、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備えたことを特徴とする。
【0012】
また、本発明による話者音声の解析を利用した健康診断方法は、クライアント装置にてユーザの話者音声を入力してネットワークを介してサーバ装置に送信する話者音声送信ステップと、上記話者音声送信ステップで送信された上記話者音声を上記サーバ装置が受信する話者音声受信ステップと、上記話者音声受信ステップで受信した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析ステップと、上記話者音声解析ステップで解析された結果を上記クライアント装置に向けて提供する解析結果提供ステップと、上記解析結果提供ステップで提供された解析結果を上記クライアント装置が取得して出力する解析結果出力ステップとを有することを特徴とする。
【0013】
また、本発明の話者音声解析プログラムは、クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段、および上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段、としてコンピュータを機能させるためのものである。
【0014】
【発明の実施の形態】
以下、本発明の一実施形態を図面に基づいて説明する。
図1は、本実施形態による話者音声解析システムの全体構成例を示すブロック図である。
【0015】
図1において、1a,1bはユーザが使用する携帯電話であり、通話機能やインターネット接続機能を備えている。2aは携帯電話パケット網、2bはインターネット、2cは公衆回線網である。3はファイアウォール機能を備えたルータ、4はWEBサーバ、5はCTI(Computer Telephony Integration)サーバ、6はDBサーバ、7はデータベース(DB)、8は解析サーバである。
【0016】
WEBサーバ4は、ユーザに対するインタフェースとしてWWWブラウザ画面を携帯電話1a,1bに提供し、当該ブラウザ画面を通じて携帯電話1a,1bから必要な情報を取得したり、話者音声の解析結果を出力したりする。WWWブラウザ画面を通じて取得する情報の中には、ユーザの個人情報(氏名、メールアドレス、携帯電話番号、性別等の基本情報の他、生年月日、血液型、出身地、体調、性格、パスワード等の追加情報を含む)、種々のメニュー操作情報がある。
【0017】
CTIサーバ5は、携帯電話1a,1bのダイヤル操作に合わせて、あらかじめ録音してある音声を自動的に再生し、当該音声による自動応答を行って携帯電話1a,1bから必要な情報を取得する。ここで取得する情報は、ユーザの話者音声である。この話者音声は、どのような言葉を発したものであっても良いが、例えば2〜10秒程度の音声を取得するものとする。好ましくは、予備実験をして、音声のゆらぎ(カオス性)を抽出しやすい言葉を特定し、その言葉を発するようにする。
【0018】
上述のWEBサーバ4によって携帯電話1a,1bに提供されるブラウザ画面上には、ユーザがCTIサーバ5に対して簡単に電話をかけることができるように、“<a href=“tel:電話番号”>”というタグがHTMLにて記述されている。ユーザがブラウザ画面上で“TEL”というリンクを選択すると、携帯電話1a,1bが自動的にCTIサーバ5に電話をかけるようになっている。CTIサーバ5はこの自動コール機能によりかけられてきた電話の自動着信を行う。その後、音声による自動応答を行うことによってユーザの声を録音し、DBサーバ6を通じてデータベース7に登録する。
【0019】
DBサーバ6は、WEBサーバ4、CTIサーバ5および解析サーバ8の各サーバ間で共有される情報の管理を行う。例えば、WEBサーバ4およびCTIサーバ5を通じて携帯電話1a,1bから取得したデータ(個人情報データ、話者音声データ等)や、解析サーバ8により行われた話者音声の解析結果をデータベース7に保存する。また、携帯電話1a,1bからの要求に応じて、上述の解析結果をデータベース7から取り出してWEBサーバ4に提供する。
【0020】
解析サーバ8は、CTIサーバ5からの解析要求を監視し、要求検出時に所定の解析処理を実行する。すなわち、解析サーバ8は、CTIサーバ5から解析要求のあった話者音声をデータベース7より読み込み、これをカオス解析する。そして、その解析結果をDBサーバ6に供給してデータベース7に保存する。このカオス解析の詳細については後述する。
【0021】
上記ルータ3、WEBサーバ4、CTIサーバ5、DBサーバ6、データベース7および解析サーバ8により本実施形態のサーバ装置10が構成される。このサーバ装置10を構成するそれぞれのサーバは、実際にはコンピュータのCPUあるいはMPU、RAM、ROMなどを備えて構成され、RAMやROMに記憶されたプログラムが動作することによって実現できる。
【0022】
したがって、コンピュータが本実施形態の機能を果たすように動作させるプログラムを例えばCD−ROMのような記録媒体に記録し、コンピュータに読み込ませることによって実現できるものである。上記プログラムを記録する記録媒体としては、CD−ROM以外に、フレキシブルディスク、ハードディスク、磁気テープ、光ディスク、光磁気ディスク、DVD、不揮発性メモリカード等を用いることができる。また、上記プログラムをインターネット2b等のネットワークを介してコンピュータにダウンロードすることによっても実現できる。
【0023】
また、本実施形態によるサーバ装置10の機能をネットワーク環境で実現するべく、全部あるいは一部のプログラムが他のコンピュータで実行されるようになっていても良い。
【0024】
また、コンピュータが供給されたプログラムを実行することにより本実施形態の機能が実現されるだけでなく、そのプログラムがコンピュータにおいて稼働しているOS(オペレーティングシステム)あるいは他のアプリケーションソフト等と共同して本実施形態の機能が実現される場合や、供給されたプログラムの処理の全てあるいは一部がコンピュータの機能拡張ボードや機能拡張ユニットにより行われて本実施形態の機能が実現される場合も、かかるプログラムは本実施形態に含まれる。
【0025】
次に、上記のように構成した本実施形態による話者音声解析システムの動作について説明する。図2は、当該解析システムの全体的な動作を示すシーケンスフローチャートである。図2に示すように、最初にユーザは、携帯電話1a,1bからWEBサーバ4にアクセスし、これによって提供されるブラウザ画面上でメニュー操作をして、お疲れ診断サイトに入る(ステップS1)。
【0026】
図3は、携帯電話1a,1bに表示されるメニュー画面の例を示す図である。図3(a)に示すトップメニューにおいて、“最新情報”または“受診受付”の項目を選択し、更にメニュー操作を続けていくと、“診断”という項目(図示せず)が現れる。この項目を選択することにより、図3(b)のような画面が表示され、自己チェックを開始する準備ができる。
【0027】
次に、図3(b)の画面上でユーザが“電話をする”の項目を選択すると(ステップS2)、これに応じて携帯電話1a,1bがCTIサーバ5に対して自動的に電話をかける(ステップS3)。CTIサーバ5は、WEBサーバ4の自動コール機能によりかけられてきた電話を自動で着信すると、携帯電話1a,1bに対して音声による自動応答を行うことにより、ユーザに音声の録音を促す(ステップS4)。
【0028】
ユーザは、CTIサーバ5により行われる音声ガイダンスに従って自分の声を入力した後、“#”のボタンを押下する。これによりCTIサーバ5は、ユーザの話者音声を取得し、これをデータベース7に保存する(ステップS5)。そして、携帯電話1a,1bに録音終了メッセージを出力して携帯電話1a,1bとの回線を切断する(ステップS6)。
【0029】
図4は、上記ステップS4〜S6の処理内容を詳細に示すフローチャートである。図4において、CTIサーバ5は、携帯電話1a,1bからの着信があったかどうかを監視しており(ステップS11)、着信があると、まずは冒頭メッセージ(“あなたの声を登録してチェックを行います。ガイダンスに従って操作して下さい。”など)を出力する(ステップS12)。
【0030】
次にCTIサーバ5は、“発信音の後に音声を登録し、#を押して下さい。”などのメッセージを流すことにより、ユーザに音声の録音を要求する(ステップS13)。これに応じてユーザは、自分の声を入力した後、“#”のボタンを押下することによって音声を録音する(ステップS14)。次に、CTIサーバ5は、録音された音声を再生し(ステップS15)、その内容で良いかどうかをユーザに確かめる(ステップS16)。
【0031】
例えば、内容が良ければ“#”、内容を変更する場合は“9”のプッシュボタンを押すようにメッセージを流す。そして、“9”のプッシュボタンが押されたときにはステップS13に戻り、音声の録音をやり直す。また、“#”のプッシュボタンが押されたときは、“音声を登録しました。”などの終了メッセージを出力した後(ステップS17)、回線を切断する(ステップS18)。
【0032】
図2に戻り、以上のようにして話者音声の録音が完了すると、次にCTIサーバ5は、録音した話者音声の解析を解析サーバ8に対して要求する(ステップS7)。この解析要求を受信した解析サーバ8は、後で詳述するカオス解析処理を行って、その解析結果をデータベース7に保存する(ステップS8)。その後、ユーザは、WEBサーバ4にアクセスして携帯電話1a,1bのメニュー画面から“診断結果表示”の項目を選択すると、WEBサーバ4は要求された解析結果をデータベース7から取り出して表示する(ステップS9)。
【0033】
図5および図6は、解析サーバ8の動作を示すフローチャートである。このうち図5は解析サーバ8のメイン動作を示すフローチャート、図6はカオス解析処理の詳細動作を示すフローチャートである。図5において、最初に電源が投入されると、解析サーバ8は、システム情報設定などの所定の初期化処理を行う(ステップS21)。
【0034】
次に、解析サーバ8は、本処理終了チェックを行い(ステップS22)、終了要求があったかどうかを判断する(ステップS23)。終了要求がない場合はカオス解析処理を行う(ステップS24)。その後一定時間スリープ状態になった後(ステップS25)、ステップS22に戻る。一方、本処理終了要求があった場合は、所定の後処理を行って(ステップS26)、本処理を終了する。
【0035】
上記ステップS24のカオス解析処理は、図6のフローチャートに従って行われる。図6において、解析サーバ8は、解析要求チェックを行い(ステップS31)、CTIサーバ5からの解析要求があったかどうかを判断する(ステップS32)。解析要求がない場合はそのままカオス解析処理を抜ける。一方、解析要求があった場合は、データベース7に録音されている話者音声のデータから解析データを抽出する(ステップS33)。
【0036】
この解析データの抽出は、以下のようにして行う。すなわち、まず、データベース7に録音されている音声の時系列データから、あらかじめ指定されたサンプル点数分のデータを、無音部除去処理のために時系列の中央部から抽出する。例えば、音声時系列データの絶対値の最大値を求め、ある1点から20点連続でデータ値が先に求めた最大値の5分の1(20%)未満の場合は、それらの点を省略する。また、1点でも最大値の5分の1(20%)以上のデータがあった場合は、その20点の中間点を出力データとする。全音声時系列データの中央部から、この出力データをあらかじめ指定されたサンプル点数分抽出する。
【0037】
時系列の解析データを抽出した後、解析サーバ8は、その時系列データをカオス計算し、話者音声の特徴量を求める(ステップS34)。このカオス計算では、最初にリアプノフ指数(L)、エントロピー(E)、F−constant(F)の3つのパラメータを計算し、計算した各パラメータをニューラルネットワークプログラムに入力することにより、話者音声の時系列データを数値化する。
【0038】
リアプノフ指数とは、xn+1=f(xn)で表される力学系において、接近した2点から出発した2つの軌跡に関する時間n→∞での乖離度を意味し、次の(式1)で定義される。ここで、Nは再構成ベクトルの総数である。
【0039】
【数1】
【0040】
また、エントロピーとは、系の不規則性の定量的な目安あるいは系の状態を指定するのに必要な情報量を意味し、次の(式2)で定義される。ここでは、ある測定の結果が必ず単位区間上にあるような仮想的な統計系を考え、この区間をN個の小区間に分割する。そして、i番目の小区間が可能な結果のうちのある特定の範囲を含むならば、それに確立Piを割り当てることができる。分かりやすく表現すると、エントロピーが小さいほど整理されて、利用価値が高い情報量であり、エントロピーが大きいほど乱れていて、役に立たない情報量と言える。
【0041】
【数2】
【0042】
また、フラクタル次元とは、通常の次元の概念を非整数の領域まで拡張したもので、ヒグチフラクタル次元、ハウスドルフ(Hausdorff)次元、相関次元等が提案されている。このうちヒグチフラクタル次元は、時系列波形を1次元の幾何構造とみなしたときの形状的な複雑さの程度を意味し、構造が複雑、すなわち、変動が大きいほど大きな値をとる。
【0043】
このヒグチフラクタル次元の計算アルゴリズムでは、等時間間隔でサンプリングされた時系列データX(1),X(2),・・・,X(N)を入力データとする。まず、この入力された時系列データから、次の(式3)で示すような新しい時系列データXm kを作る。ここで、mは初期時間、kは時間間隔であり、[ ]はガウス記号を表す((N−m)/kを超えない整数値)。
【0044】
【数3】
【0045】
このアルゴリズムによれば、結局、k組の時系列データを作ることになる。例えば、k=3、N=100の場合は、
X1 3:X(1),X(4),X(7),・・・,X(97),X(100)
X2 3:X(2),X(5),X(8),・・・,X(98)
X3 3:X(3),X(6),X(9),・・・,X(99)
の3組の時系列データを生成する。
【0046】
次に、時系列データXm kの曲線の長さLm(k)を、次の(式4)のように定義する。ここで、(N−1)/{[(N−m)/k]・k}の項は、時系列の曲線の長さを標準化するための係数である。
【0047】
【数4】
【0048】
k組の時系列データXm kについて求めた曲線の長さLm(k)の平均を<L(k)>とし、これを時間間隔kの曲線の長さと定義する。もし、<L(k)>∝k−Dの関係が成り立てば、Dがフラクタル次元となる。すなわち、横軸をlog10k、縦軸をlog10<L(k)>として点をプロットして直線部分の傾きを求め、これに−1をかけた値がヒグチフラクタル次元となる。
【0049】
F−constantは、ヒグチフラクタル次元の計算結果について、横軸log10kが10以下と10以上とで分離して傾きを求めてD1,D2とし、F−constant=(D2+D1)/(D2−D1)の式によって求める。すなわち、D1はミクロな時間スケールにおけるフラクタル次元、D2はマクロな時間スケールにおけるフラクタル次元となる。このようにF−constantは、小さなスケールと大きなスケールのフラクタル次元の関係を表す。
【0050】
従来、人は一定の状態を維持していることが健康であると考えられてきた。しかし、最近の研究では、一定の状態を保つのではなく、適度な「ゆらぎ」があった方がより健康的であり、外的要因に対して適応力があることが分かっている(ホメオダイナミクス)。そこで、本実施形態では、携帯電話1a,1bで録音した声からその人の「ゆらぎ」特有のデータ(リアプノフ指数、エントロピー、F−constant)を抽出し、これをニューラルネットワークにより解析してその人の疲労度を数値によって表現する。
【0051】
図7は、本実施形態によるニューラルネットワーク演算の例を示す図である。図7に示すように、本実施形態のニューラルネットワークは、入力層1つ、中間層2つおよび出力層1つからなる4層構造を有している。入力層に音声のカオス性特徴量である状態ベクトル(L,E,F)を入力し、中間層の各層間を結ぶ結線の重み係数を変更していくことで、出力層から適当な数値を出力する。
【0052】
そして、出力された複数の数値A−1〜A−3のうち値が最も大きなものを、ユーザの疲労度を表す数値Aとして決定する。この疲労度を表す数値Aは0〜1の間で正規化されたものであり、これに基づいてユーザの疲労度が、例えば図8に示すように0〜100の何れかの値で表される。なお、図7では説明の簡便上、第1中間層は4個、第2中間層は3個、出力層は3個のノードのみを示しているが、各層においてより多くのノード(例えば、第1中間層、第2中間層、出力層の何れも100個)を含むように階層構造を構成しても良い。
【0053】
図7の例で、ニューラルネットワーク内の演算にはシグモイド関数を使用する。なお、ここで用いる層間結線の係数の初期データとしては、例えばシステムの運用前に50〜100人程度の被験者に対して事前テストを行い、その結果に応じて算出した適当な値を運用前にシステムに登録する。以下に、この事前テストの詳細について説明する。
【0054】
事前テストでは、まず、被験者に対してフリッカー試験を行うとともに、疲労度についての自覚症しらべ(被験者が自身で疲労の具合をアンケート形式で答える調査)を行う。フリッカー試験とは、被験者に不連続の点滅光を直視させて、点滅の周波数を徐々に変化させる。そして、被験者がその点滅光のちらつきを感じ始めたとき、あるいは感じなくなったときの点滅の周波数を測定する試験である。
【0055】
例えば、点滅の周波数を徐々に上げていった場合、これを見ている被験者は、そのうち点滅が感じられなくなっていく。点滅が感じられなくなったときの点滅の周波数をフリッカー値として得る。逆に、点滅の周波数を徐々に下げていき、これを見ている被験者が光のちらつきを感じ始めたときの点滅の周波数をフリッカー値として得ても良い。
【0056】
フリッカー値は、精神疲労や中枢神経系の覚醒水準の指標として用いられる。値が小さくなるほど疲れているという評価ができる。得られるフリッカー値をより客観性のあるものとするために、フリッカー試験を複数回行って、フリッカー値の平均をとるのが好ましい。ちなみに、個人差はあるが、疲労があまりない通常時のフリッカー値の平均は38Hzくらいだと言われている。
【0057】
また、自覚症しらべは、被験者自身がそのときに感じる自覚的疲労度を調査するためのアンケート調査であり、日本産業衛生学会により作成されている。アンケート内容は、次の5つの項目群に分けられる。
I群 眠気感:ねむい、あくびが出る、やる気が乏しい、全身がだるい、等
II群 不安感:不安な感じ、憂鬱な気分、落ち着かない、いらいらする、等
III群 不快感:頭が痛い、頭が重い、気分が悪い、頭がぼんやりする、等
IV群 だるさ感:腕がだるい、腰が痛い、足がだるい、肩がこる、等
V群 ぼやけ感:目がしょぼつく、目が疲れる、目が乾く、物がぼやける、等
【0058】
被験者は、これら5つの項目群ごとに設けられた複数の質問に対して、感じる程度に応じて1〜5のレベルで回答する。そして、5つの項目群ごとにスコアの平均値を求め、項目群別に疲労状況を評価する。スコアが大きくなるほど疲れているという評価ができる。
【0059】
以上に説明したフリッカー値および自覚症しらべのスコアは何れも、疲労度を評価する指標として信頼性のあるものである。本実施形態では、これらの指標を用いて更に客観的な疲労度値を得るために、次の(式5)に基づいて、被験者の疲労度を表した数値(0〜100の何れかの値をとる)を算出する。
疲労度=−フリッカー平均値+0.5×I群平均スコア+0.5×II群平均スコア+4×III群平均スコア+0.5×IV群平均スコア+0.5×V群平均スコア+25 ・・・(式5)
なお、この(式5)は単なる例示であり、本発明はこの演算内容に限定されるものではない。
【0060】
次に、被験者の音声データを録音する。この録音した音声データについて状態ベクトル(L,E,F)を算出し、それを図7に示したニューラルネットワークの入力層に入力する。そして、上述の(式5)により算出した疲労度を表す数値にできるだけ近い値が出力層から出力されるように、バックプロパゲーションの学習則によりニューラルネットワークを学習させる。概ね50〜100人の被験者に対して学習を行うことにより、未知のユーザの状態ベクトルを入力しても、当該ユーザについてほぼ正しい疲労度を出力することができるようになる。
【0061】
バックプロパゲーション法(逆誤差伝播法)によるニューラルネットワークの学習は、出力データ(被験者の音声データからニューラルネットワークを通じて求めた疲労度値)と、教師データとの誤差を最小にするように、各結線の係数を調整する。設定誤差の詳細については後述する。
【0062】
すなわち、バックプロパゲーション法では、ある被験者について(式5)により算出した疲労度値と、同じ被験者について録音した音声データに基づく状態ベクトル(L,E,F)を入力層に入力したときに出力層から出力される疲労度値との誤差が少なくなるように、各結合係数W1〜W3を出力層から入力層に向かって変化させていく。
【0063】
ニューラルネットワークへの入力データをX(x1,x2,・・・,xj)、結合係数をW(w1,w2,・・・,wj)で表すとすると、これらの結合総和がニューロン状態Sとなり、次の(式6)で表される。
S=x1・w1+x2・w2+・・・+xj・wj ・・・(式6)
このニューロン状態Sは、更に活性化関数f(s)によって処理される。f(s)は次の(式7)で表すシグモイド関数で定義され、これにより入力・出力を0から1への連続値で扱うことが可能となる。
f(s)=1/(1+e−S) ・・・(式7)
【0064】
ニューラルネットワークの出力層に出力データY=f(s)が与えられたら、結合係数Wを変更する際の変化分σを求める。変化分σは、次の(式8)のように表されるシグモイド関数の変化量Δf(s)に対して、ニューロンの出力データと教師データとの誤差Eを掛け合わせることにより、(式9)のように求まる。この変化分σを用いて結合係数Wを調整していくことが学習となる。
【0065】
【数5】
【0066】
上述したシグモイド関数の変化量Δf(s)と誤差Eとを掛け合わせることによって、誤差Eは、0から1までの小数で表される。このとき、誤差Eが大きいと変化分σが大きい値をとり、誤差Eが小さいと変化分σが小さい値をとる。出力層につながるニューロンの結合係数W3を変更するのであれば、当該結合係数W3の変更は次の(式10)のようになる。
W3ij(t+1)=W3ij(t)+a×σj ・・・(式10)
ここで、aは1未満の結合定数であり、通常は0.8に設定する。
【0067】
出力層に所属する結合係数W3を更新した後は、中間層に属する結合係数W2を変更する。ここでは、上述の(式10)より新たな変化分σ’が生まれる。この変化分σ’は、次の(式11)のように、出力層からの結合係数W3と変化分σとの結合総和に対して、シグモイド関数の変化量Δf(s)を掛け合わせたものを用いる。
【0068】
【数6】
【0069】
このようにして得た変化分σ’を用いて、出力層に属する結合係数W3の更新と同様にして、中間層の結合係数W2を次の(式12)により変更する。
W2ij(t+1)=W2ij(t)+a×σj’ ・・・(式12)
このような計算を、入力層に属する結合係数W1を更新するまで繰り返し行っていく。
【0070】
この際、ニューラルネットワークで学習が行われた度合いを表す評価要素が必要となる。その評価要素を評価関数あるいはコスト関数と表現するが、このコスト関数にはRMS誤差(平均二乗誤差)を用いており、次の(式13)のようにニューロンの出力データYと教師データTとにより表される。このコスト関数を最小とするように、ニューラルネットワークの学習が進められていく。
【0071】
【数7】
【0072】
なお、以上のようなニューラルネットワークの学習を通じてシステムに初期設定した係数W1〜W3の値は、その初期設定の後(システムの運用中)も任意に変更することが可能である。例えば、これらの係数W1〜W3をデータベースに登録して、システムの運用中でもニューラルネットワークの学習により変更可能とする。そのために、システムの運用中に音声の解析を実施したユーザに対しても、その都度フリッカー試験や自覚症しらべのアンケート調査を行い、その結果を用いて係数W1〜W3を更新するようにする。
【0073】
この場合において、フリッカー試験や自覚症しらべをユーザがわざわざ試験室に出向いて行わなくても済むようにするために、これらの試験も携帯電話1a,1b上で行えるようにするのが好ましい。具体的には、特定のウェブサイトから携帯電話にプログラムをダウンロードし、当該プログラムに従って携帯電話の画面上に点滅光を表示する。そして、これを見たユーザが点滅光のちらつきを感じ始めたとき、あるいは感じなくなったときに所定のボタンを押すことにより、フリッカー値を得るようにすることが可能である。
【0074】
また、自覚症しらべに関しては、CGI(Common Gateway Interface)を利用してアンケート調査を行うことが可能である。このようにして携帯電話1a,1b上で求めたフリッカー値および自覚症しらべのスコアは、図1のサーバ装置10に送信して、DBサーバ6を通じてデータベース7に登録する。そして、当該データベース7に登録されたフリッカー値および自覚症しらべのスコアから上述の(式5)に従って教師データを算出し、ニューラルネットワークの学習を行う。
【0075】
なお、事前テストの際にも、フリッカー試験や自覚症しらべを携帯電話1a,1bから行うようにしても良い。このようにすれば、事前テスト自体も簡便に行うことができるというメリットを有する。
【0076】
ここで、ニューラルネットワークと、状態ベクトル(L,E,F)および疲労度値Aとの関係について概説する。本質的に各座標軸が1つの力学変数と対応づけられているグラフのことを状態空間という。状態空間における1点は、ある時刻におけるシステムの状態を表す。カオス的システムは状態空間において複雑な軌道をとるが、その軌道は状態空間の特定領域だけを通り、他の領域を通ることはない。その軌道によって、カオスアトラクタが描かれる。
【0077】
このカオスアトラクタは、カオス性を備えた時系列データを多次元状態空間に埋め込むことにより再構成ができる。埋め込みにはターケンスの方法より、埋め込み遅延時間τを用いて1個の状態変数からn個の状態変数を復元すればよい。埋め込みができれば、再構成されたカオスアトラクタは元のアトラクタを変形したものとなり、リアプノフ指数L、エントロピーE、ヒグチフラクタル次元F等が位相的に保存される。1変量の時系列データからカオスアトラクタを再構成するためには、遅延時間座標系への変換による埋め込みを行えばよい。
【0078】
カオスは、微少な外乱によって軌道不安定性が生じても、状態空間において定常的振る舞いを表すアトラクタの幾何学的構造は変化しないという安定性を有する(「決定論的カオス理論に基づく時系列解析システム」計装8月号Vol.40、No.8(1997))。したがって、本実施形態のニューラルネットワークでは、上述したように状態ベクトル(L,E,F)を入力層に入力して、安定した疲労度値Aを出力層から出力することができる。
【0079】
図6に戻って説明する。上記図7に示したような手法によってカオス計算を行い、話者音声の特徴量を求めた後は、データベース7に録音されている当該話者音声のファイルを削除する(ステップS35)。そして、当該カオス計算による解析結果をDBサーバ6に供給し、データベース7に登録して(ステップS36)、一連のカオス解析処理を終了する。
【0080】
上述したように、ユーザは、携帯電話1a,1bからWEBサーバ4にアクセスすることにより、解析結果をいつでも見ることができる。図9は、携帯電話1a,1bに表示される診断結果の画面例を示す図である。図9(a)に示すように、解析結果表示のトップ画面では、新着の診断結果と過去の診断結果とを一覧で表示する。
【0081】
このトップ画面で新着の診断結果を選択すると、図9(b)の詳細画面に遷移し、その人の疲労度の詳細を確認できる。また、過去の診断結果の一覧では、疲労度を表す数値が表示されており、疲労度の推移を見ることができる。その中の何れかを選択することにより、過去の診断結果を見ることもできる。
【0082】
以上詳しく説明したように、本実施形態においては、ユーザの携帯電話1a,1bより入力した話者音声をCTIサーバ5およびDBサーバ6を通じてデータベース7に録音し、当該録音した話者音声を解析サーバ8にてカオス解析してユーザの疲労度を表す特徴量を求める。そして、ユーザからの要求に応じて、解析結果をWEBサーバ4を通じて携帯電話1a,1bに提示するようにしている。
【0083】
これにより、ユーザは携帯電話1a,1bを利用して声を録音するだけで、自分の健康状態をいつでも好きな場所から簡単にチェックすることができる。しかも、これまでは曖昧な表現でしか表せなかった「疲労度」を、明確な数値として得ることができる。また、本システムを継続的に利用することで、疲労度の変化を追いながら生活習慣を正したり、残業を減らしたりするなどの動機付けも得ることができる。
【0084】
また、本実施形態によれば、フリッカー値および自覚症しらべのスコアを用いて教師データを算出し、これによりニューラルネットワークの学習を行っている。これにより、フリッカー試験および自覚症しらべの結果が反映されたより客観性のある疲労度値を、携帯電話1a,1bを利用して声を録音するだけで簡単に取得することができる。
【0085】
なお、上記実施形態では、ユーザが使用する端末として携帯電話1a,1bを用いているが、音声入力機能とネットワーク接続機能とを備えた携帯用の端末であれば、携帯電話1a,1b以外の端末(例えばノート型パーソナルコンピュータ、PDA(Personal Digital Assistants)等)もユーザ端末として用いることが可能である。
【0086】
また、上記実施形態では、カオス解析にニューラルネットワークを利用しているが、状態ベクトル(L,E,F)と疲労度値Aとの相関を演算する手法はこれに限定されるものではない。例えば、統計学的な手法によって相関を演算し、これによって疲労度値Aを求めるようにしても良い。
【0087】
また、上記実施形態では、ニューラルネットワークの学習に使う教師データを求める際に、フリッカー試験および自覚症しらべを行う例について説明したが、これに限定されるものではない。すなわち、これらの試験に代えて、あるいは、これらの試験に加えて、尿のpH値やタンパク質等を測定する試験や、血圧や脈拍を測定する試験、脳波や心電図を測定する試験、血中・尿中の代謝物質を測定する試験などの全部または一部を行い、その結果に基づいて所定の演算式により教師データを算出するようにしても良い。このようにすれば、これら複数の試験結果がミックスされた、より客観性のある疲労度値を、携帯電話1a,1bを利用して音声入力するだけで簡単に取得することができる。
【0088】
また、上記実施形態では、ユーザの健康状態の一例として疲労度を求める場合について説明したが、本発明はこれに限定されるものではない。例えば、解析サーバ8の音声解析エンジンを改良することで、二日酔い度診断、血液ドロドロ度診断、本気(浮気)度診断、相性診断、うそ発見診断など生体の「ゆらぎ」に関係した解析を行うことも可能である。すなわち、疲労度以外の健康状態や、精神状態などを解析することも可能である。
【0089】
また、人の音声から痴呆の疑いがあるか否かを診断することも可能である。上述した疲労度のフリッカー試験や自覚症しらべ等と同様、痴呆の診断に関しても、痴呆度を評価する指標として客観的で信頼性のあるものが従来から提供されている。改訂長谷川式簡易知能評価スケール(HDS−R)、MMS(Mini−Mental State)、かなひろいテストなどのスクリーニングテストが代表的なものである(これらは何れも公知であるので、ここでは詳細な説明は割愛する)。
【0090】
例えば、被験者にHDS−Rのテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には1点、痴呆の疑いが無いとの結果が得られた場合には0点を与える。また、MMSのテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には1点、痴呆の疑いが無いとの結果が得られた場合には0点を与える。同様に、かなひろいテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には1点、痴呆の疑いが無いとの結果が得られた場合には0点を与える。そして、これら3つのテスト結果の合計が0〜1点の場合は痴呆の疑い無し、2〜3点の場合は痴呆の疑い有りとする。そして、この結果をニューラルネットワークの教師データとして用いる。
【0091】
次に、被験者の音声データを録音する。この録音した音声データから状態ベクトル(L,E,F)を抽出し、それをニューラルネットワークの入力層に入力する。ここでのニューラルネットワークは、例えば、3個の入力層(L,E,Fの3つのカオスパラメータ)、100個×2個の中間層、2個の出力層(「痴呆の疑い無し」「痴呆の疑い有り」)で構成する。
【0092】
そして、入力層に3つのカオスパラメータ(L,E,F)を入力したら、出力層において「痴呆の疑い無し」「痴呆の疑い有り」のどちらかのセルが正しく発火するように、バックプロパゲーションの学習則によりニューラルネットワークを学習させる。この場合も、概ね50〜100人の被験者に対して学習を行うことにより、未知のユーザの状態ベクトルを入力しても、当該ユーザについてほぼ正しい痴呆度を出力することができるようになる。
【0093】
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0094】
【発明の効果】
以上説明したように本発明によれば、ユーザは携帯用のクライアント装置を利用して声を録音するだけで、自分の健康状態や精神状態等をいつでも好きな場所で簡単にチェックすることができるようになる。
【図面の簡単な説明】
【図1】本実施形態による話者音声解析システムの全体構成を示すブロック図である。
【図2】本実施形態による話者音声解析システムの全体的な動作を示すシーケンスフローチャートである。
【図3】本実施形態の携帯電話に表示されるメニュー画面の例を示す図である。
【図4】本実施形態のCTIサーバにより行われる録音動作を示すフローチャートである。
【図5】本実施形態による解析サーバのメイン動作を示すフローチャートである。
【図6】本実施形態の解析サーバにより行われるカオス解析処理の詳細動作を示すフローチャートである。
【図7】本実施形態の解析サーバにより行われるニューラルネットワーク演算の例を示す図である。
【図8】カオス解析結果の疲労度レベルに関する例を示す図である。
【図9】カオス解析結果の画面表示例を示す図である。
【符号の説明】
1a,1b 携帯電話
2a 携帯電話パケット網
2b インターネット
2c 公衆回線網
3 ルータ
4 WEBサーバ
5 CTIサーバ
6 DBサーバ
7 データベース
8 解析サーバ
10 サーバ装置
Claims (7)
- サーバ装置とクライアント装置とがネットワークを介して接続可能に構成されたシステムであって、
上記サーバ装置は、上記クライアント装置より入力されたユーザの話者音声を当該クライアント装置から上記ネットワークを介して取得する話者音声取得手段と、
上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、
上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備え、
上記クライアント装置は、上記ユーザの話者音声を入力する音声入力手段と、
上記音声入力手段により入力された上記話者音声を上記サーバ装置に向けて提供する話者音声提供手段と、
上記解析結果提供手段により上記サーバ装置から提供された上記解析結果を取得して出力する解析結果取得および出力手段とを備えたことを特徴とする話者音声解析システム。 - 上記話者音声解析手段は、上記話者音声取得手段により取得した上記話者音声をもとに、音声のカオス性特徴量である状態ベクトルを算出する特徴量算出手段と、
上記特徴量算出手段により求められた状態ベクトルを入力し、当該状態ベクトルと複数の係数とを用いたニューラルネットワーク演算を行うことにより、上記ユーザの健康状態や精神状態等を表す指標値を求めるニューラルネットワーク演算手段とを備えて構成されることを特徴とする請求項1に記載の話者音声解析システム。 - 上記ユーザの健康状態や精神状態等を表す指標値に関する目標値を算出する目標値算出手段と、
上記状態ベクトルが上記ニューラルネットワークの入力に与えられたときの上記ニューラルネットワークの出力値と、上記目標値算出手段により求められた目標値との誤差を最小化することによって、上記ニューラルネットワーク内の複数の係数を最適化させる学習手段とを備えたことを特徴とする請求項2に記載の話者音声解析システム。 - 上記目標値算出手段は、フリッカー試験および被験者が自身で疲労の具合をアンケート形式で答える調査の結果得られるデータ値を利用して所定の演算を行うことにより、疲労度の目標値を算出することを特徴とする請求項3に記載の話者音声解析システム。
- クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段と、
上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、
上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備えたことを特徴とするサーバ装置。 - クライアント装置にてユーザの話者音声を入力してネットワークを介してサーバ装置に送信する話者音声送信ステップと、
上記話者音声送信ステップで送信された上記話者音声を上記サーバ装置が受信する話者音声受信ステップと、
上記話者音声受信ステップで受信した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析ステップと、
上記話者音声解析ステップで解析された結果を上記クライアント装置に向けて提供する解析結果提供ステップと、
上記解析結果提供ステップで提供された解析結果を上記クライアント装置が取得して出力する解析結果出力ステップとを有することを特徴とする話者音声の解析を利用した健康診断方法。 - クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段、
上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段、および
上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段、
としてコンピュータを機能させるための話者音声解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003182824A JP2004240394A (ja) | 2002-12-12 | 2003-06-26 | 話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002361526 | 2002-12-12 | ||
JP2003182824A JP2004240394A (ja) | 2002-12-12 | 2003-06-26 | 話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004240394A true JP2004240394A (ja) | 2004-08-26 |
Family
ID=32964522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003182824A Pending JP2004240394A (ja) | 2002-12-12 | 2003-06-26 | 話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004240394A (ja) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007199807A (ja) * | 2006-01-24 | 2007-08-09 | Fuji Xerox Co Ltd | 学習システム、学習装置、コンピュータの制御方法及びプログラム |
WO2008096634A1 (ja) * | 2007-02-06 | 2008-08-14 | Nec Corporation | 健康管理システム、健康管理方法及び健康管理プログラム |
WO2015146824A1 (ja) * | 2014-03-25 | 2015-10-01 | シャープ株式会社 | 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラムを格納した不揮発性のコンピュータ読み取り可能なデータ記録媒体 |
JP2017532082A (ja) * | 2014-08-22 | 2017-11-02 | エスアールアイ インターナショナルSRI International | 患者の精神状態のスピーチベース評価のためのシステム |
JP6263308B1 (ja) * | 2017-11-09 | 2018-01-17 | パナソニックヘルスケアホールディングス株式会社 | 認知症診断装置、認知症診断方法、及び認知症診断プログラム |
JP2018025932A (ja) * | 2016-08-09 | 2018-02-15 | ファナック株式会社 | センサと機械学習部を備えた作業管理システム |
JP6312014B1 (ja) * | 2017-08-28 | 2018-04-18 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム |
JP2019133305A (ja) * | 2018-01-30 | 2019-08-08 | 東芝情報システム株式会社 | カオス尺度補正装置及びカオス尺度補正用プログラム |
JP2019535429A (ja) * | 2016-11-16 | 2019-12-12 | インフィニットマインド, エルシーInfinite Mind, Lc | 脳処理速度測定デバイスおよび方法 |
US10706873B2 (en) | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
JP2020184128A (ja) * | 2019-05-05 | 2020-11-12 | Assest株式会社 | 疲労度判別プログラム |
JP2021500209A (ja) * | 2017-10-24 | 2021-01-07 | ケンブリッジ コグニション リミテッド | 生理的状態を判定するシステム及び方法 |
WO2021106825A1 (ja) * | 2019-11-25 | 2021-06-03 | 学校法人 慶應義塾 | 疾患予測装置、予測モデル生成装置および疾患予測用プログラム |
JP2021183173A (ja) * | 2017-07-25 | 2021-12-02 | エレクタ、インク.Elekta, Inc. | ディープ畳み込みニューラルネットワークを使用する放射線治療計画 |
WO2021245728A1 (ja) * | 2020-06-01 | 2021-12-09 | サスメド株式会社 | 疾患推定システム、教師データ取得装置および教師データ取得用プログラム |
WO2023095581A1 (ja) * | 2021-11-25 | 2023-06-01 | 株式会社CaTe | プログラム、情報処理装置、および情報処理方法 |
US11826161B2 (en) | 2017-11-02 | 2023-11-28 | Panasonic Intellectual Property Management Co., Ltd. | Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method, and non-transitory computer-readable storage medium |
US11896847B2 (en) | 2020-02-07 | 2024-02-13 | Elekta, Inc. | Adversarial prediction of radiotherapy treatment plans |
US11918372B2 (en) | 2017-11-02 | 2024-03-05 | Panasonic Intellectual Property Management Co., Ltd. | Cognitive function evaluation system, method, and storage medium for dementia by analyzing voice of evaluatee for recognition, remembering or jugment capabilities |
-
2003
- 2003-06-26 JP JP2003182824A patent/JP2004240394A/ja active Pending
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007199807A (ja) * | 2006-01-24 | 2007-08-09 | Fuji Xerox Co Ltd | 学習システム、学習装置、コンピュータの制御方法及びプログラム |
WO2008096634A1 (ja) * | 2007-02-06 | 2008-08-14 | Nec Corporation | 健康管理システム、健康管理方法及び健康管理プログラム |
WO2015146824A1 (ja) * | 2014-03-25 | 2015-10-01 | シャープ株式会社 | 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラムを格納した不揮発性のコンピュータ読み取り可能なデータ記録媒体 |
JP2015184563A (ja) * | 2014-03-25 | 2015-10-22 | シャープ株式会社 | 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム |
US10224060B2 (en) | 2014-03-25 | 2019-03-05 | Sharp Kabushiki Kaisha | Interactive home-appliance system, server device, interactive home appliance, method for allowing home-appliance system to interact, and nonvolatile computer-readable data recording medium encoded with program for allowing computer to implement the method |
US10478111B2 (en) | 2014-08-22 | 2019-11-19 | Sri International | Systems for speech-based assessment of a patient's state-of-mind |
JP2017532082A (ja) * | 2014-08-22 | 2017-11-02 | エスアールアイ インターナショナルSRI International | 患者の精神状態のスピーチベース評価のためのシステム |
US10706873B2 (en) | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
JP2018025932A (ja) * | 2016-08-09 | 2018-02-15 | ファナック株式会社 | センサと機械学習部を備えた作業管理システム |
JP7136775B2 (ja) | 2016-11-16 | 2022-09-13 | インフィニットマインド,エルシー | 脳処理速度測定デバイスおよび方法 |
JP2019535429A (ja) * | 2016-11-16 | 2019-12-12 | インフィニットマインド, エルシーInfinite Mind, Lc | 脳処理速度測定デバイスおよび方法 |
JP2021183173A (ja) * | 2017-07-25 | 2021-12-02 | エレクタ、インク.Elekta, Inc. | ディープ畳み込みニューラルネットワークを使用する放射線治療計画 |
WO2019044255A1 (ja) * | 2017-08-28 | 2019-03-07 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム |
US11766209B2 (en) | 2017-08-28 | 2023-09-26 | Panasonic Intellectual Property Management Co., Ltd. | Cognitive function evaluation device, cognitive function evaluation system, and cognitive function evaluation method |
JP6312014B1 (ja) * | 2017-08-28 | 2018-04-18 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム |
JP2019040143A (ja) * | 2017-08-28 | 2019-03-14 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム |
JP2021500209A (ja) * | 2017-10-24 | 2021-01-07 | ケンブリッジ コグニション リミテッド | 生理的状態を判定するシステム及び方法 |
US11918372B2 (en) | 2017-11-02 | 2024-03-05 | Panasonic Intellectual Property Management Co., Ltd. | Cognitive function evaluation system, method, and storage medium for dementia by analyzing voice of evaluatee for recognition, remembering or jugment capabilities |
US11826161B2 (en) | 2017-11-02 | 2023-11-28 | Panasonic Intellectual Property Management Co., Ltd. | Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method, and non-transitory computer-readable storage medium |
JP2019084249A (ja) * | 2017-11-09 | 2019-06-06 | Phcホールディングス株式会社 | 認知症診断装置、認知症診断方法、及び認知症診断プログラム |
JP6263308B1 (ja) * | 2017-11-09 | 2018-01-17 | パナソニックヘルスケアホールディングス株式会社 | 認知症診断装置、認知症診断方法、及び認知症診断プログラム |
JP2019133305A (ja) * | 2018-01-30 | 2019-08-08 | 東芝情報システム株式会社 | カオス尺度補正装置及びカオス尺度補正用プログラム |
JP2020184128A (ja) * | 2019-05-05 | 2020-11-12 | Assest株式会社 | 疲労度判別プログラム |
WO2021106825A1 (ja) * | 2019-11-25 | 2021-06-03 | 学校法人 慶應義塾 | 疾患予測装置、予測モデル生成装置および疾患予測用プログラム |
JP7486208B2 (ja) | 2019-11-25 | 2024-05-17 | 慶應義塾 | 疾患予測装置、予測モデル生成装置および疾患予測用プログラム |
US11896847B2 (en) | 2020-02-07 | 2024-02-13 | Elekta, Inc. | Adversarial prediction of radiotherapy treatment plans |
WO2021245728A1 (ja) * | 2020-06-01 | 2021-12-09 | サスメド株式会社 | 疾患推定システム、教師データ取得装置および教師データ取得用プログラム |
JP7303595B1 (ja) * | 2021-11-25 | 2023-07-05 | 株式会社CaTe | プログラム、情報処理装置、および情報処理方法 |
WO2023095581A1 (ja) * | 2021-11-25 | 2023-06-01 | 株式会社CaTe | プログラム、情報処理装置、および情報処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004240394A (ja) | 話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラム | |
US10130292B2 (en) | Method for analyzing stress based on multi-measured bio-signals | |
JP6263308B1 (ja) | 認知症診断装置、認知症診断方法、及び認知症診断プログラム | |
US7315821B2 (en) | System and method for health care information processing based on acoustic features | |
US20160249842A1 (en) | Diagnosing system for consciousness level measurement and method thereof | |
US20080045805A1 (en) | Method and System of Indicating a Condition of an Individual | |
KR20180099403A (ko) | 온라인 심리상담 시스템 및 이를 이용한 온라인 심리상담 방법 | |
US20130172693A1 (en) | Diagnosing system for consciousness level measurement and method thereof | |
CN109637627A (zh) | 心理咨询管理*** | |
CN115862868A (zh) | 心理测评***、平台、电子设备及存储介质 | |
JP2021058573A (ja) | 認知機能予測装置、認知機能予測方法、プログラム及びシステム | |
WO2022176808A1 (ja) | 情報処理システム、情報処理装置、情報処理方法及び情報処理プログラム | |
KR100596099B1 (ko) | 심신 진단 시스템 | |
JP3764663B2 (ja) | 心身診断システム | |
KR102458977B1 (ko) | 정신 건강 진단 시스템 | |
JP2003319921A (ja) | 集団状態における心身状態の評価方法,同評価装置,同評価システムおよびプログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
US20220005494A1 (en) | Speech analysis devices and methods for identifying migraine attacks | |
US10820851B2 (en) | Diagnosing system for consciousness level measurement and method thereof | |
JP3973434B2 (ja) | 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体 | |
KR102386604B1 (ko) | 이명 상담 지원 시스템 | |
JP7307507B2 (ja) | 病態解析システム、病態解析装置、病態解析方法、及び病態解析プログラム | |
JP2002015071A (ja) | 健康管理システム | |
JP2020166359A (ja) | プログラム及び情報処理装置 | |
KR100654135B1 (ko) | 노인의 감성을 아바타로 표시하는 무선 이동 단말기 및 그 무선 이동 단말기를 이용한 서비스 방법 | |
Uraguchi et al. | Evaluation of smart devices in the IoT segment using medical healthcare technology MIMOSYS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060619 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090731 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091006 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100216 |