JP2004240394A

JP2004240394A - 話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラム

Info

Publication number: JP2004240394A
Application number: JP2003182824A
Authority: JP
Inventors: Hiroshi Tanimoto; 広志谷本
Original assignee: SENSE IT SMART CORP
Current assignee: SENSE IT SMART CORP
Priority date: 2002-12-12
Filing date: 2003-06-26
Publication date: 2004-08-26

Abstract

【課題】ユーザが自分の健康状態をいつでも好きな場所で簡単にチェックできるようにする。
【解決手段】ユーザの携帯電話１ａ，１ｂより入力した話者音声をＣＴＩサーバ５およびＤＢサーバ６を通じてデータベース７に録音し、当該録音した話者音声を解析サーバ８にてカオス解析してユーザの疲労度を表す特徴量を求め、その解析結果を、ＷＥＢサーバ４を通じて携帯電話１ａ，１ｂに提示するようにすることにより、ユーザが任意の場所で携帯電話１ａ，１ｂを利用して声を録音するだけで、これまでは曖昧な表現でしか表せなかった「疲労度」を、明確な数値として提供できるようにする。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラムに関し、特に、パターン認識を得意とするニューラルネットワークを使用して、日々不規則的に変化するユーザの音声のゆらぎを解析し、健康や精神の状態を数値として算出する方式に関するものである。
【０００２】
【従来の技術】
近年は健康志向ブームである。折から様々な健康関連商品が市販され、多くの人が以前にも増して自分の健康に気を遣うようになっている。ところで、半健康状態の原因の多くは、現代社会に蔓延するストレスによると云われている。大人に限らず、青少年にもストレスが溜まっており、それに起因する病気も多い。
【０００３】
このような中、自分の健康状態を自身でチェックする努力が成されている。そのための計測装置として、体重計、体脂肪率計、血圧計、脈拍計などが提供されている。
【０００４】
【発明が解決しようとする課題】
しかしながら、体重計や体脂肪率計などは比較的簡単に使用できるものの、これが置かれている家庭内で使用できるのみで、外出先などでいつでも自由に計測することができないという問題があった。また、この計測値だけでそのときの健康状態を把握するのは実質的に不可能であるという問題もあった。
【０００５】
また、血圧計や脈拍計にいたっては、いつでもどこでも自由に計測することができないばかりでなく、計測するためには収納場所から装置を取り出してバンドを腕に巻き、スイッチを入れてから暫くの時間待たなければならず、取り扱いが非常に面倒であるという問題もあった。
【０００６】
本発明は、このような問題を解決するために成されたものであり、自分の健康状態をいつでも好きな場所で簡単にチェックできるようにすることを目的としている。
【０００７】
【課題を解決するための手段】
本発明の話者音声解析システムは、サーバ装置とクライアント装置とがネットワークを介して接続可能に構成されたシステムであって、上記サーバ装置は、上記クライアント装置より入力されたユーザの話者音声を当該クライアント装置から上記ネットワークを介して取得する話者音声取得手段と、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備え、上記クライアント装置は、上記ユーザの話者音声を入力する音声入力手段と、上記音声入力手段により入力された上記話者音声を上記サーバ装置に向けて提供する話者音声提供手段と、上記解析結果提供手段により上記サーバ装置から提供された上記解析結果を取得して出力する解析結果取得および出力手段とを備えたことを特徴とする。
【０００８】
本発明の他の態様では、上記話者音声解析手段は、上記話者音声取得手段により取得した上記話者音声をもとに、音声のカオス性特徴量である状態ベクトルを算出する特徴量算出手段と、上記特徴量算出手段により求められた状態ベクトルを入力し、当該状態ベクトルと複数の係数とを用いたニューラルネットワーク演算を行うことにより、上記ユーザの健康状態や精神状態等を表す指標値を求めるニューラルネットワーク演算手段とを備えて構成されることを特徴とする。
【０００９】
本発明の他の態様では、上記ユーザの健康状態や精神状態等を表す指標値に関する目標値を算出する目標値算出手段と、上記状態ベクトルが上記ニューラルネットワークの入力に与えられたときの上記ニューラルネットワークの出力値と、上記目標値算出手段により求められた目標値との誤差を最小化することによって、上記ニューラルネットワーク内の複数の係数を最適化させる学習手段とを備えたことを特徴とする。
【００１０】
本発明の他の態様では、上記目標値算出手段は、フリッカー試験および被験者が自身で疲労の具合をアンケート形式で答える調査の結果得られるデータ値を利用して所定の演算を行うことにより、疲労度の目標値を算出することを特徴とする。
【００１１】
また、本発明のサーバ装置は、クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段と、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備えたことを特徴とする。
【００１２】
また、本発明による話者音声の解析を利用した健康診断方法は、クライアント装置にてユーザの話者音声を入力してネットワークを介してサーバ装置に送信する話者音声送信ステップと、上記話者音声送信ステップで送信された上記話者音声を上記サーバ装置が受信する話者音声受信ステップと、上記話者音声受信ステップで受信した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析ステップと、上記話者音声解析ステップで解析された結果を上記クライアント装置に向けて提供する解析結果提供ステップと、上記解析結果提供ステップで提供された解析結果を上記クライアント装置が取得して出力する解析結果出力ステップとを有することを特徴とする。
【００１３】
また、本発明の話者音声解析プログラムは、クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段、および上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段、としてコンピュータを機能させるためのものである。
【００１４】
【発明の実施の形態】
以下、本発明の一実施形態を図面に基づいて説明する。
図１は、本実施形態による話者音声解析システムの全体構成例を示すブロック図である。
【００１５】
図１において、１ａ，１ｂはユーザが使用する携帯電話であり、通話機能やインターネット接続機能を備えている。２ａは携帯電話パケット網、２ｂはインターネット、２ｃは公衆回線網である。３はファイアウォール機能を備えたルータ、４はＷＥＢサーバ、５はＣＴＩ（ＣｏｍｐｕｔｅｒＴｅｌｅｐｈｏｎｙＩｎｔｅｇｒａｔｉｏｎ）サーバ、６はＤＢサーバ、７はデータベース（ＤＢ）、８は解析サーバである。
【００１６】
ＷＥＢサーバ４は、ユーザに対するインタフェースとしてＷＷＷブラウザ画面を携帯電話１ａ，１ｂに提供し、当該ブラウザ画面を通じて携帯電話１ａ，１ｂから必要な情報を取得したり、話者音声の解析結果を出力したりする。ＷＷＷブラウザ画面を通じて取得する情報の中には、ユーザの個人情報（氏名、メールアドレス、携帯電話番号、性別等の基本情報の他、生年月日、血液型、出身地、体調、性格、パスワード等の追加情報を含む）、種々のメニュー操作情報がある。
【００１７】
ＣＴＩサーバ５は、携帯電話１ａ，１ｂのダイヤル操作に合わせて、あらかじめ録音してある音声を自動的に再生し、当該音声による自動応答を行って携帯電話１ａ，１ｂから必要な情報を取得する。ここで取得する情報は、ユーザの話者音声である。この話者音声は、どのような言葉を発したものであっても良いが、例えば２〜１０秒程度の音声を取得するものとする。好ましくは、予備実験をして、音声のゆらぎ（カオス性）を抽出しやすい言葉を特定し、その言葉を発するようにする。
【００１８】
上述のＷＥＢサーバ４によって携帯電話１ａ，１ｂに提供されるブラウザ画面上には、ユーザがＣＴＩサーバ５に対して簡単に電話をかけることができるように、“＜ａｈｒｅｆ＝“ｔｅｌ：電話番号”＞”というタグがＨＴＭＬにて記述されている。ユーザがブラウザ画面上で“ＴＥＬ”というリンクを選択すると、携帯電話１ａ，１ｂが自動的にＣＴＩサーバ５に電話をかけるようになっている。ＣＴＩサーバ５はこの自動コール機能によりかけられてきた電話の自動着信を行う。その後、音声による自動応答を行うことによってユーザの声を録音し、ＤＢサーバ６を通じてデータベース７に登録する。
【００１９】
ＤＢサーバ６は、ＷＥＢサーバ４、ＣＴＩサーバ５および解析サーバ８の各サーバ間で共有される情報の管理を行う。例えば、ＷＥＢサーバ４およびＣＴＩサーバ５を通じて携帯電話１ａ，１ｂから取得したデータ（個人情報データ、話者音声データ等）や、解析サーバ８により行われた話者音声の解析結果をデータベース７に保存する。また、携帯電話１ａ，１ｂからの要求に応じて、上述の解析結果をデータベース７から取り出してＷＥＢサーバ４に提供する。
【００２０】
解析サーバ８は、ＣＴＩサーバ５からの解析要求を監視し、要求検出時に所定の解析処理を実行する。すなわち、解析サーバ８は、ＣＴＩサーバ５から解析要求のあった話者音声をデータベース７より読み込み、これをカオス解析する。そして、その解析結果をＤＢサーバ６に供給してデータベース７に保存する。このカオス解析の詳細については後述する。
【００２１】
上記ルータ３、ＷＥＢサーバ４、ＣＴＩサーバ５、ＤＢサーバ６、データベース７および解析サーバ８により本実施形態のサーバ装置１０が構成される。このサーバ装置１０を構成するそれぞれのサーバは、実際にはコンピュータのＣＰＵあるいはＭＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭに記憶されたプログラムが動作することによって実現できる。
【００２２】
したがって、コンピュータが本実施形態の機能を果たすように動作させるプログラムを例えばＣＤ−ＲＯＭのような記録媒体に記録し、コンピュータに読み込ませることによって実現できるものである。上記プログラムを記録する記録媒体としては、ＣＤ−ＲＯＭ以外に、フレキシブルディスク、ハードディスク、磁気テープ、光ディスク、光磁気ディスク、ＤＶＤ、不揮発性メモリカード等を用いることができる。また、上記プログラムをインターネット２ｂ等のネットワークを介してコンピュータにダウンロードすることによっても実現できる。
【００２３】
また、本実施形態によるサーバ装置１０の機能をネットワーク環境で実現するべく、全部あるいは一部のプログラムが他のコンピュータで実行されるようになっていても良い。
【００２４】
また、コンピュータが供給されたプログラムを実行することにより本実施形態の機能が実現されるだけでなく、そのプログラムがコンピュータにおいて稼働しているＯＳ（オペレーティングシステム）あるいは他のアプリケーションソフト等と共同して本実施形態の機能が実現される場合や、供給されたプログラムの処理の全てあるいは一部がコンピュータの機能拡張ボードや機能拡張ユニットにより行われて本実施形態の機能が実現される場合も、かかるプログラムは本実施形態に含まれる。
【００２５】
次に、上記のように構成した本実施形態による話者音声解析システムの動作について説明する。図２は、当該解析システムの全体的な動作を示すシーケンスフローチャートである。図２に示すように、最初にユーザは、携帯電話１ａ，１ｂからＷＥＢサーバ４にアクセスし、これによって提供されるブラウザ画面上でメニュー操作をして、お疲れ診断サイトに入る（ステップＳ１）。
【００２６】
図３は、携帯電話１ａ，１ｂに表示されるメニュー画面の例を示す図である。図３（ａ）に示すトップメニューにおいて、“最新情報”または“受診受付”の項目を選択し、更にメニュー操作を続けていくと、“診断”という項目（図示せず）が現れる。この項目を選択することにより、図３（ｂ）のような画面が表示され、自己チェックを開始する準備ができる。
【００２７】
次に、図３（ｂ）の画面上でユーザが“電話をする”の項目を選択すると（ステップＳ２）、これに応じて携帯電話１ａ，１ｂがＣＴＩサーバ５に対して自動的に電話をかける（ステップＳ３）。ＣＴＩサーバ５は、ＷＥＢサーバ４の自動コール機能によりかけられてきた電話を自動で着信すると、携帯電話１ａ，１ｂに対して音声による自動応答を行うことにより、ユーザに音声の録音を促す（ステップＳ４）。
【００２８】
ユーザは、ＣＴＩサーバ５により行われる音声ガイダンスに従って自分の声を入力した後、“＃”のボタンを押下する。これによりＣＴＩサーバ５は、ユーザの話者音声を取得し、これをデータベース７に保存する（ステップＳ５）。そして、携帯電話１ａ，１ｂに録音終了メッセージを出力して携帯電話１ａ，１ｂとの回線を切断する（ステップＳ６）。
【００２９】
図４は、上記ステップＳ４〜Ｓ６の処理内容を詳細に示すフローチャートである。図４において、ＣＴＩサーバ５は、携帯電話１ａ，１ｂからの着信があったかどうかを監視しており（ステップＳ１１）、着信があると、まずは冒頭メッセージ（“あなたの声を登録してチェックを行います。ガイダンスに従って操作して下さい。”など）を出力する（ステップＳ１２）。
【００３０】
次にＣＴＩサーバ５は、“発信音の後に音声を登録し、＃を押して下さい。”などのメッセージを流すことにより、ユーザに音声の録音を要求する（ステップＳ１３）。これに応じてユーザは、自分の声を入力した後、“＃”のボタンを押下することによって音声を録音する（ステップＳ１４）。次に、ＣＴＩサーバ５は、録音された音声を再生し（ステップＳ１５）、その内容で良いかどうかをユーザに確かめる（ステップＳ１６）。
【００３１】
例えば、内容が良ければ“＃”、内容を変更する場合は“９”のプッシュボタンを押すようにメッセージを流す。そして、“９”のプッシュボタンが押されたときにはステップＳ１３に戻り、音声の録音をやり直す。また、“＃”のプッシュボタンが押されたときは、“音声を登録しました。”などの終了メッセージを出力した後（ステップＳ１７）、回線を切断する（ステップＳ１８）。
【００３２】
図２に戻り、以上のようにして話者音声の録音が完了すると、次にＣＴＩサーバ５は、録音した話者音声の解析を解析サーバ８に対して要求する（ステップＳ７）。この解析要求を受信した解析サーバ８は、後で詳述するカオス解析処理を行って、その解析結果をデータベース７に保存する（ステップＳ８）。その後、ユーザは、ＷＥＢサーバ４にアクセスして携帯電話１ａ，１ｂのメニュー画面から“診断結果表示”の項目を選択すると、ＷＥＢサーバ４は要求された解析結果をデータベース７から取り出して表示する（ステップＳ９）。
【００３３】
図５および図６は、解析サーバ８の動作を示すフローチャートである。このうち図５は解析サーバ８のメイン動作を示すフローチャート、図６はカオス解析処理の詳細動作を示すフローチャートである。図５において、最初に電源が投入されると、解析サーバ８は、システム情報設定などの所定の初期化処理を行う（ステップＳ２１）。
【００３４】
次に、解析サーバ８は、本処理終了チェックを行い（ステップＳ２２）、終了要求があったかどうかを判断する（ステップＳ２３）。終了要求がない場合はカオス解析処理を行う（ステップＳ２４）。その後一定時間スリープ状態になった後（ステップＳ２５）、ステップＳ２２に戻る。一方、本処理終了要求があった場合は、所定の後処理を行って（ステップＳ２６）、本処理を終了する。
【００３５】
上記ステップＳ２４のカオス解析処理は、図６のフローチャートに従って行われる。図６において、解析サーバ８は、解析要求チェックを行い（ステップＳ３１）、ＣＴＩサーバ５からの解析要求があったかどうかを判断する（ステップＳ３２）。解析要求がない場合はそのままカオス解析処理を抜ける。一方、解析要求があった場合は、データベース７に録音されている話者音声のデータから解析データを抽出する（ステップＳ３３）。
【００３６】
この解析データの抽出は、以下のようにして行う。すなわち、まず、データベース７に録音されている音声の時系列データから、あらかじめ指定されたサンプル点数分のデータを、無音部除去処理のために時系列の中央部から抽出する。例えば、音声時系列データの絶対値の最大値を求め、ある１点から２０点連続でデータ値が先に求めた最大値の５分の１（２０％）未満の場合は、それらの点を省略する。また、１点でも最大値の５分の１（２０％）以上のデータがあった場合は、その２０点の中間点を出力データとする。全音声時系列データの中央部から、この出力データをあらかじめ指定されたサンプル点数分抽出する。
【００３７】
時系列の解析データを抽出した後、解析サーバ８は、その時系列データをカオス計算し、話者音声の特徴量を求める（ステップＳ３４）。このカオス計算では、最初にリアプノフ指数（Ｌ）、エントロピー（Ｅ）、Ｆ−ｃｏｎｓｔａｎｔ（Ｆ）の３つのパラメータを計算し、計算した各パラメータをニューラルネットワークプログラムに入力することにより、話者音声の時系列データを数値化する。
【００３８】
リアプノフ指数とは、ｘ_ｎ＋１＝ｆ（ｘ_ｎ）で表される力学系において、接近した２点から出発した２つの軌跡に関する時間ｎ→∞での乖離度を意味し、次の（式１）で定義される。ここで、Ｎは再構成ベクトルの総数である。
【００３９】
【数１】

【００４０】
また、エントロピーとは、系の不規則性の定量的な目安あるいは系の状態を指定するのに必要な情報量を意味し、次の（式２）で定義される。ここでは、ある測定の結果が必ず単位区間上にあるような仮想的な統計系を考え、この区間をＮ個の小区間に分割する。そして、ｉ番目の小区間が可能な結果のうちのある特定の範囲を含むならば、それに確立Ｐ_ｉを割り当てることができる。分かりやすく表現すると、エントロピーが小さいほど整理されて、利用価値が高い情報量であり、エントロピーが大きいほど乱れていて、役に立たない情報量と言える。
【００４１】
【数２】

【００４２】
また、フラクタル次元とは、通常の次元の概念を非整数の領域まで拡張したもので、ヒグチフラクタル次元、ハウスドルフ（Ｈａｕｓｄｏｒｆｆ）次元、相関次元等が提案されている。このうちヒグチフラクタル次元は、時系列波形を１次元の幾何構造とみなしたときの形状的な複雑さの程度を意味し、構造が複雑、すなわち、変動が大きいほど大きな値をとる。
【００４３】
このヒグチフラクタル次元の計算アルゴリズムでは、等時間間隔でサンプリングされた時系列データＸ（１），Ｘ（２），・・・，Ｘ（Ｎ）を入力データとする。まず、この入力された時系列データから、次の（式３）で示すような新しい時系列データＸ^ｍ _ｋを作る。ここで、ｍは初期時間、ｋは時間間隔であり、［］はガウス記号を表す（（Ｎ−ｍ）／ｋを超えない整数値）。
【００４４】
【数３】

【００４５】
このアルゴリズムによれば、結局、ｋ組の時系列データを作ることになる。例えば、ｋ＝３、Ｎ＝１００の場合は、
Ｘ^１ _３：Ｘ（１），Ｘ（４），Ｘ（７），・・・，Ｘ（９７），Ｘ（１００）
Ｘ^２ _３：Ｘ（２），Ｘ（５），Ｘ（８），・・・，Ｘ（９８）
Ｘ^３ _３：Ｘ（３），Ｘ（６），Ｘ（９），・・・，Ｘ（９９）
の３組の時系列データを生成する。
【００４６】
次に、時系列データＸ^ｍ _ｋの曲線の長さＬ_ｍ（ｋ）を、次の（式４）のように定義する。ここで、（Ｎ−１）／｛［（Ｎ−ｍ）／ｋ］・ｋ｝の項は、時系列の曲線の長さを標準化するための係数である。
【００４７】
【数４】

【００４８】
ｋ組の時系列データＸ^ｍ _ｋについて求めた曲線の長さＬ_ｍ（ｋ）の平均を＜Ｌ（ｋ）＞とし、これを時間間隔ｋの曲線の長さと定義する。もし、＜Ｌ（ｋ）＞∝ｋ^−Ｄの関係が成り立てば、Ｄがフラクタル次元となる。すなわち、横軸をｌｏｇ_１０ｋ、縦軸をｌｏｇ_１０＜Ｌ（ｋ）＞として点をプロットして直線部分の傾きを求め、これに−１をかけた値がヒグチフラクタル次元となる。
【００４９】
Ｆ−ｃｏｎｓｔａｎｔは、ヒグチフラクタル次元の計算結果について、横軸ｌｏｇ_１０ｋが１０以下と１０以上とで分離して傾きを求めてＤ１，Ｄ２とし、Ｆ−ｃｏｎｓｔａｎｔ＝（Ｄ２＋Ｄ１）／（Ｄ２−Ｄ１）の式によって求める。すなわち、Ｄ１はミクロな時間スケールにおけるフラクタル次元、Ｄ２はマクロな時間スケールにおけるフラクタル次元となる。このようにＦ−ｃｏｎｓｔａｎｔは、小さなスケールと大きなスケールのフラクタル次元の関係を表す。
【００５０】
従来、人は一定の状態を維持していることが健康であると考えられてきた。しかし、最近の研究では、一定の状態を保つのではなく、適度な「ゆらぎ」があった方がより健康的であり、外的要因に対して適応力があることが分かっている（ホメオダイナミクス）。そこで、本実施形態では、携帯電話１ａ，１ｂで録音した声からその人の「ゆらぎ」特有のデータ（リアプノフ指数、エントロピー、Ｆ−ｃｏｎｓｔａｎｔ）を抽出し、これをニューラルネットワークにより解析してその人の疲労度を数値によって表現する。
【００５１】
図７は、本実施形態によるニューラルネットワーク演算の例を示す図である。図７に示すように、本実施形態のニューラルネットワークは、入力層１つ、中間層２つおよび出力層１つからなる４層構造を有している。入力層に音声のカオス性特徴量である状態ベクトル（Ｌ，Ｅ，Ｆ）を入力し、中間層の各層間を結ぶ結線の重み係数を変更していくことで、出力層から適当な数値を出力する。
【００５２】
そして、出力された複数の数値Ａ−１〜Ａ−３のうち値が最も大きなものを、ユーザの疲労度を表す数値Ａとして決定する。この疲労度を表す数値Ａは０〜１の間で正規化されたものであり、これに基づいてユーザの疲労度が、例えば図８に示すように０〜１００の何れかの値で表される。なお、図７では説明の簡便上、第１中間層は４個、第２中間層は３個、出力層は３個のノードのみを示しているが、各層においてより多くのノード（例えば、第１中間層、第２中間層、出力層の何れも１００個）を含むように階層構造を構成しても良い。
【００５３】
図７の例で、ニューラルネットワーク内の演算にはシグモイド関数を使用する。なお、ここで用いる層間結線の係数の初期データとしては、例えばシステムの運用前に５０〜１００人程度の被験者に対して事前テストを行い、その結果に応じて算出した適当な値を運用前にシステムに登録する。以下に、この事前テストの詳細について説明する。
【００５４】
事前テストでは、まず、被験者に対してフリッカー試験を行うとともに、疲労度についての自覚症しらべ（被験者が自身で疲労の具合をアンケート形式で答える調査）を行う。フリッカー試験とは、被験者に不連続の点滅光を直視させて、点滅の周波数を徐々に変化させる。そして、被験者がその点滅光のちらつきを感じ始めたとき、あるいは感じなくなったときの点滅の周波数を測定する試験である。
【００５５】
例えば、点滅の周波数を徐々に上げていった場合、これを見ている被験者は、そのうち点滅が感じられなくなっていく。点滅が感じられなくなったときの点滅の周波数をフリッカー値として得る。逆に、点滅の周波数を徐々に下げていき、これを見ている被験者が光のちらつきを感じ始めたときの点滅の周波数をフリッカー値として得ても良い。
【００５６】
フリッカー値は、精神疲労や中枢神経系の覚醒水準の指標として用いられる。値が小さくなるほど疲れているという評価ができる。得られるフリッカー値をより客観性のあるものとするために、フリッカー試験を複数回行って、フリッカー値の平均をとるのが好ましい。ちなみに、個人差はあるが、疲労があまりない通常時のフリッカー値の平均は３８Ｈｚくらいだと言われている。
【００５７】
また、自覚症しらべは、被験者自身がそのときに感じる自覚的疲労度を調査するためのアンケート調査であり、日本産業衛生学会により作成されている。アンケート内容は、次の５つの項目群に分けられる。
Ｉ群眠気感：ねむい、あくびが出る、やる気が乏しい、全身がだるい、等
ＩＩ群不安感：不安な感じ、憂鬱な気分、落ち着かない、いらいらする、等
ＩＩＩ群不快感：頭が痛い、頭が重い、気分が悪い、頭がぼんやりする、等
ＩＶ群だるさ感：腕がだるい、腰が痛い、足がだるい、肩がこる、等
Ｖ群ぼやけ感：目がしょぼつく、目が疲れる、目が乾く、物がぼやける、等
【００５８】
被験者は、これら５つの項目群ごとに設けられた複数の質問に対して、感じる程度に応じて１〜５のレベルで回答する。そして、５つの項目群ごとにスコアの平均値を求め、項目群別に疲労状況を評価する。スコアが大きくなるほど疲れているという評価ができる。
【００５９】
以上に説明したフリッカー値および自覚症しらべのスコアは何れも、疲労度を評価する指標として信頼性のあるものである。本実施形態では、これらの指標を用いて更に客観的な疲労度値を得るために、次の（式５）に基づいて、被験者の疲労度を表した数値（０〜１００の何れかの値をとる）を算出する。
疲労度＝−フリッカー平均値＋０．５×Ｉ群平均スコア＋０．５×ＩＩ群平均スコア＋４×ＩＩＩ群平均スコア＋０．５×ＩＶ群平均スコア＋０．５×Ｖ群平均スコア＋２５・・・（式５）
なお、この（式５）は単なる例示であり、本発明はこの演算内容に限定されるものではない。
【００６０】
次に、被験者の音声データを録音する。この録音した音声データについて状態ベクトル（Ｌ，Ｅ，Ｆ）を算出し、それを図７に示したニューラルネットワークの入力層に入力する。そして、上述の（式５）により算出した疲労度を表す数値にできるだけ近い値が出力層から出力されるように、バックプロパゲーションの学習則によりニューラルネットワークを学習させる。概ね５０〜１００人の被験者に対して学習を行うことにより、未知のユーザの状態ベクトルを入力しても、当該ユーザについてほぼ正しい疲労度を出力することができるようになる。
【００６１】
バックプロパゲーション法（逆誤差伝播法）によるニューラルネットワークの学習は、出力データ（被験者の音声データからニューラルネットワークを通じて求めた疲労度値）と、教師データとの誤差を最小にするように、各結線の係数を調整する。設定誤差の詳細については後述する。
【００６２】
すなわち、バックプロパゲーション法では、ある被験者について（式５）により算出した疲労度値と、同じ被験者について録音した音声データに基づく状態ベクトル（Ｌ，Ｅ，Ｆ）を入力層に入力したときに出力層から出力される疲労度値との誤差が少なくなるように、各結合係数Ｗ１〜Ｗ３を出力層から入力層に向かって変化させていく。
【００６３】
ニューラルネットワークへの入力データをＸ（ｘ_１，ｘ_２，・・・，ｘ_ｊ）、結合係数をＷ（ｗ_１，ｗ_２，・・・，ｗ_ｊ）で表すとすると、これらの結合総和がニューロン状態Ｓとなり、次の（式６）で表される。
Ｓ＝ｘ_１・ｗ_１＋ｘ_２・ｗ_２＋・・・＋ｘ_ｊ・ｗ_ｊ・・・（式６）
このニューロン状態Ｓは、更に活性化関数ｆ（ｓ）によって処理される。ｆ（ｓ）は次の（式７）で表すシグモイド関数で定義され、これにより入力・出力を０から１への連続値で扱うことが可能となる。
ｆ（ｓ）＝１／（１＋ｅ^−Ｓ）・・・（式７）
【００６４】
ニューラルネットワークの出力層に出力データＹ＝ｆ（ｓ）が与えられたら、結合係数Ｗを変更する際の変化分σを求める。変化分σは、次の（式８）のように表されるシグモイド関数の変化量Δｆ（ｓ）に対して、ニューロンの出力データと教師データとの誤差Ｅを掛け合わせることにより、（式９）のように求まる。この変化分σを用いて結合係数Ｗを調整していくことが学習となる。
【００６５】
【数５】

【００６６】
上述したシグモイド関数の変化量Δｆ（ｓ）と誤差Ｅとを掛け合わせることによって、誤差Ｅは、０から１までの小数で表される。このとき、誤差Ｅが大きいと変化分σが大きい値をとり、誤差Ｅが小さいと変化分σが小さい値をとる。出力層につながるニューロンの結合係数Ｗ３を変更するのであれば、当該結合係数Ｗ３の変更は次の（式１０）のようになる。
Ｗ３_ｉｊ（ｔ＋１）＝Ｗ３_ｉｊ（ｔ）＋ａ×σ_ｊ・・・（式１０）
ここで、ａは１未満の結合定数であり、通常は０．８に設定する。
【００６７】
出力層に所属する結合係数Ｗ３を更新した後は、中間層に属する結合係数Ｗ２を変更する。ここでは、上述の（式１０）より新たな変化分σ’が生まれる。この変化分σ’は、次の（式１１）のように、出力層からの結合係数Ｗ３と変化分σとの結合総和に対して、シグモイド関数の変化量Δｆ（ｓ）を掛け合わせたものを用いる。
【００６８】
【数６】

【００６９】
このようにして得た変化分σ’を用いて、出力層に属する結合係数Ｗ３の更新と同様にして、中間層の結合係数Ｗ２を次の（式１２）により変更する。
Ｗ２_ｉｊ（ｔ＋１）＝Ｗ２_ｉｊ（ｔ）＋ａ×σ_ｊ’ ・・・（式１２）
このような計算を、入力層に属する結合係数Ｗ１を更新するまで繰り返し行っていく。
【００７０】
この際、ニューラルネットワークで学習が行われた度合いを表す評価要素が必要となる。その評価要素を評価関数あるいはコスト関数と表現するが、このコスト関数にはＲＭＳ誤差（平均二乗誤差）を用いており、次の（式１３）のようにニューロンの出力データＹと教師データＴとにより表される。このコスト関数を最小とするように、ニューラルネットワークの学習が進められていく。
【００７１】
【数７】

【００７２】
なお、以上のようなニューラルネットワークの学習を通じてシステムに初期設定した係数Ｗ１〜Ｗ３の値は、その初期設定の後（システムの運用中）も任意に変更することが可能である。例えば、これらの係数Ｗ１〜Ｗ３をデータベースに登録して、システムの運用中でもニューラルネットワークの学習により変更可能とする。そのために、システムの運用中に音声の解析を実施したユーザに対しても、その都度フリッカー試験や自覚症しらべのアンケート調査を行い、その結果を用いて係数Ｗ１〜Ｗ３を更新するようにする。
【００７３】
この場合において、フリッカー試験や自覚症しらべをユーザがわざわざ試験室に出向いて行わなくても済むようにするために、これらの試験も携帯電話１ａ，１ｂ上で行えるようにするのが好ましい。具体的には、特定のウェブサイトから携帯電話にプログラムをダウンロードし、当該プログラムに従って携帯電話の画面上に点滅光を表示する。そして、これを見たユーザが点滅光のちらつきを感じ始めたとき、あるいは感じなくなったときに所定のボタンを押すことにより、フリッカー値を得るようにすることが可能である。
【００７４】
また、自覚症しらべに関しては、ＣＧＩ（ＣｏｍｍｏｎＧａｔｅｗａｙＩｎｔｅｒｆａｃｅ）を利用してアンケート調査を行うことが可能である。このようにして携帯電話１ａ，１ｂ上で求めたフリッカー値および自覚症しらべのスコアは、図１のサーバ装置１０に送信して、ＤＢサーバ６を通じてデータベース７に登録する。そして、当該データベース７に登録されたフリッカー値および自覚症しらべのスコアから上述の（式５）に従って教師データを算出し、ニューラルネットワークの学習を行う。
【００７５】
なお、事前テストの際にも、フリッカー試験や自覚症しらべを携帯電話１ａ，１ｂから行うようにしても良い。このようにすれば、事前テスト自体も簡便に行うことができるというメリットを有する。
【００７６】
ここで、ニューラルネットワークと、状態ベクトル（Ｌ，Ｅ，Ｆ）および疲労度値Ａとの関係について概説する。本質的に各座標軸が１つの力学変数と対応づけられているグラフのことを状態空間という。状態空間における１点は、ある時刻におけるシステムの状態を表す。カオス的システムは状態空間において複雑な軌道をとるが、その軌道は状態空間の特定領域だけを通り、他の領域を通ることはない。その軌道によって、カオスアトラクタが描かれる。
【００７７】
このカオスアトラクタは、カオス性を備えた時系列データを多次元状態空間に埋め込むことにより再構成ができる。埋め込みにはターケンスの方法より、埋め込み遅延時間τを用いて１個の状態変数からｎ個の状態変数を復元すればよい。埋め込みができれば、再構成されたカオスアトラクタは元のアトラクタを変形したものとなり、リアプノフ指数Ｌ、エントロピーＥ、ヒグチフラクタル次元Ｆ等が位相的に保存される。１変量の時系列データからカオスアトラクタを再構成するためには、遅延時間座標系への変換による埋め込みを行えばよい。
【００７８】
カオスは、微少な外乱によって軌道不安定性が生じても、状態空間において定常的振る舞いを表すアトラクタの幾何学的構造は変化しないという安定性を有する（「決定論的カオス理論に基づく時系列解析システム」計装８月号Ｖｏｌ．４０、Ｎｏ．８（１９９７））。したがって、本実施形態のニューラルネットワークでは、上述したように状態ベクトル（Ｌ，Ｅ，Ｆ）を入力層に入力して、安定した疲労度値Ａを出力層から出力することができる。
【００７９】
図６に戻って説明する。上記図７に示したような手法によってカオス計算を行い、話者音声の特徴量を求めた後は、データベース７に録音されている当該話者音声のファイルを削除する（ステップＳ３５）。そして、当該カオス計算による解析結果をＤＢサーバ６に供給し、データベース７に登録して（ステップＳ３６）、一連のカオス解析処理を終了する。
【００８０】
上述したように、ユーザは、携帯電話１ａ，１ｂからＷＥＢサーバ４にアクセスすることにより、解析結果をいつでも見ることができる。図９は、携帯電話１ａ，１ｂに表示される診断結果の画面例を示す図である。図９（ａ）に示すように、解析結果表示のトップ画面では、新着の診断結果と過去の診断結果とを一覧で表示する。
【００８１】
このトップ画面で新着の診断結果を選択すると、図９（ｂ）の詳細画面に遷移し、その人の疲労度の詳細を確認できる。また、過去の診断結果の一覧では、疲労度を表す数値が表示されており、疲労度の推移を見ることができる。その中の何れかを選択することにより、過去の診断結果を見ることもできる。
【００８２】
以上詳しく説明したように、本実施形態においては、ユーザの携帯電話１ａ，１ｂより入力した話者音声をＣＴＩサーバ５およびＤＢサーバ６を通じてデータベース７に録音し、当該録音した話者音声を解析サーバ８にてカオス解析してユーザの疲労度を表す特徴量を求める。そして、ユーザからの要求に応じて、解析結果をＷＥＢサーバ４を通じて携帯電話１ａ，１ｂに提示するようにしている。
【００８３】
これにより、ユーザは携帯電話１ａ，１ｂを利用して声を録音するだけで、自分の健康状態をいつでも好きな場所から簡単にチェックすることができる。しかも、これまでは曖昧な表現でしか表せなかった「疲労度」を、明確な数値として得ることができる。また、本システムを継続的に利用することで、疲労度の変化を追いながら生活習慣を正したり、残業を減らしたりするなどの動機付けも得ることができる。
【００８４】
また、本実施形態によれば、フリッカー値および自覚症しらべのスコアを用いて教師データを算出し、これによりニューラルネットワークの学習を行っている。これにより、フリッカー試験および自覚症しらべの結果が反映されたより客観性のある疲労度値を、携帯電話１ａ，１ｂを利用して声を録音するだけで簡単に取得することができる。
【００８５】
なお、上記実施形態では、ユーザが使用する端末として携帯電話１ａ，１ｂを用いているが、音声入力機能とネットワーク接続機能とを備えた携帯用の端末であれば、携帯電話１ａ，１ｂ以外の端末（例えばノート型パーソナルコンピュータ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）等）もユーザ端末として用いることが可能である。
【００８６】
また、上記実施形態では、カオス解析にニューラルネットワークを利用しているが、状態ベクトル（Ｌ，Ｅ，Ｆ）と疲労度値Ａとの相関を演算する手法はこれに限定されるものではない。例えば、統計学的な手法によって相関を演算し、これによって疲労度値Ａを求めるようにしても良い。
【００８７】
また、上記実施形態では、ニューラルネットワークの学習に使う教師データを求める際に、フリッカー試験および自覚症しらべを行う例について説明したが、これに限定されるものではない。すなわち、これらの試験に代えて、あるいは、これらの試験に加えて、尿のｐＨ値やタンパク質等を測定する試験や、血圧や脈拍を測定する試験、脳波や心電図を測定する試験、血中・尿中の代謝物質を測定する試験などの全部または一部を行い、その結果に基づいて所定の演算式により教師データを算出するようにしても良い。このようにすれば、これら複数の試験結果がミックスされた、より客観性のある疲労度値を、携帯電話１ａ，１ｂを利用して音声入力するだけで簡単に取得することができる。
【００８８】
また、上記実施形態では、ユーザの健康状態の一例として疲労度を求める場合について説明したが、本発明はこれに限定されるものではない。例えば、解析サーバ８の音声解析エンジンを改良することで、二日酔い度診断、血液ドロドロ度診断、本気（浮気）度診断、相性診断、うそ発見診断など生体の「ゆらぎ」に関係した解析を行うことも可能である。すなわち、疲労度以外の健康状態や、精神状態などを解析することも可能である。
【００８９】
また、人の音声から痴呆の疑いがあるか否かを診断することも可能である。上述した疲労度のフリッカー試験や自覚症しらべ等と同様、痴呆の診断に関しても、痴呆度を評価する指標として客観的で信頼性のあるものが従来から提供されている。改訂長谷川式簡易知能評価スケール（ＨＤＳ−Ｒ）、ＭＭＳ（Ｍｉｎｉ−ＭｅｎｔａｌＳｔａｔｅ）、かなひろいテストなどのスクリーニングテストが代表的なものである（これらは何れも公知であるので、ここでは詳細な説明は割愛する）。
【００９０】
例えば、被験者にＨＤＳ−Ｒのテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には１点、痴呆の疑いが無いとの結果が得られた場合には０点を与える。また、ＭＭＳのテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には１点、痴呆の疑いが無いとの結果が得られた場合には０点を与える。同様に、かなひろいテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には１点、痴呆の疑いが無いとの結果が得られた場合には０点を与える。そして、これら３つのテスト結果の合計が０〜１点の場合は痴呆の疑い無し、２〜３点の場合は痴呆の疑い有りとする。そして、この結果をニューラルネットワークの教師データとして用いる。
【００９１】
次に、被験者の音声データを録音する。この録音した音声データから状態ベクトル（Ｌ，Ｅ，Ｆ）を抽出し、それをニューラルネットワークの入力層に入力する。ここでのニューラルネットワークは、例えば、３個の入力層（Ｌ，Ｅ，Ｆの３つのカオスパラメータ）、１００個×２個の中間層、２個の出力層（「痴呆の疑い無し」「痴呆の疑い有り」）で構成する。
【００９２】
そして、入力層に３つのカオスパラメータ（Ｌ，Ｅ，Ｆ）を入力したら、出力層において「痴呆の疑い無し」「痴呆の疑い有り」のどちらかのセルが正しく発火するように、バックプロパゲーションの学習則によりニューラルネットワークを学習させる。この場合も、概ね５０〜１００人の被験者に対して学習を行うことにより、未知のユーザの状態ベクトルを入力しても、当該ユーザについてほぼ正しい痴呆度を出力することができるようになる。
【００９３】
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【００９４】
【発明の効果】
以上説明したように本発明によれば、ユーザは携帯用のクライアント装置を利用して声を録音するだけで、自分の健康状態や精神状態等をいつでも好きな場所で簡単にチェックすることができるようになる。
【図面の簡単な説明】
【図１】本実施形態による話者音声解析システムの全体構成を示すブロック図である。
【図２】本実施形態による話者音声解析システムの全体的な動作を示すシーケンスフローチャートである。
【図３】本実施形態の携帯電話に表示されるメニュー画面の例を示す図である。
【図４】本実施形態のＣＴＩサーバにより行われる録音動作を示すフローチャートである。
【図５】本実施形態による解析サーバのメイン動作を示すフローチャートである。
【図６】本実施形態の解析サーバにより行われるカオス解析処理の詳細動作を示すフローチャートである。
【図７】本実施形態の解析サーバにより行われるニューラルネットワーク演算の例を示す図である。
【図８】カオス解析結果の疲労度レベルに関する例を示す図である。
【図９】カオス解析結果の画面表示例を示す図である。
【符号の説明】
１ａ，１ｂ携帯電話
２ａ携帯電話パケット網
２ｂインターネット
２ｃ公衆回線網
３ルータ
４ＷＥＢサーバ
５ＣＴＩサーバ
６ＤＢサーバ
７データベース
８解析サーバ
１０サーバ装置

Claims

サーバ装置とクライアント装置とがネットワークを介して接続可能に構成されたシステムであって、
上記サーバ装置は、上記クライアント装置より入力されたユーザの話者音声を当該クライアント装置から上記ネットワークを介して取得する話者音声取得手段と、
上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、
上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備え、
上記クライアント装置は、上記ユーザの話者音声を入力する音声入力手段と、
上記音声入力手段により入力された上記話者音声を上記サーバ装置に向けて提供する話者音声提供手段と、
上記解析結果提供手段により上記サーバ装置から提供された上記解析結果を取得して出力する解析結果取得および出力手段とを備えたことを特徴とする話者音声解析システム。
上記話者音声解析手段は、上記話者音声取得手段により取得した上記話者音声をもとに、音声のカオス性特徴量である状態ベクトルを算出する特徴量算出手段と、
上記特徴量算出手段により求められた状態ベクトルを入力し、当該状態ベクトルと複数の係数とを用いたニューラルネットワーク演算を行うことにより、上記ユーザの健康状態や精神状態等を表す指標値を求めるニューラルネットワーク演算手段とを備えて構成されることを特徴とする請求項１に記載の話者音声解析システム。
上記ユーザの健康状態や精神状態等を表す指標値に関する目標値を算出する目標値算出手段と、
上記状態ベクトルが上記ニューラルネットワークの入力に与えられたときの上記ニューラルネットワークの出力値と、上記目標値算出手段により求められた目標値との誤差を最小化することによって、上記ニューラルネットワーク内の複数の係数を最適化させる学習手段とを備えたことを特徴とする請求項２に記載の話者音声解析システム。
上記目標値算出手段は、フリッカー試験および被験者が自身で疲労の具合をアンケート形式で答える調査の結果得られるデータ値を利用して所定の演算を行うことにより、疲労度の目標値を算出することを特徴とする請求項３に記載の話者音声解析システム。
クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段と、
上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、
上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備えたことを特徴とするサーバ装置。
クライアント装置にてユーザの話者音声を入力してネットワークを介してサーバ装置に送信する話者音声送信ステップと、
上記話者音声送信ステップで送信された上記話者音声を上記サーバ装置が受信する話者音声受信ステップと、
上記話者音声受信ステップで受信した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析ステップと、
上記話者音声解析ステップで解析された結果を上記クライアント装置に向けて提供する解析結果提供ステップと、
上記解析結果提供ステップで提供された解析結果を上記クライアント装置が取得して出力する解析結果出力ステップとを有することを特徴とする話者音声の解析を利用した健康診断方法。
クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段、
上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段、および
上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段、
としてコンピュータを機能させるための話者音声解析プログラム。