JP2017220807A

JP2017220807A - 音声データ収集システム

Info

Publication number: JP2017220807A
Application number: JP2016114027A
Authority: JP
Inventors: 和人橋本; Kazuto Hashimoto; 久美子小島; Kumiko Kojima
Original assignee: Hitachi Systems Ltd
Current assignee: Hitachi Systems Ltd
Priority date: 2016-06-08
Filing date: 2016-06-08
Publication date: 2017-12-14

Abstract

【課題】より自然で効率的かつ確実に音声データを収集する。【解決手段】ユーザ２の発話に係る音声データを収集する音声データ収集システム１であって、ＰＢＸ１０とＣＴＩサーバ２０とＩＶＲサーバ３０とを有し、ユーザ２から受けた電話での通話におけるユーザ２の発話を音声データとして取得する音声データ収集環境と、各ＩＶＲサーバ３０とネットワークを介して接続され、各ＩＶＲサーバ３０から取得した音声データを処理して処理結果をユーザ２の情報処理端末５３に対して閲覧可能とする音声分析サーバ４０とを有し、音声データ収集環境は、ユーザ２から受けた電話での通話において、ユーザ２に対して回答を求める質問を発出し、ユーザ２からの回答に係る発話を録音して音声データとし、音声データが所定の数に達するまで質問の発出とユーザ２からの回答に係る音声データの取得とを繰り返す。【選択図】図１

Description

本発明は、特定・不特定の多数のユーザからデータを収集する技術に関し、特に、ユーザの音声のデータを収集する音声データ収集システムに適用して有効な技術に関するものである。

本人でも分かりづらい常に変化している心の状態を、人が日常的に発する音声に基づいて把握するという音声病態分析技術がある。この技術では、人の声に含まれる、その人が自然に出してしまった不随意の成分（本音）と、自分が相手に伝えようとして出した随意の成分（建前）のうち、不随意の成分に基づいて感情の状態を数値化・可視化する。

この技術を利用して、人が日常的に発する音声を収集・分析して心の状態をモニタリングし、分析結果を可視化することができるＭＩＭＯＳＹＳ（Mind Monitoring Systems、非特許文献１、登録商標（以下同様））というシステムも開発されている（詳細は、例えば、特開２０１５−１２８５７９号公報（特許文献１）を参照）。これによれば、心の状態が普通、上向き、活発である状態や、時には低調で休息が必要である状態等、ユーザのストレスや心の状態を計測して数値として表すことができる。そして、この技術を広く活用することにより、「うつ」状態等の心身の異常を本人が自覚する前に早期に検知し、適切な治療や対処を行うことで未然に疾病を防ぐことが可能になると期待される。

特開２０１５−１２８５７９号公報

"ＭＩＭＯＳＹＳ｜音声病態分析技術のＰＳＴ株式会社"、［online］、ＰＳＴ株式会社、［平成２８年３月１８日検索］、インターネット＜URL：http://medical-pst.com/products-2/mimosys＞

上述した従来技術では、例えば、スマートフォン等の携帯端末に導入されたアプリケーションプログラムの機能により、音声の収集・解析から可視化までを行うことが可能である。

一方で、携帯端末に導入されたアプリケーションを用いる場合、ユーザが当該アプリケーションを導入し、起動した上で能動的に音声を発話しなければならない。この点、例えば、ユーザが携帯電話で一般の通話を行う際にその通話内容を取得することも有効であると考えられるが、電話による通話自体がいつ行われるか不確定である。よって、これらの手法のみでは、ユーザの音声データを収集するという点で不確実性が高く、また効率性も高くない。国民全体として疾病を未然に防ぐという目的を実現するため、幅広いユーザに様々な場面や状況において広く利用してもらえるような音声データの収集の仕組みが必要である。

そこで本発明の目的は、より自然で効率的かつ確実に音声データを収集できる音声データ収集システムを提供することにある。

本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。

本発明の代表的な実施の形態による音声データ収集システムは、ユーザの発話に係る音声データを収集する音声データ収集システムであって、１つ以上の拠点のそれぞれに対して構成された、ＰＢＸと、ＣＴＩサーバと、ＩＶＲサーバと、を有し、前記ユーザから受けた電話での通話における前記ユーザの発話を前記音声データとして取得する音声データ収集環境と、前記各音声データ収集環境における前記各ＩＶＲサーバとネットワークを介して接続され、前記各ＩＶＲサーバから取得した前記音声データを処理して処理結果を前記ユーザの情報処理端末に対して閲覧可能とする音声分析サーバと、を有するものである。

そして、前記音声データ収集環境は、前記ユーザから受けた電話での通話において、前記ユーザに対して回答を求める質問を発出し、前記質問に対する前記ユーザからの回答に係る発話を録音して前記音声データとし、前記音声データが所定の数に達するまで、前記質問の発出と前記ユーザからの回答に係る前記音声データの取得とを繰り返す。

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

すなわち、本発明の代表的な実施の形態によれば、より自然で効率的かつ確実に音声データを収集できる音声データ収集システムを提供することにある。

本発明の一実施の形態である音声データ収集システムの構成例について概要を示した図である。本発明の一実施の形態における音声データの収集と分析に係る処理の流れの例について概要を示した図である。（ａ）、（ｂ）は、本発明の一実施の形態における音声分析サーバでの分析結果として情報処理端末上に表示される画面の例について概要を示した図である。本発明の一実施の形態における音声データの収集と分析に係る処理の流れの他の例について概要を示した図である。本発明の一実施の形態におけるスマートフォンにより音声データを収集するアプリケーションの画面例について概要を示した図である。本発明の一実施の形態におけるＩＶＲサーバの認証マスタＤＢのデータ構成の例について概要を示した図である。本発明の一実施の形態におけるＩＶＲサーバの音声データＤＢのデータ構成の例について概要を示した図である。本発明の一実施の形態における音声分析サーバの音声データＤＢのデータ構成の例について概要を示した図である。本発明の一実施の形態における音声分析サーバのユーザマスタＤＢのデータ構成の例について概要を示した図である。本発明の一実施の形態における音声分析サーバの分析結果ＤＢのデータ構成の例について概要を示した図である。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。

＜システム構成＞
図１は、本発明の一実施の形態である音声データ収集システムの構成例について概要を示した図である。本実施の形態の音声データ収集システム１は、ユーザ２が電話機５１やスマートフォン５２を介して発話した音声を取得・収集するとともに、これを上述のＭＩＭＯＳＹＳ等の音声病態分析エンジンにより分析し、その結果をユーザ２が閲覧可能なように可視化するシステムである。

音声データ収集システム１は、例えば、ＰＢＸ（Private Branch eXchange：構内交換機）１０、ＣＴＩ（Computer Telephony Integration）サーバ２０、ＩＶＲ（Interactive Voice Response：自動音声応答装置）サーバ３０からなる音声データ収集環境、および音声分析サーバ４０の各サブシステムからなる情報処理システムである。音声データ収集環境は、例えば、オフィスビル等の拠点毎に独立して複数構築することができる。

ＰＢＸ１０は、所定の電話番号に対応して、当該電話番号への複数のユーザ２からの電話機５１による通話を受け付ける交換機である。電話番号は、例えばフリーダイヤル（登録商標）であってもよいしオフィスビル等における内線番号であってもよい。ＰＢＸ１０には、一般的に用いられるＰＢＸ機器を適宜使用することができる。なお、電話機５１は、固定電話や携帯電話、スマートフォンなど特に限定されない。内線電話であってもよい。

ＣＴＩサーバ２０は、ＰＢＸ１０により受け付けた電話機５１からの通話によるアクセスをＩＶＲサーバ３０等の情報処理システムに連携する機能を有するサーバ機器である。ＣＴＩサーバ２０についても、一般的に用いられるＣＴＩ機器を適宜利用することができる。本実施の形態では、ＣＴＩサーバ２０は、例えば、図示しないＯＳ（Operating System）やＤＢＭＳ（DataBase Management System）、ＣＴＩソフトウェア等のミドルウェア上で稼働するソフトウェアプログラムやスクリプト等として実装された収集制御部２１を有する。収集制御部２１は、後述するＩＶＲサーバ３０と連携して、ユーザ２から発話に伴う音声データを取得・収集するための一連の処理フローを実行・制御する。

ＩＶＲサーバ３０は、ＣＴＩサーバ２０と連携し、ユーザ２の電話機５１による通話に対して予め設定された内容に基づいて所定の音声ガイダンスを出力する機能を有するサーバ機器である。本実施の形態では、一般的なＣＴＩ／ＩＶＲによる音声案内システムやコールセンターシステムでの利用形態とは異なり、通話内容からユーザ２の音声データを取得して音声データＤＢ３４に記録するため、ユーザ２に発話を促すような音声ガイダンスを行うものである。

ＩＶＲサーバ３０は、例えば、図示しないＯＳやＤＢＭＳ、ＩＶＲソフトウェア等のミドルウェア上で稼働するソフトウェアプログラムやスクリプト等として実装された認証部３１および音声収集部３２などの各部を有する。また、データベース等として実装された認証マスタデータベース（ＤＢ）３３および音声データＤＢ３４等の各データストアを有する。

認証部３１は、電話機５１からの通話によるアクセスを行っているユーザ２に対する認証を行う機能を有する。本実施の形態では、後述するように、ユーザ２が電話機５１を操作して一連の数字をプッシュすることによりＩＤコードを入力し、入力されたＩＤコードが認証マスタＤＢ３３に登録されているか否かを認証部３１が照合することにより認証を行う。認証手法はこれに限られず、例えば、ＩＤコード以外の他の情報を入力させてこれを照合するようにしてもよい。また、後述する音声収集部３２により取得したユーザ２の音声の情報に基づいて、公知の声紋認証技術等を用いて認証を行なってもよい。

音声収集部３２は、予め音声ガイダンス情報３５に登録されている音声ガイダンスのパターンに基づいて、ユーザ２からの電話機５１による通話に対して音声でのガイダンスを自動的に行う機能を有する。そして、ガイダンスに対する応答としてユーザ２が発話した音声の内容をデジタルデータとして録音し、音声データＤＢ３４に記録する。

音声の情報に基づいて、後述する音声分析サーバ４０で音声病態分析を精度よく行うには、発話として区切ることができる単位での音声データを複数個（例えば、７、８個程度）取得することが望ましい。本実施の形態では、後述するように、複数個の音声データを取得できるよう、音声ガイダンスとして複数個の質問をユーザ２に対して発出し、その回答を音声データとしてそれぞれ記録するものとする。

質問は、予め設定された一定のパターンのものを毎回用いてもよいし、予め用意した質問候補の中から必要数の質問をランダムもしくは所定の基準により選択して用いるようにしてもよい。ユーザ２のＩＤコードに基づいて認証マスタＤＢ３３等からユーザの属性情報を取得し、これに応じて質問を切り替えてもよい。また、回答内容を即時に音声認識して解析し、回答内容に応じて質問を切り替えてもよい。

上記のＰＢＸ１０、ＣＴＩサーバ２０、およびＩＶＲサーバ３０からなる音声データ収集環境により、ユーザ２が電話機５１を利用して通話を行った際の音声データを収集するサービスを提供する。本実施の形態では、音声データの収集手段はこれに限られない。例えば、ユーザ２がスマートフォン５２を利用してスマートフォン５２上に録音した音声データを用いることもできる。この場合は、電話サービスのキャリアの通話品質に左右されずに音声データを取得することが可能である。これらの手段により収集された音声データは、収集手段による区別なく共通に、後述する音声分析サーバ４０での分析のために用いられる。このように、音声データの収集手段を複数設けることにより、ユーザ２の状況に応じた簡易・適切な手段で音声データを収集することが可能となる。

音声分析サーバ４０は、各音声データ収集環境のＩＶＲサーバ３０や、ユーザ２が使用するスマートフォン５２等から音声データを取得して音声データＤＢ４５として記録し、その内容を上述のＭＩＭＯＳＹＳ等の音声病態分析エンジンにより分析し、結果をユーザ２が閲覧可能なように可視化するサーバ機器である。例えば、クラウドコンピューティング環境に構築された仮想サーバにより構成され、各拠点の音声データ収集環境に対して音声病態分析の機能をクラウドサービスとして提供する構成とすることができる。

本実施の形態の音声分析サーバ４０は、例えば、図示しないＯＳやＤＢＭＳ、Ｗｅｂサーバプログラム等のミドルウェア上で稼働するソフトウェアプログラムとして実装された音声データ取得部４１、音声分析部４２、分析結果処理部４３、およびユーザインタフェース（ＩＦ）部４４などの各部を有する。また、データベース等として実装された音声データＤＢ４５、ユーザマスタＤＢ４６、および分析結果ＤＢ４７などの各データストアを有する。

音声データ取得部４１は、音声データ収集環境のＩＶＲサーバ３０や、ユーザ２が使用するスマートフォン５２等から音声データを取得し、音声データＤＢ４５として記録する機能を有する。例えば、各拠点のＩＶＲサーバ３０にて取得された音声データＤＢ３４のうち未処理のものは、一定時間毎（例えば１時間毎）のバッチ処理にて音声分析サーバ４０に送信される。音声データのサイズやネットワークの帯域等との関係で、リアルタイムもしくはこれに近い状態での送信が可能な場合は、ＩＶＲサーバ３０で取得された音声データを、都度リアルタイムで音声分析サーバ４０に送信する構成とすることも可能である。

また、スマートフォン５２上の図示しないアプリケーションからリアルタイムで送信される音声データを受信して音声データＤＢ４５に記録するようにしてもよい。音声データ取得部４１は、音声データ収集環境のＩＶＲサーバ３０やユーザ２のスマートフォン５２から送信された音声データについて、必要に応じてフォーマット変換する等の処理や加工を行って音声データＤＢ４５に記録する。

音声分析部４２は、音声データＤＢ４５に記録されたユーザ２毎の音声データについて、音声病態分析を行なって心の状態（現在の状態、時系列での変化の状況）を把握する機能を有する。本実施の形態では、上述のＭＩＭＯＳＹＳ等の音声病態分析エンジンを含んで実装される。音声データＤＢ４５に新たに音声データが記録されたことをトリガーとして、未処理の音声データについて都度リアルタイムで分析を行うようにしてもよいし、一定時間毎（例えば１時間毎）に、音声データＤＢ４５に蓄積されている未処理の音声データについて一括して分析を行うようにしてもよい。

分析結果処理部４３は、音声分析部４２により音声病態分析が行われた結果を取得して、これをユーザ２毎に可視化して分析結果ＤＢ４７に記録する機能を有する。可視化とは、例えば、分析結果の出力データを、ユーザ２に提示できるような文字情報や数値情報、評価情報等に変換等するとともに、情報処理端末５３上に表示できるような画面データや画像データを生成する処理を含む。このとき、例えば、ユーザ２毎の属性情報や独自の設定情報等を保持するユーザマスタＤＢ４６を参照して、ユーザ２に即した可視化を行うようにしてもよい。

ユーザＩＦ部４４は、情報処理端末５３を介したユーザ２からの要求を受け付けて、分析結果ＤＢ４７に記録された可視化されたデータを情報処理端末５３の画面上に表示させる機能を有する。まだユーザ登録しておらず、ＩＤコード等のアカウント情報を有していない不特定のユーザ２に対して、新たにアカウント情報を登録してＩＤコードを発行する機能を有していてもよい。

なお、情報処理端末５３は、例えば、ＰＣ（Personal Computer）や、スマートフォン、タブレット型端末などの汎用の情報処理端末を適宜利用することができる。音声データ録音用のスマートフォン５２を有している場合はこれをそのまま情報処理端末５３として用いてもよい。１人のユーザ２が状況に応じて複数種類の情報処理端末５３を使い分けてもよい。ユーザ２は、例えば、情報処理端末５３上の図示しないＷｅｂブラウザを利用してクラウドコンピューティング環境上の音声分析サーバ４０にアクセスする。

図１の例では、ＰＢＸ１０、ＣＴＩサーバ２０、ＩＶＲサーバ３０、および音声分析サーバ４０をそれぞれ個別の機器やサーバシステムとして構成しているが、このような構成に限られない。さらに複数のサーバシステム等に機能を分散して構成してもよいし、逆に複数のサーバシステムの機能を１つのサーバシステムに集約して構成してもよい。

＜処理の流れ（電話での通話を介した音声データの収集）＞
図２は、本実施の形態における音声データの収集と分析に係る処理の流れの例について概要を示した図である。ここでは、ユーザ２が電話機５１を用いて行った通話から音声データ収集環境が音声データを取得・収集する場合について示す。まず、ユーザ２が電話機５１により所定の電話番号に電話をかける（Ｓ０１）。この電話を、対応する拠点すなわち音声データ収集環境のＰＢＸ１０が受けると、まず、対応するＣＴＩサーバ２０の収集制御部２１等により、サービス時間内であるか否かの判定を行う（Ｓ０２）。サービス時間外である場合は、図示しないが、対応するＩＶＲサーバ３０の音声収集部３２と連携してその旨の音声ガイダンスをユーザ２の電話機５１に応答して、通話を終了する、すなわち全体の処理を終了する。

サービス時間内である場合は、ＩＶＲサーバ３０の音声収集部３２と連携して、ユーザの認証を行うためにＩＤコード等の識別情報の入力を促す音声からなる認証ガイダンスをユーザ２の電話機５１に応答する（Ｓ０３）。ここでは、例えば、電話機５１のプッシュボタンやテンキー等により、ＩＤコードをなす一連の数字をプッシュして入力するようユーザ２に指示する。

認証ガイダンスに従ってユーザ２がＩＤコード等を入力すると（Ｓ０４）、ＣＴＩサーバ２０の収集制御部２１は、ＩＶＲサーバ３０の認証部３１と連携して、入力されたＩＤコード等が認証マスタＤＢ３３に登録されているか否かによりユーザの認証を行う（Ｓ０５）。上述したように、認証の手法はこれに限られず、これに代えて、もしくはこれに加えて、例えば、ユーザ２に発話を促し、取得した音声データの声紋等を解析して認証する等の他の手法を用いてもよい。

認証が失敗した場合、すなわち入力されたＩＤコード等が認証マスタＤＢ３３に登録されていない場合は、図示しないが、所定の回数（例えば、３回）のリトライを許容する。所定のリトライ回数をオーバーした場合は、認証できなかった旨の音声ガイダンスをユーザ２の電話機５１に応答して、通話を終了する。

認証が成功した場合は、ＩＶＲサーバ３０の音声収集部３２と連携して、ユーザ２に対して所定の質問を行う音声ガイダンスをユーザ２の電話機５１に応答する（Ｓ０６）。ユーザ２が電話機５１により質問に対する回答を発話すると（Ｓ０７）、ＣＴＩサーバ２０の収集制御部２１は、ＩＶＲサーバ３０の音声収集部３２と連携して、発話内容を音声データとして録音する（Ｓ０８）。得られた音声データは音声データＤＢ３４に記録する。音声データが適切に取得できなかった場合や、録音できなかった場合は、図示しないが、所定の回数（例えば、３回）のリトライを許容する。リトライ回数をオーバーした場合は、音声データが取得できなかった旨の音声ガイダンスをユーザ２の電話機５１に応答して、通話を終了する。

音声データが録音できた場合は、当該通話中で音声データの録音が所定の回数できたか否か、すなわち、音声データを所定の数以上取得できたか否かを判定する（Ｓ０９）。所定の数に満たない場合は、ステップＳ０６に戻って次（ｎ個目）の質問を行う。音声データを取得する所定の数は、音声分析サーバ４０の音声分析部４２で用いられる音声病態分析エンジンの仕様や必要な精度等に応じて適宜設定する。例えば、ＭＩＭＯＳＹＳの場合は現在７個以上の音声データがあればよいとされる。

所定の数の音声データを取得できた場合は、ＩＶＲサーバ３０の音声収集部３２と連携して、質問を終了して通話を終了する旨の終了ガイダンスをユーザ２の電話機５１に応答する（Ｓ１０）。そして、ユーザ２は電話機５１による通話を終了する（Ｓ１１）。ＣＴＩサーバ２０の収集制御部２１が主導して通話を終了してもよい。なお、所定の数の音声データが取得できる前にユーザ２との通話が切れた場合は、それまでに取得できた音声データのみを用いるようにしてもよい。

このように、本実施の形態では、所定の数の質問を繰り返して回答の音声データを取得する。上述したように、質問は、予め定められたパターンのものを毎回用いてもよいし、予め用意した質問候補の中から必要数の質問をランダムもしくは所定の基準により選択して用いるようにしてもよい。ユーザ２のＩＤコードに基づいてユーザの属性情報を取得し、これに応じて質問を切り替えてもよいし、回答内容を即時に音声認識して解析し、回答内容に応じて質問を切り替えてもよい。このような変化をつけることにより、ユーザ２をできるだけ飽きさせないようにすることができる。

全ての質問が異なるものであることが要求されない場合には、各質問のうち１つ以上が他と同じ内容の質問であってもよい。また、音声データの収集のみを目的としてユーザ２に発話させるのではなく、例えば、電話予約など電話による他の業務やサービスと組み合わせ、その際に発話される内容を取得して転用するようにしてもよい。

上記の一連の処理により録音された音声データは、例えば、１時間毎等の一定時間毎にＩＶＲサーバ３０から音声分析サーバ４０に転送される（Ｓ２１）。音声分析サーバ４０では、音声データ取得部４１により、取得した音声データを音声データＤＢ４５に記録する（Ｓ２２）。そして、例えば一定時間毎に、未処理の音声データに対して、音声分析部４２により音声病態分析の処理を行う（Ｓ２３）。処理を行った音声データは、プライバシー等を考慮して削除するのが望ましい。その後、分析結果の内容を分析結果処理部４３により可視化して分析結果ＤＢ４７に記録する処理を行う（Ｓ２４）。この一連の処理により、ユーザ２が分析結果を表示・閲覧する準備が完了したことになる。分析が完了した旨を対象のユーザ２に対して電子メールやプッシュ通知等により通知するようにしてもよい。

ユーザ２は、音声分析サーバ４０での分析の完了後の任意のタイミングで、情報処理端末５３上のＷｅｂブラウザ等を利用して音声分析サーバ４０のユーザＩＦ部４４にアクセスし、アカウント情報を入力してログインする（Ｓ３１）。アカウント情報としては、例えば、ユーザ２のＩＤコードとパスワードを用いることができるが、他のアカウント情報であってもよく、また、生体認証等の他の手法のための認証情報を含んでいてもよい。

音声分析サーバ４０では、ユーザマスタＤＢ４６の登録内容に基づいてユーザ認証を行う（Ｓ３２）。認証が失敗した場合、すなわち入力されたＩＤコードやパスワード等がユーザマスタＤＢ４６に登録されていない場合や登録されている内容と合致しない場合は、図示しないが、認証できなかった旨の画面を情報処理端末５３上に表示して処理を終了する。

認証が成功した場合は、分析結果ＤＢ４７から対象のユーザ２に係る分析結果のデータを取得して、表示画面（例えば、ＨＴＭＬ（HyperText Markup Language）データ）を生成して出力する（Ｓ３３）。情報処理端末５３では、図示しないＷｅｂブラウザ上で、出力された分析結果の画面を表示する（Ｓ３４）。これにより、ユーザ２は、自身の発話に係る音声データに対して音声病態分析を行った結果として、心の状態を把握することができる。

＜画面例＞
図３は、音声分析サーバ４０での分析結果として情報処理端末５３上に表示される画面の例について概要を示した図である。図示しないログイン画面において、ユーザ２がＩＤコードやパスワード等のアカウント情報を入力してログインした後、例えば、図３（ａ）に示すような分析結果の画面が表示される。この画面では、「心の活量値」として、時系列（例えば、直近の２週間等）での変化の状況に基づく評価を示している。ここでは、例えば、計測値の範囲を数段階に区分して、計測値に対応する区分の内容（図中の例では「キラキラ★」を示すことで、ユーザ２が直感的に理解しやすいようにしている。

また、ユーザ２が画面を切り替えることで、図３（ｂ）に示すような分析結果の画面が表示される。この画面では、「元気圧」として、対象の通話を行った時点、すなわち音声データを取得した時点での心の元気さの評価を、ユーザ２が直感的に把握しやすいようにメーターの画像により示している。これらの画面では、いずれも、過去の分析結果の履歴についても閲覧することが可能である。なお、図３に示した画面はあくまで一例であり、他の表示形式をとってもよいことは言うまでもない。

＜処理の流れ（スマートフォンによる音声データの収集）＞
図４は、本実施の形態における音声データの収集と分析に係る処理の流れの他の例について概要を示した図である。ここでは、スマートフォン５２が有する音声録音機能を用いてユーザ２が音声データを取得・収集する場合について示す。まず、ユーザ２がスマートフォン５２上で専用のアプリケーションを起動する（Ｓ４１、Ｓ４２）。スマートフォン５２上のアプリケーションは、起動すると、まず、認証画面を表示する（Ｓ４３）。

認証画面の指示に従ってユーザ２がユーザＩＤやパスワード等のアカウント情報を入力すると（Ｓ４４）、スマートフォン５２のアプリケーションは、音声分析サーバ４０に対して認証要求を行う（Ｓ４５）。音声分析サーバ４０では、ユーザマスタＤＢ４６の登録内容に基づいてユーザ認証を行う（Ｓ４６）。認証が失敗した場合、すなわち入力されたＩＤコードやパスワード等がユーザマスタＤＢ４６に登録されていない場合や登録されている内容と合致しない場合は、図示しないが、認証できなかった旨の画面をスマートフォン５２のアプリケーションに表示して処理を終了する。

認証が成功した場合は、スマートフォン５２のアプリケーションは、ユーザ２に対して所定の質問を行う画面を表示する（Ｓ４７）。質問の内容はアプリケーションの更新や音声分析サーバ４０等のサーバからのダウンロードにより、適宜変更することが可能である。ユーザ２がスマートフォン５２のマイクロフォンに対して質問に対する回答を発話すると（Ｓ４８）、スマートフォン５２は、自身が備える音声録音機能により発話内容を音声データとして録音する（Ｓ４９）。得られた音声データはメモリ等に記録しておく。音声データが適切に取得できなかった場合や、録音できなかった場合は、図示しないが、所定の回数（例えば、３回）のリトライを許容する。リトライ回数をオーバーした場合は、音声データが取得できなかった旨の画面をスマートフォン５２のアプリケーション上に表示し、処理を終了する。

音声データが録音できた場合は、当該アプリケーションの実行中における音声データの録音が所定の回数できたか否か、すなわち、音声データを所定の数以上取得できたか否かを判定する（Ｓ５０）。所定の数に満たない場合は、ステップＳ４７に戻って次（ｎ個目）の質問を行う。音声データを取得する所定の数は、上述の図２における電話機５１の場合と同様に、音声分析サーバ４０の音声分析部４２で用いられる音声病態分析エンジンの仕様や必要な精度等に応じて適宜設定する。基本的には電話機５１での通話品質と、スマートフォン５２での録音品質との差に基づく相違はなく、例えば、ＭＩＭＯＳＹＳの場合は現在７個以上の音声データがあればよいとされる。

所定の数の音声データを取得できた場合は、質問を終了する旨の画面を表示する（Ｓ５１）。その後、上記の一連の処理により録音された音声データを、音声分析サーバ４０に転送する（Ｓ５２）。音声分析サーバ４０では、音声データ取得部４１により、取得した音声データを音声データＤＢ４５に記録する（Ｓ５３）。そして、未処理の音声データに対して、音声分析部４２により音声病態分析の処理を行い（Ｓ５４）、分析結果の内容を分析結果処理部４３により可視化して分析結果ＤＢ４７に記録する処理を行う（Ｓ５５）。この一連の処理により、ユーザ２が分析結果を表示・閲覧する準備が完了する。ユーザ２は、音声データの録音後、即時もしくは短時間のうちに、スマートフォン５２のアプリケーションを用いて、上述の図３に示したような分析結果を表示させて参照することができる（Ｓ５６、Ｓ５７）。

なお、図４の例では、ステップＳ４９でスマートフォン５２上に録音された音声データを、質問が全て終了した時点で一括して音声分析サーバ４０に転送しているが（ステップＳ５２）、音声データの転送の手法はこれに限られない。例えば、ステップＳ４９で録音された音声データをその都度音声分析サーバ４０に送信するようにして、質問終了後の処理負担を軽減し、分析結果が出力されるまでの処理時間を短縮するようにしてもよい。

＜画面例＞
図５は、スマートフォン５２により音声データを収集するアプリケーションの画面例について概要を示した図である。上段左の画面は、起動時に表示される認証画面であり、この画面を介してユーザ２はユーザＩＤやパスワード等のアカウント情報を入力してユーザ認証を行う。なお、一度入力されたアカウント情報はＣｏｏｋｉｅ等を用いて保持し、次回以降は自動的に認証を行うようにしてもよい。ユーザ認証が成功すると、上段中央に示すような開始およびガイダンスの画面が表示される。ここで「スタート」ボタンを押下すると、上段右に示すような質問画面が表示され、音声データの取得処理が開始する。

ユーザ２は、画面の「マイク」ボタンをタップして、画面に表示されている質問事項に対する回答を発話する。このとき、画面は下段左に示すような録音中の画面となる。アプリケーションは、スマートフォン５２の音声録音機能を利用して、マイクロフォンから入力されたユーザ２の発話を音声データとして録音する。ユーザ２が下段左の画面における「停止」ボタンをタップすることで録音は終了する。

録音が終了すると、次の質問に対する処理が繰り返される。現時点で回答した質問および残りの質問の数は、画面上部の●（回答済み）、○（未回答）のマークの数により示される。所定の数の質問に対する回答（音声データの録音）が完了すると、下段中央に示すような終了画面が表示される。このとき、録音した音声データがスマートフォン５２から音声分析サーバ４０に自動的に送信され、音声分析サーバ４０で音声病態分析の処理がリアルタイムで行われる。

その後、ユーザ２は、例えば、下段右に示すようなメニュー画面から「分析結果サイトへ」という項目を選択することで、上述の図３に示したような分析結果の画面をアプリケーションもしくは連携するＷｅｂブラウザ上に表示させ、即時に分析結果を確認することができる。

＜データ構成＞
図６は、ＩＶＲサーバ３０の認証マスタＤＢ３３のデータ構成の例について概要を示した図である。認証マスタＤＢ３３は、ユーザ２毎に、音声データの取得のために電話機５１により通話を行う際にユーザ認証を行うための認証データを保持するマスタテーブルであり、例えば、ＩＤコード、およびユーザ名などの各項目を有する。

ＩＤコードの項目は、対象のユーザ２に対してユニークに割り当てられた数桁の数字からなるコード値である。電話機５１でのボタンのプッシュにより入力されるため、数字により構成されるものとしているが、入力が可能な場合には文字や記号を含んでいてもよい。ユーザ名の項目は、対象のユーザ２の属性情報としてのユーザ名や氏名の情報を保持する。例えば、ユーザ２に対する認証時に、公知のテキスト読み上げ機能によりユーザ名を音声として応答することで、対象のユーザ２として正しく認証されたことをユーザ２自身が確認できるようにしてもよい。

図７は、ＩＶＲサーバ３０の音声データＤＢ３４のデータ構成の例について概要を示した図である。音声データＤＢ３４は、ユーザ２の通話における発話毎に、録音した音声データを保持するテーブルであり、例えば、ＩＤコード、拠点コード、通話番号、データ番号、音声データ、および録音日時などの各項目を有する。

ＩＤコードの項目は、対象の音声データに係る発話を行ったユーザ２を特定するコード値を保持する。この項目は、上述の図６の認証マスタＤＢ３３におけるＩＤコードの項目と同じである。拠点コードの項目は、対象の音声データを収集した拠点、すなわち、対象の音声データに係る通話を受けたＰＢＸ１０等が属する音声データ収集環境を特定するＩＤやコード等の情報を保持する。ＰＢＸ１０に対応する電話番号であってもよい。通話番号の項目は、各ユーザ２においてそれぞれの通話を一意に識別するシーケンス番号等の情報を保持する。また、データ番号の項目は、各通話においてそれぞれの発話を一意に識別するシーケンス番号等の情報を保持する。すなわち、ＩＤコード、通話番号、およびデータ番号の項目の組み合わせにより、音声データ収集システム１全体で対象の発話（音声データ）を一意に特定することができる。

音声データの項目は、対象の発話において録音された音声データの情報を保持する。音声データ自体を直接保持していてもよいし、音声データをファイルとして別途保持しておき、そのファイル名やパスの情報を保持するようにしてもよい。録音日時の項目は、対象の発話に係る音声データを録音したときのタイムスタンプの情報を保持する。

図８は、音声分析サーバ４０の音声データＤＢ４５のデータ構成の例について概要を示した図である。音声データＤＢ４５は、各拠点のＩＶＲサーバ３０もしくは各ユーザ２のスマートフォン５２からそれぞれ送られた音声データの情報を記録するテーブルであり、基本的には上述の図７の音声データＤＢ３４と同様のデータ構成を有する。スマートフォン５２からの音声データも含むため、電話機５１での通話を特定する通話番号に加えて、スマートフォン５２での各発話を特定する発話番号の情報も保持できるよう、通話番号の項目に代えて通話・発話番号の項目を有している。また、音声データＤＢ３４のデータ構成に加えて、例えば、分析状況などの項目を有する。分析状況の項目は、対象の音声データについての分析が実施済みか未済かを識別するコード値やフラグ等の情報を保持する。

図９は、音声分析サーバ４０のユーザマスタＤＢ４６のデータ構成の例について概要を示した図である。ユーザマスタＤＢ４６は、音声データに基づく音声病態分析の結果を閲覧するためのユーザ２のアカウント情報を保持するマスタテーブルであり、例えば、ＩＤコード、パスワード、ユーザ名、ユーザ属性情報、およびユーザ設定情報などの各項目を有する。

ＩＤコードの項目は、対象のユーザ２を一意に識別するコード値を保持する。この項目は、上述の図６の認証マスタＤＢ３３におけるＩＤコードの項目と同じであってもよい。パスワードの項目は、対象のユーザ２のＩＤコードに対応するパスワードの情報を保持する。パスワードに加えて、もしくはこれに代えて、生体認証その他の認証手法に係る認証情報を保持していてもよい。さらに、パスワードの登録日時や更新日時等の情報を保持する項目を有していてもよい。

ユーザ名の項目は、対象のユーザの表示名の情報を保持する。ユーザ属性情報の項目は、対象のユーザ２の各種の属性情報を保持する。例えば、性別や年齢等が含まれ得る。これらの属性情報は、例えば、音声病態分析や分析結果の可視化等の処理を行う際の参照情報とすることができる。ユーザ設定情報の項目は、対象のユーザ２により設定された独自の設定情報の内容を保持する。例えば、音声病態分析や分析結果の可視化等の処理を行う際の条件のカスタマイズや、図３に示したような分析結果を表示する画面における表示項目や表示方法のカスタマイズ等の内容を各ユーザ２がそれぞれ設定することができる。ユーザ属性情報やユーザ設定情報のデータフォーマット等は特に限定されず、任意のものとすることができる。

図１０は、音声分析サーバ４０の分析結果ＤＢ４７のデータ構成の例について概要を示した図である。分析結果ＤＢ４７は、ユーザ２毎に、音声データに対する音声病態分析が行われた結果を可視化したデータを保持するテーブルであり、例えば、ＩＤコード、拠点コード、通話・発話番号、分析結果データ、および分析日時などの各項目を有する。

ＩＤコードの項目は、対象のユーザ２を一意に識別するコード値を保持する。この項目は、上述の図９のユーザマスタＤＢ４６におけるＩＤコードの項目と同じである。拠点コードの項目は、対象の分析結果に係る音声データが収集された拠点を特定するシーケンス番号やコード等の情報を保持する。この項目は、上述の図７の音声データＤＢ３４や図８の音声データＤＢ４５における拠点コードの項目と同じである。

通話・発話番号の項目は、対象の分析結果に係る音声データを収集した通話や発話を特定するシーケンス番号等である。この項目は、上述の図７の音声データＤＢ３４や図８の音声データＤＢ４５における通話・発話番号の項目と同じである。分析結果データの項目は、対象の分析結果が可視化された内容に係る情報を保持する。データ自体を保持していてもよいし、データの所在場所のパス等を保持していてもよい。データフォーマット等は特に限定されず、任意のものとすることができる。分析日時の項目は、音声分析部４２および分析結果処理部４３による分析処理および分析結果の可視化の処理が行われたときのタイムスタンプの情報を保持する。

なお、上述の図６〜図１０で示した各テーブルのデータ構成（項目）はあくまで一例であり、同様のデータを保持・管理することが可能な構成であれば、他のテーブル構成やデータ構成であってもよい。

以上に説明したように、本発明の一実施の形態である音声データ収集システム１によれば、不特定・特定の多数のユーザ２から、必要な数の音声データをより自然で効率的かつ確実に収集することができ、音声病態分析等の音声データを必要とする処理への入力とすることができる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記の各実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

例えば、上記の実施の形態では、１回の通話もしくは発話において所定の数の質問を行い、これに対する回答として所定の数の音声データを全て取得する構成としているが、このような構成に限られない。１日の単位で所定の数の音声データが得られれば、１回の通話もしくは発話で全ての数の音声データを取得することは必要ではなく、複数回の通話もしくは発話の合計で所定の数の音声データを取得するようにしてもよい。また、この場合の音声データは、図２や図４に示した一連の処理により得られたものに限られない。例えば、これとは無関係に日常生活や業務等において行われた電話等の内容についても自動的に録音しておき、ここで得られた既存の音声データも流用して全体として所定の数の音声データを確保することも可能である。

また、上記の実施の形態では、ユーザ２が能動的に電話機５１により電話を掛けたり、スマートフォン５２でアプリケーションを起動したり等の行為を行う必要があるが、これらの行為がより確実に行われるような仕組みを別途有していてもよい。例えば、毎日所定の時間に、音声データ収集環境の側からＣＴＩサーバ２０やＩＶＲサーバ３０の機能によりユーザ２に自動的に電話を掛けるようにしてもよい。当該電話に応答しない場合にはさらに一定時間後に電話を掛けるようにしてもよい。同様に、スマートフォン５２上の専用アプリケーションが所定の時間に実行を促す通知を行うようにしてもよい。

また、毎日所定の時間に、音声分析サーバ４０による分析結果をレポートとしてユーザ２に対して電子メール等により送信し、リマインドするようにしてもよい。また、直近の利用日時（すなわち、音声データの録音と分析を行った日時）から所定の期間以上利用がない場合に電子メール等により通知するようにしてもよい。

本発明は、ユーザの音声のデータを収集する音声データ収集システムに利用可能である。

１…音声データ収集システム、２…ユーザ、
１０…ＰＢＸ、
２０…ＣＴＩサーバ、２１…収集制御部、
３０…ＩＶＲサーバ、３１…認証部、３２…音声収集部、３３…認証マスタＤＢ、３４…音声データＤＢ、３５…音声ガイダンス情報、
４０…音声分析サーバ、４１…音声データ取得部、４２…音声分析部、４３…分析結果処理部、４４…ユーザＩＦ部、４５…音声データＤＢ、４６…ユーザマスタＤＢ、４７…分析結果ＤＢ、
５１…電話機、５２…スマートフォン、５３…情報処理端末

Claims

ユーザの発話に係る音声データを収集する音声データ収集システムであって、
１つ以上の拠点のそれぞれに対して構成された、ＰＢＸと、ＣＴＩサーバと、ＩＶＲサーバと、を有し、前記ユーザから受けた電話での通話における前記ユーザの発話を前記音声データとして取得する音声データ収集環境と、
前記各音声データ収集環境における前記各ＩＶＲサーバとネットワークを介して接続され、前記各ＩＶＲサーバから取得した前記音声データを処理して処理結果を前記ユーザの情報処理端末に対して閲覧可能とする音声分析サーバと、を有し、
前記音声データ収集環境は、前記ユーザから受けた電話での通話において、前記ユーザに対して回答を求める質問を発出し、前記質問に対する前記ユーザからの回答に係る発話を録音して前記音声データとし、前記音声データが所定の数に達するまで、前記質問の発出と前記ユーザからの回答に係る前記音声データの取得とを繰り返す、音声データ収集システム。
請求項１に記載の音声データ収集システムにおいて、
前記音声データ収集環境が前記ユーザから受けた電話での通話において発出する前記各質問は、そのうちの１つ以上が他と同じ内容のものである、音声データ収集システム。
請求項１に記載の音声データ収集システムにおいて、
前記音声データ収集環境は、前記ユーザから電話を受けた際に、前記ユーザにより電話機を介して入力された１つ以上の数字が予め登録されている１つ以上のコード値のいずれかと合致する場合に、前記質問を発する、音声データ収集システム。
請求項１に記載の音声データ収集システムにおいて、
前記音声分析サーバは、前記ＩＶＲサーバから取得した前記音声データに対して音声病態分析を行い、分析結果に基づいて表示のための画面情報を生成し、前記ユーザの前記情報処理端末からの要求を受けて、前記画面情報に基づく内容を前記情報処理端末に表示させる、音声データ収集システム。
請求項１に記載の音声データ収集システムにおいて、
前記音声データ収集環境は、取得した前記音声データを、所定の時間間隔毎に前記音声分析サーバに送信する、音声データ収集システム。
ユーザの発話に係る音声データを収集する音声データ収集システムであって、
音声録音機能を有する情報処理端末と、
前記情報処理端末から取得した前記ユーザの発話を録音した前記音声データを処理して、処理結果を前記情報処理端末に対して閲覧可能とする音声分析サーバと、を有し、
前記情報処理端末は、前記ユーザに対して回答を求める質問を表示し、前記質問に対する前記ユーザからの回答に係る発話を録音して前記音声データとし、前記音声データが所定の数に達するまで、前記質問の表示と前記ユーザからの回答に係る前記音声データの取得とを繰り返す、音声データ収集システム。
請求項６に記載の音声データ収集システムにおいて、
前記情報処理端末が表示する前記各質問は、そのうちの１つ以上が他と同じ内容のものである、音声データ収集システム。
請求項６に記載の音声データ収集システムにおいて、
前記音声分析サーバは、前記情報処理端末から取得した前記音声データに対して音声病態分析を行い、分析結果に基づいて表示のための画面情報を生成し、前記ユーザの前記情報処理端末からの要求を受けて、前記画面情報に基づく内容を前記情報処理端末に表示させる、音声データ収集システム。