JP2017220807A - 音声データ収集システム - Google Patents

音声データ収集システム Download PDF

Info

Publication number
JP2017220807A
JP2017220807A JP2016114027A JP2016114027A JP2017220807A JP 2017220807 A JP2017220807 A JP 2017220807A JP 2016114027 A JP2016114027 A JP 2016114027A JP 2016114027 A JP2016114027 A JP 2016114027A JP 2017220807 A JP2017220807 A JP 2017220807A
Authority
JP
Japan
Prior art keywords
voice data
user
voice
data collection
collection system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016114027A
Other languages
English (en)
Inventor
和人 橋本
Kazuto Hashimoto
和人 橋本
久美子 小島
Kumiko Kojima
久美子 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2016114027A priority Critical patent/JP2017220807A/ja
Publication of JP2017220807A publication Critical patent/JP2017220807A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】より自然で効率的かつ確実に音声データを収集する。【解決手段】ユーザ2の発話に係る音声データを収集する音声データ収集システム1であって、PBX10とCTIサーバ20とIVRサーバ30とを有し、ユーザ2から受けた電話での通話におけるユーザ2の発話を音声データとして取得する音声データ収集環境と、各IVRサーバ30とネットワークを介して接続され、各IVRサーバ30から取得した音声データを処理して処理結果をユーザ2の情報処理端末53に対して閲覧可能とする音声分析サーバ40とを有し、音声データ収集環境は、ユーザ2から受けた電話での通話において、ユーザ2に対して回答を求める質問を発出し、ユーザ2からの回答に係る発話を録音して音声データとし、音声データが所定の数に達するまで質問の発出とユーザ2からの回答に係る音声データの取得とを繰り返す。【選択図】図1

Description

本発明は、特定・不特定の多数のユーザからデータを収集する技術に関し、特に、ユーザの音声のデータを収集する音声データ収集システムに適用して有効な技術に関するものである。
本人でも分かりづらい常に変化している心の状態を、人が日常的に発する音声に基づいて把握するという音声病態分析技術がある。この技術では、人の声に含まれる、その人が自然に出してしまった不随意の成分(本音)と、自分が相手に伝えようとして出した随意の成分(建前)のうち、不随意の成分に基づいて感情の状態を数値化・可視化する。
この技術を利用して、人が日常的に発する音声を収集・分析して心の状態をモニタリングし、分析結果を可視化することができるMIMOSYS(Mind Monitoring Systems、非特許文献1、登録商標(以下同様))というシステムも開発されている(詳細は、例えば、特開2015−128579号公報(特許文献1)を参照)。これによれば、心の状態が普通、上向き、活発である状態や、時には低調で休息が必要である状態等、ユーザのストレスや心の状態を計測して数値として表すことができる。そして、この技術を広く活用することにより、「うつ」状態等の心身の異常を本人が自覚する前に早期に検知し、適切な治療や対処を行うことで未然に疾病を防ぐことが可能になると期待される。
特開2015−128579号公報
"MIMOSYS|音声病態分析技術のPST株式会社"、[online]、PST株式会社、[平成28年3月18日検索]、インターネット<URL:http://medical-pst.com/products-2/mimosys>
上述した従来技術では、例えば、スマートフォン等の携帯端末に導入されたアプリケーションプログラムの機能により、音声の収集・解析から可視化までを行うことが可能である。
一方で、携帯端末に導入されたアプリケーションを用いる場合、ユーザが当該アプリケーションを導入し、起動した上で能動的に音声を発話しなければならない。この点、例えば、ユーザが携帯電話で一般の通話を行う際にその通話内容を取得することも有効であると考えられるが、電話による通話自体がいつ行われるか不確定である。よって、これらの手法のみでは、ユーザの音声データを収集するという点で不確実性が高く、また効率性も高くない。国民全体として疾病を未然に防ぐという目的を実現するため、幅広いユーザに様々な場面や状況において広く利用してもらえるような音声データの収集の仕組みが必要である。
そこで本発明の目的は、より自然で効率的かつ確実に音声データを収集できる音声データ収集システムを提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
本発明の代表的な実施の形態による音声データ収集システムは、ユーザの発話に係る音声データを収集する音声データ収集システムであって、1つ以上の拠点のそれぞれに対して構成された、PBXと、CTIサーバと、IVRサーバと、を有し、前記ユーザから受けた電話での通話における前記ユーザの発話を前記音声データとして取得する音声データ収集環境と、前記各音声データ収集環境における前記各IVRサーバとネットワークを介して接続され、前記各IVRサーバから取得した前記音声データを処理して処理結果を前記ユーザの情報処理端末に対して閲覧可能とする音声分析サーバと、を有するものである。
そして、前記音声データ収集環境は、前記ユーザから受けた電話での通話において、前記ユーザに対して回答を求める質問を発出し、前記質問に対する前記ユーザからの回答に係る発話を録音して前記音声データとし、前記音声データが所定の数に達するまで、前記質問の発出と前記ユーザからの回答に係る前記音声データの取得とを繰り返す。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
すなわち、本発明の代表的な実施の形態によれば、より自然で効率的かつ確実に音声データを収集できる音声データ収集システムを提供することにある。
本発明の一実施の形態である音声データ収集システムの構成例について概要を示した図である。 本発明の一実施の形態における音声データの収集と分析に係る処理の流れの例について概要を示した図である。 (a)、(b)は、本発明の一実施の形態における音声分析サーバでの分析結果として情報処理端末上に表示される画面の例について概要を示した図である。 本発明の一実施の形態における音声データの収集と分析に係る処理の流れの他の例について概要を示した図である。 本発明の一実施の形態におけるスマートフォンにより音声データを収集するアプリケーションの画面例について概要を示した図である。 本発明の一実施の形態におけるIVRサーバの認証マスタDBのデータ構成の例について概要を示した図である。 本発明の一実施の形態におけるIVRサーバの音声データDBのデータ構成の例について概要を示した図である。 本発明の一実施の形態における音声分析サーバの音声データDBのデータ構成の例について概要を示した図である。 本発明の一実施の形態における音声分析サーバのユーザマスタDBのデータ構成の例について概要を示した図である。 本発明の一実施の形態における音声分析サーバの分析結果DBのデータ構成の例について概要を示した図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。
<システム構成>
図1は、本発明の一実施の形態である音声データ収集システムの構成例について概要を示した図である。本実施の形態の音声データ収集システム1は、ユーザ2が電話機51やスマートフォン52を介して発話した音声を取得・収集するとともに、これを上述のMIMOSYS等の音声病態分析エンジンにより分析し、その結果をユーザ2が閲覧可能なように可視化するシステムである。
音声データ収集システム1は、例えば、PBX(Private Branch eXchange:構内交換機)10、CTI(Computer Telephony Integration)サーバ20、IVR(Interactive Voice Response:自動音声応答装置)サーバ30からなる音声データ収集環境、および音声分析サーバ40の各サブシステムからなる情報処理システムである。音声データ収集環境は、例えば、オフィスビル等の拠点毎に独立して複数構築することができる。
PBX10は、所定の電話番号に対応して、当該電話番号への複数のユーザ2からの電話機51による通話を受け付ける交換機である。電話番号は、例えばフリーダイヤル(登録商標)であってもよいしオフィスビル等における内線番号であってもよい。PBX10には、一般的に用いられるPBX機器を適宜使用することができる。なお、電話機51は、固定電話や携帯電話、スマートフォンなど特に限定されない。内線電話であってもよい。
CTIサーバ20は、PBX10により受け付けた電話機51からの通話によるアクセスをIVRサーバ30等の情報処理システムに連携する機能を有するサーバ機器である。CTIサーバ20についても、一般的に用いられるCTI機器を適宜利用することができる。本実施の形態では、CTIサーバ20は、例えば、図示しないOS(Operating System)やDBMS(DataBase Management System)、CTIソフトウェア等のミドルウェア上で稼働するソフトウェアプログラムやスクリプト等として実装された収集制御部21を有する。収集制御部21は、後述するIVRサーバ30と連携して、ユーザ2から発話に伴う音声データを取得・収集するための一連の処理フローを実行・制御する。
IVRサーバ30は、CTIサーバ20と連携し、ユーザ2の電話機51による通話に対して予め設定された内容に基づいて所定の音声ガイダンスを出力する機能を有するサーバ機器である。本実施の形態では、一般的なCTI/IVRによる音声案内システムやコールセンターシステムでの利用形態とは異なり、通話内容からユーザ2の音声データを取得して音声データDB34に記録するため、ユーザ2に発話を促すような音声ガイダンスを行うものである。
IVRサーバ30は、例えば、図示しないOSやDBMS、IVRソフトウェア等のミドルウェア上で稼働するソフトウェアプログラムやスクリプト等として実装された認証部31および音声収集部32などの各部を有する。また、データベース等として実装された認証マスタデータベース(DB)33および音声データDB34等の各データストアを有する。
認証部31は、電話機51からの通話によるアクセスを行っているユーザ2に対する認証を行う機能を有する。本実施の形態では、後述するように、ユーザ2が電話機51を操作して一連の数字をプッシュすることによりIDコードを入力し、入力されたIDコードが認証マスタDB33に登録されているか否かを認証部31が照合することにより認証を行う。認証手法はこれに限られず、例えば、IDコード以外の他の情報を入力させてこれを照合するようにしてもよい。また、後述する音声収集部32により取得したユーザ2の音声の情報に基づいて、公知の声紋認証技術等を用いて認証を行なってもよい。
音声収集部32は、予め音声ガイダンス情報35に登録されている音声ガイダンスのパターンに基づいて、ユーザ2からの電話機51による通話に対して音声でのガイダンスを自動的に行う機能を有する。そして、ガイダンスに対する応答としてユーザ2が発話した音声の内容をデジタルデータとして録音し、音声データDB34に記録する。
音声の情報に基づいて、後述する音声分析サーバ40で音声病態分析を精度よく行うには、発話として区切ることができる単位での音声データを複数個(例えば、7、8個程度)取得することが望ましい。本実施の形態では、後述するように、複数個の音声データを取得できるよう、音声ガイダンスとして複数個の質問をユーザ2に対して発出し、その回答を音声データとしてそれぞれ記録するものとする。
質問は、予め設定された一定のパターンのものを毎回用いてもよいし、予め用意した質問候補の中から必要数の質問をランダムもしくは所定の基準により選択して用いるようにしてもよい。ユーザ2のIDコードに基づいて認証マスタDB33等からユーザの属性情報を取得し、これに応じて質問を切り替えてもよい。また、回答内容を即時に音声認識して解析し、回答内容に応じて質問を切り替えてもよい。
上記のPBX10、CTIサーバ20、およびIVRサーバ30からなる音声データ収集環境により、ユーザ2が電話機51を利用して通話を行った際の音声データを収集するサービスを提供する。本実施の形態では、音声データの収集手段はこれに限られない。例えば、ユーザ2がスマートフォン52を利用してスマートフォン52上に録音した音声データを用いることもできる。この場合は、電話サービスのキャリアの通話品質に左右されずに音声データを取得することが可能である。これらの手段により収集された音声データは、収集手段による区別なく共通に、後述する音声分析サーバ40での分析のために用いられる。このように、音声データの収集手段を複数設けることにより、ユーザ2の状況に応じた簡易・適切な手段で音声データを収集することが可能となる。
音声分析サーバ40は、各音声データ収集環境のIVRサーバ30や、ユーザ2が使用するスマートフォン52等から音声データを取得して音声データDB45として記録し、その内容を上述のMIMOSYS等の音声病態分析エンジンにより分析し、結果をユーザ2が閲覧可能なように可視化するサーバ機器である。例えば、クラウドコンピューティング環境に構築された仮想サーバにより構成され、各拠点の音声データ収集環境に対して音声病態分析の機能をクラウドサービスとして提供する構成とすることができる。
本実施の形態の音声分析サーバ40は、例えば、図示しないOSやDBMS、Webサーバプログラム等のミドルウェア上で稼働するソフトウェアプログラムとして実装された音声データ取得部41、音声分析部42、分析結果処理部43、およびユーザインタフェース(IF)部44などの各部を有する。また、データベース等として実装された音声データDB45、ユーザマスタDB46、および分析結果DB47などの各データストアを有する。
音声データ取得部41は、音声データ収集環境のIVRサーバ30や、ユーザ2が使用するスマートフォン52等から音声データを取得し、音声データDB45として記録する機能を有する。例えば、各拠点のIVRサーバ30にて取得された音声データDB34のうち未処理のものは、一定時間毎(例えば1時間毎)のバッチ処理にて音声分析サーバ40に送信される。音声データのサイズやネットワークの帯域等との関係で、リアルタイムもしくはこれに近い状態での送信が可能な場合は、IVRサーバ30で取得された音声データを、都度リアルタイムで音声分析サーバ40に送信する構成とすることも可能である。
また、スマートフォン52上の図示しないアプリケーションからリアルタイムで送信される音声データを受信して音声データDB45に記録するようにしてもよい。音声データ取得部41は、音声データ収集環境のIVRサーバ30やユーザ2のスマートフォン52から送信された音声データについて、必要に応じてフォーマット変換する等の処理や加工を行って音声データDB45に記録する。
音声分析部42は、音声データDB45に記録されたユーザ2毎の音声データについて、音声病態分析を行なって心の状態(現在の状態、時系列での変化の状況)を把握する機能を有する。本実施の形態では、上述のMIMOSYS等の音声病態分析エンジンを含んで実装される。音声データDB45に新たに音声データが記録されたことをトリガーとして、未処理の音声データについて都度リアルタイムで分析を行うようにしてもよいし、一定時間毎(例えば1時間毎)に、音声データDB45に蓄積されている未処理の音声データについて一括して分析を行うようにしてもよい。
分析結果処理部43は、音声分析部42により音声病態分析が行われた結果を取得して、これをユーザ2毎に可視化して分析結果DB47に記録する機能を有する。可視化とは、例えば、分析結果の出力データを、ユーザ2に提示できるような文字情報や数値情報、評価情報等に変換等するとともに、情報処理端末53上に表示できるような画面データや画像データを生成する処理を含む。このとき、例えば、ユーザ2毎の属性情報や独自の設定情報等を保持するユーザマスタDB46を参照して、ユーザ2に即した可視化を行うようにしてもよい。
ユーザIF部44は、情報処理端末53を介したユーザ2からの要求を受け付けて、分析結果DB47に記録された可視化されたデータを情報処理端末53の画面上に表示させる機能を有する。まだユーザ登録しておらず、IDコード等のアカウント情報を有していない不特定のユーザ2に対して、新たにアカウント情報を登録してIDコードを発行する機能を有していてもよい。
なお、情報処理端末53は、例えば、PC(Personal Computer)や、スマートフォン、タブレット型端末などの汎用の情報処理端末を適宜利用することができる。音声データ録音用のスマートフォン52を有している場合はこれをそのまま情報処理端末53として用いてもよい。1人のユーザ2が状況に応じて複数種類の情報処理端末53を使い分けてもよい。ユーザ2は、例えば、情報処理端末53上の図示しないWebブラウザを利用してクラウドコンピューティング環境上の音声分析サーバ40にアクセスする。
図1の例では、PBX10、CTIサーバ20、IVRサーバ30、および音声分析サーバ40をそれぞれ個別の機器やサーバシステムとして構成しているが、このような構成に限られない。さらに複数のサーバシステム等に機能を分散して構成してもよいし、逆に複数のサーバシステムの機能を1つのサーバシステムに集約して構成してもよい。
<処理の流れ(電話での通話を介した音声データの収集)>
図2は、本実施の形態における音声データの収集と分析に係る処理の流れの例について概要を示した図である。ここでは、ユーザ2が電話機51を用いて行った通話から音声データ収集環境が音声データを取得・収集する場合について示す。まず、ユーザ2が電話機51により所定の電話番号に電話をかける(S01)。この電話を、対応する拠点すなわち音声データ収集環境のPBX10が受けると、まず、対応するCTIサーバ20の収集制御部21等により、サービス時間内であるか否かの判定を行う(S02)。サービス時間外である場合は、図示しないが、対応するIVRサーバ30の音声収集部32と連携してその旨の音声ガイダンスをユーザ2の電話機51に応答して、通話を終了する、すなわち全体の処理を終了する。
サービス時間内である場合は、IVRサーバ30の音声収集部32と連携して、ユーザの認証を行うためにIDコード等の識別情報の入力を促す音声からなる認証ガイダンスをユーザ2の電話機51に応答する(S03)。ここでは、例えば、電話機51のプッシュボタンやテンキー等により、IDコードをなす一連の数字をプッシュして入力するようユーザ2に指示する。
認証ガイダンスに従ってユーザ2がIDコード等を入力すると(S04)、CTIサーバ20の収集制御部21は、IVRサーバ30の認証部31と連携して、入力されたIDコード等が認証マスタDB33に登録されているか否かによりユーザの認証を行う(S05)。上述したように、認証の手法はこれに限られず、これに代えて、もしくはこれに加えて、例えば、ユーザ2に発話を促し、取得した音声データの声紋等を解析して認証する等の他の手法を用いてもよい。
認証が失敗した場合、すなわち入力されたIDコード等が認証マスタDB33に登録されていない場合は、図示しないが、所定の回数(例えば、3回)のリトライを許容する。所定のリトライ回数をオーバーした場合は、認証できなかった旨の音声ガイダンスをユーザ2の電話機51に応答して、通話を終了する。
認証が成功した場合は、IVRサーバ30の音声収集部32と連携して、ユーザ2に対して所定の質問を行う音声ガイダンスをユーザ2の電話機51に応答する(S06)。ユーザ2が電話機51により質問に対する回答を発話すると(S07)、CTIサーバ20の収集制御部21は、IVRサーバ30の音声収集部32と連携して、発話内容を音声データとして録音する(S08)。得られた音声データは音声データDB34に記録する。音声データが適切に取得できなかった場合や、録音できなかった場合は、図示しないが、所定の回数(例えば、3回)のリトライを許容する。リトライ回数をオーバーした場合は、音声データが取得できなかった旨の音声ガイダンスをユーザ2の電話機51に応答して、通話を終了する。
音声データが録音できた場合は、当該通話中で音声データの録音が所定の回数できたか否か、すなわち、音声データを所定の数以上取得できたか否かを判定する(S09)。所定の数に満たない場合は、ステップS06に戻って次(n個目)の質問を行う。音声データを取得する所定の数は、音声分析サーバ40の音声分析部42で用いられる音声病態分析エンジンの仕様や必要な精度等に応じて適宜設定する。例えば、MIMOSYSの場合は現在7個以上の音声データがあればよいとされる。
所定の数の音声データを取得できた場合は、IVRサーバ30の音声収集部32と連携して、質問を終了して通話を終了する旨の終了ガイダンスをユーザ2の電話機51に応答する(S10)。そして、ユーザ2は電話機51による通話を終了する(S11)。CTIサーバ20の収集制御部21が主導して通話を終了してもよい。なお、所定の数の音声データが取得できる前にユーザ2との通話が切れた場合は、それまでに取得できた音声データのみを用いるようにしてもよい。
このように、本実施の形態では、所定の数の質問を繰り返して回答の音声データを取得する。上述したように、質問は、予め定められたパターンのものを毎回用いてもよいし、予め用意した質問候補の中から必要数の質問をランダムもしくは所定の基準により選択して用いるようにしてもよい。ユーザ2のIDコードに基づいてユーザの属性情報を取得し、これに応じて質問を切り替えてもよいし、回答内容を即時に音声認識して解析し、回答内容に応じて質問を切り替えてもよい。このような変化をつけることにより、ユーザ2をできるだけ飽きさせないようにすることができる。
全ての質問が異なるものであることが要求されない場合には、各質問のうち1つ以上が他と同じ内容の質問であってもよい。また、音声データの収集のみを目的としてユーザ2に発話させるのではなく、例えば、電話予約など電話による他の業務やサービスと組み合わせ、その際に発話される内容を取得して転用するようにしてもよい。
上記の一連の処理により録音された音声データは、例えば、1時間毎等の一定時間毎にIVRサーバ30から音声分析サーバ40に転送される(S21)。音声分析サーバ40では、音声データ取得部41により、取得した音声データを音声データDB45に記録する(S22)。そして、例えば一定時間毎に、未処理の音声データに対して、音声分析部42により音声病態分析の処理を行う(S23)。処理を行った音声データは、プライバシー等を考慮して削除するのが望ましい。その後、分析結果の内容を分析結果処理部43により可視化して分析結果DB47に記録する処理を行う(S24)。この一連の処理により、ユーザ2が分析結果を表示・閲覧する準備が完了したことになる。分析が完了した旨を対象のユーザ2に対して電子メールやプッシュ通知等により通知するようにしてもよい。
ユーザ2は、音声分析サーバ40での分析の完了後の任意のタイミングで、情報処理端末53上のWebブラウザ等を利用して音声分析サーバ40のユーザIF部44にアクセスし、アカウント情報を入力してログインする(S31)。アカウント情報としては、例えば、ユーザ2のIDコードとパスワードを用いることができるが、他のアカウント情報であってもよく、また、生体認証等の他の手法のための認証情報を含んでいてもよい。
音声分析サーバ40では、ユーザマスタDB46の登録内容に基づいてユーザ認証を行う(S32)。認証が失敗した場合、すなわち入力されたIDコードやパスワード等がユーザマスタDB46に登録されていない場合や登録されている内容と合致しない場合は、図示しないが、認証できなかった旨の画面を情報処理端末53上に表示して処理を終了する。
認証が成功した場合は、分析結果DB47から対象のユーザ2に係る分析結果のデータを取得して、表示画面(例えば、HTML(HyperText Markup Language)データ)を生成して出力する(S33)。情報処理端末53では、図示しないWebブラウザ上で、出力された分析結果の画面を表示する(S34)。これにより、ユーザ2は、自身の発話に係る音声データに対して音声病態分析を行った結果として、心の状態を把握することができる。
<画面例>
図3は、音声分析サーバ40での分析結果として情報処理端末53上に表示される画面の例について概要を示した図である。図示しないログイン画面において、ユーザ2がIDコードやパスワード等のアカウント情報を入力してログインした後、例えば、図3(a)に示すような分析結果の画面が表示される。この画面では、「心の活量値」として、時系列(例えば、直近の2週間等)での変化の状況に基づく評価を示している。ここでは、例えば、計測値の範囲を数段階に区分して、計測値に対応する区分の内容(図中の例では「キラキラ★」を示すことで、ユーザ2が直感的に理解しやすいようにしている。
また、ユーザ2が画面を切り替えることで、図3(b)に示すような分析結果の画面が表示される。この画面では、「元気圧」として、対象の通話を行った時点、すなわち音声データを取得した時点での心の元気さの評価を、ユーザ2が直感的に把握しやすいようにメーターの画像により示している。これらの画面では、いずれも、過去の分析結果の履歴についても閲覧することが可能である。なお、図3に示した画面はあくまで一例であり、他の表示形式をとってもよいことは言うまでもない。
<処理の流れ(スマートフォンによる音声データの収集)>
図4は、本実施の形態における音声データの収集と分析に係る処理の流れの他の例について概要を示した図である。ここでは、スマートフォン52が有する音声録音機能を用いてユーザ2が音声データを取得・収集する場合について示す。まず、ユーザ2がスマートフォン52上で専用のアプリケーションを起動する(S41、S42)。スマートフォン52上のアプリケーションは、起動すると、まず、認証画面を表示する(S43)。
認証画面の指示に従ってユーザ2がユーザIDやパスワード等のアカウント情報を入力すると(S44)、スマートフォン52のアプリケーションは、音声分析サーバ40に対して認証要求を行う(S45)。音声分析サーバ40では、ユーザマスタDB46の登録内容に基づいてユーザ認証を行う(S46)。認証が失敗した場合、すなわち入力されたIDコードやパスワード等がユーザマスタDB46に登録されていない場合や登録されている内容と合致しない場合は、図示しないが、認証できなかった旨の画面をスマートフォン52のアプリケーションに表示して処理を終了する。
認証が成功した場合は、スマートフォン52のアプリケーションは、ユーザ2に対して所定の質問を行う画面を表示する(S47)。質問の内容はアプリケーションの更新や音声分析サーバ40等のサーバからのダウンロードにより、適宜変更することが可能である。ユーザ2がスマートフォン52のマイクロフォンに対して質問に対する回答を発話すると(S48)、スマートフォン52は、自身が備える音声録音機能により発話内容を音声データとして録音する(S49)。得られた音声データはメモリ等に記録しておく。音声データが適切に取得できなかった場合や、録音できなかった場合は、図示しないが、所定の回数(例えば、3回)のリトライを許容する。リトライ回数をオーバーした場合は、音声データが取得できなかった旨の画面をスマートフォン52のアプリケーション上に表示し、処理を終了する。
音声データが録音できた場合は、当該アプリケーションの実行中における音声データの録音が所定の回数できたか否か、すなわち、音声データを所定の数以上取得できたか否かを判定する(S50)。所定の数に満たない場合は、ステップS47に戻って次(n個目)の質問を行う。音声データを取得する所定の数は、上述の図2における電話機51の場合と同様に、音声分析サーバ40の音声分析部42で用いられる音声病態分析エンジンの仕様や必要な精度等に応じて適宜設定する。基本的には電話機51での通話品質と、スマートフォン52での録音品質との差に基づく相違はなく、例えば、MIMOSYSの場合は現在7個以上の音声データがあればよいとされる。
所定の数の音声データを取得できた場合は、質問を終了する旨の画面を表示する(S51)。その後、上記の一連の処理により録音された音声データを、音声分析サーバ40に転送する(S52)。音声分析サーバ40では、音声データ取得部41により、取得した音声データを音声データDB45に記録する(S53)。そして、未処理の音声データに対して、音声分析部42により音声病態分析の処理を行い(S54)、分析結果の内容を分析結果処理部43により可視化して分析結果DB47に記録する処理を行う(S55)。この一連の処理により、ユーザ2が分析結果を表示・閲覧する準備が完了する。ユーザ2は、音声データの録音後、即時もしくは短時間のうちに、スマートフォン52のアプリケーションを用いて、上述の図3に示したような分析結果を表示させて参照することができる(S56、S57)。
なお、図4の例では、ステップS49でスマートフォン52上に録音された音声データを、質問が全て終了した時点で一括して音声分析サーバ40に転送しているが(ステップS52)、音声データの転送の手法はこれに限られない。例えば、ステップS49で録音された音声データをその都度音声分析サーバ40に送信するようにして、質問終了後の処理負担を軽減し、分析結果が出力されるまでの処理時間を短縮するようにしてもよい。
<画面例>
図5は、スマートフォン52により音声データを収集するアプリケーションの画面例について概要を示した図である。上段左の画面は、起動時に表示される認証画面であり、この画面を介してユーザ2はユーザIDやパスワード等のアカウント情報を入力してユーザ認証を行う。なお、一度入力されたアカウント情報はCookie等を用いて保持し、次回以降は自動的に認証を行うようにしてもよい。ユーザ認証が成功すると、上段中央に示すような開始およびガイダンスの画面が表示される。ここで「スタート」ボタンを押下すると、上段右に示すような質問画面が表示され、音声データの取得処理が開始する。
ユーザ2は、画面の「マイク」ボタンをタップして、画面に表示されている質問事項に対する回答を発話する。このとき、画面は下段左に示すような録音中の画面となる。アプリケーションは、スマートフォン52の音声録音機能を利用して、マイクロフォンから入力されたユーザ2の発話を音声データとして録音する。ユーザ2が下段左の画面における「停止」ボタンをタップすることで録音は終了する。
録音が終了すると、次の質問に対する処理が繰り返される。現時点で回答した質問および残りの質問の数は、画面上部の●(回答済み)、○(未回答)のマークの数により示される。所定の数の質問に対する回答(音声データの録音)が完了すると、下段中央に示すような終了画面が表示される。このとき、録音した音声データがスマートフォン52から音声分析サーバ40に自動的に送信され、音声分析サーバ40で音声病態分析の処理がリアルタイムで行われる。
その後、ユーザ2は、例えば、下段右に示すようなメニュー画面から「分析結果サイトへ」という項目を選択することで、上述の図3に示したような分析結果の画面をアプリケーションもしくは連携するWebブラウザ上に表示させ、即時に分析結果を確認することができる。
<データ構成>
図6は、IVRサーバ30の認証マスタDB33のデータ構成の例について概要を示した図である。認証マスタDB33は、ユーザ2毎に、音声データの取得のために電話機51により通話を行う際にユーザ認証を行うための認証データを保持するマスタテーブルであり、例えば、IDコード、およびユーザ名などの各項目を有する。
IDコードの項目は、対象のユーザ2に対してユニークに割り当てられた数桁の数字からなるコード値である。電話機51でのボタンのプッシュにより入力されるため、数字により構成されるものとしているが、入力が可能な場合には文字や記号を含んでいてもよい。ユーザ名の項目は、対象のユーザ2の属性情報としてのユーザ名や氏名の情報を保持する。例えば、ユーザ2に対する認証時に、公知のテキスト読み上げ機能によりユーザ名を音声として応答することで、対象のユーザ2として正しく認証されたことをユーザ2自身が確認できるようにしてもよい。
図7は、IVRサーバ30の音声データDB34のデータ構成の例について概要を示した図である。音声データDB34は、ユーザ2の通話における発話毎に、録音した音声データを保持するテーブルであり、例えば、IDコード、拠点コード、通話番号、データ番号、音声データ、および録音日時などの各項目を有する。
IDコードの項目は、対象の音声データに係る発話を行ったユーザ2を特定するコード値を保持する。この項目は、上述の図6の認証マスタDB33におけるIDコードの項目と同じである。拠点コードの項目は、対象の音声データを収集した拠点、すなわち、対象の音声データに係る通話を受けたPBX10等が属する音声データ収集環境を特定するIDやコード等の情報を保持する。PBX10に対応する電話番号であってもよい。通話番号の項目は、各ユーザ2においてそれぞれの通話を一意に識別するシーケンス番号等の情報を保持する。また、データ番号の項目は、各通話においてそれぞれの発話を一意に識別するシーケンス番号等の情報を保持する。すなわち、IDコード、通話番号、およびデータ番号の項目の組み合わせにより、音声データ収集システム1全体で対象の発話(音声データ)を一意に特定することができる。
音声データの項目は、対象の発話において録音された音声データの情報を保持する。音声データ自体を直接保持していてもよいし、音声データをファイルとして別途保持しておき、そのファイル名やパスの情報を保持するようにしてもよい。録音日時の項目は、対象の発話に係る音声データを録音したときのタイムスタンプの情報を保持する。
図8は、音声分析サーバ40の音声データDB45のデータ構成の例について概要を示した図である。音声データDB45は、各拠点のIVRサーバ30もしくは各ユーザ2のスマートフォン52からそれぞれ送られた音声データの情報を記録するテーブルであり、基本的には上述の図7の音声データDB34と同様のデータ構成を有する。スマートフォン52からの音声データも含むため、電話機51での通話を特定する通話番号に加えて、スマートフォン52での各発話を特定する発話番号の情報も保持できるよう、通話番号の項目に代えて通話・発話番号の項目を有している。また、音声データDB34のデータ構成に加えて、例えば、分析状況などの項目を有する。分析状況の項目は、対象の音声データについての分析が実施済みか未済かを識別するコード値やフラグ等の情報を保持する。
図9は、音声分析サーバ40のユーザマスタDB46のデータ構成の例について概要を示した図である。ユーザマスタDB46は、音声データに基づく音声病態分析の結果を閲覧するためのユーザ2のアカウント情報を保持するマスタテーブルであり、例えば、IDコード、パスワード、ユーザ名、ユーザ属性情報、およびユーザ設定情報などの各項目を有する。
IDコードの項目は、対象のユーザ2を一意に識別するコード値を保持する。この項目は、上述の図6の認証マスタDB33におけるIDコードの項目と同じであってもよい。パスワードの項目は、対象のユーザ2のIDコードに対応するパスワードの情報を保持する。パスワードに加えて、もしくはこれに代えて、生体認証その他の認証手法に係る認証情報を保持していてもよい。さらに、パスワードの登録日時や更新日時等の情報を保持する項目を有していてもよい。
ユーザ名の項目は、対象のユーザの表示名の情報を保持する。ユーザ属性情報の項目は、対象のユーザ2の各種の属性情報を保持する。例えば、性別や年齢等が含まれ得る。これらの属性情報は、例えば、音声病態分析や分析結果の可視化等の処理を行う際の参照情報とすることができる。ユーザ設定情報の項目は、対象のユーザ2により設定された独自の設定情報の内容を保持する。例えば、音声病態分析や分析結果の可視化等の処理を行う際の条件のカスタマイズや、図3に示したような分析結果を表示する画面における表示項目や表示方法のカスタマイズ等の内容を各ユーザ2がそれぞれ設定することができる。ユーザ属性情報やユーザ設定情報のデータフォーマット等は特に限定されず、任意のものとすることができる。
図10は、音声分析サーバ40の分析結果DB47のデータ構成の例について概要を示した図である。分析結果DB47は、ユーザ2毎に、音声データに対する音声病態分析が行われた結果を可視化したデータを保持するテーブルであり、例えば、IDコード、拠点コード、通話・発話番号、分析結果データ、および分析日時などの各項目を有する。
IDコードの項目は、対象のユーザ2を一意に識別するコード値を保持する。この項目は、上述の図9のユーザマスタDB46におけるIDコードの項目と同じである。拠点コードの項目は、対象の分析結果に係る音声データが収集された拠点を特定するシーケンス番号やコード等の情報を保持する。この項目は、上述の図7の音声データDB34や図8の音声データDB45における拠点コードの項目と同じである。
通話・発話番号の項目は、対象の分析結果に係る音声データを収集した通話や発話を特定するシーケンス番号等である。この項目は、上述の図7の音声データDB34や図8の音声データDB45における通話・発話番号の項目と同じである。分析結果データの項目は、対象の分析結果が可視化された内容に係る情報を保持する。データ自体を保持していてもよいし、データの所在場所のパス等を保持していてもよい。データフォーマット等は特に限定されず、任意のものとすることができる。分析日時の項目は、音声分析部42および分析結果処理部43による分析処理および分析結果の可視化の処理が行われたときのタイムスタンプの情報を保持する。
なお、上述の図6〜図10で示した各テーブルのデータ構成(項目)はあくまで一例であり、同様のデータを保持・管理することが可能な構成であれば、他のテーブル構成やデータ構成であってもよい。
以上に説明したように、本発明の一実施の形態である音声データ収集システム1によれば、不特定・特定の多数のユーザ2から、必要な数の音声データをより自然で効率的かつ確実に収集することができ、音声病態分析等の音声データを必要とする処理への入力とすることができる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記の各実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
例えば、上記の実施の形態では、1回の通話もしくは発話において所定の数の質問を行い、これに対する回答として所定の数の音声データを全て取得する構成としているが、このような構成に限られない。1日の単位で所定の数の音声データが得られれば、1回の通話もしくは発話で全ての数の音声データを取得することは必要ではなく、複数回の通話もしくは発話の合計で所定の数の音声データを取得するようにしてもよい。また、この場合の音声データは、図2や図4に示した一連の処理により得られたものに限られない。例えば、これとは無関係に日常生活や業務等において行われた電話等の内容についても自動的に録音しておき、ここで得られた既存の音声データも流用して全体として所定の数の音声データを確保することも可能である。
また、上記の実施の形態では、ユーザ2が能動的に電話機51により電話を掛けたり、スマートフォン52でアプリケーションを起動したり等の行為を行う必要があるが、これらの行為がより確実に行われるような仕組みを別途有していてもよい。例えば、毎日所定の時間に、音声データ収集環境の側からCTIサーバ20やIVRサーバ30の機能によりユーザ2に自動的に電話を掛けるようにしてもよい。当該電話に応答しない場合にはさらに一定時間後に電話を掛けるようにしてもよい。同様に、スマートフォン52上の専用アプリケーションが所定の時間に実行を促す通知を行うようにしてもよい。
また、毎日所定の時間に、音声分析サーバ40による分析結果をレポートとしてユーザ2に対して電子メール等により送信し、リマインドするようにしてもよい。また、直近の利用日時(すなわち、音声データの録音と分析を行った日時)から所定の期間以上利用がない場合に電子メール等により通知するようにしてもよい。
本発明は、ユーザの音声のデータを収集する音声データ収集システムに利用可能である。
1…音声データ収集システム、2…ユーザ、
10…PBX、
20…CTIサーバ、21…収集制御部、
30…IVRサーバ、31…認証部、32…音声収集部、33…認証マスタDB、34…音声データDB、35…音声ガイダンス情報、
40…音声分析サーバ、41…音声データ取得部、42…音声分析部、43…分析結果処理部、44…ユーザIF部、45…音声データDB、46…ユーザマスタDB、47…分析結果DB、
51…電話機、52…スマートフォン、53…情報処理端末

Claims (8)

  1. ユーザの発話に係る音声データを収集する音声データ収集システムであって、
    1つ以上の拠点のそれぞれに対して構成された、PBXと、CTIサーバと、IVRサーバと、を有し、前記ユーザから受けた電話での通話における前記ユーザの発話を前記音声データとして取得する音声データ収集環境と、
    前記各音声データ収集環境における前記各IVRサーバとネットワークを介して接続され、前記各IVRサーバから取得した前記音声データを処理して処理結果を前記ユーザの情報処理端末に対して閲覧可能とする音声分析サーバと、を有し、
    前記音声データ収集環境は、前記ユーザから受けた電話での通話において、前記ユーザに対して回答を求める質問を発出し、前記質問に対する前記ユーザからの回答に係る発話を録音して前記音声データとし、前記音声データが所定の数に達するまで、前記質問の発出と前記ユーザからの回答に係る前記音声データの取得とを繰り返す、音声データ収集システム。
  2. 請求項1に記載の音声データ収集システムにおいて、
    前記音声データ収集環境が前記ユーザから受けた電話での通話において発出する前記各質問は、そのうちの1つ以上が他と同じ内容のものである、音声データ収集システム。
  3. 請求項1に記載の音声データ収集システムにおいて、
    前記音声データ収集環境は、前記ユーザから電話を受けた際に、前記ユーザにより電話機を介して入力された1つ以上の数字が予め登録されている1つ以上のコード値のいずれかと合致する場合に、前記質問を発する、音声データ収集システム。
  4. 請求項1に記載の音声データ収集システムにおいて、
    前記音声分析サーバは、前記IVRサーバから取得した前記音声データに対して音声病態分析を行い、分析結果に基づいて表示のための画面情報を生成し、前記ユーザの前記情報処理端末からの要求を受けて、前記画面情報に基づく内容を前記情報処理端末に表示させる、音声データ収集システム。
  5. 請求項1に記載の音声データ収集システムにおいて、
    前記音声データ収集環境は、取得した前記音声データを、所定の時間間隔毎に前記音声分析サーバに送信する、音声データ収集システム。
  6. ユーザの発話に係る音声データを収集する音声データ収集システムであって、
    音声録音機能を有する情報処理端末と、
    前記情報処理端末から取得した前記ユーザの発話を録音した前記音声データを処理して、処理結果を前記情報処理端末に対して閲覧可能とする音声分析サーバと、を有し、
    前記情報処理端末は、前記ユーザに対して回答を求める質問を表示し、前記質問に対する前記ユーザからの回答に係る発話を録音して前記音声データとし、前記音声データが所定の数に達するまで、前記質問の表示と前記ユーザからの回答に係る前記音声データの取得とを繰り返す、音声データ収集システム。
  7. 請求項6に記載の音声データ収集システムにおいて、
    前記情報処理端末が表示する前記各質問は、そのうちの1つ以上が他と同じ内容のものである、音声データ収集システム。
  8. 請求項6に記載の音声データ収集システムにおいて、
    前記音声分析サーバは、前記情報処理端末から取得した前記音声データに対して音声病態分析を行い、分析結果に基づいて表示のための画面情報を生成し、前記ユーザの前記情報処理端末からの要求を受けて、前記画面情報に基づく内容を前記情報処理端末に表示させる、音声データ収集システム。
JP2016114027A 2016-06-08 2016-06-08 音声データ収集システム Pending JP2017220807A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016114027A JP2017220807A (ja) 2016-06-08 2016-06-08 音声データ収集システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016114027A JP2017220807A (ja) 2016-06-08 2016-06-08 音声データ収集システム

Publications (1)

Publication Number Publication Date
JP2017220807A true JP2017220807A (ja) 2017-12-14

Family

ID=60656530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016114027A Pending JP2017220807A (ja) 2016-06-08 2016-06-08 音声データ収集システム

Country Status (1)

Country Link
JP (1) JP2017220807A (ja)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5633910A (en) * 1994-09-13 1997-05-27 Cohen; Kopel H. Outpatient monitoring system
JP2003225228A (ja) * 2002-01-31 2003-08-12 Sanyo Electric Co Ltd 健康管理端末装置,コンピュータプログラム及び記録媒体
JP2003228391A (ja) * 2002-01-31 2003-08-15 Sanyo Electric Co Ltd 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体
JP2004179897A (ja) * 2002-11-26 2004-06-24 Oki Electric Ind Co Ltd コールセンタシステムおよびそのプログラム
WO2006064635A1 (ja) * 2004-12-17 2006-06-22 Konica Minolta Holdings, Inc. 診断システム
JP2006230548A (ja) * 2005-02-23 2006-09-07 Matsushita Electric Ind Co Ltd 体調判定装置およびそのプログラム
US20080298562A1 (en) * 2007-06-04 2008-12-04 Microsoft Corporation Voice aware demographic personalization
JP2011115390A (ja) * 2009-12-03 2011-06-16 Higashi Nihon Medicom Kk 自動問診装置
JP2011206342A (ja) * 2010-03-30 2011-10-20 Yuuki Kitaoka 健康管理システム
JP2012008687A (ja) * 2010-06-23 2012-01-12 Nec Corp 情報集計システム、情報集計装置および情報集計方法
JP2015128579A (ja) * 2013-12-05 2015-07-16 Pst株式会社 推定装置、プログラム、推定装置の作動方法および推定システム

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5633910A (en) * 1994-09-13 1997-05-27 Cohen; Kopel H. Outpatient monitoring system
JP2003225228A (ja) * 2002-01-31 2003-08-12 Sanyo Electric Co Ltd 健康管理端末装置,コンピュータプログラム及び記録媒体
JP2003228391A (ja) * 2002-01-31 2003-08-15 Sanyo Electric Co Ltd 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体
JP2004179897A (ja) * 2002-11-26 2004-06-24 Oki Electric Ind Co Ltd コールセンタシステムおよびそのプログラム
WO2006064635A1 (ja) * 2004-12-17 2006-06-22 Konica Minolta Holdings, Inc. 診断システム
JP2006230548A (ja) * 2005-02-23 2006-09-07 Matsushita Electric Ind Co Ltd 体調判定装置およびそのプログラム
US20080298562A1 (en) * 2007-06-04 2008-12-04 Microsoft Corporation Voice aware demographic personalization
JP2011115390A (ja) * 2009-12-03 2011-06-16 Higashi Nihon Medicom Kk 自動問診装置
JP2011206342A (ja) * 2010-03-30 2011-10-20 Yuuki Kitaoka 健康管理システム
JP2012008687A (ja) * 2010-06-23 2012-01-12 Nec Corp 情報集計システム、情報集計装置および情報集計方法
JP2015128579A (ja) * 2013-12-05 2015-07-16 Pst株式会社 推定装置、プログラム、推定装置の作動方法および推定システム

Similar Documents

Publication Publication Date Title
US9538005B1 (en) Automated response system
US9706050B2 (en) Routing user communications to agents
US9860379B2 (en) Recording user communications
US9742913B2 (en) Recording user communications
GB2492903A (en) Generating and processing voice-based forms
US9674638B2 (en) Dynamic mobile device feedback methods, systems, and apparatus
US20230353369A1 (en) System and method for customizing inmate communication notification
CN109885666A (zh) 一种基于html5的智能语音客服机器人的方法及***
TWI761841B (zh) 基於語音對講功能的任務管理方法、系統與移動裝置
US8301452B2 (en) Voice activated application service architecture and delivery
JP2015186018A (ja) 通信装置、オペレータ選択方法及びプログラム
WO2020125529A1 (zh) 互动式语音应答菜单的应用方法、***、装置及存储介质
JP2019144400A (ja) 制御装置、制御方法及びコンピュータプログラム
WO2023090380A1 (ja) プログラム、情報処理システム及び情報処理方法
JP2021051385A (ja) 情報処理システム、情報処理方法及びプログラム
JP2017220807A (ja) 音声データ収集システム
TWI723988B (zh) 資訊處理系統、受理伺服器、資訊處理方法及程式
JP6669374B1 (ja) 設定装置、設定方法及び設定プログラム
JP6534171B2 (ja) 呼出支援システム
EP3138273B1 (en) Method and apparatus for providing communication interaction visibility
JP7168262B1 (ja) プログラム、情報処理システム及び情報処理方法
JP7169031B1 (ja) プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
Asthana et al. Building efficient mobile systems and applications for supporting information exchange in resource limited settings
JP7169030B1 (ja) プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
RU2788321C1 (ru) Система обеспечения связи конечного потребителя с поставщиком услуг при помощи виртуального ассистента

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200720

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200811