JP6538846B2

JP6538846B2 - 音声情報を処理するための方法及び装置

Info

Publication number: JP6538846B2
Application number: JP2017530753A
Authority: JP
Inventors: チーンリーン
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-12-09
Filing date: 2015-12-03
Publication date: 2019-07-03
Anticipated expiration: 2035-12-03
Also published as: KR102284973B1; WO2016091110A1; EP3232651A4; EP3232651A1; CN105744090A; US10708423B2; JP2018501721A; KR20170088997A; SG11201704392QA; US20170346947A1; KR20190037363A

Description

本出願は、音声処理技術の分野に係り、特に、音声情報を処理するための方法及び装置に関する。

インターネット及び通信の技術の進歩により、ユーザらは、ネットワーク又は電話を通じて連絡をとり、その通信の間にいくつかの質問を行い、関連する回答を取得することができる。例えば、ユーザがいくつかの質問を行うことができるようにユーザと通信して、ユーザに対する関連する回答を提供するために、双方向音声応答（ＩＶＲ：Interactive Voice Response）方式を利用する顧客サービスシステムがあり、漸増的に増えている。

ＩＶＲを用いるプロセスは、ユーザは、電話を通じてＩＶＲのサービスセンタに対して接続され、サービスセンタの音声プロンプトに従ってサービスチャネルを選択し、選択されたサービスチャネルを用いることによって質問を行うことを含み、ここで、選択されたサービスチャネルがマニュアルサービスチャネル（manual service channel）又は知的サービスチャネル（intelligent service channel）であってもよい。現在、ＩＶＲのサービスモードは単調であり、サービス方式は充分に柔軟ではなく、したがって、ＩＶＲのサービス品質は低い。

本出願の複数の態様は、ＩＶＲのサービス品質の向上のための、音声情報を処理する方法及び装置を提供する。

本出願の一態様において、
ユーザによって行われる質問を表現するための音声データを取得するステップと、
ユーザの優先度を判定するために音声データに対し感情分析を実行するステップと、
ユーザの優先度に従って、対応するサービスチャネルにユーザを接続するステップと
を含む、音声情報を処理するための方法が提供される。

本出願の別の態様において、
ユーザによって行われる質問を表現するための音声データを取得するように構成された取得モジュールと、
ユーザの優先度を判定するために音声データに対し感情分析を実行するように構成された分析モジュールと、
ユーザの優先度に従って、対応するサービスチャネルにユーザを接続するように構成されたサービス接続モジュールと
を含む、音声情報を処理するための装置が提供される。

本出願において、ユーザの音声データが取得され、音声データの優先度を判定するために、感情分析が音声データに対し実行され、ユーザは、音声データの優先度に従って、対応するサービスチャネルに対して接続される。先行技術と比較して、本出願は、音声データの優先度に従って、対応するサービスチャネルに対してユーザを接続することができ、このような方法で、ユーザは、異なるサービスチャネルに対して柔軟に且つタイミング良く接続されることができる。例えば、より優先度の高い音声データを有するユーザは、高プライオリティサービスチャネルに対して接続されてもよく、したがって、ユーザエクスペリエンス及び問題を解決する速度の向上につながり、同時に、ＩＶＲのサービスモードを拡大し、サービスの柔軟性を向上し、ＩＶＲのサービス品質の向上につながる。

本出願の実施形態における技術的解決手段又は従来技術をさらに明確に記載するために、実施形態又は従来技術に関する記載において使用されている添付の図面が、以下に簡潔に紹介される。以下の記述において、添付の図面が本出願のいくつかの実施形態であるということは明らかであり、当業者は、また、創造的な労力を何ら伴うことなく添付の図面に従って他の添付の図面を得ることができる。

本出願の実施形態による音声情報を処理するための方法の概略フローチャートである。本出願の実施形態によるステップ１０１の実装の概略フローチャートである。本出願の実施形態によるステップ１０２の実装の概略フローチャートである。本出願の別の実施形態による音声情報を処理するための方法の概略フローチャートである。本出願の別の実施形態による音声情報を処理するための装置の概略構成図である。

本出願の実施形態の目的、技術的解決手段、及び有利性をより明らかにするために、本出願の実施形態における技術的解決手段は、本出願の実施形態内に添付の図面を参照して明確に且つ充分に以下に記載されることになる。記載される実施形態が本出願の実施形態の全部ではなく単に一部である、ということは明らかである。本出願における実施形態に基づいて、創造的な労力を伴わずに当業者によって得られる他のすべての実施形態は、本出願の保護範囲によって含まれるものとする。

図１は、本出願の実施形態による音声情報を処理するための方法の概略フローチャートである。図１に示すように、本方法は、以下のものを含む。
１０１：ユーザの音声データが取得される。

１０２：音声データの優先度を判定するために、感情分析が音声データに対し実行される。

１０３：ユーザは、音声データの優先度に従って、対応するサービスチャネルに対して接続される。

この実施形態は、音声情報を処理するための装置によって実行されることができる、音声情報を処理するための方法を提供する。特定の実装を通じて、音声情報を処理するための装置は、所定の処理機能を有し、ＩＶＲなどの音声サービスを提供する顧客サービスシステムに適用可能な、任意の装置又は装置であってもよい。

具体的には、音声情報を処理するための装置は、ユーザの音声データを取得し、音声データの優先度を判定するために音声データに対し感情分析を実行し、その後、音声データの優先度に従って、対応するサービスチャネルに対してユーザを接続する。

音声データの優先度は、ある程度、ユーザの優先度を示すことができる若しくは反映することができる、ということに留意するべきである。

この実施形態は、音声データの優先度を判定するために音声データに対し感情分析を実行し、したがって、ユーザは、音声データの優先度に従って、異なるサービスチャネルに対して柔軟に且つタイミング良く接続されることができる。例えば、従来技術における音声プロンプトに従ってユーザによってサービスチャネルを選択するのではなく、より優先度が高い音声データを有するユーザが高プライオリティサービスチャネルに対して接続されることができ、したがって、ＩＶＲのサービスモードが拡大され、ＩＶＲのサービス品質が向上される。

選択可能な実装において、ユーザの音声データは、ユーザによって行われる質問を表現するための音声データであってもよい。

実際のアプリケーションにおいて、各アプリケーションは、ユーザが質問を行い、関連情報を学習し、提案をフィードバックし、及び同様のもののために、アプリケーションを用いるユーザ毎に通信プラットフォームを提供するために用いられる顧客サービスシステムを通常提供してもよい。

この実施形態において、顧客サービスシステムは、少なくとも１つのサービスチャネル（又はサービス方式）を提供する。例えば、それは、マニュアルチャネル及び知的チャネルを含んでもよい。マニュアルチャネルは、顧客サービス担当者（customer service representative）が音声方式でユーザに対するサービスを提供するということを主に指し、知的チャネルは、例えば、オンラインチャットサービス、オンラインセルフサービス、及び同様のものを含む、非マニュアルサービス方式を指す。

この実施形態において、サービスチャネルは、優先度に従って分類される。マニュアルチャネルの優先度は、知的チャネルよりも高くするべきである。その上、マニュアルチャネルは、共通マニュアルチャネル（common manual channel）、専門家マニュアルチャネル（specialist manual channel）、及び同様のものにさらに分類されてもよい。専門家マニュアルチャネルの優先度は、共通マニュアルチャネルよりも高い。サービスチャネルの優先度が高いほど、提供されたサービス品質はより優れる。例えば、専門家マニュアルチャネルによって提供されることができるサービス品質は、共通マニュアルチャネルのサービス品質よりも高い。異なるサービスチャネルのサービス品質は、解決可能な問題の複雑性、サービス態度、問題を解決する速度、及び問題を解決する柔軟性などの複数の要因によって判定されてもよい。

顧客サービスシステムに対してこの実施形態において提供される方法を適用する特定のプロセスは、ユーザが質問を行う必要がある場合、ユーザによって行われる質問を表現するための音声データが取得され、行われる質問をユーザが表現する場合にユーザの感情を取得し、且つユーザが質問を行う場合にユーザの感情に従って音声データの優先度を判定するために、感情分析が音声データに対し実行され、その後、ユーザは音声データの優先度に従って、対応するサービスチャネルに対して接続されることを含む。

この実施形態は、ユーザが質問を行う際にユーザの音声データに対する感情分析を実行し、それにより、ユーザを区別し、その後、異なる優先度によりユーザを異なるサービスチャネルに対して接続することによって、音声データの優先度を通じてユーザの優先度を具体化することができ、それが、ユーザエクスペリエンス及び問題を解決する速度の向上につながり、さらに、顧客サービスシステムのサービス品質の向上につながる、ということが分かる。その上、従来技術と比較して、この実施形態において提供される方法は、例えば、従来技術のようにすべてのユーザを一様に処理するのではなく、ユーザを区別することに等価である、音声データの優先度を通じたユーザの優先度を具体化することができる。緊急の要求を有するユーザは、マニュアルチャネルに対して優先的に接続されてもよく、それにより、顧客サービスシステムのサービスモードを拡大し、サービスの柔軟性を向上する。

選択可能な実装において、ステップ１０１の実装は、図２に示すように、以下のものを特に含む。
１０１１：ユーザの通信リクエストが、ユーザとの音声通信を実行するために受信される。

１０１２：音声プロンプトがユーザに対して再生される。

１０１３：音声プロンプトのプロンプト下でユーザによって送られた音声データが受信される。

選択可能な実装において、音声プロンプトは、行われる質問を表現するようにユーザに指示するための質問表現プロンプト（question description prompt）であってもよい。それに対応して、ユーザは、質問表現プロンプトのプロンプト下で、行われる質問を表現するための音声データを送ってもよい。

特に、ＩＶＲなどのユーザに対する音声サービスを提供するいくつかの顧客サービスシステムに対して、ユーザが顧客サービスシステムに質問する場合、ユーザは、通常、顧客サービスシステム内の音声情報を処理するための装置に対して通信リクエストを送るために携帯電話及び固定電話などの通信端末を通じて対応する顧客サービスホットラインにダイヤルし、音声情報を処理するための装置は、ユーザとの音声通信を確立するために通信リクエストを受信する。その後、音声情報を処理するための装置は、なされる質問を表現するようユーザに入力を促すために、ユーザに対して質問表現プロンプトを再生する。例えば、質問表現プロンプトは、「１文で質問を表現してください」及び「あなたがしたい質問は何ですか」などの音声であってもよい。ユーザは、なされる質問を表現する音声データを形成するために、質問表現プロンプトに従って、なされる質問を表現する。例えば、音声データは、「私はパスワードを忘れました」及び「私はアカウント及びパスワードを入力した後に通常通りにログインすることができない」などの音声であってもよい。

ユーザによってなされる質問を表現するための音声データを取得するために、上記の方式を利用することに加えて、音声情報を処理するための装置は、また、他の方式を利用してもよい、ということに留意するべきである。例えば、音声情報を処理するための装置は、ユーザによってなされる質問を表現するための音声データを、別の装置（例えばユーザ端末）から、取得してもよい。

音声情報を処理するための装置は、音声データを取得した後に、音声データの優先度を判定するために音声データに対し感情分析を実行してもよい。選択可能な実装において、ステップ１０２の実装は、図３に示すように、以下のものを特に含む。
ユーザが音声データを送る場合、ユーザの音量（volume）及び／又はペーシングを判定するために、感情分析が音声データに対し実行される。

１０２２：ユーザの感情値が、音量及び／又はペーシングに従って取得される。

１０２３：ユーザの優先度が、ユーザの感情値と、感情値と優先度との間の事前設定されたマッピング関係に従って取得される。

感情分析は、一種の意味解析であり、従来技術に属する。音量及びペーシングを分析することができる様々な方法が、この実施形態に対して適用可能である。例えば、ペーシングを分析するプロセスは、音声データが取得された後に音声データの短時間の平均振幅を計算し、その後、音声データのペーシングを計算するために短時間の平均振幅に従って音声データの開始点及び終了点を分析することであってもよい。

音は、いくつかの（又は無限の）周波数成分によって形成される。周波数スペクトルは、音の特性を検出し表現するために通常用いられる。したがって、音量を分析するプロセスは、音声データを時間領域信号から周波数領域信号に変換し、オクターブを分割し、音声データの音量を取得するために、周波数領域信号を絶対振幅から相対振幅、すなわちデシベル（ＤＢ）、に変換することであってもよい。

音声情報を処理するための装置は、行われる質問をユーザが表現する際にユーザのペーシング及び／又は音量を取得するために音声データに対し感情分析を実行する。ペーシング及び音量は、不安、怒り、及び平静などのユーザの感情を表わしてもよい。

音量に関して、音量が０ＤＢと２０ＤＢとの間にある場合、非常に静かであり、ほとんど聞こえない。音量が２０ＤＢと４０ＤＢとの間にある場合、ユーザが比較的平穏であることを示す、静かな囁き声のような音声である。音量が４０ＤＢと６０ＤＢとの間にある場合、ユーザが感情的に安定していることを示す、一般的で且つ普通の屋内での話し方である。音量が６０ＤＢと７０ＤＢとの間にある場合、ユーザが不安になっているか又は怒っていることを示す、騒がしく且つ神経に害を及ぼす。

ペーシングに関して、通常の人のペーシングは、通常の状況では７０〜９０語／分であり、行われる質問を１文で表現する時間が１５秒であれば、約１８〜２３語が含まれているはずである。ユーザが質問をする場合、ユーザのペーシングが１８〜２３語よりも少ないか又は同じくらいであれば、ユーザが比較的平穏であり、行われる質問は緊急ではないかもしれない、ということを示す。これに反して、ユーザが質問をする場合、ユーザのペーシングが２３語以上、例えば、質問をする場合、ペーシングが約２５〜３２語であれば、ユーザがかなり不安であり、行われる質問が緊急かもしれない、ということを示す。

これに基づいて、音声情報を処理するための装置は、行われる質問をユーザが表現する場合、ユーザのペーシング及び／又は音量を取得した後に、ペーシング及び／又は音量に従って、ユーザの感情値をさらに取得する。

オプションとして、音量及び／又はペーシングに対し数値処理が実行されてもよく、数値処理の結果は、ユーザの感情値として用いられる。数値処理の方式は、加重平均、重み付け、又は同様のものであってもよい。

例えば、実装は、ユーザの感情値として音量と重みとの積を、音声情報を処理するための装置によって、用いることを含む。重みが１である場合、音量は、ユーザの感情値として直接用いられてもよい。

別の例に関して、実装は、ユーザの感情値としてペーシングと重みとの積を、音声情報を処理するための装置によって、用いることを含む。重みが１である場合、ペーシングは、ユーザの感情値として直接用いられてもよい。

別の例に関して、実装は、音量及びペーシングに対して数値処理を、音声情報を処理するための装置によって実行し、ユーザの感情値として数値処理の結果を用いることを含む。例えば、音声情報を処理するための装置は、音量及びペーシングを乗算し、ユーザの感情値として乗算の結果を用いる、又は、音声情報を処理するための装置は、音量及びペーシングに対し加重平均を実行し、ユーザの感情値として結果を用いてもよい。数値処理の方式は、乗算及び加重平均に限定されない。

ユーザの感情値が取得された後、音声情報を処理するための装置は、感情値と優先度との間の事前設定されたマッピング関係にユーザの感情値を合致させ、合致した優先度は、ユーザの優先度として用いられる。

感情値及び優先度の間のマッピング関係は、特に、例えば、感情値範囲０〜１０は優先度−１に対応し、感情値範囲１０〜２０は優先度０に対応し、感情値範囲２０〜３０は優先度１に対応し、感情値範囲３０超は優先度２に対応する、感情値範囲と優先度との間の対応関係であってもよい、ということに留意するべきである。代替的に、感情値と優先度との間のマッピング関係は、特に、例えば、感情値閾値１０は優先度−１に対応し、感情値閾値２０は優先度０に対応し、感情値閾値３０は優先度１に対応し、感情値閾値３０超は優先度２に対応し、優先度２に対応する感情値閾値は限定されない、感情値閾値と優先度との間の対応関係であってもよい。

選択可能な実装において、音声情報を処理するための装置は、優先度とサービスチャネルとの間のマッピング関係を事前設定し、サービスチャネルは、マニュアルチャネルと知的チャネルとを含む。さらに、オプションとして、マニュアルチャネルは、共通マニュアルチャネルと専門家マニュアルチャネルとにさらに分類されてもよい。音声情報を処理するための装置は、特に、優先度とサービスチャネルとの間の事前設定されたマッピング関係にユーザの優先度を合致させ、マニュアルチャネルが合致した場合、ユーザは、マニュアルチャネルに対して接続され、特に、ユーザの通話要求は、マニュアルチャネル内の顧客サービス担当者のクライアントに対して接続される。知的チャネルが合致する場合、ユーザは、知的チャネルに対して接続され、特に、音声情報を処理するための装置は、音声放送の方式で、問題を解決するためにユーザをガイドしてもよい。

例えば、優先度２は、専門家マニュアルチャネルに対応し、優先度１は、共通マニュアルチャネルに対応し、優先度０及び優先度−１は、知的チャネルに対応する。ユーザの優先度が２であると仮定すると、その場合、音声情報を処理するための装置は、専門家マニュアルチャネルに対してユーザを接続する必要がある。

さらに、音声情報を処理するための装置は、音声データに従って、ユーザによって行われる質問に答えるための参照情報（reference information）をさらに生成し、マニュアルチャネルに対応する顧客サービス担当者に対して参照情報を提供してもよく、その結果、顧客サービス担当者は、参照情報に従ってユーザに対して質問に答え、それにより、質問に答えることの効率及び品質を向上する。

参照情報を生成する手法は、意味情報処理装置が、音声データに対しテキスト変換を実行し、ユーザによってなされる質問のカテゴリを判定するためにテキスト情報を認識し、ユーザのアカウント情報を取得し、参照情報を生成するために、ユーザによってなされる質問のカテゴリ及びユーザのアカウント情報を動的にアセンブルすることを含むが、それに限定されない。参照情報は、音声の形式又はテキストの形式であってもよい。

ユーザが接続されるべきサービスチャネルを判定するためにユーザの優先度がどのように用いられるのかを上記の実施形態は強調するが、本出願の実施形態は、ユーザが接続されるべきサービスチャネルを判定するためにユーザの優先度を個別に用いることに限定されず、ユーザの優先度は、さらに他の情報と組み合わせて用いられてもよい、ということに留意するべきである。例えば、ユーザの優先度は、ユーザが接続されるサービスチャネルを判定する（例えば、ユーザによってなされる質問のカテゴリに基づいて、ユーザが接続されるべきサービスチャネルを判定する）ために、既存のＩＶＲにおいて実施されてきた方法と組み合わされてもよい。具体的な組み合わせ方式は、先ずユーザの優先度を検討し、次に、ユーザによって行われる質問のカテゴリを検討すること、又は、先ずユーザによって行われる質問のカテゴリを検討し、次に、ユーザの優先度を検討すること、又は、ユーザによって行われる質問のカテゴリとユーザの優先度とを同時に検討することを含んでもよい。

図４に示す以下の実施形態は、ユーザの優先度を用いることによってユーザに対するサービスチャネルを判定する詳細フローを提供する。図４に示す実施形態において、モジュールは、具体的には、音声情報を処理するための装置を構成してもよい。

図４は、本発明の実施形態のよる音声情報を処理するための方法の概略フローチャートである。図４に示すように、本方法は、以下のものを含む。
２１：双方向音声応答（ＩＶＲ）モジュールは、ユーザとの音声通信を確立するために、ユーザによって送られた通信リクエストを受信する。

２２：ＩＶＲモジュールは、なされる質問を表現するようにユーザに入力を促すために、ユーザに対して質問表現プロンプトを再生する。

２３：ＩＶＲモジュールは、なされる質問をユーザが表現する際にユーザによって生成された音声データを受信する。

２４：ＩＶＲモジュールは、Ａｌｉｐａｙ一般アルゴリズムプラットフォーム（ＡＧＡＰ：Alipay general algorithm platform）モジュールに対して音声データを送る。

２５：ＡＧＡＰモジュールは、ユーザの音量及び／又はペーシングを取得するために音声データに対し感情分析を実行し、音量及び／又はペーシングに従ってユーザの優先度を取得し、ＩＶＲモジュールに対してユーザの優先度を戻す。

２６：ＩＶＲモジュールは、自動音声認識（ＡＳＲ：automatic speech recognition ）モジュールに対して音声データを送る。

２７：ＡＳＲモジュールは、テキスト情報を取得するために音声データに対しテキスト変換を実行し、ＩＶＲモジュールに対してテキスト情報を戻す。

２８：ＩＶＲモジュールは、顧客サービス双方向音声応答（ＣＳＩＶＲ：customer service interactive voice response）モジュールに対してテキスト情報とユーザの優先度とを提供する。

２９：ＣＳＩＶＲモジュールは、Ａｌｉｐａｙテキスト解析（ＡＬＩＴＡ：Alipay text analyze）モジュールに対してテキスト情報を送る。

３０：ＡＬＩＴＡモジュールは、質問のカテゴリを判定するためにテキスト情報に対し意味解析を実行し、ＣＳＩＶＲモジュールに対して、判定された質問のカテゴリを戻す。

３１：ＣＳＩＶＲモジュールは、ユーザ（顧客情報ファイル（ＣＩＦ：customer information file））モジュールに対して、着信番号及びＩＤ番号などの情報を提供する。

３２：ＣＩＦモジュールは、ユーザの着信番号及びＩＤ番号に従ってユーザのアカウント情報を取得し、ＣＳＩＶＲモジュールに対してユーザのアカウント情報を戻す。

３３：ＣＳＩＶＲモジュールは、顧客サービス精密（ＣＳＡＣＣＵＲＡＴＥ：customer service accurate）モジュールに対して、ユーザのアカウント情報、質問のカテゴリ及び、ユーザの優先度を送る。

３４：ＣＳＡＣＣＵＲＡＴＥモジュールは、ユーザのアカウント情報、質問のカテゴリ、及びユーザの優先度に従って、ユーザに対応するサービスチャネルを判定し、判定されたサービスチャネルの識別情報をＣＳＩＶＲモジュールに戻す。

この実装において、ＣＳＡＣＣＵＲＡＴＥモジュールは、ユーザが接続されるべきサービスチャネルを判定するために、質問のカテゴリとユーザの優先度とを同時に検討する。

例えば、ユーザによって行われる質問のカテゴリに従って、ユーザが無効なユーザ（invalid user）として判定され、ユーザが質問をする場合、音量とペーシングに従って、ユーザの優先度が−１として決定されると仮定すると、ユーザは知的チャネルに対して接続されてもよい。例えば、ユーザによって行われる質問のカテゴリに従って、質問しているユーザとして判定され、ユーザが質問をする場合、音量とペーシングに従って、ユーザの優先度が０として決定されると仮定すると、ユーザは知的チャネルに対して接続されてもよい。例えば、ユーザによって行われる質問のカテゴリに従って、サービス要求しているユーザとして判定され、ユーザが質問をする場合、音量とペーシングに従って、ユーザの優先度が１として決定されると仮定すると、ユーザは共通マニュアルチャネルに対して接続されてもよい。例えば、ユーザによって行われる質問のカテゴリに従って、緊急の要求を伴うユーザとして判定され、ユーザが質問をする場合、音量とペーシングに従って、ユーザの優先度が２として決定されると仮定すると、ユーザは専門家マニュアルチャネルに対して接続されてもよい。

３５：サービスチャネルが知的チャネルであれば、ＣＳＩＶＲモジュールは、ユーザのアカウント情報、質問のカテゴリ、及びユーザの優先度に従って、対応する音声再生データを生成し、問題を解決するためにユーザをガイドするＩＶＲモジュールに対する、音声再生データをＩＶＲモジュールに戻す。

３６：サービスチャネルがマニュアルチャネルであると、ＣＳＩＶＲモジュールは、ユーザのアカウント情報、質問のカテゴリ、及びユーザの優先度に従って、参照情報を生成し、マニュアルチャネルに対してユーザを接続し、同時に、マニュアルチャネル内の顧客サービス担当者に対して参照情報を提供する。

この実施形態において、ユーザが質問をする場合、ユーザの優先度は、ユーザの感情に従って判定されてもよく、ユーザは、優先度に基づいて対応するサービスチャネルに対して接続され、このような方法で、異なる優先度のユーザは、異なるサービスチャネルに対して柔軟に且つタイミング良く接続されることができる。例えば、より優先度が高いユーザは、高プライオリティサービスチャネルに対して接続されてもよく、それにより、ユーザエクスペリエンスと問題を解決する速度との向上につながり、その一方で、ＩＶＲのサービスモードを拡大し、サービスの柔軟性を向上し、ＩＶＲのサービス品質の向上につながる。

記載の容易さのために、上記で言及された方法の実施形態がすべて一連の動作の組み合わせとして記載される、ということに留意するべきであるが、但し、当業者は、本明細書内に記載した動作の順序に本出願が限定されない、ということを認識するべきであり、これは、いくつかのステップが、他の順序で又は同時に、本出願に従って実行されてもよいからである。次に、当業者は、また、明細書内に記載される実施形態は、すべて、好ましい実施形態であり、関係する動作及びモジュールは、本出願によって必ずしも必要とされない、ということを認識するべきである。

上記の実施形態において、実施形態上の記載はそれぞれのエンファシスを有しており、実施形態に詳細には記載されない部分に関して、他の実施形態における関連する記載を参照してもよい。

図５は、本出願の実施形態による音声情報を処理するための装置の概略構成図である。図５に示すように、本装置は、取得モジュール５１と、分析モジュール５２と、サービス接続モジュール５３とを含む。

取得モジュール５１は、ユーザの音声データを取得するように構成される。

分析モジュール５２は、取得モジュール５１に対して接続され、音声データの優先度を判定するために取得モジュール５１によって取得された音声データに対し感情分析を実行するように構成される。

サービス接続モジュール５３は、分析モジュール５２に対して接続され、分析モジュール５２によって判定された音声データの優先度に従って、対応するサービスチャネルに対してユーザを接続するように構成される。

音声データの優先度は、ある程度、ユーザの優先度を示すことができる又は表わすことができる、ということに留意するべきである。

選択可能な実装において、取得モジュール５１は、ユーザとの音声通信を実行するためにユーザの通信リクエストを受信し、ユーザに対して音声プロンプトを再生し、音声プロンプトのプロンプト下でユーザによって送られた音声データを受信するように特に構成される。

選択可能な実装において、音声プロンプトは、行われる質問を表現するようにユーザに指示するための質問表現プロンプトであってもよい。それに対応して、ユーザは、質問表現プロンプトのプロンプト下で、行われる質問を表現するための音声データを送ることができる。

選択可能な実装において、分析モジュール５２は、ユーザが音声データを送る場合、ユーザの音量及び／又はペーシングを決定するために音声データに対し感情分析を実行し、音量及び／又はペーシングに従ってユーザの感情値を取得し、ユーザの感情値と、感情値と優先度との間の事前設定されたマッピング関係とに従ってユーザの優先度を取得するように特に構成される。

分析モジュール５２は、ユーザが音声データを送る場合、ユーザの音量及び／又はペーシングを決定するために音声データに対し感情分析を実行し、音量及び／又はペーシングに対し数値処理を実行し、ユーザの感情値として数値処理の結果を用い、ユーザの感情値と、感情値と優先度との間の事前設定されたマッピング関係とに従って、音声データの優先度を取得するように特に構成される。

選択可能な実装において、サービス接続モジュールは、優先度とサービスチャネルとの間の事前設定されたマッピング関係に音声データの優先度を合致させ、マニュアルチャネルが合致した場合、マニュアルチャネルに対してユーザを接続するように特に構成される。

選択可能な実装において、音声情報を処理するための装置は、音声データに従って参照情報を生成し、マニュアルチャネルに対応する顧客サービス担当者に対して参照情報を提供するように構成された参照処理モジュールをさらに含む。

図５に示す実装構造の利用に加えて、音声情報を処理するための装置は、ＩＶＲシステムを形成するために図２に示す実施形態における実装構造をさらに利用してもよい、ということに留意するべきである。

この実施形態による音声情報を処理するための装置は、音声データの優先度に従って、対応するサービスチャネルに対してユーザを接続することができ、そして、このような方法で、ユーザは、異なるサービスチャネルに対して柔軟に且つタイミング良く接続することができ、例えば、より優先度の高い音声データを有するユーザは、高プライオリティサービスチャネルに対して接続されてもよく、したがって、ユーザエクスペリエンス及び問題を解決する速度の向上につながり、同時に、ＩＶＲのサービスモードを拡大し、サービスの柔軟性を向上し、ＩＶＲのサービス品質の向上につながる。

記載の利便性及び明瞭さのために、上記で述べられたシステム、装置、及びユニットの具体的な作業プロセスが前述の方法の実施形態内の対応するプロセスを参照して取得されるのであり、本明細書においては繰り返されない、ということを当業者は明確に理解することができる。

本出願において提供されるいくつかの実施形態において、開示されるシステム、装置、及び方法が、他の方式で実装されてもよい、ということを理解するべきである。例えば、前述の装置の実施形態は、単なる概略であり、例えば、ユニットの区分は、単に論理機能の区分であり、そして、例えば、実際には、実装の間に他の区分方式があってもよいし、複数のユニット又は構成要素が組み合わされてもよく、又は別のシステム内に組み込まれてもよく、又はいくつかの機能が省略されても若しくは実行されなくてもよい。他方で、表示若しくは議論された相互連結又は直接連結又は通信接続は、いくつかのインタフェース、装置、又はユニットの間の間接連結若しくは通信接続を通じて実装されてもよく、電気的に、機械的に、又は他の形式であってもよい。

個別の部分として記載されたユニットは、物理的に分離されていても若しくは分離されていなくてもよく、ユニットとして表示された部分は、物理的ユニットであっても若しくは物理的ユニットでなくてもよくすなわち、それらは、同じ場所に配置されてもよく、又は、複数のネットワークユニットに対して分散されてもよい。この実施形態の解決手段の目的は、実際の要求に従って、一部若しくはすべてのユニットを選択することによって実装されてもよい。

その上に、本出願の実施形態における各種機能ユニットは、１つの処理装置内に組み込まれることができ、各ユニットは、また、分離した物理的ユニットとして存在してもよいし、２以上のユニットが１ユニットに組み込まれてもよい。統合されたユニットが、ハードウェアの形式で実装されてもよいし、又は、ソフトウェア機能ユニットを加えたハードウェアの形式で実装されてもよい。

ソフトウェア機能ユニットの形式で実装された統合されたユニットは、コンピュータ読み取り可能な記憶媒体内に格納されてもよい。ソフトウェア機能ユニットは、記憶媒体内に格納され、本出願の実施形態において記載された方法のステップの一部を実行するように、パーソナルコンピュータ、サーバ、ネットワーク装置、又は同様のものであってもよいコンピュータ装置若しくはプロセッサを作動させるために用いられるいくつかの指示を含む。記憶媒体は、ＵＳＢフラッシュディスク、モバイルハードディスク、読み取り専用メモリ（ＲＯＭ：Read-Only Memory）、ランダムアクセスメモリ（ＲＡＭ：Random Access Memory）、磁気ディスク、光ディスク、又はプログラムコードを格納することができる他の媒体を含む。

最後に、上記の実施形態は、本出願を限定するものではなく、本出願の技術的解決手段の記述のために単に提供される、ということに留意するべきであり、本出願が前述の実施形態に関連して詳細に記載されたが、前述の実施形態に記載された技術的解決手段に対して修正を行うことができるし、又は、その技術的特徴の一部に等価な置換を行うことができるということを、当業者は理解するべきであり、これらの修正又は置換は、対応する技術的解決手段の本質が、本出願の実施形態の技術的解決手段の精神及び範囲から逸脱するようには意図されない。

Claims

音声情報を処理するための方法であって、
ユーザの音声データを取得することと、
質問を表現する文のテキスト情報を取得するために前記音声データに対しテキスト変換を実行することと、
前記質問のカテゴリを判定するために前記質問を表現する前記文の前記テキスト情報に対し意味解析を実行することと、
前記音声データの優先度を判定するために前記音声データに対し感情分析を実行することと、及び
前記音声データの前記優先度と前記質問の前記カテゴリとに従って、対応するサービスチャネルに前記ユーザを接続することと、
を備える、方法。
請求項１に記載の方法において、
前記ユーザの音声データを取得することは、
前記ユーザとの音声通信を実行するために前記ユーザの通信リクエストを受信することと、
前記ユーザに対して音声プロンプトを再生することと、及び
前記音声プロンプトの前記プロンプト下で前記ユーザによって送られた前記音声データを受信することと、を備える、方法。
請求項１に記載の方法において、
前記音声データの優先度を判定するために前記音声データに対し感情分析を実行することは、
前記ユーザが前記音声データを送る場合、前記ユーザの音量及び／又はペーシングを判定するために前記音声データに対し感情分析を実行することと、
前記音量及び／又はペーシングに従って前記ユーザの感情値を取得することと、及び
前記ユーザの前記感情値と、前記感情値と前記優先度との間の事前設定されたマッピング関係とに従って、前記音声データの前記優先度を取得することと、を備える、方法。
請求項３に記載の方法において、
前記音量及び／又はペーシングに従って前記ユーザの感情値を取得することは、
前記音量及び／又はペーシングに対し数値処理を実行し、前記ユーザの前記感情値として前記数値処理の結果を用いることを備える、方法。
請求項１乃至４の何れか１項に記載の方法において、
前記音声データの前記優先度と前記質問の前記カテゴリとに従って、対応するサービスチャネルに前記ユーザを接続することは、
前記優先度と前記サービスチャネルとの間の事前設定されたマッピング関係に前記音声データの前記優先度を合致させること、を備える、方法。
請求項１乃至５の何れか１項に記載の方法において、
前記サービスチャネルは、マニュアルサービスチャネルと知的サービスチャネルとを含む、方法。
請求項６に記載の方法において、
前記音声データに従って参照情報を生成することと、及び
前記マニュアルチャネルに対応する顧客サービス担当者に対して前記参照情報を提供することと、をさらに備える、方法。
音声情報を処理するための装置であって、
ユーザの音声データを取得するように構成された取得モジュールと、
質問を表現する文のテキスト情報を取得するために前記音声データに対しテキスト変換を実行するように構成された自動音声認識モジュールと、
前記質問のカテゴリを判定するために前記質問を表現する前記文の前記テキスト情報に対し意味解析を実行するように構成されたテキスト解析モジュールと、
前記音声データの優先度を判定するために前記音声データに対し感情分析を実行するように構成された分析モジュールと、及び
前記音声データの前記優先度と前記質問の前記カテゴリとに従って、対応するサービスチャネルに前記ユーザを接続するように構成されたサービス接続モジュールと、を備える、装置。
請求項８に記載の装置において、
前記取得モジュールは、
前記ユーザとの音声通信を実行するために前記ユーザの通信リクエストを受信し、
前記ユーザに対して音声プロンプトを再生し、且つ
前記音声プロンプトの前記プロンプト下で前記ユーザによって送られた前記音声データを受信するように、構成される、装置。
請求項８に記載の装置において、
前記分析モジュールは、
前記ユーザが前記音声データを送る場合、前記ユーザの音量及び／又はペーシングを判定するために前記音声データに対し感情分析を実行し、
前記音量及び／又はペーシングに従って前記ユーザの感情値を取得し、且つ
前記ユーザの感情値と、前記感情値と前記優先度との間の事前設定されたマッピング関係とに従って、前記音声データの前記優先度を取得するように、構成される、装置。
請求項１０に記載の装置において、
前記分析モジュールは、
前記ユーザが前記音声データを送る場合、前記ユーザの音量及び／又はペーシングを判定するために前記音声データに対し感情分析を実行し、
前記音量及び／又はペーシングに対し数値処理を実行し、前記ユーザの前記感情値として前記数値処理の結果を用い、且つ
前記ユーザの感情値と、前記感情値と前記優先度との間の事前設定されたマッピング関係とに従って、前記音声データの前記優先度を取得するように、構成される、装置。
請求項８乃至１１の何れか１項に記載の装置において、
前記サービス接続モジュールは、
前記優先度と前記サービスチャネルとの間の事前設定されたマッピング関係に前記音声データの前記優先度を合致させるように、構成される、装置。
請求項８乃至１２の何れか１項に記載の装置において、
前記サービスチャネルは、マニュアルサービスチャネルと知的サービスチャネルとを含む、装置。
請求項１３に記載の装置において、
前記音声データに従って参照情報を生成し、前記マニュアルチャネルに対応する顧客サービス担当者に対して前記参照情報を提供するように構成された参照処理モジュール、をさらに備える、装置。