JP5311348B2 - 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム - Google Patents

音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム Download PDF

Info

Publication number
JP5311348B2
JP5311348B2 JP2009204021A JP2009204021A JP5311348B2 JP 5311348 B2 JP5311348 B2 JP 5311348B2 JP 2009204021 A JP2009204021 A JP 2009204021A JP 2009204021 A JP2009204021 A JP 2009204021A JP 5311348 B2 JP5311348 B2 JP 5311348B2
Authority
JP
Japan
Prior art keywords
speech
voice
keyword
waveform pattern
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009204021A
Other languages
English (en)
Other versions
JP2011053563A (ja
Inventor
英夫 松尾
一仁 横内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Evoice
Original Assignee
Evoice
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Evoice filed Critical Evoice
Priority to JP2009204021A priority Critical patent/JP5311348B2/ja
Publication of JP2011053563A publication Critical patent/JP2011053563A/ja
Application granted granted Critical
Publication of JP5311348B2 publication Critical patent/JP5311348B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、音声データ内の音声キーワード照合システム、その方法及び音声キーワード照合プログラムに関する。より詳細には、例えば顧客の電話と応対担当者の電話との間でなされた通話を録音蓄積して管理するCustomer Relationship Management(CRM)システムにおいて、入力された検索用キーワードテキストを、録音蓄積された通話音声中の音声キーワードと照合し、照合された音声キーワードを抽出及び再生可能とするための技術に関する。
顧客と事業者との間でなされた通話音声を事業者側において録音して管理する各種技術が提案されている。
例えば、顧客からの電話応対部署であるコールセンタにおけるオペレータの通話内容をデータ化して録音すると共に検索するための、中央集中型通話録音システムにおいては、一般に、事業者が運営するコールセンタ等の構内には、公衆電話交換回線網(Public Switched Telephone Network:PSTN)からの発信及び着信が集中する交換機(PBX)が設置され、この交換機により音声通話が、コールセンタ構内の複数の固定電話に分配される。このため、この交換機から分岐する通話録音サーバを設ければ、通話を録音蓄積することができる。オペレータ側には、電話応対用内線電話と共に、PCなどの端末装置が設けられてよく、このオペレータ端末装置には、発話者が告げた顧客名をキーとして顧客情報を検索する機能や、当該顧客の過去の通話履歴を表示する機能が備えられてよい。
特開平8−249343号公報 特開2009−58548号公報
ところで、音声データファイルに録音蓄積された通話音声から、特定の語句又は文章を、通話終了後に検索可能とすることが要請される。なぜならば、例えば、顧客に電話応対を行ったオペレータ自身やその管理者等は、通話録音内容の重要部分を特定した通話音声の再生確認を迅速に行うことが必要であるし、他方、例えば、オペレータの電話応対における品質やコンプライアンスの管理者は、法規上或いはコンプライアンス上禁止される語句又は文章をオペレータが顧客に対して発話していないかの確認を迅速に行うことがまた必要であるが、この場合、膨大なデータ容量である通話音声全体を再生する、或いは通話時間帯を特定して通話音声を再生することは、いずれも長時間を要し、特定語句或いは文章を検出するまでに多大な労力を伴うからである。
この音声データファイルから特定の語句又は文章を検索する音声キーワード検索技術において、音声データファイル中の音声を音声認識処理によりテキスト化し、テキスト化されたデータから特定の文字又は文章を抽出する技術が公知である。
例えば、特許文献1は、外部のリアルタイム音声データをディジタル音声データに変換して音声ファイルとし、この音声ファイルから抽出された音声データを音声認識処理によりテキストデータに変換し、このテキストデータ内のキーワードの出現頻度を求めることにより外部データ検索用の検索キーを自動生成する技術を開示する。
しかしながら、音声データを音声認識処理によりテキストデータに変換するためには、音声認識エンジンによって参照される音声認識辞書を事前に登録し、さらに認識辞書を常に管理、更新する操作を要し煩雑であるばかりか汎用性を欠き、また音声認識や形態素解析などの処理負荷が高いためハードウエア設備を不可避的に高額化させる。
またそもそも、コールセンタ業務においては、多数のオペレータの各人について終日通話音声が録音蓄積されていくため、これら蓄積された膨大な通話録音データの全てをテキストデータに変換することは困難である。
他方、音声データファイルから特定の語句又は文章を検索する音声キーワード検索技術において、音声データそのものを検索対象とし、特定の文字又は文章を抽出する技術も公知である。
例えば、特許文献2は、検索条件として入力された音声キーワードの特徴量(音声の高さ、大きさ、長さ)の時系列形状を算出し、この入力キーワードの特徴量の時系列形状と、音声データベースに格納されている音声の特徴量の時系列形状との差を求め、この差が所定の閾値以下である音声を検索結果として出力する技術を開示する。
しかしながら、この音声特徴量の時系列形状間の比較は、実質的に曖昧検索を許容しないExact Matchingであり、特に多様な顧客側発話者や発話状況を前提とする場合や、短い語句に換えてこれより長い文章を検索用キーワードとした場合に著しく検索精度が損なわれる。
また、上記のとおり、コールセンタ業務においては、多数のオペレータの各人について終日通話音声が録音蓄積されていくところ、ファイルサイズを削減するため、この録音蓄積されたデータは圧縮されて、圧縮通話音声ファイルとして大規模記憶装置に記憶されることが通常であり、圧縮前の音声ファイルが別途長期間記憶保持されることはない。しかしながら、充分な圧縮効率を享受するためには、圧縮前音声データの一部を欠落させて圧縮後音声データを得る、いわゆる不可逆的圧縮処理が必要となり、このため圧縮語音声データを検索対象としてExact Matching処理を行っても、検索されるべき音声キーワードが抽出されず、検索精度が低下するという不都合がある。
本発明は、上記課題に鑑みてされたものであり、その目的は、顧客の電話と応対担当者の電話との間でなされた通話を録音蓄積し管理するCRMシステムに好適な、音声認識処理を要することがないため汎用性が高く、かつ簡易な構成で実用的検索精度を得ることが可能な音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラムを提供する点にある。
本発明の他の目的は、多様な顧客側発話者や発話状況を前提とする場合であっても、簡易な構成かつ実用的検索精度で音声データを対象とした音声キーワード照合を可能とする点にある。
本発明の他の目的は、短い語句に換えてこれより長い文章を検索用キーワードとした場合であっても、簡易な構成かつ実用的検索精度で音声データを対象とした音声キーワード照合を可能とする点にある。
本発明の他の目的は、圧縮後の音声データを対象とした場合であっても、検索精度を損なうことなく音声データを対象とした音声キーワード照合を可能とする点にある。
本願発明者らは、多様な発話者による発話を母集団とする音声データを対象とする音声キーワード検索において、発話者母集団の多様性に応じた複数の音声波形パターンを用いた音声データ照合が効率的であるとの知見を得た。
かかる知見に基づき、本願発明においては、テキストで入力される検索キーワードから音声波形パターンを合成する際に、複数の異なる音声波形パターンを合成する。好適には、例えば、入力される検索キーワードテキストから、発話速度が高速、通常速、低速である複数の音声波形パターンをそれぞれ合成してよい。また、入力される検索キーワードテキストから、発話音量が小音量、通常音量、大音量である複数の音声波形パターンをそれぞれ合成してよい。また、入力される検索キーワードテキストから、例えば性別や年齢層別等の声質の相違に応じて複数の音声波形パターンをそれぞれ合成してよい。
本発明のある特徴によれば、音声データを再生可能に記憶する音声データベースと、前記音声データベース内の再生すべき音声キーワードを照合するための検索キーワードテキスト及び検索条件を入力する検索キーワード入力部と、入力された検索キーワードテキストから標準音声波形パターンを合成すると共に、前記標準音声波形パターンとその話速及び/又は音量が相違する複数の派生音声波形パターンを合成する音声波形合成部と、前記検索キーワードテキストと前記音声キーワードとの照合における類似度の閾値を、基準閾値を増減させることにより可変に設定する類似度閾値算出部と、前記音声キーワードデータベースを参照して、前記検索条件に合致する音声データを読み出すと共に、前記標準音声波形パターン及び複数の前記派生音声波形パターンを読み出された前記音声データの音声波形パターンと順に比較して前記類似度を算出し、前記類似度の閾値以上の類似度が算出された音声キーワードの位置を得る音声キーワード照合部と、得られた音声キーワードの位置を端末装置に送信し、これにより前記端末装置上で得られた音声キーワードの位置からの音声データの再生を可能とする出力部とを具備することを特徴とする音声キーワード照合サーバ装置が提供される。
前記音声キーワード照合部は、前記検索条件として、インバウンドの発話又はアウトバウンドの発話のいずれかが選択入力された場合には、前記音声データに対応する呼制御情報を参照して、選択入力されたインバウンドの発話又はアウトバウンドの発話のいずれか一方のみの音声波形パターンを照合対象として限定してよい。
前記音声キーワード照合部は、前記標準音声波形パターンより高話速及び/又は低音量の派生音声波形パターンと読み出された前記音声データの音声波形パターンとの間で第1の比較処理を行い、該第1の比較で音声キーワードの候補が得られなかった場合に、前記標準波形パターンと読み出された前記音声データの波形パターンとの間で第2の比較処理を行い、さらに該第2の比較処理で音声キーワードの候補が得られなかった場合に、前記標準音声波形パターンより低話速及び/又は大音量の派生音声波形パターンと読み出された前記音声データの音声波形パターンとの間で第3の比較処理を行ってよい。
前記類似度閾値算出部は、前記検索キーワードテキストの文字数が多い場合には前記基準閾値から減少させ、前記検索キーワードテキストの文字数が少ない場合には前記基準閾値から増加させるよう、前記類似度の閾値を設定してよい。
前記類似度閾値算出部は、前記音声データベース内の音声ファイルの圧縮率が高い場合には前記基準閾値から減少させ、前記音声ファイルの圧縮率が低い場合には前記基準閾値から増加させるよう、前記類似度の閾値を設定してよい。
前記音声波形合成部は、入力された検索キーワードテキストから性別及び/又は年齢層別に特徴付けられる声質が相違する複数の派生音声波形パターンを合成してよい。
本発明の他の特徴によれば、音声データベースと、検索キーワード入力部と、音声波形合成部と、類似度閾値算出部と、音声キーワード照合部と、出力部とを具備する音声キーワード照合サーバ装置が実行する音声キーワード照合方法であって、前記検索キーワード入力部により、音声データを再生可能に記憶する音声データベース内の再生すべき音声キーワードを照合するための検索キーワードテキスト及び検索条件を入力するステップと、前記音声波形合成部により、入力された検索キーワードテキストから標準音声波形パターンを合成すると共に、前記標準音声波形パターンとその話速及び/又は音量が相違する複数の派生音声波形パターンを合成するステップと、前記類似度算出部により、前記検索キーワードテキストと前記音声キーワードとの照合における類似度の閾値を、基準閾値を増減させることにより可変に設定するステップと、前記音声キーワード照合部により、前記音声キーワードデータベースを参照して、前記検索条件に合致する音声データを読み出すと共に、前記標準音声波形パターン及び複数の前記派生音声波形パターンを読み出された前記音声データの音声波形パターンと順に比較して前記類似度を算出し、前記類似度の閾値以上の類似度が算出された音声キーワードの位置を得るステップと、前記出力部により、得られた音声キーワードの位置を端末装置に送信し、これにより前記端末装置上で得られた音声キーワードの位置からの音声データの再生を可能とするステップとを含むことを特徴とする音声キーワード照合方法が提供される。
本発明の他の特徴によれば、音声キーワード照合処理をコンピュータに実行させるための音声キーワード照合プログラムであって、該プログラムは、前記コンピュータに、音声データを再生可能に音声データベースに記憶する音声データ記憶処理と、前記音声データベース内の再生すべき音声キーワードを照合するための検索キーワードテキスト及び検索条件を入力する検索キーワード入力処理と、入力された検索キーワードテキストから標準音声波形パターンを合成すると共に、前記標準音声波形パターンとその話速及び/又は音量が相違する複数の派生音声波形パターンを合成する音声波形合成処理と、前記検索キーワードテキストと前記音声キーワードとの照合における類似度の閾値を、基準閾値を増減させることにより可変に設定する類似度閾値算出処理と、前記音声キーワードデータベースを参照して、前記検索条件に合致する音声データを読み出すと共に、前記標準音声波形パターン及び複数の前記派生音声波形パターンを読み出された前記音声データの音声波形パターンと順に比較して前記類似度を算出し、前記類似度の閾値以上の類似度が算出された音声キーワードの位置を得る音声キーワード照合処理と、得られた音声キーワードの位置を端末装置に送信し、これにより前記端末装置上で得られた音声キーワードの位置からの音声データの再生を可能とする出力処理とを含む処理を実行させるためのものであることを特徴とする音声キーワード照合プログラムが提供される。
本発明によれば、音声キーワード照合サーバは、入力されたキーワードから、発話速度、発話音量、声質等が相違する複数の音声波形パターンを合成し、さらにこの複数の音声波形パターンと被検索音声データとの照合の閾値として用いられる類似度の閾値を、入力キーワードの文字数、音声データの圧縮率に従い可変に設定し、この算出された類似度の閾値以上の類似度が算出された被検索音声データの箇所を特定し、この特定された被検索音声データの箇所を、この箇所の音声再生が可能となるよう、出力する。
これにより、顧客の電話と応対担当者の電話との間でなされた通話を録音蓄積し管理するCRMシステムに好適な、音声認識処理を要することなく汎用性が高い、かつ簡易な構成で実用的検索精度での音声データ内の音声キーワード照合が実現される。
また、多様な顧客側発話者や発話状況を前提とする場合であっても、簡易な構成かつ実用的検索精度で音声データを対象とした音声キーワード照合が可能となる。
また、短い語句に換えてこれより長い文章を検索用キーワードとした場合であっても、簡易な構成かつ実用的検索精度で音声データを対象とした音声キーワード照合が可能となる。
さらに、圧縮後の音声データを対象とした場合であっても、検索精度を損なうことなく音声データを対象とした音声キーワード照合が可能となる。
従って、本発明に係る音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラムによれば、コールセンタ業務において、追加的設備を要することなく、入力されたキーワードを検索キーとして音声ファイルを迅速かつ高精度に検索し、必要に応じて検索された音声箇所から音声データを再生することができ、事業者のCRM向上に資する。
本発明の一実施形態に係る音声データ内の音声キーワード照合システムのネットワーク構成の一例を示すブロック図である。 本発明の一実施形態に係る音声キーワード照合システムにおける、音声キーワード検索PC端末9bへの操作者のログイン及び検索キーワード入力から、圧縮通話音声ファイル31上で照合された音声キーワードの開始位置から録音音声を音声キーワード検索PC端末9b上で再生するまでの処理シーケンスの一例を示す図である。 本発明の一実施形態に係る音声キーワード照合システムの機能構成の一例を示すブロック図である。 本発明の一実施形態に係る音声キーワード照合システムの処理手順の一例を示すフローチャートである 図3の音声キーワード照合部が実行する複数の音声波形パターンと通話録音音声ファイルとの照合処理手順の一例を示すフローチャートである。 検索キーワード入力部に入力された検索キーワードテキストから合成される標準音声波形パターンの一例を示す模式図である。 図6の標準音声波形パターンから会話速度が相違するよう変換された派生音声波形パターンの例を示す模式図である。 図6の標準音声波形パターンから会話音量が相違するよう変換された派生音声波形パターンの例を示す模式図である。 音声キーワード照合部において、音圧(パワー)の強弱パターンによる検索キーワードと音声ファイルの照合処理を説明する図である。 音声キーワード照合部において、ピッチ分析した周期パターンによる検索キーワードと音声ファイルの照合処理を説明する図である。 音声キーワード照合部において、フォルマント分析による音韻の発声パターンによる検索キーワードと音声ファイルの照合処理を説明する図である。 音声キーワード照合部において、声紋分析による発声箇所の特定パターンによる検索キーワードと音声ファイルの照合処理を説明する図である。 録音音声に対する音素単位でのラベリング処理を説明する模式図である。 録音音声に対するピッチ統一処理を説明する模式図である。 録音音声に対する音声の大きさ・速度統一処理を説明する模式図である。 録音音声の時間信号に高速フーリエ変換を適用して音声スペクトグラムを得る処理を説明する模式図である。 音声スペクトグラムに対する包絡線からフォルマントを検出する処理を説明する模式図である。 音声スペクトグラムの時間軸上の変化を説明する模式図である。 本実施形態に係る各サーバ装置のハードウエア構成の一例を示す図である。 本発明の第2の実施形態における音声キーワード照合システムの機能構成の一例を示すブロック図である。 本発明の第2の実施形態における音声波形パターン推定処理手順の一例を示すフローチャートである。 本発明の第2の実施形態における複数の音声波形パターンと通話録音音声ファイルとの照合処理手順の一例を示すフローチャートである。
以下、添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能及び構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
第1の実施形態
<本実施形態のネットワーク構成>
図1は、本発明の第1の実施形態に係る音声データ内の音声キーワード照合システムのネットワーク構成の非限定的一例を示す。音声データ内の音声キーワード照合システムは、PBX(交換機)1、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声キーワード照合サーバ5、顧客電話端末7、PSTN(公衆電話網)8、オペレータ電話端末9a、音声キーワード検索PC端末9bを具備する。音声キーワード照合中、PBX(交換機)1、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声キーワード照合サーバ5、オペレータ電話端末9a、音声キーワード検索PC端末9bの全部或いは一部は、コールセンタ内に設置され、LAN/WAN等のイントラネット11d等のIP(Internet Protocol)網により相互接続されてよい。或いは代替的に、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声キーワード照合サーバ5、及びこれらサーバが備える圧縮通話音声ファイル31、呼情報データベース32の全部或いは一部は、インターネット等の遠隔IP接続を介して適宜コールセンタ外部に設置されてもよい。特に、コールセンタのオペレータ以外の管理者等が音声キーワード検索PC端末9bを操作して圧縮通話音声ファイル31内の音声キーワード抽出処理を行う場合には、音声キーワード検索PC端末9bは、オペレータ電話端末9aの近傍に設置される必要はなく、遠隔IP接続を介して適宜コールセンタ外部に設置されることが好適である。
PBX1は、コールセンタ内の内線電話同士を接続すると共に、各オペレータ電話端末9aを、構内回線11a、11b、11c・・・を介してPSTN(公衆電話網)8に回線交換接続して、各オペレータ電話端末9aと顧客電話端末7との通話を実現する。
音声取得サーバ2は、PBX1に分岐接続され、各オペレータ電話端末9aと顧客電話端末7との通話音声を取得すると共に、取得された音声をオペレータ電話端末9aの番号(例えば内線番号)と対応付けて各サーバに供給する。
代替的に、この音声取得サーバ2は、PSTN8の終端装置(DSU)とPBX1との間の回線に分岐接続されてもよい。
通話録音サーバ3は、制御サーバ4の制御の下、着呼後に音声取得サーバ2から供給される取得音声を、必要に応じて圧縮し、圧縮後の音声データを、例えばNAS(Network Appliance Storage)等の大規模外部記憶装置により構成されるデータベースに蓄積保存する。
好適には、通話録音サーバ3は、音声取得サーバ2からアナログ音声が供給された場合、このアナログ音声波形を電圧で表したものを所定のビット深度と所定のサンプリング周波数でサンプリングすることによりデジタル音声に変換し、さらに好適には、このデジタル音声データを圧縮し、圧縮通話音声ファイル31に蓄積保存する。圧縮通話音声ファイル31を音声キーワード検出の対象とすることで、圧縮前の音声データを別途保存蓄積することが不要となり、必要な記憶資源容量を低減できる。録音音声の圧縮には、種々の公知の手法を種々の圧縮率で用いることができ、非限定的一例として、モノラル5分の1圧縮、モノラル10分の1圧縮、或いはステレオ無圧縮などにより録音音声が圧縮される。代替的に、通話録音サーバ3は、音声取得サーバ2から供給される音声データを変換圧縮することなく、通話音声ファイルに蓄積保存し、音声キーワード照合サーバ10は、この非圧縮通話音声ファイルを音声キーワード照合の対象としてもよい。
通話録音サーバ3はまた、圧縮通話音声ファイル31内に蓄積保存された通話音声ファイルに関連付けて、呼情報ファイル32に録音された音声ファイルの呼情報を書き出す。この呼情報は、PBX1への着呼時にPBX1により取得される。取得される呼情報とは、例えば、着信開始情報(着信開始タイムスタンプを含む)、発信開始情報(発信開始タイムスタンプを含む)、通話開始情報(通話開始タイムスタンプを含む)、通話終了情報(通話終了タイムスタンプを含む)等の呼制御情報と、発信元電話番号、発信先電話番号、発信元チャネル番号、発信者番号、着信チャネル番号、着信電話番号(着信先内線番号等)等の呼識別情報とを含む。
この呼情報はさらに、録音された通話内の発話が、インバウンド、すなわち顧客側からの発話であるか、アウトバウンド、すなわちオペレータ側からの発話であるかの極性を識別する話者識別情報を含む。この話者識別情報は、PBX1により取得可能であり、例えばISDNの場合には、回線終端装置(Digital Service Unit:DSU)の物理的なピン位置として把握可能である。また、SIP(Session Initiation Protocol)プロトコルの場合には、呼生成の際のセッション構成時に把握可能であり、具体的には、例えば、セッション構成時に、発呼側から着呼側送信されるInviteコマンド中で、セッション開始に必要な情報を記述するSDP(Session Description Protocol)内に発呼側が受信に使用するIPアドレスとポート番号を指定し、一方これに応答して着呼側から発呼側へ送信される200 OKメッセージ中のSDP内に着呼側が受信に使用するIPアドレスとポート番号を指定し、このそれぞれ指定されたIPアドレスとポート番号を使用してRTP(Realtime Transport Protocol)プロトコル上音声データが送受信される。このため、これら発呼側及び着呼側がそれぞれ受信に使用するIPアドレスとポート番号を取得することにより、1通話内の発話それぞれの話者識別情報を得ることができ、1通話内の顧客の発話とオペレータの発話とを必要に応じて区別或いは分離することができる。
これら呼情報は、好適には、CTI(Computer Telephony Integration)プロトコルを実装した制御サーバ4上ないしオペレータPC端末装置上で稼動するCTIプログラムと連動して、これらの表示装置上に呼情報をリアルタイムに表示してよい。
通話録音サーバ3はまた、すでに応対履歴のある顧客を中心とする顧客の情報が事前登録された顧客情報データベース33を備える。この顧客情報は、顧客を識別する個人情報であって、例えば顧客氏名、住所、登録された顧客電話番号、生年月日、年齢層、性別、その他顧客属性、製品購入履歴、応対履歴等を含むものとし、オペレータが操作可能な端末装置に、オペレータの指示入力に応じて適宜表示出力され得る。
なお、通話録音サーバ3は、構内回線11dに接続するのに換えて、代替的に、例えばPSTN8とPBX1との間に接続されてよく、このように構成すれば、通話録音サーバ3は、上記の話者識別情報を直接取得することができる。さらに代替的に、音声取得サーバ2を別途設置することなく、通話録音サーバ3は構内回線に接続され、構内回線に供給される通話音声を直接取得してよい。
制御サーバ4は、音声取得サーバ2、通話録音サーバ3及び音声キーワード照合サーバ5から供給されるデータ及び制御情報に基づいて、これらサーバが実行する処理、これらサーバ間のデータトラフィック及び制御情報の送受信を制御する。代替的に、音声キーワード照合サーバ5は、通話録音サーバ3が保有する圧縮通話音声ファイル31や呼情報ファイル32へのアクセスや音声キーワード検索PC端末9bへのインターフェースを、制御サーバ4を介することなく、直接提供してもよい。
音声キーワード照合サーバ5は、音声キーワード検索PC端末9bから、例えばひらがな又はカタカナでテキスト入力される検索キーワードを受信し、この検索キーワードを複数の音声波形パターンに変換し、この音声波形パターンを用いて圧縮通話音声ファイル31内の音声キーワードを照合し、照合された音声キーワードの位置情報、すなわち圧縮通話音声ファイル31上での開始位置を、音声キーワード検索PC端末9に検索結果として供給する。
供給された1又は複数の照合された音声キーワードの位置情報は、好適には音声キーワード検索PC端末9の表示画面上にリスト表示される。リスト表示された1又は複数の照合された音声キーワードの位置情報の中から、操作者が音声再生をするための選択入力により選択された音声キーワードの位置情報は、音声キーワード照合サーバ5或いは制御サーバ4に送信され、音声キーワード照合サーバ5或いは制御サーバ4が圧縮通話音声ファイル31中の選択された音声キーワードの位置情報から通話音声データを読み出して音声キーワード検索PC端末9bに供給し、音声キーワード検索PC端末9b上で再生音声出力される。
なお、図1におけるPBX1は、PSTN1等の公衆電話交換回線網を介して顧客通話端末4に接続されているが、これに替えて、或いはこれに加えて、IP網接続機能を備えることにより、VoIP(Voice Over Internet Protocol)ネットワーク等の音声パケット通信ネットワークを介して、IP電話機能を備える顧客IP通話端末に接続されてよく、この場合、音声取得サーバ2は、顧客IP通話端末及びオペレータ電話端末9a間の音声通話を取得することができる。顧客電話端末7は、固定電話機或いは携帯電話機のいずれであってもよい。
また、図1に示すネットワーク及びハードウエアの構成は一例に過ぎず、各サーバ及びデータベースを必要に応じて一体としてもよく、各コンポーネントをASP(Application Service Provider)等の外部に設置してもよい。
<第1の実施形態における音声キーワード照合処理シーケンスとユーザインターフェース>
図2は、必要に応じて制御サーバ4による制御の下実行される、第1の実施形態に係る音声キーワード照合システムにおける、音声キーワード検索PC端末9bへの操作者のログイン及び検索キーワード入力から、圧縮通話音声ファイル31上で照合された音声キーワードの開始位置から録音音声を音声キーワード検索PC端末9b上で再生するまでの処理シーケンスの非限定的一例を示す。
図2において、まず音声キーワード検索PC端末9bから音声キーワード照合サーバ5に、操作者の典型的には表示画面上ユーザID及びパスワードの入力を促すことにより、ログインを実行する(ステップS1)。音声キーワード照合サーバ5は、入力されたユーザID及びパスワードを、操作者ごとに設定され記憶装置に格納された認証情報を参照して認証し、認証に成功した場合は、検索条件入力要求を送信する(ステップS2)。
検索条件入力要求を受信した音声キーワード検索PC端末9bは、表示装置上に検索条件入力要求画面を出力する。この検索条件入力要求画面は、少なくとも検索キーワードを、ひらがな、カタカナ等でテキスト入力するための入力フィールドを備える。非限定的一例として、オペレータ自身が電話応対内容を確認するために、例えば「ちゅうもん(注文)」、「ばいしょう(賠償)」等の語句を入力してよく、他方管理者がコンプライアンス監査のため、例えば「かならずもうかります。」、「おまかせください。」等の文章を入力してもよい。代替的に、この入力フィールドには漢字或いはアルファベットが入力されてもよく、これに換えてマイクロフォン等の音声入力手段を介して操作者の音声が直接入力されてもよく、後者の場合には入力された検索キーワードを音声波形パターンに合成する処理が不要となる。
好適には、この検索条件入力要求画面は、さらに、例えば検索対象とすべき圧縮通話音声ファイルを絞り込むため、通話開始日時及び通話終了日時、録音時間、発信側電話番号、着信側電話番号、発信者名、オペレータ側からの発信通話であるか受信通話であるかの識別子、コールセンタや事業所の拠点名等の検索条件を入力するための入力フィールドを備えてもよい。
さらに好適には、この検索条件入力画面は、検索条件として、通話中の顧客の発話或いはオペレータの発話のいずれを検索対象とするか、を選択する入力フィールドを備えてもよい。
音声キーワード検索PC端末9bの検索条件入力要求画面を介して、検索キーワードテキスト及び検索条件が入力されると、この検索キーワードテキスト及び検索条件は、音声キーワード照合サーバ5に送信される(ステップS3)。
音声キーワード照合サーバ5は、受信された検索条件から検索対象音声取得要求を生成し(ステップS4)、通話録音サーバ3により保有される圧縮通話音声ファイル31及び必要に応じて呼情報データベース32を検索することにより、検索対象とされた圧縮通話音声ファイル31を取得する(ステップS5)。
音声キーワード照合サーバ5は、取得された圧縮通話音声ファイル31を対象として、入力された検索キーワードテキストから複数の音声波形パターンを合成し、この合成された複数の音声波形パターンを圧縮通話音声ファイル31中の音声キーワードと照合する(ステップS6)。この音声キーワード照合処理の詳細は後述される。
音声キーワード照合サーバ5は、少なくとも、音声キーワード照合処理の結果得られた音声キーワードの圧縮通話音声ファイル31中の位置情報を、ステップS3に応答する検索結果として音声キーワード検索PC端末9bに送信し、音声キーワード検索PC端末9bは、受信された音声キーワードの圧縮通話音声ファイル31中の位置情報及び音声キーワードを、表示装置上に検索結果画面を介して表示出力する(ステップS7)。
好適には、この検索結果画面は、音声キーワード照合処理の結果得られた音声キーワードの圧縮通話音声ファイル31中の位置情報が複数あった場合に、これら複数の音声キーワードの圧縮通話音声ファイル31中の位置情報をリスト表示することが可能である。代替的に、初期の検索結果画面には、音声キーワード照合処理の結果得られた音声キーワードを含む、各通話に対応する通話音声ファイルが対応する呼情報と共にリスト表示され、操作者の通話音声ファイルを選択する入力に応答して、選択された通話音声ファイル内の位置情報をリスト表示してもよい。
いずれにおいても、リスト表示された複数の音声キーワードの圧縮通話音声ファイル31中の位置情報は、例えば、通話開始時点からの経過時間、好適には秒単位での経過時間と、入力されたキーワードとの対として表示され得る。好適には、リスト表示された複数の音声キーワードの圧縮通話音声ファイル31中の位置情報は、音声キーワード照合処理において算出された類似度のスコアが高いものから降順に表示される。このように表示されれば、より入力された検索キーワードテキストと一致する尤度が高いものの選択を容易とすることができる。
操作者が、リスト表示された複数の音声キーワードの圧縮通話音声ファイル31中の位置情報から音声再生されるべき1又は複数の位置情報を選択入力すると、音声キーワード検索PC端末9bは、必要に応じ音声キーワード照合サーバ5を介して、通話録音サーバ3が保有する圧縮通話音声ファイル31の指定入力された位置からの音声再生要求を生成して、通話録音サーバ3に送信する(ステップS8)。好適には、リスト表示された複数の音声キーワードの圧縮通話音声ファイル31中の位置情報の選択入力と共に、選択された位置から遡って何秒前から再生させるか、を指示入力可能なフィールドを画面上に設けてよい。
この音声再生要求を受信した通話録音サーバ3は、音声再生要求内に記述された対象圧縮通話音声ファイル識別子と選択された音声キーワードの位置情報に従い、圧縮通話音声ファイル31の該当位置から対象圧縮音声ファイルを再生可能に読み出して音声データとして音声キーワード検索PC端末9bに送信する(ステップS9)。
音声データを受信した音声キーワード検索PC端末9bは、受信された音声データを音声再生する。所望する音声再生が終了した後、音声キーワード検索PC端末9bから音声キーワード照合サーバ5へログオフ要求が送信され、ステップS1で確立された通信セッションが切断される(ステップS10)。
<第1の実施形態に係る音声キーワード照合サーバ5の機能構成及び音声キーワード照合処理詳細>
図3は、図1に示された第1の実施形態に係る音声キーワード照合サーバ5内の機能構成の非限定的一例を示す。
図3において、音声キーワード照合サーバ5は、検索キーワード入力部51と、音声波形合成部52と、音声波形記憶部53と、類似度閾値制御部54と、音声照合部55と、音声照合結果出力部56とを備える。
図4は、図3に示される音声キーワード照合サーバ5内の各コンポーネントにより実行される、第1の実施形態に係る音声キーワード照合処理の詳細を非限定的一例として示す。
図3及び図4を参照して、検索キーワード入力部51は、検索キーワード検索PC端末9bへのインターフェース機能を備え、検索キーワード検索PC端末9bからのログオン、ログオフ要求の認証を処理するとともに、検索キーワード検索PC端末9bから入力される検索キーワードテキスト及び検索条件を音声キーワード検索PC端末9bから受信し、音声波形合成部52及び類似度閾値制御部54に供給する(ステップS41)。
音声波形合成部52は、供給された検索キーワードテキストから、発話速度が通常速かつ発話音量が通常音量である音声波形パターンを、標準音声波形パターンとして合成する。
図6は、例えば検索キーワードテキストとして、「かぶしきがいしゃいーぼいす」と入力された場合に合成される標準音声波形パターンを非限定的一例として示す。図6において、縦軸を音量(振幅)、横軸を時間とした周波数及び波形が図示されている。
図3及び図4に戻り、さらに音声波形合成部52は、この標準音声波形パターンから、この標準音声波形パターンの周波数を変化させて標準音声波形パターンより発話速度が高速である音声波形パターン(図7A)、発話速度が低速である音声波形パターン(図7B)、また、標準音声波形パターンの振幅を変化させて標準波形パターンより発話音量が小音量である音声波形パターン(図8A)、発話音量が大音量である音声波形パターン(図8B)等を適宜合成し、これら合成された複数の音声波形パターンを、音声波形記憶部53の一時記憶領域に記憶する(ステップS42)。これら複数の音声波形パターン合成処理は、標準音声波形パターンからのデジタル波形変換処理であるため、容易に適宜組み合わせることが可能である。例えば、発話速度及び発話音量を共に調整し、標準音声波形パターンより発話速度が高速かつ発話音量が小音量である音声波形パターンや、発話速度が低速かつ発話音量が大音量である音声波形パターンが合成されてよい。
変形例として、標準音声波形パターンから発話速度及び発話音量を異にして合成される音声波形パターンは、標準音声波形パターンの発話速度及び発話音量をそれぞれ段階的に任意の複数回増大させ或いは減少させた音声波形パターンとして、それぞれ複数合成されてよい。また、発話速度と発話音量とのいずれか一方のみが標準音声波形パターンと異なる音声波形パターンを合成してもよい。
好適には、音声波形合成部52はさらに、標準音声波形パターンから、発話者の声質、例えば男女の性別、年齢層等の特性に即して、例えば、男性かつ若年層、男性かつ中年高層、男性かつ高齢者層、女性かつ若年層、女性かつ中高年層、女性かつ高齢者層、等の音声波形パターンがそれぞれ合成されてよい。音声キーワード検索端末において入力された検索条件として、発信者名や発信者電話番号ないし受信者電話番号をキーとして得られる顧客識別子が、音声キーワード照合サーバ5により参照可能な顧客データベース33中の顧客情報を参照することにより既知であれば、この顧客情報に従い特定される性別及び年齢層の特性を有する音声波形パターンを、唯一或いは優先的に音声キーワード照合処理で用いればよい。
好適には、入力された検索キーワードから音声波形パターンを合成する際に、会話以外の音声、例えば保留音、切断音、プッシュボタン音(PB音)などの雑音を排除した上で会話音声のみについて音声波形パターンが合成されてよい。
類似度閾値制御部54は、合成された複数の音声波形パターンと、検索条件によって絞り込まれた検索対象通話音声ファイル中の音声キーワードとを照合する際に算出される類似度が、照合された音声キーワードを抽出すべきか否かを判定するための類似度の閾値を可変に設定する(ステップS43)。
好適には、この類似度の閾値は、基準となる所定の類似度の閾値を、例えば入力された検索キーワードの文字数が多い場合には減少させ、一方検索キーワードの文字数が少ない場合には増加させるよう設定されてよい。入力された検索キーワードの文字数は、検索キーワード入力部51から得ることができる。入力された検索キーワードが例えば文章のようにその文字数が多い場合、類似度の閾値が固定であると検索キーワードの文字数が多いほど算出される類似度の値が小さくなり、本来抽出されるべき音声キーワードが抽出されにくくなるが、このように類似度の閾値を可変に設定することにより、文章などの比較的文字数の多い検索キーワードが入力されても、音声キーワード照合の精度が損なわれることがない。
さらに好適には、この類似度の閾値は、基準となる所定の類似度の閾値を、例えば検索対象として得られた圧縮通話音声ファイルの圧縮率が高い場合には減少させ、一方圧縮通話音声ファイルの圧縮率が低い場合には増加させるよう設定されてよく、その他、圧縮手法に依存する音質の相違に基づいて可変に調整されてよい。通話音声圧縮には、種々の公知の手法及び種々の圧縮率を用いることができ、非限定的一例として、モノラル5分の1圧縮、モノラル10分の1圧縮、或いはステレオ無圧縮等が利用されてよい。検索対象として得られた圧縮通話音声ファイルは、音声データに対応して圧縮通話音声ファイル31内に記憶される圧縮制御情報を参照することにより得ることができる。
一般に、コールセンタでの録音通話の容量は膨大であるため、圧縮前音声データからデータを変換及び間引きして不可逆的に圧縮を行う不可逆圧縮方式によって、高い圧縮率を実現している。そして、検索対象として得られた圧縮通話音声ファイルの圧縮率が高いほど圧縮前音声データからのデータ欠損があるため、類似度の閾値が固定であると算出される類似度の値が小さくなり、本来抽出されるべき音声キーワードが抽出されにくくなる。このため、第1の実施形態においては、圧縮率等の音質の相違に従って、類似度の閾値を可変に設定することにより、圧縮率の高い通話音声ファイルであっても、音声キーワード照合の精度が損なわれることがない。
音声キーワード照合部55は、圧縮通話音声ファイル31及び呼情報データベース32を参照して、検索条件に合致する圧縮通話音声ファイル、及び必要に応じてこの圧縮通話音声ファイルに対応する呼情報を読み出し、音声キーワード照合部55が参照可能な一時記憶領域に書き出すと共に、音声波形合成部52から供給される複数の音声波形パターンを、検索対象として得られた圧縮通話音声ファイル中の音声キーワードと照合し、類似度を算出する(ステップS44)。
検索条件として、通話中の顧客の発話或いはオペレータの発話のいずれかが選択された場合、音声キーワード照合部55は、呼情報データベース32を参照し、選択された発話者の部分のみを検索対象として、音声キーワード照合処理を実行する。
図5は、音声キーワード照合部55が実行する、複数の音声波形パターンを検索対象として得られた圧縮通話音声ファイル中の音声キーワードと照合する処理の一例を示す。
図5を参照して、音声キーワード照合部55は、まず発話速度が高速、及び/又は発話音量が小音量である音声波形パターンを選択し、この音声波形パターンを使用して圧縮通話音声ファイル31中の音声キーワードとの照合処理を実行する(ステップS51)。
ステップS51の照合処理において算出された類似度が、類似度閾値制御部54から供給される類似度の閾値以上である場合には(ステップS52Y)、照合された音声キーワードの位置情報を出力する(ステップS58)。
一方、類似度閾値制御部54から供給される類似度の閾値未満である場合には(ステップS52N)、次に発話速度が通常速、及び/又は発話音量が通常音量である音声波形パターンを選択し、この音声波形パターンを使用して圧縮通話音声ファイル31中の音声キーワードとの照合処理を実行する(ステップS53)。
ステップS53の照合処理において算出された類似度が、類似度閾値制御部54から供給される類似度の閾値以上である場合には(ステップS54Y)、照合された音声キーワードの位置情報を出力する(ステップS58)。
一方、類似度閾値制御部54から供給される類似度の閾値未満である場合には(ステップS54N)、次に発話速度が低速、及び/又は発話音量が大音量である音声波形パターンを選択し、この音声波形パターンを使用して圧縮通話音声ファイル31中の音声キーワードとの照合処理を実行する(ステップS55)。
ステップS55の照合処理において算出された類似度が、類似度閾値制御部54から供給される類似度の閾値以上である場合には(ステップS56Y)、照合された音声キーワードの位置情報を出力し(ステップS58)、一方類似度閾値制御部54から供給される類似度の閾値未満である場合には(ステップS56N)、抽出すべき音声キーワードがなかったことを示すデータを出力する(ステップS57)。
図5に示す順序で複数の音声波形パターンを選択すれば、先に選択される音声波形パターンの方が、データ容量が小さく、後に選択される音声波形パターンほどデータ容量が大きくなる。このため、より効率よく高速に照合結果を得ることができる。
図9は、音声キーワード照合部55が実行する音声キーワード照合の手法を概略的に示す。
図9を参照して、具体的には音声キーワード照合部55は、合成された複数の音声波形パターンのそれぞれの全部又は音素単位で区切った一部を、音声分析フレームとし、通話開始時点を始点として、或いは検索条件として検索開始時点が入力された場合には、入力された検索開始時点を始点として、通話終了時点に向けて、照合ポイントをシフトさせ、シフトの都度、類似度を算出する。
複数の音声波形パターンが供給された場合、音声キーワード照合部55は、複数の音声波形パターンのそれぞれについてデジタル音声分析フレームを生成し、これらを順に用いてシフト処理を行ってよい。適用優先順位が与えられていれば、優先順位の高いものから順にシフト処理を行うことが好適である。
音声キーワード照合部55はさらに、算出された類似度を、類似度閾値制御部54から供給される類似度の閾値と比較し、算出された類似度が類似度の閾値以上である場合に、該当音声キーワードの圧縮通話音声ファイル内での開始及び/又は終了位置(典型的には通話開始時点からの経過時間で把握される位置)を取得し、音声照合結果出力部56に供給する(ステップS55)。
図3に戻り、音声照合結果出力部56は、音声照合部55から供給される、検索対象の圧縮通話音声ファイル中で照合された音声キーワードの位置情報を、検索結果として音声キーワード検索PC端末9bに送出する。
<音声キーワード照合処理における類似度算出の詳細>
照合における類似度の具体的算出ロジックには、種々の手法を用いることができる。例えば、音声キーワード照合部55は、音声波形合成部52から供給される複数の音声波形パターンのデジタル音声分析フレームを、検索対象として得られた圧縮通話音声ファイル中でデジタル音声分析フレームが位置づけられた箇所のデジタル波形と、デジタル波形パターンマッチング(テンプレートマッチング)によって比較することにより、類似度を算出してよい。第1の実施形態に係る音声キーワード照合処理においては、曖昧解析を許容するので、特に入力キーワード文字数が長い場合、一部の語句がマッチすれば検索キーワードとの照合を検出するよう類似度の閾値を設定してもよい。このデジタル波形同士のマッチングを実行すれば、簡易かつ低負荷である処理ロジックでありながら実用的精度で照合結果を得ることができる。
変形例として、このデジタル波形同士のパターンマッチングに換えて、或いはこれと併用して、以下に説明される他の照合手法を用いることもできる。これらの照合手法を用いることにより、音声キーワード照合における曖昧度を向上させることができ、音声以外のノイズの影響を低下させ、音声の音質や声質の感度を適度に低下させるので、より多くの音声キーワード候補を抽出することができる。
図10に示されるように、例えば音声波形パターンのデジタル時間波形信号を、時間軸上で音圧(出力パワー)(dB)の強弱をプロットすることにより、音声パワースペクトル包絡線(Power Spectrum Envelop:PSE)パターンを得、このパワースペクトル包絡線(PSE)パターン同士を比較することにより、類似度を算出してよい。これによれば、音声の音質、声質、ノイズ等の影響を比較的受けにくいため、より相対的な比較が可能となる。
代替的に、図11に示されるように、例えば音声波形パターンのデジタル時間波形信号を、時間軸上で音声ピッチ(音声高さ)を示す音声基本周波数であるF0周波数値(Hz)を抽出してプロットすることにより、ピッチ(F0)曲線を得、このピッチ(F0)曲線同士を比較することにより、類似度を算出してよい。これによれば、無音区間をより感受性高く抽出でき、また音声の音質、声質、ノイズ等の影響を比較的受けにくいため、より相対的な比較が可能となる。
代替的に、図12に示されるように、例えば音声波形パターンのデジタル時間波形信号を、時間軸上で音声固有の周波数スペクトルであるフォルマント(formant)を抽出してプロットすることにより、音韻(母音又は子音)の発生パターンを得、この音韻発生パターン同士を比較することにより、類似度を算出してよい。このフォルマント周波数は、発話者の声道の形状に依存して相違するので、発話者個人の個体差を考慮した、より高い照合精度を得ることができる。
さらに代替的に、図13に示されるように、例えば音声波形パターンのデジタル時間波形信号を、時間軸上で音声スペクトログラム(Spectrogram)を算出する。この音声スペクトログラム同士を比較することにより、類似度を算出してよい。この音声スペクトログラムは、声紋分析に従った発声箇所の特定パターンを示すので、発話者個人の個体差を考慮した声紋の照合を行うことができ、より高い照合精度が得られる。
図14ないし図18を参照して、図10ないし図13に示される処理における各種変換処理、特に話者の個体差を考慮した変換処理の説明を補足する。音声は、音素単位で、ラベリングされる。すなわち音素単位に、母音であれば、「a」、「i」、「u」、「e」、「o」であり、子音であれば、「k」、「s」、「t」、「n」、「h」、「m」、「j」、「r」、「w」、「g」、「z」、「d」、「b」、「p」のいずれかがラベルとして付与される。図14は、「電子(denshi)」と発音した場合の、空気振動の大きさを縦軸に、時間を横軸に示したグラフであり、音素ごとに異なる波形パターンが表れている。
次に、ラベリングされた音声を、必要に応じて、音の高さ、大きさ、速度により正規化(統一化)する。音声は個人によって音の高さ(音声ピッチ)が異なるため、図15に示すように、元の信号を間引き、更に時間軸上縮めることにより、このピッチを変化させて音の高さを正規化する。また、音声は発声毎に大きさ及び速度が異なるため、図16に示すように、基準音声の速度に合うよう、音声波形を伸縮させて、音声の大きさ及び速度を正規化する。これらの正規化処理は、音素単位で実行される。
次に、サウンドスペクトログラムを生成することにより、声紋情報を抽出する。音声周波数のスペクトルは、話者の声紋を特徴付ける。この周波数スペクトルは、時間信号をフーリエ変換(Fourier Transform)することで求めることができ、例えば、プロセッサでの処理に適する高速フーリエ変換(Fast Fourier Transform:FFT)処理を音声の時間波形信号に適用することにより実現することができる。図17は、音声信号にFFT処理を適用することによって得られる、ある音がどのくらいの周波数をどの程度含んでいるかを、横軸に周波数(Hz)、縦軸に音の大きさ(dB)をとってグラフに示した音声スペクトル、すなわち音声スペクトグラムである。
図18は、この音声スペクトグラム上の包絡線を示したもので、この包絡線には、複数のピークが表れている。この音声スペクトル上のピークのそれぞれを、フォルマント(formant)といい、このフォルマントの時間軸上の変化が、個体差に由来する声紋上の特徴を示すものとなる。
<音声キーワード照合処理における音声キーワード抽出判定処理における変形例>
照合における音声キーワード抽出判定においては、上記で説明した、類似度の閾値以上である類似度が算出された音声キーワードを抽出する手法において、さらに種々の手法を用いることができる。例えば、算出された類似度と、類似度の閾値との比較において、両者の差分に従い、一致の程度につき、複数の尤度の段階を設け、これを照合結果として音声キーワード検索PC端末9bに送出してもよい。
また、入力キーワードから合成される音声波形パターンを構成する音素群のうち、一致又は類似する音素と一致又は類似しない音素とが混在している場合であっても、部分的に一致又は類似する音声キーワードとして抽出され得るようにするため、非限定的一例として、類似度が0〜100のスケールにおいて、60〜100と類似度が算出された音声キーワードを、入力された検索キーワードと一致する尤度が最も高い音声キーワードとして抽出し、さらに45〜60(未満)と類似度が算出された音声キーワードを、少なくとも半分以上が入力された検索キーワードと部分的に一致する尤度が2番目に高い音声キーワードとして抽出し、30〜45(未満)と類似度が算出された音声キーワードを、少なくとも半分未満が入力された検索キーワードと部分的に一致する尤度が3番目に高い音声キーワードとして抽出し、他方、0〜30(未満)と類似度が算出された音声キーワードは、入力された検索キーワードと全部又は部分的に一致する尤度が最も低い不一致音声キーワードと判断して抽出対象から除外してもよい。
<第1の実施形態に係る音声キーワード照合システムのハードウエア構成>
図19は、第1の実施形態に係る各サーバ装置のハードウエア構成の一例を示すブロック図である。図19に示されるコンピュータ装置110である各サーバ装置において、CPU111は、ROM114および/またはハードディスクドライブ116に格納されたプログラムに従い、RAM115を一次記憶用ワークメモリとして利用して、システム全体を制御する。さらに、CPU111は、マウス112aまたはキーボード112を介して入力される利用者の指示に従い、ハードディスクドライブ116に格納されたプログラムに基づき、第1の実施形態に係る音声キーワード照合処理を実行する。ディスプレイインタフェイス113には、CRTやLCDなどのディスプレイが接続され、CPU111が実行する音声キーワード照合処理のための入力待ち受け画面、処理経過や処理結果、検索結果などが表示される。リムーバブルメディアドライブ117は、主に、リムーバブルメディアからハードディスクドライブ116へファイルを書き込んだり、ハードディスクドライブ116から読み出したファイルをリムーバブルメディアへ書き込む場合に利用される。リムーバブルメディアとしては、フロッピディスク(FD)、CD−ROM、CD−R、CD−R/W、DVD−ROM、DVD−R、DVD−R/W、DVD−RAMやMO、あるいはメモリカード、CFカード、スマートメディア、SDカード、メモリスティックなどが利用可能である。
プリンタインタフェイス118には、レーザビームプリンタやインクジェットプリンタなどのプリンタが接続される。ネットワークインタフェイス119は、コンピュータ装置をネットワークへ接続するためのインターフェースである。
なお、第1の実施形態に係る各サーバ装置及び検索キーワード入力PC端末9bに対する入力手段は、マウス112aあるいはキーボード112に限定されることなく、任意のポインティングデバイス、例えばトラックボール、トラックパッド、タブレットなどを適宜用いることができる。携帯情報端末を第1の実施形態に係るサーバ装置及び検索キーワード入力PC端末9bに接続される入出力装置として用いる場合には、入力部をボタンやモードダイヤル等で構成してもよい。
また、図19に示した第1の実施形態に係る各サーバのハードウエア構成は一例に過ぎず、その他の任意のハードウエア構成を用いることができることはいうまでもない。
殊に、第1の実施形態に係る音声キーワード抽出処理の全部又は一部は、上記コンピュータ端末装置110あるいはPDA等の携帯情報端末装置等によって実現されてもよく、コンピュータ端末装置等とサーバー装置とをBluetooth(登録商標)等の無線、あるいはインターネット(TCP/IP)、公共電話網(PSTN)、統合サービス・ディジタル網(ISDN)等の有線通信回線で相互接続した、インターネットあるいは任意の周知のローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)からなるネットワークシステムによって通話録音処理及び音声キーワード照合処理の一部又は全部が実現されてもよい。
以上のとおり、第1の実施形態によれば、顧客の電話と応対担当者の電話との間でなされた通話を録音蓄積し管理するCRMシステムに好適な、音声認識処理を要することなく汎用性が高い、かつ簡易な構成で実用的検索精度での音声データ内の音声キーワード照合が実現される。
また、多様な顧客側発話者や発話状況を前提とする場合であっても、簡易な構成かつ実用的検索精度で音声データを対象とした音声キーワード照合が可能となる。
また、短い語句に換えてこれより長い文章を検索用キーワードとした場合であっても、簡易な構成かつ実用的検索精度で音声データを対象とした音声キーワード照合が可能となる。
さらに、圧縮後の音声データを対象とした場合であっても、検索精度を損なうことなく音声データを対象とした音声キーワード照合が可能となる。
第2の実施形態
図20ないし図22を参照して、本発明に係る音声キーワード照合システムの第2の実施形態を、第1の実施形態と異なる点についてのみ説明する。
第2の実施形態は、第1の実施形態と比較して、さらに合成された複数の音声波形パターンから、圧縮通話音声ファイル31に蓄積記憶された通話音声ファイルの話者性別、通話音量、話速、回線種別等の属性を推定し、さらにこの推定された属性を有する音声波形パターンを優先的に照合に使用する。
さらに、第2の実施形態は、音声キーワード照合において、第1に選択された音声波形パターンで候補として抽出された音声キーワード位置の近傍領域のみで照合処理を実行する。
図20は、第2の実施形態に係る音声キーワード照合サーバ5内の機能構成の非限定的一例を示す。
図20において、第2の実施形態に係る音声キーワード照合サーバ5は、図3に示された第1の実施形態に係る音声キーワード照合サーバと比較して、さらに、音声波形パターン推定部57を備え、また、第1の実施形態に係る音声キーワード照合部55に換えて第2の実施形態に係る音声キーワード照合部57を備える。
音声波形パターン推定部57は、圧縮通話音声ファイル31及び呼情報データベース32を参照して、圧縮通話音声ファイル31に蓄積記憶された通話音声ファイルの音声波形パターン形状の決定因子となり得る属性、例えば話者性別、会話音量、話速、回線種別を推定し、推定された話者性別、会話音量、話速、回線種別等を音声キーワード消防グ551に供給する。好適には、音声波形パターン推定部57は、検索キーワードテキストの入力に先立って、予め圧縮通話音声ファイル31に蓄積記憶された通話音声ファイルを読み出して推定結果を音声キーワード照合部551に供給しておく。
図21は、音声波形パターン推定部57が実行する音声波形パターン推定処理手順の非限定的一例を示すフローチャートである。
図21において、音声波形パターン推定部57は、まず圧縮通話音声ファイル31に記憶される圧縮通話音声ファイルを読み出して各通話音声ファイルの音響分析を行ってピッチ周波数を算出することにより、話者性別を推定する(ステップS211)。
具体的には、ピッチ周波数(Hz)は、話者の声帯の振動周波数として把握され、男性母集団と女性母集団では声帯形状及びサイズが異なるために有意に異なる分布を示し、一例として、男性の通常会話のピッチ周波数は、下限60Hz、上限260Hz、平均値110Hz〜150Hzであり、他方、女性の通常会話のピッチ周波数は、下限130Hz、上限520Hz、平均値180Hz〜220Hzである。このため、圧縮音声通話ファイルを読み出してそのピッチ周波数の平均値を算出して、算出されたピッチ周波数の平均値が例えば165Hz未満であれば話者が男性であると推定し、他方165Hz以上であれば話者が女性であると推定することができる。
次に、音声波形パターン推定部57は、圧縮通話音声ファイル31から読み出された各通話音声ファイルの音響分析を行うことにより、通話音量及び話速を推定する(ステップS212)。
具体的には、各通話音声ファイル中の有音部分の音量(パワー)平均値を算出し、これを所定の音圧基準値と比較することにより、通常音量であるか、大音量であるか、或いは小音量であるかを推定することができる。
また、各通話音声ファイルの発声部分の時間長(Sec)と有音のピーク数を算出し、有音ピーク数/発声部分の時間長を算出することで、1秒間に発話される音素数が得られるため、これを1秒間当たりの音素数基準値と比較することにより、通常話速であるか、高速であるか、或いは低速であるかを推定することができる。
次に、音声波形パターン推定部57は、呼情報データベース32を参照し、読み出された各圧縮通話音声ファイルに対応する顧客側電話端末の電話番号を識別して、使用された回線が固定電話用であるか、携帯電話用であるか、或いはPHS用であるか、等の回線種別を推定する(ステップS213)。
ステップS213の終了後、音声波形パターン推定部57は、推定された話者性別、通話音量、話速、及び回線種別を、音声キーワード照合部551に供給する。
図22は、第2の実施形態に係る音声キーワード照合部551が実行する音声キーワード照合処理手順の非限定的一例を示すフローチャートである。
図22において、音声キーワード照合部551は、音声波形推定部57から供給される推定された話者性別、通話音量、話速、及び回線種別で、かつ好適には中高年層の音声波形パターンを、第1の音声波形パターンとして選択する(ステップS221)。代替的に、予め話者母集団が最も多く属する年齢層が既知であれば、この年齢層に属する音声波形パターンを選択することが好適である。
音声キーワード照合部551は、この選択された第1の音声波形パターンを用いて、音声キーワード照合部551は、圧縮通話音声ファイル31を参照し、入力された検索条件に合致する圧縮通話音声ファイルを読み出して、この読み出された圧縮通話音声ファイルの先頭から末尾までを範囲として、第1の音声波形パターンと照合する(ステップS222)。
この照合によって、検索対象の圧縮通話音声ファイル内に、第1の類似度閾値以上の類似度が算出された音声キーワードが存在すれば、ステップS224に進み、一方検索対象の圧縮通話音声ファイル内に、第1の類似度閾値以上の類似度が算出された音声キーワードが存在しなければ、当該圧縮通話音声ファイルの照合に用いるべき他の音声波形パターンがあるか否かを判定し、ある場合には(ステップS231Y)、他の音声波形パターンを選択してステップS222に戻り(ステップS232)、一方ない場合には(ステップS231N)、処理を終了する。
ステップS224に戻り、音声キーワード照合部551は、第1の音声波形パターンの年齢層のみを他の年齢層に適合するよう変換し、第2の音声波形パターンとして選択する(ステップS224)。
次に、ステップS222における照合によってステップS223で候補として抽出された音声キーワードの圧縮通話音声ファイル上の始点位置及び終端位置を特定し、この特定された始点位置より前方及び終端位置より後方の所定時間幅を加えて、候補音声キーワードの近傍領域として特定する(ステップS225)。非限定的一例として、候補として抽出された音声キーワード長が0.1秒とすると、その始点位置より前方の0.5秒及びその終端位置より0.5秒を含めた1.1秒の音声波形領域を照合対象領域として特定する(ステップS225)。
第2の実施形態においては、選択された第2(及び第3以降)の音声波形パターンを用いて、各圧縮通話音声ファイル全体を照合対象とすることに換えて、各圧縮通話音声ファイル内の特定された照合対象領域のみを照合対象として、音声キーワード照合部551は、音声キーワードを照合する(ステップS226)。
この照合によって、検索対象の圧縮通話音声ファイル内に、第1の類似度閾値より大きい第2の類似度閾値以上の類似度が算出された音声キーワードが存在すれば、この第2の類似度閾値以上の類似度が算出された音声キーワードを検索結果として得るべき音声キーワードとして抽出して(ステップS228)ステップS229に進み、一方検索対象の圧縮通話音声ファイル内に、第1の類似度閾値より大きい第2の類似度閾値以上の類似度が算出された音声キーワードが存在しなければ、ステップS229に進む。
ステップS229において、さらに音声波形パターンとして適用すべき他の年齢層の音声波形パターンが存在する場合には(ステップS229Y)、ステップS224に戻り、一方、さらに音声波形パターンとして適用すべき他の年齢層の音声波形パターンが存在しない場合には(ステップS229N)、第2の類似度閾値以上であり、かつその中で最も高い類似度が算出された音声キーワード及びその位置情報、及び適用された音声波形パターンの属性(話者性別、通話音量、話速、回線種別、年齢層等)、算出された類似度を抽出する(ステップS230)。
ステップS230において抽出された音声キーワード及びその位置情報、及び適用された音声波形パターンの属性(話者性別、通話音量、話速、回線種別、年齢層等)、算出された類似度は、音声キーワード検索PC端末9bの表示装置上に適宜検索結果として表示され得る。
第2の実施形態によれば、優先的に適用すべき音声波形パターンの属性を予め推定した上で、推定された音声波形パターンをまず検索対象圧縮通話音声ファイル全体に適用して第1の類似度閾値以上の類似度が算出された音声キーワードを候補として抽出し、この候補として抽出された音声キーワードの近傍領域のみを対象として、次にこの推定された音声波形パターンに近い音声波形パターンを適用して照合を実行し、第1の類似度閾値より大きい第2の類似度閾値が算出された音声キーワード及びその位置情報を、検索結果として抽出する。このため、第1の実施形態と比較して、より効率の高い音声キーワード照合処理が実現され、より迅速に音声キーワード検索結果が得られると共に、照合を実行するためのCPU負荷が軽減される。
本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらすすべての実施形態をも含み、その要旨を逸脱しない範囲で多様な改良ないし変更が可能である。例えば、本実施形態において開示された電話番号分析処理、声紋分析処理、及び感情解析処理は、それぞれ本実施形態に係る有害顧客検知システムに単独で実装されてもよく、任意の組み合わせで実装されてもよい。
例えば、本実施形態における類似度の閾値は、入力キーワード文字数や通話音声データの圧縮率に加え、或いはこれに換えて、通話が録音された電話端末の種別(例えば、固定電話、携帯電話、IP電話、PHS等)に応じて、変化させてもよい。一般に、携帯電話上でされた通話の音質は、固定電話上でされた通話の音質より劣るため、例えば携帯電話上の通話の場合には、類似度の閾値を下げる(曖昧度を上げる)ことで、携帯電話上の通話であっても検索漏れを低減させることができる。
さらに、本発明の範囲は、請求項1により画される発明の特徴の組み合わせに限定されるものではなく、すべての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。
PBX 1
音声取得サーバ 2
通話録音サーバ 3
制御サーバ4
音声キーワード照合サーバ 5
顧客電話端末 7
PSTN 8
オペレータ電話端末 9a
音声キーワード検索PC端末 9b
構内回線 11a,11b,11c
圧縮通話音声ファイル 31
呼情報データベース 32
顧客情報データベース 33

Claims (18)

  1. 音声データを再生可能に記憶する音声データベースと、
    前記音声データベース内の再生すべき音声キーワードを照合するための検索キーワードテキスト及び検索条件を入力する検索キーワード入力部と、
    入力された検索キーワードテキストから標準音声波形パターンを合成すると共に、前記標準音声波形パターンとその話速及び/又は音量が相違する複数の派生音声波形パターンを合成する音声波形合成部と、
    前記検索キーワードテキストと前記音声キーワードとの照合における類似度の閾値を、基準閾値を増減させることにより可変に設定する類似度閾値算出部と、
    前記音声キーワードデータベースを参照して、前記検索条件に合致する音声データを読み出すと共に、前記標準音声波形パターン及び複数の前記派生音声波形パターンを読み出された前記音声データの音声波形パターンと順に比較して前記類似度を算出し、前記類似度の閾値以上の類似度が算出された音声キーワードの位置を得る音声キーワード照合部と、
    得られた音声キーワードの位置を端末装置に送信し、これにより前記端末装置上で得られた音声キーワードの位置からの音声データの再生を可能とする出力部とを具備する
    ことを特徴とする音声キーワード照合サーバ装置。
  2. 前記音声キーワード照合部は、前記検索条件として、インバウンドの発話又はアウトバウンドの発話のいずれかが選択入力された場合には、前記音声データに対応する呼制御情報を参照して、選択入力されたインバウンドの発話又はアウトバウンドの発話のいずれか一方のみの音声波形パターンを照合対象として限定する
    ことを特徴とする請求項1に記載の音声キーワード照合サーバ装置。
  3. 前記音声キーワード照合部は、前記標準音声波形パターンより高話速及び/又は低音量の派生音声波形パターンと読み出された前記音声データの音声波形パターンとの間で第1の比較処理を行い、該第1の比較で音声キーワードの候補が得られなかった場合に、前記標準波形パターンと読み出された前記音声データの波形パターンとの間で第2の比較処理を行い、さらに該第2の比較処理で音声キーワードの候補が得られなかった場合に、前記標準音声波形パターンより低話速及び/又は大音量の派生音声波形パターンと読み出された前記音声データの音声波形パターンとの間で第3の比較処理を行う
    ことを特徴とする請求項1又は2に記載の音声キーワード照合サーバ装置。
  4. 前記類似度閾値算出部は、前記検索キーワードテキストの文字数が多い場合には前記基準閾値から減少させ、前記検索キーワードテキストの文字数が少ない場合には前記基準閾値から増加させるよう、前記類似度の閾値を設定する
    ことを特徴とする請求項1ないし3のいずれか記載の音声キーワード照合サーバ装置。
  5. 前記類似度閾値算出部は、前記音声データベース内の音声ファイルの圧縮率が高い場合には前記基準閾値から減少させ、前記音声ファイルの圧縮率が低い場合には前記基準閾値から増加させるよう、前記類似度の閾値を設定する
    ことを特徴とする請求項1ないし4のいずれか記載の音声キーワード照合サーバ装置。
  6. 前記音声波形合成部は、入力された検索キーワードテキストから性別及び/又は年齢層別に特徴付けられる声質が相違する複数の派生音声波形パターンを合成する
    ことを特徴とする請求項1ないし5のいずれか記載の音声キーワード照合サーバ装置。
  7. 音声データベースと、検索キーワード入力部と、音声波形合成部と、類似度閾値算出部と、音声キーワード照合部と、出力部とを具備する音声キーワード照合サーバ装置が実行する音声キーワード照合方法であって、
    前記検索キーワード入力部により、音声データを再生可能に記憶する音声データベース内の再生すべき音声キーワードを照合するための検索キーワードテキスト及び検索条件を入力するステップと、
    前記音声波形合成部により、入力された検索キーワードテキストから標準音声波形パターンを合成すると共に、前記標準音声波形パターンとその話速及び/又は音量が相違する複数の派生音声波形パターンを合成するステップと、
    前記類似度算出部により、前記検索キーワードテキストと前記音声キーワードとの照合における類似度の閾値を、基準閾値を増減させることにより可変に設定するステップと、
    前記音声キーワード照合部により、前記音声キーワードデータベースを参照して、前記検索条件に合致する音声データを読み出すと共に、前記標準音声波形パターン及び複数の前記派生音声波形パターンを読み出された前記音声データの音声波形パターンと順に比較して前記類似度を算出し、前記類似度の閾値以上の類似度が算出された音声キーワードの位置を得るステップと、
    前記出力部により、得られた音声キーワードの位置を端末装置に送信し、これにより前記端末装置上で得られた音声キーワードの位置からの音声データの再生を可能とするステップとを含む
    ことを特徴とする音声キーワード照合方法。
  8. 前記音声キーワードの位置を得るステップにおいて、前記検索条件として、インバウンドの発話又はアウトバウンドの発話のいずれかが選択入力された場合には、前記音声データに対応する呼制御情報を参照して、選択入力されたインバウンドの発話又はアウトバウンドの発話のいずれか一方のみの音声波形パターンを照合対象として限定する
    ことを特徴とする請求項7に記載の音声キーワード照合方法。
  9. 前記音声キーワードの位置を得るステップにおいて、前記標準音声波形パターンより高話速及び/又は低音量の派生音声波形パターンと読み出された前記音声データの音声波形パターンとの間で第1の比較処理を行い、該第1の比較で音声キーワードの候補が得られなかった場合に、前記標準波形パターンと読み出された前記音声データの波形パターンとの間で第2の比較処理を行い、さらに該第2の比較処理で音声キーワードの候補が得られなかった場合に、前記標準音声波形パターンより低話速及び/又は大音量の派生音声波形パターンと読み出された前記音声データの音声波形パターンとの間で第3の比較処理を行う
    ことを特徴とする請求項7又は8に記載の音声キーワード照合方法。
  10. 前記類似度の閾値を設定するステップにおいて、前記検索キーワードテキストの文字数が多い場合には前記基準閾値から減少させ、前記検索キーワードテキストの文字数が少ない場合には前記基準閾値から増加させるよう、前記類似度の閾値を設定する
    ことを特徴とする請求項7ないし9のいずれか記載の音声キーワード照合方法。
  11. 前記類似度の閾値を設定するステップにおいて、前記音声データベース内の音声ファイルの圧縮率が高い場合には前記基準閾値から減少させ、前記音声ファイルの圧縮率が低い場合には前記基準閾値から増加させるよう、前記類似度の閾値を設定する
    ことを特徴とする請求項7ないし10のいずれか記載の音声キーワード照合方法。
  12. 前記音声波形を合成するステップにおいて、入力された検索キーワードテキストから性別及び/又は年齢層別に特徴付けられる声質が相違する複数の派生音声波形パターンを合成する
    ことを特徴とする請求項7ないし11のいずれか記載の音声キーワード照合方法。
  13. 音声キーワード照合処理をコンピュータに実行させるための音声キーワード照合プログラムであって、該プログラムは、前記コンピュータに、
    音声データを再生可能に音声データベースに記憶する音声データ記憶処理と、
    前記音声データベース内の再生すべき音声キーワードを照合するための検索キーワードテキスト及び検索条件を入力する検索キーワード入力処理と、
    入力された検索キーワードテキストから標準音声波形パターンを合成すると共に、前記標準音声波形パターンとその話速及び/又は音量が相違する複数の派生音声波形パターンを合成する音声波形合成処理と、
    前記検索キーワードテキストと前記音声キーワードとの照合における類似度の閾値を、基準閾値を増減させることにより可変に設定する類似度閾値算出処理と、
    前記音声キーワードデータベースを参照して、前記検索条件に合致する音声データを読み出すと共に、前記標準音声波形パターン及び複数の前記派生音声波形パターンを読み出された前記音声データの音声波形パターンと順に比較して前記類似度を算出し、前記類似度の閾値以上の類似度が算出された音声キーワードの位置を得る音声キーワード照合処理と、
    得られた音声キーワードの位置を端末装置に送信し、これにより前記端末装置上で得られた音声キーワードの位置からの音声データの再生を可能とする出力処理とを含む処理を実行させるためのものである
    ことを特徴とする音声キーワード照合プログラム。
  14. 前記音声キーワード照合処理は、前記検索条件として、インバウンドの発話又はアウトバウンドの発話のいずれかが選択入力された場合には、前記音声データに対応する呼制御情報を参照して、選択入力されたインバウンドの発話又はアウトバウンドの発話のいずれか一方のみの音声波形パターンを照合対象として限定する
    ことを特徴とする請求項13に記載の音声キーワード照合プログラム。
  15. 前記音声キーワード照合処理は、前記標準音声波形パターンより高話速及び/又は低音量の派生音声波形パターンと読み出された前記音声データの音声波形パターンとの間で第1の比較処理を行い、該第1の比較で音声キーワードの候補が得られなかった場合に、前記標準波形パターンと読み出された前記音声データの波形パターンとの間で第2の比較処理を行い、さらに該第2の比較処理で音声キーワードの候補が得られなかった場合に、前記標準音声波形パターンより低話速及び/又は大音量の派生音声波形パターンと読み出された前記音声データの音声波形パターンとの間で第3の比較処理を行う
    ことを特徴とする請求項13又は14に記載の音声キーワード照合プログラム。
  16. 前記類似度閾値算出処理は、前記検索キーワードテキストの文字数が多い場合には前記基準閾値から減少させ、前記検索キーワードテキストの文字数が少ない場合には前記基準閾値から増加させるよう、前記類似度の閾値を設定する
    ことを特徴とする請求項13ないし15のいずれか記載の音声キーワード照合プログラム。
  17. 前記類似度閾値算出処理は、前記音声データベース内の音声ファイルの圧縮率が高い場合には前記基準閾値から減少させ、前記音声ファイルの圧縮率が低い場合には前記基準閾値から増加させるよう、前記類似度の閾値を設定する
    ことを特徴とする請求項13ないし16のいずれか記載の音声キーワード照合プログラム。
  18. 前記音声波形合成処理は、入力された検索キーワードテキストから性別及び/又は年齢層別に特徴付けられる声質が相違する複数の派生音声波形パターンを合成する
    ことを特徴とする請求項13ないし17のいずれか記載の音声キーワード照合プログラム。
JP2009204021A 2009-09-03 2009-09-03 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム Expired - Fee Related JP5311348B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009204021A JP5311348B2 (ja) 2009-09-03 2009-09-03 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009204021A JP5311348B2 (ja) 2009-09-03 2009-09-03 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム

Publications (2)

Publication Number Publication Date
JP2011053563A JP2011053563A (ja) 2011-03-17
JP5311348B2 true JP5311348B2 (ja) 2013-10-09

Family

ID=43942600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009204021A Expired - Fee Related JP5311348B2 (ja) 2009-09-03 2009-09-03 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム

Country Status (1)

Country Link
JP (1) JP5311348B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014081441A (ja) * 2012-10-15 2014-05-08 Sharp Corp コマンド判定装置およびその制御方法、コマンド判定プログラム
JP2015005059A (ja) * 2013-06-19 2015-01-08 株式会社カカオジャパン キャンペーン支援システム、キャンペーン支援方法およびプログラム
JP5888356B2 (ja) * 2014-03-05 2016-03-22 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
KR101664335B1 (ko) * 2014-12-05 2016-10-11 (주)넥스윌 착신 단말의 상태 분석 방법 및 장치, 그리고 이를 구현한 프로그램
JP2017015847A (ja) * 2015-06-30 2017-01-19 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6569343B2 (ja) * 2015-07-10 2019-09-04 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6403228B2 (ja) * 2016-12-16 2018-10-10 エヴィクサー株式会社 キャンペーン支援システム、キャンペーン支援方法およびプログラム
JP2019036246A (ja) * 2017-08-21 2019-03-07 オリンパス株式会社 情報処理装置、情報取得機器、トランスクライバーシステム、表示方法、生成方法およびプログラム
CN109241334A (zh) * 2018-08-15 2019-01-18 平安科技(深圳)有限公司 音频关键字质检方法、装置、计算机设备及存储介质
CN109885646B (zh) * 2018-12-20 2023-09-26 广州企图腾科技有限公司 一种字音识别方法、电子设备及存储介质
CN111797632B (zh) * 2019-04-04 2023-10-27 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
KR102503586B1 (ko) * 2020-09-29 2023-02-24 네이버 주식회사 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
CN113221990B (zh) * 2021-04-30 2024-02-23 平安科技(深圳)有限公司 信息录入方法、装置及相关设备
CN117690439B (zh) * 2024-01-31 2024-04-16 国网安徽省电力有限公司合肥供电公司 一种基于营销场景的语音识别语意理解方法及***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175698A (ja) * 1992-12-09 1994-06-24 Ricoh Co Ltd 音声検索装置
JP2000101439A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報処理装置および方法、情報記録装置および方法、記録媒体、並びに提供媒体
JP2002229996A (ja) * 2001-01-29 2002-08-16 Fuji Xerox Co Ltd 検索結果表示方法および装置並びにプログラム
JP2002288177A (ja) * 2001-03-26 2002-10-04 Ricoh Co Ltd 音声検索装置、同方法および同手順を記録した記録媒体
JP2008107641A (ja) * 2006-10-26 2008-05-08 Yamaha Corp 音声データ検索装置
WO2009066397A1 (ja) * 2007-11-22 2009-05-28 Endless Co., Ltd. 検索装置及び検索システム

Also Published As

Publication number Publication date
JP2011053563A (ja) 2011-03-17

Similar Documents

Publication Publication Date Title
JP5311348B2 (ja) 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム
US11361768B2 (en) Utterance classifier
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
US7962342B1 (en) Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
JP4838351B2 (ja) キーワード抽出装置
CN110049270A (zh) 多人会议语音转写方法、装置、***、设备及存储介质
JP5024154B2 (ja) 関連付け装置、関連付け方法及びコンピュータプログラム
US20160372116A1 (en) Voice authentication and speech recognition system and method
JP5042194B2 (ja) 話者テンプレートを更新する装置及び方法
US20150310877A1 (en) Conversation analysis device and conversation analysis method
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
US20110004473A1 (en) Apparatus and method for enhanced speech recognition
JP4914295B2 (ja) 力み音声検出装置
JP2009508144A (ja) 生体測定声紋認証方法および生体測定声紋認証装置
JP2010113167A (ja) 有害顧客検知システム、その方法及び有害顧客検知プログラム
JP2020071675A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
US20080243504A1 (en) System and method of speech recognition training based on confirmed speaker utterances
JP2020071676A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
WO2014203328A1 (ja) 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
US20080243499A1 (en) System and method of speech recognition training based on confirmed speaker utterances
CN113744742A (zh) 对话场景下的角色识别方法、装置和***
US20160203121A1 (en) Analysis object determination device and analysis object determination method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110315

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110315

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130625

R150 Certificate of patent or registration of utility model

Ref document number: 5311348

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees