JP2008158328A

JP2008158328A - 端末装置及び判別方法

Info

Publication number: JP2008158328A
Application number: JP2006347946A
Authority: JP
Inventors: Shi Cho; 志鵬張; Takeshi Yoshimura; 健吉村; Nobuhiko Naka; 信彦仲
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2006-12-25
Filing date: 2006-12-25
Publication date: 2008-07-10

Abstract

【課題】
雑音信号区間の判別精度の向上を図ることを可能とする端末装置及び判別方法を提供する。
【解決手段】
ネットワークを介して音声認識サーバ２００に接続された端末装置１００が、音声信号区間と雑音信号区間とを判別する音声／雑音判別部１３０と、音声信号区間に対応する音声信号に基づいて音声信号情報を抽出する音声特徴量抽出部１４０と、雑音信号区間に対応する雑音信号に基づいて雑音信号情報を抽出する雑音特徴量抽出部１５０と、音声信号情報及び雑音信号情報を音声認識サーバ２００に送信する送信部１６０とを備え、音声／雑音判別部１３０が、音声認識を開始する条件である開始条件が満たされるまでの所定区間を雑音信号区間として判別する。
【選択図】図２

Description

本発明は、ネットワークを介して音声認識サーバに接続された端末装置、及び、端末装置と音声認識サーバとがネットワークを介して接続された通信システムで用いられる判別方法に関する。

従来、端末装置と音声認識サーバとがネットワークを介して接続されており、端末装置から送信された情報に基づいて、音声認識サーバが音声認識を行う技術（ＤＳＲ；ＤｉｓｔｒｉｂｕｔｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）が知られている。

具体的には、端末装置は、センサによって検出された検出信号に基づいて、音声信号区間及び雑音信号区間を検出することによって、音声信号区間と雑音信号区間とを判別する。端末装置は、音声信号区間に対応する検出信号である音声信号に関する情報を計算し、雑音信号区間に対応する検出信号である雑音信号に関する情報を計算する。端末装置は、音声信号に関する情報及び雑音信号に関する情報を音声認識サーバに送信する。なお、音声信号区間及び雑音信号区間の検出（ＶＡＤ；ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）は、検出信号の振幅などを用いて行われる。

例えば、ＥＴＳＩ（ＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ）では、ＶＡＤによって音声信号区間と雑音信号区間とを判別する技術、雑音信号に関する情報をペイロードに記述する技術などが規定されている（例えば、非特許文献１）。なお、雑音信号に関する情報としは、音声信号用に設けられたコードブックを用いて、雑音信号のケプストラムを量子化（ＶＱ；ＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎ）した情報などが挙げられる。
ＥＴＳＩＥＳ２０２２１２（２００３−１１）、ＳｐｅｅｃｈＰｒｏｃｅｓｓｉｎｇ，ＴｒａｎｓｍｉｓｓｉｏｎａｎｄＱｕａｌｉｔｙＡｓｐｅｃｔｓ（ＳＴＱ）；Ｄｉｓｔｒｉｂｕｔｅｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ；Ｅｘｔｅｎｄｅｄａｄｖａｎｃｅｄｆｒｏｎｔ−ｅｎｄｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍ；ＣｏｍｐｒｅｓｓｉｏｎＡｌｇｏｒｉｔｈｍｓ；Ｂａｃｋ−ｅｎｄｓｐｅｅｃｈｒｅｃｏｎｓｔｒｕｃｔｉｏｎａｌｇｏｒｉｔｈｍ、＜ＵＲＬ：http://www.etsi.org＞

しかしながら、上述したＶＡＤでは、音声認識の対象とすべき話者（対象話者）だけではなくて、他の話者（非対象話者）が端末装置の近くにいる場合には、対象話者の音声と非対象話者の音声とを判別することが難しい。

特に、音声認識サーバが音声認識を行う上で、雑音信号に関する情報は非常に重要である。従って、雑音信号区間の判別精度の向上が望まれる。

そこで、本発明は、上述した課題を解決するためになされたものであり、副信号区間（雑音信号区間）の判別精度の向上を図ることを可能とする端末装置及び判別方法を提供することを目的とする。

本発明の一の特徴は、ネットワークを介して音声認識サーバ（音声認識サーバ２００）に接続されており、主信号源及び副信号源が発する信号を検出するセンサを備えた端末装置（端末装置１００）が、主信号区間（音声信号区間）と副信号区間（雑音信号区間）とを判別する判別部（音声／雑音判別部１３０）と、前記センサによって検出された信号である検出信号のうち、前記主信号区間に対応する前記検出信号を主信号として取得し、前記主信号に基づいて主信号情報を抽出する第１抽出部（音声特徴量抽出部１４０）と、前記センサによって検出された前記検出信号のうち、前記副信号区間に対応する前記検出信号を副信号として取得し、前記副信号に基づいて副信号情報を抽出する第２抽出部（雑音特徴量抽出部１５０）と、前記主信号情報及び前記副信号情報を前記音声認識サーバに送信する送信部（送信部１６０）とを備え、前記判別部が、音声認識を開始する条件である開始条件が満たされるまでの所定区間を前記副信号区間として判別することを要旨とする。

ここで、音声認識を開始する条件である開始条件が満たされる前に、音声認識の対象とすべき対象話者が音声（主信号）を発するとは考えにくい。

この点を考慮して、本発明の一の特徴では、判別部は、音声認識サーバに接続されてから開始条件が満たされるまでの所定区間を副信号区間として判別する。すなわち、音声認識サーバに接続されてから開始条件が満たされるまでの区間を副信号区間とみなすことによって、副信号区間の判別精度の向上が図られている。

また、副信号区間の判別精度が高まることによって、音声認識サーバによって行われる音声認識の精度向上を図ることができる。

本発明の一の特徴は、上述した一の特徴において、前記判別部が、前記音声認識サーバに接続されてから前記開始条件が満たされるまでの区間を前記副信号区間として判別することを要旨とする。

本発明の一の特徴は、上述した一の特徴において、前記開始条件が、前記音声認識サーバに接続されてから経過した時間が一定時間を超えること、音声認識を開始するための操作が検出されること、又は、前記検出信号が所定閾値を超えることであることを要旨とする。

本発明の一の特徴は、上述した一の特徴において、前記副信号情報が、前記副信号のスペクトラム情報、前記副信号のケプストラム情報、前記副信号の波形情報、又は、前記副信号用に設けられたコードブックを用いて前記副信号を符号化した情報であることを要旨とする。

本発明の一の特徴は、上述した一の特徴において、前記送信部が、前記主信号情報を識別する主信号識別子とともに前記主信号情報を送信し、前記副信号情報を識別する副信号識別子とともに前記副信号情報を送信することを要旨とする。

本発明の一の特徴は、主信号源及び副信号源が発する信号を検出するセンサを備えた端末装置と音声認識サーバとがネットワークを介して接続された通信システムで用いられる判別方法が、主信号区間と副信号区間とを判別するステップＡと、前記センサによって検出された信号である検出信号のうち、前記主信号区間に対応する前記検出信号を主信号として取得し、前記主信号に基づいて主信号情報を抽出するステップＢと、前記センサによって検出された前記検出信号のうち、前記副信号区間に対応する前記検出信号を副信号として取得し、前記副信号に基づいて副信号情報を抽出するステップＣとを含み、前記ステップＡでは、音声認識を開始する条件である開始条件が満たされるまでの所定区間を前記副信号区間として判別することを要旨とする。

本発明の一の特徴は、上述した一の特徴において、前記ステップＡでは、前記音声認識サーバに接続されてから前記開始条件が満たされるまでの区間を前記副信号区間として判別することを要旨とする。

本発明によれば、雑音区間の判別精度の向上を図ることを可能とする端末装置及び判別方法を提供する。

以下において、本発明の実施形態に係る通信システムについて、図面を参照しながら説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。

ただし、図面は模式的なものであり、各寸法の比率などは現実のものとは異なることに留意すべきである。従って、具体的な寸法などは以下の説明を参酌して判断すべきである。また、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。

［第１実施形態］
（通信システムの構成）
以下において、第１実施形態に係る通信システムの構成について、図面を参照しながら説明する。図１は、第１実施形態に係る通信システムの構成を示す概略図である。

図１に示すように、通信システムは、端末装置１００と、音声認識サーバ２００とを有する。通信システムでは、端末装置１００と音声認識サーバ２００とがネットワーク３００を介して接続されている。

端末装置１００は、音声認識の対象とすべき話者（対象話者）が発する主信号（以下、音声信号）と、対象話者の周辺に位置する雑音信号源が発する副信号（以下、雑音信号とを検出する。雑音信号源は、他の話者（非対象話者）などのように、対象話者が発する音声信号以外の音を発する信号源である。端末装置１００は、音声信号に対応する音声信号情報と、雑音信号に対応する雑音信号情報とを音声認識サーバ２００に送信する。

音声認識サーバ２００は、端末装置１００から受信した音声信号情報及び雑音信号情報に基づいて、対象話者が発する音声を認識する。音声認識サーバ２００は、音声認識の結果を端末装置１００に送信する。

このように、通信システムは、音声検出と音声認識とが異なる装置で行われる分散型音声認識（ＤＳＲ；ＤｉｓｔｒｉｂｕｔｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）システムである。

（端末装置の構成）
以下において、第１実施形態に係る端末装置の構成について、図面を参照しながら説明する。図２は、第１実施形態に係る端末装置１００の構成を示すブロック図である。

図２に示すように、端末装置１００は、音声入力部１１０と、入力インターフェース部１２０と、音声／雑音判別部１３０と、音声特徴量抽出部１４０と、雑音特徴量抽出部１５０と、送信部１６０と、受信部１７０と、出力インターフェース部１８０とを有する。

音声入力部１１０は、音声信号及び雑音信号を検出するセンサ（例えば、マイクロフォン）などによって構成される。音声入力部１１０は、センサによって検出された信号である検出信号を音声／雑音判別部１３０に入力する。

入力インターフェース部１２０は、対象話者が音声認識を開始するための発話ボタンなどによって構成される。入力インターフェース部１２０は、発話ボタンが操作されたことを検出する。具体的には、入力インターフェース部１２０は、発話ボタンが押下されたことを検出して、音声認識の開始操作を検出する。一方で、入力インターフェース部１２０は、発話ボタンが押下状態から非押下状態となったことを検出して、音声認識の終了操作を検出する。

音声／雑音判別部１３０は、音声入力部１１０から取得した検出信号に基づいて、音声信号区間と雑音信号区間とを判別する。ここで、音声／雑音判別部１３０は、音声認識を行うために端末装置１００が音声認識サーバ２００に接続されてから開始条件が満たされるまでの区間を雑音信号区間と判別することに留意すべきである。

第１実施形態では、音声／雑音判別部１３０は、音声認識サーバ２００に接続されてから音声認識の開始操作が検出されるまでの区間を雑音信号区間と判別する。すなわち、開始条件は、入力インターフェース部１２０によって音声認識の開始操作が検出されることである。

音声／雑音判別部１３０は、音声信号区間に対応する検出信号を音声信号として音声特徴量抽出部１４０に入力する。一方、音声／雑音判別部１３０は、雑音信号区間に対応する検出信号を雑音信号として雑音特徴量抽出部１５０に入力する。

音声特徴量抽出部１４０は、音声信号の特徴量を音声信号情報として抽出する。なお、音声特徴量抽出部１４０の詳細については後述する（図３を参照）。

雑音特徴量抽出部１５０は、雑音信号の特徴量を雑音信号情報として抽出する。なお、雑音特徴量抽出部１５０の詳細については後述する（図４を参照）。

送信部１６０は、音声特徴量抽出部１４０によって抽出された音声信号情報及び雑音特徴量抽出部１５０によって抽出された雑音信号情報を音声認識サーバ２００に送信する。ここで、送信部１６０は、音声信号情報を識別する識別子（ヘッダ）を音声信号情報に付加して、ヘッダ及び音声信号情報を送信することに留意すべきである。同様に、送信部１６０は、雑音信号情報を識別する識別子（ヘッダ）を雑音信号情報に付加して、ヘッダ及び雑音信号情報を送信することに留意すべきである。

なお、送信部１６０は、入力インターフェース部１２０によって音声認識の開始操作が検出された場合に、音声信号情報及び雑音信号情報を音声認識サーバ２００に送信する。また、音声信号情報及び雑音信号情報の送信では、例えば、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）やＲＴＰ（Ｒｅａｌ−ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｌ）などが用いられる。

受信部１７０は、音声認識サーバ２００によって行われた音声認識の結果を受信する。出力インターフェース部１８０は、受信部１７０によって受信された音声認識の結果を出力する（例えば、ディスプレイやスピーカ）。

（音声特徴量抽出部の構成）
以下において、上述した音声特徴量抽出部の構成について、図面を参照しながら説明する。図３は、第１実施形態に係る音声特徴量抽出部１４０を示すブロック図である。

図３に示すように、音声特徴量抽出部１４０は、高域強調処理部１４１と、ハミング窓処理部１４２と、ＦＦＴ処理部１４３と、メルフィルタ処理部１４４と、対数計算処理部１４５と、離散コサイン処理部１４６とを有する。

高域強調処理部１４１は、音声信号の高周波帯域を強調する処理を行う。例えば、高域強調処理部１４１は、以下の式（１）に従って高域強調処理を行う。

ハミング窓処理部１４２は、ハミング窓を用いて、音声信号をフレーム単位で切り出す。例えば、ハミング窓処理部１４２は、以下の式（２）に従って音声信号をフレーム単位で切り出す。

ＦＦＴ処理部１４３は、フレーム単位で切り出された音声信号を周波数領域に変換する処理（ＦＦＴ；ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行う。

メルフィルタ処理部１４４は、周波数領域に変換された音声信号の自乗振幅値に対して、メルフィルタ（ＭｅｌＦｉｌｔｅｒＢａｎｋの三角窓）をかけることによって、一定長の次元特徴ベクトルを計算する。

対数計算処理部１４５は、メルフィルタ処理部１４４によって計算された一定長の次元特徴ベクトルの対数を計算する。

離散コサイン処理部１４６は、対数計算処理部１４５によって計算された対数を用いて、離散コサイン変換（ＤＣＴ；ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）を行う。

音声特徴量抽出部１４０は、このようにして得られた情報（ケプストラム情報）を音声信号情報として抽出する。

（雑音特徴量抽出部の構成）
以下において、上述した雑音特徴量抽出部の構成について、図面を参照しながら説明する。図４は、第１実施形態に係る雑音特徴量抽出部１５０を示すブロック図である。

図４に示すように、雑音特徴量抽出部１５０は、高域強調処理部１５１と、ハミング窓処理部１５２と、ＦＦＴ処理部１５３と、メルフィルタ処理部１５４とを有する。

高域強調処理部１５１は、高域強調処理部１４１と同様に、雑音信号の高周波帯域を強調する処理を行う。例えば、高域強調処理部１５１は、以下の式（３）に従って高域強調処理を行う。

ハミング窓処理部１５２は、ハミング窓処理部１４２と同様に、ハミング窓を用いて、雑音信号をフレーム単位で切り出す。例えば、ハミング窓処理部１５２は、以下の式（４）に従って雑音信号をフレーム単位で切り出す。

ＦＦＴ処理部１５３は、ＦＦＴ処理部１４３と同様に、フレーム単位で切り出された雑音信号を周波数領域に変換する処理（ＦＦＴ；ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行う。

メルフィルタ処理部１５４は、メルフィルタ処理部１４４と同様に、周波数領域に変換された音声信号の自乗振幅値に対して、メルフィルタ（ＭｅｌＦｉｌｔｅｒＢａｎｋの三角窓）をかけることによって、一定長の次元特徴ベクトルを計算する。

雑音特徴量抽出部１５０は、このようにして得られた情報（スペクトラム情報）を雑音信号情報として抽出する。

（音声認識サーバの構成）
以下において、第１実施形態に係る音声認識サーバの構成について、図面を参照しながら説明する。図５は、第１実施形態に係る音声認識サーバ２００の構成を示すブロック図である。

図５に示すように、音声認識サーバ２００は、受信部２１０と、音声／雑音振分部２２０と、雑音状況判定部２３０と、音響モデルＤＢ２４０と、音声認識処理部２５０と、送信部２６０とを有する。

受信部２１０は、音声信号情報及び雑音信号情報を端末装置１００から受信する。

音声／雑音振分部２２０は、受信部２１０によって受信された音声信号情報と雑音信号情報とを振り分ける。例えば、音声／雑音振分部２２０は、音声信号情報及び雑音信号情報に付加されたヘッダ（識別子）によって、音声信号情報と雑音信号情報とを振り分ける。音声／雑音振分部２２０は、音声信号情報を音声認識処理部２５０に入力し、雑音信号情報を雑音状況判定部２３０に入力する。

雑音状況判定部２３０は、雑音信号情報に基づいて、端末装置１００の周辺環境の雑音状況を判定する。雑音状況判定部２３０は、雑音状況を音声認識処理部２５０に入力する。

音響モデルＤＢ２４０は、雑音状況に応じて音声信号情報を補正するための音響モデルを記憶している。音響モデルＤＢ２４０は、様々な雑音状況下で学習された複数の音響モデルを記憶している。

音声認識処理部２５０は、雑音状況判定部２３０から取得した雑音状況に応じて、音響モデルＤＢ２４０から適切な音響モデルを読み出す。続いて、音声認識処理部２５０は、音響モデルＤＢ２４０から読み出した音響モデルに基づいて、音声信号情報について音声認識を行う。

送信部２６０は、音声認識処理部２５０によって行われた音声認識の結果を端末装置１００に送信する。なお、音声認識の結果の送信では、例えば、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）、ＭＲＣＰ（ＭｅｄｉａＲｅｓｏｕｒｃｅＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ）、ＳＩＰ（ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ）などが用いられる。

（データ構成の一例）
以下において、第１実施形態に係る音声信号情報及び雑音信号情報のデータ構成の一例について、図面を参照しながら説明する。図６は、第１実施形態に係る音声信号情報及び雑音信号情報のデータ構成の一例を示す図である。図６に示すように、雑音信号情報には、雑音信号情報を識別する識別子を含むヘッダがフレーム単位で付加されている。同様に、音声信号情報には、音声信号情報を識別する識別子を含むヘッダがフレーム単位で付加されている。

上述したように、端末装置１００は、ヘッダが付加された雑音信号情報及びヘッダが付加された音声信号情報を音声認識サーバ２００に送信する。一方で、音声認識サーバ２００は、音声信号情報及び雑音信号情報にそれぞれ付加されたヘッダを用いて、音声信号情報と雑音信号情報とを振り分ける。

（端末装置の動作）
以下において、第１実施形態に係る端末装置の動作について、図面を参照しながら説明する。図７は、第１実施形態に係る端末装置１００の動作を示すフロー図である。

図７に示すように、ステップ１０において、端末装置１００のユーザ（対象話者）は、音声認識を行うためのアプリケーションを起動する。続いて、端末装置１００は、対象話者が発する音声信号及び雑音信号源が発する雑音信号の検出を開始する。

ステップ２０において、端末装置１００は、音声認識サーバ２００に接続する。

ステップ３０において、端末装置１００は、高域強調処理部１５１〜メルフィルタ処理部１５４によって雑音信号情報を抽出する。

ステップ４０において、端末装置１００は、音声認識の開始操作が検出されたか否かを判定する。具体的には、端末装置１００は、発話ボタンが押下されたか否かを検出する。端末装置１００は、音声認識の開始操作が検出された場合には、ステップ５０の処理に移り、音声認識の開始操作が検出されていない場合には、ステップ３０の処理に戻る。

このように、端末装置１００は、音声認識サーバ２００に接続されてから音声認識の開始操作が検出されるまでの区間を雑音信号区間と判別する。

ステップ５０において、端末装置１００は、高域強調処理部１４１〜離散コサイン処理部１４６によって音声信号情報を抽出する。

ステップ６０において、端末装置１００は、音声認識の終了操作が検出されたか否かを判定する。具体的には、端末装置１００は、発話ボタンが押下状態から非押下状態となったか否かを検出する。端末装置１００は、音声認識の終了操作が検出された場合には、ステップ７０の処理に移り、音声認識の終了操作が検出されていない場合には、ステップ５０の処理に戻る。

ステップ７０において、端末装置１００は、雑音信号情報及び音声信号情報を音声認識サーバ２００に送信する。

（音声認識サーバの動作）
以下において、第１実施形態に係る音声認識サーバの動作について、図面を参照しながら説明する。図８は、第１実施形態に係る音声認識サーバ２００の動作を示すフロー図である。

図８に示すように、ステップ１１０において、音声認識サーバ２００は、雑音信号情報及び音声信号情報を端末装置１００から受信する。

ステップ１２０において、音声認識サーバ２００は、雑音信号情報及び音声信号情報を構成するフレームの中から、処理の対象とすべきフレーム（処理対象フレーム）を特定する。

ステップ１３０において、音声認識サーバ２００は、処理対象フレームが終端情報であるか否かを判定する。音声認識サーバ２００は、処理対象フレームが終端情報である場合には、ステップ１８０の処理に移り、処理対象フレームが終端情報でない場合には、ステップ１４０の処理に移る。

ステップ１４０において、音声認識サーバ２００は、処理対象フレームが雑音信号情報であるか否かを判定する。音声認識サーバ２００は、処理対象フレームが雑音信号情報である場合には、ステップ１５０の処理に移り、処理対象フレームが音声信号情報である場合には、ステップ１６０の処理に移る。

ステップ１５０において、音声認識サーバ２００は、雑音信号情報に基づいて、端末装置１００の周辺環境の雑音状況を判定する。

ステップ１６０において、音声認識サーバ２００は、ステップ１５０で判定された雑音状況に応じて、音響モデルＤＢ２４０から適切な音響モデル（パラメータ）を読み出す。

ステップ１７０において、音声認識サーバ２００は、ステップ１６０で読み出された音響モデルに基づいて、音声信号情報について音声認識を行う。

ステップ１８０において、音声認識サーバ２００は、ステップ１７０で行われた音声認識の結果を出力する。

ステップ１９０において、音声認識サーバ２００は、ステップ１８０で出力された音声認識の結果を端末装置１００に送信する。

（作用及び効果）
第１実施形態に係る端末装置１００によれば、音声／雑音判別部１３０は、音声認識サーバ２００に接続されてから音声認識の開始操作が検出されるまでの区間を雑音信号区間として判別する。

ここで、音声認識の開始操作が検出される前、すなわち、音声認識を開始する条件である開始条件が満たされる前に、対象話者が音声（音声信号）を発するとは考えにくい。

この点を考慮して、第１実施形態では、音声認識サーバ２００に接続されてから音声認識の開始操作が検出されるまでの区間を雑音信号区間とみなすことによって、雑音信号区間の判別精度の向上を図っている。

また、雑音信号区間の判別精度が高まることによって、音声認識サーバ２００によって行われる音声認識の精度向上を図ることができる。

第１実施形態に係る端末装置１００によれば、雑音信号情報がスペクトラム情報であるため、音声信号用に設けられたコードブックを用いて雑音信号を符号化する従来技術に比べて、端末装置１００の周辺の雑音環境を音声認識サーバ２００が高い精度で認識することができる。

［第１実施形態の第１変形例］
以下において、第１実施形態の第１変形例について、図９を参照しながら説明する。図９は、第１実施形態の第１変形例に係る雑音信号情報の概念を説明するための図である。

上述した第１実施形態では、端末装置１００は、音声認識サーバ２００に接続されてから音声認識の開始操作が検出されるまでの雑音信号区間に対応する雑音信号情報の全てを音声認識サーバ２００に送信する。

これに対して、第１実施形態の第１変形例では、音声認識サーバ２００に接続されてから音声認識の開始操作が検出されるまでの雑音信号区間に対応する雑音信号情報の一部のみを音声認識サーバ２００に送信する。

具体的には、図９に示すように、端末装置１００は、雑音信号区間に対応する雑音信号情報のうち、音声認識の開始操作が検出される前の一定区間に対応する雑音信号情報のみを音声認識サーバ２００に送信する。すなわち、端末装置１００は、雑音信号区間に対応する雑音信号情報の全てを送信しなくてもよい。

（作用及び効果）
第１実施形態の第１変形例に係る端末装置１００によれば、端末装置１００は、雑音信号区間に対応する雑音信号情報の全てを送信しないため、音声認識サーバ２００に送信すべき情報量を削減することができる。

［第１実施形態の第２変形例］
以下において、第１実施形態の第２変形例について、図１０を参照しながら説明する。図１０は、第１実施形態の第２変形例に係る端末装置１００の動作を示すフロー図である。なお、図１０では、上述した図７と同様の処理について同様のステップ番号が付与されていることに留意すべきである。

上述した第１実施形態では、端末装置１００は、音声認識の終了操作が検出されてから、音声信号情報及び雑音信号情報をまとめて音声認識サーバ２００に送信する。

これに対して、第１実施形態の第２変形例では、端末装置１００は、音声信号情報及び雑音信号情報を一定期間毎に音声認識サーバ２００に送信する。

具体的には、図１０に示すように、ステップ３１において、端末装置１００は、雑音信号情報の送信周期を計時するためのタイマがタイムアウトしているか否かを判定する。端末装置１００は、タイマがタイムアウトしている場合には、ステップ３２の処理に移り、タイマがタイムアウトしていない場合には、ステップ４０の処理に移る。

ステップ３２において、端末装置１００は、バッファなどに蓄積された雑音信号情報を音声認識サーバ２００に送信する。

ステップ３３において、端末装置１００は、送信周期をタイマに再セットするとともに、バッファなどに蓄積された雑音信号情報を消去する。

同様に、ステップ５１において、端末装置１００は、音声信号情報の送信周期を計時するためのタイマがタイムアウトしているか否かを判定する。端末装置１００は、タイマがタイムアウトしている場合には、ステップ５２の処理に移り、タイマがタイムアウトしていない場合には、ステップ６０の処理に移る。

ステップ５２において、端末装置１００は、バッファなどに蓄積された音声信号情報を音声認識サーバ２００に送信する。

ステップ５３において、端末装置１００は、送信周期をタイマに再セットするとともに、バッファなどに蓄積された音声信号情報を消去する。

（作用及び効果）
第１実施形態の第１変形例に係る端末装置１００によれば、端末装置１００は、音声信号情報及び雑音信号情報を一定期間毎に音声認識サーバ２００に送信するため、音声認識サーバ２００が音声認識処理を開始するタイミングを早めることができる。従って、端末装置１００が音声認識の結果を取得するタイミングも早めることができる。

［第２実施形態］
以下において、第２実施形態について図面を参照しながら説明する。以下においては、上述した第１実施形態と第２実施形態との相違点について主として説明する。

具体的には、上述した第１実施形態では、開始条件は、音声認識の開始操作が検出されたことである。これに対して、第２実施形態では、開始条件は、音声認識の開始操作が検出されてから一定時間（例えば、２００ｍｓ）が経過することである。なお、開始条件は、音声認識サーバ２００に接続されてから一定時間が経過することであってもよい。

（端末装置の動作）
以下において、第２実施形態に係る端末装置の動作について、図面を参照しながら説明する。図１１は、第２実施形態に係る端末装置１００の動作を示すフロー図である。

なお、ステップ２１０、ステップ２２０、ステップ２３０、ステップ２５０、ステップ２６０、ステップ２７０の処理は、上述したステップ１０、ステップ２０、ステップ３０、ステップ５０、ステップ６０、ステップ７０の処理と同様である。従って、ステップ２１０、ステップ２２０、ステップ２３０、ステップ２５０、ステップ２６０、ステップ２７０の処理の説明については省略する。

図１１に示すように、ステップ２２５において、端末装置１００は、音声認識の開始操作を検出する。

ステップ２４０において、端末装置１００は、音声認識の開始操作が検出されてから一定時間が経過したか否かを判定する。端末装置１００は、音声認識の開始操作が検出されてから一定時間が経過した場合には、ステップ２４５の処理に移り、音声認識の開始操作が検出されてから一定時間が経過していない場合には、ステップ２３０の処理に戻る。

このように、端末装置１００は、音声認識の開始操作が検出されてから一定時間が経過するまでの区間を雑音信号区間と判別する。

ステップ２４５において、端末装置１００は、「音声を入力して下さい」などのように、対象話者に音声信号の入力を促すガイダンスを出力する。なお、ガイダンスは、音声によって出力されてもよく、文字によって出力されてもよい。

（作用及び効果）
第２実施形態に係る端末装置１００によれば、音声認識の開始操作が検出されてから一定時間が経過するまでの区間（音声認識サーバ２００に接続されてから一定時間が経過するまでの区間）を雑音信号区間とみなすことによって、上述した第１実施形態と同様の効果が得られる。

なお、端末装置１００が音声認識サーバ２００に接続する処理は一定の時間を要する処理であるため、端末装置１００が音声認識サーバ２００に接続されてすぐに、対象話者が音声（音声信号）を発するとは考えにくいことに留意すべきである。

また、対象話者は、音声認識の開始操作を行った後に、端末装置１００が音声を受付けることが可能な状態となったことを確認することが一般的であることに留意すべきである。

また、音声認識の開始操作が検出されてから一定時間が経過するまでの区間を雑音信号区間とみなすことによって、音声信号が入力される直前の雑音環境を音声認識サーバ２００が認識することができ、音声認識の精度をさらに向上する。

［第３実施形態］
以下において、第３実施形態について図面を参照しながら説明する。以下においては、上述した第１実施形態と第３実施形態との相違点について主として説明する。

具体的には、上述した第１実施形態では、開始条件は、音声認識の開始操作が検出されたことである。これに対して、第３実施形態では、開始条件は、センサによって検出された検出信号が所定閾値を超えることである。

（端末装置の動作）
以下において、第３実施形態に係る端末装置の動作について、図面を参照しながら説明する。図１２は、第３実施形態に係る端末装置１００の動作を示すフロー図である。

なお、ステップ３１０、ステップ３２０、ステップ３３０、ステップ３５０、ステップ３７０の処理は、上述したステップ１０、ステップ２０、ステップ３０、ステップ５０、ステップ７０の処理と同様である。従って、ステップ３１０、ステップ３２０、ステップ３３０、ステップ３５０、ステップ３７０の処理の説明については省略する。

図１２に示すように、ステップ３４０において、端末装置１００は、センサによって検出された検出信号のパワー（振幅）が所定閾値を超えたか否かを判定する。端末装置１００は、検出信号のパワー（振幅）が所定閾値を超えた場合には、ステップ３５０の処理に移り、検出信号のパワー（振幅）が所定閾値を超えていない場合には、ステップ３３０の処理に戻る。

このように、端末装置１００は、音声認識サーバ２００に接続されてから検出信号のパワー（振幅）が所定閾値を超えるまでの区間を雑音信号区間と判別する。

ステップ３６０において、端末装置１００は、センサによって検出された検出信号のパワー（振幅）が所定閾値を下回ったか否かを判定する。端末装置１００は、検出信号のパワー（振幅）が所定閾値を下回った場合には、ステップ３７０の処理に移り、検出信号のパワー（振幅）が所定閾値を下回っていない場合には、ステップ３５０の処理に戻る。

（作用及び効果）
第３実施形態に係る端末装置１００によれば、音声認識サーバ２００に接続されてから検出信号のパワー（振幅）が所定閾値を超えるまでの区間を雑音信号区間とみなすことによって、発話ボタンが設けられていない場合であっても、上述した第１実施形態と同様の効果が得られる。

［第３実施形態の第１変形例］
以下において、第３実施形態の第１変形例について、図１３を参照しながら説明する。図１３は、第３実施形態の第１変形例に係る端末装置１００の動作を示すフロー図である。なお、図１３では、上述した図１２と同様の処理について同様のステップ番号を付与していることに留意すべきである。

上述した第３実施形態では、端末装置１００は、検出信号のパワー（振幅）が所定閾値を下回った場合に、音声信号情報及び雑音信号情報を送信する。これに対して、第３実施形態の第１変形例では、端末装置１００は、検出信号のパワー（振幅）が一定時間（例えば、１ｓｅｃ）継続して所定閾値を下回った場合に、音声信号情報及び雑音信号情報を送信する。

具体的には、図１３に示すように、ステップ３６１において、端末装置１００は、検出信号のパワー（振幅）が所定閾値を下回っている期間を計時するタイマに一定時間を再セットする。すなわち、端末装置１００は、検出信号のパワー（振幅）が所定閾値を超えた場合に、タイマに一定時間を再セットする。

ステップ３６２において、端末装置１００は、タイマが既に起動しているか否かを判定する。端末装置１００は、タイマが既に起動している場合には、ステップ３６３の処理に移り、タイマが起動していない場合には、ステップ３６４の処理に移る。

ステップ３６３において、端末装置１００は、タイマがタイムアウトしたか否かを判定する。端末装置１００は、タイマがタイムアウトした場合には、ステップ３７０の処理に移り、タイマがタイムアウトしていない場合には、ステップ３５０の処理に戻る。

ステップ３６４において、端末装置１００は、タイマを起動する。すなわち、端末装置１００は、検出信号のパワー（振幅）が所定閾値を下回った際にタイマを起動する。

（作用及び効果）
第３実施形態の第１変形例に係る端末装置１００によれば、端末装置１００は、検出信号のパワー（振幅）が所定閾値を一時的に下回ったとしても、音声信号情報及び雑音信号情報を音声認識サーバ２００に送信しない。これによって、対象話者が一時的に無言になったような場合に、音声認識の対象期間が途切れることを抑制することができる。

［第４実施形態］
以下において、第４実施形態について図面を参照しながら説明する。以下においては、上述した第１実施形態と第４実施形態との相違点について主として説明する。

具体的には、第１実施形態では、雑音信号情報は、雑音信号のスペクトラム情報である。これに対して、第４実施形態では、雑音信号情報は、雑音信号用に設けられたコードブックを用いて雑音信号を符号化した情報である。なお、雑音信号の符号化では、ＶＱ（ＶｅｃｔｏｒＱｕａｎｔｉａｚａｔｉｏｎ）法が用いられることに留意すべきである。

（雑音特徴量抽出部の構成）
以下において、第４実施形態に係る雑音特徴量抽出部の構成について、図面を参照しながら説明する。図１４は、第４実施形態に係る雑音特徴量抽出部１５０Ａを示すブロック図である。

図１４に示すように、雑音特徴量抽出部１５０Ａは、コードブック記憶部１５１Ａと、距離計算部１５２Ａと、コード決定部１５３Ａとを有する。

コードブック記憶部１５１Ａは、雑音信号用に設けられたコードブックを記憶している。ここで、雑音信号用に設けられたコードブックは、様々な雑音信号を用いて予め作成されることに留意すべきである。

距離計算部１５２Ａは、コードブック記憶部１５１Ａに記憶されたコードブックに含まれるコードと、センサによって検出された雑音信号との距離を計算する。

コード決定部１５３Ａは、コードブック記憶部１５１Ａに記憶されたコードブックの中から、雑音信号からの距離が最も近いコードを決定する。

なお、上述した送信部１６０は、コード決定部１５３Ａによって決定されたコードを雑音信号情報として音声認識サーバ２００に送信する。

［その他の実施形態］
本発明は上述した実施形態によって説明したが、この開示の一部をなす論述及び図面は、この発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。

例えば、雑音信号情報のデータ構成は、フレーム毎にヘッダが付加される構成に限定されるものではない。具体的には、雑音信号情報のデータ構成は、図１５に示すように、複数のフレームに対して単数の制御情報が付加される構成であってもよい。

図１５に示すデータ構成では、雑音信号情報は、ｍ個のフレーム（Ｆ１〜Ｆｍ）によって構成されており、フレームは、ｎ個のサンプル（Ｓ１〜Ｓｎ）及びフレームの終端情報（Ｅ）によって構成されている。制御情報には、雑音信号情報に含まれるフレームの総数を示す情報（例えば、４Ｂｙｔｅ）、フレーム長を示す情報（例えば、４Ｂｙｔｅ）、サンプル長を示す情報（例えば、２Ｂｙｔｅ）が含まれる。

上述した実施形態では、雑音信号情報として、雑音信号のスペクトラム情報、雑音信号用に設けられたコードブックを用いて雑音信号を符号化した情報を例示したが、これに限定されるものではない。

具体的には、雑音信号情報は、雑音信号の波形情報であってもよい。雑音信号の波形情報としては、所定のサンプリングレートで雑音信号をサンプリングして、雑音信号をデジタル化した情報を用いることができる（ＰＣＭ；ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）。

また、雑音信号情報は、音声信号情報と同様に、雑音信号のケプストラム情報であってもよい。この場合には、音声特徴量抽出部１４０の構成を雑音特徴量抽出部１５０に適用すればよい。

上述した第１実施形態の第１変形例及び第２変形例は、他の実施形態（又は、変形例）にも適用できることは勿論である。

第１実施形態に係る通信システムの構成を示す概略図である。第１実施形態に係る端末装置１００の構成を示すブロック図である。第１実施形態に係る音声特徴量抽出部１４０を示すブロック図である。第１実施形態に係る雑音特徴量抽出部１５０を示すブロック図である。第１実施形態に係る音声認識サーバ２００の構成を示すブロック図である。第１実施形態に係る音声信号情報及び雑音信号情報のデータ構成の一例を示す図である。第１実施形態に係る端末装置１００の動作を示すフロー図である。第１実施形態に係る音声認識サーバ２００の動作を示すフロー図である。第１実施形態の第１変形例に係る雑音信号情報の概念を説明するための図である。第１実施形態の第２変形例に係る端末装置１００の動作を示すフロー図である。第２実施形態に係る端末装置１００の動作を示すフロー図である。第３実施形態に係る端末装置１００の動作を示すフロー図である。第３実施形態の第１変形例に係る端末装置１００の動作を示すフロー図である。第４実施形態に係る雑音特徴量抽出部１５０を示すブロック図である。その他の実施形態に係る雑音信号情報のデータ構成の一例を示す図である。

符号の説明

１００・・・端末装置、１１０・・・音声入力部、１２０・・・入力インターフェース部、１３０・・・音声／雑音判別部、１４０・・・音声特徴量抽出部、１４１・・・高域強調処理部、１４２・・・ハミング窓処理部、１４３・・・ＦＦＴ処理部、１４４・・・メルフィルタ処理部、１４５・・・対数計算処理部、１４６・・・離散コサイン処理部、１５０・・・雑音特徴量抽出部、１５０Ａ・・・雑音特徴量抽出部、１５１・・・高域強調処理部、１５１Ａ・・・コードブック記憶部、１５２・・・ハミング窓処理部、１５２Ａ・・・距離計算部、１５３・・・ＦＦＴ処理部、１５３Ａ・・・コード決定部、１５４・・・メルフィルタ処理部、１６０・・・送信部、１７０・・・受信部、１８０・・・出力インターフェース部、２００・・・音声認識サーバ、２１０・・・受信部、２２０・・・音声／雑音振分部、２３０・・・雑音状況判定部、２４０・・・音響モデルＤＢ、２５０・・・音声認識処理部、２６０・・・送信部、３００・・・ネットワーク

Claims

ネットワークを介して音声認識サーバに接続されており、主信号源及び副信号源が発する信号を検出するセンサを備えた端末装置であって、
主信号区間と副信号区間とを判別する判別部と、
前記センサによって検出された信号である検出信号のうち、前記主信号区間に対応する前記検出信号を主信号として取得し、前記主信号に基づいて主信号情報を抽出する第１抽出部と、
前記センサによって検出された前記検出信号のうち、前記副信号区間に対応する前記検出信号を副信号として取得し、前記副信号に基づいて副信号情報を抽出する第２抽出部と、
前記主信号情報及び前記副信号情報を前記音声認識サーバに送信する送信部とを備え、
前記判別部は、音声認識を開始する条件である開始条件が満たされるまでの所定区間を前記副信号区間として判別することを特徴とする端末装置。
前記判別部は、前記音声認識サーバに接続されてから前記開始条件が満たされるまでの区間を前記副信号区間として判別することを特徴とする請求項１に記載の端末装置。
前記開始条件は、前記音声認識サーバに接続されてから経過した時間が一定時間を超えること、音声認識を開始するための操作が検出されること、又は、前記検出信号が所定閾値を超えることであることを特徴とする請求項１に記載の端末装置。
前記副信号情報は、前記副信号のスペクトラム情報、前記副信号のケプストラム情報、前記副信号の波形情報、又は、前記副信号用に設けられたコードブックを用いて前記副信号を符号化した情報であることを特徴とする請求項１に記載の端末装置。
前記送信部は、前記主信号情報を識別する主信号識別子とともに前記主信号情報を送信し、前記副信号情報を識別する副信号識別子とともに前記副信号情報を送信することを特徴とする請求項１に記載の端末装置。
主信号源及び副信号源が発する信号を検出するセンサを備えた端末装置と音声認識サーバとがネットワークを介して接続された通信システムで用いられる判別方法であって、
主信号区間と副信号区間とを判別するステップＡと、
前記センサによって検出された信号である検出信号のうち、前記主信号区間に対応する前記検出信号を主信号として取得し、前記主信号に基づいて主信号情報を抽出するステップＢと、
前記センサによって検出された前記検出信号のうち、前記副信号区間に対応する前記検出信号を副信号として取得し、前記副信号に基づいて副信号情報を抽出するステップＣとを含み、
前記ステップＡでは、音声認識を開始する条件である開始条件が満たされるまでの所定区間を前記副信号区間として判別することを特徴とする判別方法。
前記ステップＡでは、前記音声認識サーバに接続されてから前記開始条件が満たされるまでの区間を前記副信号区間として判別することを特徴とする請求項６に記載の判別方法。