JP2008158328A - 端末装置及び判別方法 - Google Patents
端末装置及び判別方法 Download PDFInfo
- Publication number
- JP2008158328A JP2008158328A JP2006347946A JP2006347946A JP2008158328A JP 2008158328 A JP2008158328 A JP 2008158328A JP 2006347946 A JP2006347946 A JP 2006347946A JP 2006347946 A JP2006347946 A JP 2006347946A JP 2008158328 A JP2008158328 A JP 2008158328A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sub
- terminal device
- information
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
雑音信号区間の判別精度の向上を図ることを可能とする端末装置及び判別方法を提供する。
【解決手段】
ネットワークを介して音声認識サーバ200に接続された端末装置100が、音声信号区間と雑音信号区間とを判別する音声/雑音判別部130と、音声信号区間に対応する音声信号に基づいて音声信号情報を抽出する音声特徴量抽出部140と、雑音信号区間に対応する雑音信号に基づいて雑音信号情報を抽出する雑音特徴量抽出部150と、音声信号情報及び雑音信号情報を音声認識サーバ200に送信する送信部160とを備え、音声/雑音判別部130が、音声認識を開始する条件である開始条件が満たされるまでの所定区間を雑音信号区間として判別する。
【選択図】 図2
Description
ETSI ES 202 212(2003−11)、 Speech Processing, Transmission and Quality Aspects(STQ); Distributed speech recognition; Extended advanced front−end feature extraction algorithm; Compression Algorithms; Back−end speech reconstruction algorithm、<URL:http://www.etsi.org>
(通信システムの構成)
以下において、第1実施形態に係る通信システムの構成について、図面を参照しながら説明する。図1は、第1実施形態に係る通信システムの構成を示す概略図である。
以下において、第1実施形態に係る端末装置の構成について、図面を参照しながら説明する。図2は、第1実施形態に係る端末装置100の構成を示すブロック図である。
以下において、上述した音声特徴量抽出部の構成について、図面を参照しながら説明する。図3は、第1実施形態に係る音声特徴量抽出部140を示すブロック図である。
以下において、上述した雑音特徴量抽出部の構成について、図面を参照しながら説明する。図4は、第1実施形態に係る雑音特徴量抽出部150を示すブロック図である。
以下において、第1実施形態に係る音声認識サーバの構成について、図面を参照しながら説明する。図5は、第1実施形態に係る音声認識サーバ200の構成を示すブロック図である。
以下において、第1実施形態に係る音声信号情報及び雑音信号情報のデータ構成の一例について、図面を参照しながら説明する。図6は、第1実施形態に係る音声信号情報及び雑音信号情報のデータ構成の一例を示す図である。図6に示すように、雑音信号情報には、雑音信号情報を識別する識別子を含むヘッダがフレーム単位で付加されている。同様に、音声信号情報には、音声信号情報を識別する識別子を含むヘッダがフレーム単位で付加されている。
以下において、第1実施形態に係る端末装置の動作について、図面を参照しながら説明する。図7は、第1実施形態に係る端末装置100の動作を示すフロー図である。
以下において、第1実施形態に係る音声認識サーバの動作について、図面を参照しながら説明する。図8は、第1実施形態に係る音声認識サーバ200の動作を示すフロー図である。
第1実施形態に係る端末装置100によれば、音声/雑音判別部130は、音声認識サーバ200に接続されてから音声認識の開始操作が検出されるまでの区間を雑音信号区間として判別する。
以下において、第1実施形態の第1変形例について、図9を参照しながら説明する。図9は、第1実施形態の第1変形例に係る雑音信号情報の概念を説明するための図である。
第1実施形態の第1変形例に係る端末装置100によれば、端末装置100は、雑音信号区間に対応する雑音信号情報の全てを送信しないため、音声認識サーバ200に送信すべき情報量を削減することができる。
以下において、第1実施形態の第2変形例について、図10を参照しながら説明する。図10は、第1実施形態の第2変形例に係る端末装置100の動作を示すフロー図である。なお、図10では、上述した図7と同様の処理について同様のステップ番号が付与されていることに留意すべきである。
第1実施形態の第1変形例に係る端末装置100によれば、端末装置100は、音声信号情報及び雑音信号情報を一定期間毎に音声認識サーバ200に送信するため、音声認識サーバ200が音声認識処理を開始するタイミングを早めることができる。従って、端末装置100が音声認識の結果を取得するタイミングも早めることができる。
以下において、第2実施形態について図面を参照しながら説明する。以下においては、上述した第1実施形態と第2実施形態との相違点について主として説明する。
以下において、第2実施形態に係る端末装置の動作について、図面を参照しながら説明する。図11は、第2実施形態に係る端末装置100の動作を示すフロー図である。
第2実施形態に係る端末装置100によれば、音声認識の開始操作が検出されてから一定時間が経過するまでの区間(音声認識サーバ200に接続されてから一定時間が経過するまでの区間)を雑音信号区間とみなすことによって、上述した第1実施形態と同様の効果が得られる。
以下において、第3実施形態について図面を参照しながら説明する。以下においては、上述した第1実施形態と第3実施形態との相違点について主として説明する。
以下において、第3実施形態に係る端末装置の動作について、図面を参照しながら説明する。図12は、第3実施形態に係る端末装置100の動作を示すフロー図である。
第3実施形態に係る端末装置100によれば、音声認識サーバ200に接続されてから検出信号のパワー(振幅)が所定閾値を超えるまでの区間を雑音信号区間とみなすことによって、発話ボタンが設けられていない場合であっても、上述した第1実施形態と同様の効果が得られる。
以下において、第3実施形態の第1変形例について、図13を参照しながら説明する。図13は、第3実施形態の第1変形例に係る端末装置100の動作を示すフロー図である。なお、図13では、上述した図12と同様の処理について同様のステップ番号を付与していることに留意すべきである。
第3実施形態の第1変形例に係る端末装置100によれば、端末装置100は、検出信号のパワー(振幅)が所定閾値を一時的に下回ったとしても、音声信号情報及び雑音信号情報を音声認識サーバ200に送信しない。これによって、対象話者が一時的に無言になったような場合に、音声認識の対象期間が途切れることを抑制することができる。
以下において、第4実施形態について図面を参照しながら説明する。以下においては、上述した第1実施形態と第4実施形態との相違点について主として説明する。
以下において、第4実施形態に係る雑音特徴量抽出部の構成について、図面を参照しながら説明する。図14は、第4実施形態に係る雑音特徴量抽出部150Aを示すブロック図である。
本発明は上述した実施形態によって説明したが、この開示の一部をなす論述及び図面は、この発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
Claims (7)
- ネットワークを介して音声認識サーバに接続されており、主信号源及び副信号源が発する信号を検出するセンサを備えた端末装置であって、
主信号区間と副信号区間とを判別する判別部と、
前記センサによって検出された信号である検出信号のうち、前記主信号区間に対応する前記検出信号を主信号として取得し、前記主信号に基づいて主信号情報を抽出する第1抽出部と、
前記センサによって検出された前記検出信号のうち、前記副信号区間に対応する前記検出信号を副信号として取得し、前記副信号に基づいて副信号情報を抽出する第2抽出部と、
前記主信号情報及び前記副信号情報を前記音声認識サーバに送信する送信部とを備え、
前記判別部は、音声認識を開始する条件である開始条件が満たされるまでの所定区間を前記副信号区間として判別することを特徴とする端末装置。 - 前記判別部は、前記音声認識サーバに接続されてから前記開始条件が満たされるまでの区間を前記副信号区間として判別することを特徴とする請求項1に記載の端末装置。
- 前記開始条件は、前記音声認識サーバに接続されてから経過した時間が一定時間を超えること、音声認識を開始するための操作が検出されること、又は、前記検出信号が所定閾値を超えることであることを特徴とする請求項1に記載の端末装置。
- 前記副信号情報は、前記副信号のスペクトラム情報、前記副信号のケプストラム情報、前記副信号の波形情報、又は、前記副信号用に設けられたコードブックを用いて前記副信号を符号化した情報であることを特徴とする請求項1に記載の端末装置。
- 前記送信部は、前記主信号情報を識別する主信号識別子とともに前記主信号情報を送信し、前記副信号情報を識別する副信号識別子とともに前記副信号情報を送信することを特徴とする請求項1に記載の端末装置。
- 主信号源及び副信号源が発する信号を検出するセンサを備えた端末装置と音声認識サーバとがネットワークを介して接続された通信システムで用いられる判別方法であって、
主信号区間と副信号区間とを判別するステップAと、
前記センサによって検出された信号である検出信号のうち、前記主信号区間に対応する前記検出信号を主信号として取得し、前記主信号に基づいて主信号情報を抽出するステップBと、
前記センサによって検出された前記検出信号のうち、前記副信号区間に対応する前記検出信号を副信号として取得し、前記副信号に基づいて副信号情報を抽出するステップCとを含み、
前記ステップAでは、音声認識を開始する条件である開始条件が満たされるまでの所定区間を前記副信号区間として判別することを特徴とする判別方法。 - 前記ステップAでは、前記音声認識サーバに接続されてから前記開始条件が満たされるまでの区間を前記副信号区間として判別することを特徴とする請求項6に記載の判別方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006347946A JP2008158328A (ja) | 2006-12-25 | 2006-12-25 | 端末装置及び判別方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006347946A JP2008158328A (ja) | 2006-12-25 | 2006-12-25 | 端末装置及び判別方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008158328A true JP2008158328A (ja) | 2008-07-10 |
Family
ID=39659284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006347946A Pending JP2008158328A (ja) | 2006-12-25 | 2006-12-25 | 端末装置及び判別方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008158328A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018018052A (ja) * | 2016-07-13 | 2018-02-01 | 株式会社富士通ソーシアルサイエンスラボラトリ | 端末装置、翻訳方法、及び、翻訳プログラム |
US10304443B2 (en) | 2014-01-21 | 2019-05-28 | Samsung Electronics Co., Ltd. | Device and method for performing voice recognition using trigger voice |
JP2019211752A (ja) * | 2018-06-01 | 2019-12-12 | サウンドハウンド,インコーポレイテッド | カスタム音響モデル |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5876899A (ja) * | 1981-10-31 | 1983-05-10 | 株式会社東芝 | 音声区間検出装置 |
JP2000353790A (ja) * | 1999-04-13 | 2000-12-19 | Sharp Corp | 強誘電体アプリケーションのためのPb5Ge3O11薄膜の化学蒸着法 |
JP2002229584A (ja) * | 2001-01-31 | 2002-08-16 | Toyota Central Res & Dev Lab Inc | 音声認識方法、音声情報検索方法、プログラム、記録媒体、音声認識システム、音声認識用サーバ・コンピュータおよび音声情報検索用サーバ・コンピュータ |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JP2003330484A (ja) * | 2002-05-17 | 2003-11-19 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
JP2004527006A (ja) * | 2001-05-17 | 2004-09-02 | クゥアルコム・インコーポレイテッド | 分散型音声認識システムにおける音声アクティブな状態を送信するためのシステム及び方法 |
JP2005012377A (ja) * | 2003-06-17 | 2005-01-13 | Sharp Corp | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
JP2005331616A (ja) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
JP2008529096A (ja) * | 2005-02-04 | 2008-07-31 | フランス テレコム | 音声認識システムにおける音声終了マークを送信する方法 |
-
2006
- 2006-12-25 JP JP2006347946A patent/JP2008158328A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5876899A (ja) * | 1981-10-31 | 1983-05-10 | 株式会社東芝 | 音声区間検出装置 |
JP2000353790A (ja) * | 1999-04-13 | 2000-12-19 | Sharp Corp | 強誘電体アプリケーションのためのPb5Ge3O11薄膜の化学蒸着法 |
JP2002229584A (ja) * | 2001-01-31 | 2002-08-16 | Toyota Central Res & Dev Lab Inc | 音声認識方法、音声情報検索方法、プログラム、記録媒体、音声認識システム、音声認識用サーバ・コンピュータおよび音声情報検索用サーバ・コンピュータ |
JP2004527006A (ja) * | 2001-05-17 | 2004-09-02 | クゥアルコム・インコーポレイテッド | 分散型音声認識システムにおける音声アクティブな状態を送信するためのシステム及び方法 |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JP2003330484A (ja) * | 2002-05-17 | 2003-11-19 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
JP2005012377A (ja) * | 2003-06-17 | 2005-01-13 | Sharp Corp | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
JP2005331616A (ja) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
JP2008529096A (ja) * | 2005-02-04 | 2008-07-31 | フランス テレコム | 音声認識システムにおける音声終了マークを送信する方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304443B2 (en) | 2014-01-21 | 2019-05-28 | Samsung Electronics Co., Ltd. | Device and method for performing voice recognition using trigger voice |
US11011172B2 (en) | 2014-01-21 | 2021-05-18 | Samsung Electronics Co., Ltd. | Electronic device and voice recognition method thereof |
US11984119B2 (en) | 2014-01-21 | 2024-05-14 | Samsung Electronics Co., Ltd. | Electronic device and voice recognition method thereof |
JP2018018052A (ja) * | 2016-07-13 | 2018-02-01 | 株式会社富士通ソーシアルサイエンスラボラトリ | 端末装置、翻訳方法、及び、翻訳プログラム |
JP2019211752A (ja) * | 2018-06-01 | 2019-12-12 | サウンドハウンド,インコーポレイテッド | カスタム音響モデル |
US11011162B2 (en) | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
US11367448B2 (en) | 2018-06-01 | 2022-06-21 | Soundhound, Inc. | Providing a platform for configuring device-specific speech recognition and using a platform for configuring device-specific speech recognition |
US11830472B2 (en) | 2018-06-01 | 2023-11-28 | Soundhound Ai Ip, Llc | Training a device specific acoustic model |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100636317B1 (ko) | 분산 음성 인식 시스템 및 그 방법 | |
CN111816218B (zh) | 语音端点检测方法、装置、设备及存储介质 | |
JP6553111B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US8892424B2 (en) | Audio analysis terminal and system for emotion estimation of a conversation that discriminates utterance of a user and another person | |
CN108305628B (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
WO2011148594A1 (ja) | 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム | |
WO2015103836A1 (zh) | 一种语音控制方法及装置 | |
CN105391708A (zh) | 音频数据的检测方法及装置 | |
KR20150145024A (ko) | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及*** | |
CN1447963A (zh) | 语音编码中噪音鲁棒分类方法 | |
US10276191B2 (en) | Speech section detection device, voice processing system, speech section detection method, and computer program product | |
JP2008158328A (ja) | 端末装置及び判別方法 | |
CN111107284A (zh) | 一种视频字幕实时生成***及生成方法 | |
JP6549009B2 (ja) | 通信端末及び音声認識システム | |
WO2019119552A1 (zh) | 连续长语音文件的翻译方法与翻译机 | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
CN111986657B (zh) | 音频识别方法和装置、录音终端及服务器、存储介质 | |
CN111108553A (zh) | 一种声音采集对象声纹检测方法、装置和设备 | |
JP2016180915A (ja) | 音声認識システム、クライアント装置、音声認識方法、プログラム | |
CN114333864A (zh) | 一种音频数据混音方法、终端及计算机可读存储介质 | |
CN109273003B (zh) | 用于行车记录仪的语音控制方法及*** | |
EP3913809A1 (en) | Decoding device, decoding method, and program | |
CN112542157A (zh) | 语音处理方法、装置、电子设备及计算机可读存储介质 | |
JP6693340B2 (ja) | 音声処理プログラム、音声処理装置、及び音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101108 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101130 |