JP6392950B1 - 検出装置、検出方法、および検出プログラム - Google Patents
検出装置、検出方法、および検出プログラム Download PDFInfo
- Publication number
- JP6392950B1 JP6392950B1 JP2017151064A JP2017151064A JP6392950B1 JP 6392950 B1 JP6392950 B1 JP 6392950B1 JP 2017151064 A JP2017151064 A JP 2017151064A JP 2017151064 A JP2017151064 A JP 2017151064A JP 6392950 B1 JP6392950 B1 JP 6392950B1
- Authority
- JP
- Japan
- Prior art keywords
- section
- speech
- frame
- learning
- speech section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 claims description 58
- 238000012545 processing Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 16
- 230000006403 short-term memory Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 43
- 238000010586 diagram Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000004044 response Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】本願に係る検出装置は、音響信号を取得する取得部と、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する検出部とを有することを特徴とする。
【選択図】図1
Description
まず、図1を用いて、情報提供装置10が実行する検出処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する検出処理の一例を示す図である。図1では、情報提供装置10によって、利用者の発話や背景となる音声等といった各種音響が含まれる音響信号を取得すると、取得した音響信号のうち利用者の発話が含まれる部分である音声区間を検出し、検出結果に応じた処理結果を利用者に対して提供する処理の一例について説明する。
ここで、利用者の発話に基づいて各種処理を実行する場合、発話が含まれる音響信号から音声区間を抽出し、抽出した音声区間から発話を認識し、認識結果に応じた処理を実行することとなる。このため、音響信号に含まれる音声区間を精度良く抽出できなかった場合、発話の認識精度が低下する恐れがある。例えば、利用者が発話を行う場合には、促音の前に現れるクロージャや言いよどみによる短い無音区間(ショートポーズ)が含まれる場合がある。しかしながら、かかるショートポーズを音声区間の始端や終端として検出した場合、利用者の発話が分断されてしまい、適切な処理を実行することができなくなる場合がある。また、音声認識を行う場合は、音声区間の検出における遅延を可能な限り低下させるのが望ましい。
以下、図1を用いて、情報提供装置10が実行する処理の一例について説明する。なお、以下の説明では、情報提供装置10が実行する処理として、モデルM1の学習を行う学習処理と、学習を行ったモデルM1を用いて音声区間を検出する検出処理との一例について説明する。
まず、情報提供装置10は、学習モデルに音声区間の始端、終端、および途中の区間の特徴を学習させる学習処理を実行する。例えば、情報提供装置10は、発話の始端を示す始端タグと、発話の終端を示す終端タグと、発話のうち始端および終端以外の区間を示すその他タグとが設定された音声データ(すなわち、音響信号)を学習データとし、学習データに含まれる音声データと各タグとの間の関係性を所定のモデルに学習させる(ステップS1)。より具体的には、情報提供装置10は、音声区間の始端における周波数特性の特徴と、音声区間の終端における周波数特性の特徴と、音響信号のうち音声区間の始端または終端以外の区間における周波数特性の特徴とをモデルM1に学習させる。
続いて、情報提供装置10は、上述した学習処理により学習が行われた学習モデルM1を用いた測定処理、すなわち、音声区間の始端と終端とを検出する検出処理を実行する。まず、情報提供装置10は、マイク等を用いて、利用者の発話Aを含む音響信号を取得する(ステップS2)。そして、情報提供装置10は、学習モデルに音声データを入力することで、利用者の発話の始端と終端とを検出する(ステップS3)。例えば、情報提供装置10は、音響信号を複数のフレームに分割した音声データを生成する。そして、情報提供装置10は、音声データを先頭フレームから順に学習モデルM1の入力層に入力する。
ここで、上述した例では、情報提供装置10は、音響信号のうち利用者の発話を含む音声区間の抽出を行った。ここで、情報提供装置10は、任意の粒度で設定された音声区間を設定することができる。
ここで、学習モデルM1は、測定時にLSTMを用いて将来の予測を行うこととなる。そこで、情報提供装置10は、学習時において、未来の情報を入力することで、予測精度を向上させてもよい。例えば、情報提供装置10は、あるフレーム(以下、「学習対象フレーム」と記載する。)における音声データとともに、学習対象フレームにおける始端タグや終端タグを教師データとして学習モデルM1を学習するのではなく、学習対象フレームよりも先のフレームにおける始端タグや終端タグを教師データとして学習モデルM1の学習を行ってもよい。
なお、情報提供装置10は、発話を行う利用者ごとに学習モデルM1を生成し、生成した学習モデルM1を用いて音声区間を検出してもよく、デモグラフィック属性やサイコグラフィック属性等といった発話を行う利用者の属性ごとに学習を行った学習モデルM1を用いて、音声区間を検出してもよい。また、情報提供装置10は、言語ごとに学習モデルM1を生成してもよい。
以下、上記した検出処理および配信処理を実現する情報提供装置10が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
上述した例では、情報提供装置10は、始端タグと終端タグとに加えて、その他タグを設定した学習データLD1を用いた。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、始端タグ、終端タグ、およびその他タグに加えて、1つまたは複数のタグをさらに設定した学習データLD1を用いて、学習モデルM1の学習を行ってもよい。
次に、図6、図7を用いて、情報提供装置10が実行する処理の流れの一例について説明する。図6は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。また、図7は、実施形態に係る情報提供装置が実行する検出処理の流れの一例を示すフローチャートである。
上記では、情報提供装置10による学習処理や検出処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する検出処理や配信処理のバリエーションについて説明する。
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、学習処理を実行する学習サーバ、検出処理を実行する検出サーバ、および検出結果に応じて各種の処理を実行する実行サーバとが連携して動作することにより、実現されてもよい。このような場合、学習サーバには、学習部41が配置されていればよく、検出サーバには、取得部42、および検出部43が配置されていればよく、実行サーバには、応答生成部44および提供部45が配置されていればよい。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述した実施形態に係る情報提供装置10は、例えば図8に示すような構成のコンピュータ1000によって実現される。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述したように、情報提供装置10は、音響信号を取得する。そして、情報提供装置10は、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルM1、M2を用いて、取得された音響信号から音声区間を検出する。このため、情報提供装置10は、音声区間の認識精度を容易に向上させることができる。すなわち、情報提供装置10は、学習モデルM1、M2に対して、始端および終端に加えて、音声区間の始端および終端以外の区間の特徴を学習させるだけで、始端および終端と類似するが始端および終端ではない区間を、音声区間の始端および終端以外の区間として学習させることができるので、音声区間の認識精度を容易に向上させることができる。
20 通信部
30 記憶部
31 学習データデータベース
32 モデルデータベース
40 制御部
41 学習部
42 取得部
43 検出部
44 応答生成部
45 提供部
100 利用者端末
Claims (10)
- 音響信号を取得する取得部と、
複数のフレームを含む音響信号と、各フレームが音響信号のうち認識対象となる音声が含まれる音声区間の始端であるか否かを示す第1タグ、各フレームが音声区間の終端であるか否かを示す第2タグ、および各フレームが音声区間の始端または終端以外の区間であるか否かを示す第3タグとの間の関係性を学習することで、音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習したした学習モデルを用いて、取得された音響信号から前記音声区間を検出する検出部と
を有することを特徴とする検出装置。 - 前記検出部は、前記音声区間の始端の特徴として、前記音声区間のうち始端を含む所定の区間における音響信号の特徴を学習し、前記音声区間の終端の特徴として、前記音声区間のうち終端を含む所定の区間における音響信号の特徴を学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する
ことを特徴とする請求項1に記載の検出装置。 - 前記検出部は、前記音声区間として、音響信号のうち音声認識に関する所定の要件を満たす音声が含まれる区間の特徴を学習した学習モデルを用いる
ことを特徴とする請求項1または2に記載の検出装置。 - 前記検出部は、前記音声区間として、音響信号のうち、音声認識結果を用いた処理において一つの単位として用いられる利用者による発話が含まれる区間の特徴を学習した学習モデルを用いる
ことを特徴とする請求項3に記載の検出装置。 - 前記検出部は、前記学習モデルとして、前記音声区間の始端における周波数特性の特徴と、当該音声区間の終端における周波数特性の特徴と、音響信号のうち前記音声区間の始端または終端以外の区間における周波数特性の特徴とを学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する
ことを特徴とする請求項1〜4のうちいずれか1つに記載の検出装置。 - 前記検出部は、前記学習モデルとして、LSTM(Long Short-Term Memory)の機能を有する学習モデルを用いる
ことを特徴とする請求項1〜5のうちいずれか1つに記載の検出装置。 - 前記検出部は、前記学習モデルとして、対応するフレームよりも後のフレームの音響信号が音声区間の始端であるか否かを示す第1タグと、対応するフレームよりも後のフレームの音響信号が音声区間の終端であるか否かを示す第2タグと、対応するフレームが音声区間の始端または終端以外の区間であるか否かを示す第3タグとの間の関係性を学習した学習モデルを用いる
ことを特徴とする請求項1〜6のうちいずれか1つに記載の検出装置。 - 前記検出部は、前記学習モデルとして、対応するフレームよりも所定の第1フレーム数だけ後のフレームの音響信号が音声区間の始端であるか否かを示す第1タグと、対応するフレームよりも所定の第2フレーム数だけ後のフレームであって、前記第1フレーム数よりも多い第2フレーム数だけ後のフレームの音響信号が音声区間の終端であるか否かを示す第2タグと、対応するフレームが音声区間の始端または終端以外の区間であるか否かを示す第3タグとの間の関係性を学習した学習モデルを用いる
ことを特徴とする請求項1〜7のうちいずれか1つに記載の検出装置。 - 検出装置が実行する検出方法であって、
音響信号を取得する取得工程と、
複数のフレームを含む音響信号と、各フレームが音響信号のうち認識対象となる音声が含まれる音声区間の始端であるか否かを示す第1タグ、各フレームが音声区間の終端であるか否かを示す第2タグ、および各フレームが音声区間の始端または終端以外の区間であるか否かを示す第3タグとの間の関係性を学習することで、音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する検出工程と
を含むことを特徴とする検出方法。 - 音響信号を取得する取得手順と、
複数のフレームを含む音響信号と、各フレームが音響信号のうち認識対象となる音声が含まれる音声区間の始端であるか否かを示す第1タグ、各フレームが音声区間の終端であるか否かを示す第2タグ、および各フレームが音声区間の始端または終端以外の区間であるか否かを示す第3タグとの間の関係性を学習することで、音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルを用いて、取得された音響信号から前記音声区間を検出する検出手順と
をコンピュータに実行させるための検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017151064A JP6392950B1 (ja) | 2017-08-03 | 2017-08-03 | 検出装置、検出方法、および検出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017151064A JP6392950B1 (ja) | 2017-08-03 | 2017-08-03 | 検出装置、検出方法、および検出プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018108947A Division JP6563080B2 (ja) | 2018-06-06 | 2018-06-06 | プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6392950B1 true JP6392950B1 (ja) | 2018-09-19 |
JP2019028405A JP2019028405A (ja) | 2019-02-21 |
Family
ID=63580049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017151064A Active JP6392950B1 (ja) | 2017-08-03 | 2017-08-03 | 検出装置、検出方法、および検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6392950B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020064253A (ja) * | 2018-10-19 | 2020-04-23 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
JP2021149697A (ja) * | 2020-03-19 | 2021-09-27 | ヤフー株式会社 | 出力装置、出力方法及び出力プログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108766418B (zh) | 2018-05-24 | 2020-01-14 | 百度在线网络技术(北京)有限公司 | 语音端点识别方法、装置及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02289899A (ja) * | 1989-01-24 | 1990-11-29 | Sekisui Chem Co Ltd | 音声検出方式 |
JPH0442299A (ja) * | 1990-06-08 | 1992-02-12 | Sharp Corp | 音声区間検出装置 |
JPH071438B2 (ja) * | 1992-08-31 | 1995-01-11 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声中の複数話者の発話区間自動検出同定装置 |
JPH1124692A (ja) * | 1997-07-01 | 1999-01-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声波の有音/休止区間判定方法およびその装置 |
JP2002091468A (ja) * | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
JP4836290B2 (ja) * | 2007-03-20 | 2011-12-14 | 富士通株式会社 | 音声認識システム、音声認識プログラムおよび音声認識方法 |
JP5647455B2 (ja) * | 2010-07-30 | 2014-12-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声に含まれる吸気音を検出する装置、方法、及びプログラム |
WO2016143125A1 (ja) * | 2015-03-12 | 2016-09-15 | 三菱電機株式会社 | 音声区間検出装置および音声区間検出方法 |
-
2017
- 2017-08-03 JP JP2017151064A patent/JP6392950B1/ja active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02289899A (ja) * | 1989-01-24 | 1990-11-29 | Sekisui Chem Co Ltd | 音声検出方式 |
JPH0442299A (ja) * | 1990-06-08 | 1992-02-12 | Sharp Corp | 音声区間検出装置 |
JPH071438B2 (ja) * | 1992-08-31 | 1995-01-11 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声中の複数話者の発話区間自動検出同定装置 |
JPH1124692A (ja) * | 1997-07-01 | 1999-01-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声波の有音/休止区間判定方法およびその装置 |
JP2002091468A (ja) * | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
JP4836290B2 (ja) * | 2007-03-20 | 2011-12-14 | 富士通株式会社 | 音声認識システム、音声認識プログラムおよび音声認識方法 |
JP5647455B2 (ja) * | 2010-07-30 | 2014-12-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声に含まれる吸気音を検出する装置、方法、及びプログラム |
WO2016143125A1 (ja) * | 2015-03-12 | 2016-09-15 | 三菱電機株式会社 | 音声区間検出装置および音声区間検出方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020064253A (ja) * | 2018-10-19 | 2020-04-23 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
JP2021121875A (ja) * | 2018-10-19 | 2021-08-26 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
JP7212718B2 (ja) | 2018-10-19 | 2023-01-25 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
JP2021149697A (ja) * | 2020-03-19 | 2021-09-27 | ヤフー株式会社 | 出力装置、出力方法及び出力プログラム |
US11763831B2 (en) | 2020-03-19 | 2023-09-19 | Yahoo Japan Corporation | Output apparatus, output method and non-transitory computer-readable recording medium |
JP7405660B2 (ja) | 2020-03-19 | 2023-12-26 | Lineヤフー株式会社 | 出力装置、出力方法及び出力プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2019028405A (ja) | 2019-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
US10283111B1 (en) | Disambiguation in speech recognition | |
US11132509B1 (en) | Utilization of natural language understanding (NLU) models | |
US9484021B1 (en) | Disambiguation in speech recognition | |
US10847151B2 (en) | Dialogue system and dialogue method | |
JP6892426B2 (ja) | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム | |
US11386890B1 (en) | Natural language understanding | |
US11574637B1 (en) | Spoken language understanding models | |
US11763816B1 (en) | Natural language processing policies | |
US11348601B1 (en) | Natural language understanding using voice characteristics | |
US11605376B1 (en) | Processing orchestration for systems including machine-learned components | |
US10152298B1 (en) | Confidence estimation based on frequency | |
JP6392950B1 (ja) | 検出装置、検出方法、および検出プログラム | |
US11361764B1 (en) | Device naming-indicator generation | |
US11398226B1 (en) | Complex natural language processing | |
US11862149B2 (en) | Learning how to rewrite user-specific input for natural language understanding | |
US10923113B1 (en) | Speechlet recommendation based on updating a confidence value | |
JP2018194902A (ja) | 生成装置、生成方法および生成プログラム | |
JP6824795B2 (ja) | 修正装置、修正方法および修正プログラム | |
JP6563080B2 (ja) | プログラム | |
US20230306964A1 (en) | Device-specific skill processing | |
US20230142272A1 (en) | Evaluating natural language processing components | |
US11626106B1 (en) | Error attribution in natural language processing systems | |
JP7092708B2 (ja) | 情報処理プログラム、情報処理装置及び情報処理方法 | |
US11837229B1 (en) | Interaction data and processing natural language inputs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180306 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20180614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180823 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6392950 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |