JP2018136493A - 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 - Google Patents

音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP2018136493A
JP2018136493A JP2017032063A JP2017032063A JP2018136493A JP 2018136493 A JP2018136493 A JP 2018136493A JP 2017032063 A JP2017032063 A JP 2017032063A JP 2017032063 A JP2017032063 A JP 2017032063A JP 2018136493 A JP2018136493 A JP 2018136493A
Authority
JP
Japan
Prior art keywords
keyword
user
speech
voice
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017032063A
Other languages
English (en)
Other versions
JP6812843B2 (ja
Inventor
智佳子 松本
Chikako Matsumoto
智佳子 松本
松尾 直司
Naoji Matsuo
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017032063A priority Critical patent/JP6812843B2/ja
Priority to US15/889,406 priority patent/US10885909B2/en
Publication of JP2018136493A publication Critical patent/JP2018136493A/ja
Application granted granted Critical
Publication of JP6812843B2 publication Critical patent/JP6812843B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)

Abstract

【課題】音声認識処理の種別によらない共通のキーワードで複数の種別の音声認識処理の中から選択した種別の音声認識処理を起動させることが可能な音声認識用コンピュータプログラムを提供する。【解決手段】音声認識用コンピュータプログラムは、ユーザの声が表された音声信号からユーザが発話した第1のキーワードを検出し音声信号中の第1のキーワードに後続する区間からユーザの要望を表す用語を検出し、検出されたユーザの要望を表す用語に応じてその後続する区間に適用される音声認識処理の種別を判定する、ことをコンピュータに実行させるための命令を含む。【選択図】図5

Description

本発明は、例えば、音声認識用コンピュータプログラム、音声認識装置及び音声認識方法に関する。
従来より、話者が発した音声を集音して得られる音声信号から、話者が発した内容を認識する音声認識技術がユーザインターフェースにおいて利用されている。このようなユーザインターフェースにおいて、音声信号からキーワードを検出し、検出されたキーワードに基づいて音声認識の対象となる音声信号中の区間を定めたり、あるいは音声認識サーバを特定する技術が提案されている(例えば、特許文献1及び2を参照)。
特開2015−11170号公報 特開2016−95383号公報
互いに異なる複数の音声認識サーバ(例えば、互いに異なる、音声認識を利用する複数の検索エンジン)が存在する場合のように、互いに異なる複数の種別の音声認識処理が利用可能なことがある。このような場合、ユーザは、それら複数の音声認識処理の中から用途または認識精度に応じた適切な音声認識処理を選択できることが好ましい。しかし、上記のように、キーワードに基づいて音声認識サーバを特定する場合、ユーザは、利用したい音声認識サーバを選択するためには、その音声認識サーバに対応するキーワードを発声することがもとめられる。そのため、ユーザは、音声認識サーバごとのキーワードを記憶しておく必要がある。そこで、複数の種別の音声認識処理の中から、適用する音声認識処理の種別を選択できるとともに、音声認識処理の種別によらない共通のキーワードで選択した種別の音声認識処理を起動させることができる技術がもとめられている。
一つの側面では、本発明は、音声認識処理の種別によらない共通のキーワードで複数の種別の音声認識処理の中から選択した種別の音声認識処理を起動させることが可能な音声認識用コンピュータプログラムを提供することを目的とする。
一つの実施形態によれば、音声認識用コンピュータプログラムが提供される。この音声認識用コンピュータプログラムは、ユーザの声が表された音声信号からユーザが発話した第1のキーワードを検出し音声信号中の第1のキーワードに後続する区間からユーザの要望を表す用語を検出し、検出されたユーザの要望を表す用語に応じてその後続する区間に適用される音声認識処理の種別を判定する、ことをコンピュータに実行させるための命令を含む。
一つの側面では、音声認識処理の種別によらない共通のキーワードで複数の種別の音声認識処理の中から選択した種別の音声認識処理を起動させることができる。
一つの実施形態による音声認識装置が実装される端末のハードウェア構成図である。 音声認識処理に関する処理部の機能ブロック図である。 音声認識処理の概要を説明するための図である。 要望用語と置換キーワードの対応関係を表す参照テーブルの一例を示す図である。 音声認識処理の動作フローチャートである。 変形例による、要望用語と置換キーワードの対応関係を表す参照テーブルの他の一例を示す図である。 変形例による音声認識処理の概要を説明するための図である。 変形例による、要望用語と置換キーワードの対応関係を表す参照テーブルのさらに他の一例を示す図である。 変形例による音声認識処理の概要を説明するための図である。
以下、図を参照しつつ、音声認識装置、及び、その音声認識装置で利用される音声認識方法及び音声認識用コンピュータプログラムについて説明する。
この音声認識装置は、ユーザが発した音声を表す音声信号から、予め定められた音声認識起動用のキーワードを検出すると、そのキーワードに後続する音声信号の区間において、ユーザの要望を表すと想定される用語である要望用語を検出する。この音声認識装置は、検出した要望用語に対応する要望を判定する。そしてこの音声認識装置は、判定した要望に対応する置換用のキーワードの音声データで、検出された起動用のキーワードの音声データを置換して補正音声信号を生成し、その補正音声信号を音声認識用サーバへ出力する。これにより、ユーザは、利用したい音声認識処理の種別によらずに共通する、起動用のキーワードを発話し、その後に要望を発話するだけで、適切な種別の音声認識処理を選択し、かつ利用できる。なお、以下では、置換用のキーワードを単に置換キーワードと呼ぶ。
なお、この音声認識装置は、音声認識を利用するマンマシンインターフェースを採用する様々な装置、例えば、携帯電話機といった携帯端末を含む各種の端末、ナビゲーションシステム、コンピュータまたはロボットなどに実装できる。以下では、音声認識装置は、端末に実装されるものとして説明する。
図1は、一つの実施形態による音声認識装置が実装された端末のハードウェア構成図である。端末1は、マイクロホン11と、アナログ/デジタルコンバータ12と、通信インターフェース部13と、ユーザインターフェース部14と、記憶部15と、処理部16とを有する。
マイクロホン11は、音声入力部の一例であり、ユーザの声を含む、端末1の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成する。そしてマイクロホン11は、そのアナログ音声信号をアナログ/デジタルコンバータ12(以下、A/Dコンバータと表記する)へ出力する。A/Dコンバータ12は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。なお、サンプリングレートは、例えば、音声信号からユーザの声を解析するために必要な周波数帯域がナイキスト周波数以下となるよう、例えば、16kHz〜32kHzに設定される。そしてA/Dコンバータ12は、デジタル化された音声信号を処理部16へ出力する。なお、以下では、デジタル化された音声信号を、単に音声信号と呼ぶ。
通信インターフェース部13は、処理部16から受けとった、音声認識対象となる補正音声信号を含む問い合わせ信号を、端末1が準拠する通信規格に従って、通信ネットワーク(図示せず)を介して音声認識サーバ(図示せず)へ送信する。また通信インターフェース部13は、音声認識サーバから通信ネットワークを介して、音声認識結果を含む応答信号を受信する。そのために、通信インターフェース部13は、例えば、端末1を通信ネットワークに接続し、かつ、端末1が準拠する通信規格に従って各種通信処理を実行するための回路などを有する。なお、端末1が接続される通信ネットワークは、例えば、有線通信ネットワークであってもよく、あるいは、無線通信ネットワークであってもよい。また端末1が準拠する通信規格は、例えば、イーサネット(登録商標)、Bluetooth(登録商標)、あるいは、いわゆるLong Term Evolution(LTE)、LTE-Advancedといった移動通信に関する通信規格であってもよい。
ユーザインターフェース部14は、例えば、タッチパネルディスプレイといった、表示装置と入力装置とが一体化された装置を有する。そしてユーザインターフェース部14は、例えば、音声認識サーバから受信した、音声認識結果を表示する。なお、ユーザインターフェース部14は、表示装置と入力装置とを別個に有していてもよい。
記憶部15は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。さらに、記憶部15は、磁気記録媒体あるいは光記録媒体及びそのアクセス装置を有していてもよい。そして記憶部15は、処理部16上で実行される音声認識処理用のコンピュータプログラム及び音声認識処理で利用される各種のデータ及び音声認識処理の途中で生成される各種のデータを記憶する。例えば、記憶部15は、起動用のキーワード及び起動用のキーワードの音素系列、及び、要望と要望用語と置換キーワードの対応関係を表す参照テーブルなどを記憶する。さらに、記憶部15は、音声認識サーバから受信した音声認識結果、及び、音声認識の結果に対して行われる処理に関するプログラム及びそのプログラムで利用される各種のデータを記憶してもよい。
処理部16は、音声認識装置の一例であり、例えば、一つまたは複数のプロセッサと、その周辺回路とを有する。そして処理部16は、音声認識処理を実行することで、ユーザからの発話に対して適用される音声認識処理の種別を判定する。
以下、処理部16の詳細について説明する。
図2は、音声認識処理に関する処理部16の機能ブロック図である。処理部16は、キーワード検出部21と、要望用語検出部22と、要望判定部23と、補正音声信号生成部24とを有する。処理部16が有するこれらの各部は、例えば、処理部16が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部16が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路であってもよい。
処理部16は、例えば、音声による操作を行うことをユーザがユーザインターフェース部14を介して指示すると、音声認識処理を開始する。あるいは、処理部16は、端末1が起動すると、音声認識処理を開始する。そして処理部16は、音声認識処理が開始されると、上記の各部の処理を実行する。
図3は、処理部16により実行される音声認識処理の概要を説明するための図である。この例では、マイクロホン11を介して入力された音声信号300には、「ハローけんさく君、今日の天気は?」というユーザの音声が表されている。ここで、「ハローけんさく君」が起動用のキーワード(第1のキーワード)であるとする。この場合、処理部16は、音声信号300からキーワード「ハローけんさく君」を検出すると、音声信号300において、そのキーワードに後続するユーザが発話する区間301から、ユーザの要望を表す要望用語を検出する。例えば、「天気」が要望用語であるとする。この場合、処理部16は、区間301から要望用語「天気」302を検出する。そして、処理部16は、要望単語「天気」302に対応するユーザの要望「天気」を判定する。さらに、処理部16は、要望「天気」に対応する置換キーワード(第2のキーワード)「お天気博士」303を特定し、置換キーワード「お天気博士」303の音声データを記憶部15から読み込む。なお、この音声データは、対応するキーワード(例えば、「お天気博士」)についての音声波形を表すデータである。処理部16は、特定された音声データで、音声信号300中のキーワード「ハローけんさく君」に対応する区間の音声データを置換することで、補正音声信号304を生成する。そして処理部16は、補正音声信号304を含む問い合わせ信号を生成し、その問い合わせ信号を、通信インターフェース部13を介して音声認識サーバへ出力する。
キーワード検出部21は、音声認識処理が開始されると、音声信号に含まれる、起動用のキーワードを検出する。なお、起動用のキーワードは、例えば、適用される音声認識処理の種別によらずに共通して使用される一つのキーワードとすることができる。そして起動用のキーワードは、例えば、予め設定され、そのキーワードの音素系列が記憶部15に保存される。
キーワード検出部21は、音声信号に対して、例えば、様々なワードスポッティング技術の何れかを適用することでキーワードを検出する。例えば、キーワード検出部21は、音声信号を所定長を持つフレーム単位に分割する。フレーム長は、例えば、10msec〜20msecに設定される。そしてキーワード検出部21は、フレームごとに、ユーザの声の特徴を表す複数の特徴量を算出する。キーワード検出部21は、フレームごとに、各特徴量を要素とする特徴ベクトルを生成する。
例えば、キーワード検出部21は、ユーザの声の特徴を表す特徴量として、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient、MFCC)と、それらのΔケプストラム及びΔΔケプストラムを求める。
キーワード検出部21は、音声信号に対して、検出対象となるキーワードに相当する長さを持つ検出区間を設定する。そしてキーワード検出部21は、検出区間内の各フレームから抽出された特徴量に基づいて、その検出区間についての最尤音素系列を探索する。なお、最尤音素系列は、最も確からしいと推定される、音声に含まれる各音素をその発声順に並べた音素系列である。
そのために、キーワード検出部21は、例えば、音響モデルとして隠れマルコフモデル(Hidden Markov Model, HMM)を利用し、音声の特徴ベクトルに対する各音素の出力確率を混合正規分布(Gaussian Mixture Model, GMM)により算出するGMM-HMMを用いる。
具体的に、キーワード検出部21は、検出区間中のフレームごとに、そのフレームの特徴ベクトルをGMMに入力することで、そのフレームについての、各音素に対応するHMMの各状態の出力確率を算出する。また、キーワード検出部21は、各フレームから算出された特徴ベクトルに対して、特徴ベクトルの要素ごとに平均値を推定してその要素の値から推定した平均値を差し引くCepstral Mean Normalization(CMN)と呼ばれる正規化を実行してもよい。そしてキーワード検出部21は、正規化された特徴ベクトルをGMMに入力してもよい。
キーワード検出部21は、フレームごとに、得られた出力確率を音素HMMの対応する状態についての出力確率として用いることで、着目する検出区間について、累積対数尤度が最大となる音素系列を最尤音素系列として求める。
例えば、キーワード検出部21は、遷移元である前のフレームの音素候補のHMMの状態から遷移先である現在のフレームのある音素候補のHMMの状態へ遷移する確率(状態遷移確率)の対数化値を算出する。さらに、キーワード検出部21は、現在のフレームのある音素候補のHMMの状態における出力確率の対数化値を算出する。そしてキーワード検出部21は、それらの対数化値を、前のフレームまでの音素候補のHMMの状態における累積対数尤度に加算することで、現在のフレームのある音素候補のHMMの状態における累積対数尤度を算出する。その際、キーワード検出部21は、遷移元の音素候補のHMMの状態の中から、遷移先である現在のフレームのある音素候補のHMMの状態に遷移した場合に、尤も累積対数尤度が大きい遷移元の音素候補を選択する。キーワード検出部21は、その選択を現在のフレームにおけるすべての音素候補のHMMの状態について行うViterbi演算を検出区間の最後のフレームまで進める。なお、キーワード検出部21は、上記の合計が所定値以上となる状態遷移を選択してもよい。そしてキーワード検出部21は、最後のフレームにおける累積対数尤度が最大となる状態を選び、その状態に到達するまでの状態遷移の履歴(Viterbiパス)をバックトラックすることにより求め、Viterbiパスに基づいてその検出区間における最尤音素系列を求める。
キーワード検出部21は、最尤音素系列と、キーワードの発声を表す音素系列(以下、単にキーワード音素系列と呼ぶ)とを比較することで、検出区間においてそのキーワードが発話されたか否かを判定する。例えば、キーワード検出部21は、最尤音素系列と、キーワード音素系列の一致度を算出し、一致度が一致判定閾値以上であれば、検出区間においてキーワードが発声されたと判定する。なお、一致度として、例えば、キーワード検出部21は、キーワード音素系列に含まれる音素の総数に対する、キーワード音素系列と最尤音素系列との間で一致した音素の数の比を算出する。あるいは、キーワード検出部21は、キーワード音素系列と最尤音素系列との間で動的計画法マッチングを行って、レーベンシュタイン距離LD(編集距離とも呼ばれる)を算出してもよい。そしてキーワード検出部21は、1/(1+LD)を一致度として算出してもよい。
キーワード検出部21は、検出区間においてキーワードが発話されていると判定すると、キーワードが検出されたことを要望用語検出部22へ通知する。またキーワード検出部21は、キーワードが検出された検出区間を補正音声信号生成部24へ通知する。
一方、キーワード検出部21は、一致度が一致判定閾値未満であれば、着目する検出区間では検出対象となるキーワードは発話されていないと判定する。そしてキーワード検出部21は、音声信号に対して所定数のフレーム(例えば、1〜2フレーム)だけ検出区間の開始タイミングを遅らせて、検出区間を再設定し、再設定した検出区間に対して上記の処理を実行して、キーワードが発話されたか否かを判定すればよい。
要望用語検出部22は、キーワードが検出されたことが通知されると、音声信号中のそのキーワードが検出された区間に後続する、ユーザが発話している区間(以下、単に後続区間と呼ぶことがある)から要望用語を検出する。
図4は、要望用語と置換キーワードの対応関係を表す参照テーブルの一例を示す図である。参照テーブル400において、一番左の列の各欄には、要望の種別が示される。なお、要望の種別は、例えば、音声認識処理の種別ごとに設定される。あるいは、複数の要望が一つの音声認識処理の種別と対応付けられてもよい。また、参照テーブル400の左から2番目の列の各欄には、要望ごとに設定され、かつ、その要望に関連してユーザが発話すると想定される用語である要望用語が表される。例えば、要望「天気」に対して、要望用語として、「天気」、「晴れ」、「寒い」、「暑い」、「気温」、「湿度」が設定される。また、例えば、要望「食事」に対して、要望用語として、「食事」、「レストラン」、「お腹すいた」、「ご飯」が設定される。このように、要望ごとに、一つ以上の要望用語が設定される。
要望用語検出部22は、キーワード検出部21と同様に、音声信号中の後続区間に対して、例えば、様々なワードスポッティング技術の何れかを適用することで要望用語を検出する。そのために、各要望用語の音素系列が記憶部15に記憶されていてもよい。そして、要望用語検出部22は、例えば、キーワード検出部21と同様に、GMM-HMMを用いて最尤音素系列を求め、その最尤音素系列に基づいて要望用語ごとに一致度を算出する。そして要望用語検出部22は、一致度の最大値が一致判定閾値以上となる場合、その一致度の最大値に対応する要望用語が後続区間に含まれていると判定すればよい。なお、要望用語検出部22は、一致度の最大値が一致判定閾値未満である場合には、後続区間には何れの要望用語も含まれないと判定してもよい。
なお、要望用語検出部22は、後続区間の終端を決定するために、キーワードが検出された検出区間の直後から、各フレームのパワーを算出してもよい。そして要望用語検出部22は、例えば、所定のパワー閾値未満となるパワーを持つフレームが所定期間(例えば、数100msec〜数sec)にわたって連続すると、後続区間が終端したと判定する。また、所定のパワー閾値は、例えば、背景雑音に相当するパワーに所定のオフセットを加えた値とすることができる。
要望用語検出部22は、検出された要望用語を要望判定部23へ通知する。あるいは、後続区間において要望用語が検出されなかった場合、要望用語検出部22は、その旨を要望判定部23へ通知してもよい。
要望判定部23は、音声認識種別判定部の一例であり、検出された要望用語に基づいてユーザの要望を判定する。
例えば、要望判定部23は、参照テーブルを参照して、検出された要望用語と対応付けられた要望を、ユーザの要望として判定する。ここで、ユーザの要望に応じて、適用される音声認識処理の種別が異なるので、本実施形態において、ユーザの要望を判定することは、適用される音声認識処理の種別を判定することに対応する。また、後続区間において要望用語が検出されなかった場合、要望判定部23は、ユーザの要望を、何れの要望用語とも対応付けられていない「汎用」とする。
要望判定部23は、判定されたユーザの要望を補正音声信号生成部24へ通知する。
補正音声信号生成部24は、音声信号中のキーワードが検出された検出区間の音声データを、判定されたユーザの要望に対応する置換キーワードの音声データで置換することで補正音声信号を生成する。
再度図4を参照すると、参照テーブル400の右から2番目の列の各欄には、要望ごとに、その要望に対応する置換キーワードが示される。そして参照テーブル400の右端の列の各欄には、置換キーワードに対応する音声データが示される。例えば、要望用語「天気」、「晴れ」、「寒い」などに対応する要望「天気」に対して、置換キーワード「お天気博士」及び「お天気博士」の音声データが対応付けられる。置換キーワードは、例えば、対応する要望に適した種別の音声認識処理を起動させるためのキーワードとすることができる。
なお、要望用語が検出されなかった場合、補正音声信号生成部24は、例えば、参照テーブル400における、「汎用」に対応付けられた置換キーワード「けんさく君」の音声データで、音声信号中のキーワードが検出された検出区間の音声データを置換してもよい。
このように、検出された要望用語に対応する要望についての置換キーワードの音声データで、検出されたキーワードの音声データを置換することで、その要望に適した種別の音声認識処理を容易に起動させることが可能な補正音声信号が得られる。
処理部16は、補正音声信号を含む問い合わせ信号を生成する。なお、問い合わせ信号には、端末1を識別するための情報が含まれてもよい。そして処理部16は、その問い合わせ信号を、通信インターフェース部13を介して音声認識サーバへ出力する。また処理部16は、音声認識サーバから音声認識結果(例えば、認識された音声に基づく検索結果など)を含む応答信号を受け取ると、その音声認識結果をユーザインターフェース部14へ表示させてもよい。あるいは、端末1がスピーカ(図示せず)を有している場合には、処理部16は、音声認識結果を表す出力音声信号を生成し、その出力音声信号をスピーカへ出力してもよい。
図5は、本実施形態による、音声認識処理の動作フローチャートである。
キーワード検出部21は、マイクロホン11から取得した音声信号に対して検出区間を設定する(ステップS101)。そしてキーワード検出部21は、検出区間において起動用のキーワード検出処理を行い、キーワードを検出できたか否か判定する(ステップS102)。キーワードが検出されなかった場合(ステップS102−No)、キーワード検出部21は、検出区間を所定フレーム数分だけ後側へシフトする(ステップS103)。そしてキーワード検出部21は、ステップS102の処理を繰り返す。
一方、検出区間においてキーワードが検出された場合(ステップS102−Yes)、要望用語検出部22は、音声信号中の後続区間から要望用語を検出する(ステップS104)。そして要望判定部23は、参照テーブルを参照して、検出された要望用語に対応する要望を判定する。またこれにより、要望判定部23は、その要望に対応する音声認識処理の種別も判定する(ステップS105)。
補正音声信号生成部24は、判定された要望に対応する置換キーワードの音声データで、キーワードが検出された音声信号中の検出区間の音声データを置換して、補正音声信号を生成する(ステップS106)。なお、後続区間において何れの要望用語も検出されなかった場合には、補正音声信号生成部24は、上記のように、汎用の置換キーワードの音声データで、キーワードが検出された音声信号中の検出区間の音声データを置換してもよい。そして処理部16は、補正音声信号を含む問い合わせ信号を出力し、音声認識処理を終了する。
以上に説明してきたように、この音声認識装置は、入力された音声信号から、音声認識処理の種別によらない、共通のキーワードを検出すると、キーワード検出後の後続区間から要望用語を検出する。そしてこの音声認識装置は、要望用語に基づいて、ユーザの要望及び適用される音声認識処理の種別を判定する。さらに、この音声認識装置は、判定された要望に対応する置換キーワードの音声データで、音声信号中のキーワードが検出された区間の音声データを置換して補正音声信号を生成し、その補正音声信号を音声認識サーバへ出力する。そのため、この音声認識装置は、共通のキーワードにて、複数の種別の音声認識処理の中から、ユーザの要望に応じた適切な種別の音声認識処理を選択して適用することができる。その結果として、ユーザは、補正音声信号に対して精度の高い音声認識処理が実行されることを期待できるとともに、要望に応じた適切な音声認識結果を得ることができる。さらに、ユーザは、ユーザ自身の好みに応じて起動用の共通のキーワードを設定することで、何れの種別の音声認識処理の種別も好みのキーワードで起動できる。
なお、変形例によれば、補正音声信号生成部24は、補正音声信号に、音声信号から検出された要望用語に対応する要望の音声データを、置換キーワードの音声データとともに含めてもよい。
図6は、この変形例による、要望用語と置換キーワードの対応関係を表す参照テーブルの他の一例を示す図である。参照テーブル600は、図4に示された参照テーブル400と比較して、左から2番目の列の各欄に示されるように、要望ごとに、その要望の音声データが含まれている点で相違する。
図7は、この変形例による音声認識処理の概要を説明するための図である。この例では、マイクロホン11を介して入力された音声信号700には、「ハローけんさく君、今、地震あった?」というユーザの音声が表されている。ここで、「ハローけんさく君」が起動用のキーワードであるとする。この場合、キーワード検出部21により、図5に示されるフローチャートのステップS102にて、音声信号700からキーワード「ハローけんさく君」が検出される。そして要望用語検出部22は、図5に示されるフローチャートのステップS104にて、音声信号700において、そのキーワードに後続するユーザが発話する区間701から、ユーザの要望を表す要望用語を検出する。この例では、要望用語検出部22は、区間701から要望用語「地震」702を検出する。そこで、補正音声信号生成部24は、参照テーブル600を参照して、要望用語「地震」702に対応する要望「災害」703についての置換キーワード「防災情報」704の音声データを特定する。さらに、補正音声信号生成部24は、参照テーブル600を参照して、要望用語「地震」に対応する要望「災害」703の音声データを特定する。そして補正音声信号生成部24は、図5に示されるフローチャートのステップS106にて、特定された置換キーワード「防災情報」704の音声データで、音声信号700中のキーワード「ハローけんさく君」に対応する区間の音声データを置換する。さらに、補正音声信号生成部24は、要望「災害」703の音声データを追加して、補正音声信号705を生成する。
この例では、補正音声信号705において、置換キーワード「防災情報」704の音声データと、音声信号700においてキーワード「ハローけんさく君」に後続する、ユーザが発話した区間の音声データとの間に、要望「災害」703の音声データが追加される。しかし、要望「災害」703の音声データは、音声信号700においてキーワード「ハローけんさく君」に後続するユーザが発話した区間の音声データよりも後に追加されてもよい。なお、補正音声信号705において、置換キーワード「防災情報」704の音声データは、先頭に位置することが好ましい。これにより、音声認識サーバにより実行される音声認識処理がその置換キーワードで起動されるタイプの処理である場合でも、処理部16は、その音声認識処理にユーザが発話した音声を認識させることができる。
この変形例によれば、音声認識装置は、補正音声信号にユーザの要望を表す音声データを含めることができるので、音声認識サーバによる音声認識処理にて、その要望に応じた音声認識結果が得られる可能性を向上することができる。
また他の変形例によれば、音声信号から検出された要望用語に対応する要望ごとに異なる音声認識サーバが対応付けられていてもよい。この場合には、例えば、参照テーブルにおいて、要望ごとに、その要望に対応する音声認識サーバの識別情報が含まれていてもよい。そして処理部16は、補正音声信号を含む問い合わせ信号を、通信インターフェース部13を介して音声信号から検出された要望用語に対応する要望と対応付けられた音声認識サーバへ出力してもよい。
さらに他の変形例によれば、要望に対応付けられる置換キーワードの数は複数であってもよい。さらに、要望ごとに、対応付けられる置換キーワードの数は異なっていてもよい。
図8は、この変形例による、要望用語と置換キーワードの対応関係を表す参照テーブルのさらに他の一例を示す図である。参照テーブル800は、図4に示された参照テーブル400と比較して、右から2番目の列の各欄及び右端の列の各欄に示されるように、要望ごとに、その要望に対応付けられる置換キーワード及びその置換キーワードの音声データが複数含まれる点で相違する。
図9は、この変形例による音声認識処理の概要を説明するための図である。この例では、マイクロホン11を介して入力された音声信号900には、「ハローけんさく君、今日の株価はどうなっている?」というユーザの音声が表されている。ここで、「ハローけんさく君」が起動用のキーワードであるとする。この場合、キーワード検出部21により、図5に示されるフローチャートのステップS102にて、音声信号900からキーワード「ハローけんさく君」が検出される。そして要望用語検出部22は、図5に示されるフローチャートのステップS104にて、音声信号900において、そのキーワードに後続するユーザが発話する区間901から、ユーザの要望を表す要望用語を検出する。この例では、要望用語検出部22は、区間901から要望用語「株価」902を検出する。そこで、補正音声信号生成部24は、図5に示されるフローチャートのステップS106にて、参照テーブル800を参照して、要望用語「株価」902に対応する要望「経済」に対応付けられた置換キーワードを特定する。この例では、置換キーワードとして、「経済リサーチ」、「為替と株」、及び、「リアルタイムチャート」が特定される。補正音声信号生成部24は、特定された置換キーワード「経済リサーチ」、「為替と株」、及び、「リアルタイムチャート」のそれぞれの音声データで、音声信号900中のキーワード「ハローけんさく君」に対応する区間の音声データを置換する。これにより、補正音声信号生成部24は、3個の補正音声信号903−1〜903−3を生成する。そして処理部16は、補正音声信号ごとに、その補正音声信号を含む問い合わせ信号を生成し、その問い合わせ信号を通信インターフェース部13を介して音声認識サーバへ出力する。
なお、この変形例においても、要望ごとに、異なる音声認識サーバが対応付けられていてもよい。あるいは、置換キーワードごとに、異なる音声認識サーバが対応付けられていてもよい。この場合には、参照テーブルにおいて、置換キーワードごとに、対応付けられた音声認識サーバの識別情報が含まれてもよい。
この変形例によれば、音声認識装置は、入力された音声信号に含まれる要望用語に対応する要望について、互いに異なる置換キーワードの音声データを持つ補正音声信号を生成できる。そのため、この音声認識装置は、一つの要望について異なる種別の複数の音声認識処理を適用することを可能とし、その結果として、一つの要望について複数の音声認識結果を得ることができる。なお、処理部16は、得られた複数の音声認識結果に対して多数決等の処理を行うことで、音声認識の精度または得られた結果の精度をより向上できる。
さらに他の変形例によれば、後続区間において複数の要望用語が検出される場合がある。例えば、複数の要望用語について、一致度が一致判定閾値以上となる場合、要望用語検出部22は、それら複数の要望用語を検出してもよい。このような場合、補正音声信号生成部24は、検出された要望用語のうち、一致度が最大となる、すなわち、最も確からしい要望用語に対応する置換キーワードの音声データを補正音声信号の生成に利用してもよい。あるいは、補正音声信号生成部24は、検出された要望用語ごとに、補正音声信号を生成してもよい。この場合には、補正音声信号生成部24は、検出された要望用語ごとに、その要望用語に対応する置換キーワードの音声データで、キーワードが検出された検出区間の音声データを置換することでその要望用語にちての補正音声信号を生成すればよい。
また、音声認識サーバにて実行される音声認識処理が特定のキーワードにより起動されるタイプのものでない場合、補正音声信号に置換キーワードの音声データが含まれなくてもよい。そこでさらに他の変形例によれば、処理部16は、検出された要望用語に対応する置換キーワードの音声データによる置換を行わなくてもよい。すなわち、補正音声信号生成部24は省略されてもよい。この場合、参照テーブルにおいて、要望ごとに、その要望に対応する音声認識サーバの識別情報が含まれていてもよい。そして処理部16は、参照テーブルを参照して、検出された要望用語と対応付けられた要望に対応する音声認識サーバを特定する。そして処理部16は、音声信号そのものを含む問い合わせ信号を、通信インターフェース部13を介して特定された音声認識サーバへ出力してもよい。
この変形例でも、音声認識装置は、共通するキーワードに後続する区間において発話された要望用語を検出することで、音声信号に適切な種別の音声認識処理を実行させることができる。
さらに他の変形例によれば、起動用のキーワードは複数有ってもよい。この場合、起動用のキーワードごとに、上記の実施形態または変形例による参照テーブルが対応付けられ、起動用のキーワードごとの参照テーブルが記憶部15に記憶されてもよい。この場合には、音声認識装置は、ユーザが発話するキーワードに応じて、検出すべき要望用語及び判定されるユーザの要望並びに対応する音声認識処理の種別も異ならせることができる。
さらに他の変形例によれば、音声認識装置自体が複数の種別の音声認識処理を実行可能であってもよい。この場合、音声認識装置は、上記の実施形態または変形例に従って生成された補正音声信号に対して、検出された要望用語と対応付けられた要望に応じた種別の音声認識処理を実行すればよい。
さらに他の変形例によれば、上記の実施形態または変形例による参照テーブルにおいて、要望そのものは省略されてもよい。この場合には、音声認識装置は、検出した要望用語に基づいてユーザの要望を判定せず、補正音声信号生成部24が、参照テーブルを参照して、検出した要望用語に対応す置換キーワードを特定すればよい。そして補正音声信号生成部24が、置換キーワードの音声データで、起動用のキーワードが検出された区間の音声データを置換することで、補正音声信号を生成すればよい。
さらに他の変形例によれば、補正音声信号生成部24は、起動用のキーワードの音声データを置換せず、入力された音声信号の先頭あるいは起動用のキーワードが検出された区間の直後に、置換キーワードの音声データを追加して、補正音声信号を生成してもよい。
上記の実施形態または変形例による音声認識装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
ユーザの声が表された音声信号から前記ユーザが発話した第1のキーワードを検出し、
前記音声信号中の前記第1のキーワードに後続する区間からユーザの要望を表す用語を検出し、
前記検出された前記ユーザの要望を表す用語に応じて前記後続する区間に適用される音声認識処理の種別を判定する、
ことをコンピュータに実行させるための音声認識用コンピュータプログラム。
(付記2)
複数の第2のキーワードのうち、前記検出された前記ユーザの要望を表す用語に対応する第2のキーワードを特定し、前記特定した第2のキーワードの音声データで前記音声信号中の前記第1のキーワードの音声データを置換することで補正音声信号を生成することをさらにコンピュータに実行させる、付記1に記載の音声認識用コンピュータプログラム。
(付記3)
複数の第2のキーワードのうち、前記検出された前記ユーザの要望を表す用語に対応する第2のキーワードを特定し、前記特定した第2のキーワードの音声データを前記音声信号に付加することで補正音声信号を生成することをさらにコンピュータに実行させる、付記1に記載の音声認識用コンピュータプログラム。
(付記4)
前記検出された前記ユーザの要望を表す用語に対応する、前記ユーザの要望の音声データを前記補正音声信号に追加することをさらにコンピュータに実行させる、付記2に記載の音声認識用コンピュータプログラム。
(付記5)
前記検出された前記ユーザの要望を表す用語に対応する前記第2のキーワードが複数ある場合、前記補正音声信号を生成することは、当該用語に対応する複数の第2のキーワードのそれぞれについて、当該第2のキーワードの音声データで前記音声信号中の前記第1のキーワードの音声データを置換することで、複数の前記補正音声信号を生成する、付記2または4に記載の音声認識用コンピュータプログラム。
(付記6)
前記検出された前記ユーザの要望を表す用語が複数ある場合、前記補正音声信号を生成することは、当該検出された複数の用語のうち、最も確からしい用語に対応する前記第2のキーワードの音声データで前記音声信号中の前記第1のキーワードの音声データを置換することで補正音声信号を生成する、付記2または4に記載の音声認識用コンピュータプログラム。
(付記7)
前記検出された前記ユーザの要望を表す用語が複数ある場合、前記補正音声信号を生成することは、当該検出された複数の用語のそれぞれについて、当該用語に対応する前記第2のキーワードの音声データで前記音声信号中の前記第1のキーワードの音声データを置換することで、複数の前記補正音声信号を生成する、付記2または4に記載の音声認識用コンピュータプログラム。
(付記8)
前記第1のキーワードは複数存在し、前記複数の第1のキーワードのそれぞれに、前記ユーザの要望を表す用語及び前記音声認識処理の種別が対応付けられ、
前記ユーザの要望を表す用語を検出することは、前記複数の第1のキーワードのうちの検出された第1のキーワードに対応付けられた用語の中から、前記ユーザの要望を表す用語を検出することを含み、
前記音声認識処理の種別を判定することは、前記複数の第1のキーワードのうちの検出された第1のキーワードに対応付けられた音声認識処理の種別の中から、前記検出された前記ユーザの要望を表す用語に応じて前記後続する区間に適用される音声認識処理の種別を判定する、付記1に記載の音声認識用コンピュータプログラム。
(付記9)
ユーザの声が表された音声信号から前記ユーザが発話した第1のキーワードを検出するキーワード検出部と、
前記音声信号中の前記第1のキーワードに後続する区間からユーザの要望を表す用語を検出する要望用語検出部と、
前記検出された前記ユーザの要望を表す用語に応じて前記後続する区間に適用される音声認識処理の種別を判定する音声認識種別判定部と、
を有する音声認識装置。
(付記10)
ユーザの声が表された音声信号から前記ユーザが発話した第1のキーワードを検出し、
前記音声信号中の前記第1のキーワードに後続する区間からユーザの要望を表す用語を検出し、
前記検出された前記ユーザの要望を表す用語に応じて前記後続する区間に適用される音声認識処理の種別を判定する、
ことを含む音声認識方法。
(付記11)
ユーザの声が表された音声信号から前記ユーザが発話した第1のキーワードを検出するキーワード検出部と、
前記音声信号中の前記第1のキーワードに後続する区間からユーザの要望を表す用語を検出する要望用語検出部と、
複数の第2のキーワードのうち、前記検出された前記ユーザの要望を表す用語に対応する第2のキーワードを特定し、前記特定した第2のキーワードの音声データで前記音声信号中の前記第1のキーワードの音声データを置換することで補正音声信号を生成する補正音声信号生成部と、
を有する音声認識装置。
1 端末
11 マイクロホン
12 アナログ/デジタルコンバータ
13 通信インターフェース部
14 ユーザインターフェース部
15 記憶部
16 処理部
21 キーワード検出部
22 要望用語検出部
23 要望判定部
24 補正音声信号生成部

Claims (7)

  1. ユーザの声が表された音声信号から前記ユーザが発話した第1のキーワードを検出し、
    前記音声信号中の前記第1のキーワードに後続する区間からユーザの要望を表す用語を検出し、
    前記検出された前記ユーザの要望を表す用語に応じて前記後続する区間に適用される音声認識処理の種別を判定する、
    ことをコンピュータに実行させるための音声認識用コンピュータプログラム。
  2. 複数の第2のキーワードのうち、前記検出された前記ユーザの要望を表す用語に対応する第2のキーワードを特定し、前記特定した第2のキーワードの音声データで前記音声信号中の前記第1のキーワードの音声データを置換することで補正音声信号を生成することをさらにコンピュータに実行させる、請求項1に記載の音声認識用コンピュータプログラム。
  3. 前記検出された前記ユーザの要望を表す用語に対応する、前記ユーザの要望の音声データを前記補正音声信号に追加することをさらにコンピュータに実行させる、請求項2に記載の音声認識用コンピュータプログラム。
  4. 前記検出された前記ユーザの要望を表す用語に対応する前記第2のキーワードが複数ある場合、前記補正音声信号を生成することは、当該用語に対応する複数の第2のキーワードのそれぞれについて、当該第2のキーワードの音声データで前記音声信号中の前記第1のキーワードの音声データを置換することで、複数の前記補正音声信号を生成する、請求項2または3に記載の音声認識用コンピュータプログラム。
  5. 前記検出された前記ユーザの要望を表す用語が複数ある場合、前記補正音声信号を生成することは、当該検出された複数の用語のうち、最も確からしい用語に対応する前記第2のキーワードの音声データで前記音声信号中の前記第1のキーワードの音声データを置換することで補正音声信号を生成する、請求項2または3に記載の音声認識用コンピュータプログラム。
  6. ユーザの声が表された音声信号から前記ユーザが発話した第1のキーワードを検出するキーワード検出部と、
    前記音声信号中の前記第1のキーワードに後続する区間からユーザの要望を表す用語を検出する要望用語検出部と、
    前記検出された前記ユーザの要望を表す用語に応じて前記後続する区間に適用される音声認識処理の種別を判定する音声認識種別判定部と、
    を有する音声認識装置。
  7. ユーザの声が表された音声信号から前記ユーザが発話した第1のキーワードを検出し、
    前記音声信号中の前記第1のキーワードに後続する区間からユーザの要望を表す用語を検出し、
    前記検出された前記ユーザの要望を表す用語に応じて前記後続する区間に適用される音声認識処理の種別を判定する、
    ことを含む音声認識方法。
JP2017032063A 2017-02-23 2017-02-23 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 Active JP6812843B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017032063A JP6812843B2 (ja) 2017-02-23 2017-02-23 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US15/889,406 US10885909B2 (en) 2017-02-23 2018-02-06 Determining a type of speech recognition processing according to a request from a user

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017032063A JP6812843B2 (ja) 2017-02-23 2017-02-23 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2018136493A true JP2018136493A (ja) 2018-08-30
JP6812843B2 JP6812843B2 (ja) 2021-01-13

Family

ID=63167982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017032063A Active JP6812843B2 (ja) 2017-02-23 2017-02-23 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法

Country Status (2)

Country Link
US (1) US10885909B2 (ja)
JP (1) JP6812843B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020173441A (ja) * 2019-04-05 2020-10-22 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び装置
CN111816164A (zh) * 2019-04-05 2020-10-23 三星电子株式会社 用于语音识别的方法及设备
WO2021002493A1 (ko) * 2019-07-01 2021-01-07 엘지전자 주식회사 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device
US20190295541A1 (en) * 2018-03-23 2019-09-26 Polycom, Inc. Modifying spoken commands
KR20200034430A (ko) * 2018-09-21 2020-03-31 삼성전자주식회사 전자 장치, 시스템 및 음성 인식 서비스 이용 방법
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
CN111191042A (zh) * 2019-12-10 2020-05-22 同济大学 一种基于知识图谱路径语义关系的搜索准确性评价方法
CN111933125B (zh) * 2020-09-15 2021-02-02 深圳市友杰智新科技有限公司 联合模型的语音识别方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置
JP2014109897A (ja) * 2012-11-30 2014-06-12 Toshiba Corp 情報処理装置およびコンテンツ検索方法
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4896358A (en) * 1987-03-17 1990-01-23 Itt Corporation Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
EP1083545A3 (en) * 1999-09-09 2001-09-26 Xanavi Informatics Corporation Voice recognition of proper names in a navigation apparatus
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US7742922B2 (en) * 2006-11-09 2010-06-22 Goller Michael D Speech interface for search engines
US8452597B2 (en) * 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
US20140278404A1 (en) * 2013-03-15 2014-09-18 Parlant Technology, Inc. Audio merge tags
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
JP2016095383A (ja) 2014-11-14 2016-05-26 株式会社ATR−Trek 音声認識クライアント装置及びサーバ型音声認識装置
JP6281513B2 (ja) 2015-03-25 2018-02-21 ブラザー工業株式会社 音声データ生成装置、音声データ生成方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置
JP2014109897A (ja) * 2012-11-30 2014-06-12 Toshiba Corp 情報処理装置およびコンテンツ検索方法
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020173441A (ja) * 2019-04-05 2020-10-22 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び装置
CN111816164A (zh) * 2019-04-05 2020-10-23 三星电子株式会社 用于语音识别的方法及设备
US11501761B2 (en) 2019-04-05 2022-11-15 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
JP7291099B2 (ja) 2019-04-05 2023-06-14 三星電子株式会社 音声認識方法及び装置
WO2021002493A1 (ko) * 2019-07-01 2021-01-07 엘지전자 주식회사 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템
US11605378B2 (en) 2019-07-01 2023-03-14 Lg Electronics Inc. Intelligent gateway device and system including the same

Also Published As

Publication number Publication date
US10885909B2 (en) 2021-01-05
JP6812843B2 (ja) 2021-01-13
US20180240460A1 (en) 2018-08-23

Similar Documents

Publication Publication Date Title
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US11594215B2 (en) Contextual voice user interface
US11138977B1 (en) Determining device groups
US10643609B1 (en) Selecting speech inputs
EP3114679B1 (en) Predicting pronunciation in speech recognition
US9466289B2 (en) Keyword detection with international phonetic alphabet by foreground model and background model
JP2019507362A (ja) 外部データソースを用いた音声の再認識
US20190392839A1 (en) System for creating speaker model, recognition system, computer program product, and controller
JP6699748B2 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
US20210050003A1 (en) Custom Wake Phrase Training
US10679621B1 (en) Speech processing optimizations based on microphone array
JP5888356B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP2019101385A (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US12032611B1 (en) Responding with unresponsive content
US20240071385A1 (en) Speech-processing system
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US11044567B1 (en) Microphone degradation detection and compensation
US20190266997A1 (en) Word detection system, word detection method, and storage medium
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
CN117223052A (zh) 基于神经网络的关键词检出方法
US11176930B1 (en) Storing audio commands for time-delayed execution
JP2015121760A (ja) 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム
US11978431B1 (en) Synthetic speech processing by representing text by phonemes exhibiting predicted volume and pitch using neural networks
US12051403B2 (en) Server supported recognition of wake phrases

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201130

R150 Certificate of patent or registration of utility model

Ref document number: 6812843

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150