JP2017016131A - 音声認識装置及び方法と電子装置 - Google Patents

音声認識装置及び方法と電子装置 Download PDF

Info

Publication number
JP2017016131A
JP2017016131A JP2016128918A JP2016128918A JP2017016131A JP 2017016131 A JP2017016131 A JP 2017016131A JP 2016128918 A JP2016128918 A JP 2016128918A JP 2016128918 A JP2016128918 A JP 2016128918A JP 2017016131 A JP2017016131 A JP 2017016131A
Authority
JP
Japan
Prior art keywords
probability
speech
phoneme
sequence
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016128918A
Other languages
English (en)
Other versions
JP6637848B2 (ja
Inventor
尚 賢 柳
Sang Hyun Yoo
尚 賢 柳
喜 烈 崔
Hee Youl Choi
喜 烈 崔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2017016131A publication Critical patent/JP2017016131A/ja
Application granted granted Critical
Publication of JP6637848B2 publication Critical patent/JP6637848B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 音声認識装置及び方法と電子装置とを提供する。【解決手段】 一例による音声認識装置は、音響モデルを用いて音声信号の音素確率を計算する確率計算部と、認識対象リストから候補セットを抽出する候補セット抽出部と、計算された音素確率及び抽出された候補セットに基づいて音声信号の認識結果を返還する結果返還部と、を含む。【選択図】 図1

Description

本発明は、音声認識技術に関する。
音声認識システムが、TV、セットトップボックス、家電機器、及び他の装置に搭載される場合、音声認識システムのためのコンピューティング資源が十分ではないという問題点がある。しかし、このような問題点は、限定された個数の命令語に対する音声認識が行われる組み込み環境では、大きく問題にならない。一方、一般的な音声認識環境では、人が使えるあらゆる単語及びその組合わせを認識するために、デコーダが多くのコンピューティング資源を使う。対照的に、組み込み環境では、ただ数個から数千個の与えられた単語のみを認識すれば良い。
一般的な音声認識システムの場合、音響モデルが音声信号から発音確率(phonetic probability)を獲得すれば、HMM(Hidden Markov Model)デコーダが、このような確率を組み合わせ、確率を単語のシーケンスに変換する。しかし、HMMデコーダは、多くのコンピューティング資源及び演算を必要とし、HMMデコーダで使われるビタビ復号方法は、多量の情報損失を起こしうる。
本発明が解決しようとする課題は、音声認識装置及び方法と電子装置とを提供するところにある。
要約に記載の内容は、本明細書に記載の内容を簡単に紹介するために提供される。このような要約の内容が、請求された構成の核心特徴または必須的な特徴を識別するか、請求項の請求範囲を限定させるためのものではない。
一態様によれば、音声認識装置は、音響モデルを用いて音声信号の音素確率を計算する確率計算部と、対象シーケンスの認識対象リストから候補セットを抽出する候補セット抽出部と、計算された音素確率及び抽出された候補セットに基づいて音声信号の認識結果を返還する結果返還部と、を含む。
音響モデルは、CTC(Connectionist Temporal Classification)を含む学習アルゴリズムを用いて学習されうる。
結果返還部は、計算された音素確率に基づいて候補セットに含まれた各対象シーケンスの生成確率を計算し、対象シーケンスの生成確率のうちから最も高い確率を有する候補対象シーケンスを認識結果として返還することができる。
音声認識装置は、計算された音素確率に基づいて音素シーケンスを獲得するシーケンス獲得部をさらに含みうる。
候補セット抽出部は、獲得された音素シーケンスと認識対象リストに含まれた各対象シーケンスとの間の類似度を計算し、該計算された類似度に基づいて候補セットを抽出することができる。
候補セット抽出部は、編集距離アルゴリズムを含む類似度アルゴリズムを用いて類似度を計算することができる。
シーケンス獲得部は、最適経路解釈及び先行検索解釈アルゴリズムを含む解釈技法のうちの1つを用いて計算された音素確率に基づいて音素シーケンスを獲得することができる。
他の態様によれば、音声認識方法は、音響モデルを用いて音声信号の音素確率を計算する確率計算段階と、対象シーケンスの認識対象リストから候補セットを抽出する候補セット抽出段階と、計算された音素確率及び抽出された候補セットに基づいて音声信号の認識結果を返還する結果返還段階と、を含む。
音響モデルは、CTCを含む学習アルゴリズムを用いて学習されうる。
結果返還段階は、計算された音素確率に基づいて候補セットに含まれた各対象シーケンスを生成する確率を計算し、対象シーケンスを生成する確率のうちから最も高い確率を含む候補対象シーケンスを認識結果として返還することができる。
音声認識方法は、計算された音素確率に基づいて音素シーケンスを獲得するシーケンス獲得段階をさらに含みうる。
候補セット抽出段階は、獲得された音素シーケンスと認識対象リストに含まれた各対象シーケンスとの間の類似度を計算し、該計算された類似度に基づいて候補セットを抽出することができる。
候補セット抽出段階は、編集距離アルゴリズムを含む類似度アルゴリズムを用いて類似度を計算することができる。
シーケンス獲得段階は、最適経路解釈及び先行検索解釈アルゴリズムを含む解釈技法のうちの1つを用いて計算された音素確率に基づいて音素シーケンスを獲得することができる。
他の態様によれば、電子装置は、ユーザの音声信号を受信する音声受信部と、音響モデルを用いて受信された音声信号の音素確率を計算し、該計算された音素確率に基づいて認識対象リストに含まれた対象シーケンスのうちの何れか1つを認識結果として返還する音声認識部と、返還された認識結果に基づいて所定の演算を行う処理部と、を含みうる。
音声認識部は、認識対象リストから候補セットを抽出し、計算された音素別の確率に基づいて候補セットに含まれた各候補対象シーケンスを生成する確率を計算し、対象シーケンスを生成する確率のうちから最も高い確率を含む候補対象シーケンスを認識結果として返還することができる。
音声認識部は、音素確率を解釈して音素シーケンスを獲得し、該獲得された音素シーケンスと認識対象リストに含まれた各対象シーケンスとの間の類似度に基づいて候補セットを抽出することができる。
処理部は、認識結果をスピーカーを通じて音声信号として出力するか、ディスプレイによってテキスト形式で出力することができる。
処理部は、認識結果を他の言語に翻訳し、翻訳結果をスピーカーを通じて音声信号として出力するか、ディスプレイによってテキスト形式で出力することができる。
処理部は、認識結果によって、電源オン/オフ命令語、ボリューム調節命令語、チャネル変更命令語、及び目的地検索命令語のうちの1つ以上を含む命令語を処理することができる。
他の態様によれば、音声認識方法は、音声信号の一部が音声単位に対応する確率を計算する段階と、音声単位のシーケンスリストから音声単位の候補シーケンスセットを獲得する段階と、確率に基づいて音声信号に対応する音声単位の候補シーケンスのうち何れか1つを認識する段階と、を含みうる。
確率計算段階は、音響モデルを用いて確率を計算することができる。
音声単位は、音素(phoneme)であり得る。
音声単位の候補シーケンスは、文章(phrase)であり得る。
文章は、電子装置を制御する命令語であり得る。
音声単位の候補シーケンスのうち何れか1つを認識する段階は、音声信号の一部が音声単位に対応する確率に基づいて音声単位の各候補シーケンスを生成する確率を計算する段階と、音声信号に対応する音声単位の各候補シーケンスを生成する確率のうちから最も高い確率を有する音声単位の候補シーケンスのうち何れか1つを認識する段階と、を含みうる。
発明の他の特徴及び態様は、下記に記載の説明、図面、及び請求項によって開示される。
音声認識装置の一実施形態を示すブロック図である。 音声認識装置の他の実施形態を示すブロック図である。 音声認識方法の一実施形態を示すフローチャートである。 音声認識方法の他の実施形態を示すフローチャートである。 電子装置の一実施形態を示すブロック図である。 電子装置での音声認識方法の一実施形態を示すフローチャートである。
図面及び関連説明で同じ図面識別番号は、同じ構成要素を示す。このような構成要素の相対的な大きさ、比率、及び描写は、明確性、図解、及び便宜のために誇張されうる。
本発明の方法、装置、及び/またはシステムの包括的な理解を助けるために、詳細な説明が下記のように開示される。しかし、下記で開示される方法、装置、及び/またはシステムを多様に変更または修正するか、均等なものに代替することは、当業者に自明である。本明細書に記載の動作の順序は、単に例示に過ぎず、このような記載に限定されず、当業者に明らかな如く、動作の例外が特定の順序で必須的に発生して、変更されうる。また、当業者の技術として知られた機能及び製造方法は、明確性及び簡潔性のために省略されうる。
本発明に記載の特徴は、記載の内容と異なる形態で構成され、下記で開示された例示に限定されて構成されねばならないものではない。
図1は、一実施形態による音声認識装置のブロック図である。図1を参照すれば、音声認識装置100は、確率計算部110、候補セット抽出部120、及び結果返還部130を含みうる。
確率計算部110は、音響モデルを用いて音声信号の音素別の確率を計算する。音素は、一言語で重要な音の最も小さな単位である。
一例によれば、音声信号は、特徴を抽出する前処理過程を通じて音声フレームに変換され、音響モデルに入力される。音響モデルは、各音声フレームを音素に分類し、各音素の確率を出力する。
GMM(Gaussian Mixture Model)、DNN(Deep Neural Network)、またはRNN(Recurrent Neural Network)を基盤とする一般的な音響モデルは、正答として出力される各フレームの音素確率を最大化する方式で学習がなされる。
しかし、組み込み環境で動作することができるHMMデコーダを構成することは難しいために、一例による音響モデルは、RNNとCTCとを用いて構築されうる。この場合、音響モデルは、CTC学習アルゴリズムのような多様な学習アルゴリズムを用いて、正答シーケンスを作り出すことができる音素のあらゆる組合わせに対して、各音声フレームの音素確率を最大化する方式で学習される。以下、説明の便宜上、CTC学習アルゴリズムを用いて学習された音響モデル、すなわち、CTCネットワーク基盤の音響モデルで説明する。
下記の(式1)は、一般的なGMM、DNN、またはRNN基盤の音響モデルを学習するためのアルゴリズムの例である。
(式1)
(式1)において、xは、入力音声信号を示し、yは、音響モデルを用いて音声フレームkに対して計算された音素別の確率を示し、zは、音声フレームkに対する正答を示す。
このように、一般的な音響モデルは、正答として出力された各音声フレームの音素確率が最大になる方式で学習される。
一方、下記の(式2)と(式3)は、本発明の例による音響モデルを学習させるためのアルゴリズムの例である。
(式2)
(式3)
(式2)及び(式3)において、
は、正答である音素シーケンス、すなわち、音素の連結を示し、πは、正答になりうる音素シーケンスのうちの何れか1つを示す。F(π)は、ニューラルネットワークの出力シーケンスπを音素シーケンスに変換する多対一関数である。例えば、ユーザが1秒間“apple”と発音すれば、0〜0.5秒までは/ae/発音を、0.5〜0.8秒までは/p/発音を、0.8〜1秒までは/l/発音され、これは、音素が反復される“ae ae ae ae…p p p p…l l l l”のフレーム単位(一般的には、0.01秒)の出力シーケンスπに提供されうる。F(π)は、出力シーケンスπにから反復される音素を除去し、出力シーケンスπを音素シーケンス/ae p l/にマッピングする関数である。
音響モデル学習は、音響モデルを用いて計算される音声フレームtに対する音素確率yを用いて(式2)によって計算された音素シーケンスπのうちの何れか1つが生成される確率(p(π|x))のような方式で行われ、(式2)によって計算された確率(p(π|x))を合わせる(式3)によって正答
を生成する確率が計算される。この場合、音響モデル学習は、逆伝播学習(back propagation learning)技法を用いて行われる。
候補セット抽出部120は、認識対象リスト140から候補セットを抽出する。認識対象リストは、音素シーケンスからなる複数の単語または文章を含む。認識対象リスト140は、音声認識装置100を含む多種の機器によってあらかじめ定義される。例えば、音声認識装置100が、TVに搭載されている場合、認識対象リスト140は、電源オン/オフ命令語、ボリューム調節命令語、チャネル変更命令語、及び実行しようとする特定プログラム名称のようなTVの動作のための多様な命令語を含む。
候補セット抽出部120は、候補セットを生成するためにユーザによって動作する機器によって、認識対象リスト140から1つ以上の対象シーケンスを抽出して候補セットを抽出する。
結果返還部130は、音響モデルを用いて計算された音素確率を用いて候補セットで各候補対象シーケンスを生成する確率を計算し、最も高い確率を含む候補対象シーケンスを認識結果として返還する。
結果返還部130は、音響モデルを学習するためのアルゴリズムである(式2)及び(式3)を適用して候補セットの各候補対象シーケンスの生成確率を計算する。
一例によれば、正答になりうる候補対象シーケンスは既に分かっているので、音響モデルを通じて計算された音素別の確率を用いて、候補対象シーケンスを生成する確率を計算することが可能である。すなわち、CTCのような一般的な解釈アルゴリズムを用いて音素確率を解釈する必要がないために、解釈処理過程で発生する情報の損失を最小化することができる。一方、一般的な音声認識環境では、正答になりうる候補対象シーケンスが知られていないので、(式1)を用いる解釈処理過程を行うことが必須であり、これにより、音声認識処理過程で情報の損失が発生しうる。
図2は、他の実施形態による音声認識装置のブロック図である。図2を参照すれば、他の実施形態の音声認識装置200は、確率計算部210、シーケンス獲得部220、候補セット抽出部230、及び結果返還部240を含みうる。
確率計算部210は、音響モデルを用いて音声信号の音素別の確率を計算する。前述したように、音響モデルは、RNN及びCTC学習アルゴリズムを用いて、正答シーケンスを作り出すことができる音素のあらゆる組合わせと関連して、各音声フレームに対する音素の確率を最大化させる方式で学習される。
シーケンス獲得部220は、確率計算部210によって計算された音素別の確率に基づいて音素の連結である音素シーケンスを獲得する。この場合、シーケンス獲得部220は、最適経路解釈(best path decoding)アルゴリズム、先行経路解釈(prefix path decoding)アルゴリズムのような解釈アルゴリズムを用いて計算された音素の確率を解釈することによって、1つ以上の音素シーケンスを獲得する。但し、解釈アルゴリズムは、このような例示によって限定されるものではない。
候補セット抽出部230は、音素シーケンスに基づいて認識対象リスト250から1つ以上の候補対象シーケンスを抽出して候補セットを生成する。前述したように、認識対象リスト250は、前述したように音声認識装置200を含む電子装置の種類によって既定の単語/文章/命令語のような対象シーケンスを含む。また、認識対象リスト250は、対象シーケンスの利用順位と関連した情報(すなわち、利用頻度、利用確率など)をさらに含みうる。
一例によれば、候補セット抽出部230は、認識対象リスト250に含まれた対象シーケンスの個数によって対象シーケンスの全部または一部を候補セットとして抽出する。この場合、対象シーケンスの利用順位と関連した情報に基づいて任意の個数を候補セットとして抽出する。
他の例によれば、候補セット抽出部230は、シーケンス獲得部220によって獲得された1つ以上の音素シーケンスを認識対象リスト250に含まれた各対象シーケンスと比較して、類似度を計算し、類似度に基づいて特定個数の音素シーケンスを候補対象シーケンスとして抽出する。一例によれば、候補セット抽出部230は、編集距離(Edit Distance)アルゴリズムを含んだ類似度計算アルゴリズムを用いて音素シーケンスと対象シーケンスとの間の類似度を計算し、特定個数の音素シーケンス(例:上位20個のシーケンス)を候補対象シーケンスとして類似度順に抽出する。
このような方式で、類似度アルゴリズムを用いて候補セットに含まれる候補対象シーケンスの個数を調節することによって、結果返還部240は、各候補対象シーケンスの生成確率計算時間を減らし、これにより、最終認識結果を迅速に返還することができる。
結果返還部240は、音響モデルを通じて計算された音素別の確率を用いて、候補セットに含まれている少なくとも1つの候補対象シーケンスを音声信号に対する認識結果として返還する。
一例によれば、結果返還部240は、編集距離アルゴリズムを含んだ類似度計算アルゴリズムを用いて獲得された1つ以上の音素シーケンスと候補セットの各候補対象シーケンスとの間の類似度を計算し、類似度が最も高い候補対象シーケンスを認識結果として返還する。
他の例によれば、結果返還部240は、確率計算部210によって計算された音素確率を(式2)及び(式3)のような確率計算アルゴリズムに適用して、候補セットで各候補対象シーケンスの生成確率を計算し、最も高い確率を有する候補対象シーケンスを最終認識結果として返還する。
図3は、一実施形態による音声認識方法のフローチャートである。図3は、図1に示された音声認識装置によって行われる音声認識方法の一実施形態である。
図3を参照すれば、音声認識装置100は、音響モデルを用いて音声信号の音素別の確率を計算する(310)。この場合、音声信号は、前処理過程を通じて音声フレームに変換されて音響モデルに入力される。音響モデルは、各音声フレームを音素に分類し、各音素の確率を出力する。前述したように、音響モデルは、RNNとCTCとを結合して学習される。音響モデルは、前述した(式2)及び(式3)のアルゴリズムを用いて学習される。
次いで、音声認識装置100は、認識対象リストから1つ以上の候補対象シーケンスを含む候補セットを抽出する(320)。認識対象リストは、多様な機器によってあらかじめ定義される単語または文章のような対象シーケンスを含む。例えば、TVの場合、対象シーケンスは、電源オン/オフ命令語、ボリューム調節命令語、及びチャネル変更命令語のようなTVを制御するための命令語を含みうる。また、ナビゲーションの場合、対象シーケンスは、電源オン/オフ命令語、ボリューム調節命令語、及び目的地検索命令語のようなナビゲーション装置を制御するための命令語を含みうる。そして、対象シーケンスは、自動車に搭載された多様な電子装置を制御するための命令を含みうる。但し、対象シーケンスは、このような例示に限定されるものではなく、ユーザによって制御され、音声認識技術を含む如何なる装置にも適用可能である。
そして、音声認識装置100は、計算された音素確率と抽出された候補セットに基づいて候補対象シーケンスを入力音声信号の認識結果として返還する(330)。この際、一例によれば、音響モデルと前述した(式2)及び(式3)のアルゴリズムを通じて計算された音素別の確率に基づいて、各候補対象シーケンスを生成する確率を計算することができる。また、確率が最も高い候補対象シーケンスを最終認識結果として返還する。
図4は、他の実施形態による音声認識方法のフローチャートである。図4を参照すれば、音声認識装置200は、音響モデルを用いて音声信号の音素確率を計算する(410)。音響モデルは、多様な学習アルゴリズム、例えば、CTC学習アルゴリズムを用いて正答である音素シーケンスが生成される可能性がある音素のあらゆる組合わせに対して、各音声フレームに対する音素確率が最大になる方式で学習される。
次いで、音声認識装置200は、計算された音素確率に基づいて音素の連結である音素シーケンスを獲得する(420)。例えば、最適経路解釈アルゴリズムまたは先行経路解釈アルゴリズムのような解釈アルゴリズムを用いて1つ以上の音素シーケンスを獲得する。
次いで、音声認識装置200は、音素シーケンスに基づいて認識対象リストから1つ以上の候補対象シーケンスを抽出して候補セットを生成する(430)。認識対象リストは、音声認識技術を含む電子装置の種類によってあらかじめ定義される。この場合、認識対象リストは、各対象シーケンスの利用順位と関連した情報(例えば、利用頻度、利用確率など)をさらに含む。
一例によれば、音声認識装置200は、認識対象リストに含まれた対象シーケンスの総個数によって、その全部または一部の対象シーケンスを候補セットとして抽出する。対象シーケンスの利用順位と関連した情報が存在する場合、その情報に基づいて既定の個数の対象シーケンスを候補セットとして抽出することが可能である。
他の例によれば、音声認識装置200は、シーケンス獲得部220によって獲得された1つ以上の音素シーケンスを認識対象リストに含まれた各対象シーケンスと比較して、類似度を計算し、該計算された類似度に基づいて特定個数の音素シーケンスを候補対象シーケンスとして抽出する。例えば、音声認識装置200は、編集距離アルゴリズムを含んだ類似度計算アルゴリズムを用いて音素シーケンスと対象シーケンスとの間の類似度を計算し、特定個数の音素シーケンス(例:上位20個のシーケンス)を候補対象シーケンスとして類似度順に抽出する。
次いで、音声認識装置200は、音響モデルと候補セットを用いて音素確率に基づいて音声信号の認識結果を返還する(440)。
一例によれば、音声認識装置200は、編集距離アルゴリズムを含んだ類似度計算アルゴリズムを用いて、1つ以上の獲得された音素シーケンスと候補セットに含まれている各候補対象シーケンスとの間の類似度を計算し、最も高い類似度を有する候補対象シーケンスを認識結果として返還する。
他の例によれば、音声認識装置200は、計算された音素別の確率を、前述した(式2)及び(式3)のような確率計算アルゴリズムによって、候補セットに含まれている各候補対象シーケンスを生成する確率を計算し、最も高い確率を有する候補対象シーケンスを最終認識結果として返還する。
図5は、電子装置の一実施形態を示すブロック図である。
本実施形態による電子装置500は、一実施形態による音声認識装置100または200を搭載する。電子装置500は、TVセット、セットトップボックス、デスクトップコンピュータ、ノート型パソコン、電子翻訳機、スマートフォン、タブレットPC、自動車の電子制御装置、またはユーザによって制御され、ユーザの多様な命令語を処理する音声認識技術が搭載された所定の装置であり得る。しかし、電子装置500は、このような例示に限定されるものではなく、ユーザによって制御され、音声認識技術を含む所定の電子機器であり得る。
図5を参照すれば、電子装置500は、音声受信部510、音声認識部520、及び処理部530を含む。音声認識部520は、図1の音声認識装置100または図2の音声認識装置200をハードウェア形態で製作して電子装置500に具現したものである。
音声受信部510は、電子装置500のマイクロホンを通じて入力されるユーザの音声信号を受信する。図5に示したように、ユーザの音声信号は、他の言語への翻訳のための文章や、TVセットを制御するか、自動車を操縦するための命令語、またはユーザによって制御される所定の他の装置であり得る。
一例によれば、音声受信部510は、ユーザによるアナログ音声信号入力をデジタル信号に変換し、該変換された信号を多数の音声フレームに分ける前処理過程を行い、音声フレームを音声認識部520に伝達する。
音声認識部520は、音声信号、例えば、音声フレームを音響モデルに入力し、各音声フレームに対する音素別の確率を計算する。音声フレームに対して音素別の確率が計算されれば、音声認識部520は、計算された音素別の確率を用いて認識対象リストから候補セットを抽出し、計算された音素別の確率と抽出された候補セットを用いて最終認識結果を返還する。音響モデルは、RNNまたはDNNに基づくネットワークであって、CTC学習アルゴリズムを用いて正答シーケンスを生成することができるあらゆる音素の組合わせに対して、音声フレームに対する音素確率を最大になる方式で学習される。
認識対象リストは、音声認識技術を搭載した電子装置500の種類や活用目的によってあらかじめ定義される。例えば、電子装置500が、TVセットに搭載された場合には、TVにおいて、よく使われる電源オン/オフ命令語、ボリューム調節命令語、及びチャネル変更命令語のような多様な単語または命令語が認識対象リスト内に定義される。また、電子装置500が、自動車に搭載されたナビゲーションである場合、ナビゲーション装置の制御に使われる電源オン/オフ命令語、ボリューム調節命令語、及び目的地検索命令語のような多様な命令語が認識対象リストに定義される。
一方、音声認識部520は、音声認識のための一般的な解釈アルゴリズム(例えば、CTC)を通じて音素確率に基づいて音素シーケンスを獲得し、該獲得された音素シーケンスと認識対象リストとを比較して、候補セットを抽出する。この場合、編集距離アルゴリズムのような類似度計算アルゴリズムを用いて獲得された音素シーケンスと認識対象リストに含まれた各対象シーケンスとの間の類似度を計算し、該計算された類似度の順次に特定個数の音素シーケンスを抽出して候補セットを候補対象シーケンスとして生成する。
音声認識部520は、計算された音素確率を用いて抽出された候補セットで1つの候補対象シーケンスを最終認識結果として返還し、この場合、候補セットで、各候補対象シーケンスの確率の間で最も大きな確率を有する候補対象シーケンスを最終認識結果として返還する。一例によれば、音声認識部520は、最終認識結果をテキスト形式で出力する。
処理部530は、最終認識結果に対応する動作を行う。例えば、処理部530は、ユーザの音声認識結果をスピーカーを通じて音声信号として出力するか、音声認識結果をディスプレイを通じてテキスト形式で提供する。または、TVセット、セットトップボックス、家電機器、自動車の電子制御装置、またはユーザによって制御される所定の他の装置を制御するための処理命令語(例えば、電源オン/オフ命令語、ボリューム調節命令語など)を処理する動作を行う。
また、最終認識結果を他の言語に翻訳する場合、処理部530は、テキスト形式で出力された最終認識結果を他の言語に翻訳し、該翻訳された結果を音声またはテキスト形式で出力する。しかし、処理部530は、このような例示に限定されず、その他の多様な分野で活用されうる。
図6は、一実施形態による電子装置での音声認識方法のフローチャートを図示したものである。
電子装置500は、マイクロホン、または他の音声入力装置を通じて他の言語への翻訳のための文章や、TVまたは自動車走行の制御などのための命令語を含んだユーザの音声信号を受信する(610)。また、ユーザの音声信号が受信されれば、アナログ形態の音声信号をデジタル信号に変換し、デジタル信号を多数の音声フレームに分ける前処理過程を行う。
次いで、電子装置500は、あらかじめ保存された音響モデル及び既定の認識対象リストに基づいて、入力された音声信号に対する最終認識結果を返還する(620)。
例えば、電子装置500は、音声フレームを音声フレームの音素別の確率を計算するための音響モデルに入力する。また、音声フレームに対する音素別の確率が計算されれば、電子装置500は、計算された音素別の確率に基づいて認識対象リストから候補セットを抽出し、計算された音素確率と抽出された候補セットに基づいて最終認識結果を返還する。音響モデルは、RNNまたはDNN基盤のネットワークであって、CTC学習アルゴリズムを用いて学習される。認識対象リストは、音声認識技術が搭載された電子装置500の種類及び目的に基づいてあらかじめ定義される。
一例によれば、電子装置500は、計算された音素確率から音素シーケンスを獲得し、該獲得された音素シーケンスと認識対象リストとを比較して、候補セットを抽出する。この場合、編集距離アルゴリズムを含んだ類似度計算アルゴリズムを用いて、獲得された音素シーケンスと認識対象リストに含まれた各対象シーケンスとの間の類似度を計算し、特定個数の音素シーケンスを候補対象シーケンスとして類似度順に抽出することによって、候補セットを生成する。
電子装置500は、前述した(式2)及び(式3)を用いて、各候補対象シーケンスを生成する確率を計算し、最も高い確率を有する候補対象シーケンスを最終認識結果として返還し、この場合、電子装置500は、最終認識結果をテキスト形式で変換することができる。
次いで、電子装置500は、返還された最終認識結果に対応する動作を行う(630)。
例えば、電子装置500は、ユーザが入力した音声を認識した結果をスピーカー、ヘッドホン、または所定の他の音声出力装置を通じて音声信号として出力するか、ディスプレイにテキスト形式で提供することができる。また、電子装置500は、TV、セットトップボックス、家電機器、自動車の電子制御装置、及びユーザによって制御される所定の他の装置を制御するための処理命令語を処理するための動作を行うことができる。また、電子装置500は、テキスト形式で出力された最終認識結果を他の言語に翻訳し、該翻訳された結果を音声やテキスト形式で出力することができる。しかし、電子装置500は、このような例示に限定されず、その他の多様な分野で活用されうる。
図1ないし図6に関連した説明の動作を行う、図1の音声認識装置100、確率計算部110、候補セット抽出部120、及び結果返還部130と、図2の音声認識装置200、確率計算部210、シーケンス獲得部220、候補セット抽出部230、及び結果返還部240、及び図5の電子装置500、音声受信部510、音声認識部520、及び処理部530は、ハードウェア構成要素である。ハードウェア構成要素の一例として、制御装置、センサー、発電機、ドライバ、メモリ、比較器、算術論理装置(ALU)、加算器、減算器、マルチプライヤー、ディバイダー、積分器、及び当業者に知られた所定の他の電子構成要素を含む。ハードウェア構成要素は、例えば、シングルプロセッサ、独立プロセッサ、並列プロセッサ、単一命令単一データ(SISD)マルチプロセッシング、単一命令多重データ(SIMD)マルチプロセッシング、及び多重命令多重データ(MIMD)マルチプロセッシングを含む1つ以上の他の処理構成を含む。
図1ないし図6と関連した動作を行う方法が、図3、図4、及び図6に示されており、これは、コンピューティングハードウェアによって実行される。コンピューティングハードウェアは、例えば、前述したように、本発明の動作を実行するための命令語またはソフトウェアを実行する1つ以上のプロセッサまたはコンピュータであり得る。
本発明に開示されたハードウェア構成要素及び方法によって実行される動作を行うための、装置または特別な目的のコンピュータを動作させるための、プロセッサまたはコンピュータを個別的または選択的に命令するか、構成するために、ハードウェア構成要素を実行させ、本発明に記載の発明を行うためのプロセッサまたはコンピュータを制御するための命令語またはソフトウェアは、コンピュータプログラム、コードセグメント、命令語またはこれらの組合わせとして作成される。一例によれば、命令語またはソフトウェアは、コンパイラによって作られる機械語コードのように、プロセッサまたはコンピュータによって直接に実行される機械語コードを含む。他の例によれば、命令語またはソフトウェアは、インタプリタを用いるプロセッサまたはコンピュータによって実行される上位コードを含む。本発明は、ハードウェア構成要素及び本発明に記載の方法による動作を行うためのアルゴリズムを開示するブロック図及びフローチャートを図面で図示し、明細書で説明しており、当業者は、このようなブロック図及びフローチャートに基づいて命令語またはソフトウェアを容易に作成することができる。
ハードウェア構成要素及び本発明に開示された方法を行うためのプロセッサまたはコンピュータを制御するための命令語またはソフトウェアは、1つ以上の不揮発性コンピュータ可読記録媒体に記録または保存されるか、または固定される。不揮発性コンピュータ可読記録媒体の例として、読み出し専用記憶装置(ROM)、任意抽出記憶装置(RAM)、フラッシュメモリ、CD−ROM、CD−R、CD+R、CD−RW、CD+RW、DVD−ROM、DVD−R、DVD+R、DVD−RW、DVD+RW、DVD−RAM、BD−ROM、BD−R、BD−R LTH、BD−RE、磁気テープ、フロッピーディスク、光磁気データ保存装置、光データ保存装置、ハードディスク、半導体ディスク、及び命令語またはソフトウェア及び関連データ、データファイル、及び不揮発性方式のデータ構造を保存し、プロセッサまたはコンピュータが命令語を実行させるように命令語またはソフトウェア及び関連データ、データファイル、及び不揮発性方式のデータ構造をプロセッサまたはコンピュータに提供することができるものと当業者に知られた所定の他の装置を含む。一例によれば、命令語またはソフトウェア及び関連データ、データファイル、及びデータ構造は、命令語、ソフトウェア、及び所定の関連データ、データファイル、及びデータ構造がプロセッサまたはコンピュータによって分散された方式で保存、接続、及び実行されるように、ネットワークで連結されたコンピュータシステムに分散される。
本発明は、具体的な実施形態を開示しているが、これは、当業者によって形式及び細部事項が変更されうるということは自明である。本発明に開示された例示は、叙述するためのものに過ぎず、限定するためのものではない。各例示の特徴または態様についての説明は、他の例示の類似している特徴または態様に活用されうるものと考慮されなければならない。開示された技術が、他の順序で行われるか、システム、アーキテクチャー、デバイス、または回路に開示された構成要素が、他の構成要素または代替部品に置き換えられるか、補充される場合、適切な結果を得ることができる。したがって、本発明の範囲は、明細書の記載の内容に定義されるものではなく、請求項及びこれらと均等な範囲、及び請求項の範囲内でのあらゆる変化、及び明細書の記載に含まれていると理解される均等範囲によって定義される。
本発明は、音声認識装置及び方法と電子装置関連の技術分野に適用可能である。
100、200:音声認識装置
110、210:確率計算部
120、230:候補セット抽出部
130、240:結果返還部
140、250:認識対象リスト
220:シーケンス獲得部
500:電子装置
510:音声受信部
520:音声認識部
530:処理部

Claims (26)

  1. 音響モデルを用いて音声信号の音素確率を計算する確率計算部と、
    対象シーケンスの認識対象リストから候補セットを抽出する候補セット抽出部と、
    前記計算された音素確率に基づいて、前記抽出された候補セットから認識結果を返還する結果返還部と、
    を含む音声認識装置。
  2. 前記音響モデルは、CTCを含む学習アルゴリズムを用いて学習される請求項1に記載の音声認識装置。
  3. 前記結果返還部は、
    前記計算された音素確率に基づいて、前記候補セットに含まれた各候補対象シーケンスの生成確率を計算し、前記計算された生成確率が最も高い候補対象シーケンスを前記認識結果として返還する請求項1又は2に記載の音声認識装置。
  4. 前記計算された音素確率に基づいて音素シーケンスを獲得するシーケンス獲得部をさらに含む請求項1乃至3のいずれか一項に記載の音声認識装置。
  5. 前記候補セット抽出部は、
    前記獲得された音素シーケンスと前記認識対象リストの各対象シーケンスとの間の類似度を計算し、前記計算された類似度に基づいて前記候補セットを抽出する請求項4に記載の音声認識装置。
  6. 前記候補セット抽出部は、
    編集距離アルゴリズムを含む類似度アルゴリズムを用いて前記類似度を計算する請求項5に記載の音声認識装置。
  7. 前記シーケンス獲得部は、
    最適経路解釈アルゴリズムまたは先行経路解釈アルゴリズムを用いて、前記計算された音素確率に基づいて前記音素シーケンスを獲得する請求項4に記載の音声認識装置。
  8. 音響モデルを用いて音声信号の音素確率を計算する段階と、
    対象シーケンスの認識対象リストから候補セットを抽出する段階と、
    前記計算された音素確率に基づいて、前記抽出された候補セットから認識結果を返還する段階と、
    を含む音声認識方法。
  9. 前記音響モデルは、CTCを含む学習アルゴリズムを用いて学習される請求項8に記載の音声認識方法。
  10. 前記認識結果を返還する段階は、
    前記計算された音素確率に基づいて、前記候補セットに含まれた各候補対象シーケンスの生成確率を計算する段階を含み、前記計算された生成確率が最も高い候補対象シーケンスを前記認識結果として返還する請求項8又は9に記載の音声認識方法。
  11. 前記計算された音素確率に基づいて音素シーケンスを獲得する段階をさらに含む請求項8乃至10のいずれか一項に記載の音声認識方法。
  12. 前記候補セットを抽出する段階は、
    前記獲得された音素シーケンスと前記認識対象リストの各対象シーケンスとの間の類似度を計算する段階を含み、前記計算された類似度に基づいて前記候補セットを抽出する請求項11に記載の音声認識方法。
  13. 前記類似度を計算する段階は、
    編集距離アルゴリズムを含む類似度アルゴリズムを用いて前記類似度を計算する請求項12に記載の音声認識方法。
  14. 前記音素シーケンスを獲得する段階は、
    最適経路解釈アルゴリズムまたは先行経路解釈アルゴリズムを用いて、前記計算された音素確率に基づいて前記音素シーケンスを獲得する請求項11乃至13のいずれか一項に記載の音声認識方法。
  15. ユーザの音声信号を受信する音声受信部と、
    音響モデルを用いて前記受信された音声信号の音素確率を計算し、前記計算された音素確率に基づいて認識対象リストに含まれた対象シーケンスのうちの何れか1つを認識結果として返還する音声認識部と、
    前記返還された認識結果に基づいて所定の動作を行う処理部と、
    を含む電子装置。
  16. 前記音声認識部は、
    前記認識対象リストから候補セットを抽出し、前記計算された音素別の確率に基づいて、前記候補セットに含まれた各候補対象シーケンスの生成確率を計算し、前記計算された生成確率が最も大きな候補対象シーケンスを前記認識結果として返還する請求項15に記載の電子装置。
  17. 前記音声認識部は、
    前記音素確率を解釈して音素シーケンスを獲得し、前記獲得された音素シーケンスと前記認識対象リストの各対象シーケンスとの間の類似度に基づいて前記候補セットを抽出する請求項16に記載の電子装置。
  18. 前記処理部は、
    前記認識結果をスピーカーを通じて音声信号として出力するか、ディスプレイによってテキスト形式で出力する請求項15乃至17のいずれか一項に記載の電子装置。
  19. 前記処理部は、
    前記認識結果を他の言語に翻訳し、翻訳結果をスピーカーを通じて音声信号として出力するか、ディスプレイによってテキスト形式で出力する請求項15乃至18のいずれか一項に記載の電子装置。
  20. 前記処理部は、
    前記認識結果に対応する電源オン/オフ命令語、ボリューム調節命令語、チャネル変更命令語、及び目的地検索命令語のうちの1つ以上を含む命令語を処理する請求項15乃至19のいずれか一項に記載の電子装置。
  21. 音声信号の一部が音声単位に対応する確率を計算する段階と、
    音声単位のシーケンスリストから音声単位の候補シーケンスセットを獲得する段階と、
    前記確率に基づいて音声信号に対応する音声単位の候補シーケンスのうち何れか1つを認識する段階と、
    を含む音声認識方法。
  22. 前記確率を計算する段階は、音響モデルを用いて確率を計算する請求項21に記載の音声認識方法。
  23. 前記音声単位は、音素である請求項21又は22に記載の音声認識方法。
  24. 前記音声単位の候補シーケンスは、文章である請求項21乃至23のいずれか一項に記載の音声認識方法。
  25. 前記文章は、電子装置を制御する命令語である請求項24に記載の音声認識方法。
  26. 前記音声単位の候補シーケンスのうち何れか1つを認識する段階は、
    前記音声信号の一部が音声単位に対応する確率に基づいて音声単位の各候補シーケンスを生成する確率を計算する段階と、
    音声単位の候補シーケンスのうち、音声信号に対応する音声単位の各候補シーケンスを生成する確率のうちから最も高い確率を有する何れか1つを認識する段階と、
    を含む請求項21乃至25のいずれか一項に記載の音声認識方法。
JP2016128918A 2015-06-30 2016-06-29 音声認識装置及び方法と電子装置 Active JP6637848B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2015-0093653 2015-06-30
KR1020150093653A KR102371188B1 (ko) 2015-06-30 2015-06-30 음성 인식 장치 및 방법과 전자 장치

Publications (2)

Publication Number Publication Date
JP2017016131A true JP2017016131A (ja) 2017-01-19
JP6637848B2 JP6637848B2 (ja) 2020-01-29

Family

ID=56134254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016128918A Active JP6637848B2 (ja) 2015-06-30 2016-06-29 音声認識装置及び方法と電子装置

Country Status (5)

Country Link
US (2) US20170004824A1 (ja)
EP (1) EP3113176B1 (ja)
JP (1) JP6637848B2 (ja)
KR (1) KR102371188B1 (ja)
CN (1) CN106328127B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017213055A1 (ja) * 2016-06-09 2017-12-14 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
CN110503956A (zh) * 2019-09-17 2019-11-26 平安科技(深圳)有限公司 语音识别方法、装置、介质及电子设备
US10607602B2 (en) 2015-05-22 2020-03-31 National Institute Of Information And Communications Technology Speech recognition device and computer program

Families Citing this family (166)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US9972313B2 (en) 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) * 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043521B2 (en) * 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10679643B2 (en) * 2016-08-31 2020-06-09 Gregory Frederick Diamos Automatic audio captioning
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10229685B2 (en) * 2017-01-18 2019-03-12 International Business Machines Corporation Symbol sequence estimation in speech
CN106782513B (zh) * 2017-01-25 2019-08-23 上海交通大学 基于置信度的语音识别实现方法及***
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN109313892B (zh) * 2017-05-17 2023-02-21 北京嘀嘀无限科技发展有限公司 稳健的语言识别方法和***
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
KR102339716B1 (ko) * 2017-06-30 2021-12-14 삼성에스디에스 주식회사 음성 인식 방법 및 그 장치
DE102017216571B4 (de) 2017-09-19 2022-10-06 Volkswagen Aktiengesellschaft Kraftfahrzeug
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR102441066B1 (ko) * 2017-10-12 2022-09-06 현대자동차주식회사 차량의 음성생성 시스템 및 방법
CN107729321A (zh) * 2017-10-23 2018-02-23 上海百芝龙网络科技有限公司 一种语音识别结果纠错方法
CN109725936B (zh) * 2017-10-30 2022-08-26 上海寒武纪信息科技有限公司 扩展计算指令的实现方法以及相关产品
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10580432B2 (en) * 2018-02-28 2020-03-03 Microsoft Technology Licensing, Llc Speech recognition using connectionist temporal classification
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
CN108564941B (zh) 2018-03-22 2020-06-02 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
CN108766414B (zh) * 2018-06-29 2021-01-15 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质
CN109121057B (zh) * 2018-08-30 2020-11-06 北京聆通科技有限公司 一种智能助听的方法及其***
US20210098001A1 (en) 2018-09-13 2021-04-01 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
KR102651413B1 (ko) * 2018-10-17 2024-03-27 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR20200056001A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 인공신경망에서의 디코딩 방법 및 그 장치
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
CN111862961A (zh) * 2019-04-29 2020-10-30 京东数字科技控股有限公司 识别语音的方法和装置
CN111862943B (zh) * 2019-04-30 2023-07-25 北京地平线机器人技术研发有限公司 语音识别方法和装置、电子设备和存储介质
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110852324A (zh) * 2019-08-23 2020-02-28 上海撬动网络科技有限公司 一种基于深度神经网络集装箱箱号检测方法
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR102577589B1 (ko) * 2019-10-22 2023-09-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR20210060897A (ko) * 2019-11-19 2021-05-27 삼성전자주식회사 음성 처리 방법 및 장치
US11373639B2 (en) * 2019-12-12 2022-06-28 Mitsubishi Electric Research Laboratories, Inc. System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique
CN111090630A (zh) * 2019-12-16 2020-05-01 中科宇图科技股份有限公司 基于多源空间点数据的数据融合处理方法
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111681661B (zh) * 2020-06-08 2023-08-08 北京有竹居网络技术有限公司 语音识别的方法、装置、电子设备和计算机可读介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
TWI759003B (zh) * 2020-12-10 2022-03-21 國立成功大學 語音辨識模型的訓練方法
CN112735394B (zh) * 2020-12-16 2022-12-30 青岛海尔科技有限公司 一种语音的语义解析方法及装置
CN112837401B (zh) * 2021-01-27 2024-04-09 网易(杭州)网络有限公司 一种信息处理方法、装置、计算机设备及存储介质
CN113488029B (zh) * 2021-06-23 2024-06-11 中科极限元(杭州)智能科技股份有限公司 基于参数共享非自回归语音识别训练解码方法及***
US11682413B2 (en) * 2021-10-28 2023-06-20 Lenovo (Singapore) Pte. Ltd Method and system to modify speech impaired messages utilizing neural network audio filters
CN113889083B (zh) * 2021-11-03 2022-12-02 广州博冠信息科技有限公司 语音识别方法及装置、存储介质、电子设备
CN114783419B (zh) * 2022-06-21 2022-09-27 深圳市友杰智新科技有限公司 结合先验知识的文本识别方法、装置、计算机设备
CN117524263A (zh) * 2022-07-26 2024-02-06 北京三星通信技术研究有限公司 数据处理方法、设备唤醒方法、电子设备及存储介质
CN115329785B (zh) * 2022-10-15 2023-01-20 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
CN116580701B (zh) * 2023-05-19 2023-11-24 国网物资有限公司 告警音频识别方法、装置、电子设备和计算机介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62118398A (ja) * 1985-11-19 1987-05-29 松下電器産業株式会社 単語認識装置
JP2000029486A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法
JP2003263188A (ja) * 2002-01-29 2003-09-19 Samsung Electronics Co Ltd 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体
JP2006040150A (ja) * 2004-07-29 2006-02-09 Mitsubishi Electric Corp 音声データ検索装置
WO2008114448A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法
JP2013109061A (ja) * 2011-11-18 2013-06-06 Hitachi Ltd 音声データ検索システムおよびそのためのプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3741156B2 (ja) * 1995-04-07 2006-02-01 ソニー株式会社 音声認識装置および音声認識方法並びに音声翻訳装置
US7219123B1 (en) * 1999-10-08 2007-05-15 At Road, Inc. Portable browser device with adaptive personalization capability
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
KR20090065102A (ko) * 2007-12-17 2009-06-22 한국전자통신연구원 어휘 디코딩 방법 및 장치
US9361879B2 (en) * 2009-02-24 2016-06-07 Nexidia Inc. Word spotting false alarm phrases
US9595257B2 (en) * 2009-09-28 2017-03-14 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
US8682678B2 (en) * 2012-03-14 2014-03-25 International Business Machines Corporation Automatic realtime speech impairment correction
KR20140028174A (ko) * 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
CN103854643B (zh) * 2012-11-29 2017-03-01 株式会社东芝 用于合成语音的方法和装置
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
US20150228277A1 (en) * 2014-02-11 2015-08-13 Malaspina Labs (Barbados), Inc. Voiced Sound Pattern Detection
JP6011565B2 (ja) * 2014-03-05 2016-10-19 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
US9728185B2 (en) * 2014-05-22 2017-08-08 Google Inc. Recognizing speech using neural networks
US9953633B2 (en) * 2014-07-27 2018-04-24 Malaspina Labs (Barbados), Inc. Speaker dependent voiced sound pattern template mapping
KR101594835B1 (ko) * 2014-11-05 2016-02-17 현대자동차주식회사 음성인식 기능을 갖는 차량 및 헤드유닛과 이를 위한 음성 인식방법
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US9805717B2 (en) * 2015-03-06 2017-10-31 Dell Products Lp Voice-based input using natural language processing for interfacing with one or more devices
US10127904B2 (en) * 2015-05-26 2018-11-13 Google Llc Learning pronunciations from acoustic sequences
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
EP4014230A1 (en) * 2019-12-17 2022-06-22 Google LLC Machine learning for interpretation of subvocalizations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62118398A (ja) * 1985-11-19 1987-05-29 松下電器産業株式会社 単語認識装置
JP2000029486A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法
JP2003263188A (ja) * 2002-01-29 2003-09-19 Samsung Electronics Co Ltd 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体
JP2006040150A (ja) * 2004-07-29 2006-02-09 Mitsubishi Electric Corp 音声データ検索装置
WO2008114448A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法
JP2013109061A (ja) * 2011-11-18 2013-06-06 Hitachi Ltd 音声データ検索システムおよびそのためのプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
久保 陽太郎 YOTARO KUBO: "「Deep Learning(深層学習)」〔第5回〕", 人工知能 第29巻 第1号 JOURNAL OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 第29巻, JPN6019009105, 1 January 2014 (2014-01-01), JP, pages 62 - 71, ISSN: 0003998423 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10607602B2 (en) 2015-05-22 2020-03-31 National Institute Of Information And Communications Technology Speech recognition device and computer program
WO2017213055A1 (ja) * 2016-06-09 2017-12-14 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US10909976B2 (en) 2016-06-09 2021-02-02 National Institute Of Information And Communications Technology Speech recognition device and computer program
CN110503956A (zh) * 2019-09-17 2019-11-26 平安科技(深圳)有限公司 语音识别方法、装置、介质及电子设备
WO2021051564A1 (zh) * 2019-09-17 2021-03-25 平安科技(深圳)有限公司 语音识别方法、装置、计算设备和存储介质
CN110503956B (zh) * 2019-09-17 2023-05-12 平安科技(深圳)有限公司 语音识别方法、装置、介质及电子设备

Also Published As

Publication number Publication date
EP3113176A1 (en) 2017-01-04
EP3113176B1 (en) 2019-04-03
CN106328127A (zh) 2017-01-11
US20170004824A1 (en) 2017-01-05
KR20170003246A (ko) 2017-01-09
JP6637848B2 (ja) 2020-01-29
KR102371188B1 (ko) 2022-03-04
CN106328127B (zh) 2021-12-28
US20210272551A1 (en) 2021-09-02

Similar Documents

Publication Publication Date Title
JP6637848B2 (ja) 音声認識装置及び方法と電子装置
CN106469552B (zh) 语音识别设备和方法
CN107590135B (zh) 自动翻译方法、设备和***
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN106688034B (zh) 具有情感内容的文字至语音转换
CN105679317B (zh) 用于训练语言模型并识别语音的方法和设备
US10714077B2 (en) Apparatus and method of acoustic score calculation and speech recognition using deep neural networks
US11282500B2 (en) Generating and training new wake words
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US20180130463A1 (en) Voice recognition apparatus and method
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
JP2017032839A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US20230368796A1 (en) Speech processing
EP3979240A1 (en) Signal extraction system, signal extraction learning method, and signal extraction learning program
US20240013784A1 (en) Speaker recognition adaptation
US11158308B1 (en) Configuring natural language system
US11775617B1 (en) Class-agnostic object detection
US8751236B1 (en) Devices and methods for speech unit reduction in text-to-speech synthesis systems
US10599784B2 (en) Automated interpretation method and apparatus, and machine translation method
Lazaridis et al. DNN-based speech synthesis: Importance of input features and training data
US11250853B2 (en) Sarcasm-sensitive spoken dialog system
KR20160000218A (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
JP2015161927A (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP2020173441A (ja) 音声認識方法及び装置
KR102140438B1 (ko) 오디오 컨텐츠 및 텍스트 컨텐츠의 동기화 서비스를 위해 텍스트 데이터를 오디오 데이터에 매핑하는 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191223

R150 Certificate of patent or registration of utility model

Ref document number: 6637848

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250