JP7173758B2 - 個人化された音声認識方法及びこれを行うユーザ端末及びサーバ - Google Patents

個人化された音声認識方法及びこれを行うユーザ端末及びサーバ Download PDF

Info

Publication number
JP7173758B2
JP7173758B2 JP2018101565A JP2018101565A JP7173758B2 JP 7173758 B2 JP7173758 B2 JP 7173758B2 JP 2018101565 A JP2018101565 A JP 2018101565A JP 2018101565 A JP2018101565 A JP 2018101565A JP 7173758 B2 JP7173758 B2 JP 7173758B2
Authority
JP
Japan
Prior art keywords
user terminal
user
speech signal
target
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018101565A
Other languages
English (en)
Other versions
JP2019035941A (ja
Inventor
昊 潼 李
尚 賢 柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2019035941A publication Critical patent/JP2019035941A/ja
Application granted granted Critical
Publication of JP7173758B2 publication Critical patent/JP7173758B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Description

本発明は、個人化された音声認識方法及びこれを行うユーザ端末及びサーバに関する。
音声インタフェースは、タッチインタフェースよりも自然かつ直観的なインタフェースである。そのため、音声インタフェースは、タッチインタフェースの短所を補完できる次世代インタフェースとして注目を浴びている。音声インタフェースにおいて最も肝心なことは、音声認識技術の正確性である。そのため、音声認識技術の正確性を高めるための様々な方式が提案されることにより音声認識技術は次第に発展している。
本発明の目的は、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ターゲット音声信号の認識時に特性パラメータを音声認識モデルと共に利用することによって、個人化された音声認識を行うことにある。
本発明の他の目的は、音声モデルを直接的に変更することなく、ユーザに個人化された音声認識を容易に実現することにある。
一実施形態に係るユーザ端末で実行される認識方法は、ユーザから入力された基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定するステップと、ユーザから認識の対象となるターゲット音声信号が入力されるステップと、ターゲット音声信号の認識結果を出力するステップとを含み、ターゲット音声信号の認識結果は、特性パラメータ及び認識のためのモデルに基づいて決定される。
一実施形態に係る認識方法において、特性パラメータは、モデルに入力されるターゲット音声信号の特徴ベクトルに適用され、モデルから分類するためのクラス情報を含み得る。
一実施形態に係る認識方法において、特性パラメータは、ターゲット音声信号の特徴ベクトルを正規化するための正規化情報を含み、ターゲット音声信号の認識結果は、モデルに入力されるターゲット音声信号の特徴ベクトルを、正規化情報に基づいて正規化することによって決定され得る。
一実施形態に係る認識方法において、特性パラメータは、ユーザの音声的な特徴を示す識別情報を含み、ターゲット音声信号の認識結果は、モデルにターゲット音声信号の特徴ベクトルと共に識別情報を入力することにより決定され得る。
一実施形態に係る認識方法において、特性パラメータはモデルから分類するためのクラス情報を含み、ターゲット音声信号の認識結果は、モデルにおいてターゲット音声信号の特徴ベクトルから推定される値をクラス情報と比較することによって決定され得る。
一実施形態に係る認識方法において、特性パラメータを決定するステップは、基準音声信号がユーザ端末に入力されるときの環境情報に基づいて特性パラメータをタイプごとに決定し得る。
一実施形態に係る認識方法において、環境情報は、基準音声信号に含まれるノイズ情報と、ユーザ端末から基準音声信号を発話したユーザまでの距離情報とのうち少なくとも一方を含み得る。
一実施形態に係る認識方法において、ターゲット音声信号の認識結果は、基準音声信号が入力されるときの環境情報に基づいて、タイプごとに予め決定された特性パラメータのうちターゲット音声信号が入力されるときの環境情報に基づいて選択された特性パラメータを用いて決定され得る。
一実施形態に係る認識方法において、特性パラメータを決定するステップは、複数のユーザを基準として決定された基本パラメータに基準音声信号から取得した個人パラメータを反映することにより特性パラメータを決定し得る。
一実施形態に係る認識方法において、基準音声信号は、ターゲット音声信号がユーザ端末に入力される以前に、ユーザがユーザ端末を用いることでユーザ端末に入力された音声信号であり得る。
一実施形態に係る認識方法は、ターゲット音声信号と特性パラメータをサーバに送信するステップと、サーバからターゲット音声信号の認識結果を受信するステップとを更に含み、ターゲット音声信号の認識結果はサーバで生成され得る。
一実施形態に係る認識方法において、ターゲット音声信号の認識結果はユーザ端末で生成され得る。
一実施形態に係るユーザ端末に入力されたターゲット音声信号を認識するサーバの認識方法は、ユーザから入力された基準音声信号に基づいて決定されたユーザの音声に個人化された特性パラメータを、ユーザ端末から受信するステップと、認識の対象となるユーザのターゲット音声信号をユーザ端末から受信するステップと、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識するステップと、ターゲット音声信号の認識結果をユーザ端末に送信するステップとを含む。
一実施形態に係る認識方法において、特性パラメータは、ターゲット音声信号を正規化するための正規化情報、ユーザの音声的な特徴を示す識別情報、及びモデルから分類するためのクラス情報のうち少なくとも1つを含み得る。
一実施形態に係る認識方法において、特性パラメータは、基準音声信号がユーザ端末に入力されるときの環境情報に基づいて、タイプごとに予め決定された特性パラメータのうちターゲット音声信号がユーザ端末に入力されるときの環境情報に基づいて選択された特性パラメータであり得る。
一実施形態に係るユーザ端末は、プロセッサと、プロセッサによって実行可能な少なくとも1つの命令語を含むメモリとを含み、少なくとも1つの命令語がプロセッサで実行されると、プロセッサは、ユーザから入力された基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ユーザから認識の対象となるターゲット音声信号が入力され、ターゲット音声信号の認識結果を出力し、ターゲット音声信号の認識結果は、特性パラメータ及び認識のためのモデルに基づいて決定される。
一実施形態に係る音声認識方法は、個別ユーザの基準音声信号に基づいて個別ユーザの音声に個人化された特性パラメータを決定するステップと、複数のユーザに対して決定された基本音声認識モデルに特性パラメータを適用して個別ユーザに個人化された音声認識モデルを取得するステップと、個人化された音声認識モデルに個別ユーザのターゲット音声信号を適用してターゲット音声信号の認識結果を取得するステップとを含む。
一実施形態に係る音声認識方法は、基準音声信号から個別ユーザに対して決定された個人パラメータを取得するステップと、個人パラメータに第1加重値を適用して加重された個人パラメータを取得するステップと、複数のユーザに対して決定された基本パラメータに第2加重値を適用して加重された基本パラメータを取得するステップと、加重された個人パラメータを加重された基本パラメータに追加して特性パラメータを取得するステップとを更に含み得る。
一実施形態に係る音声認識方法において、基準音声信号及びターゲット音声信号は、個別ユーザによってユーザ端末に入力され、特性パラメータを決定するステップは、個別ユーザによって基準音声信号がユーザ端末から入力されるごとに特性パラメータを累積して決定し得る。
一実施形態に係る音声認識方法は、ユーザ端末において、個別ユーザによってユーザ端末に入力された基準音声信号に基づいたパラメータを決定するステップと、基準音声信号に基づいたパラメータ及び認識の対象となる個別ユーザのターゲット音声信号をユーザ端末からサーバに送信するステップと、ユーザ端末において、ターゲット音声信号の認識結果をサーバから受信するステップとを含み、ターゲット音声信号の認識結果は、基準音声信号に基づいたパラメータ及び複数のユーザに対して決定された基本音声認識モデルに基づいてサーバで決定される。
一実施形態に係る音声認識方法において、基準音声信号に基づいたパラメータを決定するステップは、基準音声信号から個別ユーザに対して決定された個人パラメータを取得し、送信するステップは、個人パラメータ及びターゲット音声信号をユーザ端末からサーバに送信し、基準音声信号に基づいたパラメータは、サーバで個人パラメータに第1加重値を適用して加重された個人パラメータを取得し、基本パラメータに第2加重値を適用して加重された基本パラメータを取得し、加重された個人パラメータを加重された基本パラメータに追加して基準音声信号に基づいたパラメータを取得することにより取得され得る。
一実施形態によれば、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ターゲット音声信号の認識時に特性パラメータを音声認識モデルと共に利用することによって、個人化された音声認識を行うことができる。
一実施形態によれば、音声モデルを直接的に変更することなく、ユーザに個人化された音声認識を容易に実現することができる。
一実施形態に係るユーザ端末及びサーバ間の関係を示す図である。 一実施形態に係るユーザ端末に入力された音声信号が認識される過程を示す図である。 一実施形態に係るターゲット音声信号が特性パラメータ及びモデルに基づいて認識される過程を示す図である。 他の一実施形態に係る環境情報を更に用いて音声信号を認識する過程を示す図である。 一実施形態に係る環境情報を説明するための図である。 更なる実施形態に係るユーザ端末の認識方法を示す図である。 一実施形態に係るユーザ端末を示す図である。 一実施形態に係るサーバを示す図である。
実施形態に対する特定な構造的又は機能的な説明は単なる例示の目的のために開示されており、様々な形態に変更され得る。したがって、実施形態は特定の開示される形態に限定されるものではなく、本発明の範囲は技術的な思想に含まれる変更、均等物又は代替物を含む。
第1又は第2等の用語が、複数の構成要素を説明するために用いられることがあるが、このような用語は単に1つの構成要素を他の構成要素から区別する目的として解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素とも命名することができる。
いずれかの構成要素が他の構成要素に「連結されて」いるとして言及される場合、その次の構成要素に直接的に連結されてもよく、あるいは中間に他の構成要素が存在することもあり得ると理解されなければならない。
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらの組合せが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品又はこれらの組合せ等の存在又は付加の可能性を予め排除しないものとして理解されなければならない。
別段の定義がない限り、技術的又は科学的な用語を含む、本明細書で用いられる全ての用語は、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されるべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
以下、実施形態を、添付の図面を参照しながら詳細に説明する。各図面に提示される同一の参照符号は同一の構成要素を示す。
図1は、一実施形態によりユーザ端末及びサーバ間の関係を示す図である。
図1を参照すると、一実施形態に係るユーザ端末110及びサーバ120が示されている。
一実施形態に係るユーザ端末110は、ユーザから音声信号が入力され、音声信号の認識結果を出力する装置として、下記で説明される少なくとも1つの動作のための命令語を格納するメモリ及びその命令語を実行するプロセッサを含む。例えば、ユーザ端末110は、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、モバイル機器、スマートスピーカ、スマートテレビ、スマート家電機器、知能型自動車、ウェアラブル装置などの様々な形態の製品として実現される。
一実施形態に係るユーザ端末110は、ユーザから入力された音声信号に基づいて、ユーザの音声に個人化された特性パラメータ111を決定する。特性パラメータ111は、音声認識の個人化に求められる付加的な情報であって、音声認識のためのモデルを直接的に変更することなく、ユーザ端末110を操作するユーザに個人化された音声認識を実行可能にする。例えば、特性パラメータ111は、ケプストラム平均分散正規化(CMVN:Cepstral Mean and Variance Normalization)による正規化情報、i-ベクトル(i-vector)、確率密度関数(PDF:Probability density function)のうち少なくとも1つを含んでもよい。特性パラメータ111については、図3を参照して後述する。
ユーザ端末110は、音声認識が要求される前に特性パラメータ111を予め決定する。以下、説明の便宜のために特性パラメータ111の決定において考慮される音声信号を基準音声信号(reference speech signal)に称し、認識の対象となる音声信号をターゲット音声信号(target speech signal)と称する。
ユーザから認識対象となるターゲット音声信号が入力されると、ユーザ端末110は、ターゲット音声信号と特性パラメータ111をサーバ120に送信する。
一実施形態に係るサーバ120は、音声認識のためのモデルを含む装置であり、モデルを用いて、ユーザ端末110から受け取ったターゲット音声信号の音声認識を行うコンピューティング装置であり得る。サーバ120は、ユーザ端末110から受け取ったターゲット音声信号を音声認識し、その認識結果をユーザ端末110に送信する。
一実施形態に係るモデルは、ターゲット音声信号が入力されると、ターゲット音声信号の認識結果を出力するニューラルネットワークであり、特定の個人にカスタマイズされるのではなく、複数のユーザの音声認識のための汎用的なモデルとすることができる。
サーバ120は、ユーザの音声に個人化された特性パラメータ111を更に利用することによって、汎用的なモデルにより、ユーザに個人化された音声認識を行う。言い換えれば、一般的に個人ユーザは、特有のアクセント、トーン、語り口などを有するが、特性パラメータ111により、このような特有の個人的特性に適応的に音声認識を実行することができる。
サーバ120は、ターゲット音声信号の認識結果をユーザ端末110に送信し、ユーザ端末110は認識結果を出力する。
図2は、一実施形態によりユーザ端末に入力された音声信号が認識される過程を示す図である。
図2を参照すると、一実施形態によりユーザ端末110及びサーバ120で実行される認識方法が示されている。
ステップS210において、ユーザ端末110に、ユーザからの基準音声信号が入力される。基準音声信号は、認識すべきターゲット音声信号がユーザ端末110へ入力される前に、ユーザがユーザ端末110を用いることでユーザ端末110へ入力された音声信号であり得る。例えば、ユーザがユーザ端末110を介して通話したり音声を録音したりするとき、ユーザ端末110から入力される音声信号が基準音声信号に該当する。言い換えれば、基準音声信号は、音声認識のためではなく、音声認識以外のユーザ端末110の一般的な使用によってユーザ端末110に入力された音声信号であり得る。
ステップS220において、ユーザ端末110は、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定する。特性パラメータは、音声認識のためのモデルを直接的に変更することなく、ユーザに個人化された音声認識を実行可能にするパラメータであり得る。
一実施形態に係るユーザ端末110は、基準音声信号が入力されるたびに、その基準音声信号に基づいて特性パラメータをアップデートする。ここで、ユーザ端末110は、入力される全ての基準音声信号を用いて特性パラメータをアップデートしてもよく、あるいは一定の条件(例えば、音声信号の大きさ、長さ等)を満たす基準音声信号を選択的に用いて特性パラメータをアップデートしてもよい。
例えば、ユーザ端末110は、複数のユーザを基準として決定された基本パラメータに、基準音声信号から取得した個人パラメータを反映することにより、特性パラメータを決定する。ここで、基本パラメータは、複数のユーザの音声信号に基づいて決定された初期パラメータとしてサーバ120から提供される。該当ユーザに関する個人パラメータに第1加重値を適用し、基本パラメータに第2加重値を適用した後、加重値が適用されたパラメータを合算することで特性パラメータが決定され得る。そして、次の基準音声信号が入力されると、最後に算出された特性パラメータに、次の基準音声信号から取得した個人パラメータを反映することによって、特性パラメータをアップデートすることができる。
基準音声信号がユーザ端末110に入力されるたびに、このように特性パラメータを決定することによって、ユーザの音声に個人化された特性パラメータが累積算出される。累積算出されるほど、ユーザについてより個人化された特性パラメータが取得される。
他の一実施形態によると、ユーザ端末110で基本パラメータに個人パラメータを反映して特性パラメータを決定する代わりに、ユーザ端末110では、個人パラメータのみを考慮して特性パラメータを累積算出してサーバ120に送信し、サーバ120が基本パラメータと特性パラメータとの間の加重値の合計によって最終的に特性パラメータを決定してもよい。
ステップS230において、ユーザ端末110に、ユーザから、認識の対象となるターゲット音声信号が入力される。例えば、ユーザ端末110は、音声認識命令と共に入力された音声信号をターゲット音声信号として識別する。
ステップS240において、ユーザ端末110は、ターゲット音声信号及び特性パラメータをサーバ120に送信する。例えば、ユーザ端末110は、ターゲット音声信号と特性パラメータを共にサーバ120に送信してもよい。
あるいは、ユーザ端末110は、ターゲット音声信号に先立って、特性パラメータをサーバ120に送信してもよい。この場合、ユーザ端末110は、一定の周期ごとに又は特性パラメータがアップデートされるたびにサーバ120に特性パラメータを予め送信し、特性パラメータは、サーバ120において、該当ユーザ又は該当ユーザ端末110にマッピングされて格納される。そして、ユーザ端末110は、ターゲット音声信号が入力されると、特性パラメータなしに、そのターゲット音声信号のみをサーバ120に送信し、サーバ120によってユーザ又はユーザ端末110にマッピングされて予め格納された特性パラメータを、検索することができる。
ユーザの個人情報ではなく、数値化された値である特性パラメータをサーバ120に送信することによって、サーバ120で音声認識が実行される間にユーザの個人情報が漏れることはなく、セキュリティー問題からも解放される。
ステップS250において、サーバ120は、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識する。サーバ120は、モデルに入力されるターゲット音声信号の特徴ベクトルに特性パラメータを適用するか、モデルから分類されるクラス情報で特性パラメータを用いることにより、モデルを直接的に変更することなく、ユーザに個人化された音声認識を行うことができる。特性パラメータ及びモデルに基づいた音声認識については、図3を参照して後述する。
ステップS260において、サーバ120は、ターゲット音声信号の認識結果をユーザ端末110に送信する。
ステップS270において、ユーザ端末110は、ターゲット音声信号の認識結果を出力する。一実施形態によると、ユーザ端末110は、ターゲット音声認識の認識結果を表示する。
あるいは、ユーザ端末110は、認識結果に関連する動作を行い、その動作結果を出力する。例えば、ユーザ端末110は、認識結果に応じて、ユーザ端末110にインストールされたアプリケーション(例えば、電話アプリケーション、連絡先アプリケーション、メッセンジャーアプリケーション、ウェブアプリケーション、スケジュール管理アプリケーション、天気アプリケーションなど)を実行し、そのアプリケーションにおける特定動作(例えば、通話、連絡先検索、メッセージ入力及び送信、ウェブ検索、スケジュール確認、天気照会など)を行ってその結果を出力することができる。
図3は、一実施形態に係る、ターゲット音声信号が特性パラメータ及びモデルに基づいて認識される過程を示す図である。
図3を参照すると、一実施形態に係るモデル310、CMVNフィルタ320、i-ベクトルフィルタ330、PDF340が示されている。図3では、説明の便宜のためにCMVNフィルタ320、i-ベクトルフィルタ330、PDF340が全て示されているが、実施形態によってはCMVNフィルタ320、i-ベクトルフィルタ330、PDF340のうち少なくとも1つのみが適用されてもよい。
一実施形態に係るモデル310は、ターゲット音声信号が入力されることによって、そのターゲット音声信号の認識結果を出力するニューラルネットワークであり得る。ニューラルネットワークは複数のレイヤを含んでもよい。複数のレイヤの各々が複数のニューロンを含んでもよい。隣接するレイヤのニューロンは、シナプスに接続される。学習によってシナプスには加重値が付与され、パラメータはこのような加重値を含み得る。
一実施形態に係る特性パラメータは、CMVNの正規化情報、i-ベクトル、PDFのうち少なくとも1つを含む。このような特性パラメータは、CMVNフィルタ320、i-ベクトルフィルタ330、PDF340に適用される。
ターゲット音声信号の特徴ベクトルは、メル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstral Coefficients)、メル尺度フィルタバンク係数(Mel-scaled Filter bank coefficients)などによりターゲット音声信号から抽出され、CMVNフィルタ320に入力され得る。
CMVNフィルタ320は、音声認識を行う前に音声信号の特徴ベクトルを正規化するステップであって、正規化された特徴ベクトルに対して音声認識を行うことにより音声認識の正確性を向上させることができる。CMVNフィルタ320は、音声信号に含まれるノイズや歪みに強い音声認識を実行可能にする。例えば、CMVNフィルタ320は、音声信号の特徴ベクトルに含まれる各次元の平均が0に変換され、分散が基準分散(unit variance)に変換されるようにすることで、特徴ベクトルに対する正規化を行う。このような正規化のために正規化情報が使用され、正規化情報は、特徴ベクトルに含まれた次元の平均を0に変換し、分散を基準分散に変換するための平均値及び分散値を含んでもよい。例えば、基準分散は1であってもよい。
CMVNフィルタ320で用いられる正規化情報は、ユーザ端末で累積されて算出され、累積されるほど、CMVNフィルタ320で実行される正規化が精巧に実行され、音声認識の性能をより向上させることができる。
i-ベクトルフィルタ330は、ターゲット音声信号の特徴ベクトルにi-ベクトルが適用されるステップである。i-ベクトルは、ターゲット音声信号を発話したユーザを識別する情報をベクトルに表現した識別ベクトルであって、ユーザの個別的な特性を示す。一例として、識別ベクトルは、音声から抽出された音響パラメータの分布を混合ガウスモデル(GMM:Gaussian mixture model)にモデリングしたとき、各ガウスの平均値を連結して作ったGMMスーパーベクトルが有している変移性を表現するベクトルである。
このようなi-ベクトルが、サーバでないユーザ端末で決定され、ユーザ端末で基準音声信号が入力されるたびに、あるいは一定条件が満たされる基準音声信号が入力されるたびに累積算出されることによって、ユーザの発音に対して精巧なi-ベクトルが決定され得る。
ユーザ端末で決定されたi-ベクトルが、i-ベクトルフィルタ330を介してターゲット音声信号の特徴ベクトルに適用されてモデル310に入力される。言い換えれば、ターゲット音声信号の特徴ベクトルと共にi-ベクトルがモデル310に入力されることで、i-ベクトルにより識別されたユーザの音声特徴を反映して音声認識が実行され、音声認識の正確性を向上させることができる。
この場合、モデル310も数人のi-ベクトルに基づいてトレーニングされたモデルである必要がある。音声認識時に共に入力されるi-ベクトルを用いて、トレーニング時に考慮した数人のうち今回のユーザの発話がいずれかの人の発話と特性が似ているかを判断し、このような判断結果に応じて音声認識が適応的に実行される。
PDF340は、モデル310で分類されるクラス情報を含む。PDF340は発音的特徴に対する分布値を示す情報として、モデル310で推定された値がPDF340と比較され、最終的にターゲット音声信号がどのような音素から構成されているかを判断する。このような判断に基づいて認識結果が決定される。
同じ単語を発音しても、ユーザごとにその単語を発音するアクセントやトーンが異なるが、ユーザに個人化されたPDF340を用いることで、ユーザに個人化された音声認識を行うことができる。音声認識を実行するとき、PDF340は、ユーザに個人化されたPDFに代替され得る。
一実施形態に係るPDF340は、サーバの外部で算出できる簡単なGMMなどの方式をユーザ端末で行うことによってユーザ端末で算出され得る。算出初期には、複数のユーザを基準として決定されたクラス情報に、基準音声信号から取得された個人化されたクラス情報を反映させることで、PDF340が累積算出される。
また、PDFカウント情報(PDF count information)も個人化されて音声認識の際に活用され得る。PDFカウント情報は、音素がどれ程頻繁に使用されたかを示すものであり、ユーザが頻繁に発話する音素を効率よく認識可能にする。PDFカウント情報も、算出初期には、複数のユーザを基準として決定されたPDFカウント情報に、基準音声信号から取得された個人化されたPDFカウント情報を反映させることで決定され得る。
図4は、他の一実施形態により環境情報を更に用いて音声信号を認識する過程を示す図である。
図4を参照すると、他の一実施形態によりユーザ端末110及びサーバ120で実行される認識方法が示されている。
ステップS410において、ユーザ端末110は、ユーザから基準音声信号が入力され、このときの基準環境情報を取得する。基準環境情報は、基準音声信号がユーザ端末110に入力されるときの状況に関する情報として、例えば、基準音声信号に含まれたノイズ情報と、ユーザ端末110から基準音声信号を発話したユーザまでの距離情報とのうち少なくとも一方を含む。
ここで、ノイズ情報は、基準音声信号が室内で入力されたか、室外で入力されたかを示し、距離情報は、ユーザ端末110とユーザとの間の距離が近距離であるか、遠距離であるかを示す。
例えば、基準環境情報は、ユーザ端末110に内蔵された別途のセンサによって取得され得る。
ステップS420において、ユーザ端末110は、基準環境情報に基づいて特性パラメータをタイプごとに決定する。例えば、室内で入力された基準音声信号に基づいて室内タイプの特性パラメータが決定され、室外で入力された基準音声信号に基づいて室外タイプの特性パラメータが決定される。同様に、近距離で入力された基準音声信号に基づいて近距離タイプの特性パラメータが決定され、遠距離で入力された基準音声信号に基づいて遠距離タイプの特性パラメータが決定される。
また、ユーザ端末110は、基準環境情報に基づいて特性パラメータをタイプごとにアップデートし得る。
ステップS430において、ユーザ端末110に、ユーザから認識すべきターゲット音声信号が入力され、このときのターゲット環境情報を取得する。例えば、ユーザ端末110は、音声認識命令と共に入力された音声信号をターゲット音声信号で識別し、ここで取得された環境情報をターゲット環境情報として識別する。
ステップS440において、ユーザ端末110は、ターゲット環境情報に基づいて特性パラメータを選択する。ユーザ端末110は、タイプごとに格納された特性パラメータのうちターゲット環境情報に対応する特性パラメータを選択する。例えば、ターゲット音声信号が室内で入力された場合、ターゲット環境情報に基づいて特性パラメータのうち室内タイプの特性パラメータが選択される。同様に、ターゲット音声信号が近距離で入力された場合、ターゲット環境情報に基づいて特性パラメータのうち近距離タイプの特性パラメータが選択される。
ステップS450において、ユーザ端末110は、ターゲット音声信号及び選択された特性パラメータをサーバ120に送信する。
ステップS460において、サーバ120は、選択された特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識する。
ステップS470において、サーバ120は、ターゲット音声信号の認識結果をユーザ端末110に送信する。
ステップS480において、ユーザ端末110は、ターゲット音声信号の認識結果を出力する。一実施形態に係るユーザ端末110は、ターゲット音声認識の認識結果を表示する。あるいは、ユーザ端末110は、認識結果に関連する動作を行い、その動作結果を出力する。
図4に示された各ステップには、図1~図3を参照して前述した事項がそのまま適用されるため、より詳細な説明は省略する。
図5は、一実施形態により環境情報を説明するための図である。
図5を参照すると、一実施形態に係る環境情報510は、ノイズ情報520及び距離情報530のうち少なくとも一方を含む。図5では、説明の便宜のために環境情報510の実施形態が図示されているが、その他にも、音声信号がユーザ端末に入力される状況を示す情報であれば制限されることなく含まれてもよい。
ノイズ情報520は、音声信号に含まれるノイズに関する情報を示す情報であり得る。一般的にユーザが位置する場所により音声信号に含まれるノイズの種類が変わるため、ノイズ情報520は、音声信号が室内又は室外で入力されているかを示す。さらに、ノイズ情報520は、室内の場合を細部的に分類して、その音声信号が家、図書館、カフェ、事務室、車などで入力されたことを示す。また、ノイズ情報520は、室外の場合を細部的に分類して、その音声信号が道路、公園、広場、浜辺などで入力されたことを示す。
距離情報530は、ユーザ端末から音声信号を発話したユーザまでの距離を示す情報である。距離情報530は、音声信号が近距離又は遠距離で入力されたことを示す。例えば、ユーザがユーザ端末を自分の口の近くに近接させて発話した場合、距離情報530は音声信号が近距離で入力されていることを示す。あるいは、室内に位置するユーザが一定の距離以上離れたユーザ端末(例えば、スマートスピーカ)に対して発話した場合、距離情報530は、音声信号が遠距離で入力されていることを示す。
あるいは、距離情報530は、単に近距離、遠距離に区分するのではなく、具体的な距離数値を含んでもよい。
図6は、更なる実施形態に係るユーザ端末の認識方法を示す図である。
図6を参照すると、更なる実施形態に係るユーザ端末で実行される認識方法が示されている。前述した説明は、音声認識のためのモデルがサーバに位置する場合を基準としたが、場合に応じて、モデルはユーザ端末内に位置してもよく、図6はこのような場合の認識方法を示す。
ステップS610において、ユーザ端末にユーザから基準音声信号が入力される。基準音声信号は、認識すべきターゲット音声信号がユーザ端末に入力される前に、ユーザがユーザ端末を用いることによってユーザ端末に入力された音声信号であり得る。
ステップS620において、ユーザ端末は、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定する。特性パラメータは、音声認識のためのモデルを直接的に変更することなく、ユーザに個人化された音声認識を実行可能にするパラメータであり得る。
ステップS630において、ユーザ端末に、ユーザから認識すべきターゲット音声信号が入力される。例えば、ユーザ端末は、音声認識命令と共に入力された音声信号をターゲット音声信号として識別し得る。
ステップS640において、ユーザ端末は、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識する。ユーザ端末は、モデルに入力されるターゲット音声信号の特徴ベクトルに特性パラメータを適用し、あるいはモデルから分類されるクラス情報に特性パラメータを用いることにより、モデルを直接的に変更することなくユーザに個人化された音声認識を行うことができる。
ステップS650において、ユーザ端末は、ターゲット音声信号の認識結果を出力する。一実施形態に係るユーザ端末は、ターゲット音声認識の認識結果を表示する。あるいは、ユーザ端末は認識結果に関連する動作を行い、その動作結果を出力する。
図6に示された各ステップには図1~図3を参照して前述した事項が適用され得るため、より詳細な説明は省略する。また、図6では、環境情報を更に用いる場合については明らかに説明していないが、図4及び図5を参照して前述した事項は、図6においても同様に適用され得るため、より詳細な説明は省略する。
図7は、一実施形態に係るユーザ端末を示す図である。
図7を参照すると、ユーザ端末110は、メモリ710、プロセッサ720及びマイクロホン730を含む。ユーザ端末110は、トランシーバー740及びセンサ750を更に含む。メモリ710、プロセッサ720、マイクロホン730、トランシーバー740及びセンサ750は、バス760を介してデータをやり取りする。
メモリ710は、揮発性メモリ及び不揮発性メモリを含んでもよく、バス760を介して受信された情報を格納する。メモリ710は、プロセッサ720によって実行可能な少なくとも1つの命令語を含み得る。また、メモリ710は、先に説明した特性パラメータを格納する。
プロセッサ720は、メモリ710に格納された命令語、あるいはプログラムを実行する。プロセッサ720は、ユーザから入力された基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ユーザから認識すべきターゲット音声信号が入力され、ターゲット音声信号の認識結果を出力する。ここで、ターゲット音声信号の認識結果は、特性パラメータ及び認識のためのモデルに基づいて決定される。
マイクロホン730は、ユーザ端末110に取り付けられてユーザから基準音声信号、ターゲット音声信号が入力される。
トランシーバー740は、特性パラメータとターゲット音声信号をサーバに送信し、サーバからターゲット音声信号の認識結果を受信する。図6を参照して説明したように、音声認識のためのモデルがユーザ端末110に存在する場合には、トランシーバー740が省略されてもよい。
センサ750は、音声信号が入力されるときの環境情報を検出する。例えば、センサ750は、ユーザ端末110からユーザまでの距離を測定するための装置として、例えば、イメージセンサ、赤外線センサ、ライダーセンサなどを含んでもよい。センサ750はユーザを撮影して映像を出力したり、ユーザに赤外線を放射してユーザにより反射して返ってくる赤外線の飛行時間を検出し得る。このようなセンサ750の出力データに基づいて、ユーザ端末110からユーザまでの距離が測定される。図2を参照して説明したように、環境情報が利用されない場合にはセンサ750が省略されてもよい。
その他に、ユーザ端末110には前述した事項が適用され得るため、より詳細な説明は省略する。
図8は、一実施形態に係るサーバを示す図である。
図8を参照すると、サーバ120は、メモリ810、プロセッサ820及びトランシーバー830を含む。メモリ810、プロセッサ820及びトランシーバー830は、バス840を介してデータをやり取りすることができる。
メモリ810は、揮発性メモリ及び不揮発性メモリを含んでもよく、バス840を介して受信された情報を格納する。メモリ810は、プロセッサ820によって実行可能な少なくとも1つの命令語を含んでもよい。また、メモリ810は、先に説明した音声認識のためのモデルを格納する。
プロセッサ820は、メモリ810に格納された命令語、あるいはプログラムを実行する。プロセッサ820は、ユーザから入力された基準音声信号に基づいて決定されたユーザの音声に個人化された特性パラメータをユーザ端末から受信し、認識の対象となるユーザのターゲット音声信号をユーザ端末から受信し、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識し、ターゲット音声信号の認識結果をユーザ端末に送信する。
トランシーバー830は、ユーザ端末から特性パラメータとターゲット音声信号を受信し、ユーザ端末にターゲット音声信号の認識結果を送信する。
その他に、サーバ120には前述した事項が適用され得るため、より詳細な説明は省略する。
上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素とソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、算術演算論理装置(ALU:arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、フィールドプログラマブルゲートアレイ(FPGA:field programmable gate array)、プログラマブル論理装置(PLU:programmable logic unit)、マイクロプロセッサー又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの1つ以上の組合せを含み、所望の通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び/又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ記録媒体又は装置、あるいは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは1つ以上のコンピュータ読取可能な記録媒体に格納される。
本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読取可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合わせて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
以上のように、実施形態を限られた図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わされ、あるいは他の構成要素又は均等物によって代替又は置換される場合も適切な結果を達成することができる。

Claims (24)

  1. ユーザ端末で実行される認識方法において、
    ユーザから入力された基準音声信号に基づいて前記ユーザの音声に個人化された特性パラメータを決定するステップと、
    前記ユーザから認識の対象となるターゲット音声信号が入力されるステップと、
    前記ターゲット音声信号の認識結果を出力するステップと、
    を含み、
    前記ターゲット音声信号の認識結果は、前記特性パラメータ及び前記の認識のためのモデルに基づいて決定され
    前記特性パラメータを決定するステップは、前記基準音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて、前記特性パラメータをタイプごとに決定する、
    認識方法。
  2. 前記特性パラメータは、前記モデルに入力される前記ターゲット音声信号の特徴ベクトルに適用され、前記モデルから分類するためのクラス情報を含む、請求項1に記載の認識方法。
  3. 前記特性パラメータは、前記ターゲット音声信号の特徴ベクトルを正規化するための正規化情報を含み、
    前記ターゲット音声信号の認識結果は、前記モデルに入力される前記ターゲット音声信号の特徴ベクトルを、前記正規化情報に基づいて正規化することによって決定される、請求項1に記載の認識方法。
  4. 前記特性パラメータは、前記ユーザの音声的な特徴を示す識別情報を含み、
    前記ターゲット音声信号の認識結果は、前記モデルに前記ターゲット音声信号の特徴ベクトルと共に識別情報を入力することにより決定される、請求項1に記載の認識方法。
  5. 前記特性パラメータは、前記モデルから分類するためのクラス情報を含み、
    前記ターゲット音声信号の認識結果は、前記モデルにおいて前記ターゲット音声信号の特徴ベクトルから推定される値を前記クラス情報と比較することによって決定される、請求項1に記載の認識方法。
  6. 前記環境情報は、前記基準音声信号に含まれるノイズ情報と、前記ユーザ端末から前記基準音声信号を発話したユーザまでの距離情報とのうち少なくとも一方を含む、請求項に記載の認識方法。
  7. 前記ターゲット音声信号の認識結果は、前記基準音声信号が入力されるときの環境情報に基づいて、タイプごとに予め決定された特性パラメータのうち前記ターゲット音声信号が入力されるときの環境情報に基づいて選択された特性パラメータを用いて決定される、請求項に記載の認識方法。
  8. 前記特性パラメータを決定するステップは、複数のユーザを基準として決定された基本パラメータに前記基準音声信号から取得した個人パラメータを反映することにより前記特性パラメータを決定する、請求項1に記載の認識方法。
  9. 前記基準音声信号は、前記ターゲット音声信号が前記ユーザ端末に入力される以前に前記ユーザが前記ユーザ端末を用いることで前記ユーザ端末に入力された音声信号である、請求項1に記載の認識方法。
  10. 前記ターゲット音声信号と前記特性パラメータをサーバに送信するステップと、
    前記サーバから前記ターゲット音声信号の認識結果を受信するステップと、
    を更に含み、
    前記ターゲット音声信号の認識結果は前記サーバで生成される、請求項1に記載の認識方法。
  11. 前記ターゲット音声信号の認識結果は前記ユーザ端末で生成される、請求項1に記載の認識方法。
  12. ユーザ端末に入力されたターゲット音声信号を認識するサーバの認識方法において、
    ユーザから入力された基準音声信号に基づいて決定された前記ユーザの音声に個人化された特性パラメータを、前記ユーザ端末から受信するステップと、
    認識の対象となる前記ユーザのターゲット音声信号を前記ユーザ端末から受信するステップと、
    前記特性パラメータ及び前記の認識のためのモデルに基づいて、前記ターゲット音声信号を認識するステップと、
    前記ターゲット音声信号の認識結果を前記ユーザ端末に送信するステップと、
    を含み、
    前記特性パラメータは、前記基準音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて、タイプごとに予め決定される、
    認識方法。
  13. 前記特性パラメータは、前記ターゲット音声信号を正規化するための正規化情報、前記ユーザの音声的な特徴を示す識別情報、及び前記モデルから分類するためのクラス情報のうち少なくとも1つを含む、請求項12に記載の認識方法。
  14. 前記特性パラメータは、前記ターゲット音声信号を正規化するための正規化情報を含み、
    前記ターゲット音声信号を認識するステップは、前記ターゲット音声信号の特徴ベクトルを前記正規化情報に基づいて正規化し、前記モデルを用いて前記正規化された特徴ベクトルから前記認識結果を取得する、請求項12に記載の認識方法。
  15. 前記特性パラメータは、前記ユーザの音声的な特徴を示す識別情報を含み、
    前記ターゲット音声信号を認識するステップは、前記ターゲット音声信号の特徴ベクトルと共に前記識別情報を前記モデルに入力し、前記モデルから前記認識結果を取得する、請求項12に記載の認識方法。
  16. 前記特性パラメータは、前記モデルから分類するためのクラス情報を含み、
    前記ターゲット音声信号を認識するステップは、前記モデルにおいて前記ターゲット音声信号の特徴ベクトルから推定される値を前記クラス情報と比較することによって前記ターゲット音声信号を認識する、請求項12に記載の認識方法。
  17. 前記特性パラメータは、前記タイプごとに予め決定された特性パラメータのうち前記ターゲット音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて選択された特性パラメータである、請求項12に記載の認識方法。
  18. 請求項1乃至請求項17のいずれか一項に記載の方法を実行させるためのプログラムが記録されたコンピュータ読取可能な記録媒体。
  19. プロセッサと、
    前記プロセッサによって実行可能な少なくとも1つの命令語を含むメモリと、
    を含む、ユーザ端末であって、
    前記少なくとも1つの命令語が前記プロセッサで実行されると、前記プロセッサは、ユーザから入力された基準音声信号に基づいて前記ユーザの音声に個人化された特性パラメータを決定し、前記ユーザから認識の対象となるターゲット音声信号が入力され、前記ターゲット音声信号の認識結果を出力し、
    前記ターゲット音声信号の認識結果は、前記特性パラメータ及び前記の認識のためのモデルに基づいて決定され
    前記特性パラメータを決定することは、前記基準音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて、前記特性パラメータをタイプごとに決定する、
    ユーザ端末。
  20. 個別ユーザの基準音声信号に基づいて前記個別ユーザの音声に個人化された特性パラメータを決定するステップと、
    複数のユーザに対して決定された基本音声認識モデルに前記特性パラメータを適用して前記個別ユーザに個人化された音声認識モデルを取得するステップと、
    前記個人化された音声認識モデルに前記個別ユーザのターゲット音声信号を適用して前記ターゲット音声信号の認識結果を取得するステップと、
    を含み、
    前記特性パラメータを決定するステップは、前記個別ユーザによって基準音声信号が入力されるごとに前記特性パラメータを累積して決定する、
    音声認識方法。
  21. 前記基準音声信号から前記個別ユーザに対して決定された個人パラメータを取得するステップと、
    前記個人パラメータに第1加重値を適用して加重された個人パラメータを取得するステップと、
    複数のユーザに対して決定された基本パラメータに第2加重値を適用して加重された基本パラメータを取得するステップと、
    前記加重された個人パラメータを前記加重された基本パラメータに追加して前記特性パラメータを取得するステップと、
    を更に含む、請求項20に記載の音声認識方法。
  22. 前記基準音声信号及び前記ターゲット音声信号は、前記個別ユーザによってユーザ端末に入力される、請求項21に記載の音声認識方法。
  23. ユーザ端末において、個別ユーザによって前記ユーザ端末に入力された基準音声信号に基づいたパラメータを決定するステップと、
    前記基準音声信号に基づいたパラメータ及び認識の対象となる前記個別ユーザのターゲット音声信号を前記ユーザ端末からサーバに送信するステップと、
    前記ユーザ端末において、前記ターゲット音声信号の認識結果を前記サーバから受信するステップと、
    を含み、
    前記ターゲット音声信号の認識結果は、前記基準音声信号に基づいた前記パラメータ及び複数のユーザに対して決定された基本音声認識モデルに基づいて前記サーバで決定される、音声認識方法。
  24. 前記基準音声信号に基づいたパラメータを決定するステップは、前記基準音声信号から前記個別ユーザに対して決定された個人パラメータを取得し、
    前記送信するステップは、前記個人パラメータ及び前記ターゲット音声信号を前記ユーザ端末から前記サーバに送信し、
    前記基準音声信号に基づいたパラメータは、前記サーバで前記個人パラメータに第1加重値を適用して加重された個人パラメータを取得し、基本パラメータに第2加重値を適用して加重された基本パラメータを取得し、前記加重された個人パラメータを前記加重された基本パラメータに追加して前記基準音声信号に基づいた前記パラメータを取得することにより取得される、請求項23に記載の音声認識方法。


JP2018101565A 2017-08-14 2018-05-28 個人化された音声認識方法及びこれを行うユーザ端末及びサーバ Active JP7173758B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0103052 2017-08-14
KR1020170103052A KR102413282B1 (ko) 2017-08-14 2017-08-14 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버

Publications (2)

Publication Number Publication Date
JP2019035941A JP2019035941A (ja) 2019-03-07
JP7173758B2 true JP7173758B2 (ja) 2022-11-16

Family

ID=62186265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018101565A Active JP7173758B2 (ja) 2017-08-14 2018-05-28 個人化された音声認識方法及びこれを行うユーザ端末及びサーバ

Country Status (5)

Country Link
US (1) US20190051288A1 (ja)
EP (1) EP3444809B1 (ja)
JP (1) JP7173758B2 (ja)
KR (1) KR102413282B1 (ja)
CN (1) CN109410916B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832672B2 (en) 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker system with cognitive sound analysis and response
US10832673B2 (en) * 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker device with cognitive sound analysis and response
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US11605379B2 (en) * 2019-07-11 2023-03-14 Lg Electronics Inc. Artificial intelligence server
CN112242142B (zh) * 2019-07-17 2024-01-30 北京搜狗科技发展有限公司 一种语音识别输入的方法及相关装置
KR20190107622A (ko) 2019-09-02 2019-09-20 엘지전자 주식회사 이동형 에이젼트를 이용한 실시간 음성 인식 모델 업데이트 방법 및 장치
KR20210031265A (ko) * 2019-09-11 2021-03-19 삼성전자주식회사 전자 장치 및 그 동작방법
KR102327441B1 (ko) * 2019-09-20 2021-11-17 엘지전자 주식회사 인공지능 장치
CN110827819A (zh) * 2019-11-26 2020-02-21 珠海格力电器股份有限公司 家居设备控制方法及控制***
US11120805B1 (en) * 2020-06-19 2021-09-14 Micron Technology, Inc. Intelligent microphone having deep learning accelerator and random access memory
CN111554300B (zh) * 2020-06-30 2021-04-13 腾讯科技(深圳)有限公司 音频数据处理方法、装置、存储介质及设备
CN112839107B (zh) * 2021-02-25 2023-04-18 北京梧桐车联科技有限责任公司 推送内容的确定方法、装置、设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122388A (ja) 2001-10-10 2003-04-25 Canon Inc 音響モデル作成装置および方法、音声認識装置
JP2006215315A (ja) 2005-02-04 2006-08-17 Kddi Corp 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム
JP2011203434A (ja) 2010-03-25 2011-10-13 Fujitsu Ltd 音声認識装置及び音声認識方法
WO2013169232A1 (en) 2012-05-08 2013-11-14 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
US20150269931A1 (en) 2014-03-24 2015-09-24 Google Inc. Cluster specific speech model
JP2016102820A (ja) 2014-11-27 2016-06-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム
US20170069314A1 (en) 2015-09-09 2017-03-09 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
JP3001037B2 (ja) * 1995-12-13 2000-01-17 日本電気株式会社 音声認識装置
US6768979B1 (en) * 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
US6823312B2 (en) * 2001-01-18 2004-11-23 International Business Machines Corporation Personalized system for providing improved understandability of received speech
FR2835087B1 (fr) * 2002-01-23 2004-06-04 France Telecom Personnalisation de la presentation sonore de messages synthetises dans un terminal
US20030233233A1 (en) * 2002-06-13 2003-12-18 Industrial Technology Research Institute Speech recognition involving a neural network
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US8600741B2 (en) * 2008-08-20 2013-12-03 General Motors Llc Method of using microphone characteristics to optimize speech recognition performance
US9679561B2 (en) * 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US20150149167A1 (en) * 2011-03-31 2015-05-28 Google Inc. Dynamic selection among acoustic transforms
US8837687B2 (en) * 2011-07-14 2014-09-16 Intellisist, Inc. Computer-implemented system and method for matching agents with callers in an automated call center environment based on user traits
EP2834812A4 (en) * 2012-04-02 2016-04-27 Dixilang Ltd CLIENT SERVER ARCHITECTURE FOR AUTOMATIC LANGUAGE RECOGNITION APPLICATIONS
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
US8935167B2 (en) * 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US10049658B2 (en) * 2013-03-07 2018-08-14 Nuance Communications, Inc. Method for training an automatic speech recognition system
US9378729B1 (en) * 2013-03-12 2016-06-28 Amazon Technologies, Inc. Maximum likelihood channel normalization
US9190055B1 (en) * 2013-03-14 2015-11-17 Amazon Technologies, Inc. Named entity recognition with personalized models
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
WO2015005679A1 (ko) * 2013-07-09 2015-01-15 주식회사 윌러스표준기술연구소 음성 인식 방법, 장치 및 시스템
US10049656B1 (en) * 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
CN103578474B (zh) * 2013-10-25 2017-09-12 小米科技有限责任公司 一种语音控制方法、装置和设备
US10199035B2 (en) * 2013-11-22 2019-02-05 Nuance Communications, Inc. Multi-channel speech recognition
US20150162004A1 (en) * 2013-12-09 2015-06-11 Erwin Goesnar Media content consumption with acoustic user identification
KR102146462B1 (ko) * 2014-03-31 2020-08-20 삼성전자주식회사 음성 인식 시스템 및 방법
WO2016015687A1 (zh) * 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
US9530408B2 (en) * 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing
KR102585228B1 (ko) * 2015-03-13 2023-10-05 삼성전자주식회사 음성 인식 시스템 및 방법
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
WO2016200381A1 (en) * 2015-06-10 2016-12-15 Nuance Communications, Inc. Motion adaptive speech recognition for enhanced voice destination entry
KR20170034227A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
US20170098192A1 (en) * 2015-10-02 2017-04-06 Adobe Systems Incorporated Content aware contract importation
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US10187394B2 (en) * 2016-03-31 2019-01-22 Microsoft Technology Licensing, Llc Personalized inferred authentication for virtual assistance
US11455985B2 (en) * 2016-04-26 2022-09-27 Sony Interactive Entertainment Inc. Information processing apparatus
CN107492382B (zh) * 2016-06-13 2020-12-18 阿里巴巴集团控股有限公司 基于神经网络的声纹信息提取方法及装置
CN107564513B (zh) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
US10325601B2 (en) * 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122388A (ja) 2001-10-10 2003-04-25 Canon Inc 音響モデル作成装置および方法、音声認識装置
JP2006215315A (ja) 2005-02-04 2006-08-17 Kddi Corp 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム
JP2011203434A (ja) 2010-03-25 2011-10-13 Fujitsu Ltd 音声認識装置及び音声認識方法
WO2013169232A1 (en) 2012-05-08 2013-11-14 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
US20150269931A1 (en) 2014-03-24 2015-09-24 Google Inc. Cluster specific speech model
JP2016102820A (ja) 2014-11-27 2016-06-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム
US20170069314A1 (en) 2015-09-09 2017-03-09 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Also Published As

Publication number Publication date
EP3444809B1 (en) 2020-09-23
JP2019035941A (ja) 2019-03-07
CN109410916A (zh) 2019-03-01
CN109410916B (zh) 2023-12-19
KR20190018282A (ko) 2019-02-22
KR102413282B1 (ko) 2022-06-27
EP3444809A1 (en) 2019-02-20
US20190051288A1 (en) 2019-02-14

Similar Documents

Publication Publication Date Title
JP7173758B2 (ja) 個人化された音声認識方法及びこれを行うユーザ端末及びサーバ
US11475881B2 (en) Deep multi-channel acoustic modeling
US11978440B2 (en) Wakeword detection
US10607597B2 (en) Speech signal recognition system and method
US9412361B1 (en) Configuring system operation using image data
US11132509B1 (en) Utilization of natural language understanding (NLU) models
US11189277B2 (en) Dynamic gazetteers for personalized entity recognition
JP7171532B2 (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
US10854191B1 (en) Machine learning models for data driven dialog management
US11574628B1 (en) Deep multi-channel acoustic modeling using multiple microphone array geometries
US20190081949A1 (en) Proactively limiting functionality
US11574637B1 (en) Spoken language understanding models
KR20160010961A (ko) 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
US11393473B1 (en) Device arbitration using audio characteristics
US20240013784A1 (en) Speaker recognition adaptation
KR20190093962A (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
US20220375469A1 (en) Intelligent voice recognition method and apparatus
CN112639965A (zh) 在包括多个设备的环境中的语音识别方法和设备
JP2024510798A (ja) ハイブリッド多言語テキスト依存およびテキスト非依存の話者検証
US20240071408A1 (en) Acoustic event detection
US10950231B1 (en) Skill enablement
CN112037772A (zh) 基于多模态的响应义务检测方法、***及装置
KR20200017160A (ko) 음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체
KR20200066149A (ko) 사용자 인증 방법 및 장치
US11790898B1 (en) Resource selection for processing user inputs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221104

R150 Certificate of patent or registration of utility model

Ref document number: 7173758

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150