JP7218803B2 - モデル学習装置、方法及びプログラム - Google Patents

モデル学習装置、方法及びプログラム Download PDF

Info

Publication number
JP7218803B2
JP7218803B2 JP2021525420A JP2021525420A JP7218803B2 JP 7218803 B2 JP7218803 B2 JP 7218803B2 JP 2021525420 A JP2021525420 A JP 2021525420A JP 2021525420 A JP2021525420 A JP 2021525420A JP 7218803 B2 JP7218803 B2 JP 7218803B2
Authority
JP
Japan
Prior art keywords
information
model
string
probability distribution
output probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021525420A
Other languages
English (en)
Other versions
JPWO2020250279A1 (ja
Inventor
崇史 森谷
雄介 篠原
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020250279A1 publication Critical patent/JPWO2020250279A1/ja
Application granted granted Critical
Publication of JP7218803B2 publication Critical patent/JP7218803B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声、画像等を認識するために用いられるモデルを学習する技術に関する。
近年のニューラルネットワークを用いた音声認識システムでは音声の特徴量から単語系列を直接出力することが可能である。図1を参照して、この音声の特徴量から直接単語系列を出力する音声認識システムのモデル学習装置を説明する(例えば、非特許文献1から3参照。)。この学習方法は、例えば、非特許文献1の”Neural Speech Recognizer”の節に記載されている。
図1のモデル学習装置は、中間特徴量計算部101と、出力確率分布計算部102と、モデル更新部103とを備えている。
事前に学習データの各サンプルから抽出した実数のベクトルである特徴量及び各特徴量に対応する正解ユニット番号のペアと、適当な初期モデルとを用意する。初期モデルとしては、各パラメタに乱数を割り当てたニューラルネットワークモデルや、既に別の学習データで学習済みのニューラルネットワークモデル等を利用することができる。
中間特徴量計算部101は、入力された特徴量から、出力確率分布計算部102において正解ユニットを識別しやすくするための中間特徴量を計算する。中間特徴量は、非特許文献1の式(1)により定義されるものである。計算された中間特徴量は、出力確率分布計算部102に出力される。
より具体的には、ニューラルネットワークモデルが1個の入力層、複数個の中間層及び1個の出力層で構成されているとして、中間特徴量計算部101は、入力層及び複数個の中間層のそれぞれで中間特徴量の計算を行う。中間特徴量計算部101は、複数個の中間層の中の最後の中間層で計算された中間特徴量を出力確率分布計算部102に出力する。
出力確率分布計算部102は、中間特徴量計算部101で最終的に計算された中間特徴量を現在のモデルの出力層に入力することにより、出力層の各ユニットに対応する確率を並べた出力確率分布を計算する。出力確率分布は、非特許文献1の式(2)により定義されるものである。計算された出力確率分布は、モデル更新部103に出力される。
モデル更新部103は、正解ユニット番号と出力確率分布に基づいて損失関数の値を計算し、損失関数の値を減少させるようにモデルを更新する。損失関数は、非特許文献1の式(3)により定義されるものである。モデル更新部103によるモデルの更新は、非特許文献1の式(4)によって行われる。
学習データの特徴量及び正解ユニット番号の各ペアに対して、上記の中間特徴量の抽出、出力確率分布の計算及びモデルの更新の処理を繰り返し、所定回数の繰り返しが完了した時点のモデルを学習済みモデルとして利用する。所定回数は、通常、数千万から数億回である。
Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition,"IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012. H. Soltau, H. Liao, and H. Sak,"Neural Speech Recognizer: Acoustic-to-Word LSTM Model for Large Vocabulary Speech Recognition," INTERSPEECH, pp. 3707-3711, 2017 S. Ueno, T. Moriya, M. Mimura, S. Sakai, Y. Shinohara, Y. Yamaguchi, Y. Aono, and T. Kawahara, "Encoder Transfer for Attention-based Acoustic-to-word Speech Recognition," INTERSPEECH, pp2424-2428, 2018
しかし、新たに学習しようとする単語の音声が存在せず、その単語のテキストのみしか得られない場合には、前記のモデル学習装置により、その単語について学習をすることができなかった。これは、前記の音響特徴量から直接単語を出力する音声認識モデルの学習には、音声と対応するテキストの両方が必要であるためである。
本発明は、新たに学習しようとする第一情報の列(例えば、音素又は書記素)に対応する音響特徴量がなくても、その第一情報の列を用いてモデルの学習をすることができるモデル学習装置、方法及びプログラムを提供することを目的とする。
この発明の一態様によるモデル学習装置は、第一の表現形式で表現された情報を第一情報とし、第二の表現形式で表現された情報を第二情報とし、音響特徴量を入力とし、音響特徴量に対応する第一情報の出力確率分布を出力するモデルを第一モデルとし、第一情報の列を所定の単位で区切った各断片に対応する特徴量を入力とし、第一情報の列における各断片の次の断片に対応する第二情報の出力確率分布を出力するモデルを第二モデルとして、音響特徴量を第一モデルに入力した場合の第一情報の出力確率分布を計算し、最も大きな出力確率を有する第一情報を出力する第一モデル計算部と、出力された第一情報の列を所定の単位で区切った各断片に対応する特徴量を抽出する特徴量抽出部と、抽出された特徴量を、第二モデルに入力した場合の第二情報の出力確率分布を計算する第二モデル計算部と、第一モデル計算部で計算された第一情報の出力確率分布と音響特徴量に対応する正解ユニット番号とに基づく第一モデルの更新と、第二モデル計算部で計算された第二情報の出力確率分布と第一情報の列に対応する正解ユニット番号とに基づく第二モデルの更新との少なくとも一方を行うモデル更新部と、を含み、対応する音響特徴量がない新たに学習しようとする第一情報の列がある場合には、特徴量抽出部及び第二モデル計算部は、出力された第一情報の列に代えて、新たに学習しようとする第一情報の列に対して前記と同様の処理を行い、新たに学習しようとする第一情報の列に対応する、第二情報の出力確率分布を計算し、モデル更新部は、第二モデル計算部で計算された、新たに学習しようとする第一情報の列に対応する、第二情報の列の出力確率分布と新たに学習しようとする第一情報の列に対応する正解ユニット番号とに基づく第二モデルの更新を行う。
新たに学習しようとする第一情報の列に対応する音響特徴量がなくても、その第一情報の列を用いてモデルの学習をすることができることができる。
図1は、背景技術を説明するための図である。 図2は、モデル学習装置の機能構成の例を示す図である。 図3は、モデル学習方法の処理手続きの例を示す図である。 図4は、コンピュータの機能構成例を示す図である。
以下、本発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
モデル学習装置は、図2に示すように、第一モデル計算部1は、中間特徴量計算部11及び出力確率分布計算部12を例えば備えている。
モデル学習方法は、モデル学習装置の各構成部が、以下に説明する及び図3に示すステップS1からステップS4の処理を行うことにより例えば実現される。
以下、モデル学習装置の各構成部について説明する。
<第一モデル計算部1>
第一モデル計算部1は、音響特徴量を第一モデルに入力した場合の第一情報の出力確率分布を計算し、最も大きな出力確率を有する第一情報を出力する(ステップS1)。
第一モデルは、音響特徴量を入力とし、音響特徴量に対応する第一情報の出力確率分布を出力するモデルである。
以下の説明では、第一の表現形式で表現された情報を第一情報とし、第二の表現形式で表現された情報を第二情報とする。
第一情報の例は、音素又は書記素である。第二情報の例は、単語である。ここで、単語は、英語の場合には、アルファベット、数字、記号により表現され、日本語の場合には、ひらがな、カタカナ、漢字、アルファベット、数字、記号により表現される。第一情報及び第二情報に対応する言語は、英語、日本語以外の言語であってもよい。
第一情報は、MIDIイベントやMIDIコード等の音楽の情報であってもよい。この場合、第二情報は、例えば、楽譜の情報となる。
第一モデル計算部1により出力された第一情報の列は、特徴量抽出部2に送信される。
第一モデルは、音響特徴量を入力とし、音響特徴量に対応する第一情報の出力確率分布を出力するモデルである。
以下、第一モデル計算部1の処理を詳細に説明するために、第一モデル計算部1の中間特徴量計算部11及び出力確率分布計算部12について説明する。
<<中間特徴量計算部11>>
中間特徴量計算部11には、音響特徴量が入力される。
中間特徴量計算部11は、入力された音響特徴量と初期モデルのニューラルネットワークモデルとを用いて、中間特徴量を生成する(ステップS11)。中間特徴量は、例えば非特許文献1の式(1)により定義されるものである。
例えば、ある中間層のユニットjから出力される中間特徴量yjは、以下のように定義される。
Figure 0007218803000001
ここで、Jは、ユニット数であり、所定の正の整数である。bjは、ユニットjのバイアスである。wijは、1つ下の中間層のユニットiからユニットjへの接続の重みである。
計算された中間特徴量は、出力確率分布計算部12に出力される。
中間特徴量計算部11は、入力された音響特徴量及びニューラルネットワークモデルから、出力確率分布計算部12において正解ユニットを識別しやすくするための中間特徴量を計算する。具体的には、ニューラルネットワークモデルが1個の入力層、複数個の中間層及び1個の出力層で構成されているとして、中間特徴量計算部11は、入力層及び複数個の中間層のそれぞれで中間特徴量の計算を行う。中間特徴量計算部11は、複数個の中間層の中の最後の中間層で計算された中間特徴量を出力確率分布計算部12に出力する。
<<出力確率分布計算部12>>
出力確率分布計算部12には、中間特徴量計算部11が計算した中間特徴量が入力される。
出力確率分布計算部12は、中間特徴量計算部11で最終的に計算された中間特徴量をニューラルネットワークモデルの出力層に入力することにより、出力層の各ユニットに対応する出力確率を並べた出力確率分布を計算し、最も大きな出力確率を有する第一情報を出力する(ステップS12)。出力確率分布は、例えば非特許文献1の式(2)により定義されるものである。
例えば、出力層のユニットjから出力されるpjは、以下のように定義される。
Figure 0007218803000002
計算された出力確率分布は、モデル更新部4に出力される。
例えば、入力された音響特徴量が音声の特徴量であり、ニューラルネットワークモデルが音声認識用のニューラルネットワーク型の音響モデルである場合には、出力確率分布計算部12により、音声の特徴量を識別しやすくした中間特徴量がどの音声の出力シンボル(音素状態)であるかが計算され、言い換えれば入力された音声の特徴量に対応した出力確率分布が得られる。
<特徴量抽出部2>
特徴量抽出部2には、第一モデル計算部1が出力した第一情報の列が入力される。また、後述するように、新たに学習しようとする第一情報の列がある場合には、その新たに学習しようとする第一情報の列が入力される。
特徴量抽出部2は、入力された第一情報の列を所定の単位で区切った各断片に対応する特徴量を抽出する(ステップS2)。抽出された特徴量は、第二モデル計算部3に出力される。
特徴量抽出部2は、例えば所定の辞書を参照することにより断片への分解を行う。
第一情報が音素又は書記素である場合には、特徴量抽出部2により抽出される特徴量は、言語特徴量である。
断片は、例えばワンホットベクトル等のベクトルで表現される。ワンホットベクトルとは、ベクトルの全要素のうち1つだけ1で他は0になっているベクトルである。
このように断片がワンホットベクトル等のベクトルで表現される場合には、特徴量抽出部2は、例えば、断片に対応するベクトルに所定のパラメタ行列を乗算することで、特徴量を計算する。
例えば、第一モデル計算部1が出力した第一情報の列が"helloiammoriya"という書記素で表現された書記素の列であったとする。なお、この場合の書記素は、アルファベットである。
特徴量抽出部2は、まず、この第一情報の列"helloiammoriya"を、"hello/hello", "I/i", "am/am", "moriya/moriya"という断片に分解する。この例では、各断片は、書記素と、その書記素に対応する単語とで表現されている。スラッシュの右が書記素であり、スラッシュの左が単語である。すなわち、この例では、各断片は、"単語/書記素"という形式で表現されている。この各断片の表現の形式は一例であり、各断片は別の形式により表現されてもよい。例えば、各断片は、"hello", "i", "am", "moriya"のように、書記素のみから表現されてもよい。
特徴量抽出部2は、第一情報の列を分解した場合に、各断片の書記素が同じであっても異なる単語の意味の場合や、各断片の書記素の組み合わせが複数ある場合は、それらの組み合わせの中のいずれかの断片に分解する。例えば第一情報の列に多義語に対応する書記素が含まれる場合、特定の意味をもつ単語の断片のいずれかを採用する。
また各断片の書記素の組み合わせが複数ある場合、例えば第一情報の列"Theseissuedprograms."の文法を考慮せずに書記素に分解したいずれかとなる。
"The/the", "SE/SE", "issued/issued", "programs/programs", "./."
"The/the", "SE/SE", "issued/issued", "pro/pro", "grams/grams", "./."
"The/the", "SE/SE", "is/is", "sued/sued", "programs/programs", "./."
"The/the", "SE/SE", "is/is", "sued/sued", "pro/pro", "grams/grams", "./."
"These/these", "issued/issued", "programs/programs", "./."
"These/these", "issued/issued", "pro/pro", "grams/grams", "./."
"These/these", "is/is", "sued/sued", "programs/programs", "./."
"These/these", "is/is", "sued/sued", "pro/pro", "grams/grams", "./."
また、例えば、第一モデル計算部1が出力した第一情報の列が"キョウワヨイテンキデス"という音節で表現された音節の列であったとする。
この場合、特徴量抽出部2は、まず、この第一情報の列"キョウワヨイテンキデス"を、"今日/キョウ", "は/ワ", "良い/ヨイ", "天気/テンキ", "です/デス"という断片、または"共和/キョウワ", "酔い/ヨイ", "転機/テンキ", "出/デ", "素/ス"という断片、"巨/キョ", "宇和/ウワ", "よ/ヨ", "移転/イテン", "木/キ", "です/デス"という断片などのいずれかに分解する。この例では、各断片は、音節と、その音節に対応する単語とで表現されている。スラッシュの右が音節であり、スラッシュの左が単語である。すなわち、この例では、各断片は、"単語/音節"という形式で表現されている。
なお、断片の種類の総数は、後述する第二モデルにより出力確率が計算される第二情報の種類の総数と同じである。また、断片がワンホットベクトルにより表現される場合には、断片の種類の総数は、断片を表現するためのワンホットベクトルの次元数と同じである。
<第二モデル計算部3>
第二モデル計算部3には、特徴量抽出部2により抽出された特徴量が入力される。
第二モデル計算部3は、入力された特徴量を、第二モデルに入力した場合の第二情報の出力確率分布を計算する(ステップS3)。計算された出力確率分布は、モデル更新部4に出力される。
第二モデルは、第一情報の列を所定の単位で区切った各断片に対応する特徴量を入力とし、第一情報の列における各断片の次の断片に対応する第二情報の出力確率分布を出力するモデルである。
以下、第二モデル計算部3の処理を詳細に説明するために、第二モデル計算部3の中間特徴量計算部11及び出力確率分布計算部12について説明する。
<<中間特徴量計算部31>>
中間特徴量計算部31には、音響特徴量が入力される。
中間特徴量計算部31は、入力された音響特徴量と初期モデルのニューラルネットワークモデルとを用いて、中間特徴量を生成する(ステップS11)。中間特徴量は、例えば非特許文献1の式(1)により定義されるものである。
例えば、ある中間層のユニットjから出力される中間特徴量yjは、以下の式(A)のように定義される。
Figure 0007218803000003
ここで、Jは、ユニット数であり、所定の正の整数である。bjは、ユニットjのバイアスである。wijは、1つ下の中間層のユニットiからユニットjへの接続の重みである。
計算された中間特徴量は、出力確率分布計算部32に出力される。
中間特徴量計算部31は、入力された音響特徴量及びニューラルネットワークモデルから、出力確率分布計算部32において正解ユニットを識別しやすくするための中間特徴量を計算する。具体的には、ニューラルネットワークモデルが1個の入力層、複数個の中間層及び1個の出力層で構成されているとして、中間特徴量計算部31は、入力層及び複数個の中間層のそれぞれで中間特徴量の計算を行う。中間特徴量計算部31は、複数個の中間層の中の最後の中間層で計算された中間特徴量を出力確率分布計算部32に出力する。
<<出力確率分布計算部32>>
出力確率分布計算部32には、中間特徴量計算部31が計算した中間特徴量が入力される。
出力確率分布計算部32は、中間特徴量計算部31で最終的に計算された中間特徴量をニューラルネットワークモデルの出力層に入力することにより、出力層の各ユニットに対応する出力確率を並べた出力確率分布を計算し、最も大きな出力確率を有する第一情報を出力する(ステップS12)。出力確率分布は、例えば非特許文献1の式(2)により定義されるものである。
例えば、出力層のユニットjから出力されるpjは、以下のように定義される。
Figure 0007218803000004
計算された出力確率分布は、モデル更新部4に出力される。
<モデル更新部4>
モデル更新部4には、第一モデル計算部1により計算された第一情報の出力確率分布及び音響特徴量に対応する正解ユニット番号が入力される。また、モデル更新部4には、第二モデル計算部3により計算された第二情報の出力確率分布及び第一情報の列に対応する正解ユニット番号が入力される。
モデル更新部4は、第一モデル計算部1で計算された第一情報の出力確率分布と音響特徴量に対応する正解ユニット番号とに基づく第一モデルの更新と、第二モデル計算部で計算された第二情報の出力確率分布と第一情報の列に対応する正解ユニット番号とに基づく第二モデルの更新との少なくとも一方を行う(ステップS4)。
モデル更新部4は、第一モデルの更新及び第二モデルの更新を、同時に行ってもよいし、一方のモデルの更新を行った後に他方のモデルの更新を行ってもよい。
モデル更新部4は、出力確率分布から計算される所定の損失関数を用いて、各モデルの更新を行う。損失関数は、例えば非特許文献1の式(3)により定義されるものである。
例えば、損失関数Cは、以下のように定義される。
Figure 0007218803000005
ここで、djは、正解ユニット情報である。例えば、ユニットj'のみが正解である場合には、j=j'のdj=1であり、j≠j'のdj=0である。
更新されるパラメタは、式(A)のwij,bjである。
t回目の更新後のwijをwij(t)と表記し、t+1回目の更新後のwijをwij(t+1)と表記し、α1を0より大1未満の所定の数とし、ε1を所定の正の数(例えば、0に近い所定の正の数)すると、モデル更新部4は、例えば下記の式に基づいて、t回目の更新後のwij(t)を用いて、t+1回目の更新後のwij(t+1)を求める。
Figure 0007218803000006
t回目の更新後のbjをbj(t)と表記し、t+1回目の更新後のbjをbj(t+1)と表記し、α2を0より大1未満の所定の数とし、ε2を所定の正の数(例えば、0に近い所定の正の数)すると、モデル更新部4は、例えば下記の式に基づいて、t回目の更新後のbj(t)を用いて、t+1回目の更新後のbj(t+1)を求める。
Figure 0007218803000007
モデル更新部4は、通常、学習データとなる特徴量と正解ユニット番号の各ペアに対して、上記の中間特徴量の抽出→出力確率計算→モデル更新の処理を繰り返し、所定回数(通常、数千万~数億回)の繰り返しが完了した時点のモデルを学習済みモデルとする。
なお、新たに学習しようとする第一情報の列がある場合には、特徴量抽出部2及び第二モデル計算部3は、第一モデル計算部1により出力された第一情報の列に代えて、新たに学習しようとする第一情報の列に対して前記と同様の処理(ステップS2及びステップS3の処理)を行い、新たに学習しようとする第一情報の列に対応する、第二情報の出力確率分布を計算する。
また、この場合、モデル更新部4は、第二モデル計算部3で計算された、新たに学習しようとする第一情報の列に対応する、第二情報の列の出力確率分布と新たに学習しようとする第一情報の列に対応する正解ユニット番号とに基づく第二モデルの更新を行う。
このように、この実施形態によれば、新たに学習しようとする第一情報の列に対応する音響特徴量がなくても、その第一情報の列を用いてモデルの学習をすることができることができる。
[実験結果]
例えば、第一モデルと第二モデルを同時に最適化させることで、より良い認識精度のモデルが学習可能であることが実験により確認されている。例えば、第一モデルと第二モデルを別々に最適化した場合には、所定のTask1及びTask2における単語誤り率はそれぞれ16.4%と14.6%であった。これに対して、第一モデルと第二モデルを同時に最適化した場合には、所定のTask1及びTask2における単語誤り率はそれぞれ15.7%と13.2%であった。このように、Task1及びTask2のそれぞれにおいて、第一モデルと第二モデルを同時に最適化した場合の方が、単語誤り率が低くなっている。
[変形例]
以上、本発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、本発明に含まれることはいうまでもない。
例えば、モデル学習装置は、図2に破線で示す第一情報列生成部5を更に備えていてもよい。
第一情報列生成部5は、入力された情報の列を第一情報の列に変換する。第一情報列生成部5により変換された第一情報の列は、新たに学習しようとする第一情報の列として、特徴量抽出部2に出力される。
例えば、第一情報列生成部5は、入力されたテキスト情報を、音素又は書記素の列である第一情報の列に変換する。
実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
例えば、モデル学習装置の構成部間のデータのやり取りは直接行われてもよいし、図示していない記憶部を介して行われてもよい。
[プログラム、記録媒体]
上記説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。例えば、上述の各種の処理は、図4に示すコンピュータの記録部2020に、実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 第一モデル計算部
11 中間特徴量計算部
12 出力確率分布計算部
2 特徴量抽出部
3 第二モデル計算部
31 中間特徴量計算部
32 出力確率分布計算部
4 モデル更新部
5 第一情報列生成部

Claims (6)

  1. 第一の表現形式で表現された情報を第一情報とし、第二の表現形式で表現された情報を第二情報とし、
    音響特徴量を入力とし、音響特徴量に対応する第一情報の出力確率分布を出力するモデルを第一モデルとし、
    第一情報の列を所定の単位で区切った各断片に対応する特徴量を入力とし、第一情報の列における前記各断片の次の断片に対応する第二情報の出力確率分布を出力するモデルを第二モデルとして、
    音響特徴量を前記第一モデルに入力した場合の第一情報の出力確率分布を計算し、最も大きな出力確率を有する第一情報を出力する第一モデル計算部と、
    前記出力された第一情報の列を所定の単位で区切った各断片に対応する特徴量を抽出する特徴量抽出部と、
    前記抽出された特徴量を、前記第二モデルに入力した場合の第二情報の出力確率分布を計算する第二モデル計算部と、
    前記第一モデル計算部で計算された第一情報の出力確率分布と前記音響特徴量に対応する正解ユニット番号とに基づく第一モデルの更新と、前記第二モデル計算部で計算された第二情報の出力確率分布と前記第一情報の列に対応する正解ユニット番号とに基づく前記第二モデルの更新との少なくとも一方を行うモデル更新部と、を含み、
    対応する音響特徴量がない新たに学習しようとする第一情報の列がある場合には、
    前記特徴量抽出部及び前記第二モデル計算部は、前記出力された第一情報の列に代えて、前記新たに学習しようとする第一情報の列に対して前記と同様の処理を行い、前記新たに学習しようとする第一情報の列に対応する、第二情報の出力確率分布を計算し、
    前記モデル更新部は、前記第二モデル計算部で計算された、前記新たに学習しようとする第一情報の列に対応する、第二情報の列の出力確率分布と前記新たに学習しようとする第一情報の列に対応する正解ユニット番号とに基づく前記第二モデルの更新を行う、
    モデル学習装置。
  2. 請求項1のモデル学習装置であって、
    前記モデル学習部は、前記第一モデル計算部で計算された第一情報の出力確率分布と前記音響特徴量に対応する正解ユニット番号とに基づく第一モデルの更新と、前記第二モデル計算部で計算された第二情報の出力確率分布と前記第一情報の列に対応する正解ユニット番号とに基づく前記第二モデルの更新との両方を行う、
    モデル学習装置。
  3. 請求項1又は2のモデル学習装置であって、
    前記第一情報は、音素又は書記素であり、
    前記所定の単位は、音節又は書記素であり、
    前記第二情報は、単語である、
    モデル学習装置。
  4. 請求項1から3の何れかのモデル学習装置であって、
    入力された情報の列を第一情報の列に変換し、前記新たに学習しようとする第一情報の列とする第一情報列生成部を更に含む、
    モデル学習装置。
  5. 第一の表現形式で表現された情報を第一情報とし、第二の表現形式で表現された情報を第二情報とし、
    音響特徴量を入力とし、音響特徴量に対応する第一情報の出力確率分布を出力するモデルを第一モデルとし、
    第一情報の列を所定の単位で区切った各断片に対応する特徴量を入力とし、第一情報の列における前記各断片の次の断片に対応する第二情報の出力確率分布を出力するモデルを第二モデルとして、
    第一モデル計算部が、音響特徴量を前記第一モデルに入力した場合の第一情報の出力確率分布を計算し、最も大きな出力確率を有する第一情報を出力する第一モデル計算ステップと、
    特徴量抽出部が、前記出力された第一情報の列を所定の単位で区切った各断片に対応する特徴量を抽出する特徴量抽出ステップと、
    第二モデル計算部が、前記抽出された特徴量を、前記第二モデルに入力した場合の第二情報の出力確率分布を計算する第二モデル計算ステップと、
    モデル更新部が、前記第一モデル計算部で計算された第一情報の出力確率分布と前記音響特徴量に対応する正解ユニット番号とに基づく第一モデルの更新と、前記第二モデル計算部で計算された第二情報の出力確率分布と前記第一情報の列に対応する正解ユニット番号とに基づく前記第二モデルの更新との少なくとも一方を行うモデル更新ステップと、を含み、
    対応する音響特徴量がない新たに学習しようとする第一情報の列がある場合には、
    前記特徴量抽出ステップ及び前記第二モデル計算ステップは、前記出力された第一情報の列に代えて、前記新たに学習しようとする第一情報の列に対して前記と同様の処理を行い、前記新たに学習しようとする第一情報の列に対応する、第二情報の出力確率分布を計算し、
    前記モデル更新ステップは、前記第二モデル計算部で計算された、前記新たに学習しようとする第一情報の列に対応する、第二情報の列の出力確率分布と前記新たに学習しようとする第一情報の列に対応する正解ユニット番号とに基づく前記第二モデルの更新を行う、
    モデル学習方法。
  6. 請求項1からの何れかのモデル学習装置の各部としてコンピュータを機能させるためのプログラム。
JP2021525420A 2019-06-10 2019-06-10 モデル学習装置、方法及びプログラム Active JP7218803B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/022953 WO2020250279A1 (ja) 2019-06-10 2019-06-10 モデル学習装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2020250279A1 JPWO2020250279A1 (ja) 2020-12-17
JP7218803B2 true JP7218803B2 (ja) 2023-02-07

Family

ID=73780737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021525420A Active JP7218803B2 (ja) 2019-06-10 2019-06-10 モデル学習装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20220230630A1 (ja)
JP (1) JP7218803B2 (ja)
WO (1) WO2020250279A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222121B (zh) * 2021-05-31 2023-08-29 杭州海康威视数字技术股份有限公司 一种数据处理方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014134640A (ja) 2013-01-09 2014-07-24 Nippon Hoso Kyokai <Nhk> 文字起こし装置およびプログラム
JP2015040908A (ja) 2013-08-20 2015-03-02 株式会社リコー 情報処理装置、情報更新プログラム及び情報更新方法
WO2017159207A1 (ja) 2016-03-14 2017-09-21 シャープ株式会社 処理実行装置、処理実行装置の制御方法、および制御プログラム
WO2018051841A1 (ja) 2016-09-16 2018-03-22 日本電信電話株式会社 モデル学習装置、その方法、及びプログラム
JP2018128574A (ja) 2017-02-08 2018-08-16 日本電信電話株式会社 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9177550B2 (en) * 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
US11443169B2 (en) * 2016-02-19 2022-09-13 International Business Machines Corporation Adaptation of model for recognition processing
CN107680597B (zh) * 2017-10-23 2019-07-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
US12008987B2 (en) * 2018-04-30 2024-06-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for decoding intended speech from neuronal activity
JP2019211627A (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014134640A (ja) 2013-01-09 2014-07-24 Nippon Hoso Kyokai <Nhk> 文字起こし装置およびプログラム
JP2015040908A (ja) 2013-08-20 2015-03-02 株式会社リコー 情報処理装置、情報更新プログラム及び情報更新方法
WO2017159207A1 (ja) 2016-03-14 2017-09-21 シャープ株式会社 処理実行装置、処理実行装置の制御方法、および制御プログラム
WO2018051841A1 (ja) 2016-09-16 2018-03-22 日本電信電話株式会社 モデル学習装置、その方法、及びプログラム
JP2018128574A (ja) 2017-02-08 2018-08-16 日本電信電話株式会社 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム

Also Published As

Publication number Publication date
JPWO2020250279A1 (ja) 2020-12-17
WO2020250279A1 (ja) 2020-12-17
US20220230630A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
CN113811946B (zh) 数字序列的端到端自动语音识别
Abandah et al. Automatic diacritization of Arabic text using recurrent neural networks
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP2020505650A (ja) 音声認識システム及び音声認識の方法
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
CN111557029A (zh) 用于训练多语言语音识别网络的方法和***以及用于执行多语言语音识别的语音识别***
US20210035556A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
CN103854643B (zh) 用于合成语音的方法和装置
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN113642316B (zh) 中文文本纠错方法、装置、电子设备及存储介质
CN112397056B (zh) 语音评测方法及计算机存储介质
CN115293138A (zh) 一种文本纠错方法及计算机设备
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
Tian et al. Integrating lattice-free MMI into end-to-end speech recognition
JP7218803B2 (ja) モデル学習装置、方法及びプログラム
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
Bai et al. Integrating knowledge into end-to-end speech recognition from external text-only data
Route et al. Multimodal, multilingual grapheme-to-phoneme conversion for low-resource languages
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
JP6545633B2 (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
CN114444492A (zh) 一种非标准词类判别方法及计算机可读存储介质
Bang et al. Pronunciation variants prediction method to detect mispronunciations by Korean learners of English
Matsushima Dutch dysarthric speech recognition: Applying self-supervised learning to overcome the data scarcity issue
Azim et al. Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230109

R150 Certificate of patent or registration of utility model

Ref document number: 7218803

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150