WO2020035998A1 - 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム - Google Patents

言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム Download PDF

Info

Publication number
WO2020035998A1
WO2020035998A1 PCT/JP2019/024799 JP2019024799W WO2020035998A1 WO 2020035998 A1 WO2020035998 A1 WO 2020035998A1 JP 2019024799 W JP2019024799 W JP 2019024799W WO 2020035998 A1 WO2020035998 A1 WO 2020035998A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
vector
speaker
language model
calculating
Prior art date
Application number
PCT/JP2019/024799
Other languages
English (en)
French (fr)
Inventor
亮 増村
智大 田中
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/268,578 priority Critical patent/US20210174788A1/en
Publication of WO2020035998A1 publication Critical patent/WO2020035998A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Definitions

  • the present invention relates to a language model score calculation device, a learning device, a language model score calculation method, a learning method, and a program.
  • Speech recognition and machine translation require a language model for linguistic prediction.
  • the language model is capable of calculating a language model score (for example, a word prediction probability or the like) representing a language characteristic, and the performance of the language model determines the performance of speech recognition and machine translation.
  • a language model score for example, a word prediction probability or the like
  • RNN recurrent neural network
  • a language model based on a recurrent neural network has a very high language prediction performance, and is actively used in speech recognition, machine translation, and the like.
  • Language models based on recurrent neural networks can be learned from text data. At this time, by learning a language model based on a recurrent neural network from text data suitable for a target task, high language prediction performance can be realized. Note that learning a language model based on a recurrent neural network refers to updating model parameters (that is, parameters of the recurrent neural network) by learning.
  • the language model based on the recurrent neural network when predicting the current word w i under the condition that the word sequence w 1 ,..., W i ⁇ 1 is observed, the immediately preceding word w i ⁇ 1 and the intermediate layer as an input and an output s i-1 of the previous, predicted probability P of the current word w i
  • is a model parameter of a language model based on a recurrent neural network.
  • This prediction probability P is the language model score.
  • the language model based on the recurrent neural network has a long length. distance current word the word history information by using the yang w i of the predicted probability P (w i
  • the output si of the hidden layer is also referred to as a “word history vector”.
  • various recurrent neural networks such as LSTM (Long Short-Term Memory) and GRU (Gated Recurrent Unit) can be used. is there.
  • the conventional language model based on the recurrent neural network is a model that does not consider a speaker, it has been assumed to be used for, for example, speech recognition of a single speaker. Therefore, in a conventional language model based on a recurrent neural network, for example, in conversations between a plurality of people, information on who has spoken and what will be spoken in the past is used explicitly to obtain the current word.
  • the prediction probability ie, the language model score of the language model based on the recurrent neural network
  • the embodiment of the present invention has been made in view of the above points, and has an object to calculate a language model score in consideration of a speaker.
  • a language model score calculation unit for calculating a predicted probability of a word w i, said word w i word w i-1 observed word vector ⁇ just before the (w i-1) and the word vector representation means for converting said word w i-1 speaker label corresponding to r i-1 and the word w speaker vector expression means for converting a speaker label r i corresponding to i into a speaker vector ⁇ (r i-1 ) and a speaker vector ⁇ (r i ), respectively, and the word vector ⁇ (w i- 1 ), the speaker vector ⁇ (r i ⁇ 1 ), and the word history vector s i ⁇ 1 obtained when calculating the predicted probability of the word w i ⁇ 1 , using the word history vector s word to calculate the i footwear
  • FIG. 2 is a diagram illustrating an example of a functional configuration of a model parameter calculation device according to an embodiment of the present invention. It is a flow chart which shows an example of calculation processing of prediction probability distribution in an embodiment of the invention. 9 is a flowchart illustrating an example of a model parameter learning process according to the embodiment of the present invention. It is a figure showing an example of hardware composition of a language model score calculation device and a model parameter learning device in an embodiment of the invention.
  • a language model score calculation device 10 that calculates a language model score considering a speaker in a language model based on a recurrent neural network will be described.
  • a model parameter learning device 20 that can calculate a language model score considering a speaker and learns model parameters ⁇ of a language model based on a recurrent neural network will be described.
  • the content to be uttered differs depending on the sex and role of the speaker. For example, when calculating the predicted probability of the next word to be spoken in the conversation between the operator and the customer in the call center, it is possible to explicitly observe what word sequence each operator and the customer has spoken so far, If it is known whether the user wants to be an operator or a customer, it can be expected that the word to be spoken next can be predicted more precisely.
  • the language model score calculation device 10 calculates a language model score in consideration of a speaker by explicitly introducing speaker information into a language model based on a recurrent neural network.
  • the speaker information is a speaker label indicating a speaker who has spoken a word or a speaker who will speak a word from now. Later represents the speaker label of the speaker to the speech from the speaker or it uttered the word w i and r i.
  • the speaker label sequence of the speaker who has spoken the word sequences w 1 ,..., W i ⁇ 1 observed so far is r 1 , ..., it is expressed as r i-1
  • the speaker label of the word w i, which is now speech is expressed as r i.
  • FIG. 1 is a diagram illustrating an example of a functional configuration of a language model score calculation device 10 according to an embodiment of the present invention.
  • the language model score calculation device 10 has a language model 100 based on a recurrent neural network.
  • the language model 100 is realized by one or more recurrent neural networks.
  • the recurrent neural network for example, various recurrent neural networks such as LSTM and GRU can be used.
  • Language model 100 the word w i-1, and the speaker label r i-1 corresponding to a word w i-1, and the speaker label r i corresponding to a word w i, the word history vector s i-1 , as inputs and the model parameter ⁇ , word w i of the predicted probability P
  • the language model 100 of the language model score calculation device 10 uses the model parameter ⁇ learned by the model parameter learning device 20.
  • r i, w i-1, r i-1, s i-1, ⁇ ) is a language model score of the language model 100.
  • the present invention is not limited to this, the predicted probability P (w i
  • the value of the speaker label r i can be determined from the channel like audio input. For example, if there are two channels of the channel A and channel B, "1" the value of the speaker label r i of word w i constituting the sound input from the channel A, the sound input from the channel B the value of the speaker label r i of word w i that make up the can be determined as "2". In addition to this, for example, as a pre-treatment before you enter the word w i in the language model 100, may be won speaker label r i by any of the speaker label determination unit.
  • the language model 100 includes a word vector expression unit 101, a speaker vector expression unit 102, a word history vector expression unit 103, and a prediction probability calculation unit 104 as functional units.
  • Word vector representation unit 101 when calculating the predicted probability distribution of a word w i, a word w i-1, as inputs and model parameters theta, output word vector ⁇ a (w i-1). That is, the word vector expression unit 101 converts the word wi -1 into a word vector ⁇ (wi -1 ) according to the model parameter ⁇ .
  • a 1-hot vector in which only the element of the dimension corresponding to the word wi -1 is 1 and the other elements are 0 can be adopted.
  • a method of performing a linear conversion on a 1-hot vector may be adopted.
  • Non-Patent Document 2 for example.
  • the speaker vector expression unit 102 receives the speaker label r i ⁇ 1 and the model parameter ⁇ and outputs the speaker vector ⁇ (r i ⁇ 1 ). I do. Also, speaker vector representation unit 102, a speaker label r i, as inputs and model parameters theta, output speaker vector ⁇ a (r i). That is, a speaker vector representation unit 102, according to the model parameter theta, converts the speaker label r i-1 and r i, respectively speaker vector ⁇ (r i-1) and [psi (r i).
  • the speaker vector ⁇ (r i ⁇ 1 ) for example, a 1-hot vector in which only the element of the dimension corresponding to the speaker label r i ⁇ 1 is 1 and the other elements are 0 can be adopted. .
  • a 1-hot vector see Non-patent Document 1 described above, for example.
  • a method of performing a linear conversion on a 1-hot vector may be adopted.
  • Non-Patent Document 2 for example.
  • Word history vector representation unit 103 in the case of calculating the predicted probability distribution of words w i, the word vector ⁇ (w i-1), and the speaker vector ⁇ (r i-1), the last of the word history vector s
  • the word history vector s i is output using i ⁇ 1 and the model parameter ⁇ as inputs. That is, the word history vector expression unit 103 converts the word vector ⁇ (wi -1 ), the speaker vector ⁇ (ri -1 ), and the past word history vector si -1 into a word according to the model parameter ⁇ . to convert to history vector s i.
  • the word history vector expressing unit 103 forms a vector (hereinafter, also referred to as a “combined vector”) obtained by combining the word vector ⁇ (wi -1 ) and the speaker vector ⁇ (ri -1 ). above, by performing the conversion processing based on the recurrent neural network for this binding vector, and it outputs the word history vector s i.
  • a vector hereinafter, also referred to as a “combined vector” obtained by combining the word vector ⁇ (wi -1 ) and the speaker vector ⁇ (ri -1 ).
  • the combined vector is represented as a 264-dimensional vector.
  • the past word history vector s i-1 is calculated by recursive processing of the word history vector expression unit 103.
  • the past word history vector s 0 used when calculating the predicted probability distribution of words w 1, may be that all of the elements is zero vector.
  • Prediction probability calculating unit 104 and past the word history vector s i-1, a speaker vector ⁇ (r i), as inputs and model parameters theta, and outputs a predicted probability distribution of a word w i.
  • the prediction probability calculation unit 104 according to the model parameter ⁇ , and the past of the word history vector s i-1, because the speaker vector ⁇ and (r i), predicted probability P of the word w i (w i
  • Prediction probability calculator 104 for example in a conversion using the softmax function, obtaining a predicted probability distribution of a word w i. For the conversion using the softmax function, see, for example, Non-Patent Documents 1 and 2 described above.
  • the predicted probability distribution of a word w i output in the above can be used in speech recognition or the like.
  • rescoring the upper level M ( ⁇ 1) number of speech recognition hypotheses outputted from the speech recognition system performs the scoring based on the predicted probability of the word w i, speech recognition hypotheses Ring.
  • rescoring is performed using a score obtained by adding a score output from the speech recognition system and a score obtained by taking a natural logarithm of the prediction probability.
  • FIG. 2 is a diagram illustrating an example of a functional configuration of the model parameter learning device 20 according to the embodiment of the present invention.
  • the model parameter learning device 20 includes a language model 100 and a model parameter learning unit 200.
  • the language model 100 is as described above, a detailed description thereof will be omitted.
  • the language model 100 of the model parameter learning device 20 by using the model parameter ⁇ not been learned, and outputs the predicted probability distribution of the word w i.
  • the word sequences w 1 ,..., W N and the speaker label sequences r 1 ,..., R N are, for example, a word sequence and a speaker label sequence in which conversation data of a plurality of persons has been created. .
  • Model parameter learning unit 200 the word sequence w 1, ⁇ ⁇ ⁇ , and w N, as inputs the predicted probability distribution of each word w i outputted from the language model 100, with updated model parameter theta, update The subsequent model parameter ⁇ is output. Thereby, the model parameter ⁇ is learned.
  • the model parameter learning unit 200 updates the model parameter ⁇ so that the likelihood function L ( ⁇ ) shown in the following equation (1) is maximized.
  • the likelihood function L (theta) are model parameters theta to maximize shown in the above formula (1)
  • the prediction of correct word w i i.e., i-th word w i in the word sequence input
  • r i, w i-1, r i-1, s i-1, ⁇ ) means the model parameters with the maximum.
  • the model parameter learning unit 200 may estimate argmaxL ( ⁇ ), and use the estimated value as the updated model parameter ⁇ .
  • argmaxL ( ⁇ ) As a method of estimating the model parameter ⁇ at which the likelihood function L ( ⁇ ) is maximized, various methods can be used. As such a technique, for example, an error back-propagation method or the like is cited.
  • the language model score calculation device 10 and the model parameter learning device 20 are different devices.
  • the present invention is not limited to this.
  • the language model score calculation device 10 and the model parameter learning device The device 20 may be the same device.
  • Step S101 The word vector expression unit 101 obtains a word vector ⁇ (wi -1 ) using the previous word wi -1 and the model parameter ⁇ as inputs. That is, the word vector expression unit 101 converts the word wi -1 into a word vector ⁇ (wi -1 ) according to the model parameter ⁇ .
  • Step S102 The speaker vector expressing unit 102 receives the speaker label r i ⁇ 1 and the model parameter ⁇ to obtain a speaker vector ⁇ (r i ⁇ 1 ). That is, the speaker vector expressing unit 102 converts the speaker label r i ⁇ 1 into a speaker vector ⁇ (r i ⁇ 1 ) according to the model parameter ⁇ .
  • Step S103 speaker vector representation unit 102 obtains a speaker label r i, as inputs and model parameters theta, speaker vector ⁇ a (r i). That is, a speaker vector representation unit 102, according to the model parameter theta, converts the speaker label r i the speaker vector [psi (r i).
  • steps S101 to S103 are in any order. Further, the processing of step S101 and any of the processing of step S102 or S103 may be executed in parallel. Further, the processing in step S103 described above may be executed after the processing in step S104 described later.
  • Step S104 The word history vector expressing unit 103 converts the word vector ⁇ (wi -1 ), the speaker vector ⁇ (ri -1 ), the past word history vector si -1 and the model parameter ⁇ . as input, get the word history vector s i. That is, word history vector representation 103 word vector ⁇ (w i-1) and the speaker vector ⁇ (r i-1) and on which constitutes the combining vector that combines, according to the model parameters theta, and combining vectors , And the past word history vector s i ⁇ 1 are converted to the word history vector s i .
  • Step S105 the prediction probability calculating unit 104 obtains a past word history vector s i-1, a speaker vector ⁇ (r i), as inputs and model parameters theta, the predicted probability distribution of a word w i.
  • the prediction probability calculation unit 104 according to the model parameter ⁇ , and the past of the word history vector s i-1, because the speaker vector ⁇ and (r i), predicted probability P of the word w i (w i
  • each word w i each predicted probability P (w i
  • FIG. 4 is a flowchart illustrating an example of a model parameter learning process according to the embodiment of the present invention.
  • the model parameter ⁇ is initialized to an appropriate initial value, for example.
  • Step S202 Next, the model parameter learning unit 200, the word sequence w 1, ⁇ ⁇ ⁇ , and w N, as inputs the predicted probability distribution of each word w i outputted from the language model 100, the model parameter ⁇ After updating, the updated model parameter ⁇ is output. At this time, the model parameter learning unit 200 updates the model parameter ⁇ so that the likelihood function L ( ⁇ ) shown in the above equation (1) is maximized. Thereby, the model parameter ⁇ is learned.
  • steps S201 ⁇ step S202 for example, a word sequence w 1, ⁇ , w N and the speaker label sequence r 1, ⁇ ⁇ ⁇ , if a set of the r N are given more , May be repeatedly executed for each set.
  • FIG. 5 is a diagram illustrating an example of a hardware configuration of the language model score calculation device 10 and the model parameter learning device 20 according to the embodiment of the present invention. Since the language model score calculation device 10 and the model parameter learning device 20 have substantially the same hardware configuration, the hardware configuration of the language model score calculation device 10 will be mainly described below.
  • the language model score calculation device 10 includes an input device 301, a display device 302, an external I / F 303, a RAM (Random Access Memory) 304, and a ROM (Read). Only @ Memory) 305, a processor 306, a communication I / F 307, and an auxiliary storage device 308. Each of these pieces of hardware is communicably connected via a bus 309.
  • the input device 301 is, for example, a keyboard, a mouse, a touch panel, or the like, and is used by a user to input various operations.
  • the display device 302 is, for example, a display, and displays a processing result of the language model score calculation device 10.
  • the language model score calculation device 10 and the model parameter learning device 20 need not have at least one of the input device 301 and the display device 302.
  • the external I / F 303 is an interface with an external device.
  • the external device includes a recording medium 303a and the like.
  • the language model score calculation device 10 can read and write the recording medium 303a and the like via the external I / F 303.
  • the recording medium 303a may store one or more programs that implement the language model 100 and the model parameter learning unit 200, model parameters ⁇ , and the like.
  • Examples of the recording medium 303a include a flexible disk, a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital Memory card), and a USB (Universal Serial Bus) memory card.
  • a flexible disk a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital Memory card), and a USB (Universal Serial Bus) memory card.
  • the RAM 304 is a volatile semiconductor memory that temporarily stores programs and data.
  • the ROM 305 is a nonvolatile semiconductor memory that can retain programs and data even when the power is turned off.
  • the ROM 305 stores, for example, setting information about an OS (Operating System), setting information about a communication network, and the like.
  • the processor 306 is, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.
  • the language model 100 and the model parameter learning unit 200 are realized by, for example, a process of causing the processor 306 to execute one or more programs stored in the auxiliary storage device 308.
  • the language model score calculation device 10 and the model parameter learning device 20 may include both a CPU and a GPU as the processor 306, or may include only one of the CPU and the GPU.
  • the communication I / F 307 is an interface for connecting the language model score calculation device 10 to a communication network.
  • One or more programs that implement the language model 100 and the model parameter learning unit 200 may be obtained (downloaded) from a predetermined server or the like via the communication I / F 307.
  • the auxiliary storage device 308 is, for example, a hard disk drive (HDD) or a solid state drive (SSD), and is a nonvolatile storage device that stores programs and data.
  • the programs and data stored in the auxiliary storage device 308 include, for example, an OS, an application program, one or more programs that implement the language model 100 and the model parameter learning unit 200, a model parameter ⁇ , and the like.
  • the language model score calculation device 10 and the model parameter learning device 20 can realize the above-described various processes by having the hardware configuration illustrated in FIG. FIG. 5 shows an example of a hardware configuration in the case where the language model score calculation device 10 is realized by one computer.
  • the present invention is not limited to this.
  • the language model score calculation device 10 and the model parameter learning device 20 It may be realized by a plurality of computers.
  • the language model score calculating apparatus 10 uses the speaker label r i-1 corresponding to the previous word w i-1 and the speaker label r i-1 corresponding to the current word w i. who by using a label r i, as a language model score of the language model 100 based on recurrent neural network, so that it is possible to calculate the predicted probability of a word w i in consideration of the speaker. Thereby, more precise word prediction can be performed by using the language model score calculated by the language model score calculation device 10 according to the embodiment of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語wの予測確率を算出する言語モデルスコア算出装置であって、前記単語wの直前に観測された単語wi-1を単語ベクトルΦ(wi-1)に変換する単語ベクトル表現手段と、前記単語wi-1に対応する話者ラベルri-1と前記単語wに対応する話者ラベルrとをそれぞれ話者ベクトルΨ(ri-1)と話者ベクトルΨ(r)とに変換する話者ベクトル表現手段と、前記単語ベクトルΦ(wi-1)と、前記話者ベクトルΨ(ri-1)と、前記単語wi-1の予測確率を算出する際に得られた単語履歴ベクトルsi-1とを用いて、単語履歴ベクトルsを算出する単語履歴ベクトル表現手段と、前記単語履歴ベクトルsi-1と、前記話者ベクトルΨ(r)とを用いて、前記単語wの予測確率を算出する予測確率算出手段と、を有することを特徴とする。

Description

言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
 本発明は、言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラムに関する。
 音声認識や機械翻訳等では、言語的な予測のために言語モデルが必要である。言語モデルは、言語らしさを表す言語モデルスコア(例えば、単語の予測確率等)を算出可能なものであり、その性能が音声認識や機械翻訳等の性能を左右するものである。これまで様々な種類の言語モデルが提案されているが、近年、リカレントニューラルネットワーク(RNN:Recurrent Neural Network)に基づく言語モデルが注目されている(例えば、非特許文献1及び2を参照)。リカレントニューラルネットワークに基づく言語モデルは非常に高い言語予測性能を持ち、音声認識や機械翻訳等で積極的に利用されている。
 リカレントニューラルネットワークに基づく言語モデルは、テキストデータから学習することができる。このとき、対象とするタスクに適合したテキストデータからリカレントニューラルネットワークに基づく言語モデルを学習することで、高い言語予測性能を実現するこができる。なお、リカレントニューラルネットワークに基づく言語モデルの学習とは、モデルパラメータ(すなわち、リカレントニューラルネットワークのパラメータ)を学習によって更新することである。
 リカレントニューラルネットワークに基づく言語モデルでは、単語系列w,・・・,wi-1が観測された条件下で現在の単語wを予測する場合、直前の単語wi-1と中間層の直前の出力si-1とを入力として、現在の単語wの予測確率P(w|wi-1,si-1,θ)の確率分布を出力する。ここで、θはリカレントニューラルネットワークに基づく言語モデルのモデルパラメータである。この予測確率Pが言語モデルスコアである。
 中間層の出力si-1にはi-2番目までの全ての単語の単語系列w,・・・,wi-2が埋め込まれているため、リカレントニューラルネットワークに基づく言語モデルでは、長距離の単語履歴情報を陽に利用して現在の単語wの予測確率P(w|wi-1,si-1,θ)、つまり言語モデルスコアを算出することができる。以降では、中間層の出力sを「単語履歴ベクトル」とも表す。なお、リカレントニューラルネットワークに基づく言語モデルに利用可能なリカレントニューラルネットワークは様々に存在し、例えば、LSTM(Long Short-Term Memory)やGRU(Gated Recurrent Unit)等の種々のリカレントニューラルネットワークが利用可能である。
Mikolov Tomas, Karafiat Martin, Burget Lukas, Cernocky Jan, Khudanpur Sanjeev, "Recurrent neural network based language model", INTERSPEECH 2010, pp. 1045-1048, 2010. Martin Sundermeyer, Ralf Schluter, and Hermann Ney, "LSTM Neural Networks for Language Modeling", INTERSPEECH 2012.
 しかしながら、従来のリカレントニューラルネットワークに基づく言語モデルは、話者を考慮しないモデルであるため、例えば単一話者の音声認識等に利用することを想定したモデルであった。したがって、従来のリカレントニューラルネットワークに基づく言語モデルでは、例えば、複数人間での会話等において、これまで誰が何を話してきて、これから誰が話すのか、といった情報を陽に活用して、現在の単語の予測確率(すなわち、リカレントニューラルネットワークに基づく言語モデルの言語モデルスコア)を算出することができなかった。
 本発明の実施の形態は、上記の点に鑑みてなされたもので、話者を考慮した言語モデルスコアを算出することを目的とする。
 上記目的を達成するため、本発明の実施の形態は、リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語wの予測確率を算出する言語モデルスコア算出装置であって、前記単語wの直前に観測された単語wi-1を単語ベクトルΦ(wi-1)に変換する単語ベクトル表現手段と、前記単語wi-1に対応する話者ラベルri-1と前記単語wに対応する話者ラベルrとをそれぞれ話者ベクトルΨ(ri-1)と話者ベクトルΨ(r)とに変換する話者ベクトル表現手段と、前記単語ベクトルΦ(wi-1)と、前記話者ベクトルΨ(ri-1)と、前記単語wi-1の予測確率を算出する際に得られた単語履歴ベクトルsi-1とを用いて、単語履歴ベクトルsを算出する単語履歴ベクトル表現手段と、前記単語履歴ベクトルsi-1と、前記話者ベクトルΨ(r)とを用いて、前記単語wの予測確率を算出する予測確率算出手段と、を有することを特徴とする。
 話者を考慮した言語モデルスコアを算出することができる。
本発明の実施の形態における言語モデルスコア算出装置の機能構成の一例を示す図である。 本発明の実施の形態におけるモデルパラメータ算出装置の機能構成の一例を示す図である。 本発明の実施の形態における予測確率分布の算出処理の一例を示すフローチャートである。 本発明の実施の形態におけるモデルパラメータの学習処理の一例を示すフローチャートである。 本発明の実施の形態における言語モデルスコア算出装置及びモデルパラメータ学習装置のハードウェア構成の一例を示す図である。
 以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態では、リカレントニューラルネットワークに基づく言語モデルにおいて、話者を考慮した言語モデルスコアを算出する言語モデルスコア算出装置10について説明する。また、本発明の実施の形態では、話者を考慮した言語モデルスコアを算出可能な、リカレントニューラルネットワークに基づく言語モデルのモデルパラメータθを学習するモデルパラメータ学習装置20について説明する。
 ここで、一般に、発話する内容は話者の性別や役割等の違いによって異なると考えられる。例えば、コールセンターにおけるオペレータとカスタマーとの対話において次に発話する単語の予測確率を算出する場合、オペレータとカスタマーとの各々がこれまでどのような単語系列を発話したかを陽に観測でき、これから予測したい対象がオペレータであるか又はカスタマーであるかが分かっていれば、次に発話する単語の予測がより精緻に行えることが期待できる。
 すなわち、オペレータが次に発話する単語を予測する場合は、例えば、これまでオペレータが話していた発話スタイルの単語を発話すると共に、直前のカスタマーの単語に応対するような単語を発話することが考えられる。このため、話者を考慮した言語モデルスコアを算出することで、より精緻な単語予測を行うことができる。
 そこで、本発明の実施の形態における言語モデルスコア算出装置10は、リカレントニューラルネットワークに基づく言語モデルに対して話者情報を陽に導入することで、話者を考慮した言語モデルスコアを算出する。ここで、話者情報とは、単語を発話した話者又はこれから単語を発話する話者を表す話者ラベルのことである。以降では、単語wを発話した話者又はこれから発話する話者の話者ラベルをrと表す。例えば、i番目の単語wの予測確率を算出する場合に、これまで観測された単語系列w,・・・,wi-1をそれぞれ発話した話者の話者ラベル系列はr,・・・,ri-1と表され、これから発話される単語wの話者ラベルはrと表される。
 <言語モデルスコア算出装置10の機能構成>
 まず、本発明の実施の形態における言語モデルスコア算出装置10の機能構成について、図1を参照しながら説明する。図1は、本発明の実施の形態における言語モデルスコア算出装置10の機能構成の一例を示す図である。
 図1に示すように、本発明の実施の形態における言語モデルスコア算出装置10は、リカレントニューラルネットワークに基づく言語モデル100を有する。この言語モデル100は、1以上のリカレントニューラルネットワークにより実現される。なお、リカレントニューラルネットワークとしては、例えば、LSTMやGRU等の種々のリカレントニューラルネットワークを利用することができる。
 言語モデル100は、単語wi-1と、単語wi-1に対応する話者ラベルri-1と、単語wに対応する話者ラベルrと、単語履歴ベクトルsi-1と、モデルパラメータθとを入力として、単語wの予測確率P(w|r,wi-1,ri-1,si-1,θ)の確率分布(すなわち、単語wの予測確率分布)を出力する。このとき、言語モデルスコア算出装置10の言語モデル100は、モデルパラメータ学習装置20により学習されたモデルパラメータθを用いる。なお、この予測確率P(w|r,wi-1,ri-1,si-1,θ)が言語モデル100の言語モデルスコアである。ただし、これに限られず、この予測確率P(w|r,wi-1,ri-1,si-1,θ)に基づく値(例えば、予測確率P(w|r,wi-1,ri-1,si-1,θ)の自然対数をとった値等)を言語モデルスコアとしても良い。
 ここで、話者ラベルrの値は、音声入力のチャネル等から決定することができる。例えば、チャネルAとチャネルBとの2つのチャネルがある場合に、チャネルAから入力された音を構成する単語wの話者ラベルrの値を「1」、チャネルBから入力された音を構成する単語wの話者ラベルrの値を「2」と決定することができる。これ以外にも、例えば、言語モデル100に単語wを入力する前の前処理として、任意の話者ラベル判定器によって話者ラベルrを獲得しても良い。
 言語モデル100は、機能部として、単語ベクトル表現部101と、話者ベクトル表現部102と、単語履歴ベクトル表現部103と、予測確率算出部104とを有する。
 単語ベクトル表現部101は、単語wの予測確率分布を算出する場合に、単語wi-1と、モデルパラメータθとを入力として、単語ベクトルΦ(wi-1)を出力する。すなわち、単語ベクトル表現部101は、モデルパラメータθに従って、単語wi-1を単語ベクトルΦ(wi-1)に変換する。
 単語ベクトルΦ(wi-1)としては、例えば、単語wi-1に対応する次元の要素のみを1、それ以外の要素を0とする1-hotベクトルを採用することができる。1-hotベクトルについては、例えば、上記の非特許文献1を参照されたい。なお、これ以外にも、例えば、1-hotベクトルに対して線形変換を行う方法等を採用することもできる。1-hotベクトルに対して線形変換を行う例については、例えば、上記の非特許文献2を参照されたい。
 話者ベクトル表現部102は、単語wの予測確率分布を算出する場合に、話者ラベルri-1と、モデルパラメータθとを入力として、話者ベクトルΨ(ri-1)を出力する。また、話者ベクトル表現部102は、話者ラベルrと、モデルパラメータθとを入力として、話者ベクトルΨ(r)を出力する。すなわち、話者ベクトル表現部102は、モデルパラメータθに従って、話者ラベルri-1及びrをそれぞれ話者ベクトルΨ(ri-1)及びΨ(r)に変換する。
 話者ベクトルΨ(ri-1)としては、例えば、話者ラベルri-1に対応する次元の要素のみを1、それ以外の要素を0とする1-hotベクトルを採用することができる。話者ベクトルΨ(r)についても同様である。1-hotベクトルについては、例えば、上記の非特許文献1を参照されたい。なお、これ以外にも、例えば、1-hotベクトルに対して線形変換を行う方法等を採用することもできる。1-hotベクトルに対して線形変換を行う例については、例えば、上記の非特許文献2を参照されたい。
 単語履歴ベクトル表現部103は、単語wの予測確率分布を算出する場合に、単語ベクトルΦ(wi-1)と、話者ベクトルΨ(ri-1)と、過去の単語履歴ベクトルsi-1と、モデルパラメータθとを入力として、単語履歴ベクトルsを出力する。すなわち、単語履歴ベクトル表現部103は、モデルパラメータθに従って、単語ベクトルΦ(wi-1)と、話者ベクトルΨ(ri-1)と、過去の単語履歴ベクトルsi-1とを単語履歴ベクトルsに変換する。このとき、単語履歴ベクトル表現部103は、単語ベクトルΦ(wi-1)と話者ベクトルΨ(ri-1)とを結合したベクトル(以降、「結合ベクトル」とも表す。)を構成した上で、この結合ベクトルに対してリカレントニューラルネットワークに基づく変換処理を実施することで、単語履歴ベクトルsを出力する。リカレントニューラルネットワークに基づく変換処理については、例えば、上記の非特許文献1や非特許文献2を参照されたい。
 なお、結合ベクトルは、例えば、単語ベクトルΦ(wi-1)の次元数が200、話者ベクトルΨ(ri-1)の次元数が64である場合、264次元のベクトルとして表される。また、過去の単語履歴ベクトルsi-1は、単語履歴ベクトル表現部103の再帰的な処理により計算されたものである。単語wの予測確率分布を算出する場合に用いる過去の単語履歴ベクトルsとしては、全ての要素が0であるベクトルとすれば良い。
 予測確率算出部104は、過去の単語履歴ベクトルsi-1と、話者ベクトルΨ(r)と、モデルパラメータθとを入力として、単語wの予測確率分布を出力する。すなわち、予測確率算出部104は、モデルパラメータθに従って、過去の単語履歴ベクトルsi-1と、話者ベクトルΨ(r)とから、単語wの予測確率P(w|r,wi-1,ri-1,si-1,θ)の確率分布を出力する。予測確率算出部104は、例えば、ソフトマックス関数を用いた変換により、単語wの予測確率分布を得ることができる。ソフトマックス関数を用いた変換については、例えば、上記の非特許文献1や非特許文献2を参照されたい。
 なお、上記で出力された単語wの予測確率分布は、例えば、音声認識等で利用することができる。具体的には、例えば、音声認識システムから出力される音声認識仮説のうちの上位M(≧1)個に対して、単語wの予測確率に基づきスコアリングを行い、音声認識仮説をリスコアリングする。例えば、音声認識システムが出力するスコアと、この予測確率の自然対数をとったスコアとを足し合わせたスコアで、リスコアリングを行う。
 <モデルパラメータ学習装置20の機能構成>
 次に、本発明の実施の形態におけるモデルパラメータ学習装置20の機能構成について、図2を参照しながら説明する。図2は、本発明の実施の形態におけるモデルパラメータ学習装置20の機能構成の一例を示す図である。
 図2に示すように、本発明の実施の形態におけるモデルパラメータ学習装置20は、言語モデル100と、モデルパラメータ学習部200とを有する。ここで、言語モデル100は、上述した通りであるため、その詳細な説明は省略する。ただし、モデルパラメータ学習装置20の言語モデル100は、学習済みでないモデルパラメータθを用いて、単語wの予測確率分布を出力する。
 言語モデル100は、学習済みでないモデルパラメータθを用いて、単語系列w,・・・,wと、話者ラベル系列r,・・・,rとを入力として、単語wの予測確率分布を出力する。すなわち、言語モデル100は、i=1からNまで順に、単語wi-1と、話者ラベルrと、話者ラベルri-1とを入力として、単語wの予測確率分布を出力する。これにより、単語wから単語wまでの予測確率分布が得られる。なお、単語系列w,・・・,w及び話者ラベル系列r,・・・,rは、例えば、複数人間での会話データが作成された単語系列及び話者ラベル系列である。
 モデルパラメータ学習部200は、単語系列w,・・・,wと、言語モデル100から出力された各単語wの予測確率分布とを入力として、モデルパラメータθを更新した上で、更新後のモデルパラメータθを出力する。これにより、モデルパラメータθが学習される。
 このとき、モデルパラメータ学習部200は、以下の式(1)に示す尤度関数L(θ)が最大となるようにモデルパラメータθを更新する。
Figure JPOXMLDOC01-appb-M000001
 ここで、P(w|r,wi-1,ri-1,si-1,θ)は、入力された単語系列w,・・・,wのうちの単語wの予測確率である。例えば、単語wが「word1」、「word2」、「word3」を取り得る場合であって、入力された単語系列中のi番目の単語wが「word2」である場合、P(w|r,wi-1,ri-1,si-1,θ)は、単語「word2」の予測確率、つまりP(word2|r,wi-1,ri-1,si-1,θ)である。したがって、上記の式(1)に示す尤度関数L(θ)が最大化させるモデルパラメータθとは、正解単語w(つまり、入力された単語系列中のi番目の単語w)の予測確率P(w|r,wi-1,ri-1,si-1,θ)が最大となるモデルパラメータを意味する。
 このため、モデルパラメータ学習部200は、argmaxL(θ)を推定した上で、この推定値を、更新後のモデルパラメータθとすれば良い。尤度関数L(θ)が最大となるモデルパラメータθを推定する方法としては、様々な手法を利用することができる。このような手法としては、例えば、誤差逆伝播法等が挙げられる。
 なお、本発明の実施の形態では、言語モデルスコア算出装置10とモデルパラメータ学習装置20とが異なる装置であるもとしたが、これに限られず、例えば、言語モデルスコア算出装置10とモデルパラメータ学習装置20とが同一の装置であっても良い。
 <予測確率分布の算出処理>
 次に、本発明の実施の形態における言語モデルスコア算出装置10が予測確率分布を算出する処理について、図3を参照しながら説明する。図3は、本発明の実施の形態における予測確率分布の算出処理の一例を示すフローチャートである。なお、図3のステップS101~ステップS105の処理は、単語のインデックスを表すi毎に、i=1から順に繰り返し実行される。以降では、或る単語wの予測確率分布を算出する場合について説明する。また、モデルパラメータθは予め学習済みであるものとする。
 ステップS101:単語ベクトル表現部101は、1つ前の単語wi-1と、モデルパラメータθとを入力として、単語ベクトルΦ(wi-1)を得る。すなわち、単語ベクトル表現部101は、モデルパラメータθに従って、単語wi-1を単語ベクトルΦ(wi-1)に変換する。
 ステップS102:話者ベクトル表現部102は、話者ラベルri-1と、モデルパラメータθとを入力として、話者ベクトルΨ(ri-1)を得る。すなわち、話者ベクトル表現部102は、モデルパラメータθに従って、話者ラベルri-1を話者ベクトルΨ(ri-1)に変換する。
 ステップS103:話者ベクトル表現部102は、話者ラベルrと、モデルパラメータθとを入力として、話者ベクトルΨ(r)を得る。すなわち、話者ベクトル表現部102は、モデルパラメータθに従って、話者ラベルrを話者ベクトルΨ(r)に変換する。
 なお、上記のステップS101~ステップS103の処理は順不同である。また、上記のステップS101の処理と、上記のステップS102又はステップS103のいずれかの処理とが並列で実行されても良い。また、上記のステップS103の処理は、後述するステップS104の処理の後に実行されても良い。
 ステップS104:単語履歴ベクトル表現部103は、単語ベクトルΦ(wi-1)と、話者ベクトルΨ(ri-1)と、過去の単語履歴ベクトルsi-1と、モデルパラメータθとを入力として、単語履歴ベクトルsを得る。すなわち、単語履歴ベクトル表現部103は、単語ベクトルΦ(wi-1)と話者ベクトルΨ(ri-1)とを結合した結合ベクトルを構成した上で、モデルパラメータθに従って、結合ベクトルと、過去の単語履歴ベクトルsi-1とを単語履歴ベクトルsに変換する。
 ステップS105:予測確率算出部104は、過去の単語履歴ベクトルsi-1と、話者ベクトルΨ(r)と、モデルパラメータθとを入力として、単語wの予測確率分布を得る。すなわち、予測確率算出部104は、モデルパラメータθに従って、過去の単語履歴ベクトルsi-1と、話者ベクトルΨ(r)とから、単語wの予測確率P(w|r,wi-1,ri-1,si-1,θ)の確率分布を得る。
 これにより、言語モデル100の言語モデルスコアとして、例えば、各単語wそれぞれの予測確率P(w|r,wi-1,ri-1,si-1,θ)が得られる。これらの予測確率Pは話者を考慮した言語モデルスコアであるため、この言語モデルスコアによってより精緻な単語予測を行うことができるようになる。
 <モデルパラメータの学習処理>
 次に、本発明の実施の形態におけるモデルパラメータ学習装置20によりモデルパラメータを学習する処理について、図4を参照しながら説明する。図4は、本発明の実施の形態におけるモデルパラメータの学習処理の一例を示すフローチャートである。以降では、モデルパラメータθは、例えば、適切な初期値に初期化されているものとする。
 ステップS201:言語モデル100は、学習済みでないモデルパラメータθを用いて、単語系列w,・・・,wと、話者ラベル系列r,・・・,rとを入力として、単語wの予測確率分布を出力する。すなわち、言語モデル100は、i=1からNまで順に、単語wi-1と、話者ラベルrと、話者ラベルri-1とを入力として、上記のステップS101~ステップS105の処理により単語wの予測確率分布を出力する。これにより、単語wから単語wまでの予測確率分布が得られる。
 ステップS202:次に、モデルパラメータ学習部200は、単語系列w,・・・,wと、言語モデル100から出力された各単語wの予測確率分布とを入力として、モデルパラメータθを更新した上で、更新後のモデルパラメータθを出力する。このとき、モデルパラメータ学習部200は、上記の式(1)に示す尤度関数L(θ)が最大となるようにモデルパラメータθを更新する。これにより、モデルパラメータθが学習される。
 なお、上記のステップS201~ステップS202の処理は、例えば、単語系列w,・・・,wと話者ラベル系列r,・・・,rとの組が複数与えられた場合に、この組毎に繰り返し実行されても良い。
 <言語モデルスコア算出装置10及びモデルパラメータ学習装置20のハードウェア構成>
 次に、本発明の実施の形態における言語モデルスコア算出装置10及びモデルパラメータ学習装置20のハードウェア構成について、図5を参照しながら説明する。図5は、本発明の実施の形態における言語モデルスコア算出装置10及びモデルパラメータ学習装置20のハードウェア構成の一例を示す図である。なお、言語モデルスコア算出装置10及びモデルパラメータ学習装置20は略同様のハードウェア構成を有しているため、以降では、主に、言語モデルスコア算出装置10のハードウェア構成について説明する。
 図5に示すように、本発明の実施の形態における言語モデルスコア算出装置10は、入力装置301と、表示装置302と、外部I/F303と、RAM(Random Access Memory)304と、ROM(Read Only Memory)305と、プロセッサ306と、通信I/F307と、補助記憶装置308とを有する。これら各ハードウェアは、それぞれがバス309を介して通信可能に接続されている。
 入力装置301は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置302は、例えばディスプレイ等であり、言語モデルスコア算出装置10の処理結果を表示する。なお、言語モデルスコア算出装置10及びモデルパラメータ学習装置20は、入力装置301及び表示装置302のうちの少なくとも一方を有していなくても良い。
 外部I/F303は、外部装置とのインタフェースである。外部装置には、記録媒体303a等がある。言語モデルスコア算出装置10は、外部I/F303を介して、記録媒体303a等の読み取りや書き込みを行うことができる。記録媒体303aには、言語モデル100やモデルパラメータ学習部200を実現する1以上のプログラム、モデルパラメータθ等が記録されていても良い。
 記録媒体303aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
 RAM304は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM305は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM305には、例えば、OS(Operating System)に関する設定情報や通信ネットワークに関する設定情報等が格納されている。
 プロセッサ306は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等であり、ROM305や補助記憶装置308等からプログラムやデータをRAM304上に読み出して処理を実行する演算装置である。言語モデル100やモデルパラメータ学習部200は、例えば、補助記憶装置308に格納されている1以上のプログラムがプロセッサ306に実行させる処理により実現される。なお、言語モデルスコア算出装置10及びモデルパラメータ学習装置20は、プロセッサ306としてCPUとGPUとの両方を有していても良いし、CPU又はGPUのいずれか一方のみを有していても良い。
 通信I/F307は、言語モデルスコア算出装置10を通信ネットワークに接続するためのインタフェースである。言語モデル100やモデルパラメータ学習部200を実現する1以上のプログラムは、通信I/F307を介して、所定のサーバ等から取得(ダウンロード)されても良い。
 補助記憶装置308は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置308に格納されているプログラムやデータには、例えば、OS、アプリケーションプログラム、言語モデル100やモデルパラメータ学習部200を実現する1以上のプログラム、モデルパラメータθ等が挙げられる。
 本発明の実施の形態における言語モデルスコア算出装置10及びモデルパラメータ学習装置20は、図5に示すハードウェア構成を有することにより、上述した各種処理を実現することができる。なお、図5では、言語モデルスコア算出装置10が1台のコンピュータで実現される場合のハードウェア構成例を示したが、これに限られず、言語モデルスコア算出装置10及びモデルパラメータ学習装置20は複数台のコンピュータで実現されていても良い。
 <まとめ>
 以上のように、本発明の実施の形態における言語モデルスコア算出装置10は、1つ前の単語wi-1に対応する話者ラベルri-1と、現在の単語wに対応する話者ラベルrとを用いることで、リカレントニューラルネットワークに基づく言語モデル100の言語モデルスコアとして、話者を考慮した単語wの予測確率を算出することができるようになる。これにより、本発明の実施の形態における言語モデルスコア算出装置10によって算出された言語モデルスコアを用いることで、より精緻な単語予測を行うことができるようになる。
 本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
 10    言語モデルスコア算出装置
 20    モデルパラメータ学習装置
 100   言語モデル
 101   単語ベクトル表現部
 102   話者ベクトル表現部
 103   単語履歴ベクトル表現部
 104   予測確率算出部
 200   モデルパラメータ学習部

Claims (8)

  1.  リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語wの予測確率を算出する言語モデルスコア算出装置であって、
     前記単語wの直前に観測された単語wi-1を単語ベクトルΦ(wi-1)に変換する単語ベクトル表現手段と、
     前記単語wi-1に対応する話者ラベルri-1と前記単語wに対応する話者ラベルrとをそれぞれ話者ベクトルΨ(ri-1)と話者ベクトルΨ(r)とに変換する話者ベクトル表現手段と、
     前記単語ベクトルΦ(wi-1)と、前記話者ベクトルΨ(ri-1)と、前記単語wi-1の予測確率を算出する際に得られた単語履歴ベクトルsi-1とを用いて、単語履歴ベクトルsを算出する単語履歴ベクトル表現手段と、
     前記単語履歴ベクトルsi-1と、前記話者ベクトルΨ(r)とを用いて、前記単語wの予測確率を算出する予測確率算出手段と、
     を有することを特徴とする言語モデルスコア算出装置。
  2.  前記単語履歴ベクトル表現手段は、
     前記単語ベクトルΦ(wi-1)と前記話者ベクトルΨ(ri-1)とを結合した結合ベクトルを構成した上で、前記結合ベクトルと前記単語履歴ベクトルsi-1とから前記単語履歴ベクトルsを算出する、ことを特徴とする請求項1に記載の言語モデルスコア算出装置。
  3.  前記話者ラベルri-1は、前記単語wi-1を発話した話者を表す情報であり、
     前記話者ラベルrは、前記単語wをこれから発話する話者を表す情報である、ことを特徴とする請求項1又は2に記載の言語モデルスコア算出装置。
  4.  リカレントニューラルネットワークに基づく言語モデルのモデルパラメータθを学習する学習装置であって、
     単語系列w,・・・,wと、前記単語w,・・・,wに含まれる各単語の話者を表す話者ラベル系列r,・・・,rとを入力として、前記言語モデルにより、前記単語系列w,・・・,wに含まれる単語w毎に、該単語wの予測確率分布を算出する算出手段と、
     前記単語系列w,・・・,wと、前記単語w毎の予測確率分布とを用いて、前記言語モデルのモデルパラメータθを更新するパラメータ更新手段と、
     を有することを特徴とする学習装置。
  5.  前記パラメータ更新手段は、
     前記単語系列w,・・・,wに含まれる各単語を正解単語として、各予測確率分布における正解単語の予測確率が最大となるように前記モデルパラメータθを更新する、ことを特徴とする請求項4に記載の学習装置。
  6.  リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語wの予測確率を算出する言語モデルスコア算出装置が、
     前記単語wの直前に観測された単語wi-1を単語ベクトルΦ(wi-1)に変換する単語ベクトル表現手順と、
     前記単語wi-1に対応する話者ラベルri-1と前記単語wに対応する話者ラベルrとをそれぞれ話者ベクトルΨ(ri-1)と話者ベクトルΨ(r)とに変換する話者ベクトル表現手順と、
     前記単語ベクトルΦ(wi-1)と、前記話者ベクトルΨ(ri-1)と、前記単語wi-1の予測確率を算出する際に得られた単語履歴ベクトルsi-1とを用いて、単語履歴ベクトルsを算出する単語履歴ベクトル表現手順と、
     前記単語履歴ベクトルsi-1と、前記話者ベクトルΨ(r)とを用いて、前記単語wの予測確率を算出する予測確率算出手順と、
     を実行することを特徴とする言語モデルスコア算出方法。
  7.  リカレントニューラルネットワークに基づく言語モデルのモデルパラメータθを学習する学習装置が、
     単語系列w,・・・,wと、前記単語w,・・・,wに含まれる各単語の話者を表す話者ラベル系列r,・・・,rとを入力として、前記言語モデルにより、前記単語系列w,・・・,wに含まれる単語w毎に、該単語wの予測確率分布を算出する算出手順と、
     前記単語系列w,・・・,wと、前記単語w毎の予測確率分布とを用いて、前記言語モデルのモデルパラメータθを更新するパラメータ更新手順と、
     を実行することを特徴とする学習方法。
  8.  コンピュータを、請求項1乃至3の何れか一項における言語モデルスコア算出装置における各手段、又は、請求項4又は5における学習装置における各手段として機能させるためのプログラム。
PCT/JP2019/024799 2018-08-17 2019-06-21 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム WO2020035998A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/268,578 US20210174788A1 (en) 2018-08-17 2019-06-21 Language model score calculating apparatus, learning apparatus, language model score calculating method, learning method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-153495 2018-08-17
JP2018153495A JP6965846B2 (ja) 2018-08-17 2018-08-17 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2020035998A1 true WO2020035998A1 (ja) 2020-02-20

Family

ID=69525428

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/024799 WO2020035998A1 (ja) 2018-08-17 2019-06-21 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム

Country Status (3)

Country Link
US (1) US20210174788A1 (ja)
JP (1) JP6965846B2 (ja)
WO (1) WO2020035998A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
JP2015170168A (ja) * 2014-03-07 2015-09-28 国立研究開発法人情報通信研究機構 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
JP2017117045A (ja) * 2015-12-22 2017-06-29 日本電信電話株式会社 言語確率算出方法、言語確率算出装置および言語確率算出プログラム
US20170221474A1 (en) * 2016-02-02 2017-08-03 Mitsubishi Electric Research Laboratories, Inc. Method and System for Training Language Models to Reduce Recognition Errors
JP2017527846A (ja) * 2015-04-16 2017-09-21 三菱電機株式会社 音声認識装置およびリスコアリング装置
US20180174576A1 (en) * 2016-12-21 2018-06-21 Google Llc Acoustic-to-word neural network speech recognizer

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US6772116B2 (en) * 2001-03-27 2004-08-03 International Business Machines Corporation Method of decoding telegraphic speech
US8290433B2 (en) * 2007-11-14 2012-10-16 Blaze Mobile, Inc. Method and system for securing transactions made through a mobile communication device
WO2008114708A1 (ja) * 2007-03-14 2008-09-25 Nec Corporation 音声認識システム、音声認識方法、および音声認識処理プログラム
JP2008293403A (ja) * 2007-05-28 2008-12-04 Sony Ericsson Mobilecommunications Japan Inc 文字入力装置、携帯端末および文字入力プログラム
GB2482874B (en) * 2010-08-16 2013-06-12 Toshiba Res Europ Ltd A speech processing system and method
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US9521258B2 (en) * 2012-11-21 2016-12-13 Castel Communications, LLC Real-time call center call monitoring and analysis
US10629186B1 (en) * 2013-03-11 2020-04-21 Amazon Technologies, Inc. Domain and intent name feature identification and processing
US20140344945A1 (en) * 2013-05-15 2014-11-20 Broadcom Corporation Thin-Client Embedded Secure Element
US9582608B2 (en) * 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014203114A2 (en) * 2013-06-18 2014-12-24 Koninklijke Philips N.V. Ecg features for type ahead editing and automatic update for report interpretation
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
US9436918B2 (en) * 2013-10-07 2016-09-06 Microsoft Technology Licensing, Llc Smart selection of text spans
EP3100174A1 (de) * 2014-01-28 2016-12-07 Somol Zorzin GmbH Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
US20170262949A1 (en) * 2014-08-04 2017-09-14 Daren JAY Investigative interview management system
WO2016082096A1 (en) * 2014-11-25 2016-06-02 Nuance Communications, Inc. System and method for predictive text entry using n-gram language model
US9767091B2 (en) * 2015-01-23 2017-09-19 Microsoft Technology Licensing, Llc Methods for understanding incomplete natural language query
GB201511887D0 (en) * 2015-07-07 2015-08-19 Touchtype Ltd Improved artificial neural network for language modelling and prediction
US9922647B2 (en) * 2016-01-29 2018-03-20 International Business Machines Corporation Approach to reducing the response time of a speech interface
US10255913B2 (en) * 2016-02-17 2019-04-09 GM Global Technology Operations LLC Automatic speech recognition for disfluent speech
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US9715496B1 (en) * 2016-07-08 2017-07-25 Asapp, Inc. Automatically responding to a request of a user
US11222278B2 (en) * 2016-09-08 2022-01-11 Fujitsu Limited Estimating conditional probabilities
US10984034B1 (en) * 2016-10-05 2021-04-20 Cyrano.ai, Inc. Dialogue management system with hierarchical classification and progression
US10929681B2 (en) * 2016-11-03 2021-02-23 Nec Corporation Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
US10769549B2 (en) * 2016-11-21 2020-09-08 Google Llc Management and evaluation of machine-learned models based on locally logged data
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
US10318632B2 (en) * 2017-03-14 2019-06-11 Microsoft Technology Licensing, Llc Multi-lingual data input system
GB201705189D0 (en) * 2017-03-31 2017-05-17 Microsoft Technology Licensing Llc Sensor data processor with update ability
US10217466B2 (en) * 2017-04-26 2019-02-26 Cisco Technology, Inc. Voice data compensation with machine learning
US11250319B1 (en) * 2017-09-25 2022-02-15 Amazon Technologies, Inc. Circuit architecture with biased randomization
US10650306B1 (en) * 2017-09-29 2020-05-12 Amazon Technologies, Inc. User representation using a generative adversarial network
US10403288B2 (en) * 2017-10-17 2019-09-03 Google Llc Speaker diarization
US10929606B2 (en) * 2017-12-29 2021-02-23 Samsung Electronics Co., Ltd. Method for follow-up expression for intelligent assistance
US10672393B2 (en) * 2018-01-12 2020-06-02 Intel Corporation Time capsule based speaking aid
CN112805780A (zh) * 2018-04-23 2021-05-14 谷歌有限责任公司 使用端到端模型的讲话者分割
JP7062056B2 (ja) * 2018-05-23 2022-05-02 株式会社Nttドコモ 作成文章評価装置
CN110580335B (zh) * 2018-06-07 2023-05-26 阿里巴巴集团控股有限公司 用户意图的确定方法及装置
US10699705B2 (en) * 2018-06-22 2020-06-30 Adobe Inc. Using machine-learning models to determine movements of a mouth corresponding to live speech
US10720151B2 (en) * 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
US20200382451A1 (en) * 2018-08-08 2020-12-03 Facet Labs, Llc Conversational limbic computing system and related methods
US10923111B1 (en) * 2019-03-28 2021-02-16 Amazon Technologies, Inc. Speech detection and speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
JP2015170168A (ja) * 2014-03-07 2015-09-28 国立研究開発法人情報通信研究機構 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
JP2017527846A (ja) * 2015-04-16 2017-09-21 三菱電機株式会社 音声認識装置およびリスコアリング装置
JP2017117045A (ja) * 2015-12-22 2017-06-29 日本電信電話株式会社 言語確率算出方法、言語確率算出装置および言語確率算出プログラム
US20170221474A1 (en) * 2016-02-02 2017-08-03 Mitsubishi Electric Research Laboratories, Inc. Method and System for Training Language Models to Reduce Recognition Errors
US20180174576A1 (en) * 2016-12-21 2018-06-21 Google Llc Acoustic-to-word neural network speech recognizer

Also Published As

Publication number Publication date
JP6965846B2 (ja) 2021-11-10
US20210174788A1 (en) 2021-06-10
JP2020027224A (ja) 2020-02-20

Similar Documents

Publication Publication Date Title
US11776531B2 (en) Encoder-decoder models for sequence to sequence mapping
CN108475505B (zh) 使用部分条件从输入序列生成目标序列
JP2019537096A (ja) ニューラル機械翻訳システム
CN108108428B (zh) 一种构建语言模型的方法、输入法及***
JP7418991B2 (ja) 音声認識方法及び装置
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN117378003A (zh) 自适应蒸馏
CN117063228A (zh) 用于灵活流式和非流式自动语音识别的混合模型注意力
WO2019171925A1 (ja) 言語モデルを利用する装置、方法及びプログラム
KR20210028041A (ko) 전자 장치 및 그 제어 방법
JP7423056B2 (ja) 推論器および推論器の学習方法
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP2013182260A (ja) 言語モデル作成装置、音声認識装置、およびそのプログラム
JP2012108429A (ja) 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム
JP2018128500A (ja) 形成装置、形成方法および形成プログラム
WO2020035998A1 (ja) 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
JP2021039220A (ja) 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP6633556B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
CN118176537A (zh) 用于长形式语音识别的训练
JP7028203B2 (ja) 音声認識装置、音声認識方法、プログラム
JP2008064849A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2017167378A (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
JP7505582B2 (ja) 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19849981

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19849981

Country of ref document: EP

Kind code of ref document: A1