WO2010061507A1 - 言語モデル作成装置 - Google Patents

言語モデル作成装置 Download PDF

Info

Publication number
WO2010061507A1
WO2010061507A1 PCT/JP2009/004341 JP2009004341W WO2010061507A1 WO 2010061507 A1 WO2010061507 A1 WO 2010061507A1 JP 2009004341 W JP2009004341 W JP 2009004341W WO 2010061507 A1 WO2010061507 A1 WO 2010061507A1
Authority
WO
WIPO (PCT)
Prior art keywords
language model
content
word string
probability
speech recognition
Prior art date
Application number
PCT/JP2009/004341
Other languages
English (en)
French (fr)
Inventor
山本仁
花沢健
三木清一
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/129,721 priority Critical patent/US9043209B2/en
Priority to JP2010540302A priority patent/JP5598331B2/ja
Publication of WO2010061507A1 publication Critical patent/WO2010061507A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Definitions

  • the present invention relates to a language model creation device for creating a language model used for performing speech recognition processing for recognizing a word string corresponding to speech.
  • a speech recognition device that recognizes a word string represented by speech from speech (utterance) uttered by a user is known.
  • the speech recognition device described in Patent Document 1 as one of this type of speech recognition device performs speech recognition processing for recognizing a word string corresponding to speech based on a plurality of pre-stored language models. .
  • the content-specific language model is a model that represents the probability of occurrence of a specific word in a word string that represents specific content (topic, keyword, etc.). For example, in a word sequence that includes a TV program, the probability that a program name or a talent name will appear is high, and in a word sequence that includes sports, a team name, an exercise equipment name, or a player name is included. The probability of appearing is increased.
  • the content may change in a series of voices uttered by the user.
  • speech recognition processing is performed based only on one content-specific language model, the accuracy of recognizing word strings may be excessively reduced.
  • the speech recognition apparatus is configured to use a language model for different contents for each predetermined section in one utterance.
  • the speech recognition apparatus in order to determine which content-specific language model is used, a process of evaluating a recognition result when each content-specific language model is used is performed. Therefore, the speech recognition apparatus has a problem that the processing load for determining which content-specific language model is used is excessive.
  • the object of the present invention is to solve the above-mentioned problem “the calculation load for creating a language model becomes excessive and the word string cannot be recognized from speech with high accuracy”. It is an object of the present invention to provide a language model creation device that can do this.
  • a language model creation device includes: A first content-specific language model that represents the probability that a specific word appears in a word string that represents the first content, and a second content that represents the probability that the specific word appears in a word string that represents the second content A different language model, a content-specific language model storage means for storing, A processing target word string that is at least part of an input word string that is a word string included in a speech recognition hypothesis generated by performing a voice recognition process that recognizes a word string corresponding to speech A first probability parameter representing the probability that the content represented by the first content is the first probability parameter, and a second probability parameter representing the probability that the content represented by the processing target word string is the second content.
  • the acquired first probability parameter, the acquired second probability parameter, the stored first content-specific language model, and the stored second content-specific language model And performing language model creation processing for creating a language model representing the probability that the specific word appears in a word string corresponding to a portion corresponding to the processing target word string in the speech.
  • a language model creation means Is provided.
  • a speech recognition apparatus A first content-specific language model that represents the probability that a specific word appears in a word string that represents the first content, and a second content that represents the probability that the specific word appears in a word string that represents the second content
  • a different language model a content-specific language model storage means for storing,
  • a processing target word string that is at least part of an input word string that is a word string included in a speech recognition hypothesis generated by performing a voice recognition process that recognizes a word string corresponding to speech
  • a first probability parameter representing the probability that the content represented by the first content is the first probability parameter
  • a second probability parameter representing the probability that the content represented by the processing target word string is the second content.
  • the acquired first probability parameter, the acquired second probability parameter, the stored first content-specific language model, and the stored second content-specific language model And performing language model creation processing for creating a language model representing the probability that the specific word appears in a word string corresponding to a portion corresponding to the processing target word string in the speech.
  • a language model creation means Speech recognition means for performing speech recognition processing for recognizing a word string corresponding to the input speech based on the language model created by the language model creation means; Is provided.
  • a language model creation method includes: A first content-specific language model that represents the probability that a specific word appears in a word string that represents the first content, and a second content that represents the probability that the specific word appears in a word string that represents the second content
  • a processing target word string that is at least part of an input word string that is a word string included in a speech recognition hypothesis generated by performing a voice recognition process that recognizes a word string corresponding to speech
  • a first probability parameter representing the probability that the content represented by the first content is the first probability parameter
  • a second probability parameter representing the probability that the content represented by the processing target word string is the second content.
  • the acquired first probability parameter, the acquired second probability parameter, the stored first content-specific language model, and the stored second content-specific language model And a language model representing the probability that the specific word appears in a word string corresponding to a portion corresponding to the processing target word string in the speech.
  • a language model creation program includes: In the information processing device, A first content-specific language model that represents the probability that a specific word appears in a word string that represents the first content, and a second content that represents the probability that the specific word appears in a word string that represents the second content A different language model, and a content-specific language model storage processing unit for storing the different language model in a storage device; A processing target word string that is at least part of an input word string that is a word string included in a speech recognition hypothesis generated by performing a voice recognition process that recognizes a word string corresponding to speech A first probability parameter representing the probability that the content represented by the first content is the first probability parameter, and a second probability parameter representing the probability that the content represented by the processing target word string is the second content.
  • the acquired first probability parameter, the acquired second probability parameter, the stored first content-specific language model, and the stored second content-specific language model And a language model creating means for creating a language model representing a probability that the specific word appears in a word string corresponding to a portion corresponding to the processing target word string in the speech, It is a program for realizing.
  • the present invention can create a language model that can recognize a word string corresponding to speech with high accuracy while preventing an excessive calculation load. it can.
  • FIG. 1 It is a block diagram showing the outline of the function of the language model creation apparatus which concerns on 1st Embodiment of this invention. It is the flowchart which showed the action
  • the language model creation device 101 is an information processing device.
  • the language model creating apparatus 101 includes a central processing unit (CPU) (not shown), a storage device (memory and hard disk drive (HDD)), an input device, and an output device.
  • CPU central processing unit
  • HDD hard disk drive
  • the output device has a display.
  • the output device displays an image made up of characters and graphics on the display based on the image information output by the CPU.
  • the input device has a mouse, keyboard and microphone.
  • the language model creation apparatus 101 is configured such that information based on a user operation is input via a keyboard and a mouse.
  • the language model creation device 101 is configured such that input speech information representing speech around the microphone (that is, outside the language model creation device 101) is input via the microphone.
  • the language model creation apparatus 101 accepts a speech recognition hypothesis (input word string) including a word string as a speech recognition result output by a speech recognition apparatus (not shown), and responds to the accepted speech recognition hypothesis.
  • the language model is output to the speech recognition apparatus.
  • the function of the language model creation device 101 includes a speech recognition hypothesis input unit (part of a language model creation unit) 11, a content estimation unit (part of a language model creation unit) 12, Language model creation unit (part of language model creation means) 13, content model storage unit (part of language model creation means) 14, and content-specific language model storage unit (content-specific language model storage means, content-specific language model Storage processing means, content-specific language model storage processing step) 15.
  • This function is realized by the CPU of the language model creation device 101 executing a program stored in the storage device.
  • This function may be realized by hardware such as a logic circuit.
  • the speech recognition hypothesis input unit 11 receives a speech recognition hypothesis (input word sequence) including a word string as a speech recognition result output by an external speech recognition device (not shown), and estimates the content of the received speech recognition hypothesis To the unit 12.
  • the speech recognition hypothesis is information generated by performing speech recognition processing in which the speech recognition apparatus recognizes a word string corresponding to speech.
  • the speech recognition hypothesis is information representing a word string composed of one or more words.
  • the speech recognition hypothesis may be information representing a plurality of word strings (for example, a word graph or N best word strings (best N word strings)).
  • the content estimation unit 12 divides the speech recognition hypothesis output from the speech recognition hypothesis input unit 11 with the boundary between words of the word sequence recognized by the speech recognition process as a boundary, thereby obtaining at least one processing target word sequence. Extract (generate) from speech recognition hypothesis. According to this, when creating a language model, the information acquired when performing speech recognition processing can be used. As a result, the contents can be estimated with high accuracy, and a language model can be created quickly.
  • the content estimation unit 12 extracts at least one processing target word string from the speech recognition hypothesis by dividing the speech recognition hypothesis using a position different from the boundary between words of the word string recognized by the speech recognition process as a boundary. (Generation) may be performed. According to this, even when the boundary between the actual words in the utterance is different from the boundary between the words in the word string recognized by the speech recognition processing, the word string corresponding to the speech is recognized with high accuracy. You can create a language model that makes it possible.
  • the content estimation unit 12 has a probability that the content represented by the processing target word string is specific content (first content, second content, or the like) for each of the plurality of processing target word strings generated. Is calculated (acquired) based on the content model stored in the content model storage unit 14 (a first probability parameter, a second probability parameter, or the like). For example, the content estimation unit 12 calculates a first probability parameter that represents the probability that the content represented by the processing target word string is the first content, and the second probability parameter that represents the probability that the content is the second content. Is calculated. Then, the content estimation unit 12 outputs the acquired probability parameter to the language model creation unit 13.
  • the probability parameter is a value of the probability that the content represented by the processing target word string is specific content.
  • the probability parameter may be a value that increases as the probability that the content represented by the processing target word string is specific content increases. That is, it can be said that the probability parameter represents the likelihood that the content represented by the processing target word string is specific content.
  • the probability parameter may be referred to as a likelihood parameter or a weight parameter.
  • the contents are also called topics.
  • the contents used as search conditions for searching for a television program include: a person name (talent name and group name, etc.), a program name, a program genre name (variety and sports, etc.), a broadcast station name, And time expressions (evening and 8 o'clock, etc.), etc. If the contents are different, the probability that a specific word string appears (exists) during utterance is different.
  • the content estimation unit 12 estimates the probability that the content represented by the word string in the section is specific content for each section (processing target word string) during the utterance. Therefore, even when the content changes during the utterance, the probability can be estimated with high accuracy for each section.
  • the content model storage unit 14 stores in advance a content model (information) representing a relationship between a word string and the probability that the content represented by the word string is each of a plurality of contents.
  • the content model is a probability model based on the theory of conditional random fields (CRF).
  • CRF conditional random fields
  • X is a processing target word string
  • Y is the content. That is, the right side P (Y
  • ⁇ (X, Y) is information representing the feature (feature) of the processing target word string X
  • is a model parameter (weight value) in the CRF corresponding to each of the features ⁇ (X, Y).
  • Z is a normalization term. Note that “exp ()” indicates a function for obtaining the power of a numerical value with e as the base.
  • the content model storage unit 14 stores the feature ⁇ and the model parameter ⁇ (weight value) in the storage device.
  • the content estimation unit 12 estimates the contents represented by (belonging to) each word of the speech recognition hypothesis when the speech recognition hypothesis is a word string and CRF is used as the content model.
  • the content estimation unit 12 first develops a section corresponding to each word included in the word string of the speech recognition hypothesis into candidate content and holds it in a graph format (content candidate graph).
  • FIG. 3 is an example of a word string of a speech recognition hypothesis
  • FIG. 4 is an example of a content candidate graph.
  • FIG. 3 shows a part of the word string of the speech recognition hypothesis.
  • the content estimation unit 12 generates three types of “person name”, “program name”, and “others” as content candidates by expanding each segment.
  • the arc (arc, edge) A in FIG. 4 indicates that the content represented by the word “country travel” in the speech recognition hypothesis is “person name” as the content.
  • the content estimation unit 12 ranks and outputs the content path (content sequence) represented by the content candidate graph based on a predetermined criterion (for example, a score calculated with reference to the content model). Specifically, the content estimation unit 12 obtains a score with reference to the content model in each arc in the graph, and accumulates the score for each path.
  • a predetermined criterion for example, a score calculated with reference to the content model.
  • the content estimation unit 12 specifies a path that maximizes the left side P (Y
  • the score at each arc in the content candidate graph is the product of the feature (feature) related to each arc and the weight value for each feature that is a model parameter of the CRF.
  • FIG. 5 is an example of the characteristics related to the arc A.
  • These features are expressed as CRF features ( ⁇ ) as shown in FIG.
  • the score of the arc A is calculated by the product of the value of these features and the weight ⁇ of the “person name” corresponding to the arc A among the model parameters. The larger the score, the higher the content likelihood.
  • the content estimation unit 12 acquires the probability parameter based on the word attribute information indicating the attribute of the word included in the processing target word string.
  • the word attribute information includes at least one of information representing the word surface layer, information representing the reading, and information representing the part of speech.
  • the content estimation unit 12 may acquire a probability parameter based on the speech recognition processing information acquired when performing speech recognition processing for recognizing a processing target word string from speech.
  • the speech recognition processing information includes information representing the recognition reliability that is the reliability of the recognition result by the speech recognition processing, information representing the duration of time for which one sound continues, and presence or absence of preceding silence At least one piece of information representing
  • the target section not only local features related to the target section, but also global features related to the entire speech recognition hypothesis (the entire utterance), positional information within the speech recognition hypothesis (first half, second half, etc.), co-occurrence within the utterance Word information, information related to the structure of the word graph (average number of branches of arcs, etc.), content connection information, and the like may be used as the feature ( ⁇ ) of the content model.
  • the content estimation unit 12 is information indicating the position of the processing target word string in the input word string, information indicating that the input word string includes a plurality of words, information indicating the connection state of the contents in the input word string, And a probability parameter may be acquired based on at least one of the information showing the relationship between each input word sequence when there are a plurality of input word sequences.
  • the a posteriori appearance probability (a posteriori probability) p (Yi c
  • X) of each arc of the content candidate graph is calculated by recursive calculation using the Forward algorithm and the Backward algorithm.
  • the content estimation unit 12 uses this probability p as the appearance probability ( Used as a probability parameter).
  • the model parameter of CRF is iteratively calculated according to the criterion for maximizing the log likelihood of the above equation (1) using a pair of input (X: word string) and output (Y: content) associated in advance as learning data. It may be optimized (learned) by a method or the like.
  • the language model creation unit 13 includes a content estimation result including the probability parameters (for example, the first probability parameter and the second probability parameter) output from the content estimation unit 12, and the content-specific language model storage unit 15 Represents the probability that a specific word will appear in a word sequence corresponding to a portion corresponding to the processing target word sequence in the speech that is the basis of the input word sequence
  • a language model creation process for creating a language model is performed for each word string to be processed. Then, the language model creation unit 13 outputs the created language model.
  • the content-specific language model and the language model are N-gram language models that are constructed based on the assumption that the probability that a certain word appears depends only on the immediately preceding N ⁇ 1 words. It is.
  • the appearance probability of the i-th word w i is represented by P (w i
  • W i ⁇ N + 1 i ⁇ 1 in the condition part represents the (i ⁇ N + 1) to (i ⁇ 1) th word string.
  • a model constructed based on the assumption that it is not affected by the immediately preceding word is called a unigram model.
  • the parameters made up of various conditional probabilities of various words used in the N-gram language model are obtained by maximum likelihood estimation for the learning text data.
  • the content-specific language model storage unit 15 stores a plurality of content-specific language models in a storage device in advance.
  • the plurality of content-specific language models are models representing the probability that a specific word appears in a word string representing different content. That is, the plurality of content-specific language models include a first content-specific language model that represents a probability that a specific word appears in a word string that represents the first content, and a specific word that represents the second content. And a second language model for content representing the probability of occurrence of.
  • each content language model is a trigram model.
  • the language model creation unit 13 stores a score for each content in each section (that is, a probability parameter indicating the probability that the content represented by each processing target word string is each content) and the content-specific language model storage unit 15.
  • a language model is created according to the following equation (3) from the plurality of language models by content.
  • Equation (3) P t (w i ) is the probability that the word w i will appear in the section “t”, and ⁇ j (t) is the content “j” that the word string in the section “t” represents.
  • P j (w i ) is the probability of appearance of word w i in the content-specific language model for content “j”.
  • the language model creation unit 13 uses the probability parameter acquired by the content estimation unit 12 (the content appearance probability in each section (processing target word string) in the utterance) as ⁇ j (t) in Expression (3). ).
  • the language model creating unit 13 has a probability that the first content-specific language model represents the first coefficient (for example, the first probability parameter) that increases as the calculated first probability parameter increases.
  • the value multiplied by P j (w i )) in equation (3) and the second coefficient (for example, the second probability parameter) that increases as the calculated second probability parameter increases are classified according to the second contents.
  • the probability that a specific word appears in the word sequence corresponding to the portion corresponding to the processing target word sequence in the speech that is the basis of the input word sequence, as the sum of the value multiplied by the probability represented by the language model increases. Create a language model that increases
  • t in the expression (3) may be a section corresponding to a time frame used in the speech recognition processing, or may be a time representing a time point in the utterance.
  • the content-specific language model storage unit 15 may store a content-specific language model and a list (word list) of words having a high probability of appearing for each content.
  • the language model creation unit 13 may be configured to increase the probability that a word included in the word list for the content having the highest score appears in each section in the utterance by a predetermined value.
  • the content estimation unit 12 may change the value estimated for each section as the above-described score (content appearance score) without using it as it is.
  • a word string in a certain utterance may include a word string that is not related to any content.
  • the content estimation unit 12 estimates the content represented by the word string from a total of four types, that is, three types of content and “none of the content”. Then, the content estimation unit 12 uses a predetermined value (for example, a predetermined ratio) as the score of the other three types of content in the section in which the content represented by the word string is estimated to be “no content”. (For example, a value according to a certain ratio) may be changed.
  • the content estimation unit 12 may set all of the calculated probability parameters to the same value when all of the calculated probability parameters (scores) are smaller than a preset lower limit threshold.
  • the content estimation unit 12 sets all the probability parameters for the section t2 to the same value (in this example, the lower limit threshold value).
  • the content represented by the word string is the content “person name” related to the search condition of the television program
  • a word such as “appearing” or “out” follows the word string.
  • the chance of appearing is relatively high. Therefore, in the section following the section in which the content represented by the word string is estimated to be the content “person name”, it is desirable that the “person name” score immediately decreases in order to recognize the subsequent word string with high accuracy. Absent.
  • the content estimation unit 12 is adjacent to the processing target word string. You may correct
  • the content estimation unit 12 corrects the score acquired for the section t1 and the section t3 adjacent to the section t2 to increase.
  • the content estimation unit 12 corrects the score so that the closer to the section t2 in the section t1, the closer the score is to the score acquired for the section t2. Similarly, in the section t3, the content estimation unit 12 corrects the score so that the closer to the section t2, the closer the score is to the score acquired for the section t2.
  • a language model can be created.
  • the language model creation unit 13 may output all the information included in the language model when outputting the created language model, or may output only information specified from the outside.
  • the language model creation apparatus 101 when activated, the language model creation apparatus 101 reads the content model and the content-specific language model from the storage device that implements the content model storage unit 14 and the content-specific language model storage unit 15. , Initialization processing is performed for referring to each from the content estimation unit 12 and the language model creation unit 13 (step S11).
  • the speech recognition hypothesis input unit 11 accepts a speech recognition hypothesis from an external speech recognition device in response to a notification indicating the end of speech recognition processing, and outputs the accepted speech recognition hypothesis to the content estimation unit 12 (step S12). Part of the language model creation process). Note that the speech recognition hypothesis input unit 11 may be configured to accept a speech recognition hypothesis input by the user.
  • the content estimation unit 12 selects each processing target word string in the speech recognition hypothesis based on the content model stored in the content model storage unit 14.
  • a probability parameter representing the probability that the content represented by (for example, each word) is a specific content is calculated (step S13, part of the language model creation step).
  • the language model creation unit 13 determines the basis of the speech recognition hypothesis based on the probability parameter output from the content estimation unit 12 and the content-specific language model stored in the content-specific language model storage unit 15.
  • a language model representing the probability that a specific word appears in the word string corresponding to the portion corresponding to the processing target word string in the generated speech is generated, and the created language model is output (step S14, language model creation step) Part of).
  • the language model creation device 101 includes the probability that the content represented by the processing target word string is the first content, and the processing target word.
  • a language model is created based on the probability that the content represented by the column is the second content, the first content-specific language model, and the second content-specific language model.
  • the language model creation device 101 processing load can be reduced.
  • the language model creating apparatus 101 it is possible to create a language model that can recognize a word string corresponding to speech with high accuracy while preventing an excessive calculation load.
  • the probability that the content represented by the processing target word string is the first content increases, the probability that the probability represented by the first language-specific language model is reflected in the language model increases. can do.
  • the greater the probability that the content represented by the processing target word string is the second content the greater the degree that the probability represented by the second content-specific language model is reflected in the language model.
  • FIG. 9 is a block diagram showing functions of the speech recognition apparatus 201 according to the second embodiment of the present invention.
  • the speech recognition apparatus 201 is an information processing apparatus having the same configuration as the language model creation apparatus 101 according to the first embodiment.
  • the functions of the speech recognition apparatus 201 include a speech recognition unit (speech recognition unit) 21, a speech recognition model storage unit 22, and a language model update unit (language model creation unit) 24.
  • the speech recognition apparatus 201 generates a speech recognition hypothesis as an input word sequence by performing speech recognition processing for recognizing a word sequence corresponding to the input speech, and based on the generated speech recognition hypothesis, the first recognition Similar to the language model creation apparatus 101 according to the embodiment, a language model is created, and the speech recognition process is performed again based on the created language model.
  • the voice recognition unit 21 generates an input word string as a voice recognition hypothesis (for example, a word graph) by performing the voice recognition process for recognizing a word string corresponding to the voice input via the input device.
  • the voice recognition unit 21 may be configured to receive voice by receiving voice information representing voice from another information processing apparatus.
  • the speech recognition unit 21 is a model stored in the speech recognition model storage unit 22 (a model for performing speech recognition processing, including an acoustic model, a language model, a word dictionary, etc.) for all sections of speech.
  • the speech recognition process is performed by searching for a word string that matches the speech according to the score calculated based on (1).
  • the acoustic model is a hidden Markov model
  • the language model is a word trigram.
  • the speech recognition unit 21 refers to the language model output by the language model update unit 24 when performing speech recognition processing. For example, when the speech recognition unit 21 calculates the probability of occurrence of the word w i with reference to the language model of the formula (3) in a certain time frame “f” during speech recognition processing, the speech recognition unit 21 corresponds to the “f”. P t (w i ) is referred to for the section “t” to be performed. In this example, the time frame represents a unit for converting the speech to be recognized into a feature value for recognition.
  • the speech recognition unit 21 refers to the language model stored in the speech recognition model storage unit 22 when performing speech recognition processing before the language model update unit 24 creates a language model corresponding to the utterance.
  • the speech recognition unit 21 may be configured to use the sum of the probabilities represented by the plurality of content-specific language models stored in the content-specific language model storage unit 245 as the probability that a word will appear.
  • the speech recognition device 201 Based on the language model created by the language model update unit 24, the speech recognition device 201 recognizes the speech recognition processing by the speech recognition unit 21 and the speech recognition unit 21 that recognizes a word string corresponding to the input speech. On the basis of the word string, the language model update unit 24 executes an iterative process that alternately repeats a language model creation process for creating a language model.
  • the first probability parameter and the second probability parameter can be acquired with higher accuracy as the accuracy of the input word sequence (the degree of matching with the true word sequence) increases. Furthermore, a language model that makes it possible to recognize a word string corresponding to speech with higher accuracy as the accuracy of the first probability parameter and the second probability parameter becomes higher. Therefore, according to the above configuration, it is possible to recognize a word string corresponding to speech with higher accuracy.
  • the speech recognition unit 21 terminates the iterative process when a predetermined termination condition is established based on the generated speech recognition hypothesis or the language model used in the speech recognition process. When completing the iterative process, the speech recognition unit 21 outputs the latest speech recognition hypothesis acquired at that time as a speech recognition result. The speech recognition unit 21 may select and output a speech recognition result from speech recognition hypotheses accumulated up to that point.
  • the end condition is a condition that the word string recognized by the previous voice recognition process matches the word string recognized by the current voice recognition process.
  • the end condition may be a condition that the number of times the voice recognition process is executed is larger than a preset threshold number.
  • the termination condition may be a condition determined based on a language model parameter created by the language model creation unit 243, an estimation result output by the content estimation unit 242, or a score thereof.
  • the language model update unit 24 has the same function as the language model creation apparatus 101 according to the first embodiment.
  • the language model update unit 24 includes a speech recognition hypothesis input unit 241 similar to the speech recognition hypothesis input unit 11, a content estimation unit 242 similar to the content estimation unit 12, and a language model creation unit 243 similar to the language model creation unit 13.
  • the language model update unit 24 stores the speech recognition hypothesis output from the speech recognition unit 21, the stored content model, and the stored content A language model is created based on the language model, and the created language model is output.
  • the content-specific language model storage unit 245 stores a word trigram in the storage device as a content-specific language model.
  • the language model creation unit 243 has a score indicating the probability that the content represented by the processing target word string is a specific content, the stored language model for each content, the above formula (3), Create a language model based on
  • the language model update unit 24 creates a language model based on the received speech recognition hypothesis each time a speech recognition hypothesis is received from the speech recognition unit 21 until the speech recognition unit 21 determines that the termination condition is satisfied. .
  • the probability that the word w i appears is P t, k (w i ) (see the following equation (4)).
  • the speech recognition unit 21 performs (k + 1) th speech recognition processing with reference to this language model, and outputs a speech recognition hypothesis.
  • the content estimation unit 242 inputs this speech recognition hypothesis and outputs the appearance score ⁇ j, k + 1 (t) of each content as the (k + 1) th content estimation result.
  • the language model creation unit 243 creates the (k + 1) -th language model P t, k + 1 (w i ) using this appearance score (see the following formula (5)). In this way, the accuracy of each is gradually increased by repeatedly updating the speech recognition hypothesis and the content estimation result.
  • the speech recognition unit 21 when the speech recognition unit 21 performs the second and subsequent processing, the speech recognition unit 21 replaces the speech recognition processing with speech as an input, and the previous speech recognition hypothesis (word graph or the like). A re-score process may be performed.
  • the speech recognition apparatus 201 when activated, obtains a speech recognition model and a language model from the speech recognition model storage unit 22 and the storage device that implements the content-specific language model storage unit 245. Read-out and initialization processing for referring to each from the speech recognition unit 21 and the language model update unit 24 are performed (step S21).
  • the voice recognition unit 21 accepts voice input from the outside via the input device in response to a notification indicating the end of voice input (step S22).
  • the voice recognition unit 21 When receiving the voice, the voice recognition unit 21 receives the received voice based on the voice recognition model stored in the voice recognition model storage unit 22 and the language model created by the language model update unit 24. Voice recognition processing is performed (step S23).
  • the speech recognition apparatus 201 determines whether or not an end condition is satisfied based on the speech recognition hypothesis output by the speech recognition unit 21 performing speech recognition processing (step S24). If the termination condition is satisfied, the speech recognition apparatus 201 determines “Yes” and outputs the latest speech recognition hypothesis acquired at that time as a speech recognition result (step S27).
  • the speech recognition apparatus 201 determines “No” in step S24 and creates a language model by executing the processes of steps S25 and S26. This process is the same as the process of steps S13 and S14 of FIG.
  • the speech recognition apparatus 201 has the probability that the content represented by the processing target word string is the first content and the processing target word string.
  • a language model is created based on the probability that the content to be represented is the second content, the first language model by content, and the second language model by content.
  • the speech recognition apparatus 201 performs speech recognition processing for recognizing a word string corresponding to speech based on the created language model. Thereby, it is possible to recognize the word string corresponding to the voice with high accuracy while preventing the calculation load of the voice recognition device 201 from becoming excessive.
  • the probability that the content represented by the processing target word string is the first content increases, the probability that the probability represented by the first language-specific language model is reflected in the language model increases. can do.
  • the greater the probability that the content represented by the processing target word string is the second content the greater the degree that the probability represented by the second content-specific language model is reflected in the language model.
  • the speech recognition apparatus 201 includes a speech recognition process for recognizing a word string corresponding to the speech input by the speech recognition unit 21 based on the language model created by the language model update unit 24, and the speech recognition unit 21.
  • the language model update unit 24 executes an iterative process that alternately repeats a language model creation process for creating a language model.
  • the higher the accuracy of the input word string (the degree of matching with the true word string), the higher the accuracy of the first probability parameter and the second probability parameter can be obtained. Furthermore, a language model that makes it possible to recognize a word string corresponding to speech with higher accuracy as the accuracy of the first probability parameter and the second probability parameter becomes higher. Therefore, according to the above configuration, it is possible to recognize a word string corresponding to speech with higher accuracy.
  • the functions of the language model creation device 301 according to the third embodiment include a content-specific language model storage unit (content-specific language model storage unit) 35 and a language model creation unit (language model creation unit) 33.
  • the content-specific language model storage unit 35 includes a first content-specific language model that represents a probability that a specific word appears in a word string that represents the first content, and a word string that represents the second content.
  • a second content-specific language model representing the probability of appearance is stored in the storage device.
  • the language model creation unit 33 includes at least one input word string that is a word string included in the speech recognition hypothesis generated by performing a speech recognition process for recognizing a word string corresponding to speech and is an input word string.
  • a first probability parameter representing the probability that the content represented by the processing target word string is the first content
  • a second probability parameter representing the probability that the content represented by the processing target word string is the second content And get.
  • the language model creation unit 33 includes the acquired first probability parameter, the acquired second probability parameter, the first content-specific language model stored in the content-specific language model storage unit 35, and the content Based on the second content-specific language model stored in the different language model storage unit 35, a specific word appears in a word string corresponding to a portion corresponding to the processing target word string in the speech.
  • a language model creation process for creating a language model representing a probability is performed.
  • the language model creation device 301 has a probability that the content represented by the processing target word string is the first content, a probability that the content represented by the processing target word string is the second content, and the first content.
  • a language model is created based on the different language model and the second content-specific language model.
  • the language model creation device Since it is not necessary to perform a process of evaluating a recognition result when using each content-specific language model in order to determine which content-specific language model is used, the language model creation device The processing load 301 can be reduced.
  • the language model creation device 301 it is possible to create a language model that can recognize a word string corresponding to speech with high accuracy while preventing an excessive calculation load.
  • the language model creating means is The value obtained by multiplying the probability represented by the first language model by contents by the first coefficient, which increases as the acquired first probability parameter increases, and increases as the acquired second probability parameter increases.
  • the above-mentioned specification is performed in the word string corresponding to the portion corresponding to the processing target word string in the speech. It is preferable that the language model is generated so that the probability of occurrence of the word is increased.
  • the greater the probability that the content represented by the processing target word string is the first content the greater the degree to which the probability represented by the first content-specific language model is reflected in the language model.
  • the greater the probability that the content represented by the processing target word string is the second content the greater the degree that the probability represented by the second content-specific language model is reflected in the language model.
  • the language model creating means is configured to output the language for each of the plurality of processing target word strings obtained by dividing the input word string with a boundary between words of the word string recognized by the speech recognition process as a boundary. It is preferable to be configured to perform a model creation process.
  • the language model creating means is configured to generate the language for each of the plurality of processing target word strings obtained by dividing the input word string with a position different from the boundary between words of the word string recognized by the speech recognition process as a boundary. It is preferable to be configured to perform a model creation process.
  • the language model creating means is When both the acquired first probability parameter and the acquired second probability parameter are smaller than a preset lower threshold, the acquired first probability parameter and the acquired second Preferably, both probability parameters are set to the same value.
  • the language model creating means is When the acquired first probability parameter for a certain processing target word string is larger than a preset upper threshold, the acquired first probability parameter is set for the processing target word string adjacent to the processing target word string. Preferably, the correction is made so that the probability parameter of 1 is increased.
  • the word sequence corresponding to the speech is recognized with high accuracy even for the speech section corresponding to the processing target word sequence adjacent to the processing target word sequence identified with relatively high accuracy.
  • the language model creating means is configured to acquire the first probability parameter and the second probability parameter based on a conditional random field theory.
  • the language model creating means includes word attribute information representing the attributes of words included in the processing target word string, and voice acquired when performing voice recognition processing for recognizing the processing target word string from voice. It is preferable that the first probability parameter and the second probability parameter are acquired based on at least one of recognition processing information.
  • the word attribute information preferably includes at least one of information representing the word surface layer, information representing the reading, and information representing the part of speech.
  • the speech recognition processing information includes information representing the recognition reliability that is the reliability of the recognition result obtained by the speech recognition processing, information representing the duration of time for which one sound continues, and preceding silence. It is preferable to include at least one piece of information indicating the presence or absence of.
  • the language model creating means is Information indicating the position of the processing target word string in the input word string, information indicating that the input word string includes a plurality of words, information indicating a connected state of contents in the input word string, and the input word It is preferable that the first probability parameter and the second probability parameter are acquired based on at least one of the information representing the relationship between the input word strings when there are a plurality of strings. is there.
  • a speech recognition apparatus A first content-specific language model that represents the probability that a specific word appears in a word string that represents the first content, and a second content that represents the probability that the specific word appears in a word string that represents the second content
  • a different language model a content-specific language model storage means for storing,
  • a processing target word string that is at least part of an input word string that is a word string included in a speech recognition hypothesis generated by performing a voice recognition process that recognizes a word string corresponding to speech
  • a first probability parameter representing the probability that the content represented by the first content is the first probability parameter
  • a second probability parameter representing the probability that the content represented by the processing target word string is the second content.
  • the acquired first probability parameter, the acquired second probability parameter, the stored first content-specific language model, and the stored second content-specific language model And performing language model creation processing for creating a language model representing the probability that the specific word appears in a word string corresponding to a portion corresponding to the processing target word string in the speech.
  • a language model creation means Speech recognition means for performing speech recognition processing for recognizing a word string corresponding to the input speech based on the language model created by the language model creation means; Is provided.
  • the speech recognition apparatus has a probability that the content represented by the processing target word string is the first content, a probability that the content represented by the processing target word string is the second content, and the first language by content.
  • a language model is created based on the model and the second content-specific language model. Then, the speech recognition apparatus performs speech recognition processing for recognizing a word string corresponding to speech based on the created language model. Thereby, it is possible to recognize the word string corresponding to the voice with high accuracy while preventing the calculation load of the voice recognition device from becoming excessive.
  • the language model creating means is The value obtained by multiplying the probability represented by the first language model by contents by the first coefficient, which increases as the acquired first probability parameter increases, and increases as the acquired second probability parameter increases.
  • the above-mentioned specification is performed in the word string corresponding to the portion corresponding to the processing target word string in the speech. It is preferable that the language model is generated so that the probability of occurrence of the word is increased.
  • the greater the probability that the content represented by the processing target word string is the first content the greater the degree to which the probability represented by the first content-specific language model is reflected in the language model.
  • the greater the probability that the content represented by the processing target word string is the second content the greater the degree that the probability represented by the second content-specific language model is reflected in the language model.
  • the voice recognition means is configured to generate the input word string by performing the voice recognition process for recognizing a word string corresponding to the input voice
  • the language model creating means is configured to create the language model based on the input word string generated by the speech recognition means
  • the voice recognition unit is configured to perform the voice recognition process for recognizing a word string corresponding to the input voice based on the language model created by the language model creation unit. It is.
  • the voice recognition device Based on the language model created by the language model creating means, the speech recognition means recognizes the word string corresponding to the inputted speech, and the word string recognized by the speech recognition means Based on this, it is preferable that the language model creating means is configured to execute an iterative process that alternately repeats the language model creating process for creating the language model.
  • the first probability parameter and the second probability parameter can be acquired with higher accuracy as the accuracy of the input word sequence (the degree of matching with the true word sequence) increases. Furthermore, a language model that makes it possible to recognize a word string corresponding to speech with higher accuracy as the accuracy of the first probability parameter and the second probability parameter becomes higher. Therefore, according to the above configuration, it is possible to recognize a word string corresponding to speech with higher accuracy.
  • the voice recognition device is configured to end the iterative process when a predetermined end condition is satisfied.
  • the end condition is a condition that the word string recognized by the previous voice recognition process matches the word string recognized by the current voice recognition process.
  • the end condition is preferably a condition that the number of times the voice recognition process is executed is larger than a preset threshold number.
  • a language model creation method includes: A first content-specific language model that represents the probability that a specific word appears in a word string that represents the first content, and a second content that represents the probability that the specific word appears in a word string that represents the second content
  • a processing target word string that is at least part of an input word string that is a word string included in a speech recognition hypothesis generated by performing a voice recognition process that recognizes a word string corresponding to speech
  • a first probability parameter representing the probability that the content represented by the first content is the first probability parameter
  • a second probability parameter representing the probability that the content represented by the processing target word string is the second content.
  • the acquired first probability parameter, the acquired second probability parameter, the stored first content-specific language model, and the stored second content-specific language model And a language model representing the probability that the specific word appears in a word string corresponding to a portion corresponding to the processing target word string in the speech.
  • the language model creation method is The value obtained by multiplying the probability represented by the first language model by contents by the first coefficient, which increases as the acquired first probability parameter increases, and increases as the acquired second probability parameter increases.
  • the above-mentioned specification is performed in the word string corresponding to the portion corresponding to the processing target word string in the speech. It is preferable that the language model is generated so that the probability of occurrence of the word is increased.
  • a language model creation program includes: In the information processing device, A first content-specific language model that represents the probability that a specific word appears in a word string that represents the first content, and a second content that represents the probability that the specific word appears in a word string that represents the second content A different language model, and a content-specific language model storage processing unit for storing the same in a storage device; A processing target word string that is at least part of an input word string that is a word string included in a speech recognition hypothesis generated by performing a voice recognition process that recognizes a word string corresponding to speech A first probability parameter representing the probability that the content represented by the first content is the first probability parameter, and a second probability parameter representing the probability that the content represented by the processing target word string is the second content.
  • the acquired first probability parameter, the acquired second probability parameter, the stored first content-specific language model, and the stored second content-specific language model And a language model creating means for creating a language model representing a probability that the specific word appears in a word string corresponding to a portion corresponding to the processing target word string in the speech, It is a program for realizing.
  • the language model creating means is The value obtained by multiplying the probability represented by the first language model by contents by the first coefficient, which increases as the acquired first probability parameter increases, and increases as the acquired second probability parameter increases.
  • the above-mentioned specification is performed in the word string corresponding to the portion corresponding to the processing target word string in the speech. It is preferable that the language model is generated so that the probability of occurrence of the word is increased.
  • the program is stored in the storage device, but may be stored in a CPU-readable recording medium.
  • the recording medium is a portable medium such as a flexible disk, an optical disk, a magneto-optical disk, and a semiconductor memory.
  • the present invention can be applied to a speech recognition apparatus that performs speech recognition processing for recognizing a word string represented by speech from speech.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

 この装置301は、第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において特定の単語が出現する確率を表す第2の内容別言語モデルと、を記憶する。装置は音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる処理対象単語列が表す内容が第1の内容である確率を表す第1の確率パラメータと処理対象単語列が表す内容が第2の内容である確率を表す第2の確率パラメータと第1の内容別言語モデルと第2の内容別言語モデルとに基づいて上記音声のうちの処理対象単語列に対応する部分に対応する単語列において特定の単語が出現する確率を表す言語モデルを作成する。

Description

言語モデル作成装置
 本発明は、音声に対応する単語列を認識する音声認識処理を行うために用いられる言語モデルを作成する言語モデル作成装置に関する。
 ユーザによって発せられた音声(発話)から、その音声が表す単語列を認識する音声認識装置が知られている。この種の音声認識装置の一つとして特許文献1に記載の音声認識装置は、予め記憶されている複数の内容別言語モデルに基づいて、音声に対応する単語列を認識する音声認識処理を行う。
 内容別言語モデルは、特定の内容(話題、又は、キーワード等)を表す単語列において特定の単語が出現する確率を表すモデルである。例えば、テレビ番組を内容とする単語列においては、番組名、又は、タレント名が出現する確率が高くなり、スポーツを内容とする単語列においては、チーム名、運動用具名、又は、選手名が出現する確率が高くなる。
 ところで、ユーザによって発せられた一連の音声内において、内容が変化する場合がある。この場合、1つの内容別言語モデルのみに基づいて、音声認識処理を行った場合、単語列を認識する精度が過度に低下してしまう虞がある。
 そこで、上記音声認識装置は、1つの発話内において予め定めた区間毎に異なる内容別言語モデルを用いるように構成されている。
特開2002-229589号公報
 しかしながら、上記音声認識装置においては、上記区間にて用いる内容別言語モデルに係る内容が、実際の発話の内容に一致していない場合、単語列を認識する精度が過度に低下してしまうという問題があった。
 また、上記音声認識装置においては、いずれの内容別言語モデルを用いるかを決定するために、各内容別言語モデルを用いた場合の認識結果を評価する処理を行う。従って、上記音声認識装置においては、いずれの内容別言語モデルを用いるかを決定するための処理負荷が過大であるという問題があった。
 このため、本発明の目的は、上述した課題である「言語モデルを作成するための計算負荷が過大となること、及び、高い精度にて音声から単語列を認識できない場合が生じること」を解決することが可能な言語モデル作成装置を提供することにある。
 かかる目的を達成するため本発明の一形態である言語モデル作成装置は、
 第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において上記特定の単語が出現する確率を表す第2の内容別言語モデルと、を記憶する内容別言語モデル記憶手段と、
 音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が上記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、上記記憶されている第1の内容別言語モデルと、上記記憶されている第2の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う言語モデル作成手段と、
 を備える。
 また、本発明の他の形態である音声認識装置は、
 第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において上記特定の単語が出現する確率を表す第2の内容別言語モデルと、を記憶する内容別言語モデル記憶手段と、
 音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が上記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、上記記憶されている第1の内容別言語モデルと、上記記憶されている第2の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う言語モデル作成手段と、
 上記言語モデル作成手段により作成された言語モデルに基づいて、入力された音声に対応する単語列を認識する音声認識処理を行う音声認識手段と、
 を備える。
 また、本発明の他の形態である言語モデル作成方法は、
 第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において上記特定の単語が出現する確率を表す第2の内容別言語モデルと、が記憶装置に記憶されている場合に、
 音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が上記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、上記記憶されている第1の内容別言語モデルと、上記記憶されている第2の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する、方法である。
 また、本発明の他の形態である言語モデル作成プログラムは、
 情報処理装置に、
 第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において上記特定の単語が出現する確率を表す第2の内容別言語モデルと、を記憶装置に記憶させる内容別言語モデル記憶処理手段と、
 音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が上記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、上記記憶されている第1の内容別言語モデルと、上記記憶されている第2の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成手段と、
 を実現させるためのプログラムである。
 本発明は、以上のように構成されることにより、計算負荷が過大となることを防止しながら高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
本発明の第1実施形態に係る言語モデル作成装置の機能の概略を表すブロック図である。 図1に示した言語モデル作成装置の作動を示したフローチャートである。 音声認識仮説の単語列の例を概念的に示した説明図である。 内容候補グラフの例を概念的に示した説明図である。 内容に関する特徴の例を示した説明図である。 内容モデルの一例であるCRFにて用いられる素性の例を示した説明図である。 処理対象単語列に対して取得されたスコアの一例を概念的に示した説明図である。 処理対象単語列に対して取得されたスコアの一例を概念的に示した説明図である。 本発明の第2実施形態に係る音声認識装置の機能の概略を表すブロック図である。 図9に示した音声認識装置の作動を示したフローチャートである。 本発明の第3実施形態に係る言語モデル作成装置の機能の概略を表すブロック図である。
 以下、本発明に係る、言語モデル作成装置、音声認識装置、言語モデル作成方法、及び、言語モデル作成プログラム、の各実施形態について図1~図11を参照しながら説明する。
<第1実施形態>
(構成)
 図1を参照しながら、本発明の第1実施形態に係る言語モデル作成装置101について説明する。言語モデル作成装置101は、情報処理装置である。言語モデル作成装置101は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ及びハードディスク駆動装置(HDD;Hard Disk Drive))、入力装置及び出力装置を備える。
 出力装置は、ディスプレイを有する。出力装置は、CPUにより出力された画像情報に基づいて、文字及び図形等からなる画像をディスプレイに表示させる。
 入力装置は、マウス、キーボード及びマイクロホンを有する。言語モデル作成装置101は、キーボード及びマウスを介して、ユーザの操作に基づく情報が入力されるように構成されている。言語モデル作成装置101は、マイクロホンを介して、マイクロホンの周囲(即ち、言語モデル作成装置101の外部)の音声を表す入力音声情報が入力されるように構成されている。
 なお、本実施形態では、言語モデル作成装置101は、図示しない音声認識装置により出力される音声認識結果としての単語列を含む音声認識仮説(入力単語列)を受け付け、受け付けた音声認識仮説に応じた言語モデルを当該音声認識装置に出力するように構成されている。
(機能)
 次に、上記のように構成された言語モデル作成装置101の機能について説明する。
 この言語モデル作成装置101の機能は、図1に示したように、音声認識仮説入力部(言語モデル作成手段の一部)11と、内容推定部(言語モデル作成手段の一部)12と、言語モデル作成部(言語モデル作成手段の一部)13と、内容モデル記憶部(言語モデル作成手段の一部)14と、内容別言語モデル記憶部(内容別言語モデル記憶手段、内容別言語モデル記憶処理手段、内容別言語モデル記憶処理工程)15と、を含む。この機能は、言語モデル作成装置101のCPUが、記憶装置に記憶されているプログラムを実行することにより実現される。なお、この機能は、論理回路等のハードウェアにより実現されていてもよい。
 音声認識仮説入力部11は、外部の音声認識装置(図示せず)により出力された音声認識結果としての単語列を含む音声認識仮説(入力単語列)を受け付け、受け付けた音声認識仮説を内容推定部12へ出力する。音声認識仮説は、音声認識装置が音声に対応する単語列を認識する音声認識処理を行うことにより生成された情報である。本例では、音声認識仮説は、1つ以上の単語からなる単語列を表す情報である。また、音声認識仮説は、複数の単語列を表す情報(例えば、単語グラフ、又は、Nベスト単語列(最良のN個の単語列)等)であってもよい。
 内容推定部12は、音声認識仮説入力部11から出力された音声認識仮説を、音声認識処理によって認識された単語列の単語間の境界を境界として分割することにより少なくとも1つの処理対象単語列を音声認識仮説から抽出(生成)する。これによれば、言語モデルを作成する際に、音声認識処理を行う際に取得された情報を利用することができる。この結果、精度よく内容を推定することができ、迅速に言語モデルを作成することができる。
 また、内容推定部12は、音声認識仮説を、音声認識処理によって認識された単語列の単語間の境界と異なる位置を境界として分割することにより少なくとも1つの処理対象単語列を音声認識仮説から抽出(生成)してもよい。これによれば、発話における実際の単語間の境界が、音声認識処理によって認識された単語列の単語間の境界と異なる場合であっても、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 内容推定部12は、生成した複数の処理対象単語列のそれぞれに対して、その処理対象単語列が表す内容が、特定の内容(第1の内容、又は、第2の内容等)である確率を表す確率パラメータ(第1の確率パラメータ、又は、第2の確率パラメータ等)を、内容モデル記憶部14に記憶されている内容モデルに基づいて算出(取得)する。例えば、内容推定部12は、処理対象単語列が表す内容が、第1の内容である確率を表す第1の確率パラメータを算出するとともに、第2の内容である確率を表す第2の確率パラメータを算出する。そして、内容推定部12は、取得した確率パラメータを言語モデル作成部13へ出力する。
 本例では、確率パラメータは、処理対象単語列が表す内容が特定の内容である確率の値である。なお、確率パラメータは、処理対象単語列が表す内容が特定の内容である確率が高くなるほど大きくなる値であればよい。即ち、確率パラメータは、処理対象単語列が表す内容が特定の内容である尤もらしさを表す、と言うこともできる。確率パラメータは、尤度パラメータ又は重みパラメータと呼ばれてもよい。
 ここで、内容は、話題とも呼ばれる。例えば、テレビ番組を検索するための検索条件として用いられる内容は、人名(タレント名、及び、グループ名、等)、番組名、番組ジャンル名(バラエティ、及び、スポーツ、等)、放送局名、及び、時間表現(夕方、及び、8時、等)、等である。内容が異なると、発話中に特定の単語列が出現(存在)する確率が異なる。
 このように、内容推定部12は、発話中の区間(処理対象単語列)毎に、その区間内の単語列が表す内容が、特定の内容である確率を推定する。従って、発話の途中で内容が変化する場合でも、それぞれの区間毎に高い精度にて上記確率を推定することができる。
 内容モデル記憶部14は、単語列と、その単語列が表す内容が、複数の内容のそれぞれである確率と、の関係を表す内容モデル(情報)を記憶装置に予め記憶させている。本例では、内容モデルは、条件付確率場(CRF;Conditional Random Fields)の理論に基づく確率モデルである。内容モデルは、下記式(1)により表現される。
Figure JPOXMLDOC01-appb-M000001
 ここで、“X”は、処理対象単語列であり、
“Y”は、内容である。即ち、式(1)の右辺P(Y|X)は、処理対象単語列Xが表す内容が内容Yである確率を表す。
 また、“Φ(X,Y)”は、処理対象単語列Xの特徴(素性)を表す情報であり、
“Λ”は、素性Φ(X,Y)のそれぞれに対応するCRFにおけるモデルパラメタ(重み値)である。また、“Z”は正規化項である。なお、“exp()”は、eを底とする数値のべき乗を求める関数を示している。
 従って、本例では、内容モデル記憶部14は、素性Φ、及び、モデルパラメタΛ(重み値)を記憶装置に記憶させている。
 いま、音声認識仮説が単語列であり、且つ、内容モデルとしてCRFを用いる場合に、内容推定部12が音声認識仮説の各単語が表す(属する)内容を推定する方法の一例について説明する。
 内容推定部12は、まず、音声認識仮説の単語列に含まれる各単語に対応する区間について、候補となる内容に展開して、グラフの形式(内容候補グラフ)で保持する。図3は、音声認識仮説の単語列の例示であり、図4は、内容候補グラフの例示である。
 例えば、「イナガキゴロウの出ているドラマを見たい」という発話の音声認識仮説が「田舎紀行の出ているドラマを見たい」であった場合を想定して説明する。図3は、その音声認識仮説の単語列の一部である。図4に示したように、内容推定部12は、内容の候補として「人名」「番組名」「その他」の3種類を区間毎に展開して生成する。図4の円弧(アーク、エッジ)Aは、音声認識仮説中の単語「田舎紀行」が表す内容が内容としての「人名」であることを示す。
 次に、内容推定部12は、内容候補グラフが表す内容のパス(内容列)を所定の基準(例えば、内容モデルを参照して計算されるスコア)に基づいて、順位付けて出力する。具体的には、内容推定部12は、グラフ中の各円弧において内容モデルを参照してスコアを求め、パスごとにそのスコアを蓄積する。
 内容推定部12は、上記式(1)の左辺P(Y|X)が最大となるパスを、Viterbiアルゴリズムを用いる探索により特定する。また、内容推定部12は、順位付けられた上位のパスを、A*探索により特定する。なお、内容推定部12は、特定したパスを表す情報を出力する際に、同一の内容が連続した場合にそれらをまとめる処理等を適用してもよい。
 内容候補グラフ中の各円弧におけるスコアは、各円弧に関する特徴(素性)と、CRFのモデルパラメタである各素性に対する重み値と、の積である。
 図4の内容候補グラフの円弧Aを例として、該円弧におけるスコアを求める方法の一例を説明する。
 図5は円弧Aに関する特徴の例示である。図6は、図5の特徴を内容モデルの素性として表現した例示である。例えば、ある円弧Aの時間区間に相当する区間の音声認識仮説に、その内容が「人名」である場合に、「品詞=名詞」、及び、「共起=出」、等の特徴がある場合を想定する。このような場合、これらの特徴を、内容モデルにて用いる素性として用いる。
 いま、円弧Aに対応する単語列が、図5に示したように、「品詞=名詞」、「共起=出」、等の特徴を有している場合を想定する。これらの特徴は、CRFの素性(Φ)として、図6に示したように表現される。これらの素性のとる値と、モデルパラメタのうちの円弧Aに相当する「人名」の重みΛと、の積により、円弧Aのスコアが算出される。このスコアが大きいほど、その内容らしさが高くなる。
 本例では、内容モデルの素性(Φ)として、スコアを求める対象円弧に相当する区間における言語的な特徴(単語表層、読み、品詞など)が用いられる。換言すると、内容推定部12は、処理対象単語列に含まれる単語の属性を表す単語属性情報に基づいて確率パラメータを取得する。単語属性情報は、単語表層を表す情報、読みを表す情報、及び、品詞を表す情報の少なくとも1つを含む。
 なお、内容モデルの素性(Φ)として、音声認識処理に関する特徴(認識信頼度、継続時間長、先行無音の有無など)等を用いてもよい。換言すると、内容推定部12は、処理対象単語列を音声から認識する音声認識処理を行う際に取得された音声認識処理情報に基づいて確率パラメータを取得してもよい。ここで、音声認識処理情報は、音声認識処理による認識結果の信頼度である認識信頼度を表す情報、1つの音が継続する時間である継続時間長を表す情報、及び、先行する無音の有無を表す情報の少なくとも1つを含む。
 また、対象円弧の前後の区間、対象円弧と単語グラフ又はNベスト単語列において重なる区間に関する、上記の特徴もあわせて用いることができる。
 また、対象区間に関する局所的な特徴だけでなく、音声認識仮説全体(発話全体)に関する大域的な特徴である、音声認識仮説内での位置情報(前半、後半、など)、発話内の共起単語情報、単語グラフの構造に関する情報(円弧の平均分岐数、など)、及び、内容の連接情報、等を、内容モデルの素性(Φ)として用いてもよい。換言すると、内容推定部12は、入力単語列における処理対象単語列の位置を表す情報、入力単語列が1つの単語を複数含むことを表す情報、入力単語列における内容の連接状態を表す情報、及び、入力単語列が複数存在する場合における各入力単語列間の関係を表す情報、の少なくとも1つに基づいて確率パラメータを取得してもよい。
 内容候補グラフの各円弧の事後的な出現確率(事後確率)p(Yi=c|X)は、ForwardアルゴリズムとBackwardアルゴリズムを用いた再帰的な計算により算出される。ここで、“Yi=c”はi番目の区間における単語列が表す内容が内容c”であることを示す。内容推定部12は、この確率pを、当該区間における、各内容の出現確率(確率パラメータ)として用いる。
 CRFのモデルパラメタは、予め対応付けられた入力(X:単語列)と出力(Y:内容)との組を学習データとして、上記式(1)の対数尤度を最大化する基準に従って反復計算法等により最適化(学習)されてもよい。
 なお、上述した、CRFを用いた識別方法、識別結果の事後確率の計算方法、モデルパラメタの学習方法、に関する詳細は、例えば、非特許文献「J.Lafferty, A.McCallum, F.Pereira,“Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data”, Proceedings of 18th International Conference of Machine Learning,2001年,p.282-289」に記載されている。
 言語モデル作成部13は、内容推定部12から出力された確率パラメータ(例えば、第1の確率パラメータ、及び、第2の確率パラメータ等)を含む内容の推定結果と、内容別言語モデル記憶部15に記憶されている内容別言語モデルと、に基づいて、入力単語列の基となった音声のうちの処理対象単語列に対応する部分に対応する単語列において特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を、処理対象単語列のそれぞれに対して行う。そして、言語モデル作成部13は、作成した言語モデルを出力する。本例では、内容別言語モデル、及び、言語モデルは、ある単語が出現する確率がその直前のN-1個の単語にのみ依存するとの仮定に基づいて構築されたモデルであるNグラム言語モデルである。
 Nグラム言語モデルにおいて、i番目の単語wの出現確率はP(w|Wi-N+1 i-1)により表される。ここで、条件部のWi-N+1 i-1は(i-N+1)~(i-1)番目の単語列を表す。なお、N=2のモデルをバイグラム(bigram)モデル、N=3のモデルをトライグラム(trigram)モデルと呼ぶ。また、直前の単語に影響されないとの仮定に基づいて構築されたモデルをユニグラム(unigram)モデルと呼ぶ。
 Nグラム言語モデルによれば、単語列W =(w、w、…、w)が出現する確率P(W )は下記式(2)により表される。また、このような、Nグラム言語モデルにおいて用いられる、種々の単語の種々の条件付き確率からなるパラメタは、学習用テキストデータに対する最尤推定等により求められる。
Figure JPOXMLDOC01-appb-M000002
 内容別言語モデル記憶部15は、複数の内容別言語モデルを記憶装置に予め記憶させている。複数の内容別言語モデルは、互いに異なる内容を表す単語列において特定の単語が出現する確率を表すモデルである。即ち、複数の内容別言語モデルは、第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において前記特定の単語が出現する確率を表す第2の内容別言語モデルと、を含む。本例では、各内容別言語モデルは、トライグラムモデルである。
 言語モデル作成部13は、各区間での各内容に対するスコア(即ち、各処理対象単語列が表す内容が各内容である確率を表す確率パラメータ)と、内容別言語モデル記憶部15に記憶されている複数の内容別言語モデルと、から下記式(3)に従って言語モデルを作成する。
Figure JPOXMLDOC01-appb-M000003
 式(3)において、P(w)は単語wが区間“t”において出現する確率であり、α(t)は、区間“t”における単語列が表す内容が内容“j”である確率(内容の出現確率)を表す確率パラメータ(スコア)であり、P(w)は内容“j”に対する内容別言語モデルにおける単語wが出現する確率である。本例では、言語モデル作成部13は、内容推定部12により取得された確率パラメータ(発話内の各区間(処理対象単語列)における内容の出現確率)を、式(3)のα(t)として用いる。
 このように、言語モデル作成部13は、算出された第1の確率パラメータが大きくなるほど大きくなる第1の係数(例えば、第1の確率パラメータ)を第1の内容別言語モデルが表す確率(上記式(3)におけるP(w))に乗じた値と、算出された第2の確率パラメータが大きくなるほど大きくなる第2の係数(例えば、第2の確率パラメータ)を第2の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、入力単語列の基となった音声のうちの処理対象単語列に対応する部分に対応する単語列において特定の単語が出現する確率が大きくなる言語モデルを作成する。
 ところで、式(3)の“t”は、音声認識処理において用いられる時間フレームに対応する区間であってもよく、発話内の時点を表す時刻等であってもよい。
 なお、内容別言語モデル記憶部15は、内容別言語モデルと、内容毎に出現する確率が高い単語のリスト(単語リスト)と、を記憶させていてもよい。この場合、言語モデル作成部13は、発話内の各区間において、最もスコアが大きい内容に対する単語リストに含まれる単語が出現する確率を所定の値だけ増加させるように構成されていてもよい。
 内容推定部12は、上述したスコア(内容出現スコア)として、区間ごとに推定された値を、そのまま用いることなく変更して用いてもよい。例えば、ある発話中の単語列がいずれの内容にも関連しない単語列を含む場合がある。このような場合、内容推定部12は、例えば、3種類の内容と、「どの内容でもない」という内容と、の計4種類から、単語列が表す内容を推定する。そして、内容推定部12は、単語列が表す内容が「どの内容でもない」という内容であると推定された区間において、他の3種類の内容のスコアを、所定の値(例えば、所定の比率(例えば、一定の比率)に応じた値)に変更してもよい。
 また、内容推定部12は、算出された確率パラメータ(スコア)のすべてが、予め設定された下限閾値よりも小さい場合、算出された確率パラメータのすべてを同一の値に設定してもよい。
 例えば、図7の(A)に示したように、ある区間t2にて、算出された確率パラメータ(スコア)のすべてが、下限閾値よりも小さい場合を想定する。この場合、内容推定部12は、図7の(B)に示したように、この区間t2に対する確率パラメータのすべてを同一の値(本例では、下限閾値)に設定する。
 これによれば、処理対象単語列が表す内容を正確に特定できない区間において、いずれかの内容別言語モデルの影響のみが大きく反映された言語モデルが作成されることを防止することができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 また、例えば、単語列が表す内容が、テレビ番組の検索条件に関連する内容「人名」である場合、その単語列に続いて、「出演している」又は「出ている」等の単語が出現する可能性が比較的高い。従って、単語列が表す内容が内容「人名」であると推定された区間に続く区間では、後続する単語列を高い精度にて認識するために、「人名」のスコアが直ちに低下することは望ましくない。
 従って、内容推定部12は、ある処理対象単語列に対して取得された確率パラメータ(例えば、第1の確率パラメータ)が、予め設定された上限閾値よりも大きい場合、その処理対象単語列に隣接する処理対象単語列に対して取得された当該確率パラメータ(例えば、第1の確率パラメータ)を増加させるように補正してもよい。
 例えば、図8の(A)に示したように、ある区間t2にて、算出された確率パラメータ(スコア)が、予め設定された上限閾値よりも大きい場合を想定する。この場合、内容推定部12は、図8の(B)に示したように、区間t2に隣接する区間t1及び区間t3に対して取得されたスコアを増加させるように補正する。
 具体的には、内容推定部12は、区間t1において、区間t2に近づくほど、スコアが、区間t2に対して取得されたスコアに近づくように、スコアを補正する。同様に、内容推定部12は、区間t3において、区間t2に近づくほど、スコアが、区間t2に対して取得されたスコアに近づくように、スコアを補正する。
 これによれば、処理対象単語列が表す内容が比較的高い精度にて特定された区間に隣接する区間に対しても、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 なお、言語モデル作成部13は、作成した言語モデルを出力する際に、言語モデルに含まれる情報をすべて出力してもよいし、外部から指定された情報のみを出力してもよい。
(作動)
 次に、本発明の第1実施形態に係る言語モデル作成装置101の作動について、図2に示したフローチャートを参照しながら説明する。
 図2に示したように、言語モデル作成装置101は、起動されると、内容モデル記憶部14及び内容別言語モデル記憶部15を実現している記憶装置から内容モデル及び内容別言語モデルを読み出し、それぞれを、内容推定部12及び言語モデル作成部13から参照するための初期化処理を行う(ステップS11)。
 一方、音声認識仮説入力部11は、音声認識処理の終了を表す通知に応じて、外部の音声認識装置から音声認識仮説を受け付け、受け付けた音声認識仮説を内容推定部12に出力する(ステップS12、言語モデル作成工程の一部)。なお、音声認識仮説入力部11は、ユーザにより入力された音声認識仮説を受け付けるように構成されていてもよい。
 音声認識仮説入力部11を介して音声認識仮説が入力されると、内容推定部12は、内容モデル記憶部14により記憶されている内容モデルに基づいて、音声認識仮説内の各処理対象単語列(例えば、各単語)が表す内容が、特定の内容である確率を表す確率パラメータを算出する(ステップS13、言語モデル作成工程の一部)。
 次に、言語モデル作成部13は、内容推定部12から出力された確率パラメータと、内容別言語モデル記憶部15により記憶されている内容別言語モデルと、に基づいて、音声認識仮説の基となった音声のうちの処理対象単語列に対応する部分に対応する単語列において特定の単語が出現する確率を表す言語モデルを作成し、作成した言語モデルを出力する(ステップS14、言語モデル作成工程の一部)。
 以上、説明したように、本発明による言語モデル作成装置の第1実施形態によれば、言語モデル作成装置101は、処理対象単語列が表す内容が第1の内容である確率と、処理対象単語列が表す内容が第2の内容である確率と、第1の内容別言語モデルと、第2の内容別言語モデルと、に基づいて言語モデルを作成する。
 これにより、処理対象単語列が表す内容と異なる内容に係る内容別言語モデルのみに基づいて言語モデルが作成されることを回避することができる。即ち、処理対象単語列が表す内容に係る内容別言語モデルを確実に用いて言語モデルを作成することができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 更に、上記構成によれば、いずれの内容別言語モデルを用いるかを決定するために、各内容別言語モデルを用いた場合の認識結果を評価する処理を行う必要がないので、言語モデル作成装置101の処理負荷を軽減することができる。
 即ち、上記言語モデル作成装置101によれば、計算負荷が過大となることを防止しながら高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 また、上記第1実施形態によれば、処理対象単語列が表す内容が第1の内容である確率が大きくなるほど、第1の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。同様に、処理対象単語列が表す内容が第2の内容である確率が大きくなるほど、第2の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
<第2実施形態>
 次に、図9を参照しながら、本発明の第2実施形態に係る音声認識装置について説明する。図9は、本発明の第2実施形態にかかる音声認識装置201の機能を示したブロック図である。
 音声認識装置201は、第1実施形態に係る言語モデル作成装置101と同様の構成を有する情報処理装置である。音声認識装置201の機能は、音声認識部(音声認識手段)21と、音声認識モデル記憶部22と、言語モデル更新部(言語モデル作成手段)24と、を含む。
 音声認識装置201は、入力された音声に対応する単語列を認識する音声認識処理を行うことにより、入力単語列としての音声認識仮説を生成し、生成した音声認識仮説に基づいて、上記第1実施形態に係る言語モデル作成装置101と同様に、言語モデルを作成し、作成した言語モデルに基づいて音声認識処理を再度行う。
 音声認識部21は、入力装置を介して入力された音声に対応する単語列を認識する前記音声認識処理を行うことにより、音声認識仮説(例えば、単語グラフ)として入力単語列を生成する。なお、音声認識部21は、他の情報処理装置から音声を表す音声情報を受信することにより音声が入力されるように構成されていてもよい。音声認識部21は、発話の全区間に対して、音声認識モデル記憶部22に記憶されているモデル(音声認識処理を行うためのモデルであって、音響モデル、言語モデル及び単語辞書等を含む)に基づいて算出されるスコアに従って、音声に適合する単語列を探索することにより音声認識処理を行う。本例では、音響モデルは、隠れマルコフモデルであり、言語モデルは、単語トライグラムである。
 音声認識部21は、音声認識処理を行う際、言語モデル更新部24により出力された言語モデルを参照する。例えば、音声認識部21は、音声認識処理中のある時間フレーム“f”において、式(3)の言語モデルを参照して単語wが出現する確率を算出する場合、その“f”に対応する区間“t”について、P(w)を参照する。本例では、時間フレームは、認識対象の音声を認識用の特徴量に変換する際の単位を表す。
 なお、音声認識部21は、言語モデル更新部24により発話に応じた言語モデルが作成される前に音声認識処理を行う場合、音声認識モデル記憶部22に記憶されている言語モデルを参照する。また、音声認識部21は、内容別言語モデル記憶部245に記憶されている複数の内容別言語モデルが表す確率の和を、単語が出現する確率として用いるように構成されていてもよい。
 音声認識装置201は、言語モデル更新部24によって作成された言語モデルに基づいて、音声認識部21が入力された音声に対応する単語列を認識する前記音声認識処理と、音声認識部21によって認識された単語列に基づいて、言語モデル更新部24が言語モデルを作成する言語モデル作成処理と、を交互に繰り返す反復処理を実行する。
 入力単語列の精度(真の単語列と一致している程度)が高くなるほど、第1の確率パラメータ及び第2の確率パラメータを高い精度にて取得することができる。更に、第1の確率パラメータ及び第2の確率パラメータの精度が高くなるほど、より高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。従って、上記構成によれば、より一層高い精度にて音声に対応する単語列を認識することができる。
 音声認識部21は、生成した音声認識仮説、又は、音声認識処理にて用いた言語モデルに基づいて、所定の終了条件が成立した場合、反復処理を終了する。音声認識部21は、反復処理を終了すると、その時点にて取得された最新の音声認識仮説を音声認識結果として出力する。なお、音声認識部21は、その時点までに蓄積された音声認識仮説から音声認識結果を選定して出力してもよい。
 終了条件は、前回の音声認識処理により認識された単語列と、今回の音声認識処理により認識された単語列と、が一致しているという条件である。なお、終了条件は、音声認識処理を実行した回数が予め設定された閾値回数よりも大きいという条件であってもよい。また、終了条件は、言語モデル作成部243により作成された言語モデルのパラメタ、又は、内容推定部242により出力された推定結果又はそのスコアに基づいて定められた条件であってもよい。
 言語モデル更新部24は、第1実施形態に係る言語モデル作成装置101と同様の機能を有する。
 言語モデル更新部24は、音声認識仮説入力部11と同様の音声認識仮説入力部241と、内容推定部12と同様の内容推定部242と、言語モデル作成部13と同様の言語モデル作成部243と、内容モデル記憶部14と同様の内容モデル記憶部244と、内容別言語モデル記憶部15と同様の内容別言語モデル記憶部(内容別言語モデル記憶手段、内容別言語モデル記憶処理手段、内容別言語モデル記憶処理工程)245と、を含む。
 言語モデル更新部24は、終了条件が成立しないと音声認識部21が判定した場合に、音声認識部21から出力された音声認識仮説と、記憶されている内容モデルと、記憶されている内容別言語モデルと、に基づいて言語モデルを作成し、作成した言語モデルを出力する。
 本例では、内容別言語モデル記憶部245は、内容別言語モデルとして単語トライグラムを記憶装置に記憶させている。言語モデル作成部243は、処理対象単語列毎に、その処理対象単語列が表す内容が特定の内容である確率を表すスコアと、記憶されている内容別言語モデルと、上記式(3)と、に基づいて言語モデルを作成する。
 言語モデル更新部24は、終了条件が成立したと音声認識部21が判定するまでの間、音声認識部21から音声認識仮説を受け付ける毎に、受け付けた音声認識仮説に基づいて言語モデルを作成する。k回目に作成された言語モデルにおいて、単語wが出現する確率をPt,k(w)とする(下記式(4)を参照)。音声認識部21は、この言語モデルを参照して(k+1)回目の音声認識処理を行い、音声認識仮説を出力する。
Figure JPOXMLDOC01-appb-M000004
 そして、内容推定部242では、この音声認識仮説を入力し、(k+1)回目の内容推定結果として、各内容の出現スコアαj,k+1(t)を出力する。言語モデル作成部243は、この出現スコアを用いて(k+1)回目の言語モデルPt,k+1(w)を作成する(下記式(5)を参照)。このように、音声認識仮説と内容推定結果とを繰り返し更新することにより、それぞれの精度を徐々に高める。
Figure JPOXMLDOC01-appb-M000005
 なお、上記の反復処理において、音声認識部21が2回目以降の処理を行う場合、音声認識部21は、音声を入力とする音声認識処理の代わりに、前回の音声認識仮説(単語グラフ等)を入力とするリスコア処理を行ってもよい。
(作動)
 次に、本発明の第2実施形態に係る音声認識装置の作動について、図10に示したフローチャートを参照しながら説明する。
 図10に示したように、音声認識装置201は、起動されると、音声認識モデル記憶部22、及び、内容別言語モデル記憶部245を実現している記憶装置から音声認識モデル及び言語モデルを読み出し、それぞれを、音声認識部21、及び、言語モデル更新部24から参照するための初期化処理を行う(ステップS21)。
 一方、音声認識部21は、音声の入力の終了を表す通知に応じて、入力装置を介して外部から入力された音声を受け付ける(ステップS22)。
 音声認識部21は、音声を受け付けると、受け付けた音声に対して、音声認識モデル記憶部22により記憶されている音声認識モデルと、言語モデル更新部24により作成された言語モデルと、に基づいて音声認識処理を行う(ステップS23)。
 音声認識装置201は、音声認識部21が音声認識処理を行うことによって出力された音声認識仮説に基づいて、終了条件が成立しているか否かを判定する(ステップS24)。
 終了条件が成立している場合、音声認識装置201は、「Yes」と判定して、その時点にて取得された最新の音声認識仮説を音声認識結果として出力する(ステップS27)。
 一方、終了条件が成立していない場合、音声認識装置201は、ステップS24にて「No」と判定してステップS25及びステップS26の処理を実行することにより、言語モデルを作成する。この処理は、図2のステップS13及びステップS14の処理と同様の処理である。
 以上、説明したように、本発明による音声認識装置の第2実施形態によれば、音声認識装置201は、処理対象単語列が表す内容が第1の内容である確率と、処理対象単語列が表す内容が第2の内容である確率と、第1の内容別言語モデルと、第2の内容別言語モデルと、に基づいて言語モデルを作成する。そして、音声認識装置201は、作成した言語モデルに基づいて、音声に対応する単語列を認識する音声認識処理を行う。これにより、音声認識装置201の計算負荷が過大となることを防止しながら高い精度にて音声に対応する単語列を認識することができる。
 更に、上記第2実施形態によれば、処理対象単語列が表す内容が第1の内容である確率が大きくなるほど、第1の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。同様に、処理対象単語列が表す内容が第2の内容である確率が大きくなるほど、第2の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。この結果、高い精度にて音声に対応する単語列を認識することができる。
 加えて、音声認識装置201は、言語モデル更新部24によって作成された言語モデルに基づいて、音声認識部21が入力された音声に対応する単語列を認識する音声認識処理と、音声認識部21によって認識された単語列に基づいて、言語モデル更新部24が言語モデルを作成する言語モデル作成処理と、を交互に繰り返す反復処理を実行する。
 ところで、入力単語列の精度(真の単語列と一致している程度)が高くなるほど、第1の確率パラメータ及び第2の確率パラメータを高い精度にて取得することができる。更に、第1の確率パラメータ及び第2の確率パラメータの精度が高くなるほど、より高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。従って、上記構成によれば、より一層高い精度にて音声に対応する単語列を認識することができる。
<第3実施形態>
 次に、本発明の第3実施形態に係る言語モデル作成装置について図11を参照しながら説明する。
 第3実施形態に係る言語モデル作成装置301の機能は、内容別言語モデル記憶部(内容別言語モデル記憶手段)35と、言語モデル作成部(言語モデル作成手段)33と、を含む。
 内容別言語モデル記憶部35は、第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において前記特定の単語が出現する確率を表す第2の内容別言語モデルと、を記憶装置に記憶させている。
 言語モデル作成部33は、音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が第2の内容である確率を表す第2の確率パラメータと、を取得する。
 言語モデル作成部33は、取得された第1の確率パラメータと、取得された第2の確率パラメータと、内容別言語モデル記憶部35により記憶させられている第1の内容別言語モデルと、内容別言語モデル記憶部35により記憶させられている第2の内容別言語モデルと、に基づいて、上記音声のうちの処理対象単語列に対応する部分に対応する単語列において特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う。
 これによれば、言語モデル作成装置301は、処理対象単語列が表す内容が第1の内容である確率と、処理対象単語列が表す内容が第2の内容である確率と、第1の内容別言語モデルと、第2の内容別言語モデルと、に基づいて言語モデルを作成する。
 これにより、処理対象単語列が表す内容と異なる内容に係る内容別言語モデルのみに基づいて言語モデルが作成されることを回避することができる。即ち、処理対象単語列が表す内容に係る内容別言語モデルを確実に用いて言語モデルを作成することができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 更に、上記構成によれば、いずれの内容別言語モデルを用いるかを決定するために、各内容別言語モデルを用いた場合の認識結果を評価する処理を行う必要がないので、言語モデル作成装置301の処理負荷を軽減することができる。
 即ち、上記言語モデル作成装置301によれば、計算負荷が過大となることを防止しながら高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 この場合、上記言語モデル作成手段は、
 上記取得された第1の確率パラメータが大きくなるほど大きくなる第1の係数を上記第1の内容別言語モデルが表す確率に乗じた値と、上記取得された第2の確率パラメータが大きくなるほど大きくなる第2の係数を上記第2の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率が大きくなる上記言語モデルを作成するように構成されることが好適である。
 これによれば、処理対象単語列が表す内容が第1の内容である確率が大きくなるほど、第1の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。同様に、処理対象単語列が表す内容が第2の内容である確率が大きくなるほど、第2の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 この場合、上記言語モデル作成手段は、上記音声認識処理によって認識された単語列の単語間の境界を境界として上記入力単語列を分割した複数の上記処理対象単語列のそれぞれに対して、上記言語モデル作成処理を行うように構成されることが好適である。
 これによれば、言語モデルを作成する際に、音声認識処理を行う際に取得された情報を利用することができる。この結果、精度よく内容を推定することができ、迅速に言語モデルを作成することができる。
 また、上記言語モデル作成装置の他の態様において、
 上記言語モデル作成手段は、上記音声認識処理によって認識された単語列の単語間の境界と異なる位置を境界として上記入力単語列を分割した複数の上記処理対象単語列のそれぞれに対して、上記言語モデル作成処理を行うように構成されることが好適である。
 これによれば、発話における実際の単語間の境界が、音声認識処理によって認識された単語列の単語間の境界と異なる場合であっても、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 この場合、上記言語モデル作成手段は、
 上記取得された第1の確率パラメータ及び上記取得された第2の確率パラメータの両方が、予め設定された下限閾値よりも小さい場合、上記取得された第1の確率パラメータ及び上記取得された第2の確率パラメータの両方を同一の値に設定するように構成されることが好適である。
 これによれば、内容を正確に特定できない処理対象単語列に対応する音声区間に対して、いずれかの内容別言語モデルの影響のみが大きく反映された言語モデルが作成されることを防止することができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 この場合、上記言語モデル作成手段は、
 ある処理対象単語列に対して上記取得された第1の確率パラメータが、予め設定された上限閾値よりも大きい場合、その処理対象単語列に隣接する処理対象単語列に対して上記取得された第1の確率パラメータを増加させるように補正するように構成されることが好適である。
 これによれば、内容が比較的高い精度にて特定された処理対象単語列に隣接する処理対象単語列に対応する音声区間に対しても、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。
 この場合、上記言語モデル作成手段は、条件付確率場の理論に基づいて上記第1の確率パラメータ及び上記第2の確率パラメータを取得するように構成されることが好適である。
 この場合、上記言語モデル作成手段は、上記処理対象単語列に含まれる単語の属性を表す単語属性情報、及び、上記処理対象単語列を音声から認識する音声認識処理を行う際に取得された音声認識処理情報、の少なくとも1つに基づいて上記第1の確率パラメータ及び上記第2の確率パラメータを取得するように構成されることが好適である。
 この場合、上記単語属性情報は、単語表層を表す情報、読みを表す情報、及び、品詞を表す情報の少なくとも1つを含むことが好適である。
 この場合、上記音声認識処理情報は、上記音声認識処理による認識結果の信頼度である認識信頼度を表す情報、1つの音が継続する時間である継続時間長を表す情報、及び、先行する無音の有無を表す情報の少なくとも1つを含むことが好適である。
 この場合、上記言語モデル作成手段は、
 上記入力単語列における上記処理対象単語列の位置を表す情報、上記入力単語列が1つの単語を複数含むことを表す情報、上記入力単語列における内容の連接状態を表す情報、及び、上記入力単語列が複数存在する場合における各入力単語列間の関係を表す情報、の少なくとも1つに基づいて上記第1の確率パラメータ及び上記第2の確率パラメータを取得するように構成されることが好適である。
 また、本発明の他の形態である音声認識装置は、
 第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において上記特定の単語が出現する確率を表す第2の内容別言語モデルと、を記憶する内容別言語モデル記憶手段と、
 音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が上記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、上記記憶されている第1の内容別言語モデルと、上記記憶されている第2の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う言語モデル作成手段と、
 上記言語モデル作成手段により作成された言語モデルに基づいて、入力された音声に対応する単語列を認識する音声認識処理を行う音声認識手段と、
 を備える。
 これによれば、音声認識装置は、処理対象単語列が表す内容が第1の内容である確率と、処理対象単語列が表す内容が第2の内容である確率と、第1の内容別言語モデルと、第2の内容別言語モデルと、に基づいて言語モデルを作成する。そして、音声認識装置は、作成した言語モデルに基づいて、音声に対応する単語列を認識する音声認識処理を行う。これにより、音声認識装置の計算負荷が過大となることを防止しながら高い精度にて音声に対応する単語列を認識することができる。
 この場合、上記言語モデル作成手段は、
 上記取得された第1の確率パラメータが大きくなるほど大きくなる第1の係数を上記第1の内容別言語モデルが表す確率に乗じた値と、上記取得された第2の確率パラメータが大きくなるほど大きくなる第2の係数を上記第2の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率が大きくなる上記言語モデルを作成するように構成されることが好適である。
 これによれば、処理対象単語列が表す内容が第1の内容である確率が大きくなるほど、第1の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。同様に、処理対象単語列が表す内容が第2の内容である確率が大きくなるほど、第2の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。この結果、高い精度にて音声に対応する単語列を認識することができる。
 この場合、
 上記音声認識手段は、上記入力された音声に対応する単語列を認識する上記音声認識処理を行うことにより上記入力単語列を生成するように構成され、
 上記言語モデル作成手段は、上記音声認識手段により生成された上記入力単語列に基づいて上記言語モデルを作成するように構成され、
 上記音声認識手段は、上記言語モデル作成手段により作成された上記言語モデルに基づいて、上記入力された音声に対応する単語列を認識する上記音声認識処理を再度行うように構成されることが好適である。
 この場合、上記音声認識装置は、
 上記言語モデル作成手段によって作成された言語モデルに基づいて、上記音声認識手段が上記入力された音声に対応する単語列を認識する上記音声認識処理と、上記音声認識手段によって認識された単語列に基づいて、上記言語モデル作成手段が上記言語モデルを作成する上記言語モデル作成処理と、を交互に繰り返す反復処理を実行するように構成されることが好適である。
 入力単語列の精度(真の単語列と一致している程度)が高くなるほど、第1の確率パラメータ及び第2の確率パラメータを高い精度にて取得することができる。更に、第1の確率パラメータ及び第2の確率パラメータの精度が高くなるほど、より高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。従って、上記構成によれば、より一層高い精度にて音声に対応する単語列を認識することができる。
 この場合、上記音声認識装置は、所定の終了条件が成立した場合、上記反復処理を終了するように構成されることが好適である。
 この場合、上記終了条件は、前回の上記音声認識処理により認識された単語列と、今回の上記音声認識処理により認識された単語列と、が一致しているという条件であることが好適である。
 また、上記音声認識装置の他の態様において、
 上記終了条件は、上記音声認識処理を実行した回数が予め設定された閾値回数よりも大きいという条件であることが好適である。
 また、本発明の他の形態である言語モデル作成方法は、
 第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において上記特定の単語が出現する確率を表す第2の内容別言語モデルと、が記憶装置に記憶されている場合に、
 音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が上記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、上記記憶されている第1の内容別言語モデルと、上記記憶されている第2の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する、方法である。
 この場合、上記言語モデル作成方法は、
 上記取得された第1の確率パラメータが大きくなるほど大きくなる第1の係数を上記第1の内容別言語モデルが表す確率に乗じた値と、上記取得された第2の確率パラメータが大きくなるほど大きくなる第2の係数を上記第2の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率が大きくなる上記言語モデルを作成するように構成されることが好適である。
 また、本発明の他の形態である言語モデル作成プログラムは、
 情報処理装置に、
 第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において上記特定の単語が出現する確率を表す第2の内容別言語モデルと、を記憶装置に記憶させる内容別言語モデル記憶処理手段と、
 音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が上記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、上記記憶されている第1の内容別言語モデルと、上記記憶されている第2の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成手段と、
 を実現させるためのプログラムである。
 この場合、上記言語モデル作成手段は、
 上記取得された第1の確率パラメータが大きくなるほど大きくなる第1の係数を上記第1の内容別言語モデルが表す確率に乗じた値と、上記取得された第2の確率パラメータが大きくなるほど大きくなる第2の係数を上記第2の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率が大きくなる上記言語モデルを作成するように構成されることが好適である。
 上述した構成を有する、音声認識装置、言語モデル作成方法、又は、言語モデル作成プログラム、の発明であっても、上記言語モデル作成装置と同様の作用を有するために、上述した本発明の目的を達成することができる。
 以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
 また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。
 また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、CPUが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
 なお、本発明は、日本国にて2008年11月28日に出願された特願2008-304564の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。
 本発明は、音声からその音声が表す単語列を認識する音声認識処理を行う音声認識装置等に適用可能である。
11   音声認識仮説入力部
12   内容推定部
13   言語モデル作成部
14   内容モデル記憶部
15   内容別言語モデル記憶部
21   音声認識部
22   音声認識モデル記憶部
24   言語モデル更新部
33   言語モデル作成部
35   内容別言語モデル記憶部
101  言語モデル作成装置
201  音声認識装置
241  音声認識仮説入力部
242  内容推定部
243  言語モデル作成部
244  内容モデル記憶部
245  内容別言語モデル記憶部
301  言語モデル作成装置

Claims (22)

  1.  第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において前記特定の単語が出現する確率を表す第2の内容別言語モデルと、を記憶する内容別言語モデル記憶手段と、
     音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が前記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が前記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、前記記憶されている第1の内容別言語モデルと、前記記憶されている第2の内容別言語モデルと、に基づいて、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う言語モデル作成手段と、
     を備える言語モデル作成装置。
  2.  請求項1に記載の言語モデル作成装置であって、
     前記言語モデル作成手段は、
     前記取得された第1の確率パラメータが大きくなるほど大きくなる第1の係数を前記第1の内容別言語モデルが表す確率に乗じた値と、前記取得された第2の確率パラメータが大きくなるほど大きくなる第2の係数を前記第2の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率が大きくなる前記言語モデルを作成するように構成された言語モデル作成装置。
  3.  請求項1又は請求項2に記載の言語モデル作成装置であって、
     前記言語モデル作成手段は、前記音声認識処理によって認識された単語列の単語間の境界を境界として前記入力単語列を分割した複数の前記処理対象単語列のそれぞれに対して、前記言語モデル作成処理を行うように構成された言語モデル作成装置。
  4.  請求項1又は請求項2に記載の言語モデル作成装置であって、
     前記言語モデル作成手段は、前記音声認識処理によって認識された単語列の単語間の境界と異なる位置を境界として前記入力単語列を分割した複数の前記処理対象単語列のそれぞれに対して、前記言語モデル作成処理を行うように構成された言語モデル作成装置。
  5.  請求項3又は請求項4に記載の言語モデル作成装置であって、
     前記言語モデル作成手段は、
     前記取得された第1の確率パラメータ及び前記取得された第2の確率パラメータの両方が、予め設定された下限閾値よりも小さい場合、前記取得された第1の確率パラメータ及び前記取得された第2の確率パラメータの両方を同一の値に設定するように構成された言語モデル作成装置。
  6.  請求項3乃至請求項5のいずれか一項に記載の言語モデル作成装置であって、
     前記言語モデル作成手段は、
     ある処理対象単語列に対して前記取得された第1の確率パラメータが、予め設定された上限閾値よりも大きい場合、その処理対象単語列に隣接する処理対象単語列に対して前記取得された第1の確率パラメータを増加させるように補正するように構成された言語モデル作成装置。
  7.  請求項1乃至請求項6のいずれか一項に記載の言語モデル作成装置であって、
     前記言語モデル作成手段は、条件付確率場の理論に基づいて前記第1の確率パラメータ及び前記第2の確率パラメータを取得するように構成された言語モデル作成装置。
  8.  請求項1乃至請求項7のいずれか一項に記載の言語モデル作成装置であって、
     前記言語モデル作成手段は、前記処理対象単語列に含まれる単語の属性を表す単語属性情報、及び、前記処理対象単語列を音声から認識する音声認識処理を行う際に取得された音声認識処理情報、の少なくとも1つに基づいて前記第1の確率パラメータ及び前記第2の確率パラメータを取得するように構成された言語モデル作成装置。
  9.  請求項8に記載の言語モデル作成装置であって、
     前記単語属性情報は、単語表層を表す情報、読みを表す情報、及び、品詞を表す情報の少なくとも1つを含む言語モデル作成装置。
  10.  請求項8又は請求項9に記載の言語モデル作成装置であって、
     前記音声認識処理情報は、前記音声認識処理による認識結果の信頼度である認識信頼度を表す情報、1つの音が継続する時間である継続時間長を表す情報、及び、先行する無音の有無を表す情報の少なくとも1つを含む言語モデル作成装置。
  11.  請求項1乃至請求項10のいずれか一項に記載の言語モデル作成装置であって、
     前記言語モデル作成手段は、
     前記入力単語列における前記処理対象単語列の位置を表す情報、前記入力単語列が1つの単語を複数含むことを表す情報、前記入力単語列における内容の連接状態を表す情報、及び、前記入力単語列が複数存在する場合における各入力単語列間の関係を表す情報、の少なくとも1つに基づいて前記第1の確率パラメータ及び前記第2の確率パラメータを取得するように構成された言語モデル作成装置。
  12.  第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において前記特定の単語が出現する確率を表す第2の内容別言語モデルと、を記憶する内容別言語モデル記憶手段と、
     音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が前記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が前記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、前記記憶されている第1の内容別言語モデルと、前記記憶されている第2の内容別言語モデルと、に基づいて、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う言語モデル作成手段と、
     前記言語モデル作成手段により作成された言語モデルに基づいて、入力された音声に対応する単語列を認識する音声認識処理を行う音声認識手段と、
     を備える音声認識装置。
  13.  請求項12に記載の音声認識装置であって、
     前記言語モデル作成手段は、
     前記取得された第1の確率パラメータが大きくなるほど大きくなる第1の係数を前記第1の内容別言語モデルが表す確率に乗じた値と、前記取得された第2の確率パラメータが大きくなるほど大きくなる第2の係数を前記第2の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率が大きくなる前記言語モデルを作成するように構成された音声認識装置。
  14.  請求項12又は請求項13に記載の音声認識装置であって、
     前記音声認識手段は、前記入力された音声に対応する単語列を認識する前記音声認識処理を行うことにより前記入力単語列を生成するように構成され、
     前記言語モデル作成手段は、前記音声認識手段により生成された前記入力単語列に基づいて前記言語モデルを作成するように構成され、
     前記音声認識手段は、前記言語モデル作成手段により作成された前記言語モデルに基づいて、前記入力された音声に対応する単語列を認識する前記音声認識処理を再度行うように構成された音声認識装置。
  15.  請求項12乃至請求項14のいずれか一項に記載の音声認識装置であって、
     前記言語モデル作成手段によって作成された言語モデルに基づいて、前記音声認識手段が前記入力された音声に対応する単語列を認識する前記音声認識処理と、前記音声認識手段によって認識された単語列に基づいて、前記言語モデル作成手段が前記言語モデルを作成する前記言語モデル作成処理と、を交互に繰り返す反復処理を実行するように構成された音声認識装置。
  16.  請求項15に記載の音声認識装置であって、
     所定の終了条件が成立した場合、前記反復処理を終了するように構成された音声認識装置。
  17.  請求項16に記載の音声認識装置であって、
     前記終了条件は、前回の前記音声認識処理により認識された単語列と、今回の前記音声認識処理により認識された単語列と、が一致しているという条件である音声認識装置。
  18.  請求項16に記載の音声認識装置であって、
     前記終了条件は、前記音声認識処理を実行した回数が予め設定された閾値回数よりも大きいという条件である音声認識装置。
  19.  第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において前記特定の単語が出現する確率を表す第2の内容別言語モデルと、が記憶装置に記憶されている場合に、
     音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が前記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が前記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、前記記憶されている第1の内容別言語モデルと、前記記憶されている第2の内容別言語モデルと、に基づいて、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率を表す言語モデルを作成する、言語モデル作成方法。
  20.  請求項19に記載の言語モデル作成方法であって、
     前記取得された第1の確率パラメータが大きくなるほど大きくなる第1の係数を前記第1の内容別言語モデルが表す確率に乗じた値と、前記取得された第2の確率パラメータが大きくなるほど大きくなる第2の係数を前記第2の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率が大きくなる前記言語モデルを作成するように構成された言語モデル作成方法。
  21.  情報処理装置に、
     第1の内容を表す単語列において特定の単語が出現する確率を表す第1の内容別言語モデルと、第2の内容を表す単語列において前記特定の単語が出現する確率を表す第2の内容別言語モデルと、を記憶装置に記憶させる内容別言語モデル記憶処理手段と、
     音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が前記第1の内容である確率を表す第1の確率パラメータと、当該処理対象単語列が表す内容が前記第2の内容である確率を表す第2の確率パラメータと、を取得するとともに、当該取得された第1の確率パラメータと、当該取得された第2の確率パラメータと、前記記憶されている第1の内容別言語モデルと、前記記憶されている第2の内容別言語モデルと、に基づいて、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成手段と、
     を実現させるための言語モデル作成プログラム。
  22.  請求項21に記載の言語モデル作成プログラムであって、
     前記言語モデル作成手段は、
     前記取得された第1の確率パラメータが大きくなるほど大きくなる第1の係数を前記第1の内容別言語モデルが表す確率に乗じた値と、前記取得された第2の確率パラメータが大きくなるほど大きくなる第2の係数を前記第2の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率が大きくなる前記言語モデルを作成するように構成された言語モデル作成プログラム。
PCT/JP2009/004341 2008-11-28 2009-09-03 言語モデル作成装置 WO2010061507A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/129,721 US9043209B2 (en) 2008-11-28 2009-09-03 Language model creation device
JP2010540302A JP5598331B2 (ja) 2008-11-28 2009-09-03 言語モデル作成装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008304564 2008-11-28
JP2008-304564 2008-11-28

Publications (1)

Publication Number Publication Date
WO2010061507A1 true WO2010061507A1 (ja) 2010-06-03

Family

ID=42225399

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/004341 WO2010061507A1 (ja) 2008-11-28 2009-09-03 言語モデル作成装置

Country Status (3)

Country Link
US (1) US9043209B2 (ja)
JP (1) JP5598331B2 (ja)
WO (1) WO2010061507A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103918026A (zh) * 2011-11-01 2014-07-09 谷歌公司 用于增量地生成的语音识别假设的增强的稳定性预测
CN109712607A (zh) * 2018-12-30 2019-05-03 联想(北京)有限公司 一种处理方法、装置及电子设备

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090313017A1 (en) * 2006-07-07 2009-12-17 Satoshi Nakazawa Language model update device, language Model update method, and language model update program
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9672818B2 (en) 2013-04-18 2017-06-06 Nuance Communications, Inc. Updating population language models based on changes made by user clusters
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US20150309984A1 (en) * 2014-04-25 2015-10-29 Nuance Communications, Inc. Learning language models from scratch based on crowd-sourced user text input
KR102389313B1 (ko) 2015-01-16 2022-04-21 삼성전자주식회사 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
KR20170046291A (ko) * 2015-10-21 2017-05-02 삼성전자주식회사 전자 기기, 그의 음향 모델 적응 방법 및 음성 인식 시스템
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN109325227A (zh) * 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于生成修正语句的方法和装置
WO2020112789A1 (en) 2018-11-30 2020-06-04 Google Llc Speech processing

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259084A (ja) * 1998-03-16 1999-09-24 Kdd Corp クラスタ混合分布言語モデル作成装置
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
JP2005284209A (ja) * 2004-03-31 2005-10-13 Kddi Corp 音声認識方式
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
WO2008004666A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif, procédé et programme de reconnaissance vocale

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5828999A (en) * 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US7319957B2 (en) * 2004-02-11 2008-01-15 Tegic Communications, Inc. Handwriting and voice input with automatic correction
WO2001046945A1 (en) * 1999-12-20 2001-06-28 British Telecommunications Public Limited Company Learning of dialogue states and language model of spoken information system
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US7072827B1 (en) * 2000-06-29 2006-07-04 International Business Machines Corporation Morphological disambiguation
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
DE10038517A1 (de) * 2000-08-08 2002-02-21 Philips Corp Intellectual Pty Automatissche Erkennung von Unternehmensnamen in sprachlichen Äußerungen
JP2002229589A (ja) 2001-01-29 2002-08-16 Mitsubishi Electric Corp 音声認識装置
US7133827B1 (en) * 2002-02-06 2006-11-07 Voice Signal Technologies, Inc. Training speech recognition word models from word samples synthesized by Monte Carlo techniques
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US20040111259A1 (en) * 2002-12-10 2004-06-10 Miller Edward S. Speech recognition system having an application program interface
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US7487094B1 (en) * 2003-06-20 2009-02-03 Utopy, Inc. System and method of call classification with context modeling based on composite words
WO2005020093A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. Internet searching using semantic disambiguation and expansion
US7529657B2 (en) * 2004-09-24 2009-05-05 Microsoft Corporation Configurable parameters for grammar authoring for speech recognition and natural language understanding
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US7681147B2 (en) * 2005-12-13 2010-03-16 Yahoo! Inc. System for determining probable meanings of inputted words
US8009819B2 (en) * 2007-03-26 2011-08-30 Nuance Communications, Inc. Semi-supervised training of destination map for call handling applications

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259084A (ja) * 1998-03-16 1999-09-24 Kdd Corp クラスタ混合分布言語モデル作成装置
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
JP2005284209A (ja) * 2004-03-31 2005-10-13 Kddi Corp 音声認識方式
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
WO2008004666A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif, procédé et programme de reconnaissance vocale

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103918026A (zh) * 2011-11-01 2014-07-09 谷歌公司 用于增量地生成的语音识别假设的增强的稳定性预测
CN109712607A (zh) * 2018-12-30 2019-05-03 联想(北京)有限公司 一种处理方法、装置及电子设备

Also Published As

Publication number Publication date
US20110231183A1 (en) 2011-09-22
JP5598331B2 (ja) 2014-10-01
US9043209B2 (en) 2015-05-26
JPWO2010061507A1 (ja) 2012-04-19

Similar Documents

Publication Publication Date Title
JP5598331B2 (ja) 言語モデル作成装置
US11900915B2 (en) Multi-dialect and multilingual speech recognition
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US10037758B2 (en) Device and method for understanding user intent
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8155956B2 (en) Voice query extension method and system
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US8311825B2 (en) Automatic speech recognition method and apparatus
US8849668B2 (en) Speech recognition apparatus and method
JP5861649B2 (ja) モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
US20070100814A1 (en) Apparatus and method for detecting named entity
JP2005010691A (ja) 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
US6801891B2 (en) Speech processing system
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JP2014521115A (ja) 信頼度計算の方法及び装置
JP6047364B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
US10360904B2 (en) Methods and apparatus for speech recognition using a garbage model
US11227580B2 (en) Speech recognition accuracy deterioration factor estimation device, speech recognition accuracy deterioration factor estimation method, and program
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2008241970A (ja) 話者適応装置、話者適応方法及び話者適応プログラム
JP2010224153A (ja) 音声対話装置及びプログラム
Rybach et al. On lattice generation for large vocabulary speech recognition
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP5585111B2 (ja) 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09828757

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13129721

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2010540302

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09828757

Country of ref document: EP

Kind code of ref document: A1