WO2004047075A1 - 音声処理装置および方法、記録媒体並びにプログラム - Google Patents

音声処理装置および方法、記録媒体並びにプログラム Download PDF

Info

Publication number
WO2004047075A1
WO2004047075A1 PCT/JP2003/014342 JP0314342W WO2004047075A1 WO 2004047075 A1 WO2004047075 A1 WO 2004047075A1 JP 0314342 W JP0314342 W JP 0314342W WO 2004047075 A1 WO2004047075 A1 WO 2004047075A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
speech
unknown word
unknown
network
Prior art date
Application number
PCT/JP2003/014342
Other languages
English (en)
French (fr)
Inventor
Hiroaki Ogawa
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP03772681A priority Critical patent/EP1460615B1/en
Priority to US10/502,169 priority patent/US7653541B2/en
Priority to DE60318385T priority patent/DE60318385T2/de
Priority to AU2003280726A priority patent/AU2003280726A1/en
Publication of WO2004047075A1 publication Critical patent/WO2004047075A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Definitions

  • Audio processing apparatus and method recording medium, and program
  • the present invention relates to a voice processing device, a voice processing method, a recording medium, and a program, and in particular, during recognition of a voice signal that is continuously input, an unknown word included in the input voice signal.
  • the present invention relates to a voice processing device, a voice processing method, a program, and a recording medium that can be easily registered. Background art
  • speech recognition is performed on the speech in units shorter than words (subwords), such as phonology and syllables, and a sequence of syllables is given to the speech (that is, reading a kana).
  • the score of each syllable is calculated, and the score of an unknown word (00V: 0ut Of Vocabulary) is estimated by assigning an appropriate penalty to this score.
  • word speech recognition considering the possibility that words other than normal word candidates are unknown words, the score obtained as described above is used for words other than normal word candidates.
  • the unknown word part is recognized as an unknown word if the unknown word score is worse than the correct word score and better than the incorrect word score. Is done.
  • the sub-word sequence for example, syllable series
  • the sub-word sequence is referred to based on the time information in the syllable typewriter of the unknown word part. This makes it possible to estimate syllable strings assigned to unknown words (for example, by I ssam Bazz i and James R. Glass).
  • Non-Patent Document 2 Hiroaki Ogikubo, Shigehiko Onishi, Hiroshi Yamamoto, and Genro Kikui, subword model Efficient search method for unregistered word recognition, Journal of Information Processing Society of Japan, published in July 2000, Vol. 43, No. 7, p. 2082-2090 (hereinafter referred to as Non-Patent Document 3) See).
  • the time of the word boundary of the word string obtained as a result of the word string search and the temporal boundary of the subword sequence obtained as a result of the search of the subword series are not necessarily coincident.
  • the recognition result by word speech recognition is wordl ⁇ 00V> word2
  • the word string boundary and sub-word sequence (Syl l to Syl8) boundary mismatch may occur.
  • ⁇ 00V> is a symbol representing an unknown word.
  • the boundary before time oov> corresponds to the middle of Syl4
  • the boundary after time corresponds to the middle of Syl7.
  • Syl4 and Syl7 which are sub-nodes of the boundary where the mismatch occurs, may or may not be included in 00V>. Therefore, in order to obtain a pronunciation of ⁇ 00V>, the subword boundary must be determined.
  • a method of determining the boundary of sub-nodes As a method of determining the boundary of sub-nodes, a method of determining the boundary using a sup- ply sequence is known. The method, that is, the method for obtaining oov> pronunciation by subword sequence is described below with reference to FIG.
  • 00V> pronunciation acquisition method based on subword sequence when normal speech recognition and recognition by syllable typewriter are completed, each syllable is continued for syllables including the syllable typewriter time at both ends of 00V>. If 50% or more of the time is included in the section of 00V>, the syllable is made part of 00V>. For example, as shown in FIG. 2, it is assumed that a part of the recognized word string is an array of word 1, 00V>, and word 2. Also, suppose that a part of the subword sequence by the syllable typewriter is an array of syllable i, syllable j, and syllable k.
  • L1 length of syllable i corresponding to word 1 side (time)> L 2 (length of time corresponding to 00VM rule of syllable i (time)), so syllable i is Is not included in 00V>.
  • L3 the length of the part corresponding to the 00VM rule of syllable k (time)
  • L 4 the length of the part corresponding to word 2 side of syllable k (time)
  • Syllable k is determined to be included in 00V>.
  • Figures 3 and 4 show the results of experiments using the “00V” pronunciation acquisition method according to the subword sequence of FIG.
  • the method of obtaining 00V> pronunciation was tested on 7 5 2 types of utterances in a travel domain of 12 people (6 men and women) (such as hotel check-in and restaurant order).
  • conditions were set for features, acoustic models, and language models.
  • Features include 16 bit, 16 KHz sampling, 1 O msec frame period, 25 msec frame length, and 1 2nd order MFCC (Mel Frequency Cepstrum Coffi cients), and It is set to the first order regression coefficient (25th dimension) of MFCC from 0th order to 1st order.
  • the acoustic model is 1 6 mixture, 1 0 0 O ti ed -state H (Hidden Markov Model), and the language model is subword trigram, cut-off trigram 5, bigram 5.
  • 3 14 syllables and syllable chains were used as subwords.
  • As the language model we used phonological trigrams learned with a 6-year corpus of Nikkei Shimbun.
  • Fig. 4 shows the performance of recognition accuracy, substitution error, deletion error, and insertion error of the subword sequence when applying the method of obtaining pronunciation of sub-word sequence of Fig. 2>00V> pronunciation.
  • a substitution error is an error that replaces a syllable different from the original syllable
  • a deletion error is an error that does not recognize a syllable that should be recognized originally (deletion error).
  • a syllable that should not be recognized is an error that appears in the recognition result.
  • the recognition accuracy Acc is obtained from Eq. (1) using the total number of syllables N, the number of correct answers NJ, and the number of insertion errors N–I.
  • the recognition accuracy with the sub-word sequence in Fig. 2 is 00.2> 4%, and the rate of occurrence of deletion errors and insertion errors is 33.3%, respectively. % And 4.1%.
  • the word recognition must be performed while taking into account the syllable boundaries when performing continuous word recognition.
  • the recognition accuracy is not as high as 40.2%, and the occurrence rate of deletion errors is as high as 33.3%.
  • the deletion error rate was 33.3%, while the insertion error rate was 4.1%, and the balance between the two was poor.
  • the present invention has been made in view of such a situation, and an object of the present invention is to improve the recognition rate of speech recognition and to balance the occurrence of deletion errors and insertion errors.
  • the speech processing apparatus of the present invention includes a recognition unit that recognizes continuous input speech, an unknown word determination unit that determines whether or not an unknown word is included in the recognition result recognized by the recognition unit, and an unknown word Network generation for generating a network having a path including a subword at a time corresponding to the word boundary of the unknown word and a path not including the subword when the determination means determines that the recognition result includes an unknown word If the means and the unknown word determination means determine that the unknown word is included, the acquisition means for acquiring the word corresponding to the unknown word and the word acquired by the acquisition means are related to other information. And registration means for registering.
  • the speech processing apparatus further includes pattern determination means for determining whether or not the recognition result matches a specific pattern, and the registration means determines that the recognition result matches the specific pattern by the pattern determination means. If it is judged, the word can be registered.
  • Response generation means for generating a response corresponding to the input voice can be further provided.
  • the registration means can register the word in association with the category as other information.
  • the registration unit can register other information in association with the pattern determined to be matched by the pattern determination unit.
  • the acquisition means can acquire words by clustering unknown words.
  • the network generated by the network generation means can be a network of words and syllables.
  • the speech processing apparatus converts an unknown word based on a selection means that selects a path having a high score on the network based on matching between the input speech and the network, and a network that includes the path selected by the selection means. It is possible to further include pronunciation acquisition means for acquiring the corresponding pronunciation.
  • the speech processing apparatus further includes a comparison unit that compares an acoustic score when a predetermined section of the input speech is matched with a known word and recognized with a syllable typewriter, and the comparison unit includes a syllable typewriter. If the acoustic score recognized in is superior, it can be estimated that the section is an unknown word.
  • the comparison means can make a comparison after correcting the acoustic score when the syllable typifier recognizes the acoustic score when matching with a known word.
  • the speech processing method of the present invention includes a recognition step for recognizing continuous input speech, a determination step for determining whether or not an unknown word is included in the recognition result recognized by the processing of the recognition step, and a determination step If it is determined that the recognition result contains an unknown word in the process of, the network generation that generates a network having a path that includes the subword of the time corresponding to the word boundary of the unknown word and a path that does not include the subword If it is determined that the unknown word is included by the processing of the step and the determination step, the acquisition step of acquiring the word corresponding to the unknown word, and the word acquired by the processing of the acquisition step as other information And a registration step of registering in association with each other. '
  • the recording medium program of the present invention includes a recognition step for recognizing continuous input speech, a determination step for determining whether or not an unknown word is included in the recognition result recognized by the processing of the recognition step, and a determination step.
  • Network that generates a network that includes a path that includes a sub-word of the time corresponding to the word boundary of the unknown word and a path that does not include that sub-word if it is determined that the recognition result contains an unknown word
  • the program of the present invention includes a recognition step for recognizing continuous input speech, a determination step for determining whether or not an unknown word is included in the recognition result recognized by the processing of the recognition step, and a process of the determination step If it is determined that an unknown word is included in the recognition result, a network generation that generates a network having a path that includes a subword at a time corresponding to the word boundary of the unknown word and a path that does not include the subword. If it is determined that the unknown word is included in the step and the determination step, the acquisition step acquires a word corresponding to the unknown word, and associates the word acquired in the acquisition step with other information. And a registration step of registering in a computer.
  • the recording medium, and the program according to the present invention when continuous input speech is recognized and an unknown word is included in the recognition result, a network is generated, and based on the network. The pronunciation of the unknown word is acquired, the word corresponding to the unknown word is acquired, and the word is registered in association with other information.
  • FIG. 1 is a diagram for explaining a mismatch between a word string boundary and a subword sequence boundary.
  • FIG. 2 is a diagram for explaining a method for obtaining the “00V> pronunciation” according to the subword sequence.
  • Figure 3 shows the experimental conditions when using the sub-word sequence of Fig. 2.
  • Fig. 4 is a diagram showing the results of an experiment using the ⁇ 00V> pronunciation acquisition method according to the subword sequence of Fig. 2.
  • FIG. 5 is a block diagram showing a configuration example of an embodiment of a dialogue system to which the present invention is applied.
  • FIG. 6 is a diagram showing an example of a cluster state.
  • FIG. 7 is a diagram showing word registration.
  • FIG. 8 is a block diagram illustrating a configuration example of the voice recognition unit in FIG.
  • FIG. 9 is a flowchart for explaining the operation of the dialogue system of FIG.
  • FIG. 10 is a flowchart for explaining the details of the speech recognition processing in step S 22 of FIG.
  • FIG. 11 is a flowchart for explaining details of the word string generation processing in step S 54 in FIG.
  • Figure 12 shows an example of grammar used in the language model database.
  • Figure 13 shows an example of a language model based on a finite state automaton.
  • FIG. 14 is a diagram showing an example of language score calculation using tri_gram.
  • FIG. 15 shows an example of the tri_gram database.
  • FIG. 16 is a diagram for explaining network generation.
  • FIG. 17 is a diagram showing experimental results to which the present invention is applied.
  • FIG. 18 is a diagram showing experimental results to which the present invention is applied.
  • FIG. 19 is a flowchart for explaining details of the word acquisition process in step S 28 of FIG.
  • FIG. 20 is a diagram illustrating an example of a template.
  • Figure 21 shows an example of a grammar incorporating a syllable typewriter.
  • FIG. 22 is a block diagram showing a configuration example of an embodiment of a computer to which the present invention is applied.
  • FIG. 5 shows a configuration example of an embodiment of a dialogue system to which the present invention is applied.
  • This dialogue system is a system that is installed, for example, in the mouth pot, and performs dialogue with the user (human) by voice. For example, when voice is input, the name is extracted from the voice and registered. It has become.
  • the speech recognition unit 1 receives a speech signal based on the user's utterance, and the speech recognition unit 1 recognizes the input speech signal and the text as a result of the speech recognition. Other accompanying information is output to the dialog control unit 3 and the word acquisition unit 4 as necessary.
  • the word acquisition unit 4 automatically stores acoustic features for words that are not registered in the recognition dictionary of the speech recognition unit 1 so that the speech of the words can be recognized thereafter.
  • the word acquisition unit 4 obtains pronunciations corresponding to the input speech by the syllable typewriter and classifies them into several clusters.
  • Each cluster has ID and a representative syllable sequence, and is managed by ID. The cluster state at this time will be described with reference to FIG.
  • the word acquisition unit 4 classifies the three voices into three clusters, “Aka” cluster 2 1, “Ao” cluster 2 2, and “Midori” cluster 2 3, respectively.
  • Each cluster has a representative syllable sequence (in the example of Fig. 6, "a / force”, “a / o”, “me / do / li") and ID (in the example of Fig. 6, "1 ”,“ 2 ”,“ 3 ”).
  • the word acquisition unit 4 classifies the input voice into “Aka” cluster 2 1 and the new cluster is Do not generate.
  • the word acquisition unit 4 newly generates a cluster 2 4 corresponding to “Kuro”. Add a typical syllable sequence (in the example of Fig. 6 "Ku / Kuchi") and an ID (in the example of Fig. 6 "4").
  • the associative memory 2 stores information such as a category such as whether the registered name (unknown word) is a user name or a character name.
  • a category such as whether the registered name (unknown word) is a user name or a character name.
  • the cluster ID and the category name are stored in correspondence.
  • the cluster IDs “1”, “3”, “4” correspond to the “user name” category
  • the cluster ID “2” corresponds to the “character name” category. Has been.
  • the dialogue control unit 3 understands the content of the user's utterance from the output of the speech recognition unit 1, and controls the registration of names (unknown words) based on the understanding result. Further, the dialog control unit 3 controls the subsequent dialogs so that the registered name can be recognized based on the registered name information stored in the associative memory unit 2.
  • FIG. 8 shows a configuration example of the speech recognition unit 1.
  • the voice recognition unit 1 includes a microphone 41, an AD conversion unit 42, a feature extraction unit 43, a matching unit 44, a syllable typewriter 45, a control unit 46, a network generation unit 47, and an acoustic model database.
  • 5 1 Dictionary database 5 2, and language model Database 5 3
  • the user's utterance is input to the microphone 41, and the microphone 41 converts the utterance into an audio signal as an electric signal.
  • This audio signal is AD
  • the AD conversion unit 42 samples the audio signal that is an analog signal from the microphone 41 1, quantizes it, and converts it into audio data that is a digital signal. This audio data is supplied to the feature quantity extraction unit 43.
  • the feature quantity extraction unit 43 for the audio data from the AD conversion unit 42, for each appropriate frame, for example, feature parameters such as spectrum, power linear prediction coefficient, cepstrum coefficient, line spectrum pair, etc. Is extracted and supplied to the matching section 4 4 and the syllable type writer section 4 5.
  • the matching unit 4 4 Based on the feature parameters from the feature extraction unit 4 3, the matching unit 4 4 refers to the acoustic model / record database 5 1, dictionary database 5 2, and language model / record database 5 3 as necessary.
  • the word string closest to the speech (input speech) input to the microphone 41 is obtained and output to the network generation unit 47.
  • the acoustic model database 51 stores acoustic models representing acoustic features such as individual phonemes and syllables in a speech language for speech recognition.
  • acoustic model for example, HMM (Hidden Markov Model) can be used.
  • the dictionary database 52 stores a word dictionary in which information related to pronunciation is described for each word (phrase) to be recognized, and a model in which phonological and syllable chain relationships are described.
  • the word here is a unit that is more convenient to treat as a single unit in the recognition process, and does not necessarily match the linguistic word.
  • “Taro-kun” may be treated as a single word, or “Taro” and “Kun”.
  • a larger unit such as “Kontaro ha Taro” may be treated as one word.
  • a syllable is one that is acoustically more convenient to handle as a unit. It is not necessarily consistent with phonetic syllables. For example, “Tokyo”
  • the “To” part may be represented by two syllable symbols “To / u”, or “To:” using the symbol “To:” which is the long sound of “To”.
  • you may prepare a symbol for silence, which is also used for “silence before speech”, “short silence between speeches”, “silence of speech”, and “tsu”. It is possible to classify them finely like “silence” and prepare symbols for each.
  • the language model database 53 describes information on how each word registered in the word dictionary of the dictionary database 52 is linked (connected).
  • the syllable typewriter unit 4 5 acquires a syllable sequence corresponding to the input speech based on the feature parameters supplied from the feature amount extraction unit 4 3, outputs the syllable sequence to the matching unit 4 4, and generates a network generation unit 4. Also output to 7.
  • the syllable sequence “ ⁇ / Tan / No / Na / Ma / e / ha / o / ga / ⁇ / de / su” is obtained from the voice “My name is Ogawa”.
  • Existing syllable typewriters can be used.
  • any syllable sequence can be used instead, as long as it can acquire a syllable sequence for any speech.
  • any syllable sequence can be used instead, as long as it can acquire a syllable sequence for any speech.
  • Japanese phonemes for example, Japanese phonemes
  • the control unit 46 controls the operation of the 0 conversion unit 4 2, the feature amount extraction unit 4 3, the matching unit 4 4, and the syllable typewriter unit 4 5.
  • the network generation unit 47 generates a network of words and syllables based on the word string and the subword sequence (syllable sequence) based on the syllable sequence acquired from the syllable typewriter unit 45. That is, a path that includes the syllable at the time corresponding to the boundary immediately before 00V> and a path that does not include it, and a path that includes the syllable at the time corresponding to the boundary immediately after ⁇ oov>, and does not include it. Generate path and output to matching unit 4 4 The
  • step S 21 when the user inputs sound into the microphone 41, the microphone mouthphone 41 converts the utterance into a sound signal as an electrical signal.
  • step S 22 the speech recognition unit 1 executes speech recognition processing.
  • step S 51 the audio signal generated by the microphone 4 1 is converted into audio data as a digital signal by the AD conversion unit 42 and supplied to the feature amount extraction unit 43.
  • step S 52 the feature quantity extraction unit 43 receives the audio data from the AD conversion unit 42. Then, the feature quantity extraction unit 4 3 proceeds to step S 53 and extracts, for example, feature parameters such as spectrum, power, and their temporal change amount for each appropriate frame, and the matching unit 4 4 To supply.
  • step S 54 the matching unit 44 performs concatenation of some of the word models stored in the dictionary database 52 and executes word string generation processing.
  • the words constituting this word string include not only known words registered in the dictionary database 52 but also “KUV>” which is a symbol representing an unknown word not registered. This word string generation process will be described in detail with reference to FIG.
  • step S81 the matching unit 44 calculates the acoustic score in both cases for a certain section of the input speech. That is, the result obtained by the syllable typewriter unit 45 based on the acoustic score obtained by matching a certain section of the input speech with a known word registered in the dictionary database 52 and the input speech ( In this case, the acoustic scores of ⁇ / t / si / no / na / ma / e / ha / o / ga / ⁇ / de / s ⁇ are calculated respectively.
  • the acoustic score represents how close the word sequence that is a candidate for the speech recognition result and the input speech are as sounds.
  • a partial section of the input speech and known words registered in the dictionary database 52 Is compared with the acoustic score of the result of the syllable typewriter unit 45, but matching with a known word is performed in units of words, and the matching in the syllable typewriter unit 45 is Since it is performed in syllable units and the scales are different, it is difficult to compare them as they are (generally, the acoustic score in syllable units has a larger value). Therefore, in order to be able to compare with matching scales, the matching unit 44 corrects the acoustic score obtained by the syllable typewriter unit 45 in step S82.
  • a process of multiplying the acoustic score from the syllable typewriter unit 45 by a coefficient or subtracting a certain value or a value proportional to the frame length is performed.
  • this process since this process is relative, it can also be performed on the acoustic score resulting from matching with known words. The details of this process are disclosed, for example, in the document “EUR0SPEECH99 Volume IV, Page 49-52” as “00V-Detection in Large Vocabulary System Using Automatically Defined Word-Fragments as FilesersJ”. .
  • the matching unit 4 4 compares the two acoustic scores in step S 83 (determines whether the acoustic score resulting from the recognition by the syllable typewriter unit 45 is higher (excellent). ) If the acoustic score of the result recognized by the syllable typewriter unit 4 5 is higher, the process proceeds to step S84, and the matching unit 4 4 satisfies the section 00V> (Out Of Vocabulary) (unknown word) Estimated.
  • step S83 If it is determined in step S83 that the acoustic score of the result recognized by the syllable typewriter unit 45 is lower than the acoustic score of the matching result with the known word, the process proceeds to step S86.
  • the matching unit 44 estimates that the section is a known word.
  • the acoustic score of “o / ga / ⁇ ” output from the syllable typewriter unit 45 is compared with the acoustic score when matched with a known word, If the acoustic score of “o / ga / ⁇ ” is higher, “kuo> (o / ga / ⁇ )” is output as the word corresponding to the speech segment, and the acoustic score of the known word is output. If the core is higher, the known word is output as the word corresponding to the speech segment.
  • step S85 the matching unit 44 generates preferentially n word strings (concatenated several word models) that are estimated to have a high acoustic score.
  • step S 55 the syllable typewriter unit 45 is independent of the process in step S 54, and applies the feature parameters extracted in the process in step S 53. Recognize phonological units and output syllable sequences.
  • the syllable typewriter section 4 5 will read “ ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / su”.
  • step S 56 the matching unit 44 calculates an acoustic score for each word string generated in step S 54.
  • the likelihood is calculated by inputting speech feature parameters for each word sequence (concatenated word models). The method is used.
  • a word string that includes oov> it is not possible to obtain the acoustic score of the speech segment corresponding to oov> with the existing method (because there is no word model corresponding to 00V> in advance). .
  • the acoustic score of the section is extracted from the recognition result of the syllable typewriter, and the value obtained by correcting the value is used as the acoustic score of oov>. It is further integrated with the acoustic score of other known word parts, which is used as the acoustic score of the word string.
  • step S57 the matching unit 44 extracts the upper m word strings (m ⁇ n) having a high acoustic score and uses them as candidate word strings.
  • step S 58 the matching unit 4 4 refers to the language model database 53 and calculates a language score for each candidate word string.
  • the language score indicates how well the word sequence that is a candidate for the recognition result is suitable as a word. Here we explain in detail how to calculate this language score.
  • a grammar corresponding to an unknown word or a finite state automaton (FSA: Finite State Automaton) and tri-grara (which is one of the statistical language models) corresponding to unknown words.
  • FSA Finite State Automaton
  • tri-grara which is one of the statistical language models
  • a word string that fits in the grammar stored in the database is accepted, such as / oku 00VV / ku end> (parsed with this grammar) 1S “ ⁇ start> / you /
  • Word strings that do not apply to the grammar stored in the database are not accepted (this grammar is not parsed).
  • “ ⁇ Start>” and “ ⁇ End>” are special symbols representing silence before and after the utterance, respectively.
  • a parser is used to calculate the language score using this grammar. The parser splits the word sequence into a word sequence that can accept grammar and a word sequence that cannot. That is, for example, a language score of 1 is given to an acceptable word string, and a language score of 0 is given to an unacceptable word string.
  • Language score is calculated, and language score 1 (acceptance) is output together.
  • whether or not the grammar of the word string can be accepted is determined in advance by the equivalent grammar ( It can also be realized by converting to a finite state automaton (hereinafter referred to as FSA) and determining whether each word string can be accepted by the FSA.
  • FSA finite state automaton
  • An example of converting the grammar in Figure 12 into an equivalent FSA is shown in Figure 13.
  • An FSA is a directed graph consisting of states (nodes) and paths (arcs). As shown in Figure 13, S 1 is the start state and S 16 is the end state. Also, "$ ACTI0N" is actually registered with the name of the action, as in Fig. 12.
  • paths with “ ⁇ ” are special transitions that do not consume words (hereinafter referred to as ⁇ transitions). That is, for example, in “ ⁇ start> / I / ha / 00V> / is / end>”, the transition from the initial state S1 to the state S2 consumes the ⁇ head>, and from the state S2 Transition to state S 3 consumes “I”, but the transition from state S 3 to state S 5 is an ⁇ transition, so no words are consumed. That is, it is possible to skip from state S 3 to state S 5 and transition to the next state S 6.
  • Whether or not a predetermined word string can be accepted by this FSA is determined by whether or not it can start from the initial state S 1 and reach the end state S 16.
  • a statistical language model is a language model that determines the generation probability of the word string and uses it as a language score. That is, for example, in the language model 7 1 in Fig. 1
  • the language score of “/ 00V> / is / ⁇ term>” is expressed by the probability of the word string, as shown in the second line. This is further expressed as a product of conditional probabilities, as shown in lines 3-6. For example, “P (no
  • the expressions shown in the third to sixth lines in FIG. 14 are approximated with conditional probabilities of three consecutive words as shown in the seventh to ninth lines. These probability values are obtained by referring to the tri-grara database 81 as shown in Fig. 15. This tri-gram database 81 is obtained by analyzing a large amount of text in advance.
  • w 1 w 2) of three consecutive words w l, w 2, w 3 is represented. For example, if the three words w l., W 2, w 3 forces are “ku >>,“ me ”,“ no ”, the probability value is 0.12,“ I ”,
  • the probability value is set to 0.01, and if “ ⁇ oov>", “is”, or “termination>”, the probability value is set to 0.87. ing.
  • the language score can be calculated for a word string including ⁇ oov> by performing entry processing on the language model in the manner of 00V. Therefore, the symbol oov> can be output in the recognition result. Also, when using other types of language models, the language score can be calculated for word strings containing 00V> by performing entry processing for 00VM.
  • a language score can be calculated by using a mechanism that maps ⁇ oov> to an appropriate word in the language model. For example, even when using a tri_gram database that does not have “P (00V> I I am)”, the database is accessed with “P (Ogawa I I am)” and the probability described there is “ The language score can be calculated by considering it as the value of “P (ku 00V> I I)”.
  • the matching unit 4 4 integrates the acoustic score and the language score in step S 59.
  • the matching unit 44 selects the candidate word string having the best score based on the score obtained by integrating both the acoustic score and the language score obtained in step S59. And output as a recognition result.
  • step S 59 the integration process in step S 59 is performed. If the language score is 0, the word string is deleted, and if the language score is other than 0, it is left as it is. You may make it the process of leaving.
  • step S 2 3 the control unit 4 6 of the speech recognition unit 1 identifies an unknown word in the recognized word string. It is determined whether or not it is included. If it is determined in step S 2 3 that an unknown word is included, the network generation unit 47 generates a word based on the word string and the subword sequence based on the syllable sequence acquired from the syllable type writer unit 45. And a network of subwords (eg syllables).
  • a path that includes a syllable at the time corresponding to the boundary immediately before ⁇ 00V> and a path that does not include it, and a path that includes the syllable at the time corresponding to the boundary immediately after 00V> and does not include it.
  • a path is generated and output to the matching unit 4 4.
  • step S 2 5 the matching section 4 4 starts from the syllable typewriter section 4 5 Based on the subword sequence based on the supplied syllable sequence and the network supplied from the network generation unit 47, the speech input from the user is matched with the network.
  • Figure 16 illustrates network creation
  • the matching unit 4 4 selects a candidate word string having the best score based on the score obtained by integrating both the obtained acoustic score and language score, and outputs it as a recognition result. For example, FIG. As shown in the above, “ku start> / I /// name / ha / ku 00V> / is / ku end>”.
  • the syllable typewriter unit 45 as shown in Fig.
  • the syllable “ha” is the word “ha” in the word string. Or included in the word “00V>” in the word string.
  • a network of words and syllables is generated.
  • a path that includes the syllable at the time corresponding to the boundary immediately before ⁇ oov>, a path that does not include it, and a path that includes the syllable at the time corresponding to the boundary immediately after ⁇ oov>, and a path that does not include it. is generated.
  • the predetermined syllable “c” and syllable “ ⁇ ” in the subword sequence Syllable typewriter section corresponding to frame 4 5 Let Ebrator time be t 0 , respectively, and let the time of word strings corresponding to the syllable typewriter times t 0 and tl be t 3 and t 3 , respectively. Also, as shown in Fig. 16C, the interval in Fig. 16!), That is, the interval from 00V> to the word "I" immediately after 00V> is 00V> It is composed of syllables “ha” “o” “ga” “ ⁇ ”that may correspond to the pronunciation of>
  • My -name- is -ha-ga- ⁇ -
  • My -name- is -ha-ga-
  • step S 2 6 the matching unit 4 4 determines the path on the network with a high score (for example, in FIG. 16 based on the result of matching between the voice input from the user and the network). Select path 9 1, path 10 2 and path 10 3).
  • step S 2 7 the matching unit 4 4 determines the path on the network selected in step S 2 6 (for example, path 9 1 in FIG. 16, and path 1 0 2 and path 1 0 3). Based on the subword sequence output from the syllable typewriter unit 45, the corresponding pronunciation (“o / ga / ⁇ ” in the example of Fig. 16) is acquired.
  • Figures 17 and 18 show the experimental results of applying the present invention. Since the condition setting is the same as the setting in FIG. 3, its description is omitted.
  • Figure 17 shows the performance of syllable sequence recognition accuracy, substitution error, deletion error, and insertion error when this method is applied. Each value is expressed as a percentage. The detailed description thereof is the same as in FIG. In the results of Fig. 17, the recognition accuracy is 48.5%. Compared with Fig. 4, the recognition accuracy is better than the recognition accuracy of the subword sequence 00V> 4.2% in the pronunciation acquisition method. doing. The occurrence rates of deletion errors and insertion errors are 11.6% and 8.0%, respectively. The deletion error and insertion error in the ⁇ 00V> pronunciation acquisition method using the subword sequence in Fig. 4 are shown. Comparing the occurrence rate of 33.3% with 4.1%, the occurrence balance of deletion errors and insertion errors is improved (the difference between the two is getting smaller).
  • FIG. 18 shows an example of a part of the recognition result assigned to 00V> according to the present invention for the utterance of one speaker.
  • “Kazumi” was recognized as “Kazumi j, and no errors occurred.” For example, “Kazumi” was recognized as “Katsu two” in the second time. And “Mi” have substitution errors. In the third round, “Kazumi” was recognized as “Kazumi” and no errors occurred. In the 4th time, “Power Tsumi” is recognized as “Katsumi” and a substitution error has occurred in “Zu”. In the 5th meeting, “Kazumi” is recognized as “Kasumi” and replaced by “zu”. An error has occurred.
  • control unit 46 controls the word acquisition unit 4 to execute word acquisition processing in step S 28 and acquire the unknown word.
  • step S 1 1 the word acquisition unit 4 extracts feature parameters of the unknown word «00V» from the speech recognition unit 1, in particular, feature parameters related to time information.
  • step S 1 1 2 the word acquisition unit 4 determines whether or not the unknown word belongs to the already acquired cluster. When it is determined that it does not belong to the already acquired cluster, the word acquiring unit 4 generates a new cluster corresponding to the unknown word in step S 1 1 3.
  • step S 1 1 4 the word acquisition unit 4 outputs the ID of the cluster to which the unknown word belongs to the matching unit 4 4 of the speech recognition unit 1.
  • step S 1 1 2 If it is determined in step S 1 1 2 that the unknown word belongs to the already acquired cluster, there is no need to generate a new cluster, so the word acquisition unit 4 skips step S 1 1 3 and Proceed to S 1 1 4, and output the ID of the acquired cluster to which the unknown word belongs to the matching unit 4 4.
  • step S 2 9 the dialog control unit 3 determines that the word string acquired in the process of step S 2 8 matches the template. Determine whether or not. That is, it is determined here whether the word string of the recognition result means registration of some name. If it is determined in step S 29 that the word string of the recognition result matches the template, in step S 30, the dialogue control unit 3 stores the name cluster ID in the associative storage unit 2. And store the corresponding categories.
  • This template 1 2 1 indicates that when the word string of the recognition result matches the regular expression on the left side of the figure, the operation on the right side of the figure is executed.
  • the recognition result is the word string “ku start> / I / no / name / ha / ku 00V> (o / ga / ⁇ ) / do / ku end>”
  • the character generated from this recognition result The column “My name is 00V>” matches the second regular expression in Figure 20. Therefore, the corresponding operation “register cluster ID corresponding to 00V> as a user name” is executed. That is, if the cluster ID of “ku 00V> (o / ga / ⁇ )” is “1”, the category name of cluster ID “1” is registered as “user name” as shown in FIG.
  • the template 1 2 1 and the associative memory unit 2 can be simplified. For example, it is possible to store only the cluster ID in the associative memory unit 2 by storing the ID of the template 1 2 1 as “if the recognition result nikku 00V> is included”.
  • the dialog control unit 3 reflects the information registered in the associative memory unit 2 in the subsequent conversation determination process. For example, on the side of the dialogue system, “Determine whether or not the name of the dialogue character is included in the user's utterance.
  • the dialogue control unit 3 refers to the information in the associative memory unit 2 and corresponds to the dialogue character. Equivalent to a word (entry whose category name is “character name”) or user name You can get words (entries whose category name is “username”).
  • step S 3 In 1 the dialogue control unit 3 generates a response corresponding to the input voice. That is, in this case, the name (unknown word) registration process is not performed, and a predetermined process corresponding to the input voice from the user is performed.
  • the part corresponding to "$ 00V" is output as multiple symbols.
  • the recognition result of “My name is Ogawa” becomes “ ⁇ start> / I / no / name / has / o / ga / ⁇ / is / termination>”. The result is " ⁇
  • step S2 3 in Fig. 9 the processing after step S2 3 in Fig. 9 is executed in the same way as when using the syllable typewriter. can do.
  • step S 2 8 in the flow chart of FIG. 9 may be omitted.
  • step S 28 is omitted, the process in step S 30 is performed by dialog control unit 3 in associative memory unit 2. The process is to store the support series and the category in association with each other.
  • a network of words with syllables is formed, but the likelihood for the input speech is maximized. Since it is only necessary to be able to select an optimal subword sequence on the network, it is possible to create a network of subwords and words other than syllables, such as phonemes and phonemes, as well as syllables.
  • FIG. 22 shows a configuration example of a personal computer 150 that executes the above-described processing.
  • the Sonanore computer 1 5 0 has a CPU (Central Processing Unit) 1 5 1 built-in.
  • An input / output interface 1 5 5 is connected to the CPU 1 5 1 through a bus 1 5 4.
  • the node 15 4 is connected to a read only memory (R0M) 15 2 and a random access memory (RAM) 15 3.
  • R0M read only memory
  • RAM random access memory
  • the input / output interface 1 5 5 includes an input unit 1 5 7 composed of input devices such as a mouse, a keyboard, a microphone and an AD converter operated by a user, a display, a speaker, and a DA converter.
  • the output unit 1 5 6 composed of output devices such as is connected.
  • the input / output interface 1 5 5 includes a storage unit 1 5 8 composed of a hard disk drive for storing programs and various data, and a communication unit 1 5 9 for communicating data via a network represented by the Internet. Is connected.
  • the I / O interface 1 5 5 has a drive 1 6 0 that reads and writes data to and from a recording medium such as a magnetic disk 1 7 1, an optical disk 1 7 2, a magneto-optical disk 1 7 3, and a semiconductor memory 1 7 4 Connected as needed.
  • a recording medium such as a magnetic disk 1 7 1, an optical disk 1 7 2, a magneto-optical disk 1 7 3, and a semiconductor memory 1 7 4 Connected as needed.
  • An audio processing program for causing the personal computer 1550 to execute an operation as an audio processing apparatus to which the present invention is applied includes a magnetic disk 1 71 (including a floppy disk), an optical disk 1 7 2 (CD-ROM (Compact Di (including sc-Read Only Memory), DVD (Digital Versatile Disc), magneto-optical disk 1 7 3 (including MD (Mini Disc)), or semiconductor memory 1 7 4 stored in personal computer 1 5 0, read by the drive 1 60, and installed in the hard disk drive built in the storage unit 1 5 8.
  • the voice processing program installed in the storage unit 1 5 8 is transferred from the storage unit 1 5 8 to the RAM I according to the command of the CPU 15 1 corresponding to the command from the user input to the input unit 1 5 7. 5 Spoken by 3 and executed.
  • the series of processes described above can be executed by hardware, or can be executed by software.
  • the program that constitutes the software must execute various functions by installing a computer embedded in a dedicated hard disk or various programs. For example, it can be installed from a network or recording medium on a general-purpose personal computer.
  • this recording medium is distributed to provide a program to the user separately from the main body of the device, and the magnetic disc 1 7 1, optical disc 1 7 2, R0M 1 5 in which programs are recorded that are provided not only to package media consisting of the magneto-optical disk 1 7 3 or semiconductor memory 1 7 4 but also to the user in a pre-installed state in the main body of the device. 2 and hard disk included in the storage unit 1 5 8.
  • the steps for describing a program recorded on a recording medium are not limited to processes performed in time series according to the described order, but are not necessarily processed in time series. Or it includes processing that is executed individually.
  • system means a logical collection of a plurality of devices, and it does not matter whether or not the devices of each configuration are in the same casing.
  • words can be registered by voice.
  • the registration can be executed without making the user aware of the registration mode.
  • the registered words can be reflected in subsequent dialogues.
  • the recognition rate of voice recognition can be improved. Furthermore, it is possible to reduce deletion errors when acquiring unknown words, and to improve the occurrence balance of deletion errors and insertion errors. As a result, it is possible to prevent the user from feeling unwise about a robot having a continuous speech recognition system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本発明は、削除誤りを少なくし、音声認識率を向上させることができるようにする音声処理装置および方法、記録媒体並びにプログラムに関する。図16Cに示されるように、単語「は」と単語「<OOV>」の境界に対応する部分において、音節「ハ」を含まないパス91、並びに、音節「ハ」を含むパス92およびパス93が生成され、単語「<OOV>」と単語「です」の境界に対応する部分において、音節「ワ」を含まないパス101、並びに、音節「ワ」を含むパス102およびパス103が生成され、単語と音節とのネットワークが生成される。これにより、入力音声に対して最適なネットワーク上のサブワード系列を選択することができる。本発明は、音声認識装置に適用することができる。

Description

明細書
音声処理装置および方法、 記録媒体並びにプログラム 技術分野
本発明は、 音声処理装置および音声処理方法、 記録媒体並びにプログラムに関 し、 特に、 連続して入力される音声信号を音声認識している最中に、 その入力音 声信号に含まれる未知語を抽出し、 簡単に登録することができるようにした音声 処理装置および音声処理方法、 並びにプログラムおよび記録媒体に関する。 背景技術
新規語彙を獲得する機能をもつ連続音声認識システムにおいて新規語彙を獲得 するためには、 音声中の未知語部分を推定することと、 未知語部分に発音を付与 することが必要である。
音声中の未知語部分を推定するためには、 音声に対して音韻や音節など単語よ り短い単位 (サブワード) で音声認識を行い、 音声に音節の系列を付与し (つま り、 読み仮名を振り) ながら、 各音節のスコアを求め、 このスコアに適切なペナ ルティ一を付与することにより未知語 (00V : 0ut Of Vocabulary) のスコアを推 定する。 単語音声認識を行う場合、 通常の単語候補以外は未知語である可能性を 考慮して、 通常の単語候補以外に対しては上記のように求めたスコアを用いる。 これにより、 発声された音声中に未知語がある場合、 未知語のスコアが正解単語 のスコアより悪く、 不正解単語のスコアより良いと推定されれば、 未知語部分が 未知語であると認識される。 次に、 未知語部分に発音を付与するためには、 未知 語部分の音節タイプライタにおける時刻情報に基づいて、 上述したサブヮード系 列 (例えば、 音節系列) を参照する。 これにより、 未知語に付与される音節列も 推定することができる (例えば、 I ssam Bazz i and James R. Gl ass著
「Proceedi ngs of I nternat ional Conference Spoken Language
Proce s s ing ( ICSLP) 2000」 、 2 0 0 0年 1 0月発行、 p. 433-436 (以下、 非特 許文献 1と称する) 、 甲斐 充彦 and中川 聖ー、 冗長後 ·言い直し等を含む 発話のための未知語処理を用いた音声認識システムの比較評価、 電子情報通信学 会論文誌、 1 9 9 7年 1 0月発行、 J80- D- II、 p. 2615-2625 (以下、 非特許文献 2と称する) 、 および、 小窪 浩明、 大西 茂彦、 山本 博史、 and菊井 玄ー 郎、 サブワードモデルを用いた未登録語認識の効率的探索手法、 情報処理学会論 文誌、 2 0 0 2年 7月発行、 Vol. 43、 No. 7、 p. 2082-2090 (以下、 非特許文献 3 と称する) 参照) 。
しかし、 音節のサーチの場合、 音節単位のスコアは得られるが、 単語の境界が その音節単位と必ずしも一致するとは限らない。 図 1を参照して、 単語列の境界 とサブヮード系列の境界の不一致について説明する。
単語列のサーチの結果得られる単語列の単語境界の時刻と、 サブヮード系列の サーチの結果得られるサブワード系列の時間的境界は必ずしも一致するとは限ら ない。 例えば、 図 1に示されるように、 単語音声認識による認識結果が、 wordl く 00V> word2であるとき、 く 00V>と周辺単語の境界では、 単語列の境界とサブヮ ード系列 (Syl l乃至 Syl8) の境界の不一致が発生することがある。 なお、
〈00V>は未知語を表すシンボルである。 図 1の例では、 く oov>の時間的に前の境 界は Syl4の途中に対応し、 時間的に後の境界は Syl7の途中に対応している。 これにより、 不一致が発生している境界のサブヮードである Syl4と Syl7は、 く 00V>に含まれたり、 含まれなかったりする。 従って、 く 00V>の発音を取得する ためには、 サブワードの境界を決定しなければならない。
サブヮードの境界を決定する方法として、 サプヮ一ド系列によりその境界を決 定する方法が知られている。 その方法、 すなわち、 サブワード系列によるく oov> 発音取得方法について、 図 2を参照して以下に説明する。
サブワード系列によるく 00V>発音取得方法は、 通常の音声認識と、 音節タイプ ライタによる認識が終了した時点で、 く 00V>の両端の音節タイプライタ時刻を含 む音節に対して、 各音節の継続時間の 5 0 %以上がく 00V>の区間に含まれた場合、 その音節をく 00V>の一部とする方法である。 例えば、 図 2に示されるように、 認識された単語列の一部が、 単語 1、 く 00V>、 単語 2という配列であったとする。 また、 音節タイプライタによるサブワード 系列の一部が、 音節 i、 音節 j、 音節 kという配列であったとする。 この場合、 L1 (音節 iの単語 1側に対応する部分の長さ (時間) ) 〉L2 (音節 iのく 00VM則 に対応する部分の長さ (時間) ) であるので、 音節 iはく 00V>に含まれないと判 定される。 これに対して、 L3 (音節 kのく 00VM則に対応する部分の長さ (時 間) ) 〉L4 (音節 kの単語 2側に対応する部分の長さ (時間) ) であるので、 音節 kはく 00V>に含まれると判定される。
図 3と図 4は、 図 2のサブヮード系列によるく 00V〉発音取得方法を用いた実験 結果を示す。
例えば、 図 2のサブワード系列によるく 00V>発音取得方法を、 1 2名 (男女各 6名) の旅行ドメイン (ホテルのチェックインやレストランでの注文など) の 7 5 2種類の発話について実験した。 図 3に示されるように、 特徴量、 音響モデル、 および言語モデルについて条件を設定した。 特徴量は、 1 6 b it , 1 6 KHzのサ ンプリング、 1 O msecのフレーム周期、 2 5 msecのフレーム長、 並びに 1 2次 の MFCC (Mel Frequency Cepstrum Coffi cients) (メノレ周波数ケプトラム) 、 および 0次乃至 1 2次までの MFCCの 1次回帰係数 ( 2 5次元) に設定されてい る。 音響モデルは、 1 6 mixture, 1 0 0 O ti ed - stateの匪 (Hidden Markov Model ) とされ、 言語モデルは、 サブワードトライグラム、 Cut-off tri gram 5 , bigram 5とされている。 なお、 この例においては、 3 1 4種類の音節および音 節連鎖をサブワードとして用いた。 言語モデルは、 日経新聞 6年分のコーパスで 学習した音韻のトライグラムを用いた。
図 4は、 図 2のサブヮード系列によるく 00V>発音取得方法を適用した場合のサ ブワード系列の、 認識精度、 置換誤り、 削除誤り、 および挿入誤りの性能を示し ており、 それぞれの値は、 百分率で表されている。 ここで、 置換誤りとは、 本来 の音節とは異なる音節に置換する誤りであり、 削除誤りとは、 本来認識されるべ き音節が認識されない誤り (デリーシヨンエラー) であり、 揷入誤りとは、 本来 認識されるべきではない音節が認識結果に現れる誤り (ィンサーシヨンエラー) である。 なお、 認識精度 Accは、 総音節数 N、 正解数 NJ、 揷入誤りの数 N— Iに より、 式 (1 ) から求められる。
Acc= (N_C-N_I) /N 式 ( 1 )
図 4に示されるように、 図 2のサブワード系列によるく 00V>発音取得方法によ る認識精度は、 40. 2%であり、 削除誤りと揷入誤りの発生率は、 それぞれ、 33. 3%と 4. 1%であった。
しかしながら、 図 2のサブワード系列によるく 00V〉発音取得方法では、 連続単 語認識を行う場合、 音節の境界を考慮しながら単語認識を行わなければならない。 また、 例えば、 図 4に示されるように、 認識精度が 40. 2%とそれほど高くなく、 —方、 削除誤りの発生率が 33. 3%と高ことから、 ユーザは、 その連続音声認識シ ステムが搭載されたロボットを賢くないように感じる傾向がある。 さらに、 例え ば、 図 4に示されるように、 削除誤りの発生率が 33. 3%であるのに対して、 挿入 誤りの発生率は 4. 1%であり、 両者の発生バランスが悪かった。 発明の開示
本発明はこのような状況に鑑みてなされたものであり、 音声認識の認識率を向 上させることができるようにするとともに、 削除誤りと挿入誤りの発生をバラン スさせることを目的とする。
本発明の音声処理装置は、 連続する入力音声を認識する認識手段と、 認識手段 により認識された認識結果に、 未知語が含まれているか否かを判定する未知語判 定手段と、 未知語判定手段において認識結果に未知語が含まれていると判定され た場合、 未知語の単語境界に対応する時刻のサブワードを含むパスと、 そのサブ ヮードを含まないパスを有するネットワークを生成するネットワーク生成手段と、 未知語判定手段により、 未知語が含まれていると判定された場合、 未知語に対応 する単語を獲得する獲得手段と、 獲得手段により獲得された単語を他の情報に関 連付けて登録する登録手段とを備えることを特徴とする。 この音声処理装置は、 認識結果が特定のパターンにマッチするか否かを判定す るパターン判定手段をさらに備え、 登録手段は、 パターン判定手段により、 認識 結果が特定のパターンにマッチしていると判定された場合、 単語を登録するよう にすることができる。
この音声処理装置は、 未知語判定手段により、 未知語が含まれていないと判定 された場合、 または、 パターン判定手段により、 認識結果が特定のパターンにマ ツチしていないと判定された場合、 入力音声に対応する応答を生成する応答生成 手段をさらに備えるようにすることができる。
登録手段は、 他の情報として、 カテゴリに関連付けて単語を登録するようにす ることができる。
登録手段は、 パターン判定手段によりマッチすると判定されたパターンに関連 付けて、 他の情報を登録するようにすることができる。
獲得手段は、 未知語をクラスタリングすることで単語を獲得するようにするこ とができる。
ネットワーク生成手段により生成されたネットワークは、 単語と音節とのネッ トワークであるようにすることができる。
この音声処理装置は、 入力音声とネットワークとのマッチングに基づいて、 ネ ットワーク上のスコアの高いパスを選択する選択手段と、 選択手段により選択さ れたパスを含むネットワークに基づいて、 未知語に対応する発音を取得する発音 取得手段とをさらに備えるようにすることができる。
この音声処理装置は、 入力音声の所定の区間について、 既知語でマッチングさ せた場合と音節タイプライタで認識させた場合の音響スコァを比較する比較手段 をさらに備え、 比較手段は、 音節タイプライタで認識させた音響スコアの方が優 れている場合、 その区間を未知語であると推定するようにすることができる。 比較手段は、 既知語でマッチングさせた場合の音響スコアに対して、 音節タイ プライタで認識させた場合の音響スコアに補正をかけた上で比較を行うようにす ることができる。 本発明の音声処理方法は、 連続する入力音声を認識する認識ステップと、 認識 ステップの処理により認識された認識結果に、 未知語が含まれているか否かを判 定する判定ステップと、 判定ステップの処理において認識結果に未知語が含まれ ていると判定された場合、 未知語の単語境界に対応する時刻のサブヮードを含む パスと、 そのサブワードを含まないパスを有するネットワークを生成するネット ワーク生成ステップと、 判定ステップの処理により、 未知語が含まれていると判 定された場合、 未知語に対応する単語を獲得する獲得ステップと、 獲得ステップ の処理により獲得された単語を他の情報に関連付けて登録する登録ステップとを 含むことを特徴とする。 '
本発明の記録媒体のプログラムは、 連続する入力音声を認識する認識ステップ と、 認識ステップの処理により認識された認識結果に、 未知語が含まれているか 否かを判定する判定ステップと、 判定ステップの処理において認識結果に未知語 が含まれていると判定された場合、 未知語の単語境界に対応する時刻のサブヮー ドを含むパスと、 そのサブヮードを含まないパスを有するネットワークを生成す るネットワーク生成ステップと、 判定ステップの処理により、 未知語が含まれて いると判定された場合、 未知語に対応する単語を獲得する獲得ステップと、 獲得 ステップの処理により獲得された単語を他の情報に関連付けて登録する登録ステ ップとを含むことを特徴とする。
本発明のプログラムは、 連続する入力音声を認識する認識ステップと、 認識ス テツプの処理により認識された認識結果に、 未知語が含まれているか否かを判定 する判定ステップと、 判定ステップの処理において認識結果に未知語が含まれて いると判定された場合、 未知語の単語境界に対応する時刻のサブワードを含むパ スと、 そのサブヮードを含まないパスを有するネットワークを生成するネットヮ ーク生成ステップと、 判定ステップの処理により、 未知語が含まれていると判定 された場合、 未知語に対応する単語を獲得する獲得ステップと、 獲得ステップの 処理により獲得された単語を他の情報に関連付けて登録する登録ステップとをコ ンピュータに実行させることを特徴とする。 本発明の音声処理装置および方法、 記録媒体並びにプログラムにおいては、 連 続する入力音声が認識されて、 認識結果に未知語が含まれている場合、 ネットヮ ークが生成され、 そのネットワークに基づいて未知語の発音が取得され、 未知語 に対応する単語が獲得され、 その単語が他の情報に関連付けて登録される。 図面の簡単な説明
図 1は、 単語列の境界とサブワード系列の境界の不一致を説明する図である。 図 2は、 サブヮード系列によるく 00V>発音取得方法を説明する図である。
図 3は、 図 2のサブワード系列によるく 00V〉発音取得方法を用いた場合の実験 の条件を示す図である。
図 4は、 図 2のサブワード系列によるく 00V〉発音取得方法を用いた実験結果を 示す図である。
図 5は、 本発明を適用した対話システムの一実施の形態の構成例を示すプロッ ク図である。
図 6は、 クラスタの状態の例を示す図である。
図 7は、 単語の登録を示す図である。
図 8は、 図 5の音声認識部の構成例を示すブロック図である。
図 9は、 図 5の対話システムの動作を説明するためのフローチヤ一トである。 図 1 0は、 図 9のステップ S 2 2の音声認識処理の詳細を説明するためのフロ 一チャートである。
図 1 1は、 図 1 0のステップ S 5 4の単語列生成処理の詳細を説明するための フローチヤ一トである。
図 1 2は、 言語モデルデータベースで用いられる文法の例を示す図である。 図 1 3は、 有限状態オートマトンによる言語モデルの例を示す図である。 図 1 4は、 tri_gramを用いた言語スコアの計算の例を示す図である。
図 1 5は、 tri_gramデータベースの例を示す図である。
図 1 6は、 ネットワークの生成について説明する図である。 図 1 7は、 本発明を適用した実験結果を示す図である。
図 1 8は、 本発明を適用した実験結果を示す図である。
図 1 9は、 図 9のステップ S 2 8の単語獲得処理の詳細を説明するためのフロ 一チヤ一トである。
図 2 0は、 テンプレートの例を示す図である。
図 2 1は、 音節タイプライタを組み込んだ文法の例を示す図である。
図 2 2は、 本発明を適用したコンピュータの一実施の形態の構成例を示すプロ ック図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態について、 図面を参照して説明する。 図 5は、 本発 明を適用した対話システムの一実施形態の構成例を示している。
この対話システムは、 例えば口ポットに搭載されて、 ユーザ (人間) と音声に より対話を行うシステムであり、 例えば、 音声が入力されると、 その音声から名 前が取り出され、 登録されるようになっている。
即ち、 音声認識部 1には、 ユーザからの発話に基づく音声信号が入力されるよ うになつており、 音声認識部 1は、 入力された音声信号を認識し、 その音声認識 の結果としてのテキスト、 その他付随する情報を、 対話制御部 3と単語獲得部 4 に必要に応じて出力する。
単語獲得部 4は、 音声認識部 1が有する認識用辞書に登録されていない単語に ついて、 音響的特徴を自動的に記憶し、 それ以降、 その単語の音声を認識できる ようにする。
即ち、 単語獲得部 4は、 入力音声に対応する発音を音節タイプライタによって 求め、 それをいくつかのクラスタに分類する。 各クラスタは I Dと代表音節系列 を持ち、 I Dで管理される。 このときのクラスタの状態を、 図 6を参照して説明 する。
例えば、 「あか」 、 「あお」 、 「みどり」 という 3回の入力音声があつたとす る。 この場合、 単語獲得部 4は、 3回の音声を、 それぞれに対応した 「あか」 ク ラスタ 2 1、 「あお」 クラスタ 2 2、 「みどり」 クラスタ 2 3の、 3つのクラス タに分類し、 各クラスタには、 代表となる音節系列 (図 6の例の場合、 "ァ / 力" 、 "ァ /ォ" 、 "ミ /ド /リ" ) と I D (図 6の例の場合、 「1」 , 「 2」 , 「 3」 ) を付加する。
ここで再ぴ、 「あか」 という音声が入力されると、 対応するクラスタが既に存 在するので、 単語獲得部 4は、 入力音声を 「あか」 クラスタ 2 1に分類し、 新し いクラスタは生成しない。 これに対して、 「くろ」 という音声が入力された場合、 対応するクラスタが存在しないので、 単語獲得部 4は、 「くろ」 に対応したクラ スタ 2 4を新たに生成し、 そのクラスタには、 代表的な音節系列 (図 6の例の場 合、 "ク /口" ) と I D (図 6の例の場合、 「4」 ) を付加する。
したがって、 入力音声が未獲得の語であるか否かは、 新たなクラスタが生成さ れたかどうかによつて判定できる。 なお、 このような単語獲得処理の詳細は、 本 出願人が先に提案した特願 2 0 0 1 - 9 7 8 4 3号に開示されている。
連想記憶部 2は、 登録した名前 (未知語) がユーザ名であるか、 キャラクタ名 であるかといったカテゴリ等の情報を記憶する。 例えば、 図 7の例では、 クラス タ I Dとカテゴリ名とが対応して記憶されている。 図 7の例の場合、 例えば、 ク ラスタ I D 「1」 、 「 3」 、 「4」 は 「ユーザ名」 のカテゴリに対応され、 クラ スタ I D 「 2」 は、 「キャラクタ名」 のカテゴリに対応されている。
対話制御部 3は、 音声認識部 1の出力からユーザの発話の内容を理解し、 その 理解の結果に基づいて、 名前 (未知語) の登録を制御する。 また、 対話制御部 3 は、 連想記憶部 2に記憶されている登録済みの名前の情報に基づいて、 登録済み の名前を認識できるように、 それ以降の対話を制御する。
図 8は、 音声認識部 1の構成例を示している。
音声認識部 1は、 マイクロホン 4 1、 AD変換部 4 2、 特徴量抽出部 4 3、 マ ツチング部 4 4、 音節タイプライタ部 4 5、 制御部 4 6、 ネットワーク生成部 4 7、 音響モデルデータベース 5 1、 辞書データベース 5 2、 および言語モデルデ ータベース 5 3より構成されている。
ユーザの発話は、 マイクロホン 4 1に入力され、 マイクロホン 4 1では、 その 発話が、 電気信号と しての音声信号に変換される。 この音声信号は、 AD
(Analog Digital) 変換部 4 2に供給される。 AD変換部 4 2は、 マイクロホン 4 1からのアナログ信号である音声信号をサンプリングし、 量子化し、 ディジタ ル信号である音声データに変換する。 この音声データは、 特徴量抽出部 4 3に供 給される。
特徴量抽出部 4 3は、 AD変換部 4 2からの音声データについて、 適当なフレ ームごとに、 例えば、 スぺク トル、 パワー線形予測係数、 ケプス トラム係数、 線 スペク トル対等の特徴パラメータを抽出し、 マッチング部 4 4および音節タイプ ライタ部 4 5に供給する。
マッチング部 4 4は、 特徴量抽出部 4 3からの特徴パラメータに基づき、 音響 モデ/レデータベース 5 1、 辞書データベース 5 2、 および言語モデ /レデータべ一 ス 5 3を必要に応じて参照しながら、 マイクロホン 4 1に入力された音声 (入力 音声) に最も近い単語列を求め、 ネッ トワーク生成部 4 7に出力する。
音響モデルデータベース 5 1は、 音声認識する音声の言語における個々の音韻 や音節などの音響的な特徴を表す音響モデルを記憶している。 音響モデルとして は、 例えば、 HMM (Hidden Markov Model) などを用いることができる。 辞書デ ータベース 5 2は、 認識対象の各単語 (語句) について、 その発音に関する情報 が記述された単語辞書や、 音韻や音節の連鎖関係を記述したモデルを記憶してい る。
なお、 ここにおける単語とは、 認識処理において 1つのまとまりとして扱った ほうが都合の良い単位のことであり、 言語学的な単語とは必ずしも一致しない。 例えば、 「タロウ君」 は、 それ全体を 1単語として扱ってもよいし、 「タロウ」 、 「君」 という 2単語として扱ってもよい。 さらに、 もっと大きな単位である 「こ んにちはタロウ君」 等を 1単語として扱ってもよい。
また、 音節とは、 音響的に 1つの単位として扱った方が処理上都合のよいもの のことであり、 音声学的な音節とは必ずしも一致しない。 例えば、 「東京」 の
「とう」 の部分を "ト /ゥ" という 2個の音節記号で表してもよいし、 "ト" の 長音である "ト:" という記号を用いて "ト:" と表してもよい。 他にも、 無音 を表す記号を用意してもよく、 さらにそれを 「発話前の無音」 、 「発話に挟まれ た短い無音区間」 、 「発話語の無音」 、 「 「つ」 の部分の無音」 のように細かく 分類してそれぞれに記号を用意してもよい。
言語モデルデータベース 5 3は、 辞書データベース 5 2の単語辞書に登録され ている各単語がどのように連鎖する (接続する) かどうかに関する情報を記述し ている。
音節タイプライタ部 4 5は、 特徴量抽出部 4 3から供給された特徴パラメータ に基づいて、 入力された音声に対応する音節系列を取得し、 マッチング部 4 4に 出力するとともに、 ネットワーク生成部 4 7にも出力する。 例えば、 「私の名前 は小川です。 」 という音声から "ヮ /タ ン /ノ /ナ /マ/ェ /ハ /ォ /ガ /ヮ /デ /ス" という音節系列を取得する。 この音節タイプライタには、 既存のものを用いるこ とができる。
なお、 音節タイプライタ以外でも、 任意の音声に対して音節系列を取得できる ものであれば代わりに用いることができる。 例えば、 日本語の音韻
(a/i/u/e/o/k/a/k/i ) を単位とする音声認識や、 音素、 その他の、 単語よ りは小さな単位であるサブワードを単位とする音声認識を用いることが可能であ る。
制御部 4 6は、 0変換部4 2、 特徴量抽出部 4 3、 マッチング部 4 4、 音節 タイプライタ部 4 5の動作を制御する。
ネットワーク生成部 4 7は、 単語列と、 音節タイプライタ部 4 5から取得され る音節系列に基づくサブワード系列 (音節系列) に基づいて、 単語と音節とのネ ットワークを生成する。 すなわち、 く 00V>の直前の境界に対応する時刻の音節を 含むパスと、 それを含まないパス、 および、 く oov>の直後の境界に対応する時刻 の音節を含むパスと、 それを含まないパスを生成し、 マッチング部 4 4に出力す る。
次に、 図 9のフローチャートを参照して、 本発明の対話システムの処理につい て説明する。
ステップ S 2 1において、 ユーザがマイクロホン 4 1に音声を入力すると、 マ イク口ホン 4 1は、 その発話を、 電気信号としての音声信号に変換する。 そして、 ステップ S 2 2において、 音声認識部 1は、 音声認識処理を実行する。
音声認識処理の詳細について、 図 1 0を参照して説明する。 マイクロホン 4 1 で生成された音声信号は、 ステップ S 5 1において、 AD変換部 4 2により、 デ イジタル信号である音声データに変換され、 特徴量抽出部 4 3に供給される。 ステップ S 5 2において、 特徴量抽出部 4 3は、 AD変換部 4 2からの音声デ ータを受信する。 そして、 特徴量抽出部 4 3は、 ステップ S 5 3に進み、 適当な フレームごとに、 例えば、 スぺク トル、 パワー、 それらの時間変化量等の特徴パ ラメータを抽出し、 マッチング部 4 4に供給する。
ステップ S 5 4において、 マッチング部 4 4は、 辞書データベース 5 2に格納 されている単語モデルのうちのいくつかを連結して、 単語列生成処理を実行する。 なお、 この単語列を構成する単語には、 辞書データベース 5 2に登録されている 既知語だけでなく、 登録されていない未知語を表わすシンボルである "く 00V> " も含まれている。 この単語列生成処理について、 図 1 1を参照して詳細に説明す る。
ステップ S 8 1において、 マッチング部 4 4は、 入力音声の或る区間について、 両方の場合の音響スコアを計算する。 即ち、 入力音声の或る区間を、 辞書データ ベース 5 2に登録されている既知語とマッチングさせた結果の音響スコアと、 入 力音声に基づき、 音節タイプライタ部 4 5により得られた結果 (今の場合、 ヮ / タ /シ /ノ /ナ /マ/ェ /ハ /ォ /ガ /ヮ /デ /ス〃の中の一部区間) の音響スコアが、 そ れぞれ計算される。 音響スコアは、 音声認識結果の候補である単語列と入力音声 とが音としてどれだけ近いかを表す。
次に、 入力音声の一部区間と辞書データベース 5 2に登録されている既知語と をマッチングさせた結果の音響スコアと、 音節タイプライタ部 4 5による結果の 音響スコアを比較させるのであるが、 既知語とのマッチングは単語単位で行われ、 音節タイプライタ部 4 5でのマッチングは音節単位で行われ、 尺度が異なってい るので、 そのままでは比較することが困難である (一般的には、 音節単位の音響 スコアの方が大きな値となる) 。 そこで、 尺度を合わせて比較できるようにする ために、 マッチング部 4 4は、 ステップ S 8 2において、 音節タイプライタ部 4 5により得られた結果の音響スコアに捕正をかける。
例えば、 音節タイプライタ部 4 5からの音響スコアに係数を掛けたり、 一定の 値やフレーム長に比例した値などを減じたりする処理が行われる。 勿論、 この処 理は相対的なものなので、 既知語とマッチングさせた結果の音響スコアに対して 行うこともできる。 なお、 この処理の詳細は、 例えば、 文献 「"EUR0SPEECH99 Volume 丄, Page 49 - 52 」 に 「00V - Detect ion in Large Vocabulary System Using Automat ical ly Def ined Word-Fragments as Fi l l ersJ として開示され ている。
マッチング部 4 4は、 ステップ S 8 3において、 この 2つの音響スコアを比較 する (音節タイプライタ部 4 5で認識させた結果の音響スコアの方が高い (優れ ている) か否かを判定する) 。 音節タイプライタ部 4 5で認識させた結果の音響 スコアの方が高い場合、 ステップ S 8 4に進み、 マッチング部 4 4は、 その区間 をく 00V> (Out Of Vocabulary) (未知語) であると推定する。
ステップ S 8 3において、 既知語とマッチングさせた結果の音響スコアに対し て、 音節タイプライタ部 4 5で認識された結果の音響スコアの方が低いと判定さ れた場合、 ステップ S 8 6に進み、 マッチング部 4 4は、 その区間を既知語であ ると推定する。
即ち、 例えば、 「オガワ」 に相当する区間について、 音節タイプライタ部 4 5 の出力した "ォ /ガ /ヮ" の音響スコアと、 既知語でマッチングさせた場合の音 響スコアを比較して、 "ォ /ガ /ヮ" の音響スコアの方が高い場合は、 その音声 区間に相当する単語として 「く oov> (ォ /ガ /ヮ) 」 が出力され、 既知語の音響ス コアの方が高い場合は、 その既知語が音声区間に相当する単語として出力される。 ステップ S 8 5において、 マッチング部 4 4は、 音響スコアが高くなると推測 される単語列 (いくつかの単語モデルを連結したもの) を優先的に n個生成する。 図 1 0に戻って、 ステップ S 5 5において、 音節タイプライタ部 4 5はステツ プ S 5 4の処理とは独立して、 ステップ S 5 3の処理で抽出された特徴パラメ一 タに対して音韻を単位とする認識を行ない、 音節系列を出力する。 例えば、 「私 の名前は小川 (未知語) です。 」 という音声が入力されると、 音節タイプライタ 部 4 5は、 "ヮ /タ /シ /ノ /ナ /マ/ェ /八/ォ /ガ /ヮ /デ /ス" という音節系列を出 力する。
ステップ S 5 6において、 マッチング部 4 4は、 ステップ S 5 4で生成された 単語列ごとに音響スコアを計算する。 <oov> (未知語) を含まない単語列に対し ては既存の方法、 すなわち各単語列 (単語モデルを連結したもの) に対して音声 の特徴パラメータを入力することで尤度を計算するという方法が用いられる。 一 方、 く oov>を含む単語列については、 既存の方法ではく oov>に相当する音声区間 の音響スコアを求めることができない (く 00V>に対応する単語モデルは事前には 存在しないため) 。 そこで、 その音声区間については、 音節タイプライタの認識 結果の中から同区間の音響スコアを取り出し、 その値に捕正をかけたものが く oov>の音響スコアとして採用される。 それは、 さらに、 他の既知語部分の音響 スコアと統合され、 それがその単語列の音響スコアとされる。
ステップ S 5 7において、 マッチング部 4 4は、 音響スコアの高い単語列を上 位 m個 (m≤n ) 抽出し、 候捕単語列とする。 ステップ S 5 8において、 マッチ ング部 4 4は、 言語モデルデータベース 5 3を参照して、 候補単語列毎に、 言語 スコアを計算する。 言語スコアは、 認識結果の候補である単語列が言葉としてど れだけふさわしいかを表す。 ここで、 この言語スコアを計算する方法を詳細に説 明する。
本発明の音声認識部 1は未知語も認識するため、 言語モデルは未知語に対応し ている必要がある。 例として、 未知語に対応した文法または有限状態オートマト ン (FSA : Finite State Automaton) を用いた場合と、 同じく未知語に対応した tri-grara (統計言語モデルの 1つである) を用いた場合とについて説明する。 文法の例を図 1 2を参照して説明する。 この文法 6 1は BNF (Backus Naur Form)で記述されている。 図 1 2において、 " $ A " は 「変数」 を表し、 " A | B " は 「Aまたは B」 という意味を表す。 また、 " [ A] " は 「Aは省略可能」 という意味を表し、 { A } は 「Aを 0回以上繰り返す」 という意味を表す。
く 00VMま未知語を表すシンポルであり、 文法中にく 00V>を記述しておくことで、 未知語を含む単語列に対しても対処することができる。 " $ ACTI0N" は図 1 2 では定義されていないが、 例えば、 「起立」 、 「着席」 、 「お辞儀」 、 「挨梭」 等の動作の名前が定義される。
この文法 6 1では、 「<先頭 > /こんにちは/く終端 >」 ( "/" は単語間の区 切り) 、 「<先頭 > /さようなら/く終端〉」 、 「く先頭 > /私/の/名前/は
/く 00VVです/く終端 >」 のように、 データベースに記憶されている文法に当て はまる単語列は受理される (この文法で解析される) 1S 「<先頭 >/君/の
/〈00V〉/名前/ <終端 >」 といった、 データベースに記憶されている文法に当て はまらない単語列は受理されない (この文法で解析されない) 。 なお、 「<先頭 >」 と 「<終端 >」 はそれぞれ発話前と後の無音を表す特殊なシンボルである。 この文法を用いて言語スコアを計算するために、 パーザ (解析機) が用いられ る。 パーザは、 単語列を、 文法を受理できる単語列と、 受理できない単語列に分 ける。 即ち、 例えば、 受理できる単語列には言語スコア 1が与えられて、 受理で きない単語列には言語スコア 0が与えられる。
したがって、 例えば、 「く先頭〉/私/の/名前/は/く 00V〉 (タ /口/ゥ) /です/ く終端 >」 と、 「く先頭 >/私/の/名前/は/く 00V> (ジ /口/ゥ) /です/く終端 >」 という 2つの単語列があった場合、 いずれも 「<先頭 >/私/の/名前/は
/く 00V〉/です/く終端〉」 に置き換えられた上で言語スコアが計算されて、 とも に言語スコア 1 (受理) が出力される。
また、 単語列の文法が受理できるか否かの判定は、 事前に文法を等価 (近似で も良い) な有限状態オートマトン (以下、 FSAと称する) に変換しておき、 各単 語列がその FSAで受理できるか否かを判定することによっても実現できる。
図 1 2の文法を等価な FSAに変換した例が、 図 1 3に示されている。 FSAは状 態 (ノード) とパス (アーク) とからなる有向グラフである。 図 1 3に示される ように、 S 1は開始状態、 S 1 6は終了状態である。 また、 " $ ACTI0N" には、 図 1 2と同様に、 実際には動作の名前が登録されている。
パスには単語が付与されていて、 所定の状態から次の状態に遷移する場合、 パ スはこの単語を消費する。 ただし、 " ε " が付与されているパスは、 単語を消費 しない特別な遷移 (以下、 ε遷移と称する) である。 即ち、 例えば、 「<先頭 〉/私/は/く 00V>/です/く終端 >」 においては、 初期状態 S 1から状態 S 2に遷 移して、 <先頭 >が消費され、 状態 S 2から状態 S 3へ遷移して、 「私」 が消費 されるが、 状態 S 3から状態 S 5への遷移は、 ε遷移なので、 単語は消費され ない。 即ち、 状態 S 3から状態 S 5ヘスキップして、 次の状態 S 6へ遷移するこ とができる。
所定の単語列がこの FSA で受理できるか否かは、 初期状態 S 1から出発して、 終了状態 S 1 6まで到達できるか否かで判定される。
即ち、 例えば、 「く先頭〉/私/の/名前/は/く 00V〉/です/く終端 >」 において は、 初期状態 S 1から状態 S 2へ遷移して、 単語 「<先頭 > j が消費される。 次 に、 状態 S 2から状態 S 3へ遷移して、 単語 「私」 が消費される。 以下、 同様に、 状態 S 3から状態 S 4へ、 状態 S 4から状態 S 5へ、 状態 S 5から状態 S 6へ、 状態 S 6から状態 S 7へ順次遷移して、 「の」 、 「名前」 、 「は」 、 「く 00V〉」 、 が次々に消費される。 さらに、 状態 S 7から状態 S 1 5へ遷移して、 「です」 力 S 消費され、 状態 S 1 5から状態 S 1 6に遷移して、 「く終端〉」 が消費され、 結 局、 終了状態 S 1 6へ到達する。 したがって、 「く先頭 >/私/の/名前/は
/く 00V>/です/く終端 >」 は FSAで受理される。
しかしながら、 「く先頭 > /君/のバ 00V>/名前/く終端 >」 は、 状態 S 1から 状態 S 2へ、 状態 S 2から状態 S 8へ、 状態 S 8から状態 S 9までは遷移して、 「く先頭〉」 、 「君」 、 「の」 までは消費されるが、 その先には遷移できないの で、 終了状態 S 1 6へ到達することはできない。 したがって、 「く先頭〉/君/ の/く 00V>/名前/ <終端 >」 は、 FSAで受理されない (不受理) 。
さらに、 言語モデルとして、 統計言語モデルの 1つである tri- gramを用いた 場合の言語スコアを計算する例を、 図 1 4を参照して説明する。 統計言語モデル 'とは、 その単語列の生成確率を求めて、 それを言語スコアとする言語モデルであ る。 即ち、 例えば、 図 1 4の言語モデル 7 1の 「く先頭 > /私/の/名前/は
/く 00V>/です/ <終端〉」 の言語スコアは、 第 2行に示されるように、 その単語 列の生成確率で表される。 これはさらに、 第 3行乃至第 6行で示されるように、 条件付き確率の積として表される。 なお、 例えば、 「P (の | <先頭 > 私) j は、 「の」 の直前の単語が 「私」 で、 「私」 の直前の単語が 「<先頭 >」 である という条件の下で、 「の」 が出現する確率を表す。
さらに、 tri- gramでは、 図 1 4の第 3行乃至第 6行で示される式を、 第 7行 乃至第 9行で示されるように、 連続する 3単語の条件付き確率で近似させる。 こ れらの確率値は、 図 1 5に示されるような tri- graraデータベース 8 1を参照し て求められる。 この tri-gramデータベース 8 1は、 予め大量のテキストを分析 して求められたものである。
図 1 5の例では、 3つの連続する単語 w l, w 2 , w 3の確率 P ( 3 | w 1 w 2 ) が表されている。 例えば、 3つの単語 w l., w 2 , w 3力 それぞれ、 「く先頭 >」 、 「私」 、 「の」 である場合、 確率値は 0 . 1 2とされ、 「私」 、
「の」 、 「名前」 である場合、 確率値は 0 . 0 1とされ、 「〈oov〉」 、 「です」 、 「く終端 >」 である場合、 確率値は、 0 . 8 7とされている。
勿論、 「P (W) 」 及び 「P (w 2 I w l ) 」 についても、 同様に、 予め求め ておく。
このようにして、 言語モデル中にく 00V こついて、 エントリ処理をしておくこ とで、 く oov>を含む単語列に対して、 言語スコアを計算することができる。 した がって、 認識結果にく oov>というシンボルを出力することができる。 また、 他の種類の言語モデルを用いる場合も、 く 00VMこついてのエントリ処理 をすることによって、 同様にく 00V>を含む単語列に対して、 言語スコアを計算す ることができる。
さらに、 く oov>のエントリが存在しない言語モデルを用いた場合でも、 く oov> を言語モデル中の適切な単語にマッピングする機構を用いることで、 言語スコア の計算ができる。 例えば、 「P (く 00V> I私 は) 」 が存在しない tri_gramデー タベースを用いた場合でも、 「P (小川 I私 は) 」 でデータベースをアクセス して、 そこに記述されている確率を 「P (く 00V〉 I私 は) 」 の値とみなすこと で、 言語スコアの計算ができる。
図 1 0に戻って、 マッチング部 4 4は、 ステップ S 5 9において、 音響スコア と言語スコアを統合する。 ステップ S 6 0において、 マッチング部 4 4は、 ステ ップ S 5 9において求められた音響スコアと言語スコアの両スコアを統合したス コアに基づいて、 最もよいスコアをもつ候捕単語列を選択して、 認識結果として 出力する。
なお、 言語モデルとして、 有限状態オートマトンを使用している場合は、 ステ ップ S 5 9の統合処理を、 言語スコアが 0の場合は単語列を消去し、 言語スコア が 0以外の場合はそのまま残すという処理にしてもよい。
図 9に戻って、 以上のようにしてステップ S 2 2で音声認識処理が実行された 後、 ステップ S 2 3において、 音声認識部 1の制御部 4 6は認識された単語列に 未知語が含まれているか否かを判定する。 ステップ S 2 3において未知語が含ま れていると判定された場合、 ネットワーク生成部 4 7は、 単語列と、 音節タイプ ライタ部 4 5から取得される音節系列に基づくサブワード系列に基づいて、 単語 とサブワード (例えば、 音節) とのネットワークを生成する。 すなわち、 <00V> の直前の境界に対応する時刻の音節を含むパスと、 それを含まないパス、 および、 く 00V>の直後の境界に対応する時刻の音節を含むパスと、 それを含まないパスが 生成され、 マッチング部 4 4に出力される。
ステップ S 2 5において、 マッチング部 4 4は、 音節タイプライタ部 4 5から 供給された音節系列に基づくサブワード系列と、 ネットワーク生成部 4 7から供 給されたネットワークに基づいて、 ユーザから入力された音声とネットワークを マッチングする。
図 1 6は、 ネットワークの生成について説明する。
例えば、 ユーザから 「私の名前は小川 (未知語) です。 」 という音声がマイク 口ホン 4 1に入力されたとする。 マッチング部 4 4は、 求められた音響スコアと 言語スコアの両スコアを統合したスコアに基づいて、 最もよいスコアをもつ候補 単語列を選択して、 認識結果として出力し、 例えば、 図 1 6 A に示されるように、 「く先頭〉/私/の/名前/は/く 00V〉/です/く終端〉」 となるとする。 同時に、 音 節タイプライタ部 4 5は、 図 1 6 Bに示されるように、 "ヮ /タ /シ /ノ /ナ /マ/ェ /ハ /ォ /ガ /ヮ /デ /ス" という音節系列を出力するとする。
このとき、 図 1 6 Aと図 1 6 Bに示されるように、 マッチング部 4 4により得 られた認識結果である単語列の境界と、 音節タイプライタ部 4 5により得られた 音節系列に基づくサブワード系列の境界は一般的には一致しない。 例えば、 図 1 6 Aと図 1 6 Bの場合、 単語列における単語 「は」 と単語 「く 00V〉」 の境界は、 サブワード系列における音節 「ハ」 に対応し、 単語列における単語 「く oov〉」 と 単語 「です」 の境界は、 サブワード系列における音節 「ヮ」 に対応する。 そのた め、 単語列における単語 「は」 と単語 「く oov>」 の境界とサブワード系列におけ る音節 「ハ」 の部分における不一致の場合、 音節 「ハ」 は、 単語列における単語 「は」 に含まれたり、 単語列における単語 「く 00V>」 に含まれたりする。
そこで、 単語と音節とのネットワークが生成される。 すなわち、 く oov〉の直前 の境界に対応する時刻の音節を含むパスと、 それを含まないパス、 およびく oov> の直後の境界に対応する時刻の音節を含むパスと、 それを含まないパスが生成さ れる。
例えば、 図 1 6 Bと図 1 6 Cに示されるように、 特徴抽出部 4 3から出力され た時刻情報の特徴パラメータに基づいて、 サブワード系列における音節 「ハ」 と 音節 「ヮ」 の所定のフレームに対応する音節タイプライタ部 4 5における音節タ イブライタ時刻を、 それぞれ、 t0と とし、 その音節タイプライタ時刻 t0と t l に対応する単語列の時刻を、 それぞれ、 と t3とする。 また、 図 1 6 Cに示さ れるように、 図 1 6の区間!)、 すなわち、 く 00V>の直前の単語 「は」 からく 00V> の直後の単語 「です」 までの区間は、 く 00V>の発音に対応する可能性のある音節 「ハ」 「ォ」 「ガ」 「ヮ」 により構成されている。
図 1 6 Cに示されるように、 単語列における単語 「は」 と単語 「く 00V>」 の境 界に対応する部分において、 音節 「ハ」 を含まないパス 9 1、 並びに、 音節 「ハ」 を含むパス 9 2およびパス 9 3が生成され、 単語列における単語 「く 00V〉」 と単語 「です」 の境界に対応する部分において、 音節 「ヮ」 を含まな いパス 1 0 1、 並びに、 音節 「ヮ」 を含むパス 1 0 2およびパス 1 0 3が生成さ れる。 これにより、 サブワード系列の境界を決定することなく、 入力された音声 に対して最適なネットワーク上のサブヮード系列を選択することができる。 なお、 図 1 6の場合においては、 ネットワークとして構成された単語と音節か らなるネットワークと入力された音声とをマッチングすると、 上記ネットワーク から以下の 4通りの文仮説が生成される。
私の-名前-は -ハ-ォ-ガ-ヮ-です
私の -名前-は-ハ-ォ-ガ -です
私の-名前-は-ォ-ガ -ヮ-です
私の-名前-は-ォ-ガ -です
図 9に戻って、 ステップ S 2 6において、 マッチング部 4 4は、 ユーザから入 力された音声とネットワークのマッチングの結果に基づいて、 スコアの高いネッ トワーク上のパス (例えば、 図 1 6におけるパス 9 1、 並びに、 パス 1 0 2およ びパス 1 0 3 ) を選択する。 ステップ S 2 7において、 マッチング部 4 4は、 ス テツプ S 2 6において選択されたネットワーク上のパス (例えば、 図 1 6におけ るパス 9 1、 並びに、 パス 1 0 2およびパス 1 0 3 ) と音節タイプライタ部 4 5 から出力されたサブワード系列に基づいて、 く 00V こ対応する発音 (図 1 6の例 の場合、 「ォ /ガ /ヮ」 ) を取得する。 図 1 7と図 1 8は、 本発明を適用した実験結果を示す。 なお、 条件設定につい ては、 図 3における設定と同様であるので、 その説明は省略する。
図 1 7は、 それぞれ、 本宪明を適用した場合の音節系列の認識精度、 置換誤り、 削除誤り、 および挿入誤りの性能を示しており、 それぞれの値は、 百分率で表さ れている。 それらの詳しい説明については、 図 4と同様であるので、 省略する。 図 1 7の結果では、 認識精度は、 48. 5%であり、 図 4での、 サブワード系列によ るく 00V>発音取得方法における認識精度の 40. 2%と比較すると、 認識精度は向上 している。 また、 削除誤りと揷入誤りの発生率は、 それぞれ、 11. 6%と 8. 0%であ り、 図 4での、 サブワード系列による〈00V〉発音取得方法における削除誤りと揷 入誤りの発生率の 33. 3%と 4. 1%とを比較すると、 削除誤りと揷入誤りの発生バ ランスは改善されている (両者の差が少なくなつている) 。
図 1 8は、 1人の話者の発話に対して本発明によりく 00V>に付与された認識結 果の一部の例を示している。
図 1 8の例では、 第 1回目で、 「クロサキ j 力 S 「クロタチ j と認識されており、 「タ」 と 「チ」 において置換誤りが発生している。 また、 第 2回目では 「クロサ キ」 は 「ォロサ」 と認識されており、 「ク」 において削除誤りが、 「ォ」 におい て置換誤りが発生している。 さらに、 第 3回目では、 「クロサキ」 は 「口サキ J と認識されており、 「ク」 において削除誤りが発生している。 また、 第 4回目で は、 「クロサキ」 は 「口サキ」 と認識されており、 「ク」 において削除誤りが発 生している。 「クロサキ」 はまた、 第 5回目では 「クロサキ」 と認識されており、 どの誤りも発生していない。
「カズミ」 は第 1回目では、 「カズミ j と認識されており、 どの誤りも発生し ていない。 例えば、 第 2回目では、 「カズミ」 は 「カツ二」 と認識されており、 「ズ」 と 「ミ」 において置換誤りが発生している。 第 3回目では、 「カズミ」 は 「カズミ」 と認識されており、 どの誤りも発生していない。 第 4回目では、 「力 ズミ」 は 「カツミ」 と認識されており、 「ズ」 において置換誤りが発生している。 第 5回目では、 「カズミ」 は 「カスミ」 と認識されており、 「ズ」 において置換 誤りが発生している。
図 9に戻って、 制御部 4 6は、 単語獲得部 4を制御し、 ステップ S 2 8におい て、 単語獲得処理を実行させ、 その未知語を獲得させる。
単語獲得処理の詳細について、 図 1 9を参照して説明する。 ステップ S 1 1 1 において、 単語獲得部 4は、 音声認識部 1から未知語 «00V» の特徴パラメ一 タ、 特に、 時間情報に関する特徴パラメータを抽出する。 ステップ S 1 1 2にお いて、 単語獲得部 4は、 未知語が既獲得のクラスタに属するか否かを判定する。 既獲得のクラスタに属さないと判定された場合、 単語獲得部 4は、 ステップ S 1 1 3において、 その未知語に対応する、 新しいクラスタを生成する。 そして、 ス テツプ S 1 1 4において、 単語獲得部 4は、 未知語の属するクラスタの I Dを音 声認識部 1のマッチング部 4 4に出力する。
ステップ S 1 1 2において、 未知語が既獲得のクラスタに属すると判定された 場合、 新しいクラスタを生成する必要がないので、 単語獲得部 4はステップ S 1 1 3の処理をスキップして、 ステップ S 1 1 4に進み、 未知語の属する既獲得の クラスタの I Dをマッチング部 4 4に出力する。
なお、 図 1 9の処理は各未知語語毎に行われる。
図 9に戻って、 ステップ S 2 8の単語獲得処理終了後、 ステップ S 2 9におい て、 対話制御部 3は、'ステップ S 2 8の処理で獲得された単語列が、 テンプレー トにマッチしているかどうかを判定する。 即ち、 認識結果の単語列が何かの名前 の登録を意味するものかどうかの判定がここで行われる。 そして、 ステップ S 2 9において、 認識結果の単語列がテンプレートにマッチしていると判定された場 合、 ステップ S 3 0において、 対話制御部 3は、 連想記憶部 2に、 名前のクラス タ I Dとカテゴリを対応させて記憶させる。
対話制御部 3がマッチングさせるテンプレートの例を図 2 0を参照して説明す る。 なお、 図 2 0において、 "/ΑΓ は 「文字列 Αが含まれていたら」 という 意味を表し、 " A I B " は 「Aまたは B」 という意味を表す。 また、 "ノ' は 「任意の文字」 を表し、 " A + " は 「Aの 1回以上の繰り返し」 という意味を表 し、 "(.)+ " は 「任意の文字列」 を表す。
このテンプレート 1 2 1は、 認識結果の単語列が図の左側の正規表現にマッチ した場合、 図の右側の動作を実行させることを表している。 例えば、 認識結果が 「く先頭〉/私/の/名前/は/く 00V> (ォ /ガ /ヮ) /です/く終端 >」 という単語列 である場合、 この認識結果から生成された文字列 「私の名前はく 00V>です」 は、 図 2 0の第 2番目の正規表現にマッチする。 したがって、 対応する動作である 「く 00V>に対応するクラスタ I Dをユーザ名として登録する」 処理が実行され る。 即ち、 「く 00V> (ォ /ガ /ヮ)」 のクラスタ I Dが 「1」 である場合、 図 5に示 されるように、 クラスタ I D 「1」 のカテゴリ名が 「ユーザ名」 として登録され る。
また、 例えば、 認識結果が、 「く先頭〉/君/の/名前/はバ oov〉 (ァ /ィ /ボ) I だよ/ <終端 >」 である場合、 そこから生成される文字列 「君の名前はく oov〉だ よ」 は図 2 0の第 1番目の正規表現にマッチするので、 「く 00V> (ァ /ィ /ポ) J 力 S クラスタ I D 「2」 であれば、 クラスタ I D 「2」 のカテゴリは、 「キャラクタ 名」 として登録される。
なお、 対話システムによっては、 登録する単語が 1種類しかない (例えば、 「ユーザ名」 のみ) 場合もあり、 その場合は、 テンプレート 1 2 1と連想記憶部 2は簡略化することができる。 例えば、 テンプレート 1 2 1の内容を 「認識結果 にく 00V〉が含まれていたら、 その I Dを記憶する」 として、 連想記憶部 2にその クラスタ I Dのみを記憶させることができる。 . 対話制御部 3は、 このようにして連想記憶部 2に登録された情報を、 以後の対 話の判断処理に反映させる。 例えば、 対話システムの側で、 「ユーザの発話の中 に、 対話キャラクタの名前が含まれているかどうかを判定する。 含まれている場 合は 『呼びかけられた』 と判断して、 それに応じた返事をする」 という処理や、 「対話キャラクタがユーザの名前をしゃべる」 という処理が必要になった場合に、 対話制御部 3は連想記憶部 2の情報を参照することで、 対話キャラクタに相当す る単語 (カテゴリ名が 「キャラクタ名」 であるエントリ) やユーザ名に相当する 単語 (カテゴリ名が 「ユーザ名」 であるエントリ) を得ることができる。
一方、 ステップ S 2 3において、 認識結果に未知語が含まれていないと判定さ れた場合、 またはステップ S 2 9において、 認識結果がテンプレートにマッチし ていないと判定された場合、 ステップ S 3 1において、 対話制御部 3は、 入力音 声に対応する応答を生成する。 すなわち、 この場合には、 名前 (未知語) の登録 処理は行われず、 ユーザからの入力音声に対応する所定の処理が実行される。
ところで、 言語モデルとして文法を用いる場合、 文法の中に音節タイプライタ 相当の記述も組み込むことができる。 この場合の文法の例が図 2 1に示されてい る。 この文法 1 3 1において、 第 1行目の変数 " $ SYLLABLE" は、 全ての音節 が 「または」 を意味する Ί " で繋がれているので、 音節記号の内のどれか 1つ を意味する。 変数" 00V"は " $ SYLLABLE" を 0回以上繰り返すことを表している。 即ち、 「任意の音節記号を 0回以上接続したもの」 を意味し、 音節タイプライタ に相当する。 したがって、 第 3行目の 「は」 と 「です」 の間の " $ 00V" は、 任 意の発音を受け付けることができる。
この文法 1 3 1を用いた場合の認識結果では、 " $ 00V" に相当する部分が複 数のシンボルで出力される。 例えば、 「私の名前は小川です」 の認識結果が 「< 先頭〉/私/の/名前/は/ォ /ガ /ヮ /です/く終端〉」 となる。 この結果を 「<先頭
〉/私/の/名前/は/く 00V〉 (ォ /ガ /ヮ) /です」 に変換すると、 図 9のステップ S 2 3以降の処理は、 音節タイプライタを用いた場合と同様に実行することができ る。
なお、 以上においては、 未知語に関連する情報として、 カテゴリを登録するよ うにしたが、 その他の情報を登録するようにしてもよい。 また、 図 9のフローチ ヤートにおけるステップ S 2 8は、 省略してもよく、 ステップ S 2 8が省略され た場合には、 ステップ S 3 0における処理は、 対話制御部 3が連想記憶部 2にサ プヮード系列とカテゴリを対応させて記憶させるという処理になる。
さらに、 以上の実施の形態においては、 図 1 6 Cに示されるように、 音節と単 語のネットワークを形成するようにしたが、 入力音声に対して尤度が最大となる 最適なネットワーク上のサブヮード系列を選択することができればよいので、 音 節に限らず、 音素、 音韻等の、 音節以外のサブワードと単語とのネットワークと することができる。
図 2 2は、 上述の処理を実行するパーソナルコンピュータ 1 5 0の構成例を示 している。 このハ。ーソナノレコンピュータ 1 5 0は、 CPU (Central Process ing Uni t) 1 5 1を内蔵している。 CPU 1 5 1にはバス 1 5 4を介して、 入出力イン タフエース 1 5 5が接続されている。 ノ ス 1 5 4には、 R0M (Read Only Memory) 1 5 2および RAM (Random Access Memory) 1 5 3が接続されている。
入出力インタフェース 1 5 5には、 ユーザが操作するマウス、 キーボード、 マ イク口ホン、 AD変換器等の入力デバイスで構成される入力部 1 5 7、 およぴデ イスプレイ、 スピーカ、 DA変換器等の出力デバイスで構成される出力部 1 5 6 が接続されている。 さらに、 入出力インタフェース 1 5 5には、 プログラムや各 種データを格納するハードディスク ドライブなどよりなる記憶部 1 5 8、 並びに インタネッ トに代表されるネットワークを介してデータを通信する通信部 1 5 9 が接続されている。
入出力インタフェース 1 5 5には、 磁気ディスク 1 7 1、 光ディスク 1 7 2、 光磁気ディスク 1 7 3、 半導体メモリ 1 7 4などの記録媒体に対してデータを読 み書きするドライブ 1 6 0が必要に応じて接続される。
このパーソナルコンピュータ 1 5 0に本発明を適用した音声処理装置としての 動作を実行させる音声処理プログラムは、 磁気ディスク 1 7 1 (フロッピデイス クを含む) 、 光ディスク 1 7 2 (CD-ROM (Compact Di sc-Read Only Memory)、 DVD (Digital Versati le Di sc)を含む)、 光磁気ディスク 1 7 3 (MD (Mini Disc)を含む) 、 もしくは半導体メモリ 1 7 4に格納された状態でパーソナルコ ンピュータ 1 5 0に供給され、 ドライブ 1 6 0によって読み出されて、 記憶部 1 5 8に内蔵されるハードディスク ドライブにインストーノレされる。 記憶部 1 5 8 にインストールされた音声処理プログラムは、 入力部 1 5 7に入力されるユーザ からのコマンドに対応する CPU 1 5 1の指令によって、 記憶部 1 5 8から RAM I 5 3に口一ドされて実行される。
上述した一連の処理は、 ハードウェアにより実行させることもできるし、 ソフ トウェアにより実行させることもできる。 一連の処理をソフトウェアにより実行 させる場合には、 そのソフトウェアを構成するプログラムが、 専用のハードゥエ ァに組み込まれているコンピュータ、 または、 各種のプログラムをインス トール することで、 各種の機能を実行することが可能な、 例えば汎用のパーソナルコン ピュータなどに、 ネットワークや記録媒体からィンストールされる。
この記録媒体は、 図 2 2に示されるように、 装置本体とは別に、 ユーザにプロ グラムを提供するために配布される、 プログラムが記録されている磁気ディス 1 7 1、 光ディスク 1 7 2、 光磁気ディスク 1 7 3、 もしくは半導体メモリ 1 7 4 などよりなるパッケージメディアにより構成されるだけでなく、 装置本体に予め 組み込まれた状態でユーザに提供される、 プログラムが記録されている R0M 1 5 2や、 記憶部 1 5 8に含まれるハードディスクなどで構成される。
なお、 本明細書において、 記録媒体に記録されるプログラムを記述するステツ プは、 記載された順序に沿って時系列的に行われる処理はもちろん、 必ずしも時 系列的に処理されなくとも、 並列的あるいは個別に実行される処理をも含むもの である。
また、 本明細書において、 システムとは、 複数の装置が論理的に集合したもの をいい、 各構成の装置が同一筐体中にあるか否かは問わない。 産業上の利用可能性
以上のように、 本発明によれば、 単語を音声で登録することができる。 またそ の登録を、 ユーザに登録モードを意識させることなく実行できる。 さらに、 既知 語と未知語を含む連続する入力音声の中から未知語を抽出し、 その未知語の発音 を取得し、 未知語の単語を確実に獲得することができる。 これにより、 その未知 語を容易に登録することが可能となる。 さらに、 登録した単語を、 以降の対話で 反映させることが可能となる。 また、 本発明によれば、 音声認識の認識率を向上させることができる。 さらに、 未知語の獲得の際における削除誤りを少なくすることができ、 削除誤りと揷入誤 りの発生バランスを良くすることができる。 これにより、 ユーザが連続音声認識 システムをもつロボットなどを賢くないと感じることを抑制することができる。

Claims

請求の範囲
1 . 入力音声を処理し、 その処理結果に基づいて、 前記入力音声に含まれる単 語を登録する音声処理装置であって、
連続する前記入力音声を認識する認識手段と、
前記認識手段により認識された認識結果に、 未知語が含まれているか否かを 判定する未知語判定手段と、
前記未知語判定手段において前記認識結果に前記未知語が含まれていると判 定された場合、 前記未知語の単語境界に対応する時刻のサブワードを含むパスと、 そのサブワードを含まないパスを有するネットワークを生成するネットヮー ク生成手段と、
前記未知語判定手段により、 前記未知語が含まれていると判定された場合、 前記未知語に対応する単語を獲得する獲得手段と、
前記獲得手段により獲得された前記単語を他の情報に関連付けて登録する登 録手段と
を備えることを特徴とする音声処理装置。
2 . 前記認識結果が特定のパターンにマッチするか否かを判定するパターン判 定手段をさらに備え、
前記登録手段は、 前記パターン判定手段により、 前記認識結果が特定のパター ンにマッチしていると判定された場合、 前記単語を登録する
ことを特徴とする請求の範囲第 1項に記載の音声処理装置。
3 . 前記未知語判定手段により、 前記未知語が含まれていないと判定された場 合、 または、 前記パターン判定手段により、 前記認識結果が特定のパターンにマ ツチしていないと判定された場合、 前記入力音声に対応する応答を生成する応答 生成手段をさらに備える
ことを特徴とする請求の範囲第 2項に記載の音声処理装置。
4 . 前記登録手段は、 前記他の情報として、 カテゴリに関連付けて前記単語を 登録する ことを特徴とする請求の範囲第 2項に記載の音声処理装置。
5 . 前記登録手段は、 前記パターン判定手段によりマッチすると判定された前 記パターンに関連付けて、 前記他の情報を登録する
ことを特徴とする請求の範囲第 2項に記載の音声処理装置。
6 . 前記獲得手段は、 前記未知語をクラスタリングすることで前記単語を獲得 する
ことを特徴とする請求の範囲第 1項に記載の音声処理装置。
7 . 前記ネットワーク生成手段により生成された前記ネットワークは、 前記単 語と音節とのネットワークである
ことを特徴とする請求の範囲第 1項に記載の音声処理装置。
8 . 前記入力音声と前記ネットワークとのマッチングに基づいて、 前記ネット ワーク上のスコアの高いパスを選択する選択手段と、
前記選択手段により選択された前記パスを含む前記ネットワークに基づいて、 前記未知語に対応する発音を取得する発音取得手段と
をさらに備えることを特徴とする請求の範囲第 7項に記載の音声処理装置。
9 . 前記入力音声の所定の区間について、 既知語でマッチングさせた場合と音 節タイプライタで認識させた場合の音響スコァを比較する比較手段をさらに備え、 前記比較手段は、 前記音節タイプライタで認識させた前記音響スコァの方が優 れている場合、 その区間を未知語であると推定する
ことを特徴とする請求の範囲第 1項に記載の音声処理装置。
1 0 . 前記比較手段は、 前記既知語でマッチングさせた場合の音響スコアに対 して、 前記音節タイプライタで認識させた場合の音響スコァに補正をかけた上で 比較を行う
ことを特徴とする請求の範囲第 9項に記載の音声処理装置。
1 1 . 入力音声を処理し、 その処理結果に基づいて、 前記入力音声に含まれる 単語を登録する音声処理装置の音声処理方法において、
連続する前記入力音声を認識する認識ステップと、 前記認識ステップの処理により認識された認識結果に、 未知語が含まれてい るか否かを判定する判定ステップと、
前記判定ステップの処理において前記認識結果に前記未知語が含まれている と判定された場合、 前記未知語の単語境界に対応する時刻のサブヮードを含むパ スと、 そのサブワードを含まないパスを有するネットワークを生成するネットヮ ーク生成ステップと、
前記判定ステップの処理により、 前記未知語が含まれていると判定された場 合、 前記未知語に対応する単語を獲得する獲得ステツプと、
前記獲得ステップの処理により獲得された前記単語を他の情報に関連付けて 登録する登録ステップと
を含むことを特徴とする音声処理方法。
1 2 . 入力音声を処理し、 その処理結果に基づいて、 前記入力音声に含まれる 単語を登録する音声処理装置のプログラムであって、
連続する前記入力音声を認識する認識ステップと、
前記認識ステップの処理により認識された認識結果に、 未知語が含まれてい るか否かを判定する判定ステップと、
前記判定ステップの処理において前記認識結果に前記未知語が含まれている と判定された場合、 前記未知語の単語境界に対応する時刻のサプヮ一ドを含むパ スと、 そのサブヮードを含まないパスを有するネットワークを生成するネットヮ ーク生成ステップと、
前記判定ステップの処理により、 前記未知語が含まれていると判定された場 合、 前記未知語に対応する単語を獲得する獲得ステップと、
前記獲得ステップの処理により獲得された前記単語を他の情報に関連付けて 登録する登録ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録され ている記録媒体。
1 3 . 入力音声を処理し、 その処理結果に基づいて、 前記入力音声に含まれる 単語を登録する音声処理装置のプログラムであって、
連続する前記入力音声を認識する認識ステップと、
前記認識ステップの処理により認識された認識結果に、 未知語が含まれてい るか否かを判定する判定ステツプと、
前記判定ステップの処理において前記認識結果に前記未知語が含まれている と判定された場合、 前記未知語の単語境界に対応する時刻のサブヮードを含むパ スと、 そのサブヮードを含まないパスを有するネットワークを生成するネットヮ ーク生成ステップと、
前記判定ステップの処理により、 前記未知語が含まれていると判定された場 合、 前記未知語に対応する単語を獲得する獲得ステップと、
前記獲得ステップの処理により獲得された前記単語を他の情報に関連付けて 登録する登録ステップと
をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2003/014342 2002-11-21 2003-11-12 音声処理装置および方法、記録媒体並びにプログラム WO2004047075A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP03772681A EP1460615B1 (en) 2002-11-21 2003-11-12 Voice processing device and method, recording medium, and program
US10/502,169 US7653541B2 (en) 2002-11-21 2003-11-12 Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
DE60318385T DE60318385T2 (de) 2002-11-21 2003-11-12 Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
AU2003280726A AU2003280726A1 (en) 2002-11-21 2003-11-12 Voice processing device and method, recording medium, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002337892A JP4072718B2 (ja) 2002-11-21 2002-11-21 音声処理装置および方法、記録媒体並びにプログラム
JP2002-337892 2002-11-21

Publications (1)

Publication Number Publication Date
WO2004047075A1 true WO2004047075A1 (ja) 2004-06-03

Family

ID=32321860

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/014342 WO2004047075A1 (ja) 2002-11-21 2003-11-12 音声処理装置および方法、記録媒体並びにプログラム

Country Status (8)

Country Link
US (1) US7653541B2 (ja)
EP (1) EP1460615B1 (ja)
JP (1) JP4072718B2 (ja)
KR (1) KR101014086B1 (ja)
CN (1) CN100354929C (ja)
AU (1) AU2003280726A1 (ja)
DE (1) DE60318385T2 (ja)
WO (1) WO2004047075A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155958B2 (en) 2005-11-08 2012-04-10 Nec Corporation Speech-to-text system, speech-to-text method, and speech-to-text program

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813928B2 (en) * 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
RU2008127509A (ru) * 2005-12-08 2010-01-20 Конинклейке Филипс Электроникс Н.В. (Nl) Система распознавания речи с огромным словарем
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
US9245526B2 (en) * 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
JP5366169B2 (ja) * 2006-11-30 2013-12-11 独立行政法人産業技術総合研究所 音声認識システム及び音声認識システム用プログラム
US8868410B2 (en) * 2007-08-31 2014-10-21 National Institute Of Information And Communications Technology Non-dialogue-based and dialogue-based learning apparatus by substituting for uttered words undefined in a dictionary with word-graphs comprising of words defined in the dictionary
CN101452702B (zh) * 2007-12-05 2011-08-10 财团法人工业技术研究院 语音模型的调整方法及其调整模块
US8326631B1 (en) * 2008-04-02 2012-12-04 Verint Americas, Inc. Systems and methods for speech indexing
JP5810912B2 (ja) * 2011-12-28 2015-11-11 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
KR102117082B1 (ko) 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
JP6655835B2 (ja) * 2016-06-16 2020-02-26 パナソニックIpマネジメント株式会社 対話処理方法、対話処理システム、及びプログラム
JP6711343B2 (ja) 2017-12-05 2020-06-17 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
US11232783B2 (en) 2018-09-12 2022-01-25 Samsung Electronics Co., Ltd. System and method for dynamic cluster personalization
US20220335951A1 (en) * 2019-09-27 2022-10-20 Nec Corporation Speech recognition device, speech recognition method, and program
JP6807586B1 (ja) * 2020-01-30 2021-01-06 ベルフェイス株式会社 情報処理装置、情報処理方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010037200A1 (en) * 2000-03-02 2001-11-01 Hiroaki Ogawa Voice recognition apparatus and method, and recording medium

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0384707A (ja) * 1989-08-28 1991-04-10 Victor Co Of Japan Ltd 垂直磁気記録方式
JPH06266386A (ja) 1993-03-16 1994-09-22 Nippon Telegr & Teleph Corp <Ntt> ワードスポッティング方法
MX9703138A (es) * 1994-11-01 1997-06-28 British Telecomm Reconocimiento de lenguaje.
JP3576272B2 (ja) 1995-06-22 2004-10-13 シャープ株式会社 音声認識装置および方法
JP2886117B2 (ja) 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
JPH09274496A (ja) 1996-04-09 1997-10-21 Fuji Xerox Co Ltd 音声認識装置
JP2999726B2 (ja) 1996-09-18 2000-01-17 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置
JP3428309B2 (ja) 1996-09-24 2003-07-22 松下電器産業株式会社 音声認識装置
US5956668A (en) * 1997-07-18 1999-09-21 At&T Corp. Method and apparatus for speech translation with unrecognized segments
JPH1185179A (ja) 1997-09-16 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 統計的言語モデルの作成方法
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
JP3914709B2 (ja) * 1997-11-27 2007-05-16 株式会社ルネサステクノロジ 音声認識方法およびシステム
JP3476008B2 (ja) * 1999-09-10 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
DE60016722T2 (de) * 2000-06-07 2005-12-15 Sony International (Europe) Gmbh Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE10042942C2 (de) * 2000-08-31 2003-05-08 Siemens Ag Verfahren zur Sprachsynthese
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010037200A1 (en) * 2000-03-02 2001-11-01 Hiroaki Ogawa Voice recognition apparatus and method, and recording medium

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NAKAWATASE KIMOTO NAKAGAWA: "Tokeiteki shuho ni yoru jisho mitoroku no kakutokuho", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEER, D-II, vol. J81-D-II, no. 2, 25 February 1998 (1998-02-25), pages 238 - 248, XP002986474 *
OGAWA: "Robot taiwa ni okeru shizen na shinki goi no kakutoku", THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE AI CHALLENGE KENKYUKAI (DAI 16 KAI), 22 November 2002 (2002-11-22), pages 13 - 18, XP002986473 *
See also references of EP1460615A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155958B2 (en) 2005-11-08 2012-04-10 Nec Corporation Speech-to-text system, speech-to-text method, and speech-to-text program

Also Published As

Publication number Publication date
JP4072718B2 (ja) 2008-04-09
DE60318385D1 (de) 2008-02-14
US20050143998A1 (en) 2005-06-30
EP1460615B1 (en) 2008-01-02
KR101014086B1 (ko) 2011-02-14
KR20050083547A (ko) 2005-08-26
DE60318385T2 (de) 2009-01-02
JP2004170765A (ja) 2004-06-17
EP1460615A1 (en) 2004-09-22
EP1460615A4 (en) 2007-04-25
CN1692405A (zh) 2005-11-02
CN100354929C (zh) 2007-12-12
US7653541B2 (en) 2010-01-26
AU2003280726A1 (en) 2004-06-15

Similar Documents

Publication Publication Date Title
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
Hirsimaki et al. Importance of high-order n-gram models in morph-based speech recognition
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
JP2019012095A (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
Livescu Analysis and modeling of non-native speech for automatic speech recognition
Rabiner et al. Statistical methods for the recognition and understanding of speech
Abate et al. Syllable-based speech recognition for Amharic
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
Lee et al. A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin
JPH08123470A (ja) 音声認識装置
Gauvain et al. Large vocabulary continuous speech recognition: from laboratory systems towards real-world applications
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
Szarvas et al. Finite-state transducer based Hungarian LVCSR with explicit modeling of phonological changes
JPH09114482A (ja) 音声認識のための話者適応化方法
Tjalve Accent features and idiodictionaries: on improving accuracy for accented speakers in ASR
KR100608644B1 (ko) 가변 길이의 연결숫자음 인식방법
JP2000315095A (ja) 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体
JPH0981185A (ja) 連続音声認識装置
Şahin Language modeling for Turkish continuous speech recognition

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 2003772681

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10502169

Country of ref document: US

Ref document number: 1020047011216

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 20038A03011

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2003772681

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2003772681

Country of ref document: EP