WO2014157954A1 - Method for variably dividing voice signal into frames based on voice processing of brain - Google Patents

Method for variably dividing voice signal into frames based on voice processing of brain Download PDF

Info

Publication number
WO2014157954A1
WO2014157954A1 PCT/KR2014/002592 KR2014002592W WO2014157954A1 WO 2014157954 A1 WO2014157954 A1 WO 2014157954A1 KR 2014002592 W KR2014002592 W KR 2014002592W WO 2014157954 A1 WO2014157954 A1 WO 2014157954A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
section
low frequency
signal
frequency component
Prior art date
Application number
PCT/KR2014/002592
Other languages
French (fr)
Korean (ko)
Inventor
조광현
이병욱
정성훈
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020130033841A external-priority patent/KR101408902B1/en
Priority claimed from KR1020130033845A external-priority patent/KR101434592B1/en
Priority claimed from KR1020130160979A external-priority patent/KR101614768B1/en
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of WO2014157954A1 publication Critical patent/WO2014157954A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Definitions

  • the present invention relates to voice signal processing technology, and more particularly, to a technology for dividing a voice signal into a plurality of frames for voice signal processing.
  • voice signal segmentation techniques for speech signal feature extraction have not considered the characteristics of the signal.
  • voice signal feature extraction technique using Mel-Frequency Cepstral Coefficient MFCC
  • the feature is extracted by moving a window of 30 ms length by 10 ms to the voice signal.
  • frequency information of a voice signal is extracted for each window and processed nonlinearly and represented as 13 feature vectors.
  • the technology using MFCC extracts all frequency components of the voice signal through the fast fourier transform (FFT).
  • FFT fast fourier transform
  • the technique using the MFCC extracts the feature by moving the window of 30 ms length by 10 ms in the same manner without considering the characteristics of the signal. That is, the size of the frame used is fixed to a specific value regardless of the type of the audio signal. This method is effective for recognizing vowels with long duration and periodic characteristics, but not for recognizing consonants with short duration and aperiodic characteristics.
  • the high frequency pass filtering of the neural signal measured in the auditory cortex is extracted.
  • a signal called LFP Longcal Field Potential
  • the above LFP may be considered as a signal that does not contribute to the generation of the spike signal.
  • phase components of the low frequency components of the neural signals of the auditory cortex generated during the time of listening and recognizing the voice signals are m 1) a parsing function of dividing the voice signals into decodable units, and 2) It is likely to have the function as an independent information unit that provides one information per se.
  • the present invention seeks to provide a new technique for a method of dividing a speech signal into a plurality of frames for speech recognition.
  • it is intended to provide a method of unevenly dividing consonants and vowels into frames of different lengths.
  • the human brain uses a unit called phoneme to recognize speech.
  • phoneme a unit which is used as a means of speech recognition
  • the LFP component which does not contribute to generating these spike signals is the maximum in the speech signal. It can be assumed that it will be a temporal reference to group spikes by time to extract a lot of information.
  • a frame of the voice signal is defined using a low frequency signal of the voice signal envelope.
  • Instantaneous phase information having a value between-pi and pi can be extracted by, for example, Hilbert transforming a low frequency signal (LFP) of an audio signal.
  • the voice signal section corresponding to each section is defined as one frame by dividing the value of the instant phase into a plurality of phase sections. For example, four phase intervals of [- ⁇ to -0.5 * ⁇ ], [-0.5 * ⁇ to 0], [0 to 0.5 * ⁇ ], and [0.5 * ⁇ to ⁇ ] by dividing - ⁇ ⁇ ⁇ into four
  • the speech signal section corresponding to each phase section among the LFP signals may be defined as an independent frame. When four phase sections are defined, one to four or more voice signal sections may occur. Using this method, the length of the defined frame is variable.
  • the length of the frame can be changed in this way, the amount of information is increased and the noise is further increased than when the sound signal is divided by the fixed window size. It can be seen that it exhibits robust characteristics.
  • a fixed frame length of 30 ms is used, an overlapping section of 20 ms is generated between frames in the conventional technique of moving a frame by 10 ms. According to the present invention, the length of the overlapping section can be further reduced.
  • the low frequency component of the audio signal is phase locked with respect to the low frequency component of the LFP. From this, it can be inferred that the low frequency component of the speech signal is a factor that produces the low frequency component of the LFP measured in the auditory cortex. That is, it can be estimated that the phase component of the low frequency component of the audio signal is phase locked to the LFP of the auditory cortex, which is a time reference for distinguishing spikes. Therefore, according to an aspect of the present invention, instead of using the LFP method, a method of extracting low frequency components of a voice signal and obtaining instant phase information therefrom to determine a frame length is used.
  • it has an advantage in that the transition point between phonemes can be effectively extracted and information can be obtained.
  • a method of splitting a voice signal comprising: extracting a low frequency signal from the voice signal; And dividing the low frequency signal into a plurality of time periods according to a plurality of instantaneous phase sections of the low frequency signal.
  • the low frequency signal may be a signal of a component corresponding to theta ( ⁇ ) band of the brain signal of the voice signal.
  • the instantaneous phase of the low frequency signal may have a value of - ⁇ to + ⁇
  • the plurality of phase sections may be selected by dividing - ⁇ to + ⁇ into a plurality of sections.
  • the plurality of phase sections may include a first section of - ⁇ to - ⁇ / 2, a second section of - ⁇ / 2 to 0, a third section of 0 to ⁇ / 2, and + ⁇ / 2 to + ⁇ It may be divided into a fourth section.
  • the method uses a plurality of voice kernels obtained by modeling the behavior of the base film with respect to a plurality of center frequencies, and the low frequency signal may be a residual signal obtained by removing one or more voice kernel components from the voice signal. .
  • the low frequency signal of the method may be simply extracted from the low band of the speech signal using a low pass filter or a band pass filter.
  • a method for providing voice feature information by using a plurality of voice kernels obtained by modeling the behavior of a base film with respect to a plurality of center frequencies Extracting; Dividing the low frequency signal into a plurality of time periods according to a plurality of instantaneous phase sections of the low frequency signal; Extracting at least one voice kernel component from the divided one voice signal; And providing generation time of each of the extracted one or more voice kernels, and size of the voice kernel component of each of the extracted one or more voice kernels as voice feature information of the voice signal.
  • the frequency component of the speech signal is extracted by simulating the process of converting the speech signal into a spike, which is a brain signal in the cochlea.
  • the voice signal frequency component extraction process is as follows.
  • each voice kernel is a signal for a predetermined time expressing the vibration width of the base film by the corresponding center frequency in time.
  • a plurality of dot products are obtained by performing a dot product operation on the prepared speech kernels.
  • the inner product of each of the audio kernels and the audio signal is obtained by moving the M audio kernels, for example, by 1 ms.
  • the inner product operation is performed for a total of L times at intervals of 1 ms for each voice kernel, a total of M * L inner products can be obtained.
  • step 1 After subtracting the part with the maximum dot value from the voice signal (ie, the dot value * the corresponding time-shifted voice kernel), go back to step 1 and repeat the above methods. At this time, if the calculated maximum dot product is smaller than the threshold set by the user, all processes are stopped.
  • the occurrence time can be known.
  • the voice feature information extraction method described later may be performed for each frame determined by the voice signal division method.
  • the voice feature information extraction method includes a feature information extraction process for extracting feature information of the voice signal using a given voice signal in the time domain and M voice kernels provided in advance.
  • the feature information extraction process uses a total of M * L reference signals obtained by moving each of the M voice kernels by L different distances.
  • the feature information extraction process obtains a maximum value of the M * L inner products obtained by performing the operation of internalizing the voice signal with respect to each of the M * L reference signals, and the maximum of the M voice kernels.
  • the unit voice feature information may be interpreted as information corresponding to one spike transmitted to the brain.
  • the M voice kernels may be signals that model the movement of the base film with respect to M center frequencies with amplitude over time.
  • the voice feature information extraction method may further include a voice signal update process, the voice signal update process comprising: generating a maximum normal voice kernel by normalizing the maximum voice kernel using the maximum value; And subtracting the maximum normal speech kernel from the speech signals embedded for each of the M * L reference signals in the feature information extraction process to provide a residual speech signal.
  • a voice signal update process comprising: generating a maximum normal voice kernel by normalizing the maximum voice kernel using the maximum value; And subtracting the maximum normal speech kernel from the speech signals embedded for each of the M * L reference signals in the feature information extraction process to provide a residual speech signal.
  • the feature information extraction process is re-executed after the voice signal update process, and the voice signal to be internalized for each of the M * L reference signals in the re-executed feature information extraction process is performed in the voice signal update process. It is replaced by the residual voice signal obtained.
  • the feature information extraction process and the voice signal update process are repeatedly performed sequentially, and the repetition is stopped when the maximum value obtained by the feature information extraction process is smaller than a predetermined value.
  • the voice feature information of the voice signal of the K voice signal information provided through the K feature information extraction process It can be provided as.
  • a method for recognizing a voice signal may be provided.
  • the voice signal recognition method is a method for recognizing a voice signal using the above-mentioned voice feature information, by performing the feature information extraction process and the voice signal update process using a comparison voice signal different from the voice signal, Extracting comparison voice feature information, which is voice feature information of the comparison voice signal; And extracting a similarity degree between the voice feature information and the comparison voice feature information.
  • a voice signal processing apparatus for dividing a frame of an input voice signal for voice recognition.
  • the apparatus includes a storage unit for storing the voice signal and a processing unit for processing the voice signal.
  • the storage unit may include: extracting, by the processor, a low frequency signal from the voice signal; And program code for executing the step of dividing the low frequency signal into a plurality of time periods according to a plurality of instantaneous phases of the low frequency signal.
  • a voice signal processing apparatus for providing voice feature information by using a plurality of voice kernels obtained by modeling the behavior of the base film with respect to a plurality of center frequencies.
  • the apparatus includes a storage unit for storing a voice signal and a processing unit for processing the voice signal.
  • the storage unit may include: extracting, by the processor, a low frequency signal from the voice signal; Dividing the low frequency signal into a plurality of time periods according to a plurality of instantaneous phase sections of the low frequency signal; Extracting at least one voice kernel component from the divided one voice signal; And providing a generation time of each of the extracted one or more voice kernels, and providing the size of each of the extracted one or more voice kernels as voice feature information of the voice signal. Doing.
  • a device comprising a storage unit for storing a voice signal and a processing unit for processing the voice signal, the method comprising: extracting a low frequency signal of the voice signal; And program code for executing the step of dividing the low frequency signal into a plurality of time periods in accordance with a plurality of instantaneous phases of the low frequency signal.
  • a voice signal segmentation method including dividing the voice signal into a plurality of sections according to an instantaneous phase of the first low frequency component of the speech signal.
  • the first section of the voice signal is divided into a plurality of sections according to an instantaneous phase of the first low frequency component of the first section
  • the second section of the voice signal is a second low frequency component of the second section. It can be divided into a plurality of sections according to the instantaneous phase it has.
  • the dividing may include dividing a second section of the plurality of sections into a plurality of sections according to an instantaneous phase having a second low frequency component of the second section.
  • the second section may be a section determined as a consonant component of the voice signal.
  • the second section may be a section having an energy value included in a predetermined energy section of the plurality of sections.
  • the first low frequency component may be a band corresponding to theta ( ⁇ ) band of the brain signal.
  • the first low frequency component may be a band corresponding to theta ( ⁇ ) band of the brain signal
  • the second low frequency component may be a band corresponding to the gamma band of the brain signal
  • the instantaneous phase has a value of - ⁇ to + ⁇
  • the division is made according to a plurality of phase sections of the low frequency signal
  • the plurality of phase sections are selected by dividing - ⁇ to + ⁇ by a plurality of sections It may be.
  • the plurality of phase sections may include a first section of - ⁇ to - ⁇ / 2, a second section of - ⁇ / 2 to 0, a third section of 0 to ⁇ / 2, and + ⁇ / 2 to + ⁇ It may be divided into a fourth section of.
  • a method of dividing the voice signal using a process of dividing the voice signal into a plurality of frames according to an instantaneous phase of a low frequency component of the voice signal may be provided.
  • a computer-readable medium may be provided in a computing device including program code for executing the above-described speech signal division method.
  • a computer-readable medium including a program for causing a computing device to perform a step of dividing the speech signal into a plurality of sections according to an instantaneous phase of the first low frequency component of the speech signal. Any medium can be provided.
  • the computing device divides the first section of the voice signal into a plurality of sections according to an instantaneous phase of the first low frequency component of the first section, and the second section of the voice signal The dividing into a plurality of sections may be performed according to the instantaneous phase of the second low frequency component of the second section.
  • the dividing may include dividing a second section of the plurality of sections into a plurality of sections according to an instantaneous phase having a second low frequency component of the second section.
  • a storage unit and a processing unit are included, wherein the processing unit is configured to divide the voice signal into a plurality of sections according to an instantaneous phase of a first low frequency component of the voice signal recorded in the storage unit.
  • Computing devices may be provided.
  • the processing unit may divide the first section of the voice signal into a plurality of sections according to an instantaneous phase of the first low frequency component of the first section, and the second section of the voice signal may The second low frequency component is divided into a plurality of sections according to the instantaneous phase of the second low frequency component.
  • the dividing process may include a process of dividing a second section of the plurality of sections into a plurality of sections according to an instantaneous phase having a second low frequency component of the second section.
  • a voice signal processing apparatus for extracting voice feature information using a plurality of voice kernels obtained by modeling the behavior of the base film for a plurality of center frequencies.
  • This processing apparatus includes a storage unit; And a processing unit for processing a voice signal, wherein the storage unit divides the voice signal into a plurality of sections according to an instantaneous phase of a low frequency component of the voice signal; Extracting at least one voice kernel component from the divided voice signals; And program code for executing the step of extracting the occurrence time and size of each of the extracted one or more voice kernels as voice feature information of the voice signal.
  • According to the present invention can provide a new voice signal frame segmentation method that can increase the speech recognition rate.
  • the size of the frame changes according to the characteristics of the voice signal, so that the characteristics of the phonemes (consonants, vowels) can be more accurately identified and information thereof can be extracted.
  • 1 and 2 illustrate a method of determining a frame of a voice signal according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a frame classification method of a voice signal according to an embodiment of the present invention.
  • 4A to 4C are diagrams for explaining a voice kernel used in an embodiment of the present invention.
  • 5A illustrates a feature information extraction process of extracting feature information of a voice signal according to an embodiment of the present invention.
  • FIG. 5B illustrates an example of only the reference signal corresponding to the maximum value among the M * L reference signals S (n, K (q) described with reference to FIG. 5A together with the voice signal.
  • 5C illustrates an example of a residual voice signal according to an embodiment of the present invention.
  • 6A is an example of a graph showing three pieces of unit voice feature information obtained according to an embodiment of the present invention.
  • 6B illustrates two unit voice feature information obtained by repeating the feature information extraction process twice according to an embodiment of the present invention.
  • 6C is a graph showing an example of the K voice feature information that can be obtained when the voice information extraction method is performed by repeating the feature information extraction process and the voice signal update process K times according to an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a method for extracting voice feature information according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a method of classifying a voice signal into frames according to an embodiment of the present invention.
  • 9 (a) to 9 (f) show examples of results derived at each step of the voice signal frame division method described with reference to FIG. 8.
  • FIG. 10 is a diagram for explaining an advantageous effect that the frame division method of the voice signal according to an embodiment of the present invention has over other methods.
  • 11A illustrates a comparison of a speech signal recognition result using a speech signal frame division method according to an embodiment of the present invention with a recognition result according to the related art.
  • 11B is a graph illustrating a difference between a recognition rate by a method according to an embodiment of the present invention and a recognition rate according to a conventional method in various noise environments.
  • Figure 12 shows the entropy calculated as a result of various combinations of the bands of the first low frequency component and the bands of the second low frequency component.
  • FIG. 13 is a graph for explaining an effect of a frame division method according to an embodiment of the present invention in consideration of the entropy described above.
  • FIG. 14 is a table comparing the number of frames used in accordance with one embodiment of the present invention using a variable frame length and a prior art using a fixed frame length.
  • FIG. 1 illustrates a process of determining a frame boundary and a section for processing a voice signal including a phoneme / p / according to an embodiment of the present invention.
  • the horizontal axis of the graph shown to Fig.1 (a)-(e) shows the time of 0 ms-43 ms as a time axis.
  • FIG. 1B is a signal obtained by extracting only components of 3 Hz to 9 Hz from the signal of FIG. You can also extract low frequency bands other than 3 Hz to 9 Hz. Preferably, theta band signal may be extracted from the EEG.
  • FIG. 1C shows the instantaneous phase information of the signal of FIG. 1B and can be obtained using a transform such as the Hilbert transform.
  • the instantaneous phase may have a value in the range of [ ⁇ to ⁇ ].
  • [- ⁇ ⁇ ⁇ ] which is the value that instantaneous phase can have, of [- ⁇ ⁇ - ⁇ / 2], [- ⁇ / 2 ⁇ 0], [0 ⁇ ⁇ / 2], and [ ⁇ / 2 ⁇ ⁇ ] It can be divided into four phase sections.
  • the phase section of [ ⁇ / 2 to 0] is about 32ms
  • the phase section of [0 to ⁇ / 2] is about 13ms
  • the phase section of [ ⁇ / 2 to ⁇ ] is about 7ms exist.
  • the low-frequency audio signal of / p / is divided into three audio signal sections, that is, three frames, depending on the type of phonemes, there may be cases where four or more frames are emitted.
  • the range of [- ⁇ to ⁇ ] which is a value of the instantaneous phase, is divided into four phase sections, but may be divided into any number of phase sections.
  • FIG. 1 (e) shows normalized energy for each frame, obtained by dividing the energy of a voice signal belonging to each frame determined in FIG. 1 (c) by the length of each frame. It can be seen that the normalization energy of the third frame is the largest, which is related to the fact that the information of the consonant phoneme / p / is concentrated at the end of / p /.
  • FIG. 1 the consonant phoneme / p / is analyzed
  • FIG. 2 shows the result of analyzing the vowel phoneme / ae / in the same manner as in FIG. 1.
  • the audio signal is about 150ms long.
  • Fig. 1 (c) and (d) the difference in normalization energy between each frame is smaller as compared with FIG. This is in line with the fact that the information in the vowel remains similar throughout the interval.
  • FIG. 3 illustrates a method of dividing a frame of a voice signal according to an embodiment of the present invention.
  • step S1 low frequency components of a given speech signal are extracted.
  • the extraction of the low frequency component may be performed by simply passing the low frequency band pass filter.
  • step S2 instantaneous phase information of the extracted low frequency component is extracted.
  • a transform such as a Hilbert transform may be used.
  • the range of values that the instantaneous phase may have is [- ⁇ ⁇ ⁇ ]
  • the plurality of instantaneous phase sections are [- ⁇ ⁇ - ⁇ / 2], [- ⁇ / 2 ⁇ 0], [ 0 to ⁇ / 2] and [ ⁇ / 2 to ⁇ ].
  • the present invention is not limited by the above specific values.
  • the low frequency component is obtained by using a low pass filter.
  • the residual signal described in step S22 of FIG. 7 described later may be used as the low frequency component.
  • the residual signal may be interpreted as the LFP described above, rather than simply the low frequency component of the given speech signal. That is, the signal of the low frequency component, which is the object of extraction of the phase-phase information in step S2, may not be obtained by only one method.
  • 4A to 4C are diagrams for explaining a voice kernel used in an embodiment of the present invention.
  • M voice kernels are generated by simulating the movement of the basement membrane with respect to the M center frequencies through computer modeling.
  • the basement membrane is part of the human auditory organs and is an organ that contains tissue that vibrates in response to sound.
  • Each of the voice kernels is a signal for a predetermined time expressing the vibration width of the base film according to the corresponding center frequency according to time, an example of which is shown in FIGS. 4A to 4C.
  • 4A and 4B show examples of two voice kernels for two specific center frequencies, respectively, in which the horizontal axis represents time and the vertical axis represents the vibration width of the base film excited by the corresponding center frequency.
  • the time that the base film vibrates for different center frequencies may be different. Therefore, although the minimum value of the horizontal axis of the voice kernel shown in FIGS. 4A and 4B starts at 0 seconds, the maximum value may be different or the same. Even if the vibration time of the base membrane with respect to the different center frequency is different, the length of the horizontal axis of each voice kernel can be made equal.
  • FIG. 4C depicts the vibration width of the basement membrane as 64 voice kernels due to 64 center frequencies to which humans respond particularly sensitively.
  • the 64 center frequencies may be spaced apart by the same frequency interval, but may be spaced apart by arbitrary frequency intervals.
  • the horizontal axis of the 64 voice kernels represents time and the vertical axis represents the vibration width of the base film excited by the corresponding center frequency.
  • step S1 for extracting feature information of a voice signal according to an embodiment of the present invention.
  • step S1 the unit feature of the voice signal S (x1) using the given voice signal S (x1) and M voice kernels K (q) provided in advance for analysis. Information can be extracted (where q is an integer of 1 ⁇ q ⁇ M).
  • the time length of the voice signal S (x1) may be provided as greater than or equal to the time length of each voice kernel.
  • the feature information extraction process may use a total of M * L reference signals S (n, K (q)) obtained by moving each of the M voice kernels K (q) by L different separation times (but, n is an integer of 0 ⁇ n ⁇ L-1, q is an integer of 1 ⁇ q ⁇ M).
  • L reference signals S (n, K (p)) shown in FIG. 5 are signals obtained by using the p-th audio kernel K (p) among the M audio kernels.
  • Some time periods of the L reference signals S (n, K (p)) include signals corresponding to the pth voice kernel K (p), respectively.
  • the p th voice kernel K (p) included in the reference signal S (n, K (p)) is delayed by (n-1) * ⁇ d from the start time 100 of the voice signal S (x1). (Where ⁇ d is the unit separation time).
  • the other part of the reference signal S (n, K (p)) except for the p-th voice kernel K (p) included therein has a value of zero.
  • FIG. 5A only L reference signals generated by using the p-th voice kernel K (p) are shown, but for all voice kernels K (q) other than the p-th voice kernel K (p) among M voice kernels. It can be understood that each of L reference signals can be generated. As a result, a total of M * L reference signals S (n, K (q)) can be generated from the M voice kernels. These M * L reference signals S (n, K (q)) may be stored in advance.
  • the time interval from the start time of each reference signal S (n, K (q)) generated as described above to the start time of the qth voice kernel K (q) included therein may be referred to as a 'spacing time'.
  • the operation of integrating the total M * L reference signals S (n, K (q)) generated in this manner into the voice signal S (x1) may be performed (step S11). As a result, a total of M * L dot products can be calculated. The maximum value of the calculated total M * L dot products can be retrieved (step S12). The reference signal corresponding to this maximum value among the M * L reference signals can be found (step S13). In this case, the voice kernel belonging to the reference signal corresponding to the maximum value among the M voice kernels K (q) may be defined and selected as 'maximum voice kernel' (step S14). In addition, the above-described separation time of the voice kernel belonging to the reference signal corresponding to the maximum value may be defined as the 'maximum voice kernel generation time' (step S15). This specific example will be described with reference to FIG. 5B.
  • FIG. 5B illustrates an example of only the reference signal corresponding to the maximum value among the M * L reference signals S (n, K (q) described with reference to FIG. 5A together with the voice signal.
  • the reference signal corresponding to the maximum value is S (5, K (p)).
  • the start time of the p-th voice kernel K (p) included in the reference signal is delayed by 5 * ⁇ d from the start time 100 of the reference signal S (x1).
  • the above-mentioned maximum speech kernel may be determined to be K (p), and the above-described maximum speech kernel generation time may be determined to be 5 * ⁇ d.
  • the information on the maximum voice kernel, the maximum voice kernel generation time, and the maximum value described above may be defined and provided as unit voice feature information of the voice signal.
  • the unit voice feature information described above may be expressed as shown in FIG. 6A.
  • FIG. 6A is an example of a graph showing three pieces of unit voice feature information obtained according to an embodiment of the present invention.
  • the x-axis represents the identification number of the maximum voice kernel
  • the y-axis represents the maximum voice kernel generation point
  • the z-axis represents the maximum value.
  • One unit voice characteristic information 51 obtained by performing the above-described steps S11 to S15 is displayed.
  • One unit voice feature information 51 includes the above-mentioned identification number of the maximum voice kernel, the maximum voice kernel generation time, and information on the maximum value thereof.
  • step S2 When the feature information extraction process (step S1) described above is completed, the voice signal update process (step S2) described below can be performed.
  • the audio signal update process described later will be described with reference to the examples shown in FIGS. 5A and 5B.
  • the reference signal S (5, K (p)) corresponding to the maximum value among the M * L reference signals S (n, K (q)) is used by using the maximum value.
  • the 'maximum normal reference signal S' (5, K (p)) can be generated (step S21).
  • 'normalization' may mean a process of multiplying the reference signal S (5, K (p)) by the maximum value or a value proportional to the maximum value.
  • the residual normal signal S (x2) shown in FIG. 5C by subtracting the maximum normal reference signal S '(5, K (p)) from the sound signal S (x1) used in the feature information extraction process. Can be generated (step S22).
  • the feature information extraction process may be performed again after the voice signal update process.
  • the residual obtained from the voice signal update process is the voice signal S (x1), which is to be internalized for each of the M * L reference signals S (n, K (q)) in the feature information extraction process performed again.
  • Replace with audio signal S (x2) As described above, when the feature information extraction process is performed again, one more unit voice feature information may be obtained. The newly obtained single unit voice feature information may be illustrated in addition to FIG. 6A.
  • 6B illustrates two unit voice feature information obtained by repeating the feature information extraction process twice according to an embodiment of the present invention.
  • FIG. 6B further shows the unit voice feature information 52 obtained by performing the above steps S11 to S15 together with the unit voice feature information 51 described above.
  • the above-described feature information extraction process and voice signal update process can be repeated continuously. However, when the maximum value obtained in the feature information extraction process is smaller than a predetermined value, the repetition may be stopped. If the feature information extraction process is performed a total of K times until the repetition stops, the set of unit voice feature information of the K voice signals provided through the K feature information extraction processes is converted into the voice signal S (x1) of FIG. Can be provided as the voice feature information 90 of.
  • 6C is a graph showing an example of the K voice feature information that can be obtained when the voice information extraction method is performed by repeating the feature information extraction process and the voice signal update process K times according to an embodiment of the present invention.
  • the voice feature information obtained by repeatedly performing the above-described feature information extraction process and the voice signal update process may be used for voice recognition. For example, using clean H phonemes without noise as a reference voice signal corresponding to the above-described voice signal S (x1), and using the voice feature information extraction method according to the embodiment of the present invention described above, The reference speech characteristic information of the corresponding H set may be generated and stored. Next, using one comparison phoneme to be recognized as a comparison voice signal corresponding to the above-described voice signal S (x1), and using the voice feature information extraction method according to the embodiment of the present invention described above, A corresponding set of comparison speech feature information can be generated.
  • the comparison voice feature information of the H set may be compared with the reference voice feature information of the H set, respectively, and the most similar set of reference voice feature information may be selected. In this case, it may be determined that the phoneme indicated by the selected set of reference voice feature information corresponds to the one comparison phoneme.
  • FIG. 7 is a flowchart illustrating a method for extracting voice feature information according to an embodiment of the present invention, and shows steps S1, S2, S11 to S15, and S21 to S21 in order.
  • the result of performing the syllable unit recognition experiment is that the vowel portion has a longer frame length than the conventional scheme, and the consonant has a shorter frame length than the conventional scheme.
  • a conventional (30ms frame) , 10ms shift) can achieve a higher recognition rate with fewer frames.
  • the current speech recognition technology is called DSR (Distributed Speech Recognition) to extract the voice information from the terminal and send it to the server to recognize.
  • DSR Distributed Speech Recognition
  • the voice signal frame division method since (1) the amount of information sent to the server is small, the processing speed is improved, and (2) the characteristics of each phoneme can be extracted more accurately. DB amount of the server is reduced. Furthermore, it has the advantage that it can be processed directly in the terminal without sending it to the server.
  • FIG. 8 is a flowchart illustrating a method of classifying a voice signal into frames according to an embodiment of the present invention.
  • step S81 a speech signal in syllable units is prepared.
  • one syllable may be formed by consonants, vowels, or a combination of consonants and vowels.
  • step S82 an envelope of the voice signal is extracted.
  • a first low frequency component (eg, 4 ⁇ 10 Hz) is extracted from the extracted envelope.
  • the phase information of the first low frequency component may have a value within a range of ⁇ to + ⁇ .
  • the extracted first low frequency component includes a first section having a phase of - ⁇ to - ⁇ / 2, a second section of - ⁇ / 2 to 0, a third section of 0 to ⁇ / 2, And time division into a fourth interval of + ⁇ / 2 to + ⁇ to divide the voice signal first.
  • the first low frequency component may be composed of one to four or more sections.
  • a second low frequency component (ex: 25 to 30 Hz) is extracted from the consonant section selected in step S85 of the envelope of the audio signal extracted in step S82.
  • the second low frequency component may be an average higher band than the first low frequency component.
  • phase information of the extracted second low frequency component is extracted.
  • the phase information of the second low frequency component may have a value within a range of ⁇ to + ⁇ .
  • the extracted second low-frequency components may be divided into a first section having a phase of - ⁇ to - ⁇ / 2, a second section of - ⁇ / 2 to 0, a third section of 0 to ⁇ / 2, and + ⁇
  • the voice signal is second-divided by time division into fourth intervals of / 2 to + ⁇ .
  • the second low frequency component may be composed of one to four or more sections.
  • step S85 one of the above N sections is a consonant section
  • N-1 + M frames may have different frame lengths and do not overlap each other on the time axis.
  • post processing may be performed such that a section in which N-1 + M frames overlap each other in the time axis is generated.
  • the audio signal processing may be performed using the N-1 + M frames that do not overlap with each other described above, or may be performed using the N-1 + M frames that have been subjected to the post-processing.
  • step S87 the entropy of step S88 may be calculated as necessary. This will be described in more detail with reference to FIG. 12.
  • 9 (a) to 9 (f) show examples of results derived at each step of the voice signal frame division method described with reference to FIG. 8.
  • 9A shows the waveform of the speech signal in syllable units in step S81, where the horizontal axis represents time and the vertical axis represents energy of sound waves.
  • FIG. 9B shows the envelope of the speech signal extracted in step S82, where the horizontal axis represents time and the vertical axis represents energy.
  • FIG. 9C shows the first low frequency component extracted by step S83, in which the horizontal axis represents time and the vertical axis represents energy.
  • the frame F1 is determined to be a section belonging to the specific energy range described in step S85.
  • FIG. 9E shows waveforms obtained as a result of performing step S86. That is, the second low frequency component (ex: 25 to 30 Hz) extracted from a portion of the envelope shown in FIG. 9B corresponding to the frame F1 is represented, and the horizontal axis represents time and the vertical axis represents energy (F1). Represents a first low frequency component and F11 to F16 represent a second low frequency component).
  • F11 to F16 of FIG. 9E show six frames divided second by step S87 according to the phase of the low frequency waveform shown in FIG. 9E.
  • FIG. 9E shows six frames divided second by step S87 according to the phase of the low frequency waveform shown in FIG. 9E.
  • FIG. 9 (f) shows an example in which the audio signal of FIG. 9 (a) is divided by the frames obtained through the series of steps shown in FIG. 8, and a total of nine frames F2 to F4 and F11 to F16) can be observed.
  • section 91 is a vowel section
  • section 92 is a consonant section
  • section 93 is a transition section that transitions from consonant to vowel
  • Figure 9 (f) it can be seen that in the consonant part having an aperiodic characteristic, the length of the frame is small and closely generated.
  • the information on the peak component of the consonant part is included in one frame so that the information is not scattered.
  • the number of frames in the consonant region is 4-6 and the number of frames in the vowel region is 3-5.
  • FIG. 9 (g) shows an example in which the audio signal of FIG. 9 (a) is divided at regular intervals using a conventional frame dividing method.
  • a total of nine frames 71 to 79
  • the frame division method shown in FIG. 9F can further analyze the consonant region in comparison with the frame division method shown in FIG. 9G.
  • the analysis efficiency may be low because the frames included in the vowel region having the periodic specification provide the same information.
  • FIG. 10 is a diagram for explaining an advantageous effect that the frame division method of the voice signal according to an embodiment of the present invention has over other methods.
  • FIG. 10 illustrates a comparison of a normalized entropy (spectral difference) between frames when a frame is divided by various methods using one voice signal sample.
  • a normalized entropy spectral difference
  • the graphs 101 to 104 of Fig. 10A show entropy 101 and Fig. 9F when one audio signal sample is divided in the manner shown in Fig. 9F.
  • Entropy 102 when the length of the frame is applied in reverse order over time
  • entropy 103 when the frame length is randomly divided into random frames
  • the entropy 104 when divided is shown.
  • the graph 103 is an average of the results obtained by independently performing the task of calculating entropy by dividing the one voice sample by an arbitrary frame length.
  • FIG. 10B shows entropy 201 and FIG. 9F when divided in the manner shown in FIG. 9F calculated for the pronunciation of 48 different speakers for a particular syllable.
  • the entropy 202 when the length of the frame is applied in the reverse order according to time, and the entropy 203 when the frame length is divided into a fixed frame of 15 ms as in the prior art are averaged.
  • 11A illustrates a comparison of a speech signal recognition result using a speech signal frame division method according to an embodiment of the present invention with a recognition result according to the related art.
  • a no-noise voice signal (clean), a noisy voice signal (20 dB) and a noisy voice signal (15 dB) are divided into a frame dividing method (302) according to an embodiment of the present invention.
  • a graph comparing a result of recognition using a variable frame) and a result of recognition using a division method 301 (fixed frame) for dividing into a fixed frame length as in the related art is displayed. It can be seen that the speech recognition result is improved when the frame division technique according to the embodiment of the present invention is used in a noisy environment.
  • 11B is a graph illustrating a difference between a recognition rate by a method according to an embodiment of the present invention and a recognition rate according to a conventional method in various noise environments.
  • FIG. 11B show differences in recognition rates in babble noise, F16 noise, Volvo noise, and Tank noise environment, respectively.
  • the vertical axis of each graph represents recognition accuracy, and the horizontal axis represents the value of SNR.
  • the graph 301 shows a result according to the dividing method for dividing into a fixed frame length as in the prior art, and the graph 302 shows the result according to the frame dividing method 302 according to an embodiment of the present invention.
  • the first low frequency component is set to 4 to 10 Hz
  • the second low frequency component is set to 25 to 30 Hz.
  • the above-described entropy values may vary according to specific band values of the first low frequency component and the second low frequency component. The difference in entropy calculated according to the combination of specific bands of the first low frequency component and the second low frequency component will be described below with reference to FIG. 12.
  • Figure 12 shows the entropy calculated as a result of various combinations of the bands of the first low frequency component and the bands of the second low frequency component.
  • Each graph of FIG. 12 is a result of experimenting with one syllable sample called / pa /.
  • the horizontal axis of FIG. 12 represents a combination of the band of the first low frequency component and the band of the second low frequency component, and the vertical axis represents the entropy calculated for each combination.
  • the portion indexed as 'primary' in the horizontal axis of FIG. 12 represents a band of the first low frequency component in step S83 of FIG. 8, and the portion indexed as 'secondary' is represented in step S86 of FIG. 8. Represents the band of the second low frequency component of.
  • delta, theta, alpha, beta, low gamma, and mid gamma represent 0.3 to 4 Hz, 4 to 10 Hz, 8 to 12 Hz, 12 to 25 Hz, and 25 to 30 Hz, respectively.
  • the case where the first low frequency component is theta band and the second low frequency component is the low gamma band have the highest entropy value.
  • the combination of [first-order low-frequency component-second-order low-frequency component] showing particularly high entropy in FIG. 12 includes [theta-low gamma], [theta-mid gamma], [alpha-low gamma], and [alpha-mid gamma]. ]to be.
  • [theta-low gamma] the highest entropy is shown in FIG. 12, but the combination showing the highest entropy may vary depending on the speaker or the speed of speech.
  • an embodiment of the present invention may include selecting one of the N candidate combinations rather than specifying the combination of the [primary low frequency component-secondary low frequency component] as one. That is, for example, when it is necessary to start recognition of continuous speech, the entropy for the N candidate combinations is calculated using one extracted voice sample, and one combination having the highest entropy is selected. . Thereafter, by performing a series of steps according to FIG. 8 using one combination of the above, it is possible to perform speech recognition for the above continuous speech.
  • the N candidate combinations may be, for example, [theta-low gamma], [theta-mid gamma], [alpha-low gamma], and [alpha-mid gamma], which may be set differently.
  • FIG. 13 is a graph for explaining an effect of a frame division method according to an embodiment of the present invention in consideration of the entropy described above.
  • FIG. 13 illustrates a first method 601 using a fixed frame length as in the related art, and a second method 602 of variably dividing a frame in the same manner as in FIG. 8 using a fixed first frequency component and a second frequency component.
  • the accuracy of the The vertical axis of FIG. 13 represents the accuracy of speech recognition. This experiment was performed on a noisy voice signal (clean), a 20 dB noisy voice signal (20 dB), and a 15 dB noisy voice signal (15 dB). Referring to FIG.
  • the noise used to obtain the graph shown in FIG. 13 is babble noise.
  • the transition period of the audio signal was found by shifting the 30ms frame by 10ms.
  • the frame since the audio signal is divided using the low frequency phase of the audio signal containing the transition information, the frame does not need to be shifted by, for example, 10 ms units. Reducing the number of frames has the advantage of reducing the overall system burden in the current speech recognition paradigm of sending feature vectors extracted to the DSR device to the server for classification.
  • the voice signal may be divided by only about 67% of the number of frames compared to the conventional technique using a fixed frame length.
  • FIG. 14 is a table comparing the number of frames used in accordance with one embodiment of the present invention using a variable frame length and a prior art using a fixed frame length.
  • "fixed segmenting” represents a prior art using a fixed frame length
  • “variable segmenting” represents an embodiment of the present invention using a variable frame length. It can be seen that the number of frames according to an embodiment of the present invention is smaller for each voice signal.
  • each frame may be extended in left and right directions to overlap each other slightly.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

A method for dividing a voice signal input for voice recognition into frames is disclosed. The method comprises the steps of: extracting a low frequency signal from a voice signal; and dividing the low frequency signal into a plurality of intervals according to a plurality of instantaneous phase intervals of the low frequency signal.

Description

뇌의 음성처리에 기반한 음성신호 프레임 가변 분할 방법Variable Segmentation Method of Speech Signal Frame Based on Brain Speech Processing
본 발명은 음성신호처리기술에 관한 것으로서, 특히 음성신호처리를 위해 음성신호를 복수 개의 프레임으로 분할하는 기술에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to voice signal processing technology, and more particularly, to a technology for dividing a voice signal into a plurality of frames for voice signal processing.
컴퓨팅 장치를 이용하여 음성신호를 처리하기 위한 다양한 기술들이 개발되어 왔다. 지금까지의 음성신호특징 추출을 위한 음성신호 분할 기술은 신호의 특성을 고려하지 않았다. 예컨대 MFCC(Mel-Frequency Cepstral Coefficient)을 이용하는 음성신호특징 추출기술의 일 실시예에서는 음성신호에 30ms 길이의 창을 10ms씩 이동시키며 특징을 추출한다. 예컨대 창 별로 음성신호의 주파수 정보를 추출하고 이를 비선형적으로 가공하여 13개의 특징벡터로 나타낸다. 또한 MFCC를 이용하는 기술에서는 FFT(Fast Fourier Transform)을 통해 음성신호의 모든 주파수 성분을 추출한다. 이와 같은 방식은 음성신호에 잡음이 섞일 경우 잡음의 주파수 성분까지 특징벡터에 포함되고 음성신호 고유의 특징을 담아내지 못하여 결과적으로 인식률의 저하를 초래한다. MFCC를 이용하는 기술은 신호의 특성을 고려하지 않고 동일하게, 예컨대 30ms 길이의 창을 10ms 씩 이동시키며 특징을 추출한다. 즉, 사용되는 프레임의 크기는 음성신호의 종류에 관계없이 특정값으로 고정되어 있다. 이와 같은 방법은 지속 시간이 길고 주기적인 특성을 갖는 모음을 인식하는 데는 효과적이지만 지속 시간이 짧고 비주기적인 특성을 갖는 자음을 인식하는데 효과적이지 못하다. Various techniques have been developed for processing voice signals using computing devices. So far, voice signal segmentation techniques for speech signal feature extraction have not considered the characteristics of the signal. For example, in one embodiment of a voice signal feature extraction technique using Mel-Frequency Cepstral Coefficient (MFCC), the feature is extracted by moving a window of 30 ms length by 10 ms to the voice signal. For example, frequency information of a voice signal is extracted for each window and processed nonlinearly and represented as 13 feature vectors. In addition, the technology using MFCC extracts all frequency components of the voice signal through the fast fourier transform (FFT). In such a method, when noise is mixed in a voice signal, even the frequency components of the noise are included in the feature vector and do not contain the inherent characteristics of the voice signal, resulting in a decrease in recognition rate. The technique using the MFCC extracts the feature by moving the window of 30 ms length by 10 ms in the same manner without considering the characteristics of the signal. That is, the size of the frame used is fixed to a specific value regardless of the type of the audio signal. This method is effective for recognizing vowels with long duration and periodic characteristics, but not for recognizing consonants with short duration and aperiodic characteristics.
한편 청각피질(Auditory cortex)에서 측정된 신경신호(neural signal)를 고주파 통과 필터링하면 스파이크 신호가 추출된다. 이와 반대로 저주파 통과 필터링하여 300Hz 이하 대역의 성분을 추출했을 때에 LFP(Local Field Potential, 국소전장전위)라고 지칭되는 신호를 얻을 수 있다. 위의 LFP는 스파이크 신호의 발생에 기여하지 못하는 신호로서 간주될 수도 있다.On the other hand, the high frequency pass filtering of the neural signal measured in the auditory cortex (spike signal) is extracted. On the contrary, when low frequency filtering is used to extract components in the band below 300 Hz, a signal called LFP (Local Field Potential) can be obtained. The above LFP may be considered as a signal that does not contribute to the generation of the spike signal.
음성신호를 듣고 인식하는 시간 동안 생성되는 청각피질의 신경신호의 저주파 성분의 위상 성분은m 1) 음성신호를 디코더블(decordable)한 유닛(unit)으로 나누어주는 파싱(parsing) 기능과, 2) 그 자체로 하나의 정보를 제공해 주는 독립적인 정보 유닛으로의 기능을 가질 가능성이 있다.The phase components of the low frequency components of the neural signals of the auditory cortex generated during the time of listening and recognizing the voice signals are m 1) a parsing function of dividing the voice signals into decodable units, and 2) It is likely to have the function as an independent information unit that provides one information per se.
본 발명에서는 음성인식을 위해 음성신호를 복수 개의 프레임으로 나누는 방법에 관한 새로운 기술을 제공하고자 한다. 또한, 자음과 모음을 서로 다른 길이의 프레임으로 비균등하게 나누는 방법을 제공하고자 한다.The present invention seeks to provide a new technique for a method of dividing a speech signal into a plurality of frames for speech recognition. In addition, it is intended to provide a method of unevenly dividing consonants and vowels into frames of different lengths.
종래의 음성신호 처리기법에서 음성신호처리의 기본단위로서 일정한 길이의 프레임을 이용하는 데에 비하여, 사람의 뇌는 음성을 인식하기 위하여 음소라는 단위를 이용한다고 볼 수 있다. 사람이 음소를 구분하는 방법이 완벽하게 규명된 것은 아니지만, 청각피질에서 생성된 스파이크 신호들이 음성을 인식하는 수단으로서 사용되며, 이 스파이크 신호들을 생성하는 데에 기여하지 못한 LFP 성분은 음성신호에서 최대한 많은 정보를 추출 해 내도록 스파이크들을 시간별로 그룹핑하여 구분하는 시간기준(temporal reference)이 될 것이라고 가정할 수 있다. Compared to using a frame of a constant length as a basic unit of speech signal processing in the conventional speech signal processing technique, the human brain uses a unit called phoneme to recognize speech. Although the method of distinguishing phonemes is not fully understood, the spike signals generated in the auditory cortex are used as a means of speech recognition, and the LFP component which does not contribute to generating these spike signals is the maximum in the speech signal. It can be assumed that it will be a temporal reference to group spikes by time to extract a lot of information.
인간이 음성신호를 듣는 동안 음성신호 엔빌로프(envelope)의 저주파 성분과 뇌의 청각피질(auditory cortex)에 흐르는 신경신호(neural oscillation)의 저주파 성분이 위상 고정(phase locking) 된다는 사실을 실험을 통해 밝혀냈다. 즉, 음성신호를 듣고 인식하는 시간 동안 생성되는 신경신호(neural oscillation)의 저주파 성분은 음성신호 엔빌로프의 저주파 신호와 유사하다 할 수 있다. 따라서 본 발명의 일 관점에서는 음성신호 엔빌로프의 저주파 신호를 이용하여 음성신호의 프레임을 정의한다.Experiments show that the low frequency component of the speech signal envelope and the low frequency component of the neural oscillation in the auditory cortex of the brain are phase locked while humans listen to the speech signal. Revealed. That is, the low frequency component of the neural oscillation generated during the time of listening and recognizing the voice signal may be similar to the low frequency signal of the voice signal envelope. Therefore, in one aspect of the present invention, a frame of the voice signal is defined using a low frequency signal of the voice signal envelope.
음성신호의 저주파 신호(≒LFP)를, 예컨대 힐버트 변환함으로써, -π~π 사이의 값을 갖는 순간위상(instantaneous phase) 정보를 추출할 수 있다. 그리고 이 순간위상이 가질 수 있는 값을 복수 개의 위상구간으로 나누어 각 구간에 대응하는 각각의 음성신호구간을 하나의 프레임으로 정의한다. 예컨대, -π~π를 4등분하여 [-π ~ -0.5*π], [-0.5*π ~ 0], [0 ~ 0.5*π], 및 [0.5*π ~ π]의 4개의 위상구간으로 나눌 수 있고, 상기 LFP 신호 중 상기 각 위상구간에 대응하는 음성신호구간을 독립적인 프레임으로 정의할 수 있다. 4개의 위상구간이 정의될 때에 1개 내지 4개 이상의 음성신호구간이 발생할 수 있다. 이러한 방식을 이용하면 정의되는 프레임의 길이가 가변하게 되는데, 이와 같이 프레임의 길이를 변할 수 있도록 하면, 기존의 고정된 윈도우 크기로 음송신호를 분할했을 때보다 정보의 양이 늘고 이와 더불어 잡음에 더 강인(robust)한 특성을 보임을 알 수 있다. 또한, 30ms의 고정 프레임 길이를 사용하면 프레임을 10ms씩 이동시키는 종래 기술에서는 프레임간 20ms의 중첩구간이 발생하게 되는데, 본 발명에 따르면 이러한 중첩구간의 길이를 더 줄일 수 있다. Instantaneous phase information having a value between-pi and pi can be extracted by, for example, Hilbert transforming a low frequency signal (LFP) of an audio signal. The voice signal section corresponding to each section is defined as one frame by dividing the value of the instant phase into a plurality of phase sections. For example, four phase intervals of [-π to -0.5 * π], [-0.5 * π to 0], [0 to 0.5 * π], and [0.5 * π to π] by dividing -π ~ π into four The speech signal section corresponding to each phase section among the LFP signals may be defined as an independent frame. When four phase sections are defined, one to four or more voice signal sections may occur. Using this method, the length of the defined frame is variable. If the length of the frame can be changed in this way, the amount of information is increased and the noise is further increased than when the sound signal is divided by the fixed window size. It can be seen that it exhibits robust characteristics. In addition, when a fixed frame length of 30 ms is used, an overlapping section of 20 ms is generated between frames in the conventional technique of moving a frame by 10 ms. According to the present invention, the length of the overlapping section can be further reduced.
한편, 음성신호의 저주파 성분은 LFP의 저주파 성분에 대하여 위상고정(phase locking) 되어있다. 이로부터 청각피질에서 측정된 LFP의 저주파 성분을 만들어내는 요인이 음성신호의 저주파 성분에 있다고 추론할 수 있다. 즉, 음성신호의 저주파 성분의 위상성분은 스파이크를 구분하는 시간기준이 되는 청각피질의 LFP에 위상고정 된다고 추정할 수 있다. 따라서 본 발명의 일 관점에 의하면, LFP를 이용하는 방법 대신에 음성신호의 저주파 성분을 추출하고 이로부터 순간위상정보를 구하여 프레임의 길이를 정해주는 방법을 이용한다. 이는 기존의 30ms의 고정된 프레임 길이를 모든 음성신호에 적용하는 방식과 비교하여, 음성신호에 따라 프레임의 길이와 개수를 적응적으로 정할 수 있다는 점에서 차이가 있다. 또한 음소간의 전이(transition) 시점을 효과적으로 추출하고 정보를 얻을 수 있다는 점에서 장점을 갖는다.On the other hand, the low frequency component of the audio signal is phase locked with respect to the low frequency component of the LFP. From this, it can be inferred that the low frequency component of the speech signal is a factor that produces the low frequency component of the LFP measured in the auditory cortex. That is, it can be estimated that the phase component of the low frequency component of the audio signal is phase locked to the LFP of the auditory cortex, which is a time reference for distinguishing spikes. Therefore, according to an aspect of the present invention, instead of using the LFP method, a method of extracting low frequency components of a voice signal and obtaining instant phase information therefrom to determine a frame length is used. This is a difference in that the length and number of frames can be adaptively determined according to the voice signal, compared to the conventional method of applying a fixed frame length of 30 ms to all voice signals. In addition, it has an advantage in that the transition point between phonemes can be effectively extracted and information can be obtained.
본 발명의 일 양상에 따른 음성신호 분할방법은, 음성인식을 위하여 입력된 음성신호의 프레임을 분할하는 방법으로서, 상기 음성신호 중 저주파신호를 추출하는 단계; 및 상기 저주파신호를, 상기 저주파신호의 복수 개의 순간위상구간에 따라 복수 개의 시구간으로 분할하는 단계를 포함한다.According to an aspect of the present invention, there is provided a method of splitting a voice signal, comprising: extracting a low frequency signal from the voice signal; And dividing the low frequency signal into a plurality of time periods according to a plurality of instantaneous phase sections of the low frequency signal.
이때, 상기 저주파신호는 상기 음성신호의 뇌신호의 세타(θ) 대역에 대응하는 성분의 신호일 수 있다.In this case, the low frequency signal may be a signal of a component corresponding to theta (θ) band of the brain signal of the voice signal.
이때, 상기 저주파신호의 순간위상은 -π 내지 +π의 값을 가지며, 상기 복수 개의 위상구간은 -π 내지 +π을 복수 개의 구간으로 나누어 선택한 것일 수 있다.In this case, the instantaneous phase of the low frequency signal may have a value of -π to + π, and the plurality of phase sections may be selected by dividing -π to + π into a plurality of sections.
이때 상기 복수 개의 위상구간은, -π 내지 -π/2의 제1 구간, -π/2 내지 0의 제2 구간, 0 내지 π/2의 제3 구간, 및 +π/2 내지 +π의 제4 구간으로 구분될 수 있다.In this case, the plurality of phase sections may include a first section of -π to -π / 2, a second section of -π / 2 to 0, a third section of 0 to π / 2, and + π / 2 to + π It may be divided into a fourth section.
이때, 상기 방법은 복수 개의 중심주파수에 대한 기저막의 거동을 모델링하여 획득한 복수 개의 음성커널을 이용하며, 상기 저주파 신호는 상기 음성신호로부터 한 개 이상의 음성커널성분을 제거하여 얻은 레지듀얼 신호일 수 있다. In this case, the method uses a plurality of voice kernels obtained by modeling the behavior of the base film with respect to a plurality of center frequencies, and the low frequency signal may be a residual signal obtained by removing one or more voice kernel components from the voice signal. .
또는, 상기 방법의 저주파 신호는 단순히 저대역 통과필터 또는 밴드패스 필터를 이용하여 음성신호의 저대역을 추출한 것일 수 있다.Alternatively, the low frequency signal of the method may be simply extracted from the low band of the speech signal using a low pass filter or a band pass filter.
본 발명의 다른 양상에 따른 음성특징정보 제공방법은, 복수 개의 중심주파수에 대한 기저막의 거동을 모델링하여 획득한 복수 개의 음성커널을 이용하여 음성특징정보를 제공하는 방법으로서, 상기 음성신호 중 저주파신호를 추출하는 단계; 상기 저주파신호를, 상기 저주파신호의 복수 개의 순간위상구간에 따라 복수 개의 시구간으로 분할하는 단계; 상기 분할된 한 개 프레임의 음성신호로부터 한 개 이상의 음성커널 성분을 추출하는 단계; 및 상기 추출된 한 개 이상의 음성커널 각각의 발생시점, 및 상기 추출된 한 개 이상의 음성커널 각각의 음성커널성분의 크기를 상기 음성신호의 음성특징정보로서 제공하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method for providing voice feature information by using a plurality of voice kernels obtained by modeling the behavior of a base film with respect to a plurality of center frequencies. Extracting; Dividing the low frequency signal into a plurality of time periods according to a plurality of instantaneous phase sections of the low frequency signal; Extracting at least one voice kernel component from the divided one voice signal; And providing generation time of each of the extracted one or more voice kernels, and size of the voice kernel component of each of the extracted one or more voice kernels as voice feature information of the voice signal.
본 발명의 일 관점에 따른 음성인식방법은 상술한 음성신호 분할방법, 즉 음성신호구간(=프레임) 분할방법을 전제로 이루어질 수 있다. 이 음성인식방법에서는, 음성신호의 주파수 성분을 선택적으로 추출하여, 음성 고유의 특징을 담으며 잡음에 강건한 특징 벡터를 형성한다. 이를 위하여 달팽이관에서 음성신호가 뇌 신호인 스파이크(spike)로 변환되는 과정을 모사하여 음성신호의 주파수 성분을 추출해 낸다. 이 때 음성신호 주파수 성분 추출 과정은 다음과 같다. The voice recognition method according to an aspect of the present invention may be made on the premise of the above-described voice signal splitting method, that is, a voice signal section (= frame) splitting method. In this speech recognition method, frequency components of a speech signal are selectively extracted to form a feature vector that is robust to noise and contains inherent characteristics of speech. For this purpose, the frequency component of the speech signal is extracted by simulating the process of converting the speech signal into a spike, which is a brain signal in the cochlea. At this time, the voice signal frequency component extraction process is as follows.
첫째, 사람이 민감하게 반응하는 M(예컨대 M=64)개의 중심주파수에 대한 기저막(basilar membrane)의 움직임을 컴퓨터 모델링을 통해 모사하여 M개의 음성커널(kernel)을 생성한다. 이 때 각 음성커널은 이에 대응하는 중심주파수에 의한 기저막의 진동폭을 시간에 따라 표현한 일정시간 동안의 신호이다. First, M voice kernels are generated by computer modeling of the movement of the basal membrane with respect to M (eg, M = 64) central frequencies to which humans respond. At this time, each voice kernel is a signal for a predetermined time expressing the vibration width of the base film by the corresponding center frequency in time.
둘째, 인식하고자 하는 음성신호(speech signal)을 준비된 각각의 음성커널에 대하여 내적하는 연산을 수행함으로써 복수 개의 내적값을 구한다. 구체적으로는, ① M개의 음성커널을, 예컨대 1ms 시간이동하면서 각 음성커널과 음성신호와의 내적값을 구한다. 예컨대 각 음성커널에 대하여 1ms 간격으로 총 L번 시간이동하여 내적연산을 하는 경우에는, 총 M*L개의 내적값을 구할 수 있게 된다. ② 그 후, 이 M*L개의 전제 내적값들 중에서 최대 내적값을 찾는다. ③ 마지막으로, 음성신호에서 최대 내적값을 갖는 부분(즉, 내적 값 * 해당하는 시간이동된 음성커널)을 빼준 후 다시 ①번 과정으로 돌아가 위의 방법들을 반복하여 수행한다. 이때, 연산된 최대 내적값이 사용자가 설정한 임계값보다 작으면 모든 과정을 멈춘다.Second, a plurality of dot products are obtained by performing a dot product operation on the prepared speech kernels. Specifically, the inner product of each of the audio kernels and the audio signal is obtained by moving the M audio kernels, for example, by 1 ms. For example, when the inner product operation is performed for a total of L times at intervals of 1 ms for each voice kernel, a total of M * L inner products can be obtained. (2) Then, find the maximum dot value among the M * L total dot products. ③ Finally, after subtracting the part with the maximum dot value from the voice signal (ie, the dot value * the corresponding time-shifted voice kernel), go back to step ① and repeat the above methods. At this time, if the calculated maximum dot product is smaller than the threshold set by the user, all processes are stopped.
위와 같은 방법을 이용하면, 음성신호의 중요한 성분부터 차례대로 추출할 수 있으며, 사람이 민감하게 반응하는 M(=64)개의 고정된 주파수에 대한 정보만 추출할 수 있으며, 추출된 각 주파수 성분의 발생시간을 알 수 있다.Using the above method, the important components of the audio signal can be extracted in order, and only information on M (= 64) fixed frequencies, which humans are sensitive to, can be extracted. The occurrence time can be known.
본 발명의 일 관점에 따른 음성특징정보 추출방법은 상술한 음성신호 분할방법, 즉 음성신호구간(=프레임) 분할방법을 전제로 이루어질 수 있다. 후술하는 음성특징정보 추출방법은, 상기 음성신호 분할방법에 의해 결정된 각 프레임에 대하여 수행될 수 있다. 이 음성특징정보 추출방법은, 시간영역에서 주어진 음성신호 및 미리 제공된 M개의 음성커널을 이용하여 상기 음성신호의 특징정보를 추출하기 위한 특징정보추출 프로세스를 포한한다. 상기 특징정보추출 프로세스는, 상기 M개의 음성커널 각각을 L개의 서로 다른 이격시간만큼 이동하여 얻은 총 M*L개의 기준신호를 이용한다. 또한, 상기 특징정보추출 프로세스는, 상기 M*L개의 기준신호 각각에 대하여 상기 음성신호를 내적하는 연산을 수행함으로써 얻은 M*L개의 내적값 중 최대값을 구하고, 상기 M개의 음성커널 중 상기 최대값에 대응하는 음성커널을 최대음성커널로서 선택하고, 상기 L개의 서로 다른 이격시간 중 상기 최대값에 대응하는 이격시간을 최대음성커널 발생시점으로서 선택하는 단계; 및 상기 최대음성커널, 상기 최대음성커널 발생시점, 및 상기 최대값에 관한 정보를 상기 음성신호의 단위음성특징정보로서 제공하는 단계를 포함한다. 이때, 상기 단위음성특징정보는 뇌에 전달되는 하나의 스파이크에 대응되는 정보인 것으로 해석할 수 있다.The voice feature information extraction method according to an aspect of the present invention may be made on the premise of the above-described voice signal division method, that is, a voice signal section (= frame) division method. The voice feature information extraction method described later may be performed for each frame determined by the voice signal division method. The voice feature information extraction method includes a feature information extraction process for extracting feature information of the voice signal using a given voice signal in the time domain and M voice kernels provided in advance. The feature information extraction process uses a total of M * L reference signals obtained by moving each of the M voice kernels by L different distances. The feature information extraction process obtains a maximum value of the M * L inner products obtained by performing the operation of internalizing the voice signal with respect to each of the M * L reference signals, and the maximum of the M voice kernels. Selecting a voice kernel corresponding to a value as a maximum voice kernel and selecting a separation time corresponding to the maximum value among the L different distances as a maximum voice kernel occurrence time; And providing information on the maximum voice kernel, the maximum voice kernel occurrence time, and the maximum value as unit voice feature information of the voice signal. In this case, the unit voice feature information may be interpreted as information corresponding to one spike transmitted to the brain.
이때, 상기 M개의 음성커널은 M개의 중심주파수에 대한 기저막의 움직임을 시간에 따른 진폭으로 모델링한 신호일 수 있다.In this case, the M voice kernels may be signals that model the movement of the base film with respect to M center frequencies with amplitude over time.
또한, 상기 음성특징정보 추출방법은 음성신호갱신 프로세스를 더 포함할 수 있는데, 이 음성신호갱신 프로세스는, 상기 최대값을 이용하여 상기 최대음성커널을 정규화함으로써 최대정규음성커널을 생성하는 단계; 및 상기 특징정보추출 프로세스에서 상기 M*L개의 기준신호 각각에 대하여 내적된 상기 음성신호로부터 상기 최대정규음성커널을 차감하여 레지듀얼 음성신호를 제공하는 단계를 포함할 수 있다. The voice feature information extraction method may further include a voice signal update process, the voice signal update process comprising: generating a maximum normal voice kernel by normalizing the maximum voice kernel using the maximum value; And subtracting the maximum normal speech kernel from the speech signals embedded for each of the M * L reference signals in the feature information extraction process to provide a residual speech signal.
이때, 상기 음성신호갱신 프로세스 이후에 상기 특징정보추출 프로세스를 재수행하되, 상기 재수행되는 특징정보추출 프로세스에서 상기 M*L개의 기준신호 각각에 대하여 내적되어야 하는 상기 음성신호가 상기 음성신호갱신 프로세스에서 얻은 상기 레지듀얼 음성신호로 대체된다.In this case, the feature information extraction process is re-executed after the voice signal update process, and the voice signal to be internalized for each of the M * L reference signals in the re-executed feature information extraction process is performed in the voice signal update process. It is replaced by the residual voice signal obtained.
이때, 상기 특징정보추출 프로세스와 상기 음성신호갱신 프로세스를 순차적으로 반복하여 수행하되, 상기 특징정보추출 프로세스에서 얻은 최대값이 미리 결정된 값보다 작게 되면 상기 반복을 멈추도록 되어 있다.At this time, the feature information extraction process and the voice signal update process are repeatedly performed sequentially, and the repetition is stopped when the maximum value obtained by the feature information extraction process is smaller than a predetermined value.
이때, 상기 반복이 멈출 때까지 상기 특징정보추출 프로세스가 총 K번 수행되었다면, 상기 K번의 특징정보추출 프로세스를 통해 제공된 K개의 상기 음성신호의 단위음성특징정보의 집합을 상기 음성신호의 음성특징정보로서 제공할 수 있다.At this time, if the feature information extraction process has been performed a total of K times until the repetition stops, the voice feature information of the voice signal of the K voice signal information provided through the K feature information extraction process It can be provided as.
본 발명의 다른 관점에 따라 음성신호를 인식하는 방법이 제공될 수 있다. 이 음성신호 인식방법은, 상술한 음성특징정보를 이용하여 음성신호를 인식하는 방법으로서, 상기 음성신호와는 다른 비교음성신호를 이용하여 상기 특징정보추출 프로세스 및 상기 음성신호갱신 프로세스를 수행함으로써, 상기 비교음성신호에 대한 음성특징정보인 비교음성특징정보를 추출하는 단계; 및 상기 음성특징정보와 상기 비교음성특징정보의 유사도를 추출하는 단계를 포함한다.According to another aspect of the present invention, a method for recognizing a voice signal may be provided. The voice signal recognition method is a method for recognizing a voice signal using the above-mentioned voice feature information, by performing the feature information extraction process and the voice signal update process using a comparison voice signal different from the voice signal, Extracting comparison voice feature information, which is voice feature information of the comparison voice signal; And extracting a similarity degree between the voice feature information and the comparison voice feature information.
본 발명의 또 다른 관점에 따라, 음성인식을 위하여 입력된 음성신호의 프레임을 분할하는 음성신호 처리장치를 제공할 수 있다. 이 장치는, 상기 음성신호를 저장하는 저장부 및 상기 음성신호를 처리하기 위한 처리부를 포함한다. 이때, 상기 저장부는, 상기 처리부로 하여금, 상기 음성신호 중 저주파신호를 추출하는 단계; 및 상기 저주파신호를 상기 저주파신호의 복수 개의 순간위상에 따라 복수 개의 시구간으로 분할하는 단계를 실행하도록 하는 프로그램 코드를 저장한다.According to still another aspect of the present invention, a voice signal processing apparatus for dividing a frame of an input voice signal for voice recognition may be provided. The apparatus includes a storage unit for storing the voice signal and a processing unit for processing the voice signal. The storage unit may include: extracting, by the processor, a low frequency signal from the voice signal; And program code for executing the step of dividing the low frequency signal into a plurality of time periods according to a plurality of instantaneous phases of the low frequency signal.
본 발명의 또 다른 관점에 따라, 복수 개의 중심주파수에 대한 기저막의 거동을 모델링하여 획득한 복수 개의 음성커널을 이용하여 음성특징정보를 제공하는 음성신호 처리장치를 제공할 수 있다. 이 장치는 음성신호를 저장하는 저장부 및 상기 음성신호를 처리하기 위한 처리부를 포함한다. 이때, 상기 저장부는, 상기 처리부로 하여금, 상기 음성신호 중 저주파신호를 추출하는 단계; 상기 저주파신호를, 상기 저주파신호의 복수 개의 순간위상구간에 따라 복수 개의 시구간으로 분할하는 단계; 상기 분할된 한 개 프레임의 음성신호로부터 한 개 이상의 음성커널 성분을 추출하는 단계; 및 상기 추출된 한 개 이상의 음성커널 각각의 발생시점, 및 상기 추출된 한 개 이상의 음성커널 각각의 음성커널성분의 크기를 상기 음성신호의 음성특징정보로서 제공하는 단계를 실행하도록 하는 프로그램 코드를 저장하고 있다.According to another aspect of the present invention, it is possible to provide a voice signal processing apparatus for providing voice feature information by using a plurality of voice kernels obtained by modeling the behavior of the base film with respect to a plurality of center frequencies. The apparatus includes a storage unit for storing a voice signal and a processing unit for processing the voice signal. The storage unit may include: extracting, by the processor, a low frequency signal from the voice signal; Dividing the low frequency signal into a plurality of time periods according to a plurality of instantaneous phase sections of the low frequency signal; Extracting at least one voice kernel component from the divided one voice signal; And providing a generation time of each of the extracted one or more voice kernels, and providing the size of each of the extracted one or more voice kernels as voice feature information of the voice signal. Doing.
본 발명의 또 다른 관점에 따라, 음성신호를 저장하는 저장부 및 상기 음성신호를 처리하기 위한 처리부를 포함하는 장치로 하여금, 상기 음성신호 중 저주파신호를 추출하는 단계; 및 상기 저주파신호를 상기 저주파신호의 복수 개의 순간위상에 따라 복수 개의 시구간으로 분할하는 단계를 실행하도록 하는 프로그램 코드를 저장하고 있는, 컴퓨터로 읽을 수 있는 매체가 제공될 수 있다.According to another aspect of the present invention, there is provided a device comprising a storage unit for storing a voice signal and a processing unit for processing the voice signal, the method comprising: extracting a low frequency signal of the voice signal; And program code for executing the step of dividing the low frequency signal into a plurality of time periods in accordance with a plurality of instantaneous phases of the low frequency signal.
본 발명의 또 다른 관점에 따라, 음성신호의 제1 저주파성분이 갖는 순간위상에 따라, 상기 음성신호를 복수 개의 구간으로 분할하는 단계를 포함하는, 음성신호 분할방법이 제공될 수 있다. According to still another aspect of the present invention, a voice signal segmentation method may be provided, including dividing the voice signal into a plurality of sections according to an instantaneous phase of the first low frequency component of the speech signal.
이때, 상기 음성신호의 제1 구간은 상기 제1 구간의 상기 제1 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하고, 상기 음성신호의 제2 구간은 상기 제2 구간의 제2 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할할 수 있다.In this case, the first section of the voice signal is divided into a plurality of sections according to an instantaneous phase of the first low frequency component of the first section, and the second section of the voice signal is a second low frequency component of the second section. It can be divided into a plurality of sections according to the instantaneous phase it has.
이때, 상기 분할하는 단계는, 상기 복수 개의 구간 중 제2 구간을 상기 제2 구간의 제2 저주파성분을 갖는 순간위상에 따라 복수 개의 구간으로 분할하는 단계를 포함할 수 있다.In this case, the dividing may include dividing a second section of the plurality of sections into a plurality of sections according to an instantaneous phase having a second low frequency component of the second section.
이때, 상기 제2 구간은 상기 음성신호 중 자음성분이라고 판단된 구간일 수 있다.In this case, the second section may be a section determined as a consonant component of the voice signal.
이때, 상기 제2 구간은 상기 복수 개의 구간 중 미리 결정된 에너지구간에 포함되는 에너지 값을 갖는 구간일 수 있다.In this case, the second section may be a section having an energy value included in a predetermined energy section of the plurality of sections.
이때, 상기 제1 저주파성분은 뇌신호의 세타(θ) 대역에 대응하는 대역일 수 있다.In this case, the first low frequency component may be a band corresponding to theta (θ) band of the brain signal.
이때, 상기 제1 저주파성분은 뇌신호의 세타(θ) 대역에 대응하는 대역이고, 상기 제2 저주파성분은 뇌신호의 감마(gamma) 대역에 대응하는 대역일 수 있다.In this case, the first low frequency component may be a band corresponding to theta (θ) band of the brain signal, and the second low frequency component may be a band corresponding to the gamma band of the brain signal.
이때, 상기 순간위상은 -π 내지 +π의 값을 가지며, 상기 분할은 상기 저주파신호의 복수 개의 위상구간에 따라 이루어지며, 상기 복수 개의 위상구간은 -π 내지 +π을 복수 개의 구간으로 나누어 선택한 것일 수 있다.In this case, the instantaneous phase has a value of -π to + π, the division is made according to a plurality of phase sections of the low frequency signal, the plurality of phase sections are selected by dividing -π to + π by a plurality of sections It may be.
이때, 상기 복수 개의 위상구간은, -π 내지 -π/2의 제1 구간, -π/2 내지 0의 제2 구간, 0 내지 π/2의 제3 구간, 및 +π/2 내지 +π의 제4 구간으로 구분될 수 있다.In this case, the plurality of phase sections may include a first section of -π to -π / 2, a second section of -π / 2 to 0, a third section of 0 to π / 2, and + π / 2 to + π It may be divided into a fourth section of.
본 발명의 또 다른 관점에 따라, 음성신호의 저주파성분이 갖는 순간위상에 따라 상기 음성신호를 복수 개의 프레임으로 분할하는 프로세스를 이용하여 상기 음성신호를 분할하는 방법이 제공될 수 있다. 이때, 이 방법은, 음성신호의 제k 저주파성분(k=1,2,3,...N) 각각에 대하여 상기 프로세스를 수행하여 N세트의 프레임 분할정보를 획득하는 단계; 및 상기 N세트의 프레임 분할정보로부터 프레임 간 엔트로피가 가장 큰 제s 저주파성분(s=1,2,3,... 또는 N)을 이용하여 상기 프로세스를 수행하는 단계를 포함한다. 본 발명의 또 다른 관점에 따라, 컴퓨팅 장치에, d위의 음성신호 분할방법을 실행하기 위한 프로그램 코드를 포함하는 컴퓨터로 읽을 수 있는 매체가 제공될 수 있다.According to still another aspect of the present invention, a method of dividing the voice signal using a process of dividing the voice signal into a plurality of frames according to an instantaneous phase of a low frequency component of the voice signal may be provided. In this case, the method includes performing the above process on each of the kth low frequency components (k = 1, 2, 3, ... N) of the audio signal to obtain N sets of frame division information; And performing the process using the s low frequency components (s = 1, 2, 3,... Or N) having the largest interframe entropy from the N sets of frame division information. According to still another aspect of the present invention, a computer-readable medium may be provided in a computing device including program code for executing the above-described speech signal division method.
본 발명의 또 다른 관점에 따라, 컴퓨팅 장치가, 음성신호의 제1 저주파성분이 갖는 순간위상에 따라, 상기 음성신호를 복수 개의 구간으로 분할하는 단계를 실행하도록 하는 프로그램을 포함하는 컴퓨터로 읽을 수 있는 매체가 제공될 수 있다.According to yet another aspect of the present invention, a computer-readable medium including a program for causing a computing device to perform a step of dividing the speech signal into a plurality of sections according to an instantaneous phase of the first low frequency component of the speech signal. Any medium can be provided.
이때, 상기 프로그램은, 상기 컴퓨팅 장치가, 상기 음성신호의 제1 구간은 상기 제1 구간의 상기 제1 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하고, 상기 음성신호의 제2 구간은 상기 제2 구간의 제2 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하는 단계를 실행하도록 할 수 있다.In this case, in the program, the computing device divides the first section of the voice signal into a plurality of sections according to an instantaneous phase of the first low frequency component of the first section, and the second section of the voice signal The dividing into a plurality of sections may be performed according to the instantaneous phase of the second low frequency component of the second section.
이때, 상기 분할하는 단계는, 상기 복수 개의 구간 중 제2 구간을 상기 제2 구간의 제2 저주파성분을 갖는 순간위상에 따라 복수 개의 구간으로 분할하는 단계를 포함하는 것을 특징으로 할 수 있다. In this case, the dividing may include dividing a second section of the plurality of sections into a plurality of sections according to an instantaneous phase having a second low frequency component of the second section.
본 발명의 또 다른 관점에 따라, 저장부 및 처리부를 포함하며, 상기 처리부는, 상기 저장부에 기록된 음성신호의 제1 저주파성분이 갖는 순간위상에 따라 상기 음성신호를 복수 개의 구간으로 분할하도록 되어 있는 컴퓨팅 장치가 제공될 수 있다.According to still another aspect of the present invention, a storage unit and a processing unit are included, wherein the processing unit is configured to divide the voice signal into a plurality of sections according to an instantaneous phase of a first low frequency component of the voice signal recorded in the storage unit. Computing devices may be provided.
이때, 상기 처리부는, 상기 음성신호의 제1 구간은 상기 제1 구간의 상기 제1 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하고, 상기 음성신호의 제2 구간은 상기 제2 구간의 제2 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하도록 되어 있다. In this case, the processing unit may divide the first section of the voice signal into a plurality of sections according to an instantaneous phase of the first low frequency component of the first section, and the second section of the voice signal may The second low frequency component is divided into a plurality of sections according to the instantaneous phase of the second low frequency component.
이때, 상기 분할하는 프로세스는, 상기 복수 개의 구간 중 제2 구간을 상기 제2 구간의 제2 저주파성분을 갖는 순간위상에 따라 복수 개의 구간으로 분할하는 프로세스를 포함하는 것을 특징으로 할 수 있다.In this case, the dividing process may include a process of dividing a second section of the plurality of sections into a plurality of sections according to an instantaneous phase having a second low frequency component of the second section.
본 발명의 또 다른 관점에 따라, 복수 개의 중심주파수에 대한 기저막의 거동을 모델링하여 획득한 복수 개의 음성커널을 이용하여 음성특징정보를 추출하는 음성신호 처리장치가 제공될 수 있다. 이 처리장치는, 저장부; 및 음성신호를 처리하기 위한 처리부를 포함하며, 상기 저장부는 상기 처리부로 하여금, 상기 음성신호의 저주파성분이 갖는 순간위상에 따라, 상기 음성신호를 복수 개의 구간으로 분할하는 단계; 상기 분할된 한 개의 구간의 음성신호로부터 한 개 이상의 음성커널 성분을 추출하는 단계; 및 상기 추출된 한 개 이상의 음성커널 각각의 발생시점 및 크기를 상기 음성신호의 음성특징정보로서 추출하는 단계를 실행하도록 하는 프로그램 코드를 저장하고 있다.According to another aspect of the present invention, a voice signal processing apparatus for extracting voice feature information using a plurality of voice kernels obtained by modeling the behavior of the base film for a plurality of center frequencies may be provided. This processing apparatus includes a storage unit; And a processing unit for processing a voice signal, wherein the storage unit divides the voice signal into a plurality of sections according to an instantaneous phase of a low frequency component of the voice signal; Extracting at least one voice kernel component from the divided voice signals; And program code for executing the step of extracting the occurrence time and size of each of the extracted one or more voice kernels as voice feature information of the voice signal.
본 발명에 따르면 음성인식률을 증가시킬 수 있는 새로운 음성신호 프레임 분할방법을 제공할 수 있다.According to the present invention can provide a new voice signal frame segmentation method that can increase the speech recognition rate.
또한, 음성신호의 특성에 따라 프레임의 사이즈가 변화하여, 음소(자음, 모음)의 특성을 더 정확하게 파악하고 이의 정보를 추출할 수 있다. In addition, the size of the frame changes according to the characteristics of the voice signal, so that the characteristics of the phonemes (consonants, vowels) can be more accurately identified and information thereof can be extracted.
도 1 및 도 2는 본 발명의 일 실시에에 따라 음성신호의 프레임을 결정하는 방법을 설명하기 위한 것이다.1 and 2 illustrate a method of determining a frame of a voice signal according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따른 음성신호의 프레임 구분 방법을 나타낸 순서도이다.3 is a flowchart illustrating a frame classification method of a voice signal according to an embodiment of the present invention.
도 4a 내지 도 4c는 본 발명의 일 실시예에서 이용하는 음성커널을 설명하기 위한 도면이다.4A to 4C are diagrams for explaining a voice kernel used in an embodiment of the present invention.
도 5a는 본 발명의 일실시예에 따라, 음성신호의 특징정보를 추출하는 특징정보추출 프로세스를 설명하기 위한 것이다.5A illustrates a feature information extraction process of extracting feature information of a voice signal according to an embodiment of the present invention.
도 5b는 도 5a를 통해 설명한 M*L개의 기준신호 S(n,K(q)) 중 상술한 최대값에 대응하는 기준신호만을 상기 음성신호와 함께 도시한 예이다. FIG. 5B illustrates an example of only the reference signal corresponding to the maximum value among the M * L reference signals S (n, K (q) described with reference to FIG. 5A together with the voice signal.
도 5c는 본 발명의 일 실시예에 따른 레지듀얼 음성신호의 예를 나타낸 것이다.5C illustrates an example of a residual voice signal according to an embodiment of the present invention.
도 6a는 본 발명의 일 실시예에 따라 얻은 한 개의 단위음성특징정보를 3차원으로 나타낸 그래프의 예시이다.6A is an example of a graph showing three pieces of unit voice feature information obtained according to an embodiment of the present invention.
도 6b는 본 발명의 일 실시예에 의한 특징정보추출 프로세스를 두 번 반복하여 얻은 두 개의 단위음성특징정보를 도시한 것이다.6B illustrates two unit voice feature information obtained by repeating the feature information extraction process twice according to an embodiment of the present invention.
도 6c는 본 발명의 일 실시예에 의한 특징정보추출 프로세스와 음성신호갱신 프로세스를 K번 반복함으로써 음성정보추출 방법을 수행하였을 때에 얻을 수 있는 K개의 음성특징정보의 예를 나타낸 그래프이다.6C is a graph showing an example of the K voice feature information that can be obtained when the voice information extraction method is performed by repeating the feature information extraction process and the voice signal update process K times according to an embodiment of the present invention.
도 7은 본 발명의 일 실시예에 따른 음성특징정보 추출방법을 순서도로 나타낸 것이다.7 is a flowchart illustrating a method for extracting voice feature information according to an embodiment of the present invention.
도 8은 본 발명의 일 실시예에 따라 음성신호를 프레임으로 구분하는 방법을 나타낸 순서도이다.8 is a flowchart illustrating a method of classifying a voice signal into frames according to an embodiment of the present invention.
도 9의 (a) 내지 (f)는 도 8에서 설명한 음성신호 프레임 분할방법의 각 단계에서 도출되는 결과물의 예를 나타낸 것이다.9 (a) to 9 (f) show examples of results derived at each step of the voice signal frame division method described with reference to FIG. 8.
도 10은 본 발명의 일 실시예에 의한 음성신호의 프레임 분할방법이 다른 방법에 비하여 갖는 유리한 효과를 설명하기 위한 다이어그램이다.10 is a diagram for explaining an advantageous effect that the frame division method of the voice signal according to an embodiment of the present invention has over other methods.
도 11a는 본 발명의 일 실시예에 따른 음성신호 프레임 분할방법을 이용한 음성신호 인식결과를 종래의 기술에 따른 인식결과와 비교한 것이다.11A illustrates a comparison of a speech signal recognition result using a speech signal frame division method according to an embodiment of the present invention with a recognition result according to the related art.
도 11b는 여러 가지 잡음 환경 속에서 본 발명의 일 실시예에 따른 방법에 의한 인식률과 종래 방법에 따른 인식률의 차이를 나타낸 그래프이다.11B is a graph illustrating a difference between a recognition rate by a method according to an embodiment of the present invention and a recognition rate according to a conventional method in various noise environments.
도 12는 1차 저주파 성분의 대역과 2차 저주파 성분의 대역에 대한 다양한 조합의 결과 계산된 엔트로피를 나타낸 것이다.Figure 12 shows the entropy calculated as a result of various combinations of the bands of the first low frequency component and the bands of the second low frequency component.
도 13은 상술한 엔트로피를 고려한 본 발명의 일 실시예에 따른 프레임 분할방법의 효과를 설명하기 위한 그래프이다. FIG. 13 is a graph for explaining an effect of a frame division method according to an embodiment of the present invention in consideration of the entropy described above.
도 14는 고정된 프레임 길이를 사용하는 종래기술과 가변 프레임 길이를 사용하는 본 발명의 일 실시예에 따라 사용되는 프레임의 개수를 비교한 표이다.14 is a table comparing the number of frames used in accordance with one embodiment of the present invention using a variable frame length and a prior art using a fixed frame length.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 이하에서 사용되는 용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 또한, 이하에서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. The terms used below are merely for referring to specific embodiments, and are not intended to limit the present invention. Also, the singular forms used below include the plural forms unless the phrases clearly indicate the opposite meanings.
<음성신호의 프레임 분할방법 1><Frame division method 1 of audio signal>
도 1은 본 발명의 일 실시예에 따라 음소 /p/가 포함된 음성신호의 처리를 위한 프레임 경계 및 구간을 결정하는 과정을 나타낸 것이다. 도 1의 (a) 내지 (e)에 나타낸 그래프의 가로축은 시간축으로서 0ms~43ms의 시간이 도시되어 있다.1 illustrates a process of determining a frame boundary and a section for processing a voice signal including a phoneme / p / according to an embodiment of the present invention. The horizontal axis of the graph shown to Fig.1 (a)-(e) shows the time of 0 ms-43 ms as a time axis.
도 1의 (a), (b), (c), (d), 및 (e)의 세로축은 각각, 음성신호의 크기, 상기 음성신호 중 저주파신호의 크기, 상기 저주파신호의 순간 위상값, 상기 음성신호의 프레임구분, 및 구분된 프레임별 정규화 에너지의 크기를 나타낸 것이다. 1 (a), (b), (c), (d), and (e) of the vertical axis, respectively, the magnitude of the voice signal, the magnitude of the low frequency signal of the voice signal, the instantaneous phase value of the low frequency signal, The frame division of the voice signal and the magnitude of the normalized energy for each frame are shown.
도 1의 (b)는 도 1의 (a)의 신호 중 3Hz~9Hz의 성분만을 추출하여 얻은 신호이다. 3Hz~9Hz가 아닌 다른 저주파 대역을 추출할 수도 있다. 바람직하게는 뇌파 중 세타(Θ) 대역신호를 추출할 수 있다.FIG. 1B is a signal obtained by extracting only components of 3 Hz to 9 Hz from the signal of FIG. You can also extract low frequency bands other than 3 Hz to 9 Hz. Preferably, theta band signal may be extracted from the EEG.
도 1의 (c)는 도 1의 (b)의 신호의 순간위상정보로서, 힐버트 변환과 같은 변환을 이용하여 얻을 수 있다. 힐버트 변환을 이용한 경우 순간위상은 [-π ~ π] 범위의 값을 가질 수 있다. 순간위상이 가질 수 있는 값인 [-π ~ π]를 [-π ~ -π/2], [-π/2 ~ 0], [0 ~ π/2], 및 [π/2 ~ π]의 4개의 위상구간으로 나눌 수 있다. 도 1의 (c)에서는 [-π/2 ~ 0]의 위상구간이 약 32ms, [0 ~ π/2]의 위상구간이 약 13ms, 그리고 [π/2 ~ π]의 위상구간이 약 7ms 존재한다. 도 1의 (c)에서는 /p/의 저주파 음성신호가 3개의 음성신호구간, 즉 3개의 프레임으로 나뉘었지만, 음소의 종류에 따라서는 4개 이상의 프레임으로 나는 경우가 발생할 수도 있다. 또한, 도 1의 (c)에서는 순간위상이 가질 수 있는 값인 [-π ~ π] 의 범위를 4개의 위상구간으로 나누었으나, 임의의 개수의 위상구간으로 나눌 수도 있다.FIG. 1C shows the instantaneous phase information of the signal of FIG. 1B and can be obtained using a transform such as the Hilbert transform. When the Hilbert transform is used, the instantaneous phase may have a value in the range of [−π to π]. [-Π ~ π], which is the value that instantaneous phase can have, of [-π ~ -π / 2], [-π / 2 ~ 0], [0 ~ π / 2], and [π / 2 ~ π] It can be divided into four phase sections. In FIG. 1 (c), the phase section of [−π / 2 to 0] is about 32ms, the phase section of [0 to π / 2] is about 13ms, and the phase section of [π / 2 to π] is about 7ms exist. In FIG. 1C, although the low-frequency audio signal of / p / is divided into three audio signal sections, that is, three frames, depending on the type of phonemes, there may be cases where four or more frames are emitted. In addition, in FIG. 1C, the range of [-π to π], which is a value of the instantaneous phase, is divided into four phase sections, but may be divided into any number of phase sections.
도 1의 (d)는 도 1의 (c)에서 결정된 3개의 음성신호구간(=프레임)을 도 1의 (a)의 음성신호와 함께 표시한 것이다. FIG. 1D shows three voice signal sections (= frames) determined in FIG. 1C together with the voice signals of FIG.
도 1의 (e)는 도 1의 (c)에서 결정된 각 프레임에 속한 음성신호의 에너지를 각 프레임의 길이로 나누어 얻은, 프레임별 정규화 에너지(normalized energy)를 나타낸 것이다. 3번째 프레임의 정규화 에너지가 가장 크다는 것을 알 수 있으며, 이는 자음인 음소 /p/의 정보가 /p/의 마지막 부분에 몰려있다는 점과 상통한다.FIG. 1 (e) shows normalized energy for each frame, obtained by dividing the energy of a voice signal belonging to each frame determined in FIG. 1 (c) by the length of each frame. It can be seen that the normalization energy of the third frame is the largest, which is related to the fact that the information of the consonant phoneme / p / is concentrated at the end of / p /.
도 1에서는 자음 음소 /p/를 분석한 것이고, 도 2는 모음 음소 /ae/를 도 1과 동일한 방식으로 분석한 결과를 나타낸다. 다만 분석대상이 된 음성신호의 길이가 약 150ms이라는 점이 다르다. 또한, /ae/의 저주파 신호가 총 5개의 프레임(=음성신호구간)으로 구분되었다는 점이 다르다(도 1의 (c) 및 (d)). 그리고 각 프레임 간의 정규화 에너지의 차이가, 도 1과 비교하여 볼 때에 더 작다는 점을 알 수 있다. 이는 모음의 정보가 전 구간에 걸쳐 비슷하게 유지된다는 점과 상통한다. In FIG. 1, the consonant phoneme / p / is analyzed, and FIG. 2 shows the result of analyzing the vowel phoneme / ae / in the same manner as in FIG. 1. The difference is that the audio signal is about 150ms long. In addition, the low frequency signal of / ae / is divided into a total of five frames (= audio signal interval) (Fig. 1 (c) and (d)). And it can be seen that the difference in normalization energy between each frame is smaller as compared with FIG. This is in line with the fact that the information in the vowel remains similar throughout the interval.
도 3은 본 발명의 일 실시예에 따라 음성신호의 프레임을 나누는 방법을 설명한 것이다.3 illustrates a method of dividing a frame of a voice signal according to an embodiment of the present invention.
단계(S1)에서는 주어진 음성신호의 저주파 성분을 추출한다. 이때, 저주파 성분의 추출은 단순히 저주파 대역 통과 필터를 통과시킴으로써 수행할 수 있다. In step S1, low frequency components of a given speech signal are extracted. In this case, the extraction of the low frequency component may be performed by simply passing the low frequency band pass filter.
단계(S2)에서는 추출된 저주파 성분의 순간위상정보를 추출한다. 이때, 힐버트 변환과 같은 변환을 이용할 수 있다.In step S2, instantaneous phase information of the extracted low frequency component is extracted. At this time, a transform such as a Hilbert transform may be used.
단계(S3)에서는 상기 순간위상이 가질 수 있는 값의 범위를 복수 개로 분할하여 결정된 복수 개의 순간위상구간을 기준으로, 상기 저주파 성분을 복수 개의 시구간(=음성신호구간)으로 분할하여 복수 개의 프레임(=음성신호구간)을 생성할 수 있다. 이때, 예컨대, 상기 순간위상이 가질 수 있는 값의 범위는 [-π ~ π]이고, 상기 복수 개의 순간위상구간은 [-π ~ -π/2], [-π/2 ~ 0], [0 ~ π/2], 및 [π/2 ~ π]의 4개의 구간일 수 있다. 그러나 본 발명이 위의 구체적인 값에 의해 한정되는 것은 아니다.In step S3, the low frequency component is divided into a plurality of time intervals (= audio signal intervals) based on a plurality of instantaneous phase intervals determined by dividing a range of values that the instantaneous phase may have into a plurality of frames, and thus a plurality of frames. (= Audio signal interval) can be generated. At this time, for example, the range of values that the instantaneous phase may have is [-π ~ π], and the plurality of instantaneous phase sections are [-π ~ -π / 2], [-π / 2 ~ 0], [ 0 to π / 2] and [π / 2 to π]. However, the present invention is not limited by the above specific values.
위에서는, 상기 저주파 성분이 로우패스 필터를 이용하여 얻은 것으로 설명하였으나, 이와 달리 후술하는 도 7의 단계(S22)에서 설명하는 레지듀얼 신호를 상기 저주파 성분으로 삼을 수도 있다. 상기 레지듀얼 신호는 단순히 상기 주어진 음성신호의 저주파 성분이라기보다는, 상술한 LFP인 것으로 해석할 수도 있다. 즉, 단계(S2)에서 순간위상정보의 추출 대상이 되는 저주파 성분의 신호는 한 가지 방법에 의해서만 얻을 수 있는 것은 아니다. In the above description, the low frequency component is obtained by using a low pass filter. Alternatively, the residual signal described in step S22 of FIG. 7 described later may be used as the low frequency component. The residual signal may be interpreted as the LFP described above, rather than simply the low frequency component of the given speech signal. That is, the signal of the low frequency component, which is the object of extraction of the phase-phase information in step S2, may not be obtained by only one method.
<음성커널>Voice Kernel
도 4a 내지 도 4c는 본 발명의 일 실시예에서 이용하는 음성커널을 설명하기 위한 도면이다.4A to 4C are diagrams for explaining a voice kernel used in an embodiment of the present invention.
사람의 가청 주파수 중 사람이 특히 민감하게 반응하는 중심주파수가 존재하는 것으로 알려져 있다. 이 중심주파수의 개수가 보통은 64(=M)개인 것으로 알려져 있다(그러나 M이 64가 아닌 다른 값을 갖도록 모델링할 수도 있다). 본 발명의 일 실시예에서는 우선 상기 M개의 중심주파수에 대한 기저막의 움직임을 컴퓨터 모델링을 통해 모사하여 M개의 음성커널을 생성한다. 기저막은 사람의 청각기관의 일부로서, 소리에 반응하여 진동하는 조직을 포함하는 기관이다. It is known that there is a center frequency in which humans respond particularly sensitively among human audible frequencies. It is known that the number of these center frequencies is usually 64 (= M) (but you can model M to have a value other than 64). In one embodiment of the present invention, first, M voice kernels are generated by simulating the movement of the basement membrane with respect to the M center frequencies through computer modeling. The basement membrane is part of the human auditory organs and is an organ that contains tissue that vibrates in response to sound.
상기 각각의 음성커널은, 이에 대응하는 중심주파수에 의한 기저막의 진동폭을 시간에 따라 표현한 일정시간 동안의 신호이며, 그 예가 도 4a 내지 도 4c에 나타나 있다. 도 4a 및 도 4b는 두 개의 특정 중심주파수에 대한 두 개의 음성커널의 예를 각각 나타낸 것이며, 가로축은 시간을 나타내고 세로축은 해당 중심주파수에 의해 여기된 기저막의 진동폭을 나타낸다. 서로 다른 중심주파수에 대하여 기저막이 진동하는 시간은 서로 다를 수 있다. 따라서 도 4a 및 도 4b에 나타낸 음성커널의 가로축의 최소값은 0초에서 시작하지만, 최대값은 서로 다를 수도 있고 같을 수도 있다. 서로 다른 중심주파수에 대한 기저막의 진동시간이 서로 다른 경우에도 각 음성커널의 가로축의 길이를 동일하게 맞추어 줄 수도 있다.Each of the voice kernels is a signal for a predetermined time expressing the vibration width of the base film according to the corresponding center frequency according to time, an example of which is shown in FIGS. 4A to 4C. 4A and 4B show examples of two voice kernels for two specific center frequencies, respectively, in which the horizontal axis represents time and the vertical axis represents the vibration width of the base film excited by the corresponding center frequency. The time that the base film vibrates for different center frequencies may be different. Therefore, although the minimum value of the horizontal axis of the voice kernel shown in FIGS. 4A and 4B starts at 0 seconds, the maximum value may be different or the same. Even if the vibration time of the base membrane with respect to the different center frequency is different, the length of the horizontal axis of each voice kernel can be made equal.
도 4c는 사람이 특히 민감하게 반응하는 64개의 중심주파수에 의한 기저막의 진동폭을 64개의 음성커널로서 묘사한 것이다. 이때, 64개의 중심주파수는 동일한 주파수 간격으로 떨어져 있을 수도 있으나, 그렇지 않고 임의의 주파수 간격으로 떨어져 있을 수 있다. 64개의 음성커널의 가로축은 시간을 나타내고 세로축은 해당 중심주파수에 의해 여기된 기저막의 진동폭을 나타낸다.FIG. 4C depicts the vibration width of the basement membrane as 64 voice kernels due to 64 center frequencies to which humans respond particularly sensitively. In this case, the 64 center frequencies may be spaced apart by the same frequency interval, but may be spaced apart by arbitrary frequency intervals. The horizontal axis of the 64 voice kernels represents time and the vertical axis represents the vibration width of the base film excited by the corresponding center frequency.
<특징정보추출 프로세스><Feature Information Extraction Process>
도 5a는 본 발명의 일실시예에 따라, 음성신호의 특징정보를 추출하는 특징정보추출 프로세스(단계 S1)를 설명하기 위한 것이다. 5A is for explaining a feature information extraction process (step S1) for extracting feature information of a voice signal according to an embodiment of the present invention.
상기 특징정보추출 프로세스(단계 S1)에서는 분석을 위해 주어진 음성신호 S(x1) 및 미리 제공된 M개(예컨대, 64개)의 음성커널 K(q)을 이용하여 음성신호 S(x1)의 단위특징정보를 추출할 수 있다(단, q는 1≤q≤M 인 정수). 이때, 음성신호 S(x1)의 시간길이는 각 음성커널의 시간길이보다 크거나 같은 것으로서 제공될 수 있다. In the feature information extraction process (step S1), the unit feature of the voice signal S (x1) using the given voice signal S (x1) and M voice kernels K (q) provided in advance for analysis. Information can be extracted (where q is an integer of 1 ≦ q ≦ M). In this case, the time length of the voice signal S (x1) may be provided as greater than or equal to the time length of each voice kernel.
상기 특징정보추출 프로세스는 상기 M개의 음성커널 K(q) 각각을 L개의 서로 다른 이격시간만큼 이동하여 얻은 총 M*L개의 기준신호 S(n,K(q))를 이용할 수 있다(단, n은 0≤n≤L-1인 정수, q는 1≤q≤M인 정수). The feature information extraction process may use a total of M * L reference signals S (n, K (q)) obtained by moving each of the M voice kernels K (q) by L different separation times (but, n is an integer of 0≤n≤L-1, q is an integer of 1≤q≤M).
예컨대, 도 5에 나타낸 L개의 기준신호 S(n,K(p))는 상기 M개의 음성커널 중 p번째 음성커널 K(p)를 이용하여 얻은 신호이다. L개의 기준신호 S(n,K(p))의 일부 시구간은 각각 p번째 음성커널 K(p)에 대응하는 신호가 포함된다. 이때, 기준신호 S(n,K(p))에 포함된 상기 p번째 음성커널 K(p)는 음성신호 S(x1)의 시작시점(100)으로부터 (n-1)*Δd 만큼 지연된 시점에서 시작된다(단, Δd는 단위이격시간). 그리고 기준신호 S(n,K(p)) 중, 여기에 포함된 p번째 음성커널 K(p) 부분을 제외한 나머지 부분은 0의 값을 갖는다. For example, L reference signals S (n, K (p)) shown in FIG. 5 are signals obtained by using the p-th audio kernel K (p) among the M audio kernels. Some time periods of the L reference signals S (n, K (p)) include signals corresponding to the pth voice kernel K (p), respectively. At this time, the p th voice kernel K (p) included in the reference signal S (n, K (p)) is delayed by (n-1) * Δd from the start time 100 of the voice signal S (x1). (Where Δd is the unit separation time). The other part of the reference signal S (n, K (p)) except for the p-th voice kernel K (p) included therein has a value of zero.
도 5a에서는 p번째 음성커널 K(p)를 이용한여 생성한 L개의 기준신호만을 도시하였으나, M개의 음성커널 중 상기 p번째 음성커널 K(p)이 아닌 다른 음성커널 K(q) 모두에 대하여 각각 L개의 기준신호를 생성할 수 있음을 이해할 수 있다. 그 결과 M개의 음성커널로부터 총 M*L개의 기준신호 S(n,K(q))를 생성할 수 있다. 이러한 M*L개의 기준신호 S(n,K(q))는 미리 저장되어 있을 수 있다.In FIG. 5A, only L reference signals generated by using the p-th voice kernel K (p) are shown, but for all voice kernels K (q) other than the p-th voice kernel K (p) among M voice kernels. It can be understood that each of L reference signals can be generated. As a result, a total of M * L reference signals S (n, K (q)) can be generated from the M voice kernels. These M * L reference signals S (n, K (q)) may be stored in advance.
이하 위와같이 생성되는 각 기준신호 S(n,K(q))의 시작시점으로부터 여기에 포함된 q번째 음성커널 K(q)의 시작시점까지의 시간격을 '이격시간'이라고 지칭할 수 있다. Hereinafter, the time interval from the start time of each reference signal S (n, K (q)) generated as described above to the start time of the qth voice kernel K (q) included therein may be referred to as a 'spacing time'. .
이렇게 생성된 총 M*L개의 기준신호 S(n,K(q))를 각각 음성신호 S(x1)에 내적하는 연산을 수행할 수 있다(단계 S11). 그 결과 총 M*L개의 내적값이 산출될 수 있다. 산출된 총 M*L개의 내적값 중 최대값을 검색할 수 있다(단계 S12). 그리고 상기 M*L개의 기준신호 중 이 최대값이 대응하는 기준신호를 찾아낼 수 있다(단계 S13). 이때, 상기 M개의 음성커널 K(q) 중 상기 최대값에 대응하는 기준신호에 속한 음성커널을 '최대음성커널'이라고 정의하여 선택할 수 있다(단계 S14). 또한 상기 최대값이 대응하는 기준신호에 속한 음성커널의 상술한 이격시간을 '최대음성커널 발생시점'이라고 정의하여 선택할 수 있다(단계 S15). 이 구체적인 예를 도 5b를 참조하여 설명한다.The operation of integrating the total M * L reference signals S (n, K (q)) generated in this manner into the voice signal S (x1) may be performed (step S11). As a result, a total of M * L dot products can be calculated. The maximum value of the calculated total M * L dot products can be retrieved (step S12). The reference signal corresponding to this maximum value among the M * L reference signals can be found (step S13). In this case, the voice kernel belonging to the reference signal corresponding to the maximum value among the M voice kernels K (q) may be defined and selected as 'maximum voice kernel' (step S14). In addition, the above-described separation time of the voice kernel belonging to the reference signal corresponding to the maximum value may be defined as the 'maximum voice kernel generation time' (step S15). This specific example will be described with reference to FIG. 5B.
도 5b는 도 5a를 통해 설명한 M*L개의 기준신호 S(n,K(q)) 중 상술한 최대값에 대응하는 기준신호만을 상기 음성신호와 함께 도시한 예이다. 도 5b에서는 최대값에 대응하는 기준신호가 S(5,K(p))인 것으로 가정하였다. 즉, 이 기준신호에 포함된 p번째 음성커널 K(p)의 시작시점이 기준신호 S(x1)의 시작시점(100)보다 5*Δd만큼 지연되어 있는 경우이다.FIG. 5B illustrates an example of only the reference signal corresponding to the maximum value among the M * L reference signals S (n, K (q) described with reference to FIG. 5A together with the voice signal. In FIG. 5B, it is assumed that the reference signal corresponding to the maximum value is S (5, K (p)). In other words, the start time of the p-th voice kernel K (p) included in the reference signal is delayed by 5 * Δd from the start time 100 of the reference signal S (x1).
도 5b의 경우 상술한 최대음성커널은 K(p)인 것으로 결정될 수 있으며, 상술한 최대음성커널 발생시점은 5*Δd인 것으로 결정될 수 있다.In the case of FIG. 5B, the above-mentioned maximum speech kernel may be determined to be K (p), and the above-described maximum speech kernel generation time may be determined to be 5 * Δd.
위와 같은 과정을 끝마치면, 상술한 최대음성커널, 최대음성커널 발생시점, 및 최대값에 관한 정보를 상기 음성신호의 단위음성특징정보로서 정의하여 제공할 수 있다.After the above process, the information on the maximum voice kernel, the maximum voice kernel generation time, and the maximum value described above may be defined and provided as unit voice feature information of the voice signal.
상술한 단위음성특징정보는 도 6a와 같이 표현할 수 있다.The unit voice feature information described above may be expressed as shown in FIG. 6A.
도 6a는 본 발명의 일 실시예에 따라 얻은 한 개의 단위음성특징정보를 3차원으로 나타낸 그래프의 예시이다. 도 6a에서 x축은 상기 최대음성커널의 식별번호, y축은 상기 최대음성커널 발생시점, 그리고 z축은 상기 최대값을 나타낸다. 6A is an example of a graph showing three pieces of unit voice feature information obtained according to an embodiment of the present invention. In FIG. 6A, the x-axis represents the identification number of the maximum voice kernel, the y-axis represents the maximum voice kernel generation point, and the z-axis represents the maximum value.
도 6a에는 상술한 단계 S11 내지 단계 S15를 수행하여 얻은 한 개의 단위음성특징정보(51)가 표시되어 있다. 한 개의 단위음성특징정보(51)에는 상술한 최대음성커널의 식별번호, 최대음성커널 발생시점, 및 이에 관한 상기 최대값에 관한 정보가 포함된다.In FIG. 6A, one unit voice characteristic information 51 obtained by performing the above-described steps S11 to S15 is displayed. One unit voice feature information 51 includes the above-mentioned identification number of the maximum voice kernel, the maximum voice kernel generation time, and information on the maximum value thereof.
<음성신호갱신 프로세스><Audio signal update process>
상술한 특징정보추출 프로세스(단계 S1)가 완료되면 아래에 설명하는 음성신호갱신 프로세스(단계 S2)를 수행할 수 있다. 후술하는 음성신호갱신 프로세스는 도 5a 및 도 5b에 나타낸 예를 참조하여 설명한다.When the feature information extraction process (step S1) described above is completed, the voice signal update process (step S2) described below can be performed. The audio signal update process described later will be described with reference to the examples shown in FIGS. 5A and 5B.
상기 음성신호갱신 프로세스에서는 우선, 상기 M*L개의 기준신호 S(n,K(q)) 중 상기 최대값에 대응하는 기준신호 S(5,K(p))를, 상기 최대값을 이용하여 '정규화'함으로써 '최대정규기준신호' S'(5,K(p))를 생성할 수 있다(단계 S21). 여기서 '정규화'란 상기 기준신호 S(5,K(p))에 상기 최대값 또는 상기 최대값에 비례하는 값을 곱하는 과정을 의미할 수 있다. 그 다음, 상기 특징정보추출 프로세스에서 이용된 상기 음성신호 S(x1)로부터 상기 최대정규기준신호 S'(5,K(p))를 차감하여 도 5c에 도시한 레지듀얼 음성신호 S(x2)를 생성할 수 있다(단계 S22). In the audio signal update process, first, the reference signal S (5, K (p)) corresponding to the maximum value among the M * L reference signals S (n, K (q)) is used by using the maximum value. By 'normalizing', the 'maximum normal reference signal S' (5, K (p)) can be generated (step S21). Here, 'normalization' may mean a process of multiplying the reference signal S (5, K (p)) by the maximum value or a value proportional to the maximum value. Then, the residual normal signal S (x2) shown in FIG. 5C by subtracting the maximum normal reference signal S '(5, K (p)) from the sound signal S (x1) used in the feature information extraction process. Can be generated (step S22).
그 다음, 상기 음성신호갱신 프로세스 이후에 상기 특징정보추출 프로세스를 다시 수행할 수 있다. 이때 상기 다시 수행되는 특징정보추출 프로세스에서 상기 M*L개의 기준신호 S(n,K(q)) 각각에 대하여 내적되어야 하는 상기 음성신호 S(x1)를 상기 음성신호갱신 프로세스에서 얻은 상기 레지듀얼 음성신호 S(x2)로 대체한다. 이와 같이 상기 특징정보추출 프로세스을 다시 수행하게 되면 상술한 단위음성특징정보를 한 개 더 얻을 수 있다. 새롭게 얻은 상기 한 개의 단위음성특징정보를 도 6a에 추가하여 도시할 수 있다.Then, the feature information extraction process may be performed again after the voice signal update process. In this case, the residual obtained from the voice signal update process is the voice signal S (x1), which is to be internalized for each of the M * L reference signals S (n, K (q)) in the feature information extraction process performed again. Replace with audio signal S (x2). As described above, when the feature information extraction process is performed again, one more unit voice feature information may be obtained. The newly obtained single unit voice feature information may be illustrated in addition to FIG. 6A.
도 6b는 본 발명의 일 실시예에 의한 특징정보추출 프로세스를 두 번 반복하여 얻은 두 개의 단위음성특징정보를 도시한 것이다.6B illustrates two unit voice feature information obtained by repeating the feature information extraction process twice according to an embodiment of the present invention.
도 6b에서 x축은 상기 최대음성커널의 식별번호, y축은 상기 최대음성커널 발생시점, 그리고 z축은 상기 최대값을 나타낸다. 도 6b에는 상술한 한 개의 단위음성특징정보(51)와 함께, 상기 단계 S11 내지 단계 S15를 다시 수행하여 얻은 또 하나의 단위음성특징정보(52)가 더 도시되어 있다.In FIG. 6B, the x-axis represents the identification number of the maximum voice kernel, the y-axis represents the maximum voice kernel generation point, and the z-axis represents the maximum value. FIG. 6B further shows the unit voice feature information 52 obtained by performing the above steps S11 to S15 together with the unit voice feature information 51 described above.
상술한 특징정보추출 프로세스와 음성신호갱신 프로세스를 계속하여 반복할 수 있다. 다만, 상기 특징정보추출 프로세스에서 얻은 상기 최대값이 미리 결정된 값보다 작게 되면 상기 반복을 멈추도록 할 수 있다. 상기 반복이 멈출 때까지 상기 특징정보추출 프로세스가 총 K번 수행되었다면, 상기 K번의 특징정보추출 프로세스를 통해 제공된 K개의 상기 음성신호의 단위음성특징정보의 집합을 도 5a의 상기 음성신호 S(x1)의 음성특징정보(90)로서 제공할 수 있다.The above-described feature information extraction process and voice signal update process can be repeated continuously. However, when the maximum value obtained in the feature information extraction process is smaller than a predetermined value, the repetition may be stopped. If the feature information extraction process is performed a total of K times until the repetition stops, the set of unit voice feature information of the K voice signals provided through the K feature information extraction processes is converted into the voice signal S (x1) of FIG. Can be provided as the voice feature information 90 of.
도 6c는 본 발명의 일 실시예에 의한 특징정보추출 프로세스와 음성신호갱신 프로세스를 K번 반복함으로써 음성정보추출 방법을 수행하였을 때에 얻을 수 있는 K개의 음성특징정보의 예를 나타낸 그래프이다. 여기서 K=6인 예를 나타내었다.6C is a graph showing an example of the K voice feature information that can be obtained when the voice information extraction method is performed by repeating the feature information extraction process and the voice signal update process K times according to an embodiment of the present invention. Here, an example in which K = 6 is shown.
<음성인식방법><Voice Recognition Method>
상술한 특징정보추출 프로세스와 음성신호갱신 프로세스를 반복하여 수행함으로써 얻을 수 있는 상기 음성특징정보는 음성인식에 이용될 수 있다. 예컨대, 노이즈가 없는 깨끗한 H개의 음소를, 상술한 음성신호 S(x1)에 해당하는 기준음성신호로서 이용하고, 상술한 본 발명의 일 실시예에 따른 상기 음성특징정보 추출방법을 이용하여, 이에 대응하는 H 세트의 기준음성특징정보를 생성하고 저장할 수 있다. 그 다음, 인식하고자 하는 한 개의 비교음소를, 상술한 음성신호 S(x1)에 해당하는 비교음성신호로서 이용하고, 상술한 본 발명의 일 실시예에 따른 상기 음성특징정보 추출방법을 이용하여, 이에 대응하는 한 세트의 비교음성특징정보를 생성할 수 있다. 그 다음, 상기 한 개의 비교음성특징정보를 상기 H 세트의 기준음성특징정보와 각각 비교하여, 이 중 가장 유사한 한 세트의 기준음성특징정보를 선택할 수 있다. 이때, 선택된 상기 한 세트의 기준음성특징정보가 나타내는 음소가 상기 한 개의 비교음소에 대응하는 것으로 판단할 수 있다.The voice feature information obtained by repeatedly performing the above-described feature information extraction process and the voice signal update process may be used for voice recognition. For example, using clean H phonemes without noise as a reference voice signal corresponding to the above-described voice signal S (x1), and using the voice feature information extraction method according to the embodiment of the present invention described above, The reference speech characteristic information of the corresponding H set may be generated and stored. Next, using one comparison phoneme to be recognized as a comparison voice signal corresponding to the above-described voice signal S (x1), and using the voice feature information extraction method according to the embodiment of the present invention described above, A corresponding set of comparison speech feature information can be generated. Then, the comparison voice feature information of the H set may be compared with the reference voice feature information of the H set, respectively, and the most similar set of reference voice feature information may be selected. In this case, it may be determined that the phoneme indicated by the selected set of reference voice feature information corresponds to the one comparison phoneme.
도 7는 본 발명의 일 실시예에 따른 음성특징정보 추출방법을 순서도로 나타낸 것으로서, 상술한 단계 S1, S2, S11~S15, 및 S21~S21을 순서대로 나타낸 것이다.7 is a flowchart illustrating a method for extracting voice feature information according to an embodiment of the present invention, and shows steps S1, S2, S11 to S15, and S21 to S21 in order.
본 발명의 일 실시예에 따른 음성신호 프레임 분할 방법을 채택하는 경우, 기존의 고정된 사이즈의 프레임을 고정된 값만큼 이동시키면서 음성신호의 주파수 정보를 추출할 때보다 적은 프레임의 개수로 음성신호의 주파수 정보를 추출할 수 있다. When adopting a voice signal frame dividing method according to an embodiment of the present invention, while extracting the frequency information of the voice signal while moving the existing fixed size of the frame by a fixed value of the voice signal of the voice signal Frequency information can be extracted.
본 발명의 효과를 검증하기 위하여, 음절단위 인식 실험을 수행한 결과 모음 부분은 기존의 방식보다 프레임의 길이가 더 길게 되고, 자음은 기존의 방식보다 프레임의 길이가 더 짧게 된다. 일반적으로 모음은 주기적으로 반복되는 특징을 가지고 있으며 자음은 비주기적으로 발생하는 특성을 갖기 때문에, 본 발명의 일 실시예에 따른 프레임 분할 방식을 이용하여 음절 인식을 하는 경우에, 기존의(30ms 프레임, 10ms 시프트) 방식보다 더 적은 프레임의 개수로 더 높은 인식률을 보이는 결과를 얻을 수 있다.In order to verify the effect of the present invention, the result of performing the syllable unit recognition experiment is that the vowel portion has a longer frame length than the conventional scheme, and the consonant has a shorter frame length than the conventional scheme. In general, since vowels have a characteristic of being periodically repeated and consonants have characteristics that occur aperiodically, in case of syllable recognition using a frame division method according to an embodiment of the present invention, a conventional (30ms frame) , 10ms shift) can achieve a higher recognition rate with fewer frames.
한편, 현재 음성인식 기술은 DSR(Distributed Speech Recognition)이라 하여 음성정보 추출은 단말기에서 하고 이를 서버로 보내어 인식한다. 이때 본 발명의 일 실시예에 따른 음성신호 프레임 분할 방법을 사용할 경우, (1) 서버로 보내는 정보의 양이 적어 처리 속도가 향상되고, (2) 각 음소 별 특징을 더 정확하게 추출할 수 있기 때문에 서버의 DB양이 감소하는 효과가 있다. 더 나아가서는 굳이 서버로 보내지 않고 단말기에서 바로 처리할 수 있다는 장점을 갖는다.On the other hand, the current speech recognition technology is called DSR (Distributed Speech Recognition) to extract the voice information from the terminal and send it to the server to recognize. In this case, when using the voice signal frame division method according to an embodiment of the present invention, since (1) the amount of information sent to the server is small, the processing speed is improved, and (2) the characteristics of each phoneme can be extracted more accurately. DB amount of the server is reduced. Furthermore, it has the advantage that it can be processed directly in the terminal without sending it to the server.
<음성신호의 프레임 분할방법 2><Frame division method 2 of audio signal>
도 8은 본 발명의 일 실시예에 따라 음성신호를 프레임으로 구분하는 방법을 나타낸 순서도이다.8 is a flowchart illustrating a method of classifying a voice signal into frames according to an embodiment of the present invention.
단계(S81)에서, 음절(syllable) 단위의 음성신호를 준비한다. 이때, 한 개의 음절은 자음, 모음, 또는 자음과 모음의 결합에 의해 이루어질 수 있다.In step S81, a speech signal in syllable units is prepared. In this case, one syllable may be formed by consonants, vowels, or a combination of consonants and vowels.
단계(S82)에서, 상기 음성신호의 엔빌로프(envelope)를 추출한다.In step S82, an envelope of the voice signal is extracted.
단계(S83)에서, 상기 추출된 엔빌로프로부터 제1 저주파 성분(ex: 4~10Hz)을 추출한다. 이때, 제1 저주파 성분의 위상 정보는 -π 내지 +π의 범위 내의 값을 가질 수 있다.In step S83, a first low frequency component (eg, 4˜10 Hz) is extracted from the extracted envelope. In this case, the phase information of the first low frequency component may have a value within a range of −π to + π.
단계(S84)에서, 상기 추출된 제1 저주파 성분을 그 위상이 -π 내지 -π/2인 제1 구간, -π/2 내지 0인 제2 구간, 0 내지 π/2인 제3 구간, 및 +π/2 내지 +π인 제4 구간으로 시간 구분함으로써 상기 음성신호를 1차 분할한다. 이때, 상기 제1 저주파 성분의 시간에 따른 파형의 모양에 따라, 상기 제1 내지 제4 구간은 각각 단일의 연속적인 시구간으로 구성될 수도 있고, 또는 단속적인 복수 개의 구간으로 구성될 수도 있다(구간=프레임). 그 결과 상기 제1 저주파 성분은 1개 내지 4개 이상의 구간으로 구성될 수도 있다.In step S84, the extracted first low frequency component includes a first section having a phase of -π to -π / 2, a second section of -π / 2 to 0, a third section of 0 to π / 2, And time division into a fourth interval of + π / 2 to + π to divide the voice signal first. In this case, according to the shape of the waveform of the first low frequency component over time, the first to fourth sections may be configured as a single continuous time section, or may be configured as a plurality of intermittent sections ( Interval = frame). As a result, the first low frequency component may be composed of one to four or more sections.
단계(S85)에서, 상기 분할되어 생성된 각 프레임(=구간) 별 에너지를 계산하고, 자음인지 여부를 판단하기 위해 미리 설정한 특정 에너지 범위에 속하는 구간을 자음구간으로 결정한다.In step S85, the divided energy generated for each frame (= section) is calculated, and a section belonging to a predetermined specific energy range is determined as a consonant section to determine whether it is a consonant.
단계(S86)에서, 단계(S82)에서 추출한 음성신호의 엔빌로프 중 단계(S85)에서 선택한 자음구간으로부터 제2 저주파 성분(ex: 25~30Hz)을 추출한다. 이때, 제2 저주파 성분은 상기 제1 저주파 성분보다 평균적으로 높은 대역일 수 있다.In step S86, a second low frequency component (ex: 25 to 30 Hz) is extracted from the consonant section selected in step S85 of the envelope of the audio signal extracted in step S82. In this case, the second low frequency component may be an average higher band than the first low frequency component.
단계(S87)에서, 상기 추출된 제2 저주파 성분의 위상정보를 추출한다. 이때, 제2 저주파 성분의 위상 정보는 -π 내지 +π의 범위 내의 값을 가질 수 있다. 그 다음, 상기 추출된 제2 저주파 성분을 그 위상이 -π 내지 -π/2인 제1 구간, -π/2 내지 0인 제2 구간, 0 내지 π/2인 제3 구간, 및 +π/2 내지 +π인 제4 구간으로 시간 구분함으로써 상기 음성신호를 2차 분할한다. 이때, 상기 제2 저주파 성분의 시간에 따른 파형의 모양에 따라, 상기 제1 내지 제4 구간은 각각 단일의 연속적인 시구간으로 구성될 수도 있고, 또는 단속적인 복수 개의 구간으로 구성될 수도 있다(구간=프레임). 그 결과 상기 제2 저주파 성분은 1개 내지 4개 이상의 구간으로 구성될 수도 있다.In step S87, phase information of the extracted second low frequency component is extracted. In this case, the phase information of the second low frequency component may have a value within a range of −π to + π. Next, the extracted second low-frequency components may be divided into a first section having a phase of -π to -π / 2, a second section of -π / 2 to 0, a third section of 0 to π / 2, and + π The voice signal is second-divided by time division into fourth intervals of / 2 to + π. In this case, depending on the shape of the waveform of the second low frequency component over time, the first to fourth sections may be configured as a single continuous time section, or may be configured as a plurality of intermittent sections ( Interval = frame). As a result, the second low frequency component may be composed of one to four or more sections.
만일 단계(S84)의 1차 분할에서 상기 음성신호가 N개의 구간을 분할되고, 단계(S85)에서 위의 N개의 구간 중 1개의 구간이 자음구간인 것으로 결정되고, 단계(S87)의 2차 분할에서 상기 1개의 자음구간이 M개의 구간으로 분할된 경우, 상기 음성신호는 총 N-1+M개의 구간(=프레임)으로 분할될 수 있다. 이때 N-1+M개의 프레임은 서로 다른 프레임 길이를 가질 수 있고, 서로 시간 축에서 겹치지 않는다. 각 프레임의 시작시각 및/또는 종료시각을 임의로 조정함으로써 N-1+M개의 프레임들이 서로 시간축에서 겹치는 구간이 생기도록 사후처리할 수도 있다. 음성신호처리는 상술한 서로 겹치지 않는 N-1+M개의 프레임을 이용하여 수행할 수도 있고, 또는 상기 사후처리를 거친 N-1+M개의 프레임을 이용하여 수행할 수도 있다.If it is determined in the first division of step S84 that the audio signal is divided into N sections, in step S85 one of the above N sections is a consonant section, and in step S87, When the one consonant section is divided into M sections in the division, the audio signal may be divided into a total of N-1 + M sections (= frames). In this case, N-1 + M frames may have different frame lengths and do not overlap each other on the time axis. By arbitrarily adjusting the start time and / or end time of each frame, post processing may be performed such that a section in which N-1 + M frames overlap each other in the time axis is generated. The audio signal processing may be performed using the N-1 + M frames that do not overlap with each other described above, or may be performed using the N-1 + M frames that have been subjected to the post-processing.
단계(S87)이후에는 필요에 따라 단계(S88)의 엔트로피를 계산할 수 있다. 이에 대하여는 도 12에 더 자세히 설명한다.After step S87, the entropy of step S88 may be calculated as necessary. This will be described in more detail with reference to FIG. 12.
도 9의 (a) 내지 (f)는 도 8에서 설명한 음성신호 프레임 분할방법의 각 단계에서 도출되는 결과물의 예를 나타낸 것이다. 도 9의 (a)는 단계(S81)의 음절단위의 음성신호의 파형을 나타낸 것으로서 가로축은 시간을 나타내고 세로축은 음파의 에너지를 나타낸다. 도 9의 (b)는 단계(S82)에 의해 추출된 상기 음성신호의 엔빌로프를 나타낸 것으로서, 가로축은 시간을 나타내고 세로축은 에너지를 나타낸다. 도 9의 (c)는 단계(S83)에 의해 추출된 제1 저주파 성분을 나타낸 것으로서, 가로축은 시간을 나타내고 세로축은 에너지를 나타낸다. 도 9의 (c)의 F1~F4는 단계(S84)에 의해 위상에 따라 1차 분할된 4(=N)개의 프레임을 나타낸다. 도 9의 (d)는 단계(S85)에서 상기 1차 분할되어 생성된 각 프레임(=구간) 별 에너지를 나타낸 것이다. 이 예에서는 프레임(F1)이 단계(S85)에 서술한 특정 에너지 범위에 속하는 구간으로 결정된다. 도 9의 (e)는 단계(S86)의 수행결과 얻을 수 있는 파형이다. 즉, 도 9의 (b)에 나타낸 엔빌로프 중 프레임(F1)에 대응하는 부분으로부터 추출한 제2 저주파 성분(ex: 25~30Hz)을 나타낸 것으로서, 가로축은 시간을 나타내고 세로축은 에너지를 나타낸다(F1은 제1 저주파 성분을 나타내고 F11~F16은 제2 저주파 성분을 나타낸다). 도 9의 (e)의 F11~F16은 도 9의 (e)에 의한 저주파 파형의 위상에 따라, 단계(S87)에 의해 2차 분할된 6개의 프레임을 나타낸다. 도 9의 (f)는 도 8에 나타낸 일련의 단계를 거쳐 얻을 수 있는 프레임에 의해 도 9의 (a)의 음성신호를 분한한 예를 나타낸 것으로서, 총 9개의 프레임(F2~F4, F11~F16)으로 구분된 것을 관찰할 수 있다. 여기에서 구간(91)은 모음구간, 구간(92)는 자음구간, 구간(93)은 자음에서 모음으로 천이되는 천이구간, 그리고 구간(94)(=F12)은 자음의 피크성분이 포함된 구간을 나타낸다. 도 9의 (f)를 살펴보면 비주기적인 특성을 갖는 자음부분에서는 프레임의 길이가 작게, 촘촘히 발생하는 것을 확인할 수 있다. 또한, 자음부분의 피크 성분에 대한 정보가 한 프레임 안에 들어와 해당 정보가 흩어지지 않는 것을 확인할 수 있다. 또한, 자음영역에서의 프레임의 개수가 4~6개이고 모음영역에서의 프레임의 개수가 3~5개인 것을 알 수 있다.9 (a) to 9 (f) show examples of results derived at each step of the voice signal frame division method described with reference to FIG. 8. 9A shows the waveform of the speech signal in syllable units in step S81, where the horizontal axis represents time and the vertical axis represents energy of sound waves. FIG. 9B shows the envelope of the speech signal extracted in step S82, where the horizontal axis represents time and the vertical axis represents energy. FIG. 9C shows the first low frequency component extracted by step S83, in which the horizontal axis represents time and the vertical axis represents energy. F1 to F4 in FIG. 9C show 4 (= N) frames which are first divided according to the phase in step S84. 9 (d) shows energy for each frame (= section) generated by the first division in step S85. In this example, the frame F1 is determined to be a section belonging to the specific energy range described in step S85. FIG. 9E shows waveforms obtained as a result of performing step S86. That is, the second low frequency component (ex: 25 to 30 Hz) extracted from a portion of the envelope shown in FIG. 9B corresponding to the frame F1 is represented, and the horizontal axis represents time and the vertical axis represents energy (F1). Represents a first low frequency component and F11 to F16 represent a second low frequency component). F11 to F16 of FIG. 9E show six frames divided second by step S87 according to the phase of the low frequency waveform shown in FIG. 9E. FIG. 9 (f) shows an example in which the audio signal of FIG. 9 (a) is divided by the frames obtained through the series of steps shown in FIG. 8, and a total of nine frames F2 to F4 and F11 to F16) can be observed. Here, section 91 is a vowel section, section 92 is a consonant section, section 93 is a transition section that transitions from consonant to vowel, and section 94 (= F12) is a section including the peak component of the consonant. Indicates. Looking at Figure 9 (f) it can be seen that in the consonant part having an aperiodic characteristic, the length of the frame is small and closely generated. In addition, it can be confirmed that the information on the peak component of the consonant part is included in one frame so that the information is not scattered. In addition, it can be seen that the number of frames in the consonant region is 4-6 and the number of frames in the vowel region is 3-5.
이에 비하여, 도 9의 (g)는 도 9의 (a)의 음성신호를 종래의 프레임 분할 방법을 이용하여 일정한 간격으로 분할한 예를 나타내는데, 여기에서도 프레임은 총 9개(71~79)로 분할되지만, 자음영역에서의 프레임의 개수가 3개이고 모음영역에서의 프레임의 개수가 6개임을 확인할 수 있다. 따라서 도 9의 (f)에 의한 프레임 분할방식은, 도 9의 (g)에 의한 프레임 분할 방식에 비하여, 자음영역에서의 분석을 더 세밀하게 할 수 있다. 또한, 도 9의 (g)에 의한 프레임 분할방식에 따르면 주기적인 특정을 갖는 모음영역에 포함된 프레임들이 동일한 정보를 중복제공하기 때문에 분석의 효율이 낮을 수 있다.In contrast, FIG. 9 (g) shows an example in which the audio signal of FIG. 9 (a) is divided at regular intervals using a conventional frame dividing method. Here, a total of nine frames (71 to 79) are provided. Although divided, it can be seen that the number of frames in the consonant area is three and the number of frames in the vowel area is six. Therefore, the frame division method shown in FIG. 9F can further analyze the consonant region in comparison with the frame division method shown in FIG. 9G. In addition, according to the frame division method of FIG. 9 (g), the analysis efficiency may be low because the frames included in the vowel region having the periodic specification provide the same information.
도 10은 본 발명의 일 실시예에 의한 음성신호의 프레임 분할방법이 다른 방법에 비하여 갖는 유리한 효과를 설명하기 위한 다이어그램이다.10 is a diagram for explaining an advantageous effect that the frame division method of the voice signal according to an embodiment of the present invention has over other methods.
도 10은 한 개의 음성신호 샘플을 이용하여 다양한 방법으로 프레임을 분할하였을 때에 프레임 간 엔트로피(entropy, spectral difference)를 정규화하여 계산하여 비교한 것이다. 여기서, 각 프레임에 대하여 24개의 벡터가 추출될 때에, 프레임 간의 벡터 사이의 거리가 클 수록 엔트로피의 값이 커지는 것으로 정의할 수 있다. 엔트로피가 클 수록 각 프레임이 담고 있는 정보의 차별성이 커짐을 의미할 수 있다. 도 10의 (a)와 (b)에서 세로축은 정규화된 엔트로피의 크기를 나타낸다.FIG. 10 illustrates a comparison of a normalized entropy (spectral difference) between frames when a frame is divided by various methods using one voice signal sample. Here, when 24 vectors are extracted for each frame, the larger the distance between the vectors between the frames, the greater the entropy value. As entropy increases, this may mean that the information contained in each frame is different. 10 (a) and 10 (b), the vertical axis represents the size of normalized entropy.
도 10의 (a)의 각 그래프(101~104)는, 한 개의 음성신호 샘플을, 도 9의 (f)에 나타낸 방식으로 분할하였을 때의 엔트로피(101), 도 9의 (f)에 나타낸 방식을 따르되 프레임의 길이를 시간에 따라 역순으로 적용하였을 때의 엔트로피(102), 임의의 프레임 길이로 랜덤하게 구분하여 분할하였을 때의 엔트로피(103), 그리고 종래 기술과 같이 15ms 의 고정된 프레임으로 분할하였을 때의 엔트로피(104)를 나타낸다. 이때, 그래프(103)는 상기 한 개의 음성샘플을 임의의 프레임 길이로 구분하여 엔트로피를 계산하는 작업을 독립적으로 1000번 수행하여 얻은 결과를 평균한 것이다. The graphs 101 to 104 of Fig. 10A show entropy 101 and Fig. 9F when one audio signal sample is divided in the manner shown in Fig. 9F. Entropy 102 when the length of the frame is applied in reverse order over time, entropy 103 when the frame length is randomly divided into random frames, and a fixed frame of 15 ms as in the prior art. The entropy 104 when divided is shown. In this case, the graph 103 is an average of the results obtained by independently performing the task of calculating entropy by dividing the one voice sample by an arbitrary frame length.
도 10의 (b)는 특정 음절에 대한 48개의 서로 다른 화자에 의한 발음에 대하여 계산된, 도 9의 (f)에 나타낸 방식으로 분할하였을 때의 엔트로피(201), 도 9의 (f)에 나타낸 방식을 따르되 프레임의 길이를 시간에 따라 역순으로 적용하였을 때의 엔트로피(202), 그리고 종래 기술과 같이 15ms 의 고정된 프레임으로 분할하였을 때의 엔트로피(203)를 평균한 값이다. FIG. 10B shows entropy 201 and FIG. 9F when divided in the manner shown in FIG. 9F calculated for the pronunciation of 48 different speakers for a particular syllable. The entropy 202 when the length of the frame is applied in the reverse order according to time, and the entropy 203 when the frame length is divided into a fixed frame of 15 ms as in the prior art are averaged.
도 10의 (a) 및 (b)에 도시한 결과를 살펴보면, 도 8 및 도 9에 따른 본 발명의 일 실시예에 의한 방법을 채택한 경우 다른 방법들에 비하여 더 큰 엔트로피를 얻을 수 있는 것이 확인된다.Looking at the results shown in (a) and (b) of Figure 10, it is confirmed that when the method according to an embodiment of the present invention according to Figures 8 and 9 is adopted, a greater entropy can be obtained than other methods do.
도 11a는 본 발명의 일 실시예에 따른 음성신호 프레임 분할방법을 이용한 음성신호 인식결과를 종래의 기술에 따른 인식결과와 비교한 것이다.11A illustrates a comparison of a speech signal recognition result using a speech signal frame division method according to an embodiment of the present invention with a recognition result according to the related art.
도 11a에는 노이즈가 없는 음성신호(clean), 20dB의 노이즈가 섞인 음성신호(20dB), 및 15dB의 노이즈가 섞인 음성신호(15dB)를 본 발명의 일 실시예에 따른 프레임 분할방법(302)(variable frame)을 이용하여 인식한 결과와, 종래와 같이 고정된 프레임 길이로 분할하는 분할방법(301)(fixed frame)을 이용하여 인식한 결과를 비교한 그래프가 표시되어 있다. 노이즈가 강한 환경에서 본 발명의 일 실시예에 따른 프레임 분할기술을 사용할 경우 음성인식 결과가 향상된다는 것을 알 수 있다.In Fig. 11A, a no-noise voice signal (clean), a noisy voice signal (20 dB) and a noisy voice signal (15 dB) are divided into a frame dividing method (302) according to an embodiment of the present invention. A graph comparing a result of recognition using a variable frame) and a result of recognition using a division method 301 (fixed frame) for dividing into a fixed frame length as in the related art is displayed. It can be seen that the speech recognition result is improved when the frame division technique according to the embodiment of the present invention is used in a noisy environment.
도 11b는 여러 가지 잡음 환경 속에서 본 발명의 일 실시예에 따른 방법에 의한 인식률과 종래 방법에 따른 인식률의 차이를 나타낸 그래프이다.11B is a graph illustrating a difference between a recognition rate by a method according to an embodiment of the present invention and a recognition rate according to a conventional method in various noise environments.
도 11b의 (a), (b), (c), 및 (d)는 각각 babble 노이즈, F16 노이즈, Volvo 노이즈, 및 Tank 노이즈 환경에서의 인식률 차이를 나타낸다. 각 그래프의 세로축은 인식 정확도를 나타내고, 가로축은 SNR의 값을 나타낸다. 그래프(301)는 종래와 같이 고정된 프레임 길이로 분할하는 분할방법에 따른 결과를 나타내고, 그래프(302)는 본 발명의 일 실시예에 따른 프레임 분할방법(302)에 따른 결과를 나타낸다. (B), (b), (c), and (d) of FIG. 11B show differences in recognition rates in babble noise, F16 noise, Volvo noise, and Tank noise environment, respectively. The vertical axis of each graph represents recognition accuracy, and the horizontal axis represents the value of SNR. The graph 301 shows a result according to the dividing method for dividing into a fixed frame length as in the prior art, and the graph 302 shows the result according to the frame dividing method 302 according to an embodiment of the present invention.
도 8에 따른 프레임 분할 방법에서는 1차 저주파 성분은 4~10Hz 대역, 2차 저주파 성분은 25~30Hz로 설정하였다. 그러나 1차 저주파 성분과 2차 저주파 성분의 구체적인 대역값에 따라 상술한 엔트로피의 값이 다르게 나타날 수 있다. 1차 저주파 성분과 2차 저주파 성분의 구체적인 대역의 조합에 따라 계산된 엔트로피의 차이를 이하 도 12를 이용하여 설명한다.In the frame division method of FIG. 8, the first low frequency component is set to 4 to 10 Hz, and the second low frequency component is set to 25 to 30 Hz. However, the above-described entropy values may vary according to specific band values of the first low frequency component and the second low frequency component. The difference in entropy calculated according to the combination of specific bands of the first low frequency component and the second low frequency component will be described below with reference to FIG. 12.
도 12는 1차 저주파 성분의 대역과 2차 저주파 성분의 대역에 대한 다양한 조합의 결과 계산된 엔트로피를 나타낸 것이다. 도 12의 각 그래프는 /pa/라는 한 개의 음절샘플에 대하여 실험한 결과이다. 도 12의 가로축은 1차 저주파 성분의 대역과 2차 저주파 성분의 대역의 조합을 나타내고, 세로축은 각 조합에 대하여 계산된 엔트로피를 나타낸다. 또한, 도 12의 가로축에서 '1차'로 인덱싱된 부분은 도 8의 단계(S83)에서의 1차 저주파 성분의 대역을 나타내고 '2차'로 인덱싱된 부분은 도 8의 단계(S86)에서의 2차 저주파 성분의 대역을 나타낸다. 이때, delta, theta, alpha, beta, low gamma, mid gamma는 각각 0.3~4Hz, 4~10Hz, 8~12Hz, 12~25Hz, 25~30Hz를 나타낸다. 도 12에 따른 결과를 살펴보면 1차 저주파 성분이 theta 대역, 그리고 2차 저주파 성분이 low gamma 대역인 경우가 가장 높은 엔트로피 값을 갖는다는 것을 알 수 있다.Figure 12 shows the entropy calculated as a result of various combinations of the bands of the first low frequency component and the bands of the second low frequency component. Each graph of FIG. 12 is a result of experimenting with one syllable sample called / pa /. The horizontal axis of FIG. 12 represents a combination of the band of the first low frequency component and the band of the second low frequency component, and the vertical axis represents the entropy calculated for each combination. In addition, the portion indexed as 'primary' in the horizontal axis of FIG. 12 represents a band of the first low frequency component in step S83 of FIG. 8, and the portion indexed as 'secondary' is represented in step S86 of FIG. 8. Represents the band of the second low frequency component of. In this case, delta, theta, alpha, beta, low gamma, and mid gamma represent 0.3 to 4 Hz, 4 to 10 Hz, 8 to 12 Hz, 12 to 25 Hz, and 25 to 30 Hz, respectively. Referring to the result according to FIG. 12, it can be seen that the case where the first low frequency component is theta band and the second low frequency component is the low gamma band have the highest entropy value.
도 12에서 특히 높은 엔트로피를 나타내는 [1차 저주파 성분-2차 저주파 성분]의 조합은, [theta-low gamma], [theta-mid gamma], [alpha-low gamma], 및 [alpha-mid gamma]이다. 도 12에서는 이 중 [theta-low gamma]인 경우에 가장 높은 엔트로피는 나타냈지만, 화자에 따라 또는 발성의 빠르기에 따라 가장 높은 엔트로피를 나타내는 조합이 달라질 수 있다. The combination of [first-order low-frequency component-second-order low-frequency component] showing particularly high entropy in FIG. 12 includes [theta-low gamma], [theta-mid gamma], [alpha-low gamma], and [alpha-mid gamma]. ]to be. In the case of [theta-low gamma], the highest entropy is shown in FIG. 12, but the combination showing the highest entropy may vary depending on the speaker or the speed of speech.
따라서 본 발명의 일 실시예에서는 [1차 저주파 성분-2차 저주파 성분]의 조합을 한 개로 특정하지 않고, N개의 후보 조합 중 한 개을 택하여 이용하는 단계를 포함할 수 있다. 즉, 예컨대 연속적인 음성에 대한 인식을 시작해야 할 때에, 여기서 추출된 한 개의 음성샘플을 이용하여 상기 N개의 후보 조합에 대한 엔트로피를 계산하고, 이 중 가장 높은 엔트로피를 갖는 1개의 조합을 선택한다. 그 이후, 위의 1개의 조합을 이용한 도 8에 따른 일련의 단계를 수행함으로써, 위의 연속적인 음성에 대한 음성인식을 수행할 수 있다. 여기서 상기 N개의 후보 조합은 예컨대 상술한 [theta-low gamma], [theta-mid gamma], [alpha-low gamma], 및 [alpha-mid gamma]일 수 있으며, 이와 달리 설정할 수도 있다.Therefore, an embodiment of the present invention may include selecting one of the N candidate combinations rather than specifying the combination of the [primary low frequency component-secondary low frequency component] as one. That is, for example, when it is necessary to start recognition of continuous speech, the entropy for the N candidate combinations is calculated using one extracted voice sample, and one combination having the highest entropy is selected. . Thereafter, by performing a series of steps according to FIG. 8 using one combination of the above, it is possible to perform speech recognition for the above continuous speech. Here, the N candidate combinations may be, for example, [theta-low gamma], [theta-mid gamma], [alpha-low gamma], and [alpha-mid gamma], which may be set differently.
도 13은 상술한 엔트로피를 고려한 본 발명의 일 실시예에 따른 프레임 분할방법의 효과를 설명하기 위한 그래프이다. FIG. 13 is a graph for explaining an effect of a frame division method according to an embodiment of the present invention in consideration of the entropy described above.
도 13은 종래와 같이 고정된 프레임 길이를 이용하는 제1방법(601), 고정된 제1 주파수 성분과 제2 주파수 성분을 이용하여 도 8과 같은 방법으로 가변적으로 프레임을 나누는 제2방법(602), 제1 주파수 성분과 제2 주파수 성분으로 이루어지는 N개의 조합 중 프레임 분할에 따른 엔트로피가 최대가 되는 조합을 이용하여 도 8과 같은 방법으로 가변적으로 프레임을 나누는 제3방법(603)에 있어서 음성인식의 정확성을 나타낸 것이다. 도 13의 세로축은 음성인식의 정확도를 나타낸다. 이 실험은 잡음이 없는 음성신호(clean), 20dB의 잡음이 부가된 음성신호(20dB), 및 15dB의 잡음이 부가된 음성신호(15dB)에 대하여 수행되었다. 도 13을 살펴보면, 본 발명의 일 실시예에 따른 상술한 제2방법 및 제3방법(602, 603)을 사용할 경우, 노이즈가 부가된 환경에서, 종래의 고정 프레임을 사용하는 상술한 제1방법(601)에 비하여 높은 음성인식률을 나타낸다는 것을 알 수 있다. 또한, 상술한 제2방법(602)에 비하여 제3방법(603)의 경우 더 높은 음성인식률을 나타낸다는 것을 알 수 있다. FIG. 13 illustrates a first method 601 using a fixed frame length as in the related art, and a second method 602 of variably dividing a frame in the same manner as in FIG. 8 using a fixed first frequency component and a second frequency component. Speech recognition in a third method 603 for variably dividing a frame in the same manner as in FIG. 8 using a combination of the largest entropy according to frame division among N combinations of the first frequency component and the second frequency component. The accuracy of the The vertical axis of FIG. 13 represents the accuracy of speech recognition. This experiment was performed on a noisy voice signal (clean), a 20 dB noisy voice signal (20 dB), and a 15 dB noisy voice signal (15 dB). Referring to FIG. 13, when the above-described second and third methods 602 and 603 according to an embodiment of the present invention are used, the above-described first method using a conventional fixed frame in an environment in which noise is added. It can be seen that the speech recognition rate is higher than that of (601). In addition, it can be seen that the third method 603 exhibits a higher speech recognition rate than the second method 602 described above.
도 13에 나타낸 그래프를 얻기 위해 사용한 잡음은 babble 노이즈이다. The noise used to obtain the graph shown in FIG. 13 is babble noise.
한편, 고정된 길이의 프레임 분할 방식을 취하는 종래 기술의 경우 어느 구간에서 음소의 천이가 일어나는지를 알 수 없기 때문에 30ms 프레임을 10ms 씩 시프트(shift)하여 음성신호의 천이구간을 찾아냈지만, 본 발명의 일 실시예와 같이 가변 프레임 분할방식을 취하는 경우에는 천이에 대한 정보가 담겨 있는 음성신호 저주파의 위상을 사용하여 음성신호를 분할하기 때문에 종래 기술과 같이 프레임을 예컨대 10ms 단위로 시프트 할 필요가 없다. 프레임의 개수가 줄어든다는 것은 DSR 장치에 추출된 특징 벡터(feature vector)를 서버로 보내 분류하는 현재의 음성인식 패러다임에서 전체적인 시스템의 부담을 줄이는 장점을 갖는다. 본 발명의 일 실시예에 따라 가변적으로 프레임을 나누는 경우, 고정 프레임 길이를 이용하는 종래 기술에 비하여 67% 정도의 프레임 개수만으로 음성신호를 나눌 수 있다.On the other hand, in the prior art, which has a fixed length frame division method, it is not possible to know in which section the phoneme transition occurs, so the transition period of the audio signal was found by shifting the 30ms frame by 10ms. In the case of using the variable frame division scheme as in an exemplary embodiment, since the audio signal is divided using the low frequency phase of the audio signal containing the transition information, the frame does not need to be shifted by, for example, 10 ms units. Reducing the number of frames has the advantage of reducing the overall system burden in the current speech recognition paradigm of sending feature vectors extracted to the DSR device to the server for classification. In the case of dividing the frame variably according to an embodiment of the present invention, the voice signal may be divided by only about 67% of the number of frames compared to the conventional technique using a fixed frame length.
도 14는 고정된 프레임 길이를 사용하는 종래기술과 가변 프레임 길이를 사용하는 본 발명의 일 실시예에 따라 사용되는 프레임의 개수를 비교한 표이다. 도 14에서 "fixed segmenting"은 고정된 프레임 길이를 사용하는 종래기술을 나타내며, "variable segmenting"은 가변 프레임 길이를 사용하는 본 발명의 일 실시예를 나타낸다. 각 음성신호에 대하여 본 발명이 일 실시예에 의한 프레임의 개수가 더 작다는 것을 알 수 있다.14 is a table comparing the number of frames used in accordance with one embodiment of the present invention using a variable frame length and a prior art using a fixed frame length. In FIG. 14, "fixed segmenting" represents a prior art using a fixed frame length, and "variable segmenting" represents an embodiment of the present invention using a variable frame length. It can be seen that the number of frames according to an embodiment of the present invention is smaller for each voice signal.
도 8 및 도 9에 예로서 나타낸 본 발명의 일 실시예에 따르면 분할된 프레임들 간에 겹치는 구간이 존재하지 않지만, 각 프레임을 좌우방향으로 늘려 약간씩 서로 겹치도록 할 수도 있다. According to an exemplary embodiment of the present invention illustrated as an example in FIGS. 8 and 9, there is no overlapping section between divided frames, but each frame may be extended in left and right directions to overlap each other slightly.
상술한 본 발명의 실시예들을 이용하여, 본 발명의 기술 분야에 속하는 자들은 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에 다양한 변경 및 수정을 용이하게 실시할 수 있을 것이다. 특허청구범위의 각 청구항의 내용은 본 명세서를 통해 이해할 수 있는 범위 내에서 인용관계가 없는 다른 청구항에 결합될 수 있다.By using the embodiments of the present invention described above, those belonging to the technical field of the present invention will be able to easily make various changes and modifications without departing from the essential characteristics of the present invention. The content of each claim in the claims may be combined in another claim without citations within the scope of the claims.

Claims (19)

  1. 음성신호의 제1 저주파성분이 갖는 순간위상에 따라, 상기 음성신호를 복수 개의 구간으로 분할하는 단계를 포함하는, 음성신호 분할방법.And dividing the speech signal into a plurality of sections according to an instantaneous phase of the first low frequency component of the speech signal.
  2. 제1항에 있어서, 상기 음성신호의 제1 구간은 상기 제1 구간의 상기 제1 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하고, 상기 음성신호의 제2 구간은 상기 제2 구간의 제2 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하는, 음성신호 분할방법.The method of claim 1, wherein the first section of the speech signal is divided into a plurality of sections according to an instantaneous phase of the first low frequency component of the first section, and the second section of the speech signal is divided into the second section of the second section. An audio signal segmentation method comprising dividing a plurality of sections according to an instantaneous phase of a second low frequency component.
  3. 제2항에 있어서, 상기 제1 저주파성분의 주파수 대역은 상기 제2 저주파성분의 주파수 대역보다 낮은, 음성신호 분할방법.The method of claim 2, wherein the frequency band of the first low frequency component is lower than the frequency band of the second low frequency component.
  4. 제1항에 있어서, 상기 분할하는 단계는, 상기 복수 개의 구간 중 제2 구간을 상기 제2 구간의 제2 저주파성분을 갖는 순간위상에 따라 복수 개의 구간으로 분할하는 단계를 포함하는, 음성신호 분할방법.The voice signal segmentation method of claim 1, wherein the dividing comprises dividing a second section of the plurality of sections into a plurality of sections according to an instantaneous phase having a second low frequency component of the second section. Way.
  5. 제4에 있어서, 상기 제2 구간은 상기 음성신호 중 자음성분이라고 판단된 구간인, 음성신호 분할방법.The method of claim 4, wherein the second section is a section determined as a consonant component among the voice signals.
  6. 제4항에 있어서, 상기 제2 구간은 상기 복수 개의 구간 중 미리 결정된 에너지구간에 포함되는 에너지 값을 갖는 구간인 것을 특징으로 하는, 음성신호 분할방법.The method of claim 4, wherein the second section is a section having an energy value included in a predetermined energy section of the plurality of sections.
  7. 제1항에 있어서, 상기 제1 저주파성분은 뇌신호의 세타(θ) 대역에 대응하는 대역인, 음성신호 분할방법.The method of claim 1, wherein the first low frequency component is a band corresponding to a theta (θ) band of a brain signal.
  8. 제3항에 있어서, 상기 제1 저주파성분은 뇌신호의 세타(θ) 대역에 대응하는 대역이고, 상기 제2 저주파성분은 뇌신호의 감마(gamma) 대역에 대응하는 대역인, 음성신호 분할방법.4. The method of claim 3, wherein the first low frequency component is a band corresponding to theta band of the brain signal, and the second low frequency component is a band corresponding to a gamma band of the brain signal. .
  9. 제1항에 있어서, The method of claim 1,
    상기 순간위상은 -π 내지 +π의 값을 가지며, The instantaneous phase has a value of -π to + π,
    상기 분할은 상기 저주파신호의 복수 개의 위상구간에 따라 이루어지며,The division is performed according to a plurality of phase sections of the low frequency signal,
    상기 복수 개의 위상구간은 -π 내지 +π을 복수 개의 구간으로 나누어 선택한 것인, The plurality of phase sections are selected by dividing -π to + π into a plurality of sections,
    음성신호 분할방법.Voice signal segmentation method.
  10. 제9항에 있어서, 상기 복수 개의 위상구간은, -π 내지 -π/2의 제1 구간, -π/2 내지 0의 제2 구간, 0 내지 π/2의 제3 구간, 및 +π/2 내지 +π의 제4 구간으로 구분되는, 음성신호 분할방법.The method of claim 9, wherein the plurality of phase sections include: a first section of -π to -π / 2, a second section of -π / 2 to 0, a third section of 0 to π / 2, and + π / A voice signal segmentation method, which is divided into a fourth section of 2 to + π.
  11. 음성신호의 저주파성분이 갖는 순간위상에 따라 상기 음성신호를 복수 개의 프레임으로 분할하는 프로세스를 이용하여 상기 음성신호를 분할하는 방법으로서,A method of dividing an audio signal using a process of dividing the audio signal into a plurality of frames according to an instantaneous phase of a low frequency component of the audio signal,
    음성신호의 제k 저주파성분(k=1,2,3,...N) 각각에 대하여 상기 프로세스를 수행하여 N세트의 프레임 분할정보를 획득하는 단계; 및Performing the above process on each of the kth low frequency components (k = 1, 2, 3, ... N) of the audio signal to obtain N sets of frame division information; And
    상기 N세트의 프레임 분할정보로부터 프레임 간 엔트로피가 가장 큰 제s 저주파성분(s=1,2,3,... 또는 N)을 이용하여 상기 프로세스를 수행하는 단계;Performing the process using an s low frequency component (s = 1, 2, 3, ... or N) having the largest interframe entropy from the N sets of frame division information;
    를 포함하는, Including,
    음성신호 분할방법.Voice signal segmentation method.
  12. 컴퓨팅 장치에, 제10항의 음성신호 분할방법을 실행하기 위한 프로그램 코드를 포함하는 컴퓨터로 읽을 수 있는 매체.A computer readable medium comprising program code for executing the speech signal division method of claim 10 on a computing device.
  13. 컴퓨팅 장치가, 음성신호의 제1 저주파성분이 갖는 순간위상에 따라, 상기 음성신호를 복수 개의 구간으로 분할하는 단계를 실행하도록 하는 프로그램을 포함하는 컴퓨터로 읽을 수 있는 매체.And a program for causing a computing device to perform the step of dividing the speech signal into a plurality of sections according to the instantaneous phase of the first low frequency component of the speech signal.
  14. 제13항에 있어서, 상기 컴퓨팅 장치가, 상기 음성신호의 제1 구간은 상기 제1 구간의 상기 제1 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하고, 상기 음성신호의 제2 구간은 상기 제2 구간의 제2 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하는 단계를 실행하도록 하는 프로그램을 포함하는 컴퓨터로 읽을 수 있는 매체.The apparatus of claim 13, wherein the computing device divides the first section of the voice signal into a plurality of sections according to an instantaneous phase of the first low frequency component of the first section. And a program for executing the step of dividing the data into a plurality of sections according to an instantaneous phase of the second low frequency component of the second section.
  15. 제13항에 있어서, 상기 분할하는 단계는, 상기 복수 개의 구간 중 제2 구간을 상기 제2 구간의 제2 저주파성분을 갖는 순간위상에 따라 복수 개의 구간으로 분할하는 단계를 포함하는 것을 특징으로 하는, 컴퓨터로 읽을 수 있는 매체.The method of claim 13, wherein the dividing comprises dividing a second section of the plurality of sections into a plurality of sections according to an instantaneous phase having a second low frequency component of the second section. , Computer readable media.
  16. 저장부 및 처리부를 포함하며, 상기 처리부는, 상기 저장부에 기록된 음성신호의 제1 저주파성분이 갖는 순간위상에 따라 상기 음성신호를 복수 개의 구간으로 분할하도록 되어 있는, 컴퓨팅 장치.And a storage unit and a processing unit, wherein the processing unit is configured to divide the voice signal into a plurality of sections according to an instantaneous phase of a first low frequency component of the voice signal recorded in the storage unit.
  17. 제16항에 있어서, 상기 처리부는, 상기 음성신호의 제1 구간은 상기 제1 구간의 상기 제1 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하고, 상기 음성신호의 제2 구간은 상기 제2 구간의 제2 저주파성분이 갖는 순간위상에 따라 복수 개의 구간으로 분할하도록 되어 있는, 컴퓨팅 장치.The method of claim 16, wherein the processing unit, The first section of the voice signal is divided into a plurality of sections according to the instantaneous phase of the first low-frequency component of the first section, and the second section of the voice signal A computing device configured to be divided into a plurality of sections according to the instantaneous phase of the second low frequency component of the second section.
  18. 제16항에 있어서, 상기 분할하는 프로세스는, 상기 복수 개의 구간 중 제2 구간을 상기 제2 구간의 제2 저주파성분을 갖는 순간위상에 따라 복수 개의 구간으로 분할하는 프로세스를 포함하는 것을 특징으로 하는, 컴퓨팅 장치.The method of claim 16, wherein the dividing process comprises: dividing a second section of the plurality of sections into a plurality of sections according to an instantaneous phase having a second low frequency component of the second section. , Computing device.
  19. 복수 개의 중심주파수에 대한 기저막의 거동을 모델링하여 획득한 복수 개의 음성커널을 이용하여 음성특징정보를 추출하는 음성신호 처리장치로서,A voice signal processing apparatus for extracting voice feature information by using a plurality of voice kernels obtained by modeling the behavior of a base film with respect to a plurality of center frequencies,
    저장부; 및 음성신호를 처리하기 위한 처리부를 포함하며,Storage unit; And a processing unit for processing a voice signal,
    상기 저장부는 상기 처리부로 하여금,The storage unit causes the processing unit,
    상기 음성신호의 저주파성분이 갖는 순간위상에 따라, 상기 음성신호를 복수 개의 구간으로 분할하는 단계;Dividing the voice signal into a plurality of sections according to an instantaneous phase of the low frequency component of the voice signal;
    상기 분할된 한 개의 구간의 음성신호로부터 한 개 이상의 음성커널 성분을 추출하는 단계; 및Extracting at least one voice kernel component from the divided voice signals; And
    상기 추출된 한 개 이상의 음성커널 각각의 발생시점 및 크기를 상기 음성신호의 음성특징정보로서 추출하는 단계를 실행하도록 하는 Extracting the occurrence time and size of each of the extracted one or more voice kernels as voice feature information of the voice signal;
    프로그램 코드를 저장하고 있는,Storing the program code,
    음성신호 처리장치.Voice signal processing device.
PCT/KR2014/002592 2013-03-28 2014-03-27 Method for variably dividing voice signal into frames based on voice processing of brain WO2014157954A1 (en)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
KR10-2013-0033845 2013-03-28
KR10-2013-0033841 2013-03-28
KR1020130033841A KR101408902B1 (en) 2013-03-28 2013-03-28 Noise robust speech recognition method inspired from speech processing of brain
KR1020130033845A KR101434592B1 (en) 2013-03-28 2013-03-28 Speech signal segmentation method based on sound processing of brain
KR10-2013-0085016 2013-07-18
KR20130085016 2013-07-18
KR1020130160979A KR101614768B1 (en) 2013-07-18 2013-12-23 Nested segmentation method for Speech recognition based on sound processing of brain
KR10-2013-0160979 2013-12-23

Publications (1)

Publication Number Publication Date
WO2014157954A1 true WO2014157954A1 (en) 2014-10-02

Family

ID=51624819

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/002592 WO2014157954A1 (en) 2013-03-28 2014-03-27 Method for variably dividing voice signal into frames based on voice processing of brain

Country Status (1)

Country Link
WO (1) WO2014157954A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221342A (en) * 2016-03-21 2017-09-29 恩智浦有限公司 Voice signal process circuit
CN107993672A (en) * 2017-12-12 2018-05-04 腾讯音乐娱乐科技(深圳)有限公司 Frequency expansion method and device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4374304A (en) * 1980-09-26 1983-02-15 Bell Telephone Laboratories, Incorporated Spectrum division/multiplication communication arrangement for speech signals
US6219635B1 (en) * 1997-11-25 2001-04-17 Douglas L. Coulter Instantaneous detection of human speech pitch pulses
KR20080077720A (en) * 2007-02-21 2008-08-26 인하대학교 산학협력단 A voice activity detecting method based on a support vector machine(svm) using a posteriori snr, a priori snr and a predicted snr as a feature vector

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4374304A (en) * 1980-09-26 1983-02-15 Bell Telephone Laboratories, Incorporated Spectrum division/multiplication communication arrangement for speech signals
US6219635B1 (en) * 1997-11-25 2001-04-17 Douglas L. Coulter Instantaneous detection of human speech pitch pulses
KR20080077720A (en) * 2007-02-21 2008-08-26 인하대학교 산학협력단 A voice activity detecting method based on a support vector machine(svm) using a posteriori snr, a priori snr and a predicted snr as a feature vector

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221342A (en) * 2016-03-21 2017-09-29 恩智浦有限公司 Voice signal process circuit
CN107221342B (en) * 2016-03-21 2023-05-30 恩智浦有限公司 Voice signal processing circuit
CN107993672A (en) * 2017-12-12 2018-05-04 腾讯音乐娱乐科技(深圳)有限公司 Frequency expansion method and device
CN107993672B (en) * 2017-12-12 2020-07-03 腾讯音乐娱乐科技(深圳)有限公司 Frequency band expanding method and device

Similar Documents

Publication Publication Date Title
US20170154640A1 (en) Method and electronic device for voice recognition based on dynamic voice model selection
US20190198036A1 (en) Information processing apparatus, information processing method, and recording medium
CN110277087B (en) Pre-judging preprocessing method for broadcast signals
CN102214464A (en) Transient state detecting method of audio signals and duration adjusting method based on same
KR20180067608A (en) Method and apparatus for determining a noise signal, and method and apparatus for removing a noise noise
CN104853257A (en) Subtitle display method and device
Mian Qaisar Isolated speech recognition and its transformation in visual signs
CN112331188A (en) Voice data processing method, system and terminal equipment
WO2014157954A1 (en) Method for variably dividing voice signal into frames based on voice processing of brain
CN105931651B (en) Voice signal processing method and device in hearing-aid equipment and hearing-aid equipment
CN111009259B (en) Audio processing method and device
Vieira et al. Non-Stationarity-Based Adaptive Segmentation Applied to Voice Disorder Discrimination
WO2015147363A1 (en) Method for determining alcohol use by comparison of frequency frame of difference signal, and recording medium and device for implementing same
KR101614768B1 (en) Nested segmentation method for Speech recognition based on sound processing of brain
KR101434592B1 (en) Speech signal segmentation method based on sound processing of brain
Dai et al. 2D Psychoacoustic modeling of equivalent masking for automatic speech recognition
CN111782860A (en) Audio detection method and device and storage medium
Schuerman et al. Speaker statistical averageness modulates word recognition in adverse listening conditions
CN107785020B (en) Voice recognition processing method and device
Shahrul Azmi et al. Noise robustness of Spectrum Delta (SpD) features in Malay vowel recognition
WO2015147362A1 (en) Method for determining alcohol use by comparison of high-frequency signals in difference signal, and recording medium and device for implementing same
Sharma et al. Analyzing human reaction time for talker change detection
JP7211523B2 (en) Mask generation device, sound signal processing device, mask generation method, and program
JPS6059394A (en) Voice recognition equipment
KR101408902B1 (en) Noise robust speech recognition method inspired from speech processing of brain

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14772861

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14772861

Country of ref document: EP

Kind code of ref document: A1