KR20040031898A - Tracking device and method of voice signal - Google Patents

Tracking device and method of voice signal Download PDF

Info

Publication number
KR20040031898A
KR20040031898A KR1020020061035A KR20020061035A KR20040031898A KR 20040031898 A KR20040031898 A KR 20040031898A KR 1020020061035 A KR1020020061035 A KR 1020020061035A KR 20020061035 A KR20020061035 A KR 20020061035A KR 20040031898 A KR20040031898 A KR 20040031898A
Authority
KR
South Korea
Prior art keywords
voice
section
signal
sinusoidal
slope
Prior art date
Application number
KR1020020061035A
Other languages
Korean (ko)
Other versions
KR100452109B1 (en
Inventor
백근우
Original Assignee
주식회사 아큐죤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아큐죤 filed Critical 주식회사 아큐죤
Priority to KR10-2002-0061035A priority Critical patent/KR100452109B1/en
Publication of KR20040031898A publication Critical patent/KR20040031898A/en
Application granted granted Critical
Publication of KR100452109B1 publication Critical patent/KR100452109B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

PURPOSE: An apparatus for tracking voice signals and a method thereof are provided to efficiently remove a noise due to the separation at a boundary of a voice section and a non-voice section without adding a hardware circuit. CONSTITUTION: A voice/non-voice judging unit(10) receives a new sound signal for judging a voice signal section and a non-voice signal section. A section judging unit(60) divides the voice signal section into a voice start section, a voice progress section, and a voice end section. A separation-preventing sine wave generator(70) removes the separation generated at a boundary of the non-voice section and the voice section. A sine wave inclination analyzer(20) analyzes sine wave inclinations of the voice and the non-voice. A sine wave inclination corrector(30) corrects the sine wave inclinations in real time. A voice signal reconstructor(50) applies the corrected sine wave inclinations to the voice and the non-voice to reconstruct new voice and non-voice signals.

Description

음성신호 추적장치 및 그 방법{TRACKING DEVICE AND METHOD OF VOICE SIGNAL}Voice signal tracking device and method thereof {TRACKING DEVICE AND METHOD OF VOICE SIGNAL}

본 발명은 음성신호 추적장치 및 그 방법에 관한 것으로, 특히 음성구간과 비음성구간의 경계면에서 발생되는 이격화 현상에 의한 잡음을 제거하고, 음성구간내의 정현파 기울기를 실시간으로 보정하여 연속된 음성구간으로 재구성될 수 있도록 한 음성신호 추적장치 및 그 방법에 관한 것이다.The present invention relates to a voice signal tracking device and a method thereof, and in particular, to remove the noise caused by the separation phenomenon generated at the interface between the voice section and the non-voice section, and to correct the sinusoidal slope in the voice section in real time continuous speech section. The present invention relates to a voice signal tracking device and a method for reconstructing the voice signal.

통상적으로 음성 입출력 시스템은 입력된 음향 신호로부터 음성과 비음성을 구분하여 비음성을 최대한으로 제거한 후 음성신호만 관리함으로써 음성과 비음성을 처리한다. 음성을 구분하는 이론으로는 Voice Activity Detection(VAD), Silence Detection 등의 테마로써 다양한 수식을 이용하여 음성과 비음성을 구분한다. 이를 위해서 음성 입출력 시스템은 음성 입력부에 음성 감지기를 마련함으로써 음성과 비음성을 구분한다.In general, a voice input / output system processes voice and non-voice by separating voice and non-voice from an input sound signal, removing non-voice to the maximum, and managing only the voice signal. Theories of voice classification are themes such as Voice Activity Detection (VAD) and Silence Detection. To this end, the voice input / output system distinguishes between voice and non-voice by providing a voice detector at the voice input unit.

음성 입출력 시스템은 음성과 비음성을 구분하는 음성 감지기를 이용하여 입력된 음향신호로부터 음성과 비음성을 구분한다. 비음성에 해당하는 음향신호는 무시되며 음성으로 판단된 음향신호만을 음성데이터화 한다. 이때 무시된 비음성 음향신호는 신호 특성으로 해석할 때 0 값으로 다루어진다. 음성 데이터는 그 값들이 보존되나 비음성 구간의 배경과는 신호 샘플의 이격화 현상이 발생한다.The voice input / output system distinguishes between voice and non-voice from an input sound signal by using a voice detector that distinguishes between voice and non-voice. The sound signal corresponding to the non-voice is ignored and only the sound signal determined as the voice is voiced. The neglected non-voice acoustic signal is treated as 0 when interpreted as signal characteristics. Although the voice data is preserved, the signal sample is separated from the background of the non-voice interval.

도 1은 종래의 음성 입출력 시스템에 입력된 음향신호를 나타내는 도면으로, 이는 비음성 신호와 음성신호가 함께 혼재되어 있다. 음성 입출력 시스템의 음성 감지기는 비음성에 해당하는 신호 구간을 제거한다.1 is a diagram illustrating a sound signal input to a conventional voice input / output system, in which a non-voice signal and a voice signal are mixed together. The voice detector of the voice input / output system removes a signal section corresponding to non-voice.

도 2는 종래의 음성 감지기에서 비음성 신호가 제거된 음성신호를 나타내는 도면으로, 음성신호는 아날로그 음성신호로부터 8kHz의 표본화 주파수로 추출된 16비트의 해상도를 가지는 디지털 데이터이며 값의 범위는 -32768 ~ 32767 사이가 된다. 음성 데이터와 비음성 구간의 배경과는 신호 샘플의 이격화 현상은 (A), (B),(C), (D) 구간에서 발생한다. 이는 비음성 구간은 0값의 데이터를 가지는 효과를 가짐에 비해 음성 데이터는 부호화된 16비트 데이터이기 때문이다.2 is a diagram illustrating a speech signal from which a non-voice signal is removed in a conventional speech detector, wherein the speech signal is digital data having a resolution of 16 bits extracted at an sampling frequency of 8 kHz from an analog speech signal, and a value range is -32768. Is between 32767. The separation of the signal samples from the background of the voice data and the non-voice interval occurs in the (A), (B), (C) and (D) intervals. This is because the speech data is encoded 16-bit data, whereas the non-voice section has the effect of having data of zero value.

도 3은 도 2의 (A)구간을 나타내는 도면이고, 도 4는 도 2의 (B)구간을 나타내는 도면이며, 도 5는 도 2의 (C)구간을 나타내는 도면이고, 도 6은 도 2의 (D)구간을 나타내는 도면이다.FIG. 3 is a view showing section (A) of FIG. 2, FIG. 4 is a view showing section (B) of FIG. 2, FIG. 5 is a view showing section (C) of FIG. 2, and FIG. 6 is FIG. It is a figure which shows section (D) of.

도 3 내지 도 6은 0값에 해당하는 비음성 구간과 음성구간의 경계면 사이의 데이터의 이격 현상을 나타내어 보인다. 도 3은 비음성 구간과 음성이 시작하는 구간의 경계가 400 정도의 수치차이를 나타내 보이고, 도 4는 음성에서 비음성 구간으로 변하는 경계가 220 정도의 수치차이를 보인다. 도 5와 도 6에서는 각각 220, 200 정도의 수치차이를 보이고 있다.3 to 6 show the separation of data between the interface between the non-voice section and the voice section corresponding to the zero value. 3 shows a numerical difference of about 400 between the non-voice interval and the interval where the voice starts, and FIG. 4 shows a numerical difference of about 220 about the boundary that changes from the voice to the non-voice interval. 5 and 6 show numerical differences of about 220 and 200, respectively.

이러한 비음성 구간과 음성 구간 경계에서의 데이터 이격현상은 D/A 컨버터를 거쳐서 아날로그 신호로 재생되었을 때 잡음으로 나타나며 이러한 잡음이 발생하는 음성 입출력 시스템은 잡음 효과를 줄이기 위해 하드웨어 방식으로 잡음 제거 필터를 사용하게 된다. 그러나, 하드웨어의 회로 추가는 시스템의 복잡도를 증가시키며 효율적 설계방식에 있어서도 장애가 될 수 있다는 문제점이 있었다.The data separation at the boundary between the non-voice and voice sections appears as noise when reproduced as an analog signal through the D / A converter, and the voice input / output system that generates this noise uses a noise canceling filter in hardware to reduce the noise effect. Will be used. However, the addition of circuitry of hardware increases the complexity of the system and there is a problem that can be an obstacle in the efficient design method.

따라서, 본 발명의 목적은 음성구간의 음성데이터에 대한 정현파 특성과 정현파 파형 기울기를 사용하여 급격히 변화하는 음성구간의 음성데이터를 변형시킴으로써 음색의 변형 없이 비음성 구간과 음성 구간의 경계면에서 발생하는 잡음을 제거함에 있다.Accordingly, an object of the present invention is to generate noise at the boundary between a non-voice section and a voice section without changing the tone by modifying the voice data of the voice section rapidly changing using the sinusoidal characteristics and the sinusoidal waveform slope of the voice section. In removing it.

도 1은 종래의 음성 입출력 시스템에 입력된 음향신호를 나타내는 도면.1 is a diagram illustrating a sound signal input to a conventional voice input / output system.

도 2는 종래의 음성 감지기에서 비음성 신호가 제거된 음성신호를 나타내는 도면.2 is a diagram illustrating a speech signal from which a non-voice signal is removed in a conventional speech detector;

도 3은 도 2의 (A)구간을 나타내는 도면.3 is a view showing the section (A) of FIG.

도 4는 도 2의 (B)구간을 나타내는 도면.4 is a view showing the section (B) of FIG.

도 5는 도 2의 (C)구간을 나타내는 도면.5 is a view showing the section (C) of FIG. 2.

도 6은 도 2의 (D)구간을 나타내는 도면.FIG. 6 is a view showing the section (D) of FIG. 2. FIG.

도 7은 본 발명의 실시예에 의한 도 3의 비음성/음성 경계면에서 계산된 정현파 기울기를 나타내는 도면.FIG. 7 illustrates a sinusoidal slope calculated at the non-voice / voice interface of FIG. 3 according to an embodiment of the present invention. FIG.

도 8은 도 7의 정현파 기울기 각각에 적용된 이격방지 정현파를 나타내는 도면.FIG. 8 is a diagram illustrating a spaced apart sinusoidal wave applied to each of the sinusoidal slopes of FIG. 7; FIG.

도 9는 본 발명의 실시예에 의한 음성구간의 정현파 기울기와 이격방지 정현파에 의해 재구성된 음성데이터를 나타내는 도면.9 illustrates speech data reconstructed by a sine wave slope and a spaced apart sinusoid in a speech section according to an embodiment of the present invention.

도 10은 본 발명의 실시예에 의한 도 3의 주파수 응답곡선을 나타내는 도면.10 is a view showing a frequency response curve of FIG. 3 according to an embodiment of the present invention.

도 11은 본 발명의 실시예에 의한 도 9의 주파수 응답곡선을 나타내는 도면.11 illustrates the frequency response curve of FIG. 9 according to an embodiment of the present invention.

도 12는 본 발명의 실시예에 의한 구간별 음성신호의 에너지를 나타내는 도면.12 is a view showing the energy of the speech signal for each section according to an embodiment of the present invention.

도 13은 도 12의 음성신호의 정현파 기울기 추적 곡선을 나타내는 도면.FIG. 13 is a diagram illustrating a sinusoidal slope tracking curve of the voice signal of FIG. 12. FIG.

도 14는 본 발명의 실시예에 의한 음성/비음성 정현파 기울기 추적기의 구성을 나타내는 블록도.14 is a block diagram showing a configuration of a voice / non-sine sine wave tilt tracker according to an embodiment of the present invention.

도 15는 도 13에서 음성/비음성 정현파 기울기 추적기가 적용된 경우를 나타내는 도면.FIG. 15 is a diagram illustrating a case where a voice / non-voice sinusoidal slope tracker is applied to FIG. 13; FIG.

도 16은 본 발명의 실시예에 의한 음성 정현파 추적기의 구성을 나타내는 블록도.Fig. 16 is a block diagram showing the configuration of a speech sine wave tracker according to the embodiment of the present invention.

도 17은 도 16의 음성 정현파 추적기의 동작과정을 나타내는 흐름도.FIG. 17 is a flowchart illustrating an operation of the speech sine wave tracker of FIG. 16. FIG.

< 도면의 주요부분에 대한 부호 설명><Explanation of Signs of Major Parts of Drawings>

10 : 음성/비음성 판단기 20 : 정현파 기울기 분석기10: speech / non-voice determiner 20: sinusoidal slope analyzer

30 : 정현파 기울기 보정기 40 : 정현파 기울기 테이블30: sine wave tilt corrector 40: sine wave tilt table

50 : 음성신호 재구성기 60 : 구간 판단기50: speech signal reconstructor 60: interval determiner

70 : 이격방지 정현파생성기70: anti-sine wave generator

상기 목적을 달성하기 위한 본 발명의 음성신호 추적장치는 새로운 음향신호를 입력받아 음성신호구간과 비음성신호구간을 판단하는 음성/비음성 판단기와, 상기 음성/비음성 판단기에 의해 판단된 음성신호구간을 음성시작구간과 음성진행구간과 음성종료구간으로 구분하는 구간 판단기와, 상기 음성/비음성 판단기에 의해 판단된 비음성구간과 음성구간의 경계면에서 발생되는 이격화 현상을 제거하는 이격방지 정현파생성기와, 상기 음성구간내에 존재하는 음성과 비음성의 정현파 기울기를 분석하는 정현파 기울기 분석기와, 상기 정현파 기울기 분석기에 의해 분석된 정현파 기울기를 통해 비음성의 정현파 기울기를 실시간으로 보정하는 정현파 기울기 보정기와, 상기 정현파 기울기 보정기에 의해 보정된 정현파 기울기를 이용하여 새로운 음성신호를 재구성하는 음성신호 재구성기로 구성된다.The voice signal tracking device of the present invention for achieving the above object is a voice / non-voice determiner for determining a voice signal section and a non-voice signal section by receiving a new sound signal, the voice signal determined by the voice / non-voice determiner Segmentation prevention sine wave that separates the section into a voice start section, a voice progression section and a voice end section, and removes the separation phenomenon generated at the interface between the non-voice section and the voice section determined by the voice / non-voice determiner. A generator, a sinusoidal slope analyzer for analyzing speech and non-sine sinusoidal slopes present in the speech section, a sinusoidal slope corrector for correcting a non-sine sinusoidal slope in real time through a sinusoidal slope analyzed by the sinusoidal slope analyzer; New sound using the sinusoidal slope corrected by the sinusoidal slope corrector Voice signal reconstructor for reconstructing the sexual signal.

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 7은 본 발명의 실시예에 의한 도 3의 비음성/음성 경계면에서 계산된 정현파 기울기를 나타내는 도면이다.FIG. 7 is a diagram illustrating sinusoidal slopes calculated at the non-voice / voice interface of FIG. 3 according to an embodiment of the present invention. FIG.

도시된 바와 같이, 정현파 기울기 (ㄱ)과 (ㄴ)은 음성구간의 최초 데이터 샘플로부터 구해진다. 구하고자 하는 기울기를 N개의 샘플 개수로부터 구한다. N의 값에 따라 기울기(ㄱ)과 기울기(ㄴ)이 구해지며 사용자가 임의로 설정할 수가 있다. 이 기울기의 식은 다음과 같다.As shown, the sinusoidal slopes (a) and (b) are obtained from the initial data samples of the speech interval. The slope to be obtained is obtained from the number of N samples. According to the value of N, the slope (a) and the slope (b) are obtained and can be set arbitrarily by the user. The equation of this slope is

기울기 = (N번째 데이터 크기 - 1번째 데이터 크기)/N ------ (수식 1)Slope = (Nth data size-1st data size) / N ------ (Equation 1)

계산된 기울기와 이격 방지 정현파를 적용하여 비음성/음성 구간 경계면의 이격화된 데이터를 변형한다. 이격방지 정현파 식은 다음과 같다.The calculated slope and the spaced-apart sinusoids are applied to transform the spaced data at the non-voice / voice interval boundary. The separation prevention sine wave equation is as follows.

이격방지 정현파 = sin(2π×k/N), k = 0, 1, 2,...,N-1 ------ (수식 2)Separation prevention sine wave = sin (2π × k / N), k = 0, 1, 2, ..., N-1 ------ (Equation 2)

도 8은 도 7의 정현파 기울기 각각에 적용된 이격방지 정현파를 나타내는 도면으로 상기 수식 2에 의해 구해진다.8 is a diagram illustrating a spaced apart sinusoidal wave applied to each of the sinusoidal slopes of FIG. 7, obtained by Equation 2.

상기 수식 1에 의해 구해진 기울기와 상기 수식 2에 의해 구해진 이격방지 정현파는 비음성 구간과 인접해 있는 음성 구간의 음성 데이터에 적용된다. 이때, 음성 구간의 음성데이터는 16 비트 해상도에 따른 정규화 값이 된다. 정규화된 음성데이터는 기울기 및 이격방지 정현파와 함께 곱해짐으로써 이격 현상이 제거된 새로운 음성데이터로 재구성된다.The slope obtained by Equation 1 and the spaced apart sine wave obtained by Equation 2 are applied to speech data of a speech section adjacent to the non-voice section. At this time, the voice data of the voice interval is a normalized value according to the 16-bit resolution. The normalized speech data is multiplied with the slope and the spaced-apart sinusoids to reconstruct the new speech data from which the separation is eliminated.

재구성 음성데이터(k)=기울기×이격방지 정현파×정규화 음성데이터(k)Reconstructed Voice Data (k) = Tilt × Spaced Sine Wave × Normalized Voice Data (k)

(k = 0, 1, 2,...,N-1) ------ (수식 3)(k = 0, 1, 2, ..., N-1) ------ (Equation 3)

도 9는 본 발명의 실시예에 의한 음성구간의 정현파 기울기와 이격방지 정현파에 의해 재구성된 음성데이터를 나타내는 도면으로, 상기 수식 1에 의해 구해진 정현파 기울기 (ㄴ)과 상기 수식 2에 의해 얻어진 이격방지 정현파(ㄴ-1)를 이용하여 상기 수식 3으로 구해진 재구성 음성데이터를 나타낸다. 즉, 기울기와 이격방지 정현파가 적용되어 이격현상이 제거된 새로운 음성신호로써 도 3에 나타난 정현파 특성과 비교하여 볼 때 음성데이터의 크기는 변형되었으나 음성데이터간의 상관관계는 변형되지 않았다.9 is a diagram illustrating speech data reconstructed by a sine wave slope and a spaced-apart sinusoid in a speech section according to an embodiment of the present invention, wherein the sinusoidal slope obtained by Equation 1 and the separation prevention obtained by Equation 2 are shown. The sine wave (b-1) is used to represent reconstructed speech data obtained by Equation 3. That is, the size of the voice data is modified but the correlation between the voice data is not changed as compared with the sinusoidal characteristics shown in FIG.

이는 음성데이터의 주파수 응답 곡선으로 검증 가능하다.This can be verified by the frequency response curve of the voice data.

도 10은 본 발명의 실시예에 의한 도 3의 주파수 응답곡선을 나타내는 도면이고, 도 11은 본 발명의 실시예에 의한 도 9의 주파수 응답곡선을 나타내는 도면으로 도 9의 4kHz 주파수 대역에 걸친 주파수 응답에 따른 신호압 dB 곡선은 도 3의 신호압 dB 곡선을 충실히 반영하고 있다. 이는 음성의 음색이 유지되고 있음을 나타내는 것이다.FIG. 10 is a diagram illustrating a frequency response curve of FIG. 3 according to an embodiment of the present invention, and FIG. 11 is a diagram illustrating a frequency response curve of FIG. 9 according to an embodiment of the present invention. The signal pressure dB curve according to the response faithfully reflects the signal pressure dB curve of FIG. 3. This indicates that the tone of voice is maintained.

이와 같이, 음성신호의 음색은 음성 데이터의 크기보다는 음성 데이터간의 상관관계(correlation)로 결정된다. 즉, 음성 데이터의 고유 음색은 데이터의 크기가 변하더라도 음성 데이터간의 상관관계가 유지되면 음색도 변형이 없다. 이를 이용하여 비음성 구간과 음성 구간의 경계면에서 발생하는 데이터 이격현상을 해결함으로써 음성 입출력 시스템에서 사용하고 있는 음성 감지기가 잡음을 유발하는 현상을 제거할 수 있는 것이다.In this way, the tone of the voice signal is determined by correlation between the voice data rather than the size of the voice data. That is, even when the size of the data changes, the intrinsic tone of the voice data is unchanged if the correlation between the voice data is maintained. By using this, the data separation phenomenon occurring at the boundary between the non-voice section and the voice section can eliminate the noise-induced phenomenon of the voice detector used in the voice input / output system.

도 12는 본 발명의 실시예에 의한 구간별 음성신호의 에너지를 나타내는 도면이다.12 is a view showing the energy of the speech signal for each section according to an embodiment of the present invention.

도시된 바와 같이, 음성시작구간 (A)는 잡음 성분의 자음이 시작되는 시점이므로 에너지가 적으며, 음성진행구간(B)은 음성 성분에 해당하므로 에너지가 크다. 음성종료구간(C)은 음성이 소멸되는 시점이므로 에너지가 작다. 그리고, 음절 사이에 위치하고 있는 (C) 구간과 (A) 구간은 비음성을 결정짓는 소프트웨어적 요소에 따라 음성으로 판단될 수도 있고 비음성으로 판단될 수 있다. 음절 사이에 위치하는 음향신호가 비음성으로 판단될 경우에는 정현파 특성과 정현파 기울기를 사용하여 음성구간과 비음성구간의 이격화를 방지할 수 있으나 이 경우 음성의 연속성에장애가 될 수 있다. 따라서 음절 사이의 음향신호는 비음성으로 판단되더라도 음성신호로 해석하는 것이 음성의 연속성에 기여할 수 있다. 이를 위해서는 이전 음성신호의 정현파 기울기를 이용하여 비음성 구간의 데이터를 적절히 변형함으로써 음성의 연속성을 보장할 수가 있다.As shown, the voice start section (A) is a point at which the consonant of the noise component starts, so the energy is low, and the voice progression section (B) corresponds to the voice component, so the energy is large. The negative end section (C) has a small energy since the voice is extinguished. The sections (C) and (A) located between the syllables may be judged as voices or non-voices according to software factors that determine nonvoices. When the acoustic signal located between the syllables is determined to be non-negative, the sine wave characteristics and the sinusoidal slope may be used to prevent the separation between the voice section and the non-voice section, but in this case, the continuity of the voice may be impaired. Therefore, even if the sound signal between the syllables is determined to be non-voice, the interpretation of the sound signal may contribute to the continuity of the voice. To this end, it is possible to guarantee the continuity of speech by appropriately modifying data of the non-voice interval by using the sinusoidal slope of the previous speech signal.

도 13은 도 12의 음성신호의 정현파 기울기 추적 곡선을 나타내는 도면이다.FIG. 13 is a diagram illustrating a sinusoidal slope tracking curve of the voice signal of FIG. 12.

도시된 바와 같이, (B)구간에 해당하는 음성구간에서는 정현파 기울기가 원만하며 기울기의 변동시 기울기 변동의 차이가 크지 않음을 알 수가 있다. 이와는 대조적으로 (A),(C) 구간에서는 정현파 기울기가 급격하며 기울기의 변동시에도 그 변동의 차이가 큼을 알 수가 있다. (A)구간은 음성신호 특징으로 볼 때 자음에 해당하며 (C)구간은 음성신호의 맺음에 해당하므로 (A)구간과,(C)구간이 유지되어야 정확한 음성전달이 이루어지나, 비음성 구간으로 판단될 경우에는 음성전달에 있어서 큰 손실이 발생된다. 음성의 연속성에 충실을 기하기 위해서는 음성 감지기는 상기 (A),(C)구간의 데이터 손실을 최소화해야만 한다. 이를 위해서 정현파 기울기를 (A),(B),(C)구간에 관계없이 지속적으로 갱신함으로 음성신호의 크기만 변형시키고 상관관계는 유지시키는 방법을 사용한다. 이 방법은 다음과 같은 블록 다이어그램으로 나타낼 수 있다.As shown, it can be seen that in the speech section corresponding to section (B), the sinusoidal slope is smooth and the difference in the slope variation is not large when the slope is changed. In contrast, it can be seen that the sinusoidal slope is steep in the sections (A) and (C), and the variation is large even when the slope is changed. (A) section corresponds to consonants in terms of voice signal characteristics, and (C) section corresponds to the conclusion of voice signals, so that (A) section and (C) section must be maintained for accurate voice transmission. If it is determined that a large loss in voice transmission occurs. In order to be faithful to the continuity of speech, the speech detector must minimize the data loss in the sections (A) and (C). To do this, the sinusoidal slope is continuously updated regardless of the sections (A), (B), and (C) so that only the size of the speech signal is modified and the correlation is maintained. This method can be represented by the following block diagram.

도 14는 본 발명의 실시예에 의한 음성/비음성 정현파 기울기 추적기의 구성을 나타내는 블록도이고, 도 15는 도 13에서 음성/비음성 정현파 기울기 추적기가 적용된 경우를 나타내는 도면이다.FIG. 14 is a block diagram illustrating a configuration of a voice / non-sine sinusoidal slope tracker according to an embodiment of the present invention, and FIG. 15 is a view illustrating a case in which the voice / non-sine sinusoidal slope tracker is applied to FIG. 13.

도시된 바와 같이, 본 발명은 크게 입력된 음향신호 중에서 음성구간에 섞여있는 비음성 구간을 음성의 연속성에 손실 없도록 정현파 기울기 테이블(40)을 참조하며 신호를 판단하는 음성/비음성 판단기(10)와, 상기 음성/비음성 판단기(10)로부터 구분되어 전달되는 음성/비음성의 정현파 기울기를 분석하는 정현파 기울기 분석기(20)와, 상기 정현파 기울기 분석기(20)에 의해 분석된 정현파 기울기 각각을 실시간으로 보정하는 정현파 기울기 보정기(30)와, 상기 정현파 기울기 보정기(30)에 의해 보정된 정현파 기울기를 음성 및 비음성에 적용하여 새로운 음성 및 비음성 신호로 재구성하는 음성신호 재구성기(50)로 구성된다.As shown, the present invention refers to the sine wave slope table 40 so that the continuity of the speech is not lost in the non-voice section mixed in the speech section among the largely input sound signals. ), A sinusoidal slope analyzer 20 for analyzing the sinusoidal slope of speech / non-speech transmitted separately from the speech / non-voice determiner 10, and the sinusoidal slopes analyzed by the sinusoidal slope analyzer 20, respectively. Sinusoidal slope corrector 30 for correcting the signal in real time, and a speech signal reconstructor 50 for applying the sinusoidal slope corrected by the sinusoidal tilt corrector 30 to speech and non-voice to reconstruct it into a new speech and non-voice signal. It consists of.

그리고, 도 15에서는 상기 음성/비음성 정현파 기울기 추적기가 적용된 경우 재구성되는 도 13의 정현파 신호를 보여준다.FIG. 15 shows the sinusoidal signal of FIG. 13 reconstructed when the speech / non-sine sinusoidal slope tracker is applied.

도 16은 본 발명의 실시예에 의한 음성 정현파 추적기의 구성을 나타내는 블록도이다.16 is a block diagram showing the configuration of a speech sine wave tracker according to an embodiment of the present invention.

도시된 바와 같이, 본 발명의 음성 정현파 추적기는 입력된 음향신호 중에서 음성구간에 섞여 있는 비음성 구간을 음성의 연속성에 손실 없도록 정현파 기울기 테이블(40)을 참조하며 신호를 판단하는 음성/비음성 판단기(10)와, 음성시작구간과 음성진행구간과 음성종료구간을 판단하는 구간 판단기(60)와, 비음성구간과 음성구간의 경계면에서 발생되는 이격화 현상을 제거하기 위한 이격방지 정현파생성기(70)와, 상기 구간 판단기(60)와 상기 이격방지 정현파생성기(70)를 통해 상기 음성/비음성 판단기(10)로부터 구분되어 전달되는 음성/비음성의 정현파 기울기를 분석하는 정현파 기울기 분석기(20)와, 상기 정현파 기울기 분석기(20)에 의해 분석된 정현파 기울기 각각을 실시간으로 보정하는 정현파 기울기 보정기(30)와, 상기 정현파 기울기 보정기(30)에 의해 보정된 정현파 기울기를 음성 및 비음성에 적용하여 새로운 음성 및 비음성 신호로 재구성하는 음성신호 재구성기(50)로 구성된다.As shown, the speech sine wave tracker of the present invention refers to the sine wave slope table 40 so that the continuity of the speech is not lost in the non-speech section mixed with the speech section among the input sound signals. 10, a section determiner 60 for determining a voice start section, a voice progress section, and a voice end section, and a separation prevention sine wave generator for removing the separation phenomenon generated at the interface between the non-voice section and the voice section. And a sine wave slope for analyzing the sine wave slope of the voice / non-negative voice separately transmitted from the voice / non-voice determiner 10 through the section determiner 60 and the separation prevention sinusoidal wave generator 70. A sine wave slope corrector 30 for correcting each of the sinusoidal slopes analyzed by the sine wave slope analyzer 20 in real time, and the sine wave slope corrector 30. Is composed of a speech signal reconstructor 50 which applies the sinusoidal slope corrected by the speech and non-voice to reconstruct the new speech and non-voice signal.

상기와 같이 구성되는 본 발명의 음성 정현파 추적기는 Voice Activity Detecter, Silence Detector 등과 같은 다양한 음성/비음성 판단기에 영향을 받지 않으면서 신호 성분 자체의 정현파 추적을 함으로써 음성구간과 비음성구간의 데이터 이격화 현상으로 인한 잡음효과를 충실히 제거하며, 음성구간내에 존재하는 비음성 구간에 대해서도 인접한 음성구간의 정현파 기울기를 통해 비음성구간에서 계산된 정편파 기울기가 보정됨으로써 음성신호의 연속성이 보장된다.The voice sine wave tracker of the present invention configured as described above separates data from voice and non-voice sections by tracking sinusoids of signal components themselves without being affected by various voice / non-voice judges such as Voice Activity Detecter and Silence Detector. The noise effect due to the phenomenon is faithfully eliminated, and the sine wave slope calculated in the non-voice section is corrected by the sinusoidal slope of the adjacent voice section even for the non-voice section existing in the voice section, thereby ensuring the continuity of the voice signal.

도 17은 도 16의 음성 정현파 추적기의 동작과정을 나타내는 흐름도이다.FIG. 17 is a flowchart illustrating an operation of the voice sine wave tracker of FIG. 16.

도시된 바와 같이, S10 단계에서는 음향신호가 입력된다.As shown, in step S10 the sound signal is input.

이어서, S20 단계에서는 상기 S10 단계에서 입력된 음향신호가 음성신호인지를 판단한다.Subsequently, in step S20, it is determined whether the sound signal input in step S10 is a voice signal.

그리고, S30 단계에서는 상기 S20 단계에서 상기 음향신호가 음성신호로 판단된 경우, 음성시작구간(A)과, 음성진행구간(B)과, 음성종료구간(C)을 판단한다.In step S30, when it is determined that the sound signal is a voice signal in step S20, the voice start section A, the voice progress section B, and the voice end section C are determined.

그리고, S40 단계에서는 상기 S30 단계에서 상기 음성시작구간(A)로 판단된 경우, 음성시작구간의 이격방지 정현파를 생성한다.In step S40, when it is determined that the voice start section A is generated in step S30, a spaced apart sinusoidal wave is generated.

그리고, S50 단계에서는 상기 S30 단계에서 상기 음성진행구간(B)로 판단된 경우, 음성진행구간의 이격방지 정현파를 생성한다.In step S50, when it is determined in the step S30 that the voice progress section B is generated, a sine wave for preventing separation of the voice progress section is generated.

그리고, S60 단계에서는 상기 S30 단계에서 상기 음성종료구간(C)로 판단된경우, 음성종료구간의 이격방지 정현파를 생성한다.In step S60, when it is determined in the step S30 that the voice end section C is generated, a separation prevention sine wave is generated in the voice end section.

이어서, S70 단계에서는 상기 S40 내지 S60 단계를 통해 생성된 음성신호의 정현파 기울기를 분석한다.Subsequently, in step S70, the sine wave slope of the voice signal generated through the steps S40 to S60 is analyzed.

이어서, S80 단계에서는 상기 S70 단계에서 분석된 음성신호의 정현파 기울기를 실시간으로 보정한다.Subsequently, in step S80, the sinusoidal slope of the voice signal analyzed in step S70 is corrected in real time.

그리고, S90 단계에서는 상기 S80 단계에서 보정된 정현파 기울기에 의해 음성신호의 연속성이 보장되는 새로운 음성신호로 재구성된다.In step S90, the sine wave slope corrected in step S80 is reconstructed into a new voice signal which guarantees continuity of the voice signal.

한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.Meanwhile, in the detailed description of the present invention, specific embodiments have been described, but various modifications are possible without departing from the scope of the present invention. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined not only by the scope of the following claims, but also by those equivalent to the scope of the claims.

상술한 바와 같이, 음성신호의 특징인 정현파의 기울기와 이격방지 정현파를 통해 하드웨어의 회로 추가 없이 음성구간과 비음성구간의 경계면에서 발생되는 이격화 현상에 의한 잡음을 효율적으로 제거할 수 있는 효과가 있다.As described above, the sine wave and the anti-sine sine wave, which are characteristic of the voice signal, can effectively remove noise due to the separation phenomenon generated at the interface between the voice and non-voice sections without adding a circuit of hardware. have.

Claims (6)

새로운 음향신호를 입력받아 음성신호구간과 비음성신호구간을 판단하는 음성/비음성 판단기와,A voice / non-voice judging device that receives a new sound signal and determines a voice signal section and a non-voice signal section; 상기 음성/비음성 판단기에 의해 판단된 음성신호구간을 음성시작구간과 음성진행구간과 음성종료구간으로 구분하는 구간 판단기와,A section determiner for classifying a speech signal section determined by the speech / non-voice determiner into a speech start section, a speech progress section, and a speech end section; 상기 음성/비음성 판단기에 의해 판단된 비음성구간과 음성구간의 경계면에서 발생되는 이격화 현상을 제거하는 이격방지 정현파생성기와,A spaced-apart sinusoidal wave generator for removing the separation phenomenon generated at the interface between the non-voice section and the voice section determined by the voice / non-voice determiner; 상기 음성구간내에 존재하는 음성과 비음성의 정현파 기울기를 분석하는 정현파 기울기 분석기와,A sinusoidal slope analyzer for analyzing sinusoidal slopes of speech and non-voice present in the speech section; 상기 정현파 기울기 분석기에 의해 분석된 정현파 기울기를 통해 비음성의 정현파 기울기를 실시간으로 보정하는 정현파 기울기 보정기와,A sinusoidal slope corrector for correcting a non-negative sinusoidal slope in real time through a sinusoidal slope analyzed by the sinusoidal slope analyzer; 상기 정현파 기울기 보정기에 의해 보정된 정현파 기울기를 이용하여 새로운 음성신호를 재구성하는 음성신호 재구성기로 구성되는 것을 특징으로 하는 음성신호 추적장치.And a speech signal reconstructor configured to reconstruct a new speech signal using the sinusoidal slope corrected by the sinusoidal tilt corrector. 제 1 항에 있어서, 상기 음성/비음성 판단기는The apparatus of claim 1, wherein the voice / non-voice determiner 상기 음향신호의 샘플간 편차를 통해 음성과 비음성을 구분하는 것을 특징으로 하는 음성신호 추적장치.Voice signal tracking device characterized in that the voice and non-voice is distinguished by the deviation between the samples of the sound signal. 제 1 항에 있어서,The method of claim 1, 상기 음성시작구간은 비음성에서 음성으로 바뀌는 신호구간이고, 상기 음성진행구간은 음성이 지속적으로 진행되는 신호구간이며, 상기 음성종료구간은 음성에서 비음성으로 바뀌는 신호구간인 것을 특징으로 하는 음성신호 추적장치.The voice start section is a signal section that changes from non-voice to voice, the voice progress section is a signal section in which the voice continues to progress, and the voice end section is a signal section that changes from voice to non-voice Tracking device. 제 1 항에 있어서, 상기 이격방지 정현파생성기는The method of claim 1, wherein the separation prevention sinusoidal wave generator sin(2π×k/N), k = 0, 1, 2,...,N-1 의 수식에 의해 이격방지 정현파를 생성하는 것을 특징으로 하는 음성신호 추적장치.A voice signal tracking device, characterized in that to generate a spaced apart sinusoid by the formula sin (2π × k / N), k = 0, 1, 2, ..., N-1. 제 1 항에 있어서, 상기 정현파 기울기 분석기는The sine wave slope analyzer of claim 1, wherein 임의로 설정되는 N개의 샘플 개수로부터 기울기 = (N번째 데이터 크기 - 1번째 데이터 크기)/N의 수식을 이용하여 정현파 기울기를 분석하는 것을 특징으로 하는 음성신호 추적장치.A voice signal tracking device, characterized in that the sine wave slope is analyzed using a formula of slope = (N-th data size-1st data size) / N from a randomly set number of N samples. 음향신호가 음성입출력 시스템으로 입력되는 과정과,The sound signal is input to the voice input / output system, 상기 음향신호가 음성신호인지의 여부를 판단하는 과정과,Determining whether the sound signal is a voice signal; 상기 음향신호가 음성신호인 경우, 상기 음성신호의 음성시작구간과 음성진행구간과 음성종료구간을 판단하는 과정과,When the sound signal is a voice signal, determining a voice start section, a voice progress section, and a voice end section of the voice signal; 상기 음성신호의 구간별 이격방지 정현파를 생성하는 과정과,Generating a spaced apart sinusoid for each interval of the voice signal; 상기 이격방지 정현파가 적용된 새로운 음성신호의 정현파 기울기를 분석하는 과정과,Analyzing the sinusoidal slope of the new speech signal to which the separation prevention sinusoid is applied; 상기 분석된 음성신호의 정현파 기울기를 실시간으로 보정하는 과정과,Correcting the sinusoidal slope of the analyzed voice signal in real time; 상기 보정된 정현파 기울기에 의해 연속적인 음성신호로 재구성되는 과정으로 이루어지는 것을 특징으로 하는 음성신호 추적방법.And reconstructing a continuous voice signal by the corrected sinusoidal slope.
KR10-2002-0061035A 2002-10-07 2002-10-07 Tracking device and method of voice signal KR100452109B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0061035A KR100452109B1 (en) 2002-10-07 2002-10-07 Tracking device and method of voice signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0061035A KR100452109B1 (en) 2002-10-07 2002-10-07 Tracking device and method of voice signal

Publications (2)

Publication Number Publication Date
KR20040031898A true KR20040031898A (en) 2004-04-14
KR100452109B1 KR100452109B1 (en) 2004-10-12

Family

ID=37331937

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0061035A KR100452109B1 (en) 2002-10-07 2002-10-07 Tracking device and method of voice signal

Country Status (1)

Country Link
KR (1) KR100452109B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100756525B1 (en) * 2003-05-06 2007-09-10 봄바디어 트랜스포테이션 게엠베하 Cross-tie
CN116895281A (en) * 2023-09-11 2023-10-17 归芯科技(深圳)有限公司 Voice activation detection method, device and chip based on energy

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR890001026Y1 (en) * 1985-12-31 1989-03-28 주식회사 금성사 Device for speech recognition
US6240381B1 (en) * 1998-02-17 2001-05-29 Fonix Corporation Apparatus and methods for detecting onset of a signal
FI114833B (en) * 1999-01-08 2004-12-31 Nokia Corp A method, a speech encoder and a mobile station for generating speech coding frames
KR20030083903A (en) * 2002-04-23 2003-11-01 엘지전자 주식회사 Phoneme boundary adjustment method for text/speech conversion

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100756525B1 (en) * 2003-05-06 2007-09-10 봄바디어 트랜스포테이션 게엠베하 Cross-tie
CN116895281A (en) * 2023-09-11 2023-10-17 归芯科技(深圳)有限公司 Voice activation detection method, device and chip based on energy
CN116895281B (en) * 2023-09-11 2023-11-14 归芯科技(深圳)有限公司 Voice activation detection method, device and chip based on energy

Also Published As

Publication number Publication date
KR100452109B1 (en) 2004-10-12

Similar Documents

Publication Publication Date Title
JP4906230B2 (en) A method for time adjustment of audio signals using characterization based on auditory events
JP2004528599A (en) Audio Comparison Using Auditory Event-Based Characterization
JP2011107715A (en) Speech end-pointer
WO2007080764A1 (en) Object sound analysis device, object sound analysis method, and object sound analysis program
US20100274554A1 (en) Speech analysis system
US7917359B2 (en) Noise suppressor for removing irregular noise
JP4736632B2 (en) Vocal fly detection device and computer program
JPH0431898A (en) Voice/noise separating device
KR100452109B1 (en) Tracking device and method of voice signal
Tchorz et al. Estimation of the signal-to-noise ratio with amplitude modulation spectrograms
JP2004310047A (en) Device and method for voice activity detection
JP6321334B2 (en) Signal processing apparatus and program
KR20080084043A (en) Method and apparatus for encoding/decoding audio signal containing noise using low bitrate
Awais et al. Continuous arabic speech segmentation using FFT spectrogram
Krylov et al. Streaming waveform data processing by Hermite expansion for text-independent speaker indexing from continuous speech
Every et al. Enhancement of harmonic content of speech based on a dynamic programming pitch tracking algorithm.
JPH08254992A (en) Speech-speed transformation device
JPH04245720A (en) Method for reducing noise
Abel et al. A biologically inspired onset and offset speech segmentation approach
JPH02293900A (en) Voice synthesizer
JPS5925237B2 (en) Speech segment determination method using speech analysis and synthesis method
KR20040082756A (en) Method for Speech Detection Using Removing Noise
JP2001027895A (en) Signal separation and apparatus therefor
JPH06337696A (en) Device and method for controlling speed conversion
JP3302075B2 (en) Synthetic parameter conversion method and apparatus

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120328

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee