KR100460411B1 - A Telephone Method with Soft Sound using Accent Control of Voice Signals - Google Patents

A Telephone Method with Soft Sound using Accent Control of Voice Signals Download PDF

Info

Publication number
KR100460411B1
KR100460411B1 KR10-2002-0086167A KR20020086167A KR100460411B1 KR 100460411 B1 KR100460411 B1 KR 100460411B1 KR 20020086167 A KR20020086167 A KR 20020086167A KR 100460411 B1 KR100460411 B1 KR 100460411B1
Authority
KR
South Korea
Prior art keywords
voice
soft
sound
phone
party
Prior art date
Application number
KR10-2002-0086167A
Other languages
Korean (ko)
Other versions
KR20030012835A (en
Inventor
배명진
Original Assignee
학교법인 광운학원
배명진
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인 광운학원, 배명진 filed Critical 학교법인 광운학원
Priority to KR10-2002-0086167A priority Critical patent/KR100460411B1/en
Publication of KR20030012835A publication Critical patent/KR20030012835A/en
Priority to PCT/KR2003/001237 priority patent/WO2004059948A1/en
Application granted granted Critical
Publication of KR100460411B1 publication Critical patent/KR100460411B1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/19Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 실생활에서 통신용으로 아주 널리 사용되고 있는 전화기의 기능을 개선하는 방법에 관한 것이다. 상대방으로부터 걸려오는 전화의 목소리는 각양각색이다. 상대방이 보이지 않기 때문에 급한 목소리, 욕하는 소리, 사투리가 섞인 소리 등등으로 수신자의 감정을 불쾌하게 만든다. 이럴 때에 필요한 전화기가 바로 부드러운 소리(소프트사운드, soft-sound) 전화기인데, 수신자가 전화기에 부착된 소프트사운드-키보턴(또는 특정 키보턴)을 누르면 상대방의 목소리의 억양이 범위를 벗어나지 않고 부드러운 목소리로 들리도록 발명한 것이다.The present invention relates to a method for improving the function of a telephone which is very widely used for communication in real life. The voice of the call from the other party is different. Because the other party is invisible, the person's feelings are offended by a rushing voice, a swearing voice, a mixed dialect, etc. The phone you need is a soft-sound (soft-sound) phone. When the receiver presses the soft-sound key (or certain key button) attached to the phone, the voice of the other party's voice does not go out of range. Invented to sound as.

부드러운 소리 전화기는 전화기를 통해 수신되는 상대방의 목소리 정보를 분석하여 상대방의 의미정보는 그대로 두고, 개성을 나타내는 억양 정보는 조절함으로서 마치 목소리의 톤이 특정범위를 벗어나지 않아서 부드럽고 관대한 소리의 청취기능을 구현한 것이다.Soft voice The phone analyzes the other party's voice information received through the phone, leaving the other party's semantic information intact, and adjusting the accent information indicating personality, so that the tone of the voice does not exceed a certain range so that it can listen smoothly and generously. It is an implementation.

특히, 불특정 다수의 고객을 전화 통신으로 영접하는 관련 서비스업 종사자들은 고객의 다양한 목소리의 형태로 인해 스트레스를 많이 받게 된다. 이러한 경우에도 소프트사운드 전화기능은 고객 목소리의 억양을 차분하게 만들어 주기 때문에 목소리 관련 분야에 종사하는 직업인들의 스트레스를 어느 정도 해소시켜줄 수 있다.In particular, related service workers who receive a large number of unspecified customers by telephone communication are stressed by the various types of voices of customers. Even in this case, the soft sound phone function calms the intonation of the customer's voice and can relieve some of the stress of professionals in the voice-related field.

부드러운 소리 전화기는 상대방이 빨리 말하거나 억양이 강한 사투리로 말을 할때 수신자의 취향에 따라 소프트사운드 전화기능을 선택할 수 있기 때문에 부드럽고 차분한 소리로 상대방의 말을 청취할 수 있다. 또한 소프트사운드 기능이 부가된 전화기는 보이지 않는 상대방에게 수신자가 현재 청취하고 있는 억양을 측음을 통해 알려주기 때문에 목소리를 차분히 발성하도록 유도하는 특성이 있다. 따라서 다급하고 퉁명스러운 사회의 전화예절 분위기를 차분하고 밝게 개선시키는 효과가 있다.Soft sound The phone can listen to the other party's words softly and calmly because it can select the soft sound call function according to the recipient's preference when the other person speaks quickly or speaks with a strong accent dialect. In addition, the phone with the soft sound function has a characteristic of inducing the voice to be quietly spoken by informing the invisible counterpart that the receiver is currently listening to through the side tone. Therefore, it is effective to calm and brighten the atmosphere of the telephone etiquette of the urgent and blunt society.

Description

목소리 신호의 억양조절에 의한 부드러운 소리의 전화기 방식{A Telephone Method with Soft Sound using Accent Control of Voice Signals}A Telephone Method with Soft Sound using Accent Control of Voice Signals}

본 발명은 전화망을 이용한 인터넷통화, 일반전화, 휴대폰 등에서 전화 통화하는 방법을 새로이 개선하는 것으로서 음성통신 또는 오디오 신호처리 분야에서 발성변환기술로 분류할 수 있다.The present invention is to improve the method of making a telephone call in the Internet call, general telephone, mobile phone, etc. using the telephone network can be classified as voice conversion technology in the field of voice communication or audio signal processing.

현재 사용되고 있는 기존의 전화망에 연결되는 전화기들은 1도와 같이 상대방에서 말하는 목소리를 그대로 수화기를 통해 전달해주고 있다. 이러한 방식은 상대방의 목소리에 담겨져 있는 보이지 않는 성격이나 딱딱함이 그대로 수신 측에 전달되어 수신자가 때로는 불쾌감이나 스트레스를 많이 느끼게 되는 단점이 있다. 본 발명은 이러한 단점을 개선하고자 한다.Telephones connected to the existing telephone network currently used are transmitting the voice of the other party through the handset as shown in FIG. This method has the disadvantage that the invisible personality or the hardness contained in the other party's voice is transmitted to the receiver as it is, so that the receiver sometimes feels a lot of discomfort or stress. The present invention seeks to remedy this drawback.

본 발명은 전화기의 수화기에서 들리는 상대방의 목소리를 디지털 발성처리기술을 적용하여, 억양이 강하지 않고 부드러운 소리(소프트사운드, soft-sound)로 통화하는 방식을 새로이 제안하는 것이다. 사람의 목소리는 허파에서 나오는 공기가 성대에서 떨림으로서 진동 소리가 발생하게 되고, 이 떨림이 성도를 통해서 나을 때, 공명이 발생하면서 생성된다. 목소리 중에서 성대의 떨림 소리의 주기나 발성습관은 발성자의 개성을 나타내게 되고, 성도의 공명특성은 메시지의 의미를 전달하는 음운정보를 주로 나타내게 된다. 이처럼 메지지의 의미를 나타내는 성도의 공명특성은 그대로 보존하면서 발성자의 개성을 나타내는 억양정보를 필요시에 조절함으로서, 목소리가 부드럽고 정답게 들리는 원리를 전화통화에 적용하여 발명한 것이다.The present invention newly proposes a method of calling a voice of the other party heard from the telephone receiver of a telephone with a soft sound (soft-sound) without strong intonation by applying digital speech processing technology. The human voice is generated by the vibration of the air from the lungs as it trembles in the vocal cords, and when this tremor is picked up through the saints, resonance occurs. The vocal vocal tremor and vocal habits of the voice represent the personality of the vocalists, and the resonance characteristics of the vocal tracts represent phonological information that conveys the meaning of the message. In this way, the resonance characteristic of the saints representing the meaning of the message is preserved as it is, and by adjusting the intonation information indicating the personality of the speaker as necessary, the invention invented by applying the principle that the voice is soft and sound to the telephone call.

도 1은 소프트사운드 전화기의 원리1 is a principle of a soft sound telephone

도 2는 목소리의 분석 및 합성 방식2 is a voice analysis and synthesis scheme

도 3은 억양변환 처리용 하드웨어 구성의 일예3 is an example of a hardware configuration for intonation conversion processing

도 4는 소프트사운드 전화기에 대한 기능처리의 일예4 is an example of functional processing for a soft sound telephone;

[기본구성][Basic configuration]

휴대폰이나 유선전화기와 같은 전화 단말기를 통해 우리가 말을 하게 되면, 음파신호가 디지털 처리기술로 압축되어, 전화중계기를 통해 상대방 전화기에 전달된다. 상대방 전화기에서는 디지털 신호의 압축을 풀고 음파로 변환하여 우리의 귀에 말을 전달해 주고 있다. 이처럼 대부분의 전화기에는 음성신호를 압축 또는 복원하는 고성능 컴퓨터 칩이 내장되어있었어, 문자서비스와 같은 다양한 서비스도 함께 제공하고 있다.When we talk through a phone terminal such as a mobile phone or a landline phone, the sound wave signal is compressed by digital processing technology and transmitted to the other party's phone through a telephone repeater. The other side of the phone decompresses the digital signal, converts it into sound waves, and delivers it to our ears. As such, most phones have a high-performance computer chip that compresses or recovers voice signals, and provides various services such as text service.

소프트사운드 전화기는 도 1과 같이 기존의 전화기 기능(102)에 소프트사운드의 기능(104)을 첨가한 것이다. 전화기의 벨이 울려서 송수화기를 들면 상대방의 소리(107)가 들리게 되고, 상대방의 소리가 급하거나 불명료하게 들린다면, 소프트사운드-키보턴(101)을 누르게 된다. 소프트사운드-키보턴은 별도의 키보턴으로 장착되었거나 또는 임의 숫자-보턴을 누르는 방법이다. 소프트사운드-키보턴을 누르면 상대방의 목소리가 일례로 필요시에 억양이 조절되도록 하여(108) 말소리를 부드럽고 정답게 청취하도록 해준다. 반면, 이때 소프트사운드-키보턴(101)을 한번 더 누르게 되면 상대방 목소리의 원래 억양변화의 상태로 다시 복귀된다.The soft sound telephone adds the soft sound function 104 to the existing telephone function 102 as shown in FIG. When the phone rings and the handset is lifted, the other party's sound 107 is heard. If the other party's sound is urgent or indistinct, the soft sound-keyboard 101 is pressed. A soft sound-keyboard is a separate keyboard or is a way of pressing a random number-button. Pressing the soft sound-keyboard allows the other's voice to be controlled, for example, when the intonation is controlled (108), allowing the user to listen softly and accurately. On the other hand, when the soft sound-keyboard 101 is pressed once again, it returns to the state of the original intonation change of the other party's voice.

소프트사운드 전화기는 도 2와 같이, 기존 전화기에 내장된 컴퓨터 칩내에, 목소리를 신호처리 분석하여 의미정보와 음색특성은 유지하면서 그 억양정보를 조절함으로서 목소리가 부드럽게 들리도록 하는 첨단 처리기능을 추가한 것이다. 즉, 목소리는 성대의 떨림과 목구멍에서의 공명에 의해 소리가 발생하는데, 이러한 목소리의 생성원리를 이용하여 목소리의 특징은 그대로 두고(206) 말하는 억양정보만을 추출하여 변경하고(205) 합성하면(207), 부드러우면서 정다운 목소리(208)로 바뀌게 된다. 소프트사운드 전화기의 핵심기술은 사람의 목소리에서 말뜻을 나타내는 음운정보와 개성을 나타내는 운율정보를 자동으로 분류(202)하여 발성자의 개성과 의미정보를 보존(206)하면서, 동시에 억양정보를 변경(205)함으로써, 목소리의 부드러운 특성(208)을 증대시켰다는 점이다.As shown in Fig. 2, the soft sound telephone adds an advanced processing function to make the voice sound smooth by adjusting the intonation information while maintaining the semantic information and tone characteristics by analyzing the voice signal processing in the computer chip built into the existing telephone. will be. That is, the voice is generated by the tremors of the vocal cords and the resonance in the throat. Using the principle of generating the voice, the voice characteristic is kept as it is (206). 207), a soft and gentle voice 208. The core technology of the soft sound phone automatically classifies the phonological information and the rhyme information indicating personality in the human voice (202) to preserve the personality and semantic information of the speaker (206) while simultaneously changing the intonation information (205). By increasing the soft characteristic 208 of the voice.

[하드웨어 장치의 구성][Configuration of Hardware Device]

마이크로폰이나 전화라인 등으로부터 들어오는 아날로그 형태의 목소리 신호(300)를 입력 받아서 부드러운 목소리로 발성 처리하는 하드웨어 장치의 일례는 도 3과 같다. 아날로그 형태로 입력된 목소리 신호파형(300)은 증폭기(301)에서 증폭된 다음에 앨리어징(aliasing)효과를 제거하기 위해 저역통과여파기(302)를 통과한다. 그리고 양자화(quantization) 및 부호화(coding)를 수행하는 아날로그-디지털 변환기(304)를 통과함으로서 선형펄스부호변조(PCM) 형태의 디지털 신호로 바뀌어서, 범용 CPU나 디지털 신호처리기(DSP)에 입력된다.An example of a hardware device that receives an analog voice signal 300 from a microphone, a telephone line, or the like and processes the voice signal with a soft voice is illustrated in FIG. 3. The voice signal waveform 300 input in the analog form is amplified by the amplifier 301 and then passed through the low pass filter 302 to eliminate the aliasing effect. By passing through the analog-to-digital converter 304 that performs quantization and coding, the signal is converted into a digital signal in the form of a linear pulse code modulation (PCM) and input to a general purpose CPU or a digital signal processor (DSP).

신호처리될 때는 이 컴퓨터 처리기(304)가 대내외에 설치된 주변장치(309)를 참고할 수도 있고, 또한 입력 디지털 신호나 처리 결과를 저장하기 위해 주변 메모리(305)를 참고할 수도 있다.When the signal is processed, the computer processor 304 may refer to a peripheral device 309 installed both inside and outside, and may also refer to the peripheral memory 305 to store input digital signals or processing results.

CPU에서 소프트웨어나 펌웨어에 의해 억양변환 처리된 디지털 신호는 디지털-아날로그 변환기(308)를 통해 표본화된 아날로그 신호형태로 변환된다. 이 신호를 저역통과 여파기(307)에 통과시키면 양자화 잡음이 제거된 아날로그 신호가 되고, 적당한 레벨이 되도록 증폭하면(306) 전화 수화기나 스피커 등을 통해서 들을 수 있는 아날로그 신호(310)가 된다.The digital signal that is processed into the intonation by the software or firmware by the CPU is converted into a sampled analog signal through the digital-to-analog converter 308. Passing this signal through the low pass filter 307 results in an analog signal from which quantization noise has been removed, and when amplified to an appropriate level (306), the signal becomes an analog signal 310 that can be heard through a telephone receiver, a speaker, or the like.

[소프트웨어 처리과정][Software Process]

소프트사운드 전화기는 기존 전화기의 기능을 수행하는 CPU칩에 소프트사운드 기능의 소프트웨어나 펌웨어를 추가한 것이다. 전화통화가 이루어 졌을 때, 소프트사운드 키보턴(또는 임의의 키보턴)이 눌러졌는지를 파악하고, 눌러지지 않았다면 기존 전화기와 같이 일반적인 목소리 통신(420)을 수행하게 된다. 소프트사운드 키보턴은 소프트웨어 토글스위치 형태로 구성되며 한번 누르면 켜지고, 다시 누르면 꺼지게 된다.A soft sound phone is a software that adds soft sound software or firmware to a CPU chip that functions as a traditional phone. When a telephone call is made, it is determined whether the soft sound key button (or any key button) is pressed, and if it is not pressed, general voice communication 420 is performed like the existing telephone. The soft sound key button is configured as a software toggle switch, which is turned on once by pressing it and turned off by pressing it again.

소프트사운드 전화기능이 시작되면 아날로그-디지털 변환기(ADC)에서 입력된 데이터 표본(401)값이 한 프레임단위로 동시에 처리된다. 먼저 현재 프레임에 있는 데이터 값이 유성음 구간인지 아닌지를 파악하고, 유성음 구간이 아니면(404) 링버퍼의 점유율(Buffer Rate, BR)을 계산하게 된다. 상대방의 목소리가 부드럽게 들리도록 하기 위해서는 상대방의 실제 목소리 발성속도보다 다르게 들리도록 해야 하는데, 처리된 데이터를 대기시키는데 필요한 메모리 버퍼를 링버퍼(409)라고 한다.When the soft sound telephony function is started, the data sample 401 input from the analog-to-digital converter (ADC) is processed simultaneously in units of one frame. First, it is determined whether the data value in the current frame is the voiced sound interval, and if it is not the voiced sound interval (404), the occupancy ratio (Buffer Rate, BR) of the ring buffer is calculated. In order for the other party's voice to be heard softly, the other party's voice should be heard differently than the actual voice vocalization speed. The memory buffer required to wait for the processed data is called a ring buffer 409.

링버퍼의 점유율(BR)은 소프트사운드 기능에서 처리된 데이터가 링버퍼에서 대기되는 시간비율을 나타내는데, 현 프레임이 비유성음 구간이고 링버퍼에 대기하고 있는 시간이 정해진 시간의 점유율(예 0.8<BR<1.2)을 벗어났다면, 발성속도를 변경하기 위해 지속시간조절(416)을 수행하게 된다. 이렇게 함으로써 소프트사운드 기능이 수행될 때 야기되는 발성시간의 변동을 해소할 수 있게 된다. 즉, 유성음구간(418)에서만이 데이터가 부드러운 소리로 발성되도록 처리하지만, 이때 발성속도가 원래의 발성에 비해 다를 수가 있기 때문에, 비유성음 구간에서 발성속도를 조절하여 전체적인 시간지연을 해소하게 한 것이다.The occupancy rate of the ring buffer (BR) represents the time rate at which the data processed by the soft sound function is waited in the ring buffer. The occupancy ratio of the time when the current frame is a non-voiced sound and the waiting time in the ring buffer is determined (for example, 0.8 <BR). <1.2), the duration adjustment 416 may be performed to change the voice speed. This makes it possible to eliminate fluctuations in the uttering time caused when the soft sound function is performed. That is, only the voiced sound section 418 processes the data so that the sound is soft, but at this time, since the voice speed may be different from that of the original voice, the voice delay is adjusted in the non-voice sound section to eliminate the overall time delay. .

현재의 프레임이 유성음 구간인지 비유성음 구간인지를 측정하는 방법(403)은 음성처리 교재(참고문헌1,3,4)에 많이 제안되어져 있으며, 일례로 에너지 레벨을 측정하여 쉽게 파악할 수 있다. 즉, 현재 프레임의 평균 에너지가 정해진 문턱 값을 초과하여 일례로 5프레임(100ms) 이상 지속된다면 이 구간은 유성음 구간이 된다.A method 403 for measuring whether the current frame is a voiced sound section or a non-voiced sound section has been proposed in the speech processing textbooks (Refs. 1, 3, 4). For example, the energy level can be easily measured. That is, if the average energy of the current frame exceeds a predetermined threshold and lasts 5 frames (100 ms), for example, this section becomes a voiced sound section.

현재의 프레임의 데이터가 유성음 구간(418)이라면 이 데이터에 대해 소프트사운드 기능처리를 수행하게 된다. 소프트사운드 기능은 현 프레임의 데이터에서 피치억양을 검출(406)하고, 프레임 단위로 피치-억양변화도(PAC, Pitch Accent Contour)를 고려하여, PAC가 정해진(일예로 1.5배) 변화범위를 벗어나면(419), 피치억양을 변경시킨다(407).If the data of the current frame is the voiced sound section 418, the soft sound function processing is performed on the data. The soft sound function detects the pitch intonation in the data of the current frame (406) and considers the pitch accent gradient (PAC) in units of frames, so that the PAC is out of the range of change (e.g. 1.5 times). Surface 419 changes the pitch intonation (407).

피치억양의 변경은 유성음의 한 블록단위로 처리하는데, 연속적으로 검출되는 유성음 프레임의 한 블록구간을 나타낸다. 유성음 한 블록에 대해 피치-억양변경(407)은 피치주기 단위로 수행하였고, 일예로 PAC가 정해진 변화범위를 초과하였다면, 피치주기가 주어진 최대의 범위이내에서 유지되도록 하기 위해 피치변경을 수행한다. 피치주기를 변경하는 방법은 지금까지 많이 제안되어져 있다(참고문헌1,2). 일예로 시간 영역에서 피치주기 단위로 음성파형을 넓게 분절한 다음에 변경된 피치주기 단위로 중첩시켜서 파형을 재구성하는 PSOLA(Pitch Synchronous Overwrap and Add) 피치변경법이 있다(참고문헌2).The change of the pitch intonation is processed in units of one block of voiced sound, which represents one block section of the voiced sound frame which is continuously detected. For a block of voiced sound, the pitch-inhibition change 407 is performed in units of pitch periods. For example, if the PAC exceeds a predetermined change range, the pitch change is performed to maintain the pitch period within a given maximum range. Many methods for changing the pitch period have been proposed so far (Refs. 1 and 2). For example, a pitch synchronous overlap and add (PSOLA) pitch change method for reconstructing a waveform by broadly segmenting a speech waveform in a pitch period unit in a time domain and then superimposing the changed waveform unit in a pitch period unit (Ref. 2).

이때 피치주기를 정확히 검출해야 하는데, 음성신호의 피치주기 검출법은 최근 40년간 수많은 방법들이 제안되어 있다(참고문헌1,4). 일예로 피치검출은 자기상관함수법이 주로 사용되고 있으며, 인근 음성파형들 간의 상관관계를 계산하여 반복적인 파형의 주기를 검출하는 방법이 있다(참고문헌1).At this time, it is necessary to accurately detect the pitch period, a number of methods have been proposed in recent years for the pitch period detection method of speech signals (Refs. 1 and 4). For example, the pitch detection is mainly used for the autocorrelation function, and there is a method for detecting the period of the repetitive waveform by calculating the correlation between adjacent voice waveforms (Ref. 1).

이렇게 처리된 데이터들은 파형의 진폭이 자연스럽지 못하고 부자연스럽게 되므로, 진폭의 변화가 자연스럽게 이어지도록 하는 에너지 진폭변화 조절(408)을 수행해야 한다. 일예로 에너지 진폭의 변경은 피치주기 단위로 처리하며, 한 피치주기의 평균 에너지 진폭을 파형에 곱함으로서 수행한다.Since the processed data becomes unnatural and unnatural in the waveform, it is necessary to perform an energy amplitude change control 408 so that the change in amplitude naturally follows. For example, the change in energy amplitude is processed in units of pitch periods, and is performed by multiplying the waveform by the average energy amplitude of one pitch period.

이렇게 처리 완료된 음성 데이터들은 링버퍼에 저장시키고(409), 저장된 순서에 따라서 디지털-아날로그 변환기(DAC)를 통해 음성 데이터 표본 단위로 수화기나 스피커를 통해 출력한다(410). 여기서 소프트사운드 전화기의 기능은 실시간으로 처리된다. 즉, 아날로그-디지털 변환기(ADC)에서 한 프레임의 데이터를 받고(401)나서부터 그 다음 프레임의 데이터를 받아올 때까지 소프트사운드 전화기능의 처리(410)가 끝날 수 있도록 해야만 한다.The processed voice data is stored in a ring buffer (409), and output through a handset or a speaker in units of voice data through a digital-to-analog converter (DAC) according to the stored order (410). The function of the soft sound phone is handled in real time. That is, the processing of the soft sound telephony function 410 must be completed until the data of one frame is received from the analog-to-digital converter (ADC) 401 until the data of the next frame is received.

[참고문헌][references]

[1] 배명진, 이상효, 디지털 음성분석 , 동영출판사, 1998.[1] Myung-Jin Bae, Sang-Hyo Lee, Digital Speech Analysis , Dong Young Publishers, 1998.

[2] 배명진, 디지털 음성합성 , 동영출판사, 1998.[2] Bae Myung-jin, Digital Speech Synthesis , Dong Young Publishing Co., 1998.

[3] 배명진, 디지털 음성부호화 , 동영출판사, 1996.[3] Myung-Jin Bae, Digital Voice Coding , Dong Young Publishers, 1996.

[4] Rabiner and Schefer, Digital Signal Processing of Speech Signals , Prentice Hall, 1978.[4] Rabiner and Schefer, Digital Signal Processing of Speech Signals , Prentice Hall, 1978.

본 발명은 기술적으로 볼 때 인간의 오감을 보조하는 기술의 하나이다. 누구나 나이가 들면 감각기능이 노화되어 큰 억양변화의 소리를 싫어하는데, 부드러운 소리의 소프트사운드 전화기는 이러한 감각기능을 보완해주는 복지기술의 실용화라는 점이 특이하다. 따라서 노인이나 장애인에게 제공할 수 있는 복지국가용 통신기술로서 그 응용성이 독특하다.Technically, the present invention is one of technologies that assist the five senses of human beings. As everyone ages, the sensational functions become aging and they hate the sound of large intonation changes. The soft sound phone is unique in that it is the practical use of welfare technology to complement these sensational functions. Therefore, its applicability is unique as a communication technology for the welfare state that can be provided to the elderly or the disabled.

그리고 이 소프트사운드 전화기는 정감이 넘치는 사회를 이루는데 필요한 핵심기술이다. 사회는 고도로 첨단화되고, 인간은 점차 고립화되기 때문에 일상의 전화 통화에서 조차 상대를 배려하지 않는 일방적인 대화가 아주 보편화되고 있다. 이러한 사회의 분위기를 부드러운 소리 전화기를 통해 바꿀 수 있다. 상대방의 급하고 변화무상한 일방적인 목소리를 부드럽고 다정하게 말하도록 분위기를 바꿔줌으로서 자칫하면 감정이 유발될 수 있는 분위기를 차분하게 안정시켜 줄 수 있기 때문이다.And this soft sound phone is a key technology for building a society of emotion. Since society is highly advanced and humans are increasingly isolated, one-sided conversations are becoming very common, even in everyday phone calls. The atmosphere of this society can be changed through a soft sound phone. By changing the mood to speak softly and tenderly to the other person's urgent and changing one-sided voice, it can calm and calm the mood that can cause emotion.

또한 소프트사운드 전화기에 적용한 발성변환 기술은 대화의 내용을 기록하는 전문 속기사의 보조시스템으로 활용할 수 있고, 영어듣기 능력을 키워나가는 어학 학습기에 적용할 수 있는 등의 실용성 있는 발명기술이다. 따라서 이 소프트사운드 전화기는 실생활에 다양하게 활용할 수 있는 기술로서 그 파급 효가가 아주 크다.In addition, the voice conversion technology applied to the soft sound phone is a practical invention technology that can be used as an auxiliary system of a professional shorthand for recording the contents of a conversation, and can be applied to a language learner to develop English listening ability. Therefore, this soft sound phone is a technology that can be utilized in various ways in real life, and its effect is very large.

Claims (1)

전화기를 사용하여 상대방과 통화함에 있었어 상대방의 목소리 억양변화가 심하고 급하게 들릴 경우에, 임의의 키보턴을 누르면 목소리를 부드럽고 정감이가는 소리로 변환시켜주는 소프트사운드 기능을 기존 전화기에 있는 신호처리(DSP) 칩이나 CPU칩의 일부분에 구현하는 것으로서, 목소리 신호의 특징 추출을 수행하여 발성자의 의미정보와 특성정보는 그대로 유지하면서 발성자의 피치억양 정보를 특정범위 이내로 제한하는 것으로서, 발성자의 발성특성에서 피치억양을 검출하고 그 변화범위를 조절하여 부드러운 목소리를 구현하거나, 발성하는 억양의 변화를 검출하여 일정범위를 벗어나지 않게 하거나, 발성 지속시간의 조절을 유성음 및 비유성음 구간으로 구분하여 처리를 다르게 하는 등의 발성변환 처리법을 전화기에 구현하여 상대방 목소리가 부드럽고 정감있게 들리도록 하는 소프트사운드 기능의 전화기 방식.If you are talking to the other party using a telephone and the voice intonation of the other party is severe and urgent, you can use the soft sound function that converts the voice into a soft and emotional sound by pressing any key button. Implementing on a part of a chip or a CPU chip, extracts the feature of the voice signal and limits the pitch intonation information of the speaker within a specific range while maintaining the speaker's semantic and characteristic information. Detects the accent and adjusts the range of change to produce a soft voice, detects the change in the voiced accent so that it does not deviate from a certain range, or divides the duration of the utterance into voiced and non-voiced sounds, and then processes it differently. Implements voice conversion processing on the phone Telephone manner that allowed the soft sound Riga sounds so soft and affectionate.
KR10-2002-0086167A 2002-12-28 2002-12-28 A Telephone Method with Soft Sound using Accent Control of Voice Signals KR100460411B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2002-0086167A KR100460411B1 (en) 2002-12-28 2002-12-28 A Telephone Method with Soft Sound using Accent Control of Voice Signals
PCT/KR2003/001237 WO2004059948A1 (en) 2002-12-28 2003-06-24 Soft sound phone

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0086167A KR100460411B1 (en) 2002-12-28 2002-12-28 A Telephone Method with Soft Sound using Accent Control of Voice Signals

Publications (2)

Publication Number Publication Date
KR20030012835A KR20030012835A (en) 2003-02-12
KR100460411B1 true KR100460411B1 (en) 2004-12-08

Family

ID=27730021

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0086167A KR100460411B1 (en) 2002-12-28 2002-12-28 A Telephone Method with Soft Sound using Accent Control of Voice Signals

Country Status (2)

Country Link
KR (1) KR100460411B1 (en)
WO (1) WO2004059948A1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10149199A (en) * 1996-11-19 1998-06-02 Sony Corp Voice encoding method, voice decoding method, voice encoder, voice decoder, telephon system, pitch converting method and medium
JP2001086200A (en) * 1999-09-09 2001-03-30 Matsushita Electric Ind Co Ltd Portable telephone system and method for changing and setting frequency characteristic of receiving signal

Also Published As

Publication number Publication date
WO2004059948A1 (en) 2004-07-15
KR20030012835A (en) 2003-02-12

Similar Documents

Publication Publication Date Title
US20230230572A1 (en) End-to-end speech conversion
US7469207B1 (en) Method and system for providing automated audible backchannel responses
US8401856B2 (en) Automatic normalization of spoken syllable duration
US7539614B2 (en) System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes
US6999922B2 (en) Synchronization and overlap method and system for single buffer speech compression and expansion
JPH0644195B2 (en) Speech analysis and synthesis system having energy normalization and unvoiced frame suppression function and method thereof
Nakagiri et al. Improving body transmitted unvoiced speech with statistical voice conversion
JPS60247697A (en) Voice recognition responder
JP3553828B2 (en) Voice storage and playback method and voice storage and playback device
US8340972B2 (en) Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment
KR100460411B1 (en) A Telephone Method with Soft Sound using Accent Control of Voice Signals
US6975984B2 (en) Electrolaryngeal speech enhancement for telephony
CN109672787A (en) A kind of device intelligence based reminding method
KR100542976B1 (en) A headphone apparatus with soft-sound funtion using prosody control of speech signal
KR100533217B1 (en) A headphone apparatus with gentle function using signal processing for prosody control of speech signals
KR20030011045A (en) A Telephone with Gentle Function using Prosody Control of Voice Speech Signals
JPH11331328A (en) Handfree telephone system
JPH10240283A (en) Voice processor and telephone system
KR101151746B1 (en) Noise suppressor for audio signal recording and method apparatus
JP2000276190A (en) Voice call device requiring no phonation
KR20030058920A (en) A Gentle Voice-Pen Method in Order to Playback Gently Sounds Recorded with It.
JP2005123869A (en) System and method for dictating call content
Passos Transformation of whispering voice to pseudo-real voice for unvoiced telephony and communication aid for voice-handicapped persons
Togawa et al. Development of speech technologies to support hearing through mobile terminal users
JP2001069200A (en) Input level control circuit and voice communication terminal equipment

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121123

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20131017

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140930

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee