KR20230139845A - Earphone based on head related transfer function, phone device using the same and method for calling using the same - Google Patents

Earphone based on head related transfer function, phone device using the same and method for calling using the same Download PDF

Info

Publication number
KR20230139845A
KR20230139845A KR1020220036013A KR20220036013A KR20230139845A KR 20230139845 A KR20230139845 A KR 20230139845A KR 1020220036013 A KR1020220036013 A KR 1020220036013A KR 20220036013 A KR20220036013 A KR 20220036013A KR 20230139845 A KR20230139845 A KR 20230139845A
Authority
KR
South Korea
Prior art keywords
signal
voice
caller
earphone
sound
Prior art date
Application number
KR1020220036013A
Other languages
Korean (ko)
Other versions
KR102613033B1 (en
Inventor
김지헌
이신렬
최상수
장성환
Original Assignee
주식회사 알머스
주식회사 디지소닉
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 알머스, 주식회사 디지소닉 filed Critical 주식회사 알머스
Priority to KR1020220036013A priority Critical patent/KR102613033B1/en
Publication of KR20230139845A publication Critical patent/KR20230139845A/en
Application granted granted Critical
Publication of KR102613033B1 publication Critical patent/KR102613033B1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은, 제1통화자의 HRTF DB가 저장된 메모리, 머리전달함수데이터베이스를 이용하여, 유선 또는 무선의 전화통신시스템을 통해 수신된 제1통화자의 상대인 제2통화자의 음성신호에 대해 바이노럴 렌더링을 수행하는 제어기, 제1통화자의 제1디바이스의 연결을 위한 입출력인터페이스 및 입출력인터페이스를 통해 수신한 제2통화자의 음성을 출력하는 좌측파트에 포함된 좌측스피커와 우측파트에 포함된 우측스피커를 포함하는 이어폰을 개시한다. 본 발명에 따르면, 머리전달함수를 이용하여 통화 상대방 목소리의 방향성이 조절될 수 있다.The present invention uses a memory in which the HRTF DB of the first caller is stored and a head transfer function database to provide binaural response to the voice signal of the second caller, the other party of the first caller, received through a wired or wireless telephone communication system. A controller that performs rendering, an input/output interface for connecting the first device of the first caller, and a left speaker included in the left part and a right speaker included in the right part that output the second caller's voice received through the input/output interface. Disclosed are earphones including: According to the present invention, the direction of the other party's voice can be adjusted using a head transfer function.

Description

머리전달함수 기반의 이어폰, 이를 포함하는 전화디바이스 및 이를 이용하는 통화방법{EARPHONE BASED ON HEAD RELATED TRANSFER FUNCTION, PHONE DEVICE USING THE SAME AND METHOD FOR CALLING USING THE SAME}Head transfer function-based earphone, telephone device including the same, and calling method using the same {EARPHONE BASED ON HEAD RELATED TRANSFER FUNCTION, PHONE DEVICE USING THE SAME AND METHOD FOR CALLING USING THE SAME}

본 발명은 머리전달함수 기반의 이어폰, 이를 이용하는 전화디바이스 및 이를 이용하는 통화방법에 관한 것으로, 더욱 상세하게는 머리전달함수를 이용하여 오디오신호를 처리하는 이어폰, 이를 포함하는 전화디바이스 및 이를 이용하는 통화방법에 관한 것이다.The present invention relates to head transfer function-based earphones, a telephone device using the same, and a call method using the same. More specifically, to earphones that process audio signals using the head transfer function, a telephone device including the same, and a call method using the same. It's about.

바이노럴 레코딩이란, 양쪽 귀의 소리 크기 차, 시간 차에 의한 입체적 음향 효과를 이어폰(또는 헤드폰)을 통해 재생시키기 위해, 인간이 양 귀로 느끼는 입체적인 소리를 레코딩하는 기술을 의미한다. 바이노럴 레코딩 기술은 인간의 머리와 동일하게 생긴 모형(더미)의 양쪽 귀 고막 위치에 마이크를 설치하고 현장의 음을 녹음한 후, 이어폰 또는 헤드폰을 사용하는 사람에게 매우 사실적인 소리를 체험할 수 있다.Binaural recording refers to a technology that records three-dimensional sounds that humans feel with both ears in order to reproduce three-dimensional sound effects due to differences in sound volume and time between both ears through earphones (or headphones). Binaural recording technology installs microphones at the eardrums of both ears of a dummy that looks identical to a human head, records sounds in the field, and allows people using earphones or headphones to experience very realistic sounds. You can.

그런데 바이노럴 레코딩 방식으로 녹음된 소리는 청취자가 이어폰을 사용하지 않으면 의도한 효과를 얻을 수 없다는 것이 바이노럴 레코딩의 단점이다.However, the disadvantage of binaural recording is that sounds recorded using binaural recording cannot achieve the intended effect unless the listener uses earphones.

소리의 전달 단계에서 나타나는 음향의 입체적 효과를, 소리 자체에 구현하는 과정을 바이노럴 레코딩이라 한다면, 머리전달함수(head-related transfer function, HRTF)는 신호 처리를 통해 음향에 입체적 효과를 입힘으로써 스테레오 녹음된 소리가 바이노럴 녹음된 소리처럼 들리게 하는 파라미터이다. 머리전달함수를 이용하여 오디오 신호를 처리하는 것을 바이노럴 렌더링(binaural rendering)이라 한다.If binaural recording is the process of implementing the three-dimensional effect of sound that appears in the sound transmission stage into the sound itself, the head-related transfer function (HRTF) adds a three-dimensional effect to the sound through signal processing. This parameter makes stereo recorded sound sound like binaural recorded sound. Processing audio signals using a head transfer function is called binaural rendering.

머리전달함수를 이용하기 위해서는, 바이노럴 레코딩을 통해 음원에서 발생된 소리가 공간 상에 전달되어 마이크에 이르렀을 때, 어떠한 입체적 효과를 갖는지를 측정하여, 측정된 소리 값의 역변환 과정을 통해 머리전달함수를 도출하고, 다양한 공간 파라미터, 예를 들어 방위각, 거리를 변화해 가면서 측정된 머리전달함수의 데이터베이스를 만드는 과정이 필요하다.In order to use the head transfer function, the three-dimensional effect is measured when the sound generated from the sound source is transmitted in space and reaches the microphone through binaural recording, and then the head is processed through the inverse conversion process of the measured sound value. It is necessary to derive the transfer function and create a database of the head transfer function measured while changing various spatial parameters, such as azimuth and distance.

그런데 바이노럴 녹음 시에 사용되었던 마이크의 위치 및 더미헤드의 귀의 형태적 특징이, 재생 시 청취자 이어폰의 위치 및 청취자의 귀의 형태적 특징과 동일하지 않으므로, VR 환경에서 상호작용이 가능한 최적의 사용자 경험을 제공하는 데에 한계가 있다. 이러한 한계를 개선하려는 차원에서 머리전달함수의 개인화에 관한 연구가 진행되고 있다.However, since the position of the microphone used during binaural recording and the morphological characteristics of the dummy head's ears are not the same as the position of the listener's earphones and the morphological characteristics of the listener's ears during playback, it is optimal for users to interact in a VR environment. There are limits to providing experiences. In an effort to improve these limitations, research on personalization of head transfer functions is underway.

본 발명과 관련된 기술로서, 대한민국 공개 특허 제10-2011-0108449호의 입체 음향을 이용하는 디지털 무선 음성 통신 시스템은, 마이크와 헤드폰을 포함하는 디지털 무선 음성 통신 시스템을 개시하고 있지만, 음성과 GPS 위치 정보 송신에 관한 관련된 기술은, 주변음과 음성을 분리하는 구성을 갖는 본원과 발명의 목적, 구성 및 효과 면에서 구별된다.As a technology related to the present invention, the digital wireless voice communication system using three-dimensional sound in Korean Patent Publication No. 10-2011-0108449 discloses a digital wireless voice communication system including a microphone and headphones, but transmitting voice and GPS location information. The related technology is distinguished from the present invention, which has a configuration for separating ambient sounds and voices, in terms of the purpose, configuration, and effect of the invention.

KR 공개 특허 제10-2011-0108449호 (2011.10.06. 공개)KR Public Patent No. 10-2011-0108449 (published on October 6, 2011)

본 발명이 해결하고자 하는 일 과제는, 바이노럴 레코딩을 통해 통화 상대방 목소리에 방향성 효과를 연출할 수 있는 이어폰을 제공하는 것이다.The problem that the present invention aims to solve is to provide earphones that can produce a directional effect in the voice of the other person on the phone through binaural recording.

본 발명이 해결하고자 하는 일 과제는, 바이노럴 마이크를 이용하여 핸즈 프리 통화 시에 통화 음질을 개선할 수 있는 이어폰을 제공하는 것이다.One problem that the present invention aims to solve is to provide earphones that can improve call sound quality during hands-free calls using a binaural microphone.

본 발명이 해결하고자 하는 일 과제는, 바이노럴 레코딩에 기반하여 음원 분리를 가능하게 하는 이어폰을 제공하는 것이다.One problem that the present invention seeks to solve is to provide earphones that enable sound source separation based on binaural recording.

본 발명의 일 실시 예에 따른 이어폰은, 제1통화자의 머리전달함수데이터베이스(head related transfer function Database)가 저장된 메모리; 머리전달함수데이터베이스를 이용하여, 유선 또는 무선의 전화통신시스템을 통해 수신된 제1통화자의 상대인 제2통화자의 음성신호에 대해 바이노럴 렌더링을 수행하는 제어기; 제1통화자의 제1디바이스의 연결을 위한 입출력인터페이스(input-output interface); 및 입출력인터페이스를 통해 수신한 제2통화자의 음성을 출력하는 좌측파트에 포함된 좌측스피커와 우측파트에 포함된 우측스피커를 포함하도록 구성될 수 있다.An earphone according to an embodiment of the present invention includes a memory storing a head related transfer function database of a first caller; a controller that performs binaural rendering on a voice signal of a second caller, the other party of the first caller, received through a wired or wireless telephone communication system, using a head transfer function database; An input-output interface for connection to the first device of the first caller; and a left speaker included in the left part and a right speaker included in the right part that output the second caller's voice received through the input/output interface.

또한, 제1통화자의 음성을 수집하는 마이크를 더 포함하되, 마이크는, 적어도 좌측파트에 배치된 좌측마이크와, 우측파트에 배치된 우측마이크를 포함하고, 좌측마이크는 제1통화자의 좌측외이도 주변의 제1음성의 좌측파동과 제1주변음의 좌측파동을 좌측제1오디오신호로 변환하고, 우측마이크는 제1통화자의 우측외이도 주변의 제1음성의 우측파동과 제1주변음의 우측파동을 우측제1오디오신호로 변환하도록 구성될 수 있다.In addition, it further includes a microphone for collecting the voice of the first caller, where the microphone includes at least a left microphone placed on the left part and a right microphone placed on the right part, and the left microphone is located around the left external auditory canal of the first caller. The left wave of the first voice and the left wave of the first ambient sound are converted into the first left audio signal, and the right microphone converts the right wave of the first voice and the right wave of the first ambient sound around the right ear canal of the first caller. It may be configured to convert the right first audio signal.

또한, 이어폰은, 좌측제1오디오신호 또는 우측제1오디오신호로부터 제1통화자의 제1음성에 대응하는 제1음성신호를 분리하는 신호분리기를 더 포함하도록 구성될 수 있다.Additionally, the earphone may be configured to further include a signal separator that separates the first voice signal corresponding to the first voice of the first caller from the first left audio signal or the first right audio signal.

또한, 신호분리기는, 제2통화자로부터 수신된 RX신호에 제2통화자의 음성이 분리되지 않은 상태로 포함된 경우, 제2통화자의 음성에 대응하는 제2음성신호를 분리하고, 제어기는 머리전달함수(head related transfer function, HRTF)를 이용하여 제2음성신호에 대해 바이노럴 렌더링을 수행하도록 구성될 수 있다.In addition, when the RX signal received from the second caller includes the second caller's voice in an unseparated state, the signal separator separates the second voice signal corresponding to the second caller's voice, and the controller separates the second caller's voice from the head. It may be configured to perform binaural rendering on the second voice signal using a head related transfer function (HRTF).

또한, 이어폰은, 제2통화자의 제2음성신호와 RX신호로부터 분리된 주변음신호를 서로 혼합하는 오디오믹서를 더 포함하고, 제어기는, 제2음성신호 및 주변음신호에 대해 각각 바이노럴 렌더링을 수행하고, 좌측스피커 및 우측스피커는, 바이노럴 렌더링이 수행되어, 서로 혼합된 제2음성신호 및 주변음신호를 소리로 변환하여 출력하도록 구성될 수 있다.In addition, the earphone further includes an audio mixer that mixes the second voice signal of the second caller and the surrounding sound signal separated from the RX signal, and the controller performs binaural sound signals for the second voice signal and the surrounding sound signal, respectively. Rendering is performed, and the left and right speakers may be configured to perform binaural rendering and convert the mixed second voice signal and ambient sound signal into sound and output it.

또한, 이어폰은, 제2음성신호 및 주변음신호의 레벨을 독립적으로 설정하는 사용자인터페이스를 더 포함하고, 좌측스피커 및 우측스피커는, 사용자인터페이스에 의해 설정된 레벨에 따라 제2음성신호 및 주변음신호를 소리로 변환하여 출력하도록 구성될 수 있다.In addition, the earphone further includes a user interface that independently sets the levels of the second voice signal and the surrounding sound signal, and the left and right speakers adjust the second voice signal and the surrounding sound signal according to the level set by the user interface. It may be configured to convert and output sound.

또한, 입출력인터페이스는 케이블 또는 무선통신모듈 중에서 적어도 하나를 포함하도록 구성될 수 있다.Additionally, the input/output interface may be configured to include at least one of a cable or a wireless communication module.

또한, 무선통신모듈은, 무선통신을 위한 통신프로토콜에 해당하는 복수의 마이크 및 복수의 채널을 통해 녹음된 오디오신호에 관한 입출력 규정을 포함하는 프로파일을 포함하도록 구성될 수 있다.Additionally, the wireless communication module may be configured to include a profile including input/output regulations for audio signals recorded through a plurality of microphones and a plurality of channels corresponding to a communication protocol for wireless communication.

본 발명의 일 실시 예에 따른 전화디바이스는, 제1통화자의 머리전달함수데이터베이스(head related transfer function Database)가 저장된 메모리, 머리전달함수데이터베이스를 이용하여, 유선 또는 무선의 전화통신시스템을 통해 수신된 제1통화자의 상대인 제2통화자의 음성신호에 대해 바이노럴 렌더링을 수행하는 제어기, 제1통화자의 제1디바이스의 연결을 위한 입출력인터페이스(input-output interface); 및 입출력인터페이스를 통해 수신한 제2통화자의 음성을 출력하는 좌측스피커와 우측스피커를 포함하는 이어폰: 및 이어폰을 통한 음성통화를 위해 제1통화자의 제1디바이스와 제2통화자의 제2디바이스 사이를 통신 연결시키는 무선통신모듈을 포함하도록 구성될 수 있다.A telephone device according to an embodiment of the present invention uses a memory in which a head related transfer function database (head related transfer function database) of the first caller is stored, and a head related transfer function database to receive information through a wired or wireless telephone communication system. A controller that performs binaural rendering on the voice signal of a second caller, the other party of the first caller, and an input-output interface for connection to the first device of the first caller; and an earphone including a left speaker and a right speaker that output the second caller's voice received through the input/output interface: and between the first caller's first device and the second caller's second device for a voice call through the earphone. It may be configured to include a wireless communication module for communication connection.

또한, 무선통신모듈은, 제1통화자의 제1음성에 대응하는, 제1음성신호 및 제1주변음에 대응하는 제1주변음신호가 포함되고, 패킷 처리된 TX신호를 제2디바이스에 송신하고, 제어기는, 제1음성신호가 제1오디오신호로부터 분리된 신호임을 TX신호에 표시하도록 구성될 수 있다.In addition, the wireless communication module includes a first voice signal corresponding to the first voice of the first caller and a first ambient sound signal corresponding to the first ambient sound, and transmits a packet-processed TX signal to the second device. And, the controller may be configured to indicate on the TX signal that the first voice signal is a signal separated from the first audio signal.

또한, 전화디바이스는, 제1오디오신호로부터 제1통화자의 제1음성에 대응하는 제1음성신호를 분리하는 신호분리기를 더 포함하도록 구성될 수 있다.Additionally, the telephone device may be configured to further include a signal separator that separates the first voice signal corresponding to the first voice of the first caller from the first audio signal.

또한, 제2통화자의 제2음성에 대응하는 제2음성신호가 제2주변음신호와 분리되지 않은 상태로, 제2디바이로부터 수신된 RX신호에 포함된 경우, 신호분리기는 RX신호에서 제2통화자의 제2음성에 대응하는 제2음성신호를 분리하도록 구성될 수 있다.In addition, if the second voice signal corresponding to the second voice of the second caller is included in the RX signal received from the second device without being separated from the second ambient sound signal, the signal separator may separate the second voice signal from the RX signal. It may be configured to separate the second voice signal corresponding to the caller's second voice.

본 발명의 일 실시 예에 따른 통화방법은, 제1통화자 측에서 수집된 제1통화자의 제1음성 및 제1주변음에 대응하는 제1오디오신호의 송신 및 제2통화자 측에서 수집된 제2통화자의 제2음성 및 제2주변음에 대응하는 제2오디오신호의 수신을 통한 제1통화자의 제1디바이스 및 제2통화자의 제2디바이스 간의 음성 통화 중에 제1디바이스에 연결된 이어폰 및 제1디바이스에 의해 수행하는 통화 방법에 있어서, 제2오디오신호가 포함된 RX신호를 수신하는 단계; 머리전달함수(head related transfer function, HRTF)를 이용하여 제2오디오신호에 바이노럴 렌더링을 수행하는 단계; 및 바이노럴 렌더링이 적용된 제2오디오신호를 출력하는 단계를 포함하도록 구성될 수 있다.The communication method according to an embodiment of the present invention includes transmission of a first audio signal corresponding to the first voice and first ambient sound of the first caller collected from the first caller and the transmission of the first audio signal collected from the second caller. An earphone and a device connected to the first device during a voice call between the first device of the first caller and the second device of the second caller through reception of a second audio signal corresponding to the second voice of the second caller and the second surrounding sound A call method performed by one device, comprising: receiving an RX signal including a second audio signal; Performing binaural rendering on the second audio signal using a head related transfer function (HRTF); and outputting a second audio signal to which binaural rendering has been applied.

또한, 통화방법은, 수신된 RX신호에 대해 RX신호의 패킷을 이용하여 제2오디오신호에서 제2통화자의 제2음성에 대응하는 제2음성신호의 분리 여부를 확인하는 단계를 더 포함하도록 구성될 수 있다.In addition, the call method is configured to further include the step of checking whether the second voice signal corresponding to the second voice of the second caller is separated from the second audio signal using the packet of the RX signal for the received RX signal. It can be.

또한, 만약 RX신호에 제2통화자의 제2음성신호가 분리되지 않은 체 포함된 경우, 통화방법은, 제2오디오신호에서 제2음성에 대응하는 제2음성신호를 분리하는 단계를 더 포함하고, 바이노럴 렌더링을 수행하는 단계는, 제2음성신호에 바이노럴 렌더링을 수행하는 단계를 포함하고, 제2오디오신호를 출력하는 단계는, 제2음성신호를 출력하는 단계를 포함하도록 구성될 수 있다.In addition, if the RX signal includes the second voice signal of the second caller without being separated, the call method further includes the step of separating the second voice signal corresponding to the second voice from the second audio signal, , the step of performing binaural rendering includes performing binaural rendering on the second audio signal, and the step of outputting the second audio signal includes outputting the second audio signal. It can be.

또한, 통화방법은, TX신호에 포함될 제1음성에 대응하는 제1음성신호를 생성하는 단계; 및 TX신호를 제2디바이스에 송신하는 단계를 더 포함하고, 제1음성신호를 생성하는 단계는, 좌측마이크 및 우측마이크를 이용하여 제1오디오신호를 생성하는 단계; 및 제1오디오신호로부터 제1주변음에 대응하는 제1주변음신호와 제1음성신호를 분리하는 단계를 포함하도록 구성될 수 있다.Additionally, the call method includes generating a first voice signal corresponding to a first voice to be included in the TX signal; and transmitting the TX signal to a second device, wherein the step of generating the first audio signal includes generating a first audio signal using a left microphone and a right microphone; and separating the first ambient sound signal and the first voice signal corresponding to the first ambient sound from the first audio signal.

또한, TX신호를 제2디바이스에 송신하는 단계는, 제1오디오신호에서 분리된 제1음성신호 및 제1주변음신호를 패킷화하는 단계; 및 제1음성신호가 분리된 신호임을 패킷에 표시하는 단계를 포함하도록 구성될 수 있다.Additionally, transmitting the TX signal to the second device includes packetizing the first voice signal and the first ambient sound signal separated from the first audio signal; and indicating on the packet that the first voice signal is a separated signal.

기타 실시 예의 구체적인 사항은 "발명을 실시하기 위한 구체적인 내용" 및 첨부 "도면"에 포함되어 있다.Specific details of other embodiments are included in “Specific Details for Carrying Out the Invention” and the attached “Drawings.”

본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 각종 실시 예를 참조하면 명확해질 것이다.The advantages and/or features of the present invention and methods for achieving them will become clear by referring to the various embodiments described in detail below along with the accompanying drawings.

그러나 본 발명은 이하에서 개시되는 각 실시 예의 구성만으로 한정되는 것이 아니라 서로 다른 다양한 형태로도 구현될 수도 있으며, 단지 본 명세서에서 개시한 각각의 실시 예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구범위의 각 청구항의 범주에 의해 정의될 뿐임을 알아야 한다.However, the present invention is not limited to the configuration of each embodiment disclosed below, but may also be implemented in various different forms. However, each embodiment disclosed in this specification ensures that the disclosure of the present invention is complete, and the present invention It is provided to fully inform those skilled in the art of the present invention, and it should be noted that the present invention is only defined by the scope of each claim.

본 발명에 의하면, 머리전달함수를 이용하여 통화 상대방 목소리의 방향성이 조절될 수 있다.According to the present invention, the direction of the other party's voice can be adjusted using a head transfer function.

또한, 핸즈 프리 통화 시에 상대 통화자의 음성만의 선택 청취가 가능하다.Additionally, during a hands-free call, it is possible to selectively listen to the voice of the other caller.

또한, 핸즈 프리 통화 시에 상대 통화자의 음성과 주변음의 레벨이 조절될 수 있다.Additionally, during a hands-free call, the level of the other caller's voice and surrounding sounds can be adjusted.

도 1은 본 발명의 일 실시 예에 따른 머리전달함수 기반의 이어폰 및 전화디바이스가 포함된 통화시스템의 예시도이다.
도 2는 본 발명의 일 실시 예에 따른 전화디바이스의 개략적인 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 머리전달함수 기반의 이어폰의 블록도이다.
도 4는 머리전달함수를 설명하기 위한 예시도이다.
도 5는 본 발명의 일 실시 예에 따른 머리전달함수 기반의 이어폰을 이용하는 통화자의 예시도이다.
도 6은 본 발명의 일 실시 예에 따른 신호 분리의 예시도이다.
도 7은 본 발명의 일 실시 예에 따른 통화방법의 흐름도이다.
도 8은 본 발명의 일 실시 예에 따른 통화방법의 흐름도이다.
도 9는 본 발명의 일 실시 예에 따른 통화방법의 흐름도이다.
Figure 1 is an exemplary diagram of a call system including earphones and a telephone device based on a head transfer function according to an embodiment of the present invention.
Figure 2 is a schematic block diagram of a telephone device according to an embodiment of the present invention.
Figure 3 is a block diagram of an earphone based on a head transfer function according to an embodiment of the present invention.
Figure 4 is an example diagram for explaining the head transfer function.
Figure 5 is an example diagram of a caller using earphones based on a head transfer function according to an embodiment of the present invention.
Figure 6 is an exemplary diagram of signal separation according to an embodiment of the present invention.
Figure 7 is a flowchart of a call method according to an embodiment of the present invention.
Figure 8 is a flowchart of a call method according to an embodiment of the present invention.
Figure 9 is a flowchart of a call method according to an embodiment of the present invention.

본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니 되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있고, 더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.Before explaining the present invention in detail, the terms or words used in this specification should not be construed as unconditionally limited to their ordinary or dictionary meanings, and the inventor of the present invention should not use the terms or words in order to explain his invention in the best way. It should be noted that the concepts of various terms can be appropriately defined and used, and furthermore, that these terms and words should be interpreted with meanings and concepts consistent with the technical idea of the present invention.

즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시 예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니며, 이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.That is, the terms used in this specification are only used to describe preferred embodiments of the present invention, and are not used with the intention of specifically limiting the content of the present invention, and these terms refer to various possibilities of the present invention. It is important to note that this is a term defined with consideration in mind.

또한, 본 명세서에서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있으며, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.In addition, it should be noted that in this specification, singular expressions may include plural expressions, unless the context clearly indicates a different meaning, and may include singular meanings even if similarly expressed in plural. .

본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.Throughout this specification, when a component is described as “including” another component, it does not exclude any other component, but includes any other component, unless specifically stated to the contrary. It could mean that you can do it.

더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"라고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있고, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결하기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있으며, 이 제 3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.Furthermore, if a component is described as being "installed within or connected to" another component, it means that this component may be installed in direct connection or contact with the other component and may be installed in contact with the other component and It may be installed at a certain distance, and in the case where it is installed at a certain distance, there may be a third component or means for fixing or connecting the component to another component. It should be noted that the description of the components or means of 3 may be omitted.

반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.On the other hand, when a component is described as being “directly connected” or “directly connected” to another component, it should be understood that no third component or means is present.

마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.Likewise, other expressions that describe the relationship between components, such as "between" and "immediately between", or "neighboring" and "directly neighboring", have the same meaning. It should be interpreted as

또한, 본 명세서에서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 사용된다면, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용되며, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.In addition, in this specification, terms such as "one side", "other side", "one side", "the other side", "first", "second", etc., if used, refer to one component. It is used to clearly distinguish it from other components, and it should be noted that the meaning of the component is not limited by this term.

또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 하며, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니된다.In addition, in this specification, terms related to position such as "top", "bottom", "left", "right", etc., if used, should be understood as indicating the relative position of the corresponding component in the corresponding drawing. Unless the absolute location is specified, these location-related terms should not be understood as referring to the absolute location.

또한, 본 명세서에서는 각 도면의 각 구성 요소에 대해서 그 도면 부호를 명기함에 있어서, 동일한 구성 요소에 대해서는 이 구성 요소가 비록 다른 도면에 표시되더라도 동일한 도면 부호를 가지고 있도록, 즉 명세서 전체에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 지시하고 있다.In addition, in this specification, when specifying the reference numeral for each component in each drawing, the same component has the same reference number even if the component is shown in different drawings, that is, the same reference is made throughout the specification. The symbols indicate the same component.

본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.In the drawings attached to this specification, the size, position, connection relationship, etc. of each component constituting the present invention is exaggerated, reduced, or omitted in order to convey the idea of the present invention sufficiently clearly or for convenience of explanation. It may be described, and therefore its proportions or scale may not be exact.

또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대해 상세한 설명은 생략될 수도 있다.In addition, hereinafter, in describing the present invention, detailed descriptions of configurations that are judged to unnecessarily obscure the gist of the present invention, for example, known technologies including prior art, may be omitted.

이하, 본 발명의 실시 예에 대해 관련 도면들을 참조하여 상세히 설명하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the related drawings.

도 1은 본 발명의 일 실시 예에 따른 머리전달함수 기반의 이어폰 및 전화디바이스가 포함된 통화시스템의 예시도이다.Figure 1 is an exemplary diagram of a call system including earphones and a telephone device based on a head transfer function according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 머리전달함수 기반의 이어폰(이하 이어폰)에 해당하는 제1이어폰(110-1), 제1이어폰(110-1)이 연결되는, 전화디바이스(100)에 해당하는 제1디바이스(101), 제2이어폰(110-2), 제2이어폰(110-2)이 연결되는 제2디바이스(102) 및 네트워크(300)를 포함하는 통화시스템이 묘사되어 있다.Referring to Figure 1, a first earphone 110-1 corresponding to a head transfer function-based earphone (hereinafter referred to as earphone) according to an embodiment of the present invention, a telephone device to which the first earphone 110-1 is connected. A call system including a first device 101 corresponding to (100), a second earphone 110-2, a second device 102 to which the second earphone 110-2 is connected, and a network 300. It is described.

제1디바이스(101) 및 제2디바이스(102)는 음성 통화를 위해 네트워크(300)를 통해 서로 통신 연결될 수 있다. 그리고 제1디바이스(101)의 사용자는 제1통화자이고, 제2디바이스(102)의 사용자는 제2통화자인것으로 가정한다.The first device 101 and the second device 102 may be connected to each other through the network 300 for voice calls. Also, it is assumed that the user of the first device 101 is the first caller, and the user of the second device 102 is the second caller.

제1이어폰(110-1)은 본 발명의 일 실시 예에 따른 이어폰(110)에 해당하고, 제2이어폰(110-2)은 본 발명의 일 실시 예에 따른 이어폰(110)이거나 또는 다른 형태의 모델, 예를 들면 유선 또는 무선의 일반적인 이어폰 또는 헤드폰일 수 있다. 더 나아가 제2통화자는 제2이어폰(110-2)을 이용하지 않고 제2디바이스(102)에 내장된 마이크 및 스피커를 이용하여 통화할 수도 있다.The first earphone 110-1 corresponds to the earphone 110 according to an embodiment of the present invention, and the second earphone 110-2 is the earphone 110 according to an embodiment of the present invention or another type. model, for example, it may be a general earphone or headphone, either wired or wireless. Furthermore, the second caller may make a call using the microphone and speaker built into the second device 102 without using the second earphone 110-2.

본 발명의 일 실시 예에 따른 이어폰(110)은 오디오 수신 및 오디오 출력 기능을 갖는다. 이어폰(110)은 전화디바이스(100)에 연결되어 전화디바이스(100)에 오디오신호를 출력하고, 전화디바이스(100)로부터 오디오신호를 수신하는 기능을 갖는다. 이어폰(110)은 귀에 착용되는 장치에 한정되지 않고, 오디오신호의 입력 및 출력 기능을 갖는 헤드폰, 헤드셋, 및 그 밖의 다양한 형태의 핸즈 프리 장치가 이어폰(110)에 포함될 수 있다.The earphone 110 according to an embodiment of the present invention has audio reception and audio output functions. The earphone 110 is connected to the phone device 100 and has the function of outputting an audio signal to the phone device 100 and receiving an audio signal from the phone device 100. The earphones 110 are not limited to devices worn on the ears, and may include headphones, headsets, and various other types of hands-free devices with audio signal input and output functions.

이어폰(110)은 머리전달함수(head related transfer function, HRTF)를 저장할 수 있어서, 머리전달함수를 이용하여 오디오신호를 가공하는 기능을 갖는다. 머리전달함수(head related transfer function, HRTF)는 동일한 소리를 전방위에서 발생시켜 방향에 따른 주파수 반응을 측정하여 3차원 함수로 정리한 것을 말한다. 이어폰(110)은 메모리에 저장된 HRTF 데이터베이스를 이용하여 오디오신호를 처리하여 음상이 머리의 외부에 맺히도록 하는 음상 외재화(sound externalization)를 구현기능을 갖는다.The earphone 110 can store a head related transfer function (HRTF) and has the function of processing an audio signal using the head transfer function. Head related transfer function (HRTF) refers to generating the same sound in all directions, measuring the frequency response according to direction, and organizing it into a three-dimensional function. The earphones 110 have a function of implementing sound externalization, which processes audio signals using the HRTF database stored in memory and causes sound images to appear outside the head.

전화디바이스(100)는 본 발명의 일 실시 예에 따른 이어폰(110)을 포함하는 것을 특징으로 한다. 전화디바이스(100)는 이어폰(110)을 통해 입력 받은 오디오신호를 가공하는, 오디오신호 프로세싱 기능을 갖는 장치에 해당한다. 이어폰(110)도 오디오신호 프로세싱 기능을 갖도록 구성될 수 있다.The telephone device 100 is characterized by including an earphone 110 according to an embodiment of the present invention. The telephone device 100 corresponds to a device with an audio signal processing function that processes an audio signal input through the earphone 110. The earphones 110 may also be configured to have an audio signal processing function.

전화디바이스(100)는 통신단말에 해당할 수 있다. 전화디바이스(100)는 세대(generation) 변화에 따른 모바일통신 방식을 이용하여 전화 통화 및 데이터 통신이 가능한 단말기, 예를 들어 셀룰러폰, 스마트폰, 휴대폰, 핸드폰 등의 형태로 구현될 수 있다.The telephone device 100 may correspond to a communication terminal. The telephone device 100 may be implemented in the form of a terminal capable of making phone calls and data communication using a mobile communication method according to generational changes, such as a cellular phone, smartphone, mobile phone, or mobile phone.

네트워크(300)는 유선 및 무선 네트워크, 예를 들어 시리얼 통신, LAN(local area network), WAN(wide area network), 인터넷(internet), 인트라넷(intranet) 및 엑스트라넷(extranet), 그리고 모바일 네트워크, 예를 들어 셀룰러, 3G, LTE, 5G, WiFi 네트워크, 애드혹 네트워크 및 이들의 조합을 비롯한 임의의 적절한 통신 네트워크 일 수 있다.Network 300 includes wired and wireless networks, such as serial communications, local area networks (LANs), wide area networks (WANs), the Internet, intranets and extranets, and mobile networks; It may be any suitable communications network, including for example cellular, 3G, LTE, 5G, WiFi networks, ad hoc networks, and combinations thereof.

네트워크(300)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(300)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(300)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다.Network 300 may include connections of network elements such as hubs, bridges, routers, switches, and gateways. Network 300 may include one or more connected networks, including public networks such as the Internet and private networks such as secure enterprise private networks, such as a multi-network environment. Access to network 300 may be provided through one or more wired or wireless access networks.

네트워크(300)에는 제1 디바이스(101) 및 제2디바이스(102) 간의 음성 통화를 가능하게 하는, 중계기, 기지국 및 교환기 등을 포함하도록 구성될 수 있다.The network 300 may be configured to include a repeater, a base station, and an exchange that enable voice calls between the first device 101 and the second device 102.

도 2는 본 발명의 일 실시 예에 따른 이어폰을 이용하는 통화자의 예시도이다.Figure 2 is an example diagram of a caller using earphones according to an embodiment of the present invention.

도 2를 참조하면, 도 1에 묘사된 제1이어폰(110-1), 즉 이어폰(110)을 착용한 제1통화자 및 전화디바이스(100)가 묘사되어 있다. 이어폰(110)은 2개의 파트, 즉 좌측이어폰(110L) 및 우측이어폰(110R)으로 구성될 수 있다.Referring to FIG. 2, the first earphone 110-1 depicted in FIG. 1, that is, the first caller wearing the earphone 110 and the telephone device 100 are depicted. The earphone 110 may be composed of two parts, namely, a left earphone (110 L ) and a right earphone (110 R ).

제1통화자가 속하는 통화 공간이 존재하고, 통화 공간에는 복수 개, 예를 들어 n개의 음원이 존재할 수 있다. 제1음원은 제1통화자에 해당하고, 제2음원 내지 제n음원은 제1통화자의 음성에 대해 소음들을 발생시키는 음원이라 가정하고, 전체 소음들을 주변음이라 칭한다. 본 발명에서 정의된 음원(sound source)은, 원칙적으로 소리가 비롯되는 원천을 뜻하나, 경우에 따라 비롯된 소리가 담긴 디지털파일을 뜻하는 경우도 있다.There is a call space to which the first caller belongs, and a plurality of sound sources, for example, n, may exist in the call space. It is assumed that the first sound source corresponds to the first caller, the second to nth sound sources are sound sources that generate noise in response to the first caller's voice, and all noises are referred to as ambient sounds. The sound source defined in the present invention, in principle, refers to the source from which sound originates, but in some cases, it may refer to a digital file containing the originating sound.

음원들에서 발생된 소리, 예를 들어 제1음원인, 제1통화자에서 비롯된 음성(speech) 및 주변에서 비롯된 주변음은 양 이어폰 파트(피스)로 파동 형태로 입력될 수 있다. 각 파트에 입력되는 소리 파동, 예를 들어 좌측파트에 입력되는 소리 파동으로 W(n-1)L와 W1L, 그리고 우측파트에 입력되는 소리 파동으로 W(n-1)R와 W1R가 각각 묘사되어 있다.Sounds generated from sound sources, for example, speech originating from the first sound source, the first caller, and ambient sounds originating from the surroundings may be input in the form of waves to both earphone parts. The sound waves input to each part, for example, the sound waves input to the left part are W (n-1)L and W 1L , and the sound waves input to the right part are W (n-1)R and W 1R . Each is described.

각 파트에 입력된 소리 파동은 각 파트에 포함된 마이크에 의해 오디오 신호로 변환될 수 있다.Sound waves input to each part can be converted into audio signals by the microphone included in each part.

도 1 및 도 2를 참조하면, 제1이어폰(110-1)은 제1음성(W1L, W1R) 및 제1 주변음(W(n-1)L, W(n-1)R)이 혼재된 제1소리 파동을 변환시켜 제1오디오신호를 생성할 수 있다. 제1오디오 신호는 제1이어폰(110-1)에 의해 제1음성에 대응하는 제1음성신호(S1L, S1R) 및 제1주변음에 대응하는 제1주변음신호(S(n-1)L, S(n-1)R)로 분리될 수 있다. 제1디바이스(101)는 제1음성신호 및 제1주변음신호가 포함된 TX신호를 제2디바이스(102)로 송신할 수 있다. 제1디바이스(101)는 제2디바이스(102)로부터 제2음성 및 제2주변음이 혼재된 제2소리 파동에 대응하는 제2오디오신호가 포함된 RX신호를 수신할 수 있다. 제1이어폰(110-1)은 RX신호에서 제2음성에 대응하는 제2음성신호를 분리할 수 있다. 그리고 제1이어폰(110-1)은 제2음성신호를 소리로 변환하여 출력할 수 있다.Referring to Figures 1 and 2, the first earphone 110-1 has first voices (W 1L , W 1R ) and first ambient sounds (W (n-1)L , W (n-1)R ). This mixed first sound wave can be converted to generate a first audio signal. The first audio signal is a first audio signal (S 1L , S 1R ) corresponding to the first voice and a first ambient sound signal (S (n-) corresponding to the first ambient sound by the first earphone 110-1. 1) Can be separated into L , S (n-1)R ). The first device 101 may transmit a TX signal including the first voice signal and the first ambient sound signal to the second device 102. The first device 101 may receive an RX signal including a second audio signal corresponding to a second sound wave in which the second voice and the second ambient sound are mixed from the second device 102. The first earphone 110-1 can separate the second voice signal corresponding to the second voice from the RX signal. And the first earphone 110-1 can convert the second voice signal into sound and output it.

도 3은 본 발명의 일 실시 예에 따른 전화디바이스의 개략적인 블록도이다.Figure 3 is a schematic block diagram of a telephone device according to an embodiment of the present invention.

도 3을 참조하면, 전화디바이스(100)는 이어폰(110), 입출력인터페이스(130) 및 무선통신부(140)를 포함하도록 구성될 수 있다.Referring to FIG. 3, the telephone device 100 may be configured to include an earphone 110, an input/output interface 130, and a wireless communication unit 140.

이어폰(110)은 본 발명의 일 실시 예에 따른 오디오 입력 및 출력 기능을 갖는, 머리전달함수를 저장하고 있는 이어폰(110)에 해당한다.The earphone 110 corresponds to an earphone 110 that has audio input and output functions and stores a head transfer function according to an embodiment of the present invention.

입출력인터페이스(130)는 이어폰(110)과 전화디바이스(100)를 유선 또는 무선으로 연결하여 각종 신호를 입력 및 출력시킬 수 있다. 입출력인터페이스(130)는 유선의 케이블이거나, 블루투스모듈과 같은 근거리통신모듈일 수 있다. 블루투스모듈은 전화디바이스(100) 및 이어폰(110)에 각각 포함될 수 있다.The input/output interface 130 can input and output various signals by connecting the earphone 110 and the telephone device 100 wired or wirelessly. The input/output interface 130 may be a wired cable or a short-range communication module such as a Bluetooth module. The Bluetooth module may be included in the phone device 100 and the earphone 110, respectively.

무선통신부(140)는 네트워크(300)를 통해 연결된 전화디바이스(100)에 해당하는 제1디바이스(101)와 제2디바이스(102)_간의 전화통화를 비롯하여 데이터통신을 가능하게 한다. 무선통신부(140)는 전화모듈, 모뎀, 및 무선랜모듈을 포함하도록 구성될 수 있다.The wireless communication unit 140 enables data communication as well as phone calls between the first device 101 and the second device 102, which correspond to the phone device 100 connected through the network 300. The wireless communication unit 140 may be configured to include a telephone module, a modem, and a wireless LAN module.

도 4는 본 발명의 일 실시 예에 따른 머리전달함수 기반의 이어폰의 블록도이다.Figure 4 is a block diagram of an earphone based on a head transfer function according to an embodiment of the present invention.

도 4를 참조하면, 이어폰(110)을 구성하는 요소들이 개략적으로 묘사되어 있다. 이어폰(110)은 제어기(117), 좌측마이크(111), 우측마이크(112), 증폭기(113), ADC(114), 신호분리기(115), 입출력부(116), 좌측스피커(118), 우측스피커(119), DAC(120), 오디오믹서(121), 사용자인터페이스(122), 배터리(123) 및 머리전달함수데이터베이스(HRTF DB)(124)를 포함하도록 구성될 수 있다.Referring to Figure 4, the elements constituting the earphone 110 are schematically depicted. The earphone 110 includes a controller 117, a left microphone 111, a right microphone 112, an amplifier 113, an ADC 114, a signal separator 115, an input/output unit 116, a left speaker 118, It may be configured to include a right speaker 119, DAC 120, audio mixer 121, user interface 122, battery 123, and head transfer function database (HRTF DB) 124.

좌측마이크(111) 및 우측마이크(112)는 이어폰(110)을 구성하는 2개의 파트 각각에 구비된 마이크에 해당한다. 이어폰(110)은 용도 별로 다양한 타입의 마이크, 예를 들어 액티브 노이즈 캔슬링(active noise cancelling)에 필요한 마이크, 통화자의 음성과 주변음을 포함하는 소리 파동의 녹음에 필요한 바이노럴 마이크를 포함하도록 구성될 수 있다.The left microphone 111 and the right microphone 112 correspond to microphones provided in each of the two parts that make up the earphone 110. The earphones 110 are configured to include various types of microphones for each purpose, for example, a microphone required for active noise canceling and a binaural microphone required for recording sound waves including the caller's voice and surrounding sounds. It can be.

좌측마이크(111)는 좌측 귀 주변에서 수집된 소리 파동을 아날로그 오디오신호로 변환하고, 우측마이크(112)는 우측 귀 주변에서 수집된 소리 파동을 아날로그 오디오신호로 변환하는 기능을 갖는다.The left microphone 111 converts sound waves collected around the left ear into analog audio signals, and the right microphone 112 has the function of converting sound waves collected around the right ear into analog audio signals.

좌측마이크(111)와 우측마이크(112)는, 이어폰(110)을 착용한 통화자의 음성을 수집할 수 있는 위치에 배치될 수 있다. 그리고 외부 소리를 좌측마이크(111) 및 우측마이크(112) 각각에 전달하기 위해, 예를 들어 좌측마이크(111) 및 우측마이크(112)와 각각 통해져서 소리 파동이 전달될 수 있는 소리 홀이, 이어폰(110)이 통화자의 외귀에 착용된 상태에서 외부에 노출되는 위치에 형성될 수 있다.The left microphone 111 and the right microphone 112 may be placed at a location where the voice of a caller wearing the earphone 110 can be collected. And in order to transmit external sounds to the left microphone 111 and the right microphone 112, for example, a sound hole through which sound waves can be transmitted through the left microphone 111 and the right microphone 112, respectively, The earphone 110 may be formed in a position exposed to the outside while worn on the caller's outer ear.

증폭기(113)는 음성 신호의 게인(gain)을 증폭하는 기능을 갖는다. 예를 들어 증폭기는 PGA(programmable gain amplifier) 형태로 구현될 수 있다.The amplifier 113 has the function of amplifying the gain of the voice signal. For example, the amplifier may be implemented in the form of a programmable gain amplifier (PGA).

ADC(114)는 아날로그-디지털 변환기(analog to digital converter)에 해당한다. ADC(114)는 아날로그 값의 오디오 신호를 디지털 값의 오디오 신호로 변환하는 기능을 갖는다. 구체적으로 ADC(114)는 표본화(sampling), 양자화(quantization) 및 부호화(encoding)를 통해 오디오 신호를 생성할 수 있다.ADC 114 corresponds to an analog to digital converter. The ADC 114 has the function of converting an analog audio signal into a digital audio signal. Specifically, the ADC 114 can generate an audio signal through sampling, quantization, and encoding.

신호분리기(115)는 복수의 음원에서 비롯된 오디오신호 중에서 특정 음원에서 비롯된 오디오신호를 분리하는 기능을 갖는다. 예를 들어 신호분리기(115)는, 전체 음원에서 발생된 소리에서 주변음과 구별되는 통화자의 음성에 대응되는 음성신호를 분리하는 기능을 갖는다.The signal separator 115 has the function of separating audio signals originating from a specific sound source from audio signals originating from a plurality of sound sources. For example, the signal separator 115 has the function of separating the voice signal corresponding to the caller's voice, which is distinguished from the surrounding sounds, from the sound generated from all sound sources.

입출력부(116)는 입출력인터페이스(130)를 구성하는 요소 중에서 이어폰(110)에 포함된 무선통신모듈, 예를 들어 블루투스모듈을 말한다. 입출력부(116)는 전화디바이스(100)의 연결을 통해 신호의 입력 및 출력을 가능하도록 한다.The input/output unit 116 refers to a wireless communication module included in the earphone 110, for example, a Bluetooth module, among the elements constituting the input/output interface 130. The input/output unit 116 enables input and output of signals through connection to the telephone device 100.

무선통신모듈, 특히 블루투스모듈은, 무선통신을 위한 통신프로토콜에 해당하는 복수의 마이크 및 복수의 채널을 통해 녹음된 오디오신호에 관한 입출력 규정을 포함하는 프로파일을 포함할 수 있다. 통화자 사이의 대화음은 모노 방식에 한정되지 않고, 2개의 마이크 및 2개의 채널을 이용한 스테레오 방식으로 수집될 수 있다.A wireless communication module, especially a Bluetooth module, may include a profile including input/output regulations for audio signals recorded through a plurality of microphones and a plurality of channels corresponding to a communication protocol for wireless communication. Conversation sounds between callers are not limited to mono, but can be collected in stereo using two microphones and two channels.

제어기(117)는 이어폰(110)의 전체 구성요소의 동작을 제어하고, 신호 처리 기능을 수행하는 제어기, 예를 들어 디지털 신호 제어기(digital signal processor)를 이용하여 구현될 수 있다.The controller 117 may be implemented using a controller that controls the operation of all components of the earphone 110 and performs a signal processing function, for example, a digital signal processor.

좌측스피커(118) 및 우측스피커(119)는 원격의 제2통화자가 이용하는 제2 디바이스(102)으로부터 송신되고, 제1디바이스(101)가 수신하여 이어폰(110)에 전달된 오디오신호를 소리로 변환하여 출력하는 기능을 갖는다. 그 밖에 좌측스피커(118) 및 우측스피커(119)는 제1디바이스(101)의 오디오 출력 기능을 갖는다.The left speaker 118 and right speaker 119 convert the audio signal transmitted from the second device 102 used by the remote second caller, received by the first device 101, and delivered to the earphone 110 into sound. It has the function of converting and outputting. In addition, the left speaker 118 and the right speaker 119 have the audio output function of the first device 101.

DAC(120)는 좌측스피커(118) 및 우측스피커(119)를 통해 소리를 출력하기 위해 디지털 타입의 오디오신호를 아날로그 타입의 오디오신호로 변환하는 기능을 갖는다.The DAC 120 has the function of converting a digital audio signal into an analog audio signal in order to output sound through the left speaker 118 and the right speaker 119.

오디오믹서(121)는 소프트웨어 방식을 이용하여 통화자의 음성신호와 주변음신호를 서로 혼합하는 기능을 갖는다.The audio mixer 121 has the function of mixing the caller's voice signal and surrounding sound signals using a software method.

사용자인터페이스(122)는 이어폰(110) 자체의 기능 제어 또는 전화디바이스(100)와 연계된 이어폰(110)의 기능 제어를 위한 사용자 입력을 읽어 들이는 기능을 갖는다.The user interface 122 has a function of reading user input for controlling the function of the earphone 110 itself or the function of the earphone 110 linked to the telephone device 100.

배터리(123)는, 좌측마이크(111), 우측마이크(112), 증폭기(113), ADC(114), 신호분리기(115), 입출력부(116), 좌측스피커(118), 우측스피커(119), DAC(120), 오디오믹서(121) 및 사용자인터페이스(122)와 같은 이어폰(110)의 구성요소에 구동 전력을 공급하는 기능을 가지며, 충전, 과충전 방지 및 전력 관리 기능을 수행하는 회로 내지는 모듈을 포함하도록 구성될 수 있다.The battery 123 includes a left microphone 111, a right microphone 112, an amplifier 113, an ADC 114, a signal separator 115, an input/output unit 116, a left speaker 118, and a right speaker 119. ), a circuit that has the function of supplying driving power to components of the earphones 110 such as the DAC 120, the audio mixer 121, and the user interface 122, and performs charging, overcharge prevention, and power management functions. It can be configured to include modules.

HRTF DB(124)는 각종 머리전달함수가 저장된 데이터베이스(DB)에 해당한다.The HRTF DB 124 corresponds to a database (DB) in which various head transfer functions are stored.

도 5는 머리전달함수를 설명하기 위한 예시도이다.Figure 5 is an example diagram for explaining the head transfer function.

도 5를 참조하면, 머리전달함수(head related transfer function, HRTF)는 동일한 소리를 전방위에서 발생시켜 방향에 따른 주파수 반응을 측정하여 3차원 함수로 정리한 것을 말한다.Referring to Figure 5, the head related transfer function (HRTF) refers to generating the same sound in all directions, measuring the frequency response according to direction, and organizing it into a three-dimensional function.

x(t)는 특정 위치에서 발생된 소리 값, hL(t)는 소리 발생 위치와 좌측 귀의 위치 사이의 공간에 대응하는 좌측머리전달함수, hR(t)는 소리 발생 위치와 우측 귀의 위치 사이의 공간에 대응하는 우측머리전달함수, XL(t)는 발생된 소리값에 좌측머리전달함수를 곱하여 생성된 좌측 귀에 들리는 소리값, XR(t)는 발생된 소리값에 우측머리전달함수를 곱하여 생성된 우측 귀에 들리는 소리값을 뜻한다.x(t) is the sound value generated at a specific location, h L (t) is the left head transfer function corresponding to the space between the sound generation location and the left ear location, and h R (t) is the sound generation location and the right ear location. The right head transfer function corresponding to the space between, This refers to the sound value heard in the right ear generated by multiplying the function.

임의의 소스 x(t)가 고막에서 생성하는 음압을 찾으려면 소스에서 고막까지의 임펄스 응답 h(t)만 있으면 된다. 이것을 HRIR(Head-Related Impulse Response)이라고 하며, 푸리에변환 H(f)를 HRTF(Head Related Transfer Function)라고 한다. HRTF는 소스 현지화에 대한 모든 물리적 신호를 캡처한다. 왼쪽 귀와 오른쪽 귀에 대한 HRTF를 알면 모노 소스에서 정확한 바이노럴 신호를 합성할 수 있다.To find the sound pressure that an arbitrary source x(t) produces at the eardrum, all we need is the impulse response h(t) from the source to the eardrum. This is called HRIR (Head-Related Impulse Response), and the Fourier transform H(f) is called HRTF (Head Related Transfer Function). HRTF captures all physical signals for source localization. Knowing the HRTF for the left and right ears allows you to synthesize an accurate binaural signal from a mono source.

HRTF는 세 개의 공간 좌표와 주파수라는 네 가지 변수의 복잡한 함수이다. 구면 좌표에서 거리가 약 1미터 이상인 경우 소스는 원거리 필드에 있으며 HRTF는 범위에 반비례한다. 대부분의 HRTF 측정은 기본적으로 HRTF를 방위각, 고도 및 주파수의 함수로 줄이는 원거리 필드에서 이루어진다.HRTF is a complex function of four variables: three spatial coordinates and frequency. For distances greater than about 1 meter in spherical coordinates, the source is in the far field and HRTF is inversely proportional to range. Most HRTF measurements are made in the far field, essentially reducing HRTF as a function of azimuth, elevation, and frequency.

KEMAR로 알려진 음향 인체 모형에 대해 일련의 HRIR 측정이 수행될 수 있다. KEMAR는 청각 연구를 위한 Knowles Electronics 인체 모형을 의미한다.A series of HRIR measurements can be performed on an acoustic manikin known as KEMAR. KEMAR stands for Knowles Electronics Manikin for Hearing Research.

해부학적 전달 함수(anatomical transfer function, ATF)라고도 하는 머리 전달함수(head-related transfer function, HRTF)는 귀가 공간의 한 지점에서 소리를 받는 방식을 특성화하는 응답이다. 소리가 듣는 사람을 때리면 머리, 귀, 외이도의 크기와 모양, 머리의 밀도, 비강과 구강의 크기와 모양이 모두 소리를 변형하고 인식하는 방식에 영향을 미치며 일부 주파수는 증폭하고 다른 주파수는 감쇄한다. 일반적으로 HRTF는 2,700Hz에서 +17dB의 기본 공진으로 주파수를 2-5kHz로 높인다. 그러나 응답 곡선은 단일 범프보다 더 복잡하고 광범위한 주파수 스펙트럼에 영향을 미치며 사람마다 크게 다르다.The head-related transfer function (HRTF), also called anatomical transfer function (ATF), is a response that characterizes how the ear receives sound from a point in space. When sound strikes a listener, the size and shape of the head, ears, and external auditory canals, the density of the head, and the size and shape of the nasal and oral cavities all modify the sound and affect how it is perceived, amplifying some frequencies and attenuating others. . Typically, the HRTF increases the frequency to 2-5 kHz with a fundamental resonance of +17 dB at 2,700 Hz. However, response curves are more complex than a single bump, affect a wide spectrum of frequencies, and vary greatly from person to person.

두 귀를 위한 한 쌍의 HRTF는 공간의 특정 지점에서 나오는 것처럼 보이는 바이노럴 사운드를 합성하는 데 사용할 수 있다. 특정 지점의 소리가 귀(일반적으로 이도의 바깥쪽 끝)에 도달하는 방식을 설명하는 전달 함수이다. 스테레오(2스피커) 헤드폰에서 서라운드 사운드를 재생하도록 설계된 일부 소비자 홈 엔터테인먼트 제품은 HRTF를 사용한다. 일부 형태의 HRTF 처리는 또한 확성기에서 서라운드 사운드 재생을 시뮬레이션하기 위해 컴퓨터 소프트웨어에 포함되었다.A pair of HRTFs for both ears can be used to synthesize binaural sounds that appear to come from specific points in space. It is a transfer function that describes how sound from a specific point reaches the ear (usually the outer end of the ear canal). Some consumer home entertainment products designed to reproduce surround sound on stereo (two-speaker) headphones use HRTF. Some form of HRTF processing has also been included in computer software to simulate surround sound reproduction from loudspeakers.

인간은 귀가 두 개뿐이지만 범위(거리)(r), 위아래 방향(고도)(φ), 앞뒤와 양쪽(방위각)(θ)의 3차원으로 소리를 찾을 수 있다. 이것은 뇌, 내이 및 외이(귓바퀴)가 함께 작동하여 위치를 추론하기 때문에 가능한 것이다.Although humans only have two ears, they can find sounds in three dimensions: range (distance) (r), up and down direction (altitude) (ϕ), and front and back and both sides (azimuth) (θ). This is possible because the brain, inner ear, and outer ear (pinna) work together to infer location.

음원의 위치를 파악하는 이 능력은 인간과 조상에게 진화의 필수 요소로 발전했을 수 있다. 눈은 보는 사람 주변 세계의 일부만 볼 수 있고 시력은 어둠 속에서 방해받는 반면 음원의 위치를 파악하는 능력은, 주변 조명에 관계없이 모든 방향에서 다양한 정확도로 작동하기 때문이다.This ability to localize sound sources may have developed as an evolutionary necessity in humans and their ancestors. This is because the eye can only see part of the world around the viewer and vision is impaired in the dark, while its ability to localize sound sources operates with varying accuracy in all directions, regardless of ambient lighting.

인간은 파생된 신호(mono queue)를 한쪽 귀에서 취하고, 양쪽 귀에서 수신된 큐, 즉 차이큐 또는 바이노럴큐(difference queue, or binaural queue)를 비교하여 소스의 위치를 추정한다. 차이 신호 중에는 도착 시간의 차이와 강도의 차이가 있다. 모노 신호는 음원과 인체 해부학 간의 상호 작용에서 비롯되며, 여기서 원래 음원 사운드는 청각 시스템에서 처리하기 위해 외이도에 들어가기 전에 수정된다. 이러한 수정은 소스 위치를 인코딩하고 소스 위치와 귀 위치와 관련된 임펄스 응답을 통해 캡처될 수 있다. 이 임펄스 응답을 머리임펄스응답(head-related impulse response, HRIR)이라 한다. 머리임펄스응답을 사용한 임의의 소스 사운드의 컨볼루션은 사운드가 소스 위치에서 재생되고 청취자의 귀가 수신기 위치에 있는 경우 청취자가 들을 수 있는 소리로 변환한다. 머리임펄스응답은 가상 서라운드 사운드를 생성하는 데 사용된다.Humans estimate the location of the source by taking the derived signal (mono queue) from one ear and comparing it with the queue received from both ears, that is, the difference queue, or binaural queue. Among the difference signals are differences in arrival times and differences in intensity. Mono signals result from the interaction between a sound source and human anatomy, where the original sound source is modified before entering the ear canal for processing by the auditory system. These modifications encode the source location and can be captured through impulse responses related to the source location and ear location. This impulse response is called the head-related impulse response (HRIR). Convolution of any source sound with the head impulse response converts the sound into a sound that the listener can hear if the sound is reproduced at the source location and the listener's ears are at the receiver location. Head impulse response is used to create virtual surround sound.

머리전달함수(HRTF)는 머리임펄스응답(HRIR)의 푸리에 변환(fourier transform)에 해당한다.The head transfer function (HRTF) corresponds to the Fourier transform of the head impulse response (HRIR).

왼쪽귀에 대한 머리전달함수(hL(t)) 및 오른쪽귀에 대한 머리전달함수(hR(t))는 왼쪽귀 및 오른쪽귀에서 각각 xL(t) 및 xR(t)로 인식되기 전에 음원(x(t))의 필터링을 설명한다.Before the head transfer function for the left ear (h L (t)) and the head transfer function for the right ear (h R (t)) are perceived as x L (t) and x R (t) in the left and right ears, respectively. The filtering of the sound source (x(t)) is explained.

머리전달함수는 또한 자유 음장에서 고막에 도달할 때 소리(xL(t), xR(t))로의 소리(x(t))의 수정으로 설명될 수 있다. 이러한 수정에는 청취자의 외이의 모양, 청취자의 머리와 몸의 모양, 소리가 재생되는 공간의 음향적 특성 등이 포함된다. 이러한 모든 특성은 청취자가 소리가 나오는 방향을 정확히 알 수 있는 방법(또는 여부)에 영향을 미친다.The head transfer function can also be described as the modification of sound (x(t)) into sound (x L (t), x R (t)) when it reaches the eardrum in the free sound field. These modifications include the shape of the listener's outer ears, the shape of the listener's head and body, and the acoustic characteristics of the room in which the sound is reproduced. All of these characteristics affect how (or whether) the listener can tell exactly where a sound is coming from.

AES69-2015 표준에서 AES(Audio Engineering Society)는 머리전달 함수와 같은 공간 지향 음향 데이터를 저장하기 위한 SOFA 파일 형식을 정의했다. SOFA 소프트웨어 라이브러리 및 파일은 소파 컨벤션 웹사이트에서 수집된다.In the AES69-2015 standard, the Audio Engineering Society (AES) defined the SOFA file format for storing spatially oriented acoustic data such as head transfer functions. SOFA software libraries and files are collected from the SOFA Convention website.

좌측마이크(111), 우측마이크(112), 증폭기(113), ADC(114), 신호분리기(115), 입출력부(116), 좌측스피커(118), 우측스피커(119), DAC(120), 오디오믹서(121), 및 사용자인터페이스(122)는 배터리(123)로부터 구동 전력을 공급 받는 전자 부품에 해당하고, 이들과 배터리는 각 단자를 포함하고 있어서, 해당 단자들은 PCB에 배치된 연결 단자에 전기적으로 연결될 수 있다.Left microphone (111), right microphone (112), amplifier (113), ADC (114), signal separator (115), input/output unit (116), left speaker (118), right speaker (119), DAC (120) , the audio mixer 121, and the user interface 122 correspond to electronic components that receive driving power from the battery 123, and these and the battery include respective terminals, and the corresponding terminals are connection terminals arranged on the PCB. can be electrically connected to.

도 3과 도 4를 다시 참조하면, 이어폰(110)의 신호분리기(115) 및 오디오믹서(121)는 전화디바이스(100) 내에 포함되도록 구성될 수도 있다.Referring again to FIGS. 3 and 4, the signal separator 115 and the audio mixer 121 of the earphone 110 may be configured to be included in the telephone device 100.

제1디바이스(101)를 사용하는 제1통화자 및 제2디바이스(102)를 사용하는 제2통화자 사이의 통화에 있어서, 본 발명의 일 실시 예에 따른 이어폰(110)은 제1디바이스(101)에 연결되면서도, 제2디바이스(102)에는 연결되지 않을 수도 있다. 따라서 제1디바이스(101)는 이어폰(110)을 통해 제1통화자의 제1음성 신호를 제1주변음신호와 분리한 상태에서 제2디바이스에 전송하고, 제2디바이스(102)에서 수신된 RX신호에 제2음성신호가 분리되지 않은 체 포함된 경우, 제2 주변음신호와 제2음성신호를 서로 분리하도록 구성될 수 있다.In a call between a first caller using the first device 101 and a second caller using the second device 102, the earphone 110 according to an embodiment of the present invention is the first device ( Although connected to 101), it may not be connected to the second device 102. Therefore, the first device 101 transmits the first voice signal of the first caller through the earphone 110 to the second device while separating it from the first ambient sound signal, and the RX received from the second device 102 When the second voice signal is included in the signal without being separated, the second peripheral sound signal and the second voice signal may be separated from each other.

즉 무선통신부(140)는, 패킷 처리된 제1음성신호 및 제1주변음신호를 제2디바이스에 송신하되, 제1통화자의 제1디바이스는 제1음성신호가 오디오신호로부터 분리된 신호임을 패킷에 표시하도록 구성될 수 있다.That is, the wireless communication unit 140 transmits the packet-processed first voice signal and the first ambient sound signal to the second device, and the first device of the first caller transmits the packet that the first voice signal is a signal separated from the audio signal. It can be configured to display.

그리고 신호분리기(115)는, 제2오디오신호의 패킷에 분리된 신호라는 표시가 없는 경우, 제2오디오신호에서 제2통화자의 음성신호를 분리하도록 구성될 수 있다.And the signal separator 115 may be configured to separate the voice signal of the second caller from the second audio signal when there is no indication that the packet of the second audio signal is a separated signal.

도 6은 본 발명의 일 실시 예에 따른 신호 분리의 예시도이다.Figure 6 is an exemplary diagram of signal separation according to an embodiment of the present invention.

도 6을 참조하면, 마이크(111, 112)를 통해 수집된 오디오 신호에서 통화자의 음성 신호를 분리하는 예시 과정이 묘사되어 있다.Referring to Figure 6, an example process for separating the caller's voice signal from the audio signal collected through the microphones 111 and 112 is depicted.

좌측마이크(111)를 통해 수집된 소리 파동 W1L 및 W(n-1)L은 좌측마이크(111), 증폭기(113) 및 ADC(114)를 통해 디지털 타입의 오디오 신호에 해당하는 S1L, S(n-1)L로 변환될 수 있다.The sound waves W1 L and W (n-1)L collected through the left microphone 111 are S 1L , which corresponds to a digital type audio signal, through the left microphone 111, amplifier 113, and ADC 114. It can be converted to S (n-1)L .

우측마이크(112)를 통해 수집된 소리 파동 W1R 및 W(n-1)R은 우측마이크(112), 증폭기(113) 및 ADC(114)를 통해 디지털 타입의 오디오 신호에 해당하는 S1R, S(n-1)R로 변환될 수 있다.The sound waves W 1R and W (n-1)R collected through the right microphone 112 are S 1R corresponding to a digital type audio signal through the right microphone 112, amplifier 113, and ADC 114. It can be converted to S (n-1)R .

신호분리기(115)는, 다양한 방법을 이용하여 통화자의 음성에 해당하는 S1L 또는 S1R 신호를 S1R, S1L, S(n-1)L, S1R, 및 S(n-1)R을 포함하는 입력 값으로부터 분리할 수 있다.The signal separator 115 uses various methods to separate the S 1L or S 1R signals corresponding to the caller's voice into S 1R , S 1L , S (n-1)L , S 1R , and S (n-1)R It can be separated from input values containing .

S1L 신호와 S1R 신호는 서로 동일 또는 유사한 신호(coherent signals)에 해당한다. 주변음과 구별되는 통화자의 음성은 좌측마이크(111) 및 우측마이크(112)에 대해서 동일한 거리에 있는 통화자의 입에서 비롯된 것이므로, 음성학적으로 동일한 주파수 특성을 갖는 신호에 해당될 수 있다. 따라서 서로 동일한 주파수 특성을 갖는 좌측음성신호(S1L) 및 우측음성신호(S1R)가 주변음 신호와 분리될 수 있다. 구체적으로 신호분리기(115)는 상관관계 분석(correlation analysis)을 통해 주파수 특성이 가장 유사한 것으로 분석되는 좌측음성신호(S1L) 및 우측음성신호(S1R) 중에서 적어도 하나의 신호를 출력할 수 있다.The S 1L signal and the S 1R signal correspond to the same or similar signals (coherent signals). Since the caller's voice, which is distinguished from the surrounding sounds, originates from the mouth of the caller at the same distance from the left microphone 111 and the right microphone 112, it may correspond to a signal having the same frequency characteristics phonetically. Therefore, the left voice signal (S 1L ) and the right voice signal (S 1R ), which have the same frequency characteristics, can be separated from the surrounding sound signal. Specifically, the signal separator 115 can output at least one signal among the left voice signal (S 1L ) and the right voice signal (S 1R ) whose frequency characteristics are analyzed to be most similar through correlation analysis. .

그 밖에 신호분리기(115)는 녹음된 통화자의 음성 데이터를 학습 데이터를 이용하여 학습 및 훈련된, 인공지능 알고리즘에 기반하는 인공 신경망, 예들 들어 순환 신경망(recurrent neutral network, RNN) 모델을 이용하여 통화자의 음성의 주파수 특성의 분류를 통해 통화자의 음성 신호를 추출하도록 구성될 수 있다.In addition, the signal separator 115 uses an artificial neural network based on an artificial intelligence algorithm, for example, a recurrent neutral network (RNN) model, to learn and train the recorded voice data of the caller using learning data. It may be configured to extract the caller's voice signal through classification of the frequency characteristics of the person's voice.

제1통화자 및 제2통화자 사이에서 본 발명의 일 실시 예에 따른 이어폰(110) 및 전화디바이스(100)에 의해 수행될 수 있는 통화방법에 대해 설명하기로 한다. 제1통화자가 본 발명의 일 실시 예에 따른 이어폰(110)이 포함된 전화디바이스(100)에 해당하는 제1디바이스(101)를 이용하여 제2 통화자와 음성 통화를 하는 상황을 가정한다. 제2통화자도 본 발명의 일 실시 예에 따른 이어폰(110)을 이용할 수 있지만, 이에 한정되는 것은 아니다.A call method that can be performed between a first caller and a second caller using the earphone 110 and the telephone device 100 according to an embodiment of the present invention will be described. Assume a situation where a first caller makes a voice call with a second caller using the first device 101, which is a phone device 100 including an earphone 110 according to an embodiment of the present invention. The second caller can also use the earphone 110 according to an embodiment of the present invention, but is not limited to this.

본 발명의 일 실시 예에 따른 통화방법(S10)은 이어폰(110)과 전화디바이스(100)의 이용방법을 포함한다. 통화방법(S10)을 구성하는 각 단계들은, 제1디바이스(101)에 해당하는 전화디바이스(100), 전화디바이스(100)에 포함된 이어폰(110) 및 이어폰(110)에 포함된 제어기(117)의 상호작용에 의해 수행될 수 있다.The phone call method (S10) according to an embodiment of the present invention includes a method of using the earphone 110 and the phone device 100. Each step of the phone call method (S10) includes a phone device 100 corresponding to the first device 101, an earphone 110 included in the phone device 100, and a controller 117 included in the earphone 110. ) can be performed by the interaction of.

통화방법(S10)은, 수신된 RX신호를 이용하여 상대방 통화자인 제2통화자의 음성을 출력하는 단계를 묘사하는 통화방법(S100, S200)과, 제1통화자의 음성이 포함된 TX신호를 제2통화자측의 제2디바이스(102)에 송신하는 단계를 묘사하는 통화방법(S300)을 포함하도록 구성될 수 있다.The call method (S10) includes a call method (S100, S200) depicting the step of outputting the voice of the second caller, the other caller, using the received RX signal, and a TX signal containing the voice of the first caller. It may be configured to include a call method (S300) that describes the step of transmitting to the second device 102 on the second caller.

도 7은 본 발명의 일 실시 예에 따른 통화방법의 흐름도이다.Figure 7 is a flowchart of a call method according to an embodiment of the present invention.

도 7을 참조하면, 통화방법(S100)은, 제2오디오신호가 포함된 RX신호 수신(S111), HRTF를 이용하여 제2오디오신호에 바이노럴 렌더링 수행(S114) 및 바이노럴 렌더링이 적용된 제2오디오신호 출력(S115)을 포함하도록 구성될 수 있다.Referring to FIG. 7, the calling method (S100) includes receiving an RX signal including a second audio signal (S111), performing binaural rendering on the second audio signal using HRTF (S114), and binaural rendering. It may be configured to include an applied second audio signal output (S115).

구체적으로, 제1통화자 측에서 수집된 제1통화자의 제1음성 및 제1주변음에 대응하는 제1오디오신호의 송신 및 제2통화자 측에서 수집된 제2통화자의 제2음성 및 제2주변음에 대응하는 제2오디오신호의 수신을 통한 제1통화자의 제1디바이스(1010 및 제2통화자의 제2디바이스(102) 간의 음성 통화 중에 제1디바이스(101)에 연결된 이어폰(110) 및 제1디바이스(101)에 의해 수행하는 통화 방법이 묘사될 수 있다.Specifically, transmission of a first audio signal corresponding to the first voice and first ambient sound of the first caller collected from the first caller side and the second voice and first ambient sound of the second caller collected from the second caller side. 2Earphones 110 connected to the first device 101 during a voice call between the first device 1010 of the first caller and the second device 102 of the second caller through reception of a second audio signal corresponding to ambient sound And a call method performed by the first device 101 may be depicted.

전화디바이스(100)는 제2오디오신호가 포함된 RX신호를 수신할 수 있다(S110). RX신호는 제2디바이스(102)가 송신하고, 제1디바이스(101)가 수신한 신호이다. RX신호는, 기본적으로 제2디바이스(102)가 수집한 제2통화자의 제2음성신호를 포함한다. 제2음성신호는 제2통화자의 음성에 대응되는 음성신호로서, 제2통화자가 속한 공간에서 발생되는 전체 소리에 대응하는 제2오디오신호와 구별된다. 즉 제2오디오신호는 제2음성신호 및 제2주변음신호를 포함할 수 있다.The telephone device 100 can receive an RX signal including a second audio signal (S110). The RX signal is a signal transmitted by the second device 102 and received by the first device 101. The RX signal basically includes the second voice signal of the second caller collected by the second device 102. The second voice signal is a voice signal corresponding to the voice of the second caller and is distinguished from the second audio signal corresponding to the entire sound generated in the space where the second caller belongs. That is, the second audio signal may include a second voice signal and a second ambient sound signal.

전화디바이스(100)가 제2통화자측의 제2디바이스(102)로부터 수신한 RX신호는, 제2음성신호와 제2주변음신호를 서로 분리된 상태 또는 서로 혼재된 상태로 포함할 수 있다. 제2디바이스(102)가 본 발명의 일 실시 예에 따른 이어폰(110)을 포함할 경우, 제2디바이스(102)는 제2음성신호와 제2주변음신호를 서로 분리된 상태로 전화디바이스(100)에 해당하는 제1디바이스(101)에 전송할 수 있을 것이다.The RX signal received by the telephone device 100 from the second device 102 of the second caller may include the second voice signal and the second ambient sound signal in a state that is separated from each other or mixed with each other. When the second device 102 includes an earphone 110 according to an embodiment of the present invention, the second device 102 is a telephone device ( It may be transmitted to the first device 101 corresponding to 100).

전화디바이스(100)가 RX신호를 수신하면, 이어폰(110)은, 스피커를 통해 출력할 수 있는 형태로 가공된 RX신호를 입출력부(116)를 통해 수신할 수 있다.When the telephone device 100 receives the RX signal, the earphone 110 can receive the RX signal processed into a form that can be output through the speaker through the input/output unit 116.

본 발명의 일 실시 예에 따라 이어폰(110)이 제2음성신호와 제2주변음신호를 서로 분리된 상태로 수신한 경우, 이어폰(110)은 머리전달함수(head related transfer function, HRTF)를 이용하여 제2오디오신호, 즉 제2음성신호 및 제2주변신호 중에서 적어도 하나의 신호에 바이노럴 렌더링을 수행할 수 있다(S130). 이어폰(110)은 제2음성신호에만 바이노럴 렌더링을 수행할 수 있다. 또는, 이어폰(110)은 제2음성신호와 제2주변음신호 모두에 바이노럴 렌더링을 수행할 수 있다. 이 경우, 제어기(117)는 양 신호의 레벨을 조정함으로 제2주변음신호 대비 제2음성신호의 출력을 높게 할 수 있다. 또는 제어기(117)는 각각에 적용되는 머리전달함수를 제어함으로써, 제2음성은 제1통화자의 귓가에서 들리는 것처럼 하고, 제2주변음은 원격지에서 들리는 것처럼 할 수 있다.According to an embodiment of the present invention, when the earphones 110 receive the second voice signal and the second ambient sound signal in a separated state, the earphones 110 perform a head related transfer function (HRTF). Binaural rendering can be performed on at least one signal among the second audio signal, that is, the second voice signal and the second peripheral signal (S130). The earphone 110 can perform binaural rendering only on the second voice signal. Alternatively, the earphone 110 may perform binaural rendering on both the second voice signal and the second ambient sound signal. In this case, the controller 117 can increase the output of the second voice signal compared to the second ambient sound signal by adjusting the levels of both signals. Alternatively, the controller 117 can control the head transfer function applied to each, so that the second voice appears to be heard in the ear of the first caller, and the second ambient sound can be made to sound as if it is heard from a remote location.

이어폰(110)은 바이노럴 렌더링이 적용된 제2오디오신호를 출력할 수 있다(S150). 즉 이어폰(110)의 좌측스피커(118)와 우측스피커(119)는 머리전달함수가 적용된 제2통화자의 제2음성만을, 또는 제2주변음이 적절한 출력배분으로 머리전달함수가 적용된 제2음성과 제2주변음이 혼합된 제2오디오신호를 소리 형태로 출력할 수 있다.The earphone 110 may output a second audio signal to which binaural rendering is applied (S150). That is, the left speaker 118 and the right speaker 119 of the earphone 110 only listen to the second voice of the second caller to which the head transfer function is applied, or the second voice to which the head transfer function is applied with appropriate output distribution of the second ambient sound. A second audio signal mixed with the second ambient sound can be output in the form of sound.

도 8은 본 발명의 일 실시 예에 따른 통화방법의 흐름도이다.Figure 8 is a flowchart of a call method according to an embodiment of the present invention.

도 8을 참조하면, 통화방법(S200)은, 제2오디오신호가 포함된 RX신호 수신(S210), 제2오디오신호에 제2음성신호의 분리여부 확인(S211), 제2음성신호가 분리되지 않은 경우, 제2음성신호 분리(S213), HRTF를 이용하여 제2음성신호에 바이노럴 렌더링 수행(S230) 및 바이노럴 렌더링이 적용된 제2음성신호 출력(S250)을 포함하도록 구성될 수 있다.Referring to FIG. 8, the calling method (S200) includes receiving an RX signal including a second audio signal (S210), checking whether the second voice signal is separated from the second audio signal (S211), and separating the second voice signal from the second audio signal (S211). If not, it will be configured to include separating the second voice signal (S213), performing binaural rendering on the second voice signal using HRTF (S230), and outputting the second voice signal to which binaural rendering is applied (S250). You can.

구체적으로, 전화디바이스(100)는, 통화방법(S100)에 추가적으로, 수신된 RX신호에 대해 RX신호의 패킷을 이용하여 제2오디오신호에서 제2통화자의 제2음성에 대응하는 제2음성신호의 분리 여부를 확인할 수 있다(S211). 즉 제1디바이스(101)가, 제2음성과 제2주변음에 해당하는 제2오디오신호를, 제2음성신호와 제2주변음신호가 분리되지 않은 상태로 제2디바이스(102)로부터 수신한 경우, 제1디바이스(101)는 RX신호의 패킷에 포함된 표시를 이용하여 분리되지 않은 사실을 확인할 수 있다. 제2디바이스는, 비분리 사실을 제1디바이스(101)에 알리기 위해, RX신호의 패킷에 위의 표시를 포함시킬 수 있다.Specifically, in addition to the call method (S100), the telephone device 100 uses a packet of the RX signal for the received RX signal to generate a second voice signal corresponding to the second voice of the second caller from the second audio signal. You can check whether the is separated (S211). That is, the first device 101 receives the second audio signal corresponding to the second voice and the second ambient sound from the second device 102 in a state in which the second voice signal and the second ambient sound signal are not separated. In one case, the first device 101 can confirm the fact that there has been no separation using an indication included in the packet of the RX signal. The second device may include the above indication in the packet of the RX signal in order to notify the first device 101 of the fact of non-separation.

만약 상기 RX신호에 제2통화자의 제2음성신호가 분리되지 않은 체 포함된 경우, 전화디바이스(100)는 제2오디오신호에서 제2음성에 대응하는 제2음성신호를 분리할 수 있다. 제2오디오신호에 포함된 제2음성에 해당하는 제2음성신호 및 제2주변음에 해당하는 제2주변음신호를 분리하는 과정은 도 6에 묘사된 신호분리기(115)에 의해 수행될 수 있다.If the RX signal includes the second voice signal of the second caller without being separated, the telephone device 100 can separate the second voice signal corresponding to the second voice from the second audio signal. The process of separating the second voice signal corresponding to the second voice included in the second audio signal and the second ambient sound signal corresponding to the second ambient sound can be performed by the signal separator 115 depicted in FIG. 6. there is.

이어폰(110)은 제2음성신호에 바이노럴 렌더링을 수행할 수 있다(S230). 즉 제2오디오신호에서 제2음성신호와 제2주변음신호가 분리되면, 이어폰(110)은 제2음성신호 및 제2주변음신호 중에서 적어도 하나의 신호에 바이노럴 렌더링을 수행할 수 있다.The earphone 110 can perform binaural rendering on the second voice signal (S230). That is, when the second voice signal and the second ambient sound signal are separated from the second audio signal, the earphone 110 can perform binaural rendering on at least one signal among the second voice signal and the second ambient sound signal. .

이어폰(110)은 제2음성신호를 출력할 수 있다(S250). 즉 제2오디오신호에서 제2음성신호와 제2주변음신호가 분리되면, 이어폰(110)은 제2음성신호 및 제2주변음신호 중에서 적어도 하나의 신호에 바이노럴 렌더링이 적용된 소리를 출력할 수 있다.The earphone 110 can output a second voice signal (S250). That is, when the second voice signal and the second ambient sound signal are separated from the second audio signal, the earphone 110 outputs a sound with binaural rendering applied to at least one signal among the second voice signal and the second ambient sound signal. can do.

제2디바이스(102)가 본 발명의 일 실시 예에 따른 이어폰(110)을 포함하는 전화디바이스(100)에 해당할 경우, 즉 제1디바이스(101)가, 서로 분리된 상태로 RX신호에 포함된 제2음성신호 및 제2주변음신호를 수신한 경우, 제1디바이스(101)에 해당하는 전화디바이스(100)는, TX신호에 포함될 제1오디오신호를, 제1음성신호 및 제2주변음신호로 서로 분리하도록 구성될 수 있다.When the second device 102 corresponds to the phone device 100 including the earphone 110 according to an embodiment of the present invention, that is, the first device 101 is included in the RX signal while being separated from each other. When receiving the second voice signal and the second peripheral sound signal, the telephone device 100 corresponding to the first device 101 receives the first audio signal to be included in the TX signal, the first voice signal and the second peripheral sound signal. It can be configured to separate from each other with sound signals.

도 9는 본 발명의 일 실시 예에 따른 통화방법의 흐름도이다.Figure 9 is a flowchart of a call method according to an embodiment of the present invention.

도 9를 참조하면, 통화방법(S300)은, TX신호에 포함될 제1음성신호의 생성(S310), 양측마이크를 이용하여 제1오디오신호 생성(S311), 제1오디오신호로부터 제1음성신호와 제1주변신호 분리(S313), TX신호의 제2디바이스에 송신(S320), 제1음성신호 및 제1주변음 신호의 패킷 처리(S321) 및 제1음성신호가 분리된 신호임을 패킷에 표시(S323)를 포함하도록 구성될 수 있다.Referring to FIG. 9, the calling method (S300) includes generating a first voice signal to be included in the TX signal (S310), generating a first audio signal using both microphones (S311), and generating a first voice signal from the first audio signal (S311). and separation of the first peripheral signal (S313), transmission of the TX signal to the second device (S320), packet processing of the first voice signal and the first peripheral sound signal (S321), and confirmation that the first voice signal is a separated signal in the packet. It may be configured to include a display (S323).

구체적으로, 전화디바이스(100)는 TX신호에 포함될 제1음성에 대응하는 제1음성신호를 생성할 수 있다(S310). 제1오디오는 제1통화자의 제1음성과 제1주변음으로 구성될 수 있으며, 그 중에서 제1음성에 대응하는 제1음성신호가 제1오디오에 대응하는 제1오디오신호로부터 분리될 수 있다.Specifically, the telephone device 100 may generate a first voice signal corresponding to the first voice to be included in the TX signal (S310). The first audio may be composed of the first voice of the first caller and the first surrounding sound, and among them, the first voice signal corresponding to the first voice may be separated from the first audio signal corresponding to the first audio. .

전화디바이스(100)는 좌측마이크 및 우측마이크를 이용하여 제1오디오신호를 생성할 수 있다(S311). 즉 제1통화자의 제1음성과 제1통화자가 속한 공간의 제1주변음이 혼합된 상태의 제1오디오에 대응하는 제1오디오신호가 생성될 수 있다.The telephone device 100 can generate a first audio signal using the left microphone and the right microphone (S311). That is, a first audio signal corresponding to the first audio that is a mixture of the first voice of the first caller and the first ambient sound of the space where the first caller belongs may be generated.

전화디바이스(100)는 제1오디오신호로부터 제1주변음에 대응하는 제1주변음신호와 제1음성신호를 분리할 수 있다(S313). 도 6에 묘사된 신호분리기(115)를 통해 제1음성신화와 제1주변음신호가 서로 분리 될 수 있다.The telephone device 100 may separate the first ambient sound signal and the first voice signal corresponding to the first ambient sound from the first audio signal (S313). The first voice signal and the first ambient sound signal can be separated from each other through the signal separator 115 depicted in FIG. 6.

다음으로 전화디바이스(100)는 TX신호를 제2디바이스에 송신할 수 있다(S320).Next, the telephone device 100 can transmit a TX signal to the second device (S320).

전화디바이스(100)는 제1오디오신호에서 분리된 제1음성신호 및 제1주변음신호를 패킷화할 수 있다(S331). 즉 TX신호에는 제1음성에 해당하는 제1음성신호 및 제1주변음에 해당하는 제1주변음신호가 포함될 수 있다. 그리고 전화디바이스(100)는 분리된 상태의 제1음성신호와 제1주변음신호를 패킷화할 수 있다.The telephone device 100 can packetize the first voice signal and the first ambient sound signal separated from the first audio signal (S331). That is, the TX signal may include a first voice signal corresponding to the first voice and a first ambient sound signal corresponding to the first ambient sound. And the telephone device 100 can packetize the separated first voice signal and the first ambient sound signal.

전화디바이스(100)는 제1음성신호가 분리된 신호임을 패킷에 표시할 수 있다(S323). 전화디바이스(100)는 제2디바이스(102)의 바이노럴 렌더링을 위해서 제1음성신호와 제1주변음신호가 서로 분리된 상태임을 제2디바이스(102)에 알릴 수 있다.The telephone device 100 may indicate in the packet that the first voice signal is a separated signal (S323). The telephone device 100 may inform the second device 102 that the first voice signal and the first ambient sound signal are separated from each other for binaural rendering of the second device 102.

바이노럴 렌더링은 공간에 전파되지 않은 상태의 음원(디지털 파일 또는 스트림)에 대해, 음원이 스피커를 통해 청자에게 전달되는 효과를 이어폰을 통해서도 얻을 수 있도록 하기 위해 음원을 가공하는 기술에 해당한다.Binaural rendering is a technology that processes sound sources (digital files or streams) that are not propagated in space so that the effect of sound being transmitted to the listener through speakers can be achieved through earphones.

본 발명의 일 실시 예에 따른 이어폰(110)을 통해 전달되는 통화자 사이의 제1음성 및 제2음성을 포함하는 대화음은, 공간을 통해 전파된 후에 이어폰(110)에 포함된 좌측마이크(111)와 우측마이크(112)를 통해 각각 녹음되는 소리에 해당한다. 녹음된 대화음의 디지털파일이 형식상 바이노럴마이크에 해당하는 좌측마이크(111)와 우측마이크(112)에 의해 수집된 파일이지만, 제1음원에 해당하는 통화자 및 좌측마이크(111)와 우측마이크(112) 간의 거리가 짧기 때문에 공간에 따른 음장 효과를 얻기 힘들고, 각 통화자에 전달되는 상대방의 대화음은 머리 내부에서 발생된 것처럼 느껴진다.The conversation sound including the first voice and the second voice between the callers transmitted through the earphone 110 according to an embodiment of the present invention is propagated through the space and then is transmitted through the left microphone included in the earphone 110 ( This corresponds to the sound recorded through the right microphone (111) and the right microphone (112), respectively. The digital file of the recorded conversation sound is a file collected by the left microphone 111 and the right microphone 112, which correspond to the binaural microphone, but the caller and the left microphone 111 and the first sound source are Because the distance between the right microphones 112 is short, it is difficult to obtain a spatial sound field effect, and the other party's conversation sound transmitted to each caller feels as if it is generated inside the head.

따라서, 본 발명의 일 실시 예에 따른 이어폰(110), 이를 포함하는 전화디바이스(100) 및 이를 이용하는 통화방법은, 통화자 사이의 대화음, 및 더 나아가서는 주변음과 구별되는 상대방의 음성에 해당하는 음성신호에 대해 머리전달함수를 적용함으로써, 거리, 고도 및 방위각을 다양하게 조정할 수 있고, 대화음을 외재화할 수 있는 기술을 제공하는 것을 특징으로 한다.Therefore, the earphone 110 according to an embodiment of the present invention, the telephone device 100 including the same, and the communication method using the same are capable of transmitting the voice of the other party that is distinct from the conversation sound between the callers and the surrounding sound. By applying a head transfer function to the corresponding voice signal, the distance, altitude, and azimuth can be adjusted in various ways, and technology is provided that can externalize conversation sounds.

예를 들어 통화자는, 자신의 상관과의 통화 및 자신의 연인과의 통화 시에 사용자인터페이스(122)를 통해, 적용되는 머리전달함수에 관한 설정을 변경함으로써, 즉 방위각, 고도 및 거리를 조절함으로써 대화음에 해당하는 상대방의 음성에 관한 음장 효과가 서로 다르게 발생되게 할 수 있다.For example, the caller changes the settings for the applied head transfer function through the user interface 122 when making a call with his or her superior or with his or her lover, that is, by adjusting the azimuth, altitude, and distance. The sound field effect of the other party's voice corresponding to the conversation sound can be generated differently.

상대방 통화자인 제2통화자가 제1통화자의 연인인 경우, 바이노럴 렌더링을 통해 제2 통화자의 음성이 제1통화자의 귓가 10cm 이내에서 발생하는 것처럼 출력될 수 있다. 반대로 상대방 통화자인 제2통화자가 제1통화자의 상관인 경우, 바이노럴 렌더링을 통해 제2통화자의 음성이 제1통화자의 귓가에서 먼 거리(r), 앞쪽 방향(θ)에서 발생하는 것처럼 출력될 수 있다.If the second caller, the other caller, is the first caller's lover, the second caller's voice can be output as if it is occurring within 10cm of the first caller's ear through binaural rendering. Conversely, if the second caller, the other caller, is the first caller's superior, binaural rendering is used to output the second caller's voice as if it is coming from a long distance (r) and in the front direction (θ) from the first caller's ear. It can be.

오디오신호에 포함된 음성신호 및 주변음신호의 분리 및 분리된 음성신호에 대한 바이노럴 렌더링에 대해 설명되었지만, 이에 한정되지 않으며, 비교적 조용한 공간에서 수집된 소리에 해당하는 오디오신호에 대해 바이노럴 렌더링이 수행될 수도 있다.Although the separation of voice signals and ambient sound signals included in audio signals and binaural rendering of the separated voice signals have been described, it is not limited thereto, and binaural rendering of audio signals corresponding to sounds collected in a relatively quiet space has been described. Relative rendering may also be performed.

이와 같이 본 발명의 일 실시 예에 따르면, 바이노럴 마이크가 내장된 이어폰을 이용하여 향상된 음질로 핸즈 프리 통화가 가능하다.As such, according to an embodiment of the present invention, hands-free calling with improved sound quality is possible using earphones with a built-in binaural microphone.

또한, 핸즈 프리 통화 시에 상대 통화자의 음성만의 선택 청취가 가능하다.Additionally, during a hands-free call, it is possible to selectively listen to the voice of the other caller.

또한, 핸즈 프리 통화 시에 상대 통화자의 음성과 주변음의 레벨이 조절될 수 있다.Additionally, during a hands-free call, the level of the other caller's voice and surrounding sounds can be adjusted.

이상, 일부 예를 들어서 본 발명의 바람직한 여러 가지 실시 예에 대해서 설명하였지만, 본 "발명을 실시하기 위한 구체적인 내용" 항목에 기재된 여러 가지 다양한 실시 예에 관한 설명은 예시적인 것에 불과한 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이상의 설명으로부터 본 발명을 다양하게 변형하여 실시하거나 본 발명과 균등한 실시를 행할 수 있다는 점을 잘 이해하고 있을 것이다.Above, various preferred embodiments of the present invention have been described by giving some examples, but the description of the various embodiments described in the "Detailed Contents for Carrying out the Invention" section is merely illustrative and the present invention Those skilled in the art will understand from the above description that the present invention can be implemented with various modifications or equivalent implementations of the present invention.

또한, 본 발명은 다른 다양한 형태로 구현될 수 있기 때문에 본 발명은 상술한 설명에 의해서 한정되는 것이 아니며, 이상의 설명은 본 발명의 개시 내용이 완전해지도록 하기 위한 것으로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이며, 본 발명은 청구범위의 각 청구항에 의해서 정의될 뿐임을 알아야 한다.In addition, since the present invention can be implemented in various other forms, the present invention is not limited by the above description, and the above description is intended to make the disclosure of the present invention complete and is commonly used in the technical field to which the present invention pertains. It is provided only to fully inform those with knowledge of the scope of the present invention, and it should be noted that the present invention is only defined by each claim in the claims.

10: 통화시스템
100: 디바이스
101: 제1디바이스
102: 제2디바이스
110: 이어폰(earphone)
111: 좌측마이크(left binaural microphone)
112: 우측마이크(right binaural microphone)
113: 증폭기
114: ADC
115: 신호분리기(signal separator)
116: 입출력부(input-output interface)
117: 제어기(controller)
118: 좌측스피커(left speaker module)
119: 우측스피커(right speaker module)
120: DAC
121: 오디오믹서
122: 사용자인터페이스
123: 배터리(battery)
130: 입출력인터페이스
140: 무선통신부
300: 네트워크
10: Currency system
100: device
101: first device
102: Second device
110: earphone
111: left binaural microphone
112: Right binaural microphone
113: amplifier
114: ADC
115: signal separator
116: input-output interface
117: controller
118: Left speaker module
119: Right speaker module
120:DAC
121: Audio mixer
122: User interface
123: battery
130: Input/output interface
140: Wireless Communications Department
300: Network

Claims (17)

제1통화자의 머리전달함수데이터베이스(head related transfer function Database)가 저장된 메모리;
상기 머리전달함수데이터베이스를 이용하여, 유선 또는 무선의 전화통신시스템을 통해 수신된 상기 제1통화자의 상대인 제2통화자의 음성신호에 대해 바이노럴 렌더링을 수행하는 제어기;
상기 제1통화자의 제1디바이스의 연결을 위한 입출력인터페이스(input-output interface); 및
상기 입출력인터페이스를 통해 수신한 상기 제2통화자의 음성을 출력하는 좌측파트에 포함된 좌측스피커와 우측파트에 포함된 우측스피커를 포함하도록 구성되는,
이어폰.
a memory storing a head related transfer function database of the first caller;
a controller that performs binaural rendering on a voice signal of a second caller, the counterpart of the first caller, received through a wired or wireless telephone communication system, using the head transfer function database;
an input-output interface for connection to the first device of the first caller; and
Configured to include a left speaker included in the left part and a right speaker included in the right part for outputting the second caller's voice received through the input/output interface,
earphone.
청구항 1에 있어서, 상기 이어폰은,
제1통화자의 음성을 수집하는 마이크를 더 포함하되,
상기 마이크는 적어도 상기 좌측파트에 배치된 좌측마이크와, 상기 우측파트에 배치된 우측마이크를 포함하고,
상기 좌측마이크는 상기 제1통화자의 좌측외이도 주변의 제1음성의 좌측파동과 제1주변음의 좌측파동을 좌측제1오디오신호로 변환하고,
상기 우측마이크는 상기 제1통화자의 우측외이도 주변의 제1음성의 우측파동과 상기 제1주변음의 우측파동을 우측제1오디오신호로 변환하도록 구성되는,
이어폰.
The method of claim 1, wherein the earphone,
It further includes a microphone for collecting the voice of the first caller,
The microphone includes at least a left microphone disposed on the left part and a right microphone disposed on the right part,
The left microphone converts the left wave of the first voice and the left wave of the first ambient sound around the left external auditory canal of the first caller into a first left audio signal,
The right microphone is configured to convert the right wave of the first voice around the right external auditory canal of the first caller and the right wave of the first ambient sound into a first right audio signal,
earphone.
청구항 2에 있어서, 상기 이어폰은,
상기 좌측제1오디오신호 또는 상기 우측제1오디오신호로부터 상기 제1통화자의 제1음성에 대응하는 제1음성신호를 분리하는 신호분리기를 더 포함하도록 구성되는,
이어폰.
The method of claim 2, wherein the earphone,
It is further configured to include a signal separator that separates a first voice signal corresponding to the first voice of the first caller from the left first audio signal or the right first audio signal,
earphone.
청구항 3에 있어서, 상기 신호분리기는,
상기 제2통화자로부터 수신된 RX신호에 상기 제2통화자의 음성이 분리되지 않은 상태로 포함된 경우, 상기 제2통화자의 음성에 대응하는 제2음성신호를 분리하고,
상기 제어기는 머리전달함수(head related transfer function, HRTF)를 이용하여 상기 제2음성신호에 대해 바이노럴 렌더링을 수행하도록 구성되는,
이어폰.
The method of claim 3, wherein the signal separator,
If the RX signal received from the second caller includes the second caller's voice in an unseparated state, separating the second voice signal corresponding to the second caller's voice,
The controller is configured to perform binaural rendering on the second voice signal using a head related transfer function (HRTF),
earphone.
청구항 4에 있어서, 상기 이어폰은,
상기 제2통화자의 상기 제2음성신호와 상기 RX신호로부터 분리된 주변음신호를 서로 혼합하는 오디오믹서를 더 포함하고,
상기 제어기는 상기 제2음성신호 및 상기 주변음신호에 대해 각각 바이노럴 렌더링을 수행하고,
상기 좌측스피커 및 상기 우측스피커는, 상기 바이노럴 렌더링이 수행되어, 서로 혼합된 상기 제2음성신호 및 상기 주변음신호를 소리로 변환하여 출력하도록 구성되는 이어폰.
The method of claim 4, wherein the earphone,
Further comprising an audio mixer that mixes the second voice signal of the second caller and an ambient sound signal separated from the RX signal,
The controller performs binaural rendering on the second voice signal and the ambient sound signal, respectively,
The left speaker and the right speaker are configured to perform the binaural rendering and convert the mixed second voice signal and the ambient sound signal into sound and output it.
청구항 5에 있어서, 상기 이어폰은,
상기 제2음성신호 및 상기 주변음신호의 레벨을 독립적으로 설정하는 사용자인터페이스를 더 포함하고,
상기 좌측스피커 및 상기 우측스피커는, 상기 사용자인터페이스에 의해 설정된 레벨에 따라 상기 제2음성신호 및 상기 주변음신호를 소리로 변환하여 출력하도록 구성되는
이어폰.
The method of claim 5, wherein the earphone,
Further comprising a user interface that independently sets the levels of the second voice signal and the ambient sound signal,
The left speaker and the right speaker are configured to convert the second voice signal and the ambient sound signal into sound and output it according to the level set by the user interface.
earphone.
청구항 1에 있어서, 상기 입출력인터페이스는,
케이블 또는 무선통신모듈 중에서 적어도 하나를 포함하도록 구성되는,
이어폰.
The method of claim 1, wherein the input/output interface is:
Configured to include at least one of a cable or a wireless communication module,
earphone.
청구항 7에 있어서, 상기 무선통신모듈은,
무선통신을 위한 통신프로토콜에 해당하는 복수의 마이크 및 복수의 채널을 통해 녹음된 오디오신호에 관한 입출력 규정을 포함하는 프로파일을 포함하도록 구성되는,
이어폰.
The method of claim 7, wherein the wireless communication module,
Configured to include a profile containing input and output regulations for audio signals recorded through a plurality of microphones and a plurality of channels corresponding to a communication protocol for wireless communication,
earphone.
제1통화자의 머리전달함수데이터베이스(head related transfer function Database)가 저장된 메모리, 상기 머리전달함수데이터베이스를 이용하여, 유선 또는 무선의 전화통신시스템을 통해 수신된 상기 제1통화자의 상대인 제2통화자의 음성신호에 대해 바이노럴 렌더링을 수행하는 제어기, 상기 제1통화자의 제1디바이스의 연결을 위한 입출력인터페이스(input-output interface); 및 상기 입출력인터페이스를 통해 수신한 상기 제2통화자의 음성을 출력하는 좌측스피커와 우측스피커를 포함하는 이어폰: 및
상기 이어폰을 통한 음성통화를 위해 상기 제1통화자의 제1디바이스와 상기 제2통화자의 제2디바이스 사이를 통신 연결시키는 무선통신모듈을 포함하도록 구성되는,
전화디바이스.
A memory storing a head related transfer function database (head related transfer function database) of the first caller, using the head transfer function database, the second caller who is the other party of the first caller is received through a wired or wireless telephone communication system. A controller that performs binaural rendering on voice signals, an input-output interface for connection to the first device of the first caller; and an earphone including a left speaker and a right speaker for outputting the second caller's voice received through the input/output interface: and
Configured to include a wireless communication module that connects a first device of the first caller and a second device of the second caller for a voice call through the earphone,
Telephone device.
청구항 9에 있어서, 상기 무선통신모듈은,
상기 제1통화자의 제1음성에 대응하는, 제1음성신호 및 제1주변음에 대응하는 제1주변음신호가 포함되고, 패킷 처리된 TX신호를 상기 제2디바이스에 송신하고,
상기 제어기는, 상기 제1음성신호가 제1오디오신호로부터 분리된 신호임을 상기 TX신호에 표시하도록 구성되는,
전화디바이스.
The method of claim 9, wherein the wireless communication module,
Transmitting a packet-processed TX signal to the second device, including a first voice signal corresponding to the first voice of the first caller and a first ambient sound signal corresponding to the first ambient sound,
The controller is configured to indicate on the TX signal that the first voice signal is a signal separated from the first audio signal,
Telephone device.
청구항 10에 있어서, 상기 전화디바이스는,
상기 제1오디오신호로부터 상기 제1통화자의 제1음성에 대응하는 제1음성신호를 분리하는 신호분리기를 더 포함하도록 구성되는,
전화디바이스.
The method of claim 10, wherein the telephone device:
Configured to further include a signal separator that separates a first voice signal corresponding to the first voice of the first caller from the first audio signal,
Telephone device.
청구항 11에 있어서,
상기 제2통화자의 제2음성에 대응하는 제2음성신호가 제2주변음신호와 분리되지 않은 상태로, 상기 제2디바이로부터 수신된 RX신호에 포함된 경우,
상기 신호분리기는 상기 RX신호에서 상기 제2통화자의 제2음성에 대응하는 제2음성신호를 분리하도록 구성되는,
전화디바이스.
In claim 11,
When the second voice signal corresponding to the second voice of the second caller is not separated from the second ambient sound signal and is included in the RX signal received from the second device,
The signal separator is configured to separate a second voice signal corresponding to the second voice of the second caller from the RX signal,
Telephone device.
제1통화자 측에서 수집된 상기 제1통화자의 제1음성 및 제1주변음에 대응하는 제1오디오신호의 송신 및 제2통화자 측에서 수집된 상기 제2통화자의 제2음성 및 제2주변음에 대응하는 제2오디오신호의 수신을 통한 상기 제1통화자의 제1디바이스 및 상기 제2통화자의 제2디바이스 간의 음성 통화 중에 상기 제1디바이스에 연결된 이어폰 및 상기 제1디바이스에 의해 수행하는 통화 방법에 있어서,
상기 제2오디오신호가 포함된 RX신호를 수신하는 단계;
머리전달함수(head related transfer function, HRTF)를 이용하여 상기 제2오디오신호에 바이노럴 렌더링을 수행하는 단계; 및
상기 바이노럴 렌더링이 적용된 상기 제2오디오신호를 출력하는 단계를 포함하도록 구성되는,
통화방법.
Transmission of a first audio signal corresponding to the first voice and first ambient sound of the first caller collected from the first caller side and the second voice and second voice of the second caller collected from the second caller side Performed by an earphone connected to the first device and the first device during a voice call between the first device of the first caller and the second device of the second caller through reception of a second audio signal corresponding to the surrounding sound Regarding the call method,
Receiving an RX signal including the second audio signal;
performing binaural rendering on the second audio signal using a head related transfer function (HRTF); and
Configured to include the step of outputting the second audio signal to which the binaural rendering is applied,
How to call.
청구항 13에 있어서, 상기 통화방법은,
수신된 상기 RX신호에 대해 상기 RX신호의 패킷을 이용하여 상기 제2오디오신호에서 상기 제2통화자의 제2음성에 대응하는 제2음성신호의 분리 여부를 확인하는 단계를 더 포함하도록 구성되는,
통화방법.
The method of claim 13, wherein the call method is:
Configured to further include the step of checking whether a second voice signal corresponding to the second voice of the second caller is separated from the second audio signal using a packet of the RX signal for the received RX signal,
How to call.
청구항 14에 있어서, 상기 통화방법은,
만약 상기 RX신호에 상기 제2통화자의 제2음성신호가 분리되지 않은 체 포함된 경우,
상기 제2오디오신호에서 상기 제2음성에 대응하는 제2음성신호를 분리하는 단계를 더 포함하고,
상기 바이노럴 렌더링을 수행하는 단계는, 상기 제2음성신호에 바이노럴 렌더링을 수행하는 단계를 포함하고,
상기 제2오디오신호를 출력하는 단계는, 상기 제2음성신호를 출력하는 단계를 포함하도록 구성되는,
통화방법.
The method of claim 14, wherein the call method is:
If the RX signal includes the second voice signal of the second caller without being separated,
Further comprising the step of separating a second voice signal corresponding to the second voice from the second audio signal,
The performing binaural rendering includes performing binaural rendering on the second audio signal,
The step of outputting the second audio signal is configured to include the step of outputting the second audio signal,
How to call.
청구항 13에 있어서, 상기 통화방법은,
TX신호에 포함될 상기 제1음성에 대응하는 제1음성신호를 생성하는 단계; 및
상기 TX신호를 상기 제2디바이스에 송신하는 단계를 더 포함하고,
상기 제1음성신호를 생성하는 단계는,
좌측마이크 및 우측마이크를 이용하여 상기 제1오디오신호를 생성하는 단계; 및
상기 제1오디오신호로부터 상기 제1주변음에 대응하는 제1주변음신호와 상기 제1음성신호를 분리하는 단계를 포함하도록 구성되는,
통화방법.
The method of claim 13, wherein the call method is:
generating a first voice signal corresponding to the first voice to be included in a TX signal; and
Further comprising transmitting the TX signal to the second device,
The step of generating the first voice signal is,
Generating the first audio signal using a left microphone and a right microphone; and
Configured to include the step of separating a first ambient sound signal corresponding to the first ambient sound and the first voice signal from the first audio signal,
How to call.
청구항 16에 있어서,
상기 TX신호를 상기 제2디바이스에 송신하는 단계는,
상기 제1오디오신호에서 분리된 상기 제1음성신호 및 상기 제1주변음신호를 패킷화하는 단계; 및
상기 제1음성신호가 분리된 신호임을 상기 패킷에 표시하는 단계를 포함하도록 구성되는,
통화방법.
In claim 16,
The step of transmitting the TX signal to the second device is:
packetizing the first voice signal and the first ambient sound signal separated from the first audio signal; and
configured to include indicating in the packet that the first voice signal is a separated signal,
How to call.
KR1020220036013A 2022-03-23 2022-03-23 Earphone based on head related transfer function, phone device using the same and method for calling using the same KR102613033B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220036013A KR102613033B1 (en) 2022-03-23 2022-03-23 Earphone based on head related transfer function, phone device using the same and method for calling using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220036013A KR102613033B1 (en) 2022-03-23 2022-03-23 Earphone based on head related transfer function, phone device using the same and method for calling using the same

Publications (2)

Publication Number Publication Date
KR20230139845A true KR20230139845A (en) 2023-10-06
KR102613033B1 KR102613033B1 (en) 2023-12-14

Family

ID=88296346

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220036013A KR102613033B1 (en) 2022-03-23 2022-03-23 Earphone based on head related transfer function, phone device using the same and method for calling using the same

Country Status (1)

Country Link
KR (1) KR102613033B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110108449A (en) 2010-03-29 2011-10-06 강민수 Digital wireless sound communication system using stereophonic sound
KR20130124573A (en) * 2011-02-23 2013-11-14 퀄컴 인코포레이티드 Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
US20170359672A1 (en) * 2016-06-10 2017-12-14 C Matter Limited Selecting a Location to Localize Binaural Sound
JP2021089441A (en) * 2017-03-20 2021-06-10 ボーズ・コーポレーションBose Corporation Audio signal processing for noise reduction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110108449A (en) 2010-03-29 2011-10-06 강민수 Digital wireless sound communication system using stereophonic sound
KR20130124573A (en) * 2011-02-23 2013-11-14 퀄컴 인코포레이티드 Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
US20170359672A1 (en) * 2016-06-10 2017-12-14 C Matter Limited Selecting a Location to Localize Binaural Sound
JP2021089441A (en) * 2017-03-20 2021-06-10 ボーズ・コーポレーションBose Corporation Audio signal processing for noise reduction

Also Published As

Publication number Publication date
KR102613033B1 (en) 2023-12-14

Similar Documents

Publication Publication Date Title
JP5894634B2 (en) Determination of HRTF for each individual
US9930456B2 (en) Method and apparatus for localization of streaming sources in hearing assistance system
US11037544B2 (en) Sound output device, sound output method, and sound output system
CN106664498B (en) For generating the artificial ear device and its correlation technique of head relevant to audio frequency transmission function
AU2008362920B2 (en) Method of rendering binaural stereo in a hearing aid system and a hearing aid system
EP3468228B1 (en) Binaural hearing system with localization of sound sources
US11805364B2 (en) Hearing device providing virtual sound
CN104185130A (en) Hearing aid with spatial signal enhancement
WO2006051001A1 (en) A spartial audio processing method, a program product, an electronic device and a system
KR102613033B1 (en) Earphone based on head related transfer function, phone device using the same and method for calling using the same
KR102592476B1 (en) Spatial audio earphone, device and method for calling using the same
US11856370B2 (en) System for audio rendering comprising a binaural hearing device and an external device
KR102613035B1 (en) Earphone with sound correction function and recording method using it
CN110620982A (en) Method for audio playback in a hearing aid
CN116744169B (en) Earphone device, sound signal processing method and wearing fit testing method
US20190387354A1 (en) Communication device with spatial source separation, communication system, and related method
CN117082406A (en) Audio playing system
CN115942173A (en) Method for determining HRTF and hearing device
EP0968624A2 (en) Telephonic transmission of three dimensional sound

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right