KR20220062598A - 오디오 신호 생성을 위한 시스템 및 방법 - Google Patents

오디오 신호 생성을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20220062598A
KR20220062598A KR1020227011974A KR20227011974A KR20220062598A KR 20220062598 A KR20220062598 A KR 20220062598A KR 1020227011974 A KR1020227011974 A KR 1020227011974A KR 20227011974 A KR20227011974 A KR 20227011974A KR 20220062598 A KR20220062598 A KR 20220062598A
Authority
KR
South Korea
Prior art keywords
audio data
bone conduction
frequency
weight
air conduction
Prior art date
Application number
KR1020227011974A
Other languages
English (en)
Inventor
메이린 저우
풍운 랴오
신 치
Original Assignee
썬전 샥 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 썬전 샥 컴퍼니 리미티드 filed Critical 썬전 샥 컴퍼니 리미티드
Publication of KR20220062598A publication Critical patent/KR20220062598A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/46Special adaptations for use as contact microphones, e.g. on musical instrument, on stethoscope
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/60Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
    • H04R25/604Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
    • H04R25/606Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers acting directly on the eardrum, the ossicles or the skull, e.g. mastoid, tooth, maxillary or mandibular bone, or mechanically stimulating the cochlea, e.g. at the oval window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/55Communication between hearing aids and external devices via a network for data exchange
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

오디오 신호 생성을 위한 시스템들 및 방법들이 개시된다. 방법은 골전도 센서에 의해 수집된 제1 오디오 데이터를 획득하는 단계(510); 공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득하는 단계로서, 제1 오디오 데이터 및 제2 오디오 데이터는 상이한 주파수 성분으로 사용자의 음성을 나타내는, 상기 제2 오디오 데이터를 획득하는 단계(520), 및 제1 오디오 데이터 및 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하는 단계(540)를 포함한다.

Description

오디오 신호 생성을 위한 시스템 및 방법
본 개시는 일반적으로 신호 프로세싱 분야들에 관한 것으로, 구체적으로 골전도 오디오 신호 및 공기 전도 오디오 신호에 기초하여 오디오 신호를 생성하기 위한 시스템들 및 방법들에 관한 것이다.
전자 디바이스의 광범위한 사용으로, 사람들 간의 통신이 점점 더 편리해지고 있다. 통신을 위해 전자 디바이스를 사용할 때, 사용자는 사용자가 말할 때 목소리 신호들(voice signals)을 수집하기 위해 마이크로폰에 의존할 수 있다. 마이크로폰에 의해 수집된 목소리 신호들은 사용자의 말을 나타낼 수 있다. 그러나, 때때로, 예를 들어 마이크로폰 자체의 성능, 잡음 등으로 인해 마이크로폰에 의해 수집된 목소리 신호들을 충분히 알아들을 수 있는지(즉, 신호들의 충실도 레벨)를 보장하기 어렵다. 특히, 공장, 자동차, 비행기, 보트, 쇼핑몰 등과 같은 공공장소에서는 다양한 배경 소음들이 통신 품질에 심각한 영향을 미친다.
따라서, 더 적은 잡음 및/또는 향상된 충실도로 오디오 신호를 생성하기 위한 시스템들 및 방법들을 제공하는 것이 바람직하다.
본 개시의 제1 양상에 따라, 오디오 신호 생성을 위한 시스템이 제공된다. 시스템은 적어도 하나의 저장 매체, 및 적어도 하나의 저장 매체와 통신하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 저장 매체는 명령들의 세트를 포함할 수 있다. 명령들의 세트를 실행할 때, 시스템은 다음의 동작들 중 하나 이상을 수행하도록 구성될 수 있다. 시스템은 골전도 센서에 의해 수집된 제1 오디오 데이터를 획득할 수 있다. 시스템은 공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득할 수 있다. 제1 오디오 데이터 및 제2 오디오 데이터는 상이한 주파수 성분들로 사용자의 음성(speech)을 나타낼 수 있다. 시스템은 제1 오디오 데이터 및 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성할 수 있다. 제1 주파수 포인트보다 높은 제3 오디오 데이터의 주파수 성분들은 상기 주파수 포인트보다 높은 제1 오디오 데이터의 주파수 성분들에 대해 증가할 수 있다.
일부 실시예들에서, 시스템은 전처리된 제1 오디오 데이터를 획득하기 위해 제1 오디오 데이터에 대한 제1 전처리 동작을 수행할 수 있다. 시스템은 전처리된 제1 오디오 데이터 및 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성할 수 있다.
일부 실시예들에서, 제1 전처리 동작은 정규화 동작을 포함할 수 있다.
일부 실시예들에서, 시스템은 트레이닝된 기계 학습 모델을 획득할 수 있다. 시스템은, 제1 오디오 데이터에 기초하여, 트레이닝된 기계 학습 모델을 사용하여 전처리된 제1 오디오 데이터를 결정할 수 있다. 제2 주파수 포인트보다 높은 전처리된 제1 오디오 데이터의 주파수 성분들은 제2 주파수 포인트보다 높은 제1 오디오 데이터의 주파수 성분들에 대해 증가할 수 있다.
일부 실시예들에서, 시스템은 복수의 트레이닝 데이터 그룹들을 획득할 수 있다. 복수의 트레이닝 데이터 그룹들의 각 그룹은 음성 샘플(speech sample)을 나타내는 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 포함할 수 있다. 시스템은 복수의 트레이닝 데이터 그룹들을 사용하여 예비 기계 학습 모델을 트레이닝할 수 있다. 복수의 트레이닝 데이터 그룹들의 각 그룹의 골전도 오디오 데이터는 예비 기계 학습 모델의 입력이 될 수 있고, 골전도 오디오 데이터에 대응하는 공기 전도 오디오 데이터는 예비 기계 학습 모델의 트레이닝 프로세스 동안 예비 기계 학습 모델의 원하는 출력이 될 수 있다.
일부 실시예들에서, 복수의 트레이닝 데이터 그룹들의 각 그룹에서 골전도 오디오 데이터를 수집하기 위해 특정 골전도 센서가 위치하는 신체의 부위는 제1 오디오 데이터를 수집하기 위해 골전도 센서가 위치하는 사용자의 신체 부위와 동일할 수 있다.
일부 실시예들에서, 예비 기계 학습 모델은 순환 신경망 모델 또는 장단기 메모리 네트워크(long short-term memory network)에 기초하여 구성될 수 있다.
일부 실시예들에서, 시스템은 특정 공기 전도 오디오 데이터와 상기 특정 공기 전도 오디오 데이터에 대응하는 특정 골전도 오디오 데이터 사이의 관계를 제공하도록 구성된 필터를 획득할 수 있다. 시스템은 제1 오디오 데이터를 처리하기 위해 상기 필터를 사용하여 전처리된 제1 오디오 데이터를 결정할 수 있다.
일부 실시예들에서, 시스템은 전처리된 제2 오디오 데이터를 획득하기 위해 제2 오디오 데이터에 대한 제2 전처리 동작을 수행할 수 있다. 시스템은 제1 오디오 데이터 및 전처리된 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성할 수 있다.
일부 실시예들에서, 제2 전처리 동작은 잡음제거 동작(denoising operation)을 포함할 수 있다.
일부 실시예들에서, 시스템은 제1 오디오 데이터 또는 제2 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다. 시스템은 하나 이상의 주파수 임계값들, 제1 오디오 데이터 및 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성할 수 있다.
일부 실시예들에서, 시스템은 제2 오디오 데이터와 연관된 잡음 레벨을 결정할 수 있다. 시스템은 제2 오디오 데이터와 연관된 잡음 레벨에 기초하여 하나 이상의 주파수 임계값들 중 적어도 하나를 결정할 수 있다.
일부 실시예들에서, 제2 오디오 데이터와 연관된 잡음 레벨은 제2 오디오 데이터의 신호 대 잡음비(SNR)로 표시될 수 있다. 시스템은 다음 프로세싱에 의해 의해 제2 오디오 데이터의 SNR을 결정할 수 있다. 시스템은 골전도 센서 및 공기 전도 센서를 사용하여 제2 오디오 데이터에 포함된 잡음 에너지를 결정할 수 있다. 시스템은 제2 오디오 데이터에 포함된 잡음 에너지에 기초하여, 제2 오디오 데이터에 포함된 순수한 오디오 데이터(pure audio data)의 에너지를 결정할 수 있다. 시스템은 제2 오디오 데이터에 포함된 잡음 에너지 및 제2 오디오 데이터에 포함된 순수한 오디오 데이터의 에너지에 기초하여 SNR을 결정할 수 있다.
일부 실시예들에서, 제2 오디오 데이터와 연관된 잡음 레벨이 클수록, 하나 이상의 주파수 임계값들 중 적어도 하나는 더 커질 수 있다.
일부 실시예들에서, 시스템은 제1 오디오 데이터와 연관된 주파수 응답 곡선에 기초하여 하나 이상의 주파수 임계값들 중 적어도 하나를 결정할 수 있다.
일부 실시예들에서, 시스템은 제3 오디오 데이터를 생성하기 위해 하나 이상의 주파수 임계값들에 따라 주파수 도메인에서 제1 오디오 데이터 및 제2 오디오 데이터를 스티칭(stitch)할 수 있다.
일부 실시예들에서, 시스템은 하나 이상의 주파수 임계값들 중 하나보다 낮은 주파수 성분들을 포함하는 제1 오디오 데이터의 하위 부분을 결정할 수 있다. 시스템은 하나 이상의 주파수 임계값들 중 하나보다 높은 주파수 성분들을 포함하는 제2 오디오 데이터의 상위 부분을 결정할 수 있다. 시스템은 제3 오디오 데이터를 생성하기 위해 제1 오디오 데이터의 하위 부분과 제2 오디오 데이터의 상위 부분을 스티칭할 수 있다.
일부 실시예들에서, 시스템은 다중 주파수 범위들을 결정할 수 있다. 시스템은 다중 주파수 범위들의 각각 내에 위치한 제1 오디오 데이터의 부분 및 제2 오디오 데이터의 부분에 대한 제1 가중치 및 제2 가중치를 각각 결정할 수 있다. 시스템은 제1 가중치 및 제2 가중치를 사용하여 다중 주파수 범위들의 각각 내에 위치한 제1 오디오 데이터의 부분 및 제2 오디오 데이터의 부분을 각각 가중함으로써 제3 오디오 데이터를 결정할 수 있다.
일부 실시예들에서, 시스템은 주파수 포인트에 적어도 부분적으로 기초하여, 제1 오디오 데이터의 제1 부분 및 제1 오디오 데이터의 제2 부분에 대한 제1 가중치 및 제2 가중치를 각각 결정할 수 있다. 제1 오디오 데이터의 제1 부분은 주파수 포인트보다 낮은 주파수 성분들을 포함할 수 있고, 제1 오디오 데이터의 제2 부분은 주파수 포인트보다 높은 주파수 성분들을 포함할 수 있다. 시스템은, 주파수 포인트에 적어도 부분적으로 기초하여, 제 2 오디오 데이터의 제 3 부분 및 제 2 오디오 데이터의 제 4 부분에 대한 제3 가중치 및 제4 가중치를 각각 결정할 수 있다. 제2 오디오 데이터의 제3 부분은 주파수 포인트보다 낮은 주파수 성분들을 포함할 수 있고, 제2 오디오 데이터의 제4 부분은 주파수 포인트보다 높은 주파수 성분들을 포함할 수 있다. 시스템은 제1 가중치, 제2 가중치, 제3 가중치, 및 제4 가중치를 사용하여 제1 오디오 데이터의 제1 부분, 제1 오디오 데이터의 제2 부분, 제2 오디오 데이터의 제3 부분, 및 제2 오디오 데이터의 제4 부분을 각각 가중함으로써 제3 오디오 데이터를 결정할 수 있다.
일부 실시예들에서, 시스템은 제1 오디오 데이터 또는 제2 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여 제1 오디오 데이터에 대응하는 제1 가중치를 결정할 수 있다. 시스템은 제1 오디오 데이터 또는 제2 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여 제2 오디오 데이터에 대응하는 제2 가중치를 결정할 수 있다. 시스템은 제1 가중치 및 제2 가중치를 사용하여 제1 오디오 데이터 및 제2 오디오 데이터를 각각 가중함으로써 제3 오디오 데이터를 결정할 수 있다.
일부 실시예들에서, 시스템은 제1 오디오 데이터 및 제2 오디오 데이터보다 더 나은 충실도로 사용자의 음성(speech)을 나타내는 타겟 오디오 데이터를 획득하기 위해 제3 오디오 데이터에 대한 후처리 동작(post-processing operation)을 수행할 수 있다.
일부 실시예들에서, 후처리 동작은 잡음제거 동작을 포함한다.
본 개시의 제2 양상에 따라, 오디오 신호 생성을 위한 방법이 제공된다. 방법은 적어도 하나의 컴퓨팅 디바이스에서 구현될 수 있으며, 그 각각은 적어도 하나의 프로세서 및 저장 디바이스를 포함할 수 있다. 방법은 다음의 동작들 중 하나 이상을 포함할 수 있다. 방법은 골전도 센서에 의해 수집된 제1 오디오 데이터를 획득하는 단계; 공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득하는 단계로서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터는 상이한 주파수 성분들로 사용자의 음성을 나타내는, 상기 공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득하는 단계; 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여, 제3 오디오 데이터를 생성하는 단계로서, 제1 주파수 포인트보다 높은 제3 오디오 데이터의 주파수 성분들은 상기 주파수 포인트보다 높은 제1 오디오 데이터의 주파수 성분들에 대해 증가하는, 제3 오디오 데이터를 생성하는 단계를 포함할 수 있다.
본 개시의 제3 양상에 따라, 오디오 신호 생성을 위한 시스템이 제공된다. 시스템은 골전도 센서에 의해 수집된 제1 오디오 데이터, 및 공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득하도록 구성된 획득 모듈을 포함할 수 있다. 제1 오디오 데이터 및 제2 오디오 데이터는 상이한 주파수 성분들로 사용자의 음성을 나타낼 수 있다. 시스템은 또한 제1 오디오 데이터 및 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하도록 구성된 오디오 데이터 생성 모듈을 포함할 수 있다. 제1 주파수 포인트보다 높은 제3 오디오 데이터의 주파수 성분들은 상기 주파수 포인트보다 높은 제1 오디오 데이터의 주파수 성분들에 대해 증가할 수 있다.
본 개시의 제4 양상에 따라, 비일시적 컴퓨터 판독 가능한 매체가 제공된다. 비일시적 컴퓨터 판독 가능한 매체는 적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금 방법을 실행하게 하는 적어도 하나의 명령들의 세트를 포함할 수 있다. 적어도 하나의 프로세서는 골전도 센서에 의해 수집된 제1 오디오 데이터를 획득할 수 있다. 적어도 하나의 프로세서는 공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득할 수 있다. 제1 오디오 데이터 및 제2 오디오 데이터는 상이한 주파수 성분들로 사용자의 음성(speech)을 나타낼 수 있다. 적어도 하나의 프로세서는 제1 오디오 데이터 및 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성할 수 있다. 제1 주파수 포인트보다 높은 제3 오디오 데이터의 주파수 성분들은 상기 주파수 포인트보다 높은 제1 오디오 데이터의 주파수 성분들에 대해 증가할 수 있다.
부가적인 특징들이 이어지는 설명에서 부분적으로 제시될 것이며, 부분적으로 다음의 및 수반된 도면들의 검사 시 이 기술분야의 숙련자들에게 명백할 것이거나 또는 예들의 생성 또는 동작에 의해 학습될 수 있다. 본 개시의 특징들은 이하에서 논의되는 상세한 예들에 제시된 방법들, 수단들 및 조합들의 다양한 양상들의 실시 또는 사용에 의해 실현되고 달성될 수 있다.
본 개시는 예시적인 실시예들에 대하여 추가로 설명된다. 이들 예시적인 실시예들은 도면들을 참조하여 상세하게 설명된다. 이들 실시예들은 비-제한적인 대표적 실시예들이며, 여기에서 유사한 참조 숫자들은 도면들의 여러 뷰들 전체에 걸쳐 유사한 구조들을 나타낸다.
도 1은 본 개시의 일부 실시예들에 따른 예시적인 오디오 신호 생성 시스템을 도시하는 개략도이다;
도 2는 본 개시의 일부 실시예들에 따른 컴퓨팅 디바이스의 예시적인 하드웨어 및 소프트웨어 구성요소들을 도시하는 개략도이다;
도 3은 본 개시의 일부 실시예들에 따른 모바일 디바이스의 예시적인 하드웨어 및/또는 소프트웨어 구성요소들을 도시하는 개략도이다;
도 4a는 본 개시의 일부 실시예들에 따른 예시적인 프로세싱 디바이스를 도시하는 블록도이다;
도 4b는 본 개시의 일부 실시예들에 따른 예시적인 오디오 데이터 생성 모듈을 도시하는 블록도이다;
도 5는 본 개시의 일부 실시예들에 따라 오디오 신호를 생성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다;
도 6은 본 개시의 일부 실시예들에 따라 트레이닝된 기계 학습 모델을 사용하여 골전도 오디오 데이터를 재구성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다;
도 7은 본 개시의 일부 실시예들에 따라 고조파 보정 모델을 사용하여 골전도 오디오 데이터를 재구성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다;
도 8은 본 개시의 일부 실시예들에 따라 희소 행렬 기법을 사용하여 골전도 오디오 데이터를 재구성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다;
도 9는 본 개시의 일부 실시예들에 따라 오디오 데이터를 생성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다;
도 10은 본 개시의 일부 실시예들에 따라 오디오 데이터를 생성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다;
도 11은 본 개시의 일부 실시예들에 따라 골전도 오디오 데이터, 대응하는 재구성된 골전도 오디오 데이터, 및 대응하는 공기 전도 오디오 데이터의 주파수 응답 곡선들을 도시하는 도면이다;
도 12a는 본 개시의 일부 실시예들에 따라 사용자 신체의 상이한 부위들에 위치한 골전도 센서들에 의해 수집된 골전도 오디오 데이터의 주파수 응답 곡선들을 도시하는 도면이다;
도 12b는 본 개시의 일부 실시예들에 따라 사용자 신체의 상이한 부위들에 위치한 골전도 센서들에 의해 수집된 골전도 오디오 데이터의 주파수 응답 곡선들을 도시하는 도면이다;
도 13a는 본 개시의 일부 실시예들에 따라 2kHz의 주파수 임계값에서 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터를 도시하는 시간-주파수 다이어그램이다;
도 13b는 본 개시의 일부 실시예들에 따라 2kHz의 주파수 임계값에서 위너 필터(wiener filter)에 의해 잡음이 제거된 골전도 오디오 데이터 및 전처리된 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터를 도시하는 시간-주파수 다이어그램이다;
도 13c는 본 개시의 일부 실시예들에 따라 2kHz의 주파수 임계값에서 스펙트럼 감산 기술에 의해 잡음이 제거된 골전도 오디오 데이터 및 전처리된 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터를 도시하는 시간-주파수 다이어그램이다;
도 14a는 본 개시의 일부 실시예들에 따른 골전도 오디오 데이터를 도시하는 시간-주파수 다이어그램이다;
도 14b는 본 개시의 일부 실시예들에 따른 공기 전도 오디오 데이터를 도시하는 시간-주파수 다이어그램이다;
도 14c는 본 개시의 일부 실시예들에 따라 2kHz의 주파수 임계값에서 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터를 도시하는 시간-주파수 다이어그램이다;
도 14d는 본 개시의 일부 실시예들에 따라 3kHz의 주파수 임계값에서 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터를 도시하는 시간-주파수 다이어그램이다;
도 14e는 본 개시의 일부 실시예들에 따라 4kHz의 주파수 임계값에서 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터를 도시하는 시간-주파수 다이어그램이다.
다음의 상세한 설명에서, 다수의 특정 세부사항들이 관련된 개시의 철저한 이해를 제공하기 위해 예들로서 제시된다. 그러나, 본 개시는 이러한 세부사항들 없이 실시될 수 있다는 것이 이 기술분야의 숙련자들에게 명백해야 한다. 다른 인스턴스들에서, 잘 알려진 방법들, 절차들, 시스템들, 구성요소들, 및/또는 회로가, 본 개시의 양상들을 불필요하게 모호하게 하는 것을 피하기 위해, 세부사항 없이, 비교적 고-레벨로 설명되었다. 개시된 실시예들에 대한 다양한 수정들이 이 기술분야의 숙련자들에게 쉽게 명백할 것이며, 여기에서 정의된 일반적인 원리들은 본 개시의 사상 및 범위로부터 벗어나지 않고 다른 실시예들 및 애플리케이션들에 적용될 수 있다. 따라서, 본 개시는 도시된 실시예들에 제한되지 않으며, 청구항들과 일치하는 가장 넓은 범위를 부여받는다.
여기에서 사용된 용어는 단지 특정한 예시적인 실시예들을 설명할 목적을 위한 것이며 제한적이도록 의도되지 않는다. 여기에서 사용된 바와 같이, 단수형 형태들("a", "an", 및 "the")은, 문맥이 달리 명확하게 표시하지 않는다면, 또한 복수형 형태들을 포함하도록 의도될 수 있다. 용어들("포함하다", 및/또는 "포함하는", "포함시키다", 및/또는 "포함시키는")은, 본 명세서에서 사용될 때, 서술된 특징들, 정수들, 단계들, 동작들, 요소들, 및/또는 구성요소들의 존재를 특정하지만, 하나 이상의 다른 특징들, 정수들, 단계들, 동작들, 요소들, 구성요소들, 및/또는 그것의 그룹들의 존재 도는 부가를 배제하지 않는다는 것이 또한 이해될 것이다.
여기에서 사용된 용어("시스템", "엔진", "유닛", "모듈", 및/또는 "블록")는 오름차순으로 상이한 레벨들의 상이한 구성요소들, 요소들, 부분들, 섹션들 또는 어셈블리를 구별하기 위한 하나의 방법이라는 것이 이해될 것이다. 그러나, 용어들은 그것들이 동일한 목적을 달성한다면 또 다른 표현으로 대체될 수 있다.
일반적으로, 여기에서 사용된 바와 같이 단어("모듈", "유닛", 또는 "블록")는 하드웨어 또는 펌웨어로 구현된 로직, 또는 소프트웨어 명령들의 모음을 나타낸다. 여기에서 설명된 모듈, 유닛, 도는 블록은 소프트웨어 및/또는 하드웨어로서 구현될 수 있으며 임의의 유형의 비-일시적 컴퓨터-판독 가능한 매체 또는 다른 저장 디바이스에 저장될 수 있다. 일부 실시예들에서, 소프트웨어 모듈/유닛/블록은 컴파일링되고 실행 가능한 프로그램으로 연결될 수 있다. 소프트웨어 모듈들은 다른 모듈들/유닛들/블록들 또는 스스로로부터 호출 가능할 수 있으며, 및/또는 검출된 이벤트들 또는 인터럽트들에 응답하여 호출될 수 있다는 것이 이해될 것이다. 컴퓨팅 디바이스들 상에서의 실행을 위해 구성된 소프트웨어 모듈들/유닛들/블록들은 컴팩트 디스크, 디지털 비디오 디스크, 플래시 드라이브, 자기 디스크, 또는 임의의 다른 유형의 매체와 같은, 컴퓨터-판독 가능한 매체상에서, 또는 디지털 다운로드로서(및 실행 이전에 설치, 압축 해제, 또는 복호화를 필요로 하는 압축된 또는 설치 가능한 포맷으로 원래 저장될 수 있는) 제공될 수 있다. 이러한 소프트웨어 코드는 컴퓨팅 디바이스에 의한 실행을 위해, 실행한 컴퓨팅 디바이스의 저장 디바이스 상에, 부분적으로 또는 완전히 저장될 수 있다. 소프트웨어 명령들은 소거가능한 프로그램가능 판독 전용 메모리(EPROM)와 같은 펌웨어에 포함될 수 있다. 하드웨어 모듈들/유닛들/블록들은 게이트들 및 플립-플롭들과 같은, 연결된 로직 구성요소들에 포함될 수 있으며, 및/또는 프로그램 가능한 게이트 어레이들 또는 프로세서들과 같은, 프로그램 가능한 유닛들이 포함될 수 있다는 것이 또한 이해될 것이다. 여기에서 설명된 모듈들/유닛들/블록들 또는 컴퓨팅 디바이스 기능은 소프트웨어 모듈들/유닛들/블록들로서 구현될 수 있지만 하드웨어 또는 소프트웨어로 표현될 수 있다. 일반적으로, 여기에서 설명된 모들들/유닛들/블록들은 다른 모듈들/유닛들/블록들과 조합되거나 또는 그것들의 물리적 조직 또는 저장에도 불구하고 서브-모듈들/서브-유닛들/서브-블록들로 나뉠 수 있는 논리 모듈들/유닛들/블록들을 나타낸다. 설명은 시스템, 엔진, 또는 그것의 부분에 적용 가능할 수 있다.
유닛, 엔진, 모듈, 또는 블록이 또 다른 유닛, 엔진, 모듈, 또는 블록 "상에", "~에 연결되어", 또는 "~에 결합되어" 있는 것으로 나타내어질 때, 그것은 다른 유닛, 엔진, 모듈, 또는 블록 상에 바로 있고, 연결되거나 또는 결합될 수 있거나, 또는 문맥이 달리 명확하게 표시하지 않는다면, 매개 유닛, 엔진, 모듈, 또는 블록이 존재할 수 있다. 여기에서 사용된 바와 같이, 용어("및/또는")는 연관된 나열된 아이템들 중 하나 이상의 임의의 및 모든 조합들을 포함한다.
본 개시의 이들 및 다른 특징들, 및 특성들, 뿐만 아니라 구조의 관련 요소들 및 부품들의 조합의 동작 및 기능들의 방법들 및 제조의 경제학들은, 모두가, 본 개시의 부분을 형성하는, 첨부된 도면들을 참조하여 다음의 설명의 고려 시 보다 명백해질 것이다. 그러나, 도면들은 단지 예시 및 설명의 목적을 위한 것이며, 본 개시의 범위를 제한하도록 의도되지 않는다는 것이 명확하게 이해될 것이다. 도면들은 일정한 비율이 아니라는 것이 이해될 것이다.
본 개시에서 사용된 흐름도들은 본 개시의 일부 실시예들에 따라 시스템들이 구현되는 동작들을 예시한다. 흐름도의 동작들이 순서대로 구현되지 않을 수 있음을 분명히 이해해야 한다. 반대로, 동작들은 역순으로 또는 동시에 구현될 수도 있다. 또한, 하나 이상의 다른 동작들이 흐름도들에 추가될 수도 있다. 하나 이상의 동작들이 흐름도들에서 제거될 수도 있다.
본 개시는 오디오 신호 생성을 위한 시스템들 및 방법들을 제공한다. 시스템들 및 방법들은 골전도 센서에 의해 수집된 제1 오디오 데이터(또한 골전도 오디오 데이터라고 함)를 획득할 수 있다. 시스템들 및 방법들은 공기 전도 센서에 의해 수집된 제2 오디오 데이터(또한 공기 전도 오디오 데이터라고 함)를 획득할 수 있다. 골전도 오디오 데이터와 공기 전도 오디오 데이터는 상이한 주파수 성분들로 사용자의 음성을 나타낼 수 있다. 시스템들 및 방법들은 골전도 오디오 데이터 및 공기 전도 오디오 데이터에 기초하여 오디오 데이터를 생성할 수 있다. 주파수 포인트보다 높은 생성된 오디오 데이터의 주파수 성분들은 주파수 포인트보다 높은 골전도 오디오 데이터의 주파수 성분들에 대해 증가할 수 있다. 일부 실시예들에서, 시스템들 및 방법들은 생성된 오디오 데이터에 기초하여 골전도 오디오 데이터 및 공기 전도 오디오 데이터보다 더 나은 충실도로 사용자의 음성을 나타내는 타겟 오디오 데이터를 결정할 수 있다. 본 개시에 따라, 골전도 오디오 데이터 및 공기 전도 오디오 데이터에 기초하여 생성된 오디오 데이터는 골전도 오디오 데이터보다 더 높은 주파수 성분들 및/또는 공기 전도 오디오 데이터보다 더 적은 잡음를 포함할 수 있으며, 이는 골전도 오디오 데이터 및/또는 공기 전도 오디오 데이터와 관련하여 생성된 오디오 데이터의 충실도 및 명료도를 향상시킬 수 있다. 일부 실시예들에서, 시스템들 및 방법들은 또한, 골전도 오디오 데이터의 더 높은 주파수 성분들을 증가시킴으로써 공기 전도 오디오 데이터에 더 유사하거나 또는 더 가까운 재구성된 골전도 오디오 데이터를 획득하기 위해 골전도 오디오 데이터를 재구성하는 것을 포함할 수 있으며, 이는 골전도 오디오 데이터에 대한 재구성된 골전도 오디오 데이터의 품질, 더 나아가 생성된 오디오 데이터의 품질을 향상시킬 수 있다. 일부 실시예들에서, 시스템들 및 방법들은 골전도 오디오 데이터 및 공기 전도 오디오 데이터에 기초하여, 주파수 스티칭 포인트들(frequency stitching points)이라고도 하는 하나 이상의 주파수 임계값들에 따라 오디오 데이터를 생성할 수 있다. 주파수 스티칭 포인트들은 공기 전도 오디오 데이터와 연관된 잡음 레벨에 기초하여 결정될 수 있으며, 이는 생성된 오디오 데이터의 잡음을 감소시키는 동시에 생성된 오디오 데이터의 충실도를 향상시킬 수 있다.
도 1은 본 개시의 일부 실시예들에 따른 예시적인 오디오 신호 생성 시스템(100)을 도시하는 개략도이다. 오디오 신호 생성 시스템(100)은 오디오 수집 디바이스(110), 서버(120), 단말(130), 저장 디바이스(140), 및 네트워크(150)를 포함할 수 있다.
오디오 수집 디바이스(110)는 사용자가 말할 때 사용자의 소리(sound), 목소리(voice) 또는 음성(speech)을 수집함으로써 오디오 데이터(예를 들어, 오디오 신호)를 획득할 수 있다. 예를 들어, 사용자가 말할 때, 사용자의 소리는 사용자의 입 주변의 공기의 진동 및/또는 사용자의 신체 조직(예를 들어, 두개골)의 진동을 유발할 수 있다. 오디오 수집 디바이스(110)는 진동들을 수신하고 진동들을 오디오 데이터라고도 하는 전기 신호들(예를 들어, 아날로그 신호들 또는 디지털 신호들)로 변환할 수 있다. 오디오 데이터는 전기 신호들의 형태로 네트워크(150)를 통해 서버(120), 단말(130) 및/또는 저장 디바이스(140)로 전송될 수 있다. 일부 실시예들에서, 오디오 수집 디바이스(110)는 레코더, 블루투스 헤드셋과 같은 헤드셋, 유선 헤드셋, 보청기 등을 포함할 수 있다.
일부 실시예들에서, 오디오 수집 디바이스(110)는 무선 연결(예를 들어, 네트워크(150)) 및/또는 유선 연결을 통해 확성기와 연결될 수 있다. 오디오 데이터는 사용자의 음성을 플레이 및/또는 재생하기 위해 라우드스피커로 전송될 수 있다. 일부 실시예들에서, 라우드스피커 및 오디오 수집 디바이스(110)는 헤드셋과 같은 하나의 단일 디바이스에 통합될 수 있다. 일부 실시예들에서, 오디오 수집 디바이스(110)와 라우드스피커는 서로 분리될 수 있다. 예를 들어, 오디오 수집 디바이스(110)는 제1 단말(예를 들어, 헤드셋)에 설치되고, 라우드스피커는 다른 단말(예를 들어, 단말(130))에 설치될 수 있다.
일부 실시예들에서, 오디오 수집 디바이스(110)는 골전도 마이크로폰(112) 및 공기 전도 마이크로폰(114)을 포함할 수 있다. 골전도 마이크로폰(112)은 골전도 오디오 데이터를 수집하기 위한 하나 이상의 골전도 센서들을 포함할 수 있다. 골전도 오디오 데이터는 사용자가 말할 때 사용자의 뼈들(예를 들어, 두개골)의 진동 신호를 수집함으로써 생성될 수 있다. 일부 실시예들에서, 하나 이상의 골전도 센서들은 골전도 센서 어레이를 형성할 수 있다. 일부 실시예들에서, 골전도 마이크로폰(112)은 골전도 오디오 데이터를 수집하기 위해 사용자의 신체 부위에 위치 및/또는 접촉할 수 있다. 사용자의 신체 부위는 이마, 목(예를 들어, 목구멍(throat)), 얼굴(예를 들어, 입 주변 부분, 턱), 머리 상단(top of the head), 유양돌기(mastoid), 귀 주변 부분 또는 귀 내부 부분, 관자놀이 등, 또는 이들의 조합을 포함할 수 있다. 예를 들어, 골전도 마이크로폰(112)은 귓바퀴, 외이, 내이도, 외이도 등에 위치 및/또는 접촉할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터의 하나 이상의 특성들은 골전도 마이크로폰(112)이 위치 및/또는 접촉하는 사용자 신체의 부위에 따라 상이할 수 있다. 예를 들어, 귀 주변 부분에 위치하는 골전도 마이크로폰(112)에 의해 수집된 골전도 오디오 데이터는 이마에 위치하는 골전도 마이크로폰(112)에 의해 수집된 것보다 높은 에너지를 포함할 수 있다. 공기 전도 마이크로폰(114)은 사용자가 말할 때 공기를 통해 전도되는 공기 전도 오디오 데이터를 수집하기 위한 하나 이상의 공기 전도 센서들을 포함할 수 있다. 일부 실시예들에서, 하나 이상의 공기 전도 센서들은 공기 전도 센서 어레이를 형성할 수 있다. 일부 실시예들에서, 공기 전도 마이크로폰(114)은 사용자의 입으로부터 어떤 거리(예를 들어, 0 cm, 1 cm, 2 cm, 5 cm, 10 cm, 20 cm 등) 내에 위치될 수 있다. 공기 전도 오디오 데이터의 하나 이상의 특성들(예를 들어, 공기 전도 오디오 데이터의 평균 진폭)은 공기 전도 마이크로폰(114)과 사용자의 입 사이의 상이한 거리에 따라 상이할 수 있다. 예를 들어, 공기 전도 마이크로폰(114)과 사용자의 입 사이의 거리가 멀수록 공기 전도 오디오 데이터의 평균 진폭은 작아질 수 있다.
일부 실시예들에서, 서버(120)는 단일 서버 또는 서버 그룹일 수 있다. 서버 그룹은 중앙 집중화되거나(예를 들어, 데이터 센터) 분산될 수 있다(예를 들어, 서버(120)는 분산된 시스템일 수 있음). 일부 실시예들에서, 서버(120)는 로컬 또는 원격일 수 있다. 예를 들어, 서버(120)는 네트워크(150)를 통해 단말(130), 및/또는 저장 디바이스(140)에 저장된 정보 및/또는 데이터에 액세스할 수 있다. 다른 예로서, 서버(120)는 단말(130) 및/또는 저장 디바이스(140)에 직접 연결되어 저장된 정보 및/또는 데이터에 액세스할 수 있다. 일부 실시예들에서, 서버(120)는 클라우드 플랫폼에 구현될 수 있다. 단지 예로서, 클라우드 플랫폼은 사설 클라우드, 공공 클라우드, 하이브리드 클라우드, 커뮤니티 클라우드, 분산형 클라우드, 클라우드-간, 다중-클라우드 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서, 서버(120)는 본 개시의 도 2에 예시된 하나 이상의 구성요소들을 갖는 컴퓨팅 디바이스(200)에 구현될 수 있다.
일부 실시예들에서, 서버(120)는 프로세싱 디바이스(122)를 포함할 수 있다. 프로세싱 디바이스(122)는 본 개시에서 설명된 하나 이상의 기능들을 수행하기 위해 오디오 신호 생성과 관련된 정보 및/또는 데이터를 처리할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 골전도 마이크로폰(112)에 의해 수집된 골전도 오디오 데이터 및 공기 전도 마이크로폰(114)에 의해 수집된 공기 전도 오디오 데이터를 획득할 수 있으며, 여기서 골전도 오디오 데이터 및 공기 전도 오디오 데이터는 사용자의 음성을 나타낸다. 프로세싱 디바이스(122)는 골전도 오디오 데이터 및 공기 전도 오디오 데이터에 기초하여 타겟 오디오 데이터를 생성할 수 있다. 다른 예로서, 프로세싱 디바이스(122)는 저장 디바이스(140) 또는 임의의 다른 저장 디바이스로부터 트레이닝된 기계 학습 모델 및/또는 구성 필터(constructed filter)를 획득할 수 있다. 프로세싱 디바이스(122)는 트레이닝된 기계 학습 모델 및/또는 구성 필터를 사용하여 골전도 오디오 데이터를 재구성할 수 있다. 추가 예로서, 프로세싱 디바이스(122)는 복수의 음성 샘플 그룹들을 사용하여 예비 기계 학습 모델을 트레이닝함으로써 트레이닝된 기계 학습 모델을 결정할 수 있다. 복수의 음성 샘플들 각각은 사용자의 음성을 나타내는 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 포함할 수 있다. 또 다른 예로서, 프로세싱 디바이스(122)는 잡음이 제거된 공기 전도 오디오 데이터를 획득하기 위해 공기 전도 오디오 데이터에 대해 잡음제거 동작을 수행할 수 있다. 프로세싱 디바이스(122)는 재구성된 골전도 오디오 데이터 및 잡음이 제거된 공기 전도 오디오 데이터에 기초하여 타겟 오디오 데이터를 생성할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 하나 이상의 프로세싱 엔진들(예를 들어, 단일 코어 프로세싱 엔진(들) 또는 다중 코어 프로세서(들))을 포함할 수 있다. 단지 예로서, 프로세싱 디바이스(122)는 중앙 처리 장치(CPU), 주문형 집적 회로(ASIC), 주문형 명령 세트 프로세서(ASIP), 그래픽 프로세싱 유닛(GPU), 물리 프로세싱 유닛(PPU), 디지털 신호 프로세서(DSP), 필드-프로그램 가능 게이트 어레이(FPGA: Field-Programmable Gate Array), 프로그램 가능 로직 디바이스(PLD: Programmable Logic Device), 컨트롤러, 마이크로 컨트롤러 유닛, 감소된 명령 세트 컴퓨터(RISC: Reduced Instruction-Set Computer) , 마이크로프로세서 등, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 실시예들에서, 단말(130)은 모바일 디바이스(130-1), 태블릿 컴퓨터(130-2), 랩톱 컴퓨터(130-3), 차량에 내장된 디바이스(130-4), 웨어러블 디바이스(130-5) 또는 이와 유사한 것, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서, 모바일 디바이스(130-1)는 스마트 홈 디바이스, 스마트 모바일 디바이스, 가상 현실 디바이스, 증강 현실 디바이스 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서, 스마트 홈 디바이스는 스마트 조명 디바이스, 지능형 전기 장치의 제어 디바이스, 스마트 모니터링 디바이스, 스마트 텔레비전, 스마트 비디오 카메라, 인터폰 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서, 스마트 모바일 디바이스는 스마트폰, PDA(Personal Digital Assistance), 게임 디바이스, 내비게이션 디바이스, POS(Point of Sale) 디바이스 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서, 가상 현실 디바이스 및/또는 증강 현실 디바이스는 가상 현실 헬멧, 가상 현실 글래스, 가상 현실 패치, 증강 현실 헬멧, 증강 현실 글래스, 증강 현실 패치 등, 또는 이들의 임의의 조합을 포함할 수 있다. 예를 들어, 가상 현실 디바이스 및/또는 증강 현실 디바이스는 GoogleTM Glasses, Oculus Rift, HoloLens, Gear VR 등을 포함할 수 있다. 일부 실시예들에서, 차량에 내장된 디바이스(130-4)는 온보드 컴퓨터, 온보드 텔레비전 등을 포함할 수 있다. 일부 실시예들에서, 단말(130)은 승객 및/또는 단말(130)의 위치를 찾기 위한 포지셔닝 기술을 갖는 디바이스일 수 있다. 일부 실시예들에서, 웨어러블 디바이스(130-5)는 스마트 팔찌, 스마트 풋기어(smart footgear), 스마트 글래스, 스마트 헬멧, 스마트 워치, 스마트 의류, 스마트 백팩, 스마트 액세서리 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서, 오디오 수집 디바이스(110) 및 단말(130)은 하나의 단일 디바이스에 통합될 수 있다.
저장 디바이스(140)는 데이터 및/또는 명령들을 저장할 수 있다. 예를 들어, 저장 디바이스(140)는 복수의 음성 샘플 그룹들의 데이터, 하나 이상의 기계 학습 모델들, 트레이닝된 기계 학습 모델 및/또는 구성 필터, 골전도 마이크로폰(112) 및 공기 전도 마이크로폰(114)에 의해 수집된 오디오 데이터 등을 저장할 수 있다. 일부 실시예들에서, 저장 디바이스(140)는 단말(130) 및/또는 오디오 수집 디바이스(110)로부터 획득된 데이터를 저장할 수 있다. 일부 실시예들에서, 저장 디바이스(140)는 서버(120)가 본 개시에서 설명된 예시적인 방법들을 수행하기 위해 실행하거나 또는 사용할 수 있는 데이터 및/또는 명령들을 저장할 수 있다. 일부 실시예들에서, 저장 디바이스(140)는 대용량 저장 장치, 착탈 가능한 저장 장치, 휘발성 판독-및-기록 메모리, 판독-전용 메모리(ROM) 등, 또는 그것의 임의의 조합을 포함할 수 있다. 예시적인 대용량 저장소는 자기 디스크, 광학 디스크, 고체-상태 드라이브 등을 포함할 수 있다. 예시적인 착탈 가능한 저장소는 플래시 드라이브, 플로피 디스크, 광학 디스크, 메모리 카드, 집 디스크, 자기 테이프 등을 포함할 수 있다. 예시적인 휘발성 판독-및-기록 메모리는 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 예시적인 RAM은 동적 RAM(DRAM), 이중 데이터 레이트 동기식 동적 RAM(DDR SDRAM), 정적 RAM(SRAM), 사이리스터 RAM(T-RAM), 및 제로-커패시터 RAM(Z-RAM) 등을 포함할 수 있다. 예시적인 ROM은 마스크 ROM(MROM), 프로그램 가능한 ROM(PROM), 삭제 가능한 프로그램 가능 ROM(EPROM), 전기적으로 삭제 가능한 프로그램 가능 ROM(EEPROM), 컴팩트 디스크 ROM(CD-ROM), 및 디지털 다목적 디스크 ROM 등을 포함할 수 있다. 일부 실시예들에서, 저장 디바이스(140)는 클라우드 플랫폼 상에서 구현될 수 있다. 단지 예로서, 클라우드 플랫폼은 사설 클라우드, 공공 클라우드, 하이브리드 클라우드, 커뮤니티 클라우드, 분산형 클라우드, 클라우드-간, 다중-클라우드 등, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 실시예들에서, 저장 디바이스(140)는 오디오 신호 생성 시스템(100)의 하나 이상의 구성요소들(예를 들어, 오디오 수집 디바이스(110), 서버(120), 및 단말(130))과 통신하기 위해 네트워크(150)에 연결될 수 있다. 오디오 신호 생성 시스템(100)의 하나 이상의 구성요소들은 네트워크(150)를 통해 저장 디바이스(140)에 저장된 데이터 또는 명령들에 액세스할 수 있다. 일부 실시예들에서, 저장 디바이스(140)는 오디오 신호 생성 시스템(100)의 하나 이상의 구성요소들(예를 들어, 오디오 수집 디바이스(110), 서버(120), 및 단말(130))에 직접 연결되거나 이들과 통신할 수 있다. 일부 실시예들에서, 저장 디바이스(140)는 서버(120)의 일부일 수 있다.
네트워크(150)는 정보 및/또는 데이터의 교환을 용이하게 할 수 있다. 일부 실시예들에서, 오디오 신호 생성 시스템(100)의 하나 이상의 구성요소들(예를 들어, 오디오 수집 디바이스(110), 서버(120), 단말(130) 및 저장 디바이스(140))는 정보 및/또는 데이터를 네트워크(150)를 통해 오디오 신호 생성 시스템(100)의 다른 구성요소(들)로 전송할 수 있다. 예를 들어, 서버(120)는 네트워크(150)를 통해 단말(130)로부터 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 획득할 수 있다. 일부 실시예들에서, 네트워크(150)는 임의의 유형의 유선 또는 무선 네트워크, 또는 이들의 조합일 수 있다. 단지 예로서, 네트워크(150)는 케이블 네트워크, 와이어라인 네트워크, 광섬유 네트워크, 전기통신 네트워크, 인트라넷, 인터넷, 근거리 네트워크(LAN: Local Area Network), 광역 네트워크(WAN: Wide Area Network), 무선 근거리 네트워크(WLAN: Wireless Local Area Network), 대도시 영역 네트워크(MAN: Metropolitan Area Network), 공중 전화 스위칭 네트워크(PSTN: Public Telephone Switched Network), 블루투스 네트워크, 지그비(ZigBee) 네트워크, 근거리장 통신(NFC: Near Field Communication) 네트워크 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서, 네트워크(150)는 하나 이상의 네트워크 액세스 포인트들을 포함할 수 있다. 예를 들어, 네트워크(150)는 기지국들 및/또는 인터넷 교환 포인트들과 같은 유선 또는 무선 네트워크 액세스 포인트들을 포함할 수 있으며, 이를 통해 오디오 신호 생성 시스템(100)의 하나 이상의 구성요소들이 데이터 및/또는 정보를 교환하기 위해 네트워크(150)에 연결될 수 있다.
당업자는 오디오 신호 생성 시스템(100)의 요소(또는 구성요소)가 수행할 때, 상기 요소는 전기 신호들 및/또는 전자기 신호들을 통해 수행할 수 있음을 이해할 것이다. 예를 들어, 골전도 마이크로폰(112)이 서버(120)로 골전도 오디오 데이터를 전송하는 경우, 골전도 마이크로폰(112)의 프로세서는 골전도 오디오 데이터를 인코딩하는 전기 신호를 생성할 수 있다. 그 다음에 골전도 마이크로폰(112)의 프로세서는 그 다음 전기 신호를 출력 포트로 전송할 수 있다. 골전도 마이크로폰(112)이 유선 네트워크를 통해 서버(120)와 통신하는 경우, 출력 포트는 물리적으로 케이블에 연결될 수 있고, 이는 더 나아가 서버(120)의 입력 포트로 전기 신호를 전송할 수 있다. 골전도 마이크로폰(112)이 무선 네트워크를 통해 서버(120)와 통신하는 경우, 골전도 마이크로폰(112)의 출력 포트는 전기 신호를 전자기 신호로 변환하는 하나 이상의 안테나들일 수 있다. 유사하게, 공기 전도 마이크로폰(114)은 전기 신호 또는 전자기 신호들을 통해 공기 전도 오디오 데이터를 서버(120)로 전송할 수 있다. 단말(130) 및/또는 서버(120)와 같은 전자 디바이스 내에서, 그의 프로세서가 명령을 처리하고, 명령을 전송하고, 및/또는 액션을 수행할 때, 그 명령 및/또는 액션은 전기 신호들을 통해 수행된다. 예를 들어, 프로세서가 저장 매체로부터 데이터를 검색하거나 저장할 때, 저장 매체에 구조화된 데이터를 판독하거나 기록할 수 있는 저장 매체의 판독/기록 디바이스에 전기 신호들을 전송할 수 있다. 구조화된 데이터는 전자 디바이스의 버스를 통해 전기 신호들의 형태로 프로세서에 전송될 수 있다. 여기서, 전기 신호는 하나의 전기 신호, 일련의 전기적 신호들, 및/또는 복수의 개별적인 전기 신호들을 의미할 수 있다.
도 2는 본 개시의 일부 실시예들에 따른 예시적인 컴퓨팅 디바이스의 개략도를 도시한다. 컴퓨팅 디바이스는 도 1의 서버(120)와 같은 컴퓨터 및/또는 본 개시의 일부 실시예들에 따른 임의의 특정 시스템을 구현하도록 구성된 특정 기능들을 갖는 컴퓨터일 수 있다. 컴퓨팅 디바이스(200)는 본 개시에 개시된 하나 이상의 기능들을 수행하는 임의의 구성요소들을 구현하도록 구성될 수 있다. 예를 들어, 서버(120)는 컴퓨팅 디바이스(200)와 같은 컴퓨터의, 하드웨어 디바이스들, 소프트웨어 프로그램들, 펌웨어, 또는 임의의 조합으로 구현될 수 있다. 간결함을 위해, 도 2는 하나의 컴퓨팅 디바이스만을 나타낸다. 일부 실시예들에서, 컴퓨팅 디바이스의 기능들은 시스템의 프로세싱 부하를 분산시키기 위해 분산 모드에서 유사한 플랫폼들의 그룹에 의해 구현될 수 있다.
컴퓨팅 디바이스(200)는 데이터 통신을 구현할 수 있는 네트워크와 연결될 수 있는 통신 포트들(250)을 포함할 수 있다. 컴퓨팅 디바이스(200)는 또한 명령들을 실행하도록 구성되고 하나 이상의 프로세서들을 포함하는 프로세서(220)를 포함할 수 있다. 개략적인 컴퓨터 플랫폼은 내부 통신 버스(210), 상이한 유형들의 프로그램 저장 유닛들 및 데이터 저장 유닛들(예를 들어, 하드 디스크(270), 판독 전용 메모리(ROM)(230), 랜덤 액세스 메모리(RAM)(240)), 컴퓨터 프로세싱 및/또는 통신에 적용 가능한 다양한 데이터 파일들, 및 프로세서(220)에 의해 가능하게 실행되는 일부 프로그램 명령들을 포함할 수 있다. 컴퓨팅 디바이스(200)는 또한 컴퓨팅 디바이스(200)와 다른 구성요소들 사이의 데이터 흐름들의 입력 및 출력을 지원할 수 있는 I/O 디바이스(260)를 포함할 수 있다. 또한, 컴퓨팅 디바이스(200)는 통신 네트워크를 통해 프로그램들 및 데이터를 수신할 수 있다.
도 3은 본 개시의 일부 실시예들에 따른 예시적인 모바일 디바이스의 예시적인 하드웨어 및/또는 소프트웨어 구성요소들을 도시하는 개략도이다. 도 3에 예시된 바와 같이, 모바일 디바이스(300)는 카메라(305), 통신 플랫폼(310), 디스플레이(320), 그래픽 프로세싱 유닛(GPU)(330), 중앙 처리 유닛(CPU)(340), I/O(350), 메모리(360), 모바일 운영 시스템(OS)(370), 애플리케이션(들), 및 저장소(390)를 포함할 수 있다. 일부 실시예들에서, 이에 제한되지 않지만 시스템 버스 또는 제어기(도시되지 않음)를 포함한, 임의의 다른 적절한 구성요소가 또한 이동 디바이스(300)에 포함될 수 있다.
일부 실시예들에서, 모바일 운영 시스템(370)(예를 들어, iOS™, Android™, Windows Phone™ 등) 및 하나 이상의 애플리케이션들(380)은 CPU(340)에 의해 실행되도록 저장소(390)로부터 메모리(360)로 로딩될 수 있다. 애플리케이션들(380)은 오디오 신호 생성 시스템(100)으로부터 오디오 데이터 프로세싱 또는 다른 정보에 관한 정보를 수신하고 렌더링하기 위한 브라우저 또는 임의의 다른 적절한 모바일 앱들을 포함할 수 있다. 정보 스트림과의 사용자 상호작용들은 I/O(350)를 통해 달성될 수 있고, 데이터베이스(130), 서버(105), 및/또는 오디오 신호 생성 시스템(100)의 다른 구성요소들에 제공될 수 있다. 일부 실시예들에서, 모바일 디바이스(300)는 단말(130)에 대응하는 예시적인 실시예일 수 있다.
본 개시에서 설명된 다양한 모듈들, 유닛들, 및 그것들의 기능들을 구현하기 위해, 컴퓨터 하드웨어 플랫폼들은 여기에서 설명된 요소들 중 하나 이상에 대한 하드웨어 플랫폼(들)으로서 사용될 수 있다. 그러한 컴퓨터들의 하드웨어 요소들, 운영 시스템들 및 프로그래밍 언어들은 전적으로 통상적인 것이며, 당업자는 본 명세서에 설명된 바와 같이 오디오를 생성하고/하거나 음성 샘플들을 획득하기 위해 이러한 기술들을 적응시키는 데 이들과 충분히 친숙하다고 추정된다. 사용자 인터페이스 요소들을 갖는 컴퓨터는 개인용 컴퓨터(PC) 또는 다른 유형들의 워크 스테이션 또는 단말 디바이스를 구현하는 데 사용될 수 있지만 컴퓨터는 또한 적절하게 프로그래밍된 경우 서버 역할도 할 수 있다. 당업자는 이러한 컴퓨터 장비의 구조, 프로그래밍 및 일반적인 작동에 익숙하며 결과적으로 도면들은 자체적으로 자명하다고 믿어진다.
당업자는 시스템(100)의 요소가 수행할 때, 상기 요소는 전기 신호들 및/또는 전자기 신호들을 통해 수행할 수 있음을 이해할 것이다. 예를 들어, 서버(120)가 트레이닝된 기계 학습 모델을 결정하는 것과 같은 작업을 처리할 때, 서버(120)는 그러한 작업을 처리하기 위해 자신의 프로세서에서 논리 회로들을 동작시킬 수 있다. 서버(120)가 트레이닝된 기계 학습 모델의 결정을 완료하면, 서버(120)의 프로세서는 트레이닝된 기계 학습 모델을 인코딩하는 전기 신호들을 생성할 수 있다. 그 다음, 서버(120)의 프로세서는 전기 신호들을 서버(120)와 연관된 타겟 시스템의 적어도 하나의 데이터 교환 포트로 전송할 수 있다. 서버(120)는 유선 네트워크를 통해 타겟 시스템과 통신하고, 적어도 하나의 데이터 교환 포트는 케이블에 물리적으로 연결될 수 있으며, 이는 또한 전기 신호들을 단말(130)의 입력 포트(예를 들어, 정보 교환 포트)로 전송할 수 있다. 서버(120)가 무선 네트워크를 통해 타겟 시스템과 통신하는 경우, 타겟 시스템의 적어도 하나의 데이터 교환 포트는 전기 신호들을 전자기 신호들로 변환할 수 있는 하나 이상의 안테나들일 수 있다. 단말(130) 및/또는 서버(120)와 같은 전자 디바이스 내에서, 그의 프로세서가 명령을 처리하고, 명령을 전송하고, 및/또는 액션을 수행할 때, 그 명령 및/또는 액션은 전기 신호들을 통해 수행된다. 예를 들어, 프로세서가 저장 매체(예를 들어, 저장 디바이스(140))로부터 데이터를 검색하거나 저장할 때, 저장 매체에 구조화된 데이터를 판독하거나 기록할 수 있는 저장 매체의 판독/기록 디바이스에 전기 신호들을 전송할 수 있다. 구조화된 데이터는 전자 디바이스의 버스를 통해 전기 신호들의 형태로 프로세서에 전송될 수 있다. 여기서, 전기 신호는 하나의 전기 신호, 일련의 전기적 신호들, 및/또는 복수의 개별적인 전기 신호들일 수 있다.
도 4a는 본 개시의 일부 실시예들에 따른 예시적인 프로세싱 디바이스를 도시하는 블록도이다. 일부 실시예들에서, 프로세싱 디바이스(122)는 도 2에 도시된 컴퓨팅 디바이스(200)(예를 들어, 프로세서(220)) 또는 도 3에 도시된 CPU(340)에서 구현될 수 있다. 도 4a에 도시된 바와 같이, 프로세싱 디바이스(122)는 획득 모듈(410), 전처리 모듈(420), 오디오 데이터 생성 모듈(430), 및 저장 모듈(440)을 포함할 수 있다. 위에서 설명된 모듈들 각각은, 예를 들어, 하나 이상의 저장 매체에 저장된 명령들의 세트, 및/또는 하드웨어 회로와 하나 이상의 저장 매체의 임의의 조합에 따라, 특정 액션들을 수행하도록 설계된 하드웨어 회로일 수 있다.
획득 모듈(410)은 오디오 신호 생성을 위한 데이터를 획득하도록 구성될 수 있다. 예를 들어, 획득 모듈(410)은 원래의 오디오 데이터, 하나 이상의 모델들, 기계 학습 모델을 트레이닝하기 위한 트레이닝 데이터 등을 획득할 수 있다. 일부 실시예들에서, 획득 모듈(410)은 골전도 센서에 의해 수집된 제1 오디오 데이터를 획득할 수 있다. 본 명세서에서 사용되는 바와 같이, 골전도 센서는 본 개시의 다른 곳(예를 들어, 도 1 및 그의 설명)에서 설명된 바와 같이 사용자가 말할 때 생성된 사용자의 뼈(예를 들어, 두개골)를 통해 전도된 진동 신호들을 수집할 수 있는 임의의 센서(예를 들어, 골전도 마이크로폰(112))라고 할 수 있다. 일부 실시예들에서, 제1 오디오 데이터는 시간 도메인의 오디오 신호, 주파수 도메인의 오디오 신호 등을 포함할 수 있다. 제1 오디오 데이터는 아날로그 신호 또는 디지털 신호를 포함할 수 있다. 획득 모듈(410)은 또한 공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득하도록 구성될 수 있다. 공기 전도 센서는 본 개시의 다른 곳(예를 들어, 도 1 및 이에 대한 설명)에서 설명된 바와 같이, 사용자가 말할 때 공기를 통해 전도된 진동 신호들을 수집할 수 있는 임의의 센서(예를 들어, 공기 전도 마이크로폰(114))라고 할 수 있다. 일부 실시예들에서, 제2 오디오 데이터는 시간 도메인의 오디오 신호, 주파수 도메인의 오디오 신호 등을 포함할 수 있다. 제2 오디오 데이터는 아날로그 신호 또는 디지털 신호를 포함할 수 있다. 일부 실시예들에서, 획득 모듈(410)은 제1 오디오 데이터 등을 재구성하기 위해 트레이닝된 기계 학습 모델, 구성 필터, 고조파 보정 모델 등을 획득할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 실시간으로 또는 주기적으로, 공기 전도 센서(예를 들어, 공기 전도 마이크로폰(114)), 단말(130), 저장 디바이스(140), 또는 네트워크(150)를 통한 임의의 다른 저장 디바이스로부터 제1 오디오 데이터 및/또는 제2 오디오 데이터, 하나 이상의 모델들을 획득할 수 있다.
전처리 모듈(420)은 제1 오디오 데이터 또는 제2 오디오 데이터 중 적어도 하나를 전처리하도록 구성될 수 있다. 전처리된 후의 제1 오디오 데이터 및 제2 오디오 데이터는 또한 전처리된 제1 오디오 데이터 및 전처리된 제2 오디오 데이터로 각각 지칭될 수 있다. 예시적인 전처리 동작들은 도메인 변환 동작, 신호 교정 동작, 오디오 재구성 동작, 음성 강화 동작 등을 포함할 수 있다. 일부 실시예들에서, 전처리 모듈(420)은 푸리에 변환 또는 역푸리에 변환을 수행함으로써 도메인 변환 동작을 수행할 수 있다. 일부 실시예들에서, 전처리 모듈(420)은 제1 오디오 데이터 및/또는 제2 오디오 데이터를 교정하기 위한 정규화된 제1 오디오 데이터 및/또는 정규화된 제2 오디오 데이터를 획득하기 위해 제1 오디오 데이터 및/또는 제2 오디오 데이터에 대한 정규화 동작을 수행할 수 있다. 일부 실시예들에서, 전처리 모듈(420)은 제2 오디오 데이터(또는 정규화된 제2 오디오 데이터)에 대해 음성 강화 동작을 수행할 수 있다. 일부 실시예들에서, 전처리 모듈(420)은 잡음이 제거된 제2 오디오 데이터를 획득하기 위해 제2 오디오 데이터(또는 정규화된 제2 오디오 데이터)에 대해 잡음제거 동작을 수행할 수 있다. 일부 실시예들에서, 전처리 모듈(420)은 트레이닝된 기계 학습 모델, 구성 파일러, 고조파 보정 모델, 희소 행렬 기법 등, 또는 이들의 임의의 조합을 사용하여, 재구성된 제1 오디오 데이터를 생성하기 위해 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터)에 대한 오디오 재구성 동작을 수행할 수 있다.
오디오 데이터 생성 모듈(430)은 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)에 기초하여 제3 오디오 데이터를 생성하도록 구성될 수 있다. 일부 실시예들에서, 제3 오디오 데이터와 연관된 잡음 레벨은 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)와 연관된 잡음 레벨보다 낮을 수 있다. 일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 하나 이상의 주파수 임계값들에 따라 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)에 기초하여 제3 오디오 데이터를 생성할 수 있다. 일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 하나의 단일 주파수 임계값을 결정할 수 있다. 오디오 데이터 생성 모듈(430)은 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)를 하나의 단일 주파수 임계값에 따라 주파수 도메인에서 스티칭하여 제3 오디오 데이터를 생성할 수 있다.
일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 주파수 임계값에 적어도 부분적으로 기초하여, 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 하위 부분 및 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 상위 부분에 대한 제1 가중치 및 제2 가중치를 각각(respectively) 결정할 수 있다. 제1 전도 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 하위 부분은 주파수 임계값보다 낮은 제1 전도 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 주파수 성분들을 포함할 수 있고, 제1 전도 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 상위 부분은 주파수 임계값보다 높은 제1 전도 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 주파수 성분들을 포함할 수 있다. 일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 주파수 임계값에 적어도 부분적으로 기초하여, 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 하위 부분 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 상위 부분에 대한 제3 가중치 및 제4 가중치를 각각 결정할 수 있다. 제2 전도 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 하위 부분은 주파수 임계값보다 낮은 제2 전도 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 주파수 성분들을 포함할 수 있고, 제2 전도 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 상위 부분은 주파수 임계값보다 높은 제2 전도 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 주파수 성분들을 포함할 수 있다. 일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 제1 가중치, 제2 가중치, 제3 가중치, 및 제4 가중치를 사용하여 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 하위 부분, 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 상위 부분, 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 하위 부분, 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 상위 부분를 각각 가중함으로써 제3 오디오 데이터를 결정할 수 있다.
일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 또는 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터) 중 적어도 하나에 적어도 부분적으로 기초하여 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)에 대응하는 가중치 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)에 대응하는 가중치를 결정할 수 있다. 오디오 데이터 생성 모듈(430)은 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)에 대응하는 가중치 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)에 대응하는 가중치를 사용하여 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 또는 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)를 가중함으로써 제3 오디오 데이터를 결정할 수 있다.
일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 제3 오디오 데이터에 기초하여 제1 오디오 데이터 및 제2 오디오 데이터보다 더 나은 충실도로 사용자의 음성을 나타내는 타겟 오디오 데이터를 결정할 수 있다. 일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 제3 오디오 데이터를 타겟 오디오 데이터로 지정할 수 있다. 일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 타겟 오디오 데이터를 획득하기 위해 제3 오디오 데이터에 대한 후처리 동작을 수행할 수 있다. 일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 타겟 오디오 데이터를 획득하기 위해 제3 오디오 데이터에 대해 잡음제거 동작을 수행할 수 있다. 일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 시간 도메인에서 타겟 오디오 데이터를 획득하기 위해 주파수 도메인에서 제3 오디오 데이터에 대해 역푸리에 변환 동작을 수행할 수 있다. 일부 실시예들에서, 오디오 데이터 생성 모듈(430)은 네트워크(150)를 통해 클라이언트 단말(예를 들어, 단말(130)), 저장 디바이스(140), 및/또는 임의의 다른 저장 디바이스(오디오 신호 생성 시스템(100)에 도시되지 않음)에 신호를 전송할 수 있다. 신호는 타겟 오디오 데이터를 포함할 수 있다. 신호는 또한 타겟 오디오 데이터를 플레이하도록 클라이언트 단말에 지시하도록 구성될 수 있다.
저장 모듈(440)은 오디오 신호 생성 시스템(100)과 연관된 데이터 및/또는 명령들을 저장하도록 구성될 수 있다. 예를 들어, 저장 모듈(440)은 복수의 음성 샘플들의 데이터, 하나 이상의 기계 학습 모델들, 트레이닝된 기계 학습 모델 및/또는 구성 필터, 골전도 마이크로폰(112) 및/또는 공기 전도 마이크로폰(114)에 의해 수집된 오디오 데이터 등을 저장할 수 있다. 일부 실시예들에서, 저장 모듈(440)은 구성에 있어서 저장 디바이스(140)와 동일할 수 있다.
상기 설명은 단지 예시의 목적들을 위해 제공되며, 본 개시의 범위를 제한하도록 의도되지 않는다는 것이 주의되어야 한다. 명백하게, 이 기술분야에서의 통상의 기술자들에 대해, 다수의 변형들 및 수정들이 본 개시의 교시들 하에서 수행될 수 있다. 그러나, 이들 변형들 및 수정들은 본 개시의 범위로부터 벗어나지 않는다. 예를 들어, 저장 모듈(440)은 생략될 수 있다. 다른 예로서, 오디오 데이터 생성 모듈(430) 및 저장 모듈(440)은 하나의 모듈로 통합될 수 있다.
도 4b는 본 개시의 일부 실시예들에 따른 예시적인 오디오 데이터 생성 모듈을 도시하는 블록도이다. 도 4b에 도시된 바와 같이, 오디오 데이터 생성 모듈(430)은 주파수 결정 유닛(432), 가중치 결정 유닛(434), 및 결합 유닛(436)을 포함할 수 있다. 위에서 설명된 서브 모듈들 각각은, 예를 들어, 하나 이상의 저장 매체에 저장된 명령들의 세트, 및/또는 하드웨어 회로와 하나 이상의 저장 매체의 임의의 조합에 따라, 특정 액션들을 수행하도록 설계된 하드웨어 회로일 수 있다.
주파수 결정 유닛(432)은 골전도 오디오 데이터 또는 공기 전도 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여 하나 이상의 주파수 임계값들을 결정하도록 구성될 수 있다. 일부 실시예들에서, 주파수 임계값은 골전도 오디오 데이터 및/또는 공기 전도 오디오 데이터의 주파수 포인트일 수 있다. 일부 실시예들에서, 주파수 임계값은 골전도 오디오 데이터 및/또는 공기 전도 오디오 데이터의 주파수 포인트와 상이할 수 있다. 일부 실시예들에서, 주파수 결정 유닛(432)은 골전도 오디오 데이터와 연관된 주파수 응답 곡선에 기초하여 주파수 임계값을 결정할 수 있다. 골전도 오디오 데이터와 연관된 주파수 응답 곡선은 주파수에 따라 달라지는 주파수 응답 값들을 포함할 수 있다. 일부 실시예들에서, 주파수 결정 유닛(432)은 골전도 오디오 데이터와 연관된 주파수 응답 곡선의 주파수 응답 값들에 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다. 일부 실시예들에서, 주파수 결정 유닛(432)은 주파수 응답 곡선의 변화에 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다. 일부 실시예들에서, 주파수 결정 유닛(432)은 재구성된 골전도 오디오 데이터와 연관된 주파수 응답 곡선을 결정할 수 있다. 일부 실시예들에서, 주파수 결정 유닛(432)은 공기 전도 오디오 데이터의 적어도 일부와 연관된 잡음 레벨에 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다. 일부 실시예들에서, 잡음 레벨은 공기 전도 오디오 데이터의 신호 대 잡음비(SNR)로 표시될 수 있다. SNR이 클수록 잡음 레벨이 낮아질 수 있다. 공기 전도 오디오 데이터와 연관된 SNR이 클수록 주파수 임계값이 더 커질 수 있다.
가중치 결정 유닛(434)은 하나 이상의 주파수 임계값들에 따라 골전도 오디오 데이터 및 공기 전도 오디오 데이터 각각을 다중 세그먼트들로 분할하누도록 구성될 수 있다. 골전도 오디오 데이터의 각 세그먼트는 공기 전도 오디오 데이터의 하나의 세그먼트에 대응할 수 있다. 본 명세서에서 사용되는 바와 같이, 골전도 오디오 데이터의 세그먼트가 공기 전도 오디오 데이터의 세그먼트에 대응하는 것은 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 두 세그먼트들이 하나 또는 두 개의 동일한 주파수 임계값들에 의해 정의됨을 의미할 수 있다. 일부 실시예들에서, 하나 이상의 주파수 임계값들의 카운트 또는 수는 하나일 수 있고, 가중치 결정 유닛(434)은 골전도 오디오 데이터 및 공기 전도 오디오 데이터 각각을 두 개의 세그먼트들로 분할할 수 있다.
가중치 결정 유닛(434)은 또한 골전도 오디오 데이터 및 공기 전도 오디오 데이터 각각의 다중 세그먼트들 각각에 대한 가중치를 결정하도록 구성될 수 있다. 일부 실시예들에서, 골전도 오디오 데이터의 특정 세그먼트에 대한 가중치 및 공기 전도 오디오 데이터의 대응하는 특정 세그먼트에 대한 가중치는, 골전도 오디오 데이터의 특정 세그먼트에 대한 가중치와 공기 전도 오디오 데이터의 대응하는 특정 세그먼트에 대한 가중치의 합이 1과 같도록 하는 기준을 충족할 수 있다. 일부 실시예들에서, 가중치 결정 유닛(434)은 공기 전도 오디오 데이터의 SNR에 기초하여 골전도 오디오 데이터 또는 공기 전도 오디오 데이터의 상이한 세그먼트들에 대한 가중치들을 결정할 수 있다.
결합 유닛(436)은 골전도 오디오 데이터 및 공기 전도 오디오 데이터 각각의 다중 세그먼트들 각각에 대한 가중치에 기초하여 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 스티칭, 융합 및/또는 결합하도록 구성되어 스티칭된, 결합된, 및/또는 융합된 오디오 데이터를 생성할 수 있다. 일부 실시예들에서, 결합 유닛(436)은 하나의 단일 주파수 임계값에 따라 골전도 오디오 데이터의 하위 부분 및 공기 전도 오디오 데이터의 상위 부분을 결정할 수 있다. 결합 유닛(436)은 스티칭된 오디오 데이터를 생성하기 위해 골전도 오디오 데이터의 하위 부분과 공기 전도 오디오 데이터의 상위 부분을 스티칭 및/또는 결합할 수 있다. 결합 유닛(436)은 하나 이상의 필터들에 기초하여 골전도 오디오 데이터의 하위 부분 및 공기 전도 오디오 데이터의 상위 부분을 결정할 수 있다. 일부 실시예들에서, 결합 유닛(436)은, 제1 가중치, 제2 가중치, 제3 가중치, 및 제4 가중치를 사용하여 골전도 오디오 데이터의 하위 부분, 골전도 오디오 데이터의 상위 부분, 공기 전도 오디오 데이터의 하위 부분, 및 공기 전도 오디오 데이터의 상위 부분을 각각 가중함으로써, 스티칭된, 결합된, 및/또는 융합된 오디오 데이터를 결정할 수 있다. 일부 실시예들에서, 결합 유닛(436)은 골전도 오디오 데이터에 대한 가중치 및 공기 전도 오디오 데이터에 대한 가중치를 사용하여 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 각각 가중함으로써 결합된 및/또는 융합된 오디오 데이터를 결정할 수 있다.
상기 설명은 단지 예시의 목적들을 위해 제공되며, 본 개시의 범위를 제한하도록 의도되지 않는다는 것이 주의되어야 한다. 명백하게, 이 기술분야에서의 통상의 기술자들에 대해, 다수의 변형들 및 수정들이 본 개시의 교시들 하에서 수행될 수 있다. 그러나, 이들 변형들 및 수정들은 본 개시의 범위로부터 벗어나지 않는다. 예를 들어, 오디오 데이터 생성 모듈(430)은 오디오 데이터 분할 서브 모듈(도 4b에 도시되지 않음)을 더 포함할 수 있다. 오디오 데이터 분할 서브모듈은 하나 이상의 주파수 임계값들에 따라 골전도 오디오 데이터 및 공기 전도 오디오 데이터 각각을 다중 세그먼트들로 분할하누도록 구성될 수 있다. 다른 예로서, 가중치 결정 유닛(434) 및 결합 유닛(436)은 하나의 모듈로 통합될 수 있다.
도 5는 본 개시의 일부 실시예들에 따라 오디오 신호를 생성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다. 일부 실시예들에서, 프로세스(500)는 저장 디바이스(140), ROM(230) 또는 RAM(240), 또는 저장소(390)에 저장된 명령들의 세트(예를 들어, 애플리케이션)로서 구현될 수 있다. 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 명령들의 세트를 실행할 수 있고, 명령들을 실행할 때, 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 프로세스(500)를 수행하도록 구성될 수 있다. 이하에서 제공되는 예시된 프로세스의 동작들은 예시적인 것으로 의도된다. 일부 실시예들에서, 프로세스(500)는 설명되지 않은 하나 이상의 추가적인 동작들로, 및/또는 논의된 동작들 중 하나 이상 없이 달성될 수 있다. 추가적으로, 도 5에 예시되고 이하에서 설명되는 바와 같이 프로세스(500)의 동작들의 순서는 제한적인 것으로 의도되지 않는다.
510에서, 프로세싱 디바이스(122)(예를 들어, 획득 모듈(410))는 골전도 센서에 의해 수집된 제1 오디오 데이터를 획득할 수 있다. 본 명세서에서 사용되는 바와 같이, 골전도 센서는 본 개시의 다른 곳(예를 들어, 도 1 및 그의 설명)에서 설명된 바와 같이 사용자가 말할 때 생성된 사용자의 뼈(예를 들어, 두개골)를 통해 전도된 진동 신호들을 수집할 수 있는 임의의 센서(예를 들어, 골전도 마이크로폰(112))를 지칭할 수 있다. 골전도 센서에 의해 수집된 진동 신호들은 골전도 센서 또는 임의의 다른 디바이스(예를 들어, 증폭기, ADC(Analog-to-Digital Converter) 등)에 의해 오디오 데이터(예를 들어, 오디오 신호들)로 변환될 수 있다. 골전도 센서에 의해 수집된 오디오 데이터(예를 들어, 제1 오디오 데이터)는 또한 골전도 오디오 데이터라고 할 수 있다. 일부 실시예들에서, 제1 오디오 데이터는 시간 도메인의 오디오 신호, 주파수 도메인의 오디오 신호 등을 포함할 수 있다. 제1 오디오 데이터는 아날로그 신호 또는 디지털 신호를 포함할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 실시간으로 또는 주기적으로, 골전도 센서(예를 들어, 골전도 마이크로폰(112)), 단말(130), 저장 디바이스(140), 또는 네트워크(150)를 통한 임의의 다른 저장 디바이스로부터 제1 오디오 데이터를 획득할 수 있다.
제1 오디오 데이터는 상이한 주파수들 및/또는 강도들(즉, 진폭들)을 갖는 다중 파동들(multiple waves)(예를 들어, 사인파, 고조파 등)의 중첩에 의해 표현될 수 있다. 본 명세서에서 사용되는 바와 같이, 특정 주파수를 갖는 파동은 또한 특정 주파수를 갖는 주파수 성분들이라고 할 수 있다. 일부 실시예들에서, 골전도 센서에 의해 수집된 제1 오디오 데이터에 포함된 주파수 성분들은 0Hz 내지 20kHz, 또는 20Hz 내지 10kHz, 또는 20Hz 내지 4000Hz, 또는 20Hz 내지 3000Hz, 또는 1000Hz 내지 3500Hz, 또는 1000Hz 내지 3000Hz, 또는 1500Hz 내지 3000Hz 등의 주파수 범위 내에 있을 수 있다. 제1 오디오 데이터는 사용자가 말할 때 골전도 센서에 의해 수집 및/또는 생성될 수 있다. 제1 오디오 데이터는 사용자가 말하는 것, 즉 사용자의 음성(speech)을 나타낼 수 있다. 예를 들어, 제1 오디오 데이터는 사용자 음성의 내용을 반영할 수 있는 음향 특성 및/또는 의미론적 정보(semantic information)를 포함할 수 있다. 제1 오디오 데이터의 음향 특성은 지속기간(duration)과 연관된 하나 이상의 특징들, 에너지와 연관된 하나 이상의 특징들, 기본 주파수와 연관된 하나 이상의 특징들, 주파수 스펙트럼과 연관된 하나 이상의 특징들, 위상 스펙트럼과 연관된 하나 이상의 특징들 등을 포함할 수 있다. 지속기간과 연관된 특징은 또한 지속기간 특징(duration feature)이라고 할 수 있다. 예시적인 지속기간 특징들은 말하는 속도, 단시간 평균 제로-오버 레이트(short time average zero-over rate) 등을 포함할 수 있다. 에너지와 연관된 특징은 또한 에너지 또는 진폭 특징이라고 할 수 있다. 예시적인 에너지 또는 진폭 특징들은 단시간 평균 에너지, 단시간 평균 진폭, 단시간 에너지 구배(gradient), 평균 진폭 변화율, 단시간 최대 진폭 등을 포함할 수 있다. 기본 주파수와 연관된 특징은 또한 기본 주파수 특징이라고 할 수 있다. 예시적인 기본 주파수 특징들은 기본 주파수, 기본 주파수의 피치, 평균 기본 주파수, 최대 기본 주파수, 기본 주파수 범위 등을 포함할 수 있다. 주파수 스펙트럼과 연관된 예시적인 특징들은 포먼트 특징(formant features), 선형 예측 켑스트럼 계수(LPCC: linear prediction cepstrum coefficients), 멜-주파수 켑스트럼 계수(MFCC: mel-frequency cepstrum coefficients) 등을 포함할 수 있다. 위상 스펙트럼과 연관된 예시적인 특징들은 순시 위상, 초기 위상 등을 포함할 수 있다.
일부 실시예들에서, 제1 오디오 데이터는 골전도 센서를 사용자의 신체 부위에 위치시키고 및/또는 골전도 센서를 사용자의 피부와 접촉시킴으로써 수집 및/또는 생성될 수 있다. 제1 오디오 데이터를 수집하기 위한 골전도 센서와 접촉하는 사용자의 신체 부위는 이마, 목(예를 들어, 목구멍), 유양돌기, 귀 주변 부위 또는 귀 내부 부위, 관자놀이, 얼굴(예를 들어, 입 주변 부위, 턱), 머리 상단 등을 포함하지만, 이에 제한되지 않는다. 예를 들어, 골전도 마이크로폰(112)은 귓바퀴, 외이, 내이도, 외이도 등에 위치 및/또는 접촉할 수 있다. 일부 실시예들에서, 제1 오디오 데이터는 골전도 센서와 접촉하는 사용자 신체의 상이한 부위들에 따라 상이할 수 있다. 예를 들어, 골전도 센서와 접촉하는 사용자 신체의 상이한 부위들은 주파수 성분들, 제1 오디오 데이터의 음향 특성(예를 들어, 주파수 성분의 진폭), 제1 오디오 데이터에 포함된 잡음 등을 다르게 한다. 예를 들어, 목에 위치한 골전도 센서에 의해 수집된 제1 오디오 데이터의 신호 강도는 이주에 위치한 골전도 센서에 의해 수집된 제1 오디오 데이터의 신호 강도보다 크며, 이주에 위치한 골전도 센서에 의해 수집된 제1 오디오 데이터의 신호 강도는 이도에 위치한 골전도 센서에 의해 수집된 제1 오디오 데이터의 신호 강도보다 크다. 또 다른 예로서, 사용자의 귀 주변 부위에 위치한 제1 골전도 센서에 의해 수집된 골전도 오디오 데이터는 동일한 구성이지만 사용자의 머리 상단에 위치하는 제2 골전도 센서에 의해 동시에 수집된 골전도 오디오 데이터보다 더 큰 주파수 성분들을 포함할 수 있다. 일부 실시예들에서, 제1 오디오 데이터는 0 뉴턴 내지 1 뉴턴, 또는 0 뉴턴 내지 0.8 뉴턴 등과 같은 범위에서 골전도 센서에 의해 가해지는 특정 압력으로 사용자의 신체 부위에 위치한 골전도 센서에 의해 수집될 수 있다. 예를 들어, 제1 오디오 데이터는 골전도 센서에 의해 가해지는 0 Newton, 또는 0.2 Newton, 또는 0.4 Newton, 또는 0.8 Newton 등의 특정 압력으로 사용자 신체의 이주에 위치한 골전도 센서에 의해 수집될 수 있다. 골전도 센서에 의해 가해지는 사용자 신체의 동일한 부위에 대한 상이한 압력들은 주파수 성분들, 제1 오디오 데이터의 음향 특성(예를 들어, 주파수 성분의 진폭), 제1 오디오 데이터에 포함된 잡음 등을 다르게 한다. 예를 들어, 골전도 오디오 데이터의 신호 강도는 처음에는 점진적으로 증가하다가 압력이 0N에서 0.8N으로 증가하면 신호 강도의 증가가 포화 상태까지 느려질 수 있다. 골전도 오디오 데이터에 대한 골전도 센서와 접촉하는 상이한 신체 부위들의 효과에 대한 추가 설명은 본 개시의 다른 곳(예를 들어, 도 12a 및 이에 대한 설명)에서 찾을 수 있다. 골전도 오디오 데이터에 대한 골전도 오디오 데이터에 의해 가해지는 상이한 압력들의 효과에 대한 추가 설명은 본 개시의 다른 곳(예를 들어, 도 12b 및 그 설명)에서 찾을 수 있다.
520에서, 프로세싱 디바이스(122)(예를 들어, 획득 모듈(410))는 공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득할 수 있다. 본 명세서에서 사용되는 공기 전도 센서는 본 개시의 다른 곳(예를 들어, 도 1 및 이에 대한 설명)에서 설명된 바와 같이, 사용자가 말할 때 공기를 통해 전도된 진동 신호들을 수집할 수 있는 임의의 센서(예를 들어, 공기 전도 마이크로폰(114))라고 할 수 있다. 공기 전도 센서에 의해 수집된 진동 신호들은 공기 전도 센서 또는 임의의 다른 디바이스(예를 들어, 증폭기, ADC(Analog-to-Digital Converter) 등)에 의해 오디오 데이터(예를 들어, 오디오 신호들)로 변환될 수 있다. 공기 전도 센서에 의해 수집된 오디오 데이터(예를 들어, 제2 오디오 데이터)는 또한 공기 전도 오디오 데이터라고 할 수 있다. 일부 실시예들에서, 제2 오디오 데이터는 시간 도메인의 오디오 신호, 주파수 도메인의 오디오 신호 등을 포함할 수 있다. 제2 오디오 데이터는 아날로그 신호 또는 디지털 신호를 포함할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 실시간으로 또는 주기적으로, 공기 전도 센서(예를 들어, 공기 전도 마이크로폰(114)), 단말(130), 저장 디바이스(140), 또는 네트워크(150)를 통한 임의의 다른 저장 디바이스로부터 제2 오디오 데이터를 획득할 수 있다. 일부 실시예들에서, 제2 오디오 데이터는 사용자의 입으로부터 어떤 거리 임계값(예를 들어, 0 cm, 1 cm, 2 cm, 5 cm, 10 cm, 20 cm 등) 내에 공기 전도 센서를 위치시킴으로써 수집될 수 있다. 일부 실시예들에서, 제2 오디오 데이터(예를 들어, 제2 오디오 데이터의 평균 진폭)는 공기 전도 센서와 사용자의 입 사이의 상이한 거리들에 따라 상이할 수 있다.
제2 오디오 데이터는 상이한 주파수들 및/또는 강도들(즉, 진폭들)을 갖는 다중 파동들(예를 들어, 사인파, 고조파 등)의 중첩에 의해 표현될 수 있다. 일부 실시예들에서, 공기 전도 센서에 의해 수집된 제2 오디오 데이터에 포함된 주파수 성분들은 0Hz 내지 20kHz, 또는 20Hz 내지 20kHz, 또는 1000Hz 내지 10kHz 등의 주파수 범위 내에 있을 수 있다. 제2 오디오 데이터는 사용자가 말할 때 공기 전도 오디오 데이터에 의해 수집 및/또는 생성될 수 있다. 제2 오디오 데이터는 사용자가 말하는 것, 즉 사용자의 음성을 나타낼 수 있다. 예를 들어, 제2 오디오 데이터는 사용자 음성의 내용을 반영할 수 있는 음향 특성 및/또는 의미론적 정보를 포함할 수 있다. 제2 오디오 데이터의 음향 특성은, 동작 510에서 설명된 바와 같이, 지속기간과 연관된 하나 이상의 특징들, 에너지와 연관된 하나 이상의 특징들, 기본 주파수와 연관된 하나 이상의 특징들, 주파수 스펙트럼과 연관된 하나 이상의 특징들, 위상 스펙트럼과 연관된 하나 이상의 특징들 등을 포함할 수 있다.
일부 실시예들에서, 제1 오디오 데이터 및 제2 오디오 데이터는 상이한 주파수 성분들로 사용자의 동일한 음성을 나타낼 수 있다. 사용자의 동일한 음성을 나타내는 제1 오디오 데이터 및 제2 오디오 데이터는 제1 오디오 데이터 및 제2 오디오 데이터가 사용자가 말할 때 골전도 센서 및 공기 전도 센서에 의해 동시에 각각 수집되는 것을 의미할 수 있다. 일부 실시예들에서, 골전도 센서에 의해 수집된 제1 오디오 데이터는 제1 주파수 성분들을 포함할 수 있다. 제2 오디오 데이터는 제2 주파수 성분들을 포함할 수 있다. 일부 실시예들에서, 제2 오디오 데이터의 제2 주파수 성분들은 제1 주파수 성분들의 적어도 일부를 포함할 수 있다. 제2 오디오 데이터에 포함된 의미론적 정보는 제1 오디오 데이터에 포함된 의미론적 정보와 동일하거나 상이할 수 있다. 제2 오디오 데이터의 음향 특성은 제1 오디오 데이터의 음향 특성과 동일하거나 상이할 수 있다. 예를 들어, 제1 오디오 데이터의 특정 주파수 성분의 진폭은 제2 오디오 데이터의 특정 주파수 성분의 진폭과 상이할 수 있다. 다른 예로서, 주파수 포인트(예를 들어, 2000Hz) 미만이거나 또는 주파수 범위(예를 들어, 20Hz 내지 2000Hz) 내의 제1 오디오 데이터의 주파수 성분들은 주파수 포인트(예를 들어, 2000Hz) 미만이거나 또는 주파수 범위(예를 들어, 20Hz 내지 2000Hz) 내의 제2 오디오 데이터의 주파수 성분들보다 더 클 수 있다. 주파수 포인트(예를 들어, 3000Hz)보다 크거나 또는 주파수 범위(예를 들어, 3000Hz 내지 20kHz) 내의 제1 오디오 데이터의 주파수 성분들은 주파수 포인트(예를 들어, 3000Hz)보다 크거나 또는 주파수 범위(예를 들어, 3000Hz 내지 20kHz) 내의 제2 오디오 데이터의 주파수 성분들보다 적을 수 있다. 본 명세서에서 사용되는 바와 같이, 주파수 포인트(예를 들어, 2000Hz) 미만이거나 또는 주파수 범위(예를 들어, 20Hz 내지 2000Hz) 내의 제1 오디오 데이터의 주파수 성분들이 주파수 포인트(예를 들어, 2000Hz) 미만이거나 또는 주파수 범위(예를 들어, 20Hz 내지 2000Hz) 내의 제2 오디오 데이터의 주파수 성분들보다 더 크다는 것은, 주파수 포인트(예를 들어, 2000Hz) 미만이거나 또는 주파수 범위(예를 들어, 20Hz 내지 2000Hz) 내의 제1 오디오 데이터의 주파수 성분들의 카운트 또는 수가 주파수 포인트(예를 들어, 2000Hz) 미만이거나 또는 주파수 범위(예를 들어, 20Hz 내지 2000Hz) 내의 제2 오디오 데이터의 주파수 성분들의 카운트 또는 수보다 더 크다는 것을 의미할 수 있다.
530에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 제1 오디오 데이터 또는 제2 오디오 데이터 중 적어도 하나를 전처리할 수 있다. 전처리된 후의 제1 오디오 데이터 및 제2 오디오 데이터는 또한 전처리된 제1 오디오 데이터 및 전처리된 제2 오디오 데이터로 각각 지칭될 수 있다. 예시적인 전처리 동작들은 도메인 변환 동작, 신호 교정 동작, 오디오 재구성 동작, 음성 강화 동작 등을 포함할 수 있다.
도메인 변환 동작은 제1 오디오 데이터 및/또는 제2 오디오 데이터를 시간 도메인에서 주파수 도메인으로 또는 주파수 도메인에서 시간 도메인으로 변환하기 위해 수행될 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 푸리에 변환 또는 역푸리에 변환을 수행함으로써 도메인 변환 동작을 수행할 수 있다. 일부 실시예들에서, 도메인 변환 동작을 수행하기 위해, 프로세싱 디바이스(122)는 제1 오디오 데이터 및/또는 제2 오디오 데이터에 대해 프레임 분할 동작, 윈도잉 동작(windowing operation) 등을 수행할 수 있다. 예를 들어, 제1 오디오 데이터는 하나 이상의 음성 프레임들로 분할될 수 있다. 하나 이상의 음성 프레임들 각각은 오디오 데이터가 대략적으로 안정적인 것으로 간주될 수 있는 시간의 지속기간(예를 들어, 5ms, 10ms, 15ms, 20ms, 25ms 등) 동안의 오디오 데이터를 포함할 수 있다. 하나 이상의 음성 프레임들 각각은 처리된 음성 프레임을 획득하기 위해 파동 분할(wave segmentation)의 함수를 사용하여 윈도잉 동작을 수행할 수 있다. 본 명세서에서 사용되는 바와 같이, 파동 분할의 함수는 윈도우 함수라고 할 수 있다. 예시적인 윈도우 함수들은 Hamming 윈도우, Hann 윈도우, Blackman-Harris 윈도우 등을 포함할 수 있다. 마지막으로, 푸리에 변환 동작은 처리된 음성 프레임에 기초하여 시간 도메인에서 주파수 도메인으로 제1 오디오 데이터를 변환하는 데 사용될 수 있다.
신호 교정 동작은, 예를 들어, 골전도 센서와 공기 전도 센서 사이의 감도 차이에 의해 야기된 제1 오디오 데이터 및/또는 제2 오디오 데이터의 크기의 차수들(orders) 사이의 차이를 제거하기 위해, 제1 오디오 데이터 및 제2 오디오 데이터(예를 들어, 진폭)의 크기의 차수들을 통합하는 데 사용될 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 제1 오디오 데이터 및/또는 제2 오디오 데이터를 교정하기 위한 정규화된 제1 오디오 데이터 및/또는 정규화된 제2 오디오 데이터를 획득하기 위해 제1 오디오 데이터 및/또는 제2 오디오 데이터에 대한 정규화 동작을 수행할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 다음과 같이 수식(1)에 따라 정규화된 제1 오디오 데이터 및/또는 정규화된 제2 오디오 데이터를 결정할 수 있다:
Figure pct00001
(1)
여기서,
Figure pct00002
는 정규화된 제1 오디오 데이터(또는 정규화된 제2 오디오 데이터)를 지칭하고,
Figure pct00003
은 제1 오디오 데이터(또는 제2 오디오 데이터)를 지칭하고,
Figure pct00004
는 제1 오디오 데이터(또는 제2 오디오 데이터)의 진폭들의 절대값들 중 최대값을 나타낼 수 있다.
음성 강화 동작은 오디오 데이터(예를 들어, 제1 오디오 데이터 및/또는 제2 오디오 데이터)에 포함된 잡음 또는 다른 관련 없는 바람직하지 않은 정보를 줄이기 위해 사용될 수 있다. 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터) 및/또는 제2 오디오 데이터(또는 정규화된 제2 오디오 데이터)에 대해 수행되는 음성 강화 동작은, 스펙트럼 감산에 기초하는 음성 강화 알고리즘, 웨이브렛 분석에 기초하는 음성 강화 알고리즘, 칼만 필터에 기초하는 음성 강화 알고리즘, 신호 부분 공간에 기초하는 음성 강화 알고리즘, 청각 마스킹 효과에 기초하는 음성 강화 알고리즘, 독립 성분 분석에 기초하는 음성 강화 알고리즘, 신경망 기법 등, 또는 이들의 조합을 사용하는 것을 포함할 수 있다. 일부 실시예들에서, 음성 강화 동작은 잡음제거 동작을 포함할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 잡음이 제거된 제2 오디오 데이터를 획득하기 위해 제2 오디오 데이터(또는 정규화된 제2 오디오 데이터)에 대해 잡음제거 동작을 수행할 수 있다. 일부 실시예들에서, 정규화된 제2 오디오 데이터 및/또는 잡음이 제거된 제2 오디오 데이터는 또한 전처리된 제2 오디오 데이터라고 할 수 있다. 일부 실시예들에서, 잡음제거 동작은 위너 필터, 스펙트럼 감산 알고리즘, 적응 알고리즘, 최소 평균 제곱 오차(MMSE) 추정 알고리즘 등, 또는 이들의 임의의 조합을 사용하는 것을 포함할 수 있다.
오디오 재구성 동작은, 초기 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)에 대해 향상된 충실도로 재구성된 골전도 오디오 데이터를 획득하기 위해, 초기 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 주파수 포인트(예를 들어, 2000Hz, 3000Hz)보다 크거나 또는 주파수 범위(예를 들어, 2000Hz 내지 20kHz, 3000Hz 내지 20kHz) 내의 관심 주파수 성분들을 강조하거나 증가시키는 데 사용될 수 있다. 재구성된 골전도 오디오 데이터는, 초기 골전도 오디오 데이터가 수집되는 동일한 시간에 공기 전도 센서에 의해 수집되고 초기 골전도 오디오 데이터로 사용자의 동일한 음성을 나타내는 잡음이 없거나 또는 더 적은 이상적인 공기 전도 오디오 데이터와 유사하거나 근접하거나 또는 동일할 수 있다. 재구성된 골전도 오디오 데이터는 공기 전도 오디오 데이터와 동등할 수 있으며, 이는 또한 초기 골전도 오디오 데이터에 대응하는 등가의 공기 전도 오디오 데이터라고도 할 수 있다. 본 명세서에서 사용되는 바와 같이, 재구성된 오디오 데이터가 이상적인 공기 전도 오디오 데이터와 유사하거나 근접하거나 또는 동일하다는 것은, 재구성된 골전도 오디오 데이터와 이상적인 공기 전도 오디오 데이터 사이의 유사도가 임계값(예를 들어, 90%, 80%, 70% 등)보다 클 수 있다는 것을 의미할 수 있다. 재구성된 골전도 오디오 데이터, 초기 골전도 오디오 데이터, 및 이상적인 공기 전도 오디오 데이터에 대한 더 많은 설명은 본 개시의 다른 곳(예를 들어, 도 11 및 그 설명)에서 찾을 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 트레이닝된 기계 학습 모델, 구성 필터, 고조파 보정 모델, 희소 행렬 기법 등, 또는 이들의 임의의 조합을 사용하여, 재구성된 제1 오디오 데이터를 생성하기 위해 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터)에 대한 오디오 재구성 동작을 수행할 수 있다. 일부 실시예들에서, 재구성된 제1 오디오 데이터는 트레이닝된 기계 학습 모델, 구성 파일러, 고조파 보정 모델, 희소 행렬 기법 등 중 하나를 사용하여 생성될 수 있다. 일부 실시예들에서, 재구성된 제1 오디오 데이터는 트레이닝된 기계 학습 모델, 구성 파일러, 고조파 보정 모델, 희소 행렬 기법 등 중 적어도 두 개를 사용하여 생성될 수 있다. 예를 들어, 프로세싱 디바이스(122)는 트레이닝된 기계 학습 모델을 사용하여 제1 오디오 데이터를 재구성함으로써 중간 제1 오디오 데이터를 생성할 수 있다. 프로세싱 디바이스(122)는 구성 파일러, 고조파 보정 모델, 희소 행렬 기법 등 중 하나를 사용하여 중간 제1 오디오 데이터를 재구성함으로써 재구성된 제1 오디오 데이터를 생성할 수 있다. 다른 예로서, 프로세싱 디바이스(122)는 구성 파일러, 고조파 보정 모델, 희소 행렬 기법 중 하나를 사용하여 제1 오디오 데이터를 재구성함으로써 중간 제1 오디오 데이터를 생성할 수 있다. 프로세싱 디바이스(122)는 구성 파일러, 고조파 보정 모델, 희소 행렬 기법 등 중 다른 하나를 사용하여 제1 오디오 데이터를 재구성함으로써 다른 중간 제1 오디오 데이터를 생성할 수 있다. 프로세싱 디바이스(122)는 중간 제1 오디오 데이터 및 다른 중간 제1 오디오 데이터를 평균화함으로써 재구성된 제1 오디오 데이터를 생성할 수 있다. 추가 예로서, 프로세싱 디바이스(122)는 구성 파일러, 고조파 보정 모델, 희소 행렬 기법 등 중 둘 이상을 사용하여 제1 오디오 데이터를 재구성함으로써 복수의 중간 제1 오디오 데이터를 생성할 수 있다. 프로세싱 디바이스(122)는 복수의 중간 제1 오디오 데이터를 평균화함으로써 재구성된 제1 오디오 데이터를 생성할 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 트레이닝된 기계 학습 모델을 사용하여 재구성된 제1 오디오 데이터를 획득하기 위해 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터)를 재구성할 수 있다. 재구성된 제1 오디오 데이터의 주파수 포인트(예를 들어, 2000Hz, 3000Hz)보다 높거나 또는 주파수 범위(예를 들어, 2000Hz 내지 20kHz, 3000Hz 내지 20kHz 등) 내의 주파수 성분들은, 주파수 포인트(예를 들어, 2000Hz, 3000Hz)보다 높거나 또는 주파수 범위(예를 들어, 2000Hz 내지 20kHz, 3000Hz 내지 20kHz 등) 내의 제1 오디오 데이터의 주파수 성분들에 대해 증가할 수 있다. 트레이닝된 기계 학습 모델은 딥 학습 모델, 전통적인 기계 학습 모델 등, 또는 이들의 임의의 조합에 기초하여 구성될 수 있다. 예시적인 딥 학습 모델들은 CNN(Convolutional Neural Network) 모델, RNN(Recurrent Neural Network) 모델, LSTM(Long Short-Term Memory Network) 모델 등을 포함할 수 있다. 예시적인 전통적인 기계 학습 모델은 HMM(Hidden Markov Model), MLP(Multilayer Perceptron) 모델 등을 포함할 수 있다.
일부 실시예들에서, 트레이닝된 기계 학습 모델은 복수의 트레이닝 데이터 그룹들을 사용하여 예비 기계 학습 모델을 트레이닝함으로써 결정될 수 있다. 복수의 트레이닝 데이터 그룹들의 각 그룹은 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 포함할 수 있다. 트레이닝 데이터 그룹은 또한 음성 샘플이라고 할 수 있다. 음성 샘플의 골전도 오디오 데이터는 예비 기계 학습 모델의 입력으로 사용될 수 있고, 음성 샘플의 골전도 오디오 데이터에 대응하는 공기 전도 오디오 데이터는 예비 기계 학습 모델의 트레이닝 프로세스 동안 예비 기계 학습 모델의 원하는 출력으로 사용될 수 있다. 음성 샘플 내의 골전도 오디오 데이터 및 공기 전도 오디오 데이터는 동일한 음성을 나타낼 수 있으며, 잡음이 없는 환경에서 골전도 센서 및 공기 전도 센서에 의해 동시에 각각 수집될 수 있다. 본 명세서에 사용된 바와 같이, 잡음이 없는 환경은 그 환경 내의 하나 이상의 잡음 평가 파라미터들(예를 들어, 잡음 표준 곡선, 통계적 잡음 레벨 등)이 임계값 미만과 같은 조건을 충족하는 것을 의미할 수 있다. 트레이닝된 기계 학습 모델은 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)와 재구성된 골전도 오디오 데이터(예를 들어, 등가의 공기 전도 오디오 데이터) 사이의 대응하는 관계를 제공하도록 구성될 수 있다. 트레이닝된 기계 학습 모델은 대응하는 관계에 기초하여 골전도 오디오 데이터를 재구성하도록 구성될 수 있다. 일부 실시예들에서, 복수의 트레이닝 데이터 그룹들 각각의 골전도 오디오 데이터는 사용자(예를 들어, 테스터)의 신체의 동일한 부위(예를 들어, 귀 주변 영역)에 위치된 골전도 센서에 의해 수집될 수 있다. 일부 실시예들에서, 트레이닝된 기계 학습 모델의 트레이닝에 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체의 부위는, 트레이닝된 기계 학습 모델의 적용에 사용되는 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)를 수집하기 위한 골전도 센서가 위치하는 신체의 부위와 일치 및/또는 동일할 수 있다. 예를 들어, 복수의 트레이닝 데이터 그룹들의 각 그룹에서 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자(예를 들어, 테스터)의 신체 부위는 제1 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자의 신체 부위와 동일할 수 있다. 또 다른 예로서, 제1 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자의 신체 부위가 목이라면, 트레이닝된 기계 학습 모델의 트레이닝 프로세스에 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체 부위는 신체의 목이 된다. 복수의 트레이닝 데이터 그룹들을 수집하기 위한 골전도 센서가 위치하는 사용자(예를 들어, 테스터)의 신체 부위는 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)와 재구성된 골전도 오디오 데이터(예를 들어, 등가의 공기 전도 오디오 데이터) 사이의 대응 관계에 영향을 미칠 수 있으며, 따라서 트레이닝된 기계 학습 모델을 사용하여 대응하는 관계에 기초하여 생성된 재구성된 골전도 오디오 데이터에 영향을 미칠 수 있다. 상이한 부위들에 위치하는 골전도 센서에 의해 복수의 트레이닝 데이터 그룹들이 수집될 때 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)와 재구성된 골전도 오디오 데이터(예를 들어, 등가의 공기 전도 오디오 데이터) 사이의 대응 관계들이 트레이닝된 기계 학습 모델의 트레이닝에 사용된다. 예를 들어, 동일한 구성의 다수의 골전도 센서들이 유양돌기, 관자놀이, 머리 상단, 외이도 등과 같은 신체의 상이한 부위들에 위치할 수 있다. 다수의 골전도 센서들은 사용자가 말할 때 골전도 오디오 데이터를 동시에 수집할 수 있다. 다수의 골전도 센서들에 의해 수집된 골전도 오디오 데이터에 기초하여 다수의 트레이닝 세트들이 형성될 수 있다. 다수의 트레이닝 세트들 각각은 다수의 골전도 센서들 및 공기 전도 센서 중 하나에 의해 수집된 복수의 트레이닝 데이터 그룹들을 포함할 수 있다. 복수의 트레이닝 데이터 그룹들 각각은 동일한 음성을 나타내는 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 포함할 수 있다. 다수의 트레이닝 세트들 각각은 트레이닝된 기계 학습 모델을 획득하기 위해 기계 학습 모델을 트레이닝하는 데 사용될 수 있다. 다수의 트레이닝 세트들에 기초하여 다수의 트레이닝된 기계 학습 모델들이 획득될 수 있다. 다수의 트레이닝된 기계 학습 모델들은 특정 골전도 오디오 데이터와 재구성된 골전도 오디오 데이터 사이에 상이한 대응 관계들을 제공할 수 있다. 예를 들어, 상이한 재구성된 골전도 오디오 데이터는 동일한 골전도 오디오 데이터를 다수의 트레이닝된 기계 학습 모델들에 각각 입력함으로써 생성될 수 있다. 일부 실시예들에서, 구성에 있어서 상이한 골전도 센서들에 의해 수집된 골전도 오디오 데이터(예를 들어, 주파수 응답 곡선들)는 상이할 수 있다. 따라서, 트레이닝된 기계 학습 모델의 트레이닝에 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서는, 구성에 있어서, 트레이닝된 기계 학습 모델의 적용에 사용되는 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)를 수집하기 위한 골전도 센서와 일치 및/또는 동일할 수 있다. 일부 실시예들에서, 0 뉴턴 내지 1 뉴턴, 또는 0 뉴턴 내지 0.8 뉴턴과 같은 범위에서 상이한 압력들로 사용자의 신체 부위에 위치한 골전도 센서에 의해 수집된 골전도 오디오 데이터(예를 들어, 주파수 응답 곡선들)는 상이할 수 있다. 따라서, 트레이닝된 기계 학습 모델의 트레이닝을 위한 골전도 오디오 데이터를 수집하기 위해 골전도 센서가 사용자의 신체 부위에 가하는 압력은, 구성에 있어서, 트레이닝된 기계 학습 모델의 적용을 위한 골전도 오디오 데이터를 수집하기 위해 골전도 센서가 사용자의 신체 부위에 가하는 압력과 일치 및/또는 동일할 수 있다. 트레이닝된 기계 학습 모델을 결정하고 및/또는 골전도 오디오 데이터를 재구성하기 위한 추가 설명은 도 6 및 이에 대한 설명에서 찾을 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 구성 필터를 사용하여 재구성된 골전도 오디오 데이터를 획득하기 위해 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터)를 재구성할 수 있다. 구성 필터는 특정 공기 전도 오디오 데이터와 상기 특정 공기 전도 오디오 데이터에 대응하는 특정 골전도 오디오 데이터 사이의 관계를 제공하도록 구성될 수 있다. 본 명세서에서 사용되는 바와 같이, 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터는 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터가 사용자의 동일한 음성을 나타내는 것을 의미할 수 있다. 특정 공기 전도 오디오 데이터는 또한 특정 골전도 오디오 데이터에 대응하는 등가의 공기 전도 오디오 데이터 또는 재구성된 골전도 오디오 데이터라고 할 수 있다. 주파수 포인트(예를 들어, 2000Hz, 3000Hz)보다 높거나 또는 주파수 범위(예를 들어, 2000Hz 내지 20kHz, 3000Hz 내지 20kHz 등) 내의 특정 공기 전도 오디오 데이터의 주파수 성분들은, 주파수 포인트(예를 들어, 2000Hz, 3000Hz)보다 높거나 또는 주파수 범위(예를 들어, 2000Hz 내지 20kHz, 3000Hz 내지 20kHz 등) 내의 특정 골전도 오디오 데이터의 주파수 성분들보다 더 클 수 있다. 프로세싱 디바이스(122)는 상기 관계에 기초하여 특정 골전도 오디오 데이터를 특정 공기 전도 오디오 데이터로 변환할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 제1 오디오 데이터를 재구성된 제1 오디오 데이터로 변환하기 위해 구성 필터를 사용하여 재구성된 제1 오디오 데이터를 획득할 수 있다. 일부 실시예들에서, 음성 샘플의 골전도 오디오 데이터는 d(n)으로 표시될 수 있고, 음성 샘플의 대응하는 공기 전도 데이터는 s(n)으로 표시될 수 있다. 골전도 오디오 데이터 d(n) 및 대응하는 공기 전도 오디오 데이터 s(n)은 필터 B 및 필터 V와 각각 등가인 골전도 시스템 및 공기 전도 시스템을 통해 초기 소리 여기 신호들(initial sound excitation signals) e(n)에 기초하여 각각 결정될 수 있다. 그러면 구성 필터는 필터 H와 등가일 수 있다. 필터 H는 다음과 같이 수식(2)에 따라 결정될 수 있다:
Figure pct00005
(2)
일부 실시예들에서, 구성 필터는 예를 들어 장기 스펙트럼 기법(long-term spectrum technique)을 사용하여 결정될 수 있다. 예를 들어, 프로세싱 디바이스(122)는 다음과 같이 수식(3)에 따라 구성 필터를 결정할 수 있다:
Figure pct00006
(3)
여기서
Figure pct00007
는 주파수 도메인에서 구성 파일러를 나타내고,
Figure pct00008
는 공기 전도 오디오 데이터 s(n)에 대응하는 장기 스펙트럼 표현을 나타내고,
Figure pct00009
는 골전도 오디오 데이터 d(n)에 대응하는 장기 스펙트럼 표현을 나타낸다. 일부 실시예들에서, 프로세싱 디바이스(122)는 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터(음성 샘플들이라고도 함)의 하나 이상의 그룹들을 획득할 수 있으며, 이들 각각은 오퍼레이터(예를 들어, 테스터)가 말할 때 잡음이 없는 환경에서 골전도 센서 및 공기 전도 센서에 의해 동시에 각각 수집된다. 프로세싱 디바이스(122)는 수식(3)에 따라 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 그룹들에 기초하여 구성 필터를 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 수식(3)에 따라 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 그룹들 각각에 기초하여 후보 구성 필터를 결정할 수 있다. 프로세싱 디바이스(122)는 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 그룹들에 대응하는 후보 구성 필터들에 기초하여 구성 필터를 결정할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 시간 도메인에서 구성 필터를 획득하기 위해 초기 필터
Figure pct00010
에 대해 역푸리에 변환(IFT)(예를 들어, 고속 IFT) 동작을 수행할 수 있다.
일부 실시예들에서, 구성 필터를 결정하는 데 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체의 부위는, 구성 필터의 적용에 사용되는 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)를 수집하기 위한 골전도 센서가 위치하는 신체의 부위와 일치 및/또는 동일할 수 있다. 예를 들어, 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 그룹들의 각 그룹에서 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자(예를 들어, 테스터)의 신체 부위는, 제1 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자의 신체 부위와 동일할 수 있다. 일부 실시예들에서, 구성 필터는 구성 필터를 결정하기 위해 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체의 부위와 상이할 수 있다. 예를 들어, 사용자가 말할 때 신체의 제1 부위에 위치한 제1 골전도 센서 및 공기 전도 센서에 의해 각각 수집된 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 제1 그룹들이 획득될 수 있다. 사용자가 말할 때 신체의 제2 부위에 위치한 제2 골전도 센서 및 공기 전도 센서에 의해 각각 수집된 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 제2 그룹들이 획득될 수 있다. 제1 구성 필터는 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 제1 그룹들에 기초하여 결정될 수 있다. 제2 구성 필터는 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 제2 그룹들에 기초하여 결정될 수 있다. 제1 구성 필터는 제2 구성 필터와 상이할 수 있다. 제1 구성 필터 및 제2 구성 필터에 각각 기초하여 결정된 재구성된 골전도 오디오 데이터는 동일한 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)에 기초하는 것과 상이할 수 있다. 제1 구성 필터 및 제2 구성 필터에 의해 제공되는 특정 공기 전도 오디오 데이터와 특정 공기 전도 오디오 데이터에 대응하는 특정 골전도 오디오 데이터 사이의 관계들은 상이할 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 고조파 보정 모델을 사용하여 재구성된 제1 오디오 데이터를 획득하기 위해 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터)를 재구성할 수 있다. 고조파 보정 모델은 특정 공기 전도 오디오 데이터의 진폭 스펙트럼과 특정 공기 전도 오디오 데이터에 대응하는 특정 골전도 오디오 데이터의 진폭 스펙트럼 사이의 관계를 제공하도록 구성될 수 있다. 본 명세서에서 사용되는 바와 같이, 특정 공기 전도 오디오 데이터는 또한 특정 골전도 오디오 데이터에 대응하는 등가의 공기 전도 오디오 데이터 또는 재구성된 골전도 오디오 데이터라고 할 수 있다. 특정 공기 전도 오디오 데이터의 진폭 스펙트럼은 또한 특정 골전도 오디오 데이터의 보정된 진폭 스펙트럼(corrected amplitude spectrum)이라고 할 수 있다. 프로세싱 디바이스(122)는 주파수 도메인에서 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터)의 진폭 스펙트럼 및 위상 스펙트럼을 결정할 수 있다. 프로세싱 디바이스(122)는 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터)의 보정된 진폭 스펙트럼을 획득하기 위해 고조파 보정 모델을 사용하여 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터)의 진폭 스펙트럼을 보정할 수 있다. 그 다음, 프로세싱 디바이스(122)는 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터)의 보정된 진폭 스펙트럼 및 위상 스펙트럼에 기초하여 재구성된 제1 오디오 데이터를 결정할 수 있다. 고조파 보정 모델을 사용하여 제1 오디오 데이터를 재구성하기 위한 더 많은 설명은 본 개시의 다른 곳(예를 들어, 도 7 및 그에 대한 설명)에서 찾을 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 희소 행렬 기법을 사용하여 재구성된 제1 오디오 데이터를 획득하기 위해 제1 오디오 데이터(또는 정규화된 제1 오디오 데이터)를 재구성할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 초기 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)의 사전 행렬(dictionary matrix)을 초기 골전도 오디오 데이터에 대응하는 재구성된 골전도 오디오 데이터(예를 들어, 재구성된 제1 오디오)의 사전 행렬로 변환하도록 구성된 제1 변환 관계를 획득할 수 있다. 프로세싱 디바이스(122)는 초기 골전도 오디오 데이터의 희소 코드 행렬을 초기 골전도 오디오 데이터에 대응하는 재구성된 골전도 오디오 데이터의 희소 코드 행렬로 변환하도록 구성된 제2 변환 관계를 획득할 수 있다. 프로세싱 디바이스(122)는 제1 변환 관계를 사용하여 제1 오디오 데이터의 사전 행렬에 기초하여 재구성된 제1 오디오 데이터의 사전 행렬을 결정할 수 있다. 프로세싱 디바이스(122)는 제2 변환 관계를 사용하여 제1 오디오 데이터의 희소 코드 행렬에 기초하여 재구성된 제1 오디오 데이터의 희소 코드 행렬을 결정할 수 있다. 프로세싱 디바이스(122)는 재구성된 제1 오디오 데이터의 결정된 사전 행렬 및 결정된 희소 코드 행렬에 기초하여 재구성된 제1 오디오 데이터를 결정할 수 있다. 일부 실시예들에서, 제1 변환 관계 및/또는 제2 변환 관계는 오디오 신호 생성 시스템(100)의 디폴트 설정들일 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들에 기초하여 제1 변환 관계 및/또는 제2 변환 관계를 결정할 수 있다. 희소 행렬 기법을 사용하여 제1 오디오 데이터를 재구성하기 위한 더 많은 설명은 본 개시의 다른 곳(예를 들어, 도 8 및 그에 대한 설명)에서 찾을 수 있다.
540에서, 프로세싱 디바이스(122)(예를 들어, 오디오 데이터 생성 모듈(430))는 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)에 기초하여 제3 오디오 데이터를 생성할 수 있다. 주파수 포인트(또는 임계값)보다 높은 제3 오디오 데이터의 주파수 성분들은 주파수 포인트(또는 임계값)보다 높은 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 주파수 성분들에 대해 증가할 수 있다. 즉, 주파수 포인트(또는 임계값)보다 높은 제3 오디오 데이터의 주파수 성분들은 주파수 포인트(또는 임계값)보다 높은 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 주파수 성분들보다 클 수 있다. 일부 실시예들에서, 제3 오디오 데이터와 연관된 잡음 레벨은 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)와 연관된 잡음 레벨보다 낮을 수 있다. 본 명세서에서 사용되는 바와 같이, 주파수 포인트(또는 임계값)보다 높은 제3 오디오 데이터의 주파수 성분들이 주파수 포인트보다 높은 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 주파수 성분들에 대해 증가하는 것은, 제3 오디오 데이터에서 주파수 포인트보다 높은 주파수들을 갖는 파동들의 카운트 또는 수가 제1 오디오 데이터에서 주파수 포인트보다 높은 주파수들을 갖는 파동들의 카운트 또는 수보다 클 수 있다는 것을 의미할 수도 있다. 일부 실시예들에서, 주파수 포인트는 20Hz 내지 20kHz 범위에서 일정할 수 있다. 예를 들어, 주파수 포인트는 2000Hz, 3000Hz, 4000Hz, 5000Hz, 6000Hz 등이 될 수 있다. 일부 실시예들에서, 주파수 포인트는 제3 오디오 데이터 및/또는 제1 오디오 데이터에서 주파수 성분들의 주파수 값일 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 하나 이상의 주파수 임계값들에 따라 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)에 기초하여 제3 오디오 데이터를 생성할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 또는 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터) 중 적어도 하나에 적어도 부분적으로 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다. 프로세싱 디바이스(122)는 하나 이상의 주파수 임계값들에 따라 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)를 다중 세그먼트들로 각각 분할할 수 있다. 프로세싱 디바이스(122)는 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터) 각각의 다중 세그먼트들 각각에 대한 가중치를 결정할 수 있다. 그 다음, 프로세싱 디바이스(122)는 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터) 각각의 다중 세그먼트들 각각에 대한 가중치에 기초하여 제3 오디오 데이터를 결정할 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 하나의 단일 주파수 임계값를 결정할 수 있다. 프로세싱 디바이스(122)는 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)를 하나의 단일 주파수 임계값에 따라 주파수 도메인에서 스티칭하여 제3 오디오 데이터를 생성할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 제1 특정 필터를 사용하여 하나의 단일 주파수 임계값보다 낮은 주파수 성분들을 포함하는 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 하위 부분을 결정할 수 있다. 프로세싱 디바이스(122)는 제2 특정 필터를 사용하여 하나의 단일 주파수 임계값보다 높은 주파수 성분들을 포함하는 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 상위 부분을 결정할 수 있다. 프로세싱 디바이스(122)는 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 하위 부분과 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 상위 부분을 스티칭 및/또는 결합하여 제3 오디오 데이터를 생성할 수 있다. 일부 실시예들에서, 제1 특정 필터는 하나의 단일 주파수 임계값보다 낮은 제1 오디오 데이터의 주파수 성분들이 통과하도록 허용할 수 있는 차단 주파수로서 하나의 단일 주파수 임계값을 갖는 저역 통과 필터일 수 있다. 제2 특정 필터는 하나의 단일 주파수 임계값보다 높은 제2 오디오 데이터의 주파수 성분들이 통과하도록 허용할 수 있는 차단 주파수로서 하나의 단일 주파수 임계값을 갖는 고역 통과 필터일 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 및/또는 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)에 적어도 부분적으로 기초하여 하나의 단일 주파수 임계값을 결정할 수 있다. 하나의 단일 주파수 임계값을 결정하기 위한 추가 설명은 도 9 및 이에 대한 설명에서 찾을 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 하나의 단일 주파수 임계값에 적어도 부분적으로 기초하여, 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 하위 부분 및 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 상위 부분에 대한 제1 가중치 및 제2 가중치를 각각 결정할 수 있다. 프로세싱 디바이스(122)는 하나의 단일 주파수 임계값에 적어도 부분적으로 기초하여, 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 하위 부분 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 상위 부분에 대한 제3 가중치 및 제4 가중치를 각각 결정할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 제1 가중치, 제2 가중치, 제3 가중치, 및 제4 가중치를 사용하여 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 하위 부분, 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)의 상위 부분, 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 하위 부분, 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)의 상위 부분를 각각 가중함으로써 제3 오디오 데이터를 결정할 수 있다. 제3 오디오 데이터(또는 스티칭된 오디오 데이터)를 결정하기 위한 더 많은 설명은 도 9 및 그에 대한 설명에서 찾을 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 또는 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터) 중 적어도 하나에 적어도 부분적으로 기초하여 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)에 대응하는 가중치 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)에 대응하는 가중치를 결정할 수 있다. 프로세싱 디바이스(122)는 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터)에 대응하는 가중치 및 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)에 대응하는 가중치를 사용하여 제1 오디오 데이터(또는 전처리된 제1 오디오 데이터) 또는 제2 오디오 데이터(또는 전처리된 제2 오디오 데이터)를 가중함으로써 제3 오디오 데이터를 결정할 수 있다. 제3 오디오 데이터를 결정하기 위한 더 많은 설명은 본 개시의 다른 곳(예를 들어, 도 10 및 그에 대한 설명)에서 찾을 수 있다.
550에서, 프로세싱 디바이스(122)(예를 들어, 오디오 데이터 생성 모듈(430))는 제3 오디오 데이터에 기초하여 제1 오디오 데이터 및 제2 오디오 데이터보다 더 나은 충실도로 사용자의 음성을 나타내는 타겟 오디오 데이터를 결정할 수 있다. 타겟 오디오 데이터는 제1 오디오 데이터 및 제2 오디오 데이터가 나타내는 사용자의 음성을 나타낼 수 있다. 본 명세서에서 사용되는 바와 같이, 충실도는 출력 오디오 데이터(예를 들어, 타겟 오디오 데이터, 제1 오디오 데이터, 제2 오디오 데이터)와 원래의 입력 오디오 데이터(예를 들어, 사용자의 음성) 사이의 유사도를 나타내기 위해 사용될 수 있다. 충실도는 출력 오디오 데이터(예를 들어, 타겟 오디오 데이터, 제1 오디오 데이터, 제2 오디오 데이터)의 명료성을 나타내기 위해 사용될 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 제3 오디오 데이터를 타겟 오디오 데이터로 지정할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 타겟 오디오 데이터를 획득하기 위해 제3 오디오 데이터에 대한 후처리 동작을 수행할 수 있다. 일부 실시예들에서, 후처리 동작은 잡음제거 동작, 도메인 변환 동작(예를 들어, 푸리에 변환(FT) 동작) 등, 또는 이들의 조합을 포함할 수 있다. 일부 실시예들에서, 제3 오디오 데이터에 대해 수행되는 잡음제거 동작은 위너 필터, 스펙트럼 감산 알고리즘, 적응 알고리즘, 최소 평균 제곱 오차(MMSE) 추정 알고리즘 등, 또는 이들의 임의의 조합을 사용하는 것을 포함할 수 있다. 일부 실시예들에서, 제3 오디오 데이터에 대해 수행되는 잡음제거 동작은 제2 오디오 데이터에 대해 수행되는 잡음제거 동작과 동일하거나 상이할 수 있다. 예를 들어, 제2 오디오 데이터에 대해 수행되는 잡음제거 동작 및 제3 오디오 데이터에 대해 수행되는 잡음제거 동작 모두는 스펙트럼 감산 알고리즘을 사용할 수 있다. 다른 예로서, 제2 오디오 데이터에 대해 수행되는 잡음제거 동작은 위너 필터를 사용할 수 있고, 제3 오디오 데이터에 수행되는 잡음제거 동작은 스펙트럼 감산 알고리즘을 사용할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 시간 도메인에서 타겟 오디오 데이터를 획득하기 위해 주파수 도메인에서 제3 오디오 데이터에 대해 IFT 동작을 수행할 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 네트워크(150)를 통해 클라이언트 단말(예를 들어, 단말(130)), 저장 디바이스(140), 및/또는 임의의 다른 저장 디바이스(오디오 신호 생성 시스템(100)에 도시되지 않음)에 신호를 전송할 수 있다. 신호는 타겟 오디오 데이터를 포함할 수 있다. 신호는 또한 타겟 오디오 데이터를 플레이하도록 클라이언트 단말에 지시하도록 구성될 수 있다.
상기 설명은 단지 예시의 목적들을 위해 제공되며, 본 개시의 범위를 제한하도록 의도되지 않는다는 것이 주의되어야 한다. 이 기술분야에서의 통상의 기술자들에 대해, 다수의 변형들 및 수정들이 본 개시의 교시들 하에서 이루어질 수 있다. 그러나, 이들 변형들 및 수정들은 본 개시의 범위로부터 벗어나지 않는다. 예를 들어, 동작(550)은 생략될 수 있다. 다른 예로서, 동작(510) 및 동작(520)은 하나의 단일 동작으로 통합될 수 있다.
도 6은 본 개시의 일부 실시예들에 따라 트레이닝된 기계 학습 모델을 사용하여 골전도 오디오 데이터를 재구성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다. 일부 실시예들에서, 프로세스(600)는 저장 디바이스(140), ROM(230) 또는 RAM(240), 또는 저장소(390)에 저장된 명령들의 세트(예를 들어, 애플리케이션)로서 구현될 수 있다. 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 명령들의 세트를 실행할 수 있고, 명령들을 실행할 때, 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 프로세스(600)를 수행하도록 구성될 수 있다. 이하에서 제공되는 예시된 프로세스의 동작들은 예시적인 것으로 의도된다. 일부 실시예들에서, 프로세스(600)는 설명되지 않은 하나 이상의 추가적인 동작들로, 및/또는 논의된 동작들 중 하나 이상 없이 달성될 수 있다. 또한, 도 6에 예시되고 이하에서 설명되는 바와 같이 프로세스(600)의 동작들의 순서는 제한적인 것으로 의도되지 않는다. 일부 실시예들에서, 프로세스(600)의 하나 이상의 동작들은 도 5와 관련하여 설명된 바와 같이 동작(530)의 적어도 일부를 달성하기 위해 수행될 수 있다.
610에서, 프로세싱 디바이스(122)(예를 들어, 획득 모듈(410))는 골전도 오디오 데이터를 획득할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터는 본 개시의 다른 곳(예를 들어, 도 1 및 그에 대한 설명)에서 설명된 바와 같이 사용자가 말할 때 골전도 센서에 의해 수집된 원래의 오디오 데이터(예를 들어, 제1 오디오 데이터)일 수 있다. 예를 들어, 사용자의 음성은 골전도 센서(예를 들어, 골전도 마이크로폰(112))에 의해 수집되어 전기 신호(예를 들어, 아날로그 신호 또는 디지털 신호)(즉, 골전도 오디오 데이터)를 생성할 수 있다. 골전도 센서는 네트워크(150)를 통해 전기 신호를 서버(120), 단말(130), 및/또는 저장 디바이스(140)로 전송할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터는 사용자 음성의 내용을 반영할 수 있는 음향 특성 및/또는 의미론적 정보를 포함할 수 있다. 예시적인 음향 특성은, 본 개시의 다른 곳(예를 들어, 도 5 및 그에 대한 설명)에서 기술된 바와 같이, 지속기간과 연관된 하나 이상의 특징들, 에너지와 연관된 하나 이상의 특징들, 기본 주파수와 연관된 하나 이상의 특징들, 주파수 스펙트럼과 연관된 하나 이상의 특징들, 위상 스펙트럼과 연관된 하나 이상의 특징들 등을 포함할 수 있다.
620에서, 프로세싱 디바이스(122)(예를 들어, 획득 모듈(410))는 트레이닝된 기계 학습 모델을 획득할 수 있다. 트레이닝된 기계 학습 모델은 복수의 트레이닝 데이터 그룹들을 사용하여 예비 기계 학습 모델을 트레이닝함으로써 제공될 수 있다. 일부 실시예들에서, 트레이닝된 기계 학습 모델은 처리된 골전도 오디오 데이터를 획득하기 위해 특정 골전도 오디오 데이터를 처리하도록 구성될 수 있다. 처리된 골전도 오디오 데이터는 재구성된 골전도 오디오 데이터라고도 할 수 있다. 주파수 임계값 또는 주파수 포인트(예를 들어, 1000Hz, 2000Hz, 3000Hz, 4000Hz 등)보다 높은 처리된 골전도 오디오 데이터의 주파수 성분들은 주파수 임계값 또는 주파수 포인트(예를 들어, 1000Hz, 2000Hz, 3000Hz, 4000Hz 등)보다 높은 특정 골전도 오디오 데이터의 주파수 성분들에 대해 증가할 수 있다. 처리된 골전도 오디오 데이터는, 특정 골전도 오디오 데이터와 동일한 음성을 나타내고 특정 골전도 오디오 데이터와 동일한 시간에 공기 전도 센서에 의해 수집된 잡음가 없거나 더 적은 이상적인 공기 전도 오디오 데이터와 동일하거나 유사하거나 또는 근접할 수 있다. 본 명세서에서 사용되는 바와 같이, 처리된 골전도 오디오 데이터가 이상적인 공기 전도 오디오 데이터와 동일하거나 유사하거나 또는 근접하는 것은, 처리된 골전도 오디오 데이터의 음향 특성들과 이상적인 공기 전도 오디오 데이터 사이의 유사도가 임계값(예를 들어, 0.9, 0.8, 0.7 등)보다 큰 것을 의미할 수 있다. 예를 들어, 잡음이 없는 환경에서, 골전도 오디오 데이터 및 공기 전도 오디오 데이터는 사용자가 말할 때 골전도 마이크로폰(112) 및 공기 전도 마이크로폰(114)에 의해 동시에 각각 획득할 수 있다. 골전도 오디오 데이터를 처리하는 트레이닝된 기계 학습 모델에 의해 생성된 처리된 골전도 오디오 데이터는 공기 전도 마이크로폰(114)에 의해 수집된 대응하는 공기 전도 오디오 데이터와 동일하거나 유사한 음향 특성들을 가질 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 단말(130), 저장 디바이스(140), 또는 임의의 다른 저장 디바이스로부터 트레이닝된 기계 학습 모델을 획득할 수 있다.
일부 실시예들에서, 예비 기계 학습 모델은 딥 학습 모델, 전통적인 기계 학습 모델 등, 또는 이들의 임의의 조합에 기초하여 구성될 수 있다. 딥 학습 모델은 CNN(Convolutional Neural Network) 모델, RNN(Recurrent Neural Network) 모델, LSTM(Long Short-Term Memory Network) 모델 등, 또는 이들의임의의 조합을 포함할 수 있다. 전통적인 기계 학습 모델은 HMM(hidden Markov model), MLP(multilayer perceptron) 모델 등, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시예들에서, 예비 기계 학습 모델은 다중 계층들, 예를 들어, 입력 계층, 다중 은닉 계층들, 및 출력 계층을 포함할 수 있다. 다중 은닉 계층들은 하나 이상의 컨볼루션 계층들(convolutional layers), 하나 이상의 폴링 계층들(pooling layers), 하나 이상의 배치 정규화 계층들(batch normalization layers), 하나 이상의 활성화 계층들, 하나 이상의 완전 연결 계층들, 비용 함수 계층 등을 포함할 수 있다. 다중 계층들 각각은 복수의 노드들을 포함할 수 있다. 일부 실시예들에서, 예비 기계 학습 모델은 복수의 아키텍처 파라미터들 및 트레이닝 파라미터들이라고도 하는 복수의 학습 파라미터들에 의해 정의될 수 있다. 복수의 학습 파라미터들은 복수의 트레이닝 데이터 그룹들을 사용하여 예비 기계 학습 모델의 트레이닝 동안 변경될 수 있다. 복수의 아키텍처 파라미터들은 예비 기계 학습 모델의 트레이닝 전에 사용자에 의해 설정 및/또는 조정될 수 있다. 기계 학습 모델의 예시적인 아키텍처 파라미터들은 계층의 커널 크기(size of a kernel), 계층들의 총 카운트(또는 수), 각 계층의 노드들의 카운트(또는 수), 학습률(learning rate), 배치 크기(batch size), 시기(epoch) 등을 포함할 수 있다. 예를 들어, 예비 기계 학습 모델이 LSTM 모델을 포함하는 경우, LSTM 모델은 2개의 노드들을 갖는 하나의 단일 입력 계층, 각각 30개의 노드들을 포함하는 4개의 히든 계층들, 및 2개의 노드들을 갖는 하나의 단일 출력 계층을 포함할 수 있다. LSTM 모델의 시간 단계들은 65이고 학습률은 0.003일 수 있다. 기계 학습 모델의 예시적인 학습 파라미터들은 두 개의 연결된 노드들 사이의 연결 가중치, 노드와 관련된 바이어스 벡터 등을 포함할 수 있다. 두 개의 연결된 노드들 사이의 연결 가중치는 한 노드의 출력 값이 다른 연결된 노드의 입력 값이 되는 비율을 나타내도록 구성될 수 있다. 노드와 관련된 바이어스 벡터는 원점으로부터 벗어나는 노드의 출력 값을 제어하도록 구성될 수 있다.
일부 실시예들에서, 트레이닝된 기계 학습 모델은 기계 학습 모델 트레이닝 알고리즘에 기초하여 복수의 트레이닝 데이터 그룹들을 사용하여 예비 기계 학습 모델을 트레이닝함으로써 결정될 수 있다. 일부 실시예들에서, 복수의 트레이닝 데이터 그룹들 중 하나 이상의 그룹들은 잡음이 없는 환경, 예를 들어 사일런싱 룸(silencing room)에서 획득될 수 있다. 트레이닝 데이터의 그룹은 특정 골전도 오디오 데이터 및 대응하는 특정 공기 전도 오디오 데이터를 포함할 수 있다. 트레이닝 데이터 그룹에서 특정 골전도 오디오 데이터 및 대응하는 특정 공기 전도 오디오 데이터는 골전도 센서(예를 들어, 골전도 마이크로폰(112)) 및 공기 전도 센서(예를 들어, 공기 전도 마이크로폰(114))에 의해 특정 사용자로부터 동시에 각각 획득될 수 있다. 일부 실시예들에서, 복수의 그룹들 중 적어도 일부의 각 그룹은 특정 골전도 오디오 데이터 및 본 명세서의 다른 곳에서 설명된 바와 같이 하나 이상의 재구성 기법을 사용하여 특정 골전도 오디오 데이터를 재구성함으로써 생성된 재구성된 골전도 오디오 데이터를 포함할 수 있다. 예시적인 기계 학습 모델 트레이닝 알고리즘은 경사 하강 알고리즘(gradient descent algorithm), 뉴턴 알고리즘(Newton’s algorithm), 콰지-뉴턴 알고리즘(quasi-Newton algorithm), 레벤버그-마르콰트 알고리즘(Levenberg-Marquardt algorithm), 켤레 경사 알고리즘(conjugate gradient algorithm) 등, 또는 이들의 조합을 포함할 수 있다. 트레이닝된 기계 학습 모델은 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)와 재구성된 골전도 오디오 데이터(예를 들어, 등가의 공기 전도 오디오 데이터) 사이의 대응하는 관계를 제공하도록 구성될 수 있다. 트레이닝된 기계 학습 모델은 대응하는 관계에 기초하여 골전도 오디오 데이터를 재구성하도록 구성될 수 있다. 일부 실시예들에서, 복수의 트레이닝 데이터 그룹들 각각의 골전도 오디오 데이터는 사용자(예를 들어, 테스터)의 신체의 동일한 부위(예를 들어, 귀 주변 영역)에 위치된 골전도 센서에 의해 수집될 수 있다. 일부 실시예들에서, 트레이닝된 기계 학습 모델의 트레이닝에 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체의 부위는, 트레이닝된 기계 학습 모델의 적용에 사용되는 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)를 수집하기 위한 골전도 센서가 위치하는 신체의 부위와 일치 및/또는 동일할 수 있다. 예를 들어, 복수의 트레이닝 데이터 그룹들의 각 그룹에서 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자(예를 들어, 테스터)의 신체 부위는 제1 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자의 신체 부위와 동일할 수 있다. 또 다른 예로서, 제1 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자의 신체 부위가 목이라면, 트레이닝된 기계 학습 모델의 트레이닝 프로세스에 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체 부위는 또한 신체의 목이 될 수 있다.
일부 실시예들에서, 복수의 트레이닝 데이터 그룹들을 수집하기 위한 골전도 센서가 위치하는 사용자(예를 들어, 테스터)의 신체 부위는 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)와 재구성된 골전도 오디오 데이터(예를 들어, 등가의 공기 전도 오디오 데이터) 사이의 대응 관계에 영향을 미칠 수 있으며, 따라서 트레이닝된 기계 학습 모델을 사용하여 대응하는 관계에 기초하여 생성된 재구성된 골전도 오디오 데이터에 영향을 미칠 수 있다. 사용자(예를 들어, 테스터)의 신체의 상이한 부위들에 위치한 골전도 센서에 의해 수집된 복수의 트레이닝 데이터 그룹들은, 상이한 부위들에 위치하는 골전도 센서에 의해 수집된 복수의 트레이닝 데이터 그룹들이 트레이닝된 기계 학습 모델의 트레이닝에 사용될 때, 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)와 재구성된 골전도 오디오 데이터(예를 들어, 등가의 공기 전도 오디오 데이터) 사이의 상이한 대응 관계들에 대응할 수 있다. 예를 들어, 동일한 구성의 다수의 골전도 센서들이 유양돌기, 관자놀이, 머리 상단, 외이도 등과 같은 신체의 상이한 부위들에 위치할 수 있다. 다수의 골전도 센서들은 사용자가 말할 때 골전도 오디오 데이터를 수집할 수 있다. 다수의 골전도 센서들에 의해 수집된 골전도 오디오 데이터에 기초하여 다수의 트레이닝 세트들이 형성될 수 있다. 다수의 트레이닝 세트들의 각 세트는 다수의 골전도 센서들 및 공기 전도 센서 중 하나에 의해 수집된 복수의 트레이닝 데이터 그룹들을 포함할 수 있다. 복수의 트레이닝 데이터 그룹들의 각 세트는 동일한 음성을 나타내는 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 포함할 수 있다. 다수의 트레이닝 세트들의 각 세트는 트레이닝된 기계 학습 모델을 획득하기 위해 기계 학습 모델을 트레이닝하는 데 사용될 수 있다. 다수의 트레이닝 세트들에 기초하여 다수의 트레이닝된 기계 학습 모델들이 획득될 수 있다. 다수의 트레이닝된 기계 학습 모델들은 특정 골전도 오디오 데이터와 재구성된 골전도 오디오 데이터 사이에 상이한 대응 관계들을 제공할 수 있다. 예를 들어, 상이한 재구성된 골전도 오디오 데이터는 동일한 골전도 오디오 데이터를 다수의 트레이닝된 기계 학습 모델들에 입력함으로써 생성될 수 있다. 일부 실시예들에서, 상이한 구성들에 있어서 상이한 골전도 센서들에 의해 수집된 골전도 오디오 데이터(예를 들어, 주파수 응답 곡선들)는 상이할 수 있다. 따라서, 트레이닝된 기계 학습 모델의 트레이닝에 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서는, 구성에 있어서, 트레이닝된 기계 학습 모델의 적용에 사용되는 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)를 수집하기 위한 골전도 센서와 일치 및/또는 동일할 수 있다. 일부 실시예들에서, 0 뉴턴 내지 1 뉴턴, 또는 0 뉴턴 내지 0.8 뉴턴과 같은 범위에서 상이한 압력들로 사용자의 신체 부위에 위치한 골전도 센서에 의해 수집된 골전도 오디오 데이터(예를 들어, 주파수 응답 곡선들)는 상이할 수 있다. 따라서, 트레이닝된 기계 학습 모델의 트레이닝을 위한 골전도 오디오 데이터를 수집하기 위해 골전도 센서가 사용자의 신체 부위에 가하는 압력은, 트레이닝된 기계 학습 모델의 적용을 위한 골전도 오디오 데이터를 수집하기 위해 골전도 센서가 사용자의 신체 부위에 가하는 압력과 일치 및/또는 동일할 수 있다.
일부 실시예들에서, 트레이닝된 기계 학습 모델은 예비 기계 학습 모델의 하나 이상의 학습 파라미터들을 업데이트하기 위해 복수의 반복들을 수행함으로써 획득될 수 있다. 복수의 반복들 각각에 대해, 트레이닝 데이터의 특정 그룹이 예비 기계 학습 모델에 먼저 입력될 수 있다. 예를 들어, 트레이닝 데이터의 특정 그룹의 특정 골전도 오디오 데이터는 예비 기계 학습 모델의 입력 계층에 입력될 수 있고, 트레이닝 데이터의 특정 그룹의 특정 공기 전도 오디오 데이터는 특정 골전도 오디오 데이터에 대응하는 예비 기계 학습 모델의 원하는 출력으로서 예비 기계 학습 모델의 출력 계층에 입력될 수 있다. 예비 기계 학습 모델은 트레이닝 데이터의 특정 그룹에 포함된 특정 골전도 오디오 데이터 및 특정 공기 전도 오디오 데이터의 하나 이상의 음향 특성들(예를 들어, 지속기간 특징, 진폭 특징, 기본 주파수 특징 등)을 추출할 수 있다. 추출된 특성들에 기초하여, 예비 기계 학습 모델은 특정 골전도 데이터에 대응하는 예측 출력을 결정할 수 있다. 그 다음, 특정 골전도 데이터에 대응하는 예측된 출력은 비용 함수에 기초하여 트레이닝 데이터의 특정 그룹에 대응하는 출력 계층에서 입력된 특정 공기 전도 오디오 데이터(즉, 원하는 출력)와 비교될 수 있다. 예비 기계 학습 모델의 비용 함수는 예비 기계 학습 모델의 추정 값(예를 들어, 예측된 출력)과 실제 값(예를 들어, 원하는 출력 또는 특정의 입력된 공기 전도 오디오 데이터) 사이의 차이를 평가하도록 구성될 수 있다. 비용 함수의 값이 현재 반복에서 임계값을 초과하면, 비용 함수의 값(예를 들어, 예측된 출력과 입력된 특정 공기 전도 오디오 데이터 사이의 차이)이 임계값보다 작게 되도록 예비 기계 학습 모델의 학습 파라미터들이 조정되고 업데이트될 수 있다. 따라서, 다음 반복에서, 앞서 설명한 바와 같이 예비 기계 학습 모델을 트레이닝하기 위해 트레이닝 데이터의 다른 그룹이 예비 기계 학습 모델에 입력될 수 있다. 그 다음, 종료 조건이 충족될 때까지 예비 기계 학습 모델의 학습 파라미터들을 업데이트하기 위해 복수의 반복들이 수행될 수 있다. 종료 조건은 예비 기계 학습 모델이 충분히 트레이닝되었는지 여부를 나타내는 표시를 제공할 수 있다. 예를 들어, 예비 기계 학습 모델과 연관된 비용 함수의 값이 최소이거나 또는 임계값(예를 들어, 상수) 미만인 경우 종료 조건이 충족될 수 있다. 다른 예로, 비용 함수의 값이 수렴하면 종료 조건이 충족될 수 있다. 둘 이상의 연속 반복에서 비용 함수 값들의 변동이 임계값(예를 들어, 상수)보다 작은 경우 비용 함수의 수렴이 발생한 것으로 간주될 수 있다. 또 다른 예로서, 트레이닝 프로세스에서 지정된 수의 반복들이 수행되면 종료 조건이 충족될 수 있다. 트레이닝된 기계 학습 모델은 업데이트된 학습 파라미터들에 기초하여 결정될 수 있다. 일부 실시예들에서, 트레이닝된 기계 학습 모델은 저장 디바이스(140), 저장 모듈(440), 또는 저장을 위한 임의의 다른 저장 디바이스로 전송될 수 있다.
630에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 처리된 골전도 오디오 데이터를 획득하기 위해 트레이닝된 기계 학습 모델을 사용하여 골전도 오디오 데이터를 처리할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)를 트레이닝된 기계 학습 모델에 입력할 수 있고, 그 다음, 트레이닝된 기계 학습 모델은 처리된 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 재구성된 제1 오디오 데이터)를 출력할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 음향 특성을 추출할 수 있고, 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 추출된 음향 특성을 트레이닝된 기계 학습 모델에 입력할 수 있다. 트레이닝 기계 학습 모델은 처리된 골전도 오디오 데이터를 출력할 수 있다. 주파수 임계값(예를 들어, 1000Hz, 2000Hz, 3000Hz, 4000Hz 등)보다 높은 처리된 골전도 오디오 데이터의 주파수 성분들은 주파수 임계값보다 높은 골전도 오디오 데이터의 주파수 성분들에 대해 증가할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 처리된 골전도 오디오 데이터를 클라이언트 단말(예를 들어, 단말(130))로 전송할 수 있다. 클라이언트 단말(예를 들어, 단말(130))은 처리된 골전도 오디오 데이터를 목소리로 변환하여 그 목소리를 사용자에게 방송할 수 있다.
상기 설명은 단지 예시의 목적들을 위해 제공되며, 본 개시의 범위를 제한하도록 의도되지 않는다는 것이 주의되어야 한다. 이 기술분야에서의 통상의 기술자들에 대해, 다수의 변형들 및 수정들이 본 개시의 교시들 하에서 이루어질 수 있다. 그러나, 이들 변형들 및 수정들은 본 개시의 범위로부터 벗어나지 않는다.
도 7은 본 개시의 일부 실시예들에 따라 고조파 보정 모델을 사용하여 골전도 오디오 데이터를 재구성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다. 일부 실시예들에서, 프로세스(700)는 저장 디바이스(140), ROM(230) 또는 RAM(240), 또는 저장소(390)에 저장된 명령들의 세트(예를 들어, 애플리케이션)로서 구현될 수 있다. 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 명령들의 세트를 실행할 수 있고, 명령들을 실행할 때, 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 프로세스(700)를 수행하도록 구성될 수 있다. 이하에서 제공되는 예시된 프로세스의 동작들은 예시적인 것으로 의도된다. 일부 실시예들에서, 프로세스(700)는 설명되지 않은 하나 이상의 추가적인 동작들로, 및/또는 논의된 동작들 중 하나 이상 없이 달성될 수 있다. 또한, 도 7에 예시되고 이하에서 설명되는 바와 같이 프로세스(700)의 동작들의 순서는 제한적인 것으로 의도되지 않는다. 일부 실시예들에서, 프로세스(700)의 하나 이상의 동작들은 도 5와 관련하여 설명된 바와 같이 동작(530)의 적어도 일부를 달성하기 위해 수행될 수 있다.
710에서, 프로세싱 디바이스(122)(예를 들어, 획득 모듈(410))는 골전도 오디오 데이터를 획득할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터는 동작(510)과 관련하여 설명된 바와 같이 사용자가 말할 때 골전도 센서에 의해 수집된 원래의 오디오 데이터(예를 들어, 제1 오디오 데이터)일 수 있다. 예를 들어, 사용자의 음성은 골전도 센서(예를 들어, 골전도 마이크로폰(112))에 의해 수집되어 전기 신호(예를 들어, 아날로그 신호 또는 디지털 신호)(즉, 골전도 오디오 데이터)를 생성할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터는 상이한 주파수들 및 진폭들을 갖는 다중 파동들을 포함할 수 있다. 주파수 도메인에서 골전도 오디오 데이터는 복수의 요소들을 포함하는 행렬로 나타낼 수 있다. 복수의 요소들 각각은 파동의 주파수 및 진폭을 나타낼 수 있다.
720에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 골전도 오디오 데이터의 진폭 스펙트럼 및 위상 스펙트럼을 결정할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 골전도 오디오 데이터에 푸리에 변환(FT) 동작을 수행함으로써 골전도 오디오 데이터의 진폭 스펙트럼 및 위상 스펙트럼을 결정할 수 있다. 프로세싱 디바이스(122)는 주파수 도메인에서 골전도 오디오 데이터의 진폭 스펙트럼 및 위상 스펙트럼을 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 SEEVOC(Spectral Envelope Estimate vocoder algorithm)와 같은 피크 검출 기법을 사용하여 골전도 오디오 데이터에 포함된 파동들의 피크 값들을 검출할 수 있다. 프로세싱 디바이스(122)는 파형들의 피크 값들에 기초하여 골전도 오디오 데이터의 진폭 스펙트럼 및 위상 스펙트럼을 결정할 수 있다. 예를 들어, 골전도 오디오 데이터의 파동의 진폭은 파동의 피크와 골(valley) 사이의 거리의 절반일 수 있다.
730에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 고조파 보정 모델을 획득할 수 있다. 고조파 보정 모델은 특정 공기 전도 오디오 데이터의 진폭 스펙트럼과 특정 공기 전도 오디오 데이터에 대응하는 특정 골전도 오디오 데이터의 진폭 스펙트럼 사이의 관계를 제공하도록 구성될 수 있다. 특정 공기 전도 오디오 데이터의 진폭 스펙트럼은 상기 관계에 기초하여 특정 공기 전도 오디오 데이터에 대응하는 특정 골전도 오디오 데이터의 진폭 스펙트럼에 기초하여 결정될 수 있다. 본 명세서에서 사용되는 바와 같이, 특정 공기 전도 오디오 데이터는 또한 특정 골전도 오디오 데이터에 대응하는 등가의 공기 전도 오디오 데이터 또는 재구성된 골전도 오디오 데이터라고 할 수 있다.
일부 실시예들에서, 고조파 보정 모델은 오디오 신호 생성 시스템(100)의 디폴트 설정일 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 저장 디바이스(140), 저장 모듈(440), 또는 저장을 위한 임의의 다른 저장 디바이스로부터 고조파 보정 모델을 획득할 수 있다. 일부 실시예들에서, 고조파 보정 모델은 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들에 기초하여 결정될 수 있다. 각각의 그룹에서 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터는 오퍼레이터(예를 들어, 테스터)가 말할 때 잡음이 없는 환경에서 골전도 센서 및 공기 전도 센서에 의해 동시에 각각 수집될 수 있다. 골전도 센서 및 공기 전도 센서는 제1 오디오 데이터를 수집하기 위한 골전도 센서 및 제2 오디오 데이터를 수집하기 위한 공기 전도 센서와 각각 동일하거나 상이할 수 있다. 일부 실시예들에서, 고조파 보정 모델은 다음의 동작들(a1 내지 a3)에 따라 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들에 기초하여 결정될 수 있다. 동작 a1에서, 프로세싱 디바이스(122)는 SEEVOC(Spectral Envelope Estimation Vocoder Algorithm)와 같은 피크 값 검출 기법을 사용하여 각 그룹의 골전도 오디오 데이터의 진폭 스펙트럼 및 각 그룹의 대응하는 공기 전도 오디오 데이터의 진폭 스펙트럼을 결정할 수 있다. 동작 a2에서, 프로세싱 디바이스(122)는 각각의 그룹에서 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 의 진폭 스펙트럼들에 기초하여 후보 보정 행렬을 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 각각의 그룹에서 골전도 오디오 데이터의 진폭 스펙트럼과 대응하는 공기 전도 오디오 데이터의 진폭 스펙트럼의 비율에 기초하여 후보 보정 행렬을 결정할 수 있다. 동작 a3에서, 프로세싱 디바이스(122)는 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들의 각 그룹에 대응하는 후보 보정 행렬에 기초하여 고조파 보정 모델을 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들에 대응하는 후보 보정 행렬들의 평균을 고조파 보정 모델로 결정할 수 있다.
일부 실시예들에서, 고조파 보정 모델을 결정하는 데 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체의 부위는, 고조파 보정 모델의 적용에 사용되는 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)를 수집하기 위한 골전도 센서가 위치하는 신체의 부위와 일치 및/또는 동일할 수 있다. 예를 들어, 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 그룹들의 각 그룹에서 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자(예를 들어, 테스터)의 신체 부위는, 제1 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자의 신체 부위와 동일할 수 있다. 다른 예로서, 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)를 수집하기 위한 골전도 센서가 위치하는 신체 부위가 목이라면, 고조파 보정 모델을 결정하는 데 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체 부위도 역시 목일 수 있다. 일부 실시예들에서, 고조파 보정 모델은 고조파 보정 모델을 결정하기 위해 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체의 부위들과 상이할 수 있다. 예를 들어, 사용자가 말할 때 신체의 제1 부위에 위치한 제1 골전도 센서 및 공기 전도 센서에 의해 각각 수집된 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 제1 그룹들이 획득될 수 있다. 사용자가 말할 때 신체의 제2 부위에 위치한 제2 골전도 센서 및 공기 전도 센서에 의해 각각 수집된 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 제2 그룹들이 획득될 수 있다. 제1 고조파 보정 모델은 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 제1 그룹들에 기초하여 결정될 수 있다. 제2 고조파 보정 모델은 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 제2 그룹들에 기초하여 결정될 수 있다. 제2 고조파 보정 모델은 제1 고조파 보정 모델과 상이할 수 있다. 제1 고조파 보정 모델 및 제2 고조파 보정 모델에 의해 제공되는 특정 공기 전도 오디오 데이터의 진폭 스펙트럼과 특정 공기 전도 오디오 데이터에 대응하는 특정 골전도 오디오 데이터의 진폭 스펙트럼 사이의 관계들은 상이할 수 있다. 제1 고조파 보정 모델 및 제2 고조파 보정 모델에 각각 기초하여 결정된 재구성된 골전도 오디오 데이터는 동일한 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)에 기초하는 것과 상이할 수 있다.
740에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 골전도 오디오 데이터의 보정된 진폭 스펙트럼을 획득하기 위해 골전도 오디오 데이터의 진폭 스펙트럼을 보정할 수 있다. 일부 실시예들에서, 고조파 보정 모델은 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 진폭 스펙트럼에서 각 요소에 대응하는 복수의 가중치 계수들을 포함하는 보정 행렬을 포함할 수 있다. 본 명세서에서 사용되는 진폭 스펙트럼의 요소는 파동의 특정 진폭(즉, 주파수 성분)을 의미할 수 있다. 프로세싱 디바이스(122)는 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같은 제1 오디오 데이터)의 보정된 진폭 스펙트럼을 획득하기 위해 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같은 제1 오디오 데이터)의 진폭 스펙트럼과 보정 행렬을 곱함으로써 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 진폭 스펙트럼을 보정할 수 있다.
750에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 골전도 오디오 데이터의 보정된 진폭 스펙트럼 및 위상 스펙트럼에 기초하여 재구성된 골전도 오디오 데이터를 결정할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 재구성된 골전도 오디오 데이터를 획득하기 위해 골전도 오디오 데이터의 보정된 진폭 스펙트럼 및 위상 스펙트럼에 대해 역푸리에 변환을 수행할 수 있다.
상기 설명은 단지 예시의 목적들을 위해 제공되며, 본 개시의 범위를 제한하도록 의도되지 않는다는 것이 주의되어야 한다. 이 기술분야에서의 통상의 기술자들에 대해, 다수의 변형들 및 수정들이 본 개시의 교시들 하에서 이루어질 수 있다. 그러나, 이들 변형들 및 수정들은 본 개시의 범위로부터 벗어나지 않는다.
도 8은 본 개시의 일부 실시예들에 따라 희소 행렬 기법을 사용하여 골전도 오디오 데이터를 재구성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다. 일부 실시예들에서, 프로세스(800)는 저장 디바이스(140), ROM(230) 또는 RAM(240), 또는 저장소(390)에 저장된 명령들의 세트(예를 들어, 애플리케이션)로서 구현될 수 있다. 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 명령들의 세트를 실행할 수 있고, 명령들을 실행할 때, 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 프로세스(800)를 수행하도록 구성될 수 있다. 이하에서 제공되는 예시된 프로세스의 동작들은 예시적인 것으로 의도된다. 일부 실시예들에서, 프로세스(800)는 설명되지 않은 하나 이상의 추가적인 동작들로, 및/또는 논의된 동작들 중 하나 이상 없이 달성될 수 있다. 또한, 도 8에 예시되고 이하에서 설명되는 바와 같이 프로세스(800)의 동작들의 순서는 제한적인 것으로 의도되지 않는다. 일부 실시예들에서, 프로세스(800)의 하나 이상의 동작들은 도 5와 관련하여 설명된 바와 같이 동작(530)의 적어도 일부를 달성하기 위해 수행될 수 있다.
810에서, 프로세싱 디바이스(122)(예를 들어, 획득 모듈(410))는 골전도 오디오 데이터를 획득할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터는 동작(510)과 관련하여 설명된 바와 같이 사용자가 말할 때 골전도 센서에 의해 수집된 원래의 오디오 데이터(예를 들어, 제1 오디오 데이터)일 수 있다. 예를 들어, 사용자의 음성은 골전도 센서(예를 들어, 골전도 마이크로폰(112))에 의해 수집되어 전기 신호(예를 들어, 아날로그 신호 또는 디지털 신호)(즉, 골전도 오디오 데이터)를 생성할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터는 상이한 주파수들 및 진폭들을 갖는 다중 파동들을 포함할 수 있다. 주파수 도메인에서 골전도 오디오 데이터는 행렬 X로 나타낼 수 있다. 행렬 X는 사전 행렬(dictionary matrix) D 및 희소 코드 행렬(sparse code matrix) C에 기초하여 결정될 수 있다. 예를 들어, 오디오 데이터는 다음과 같이 수식(4)에 따라 결정될 수 있다:
Figure pct00011
(4)
820에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 골전도 오디오 데이터의 사전 행렬을 골전도 오디오 데이터에 대응하는 재구성된 골전도 오디오의 사전 행렬로 변환하도록 구성된 제1 변환 관계를 획득할 수 있다. 일부 실시예들에서, 제1 변환 관계는 오디오 신호 생성 시스템(100)의 디폴트 설정일 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 저장 디바이스(140), 저장 모듈(440), 또는 저장을 위한 임의의 다른 저장 디바이스로부터 제1 변환 관계를 획득할 수 있다. 일부 실시예들에서, 제1 변환 관계는 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들에 기초하여 결정될 수 있다. 각각의 그룹에서 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터는 오퍼레이터(예를 들어, 테스터)가 말할 때 잡음이 없는 환경에서 골전도 센서 및 공기 전도 센서에 의해 동시에 각각 수집될 수 있다. 예를 들어, 프로세싱 디바이스(122)는 동작(840)에 설명되는 바와 같이, 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들의 각 그룹에서 골전도 오디오 데이터의 사전 행렬 및 대응하는 공기 전도 오디오 데이터의 사전 행렬을 결정할 수 있다. 프로세싱 디바이스(122)는 후보 제1 변환 관계를 획득하기 위해 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들의 각 그룹에 대해 골전도 오디오 데이터의 사전 행렬로 대응하는 공기 전도 오디오 데이터의 사전 행렬을 분할할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들에 기초하여 하나 이상의 후보 제1 변환 관계를 결정할 수 있다. 프로세싱 디바이스 (122)는 제1 변환 관계를 획득하기 위해 하나 이상의 후보 제1 변환 관계들을 평균화할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 하나 이상의 후보 제1 변환 관계들 중 하나를 제1 변환 관계로서 결정할 수 있다.
830에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 골전도 오디오 데이터의 희소 코드 행렬을 골전도 오디오 데이터에 대응하는 재구성된 골전도 오디오 데이터의 희소 코드 행렬로 변환하도록 구성된 제2 변환 관계를 획득할 수 있다. 일부 실시예들에서, 제2 변환 관계는 오디오 신호 생성 시스템(100)의 디폴트 설정일 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 저장 디바이스(140), 저장 모듈(440), 또는 저장을 위한 임의의 다른 저장 디바이스로부터 제2 변환 관계를 획득할 수 있다. 일부 실시예들에서, 제2 변환 관계는 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들에 기초하여 결정될 수 있다. 예를 들어, 프로세싱 디바이스(122)는 동작(840)에 설명되는 바와 같이, 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들의 각 그룹에서 골전도 오디오 데이터의 희소 코드 행렬 및 대응하는 공기 전도 오디오 데이터의 희소 코드 행렬을 결정할 수 있다. 프로세싱 디바이스(122)는 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들의 각 그룹에 대해 후보 제2 변환 관계를 획득하기 위해 골전도 오디오 데이터의 희소 코드 행렬로 대응하는 공기 전도 오디오 데이터의 희소 코드 행렬을 분할할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 골전도 오디오 데이터 및 대응하는 공기 전도 오디오 데이터의 하나 이상의 그룹들에 기초하여 하나 이상의 후보 제2 변환 관계를 결정할 수 있다. 프로세싱 디바이스 (122)는 제2 변환 관계를 획득하기 위해 하나 이상의 후보 제2 변환 관계들을 평균화할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 하나 이상의 후보 제2 변환 관계들 중 하나를 제2 변환 관계로서 결정할 수 있다.
일부 실시예들에서, 제1 변환 관계(및/또는 제2 변환 관계)를 결정하기 위해 사용된 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체의 부위는, 제1 변환 관계(및/또는 제2 변환 관계)의 적용에 사용된 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)를 수집하기 위한 골전도 센서가 위치하는 신체의 부위와 일치 및/또는 동일할 수 있다. 예를 들어, 대응하는 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 하나 이상의 그룹들의 각 그룹에서 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자(예를 들어, 테스터)의 신체 부위는, 제1 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 사용자의 신체 부위와 동일할 수 있다. 다른 예로서, 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)를 수집하기 위한 골전도 센서가 위치하는 신체 부위가 목이라면, 제1 변환 관계(및/또는 제2 변환 관계)를 결정하는 데 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체 부위도 역시 목일 수 있다. 일부 실시예들에서, 제1 변환 관계(및/또는 제2 변환 관계)는 제1 변환 관계(및/또는 또는 제2 변환 관계)를 결정하는 데 사용되는 골전도 오디오 데이터를 수집하기 위한 골전도 센서가 위치하는 신체 부위들이 서로 다를 수 있다. 상이한 제1 변환 관계들(및/또는 제2 변환 관계들)에 각각 기초하여 결정된 재구성된 골전도 오디오 데이터는 동일한 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터)에 기초하는 것과 상이할 수 있다.
840에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 제1 변환 관계를 사용하여 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 사전 행렬에 기초하여 재구성된 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 재구성된 제1 오디오 데이터)의 사전 행렬을 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 재구성된 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 재구성된 제1 오디오 데이터)의 사전 행렬을 획득하기 위해 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 사전 행렬과 제1 변환 관계를 (예를 들어, 행렬 형태로) 곱할 수 있다. 프로세싱 디바이스(122)는 복수의 반복들을 수행함으로써 오디오 데이터(예를 들어, 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터), 그룹 내의 골전도 오디오 데이터 및/또는 공기 전도 오디오 데이터)의 사전 행렬 및/또는 희소 코드 행렬을 결정할 수 있다. 복수의 반복들을 수행하기 전에, 프로세싱 디바이스(122)는 초기 사전 행렬을 획득하기 위해 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 사전 행렬을 초기화할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 초기 사전 행렬의 각 요소를 0 또는 1로 설정할 수 있다. 각각의 반복에서, 프로세싱 디바이스(122)는 예를 들어, 초기 사전 행렬 및 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)에 기초하여 OMP(Orthogonal Matching Pursuit) 알고리즘을 사용하여 추정된 희소 코드 행렬을 결정할 수 있다. 프로세싱 디바이스(122)는 예를 들어, 추정된 희소 코드 행렬 및 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)에 기초하여 K-SVD(K-Singular Value Decomposition) 알고리즘을 사용하여 추정된 사전 행렬을 결정할 수 있다. 프로세싱 디바이스(122)는 수식(4)에 따라 추정된 사전 행렬 및 추정된 희소 코드 행렬에 기초하여 추정된 오디오 데이터를 결정할 수 있다. 프로세싱 디바이스(122)는 추정된 오디오 데이터를 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)와 비교할 수 있다. 오디오 데이터와 현재 반복에서 생성된 추정된 오디오 데이터 사이의 차이가 임계값을 초과하는 경우, 프로세싱 디바이스(122)는 현재 반복에서 생성된 추정된 사전 행렬을 사용하여 초기 사전 행렬을 업데이트할 수 있다. 프로세싱 디바이스(122)는, 오디오 데이터와 현재 반복에서 생성된 추정된 오디오 데이터 사이의 차이가 임계값보다 작을 때까지, 업데이트된 초기 사전 행렬에 기초하여 다음 반복을 수행할 수 있다. 오디오 데이터와 현재 반복에서 생성된 추정된 오디오 데이터 사이의 차이가 임계값보다 작은 경우, 프로세싱 디바이스(122)는 현재 반복에서 생성된 추정된 사전 행렬 및 추정된 희소 코드 행렬을 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 사전 행렬 및/또는 희소 코드 행렬로 지정할 수 있다.
850에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 제2 변환 관계를 사용하여 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 희소 코드 행렬에 기초하여 재구성된 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 재구성된 제1 오디오 데이터)의 희소 코드 행렬을 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 재구성된 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 재구성된 제1 오디오 데이터)의 희소 코드 행렬을 획득하기 위해 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 희소 코드 행렬과 제2 변환 관계를 (예를 들어, 행렬) 곱할 수 있다. 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 제1 오디오 데이터 또는 정규화된 제1 오디오 데이터)의 희소 코드 행렬은 동작 840에서 설명된 바와 같이 결정될 수 있다.
860에서, 프로세싱 디바이스(122)(예를 들어, 전처리 모듈(420))는 재구성된 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같이 재구성된 제1 오디오 데이터)를, 재구성된 골전도 오디오 데이터의 결정된 사전 행렬 및 결정된 희소 코드 행렬에 기초하여 결정할 수 있다. 프로세싱 디바이스(122)는 재구성된 골전도 오디오 데이터를, 수식(4)에 따라 재구성된 골전도 오디오 데이터의 동작(840)에서 결정된 사전 행렬 및 동작(850)에서 결정된 희소 코드 행렬에 기초하여 결정할 수 있다.
상기 설명은 단지 예시의 목적들을 위해 제공되며, 본 개시의 범위를 제한하도록 의도되지 않는다는 것이 주의되어야 한다. 이 기술분야에서의 통상의 기술자들에 대해, 다수의 변형들 및 수정들이 본 개시의 교시들 하에서 이루어질 수 있다. 그러나, 이들 변형들 및 수정들은 본 개시의 범위로부터 벗어나지 않는다. 다른 예로서, 동작(820) 및 동작(830)은 하나의 단일 동작으로 통합될 수 있다.
도 9는 본 개시의 일부 실시예들에 따라 오디오 데이터를 생성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다. 일부 실시예들에서, 프로세스(900)는 저장 디바이스(140), ROM(230) 또는 RAM(240), 또는 저장소(390)에 저장된 명령들의 세트(예를 들어, 애플리케이션)로서 구현될 수 있다. 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 명령들의 세트를 실행할 수 있고, 명령들을 실행할 때, 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 프로세스(900)를 수행하도록 구성될 수 있다. 이하에서 제공되는 예시된 프로세스의 동작들은 예시적인 것으로 의도된다. 일부 실시예들에서, 프로세스(900)는 설명되지 않은 하나 이상의 추가적인 동작들로, 및/또는 논의된 동작들 중 하나 이상 없이 달성될 수 있다. 또한, 도 9에 예시되고 이하에서 설명되는 바와 같이 프로세스(900)의 동작들의 순서는 제한적인 것으로 의도되지 않는다. 일부 실시예들에서, 프로세스(900)의 하나 이상의 동작들은 도 5와 관련하여 설명된 바와 같이 동작(540)의 적어도 일부를 달성하기 위해 수행될 수 있다.
910에서, 프로세싱 디바이스(122)(예를 들어, 오디오 데이터 생성 모듈(430) 또는 주파수 결정 유닛(432))는 골전도 오디오 데이터 또는 공기 전도 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다. 골전도 오디오 데이터(예를 들어, 제1 오디오 데이터 또는 전처리된 제1 오디오 데이터) 및 공기 전도 오디오 데이터(예를 들어, 제2 오디오 데이터 또는 전처리된 제2 오디오 데이터)는 사용자가 말할 때 골전도 센서 및 공기 전도 센서에 의해 동시에 각각 수집될 수 있다. 골전도 오디오 데이터 및 공기 전도 오디오 데이터에 대한 더 많은 설명은 본 개시의 다른 곳(예를 들어, 도 5 및 그 설명)에서 찾을 수 있다.
본 명세서에서 사용되는 바와 같이, 주파수 임계값은 주파수 포인트라고도 할 수 있다. 일부 실시예들에서, 주파수 임계값은 골전도 오디오 데이터 및/또는 공기 전도 오디오 데이터의 주파수 포인트일 수 있다. 일부 실시예들에서, 주파수 임계값은 골전도 오디오 데이터 및/또는 공기 전도 오디오 데이터의 주파수 포인트와 상이할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 골전도 오디오 데이터와 연관된 주파수 응답 곡선에 기초하여 주파수 임계값을 결정할 수 있다. 골전도 오디오 데이터와 연관된 주파수 응답 곡선은 주파수에 따라 달라지는 주파수 응답 값들을 포함할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 골전도 오디오 데이터와 연관된 주파수 응답 곡선의 주파수 응답 값들에 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 임계값(예를 들어, 도 11에 도시된 바와 같이 주파수 응답 곡선 m의 약 80dB)보다 작은 주파수 응답 값들에 대응하는 주파수 범위(예를 들어, 도 11에 도시된 바와 같이 주파수 응답 곡선 m의 0 내지 2000Hz) 중에서 하나의 주파수 임계값으로 최대 주파수(예를 들어, 도 11에 도시된 바와 같이 주파수 응답 곡선 m의 2000Hz)를 결정할 수 있다. 다른 예로서, 프로세싱 디바이스(122)는 임계값(예를 들어, 도 11에 도시된 바와 같이 주파수 응답 곡선 m의 약 90dB)보다 큰 주파수 응답 값들에 대응하는 주파수 범위(예를 들어, 도 11에 도시된 바와 같이 주파수 응답 곡선 m의 4000Hz 내지 20kHz) 중에서 하나의 주파수 임계값으로서 최소 주파수(예를 들어, 도 11에 도시된 바와 같이 주파수 응답 곡선 m의 4000Hz)를 결정할 수 있다. 또 다른 예로서, 프로세싱 디바이스(122)는 범위 내의 주파수 응답 값들에 대응하는 주파수 범위 중에서 두 개의 주파수 임계값들으로 최소 주파수 및 최대 주파수를 결정할 수 있다. 추가 예로서, 도 11에 도시된 바와 같이, 프로세싱 디바이스(122)는 골전도 오디오 데이터의 주파수 응답 곡선 "m"에 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다. 프로세싱 디바이스(122)는 임계값(예를 들어, 70dB)보다 작은 주파수 응답 값들에 대응하는 주파수 범위(0-2000Hz)를 결정할 수 있다. 프로세싱 디바이스(122)는 주파수 임계값으로서 주파수 범위에서의 최대 주파수를 결정할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 주파수 응답 곡선의 변화에 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 안정적인 변화를 갖는 주파수 응답 곡선의 주파수 범위 중에서 주파수 임계값들로서 최대 주파수 및/또는 최소 주파수를 결정할 수 있다. 다른 예로서, 프로세싱 디바이스(122)는 급격히 변화하는 주파수 응답 곡선의 주파수 범위 중에서 주파수 임계값들로서 최대 주파수 및/또는 최소 주파수를 결정할 수 있다. 또 다른 예로서, 1000Hz 미만의 주파수 범위에서 주파수 응답 곡선 m은 1000Hz 초과 및 4000Hz 미만의 주파수 범위에 대해 안정적으로 변화한다. 프로세싱 디바이스(122)는 주파수 임계값들로서 1000Hz 및 4000Hz를 결정할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 재구성된 골전도 오디오 데이터를 획득하기 위해 본 개시의 다른 곳(예를 들어, 도 5 및 그에 대한 설명)에서 설명된 바와 같이 하나 이상의 재구성 기법들을 사용하여 골전도 오디오 데이터를 재구성할 수 있다. 프로세싱 디바이스(122)는 재구성된 골전도 오디오 데이터와 연관된 주파수 응답 곡선을 결정할 수 있다. 프로세싱 디바이스(122)는 전술한 바와 같이 골전도 오디오 데이터에 기초한 것과 유사하거나 동일하게 재구성된 골전도 오디오 데이터와 연관된 주파수 응답 곡선에 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 공기 전도 오디오 데이터의 적어도 일부와 연관된 잡음 레벨에 기초하여 하나 이상의 주파수 임계값들을 결정할 수 있다. 잡음 레벨이 높을수록 하나 이상의 주파수 임계값들 중 더 높은 것(예를 들어, 최소 주파수 임계값)이 될 수 있다. 잡음 레벨이 낮을수록 하나 이상의 주파수 임계값들 중 더 낮은 것(예를 들어, 최소 주파수 임계값)이 될 수 있다. 일부 실시예들에서, 공기 전도 오디오 데이터와 연관된 잡음 레벨은 공기 전도 오디오 데이터에 포함된 잡음의 양 또는 에너지로 표시될 수 있다. 공기 전도 오디오 데이터에 포함된 잡음의 양이나 에너지가 클수록 잡음 레벨이 커질 수 있다. 일부 실시예들에서, 잡음 레벨은 공기 전도 오디오 데이터의 신호 대 잡음비(SNR)로 표시될 수 있다. SNR이 클수록 잡음 레벨이 낮아질 수 있다. 공기 전도 오디오 데이터와 연관된 SNR이 클수록 주파수 임계값이 더 낮아질 수 있다. 예를 들어, SNR이 0dB이면, 주파수 임계값은 2000Hz일 수 있다. SNR이 20dB이면, 주파수 임계값은 4000Hz일 수 있다. 예를 들어, 주파수 임계값은 다음과 같이 수식(5)에 기초하여 결정될 수 있다:
Figure pct00012
(5)
여기서 F point 는 주파수 임계값을 나타내고, F1, F2, 및/또는 F3은 0-20KHz 범위에서의 값들일 수 있고, F1 > F2 > F3. 다. A1 및/또는 A2는 오디오 신호 생성 시스템(100)의 디폴트 설정일 수 있다. 예를 들어, A1 및/또는 A2는 각각 0 및/또는 20과 같은 상수일 수 있다.
또한, 주파수 임계값은 다음과 같은 수식(6)으로 표시될 수 있다.
Figure pct00013
(6)
일부 실시예들에서, 프로세싱 디바이스(122)는 다음과 같이 수식(7)에 따라 공기 전도 오디오 데이터의 SNR을 결정할 수 있다:
Figure pct00014
(7)
여기서, n은 공기 전도 오디오 데이터에서 n번째 음성 프레임을 나타내고,
Figure pct00015
는 공기 전도 오디오 데이터에 포함된 순수한 오디오 데이터의 에너지를 나타내고,
Figure pct00016
는 공기 전도 오디오 데이터에 포함된 잡음 데이터의 에너지를 나타낸다. 일부 실시예들에서, 프로세싱 디바이스(122)는 MS(Minima Statistical) 알고리즘, MCRA(Minima Controlled Recursive Averaging) 알고리즘 등과 같은 잡음 추정 알고리즘을 사용하여 공기 전도 오디오 데이터에 포함된 잡음 데이터를 결정할 수 있다. 프로세싱 디바이스(122)는 공기 전도 오디오 데이터에 포함된 결정된 잡음 데이터에 기초하여 공기 전도 오디오 데이터에 포함된 순수한 오디오 데이터를 결정할 수 있다. 그 다음, 프로세싱 디바이스(122)는 공기 전도 오디오 데이터에 포함된 순수한 오디오 데이터의 에너지 및 공기 전도 오디오 데이터에 포함된 결정된 잡음 데이터의 에너지를 결정할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 골전도 센서 및 공기 전도 센서를 사용하여 공기 전도 오디오 데이터에 포함된 잡음 데이터를 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 공기 전도 센서에 의해 수집된 기준 오디오 데이터를 결정할 수 있으며, 공기 전도 센서에 의해 공기 전도 오디오 데이터가 수집되는 시간에 가까운 특정 시간 또는 기간에 골전도 센서에 의해 신호들이 수집되지 않는다. 본 명세서에서 사용되는 바와 같이, 다른 시간에 가까운 시간 또는 기간은 시간 또는 기간과 다른 시간 사이의 차이가 임계값(예를 들어, 10밀리초, 100밀리초, 1초, 2초, 3초, 4초 등) 미만인 것을 의미할 수 있다. 기준 오디오 데이터는 공기 전도 오디오 데이터에 포함된 잡음 데이터와 동일할 수 있다. 그 다음, 프로세싱 디바이스(122)는 공기 전도 오디오 데이터에 포함된 결정된 잡음 데이터(즉, 기준 오디오 데이터)에 기초하여 공기 전도 오디오 데이터에 포함된 순수한 오디오 데이터를 결정할 수 있다. 프로세싱 디바이스(122)는 수식(7)에 따라 공기 전도 오디오 데이터와 연관된 SNR을 결정할 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 공기 전도 오디오 데이터에 포함된 결정된 잡음 데이터의 에너지를 추출하고, 결정된 잡음 데이터의 에너지 및 공기 전도 오디오 데이터의 총 에너지에 기초하여 순수한 오디오 데이터의 에너지를 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 공기 전도 오디오 데이터에 포함된 순수한 오디오 데이터의 에너지를 획득하기 위해 공기 전도 오디오 데이터의 총 에너지로부터 공기 전도 오디오 데이터에 포함된 추정된 잡음 데이터의 에너지를 뺄 수 있다. 프로세싱 디바이스(122)는 수식(7)에 따라 순수한 오디오 데이터의 에너지 및 결정된 잡음 데이터의 에너지에 기초하여 SNR을 결정할 수 있다.
920에서, 프로세싱 디바이스(122)(예를 들어, 오디오 데이터 생성 모듈(430) 또는 가중치 결정 유닛(434))는 하나 이상의 주파수 임계값들에 따라 골전도 오디오 데이터 및 공기 전도 오디오 데이터 각각의 다중 세그먼트들을 결정할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터 및 공기 전도 오디오 데이터는 시간 도메인에 있을 수 있고, 프로세싱 디바이스(122)는 골전도 오디오 데이터 및 공기 전도 오디오 데이터에 대해 도메인 변환 동작(예를 들어, FT 동작)을 수행하여 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 주파수 도메인으로 변환할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터 및 공기 전도 오디오 데이터는 주파수 도메인에 있을 수 있다. 주파수 도메인의 골전도 오디오 데이터 및 공기 전도 오디오 데이터 각각은 주파수 스펙트럼을 포함할 수 있다. 주파수 도메인의 골전도 오디오 데이터는 골전도 주파수 스펙트럼이라고도 할 수 있다. 주파수 도메인의 공기 전도 오디오 데이터는 또한 공기 전도 주파수 스펙트럼이라고 할 수 있다. 프로세싱 디바이스(122)는 골전도 주파수 스펙트럼 및 공기 전도 주파수 스펙트럼을 다중의 세그먼트들로 분할할 수 있다. 골전도 오디오 데이터의 각 세그먼트는 공기 전도 오디오 데이터의 하나의 세그먼트에 대응할 수 있다. 본 명세서에서 사용되는 바와 같이, 골전도 오디오 데이터의 세그먼트가 공기 전도 오디오 데이터의 세그먼트에 대응하는 것은 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 두 세그먼트들이 하나 또는 두 개의 동일한 주파수 임계값들에 의해 정의됨을 의미할 수 있다. 예를 들어, 골전도 오디오 데이터의 특정 세그먼트가 2000Hz와 4000Hz의 주파수 포인트들에 의해 정의된다면, 다시 말해 골전도 오디오 데이터의 특정 세그먼트가 2000Hz 내지 4000Hz 범위의 주파수 성분들을 포함한다면, 골전도 오디오 데이터의 특정 세그먼트에 대응하는 공기 전도 오디오 데이터의 세그먼트도 2000Hz와 4000Hz의 주파수 임계값들에 의해 정의될 수 있다. 즉, 2000Hz 내지 4000Hz 범위의 주파수 성분들을 포함하는 골전도 오디오 데이터의 특정 세그먼트에 대응하는 공기 전도 오디오 데이터의 세그먼트는 2000Hz 내지 4000Hz 범위의 주파수 성분들을 포함할 수 있다.
일부 실시예들에서, 하나 이상의 주파수 임계값들의 카운트 또는 수는 하나일 수 있고, 프로세싱 디바이스(122)는 골전도 주파수 스펙트럼 및 공기 전도 주파수 스펙트럼 각각을 두 개의 세그먼트들로 분할할 수 있다. 예를 들어, 골전도 주파수 스펙트럼의 하나의 세그먼트는 주파수 임계값보다 작은 주파수 성분들을 갖는 골전도 주파수 스펙트럼의 한 부분을 포함할 수 있고, 골전도 주파수 스펙트럼의 다른 세그먼트는 주파수 임계값보다 높은 주파수 성분들을 갖는 골전도 주파수 스펙트럼의 나머지 부분을 포함할 수 있다.
930에서, 프로세싱 디바이스(122)(예를 들어, 오디오 데이터 생성 모듈(430) 또는 가중치 결정 서브-모듈(434))는 골전도 오디오 데이터 및 공기 전도 오디오 데이터 각각의 다중 세그먼트들 각각에 대한 가중치를 결정할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터의 특정 세그먼트에 대한 가중치 및 공기 전도 오디오 데이터의 대응하는 특정 세그먼트에 대한 가중치는, 골전도 오디오 데이터의 특정 세그먼트에 대한 가중치와 공기 전도 오디오 데이터의 대응하는 특정 세그먼트에 대한 가중치의 합이 1과 같도록 하는 기준을 충족할 수 있다. 예를 들어, 프로세싱 디바이스(122)가 하나의 단일 주파수 임계값에 따라 골전도 오디오 데이터와 공기 전도 오디오 데이터를 두 개의 세그먼트들로 분할하는 경우. (골전도 오디오 데이터의 하위 부분이라고도 하는) 하나의 단일 주파수 임계값보다 낮은 주파수 성분들을 갖는 골전도 오디오 데이터의 한 세그먼트의 가중치는 1, 또는 0.9, 또는 0.8 등과 같을 수 있다. (공기 전도 오디오 데이터의 하위 부분이라고도 하는) 하나의 단일 주파수 임계값보다 낮은 주파수 성분들을 갖는 공기 전도 오디오 데이터의 한 세그먼트의 가중치는, 골전도 오디오 데이터의 1, 또는 0.9, 또는 0.8 등의 한 세그먼트의 가중치에 각각 대응하는 0, 또는 0.1, 또는 0.2 등과 같을 수 있다. (골전도 오디오 데이터의 상위 부분이라고도 하는) 하나의 단일 주파수 임계값보다 큰 주파수 성분들을 갖는 골전도 오디오 데이터의 다른 세그먼트의 가중치는 0, 또는 0.1, 또는 0.2 등과 같을 수 있다. (공기 전도 오디오 데이터의 상위 부분이라고도 하는) 하나의 단일 주파수 임계값보다 높은 주파수 성분들을 갖는 공기 전도 오디오 데이터의 다른 세그먼트의 가중치는, 골전도 오디오 데이터의 0, 또는 0.1, 또는 0.2 등의 한 세그먼트의 가중치에 각각 대응하는 1, 또는 0.9, 또는 0.8 등과 같을 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 공기 전도 오디오 데이터의 SNR에 기초하여 골전도 오디오 데이터 또는 공기 전도 오디오 데이터의 상이한 세그먼트들에 대한 가중치들을 결정할 수 있다. 예를 들어, 공기 전도 오디오 데이터의 SNR이 낮을수록 골전도의 특정 세그먼트의 가중치는 더 클 수 있고, 공기 전도의 대응하는 특정 세그먼트의 가중치는 더 낮을 수 있다.
940에서, 프로세싱 디바이스(122)(예를 들어, 오디오 데이터 생성 모듈(430) 또는 결합 유닛(436))는 골전도 오디오 데이터 및 공기 전도 오디오 데이터 각각의 다중 세그먼트들 각각에 대한 가중치에 기초하여 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 스티칭하여 스티칭된 오디오 데이터를 생성할 수 있다. 스티칭된 오디오 데이터는 골전도 오디오 데이터 및/또는 공기 전도 오디오 데이터보다 더 나은 충실도로 사용자의 음성을 나타낼 수 있다. 본 명세서에 사용된 바와 같이, 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 스티칭은 하나 이상의 주파수 임계값들에 따라 주파수 도메인에서 골전도 오디오 데이터의 주파수 성분들 중 하나 이상의 부분들 및 공기 전도 데이터의 주파수 성분들 중 하나 이상의 부분들을 선택하고, 골전도 오디오 데이터의 선택된 부분들 및 공기 전도 오디오 데이터의 선택된 부분들에 기초하여 오디오 데이터를 생성하는 것을 의미할 수 있다. 주파수 임계값은 또한 주파수 스티칭 포인트라고 할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터 및/또는 공기 전도 오디오 데이터의 선택된 부분은 주파수 임계값보다 낮은 주파수 성분들을 포함할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터 및/또는 공기 전도 오디오 데이터의 선택된 부분은 주파수 임계값보다 낮고 다른 주파수 임계값보다 큰 주파수 성분들을 포함할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터 및/또는 공기 전도 오디오 데이터의 선택된 부분은 주파수 임계값보다 큰 주파수 성분들을 포함할 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 다음과 같이 수식(8)에 따라 스티칭된 오디오 데이터를 결정할 수 있다:
Figure pct00017
(8)
여기서
Figure pct00018
는 골전도 오디오 데이터를 의미하고,
Figure pct00019
는 공기 전도 오디오 데이터를 의미하고,
Figure pct00020
를 포함하는
Figure pct00021
는 골전도 오디오 데이터의 다중 세그먼트들에 대한 가중치들을 의미하고,
Figure pct00022
를 포함하는
Figure pct00023
는 공기 전도 오디오 데이터의 다중 세그먼트들의 가중치들을 의미하고,
Figure pct00024
는 각각이 주파수 임계값들에 의해 정의된 주파수 범위의 주파수 성분들을 포함하는 골전도 오디오 데이터의 다중 세그먼트들을 의미하고,
Figure pct00025
는 각각이 주파수 임계값들에 의해 정의된 주파수 범위의 주파수 성분들을 포함하는 공기 전도 오디오 데이터의 다중 세그먼트들을 의미한다. 예를 들어,
Figure pct00026
Figure pct00027
는 1000Hz 미만의 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 주파수 성분들을 각각 포함할 수 있다. 다른 예로서,
Figure pct00028
Figure pct00029
는 1000Hz 초과 및 4000Hz 미만의 주파수 범위에서 골전도 오디오 데이터 및 공기 전도 오디오 데이터의 주파수 성분들을 각각 포함할 수 있다. N은 1, 2, 3 등과 같은 상수일 수 있다.
Figure pct00030
은 0 내지 1 범위의 상수일 수 있다.
Figure pct00031
은 0 내지 1 범위의 상수일 수 있다.
Figure pct00032
Figure pct00033
Figure pct00034
Figure pct00035
의 합이 1과 같도록 하는 기준을 충족할 수 있다. 일부 실시예들에서, N은 2와 같을 수 있다. 프로세싱 디바이스(122)는 하나의 단일 주파수 임계값에 따라 골전도 오디오 데이터 및 공기 전도 오디오 데이터 각각에 대한 두 개의 세그먼트들을 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 하나의 단일 주파수 임계값에 따라 골전도 오디오 데이터(또는 공기 전도 오디오 데이터)의 하위 부분 및 골전도 오디오 데이터(또는 공기 전도 오디오 데이터)의 상위 부분을 결정할 수 있다. 골전도 오디오 데이터(또는 공기 전도 오디오 데이터)의 하위 부분은 하나의 단일 주파수 임계값보다 낮은 골전도 오디오 데이터(또는 공기 전도 오디오 데이터)의 주파수 성분들을 포함할 수 있으며, 골전도 오디오 데이터(또는 공기 전도 오디오 데이터)의 상위 부분은 하나의 단일 주파수 임계값보다 높은 골전도 오디오 데이터(또는 공기 전도 오디오 데이터)의 주파수 성분들을 포함할 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 하나 이상의 필터들에 기초하여 골전도 오디오 데이터(또는 공기 전도 오디오 데이터)의 하위 부분 o 및 하위 부분을 결정할 수 있다. 하나 이상의 필터들은 저역 통과 필터, 고역 통과 필터, 대역 통과 필터 등, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 단일 주파수 임계값에 적어도 부분적으로 기초하여 골전도 오디오 데이터의 하위 부분 및 골전도 오디오 데이터의 상위 부분에 대한 제1 가중치 및 제2 가중치를 각각 결정할 수 있다. 프로세싱 디바이스(122)는 단일 주파수 임계값에 적어도 부분적으로 기초하여 공기 전도 오디오 데이터의 하위 부분 및 공기 전도 오디오 데이터의 상위 부분에 대한 제3 가중치 및 제4 가중치를 각각 결정할 수 있다. 일부 실시예들에서, 제1 가중치, 제2 가중치, 제3 가중치, 및 제4 가중치는 공기 전도 오디오 데이터의 SNR에 기초하여 결정될 수 있다. 예를 들어, 프로세싱 디바이스(122)는 공기 전도 오디오 데이터의 SNR이 임계값보다 큰 경우 제1 가중치가 제3 가중치보다 작고, 및/또는 제2 가중치가 제4 가중치보다 크다고 결정할 수 있다. 다른 예로서, 프로세싱 디바이스(122)는 복수의 SNR 범위들을 결정할 수 있고, SNR 범위들의 각각은 제1 가중치, 제2 가중치, 제3 가중치, 및 제4 가중치의 값들에 각각 대응할 수 있다. 제1 가중치와 제2 가중치는 동일하거나 상이할 수 있고, 제3 가중치와 제4 가중치는 동일하거나 상이할 수 있다. 제1 가중치와 제3 가중치의 합은 1과 같을 수 있다. 제2 가중치와 제4 가중치의 합은 1과 같을 수 있다. 제1 가중치, 제2 가중치, 제3 가중치, 및/또는 제4 가중치는 1, 0.9, 0.8, 0.7, 0.3, 0.4, 0.5, 0.6, 0.2, 0.1, 0 등과 같이 0 내지 1 범위의 상수일 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는, 제1 가중치, 제2 가중치, 제3 가중치, 및 제4 가중치를 사용하여 골전도 오디오 데이터의 하위 부분, 골전도 오디오 데이터의 상위 부분, 공기 전도 오디오 데이터의 하위 부분, 및 공기 전도 오디오 데이터의 상위 부분을 각각 가중함으로써, 스티칭된 오디오 데이터를 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 제1 가중치 및 제3 가중치를 사용하여 골전도 오디오 데이터의 하위 부분과 공기 전도 오디오 데이터의 하위 부분에 가중하고 합산함으로써 스티칭된 오디오 데이터의 하위 부분을 결정할 수 있다. 프로세싱 디바이스(122)는 제2 가중치 및 제4 가중치를 사용하여 골전도 오디오 데이터의 상위 부분과 공기 전도 오디오 데이터의 상위 부분을 가중하고 합산함으로써 스티칭된 오디오 데이터의 상위 부분을 결정할 수 있다. 프로세싱 디바이스(122)는 스티칭된 오디오 데이터의 하위 부분과 스티칭된 오디오 데이터의 상위 부분을 스티칭하여 스티칭된 오디오 데이터를 획득할 수 있다.
일부 실시예들에서, 골전도 오디오 데이터의 하위 부분에 대한 제1 가중치는 1과 같을 수 있고, 골전도 오디오 데이터의 상위 부분에 대한 제2 가중치는 0과 같을 수 있다. 공기 전도 오디오 데이터의 하위 부분에 대한 제3 가중치는 0과 같을 수 있고, 공기 전도 오디오 데이터의 상위 부분에 대한 제4 가중치는 1과 같을 수 있다. 스티칭된 오디오 데이터는 골전도 오디오 데이터의 하위 부분과 공기 전도 오디오 데이터의 상위 부분을 스티칭함으로써 생성될 수 있다. 일부 실시예들에서, 스티칭된 오디오 데이터는 상이한 하나의 단일 주파수 임계값들에 따라 상이할 수 있다. 예를 들어, 도 14a 내지 도 14c에 도시된 바와 같이, 도 14a 내지 도 14c는 본 개시의 일부 실시예들에 따라 2000Hz, 3000Hz, 및 4000Hz의 주파수 포인트 각각에서 특정 골전도 오디오 데이터와 특정 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터를 나타내는 시간-주파수 다이어그램들이다. 도 14a, 도 14b, 및 도 14c에서 스티칭된 오디오 데이터의 잡음 양은 서로 상이하다. 주파수 포인트가 클수록 스티칭된 오디오 데이터의 잡음 양이 작아진다.
상기 설명은 단지 예시의 목적들을 위해 제공되며, 본 개시의 범위를 제한하도록 의도되지 않는다는 것이 주의되어야 한다. 이 기술분야에서의 통상의 기술자들에 대해, 다수의 변형들 및 수정들이 본 개시의 교시들 하에서 이루어질 수 있다. 그러나, 이들 변형들 및 수정들은 본 개시의 범위로부터 벗어나지 않는다.
도 10은 본 개시의 일부 실시예들에 따라 오디오 데이터를 생성하기 위한 예시적인 프로세스를 도시하는 개략적인 흐름도이다. 일부 실시예들에서, 프로세스(1000)는 저장 디바이스(140), ROM(230) 또는 RAM(240), 또는 저장소(390)에 저장된 명령들의 세트(예를 들어, 애플리케이션)로서 구현될 수 있다. 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 명령들의 세트를 실행할 수 있고, 명령들을 실행할 때, 프로세싱 디바이스(122), 프로세서(220), 및/또는 CPU(340)는 프로세스(1000)를 수행하도록 구성될 수 있다. 이하에서 제공되는 예시된 프로세스의 동작들은 예시적인 것으로 의도된다. 일부 실시예들에서, 프로세스(1000)는 설명되지 않은 하나 이상의 추가적인 동작들로, 및/또는 논의된 동작들 중 하나 이상 없이 달성될 수 있다. 또한, 도 10에 예시되고 이하에서 설명되는 바와 같이 프로세스(1000)의 동작들의 순서는 제한적인 것으로 의도되지 않는다. 일부 실시예들에서, 프로세스(1000)의 하나 이상의 동작들은 도 5와 관련하여 설명된 바와 같이 동작(540)의 적어도 일부를 달성하기 위해 수행될 수 있다.
1010에서, 프로세싱 디바이스(122)(예를 들어, 오디오 데이터 생성 모듈(430) 또는 가중치 결정 유닛(434))는 골전도 오디오 데이터 또는 공기 전도 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여, 골전도 오디오 데이터에 대응하는 가중치를 결정할 수 있다. 일부 실시예들에서, 골전도 오디오 데이터 및 공기 전도 오디오 데이터는 사용자가 말할 때 골전도 센서 및 공기 전도 센서에 의해 동시에 각각 획득될 수 있다. 공기 전도 오디오 데이터 및 골전도 오디오 데이터는 사용자의 음성을 나타낼 수 있다. 골전도 오디오 데이터 및 공기 전도 오디오 데이터에 관한 더 많은 설명은 도 5 및 그 설명에서 찾을 수 있다.
일부 실시예들에서, 프로세싱 디바이스(122)는 공기 전도 오디오 데이터의 SNR에 기초하여 골전도 오디오 데이터에 대한 가중치를 결정할 수 있다. 공기 전도 오디오 데이터의 SNR을 결정하기 위한 더 많은 설명은 본 개시의 다른 곳(예를 들어, 도 9 및 그에 대한 설명)에서 찾을 수 있다. 공기 전도 오디오 데이터의 SNR이 클수록 골전도 오디오 데이터의 가중치는 낮아질 수 있다. 예를 들어, 공기 전도 오디오 데이터의 SNR이 미리 결정된 임계값보다 크면 골전도 오디오 데이터에 대한 가중치는 값 A로 설정될 수 있고, 공기 전도 오디오 데이터의 SNR이 미리 결정된 임계값보다 작으면 골전도 오디오 데이터에 대한 가중치는 값 B로 설정될 수 있으며, A < B. 다른 예로서, 프로세싱 디바이스(122)는 다음과 같이 수식(9)에 따라 골전도 오디오 데이터에 대한 가중치를 결정할 수 있다:
Figure pct00036
(9)
여기서,
Figure pct00037
. A1 및/또는 A2는 오디오 신호 생성 시스템(100)의 디폴트 설정들일 수 있다. 추가 예로서, 프로세싱 디바이스(122)는 복수의 SNR 범위들을 결정할 수 있고, 이들 각각은 수식(10)과 같이 골전도 오디오 데이터에 대한 가중치의 값에 대응한다:
Figure pct00038
(10)
여기서,
Figure pct00039
는 골전도 오디오 데이터에 대응하는 가중치를 나타낸다.
1020에서, 프로세싱 디바이스(122)(예를 들어, 오디오 데이터 생성 모듈(430) 또는 가중치 결정 유닛(434))는 골전도 오디오 데이터 또는 공기 전도 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여, 공기 전도 오디오 데이터에 대응하는 가중치를 결정할 수 있다. 공기 전도 오디오 데이터에 대한 가중치를 결정하는 데 사용되는 기법들은 동작 1010에서 설명된 골전도 오디오 데이터에 대한 가중치를 결정하는 데 사용되는 기법들과 유사하거나 동일할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 공기 전도 오디오 데이터의 SNR에 기초하여 공기 오디오 데이터에 대한 가중치를 결정할 수 있다. 공기 전도 오디오 데이터의 SNR을 결정하기 위한 더 많은 설명은 본 개시의 다른 곳(예를 들어, 도 9 및 그에 대한 설명)에서 찾을 수 있다. 공기 전도 오디오 데이터의 SNR이 클수록 공기 오디오 데이터의 가중치는 높아질 수 있다. 다른 예로서, 공기 전도 오디오 데이터의 SNR이 미리 결정된 임계값보다 크면 공기 전도 오디오 데이터에 대한 가중치는 값 X으로 설정될 수 있고, 공기 전도 오디오 데이터의 SNR이 미리 결정된 임계값보다 작으면 공기 전도 오디오 데이터에 대한 가중치는 값 Y로 설정될 수 있고, X > Y. 골전도 오디오 데이터에 대한 가중치 및 공기 전도 오디오 데이터에 대한 가중치는, 골전도 오디오 데이터에 대한 가중치와 공기 전도 오디오 데이터에 대한 가중치의 합이 1과 같도록 하는 기준을 충족할 수 있다. 프로세싱 디바이스(122)는 골전도 오디오 데이터에 대한 가중치에 기초하여 공기 오디오 데이터에 대한 가중치를 결정할 수 있다. 예를 들어, 프로세싱 디바이스(122)는 골전도 오디오 데이터에 대한 가중치와 값 1 사이의 차이에 기초하여 공기 오디오 데이터에 대한 가중치를 결정할 수 있다.
1030에서, 프로세싱 디바이스(122)(예를 들어, 오디오 데이터 생성 모듈(430) 또는 결합 유닛(436))는 골전도 오디오 데이터에 대한 가중치 및 공기 전도 오디오 데이터에 대한 가중치를 사용하여 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 각각 가중함으로써 타겟 오디오 데이터를 결정할 수 있고. 타겟 오디오 데이터는 골전도 오디오 데이터 및 공기 전도 오디오 데이터가 나타내는 것과 동일하게 사용자의 음성을 나타낼 수 있다. 일부 실시예들에서, 프로세싱 디바이스(122)는 다음과 같이 수식(11)에 따라 타겟 오디오 데이터를 결정할 수 있다:
Figure pct00040
(11)
여기서,
Figure pct00041
는 공기 전도 오디오 데이터를 의미하고,
Figure pct00042
는 골전도 오디오 데이터를 의미하고,
Figure pct00043
는 공기 전도 오디오 데이터에 대한 가중치를 의미하고,
Figure pct00044
는 골전도 오디오 데이터에 대한 가중치를 의미하고,
Figure pct00045
는 타겟 오디오 데이터를 의미한다.
Figure pct00046
Figure pct00047
Figure pct00048
Figure pct00049
의 합이 1과 같도록 하는 기준을 충족할 수 있다. 예를 들어, 타겟 오디오 데이터는 다음과 같이 수식(12)에 따라 결정될 수 있다:
Figure pct00050
(12)
일부 실시예들에서, 프로세싱 디바이스(122)는 네트워크(150)를 통해 클라이언트 단말(예를 들어, 단말(130)), 저장 디바이스(140), 및/또는 임의의 다른 저장 디바이스(오디오 신호 생성 시스템(100)에 도시되지 않음)에 타겟 오디오 데이터를 전송할 수 있다.
예들은 예시 목적으로 제공되며, 본 개시의 범위를 제한하려는 의도가 아니다.
예 1 골전도 오디오 데이터, 대응하는 재구성된 골전도 오디오 데이터, 및 대응하는 공기 전도 오디오 데이터의 예시적인 주파수 응답 곡선들
도 11에 도시된 바와 같이, 곡선 "m"은 골전도 오디오 데이터의 주파수 응답 곡선을 나타내고, 곡선 "n"은 골전도 오디오 데이터에 대응하는 공기 전도 오디오 데이터의 주파수 응답 곡선을 나타낸다. 골전도 오디오 데이터 및 공기 전도 오디오 데이터는 사용자의 동일한 음성을 나타낸다. 곡선 "m1"은 프로세스(600)에 따라 트레이닝된 기계 학습 모델을 사용하여 골전도 오디오 데이터를 재구성함으로써 생성되는 재구성된 골전도 오디오 데이터의 주파수 응답 곡선을 나타낸다. 도 11에 도시된 바와 같이, 주파수 응답 곡선 "m1"은 주파수 응답 곡선 "m"보다는 주파수 응답 곡선 "n"에 더 유사하거나 더 가깝다. 즉, 재구성된 골전도 오디오 데이터는 골전도 오디오 데이터보다 공기 전도 오디오 데이터에 더 유사하거나 더 가깝다. 또한, 주파수 포인트(예를 들어, 2000Hz)보다 낮은 재구성된 골전도 오디오 데이터의 주파수 응답 곡선 "m1"의 부분은 공기 전도 오디오 데이터의 것과 유사하거나 가깝다.
예 2 사용자 신체의 상이한 부위들에 위치한 골전도 센서들에 의해 수집된 골전도 오디오 데이터의 예시적인 주파수 응답 곡선들
도 12a에 도시된 바와 같이, 곡선 "p"는 사용자 신체의 목에 위치한 제1 골전도 센서에 의해 수집된 골전도 오디오 데이터의 주파수 응답 곡선을 나타낸다. 곡선 "b"는 사용자 신체의 이주에 위치한 제2 골전도 센서에 의해 수집된 골전도 오디오 데이터의 주파수 응답 곡선을 나타낸다. 곡선 "o"는 사용자 신체의 이도(예를 들어, 외이도)에 위치하는 제3 골전도 센서에 의해 수집된 골전도 오디오 데이터의 주파수 응답 곡선을 나타낸다. 일부 실시예들에서, 제2 골전도 센서 및 제3 골전도 센서는 구성에서 제1 골전도 센서와 동일할 수 있다. 제1 골전도 센서에 의해 수집된 골전도 오디오 데이터, 제2 골전도 센서에 의해 수집된 골전도 오디오 데이터, 및 제3 골전도 센서에 의해 수집된 골전도 오디오 데이터는 제1 골전도 센서, 제2 골전도 센서, 및 제3 골전도 센서에 의해 동시에 각각 수집되는 사용자의 동일한 음성을 나타낸다. 일부 실시예들에서, 제1 골전도 센서, 제2 골전도 센서, 및 제3 골전도 센서는 구성이 서로 상이할 수 있다.
도 12a에 도시된 바와 같이, 주파수 응답 곡선 "p", 주파수 응답 곡선 "b", 및 주파수 응답 곡선 "o"는 서로 상이하다. 즉, 제1 골전도 센서에 의해 수집된 골전도 오디오 데이터, 제2 골전도 센서에 의해 수집된 골전도 오디오 데이터, 및 제3 골전도 센서에 의해 수집된 골전도 오디오 데이터는 제1 골전도 센서, 제2 골전도 센서, 및 제3 골전도 센서가 위치하는 사용자의 신체 부위들에 따라 상이하다. 예를 들어, 사용자 신체의 목에 위치한 제1 골전도 센서에 의해 수집된 골전도 오디오 데이터에서 1000Hz 미만의 주파수 성분의 응답값은 사용자 신체의 이주에 위치한 제2 골전도 센서에 의해 수집된 골전도 오디오 데이터에서 1000Hz 미만의 주파수 성분의 응답값보다 크다. 주파수 응답 곡선은 골전도 센서가 소리의 에너지를 전기 신호들로 변환하는 능력을 반영할 수 있다. 주파수 응답 곡선들 "p", "b" 및 "o"에 따라, 0 내지 5000Hz의 주파수 범위에 대응하는 응답 값들은, 골전도 센서들이 사용자 신체의 상이한 부위들에 위치하는 약 5000HZ보다 큰 주파수 범위에 해당하는 응답 값들보다 크다. 0 내지 약 2000Hz의 주파수 범위에 대응하는 응답 값들은, 골전도 센서들이 사용자 신체의 상이한 부위들에 위치하는 약 2000Hz를 초과하는 주파수에 대응하는 응답 값들보다 안정적으로 변화한다. 즉, 골전도 센서는 0 내지 약 2000Hz, 또는 0 내지 약 5000Hz와 같은 오디오 신호의 저주파 성분을 수집할 수 있다.
따라서, 도 12a에 따라, 오디오 신호들을 수집 및/또는 플레이하기 위한 골전도 디바이스는 골전도 디바이스의 기계적 디자인에 기초하여 결정된 사용자의 신체 부위에 위치할 수 있는 골전도 오디오 신호들을 수집하기 위한 골전도 센서를 포함할 수 있다. 사용자의 신체 부위는 주파수 응답 곡선, 신호 강도, 사용자의 편안한 수준 등의 하나 이상의 특성들에 기초하여 결정될 수 있다. 예를 들어, 골전도 디바이스는, 골전도 센서에 의해 수집된 오디오 신호들의 신호 강도가 상대적으로 높게 되도록 사용자가 골전도 디바이스를 착용할 때 골전도 센서가 사용자의 이주에 위치되거나 및/또는 그에 접촉할 수 있도록 오디오 신호들을 수집하기 위한 골전도 센서를 포함할 수 있다.
예 3 상이한 압력들에 의해 사용자 신체의 동일한 부위에 위치한 골전도 센서들에 의해 수집된 골전도 오디오 데이터의 예시적인 주파수 응답 곡선들
도 12b에 도시된 바와 같이, 곡선 "L1"은 0N의 압력 F1으로 사용자 신체의 이주에 위치한 골전도 센서에 의해 수집된 골전도 오디오 데이터의 주파수 응답 곡선을 나타낸다. 본 명세서에서 사용되는 바와 같이, 사용자의 신체 부위에 대한 압력은 사용자의 신체 부위에 대해 골전도 센서에 의해 가해지는 클램핑력(clamping force)이라고도 할 수 있다. 곡선 "L2"는 0.2N의 압력 F2로 사용자 신체의 이주에 위치한 골전도 센서에 의해 수집된 골전도 오디오 데이터의 주파수 응답 곡선을 나타낸다. 곡선 "L3"은 압력 0.4N의 압력 F3으로 사용자 신체의 이주에 위치한 골전도 센서에 의해 수집된 골전도 오디오 데이터의 주파수 응답 곡선을 나타낸다. 곡선 "L4"은 0.8N의 압력 F4로 사용자 신체의 이주에 위치한 골전도 센서에 의해 수집된 골전도 오디오 데이터의 주파수 응답 곡선을 나타낸다. 도 12b에 도시된 바와 같이, 주파수 응답 곡선들 "L1"-"L4"는 서로 상이하다. 즉, 사용자의 신체 부위에 상이한 압력들을 가함으로써 골전도 센서에 의해 수집된 골전도 오디오 데이터는 서로 상이하다.
사용자의 신체 부위에 대해 골전도 센서에 의해 가해지는 상이한 압력들에 따라, 골전도 센서에 의해 수집되는 골전도 오디오 데이터는 상이할 수 있다. 골전도 센서에 의해 수집된 골전도 오디오 데이터의 신호 강도는 상이한 압력들에 따라 상이할 수 있다. 골전도 오디오 데이터의 신호 강도는 처음에는 점진적으로 증가하다가 압력이 0N에서 0.8N으로 증가하면 신호 강도의 증가가 포화 상태까지 느려질 수 있다. 그러나, 사용자의 신체 부위에 대해 골전도 센서에 의해 가해지는 압력이 클수록 사용자는 더 불편해질 수 있다. 따라서, 도 12a 및 도 12b에 따라, 오디오 신호들을 수집 및/또는 플레이하기 위한 골전도 디바이스는, 골전도 디바이스의 기계적 디자인에 따라, 사용자 신체의 특정 부위에 대해 어떤 범위의 클램핑력 등으로 사용자 신체의 특정 부위에 위치할 수 있는 골전도 오디오 신호들을 수집하기 위한 골전도 센서를 포함할 수 있다. 사용자의 신체 부위 및/또는 사용자의 신체 부위에 대한 클램핑력은 주파수 응답 곡선, 신호 강도, 사용자의 편안한 수준 등의 하나 이상의 특성들에 기초하여 결정될 수 있다. 예를 들어, 골전도 디바이스는, 사용자가 골전도 디바이스를 착용할 때 골전도 센서에 의해 수집된 골전도 오디오 데이터의 신호 강도가 상대적으로 높고 동시에 사용자가 적절한 클램핑력으로 편안함을 느끼도록 보장하는 0.2N, 또는 0.4N, 또는 0.6N, 또는 0.8N 등과 같은 0 내지 0.8N 범위의 클램핑력으로 골전도 센서가 사용자의 이주에 위치 및/또는 접촉할 수 있도록 오디오 신호들을 수집하기 위한 골전도 센서를 포함할 수 있다.
예 4 스티칭된 오디오 데이터의 예시적인 시간-주파수 다이어그램
도 13a는 본 개시의 일부 실시예들에 따라 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터의 시간-주파수 다이어그램이다. 골전도 오디오 데이터 및 공기 전도 오디오 데이터는 사용자의 동일한 음성을 나타낸다. 공기 전도 오디오 데이터에는 잡음들을 포함한다. 도 13b는 본 개시의 일부 실시예들에 따라 골전도 오디오 데이터 및 전처리된 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터의 시간-주파수 다이어그램이다. 전처리된 공기 전도 음성 데이터는 위너 필터(Wiener filter)를 사용하여 공기 전도 음성 데이터를 잡음제거함으로써 생성되었다. 도 13c는 본 개시의 일부 실시예들에 따라 골전도 오디오 데이터 및 다른 전처리된 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터의 시간-주파수 다이어그램이다. 다른 전처리된 오디오 데이터는 스펙트럼 감산 기법을 사용하여 공기 전도 오디오 데이터를 잡음제거함으로써 생성되었다. 도 13a 내지 도 13c에서 스티칭된 오디오 데이터의 시간-주파수 다이어그램들은 프로세스(900)에 따라 2000Hz의 동일한 주파수 임계값에 따라 생성되었다. 도 13a 내지 도 13c에 도시된 바와 같이, 2000Hz보다 높은 도 13b(예를 들어, 부위 M) 및 도 13c(예를 들어, 부위 N)의 스티칭된 오디오 데이터의 주파수 성분들은 2000Hz보다 높은 도 13a(예를 들어, 부위 O)의 스티칭된 오디오 데이터의 주파수 성분들보다 더 적은 잡음들을 가지며, 잡음제거된 공기 전도 오디오 데이터에 기초하여 생성된 스티칭된 오디오 데이터는 잡음제거되지 않은 공기 전도 오디오 데이터에 기초하여 생성된 스티칭된 오디오 데이터보다 더 나은 충실도를 갖는다는 것을 나타낸다. 2000Hz보다 높은 도 13b의 스티칭된 오디오 데이터의 주파수 성분들은 공기 전도 오디오 데이터에 대해 수행된 상이한 잡음제거 기법들로 인해 2000Hz보다 높은 도 13c의 스티칭된 오디오 데이터의 주파수 성분들과 상이하다. 도 13b 및 도 13c에 도시된 바와 같이, 2000Hz보다 높은 도 13b(예를 들어, 부위 M)의 스티칭된 오디오 데이터의 주파수 성분들은 2000Hz보다 높은 도 13c(예를 들어, 부위 N)의 스티칭된 오디오 데이터의 주파수 성분들보다 더 적은 잡음들을 갖는다.
예 5 상이한 주파수 임계값들에 따라 생성된 스티칭된 오디오 데이터의 예시적인 시간-주파수 다이어그램들
도 14a는 골전도 오디오 데이터의 시간-주파수 다이어그램이다. 도 14b는 골전도 오디오 데이터에 대응하는 공기 전도 오디오 데이터의 시간-주파수 다이어그램이다. 골전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같은 제1 오디오 데이터) 및 공기 전도 오디오 데이터(예를 들어, 도 5에 설명된 바와 같은 제2 오디오 데이터)는 사용자가 말할 때 골전도 센서 및 공기 전도 센서에 의해 동시에 각각 수집되었다. 도 14c 내지 도 14e는 본 개시의 일부 실시예들에 따라 2000Hz, 3000Hz, 및 4000Hz의 주파수 임계값(또는 주파수 포인트) 각각에서 골전도 오디오 데이터와 공기 전도 오디오 데이터를 스티칭함으로써 생성된 스티칭된 오디오 데이터의 시간-주파수 다이어그램들이다. 도 14c 내지 도 14e에 도시된 스티칭된 오디오 데이터의 시간-주파수 다이어그램들을 도 14b에 도시된 공기 전도 오디오 데이터의 시간-주파수 다이어그램과 비교하면, 도 14c, 14d, 및 14e의 스티칭된 오디오 데이터의 잡음 양은 공기 전도 오디오 데이터보다 적다. 주파수 임계값이 클수록 스티칭된 오디오 데이터의 잡음 양이 작아진다. 도 14c 내지 도 14e에 도시된 스티칭된 오디오 데이터의 시간-주파수 다이어그램들을 도 14a에 도시된 골전도 오디오 데이터의 시간-주파수 다이어그램과 비교하면, 도 14c 내지 14e에서 각각 주파수 임계값 2000Hz, 3000Hz, 및 4000Hz 미만의 주파수 성분들은 도 14a에서 주파수 임계값 2000Hz, 3000Hz, 및 4000Hz 미만의 주파수 성분들에 대해 증가한다.
상기 설명은 단지 예시의 목적들을 위해 제공되며, 본 개시의 범위를 제한하도록 의도되지 않는다는 것이 주의되어야 한다. 이 기술분야에서의 통상의 기술자들에 대해, 다수의 변형들 및 수정들이 본 개시의 교시들 하에서 이루어질 수 있다. 그러나, 이들 변형들 및 수정들은 본 개시의 범위로부터 벗어나지 않는다.
기본 개념들을 그에 따라 설명하였지만, 이러한 상세한 개시를 읽은 후, 앞서 말한 상세한 개시는 단지 예로서 제공되도록 의도되며 제한적이지 않다는 것이 이 기술분야의 숙련자들에게 충분히 명백할 수 있다. 여기에서 명확하게 서술되지 않을지라도, 다양한 변화들, 개선들, 및 수정들이 발생할 수 있으며 이 기술분야의 숙련자들에게 의도된다. 이들 변경들, 개선들, 및 수정들은 본 개시에 의해 제안되도록 의도되며, 본 개시의 전형적인 실시예들의 사상 및 범위 내에 있다.
게다가, 특정한 용어는 본 개시의 실시예들을 설명하기 위해 사용되었다. 예를 들어, 용어들("일 실시예", "실시예", 및/또는 "일부 실시예들")은 실시예와 관련되어 설명된 특정한 특징, 구조 또는 특성이 본 개시의 적어도 하나의 실시예에 포함된다는 것을 의미한다. 그러므로, 본 명세서의 다양한 부분들에서 "실시예" 또는 "일 실시예" 또는 "대안적인 실시예"에 대한 두 개 이상의 참조들은 반드시 모두가 동일한 실예에를 참조하는 것은 아니라는 것이 강조되고 이해되어야 한다. 더욱이, 특정한 특징들, 구조들 또는 특성들은 본 개시의 하나 이상의 실시예들에서 적절하게 조합될 수 있다.
뿐만 아니라, 본 개시의 양상들은 임의의 새롭고 유용한 프로세스, 가계, 제조, 또는 물질의 구성, 또는 그것의 임의의 새롭고 유용한 개선을 포함한 다수의 특허 가능한 클래스들 또는 문맥 중 임의의 것에서 예시되고 설명될 수 있다는 것이 이 기술분야의 숙련자에 의해 이해될 것이다. 따라서, 본 개시의 양상들은 전적으로 하드웨어, 전적으로 소프트웨어(펌웨어, 상주 소프트웨어, 마이크로-코드 등을 포함) 또는 모두 일반적으로 여기에서 "유닛", "모듈", 또는 "시스템"으로서 불리울 수 있는 소프트웨어 및 하드웨어 구현을 조합하여 구현될 수 있다. 더욱이, 본 개시의 양상들은 그것 상에 컴퓨터 판독 가능한 프로그램 코드를 구현한 하나 이상의 컴퓨터 판독 가능한 매체에 구현된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
비일시적 컴퓨터 판독가능한 신호 매체는 그 안에, 예를 들어, 기저대역에 또는 반송파의 일부로서 구현된 컴퓨터 판독가능한 프로그램 코드를 갖는 전파된 데이터 신호를 포함할 수 있다. 이러한 전파된 신호는 전자기, 광학 등, 또는 그것의 임의의 적절한 조합을 포함한, 다양한 형태들 중 임의의 것을 취할 수 있다. 컴퓨터 판독 가능한 신호 매체는 컴퓨터 판독 가능한 저장 매체가 아니며 명령 실행 시스템, 장치, 또는 디바이스에 의해 또는 그것과 관련되어 사용을 위한 프로그램을 전달하고, 전파하거나, 또는 수송할 수 있는 임의의 컴퓨터 판독 가능한 매체일 수 있다. 컴퓨터 판독 가능한 신호 매체상에 구체화된 프로그램 코드는 무선, 와이어라인, 광섬유 케이블, RF 등, 또는 앞서 말한 것의 임의의 적절한 조합을 포함하여, 임의의 적절한 매체를 사용하여 송신될 수 있다.
본 개시의 양상들을 위한 동작들을 실행하기 위한 컴퓨터 프로그램 코드는 Java, Scala, Smalltalk, Eiffel, JADE, Emerald, C++, C#, VB.NET, Python 등과 같은 객체 지향 프로그래밍 언어, "C" 프로그래밍 언어, 비주얼 베이직, 포트란, Perl, COBOL, PHP, ABAP와 같은 기존의 절차형 프로그래밍 언어들, Phythod, Ruby 및 Groovy와 같은 동적 프로그래밍 언어들, 또는 다른 프로그래밍 언어들을 포함하여, 하나 이상의 프로그래밍 언어들의 임의의 조합으로 기록될 수 있다. 프로그램 코드는 전적으로 사용자 컴퓨터상에서, 부분적으로 사용자 컴퓨터상에서, 독립형 소프트웨어 패키지로서, 부분적으로 사용자의 컴퓨터상에서 및 부분적으로 원격 컴퓨터상에서 또는 전적으로 원격 컴퓨터 또는 서버상에서 실행할 수 있다. 후자의 시나리오에서, 원격 컴퓨터는 근거리 네트워크(LAN) 또는 광역 네트워크(WAN)를 포함하여, 임의의 유형의 네트워크를 통해 사용자의 컴퓨터에 연결될 수 있거나, 또는 연결은 외부 컴퓨터에 대해(예를 들어, 인터넷 서비스 제공자를 사용하여 인터넷을 통해) 또는 클라우드 컴퓨팅 환경에서 이루어지거나 또는 서비스로서 소프트웨어(SaaS)와 같은 서비스로서 제공될 수 있다.
더욱이, 프로세싱 요소들 또는 시퀀스들의 나열된 순서, 또는 숫자들, 글자들, 또는 다른 지정들의 사용은, 그러므로 청구항들에서 특정될 수 있는 경우를 제외하고 청구된 프로세스들 및 방법들을 임의의 순서에 제한하도록 의도되지 않는다. 상기 개시는 다양한 예들을 통해 현재 본 개시의 다양한 유용한 실시예들인 것으로 고려되는 것을 논의하지만, 이러한 세부사항은 단지 상기 목적을 위한 것이고 첨부된 청구항들은 개시된 실시예들에 제한되지 않으며, 그와는 대조적으로 개시된 실시예들의 사상 및 범위 내에 있는 수정들 및 동등한 배열들을 커버하도록 의도된다는 것이 이해될 것이다. 예를 들어, 상기 설명된 다양한 구성요소들의 실행은 하드웨어 디바이스에서 구현될 수 있지만, 그것은 또한 소프트웨어 전용 솔루션, 예컨대, 기존의 서버 또는 이동 디바이스 상의 장치로서 구현될 수 있다.
유사하게, 본 개시의 실시예들의 앞서 말한 설명에서, 다양한 특징들은 때때로 다양한 발명의 실시예들 중 하나 이상의 이해를 도울 때 본 개시를 간소화하기 위해 단일 실시예, 도면, 또는 그것의 설명에서 함께 그룹화된다는 것이 이해되어야 한다. 본 개시의 이러한 방법은, 그러나, 청구된 주제가 각각의 청구항에서 명확하게 나열된 것보다 많은 특징들을 요구하는 의도를 반영한 것으로 해석되지 않을 것이다. 오히려, 본 발명의 실시예들은 단일의 전술한 개시된 실시예의 모든 특징들보다 적다.
일부 실시예들에서, "약", "대략", "또는"실질적으로"의 용어를 사용하여 본원의 특정 실시예들을 설명하고 청구하기 위해 사용되는 수량, 특성 등을 나타내는 수는 일부 경우들에 있어 수정될 수 있음을 이해해야 한다. 예를 들어, "약", "대략", 또는 "실질적으로"는 달리 서술되지 않는다면, 그것이 설명하는 값의 ±20% 변화를 나타낼 수 있다. 따라서, 일부 실시예들에서, 기록된 설명 및 첨부된 청구항들에서 제시된 수치 파라미터들은 특정한 실시예에 의해 획득되고자 하는 원하는 속성들에 의존하여 달라질 수 있는 근사치들이다. 일부 실시예들에서, 수치 파라미터들은 보고된 유효 숫자들의 수를 고려하여 및 통상의 반올림 기술들을 적용함으로써 해석되어야 한다. 본 출원의 몇몇 실시예들의 넓은 범위를 제시한 수치 범위들 및 파라미터들은 근사치들임에도 불구하고, 특정 예들에서 제시된 수치 값들은 실시 가능한 만큼 정밀하게 보고된다.
여기에서 참조된, 특허들, 특허 출원들, 특허 출원들의 공보들, 및 기사들, 서적들, 명세서들, 공보들, 서류들, 사물들, 등과 같은 다른 자료의 각각은 이와 연관된 임의의 수행 파일 이력, 본 문서와 일치하지 않거나 또는 충돌하는 것 중 임의의 것, 또는 지금 또는 나중에 본 문서와 연관된 청구항들의 가장 넓은 범위에 대해 제한적인 영향을 가질 수 있는 것의 임의의 것을 제외하고, 모든 목적들을 위해 전체적으로 참조로서 여기에 통합된다. 예로서, 통합된 자료 중 임의의 것과 연관된 용어 및 본 문서와 연관된 것의 설명, 정의, 및/또는 사용 간에 임의의 불일치성 또는 충돌이 있다면, 본 문서에서의 용어의 설명, 정의, 및/또는 사용이 우세할 것이다.
마지막으로, 여기에서 개시된 본 출원의 실시예들은 본 출원의 실시예들의 원리들을 예시한다는 것이 이해될 것이다. 채택될 수 있는 다른 수정들은 본 출원의 범위 내에 있을 수 있다. 따라서, 제한이 아닌 예로서, 본 출원의 실시예들의 대안적인 구성들은 본 명세서의 교시들에 따라 활용될 수 있다. 따라서, 본 출원의 실시예들은 도시되고 설명된 것과 정확한 것으로 제한되지 않는다.

Claims (25)

  1. 오디오 신호 생성을 위한 시스템에 있어서:
    명령들의 세트를 포함하는 적어도 하나의 저장 매체; 및
    적어도 하나의 저장 매체와 통신하는 적어도 하나의 프로세서를 포함하며,
    상기 적어도 하나의 프로세서는, 명령들의 세트를 실행할 때 상기 시스템으로 하여금:
    골전도 센서에 의해 수집된 제1 오디오 데이터를 획득하는 동작;
    공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득하는 동작으로서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터는 상이한 주파수 성분들로 사용자의 음성(speech)을 나타내는, 상기 제2 오디오 데이터를 획득하는 동작; 및
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하는 동작을 포함하는 동작들을 수행하게 하도록 지시되며,
    제1 주파수 포인트보다 높은 제3 오디오 데이터의 주파수 성분들은 제1 주파수 포인트보다 높은 제1 오디오 데이터의 주파수 성분들에 대해 증가하는, 오디오 신호 생성을 위한 시스템.
  2. 제1항에 있어서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    전처리된 제1 오디오 데이터를 획득하기 위해 상기 제1 오디오 데이터에 대한 제1 전처리 동작을 수행하는 동작; 및
    상기 전처리된 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 상기 제3 오디오 데이터를 생성하는 동작을 포함하는 동작들을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  3. 제2항에 있어서, 상기 제1 전처리 동작은 정규화 동작을 포함하는, 오디오 신호 생성을 위한 시스템.
  4. 제2항 또는 제3항에 있어서, 상기 전처리된 제1 오디오 데이터를 획득하도록 상기 제1 오디오 데이터에 대한 제1 전처리 동작을 수행하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    트레이닝된 기계 학습 모델을 획득하는 동작; 및
    상기 제1 오디오 데이터에 기초하여, 상기 트레이닝된 기계 학습 모델을 사용하여 전처리된 제1 오디오 데이터를 결정하는 동작을 포함하는 동작들을 수행하게 하도록 지시되며,
    제2 주파수 포인트보다 높은 상기 전처리된 제1 오디오 데이터의 주파수 성분들은 제2 주파수 포인트보다 높은 상기 제1 오디오 데이터의 주파수 성분들에 대해 증가하는, 오디오 신호 생성을 위한 시스템.
  5. 제4항에 있어서, 상기 트레이닝된 기계 학습 모델은:
    복수의 트레이닝 데이터 그룹들을 획득하는 것 - 상기 복수의 트레이닝 데이터 그룹들의 각 그룹은 음성 샘플을 나타내는 골전도 오디오 데이터 및 공기 전도 오디오 데이터를 포함함 -; 및
    상기 복수의 트레이닝 데이터 그룹들을 사용하여 예비 기계 학습 모델을 트레이닝하는 것을 포함하는 프로세스에 의해 제공되며,
    상기 복수의 트레이닝 데이터 그룹들의 각 그룹의 골전도 오디오 데이터는 예비 기계 학습 모델의 입력이 되고, 상기 골전도 오디오 데이터에 대응하는 공기 전도 오디오 데이터는 예비 기계 학습 모델의 트레이닝 프로세스 동안 예비 기계 학습 모델의 원하는 출력이 되는, 오디오 신호 생성을 위한 시스템.
  6. 제4항 또는 제5항에 있어서, 상기 복수의 트레이닝 데이터 그룹들의 각 그룹에서 골전도 오디오 데이터를 수집하기 위해 특정 골전도 센서가 위치하는 신체의 부위는 상기 제1 오디오 데이터를 수집하기 위해 골전도 센서가 위치하는 사용자의 신체 부위와 동일한, 오디오 신호 생성을 위한 시스템.
  7. 제4항 내지 제6항 중 어느 한 항에 있어서, 예비 기계 학습 모델은 순환 신경망 모델 또는 장단기 메모리 네트워크에 기초하여 구성되는, 오디오 신호 생성을 위한 시스템.
  8. 제2항 또는 제3항에 있어서, 상기 전처리된 제1 오디오 데이터를 획득하도록 제1 오디오 데이터에 대한 제1 전처리 동작을 수행하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    특정 공기 전도 오디오 데이터와 상기 특정 공기 전도 오디오 데이터에 대응하는 특정 골전도 오디오 데이터 사이의 관계를 제공하도록 구성된 필터를 획득하는 동작; 및
    상기 제1 오디오 데이터를 처리하기 위해 상기 필터를 사용하여 상기 전처리된 제1 오디오 데이터를 결정하는 동작을 포함하는 동작들을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    전처리된 제2 오디오 데이터를 획득하기 위해 상기 제2 오디오 데이터에 대한 제2 전처리 동작을 수행하는 동작; 및
    상기 제1 오디오 데이터 및 상기 전처리된 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하는 동작을 포함하는 동작들을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  10. 제9항에 있어서, 상기 제2 전처리 동작은 잡음제거 동작(denoising operation)을 포함하는, 오디오 신호 생성을 위한 시스템.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    상기 제1 오디오 데이터 또는 상기 제2 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여 하나 이상의 주파수 임계값들을 결정하는 동작; 및
    상기 하나 이상의 주파수 임계값들, 상기 제1 오디오 데이터, 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하는 동작을 포함하는 동작들을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  12. 제11항에 있어서, 상기 제1 오디오 데이터 또는 상기 제2 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여 하나 이상의 주파수 임계값들을 결정하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    상기 제2 오디오 데이터와 연관된 잡음 레벨을 결정하는 동작; 및
    상기 제2 오디오 데이터와 연관된 잡음 레벨에 기초하여 하나 이상의 주파수 임계값들 중 적어도 하나를 결정하는 동작을 포함하는 동작들을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  13. 제12항에 있어서, 상기 제2 오디오 데이터와 연관된 잡음 레벨은 상기 제2 오디오 데이터의 신호 대 잡음비(SNR)로 표시되고, 상기 제2 오디오 데이터의 SNR은:
    상기 골전도 센서 및 상기 공기 전도 센서를 사용하여 상기 제2 오디오 데이터에 포함된 잡음 에너지를 결정하는 동작;
    상기 제2 오디오 데이터에 포함된 잡음 에너지에 기초하여, 상기 제2 오디오 데이터에 포함된 순수한 오디오 데이터(pure audio data)의 에너지를 결정하는 동작; 및
    상기 제2 오디오 데이터에 포함된 잡음 에너지 및 상기 제2 오디오 데이터에 포함된 순수한 오디오 데이터의 에너지에 기초하여 SNR을 결정하는 동작을 포함하는 동작들에 의해 결정되는, 오디오 신호 생성을 위한 시스템.
  14. 제12항 또는 제13항에 있어서, 상기 제2 오디오 데이터와 연관된 잡음 레벨이 클수록 상기 하나 이상의 주파수 임계값들 중 적어도 하나가 커지는, 오디오 신호 생성을 위한 시스템.
  15. 제11항에 있어서, 상기 제1 오디오 데이터 또는 상기 제2 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여 하나 이상의 주파수 임계값들을 결정하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    상기 제1 오디오 데이터와 연관된 주파수 응답 곡선에 기초하여 상기 하나 이상의 주파수 임계값들 중 적어도 하나를 결정하는 것을 포함하는 동작을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  16. 제11항에 있어서, 상기 주파수 포인트, 상기 제1 오디오 데이터, 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    상기 제3 오디오 데이터를 생성하기 위해 하나 이상의 주파수 임계값들에 따라 주파수 도메인에서 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 스티칭(stitch)하는 것을 포함하는 동작을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  17. 제16항에 있어서, 상기 제3 오디오 데이터를 생성하기 위해 하나 이상의 주파수 임계값들에 따라 주파수 도메인에서 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 스티칭하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    하나 이상의 주파수 임계값들 중 하나보다 낮은 주파수 성분들을 포함하는 제1 오디오 데이터의 하위 부분을 결정하는 동작;
    하나 이상의 주파수 임계값들 중 하나보다 높은 주파수 성분들을 포함하는 제2 오디오 데이터의 상위 부분을 결정하는 동작; 및
    상기 제3 오디오 데이터를 생성하기 위해 상기 제1 오디오 데이터의 하위 부분과 상기 제2 오디오 데이터의 상위 부분을 스티칭하는 동작을 포함하는 동작들을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  18. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    다중 주파수 범위들을 결정하는 동작;
    다중 주파수 범위들의 각각 내에 위치한 제1 오디오 데이터의 부분 및 제2 오디오 데이터의 부분에 대한 제1 가중치 및 제2 가중치를 각각 결정하는 동작; 및
    상기 제1 가중치 및 상기 제2 가중치를 사용하여 다중 주파수 범위들의 각각 내에 위치한 상기 제1 오디오 데이터의 부분 및 상기 제2 오디오 데이터의 부분을 각각 가중함으로써 제3 오디오 데이터를 결정하는 동작을 포함하는 동작들을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  19. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    주파수 포인트에 적어도 부분적으로 기초하여, 제1 오디오 데이터의 제1 부분 및 제1 오디오 데이터의 제2 부분에 대한 제1 가중치 및 제2 가중치를 각각 결정하는 동작으로서, 상기 제1 오디오 데이터의 제1 부분은 주파수 포인트보다 낮은 주파수 성분들을 포함하고 상기 제1 오디오 데이터의 제2 부분은 주파수 포인트보다 높은 주파수 성분들을 포함하는, 상기 제1 가중치 및 제2 가중치를 결정하는 동작;
    상기 주파수 포인트에 적어도 부분적으로 기초하여, 제 2 오디오 데이터의 제 3 부분 및 제 2 오디오 데이터의 제 4 부분에 대한 제3 가중치 및 제4 가중치를 각각 결정하는 동작으로서, 상기 제2 오디오 데이터의 제3 부분은 주파수 포인트보다 낮은 주파수 성분들을 포함하고 상기 제2 오디오 데이터의 제4 부분은 주파수 포인트보다 높은 주파수 성분들을 포함하는, 상기 제3 가중치 및 제4 가중치를 결정하는 동작; 및
    상기 제1 가중치, 상기 제2 가중치, 상기 제3 가중치, 및 상기 제4 가중치를 사용하여 상기 제1 오디오 데이터의 제1 부분, 상기 제1 오디오 데이터의 제2 부분, 상기 제2 오디오 데이터의 제3 부분, 및 상기 제2 오디오 데이터의 제4 부분을 각각 가중함으로써 제3 오디오 데이터를 결정하는 동작을 포함하는 동작들을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  20. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하기 위해, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    상기 제1 오디오 데이터 또는 상기 제2 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여 상기 제1 오디오 데이터에 대응하는 제1 가중치를 결정하는 동작;
    상기 제1 오디오 데이터 또는 상기 제2 오디오 데이터 중 적어도 하나에 적어도 부분적으로 기초하여 상기 제2 오디오 데이터에 대응하는 제2 가중치를 결정하는 동작; 및
    제1 가중치 및 제2 가중치를 사용하여 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 가중함으로써 제3 오디오 데이터를 결정하는 동작을 포함하는 동작들을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서, 상기 적어도 하나의 프로세서는 상기 시스템으로 하여금:
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터보다 더 나은 충실도로 사용자의 음성을 나타내는 타겟 오디오 데이터를 획득하기 위해 상기 제3 오디오 데이터에 대한 후처리 동작을 수행하는 것을 포함하는 추가 동작을 수행하게 하도록 지시되는, 오디오 신호 생성을 위한 시스템.
  22. 제21항에 있어서, 상기 후처리 동작은 잡음제거 동작을 포함하는, 오디오 신호 생성을 위한 시스템.
  23. 컴퓨팅 장치에서 구현되는 오디오 신호 생성을 위한 방법에 있어서,
    상기 컴퓨팅 장치는 적어도 하나의 프로세서 및 적어도 하나의 저장 디바이스를 포함하고, 상기 방법은:
    골전도 센서에 의해 수집된 제1 오디오 데이터를 획득하는 단계;
    공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득하는 단계로서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터는 상이한 주파수 성분들로 사용자의 음성을 나타내는, 상기 제2 오디오 데이터를 획득하는 단계; 및
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하는 단계를 포함하며,
    제1 주파수 포인트보다 높은 제3 오디오 데이터의 주파수 성분들은 제1 주파수 포인트보다 높은 제1 오디오 데이터의 주파수 성분들에 대해 증가하는, 컴퓨팅 장치에서 구현되는 오디오 신호 생성을 위한 방법.
  24. 오디오 신호 생성을 위한 시스템에 있어서:
    골전도 센서에 의해 수집된 제1 오디오 데이터 및 공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득하도록 구성된 획득 모듈로서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터는 상이한 주파수 성분들로 사용자의 음성을 나타내는, 상기 획득 모듈; 및
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하도록 구성된 오디오 데이터 생성 모듈을 포함하며, 제1 주파수 포인트보다 높은 제3 오디오 데이터의 주파수 성분들은 상기 주파수 포인트보다 높은 제1 오디오 데이터의 주파수 성분들에 대해 증가하는, 오디오 신호 생성을 위한 시스템.
  25. 비일시적 컴퓨터 판독 가능한 매체에 있어서,
    상기 비일시적 컴퓨터 판독 가능한 매체는 명령들의 세트를 포함하며, 상기 명령들의 세트는 적어도 하나의 프로세서에 의해 실행될 때 상기 적어도 하나의 프로세서로 하여금:
    골전도 센서에 의해 수집된 제1 오디오 데이터를 획득하는 동작;
    공기 전도 센서에 의해 수집된 제2 오디오 데이터를 획득하는 동작으로서, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터는 상이한 주파수 성분들로 사용자의 음성을 나타내는, 상기 제2 오디오 데이터를 획득하는 동작; 및
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기초하여 제3 오디오 데이터를 생성하는 동작을 포함하는 동작들을 수행하도록 지시하며,
    제1 주파수 포인트보다 높은 제3 오디오 데이터의 주파수 성분들은 제1 주파수 포인트보다 높은 제1 오디오 데이터의 주파수 성분들에 대해 증가하는, 비일시적 컴퓨터 판독 가능한 매체.
KR1020227011974A 2019-09-12 2019-09-12 오디오 신호 생성을 위한 시스템 및 방법 KR20220062598A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/105616 WO2021046796A1 (en) 2019-09-12 2019-09-12 Systems and methods for audio signal generation

Publications (1)

Publication Number Publication Date
KR20220062598A true KR20220062598A (ko) 2022-05-17

Family

ID=74866872

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227011974A KR20220062598A (ko) 2019-09-12 2019-09-12 오디오 신호 생성을 위한 시스템 및 방법

Country Status (7)

Country Link
US (1) US11902759B2 (ko)
EP (1) EP4005226A4 (ko)
JP (1) JP2022547525A (ko)
KR (1) KR20220062598A (ko)
CN (1) CN114424581A (ko)
BR (1) BR112022004158A2 (ko)
WO (1) WO2021046796A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220062598A (ko) 2019-09-12 2022-05-17 썬전 샥 컴퍼니 리미티드 오디오 신호 생성을 위한 시스템 및 방법
CN114822566A (zh) * 2019-09-12 2022-07-29 深圳市韶音科技有限公司 音频信号生成方法及***、非暂时性计算机可读介质
TWI767696B (zh) * 2020-09-08 2022-06-11 英屬開曼群島商意騰科技股份有限公司 自我語音抑制裝置及方法
KR20230125304A (ko) * 2021-05-14 2023-08-29 썬전 샥 컴퍼니 리미티드 오디오 신호를 생성하기 위한 시스템과 방법들
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、***、电子设备和存储介质
US11978468B2 (en) * 2022-04-06 2024-05-07 Analog Devices International Unlimited Company Audio signal processing method and system for noise mitigation of a voice signal measured by a bone conduction sensor, a feedback sensor and a feedforward sensor
FR3136096A1 (fr) * 2022-05-30 2023-12-01 Elno Dispositif électronique et procédé de traitement, appareil acoustique et programme d’ordinateur associés
US20240005937A1 (en) * 2022-06-29 2024-01-04 Analog Devices International Unlimited Company Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model
CN117174100B (zh) * 2023-10-27 2024-04-05 荣耀终端有限公司 骨导语音的生成方法、电子设备及存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02114708A (ja) * 1988-10-25 1990-04-26 Clarion Co Ltd マイクロホン装置
JPH0630490A (ja) 1992-05-12 1994-02-04 Katsuo Motoi イヤーセット型送受話器
EP0984661B1 (en) * 1994-05-18 2002-08-07 Nippon Telegraph and Telephone Corporation Transmitter-receiver having ear-piece type acoustic transducer part
JP2835009B2 (ja) * 1995-02-03 1998-12-14 岩崎通信機株式会社 骨導気導複合型イヤーマイクロホン装置
JPH08223677A (ja) * 1995-02-15 1996-08-30 Nippon Telegr & Teleph Corp <Ntt> 送話器
JP3095214B2 (ja) 1996-06-28 2000-10-03 日本電信電話株式会社 通話装置
JP2000261534A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 送受話器
JP2003264883A (ja) * 2002-03-08 2003-09-19 Denso Corp 音声処理装置および音声処理方法
JP2004279768A (ja) * 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd 気導音推定装置及び気導音推定方法
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7680656B2 (en) 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
JP2007251354A (ja) * 2006-03-14 2007-09-27 Saitama Univ マイクロホン、音声生成方法
KR100868763B1 (ko) 2006-12-04 2008-11-13 삼성전자주식회사 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를이용한 오디오 신호의 부호화/복호화 방법 및 장치
JP2010176042A (ja) * 2009-01-31 2010-08-12 Daiichikosho Co Ltd 歌唱音声録音カラオケシステム
FR2974655B1 (fr) 2011-04-26 2013-12-20 Parrot Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres".
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP2014096732A (ja) * 2012-11-09 2014-05-22 Oki Electric Ind Co Ltd 収音装置及び電話機
CN103208291A (zh) 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
JP6123503B2 (ja) * 2013-06-07 2017-05-10 富士通株式会社 音声補正装置、音声補正プログラム、および、音声補正方法
CN105533986B (zh) * 2016-01-26 2018-11-23 王泽玲 一种骨传导发箍
US11290802B1 (en) * 2018-01-30 2022-03-29 Amazon Technologies, Inc. Voice detection using hearable devices
CN108696797A (zh) * 2018-05-17 2018-10-23 四川湖山电器股份有限公司 一种音频电信号进行分频与合成的方法
CN109240639A (zh) 2018-08-30 2019-01-18 Oppo广东移动通信有限公司 音频数据的获取方法、装置、存储介质及终端
US11705133B1 (en) * 2018-12-06 2023-07-18 Amazon Technologies, Inc. Utilizing sensor data for automated user identification
CN109545193B (zh) 2018-12-18 2023-03-14 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109767783B (zh) 2019-02-15 2021-02-02 深圳市汇顶科技股份有限公司 语音增强方法、装置、设备及存储介质
CN109982179B (zh) * 2019-04-19 2023-08-11 努比亚技术有限公司 音频信号输出方法、装置、可穿戴设备及存储介质
CN110136731B (zh) 2019-05-13 2021-12-24 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
KR20220062598A (ko) 2019-09-12 2022-05-17 썬전 샥 컴퍼니 리미티드 오디오 신호 생성을 위한 시스템 및 방법

Also Published As

Publication number Publication date
BR112022004158A2 (pt) 2022-05-31
US20220150627A1 (en) 2022-05-12
WO2021046796A1 (en) 2021-03-18
JP2022547525A (ja) 2022-11-14
US11902759B2 (en) 2024-02-13
EP4005226A4 (en) 2022-08-17
EP4005226A1 (en) 2022-06-01
CN114424581A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
KR20220062598A (ko) 오디오 신호 생성을 위한 시스템 및 방법
CN110021307B (zh) 音频校验方法、装置、存储介质及电子设备
CN109767783A (zh) 语音增强方法、装置、设备及存储介质
EP2643834B1 (en) Device and method for producing an audio signal
CN108766454A (zh) 一种语音噪声抑制方法及装置
CN102157156B (zh) 一种单通道语音增强的方法和***
CN111833896A (zh) 融合反馈信号的语音增强方法、***、装置和存储介质
CN103761974B (zh) 一种人工耳蜗
CN105719657A (zh) 基于单麦克风的人声提取方法及装置
CN106653004B (zh) 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN110992967A (zh) 一种语音信号处理方法、装置、助听器及存储介质
US11501758B2 (en) Environment aware voice-assistant devices, and related systems and methods
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
CN114822565A (zh) 音频信号生成方法及***、非暂时性计算机可读介质
CN112055278B (zh) 融合入耳麦克风和耳外麦克风的深度学习降噪设备
CN117542373A (zh) 一种非空气传导语音的恢复***及方法
US20230317092A1 (en) Systems and methods for audio signal generation
US20210287674A1 (en) Voice recognition for imposter rejection in wearable devices
RU2804933C2 (ru) Системы и способы выработки аудиосигнала
US20240259730A1 (en) Systems and methods for audio signal generation
CN114694668A (zh) 生成音频的方法和***
Dai et al. An improved model of masking effects for robust speech recognition system
CN112118511A (zh) 耳机降噪方法、装置、耳机及计算机可读存储介质
US20240005937A1 (en) Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model
WO2022141364A1 (zh) 生成音频的方法和***

Legal Events

Date Code Title Description
A201 Request for examination