KR20210043485A - 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법 - Google Patents

골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법 Download PDF

Info

Publication number
KR20210043485A
KR20210043485A KR1020207028217A KR20207028217A KR20210043485A KR 20210043485 A KR20210043485 A KR 20210043485A KR 1020207028217 A KR1020207028217 A KR 1020207028217A KR 20207028217 A KR20207028217 A KR 20207028217A KR 20210043485 A KR20210043485 A KR 20210043485A
Authority
KR
South Korea
Prior art keywords
vibration sensor
bone vibration
microphone
signal
noise reduction
Prior art date
Application number
KR1020207028217A
Other languages
English (en)
Other versions
KR102429152B1 (ko
Inventor
용지에 얀
Original Assignee
엘레복 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘레복 테크놀로지 컴퍼니 리미티드 filed Critical 엘레복 테크놀로지 컴퍼니 리미티드
Publication of KR20210043485A publication Critical patent/KR20210043485A/ko
Application granted granted Critical
Publication of KR102429152B1 publication Critical patent/KR102429152B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R11/00Transducers of moving-armature or moving-core type
    • H04R11/04Microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electromagnetism (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

본 발명은 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 관한 것으로 아래 단계를 포함함: 골진동 센서 및 마이크로폰이 오디오 신호를 샘플링하여, 각각 골진동 센서 오디오 신호 및 마이크로폰 오디오 신호를 획득하고; 골진동 센서 오디오 신호를 하이패스 필터링 모듈에 입력하고, 하이패스 필터링을 수행하고; 하이패스 필터링을 거친 후의 골진동 센서 오디오 신호 또는 대역 확장을 거친 후의 신호를, 마이크로폰 오디오 신호와 함께 심층 신경망 모듈에 입력하고; 심층 신경망 모듈은 예측을 통해 노이즈 저감 후의 음성을 획득한다. 본 발명은 골진동 센서 및 종래 마이크로폰의 신호를 결합하여, 심층 신경망 강력한 복원 능력을 이용하여 매우 높은 사람 음성 환원도 및 극도로 강한 노이즈 억제 기능을 달성하고, 복잡한 노이즈 환경 하에서의 사람 음성 추출 문제를 해결할 수 있고, 타겟 사람 음성 추출을 달성하고, 간섭 노이즈를 저감하고, 싱글 마이크로폰 구조를 채용하여 비용을 절감할 수 있다. 그 밖에 골진동 센서 오디오 신호를 대역 확대를 거친 후의 신호를 직접 출력으로 삼을 수 있다.

Description

골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법
본 발명은 전자 설비 음성 노이즈 저감 기술분야에 관한 것으로, 더 구체적으로는, 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 관한 것이다.
음성 노이즈 저감 기술은 노이지(noisy) 음성 신호로부터 음성 신호를 분리해내는 것을 지칭하는데, 해당 기술은 광범위한 응용을 보유하고, 통상적으로 싱글 마이크로폰 노이즈 저감 기술과 멀티 마이크로폰 노이즈 저감 기술이 있는데, 종래의 노이즈 저감 기술에는 일종의 결함이 있는데, 종래의 싱글 마이크로폰 노이즈 저감 기술은 사전에 노이즈를 고정 노이즈로 설정하여, 적응성이 높지 않고, 국한성이 비교적 크다; 반면 종래의 멀티 마이크로폰 노이즈 저감 기술은 2개 이상의 마이크로폰을 필요로 하여, 비용이 증가하고, 멀티 마이크로폰 구조는 제품의 구조 설계에 대한 요구조건이 더 높아, 제품의 구조 설계를 제한하고, 또한, 멀티 마이크로폰 기술은 방향 정보에 의존하여 노이즈 저감을 수행하므로, 타겟 사람 음성 방향의 노이즈를 억제하기 어렵고, 이상의 결함은 개선될 필요가 있다.
종래의 멀티 마이크로폰 및 싱글 마이크로폰 통화 노이즈 저감 기술은 아래와 같은 결함이 있다:
1. 마이크로폰 수량과 비용이 선형(linear) 관계를 이루어, 마이크로폰 수량이 많아질수록, 비용이 증가한다.
2. 멀티 마이크로폰은 제품 구조 설계에 대한 요구가 더 높아, 제품의 구조 설계를 제한한다.
3. 멀티 마이크 노이즈 저감 기술은 방향 정보에 의존하여 노이즈 저감을 수행하므로, 근접한 타겟 사람 음성 방향으로부터의 노이즈를 억제하기 어렵다.
4. 싱글 마이크로폰 노이즈 저감 기술은 노이즈 평가에 의존하고, 그것은 사전에 노이즈를 고정 노이즈로 설정하여, 국한성을 가진다.
본 발명은 골진동 센서 및 종래 마이크로폰의 신호를 결합하고, 딥 러닝을 채용하여 융합을 수행하여 노이즈 저감을 달성하고, 각종 노이즈 환경에서, 타겟 사람 음성 추출을 달성하여, 간섭 노이즈를 저감한다. 해당 기술은 이어폰, 핸드폰 등 귀 부위(또는 기타 신체 부위)에 접합하는 통화 환경에 응용될 수 있다. 하나 또는 복수의 마이크로폰을 채용하는 노이즈 저감의 기술과 비교하면, 골진동 센서를 결합하는 것은 신호 대 잡음비가 극도로 낮은 환경에서, 예를 들어: 지하철, 바람 소리 등 환경, 여전히 양호한 통화 체험을 유지할 수 있다. 종래 단일 마이크로폰 노이즈 저감 기술과 비교하면, 본 기술은 노이즈에 대해 어떠한 가정(종래 싱글 마이크 노이즈 저감 기술은 사전에 노이즈를 고정 노이즈로 가정함)도 하지 않고, 심층 신경망 강력한 모델링 능력을 이용하여, 우수한 사람 음성 환원도 및 극도로 강한 노이즈 억제 능력이 있고, 복잡한 노이즈 환경에서 사람 음성 추출 문제를 해결할 수 있다. 종래 멀티 마이크로폰 기술이 2개 이상의 마이크로폰을 필요로 하고 빔 형성을 수행하는 노이즈 저감 방안과 비교하면, 우리는 싱글 마이크로폰을 채용한다.
공기전도(pneumatic) 마이크로폰과 비교하면, 골진동 센서 신호 샘플링은 주로 저주파 범위에 있으나, 공기전도 마이크로폰 노이즈 간섭을 받지 않는다. 기타 골진동 센서 및 공기전도 마이크로폰 노이즈 저감 방식을 결합한 것과 달리, 골진동 센서 신호만을 사람 음성 활성화 검측의 지표로 이용하고, 본 기술은 골전도 신호를 저주파 입력 신호로 삼고, 고주파 복원(선택적으로)을 거친 후, 마이크로폰 신호와 함께 심층 신경망에 전달되어 전체 융합을 수행한 후 노이즈 저감을 달성한다. 골진동 센서의 도움을 빌어, 우리는 우수한 저주파 신호를 획득할 수 있고, 이를 기초로 하여, 심층 신경망 예측의 정확도를 극도로 높여, 노이즈 저감 효과가 더 바람직하도록 만든다.
출원번호 201710594168.3의 특허(명칭은 통용되는 싱글 사운드 채널 실시간 노이즈 저감 방법)와 비교하면, 본 발명은 골진동 센서 신호를 도입하고, 골진동 센서가 공기 노이즈 간섭을 받지 않는 특성을 이용하고, 골진동 센서 신호와 공기전도 마이크로폰 신호를 사용하여 심층 신경망이 융합하고, 극도로 낮은 신호 대 잡음비 하에서도 우수한 노이즈 저감 효과를 가질 수 있도록 달성된다.
출원번호 201811199154.2의 특허(명칭은 인체 진동을 통해 사용자 음성을 식별함으로써 전자 설비를 제어하는 시스템)와 비교하면, 골진동 센서 신호를 음성 활동 검측의 지표로 삼는 것과 달리, 우리는 골진동 센서 신호와 마이크로폰 신호를 함께 심층 신경망의 입력으로 삼고, 신호 층의 유기적 융합을 수행함에 따라, 우수한 노이즈 저감 효과를 달성한다.
본 발명이 해결하고자 하는 기술문제는 어떻게 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법 채용을 통해, 종래기술의 멀티 마이크로폰이 제한하는 제품 구조, 과도하게 높은 제조 비용, 및 종래의 싱글 마이크로폰 노이즈 저감 기술이 가진 국한성 등 문제를 해결하는데 있다. 기타 골진동 센서 및 공기전도 마이크로폰을 결합한 기술에서 골진동 센서 신호만을 검측 활성화의 지표로 사용하는 것과 달리, 본 기술은 골진동 센서 신호가 공기전도 노이즈 간섭을 받지 않는 특징을 이용하여, 골전도 신호를 직접 입력 신호로 삼아, 고주파 복원(선택적으로)을 거친 후, 마이크로폰 신호와 함께 심층 신경망에 전달되어 전체 융합 및 노이즈 저감을 수행한다. 골진동 센서의 도움을 빌어, 우리는 우수한 저주파 신호를 획득할 수 있고, 이를 기초로 하여, 심층 신경망 예측의 정확도를 극도로 높여, 노이즈 저감 효과가 더 바람직하도록 만든다.
본 발명이 그 기술문제를 채용하기 위해 채용한 기술방안은: 골진동 센서 및 마이크로폰 신호를 융합하는 딥 러닝 노이즈 저감 방법의 구조로, 골진동 센서 및 종래 마이크로폰의 신호 각각의 장점을 결합하여, 딥 러닝을 채용하여 사람 음성을 추출하고 노이즈를 저감하고, 각종 노이즈 환경 하에서, 타겟 사람 음성 추출을 달성하고, 간섭 노이즈를 저감한다. 상기 기술은 이어폰, 핸드폰 등 귀 부위(또는 기타 신체 부위)에 접합하는 통화 환경에 응용될 수 있고, 비용이 낮고 달성이 용이하다.
본 발명이 언급한 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서, 상기 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법은, 아래 단계를 포함한다:
골진동 센서 및 마이크로폰이 오디오 신호를 샘플링하고, 각각 골진동 센서 오디오 신호 및 마이크로폰 오디오 신호를 획득하는 단계(S1);
골진동 센서 오디오 신호를 하이패스 필터링 모듈에 입력하고, 하이패스 필터링을 수행하는 단계(S2);
하이패스 필터링을 거친 후의 골진동 센서 오디오 신호와 마이크로폰 오디오 신호를 심층 신경망 모듈에 입력하는 단계(S3);
심층 신경망 모듈은 예측을 거쳐 융합 노이즈 저감 후의 음성을 획득하는 단계(S4).
본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서, 하이패스 필터링 모듈은 골진동 센서 오디오 신호 직류 오프셋을 보정하고, 저주파 클러터 신호를 필터링하여 제거한다.
본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서, 골진동 센서 오디오 신호는 하이패스 필터링 처리를 거친 후, 더 바람직하게는, 고주파 복원을 통해, 즉 대역 확장의 방법으로, 진일보하게 주파수 범위를 확장하고, 골진동 센서 오디오 신호를 2kHz 이상까지 확장하고, 그 후 그것을 심층 신경망 모듈에 입력한다.
진일보하게는, 대역 확장만을 사용한 후의 골진동 신호를 최종 출력 신호로 삼을 수도 있고, 이에 따라 마이크로폰 신호에 의존할 필요가 없다.
본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서, 심층 신경망은 융합 모듈을 더 포함하고, 융합 모듈은 마이크로폰 오디오 신호 및 골진동 센서 오디오 신호를 융합하고 노이즈를 저감한다.
본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서, 심층 신경망 모듈의 일종의 달성 방법은 컨볼루션 순환 신경망을 통한 달성이고, 예측을 통해 순수 음성 진폭 스펙트럼을 획득한다.
본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서, 심층 신경망 모듈은 복수 층의 컨볼루션 네트워크, 복수 층의 LSTM 네트워크 및 3 서로 대응되는 복수 층의 디컨볼루션 네트워크로 구성된다.
본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서, 심층 신경망 모듈의 트레이닝 타겟은 순수 음성 진폭 스펙트럼이다. 우선 순수 음성을 단기 푸리에 변환을 거친 후, 트레이닝 타겟인 순수 음성 진폭 스펙트럼(즉, 타겟 진폭 스펙트럼)을 획득한다.
본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서, 심층 신경망 모듈의 입력 신호는 골진동 센서 오디오 신호의 진폭 스펙트럼(또는 대역 확장을 거친 후의 진폭 스펙트럼) 및 마이크로폰 오디오 신호의 진폭 스펙트럼을 중첩하여 생성되고;
우선 골진동 센서 오디오 신호 및 마이크로폰 오디오 신호를 각각 단기 푸리에 변환을 거친 후, 각각 2개의 진폭 스펙트럼을 획득하고, 중첩을 수행한다.
본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서, 중첩 후의 진폭 스펙트럼을 심층 신경망 모듈을 거쳐, 예측 진폭 스펙트럼을 획득하고, 출력한다.
본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서, 타겟 진폭 스펙트럼 및 예측 진폭 스펙트럼을 평균 제곱 오차로 한다.
상기 방안의 본 발명에 따르면, 그것이 구비한 유익한 효과는, 본 발명은 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법을 제공하고, 심층 신경망의 강력한 모델링 능력을 이용하여, 매우 우수한 사람 음성 환원도 및 극도로 강한 노이즈 억제 능력이 있고, 복잡한 노이즈 환경에서 사람 음성 추출 문제를 해결할 수 있다. 본 발명은 골진동 센서가 공기 노이즈 간섭을 받지 않는 특성을 이용하고, 신호 대 잡음비가 극도로 낮은 환경에서, 예를 들어: 지하철, 바람 소리 등 환경, 여전히 양호한 통화 체험을 유지할 수 있다. 또한, 싱글 마이크로폰을 채용하여 현저하게 간단화를 달성하고 비용을 절감하였다. 기타 골진동 센서 및 공기전도 마이크로폰 노이즈 저감 방식을 결합한 것이 골진동 센서 신호만을 활성화 검측의 지표로 이용하는 것과 달리, 본 기술은 골진동 센서 신호가 공기 노이즈 간섭을 받지 않는 특성을 이용하고, 골진동 센서 신호를 저주파 입력 신호로 삼아, 고주파 복원(선택적으로)을 거친 후, 마이크로폰 신호와 함께 심층 신경망에 전달되어 전체 융합 및 사람 음성 획득을 수행한다. 골진동 센서의 도움을 빌어, 우리는 우수한 저주파 신호를 획득할 수 있고, 이를 기초로 하여, 심층 신경망이 사람 음성을 예측하는 정확도를 극도로 높여, 노이즈 저감 효과가 더 바람직하도록 만든다.
아래에서 도면과 실시예를 결합하여 본 발명에 대해 진일보하게 설명한다. 도면에서:
도 1은 본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법의 흐름 개념도이다.
도 2는 고주파 복원의 일종의 방법 원리 개념도이다.
도 3은 본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법의 심층 신경망 융합 모듈 구조 개념도이다.
도 4는 본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법의 골진동 센서가 샘플링한 오디오 신호 주파수 스펙트럼을 도시한다.
도 5는 본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법의 마이크로폰이 샘플링한 오디오 신호 주파수 스펙트럼을 도시한다.
도 6은 본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법 처리한 후의 오디오 신호 주파수 스펙트럼을 도시한다.
도 7은 본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 노이즈 저감 방법과 무골진동 센서의 싱글 사운드 채널이 대응되는 딥 러닝 실시간 노이즈 저감 방법의 효과 대비도이다.
본 발명의 목적, 기술방안 및 장점이 더 명확해지도록 하기 위해, 이하에서 도면 및 실시예를 결합하여, 본 발명에 대해 진일보하게 상세히 설명한다. 이해해 두어야 할 것은, 여기에서 묘사도는 구체적인 실시예는 본 발명을 이해시키는 데에만 사용되는 것으로, 본 발명을 제한하는데 사용되지 않는다.
도 1에 도시된 바와 같이, 본 발명은 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법으로, 이하의 단계를 포함함:
골진동 센서 및 마이크로폰이 오디오 신호를 샘플링하고, 각각 골진동 센서 오디오 신호 및 마이크로폰 오디오 신호를 획득하는 단계(S1);
골진동 센서 오디오 신호를 하이패스 필터링 모듈에 입력하고, 하이패스 필터링을 수행하는 단계(S2);
하이패스 필터링을 거친 후의 골진동 센서 오디오 신호와 마이크로폰 오디오 신호를 심층 신경망 모듈에 입력하는 단계(S3);
심층 신경망 모듈은 예측을 거쳐 융합 노이즈 저감 후의 음성을 획득하는 단계(S4). 본 발명은 골진동 센서 신호를 도입하고, 그것이 공기 노이즈 간섭을 받지 않는 특성을 이용하고, 골진동 센서 신호와 공기전도 마이크로폰 신호를 사용하여 심층 신경망이 융합하고, 극도로 낮은 신호 대 잡음비 하에서도 우수한 노이즈 저감 효과를 가질 수 있도록 달성된다.
예전까지 가장 선진적인 실용 음성 노이즈 제거 방안은 대량의 데이터 트레이닝을 사용하는 피드포워드(feedforward) 타입 심층 신경망(Deep neural network, DNN)으로, 그 방안은 트레이닝을 거치지 않은 노이지 사람 음성에서 특정 사람 음성을 분리해 낼 수는 있으나, 그 모델은 비특정 사람 음성에 대한 노이즈 저감 효과가 좋지 않다. 비특정 사람 음성에 대한 노이즈 저감 효과를 제고하기 위해, 가장 효과적인 방법은 트레이닝에서 복수 화자(speaker)의 음성을 집중 추가하는 것이나, 이는 DNN이 음성 및 배경 노이즈에 대해 혼합을 야기하도록 할 수 있고, 노이즈를 음성으로 잘못 분류하는 경향이 있다.
공개된 출원번호 201710594168.3특허(명칭은 통용되는 싱글 사운드 채널 실시간 노이즈 저감 방법)는 통용되는 싱글 사운드 채널 실시간 노이즈 저감 방법에 관한 것으로, 이하 단계를 포함함: 전자 타입의 노이지 음성을 수신하고, 여기에서 음성 및 비(非) 사람 음성 간섭 노이즈를 포함하고; 수신된 음성으로부터 프레임별로 단기 푸리에 진폭 스펙트럼을 추출하여 음향학 특징으로 삼고; LSTM(Long Short Term Memory)을 구비한 심층 회귀 신경망을 사용하여 프레임별로 레이쇼 필름(ratio film)을 생성하고; 생성한 레이쇼 필름을 이용하여 노이지 음성의 진폭 스펙트럼에 대해 마스킹을 수행하고; 마스킹 후의 진폭 스펙트럼 및 노이지 음성의 원시 위상을 사용하고, 역 푸리에 변환을 거쳐, 다시 음성 파형을 합성한다. 해당 발명은 학습 방법 모니터링을 채용하여 음성 노이즈 저감을 수행하고, LSTM을 구비한 회귀 신경망을 사용함으로써 이상적인 레이쇼 필름을 평가하고; 해당 발명이 제출한 회귀 신경망은 대량의 노이지 음성을 사용하여 트레이닝을 수행하고, 여기에는 각종 음향학 배경 및 마이크로폰 임펄스 응답이 포함되어 있고, 최종적으로 배경 노이즈, 화자 및 전송 신호 채널의 통용 음성과 독립적으로 노이즈 저감을 달성한다. 여기에서, 싱글 사운드 채널 노이즈 저감은 싱글 마이크로폰이 샘플링한 신호에 대한 처리 수행을 지칭하고, 빔 형성하는 마이크로폰 어레이 노이즈 저감 방법에 비교하여, 싱글 사운드 채널 노이즈 저감은 더 광범위한 실용성 및 저비용을 구비한다. 해당 발명은 학습 방법 모니터링을 채용하여 음성 노이즈 저감을 수행하고, LSTM을 구비한 회귀 신경망을 사용함으로써 이상적인 레이쇼 필름을 평가한다. 해당 발명은 미래 시간 프레임에 대한 의존을 제거하는 기술을 도입하고, 노이즈 저감 과정에서 회귀 신경망 모델의 고효율 계산을 달성하고, 노이즈 저감 성능에 영향을 주지 않는다는 전제 하에, 설계를 진일보하게 간편화 함으로써, 매우 작은 회귀 신경망 모델을 구성하여, 실시간 음성 노이즈 저감을 달성한다.
진일보하게는, 골진동 센서를 도입한다. 골진동 센서는 저주파 음성을 샘플링할 수 있고, 공기 노이즈 간섭을 받지 않는다. 골진동 센서 신호와 공기전도 마이크로폰 신호를 사용하여 심층 신경망이 융합하고, 극도로 낮은 신호 대 잡음비 하에서도 이상적인 전체 주파수 노이즈 저감 효과를 가지도록 달성된다. 본 실시예에 있어서 골진동 센서는 종래기술이다.
음성 신호는 시간 차원에서 비교적 강한 상관성을 구비할 수 있고, 이러한 상관성은 음성 분리에 대해 큰 도움이 된다. 상기 하기 정보를 이용하여 분리 성능을 높이기 위해, 심층 신경망의 방법에 기초하여, 현재 프레임 및 앞뒤 연속 몇 프레임을 병합하여 입력 특징인 하나의 비교적 큰 차원의 벡터를 형성한다. 해당 방법은 컴퓨터 프로그램에 의해 수행되고, 노이지 음성으로부터 음향학 특징을 추출하고, 이상 시간 주파수(ideal time-frequency) 레이쇼 필름을 평가하고, 노이즈 저감 후의 음성 파형을 다시 합성한다. 해당 방법은 하나 또는 복수의 프로그램 모듈을 포함하고, 임의의 시스템 또는 실행 가능한 컴퓨터 코드 인스트럭션을 구비한 하드웨어 설비는 상기 하나 또는 복수의 모듈을 수행하는데 사용된다.
진일보하게는, 하이패스 필터링 모듈은 골진동 센서 오디오 신호 직류 오프셋을 보정하고, 저주파 클러터 신호를 필터링하여 제거한다.
더 진일보하게는, 하이패스 필터링 모듈은 디지털 필터를 통해 필터링을 달성할 수 있다.
진일보하게는, 골진동 센서 오디오 신호는 하이패스 필터링 처리를 거친 후, 더 바람직하게는, 고주파 복원을 거친다. 즉 대역 확장 방법은 진일보하게 주파수 범위를 확장하고, 골진동 센서 오디오 신호를 2kHz 이상까지 확장하고, 그 후 그것을 심층 신경망 모듈에 입력한다.
진일보하게는, 고주파 복원 모듈의 작용은 골진동 신호의 대역을 진일보하게 확장하는 것이고, 선택적인 모듈이다.
더 진일보하게는, 고주파 복원의 방법은 매우 많은데, 심층 신경망은 현재 가장 효과적인 방법이고, 본 실시예에서는 심층 신경망의 구조를 예로 들어 예시적으로만 나타내었다.
골진동 센서 오디오 신호를 하이패스 필터링하여, 골전도 신호 직류 오프셋을 보정하고, 저주파 노이즈를 필터링하여 제거하고; 대역 확장(고주파 복원)의 방법을 통해, 골진동 신호를 2kHz 이상까지 확장하고, 이 단계는 선택적이고, 이 단계는 단계(S1) 중의 원시의 골진동 신호를 사용할 수 있고; 단계(S2)의 출력 및 마이크로폰의 신호를 심층 신경망 모듈로 전송하고; 심층 신경망 모듈은 융합 노이즈 저감 후의 음성을 예측해 낸다.
도 2에 도시된 바와 같이, 고주파 복원의 작용은 진일보하게 골진동 신호의 주파수 범위를 확장하는 것이고, 심층 신경망을 채용하여 복원을 수행할 수 있고, 여기에서 심층 신경망은 다종의 달성 방식을 가질 수 있고, 도 2는 그 중의 일종(단 해당 네트워크로 제한되는 것은 아님)이 제시되어 있고, LSTM에 기초한 심층 회귀 신경망의 고주파 복원 방식에 기초한다.
공개된 출원번호 201811199154.2 특허(명칭은 인체 진동을 통해 사용자 음성을 식별함으로써 전자 설비를 제어하는 시스템)는 인체 진동 센서를 포함하고, 사용자의 인체 진동을 감지하는데 이용되고; 처리 회로는, 상기 인체 진동 센서와 서로 커플링되어, 상기 인체 진동 센서의 출력 신호가 사용자 음성 신호를 포함한다고 판단될 때 이용되고, 픽업(pick-up) 설비를 제어하여 픽업을 시작하고; 통신 모듈은, 처리 회로 및 상기 픽업 설비와 서로 커플링되어, 상기 처리 회로 및 상기 픽업 설비 간의 통신에 사용된다. 해당 특허가 골진동 센서 신호를 음성 활동 검측의 표지로 삼는 것과 달리, 우리는 골진동 센서 신호를 마이크로폰 신호와 함께 심층 신경망의 입력으로 삼아, 신호층의 심층 융합을 수행하고, 이에 따라 우수한 노이즈 저감 효과를 달성한다.
진일보하게는, 심층 신경망 모듈은 융합 모듈을 더 포함하고, 심층 신경망에 기초한 융합 모듈 작용은 마이크로폰 오디오 신호 및 골진동 센서 오디오 신호 융합 및 노이즈 저감을 완성하는 것이다.
진일보하게는, 심층 신경망 모듈의 일종의 달성 방법은 컨볼루션 순환 신경망을 통한 달성이고, 예측을 통해 순수 음성 진폭 스펙트럼(Speech Magnitude Spectrum)을 획득한다.
더 진일보하게는, 심층 신경망에 기초한 융합 모듈에서 네트워크 구조는 컨볼루션 순환 신경망을 예시로 하는데, 장단기 신경망, 심층 풀(full) 컨볼루션 네트워크 등의 구조로 치환될 수도 있다.
예시로서, 심층 신경망 모듈은 3층 컨볼루션 네트워크, 3층 LSTM(Long Short Term Memory) 네트워크 및 3층 디컨볼루션 네트워크로 구성될 수 있다.
도 3은 본 발명의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법의 심층 신경망 융합 모듈 구조 개념도를 도시하는데, 심층 신경망 모듈의 컨볼루션 순환 신경망 달성을 제시하고, 즉 심층 신경망 모듈의 트레이닝 타겟(Training Target)은 순수 음성 진폭 스펙트럼(Speech Magnitude Spectrum)이고, 우선 순수 음성(Clean Speech)를 단기 푸리에 변환(STFT)을 거친 후, 순수 음성 진폭 스펙트럼(Speech Magnitude Spectrum)을 획득하여 트레이닝 타겟(Training Target)(즉, 타겟 진폭 스펙트럼(Target Magnitude Spectrum))으로 삼는다.
진일보하게는, 심층 신경망 모듈의 입력 신호는 골진동 센서 오디오 신호의 진폭 스펙트럼 및 마이크로폰 오디오 신호의 진폭 스펙트럼을 중첩(stacking)함으로써 생성되는 것으로;
우선 골진동 센서 오디오 신호 및 마이크로폰 오디오 신호를 각각 단기 푸리에 변환(STFT)을 거친 후, 각각 2개의 진폭 스펙트럼(Magnitude Spectrum)을 획득하고, 중첩(Stacking)을 수행한다.
진일보하게는, 중첩(Stacking) 후의 진폭 스펙트럼을 심층 신경망 모듈을 거쳐, 예측 진폭 스펙트럼(Estimated Magnitude Spectrum)을 획득하고, 출력한다.
진일보하게는, 타겟 진폭 스펙트럼 및 예측 진폭 스펙트럼(Estimated Magnitude Spectrum)을 평균 제곱 오차(mean-square error, MSE)로 하고, 평균 제곱 오차(MSE)는 평가한 양 및 평가된 양 간의 차이 정도를 반영하는 일종의 척도이다. 더 진일보하게는, 트레이닝 타겟(Training)은 역전파(back propagation)-기울기 하강(gradient descent)의 방식을 채용하여 네트워크 파라미터를 갱신하고, 부단히 네트워크 트레이닝 데이터를 전송하고, 네트워크 파라미터를 갱신하고, 네트워크가 소멸할 때까지 반복한다.
진일보하게는, 추론과정(Inference)은 마이크로폰 데이터 단기 푸리에 변환(STFT) 후 결과의 위상과 예측한 진폭 스펙트럼(Estimated Magnitude Spectrum) 결합을 사용하여, 예측 후의 순수 음성(Clean Speech)을 회복한다.
종래 멀티 마이크 노이즈 저감 기술에 비해, 본 특허는 싱글 마이크로폰을 입력으로 채용한다. 따라서 로버스트니스(robustness)가 강하고, 비용을 통제할 수 있고, 제품 구조 설계에 대한 요구가 낮은 등의 특징을 가진다. 본 실시예에 있어서, 로버스트니스는 노이즈 저감 시스템의 노이즈 저감 성능이 마이크로폰과 일치하는 등의 간섭을 받는 것을 지칭하고, 로버스트니스가 강하다는 것은 마이크로폰 일치성 및 배치 등에 대한 요구가 없음을 의미하고, 각종 마이크로폰에 적응될 수 있다.
도 7에 도시된 바와 같이, 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법 및 서로 대응되는 무골진동 센서의 싱글 사운드 채널 딥 러닝 노이즈 저감 방법의 노이즈 저감 효과 대비도가 제시된다. 구체적으로 8종 노이즈 상황에서 <통용되는 싱글 사운드 채널 실시간 노이즈 저감 방법>(출원번호: 201710594168.3) 중의 방법(Only-Mic) 및 본 기술 상기 방법(Sensor-Mic)을 각각 사용하여 처리한 결과, 도 7의 객관적인 테스트 결과를 획득하였다. 8종 노이즈는 각각: 술집 노이즈, 도로 노이즈, 십자 교차로 노이즈, 기차역 노이즈, 130km/h 속도로 주행하는 자동차 노이즈, 커피숍 노이즈, 식탁에서의 노이즈 및 사무실 노이즈이다. 테스트 표준은 주관적 음성 품질 평가(PESQ)이고, 그 값의 범위는 [-0.5, 4.5]이다. 표에서 볼 수 있듯이, 각종 환경에서, 본 기술 처리를 거친 후 PESQ 획득 점수는 모두 크게 향상되었고, 8종 환경 평균 향상도는 0.26이다. 이는 본 기술의 음성 환원도가 더 높고, 노이즈 억제 능력이 더 강함을 의미한다. 본 방법은 골진동 센서가 공기 노이즈 간섭을 받지 않는 특성을 이용하고, 골진동 센서 신호 및 공기전도 마이크로폰 신호를 사용하여 심층 신경망이 융합하고, 극도로 낮은 신호 대 잡음비 하에서도 우수한 노이즈 저감 효과를 가질 수 있도록 달성된다.
더 진일보하게는, 종래 싱글 마이크로폰 노이즈 저감 기술과 비교하면, 본 발명은 노이즈에 대해 어떠한 가정(종래 싱글 마이크로폰 노이즈 저감 기술은 일반적으로 노이즈를 고정 노이즈로 사전 설정함)도 하지 않고, 심층 신경망 강력한 모델링 능력을 이용하고, 우수한 사람 음성 환원도 및 극도로 강한 노이즈 억제 능력이 있고, 복잡한 노이즈 환경에서 사람 음성 추출 문제를 해결할 수 있고, 해당 기술은 이어폰, 핸드폰 등 귀 부위(또는 기타 신체 부위)에 접합하는 통화 환경에 응용될 수 있다. 기타 골진동 센서 및 공기전도 마이크로폰을 결합한 기술에서 골진동 센서 신호만을 검측 활성화의 지표로 사용하는 것과 달리, 본 기술은 골진동 센서 신호가 공기전도 노이즈 간섭을 받지 않는 특징을 이용하여, 골전도 신호를 저주파 입력 입력 신호로 삼아, 고주파 복원(선택적으로)을 거친 후, 마이크로폰 신호와 함께 심층 신경망에 전달되어 전체 노이즈 저감, 융합을 수행한다. 골진동 센서의 도움을 빌어, 우리는 우수한 저주파 신호를 획득할 수 있고, 이를 기초로 하여, 심층 신경망 예측의 정확도를 극도로 높여, 노이즈 저감 효과가 더 바람직하도록 만든다. 별도로 골진동 센서 신호를 대역 확장을 거친 후의 결과를 바로 출력으로 삼을 수도 있다.
본 실시예에 있어서, 고주파 복원 모듈의 작용은 골진동 신호의 대역을 진일보하게 확장하는 것으로, 일종의 선택적인 모듈이다. 고주파 복원의 방법은 매우 많은데, 심층 신경망은 일종의 효과적이고 가장 우수한 최신 방법으로, 구체적인 실시예에서는 일종의 심층 신경망의 구조만을 예로 들어 예시한다. 실시예에 있어서 심층 신경망에 기초한 융합 모듈에서 네트워크 구조는 컨볼루션 순환 신경망을 예시로 하는데, 장단기 신경망, 심층 풀(full) 컨볼루션 네트워크 등의 구조로 치환될 수도 있다.
본 발명은 일종의 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법을 제공하는데, 골진동 센서 및 종래 마이크로폰 신호의 각각의 장점을 결합하여, 심층 신경망 강력한 모델링 기능을 이용하여 매우 높은 사람 음성 환원도 및 극도로 강한 노이즈 억제 능력을 달성하고, 복잡한 노이즈 환경 하에서의 사람 음성 추출 문제를 해결할 수 있고, 타겟 사람 음성 추출을 달성하고, 간섭 노이즈를 저감하고, 싱글 마이크로폰 구조를 채용하여, 달성의 복잡도 및 비용을 감소시켰다.
이상 실시예를 통해 본 발명에 대해 나타내었으나, 본 발명의 보호범위는 이에 국한되지 않고, 본 발명 사상을 벗어나지 않는다는 전제 하에, 이상 각 구조에 대해 가하는 변형, 치환 등 모든 것은 본 발명의 청구범위 내에 속한다.

Claims (11)

  1. 골진동(bone vibration) 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법에 있어서,
    골진동 센서 및 마이크로폰이 오디오 신호를 샘플링하고, 각각 골진동 센서 오디오 신호 및 마이크로폰 오디오 신호를 획득하는 단계(S1);
    상기 골진동 센서 오디오 신호를 하이패스 필터링 모듈에 입력하고, 하이패스 필터링을 수행하는 단계(S2);
    하이패스 필터링을 거친 후의 상기 골진동 센서 오디오 신호와 상기 마이크로폰 오디오 신호를 심층 신경망 모듈에 입력하는 단계(S3);
    상기 심층 신경망 모듈은 예측을 거쳐 융합 노이즈 저감 후의 음성을 획득하는 단계(S4)
    포함하는 것을 특징으로 하는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
  2. 제1항에 있어서,
    상기 하이패스 필터링 모듈은 상기 골진동 센서 오디오 신호 직류 오프셋을 보정하고, 저주파 클러터 신호를 필터링하여 제거하는 것을 특징으로 하는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
  3. 제2항에 있어서,
    상기 골진동 센서 오디오 신호는 하이패스 필터링 처리를 거친 후, 더 바람직하게는, 고주파 복원을 통해, 즉 대역 확장의 방법으로, 진일보하게 주파수 범위를 확장하고, 상기 골진동 센서 오디오 신호를 2kHz 이상까지 확장하고, 그 후 그것을 상기 심층 신경망 모듈에 입력하는 것을 특징으로 하는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
  4. 제3항에 있어서,
    골진동 센서 신호를 고주파 복원(대역 확장)을 거친 후의 결과도 바로(직접) 본 발명 출력으로 삼을 수 있는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
  5. 제1항에 있어서,
    상기 심층 신경망 모듈은 융합 모듈을 더 포함하고, 상기 융합 모듈은 상기 마이크로폰 오디오 신호 및 상기 골진동 센서 오디오 신호를 융합하고 노이즈를 저감하는 것을 특징으로 하는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
  6. 제5항에 있어서,
    상기 심층 신경망 모듈의 일종의 달성 방법은 컨볼루션 순환 신경망을 통한 달성이고, 예측을 통해 순수 음성 진폭 스펙트럼을 획득하는 것을 특징으로 하는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
  7. 제1항에 있어서,
    상기 심층 신경망 모듈은 복수 층의 컨볼루션 네트워크, 복수 층의 LSTM(Long Short Term Memory) 네트워크 및 서로 대응되는 복수 층의 디컨볼루션 네트워크로 구성되는 것을 특징으로 하는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
  8. 제6항에 있어서,
    상기 심층 신경망 모듈의 트레이닝 타겟은 상기 순수 음성 진폭 스펙트럼이고, 우선 상기 순수 음성을 단기 푸리에(Fourier) 변환을 거친 후, 트레이닝 타겟인 상기 순수 음성 진폭 스펙트럼(즉, 타겟 진폭 스펙트럼)을 획득하는 것을 특징으로 하는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
  9. 제6항에 있어서,
    상기 심층 신경망 모듈의 입력 신호는 상기 골진동 센서 오디오 신호의 진폭 스펙트럼 및 상기 마이크로폰 오디오 신호의 진폭 스펙트럼을 중첩하여 생성되고;
    우선 상기 골진동 센서 오디오 신호 및 상기 마이크로폰 오디오 신호를 각각 단기 푸리에 변환을 거친 후, 각각 2개의 진폭 스펙트럼을 획득하고, 중첩을 수행하는 것을 특징으로 하는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
  10. 제9항에 있어서,
    중첩 후의 진폭 스펙트럼을 상기 심층 신경망 모듈을 거쳐, 예측 진폭 스펙트럼을 획득하고, 출력하는 것을 특징으로 하는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
  11. 제8항 또는 제10항에 있어서,
    상기 타겟 진폭 스펙트럼 및 상기 예측 진폭 스펙트럼을 평균 제곱 오차로 하는 것을 특징으로 하는,
    골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 노이즈 저감 방법.
KR1020207028217A 2019-10-09 2019-10-09 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법 KR102429152B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/110080 WO2021068120A1 (zh) 2019-10-09 2019-10-09 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法

Publications (2)

Publication Number Publication Date
KR20210043485A true KR20210043485A (ko) 2021-04-21
KR102429152B1 KR102429152B1 (ko) 2022-08-03

Family

ID=75436918

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207028217A KR102429152B1 (ko) 2019-10-09 2019-10-09 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법

Country Status (5)

Country Link
US (1) US20220392475A1 (ko)
EP (1) EP4044181A4 (ko)
JP (1) JP2022505997A (ko)
KR (1) KR102429152B1 (ko)
WO (1) WO2021068120A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240249740A1 (en) * 2021-09-30 2024-07-25 Sonos, Inc. Noise reduction using synthetic audio
US20240005937A1 (en) * 2022-06-29 2024-01-04 Analog Devices International Unlimited Company Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model
CN115171713A (zh) * 2022-06-30 2022-10-11 歌尔科技有限公司 语音降噪方法、装置、设备及计算机可读存储介质
JP2024044550A (ja) * 2022-09-21 2024-04-02 株式会社メタキューブ デジタルフィルタ回路、方法、および、プログラム
CN116030823B (zh) * 2023-03-30 2023-06-16 北京探境科技有限公司 一种语音信号处理方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986834A (zh) * 2018-08-22 2018-12-11 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN109767783A (zh) * 2019-02-15 2019-05-17 深圳市汇顶科技股份有限公司 语音增强方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08223677A (ja) * 1995-02-15 1996-08-30 Nippon Telegr & Teleph Corp <Ntt> 送話器
JP2003264883A (ja) * 2002-03-08 2003-09-19 Denso Corp 音声処理装置および音声処理方法
JP2008042740A (ja) * 2006-08-09 2008-02-21 Nara Institute Of Science & Technology 非可聴つぶやき音声採取用マイクロホン
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
FR2974655B1 (fr) * 2011-04-26 2013-12-20 Parrot Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres".
US9711127B2 (en) * 2011-09-19 2017-07-18 Bitwave Pte Ltd. Multi-sensor signal optimization for speech communication
US10090001B2 (en) * 2016-08-01 2018-10-02 Apple Inc. System and method for performing speech enhancement using a neural network-based combined symbol
CN107452389B (zh) 2017-07-20 2020-09-01 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN108231086A (zh) * 2017-12-24 2018-06-29 航天恒星科技有限公司 一种基于fpga的深度学习语音增强器及方法
CN109346075A (zh) 2018-10-15 2019-02-15 华为技术有限公司 通过人体振动识别用户语音以控制电子设备的方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986834A (zh) * 2018-08-22 2018-12-11 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN109767783A (zh) * 2019-02-15 2019-05-17 深圳市汇顶科技股份有限公司 语音增强方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR102429152B1 (ko) 2022-08-03
JP2022505997A (ja) 2022-01-17
WO2021068120A1 (zh) 2021-04-15
EP4044181A4 (en) 2023-10-18
US20220392475A1 (en) 2022-12-08
EP4044181A1 (en) 2022-08-17

Similar Documents

Publication Publication Date Title
TWI763073B (zh) 融合骨振動感測器信號及麥克風信號的深度學習降噪方法
KR102429152B1 (ko) 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
CN111916101B (zh) 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及***
CN109195042B (zh) 低功耗的高效降噪耳机及降噪***
CN110010143B (zh) 一种语音信号增强***、方法及存储介质
KR20130108063A (ko) 다중 마이크로폰의 견고한 잡음 억제
WO2022027423A1 (zh) 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及***
KR20170053623A (ko) 사운드 소스들을 향상시키기 위한 방법 및 장치
EP3005362B1 (en) Apparatus and method for improving a perception of a sound signal
CN103219012A (zh) 一种基于声源距离的双麦克风噪声消除方法及装置
CN102469387B (zh) 抑制噪音***与方法
CN110931027A (zh) 音频处理方法、装置、电子设备及计算机可读存储介质
US10972844B1 (en) Earphone and set of earphones
CN112019967B (zh) 一种耳机降噪方法、装置、耳机设备及存储介质
US11206485B2 (en) Audio processing using distributed machine learning model
CN110830870B (zh) 一种基于传声器技术的耳机佩戴者语音活动检测***
WO2021012403A1 (zh) 一种双传感器语音增强方法及实现装置
CN105957536B (zh) 基于通道聚合度频域回声消除方法
Stachurski et al. Sound source localization for video surveillance camera
CN103402038A (zh) 手机免提状态下消除对方听筒回音的方法及装置
CN116403592A (zh) 一种语音增强方法、装置、电子设备、芯片及存储介质
CN107017006B (zh) 基于无限冲击响应滤波器的模拟亚音尾音检测方法及***
CN207518804U (zh) 用于脖戴式语音交互耳机的远程通讯装置
CN207518801U (zh) 用于脖戴式语音交互耳机的远程音乐播放装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant