KR101777302B1 - 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법 - Google Patents

음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법 Download PDF

Info

Publication number
KR101777302B1
KR101777302B1 KR1020160094221A KR20160094221A KR101777302B1 KR 101777302 B1 KR101777302 B1 KR 101777302B1 KR 1020160094221 A KR1020160094221 A KR 1020160094221A KR 20160094221 A KR20160094221 A KR 20160094221A KR 101777302 B1 KR101777302 B1 KR 101777302B1
Authority
KR
South Korea
Prior art keywords
unit
frequency
voice
voice signal
receiving unit
Prior art date
Application number
KR1020160094221A
Other languages
English (en)
Inventor
안강헌
Original Assignee
충남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충남대학교산학협력단 filed Critical 충남대학교산학협력단
Priority to PCT/KR2017/004021 priority Critical patent/WO2017183857A1/ko
Priority to US16/089,023 priority patent/US10930279B2/en
Application granted granted Critical
Publication of KR101777302B1 publication Critical patent/KR101777302B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G06F15/18
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N99/005
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Discrete Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법에 관한 것으로, 본 발명의 실시예에 따른 음성 주파수 분석 시스템은 음성신호를 수신하고 수신된 음성신호에 대응하는 진행파를 생성하는 음성신호 수신부, 음성신호 수신부로 광을 조사하는 발광부, 발광부를 통해 조사된 광에 기초하여 음성신호 수신부를 통해 투과되는 광을 측정하여 영상 패턴을 생성하는 영상 생성부, 그리고 생성된 영상 패턴을 머신러닝을 이용하여 분석하는 주파수 분석부를 포함한다.

Description

음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법{VOICE FREQUENCY ANALYSYS SYSTEM AND METHOD, VOICE RECOGNITION SYSTEM AND METHOD USING VOICE FREQUENCY ANALYSYS SYSTEM}
본 발명은 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법에 관한 것으로, 인공 기저막을 통해 수신되는 음성 신호를 시각적 신호로 변환하고 머신러닝을 이용하여 음성의 주파수를 분석하고 음성인식을 수행하는 시스템 및 방법에 관한 것이다.
종래 음성인식을 위한 특징 추출 방법으로는 LPC 필터를 이용하여 특징을 추출하는 LPC(Linear Prediction coding)와 고속 푸리에 변환(FFT)에 기초하여 특징을 추출하는 MFCC(Mel-Frequency Cepstral Coefficients)가 있다. MFCC는 인간의 귀의 특성을 고려하는 점에서 LPC 대비 잡음에 강하며 인식성능이 뛰어나 널리 활용되고 있으나, 마이크로폰을 통해 수신된 음성신호를 저장한 후 고속 푸리에 변환(FFT) 및 MFCC를 수행하는 데에 많은 시간이 소요된다.
음성은 자음과 모음이 결합하여 소리의 단위를 이루므로 음성인식에서 자음과 모음을 추출하기 위해서는 음성신호를 시간 영역에서 주파수 영역으로 전환하는 푸리에 변환을 수행해야 한다. 이때, 신호 처리 과정에서 신호 처리 지연 시간이 10ms 이상이 되는 경우 사람이 시간 지연을 감지할 수 있으므로, 이를 방지하기 위해 대부분의 푸리에 변환에서는 약 10ms의 프레임을 사용한다. 이로 인해, 발음시간이 약 150ms인 모음은 10개 이상의 프레임을 이용하여 인식할 수 있으나, 발음시간이 약 17ms인 자음은 2개의 프레임을 이용하여 인식하므로 자음은 모음 대비 인식율이 낮다. 또한, 자음은 모음 대비 주파수 성분이 불규칙적이며 진폭이 작아 외부 노이즈로 인해 왜곡되기 쉽다는 점에서 인식 정확도가 낮을 수 있다.
종래 음성인식시스템에서는 인식된 음성을 분석하여 자음 후보군을 추출하고 문장 전체를 다 듣고 난 후 문장에 적합한 하나의 자음을 선택하는 방법을 사용하고 있으나, 문장을 다 듣고 난 후 문장에 적합한 자음을 선택하여 문장을 인식하므로 실시간 음성인식이 어렵고 인식 정확도가 낮다.
본 발명의 하나의 실시예가 해결하려는 과제는 인공 기저막을 통해 음성 신호를 수신하고 수신된 음성 신호를 시각적 신호로 변환하여 음성의 주파수를 분석하는 시스템 및 방법을 제공하는 것이다.
본 발명의 하나의 실시예가 해결하려는 과제는 인공 기저막을 통해 음성 신호를 수신하여 영상 패턴을 생성하고 생성된 영상 패턴을 분석하여 음성 인식을 수행하는 시스템 및 방법을 제공하는 것이다.
본 발명의 하나의 실시예가 해결하려는 과제는 머신러닝을 통해 인공 기저막의 움직임에 대응하는 영상 패턴을 분석하여 주파수를 식별하고 음성인식을 수행하는 시스템 및 방법을 제공하는 것이다.
상기 과제 이외에도 구체적으로 언급되지 않은 다른 과제를 달성하는 데 본 발명에 따른 실시예가 사용될 수 있다.
상기 과제를 해결하기 위해 본 발명의 하나의 실시예는, 음성신호를 수신하고 수신된 음성신호에 대응하는 진행파를 생성하는 음성신호 수신부, 음성신호 수신부로 광을 조사하는 발광부, 발광부를 통해 조사된 광에 기초하여 음성신호 수신부를 통해 투과되는 광을 측정하여 영상 패턴을 생성하는 영상 생성부, 그리고 생성된 영상 패턴을 머신러닝을 이용하여 분석하는 주파수 분석부를 포함하는 음성 주파수 분석 시스템을 제안한다.
여기서, 음성신호 수신부는 기저막을 포함하는 파브리페로의 간섭계(Fabry-Perot interferometer)일 수 있다.
또한, 음성신호 수신부는, 제1 방향으로 수신되는 음성신호에 기초하여 제2 방향의 진행파를 생성하는 제1 레이어, 제1 레이어 하단에 위치하며 제1 레이어로부터 반사되는 광을 투과시키는 제2 레이어, 그리고 제1 레이어와 제2 레이어 사이에 위치하며 발광부를 통해 조사된 광이 반사되는 내부 공간이 형성되어 있는 지지부를 포함할 수 있다.
또한, 제1 방향과 제2 방향은 수직일 수 있다.
또한, 제1 레이어는 진행파에 대응하는 강성을 가질 수 있다.
또한, 제1 레이어는 다양한 두께 또는 길이를 포함할 수 있다.
또한, 제2 레이어는 투명한 재료를 포함하며 일정한 두께를 가질 수 있다.
또한, 발광부는 LED(Light Emitting Diode), LD(Laser Diode), 또는 반도체 레이저(Semiconductor Laser)일 수 있다.
또한, 영상 생성부는 CMOS(Complementary Metal-Oxide Semiconductor) 이미지 센서 또는 CCD(Charge-Coupled Device) 이미지 센서일 수 있다.
또한, 주파수 분석부는 피드포워드(feedforward) 기반의 인공 신경망 학습과 역전파(back propagation) 학습을 통해 영상 패턴에 기초하여 수신된 음성신호의 주파수를 식별할 수 있다.
상기 과제를 해결하기 위해 본 발명의 하나의 실시예는, 음성신호를 수신하고 수신된 음성신호에 대응하는 진행파를 생성하는 음성신호 수신부, 음성신호 수신부로 광을 조사하는 발광부, 발광부를 통해 조사된 광에 기초하여 음성신호 수신부를 통해 투과되는 광을 측정하여 영상 패턴을 생성하는 영상 생성부, 그리고 영상 패턴을 분석하여 음성인식을 수행하는 음성 인식부를 포함하는 음성 인식 시스템을 제안한다.
여기서, 영상 패턴을 머신러닝을 이용하여 분석하는 주파수 분석부를 더 포함하며, 음성 인식부는 분석결과에 기초하여 음성인식을 수행할 수 있다.
상기 과제를 해결하기 위해 본 발명의 하나의 실시예는, 음성신호 수신부를 통해 외부 음성신호를 수신하고 수신된 음성신호에 대응하는 진행파를 생성하는 단계, 발광부를 통해 음성신호 수신부로 광을 조사하는 단계, 영상 생성부를 통해 조사된 광에 의해 음성신호 수신부를 통해 투과되는 광을 측정하여 영상 패턴을 생성하는 단계, 그리고 주파수 분석부를 통해 생성된 영상패턴을 분석하여 수신된 음성신호의 주파수를 식별하는 단계를 포함하는 음성 주파수 분석 방법을 제안한다.
여기서, 진행파 생성 단계는 제1 방향의 음성신호를 수신하고 제2 방향으로 진행파를 생성할 수 있다.
또한, 영상 패턴 생성 단계는 수신된 음성신호의 주파수별 영상 패턴을 생성할 수 있다.
또한, 주파수 식별 단계는 피드포워드(feedforward) 기반의 인공 신경망 학습과 역전파(back propagation) 학습을 통해 수신된 음성신호의 주파수를 식별할 수 있다.
상기 과제를 해결하기 위해 본 발명의 하나의 실시예는, 음성신호 수신부를 통해 외부 음성신호를 수신하고 수신된 음성신호에 대응하는 진행파를 생성하는 단계, 발광부를 통해 음성신호 수신부로 광을 조사하는 단계, 영상 생성부를 통해 조사된 광에 의해 음성신호 수신부를 통해 투과되는 광을 측정하여 영상 패턴을 생성하는 단계, 그리고 음성 인식부를 통해 영상 패턴을 분석하여 음성인식을 수행하는 단계를 포함하는 음성 인식 방법을 제안한다.
여기서, 주파수 분석부를 통해 영상패턴을 분석하여 수신된 음성신호의 주파수를 식별하는 단계를 더 포함하며, 음성인식단계는 주파수 식별결과에 기초하여 음성인식을 수행할 수 있다.
본 발명의 하나의 실시예에 따르면 음성의 주파수 분석 및 음성 인식을 실시간으로 수행할 수 있다. 또한, 음성의 주파수 분석 및 음성 인식에 소요되는 시간 및 소비전력을 감소시킬 수 있다.
도 1은 본 발명의 하나의 실시예에 따른 음성 주파수 분석 시스템의 구성을 나타낸다.
도 2는 본 발명의 하나의 실시예에 따른 음성신호 수신부의 구조를 나타낸다.
도 3은 도 2의 음성신호 수신부의 제조 방법을 나타낸다.
도 4는 본 발명의 하나의 실시예에 따른 음성신호 수신부, 발광부 및 영상 생성부의 구현 예시이다.
도 5는 본 발명의 하나의 실시예에 따른 음성신호 수신부의 기울기 강성과 진동의 관계를 나타내는 모델이다.
도 6은 하나의 진동 사이클 시간에 생성되는 피크 포인트와 파장 포락선을 나타낸다.
도 7은 본 발명의 하나의 실시예에 따른 기저막 변위의 위치 의존적 분산(position-dependent variance)을 나타낸다.
도 8은 도 4의 영상 생성부를 통해 생성된 영상의 예시이다.
도 9는 신경망을 도식화하여 나타낸다.
도 10은 본 발명의 실시예에 따른 역전파 방법을 이용하는 훈련방법을 나타낸다.
도 11은 종래 훈련 방법을 이용한 인공 신경망 모델의 시뮬레이션 결과를 나타낸다.
도 12는 본 발명의 하나의 실시예에 따른 훈련 방법을 이용한 인공 신경망 모델의 시뮬레이션 결과를 나타낸다.
도 13은 도 1의 음성 주파수 분석 시스템을 이용하는 음성 주파수 분석 방법을 나타낸다.
도 14는 본 발명의 하나의 실시예에 따른 음성 인식 시스템의 구성을 나타낸다.
도 15는 본 발명의 실시예에 따른 제1 레이어의 움직임 시뮬레이션 결과이다.
도 16은 도 14의 음성 인식 시스템을 이용한 음성 인식 방법을 나타낸다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대해 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며 명세서 전체에서 동일 또는 유사한 구성요소에 대해서는 동일한 도면부호가 사용되었다. 또한, 널리 알려진 공지기술의 경우 그 구체적인 설명은 생략한다.
본 명세서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
본 명세서에서, "주파수 분해능(frequency resolution)"은 음성신호 자극시 시간에 따른 주파수의 변화를 판단하는 능력을 의미하며, "음성신호"는 복수의 주파수를 포함하는 인간의 음성을 의미한다.
도 1은 본 발명의 하나의 실시예에 따른 음성 주파수 분석 시스템의 구성을 나타낸다.
도 1의 음성 주파수 분석 시스템은 음성신호 수신부(100), 발광부(200), 영상 생성부(300), 그리고 주파수 분석부(400)를 포함한다.
음성신호 수신부(100)는 외부에서 전달되는 음성신호를 수신한다. 본 발명의 실시예에 따른 음성신호 수신부(100)는 인공 기저막을 포함하는 파브리페로의 간섭계(Fabry-Perot interferometer)로 구현된다. 여기서, 인공 기저막은 인간의 달팽이관 내부의 기저막(Basilar Membrane)을 모방한 형태이며, 수신된 음성신호의 주파수에 기초하여 서로 다른 위치에서 진동을 발생시킨다.
아래에서는 도 2와 도 3을 참조하여 음성신호 수신부에 대해 상세히 설명한다.
도 2는 본 발명의 하나의 실시예에 따른 음성신호 수신부의 구조를 나타낸다.
도 2의 (a)는 음성신호 수신부의 측면도이며, (b)는 음성신호 수신부의 평면도이다.
도 2의 (a)에서 보면, 음성신호 수신부(110)는 음성신호를 수신하며 수신된 음성신호에 기초하여 진동을 발생시키는 제1 레이어(111), 제1 레이어(111)에서 발생되는 진동에 대응하는 빛을 투과시키는 제2 레이어(112), 그리고 제1 레이어(111)와 제2 레이어(112) 사이에 위치하여 제1 레이어(111)를 지지하는 지지부(113)를 포함한다.
제1 레이어(111)는 수신되는 음성신호에 대응하는 강성을 갖는 기저막으로 구현되며 감광성 고분자(photosensitive polymer)를 포함한다. 이때, 기저막의 강성은 질량 또는 길이에 의해 결정된다. 이에 따라, 기저막은 (a)와 같이 다양한 두께(D, D', D'')(질량)로 구현되거나, (b)와 같이 윗변(E)과 아랫변(E')의 길이가 상이한 형태로 구현되거나, 또는 다양한 질량 및 길이를 포함하는 형태로 구현될 수 있다. 예를 들어, 기저막은 (b)에서 보듯이 윗변(E)이 아랫변(E')보다 큰 사다리꼴 형상일 수 있다.
제2 레이어(112)는 투명한 재료를 포함하며 일정한 두께를 갖도록 구현된다. 예를 들어, 유리(glass), 폴리에틸렌(polyethylene), 폴리카보네이트(polycarbonate) 및 메타크릴수지(methacrylic resin) 중 하나를 포함할 수 있다.
지지부(113)는 제1 레이어(111)와 제2 레이어(112)의 양단을 지지하며 제1 레이어(111)와 제2 레이어(112)로 형성되는 내부 공간(S)을 포함한다. 여기서, 지지부(113)는 실리콘을 포함할 수 있다.
도 3은 도 2의 음성신호 수신부의 제조 방법을 나타낸다.
먼저, 실리콘 웨이퍼(114) 위에 감광성 고분자(115)를 코팅하고(S10), 그레이-스케일 포토리소그래피(gray-scale photolithography)를 통해 다양한 두께를 갖는 제1 레이어(111)를 형성한다(S20). 이후, 딥 반응성 이온 에칭(deep reactive ion etching)을 통해 지지부(113)를 형성한다(S30). 이후, S30 단계에서 형성된 지지부(113) 아래에 유리를 접합하여 제2 레이어(112)를 형성한다(S40).
다시 도 1의 설명으로 돌아가서, 발광부(200)는 음성신호 수신부(100)의 제1 레이어(111)에서 발생되는 진동을 측정하기 위한 광을 제공한다. 발광부(200)는 LED(Light Emitting Diode), LD(Laser Diode) 및 반도체 레이저(Semiconductor Laser) 중 하나로 구현될 수 있다.
영상 생성부(300)는 발광부(200)에서 제공되는 광을 이용하여 제1 레이어(111)에서 발생되는 진동에 대응하는 영상 패턴을 생성한다. 영상 생성부(300)는 CMOS(Complementary Metal-Oxide Semiconductor) 이미지 센서 또는 CCD(Charge-Coupled Device) 이미지 센서로 구현될 수 있다.
도 4는 본 발명의 하나의 실시예에 따른 음성신호 수신부, 발광부 및 영상 생성부의 구현 예시이다.
도 4에서 보면, 음성신호 수신부(100)에 음성신호가 수신되는 경우 발광부(200)를 통해 진동이 발생된 제1 레이어(111)로 광을 조사하고, 영상 생성부(300)를 통해 제2 레이어(112)를 통해 투과되는 광을 수신하여 영상 패턴을 생성한다. 본 발명의 실시예에 따른 발광부(200)는 저전력 LED로 구현하고, 영상 생성부(300)는 저전력 CMOS 이미지 센서로 구현할 수 있다.
도 4에서 제1 레이어(111)에 발생되는 진동은 제1 레이어(111)와 수직방향으로 진행하는 진행파(traveling wave)이며, 진행파는 공진이 거의 발생하지 않는다는 점에서 정상파(standing wave)보다 주파수 분해능이 좋다. 또한, 종래 달팽이관의 기저막을 모방하는 음성신호 센싱 장치에서는 귓속뼈(Stapes)에 대응하는 구성에 가해진 음성신호 자극을 기저막 전체 영역으로 전달하기 위해 유체를 사용하나, 본 발명의 실시예에 따른 음성신호 수신부에서는 기저막(제1 레이어)을 연속되는 다양한 두께를 갖도록 구현하고 기저막에 음성신호 자극을 직접 인가하여 유체 없이 진행파를 생성하고 광학적으로 측정함으로써 감도를 향상시키고 전력소비를 감소시킬 수 있다.
아래에서는 도 5 내지 도 7을 참조하여 음성신호 수신부에서 생성되는 진행파의 특징에 대해 설명한다. 진행파 에너지는 아래 수학식 1과 같다.
Figure 112016072097332-pat00001
여기서, mi는 질량(mass), ui는 수직 변위(vertical displacement), ki′는 inter-mass coupling stiffness, ki는 국부 강성(local stiffness), 그리고 γ는 기저막(제1 레이어)의 i번째 유한 요소의 손실 계수(dissipation constant)이다.
도 5는 본 발명의 하나의 실시예에 따른 음성신호 수신부의 기울기 강성과 진동의 관계를 나타내는 모델이며, 도 6은 하나의 진동 사이클 시간에 생성되는 피크 포인트와 파장 포락선을 나타낸다.
도 5에서 보면, 달팽이관에 유체가 존재하는 것과 같이 동일한 자극 f(t)를 각각의 위치에 적용하는 경우 왼쪽에서 오른쪽으로 질량이 증가하는 동안 강성은 감소함을 알 수 있다. 이로 인해, 도 6에서 보듯이, 높은 주파수 진행파의 피크 포지션일수록 왼쪽에 위치함을 알 수 있다.
fa < f < fb 의 주파수 윈도우(표준 파장)에서 스펙트럼 분석시 기저막에 진행파를 생성하기 위해 필요한 최소 시간(Tmembrane)은 아래의 수학식 2와 같다.
Figure 112016072097332-pat00002
이는 요구되는 시간(Tmembrane)이 주파수 분해능에 의존적이지 않음을 나타낸다.
반면, 수치해석 푸리에 변환을 포함하는 종래 마이크로폰 분석에서는 주어진 시간 동안 데이터를 수신하고, 아래의 수학식 3과 같이 데이터 수신 시간은 주파수 분해능(δf)의 역에 의해 산출한다. 이로 인해, 최소 시간(Tmicrophone)은 주파수 분해능(δf)에 의해 결정된다.
Figure 112016072097332-pat00003
따라서, 가장 낮은 주파수 영역(fa)이 주파수 분해능(δf)보다 큰 경우 기저막을 이용하는 푸리에 분석에 소요되는 시간(Tmembrane)은 마이크로폰을 이용하는 푸리에 분석에 소요되는 시간(Tmicrophone)보다 짧다.
도 7은 본 발명의 하나의 실시예에 따른 기저막 변위의 위치 의존적 분산(position-dependent variance)을 나타낸다.
도 7은 광학적 측정을 통해 아래의 수학식 4와 같이 평균화된 변위의 제곱을 산출한 결과를 나타낸다.
Figure 112016072097332-pat00004
도 7에서는 70개의 주파수(f1, f2, f3, … ,f70)에 대응하는 평균화된 변위의 제곱 값이 서로 다르게 나타나며, 생물학적 기저막과 유사한 피크 구조를 보이는 것을 확인할 수 있다. 구체적으로, 본 발명의 실시예에 따른 기저막(제1 레이어)을 이용하는 푸리에 분석에 소요되는 시간(Tmembrane)은 저주파수 영역에 의해 결정되므로 도 7에서 시간(Tmembrane)은 1/(f30)이나, 마이크로폰을 이용하는 푸리에 분석에 소요되는 시간(Tmicrophone)은 1/f1이 되어 1/(f30)보다 크다.
따라서, 신호 처리 시간을 감소시킴으로써 자음 인식 성능 및 정확도를 향상시킬 수 있다.
도 8은 도 4의 영상 생성부를 통해 생성된 영상의 예시이다.
도 8의 (a)는 음성신호가 수신되지 않는 경우 영상 생성부(300)를 통해 생성된 영상이며, (b), (c), (d), (e) 및 (f)는 각각 100Hz, 150Hz, 200Hz, 250Hz 및 300Hz의 주파수를 갖는 음성신호가 수신되는 경우 영상 생성부(300)를 통해 생성된 영상이다.
다시 도 1의 설명으로 돌아가서, 주파수 분석부(400)는 머신러닝(Machine Learning)을 이용하여 영상 생성부(300)에서 생성된 영상 패턴을 분석한다. 본 발명의 실시예에 따른 주파수 분석부(400)는 피드포워드 신경망에 기초하여 음성신호 수신부(100)에서 수신된 음성신호의 주파수를 분석할 수 있다.
아래에서는 본 발명의 실시예에 따른 피드포워드 기반의 인공 신경망 학습방법에 대해 상세히 설명한다.
인공 신경망 모델에서 뉴런은 입력과 연결 강도의 가중치 합을 산출하여 활성화 함수를 통해 출력하며, l번째 층의 j번째 뉴런의 활성화 함수(aj l)는 아래의 수학식 5와 같다. 이때, 활성화 함수는 음성신호 자극이 주어지는 경우 음성신호를 활성화할 것인지 비활성화할 것인지 결정하는데 사용된다.
Figure 112016072097332-pat00005
여기서, σ(x)는 시그모이드 함수(sigmoid function)이고, wjk l은 l번째 층의 k번째 뉴런과 l번째 층의 j번째 뉴런 사이의 연결을 위한 가중치 요소이며, bj l은 l번째 층의 j번째 뉴런을 위한 파라미터 제어 임계값이다.
인공 신경망 훈련(분류화 또는 최적화라고도 함) 방법은 오차를 최소화하는 것으로 오차는 아래 수학식 6과 같다.
Figure 112016072097332-pat00006
여기서,
Figure 112016072097332-pat00007
는 입력 데이터 세트 x를 위한 원하는 출력이고, L은 출력층의 인덱스이다.
종래에는 오차 C를 최소화하기 위해 아래 수학식 7의 최대 경사법(steepest gradient method)를 사용하였으나(여기서, η는 학습률 파라미터(learning rate parameter)이다.), 본 발명의 실시예에서는 신경망이 많은 층을 포함할수록 최대 경사법을 이용하여 오차 함수를 최소화하는 과정이 복잡해지는 문제를 해결하기 위해 아래 수학식 8을 통해 오차 C를 최소화한다.
Figure 112016072097332-pat00008
Figure 112016072097332-pat00009
여기서, zj l은 역전파 방법(back propagation method)으로 아래 수학식 9와 같다.
Figure 112016072097332-pat00010
다양한 주파수에 대응하는 기저막의 응답을 분류하기 위한 신경망의 입력 데이터는 기저막의 시간 평균화된 로컬 진폭이다. 이때, 신경망의 가중치 요소와 임계값은 훈련을 통해 획득할 수 있다.
도 9는 신경망을 도식화하여 나타내며, 도 10은 역전파 방법을 이용하는 훈련방법을 나타낸다.
도 10에서 보면, 훈련 결과에 따라 오답인 로컬 트랩에 도달하는 경우 로컬 트랩의 전구체(precursor)를 인지하고 한 단계 후진으로 탈출한 후 랜덤하게 전진하여 오류 최소화 반복을 수행한다.
도 11은 종래 훈련 방법을 이용한 인공 신경망 모델의 시뮬레이션 결과를 나타내며, 도 12는 본 발명의 하나의 실시예에 따른 훈련 방법을 이용한 인공 신경망 모델의 시뮬레이션 결과를 나타낸다.
도 11과 도 12에서 입력 데이터는 70개의 서로 다른 주파수에 대응하는 기적막의 시간 평균화된 진폭의 위치(40개)이다(도 8).
도 11은 수학식 7을 통해 오차를 최소화한 결과를 나타낸 것으로 오랜 훈련에도 100% 최소화를 달성하지 못한 것을 확인할 수 있으며, 도 12는 수학식 8 및 9를 통해 오차를 최소화한 결과를 나타낸 것으로 단시간에 오차를 최소화한 결과를 확인할 수 있다.
이로 인해, 본 발명의 실시예에서는 시간 영역의 데이터 개수와 주파수 영역의 푸리에 성분의 개수가 동일한 종래 푸리에 변환방법과 달리 40개의 입력을 이용하여 70개의 다른 주파수에 대응하는 기저막의 응답을 분류할 수 있음을 확인할 수 있다. 따라서, 단시간에 주파수를 식별할 수 있다.
도 13은 본 발명의 하나의 실시예에 따른 음성 주파수 분석 방법을 나타낸다.
먼저, 음성신호 수신부(100)를 통해 외부 음성신호를 수신하고 기저막(제1 레이어)의 진행파 발생을 감지한다(S100).
이후, S100 단계에서 진행파가 감지되는 경우 발광부(200)를 통해 음성신호 수신부(100)에 광을 조사한다(S200).
이후, 영상 생성부(300)를 통해 음성신호 수신부(100)로부터 투과되는 광을 측정하여 영상 패턴을 생성한다(S300).
이후, 주파수 분석부(400)를 통해 S300 단계에서 생성된 영상 패턴을 머신러닝을 이용하여 분석하여 주파수를 식별한다(S400).
도 14는 본 발명의 하나의 실시예에 따른 음성 인식 시스템의 구성을 나타낸다.
도 14의 음성 인식 시스템은 음성신호 수신부(500), 발광부(600), 영상 생성부(700), 주파수 분석부(800), 그리고 음성 인식부(900)를 포함한다. 여기서, 음성신호 수신부(500), 발광부(600), 영상 생성부(700) 그리고 주파수 분석부(800)는 도 1의 음성신호 수신부(100), 발광부(200), 영상 생성부(300), 그리고 주파수 분석부(400)와 동일한 기능을 수행하므로 중복되는 설명은 생략한다.
도 14의 음성 인식부(900)는 영상 생성부(700)를 통해 생성된 영상 패턴을 분석하여 음성인식을 수행한다.
도 15는 본 발명의 실시예에 따른 제1 레이어의 움직임 시뮬레이션 결과이다.
도 15의 (A)는 음성신호 '가'의 자음 부분의 신호에 대한 압력에 대응하는 제1 레이어의 움직임을 시뮬레이션한 결과이며, (B)는 음성신호 '바'의 자음 부분의 신호에 대한 압력에 대응하는 제1 레이어의 움직임을 시뮬레이션한 결과이고, (C)는 음성신호 '다'의 자음 부분의 신호에 대한 압력에 대응하는 제1 레이어의 움직임을 시뮬레이션한 결과이다.
도 15에서 보면, '가', '바', 그리고 '다'의 자음 신호에 대응하는 제1 레이어의 움직임이 서로 다른 것을 확인할 수 있으며, 음성 인식부(900)는 이를 통해 주파수 분석 과정을 거치지 않고 제1 레이어의 움직임에 대응하는 영상 패턴을 분석하여 자음을 인식할 수 있다.
다시 도 14의 설명으로 돌아가서, 본 발명의 실시예에 따른 음성 인식부(900)는 주파수 분석부(800)의 주파수 분석 결과에 기초하여 음성인식을 수행한다. 예를 들어, 주파수 분석 결과에 따라 특징을 추출하고 추출된 특징을 미리 저장되어 있는 음성모델 데이터베이스와 비교하여 음성 인식 결과를 출력할 수 있다.
도 16은 도 14의 음성 인식 시스템을 이용한 음성 인식 방법을 나타낸다.
도 16의 음성 인식 방법에서 S500 단계 내지 S800 단계는 도 14의 S100 단계 내지 S400 단계와 동일하므로 중복되는 설명은 생략한다.
도 16에서는 음성 인식부(900)를 통해 S800 단계의 주파수 분석 결과에 기초하여 음소를 인식하고(910), S910 단계의 음소 인식 결과를 바탕으로 S500 단계에서 수신된 음성신호에 대응하는 단어 또는 문장을 인식하여 출력한다(S920). 또한, 음성 인식부(900)를 통해 S700 단계에서 생성된 영상 패턴을 분석하여 음소를 인식하고 단어 또는 문장을 인식하여 출력할 수 있다.
본 발명의 실시예에 따르면 주파수 분해 과정을 거치지 않더라도 음절 인식이 가능하므로 주파수 분해 과정이 필요한 종래 기술 대비 짧은 시간 내에 자음을 인식할 수 있으며, 자음 인식 성능을 향상시킬 수 있다.
본 발명의 실시예에 따른 음성 주파수 분석방법은 장치에 설치되거나 사용자에 의해 직접 설치된 프로그램으로 구현되어 컴퓨터에 의해 읽힐 수 있는 기록매체에 기록될 수 있다. 여기서, 컴퓨터는 데스크탑, 노트북, 스마트폰, 태블릿 PC, PDA(개인정보 단말기), 이동통신장치 등을 포함할 수 있다. 또한, 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 미디어 저장장치 등을 포함할 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였으나, 본 발명의 권리범위가 이에 한정되는 것은 아니며 본 발명이 속하는 분야에서 통상의 지식을 가진 자가 여러 가지로 변형 및 개량한 형태 또한 본 발명의 권리범위에 속한다.
100, 500 : 음성신호 수신부
111 : 제1 레이어
112 : 제2 레이어
113 : 지지부
200, 600 : 발광부
300, 700 : 영상 생성부
400, 800 : 주파수 분석부
900 : 음성 인식부

Claims (18)

  1. 음성신호를 수신하고 수신된 음성신호에 대응하는 진행파를 생성하는 음성신호 수신부,
    상기 음성신호 수신부로 광을 조사하는 발광부,
    상기 발광부를 통해 조사된 광에 기초하여 상기 음성신호 수신부를 통해 투과되는 광을 측정하여 영상 패턴을 생성하는 영상 생성부, 그리고
    상기 생성된 영상 패턴을 머신러닝을 이용하여 분석하는 주파수 분석부
    를 포함하는 음성 주파수 분석 시스템.
  2. 제1항에서,
    상기 음성신호 수신부는 기저막을 포함하는 파브리페로의 간섭계(Fabry-Perot interferometer)인 음성 주파수 분석 시스템.
  3. 제1항에서,
    상기 음성신호 수신부는,
    제1 방향으로 수신되는 상기 음성신호에 기초하여 제2 방향의 상기 진행파를 생성하는 제1 레이어,
    상기 제1 레이어 하단에 위치하며 상기 제1 레이어로부터 반사되는 광을 투과시키는 제2 레이어, 그리고
    상기 제1 레이어와 상기 제2 레이어 사이에 위치하며 상기 발광부를 통해 조사된 광이 반사되는 내부 공간이 형성되어 있는 지지부
    를 포함하는 음성 주파수 분석 시스템.
  4. 제3항에서,
    상기 제1 방향과 상기 제2 방향은 수직인 음성 주파수 분석 시스템.
  5. 제3항에서,
    상기 제1 레이어는 상기 진행파에 대응하는 강성을 갖는 음성 주파수 분석 시스템.
  6. 제3항에서,
    상기 제1 레이어는 다양한 두께 또는 길이를 포함하는 음성 주파수 분석 시스템.
  7. 제3항에서,
    상기 제2 레이어는 투명한 재료를 포함하며 일정한 두께를 갖는 음성 주파수 분석 시스템.
  8. 제1항에서,
    상기 발광부는 LED(Light Emitting Diode), LD(Laser Diode), 또는 반도체 레이저(Semiconductor Laser)인 음성 주파수 분석 시스템.
  9. 제1항에서,
    상기 영상 생성부는 CMOS(Complementary Metal-Oxide Semiconductor) 이미지 센서 또는 CCD(Charge-Coupled Device) 이미지 센서인 음성 주파수 분석 시스템.
  10. 제1항에서,
    상기 주파수 분석부는 피드포워드(feedforward) 기반의 인공 신경망 학습과 역전파(back propagation) 학습을 통해 상기 영상 패턴에 기초하여 상기 수신된 음성신호의 주파수를 식별하는 음성 주파수 분석 시스템.
  11. 음성신호를 수신하고 수신된 음성신호에 대응하는 진행파를 생성하는 음성신호 수신부,
    상기 음성신호 수신부로 광을 조사하는 발광부,
    상기 발광부를 통해 조사된 광에 기초하여 상기 음성신호 수신부를 통해 투과되는 광을 측정하여 영상 패턴을 생성하는 영상 생성부, 그리고
    상기 영상 패턴에 기초하여 음성인식을 수행하는 음성 인식부
    를 포함하는 음성 인식 시스템.
  12. 제11항에서,
    상기 영상 패턴을 머신러닝을 이용하여 분석하는 주파수 분석부를 더 포함하며,
    상기 음성 인식부는 상기 분석결과에 기초하여 음성인식을 수행하는 음성 인식 시스템.
  13. 음성신호 수신부를 통해 외부 음성신호를 수신하고 수신된 음성신호에 대응하는 진행파를 생성하는 단계,
    발광부를 통해 상기 음성신호 수신부로 광을 조사하는 단계,
    영상 생성부를 통해 상기 조사된 광에 의해 상기 음성신호 수신부를 통해 투과되는 광을 측정하여 영상 패턴을 생성하는 단계, 그리고
    주파수 분석부를 통해 상기 생성된 영상패턴을 분석하여 상기 수신된 음성신호의 주파수를 식별하는 단계
    를 포함하는 음성 주파수 분석 방법.
  14. 제13항에서,
    상기 진행파 생성 단계는 제1 방향의 상기 음성신호를 수신하고 제2 방향으로 상기 진행파를 생성하는 음성 주파수 분석 방법.
  15. 제13항에서,
    상기 영상 패턴 생성 단계는 상기 수신된 음성신호의 주파수별 영상 패턴을 생성하는 음성 주파수 분석 방법.
  16. 제13항에서,
    상기 주파수 식별 단계는 피드포워드(feedforward) 기반의 인공 신경망 학습과 역전파(back propagation) 학습을 통해 상기 수신된 음성신호의 주파수를 식별하는 음성 주파수 분석 방법.
  17. 음성신호 수신부를 통해 외부 음성신호를 수신하고 수신된 음성신호에 대응하는 진행파를 생성하는 단계,
    발광부를 통해 상기 음성신호 수신부로 광을 조사하는 단계,
    영상 생성부를 통해 상기 조사된 광에 의해 상기 음성신호 수신부를 통해 투과되는 광을 측정하여 영상 패턴을 생성하는 단계, 그리고
    음성 인식부를 통해 상기 영상 패턴을 분석하여 음성인식을 수행하는 단계
    를 포함하는 음성 인식 방법.
  18. 제17항에서,
    주파수 분석부를 통해 상기 영상패턴을 분석하여 상기 수신된 음성신호의 주파수를 식별하는 단계를 더 포함하며,
    상기 음성인식단계는 상기 주파수 식별결과에 기초하여 음성인식을 수행하는 음성 인식 방법.
KR1020160094221A 2016-04-18 2016-07-25 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법 KR101777302B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2017/004021 WO2017183857A1 (ko) 2016-04-18 2017-04-13 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법
US16/089,023 US10930279B2 (en) 2016-04-18 2017-04-13 Voice frequency analysis system, voice frequency analysis method, and voice recognition system and voice recognition method using the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160047085 2016-04-18
KR20160047085 2016-04-18

Publications (1)

Publication Number Publication Date
KR101777302B1 true KR101777302B1 (ko) 2017-09-12

Family

ID=59926439

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160094221A KR101777302B1 (ko) 2016-04-18 2016-07-25 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법

Country Status (3)

Country Link
US (1) US10930279B2 (ko)
KR (1) KR101777302B1 (ko)
WO (1) WO2017183857A1 (ko)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0137330B1 (ko) 1994-09-16 1998-05-15 김광호 음성인식기능을 갖는 브이시알의 음성신호처리장치 및 그 방법
JP3522954B2 (ja) 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US6754646B1 (en) * 2001-09-25 2004-06-22 Ruibo Wang Optical pulse-coupled artificial neurons
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
KR101229574B1 (ko) 2005-03-02 2013-02-05 주식회사 팬택앤큐리텔 단말기 사용자의 음성을 인식하여 단말기 사용자의 감정상태에 따라 반응하는 통신 단말기 및 그 방법과, 상기 통신단말기에서의 마이크 위치 제어 방법
US8738370B2 (en) * 2005-06-09 2014-05-27 Agi Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
US8422889B2 (en) * 2010-09-16 2013-04-16 Greenwave Reality, Pte Ltd. Noise detector in a light bulb
WO2015005679A1 (ko) 2013-07-09 2015-01-15 주식회사 윌러스표준기술연구소 음성 인식 방법, 장치 및 시스템
KR101689332B1 (ko) 2015-09-11 2016-12-23 충남대학교산학협력단 정보 기반 소리 음량 조절 장치 및 그 방법
US10157629B2 (en) * 2016-02-05 2018-12-18 Brainchip Inc. Low power neuromorphic voice activation system and method

Also Published As

Publication number Publication date
WO2017183857A1 (ko) 2017-10-26
US20190130909A1 (en) 2019-05-02
US10930279B2 (en) 2021-02-23

Similar Documents

Publication Publication Date Title
Roy et al. Listening through a vibration motor
Das et al. Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers
CN107910011A (zh) 一种语音降噪方法、装置、服务器及存储介质
Lin et al. Microphone arrays and speaker identification
KR20000004972A (ko) 음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치
KR20190113390A (ko) 호흡 질환 진단 장치 및 호흡 질환 모니터링 방법
US20150088497A1 (en) Speech processing apparatus, speech processing method, and speech processing program
Maruri et al. V-Speech: noise-robust speech capturing glasses using vibration sensors
KR100639968B1 (ko) 음성 인식 장치 및 그 방법
Guo et al. Robust speaker identification via fusion of subglottal resonances and cepstral features
US11631411B2 (en) System and method for multi-microphone automated clinical documentation
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
KR101777302B1 (ko) 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법
DiPassio et al. Direction of arrival estimation of an acoustic wave using a single structural vibration sensor
Zhu et al. Multimodal speech recognition with ultrasonic sensors
KR20120079342A (ko) 위치 기반의 음향 처리 장치 및 방법
Oprea et al. An artificial neural network-based isolated word speech recognition system for the Romanian language
Lee et al. Space-time voice activity detection
Bouziane et al. Towards an objective comparison of feature extraction techniques for automatic speaker recognition systems
Venkateswarlu et al. The performance evaluation of speech recognition by comparative approach
DiPassio et al. Estimating acoustic direction of arrival using a single structural sensor on a resonant surface
KR101250051B1 (ko) 발음 교정을 위한 음성 신호 분석 방법 및 장치
Ranjeet et al. Automatic Speech Recognition System
DiPassio III Interacting With Smart Audio Devices Using Induced Structural Vibrations
Thamburaj et al. Automatic Speech Recognition Based on Improved Deep Learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant