KR950001068B1 - 음성신호처리장치 - Google Patents

음성신호처리장치 Download PDF

Info

Publication number
KR950001068B1
KR950001068B1 KR1019940023426A KR19940023426A KR950001068B1 KR 950001068 B1 KR950001068 B1 KR 950001068B1 KR 1019940023426 A KR1019940023426 A KR 1019940023426A KR 19940023426 A KR19940023426 A KR 19940023426A KR 950001068 B1 KR950001068 B1 KR 950001068B1
Authority
KR
South Korea
Prior art keywords
section
analysis section
peak
analysis
voice
Prior art date
Application number
KR1019940023426A
Other languages
English (en)
Inventor
죠지 카네
아끼라 노하라
Original Assignee
마쯔시다덴기산교 가부시기가이샤
다니이 아끼오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2008592A external-priority patent/JP2712691B2/ja
Priority claimed from JP2026506A external-priority patent/JP2712703B2/ja
Priority claimed from JP2026507A external-priority patent/JP2712704B2/ja
Priority claimed from KR1019910000760A external-priority patent/KR960005739B1/ko
Application filed by 마쯔시다덴기산교 가부시기가이샤, 다니이 아끼오 filed Critical 마쯔시다덴기산교 가부시기가이샤
Priority to KR1019940023426A priority Critical patent/KR950001068B1/ko
Application granted granted Critical
Publication of KR950001068B1 publication Critical patent/KR950001068B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

내용없음.

Description

음성신호처리장치
제1도와 제2도는 종래예의 음성신호처리장치의 블록도.
제3도는 본 발명의 제1실시예의 블록도.
제4도는 제1실시예의 동작을 설명하기 위한 켑스트럼 특성도.
제5도는 본 발명의 제2실시에에 의한 음성신호처리장치의 블록도.
제6도는 본 발명의 제3실시예에 의한 음성신호처리장치의 블록도.
* 도면의 주요부분에 대한 부호의 설명
81, 101, 208 : 켑스트럼산출부 82, 102, 209 : 피크검출부
83 : 음성판별부 84 : 분석구간설정부
85, 211 : 분석구간분류부 86, 212 : 분석구간메모리
103 : 제어부 104 : 피크치메모리
105, 213 : 음성분석부 106, 214 : 음성검출부
107, 215 : 매칭부 210 : 분석구간처리부
본 발명은 음성처리에 사용할 수 있는 음성신호처리장치에 관한 것이다.
최근 음성인식, 화자인식, 음성에 의한 기기의 조작, 컴퓨터에의 음성에 의한 입력등의 용도에 음성의 유무를 검출하는 음성신호처리장치가 여러방면으로 이용되고 있다.
제1도는 종래의 음성신호처리장치를 표시하는 블록도로서, 도면에 의해서 이하 그 구성과 동작을 설명하면, 켑스트럼검출부(7)는 음성입력으로부터 켑스트럼을 검출해서 피크검출부에 공급한다. 피크검출부(8)는 켑스트럼으로부터 피크를 검출해서 음성판별부(9)에 공급한다. 음성판별부(9)에서는 켑스트럼의 피크를 한계치와 비교해서 음성의 유무를 판별해서 음성검출신호를 출력한다.
그러나, 이와 같은 종래의 신호처리장치에서는, 켑스트럼검출부로부터 얻은 켑스트럼의 피크를 구하기 위한 처리시간이 매우 길게 걸리고, 또한 음성에 잡음이 중첩된 경우에 음성을 착오로 검출하기 쉽다고 하는 문제점이 있었다.
또한, 제2도는 종래의 신호처리장치의 블록도이다. 도면에 도시한 바와 같이, 켑스트럼산출부(16)는 음성입력의 켑스트럼을 산출하고 피크검출부(17)에 공급한다. 피크검출부(17)는 켑스트럼산출부(16)의 켑스트럼이 공급되고, 피크를 검출해서 음성검출부(19)에 공급한다. 음성검출부(19)는 피크검출부(17)의 피크신호가 공급되고, 음성의 검출결과를 매칭부(20)에 공급한다. 음성분석부(18)는 음성입력의 분석을 행하여 매칭부(20)에 공급한다. 매칭부(20)는 음성검출부(19)로부터 공급되는 제어신호에 의해 제어되어 인식출력을 행한다.
이와같이 구성된 종래의 신호처리장치에 대해서 그 동작을 설명한다. 음성입력은 켑스트럼산출부(16)에 의해 그 켑스트럼이 산출된다.
그리고 피크검출부(17)에 의해 켑스트럼피크가 검출된다. 음성검출부(19)에서는 켑스트럼피크의 유무나 크기에 의해 음성의 유무를 판정하고, 매칭부(20)에 제어신호로서 공급한다. 한편 매칭부(20)에서 패턴매칭을 행할 수 있도록, 음성분석부(18)에 의해 음성입력을 분석하고, 분석된 음성입력을 매칭부(20)에 공급한다. 매칭부(20)에서는 음성검출부(19)로부터의 제어신호에 의해서, 음성분석부(18)에서 공급되는 신호를 기준패턴과 매칭시켜서 음성인식을 행하여 인식 출력을 얻는다. 여기서, 음성검출부(19)로부터의 제어신호는, 음성이 검출된 경우에 매칭부(20)에 매칭동작을 행하도록, 매칭부(20)를 제어한다.
그러나, 이와 같은 종래의 신호처리장치에서는, 음성이 입력된 경우에, 매칭동작을 하상 행하기 때문에, 음성인식대상외의 음성입력에 대해서도 동작하여 불필요한 신호처리를 행하게 되고, 따라서, 불필요한 처리시간이 발생하는 동시에, 착오로 인식하기 쉽다고 하는 불편이 발생하고, 또는 복수의 입력신호를 구별할 수 없었다.
본 발명의 제1목적은 켑스트럼 검출로부터 얻은 켑스트럼의 피크를 구하기 위한 처리시간이 짧은 음성신호처리장치를 제공하는데 있다.
본 발명의 제2목적은, 켑스트럼분석방법을 이용해서 음성의 검출을 정확하게 행함으로써, 인식의 대상으로 하는 음성입력에 대해서만 동작하는 장치를 제공하는데 있다.
본발명의 제3 목적은, 켑스트럼 분석을 정확하게 음성을 검출함으로써, 복수의 입력신호에 대해서 등록완료된 것만 인식동작을 효율적으로 행하는 장치를 제공하는데 있다.
상기 제1목적을 달성하기 위한 본 발명에 따른 음성신호처리장치는, 음성을 입력해서 켑스트럼을 산출하는 켑스트럼산출부와 상기 켑스트럼으로부터 지정된 분석구간에서 핑크를 검출하는 피크검출부와, 상기 피크검출출력으로부터 음성검출출력을 얻는 음성판별부와, 상기 피크검출출력으로부터 최적의 분석구간을 산출하는 동시에 상기 피크검출부에 분석구간을 지정하는 분석구간설정부와, 상기 최적의 분석구간을 기본으로 하여 분류처리한 분석구간을 기억하는 분석구간메모리와, 모드설정입력에 응답해서, 상기 분석구간설정부가 피크검출부에 지정하는 분석구간을 지정하고, 또한 상기 모드설정입력에 응답해서 상기 최적의 분석구간을 상기 분석구간메로리와 조합(照合)해서 상기 분석구간설정부에 지시하는 분석구간분류부를 구비한 것을 특징으로 한다.
본 발명은 상기한 구성에 의해, 켑스트럼산출부는 음성입력의 켑스트럼을 산출하여 피크검출부에 공급한다. 피크검출부는 분석구간설정부로부터 입력되는 분석구간에 따라서 켑스트럼산출부로부터 공급되는 켑스트럼의 피크를 검출한다.
그리고 음성판별부는 피크검출부의 신호의 일부로부터 음성의 유무를 판별해서 음성검출출력으로 한다. 여기서, 분석구간설정부의 구간설정동작과 분석구간분류부의 분류처리동작은 다음과 같이 행해진다. 먼저, 모드설정입력이 "등록"모드일 경우에는, 분석구간설정부는 미리 결정된 넓은 분석구간을 피크검출부에 공급하는 동시에, 피크검출부로부터 공급되는 음성입력에 대한 켑스트럼의 피크에 따른 최적의 분석구간을 산출해서 분석구간분류부에 공급한다. 분석구간분류부는 최적분석구간의 데이터가 분석구간메모리에 기억되고 있는 분석기간의 데이터와 비교하여 다른 종류의 것일 경우에는 분석구간메모리에 추가기억한다. 다음에 모드설정입력이 "인식"모드일 경우에는 분석구간설정부는 분석구간분류부에 지시되어 분석구간메모리로부터 공급되는 분석구간의 데이터나 미리 결정된 넓은 분석구간의 설정치를 피크검출부에 공급하는 동시에, 피크검출부로부터 공급되는 음성입력에 대한 켑스트럼의 피크에 따른 최적분석구간을 산출해서 분석구간분류부에 공급한다. 분석구간분류는 최적분석구간과 유사분석구간을 메모리로부터 선택해서 분석구간설정부에 공급하도록 지정한다. 여기서, 유사분사구간이란, 2개의 분석구간의 중첩하는 구간이 미리 결정된 비율보다 큰 것으로 한다.
상기 제2목적을 달성하기 위한 본 발명에 따른 음성신호처리장치는, 음성입력을 분석해서 분석신호를 출력하는 음성분석부와, 상기 음성입력으로부터 켑스트럼을 산출해서 출력하는 켑스트럼산출부와, 상기 켑스트럼의 피크를 검출해서 피크신호를 출력하는 피크검출부와, 상기 피크신호로부터의 음성의 유무를 판정해서 제1제어신호를 출력하는 음성검출부와, 상기 피크신호를 기억하는 피크치메모리를 형성하고, 모드 설정입력의 "설정"모드에 응답해서 상기 피크신호를 상기 메모리에 기록하고, 모드설정입력의 "인식"모드에 응답해서 상기 메모리의 피크신호와 음성입력의 켑스트럼피크신호를 비교해서, 각각의 퀴프렌시의 차에 대응해서 상기 제2제어신호를 출력하는 제어부와, 제1제어신호 및 제2제어신호의 입력에 응답해서 상기 음성분석부의 분석신호를 템플레이트와 비교하여 인식출력을 행하는 매칭부를 구비한 것을 특징으로 한다.
본 발명은 상기한 구성에 의해, 음성입력은 켑스트럼산출부와 피크검출부를 거쳐 켑스트럼의 피크가 검출된다. 그리고 음성검출부에서는 켑스트럼의 피크에 의거하여 음성의 유무의 판별을 행하고, 매칭부에 음성의 유무에 대응한 제1제어신호를 공급한다. 또 제어부에 있어서는 모드설정입력이 "등록"모드일 경우는 피크검출부에서 얻은 켑스트럼의 피크신호를 피크치메모리에 기억하고, 또 모드설정입력이 "인식"모드일 경우에는 피크검출부에서 얻은 켑스트럼의 피크신호와, 피크치메모리에 기억된 피크친신호를 비교하여, 각각의 퀴프렌시의 차에 따라서 매칭부에 제2제어신호를 공급한다. 또 음성입력은, 매칭부에서 사용할 수 있도록 음성분석부에서 분석되고, 매칭부에 의해 미리 등록되어 있는 데이터와 매칭처리를 행하여 인식출력을 얻는다. 이때 매칭처리의 동작의 개시는, 음성검출부의 제1제어신호 및 제어부의 제2제어신호에 의해서 제어된다.
즉, 음성검출부로부터의 제1제어신호는, 음성이 검출된 경우에 매칭의 동작을 개시하도록 하고, 또한 제어부로부터의 제2제어신호는, 모드설정입력이 "인식"모드일 경우에는 음성입력의 켑스트럼피크신호의 퀴프렌시값과 모드설정입력이 "설정"모드일 때에 메모리에 미리 등록된 피크신호의 퀴프렌시값 사이에 차이가 없다고 판정되며 매칭의 동작을 개시한다.
상기 제3목적을 달성하기 위한 본 발명에 따른 음성신호처리장치는, 음성입력을 분석해서 분석신호를 출력하는 음성분석부와, 음성신호로부터 켑스트럼을 산출하여 출력하는 켑스트럼산출부와 지정된 구간에서 켑스트럼의 피크를 검출해서 출력하는 피크검출부와, 상기 피크검출부의 출력으로부터 음성신호의 유무에 대응하는 상기 제1제어신호를 출력하는 음성검출부와, 분석구간을 상기 피크검출부에 지정해서 출력하는 동시에 상기 켑스트럼피크에 대응하는 최적분석구간을 산출해서 출력하는 분석구간처리부와, 상기 최적분석구간을 기본으로 하여 분류처리한 분석구간을 기억하는 분석구간 메모리와, 모드설정입력에 응답해서, 상기 분석구간처리부가 피크검출부에 지정하는 분석구간을 지정하고, 또한 상기 모드설정입력에 응답해서 상기 최적분석구간을 상기 구간메모리의 분석구간 데이터와 조합해서 음성신호의 인식대상에 대응하는 제2제어신호를 출력하는 동시에, 상기 분석구간메모리의 분석구간데이터의 분류처리와 상기 분석구간처리부에 분석구간을 지정하는 분석구간분류부와, 상기 제1제어신호 및 제2제어신호의 입력에 응답해서 상기 음성분석부의 분석신호를 템플레이트와 비교해서 인식출력을 행하는 매칭부를 구비한 것을 특징으로 한다.
본 발명은 상기 구성에 의해, 음성입력신호는 켑스트럼산출부와 피크검출부의 과정에 있어서 분석구간처리부가 지정하는 분석구간에서 켑스트럼의 피크가 검출된다. 음성검출부에서는 상기 켑스트럼의 피크에 의거하여 음성의 유무를 판별해서 매칭부에 제1제어신호를 공급한다. 이때 피크검출부에 부여되는 분석구간은 모드설정입력의 모드에 의해 하기와 같이 한다. 먼저 모드설정입력이 "등록"모드일 경우, 분석구간처리부는 피크검출부에 미리 정한 분석구간을 공급하는 동시에 켑스트럼피크에 대응한 최적분석구간을 산출해서 분석구간분류부에 출력한다. 분석구간분류부는 하기와 같이 분류처리를 행한다. 즉, 분석구간분류부는 상기 최적분석구간을 분석구간메모리와 비교해서, 메모리의 구간데이터에서 상기 최적분석구간을 미리 결정한 비율이상으로 중복해서 포함하는 분석구간(이것을 유사한 분석구간으로 정의한다)이 있는 경우에는 그 유사분석구간을 분석구간처리부를 행해서 피크검출부에 공급하는 동시에, 하기와 같이 합성한 분석구간을 상기 메모리의 분석구간으로 치환해서 기억하고, 상기 유사한 분석구간이 없는 경우에는 최적분석구간을 분석구간메모리에 기록한다. 상기 합성된 분석구간은 상기 최적분석구간과 메모리데이타가 부여하는 분석구간의 중첩부분을 포함하고, 그 하한과 상한이 상기 어느하나의 분석구간에 있는 것으로 한다. 다음에 모드설정입력이 "인식"모드일 경우, 분석구간처리부는 미리 정한 분석구간을 피크검출부에 공급하는 동시에 그 피크에 대응한 최적분석구간을 산출해서 구간분류부에 출력한다.
분석구간분류부는 상기 최적분석구간을 분석구간메모리와 비교한다. 이때 상기 최적분석구간은 상기 유사한 분석구간이 메모리에 있을 경우에는, 메모리의 분석구간을 분석구간처리부를 통과하여 피크검출부에 부여하는 동시에 인식대상에 대응하는 제2제어신호를 출력하고, 상기 유사한 분석구간이 없는 경우에는 피크검출부의 분석구간은 미리 정해진 분석구간이 그대로 유지된다.
한편, 음성입력은 음성분석부에 매칭부에서의 분석처리에 대응한 분석이 이루어지고, 매칭부에서 미리 등록된 데이터와 매칭처리해서 인식출력을 얻는다. 이때 매칭처리부는 상기 제1제어신호 및 제2제어신호에 각각 음성신호가 있을때와 인식대상에 대응할 때만 실행되도록 제어된다.
이하 본 발명의 실시예에 대해서, 도면을 참조하면서 설명한다.
제3도는 본 발명의 제1실시예에 의한 음성신호처리장치의 블록도를 도시한다. 도면에 도시한 바와 같이 켑스트럼산출부(81)는 음성입력의 켑스트럼을 산출해서 피크검출부(82)에 공급하고, 피크검출부(82)는 켑스트럼의 피크를 분석구간설정부(84)로부터 입력되는 분석구간에서 검출해서 음성판별부(83) 및 분석구간설정부(84)에 공급한다. 음성판별부(83)는 피크검출부(82)로부터 공급된 켑스트럼의 피크로부터 음성의 유무를 판별하여 음성검출출력을 얻는다. 분석구간설정부(84)는 피크검출부(82)로부터 공급된 켑스트럼의 피크에 따른 최적분석구간을 산출해서 분석구간분류부(85)에 공급하는 동시에, 모드설정입력에 응답하여,분석구간 분류부의 지시에 의해서 분석구간메모리(86)로부터 공급되는 분석구간데이터 또는 미리 결정된 분석구간데이터를 피크검출부(82)에 공급한다. 분석구간분류부(85)는, 상기 최적분석구간데이터와 분석구간메모리(86)에 기억된 분석구간데이터를 비교해서 분류처리를 행하고, 모드설정입력에 따라서 분석구간메모리(86)에 데이터를 기억시키거나 분석구간메모리(86)를 판독해서 분석구간을 제어한다.
상기 구성에 대한 동작을 설명한다.
음성입력은 켑스트럼산출부(81)에서 켑스트럼을 계산하고, 다음에 피크검출부(82)에서 켑스트럼의 피크가 검출되고, 음성판별부(83)에서 음성의 유무를 판별해서, 음성검출출력으로서 출력된다. 여기서 피크검출부(82)는 분석구간설정부(84)로부터 공급되는 분석구간에 따라서 켑스트럼의 피크를 구하는 퀴프렌시값을 정해서 피크검출을 행하도록 동작한다. 다음에 분석구간설정부(84), 분석구간분류부(85), 분석구간메모리(86)의 동작을 제4도를 참조하면서 설명한다.
제4도는 켑스트럼산출부(81)에서 구한 켑스트럼을 도시한 것으로서, 세로축은 켑스트럼의 레벨, 가로축은 켑스트럼에 대응한다. P1및 P2는 각각 피크검출부(82)에서 구한 켑스트럼피크의 퀴프렌시값을 표시하고, 구간(a0-b0),(a2-b2),(a3-b3)는 각각 분석구간설정부(84), 분석구간메모리(86), 분석구간분류부(85)가 추력하는 분석구간을 표시한다. 먼저, 모드설정입력이 "등록"모드인 경우, 분석구간설정부(84)는 피크검출부(82)에서의 피크검출의 분석구간으로서 가장 넓은 "a0-b0"를 부여하고, 음성입력에 따라서 도면의 실선으로 표시한 퀴프렌시 (P1)에 피크를 가진 켑스트럼이 피크검출부(82)로부터 얻어지는 것으로 한다. 분석구간설정부(84)는 퀴프렌시(P1)에 대해서 분석구간(a0-b0)보다 좁은 최적분석구간(a3-b3)을 산출해서 분석구간분류부(85)에 공급한다. 분석구간분류부(85)에서는 최적분석구간을 분석구간메모리(86)의 분석구간데이터와 비교하여 최적분석구간을 미리 결정한 비율이상 포함한 분석구간(유사분석구간으로 정의한다)이 없을 경우에는 최적분석구간(a3-b3)을 분석구간메모리(86)에 기억하고, 상기 유사분석구간이 있을 경우에는 하기의 합성한 분석구간을 상기 유사분석구간과 치환해서 기억한다. 상기 합성한 분석구간은 상기 최적분석구간과 메모리의 분석구간의 중첩구간을 포함하여 그 하한과 상한이 상기 어느하나의 분석구간이 포함되는 분석구간으로 한다.
다음에 분석구간(a3-b3)이 메모리에 기억된 상태에서, 모드설정이 "인식"모드로 되었을 경우, 분석구간설정부(84)는 미리 결정한 분석구간(a0-b0) 또는 그보다 넓은 메모리의 분석구간을 피크검출부(82)에 부여한다.
이제 제4도의 점선으로 표시한 바와 같이 음성입력에 따라서 퀴프렌시(P1)에 피크를 가진 켑스트럼이 피크검출부(82)로부터 얻은 것으로 하면, "P1"에 따라서 분석구간설정부(84)는 분석구간(a3-b3)을 산출하고, 분석구간분류부(85)는 분석구간메모리(86)로부터 분석구간(a3-b3)에 상기 유사한 분류구간의 존재를 조사하여, 이 경우 존재하고 있으므로 피크검출부(82)에는 분석구간(a3-b3)이 메모리(86)로부터 공급된다. 이때 피크검출부(82)에서의 피크검출은 분석구간이 피크치부근에 한정되므로, 피크검출처리를 고속으로 행할 수 있다. 또, 퀴프렌시(P2)에 피크를 가진 음성입력이 있을 경우에는 분석구간설정부(84)에서 최적분석구간(a2-b2)을 산출하고, 분석구간분류부(85)에서 최적분석구간에 유사한 것을 조사하여, 이 경우에는 존재하지 않으므로 피크검출부(82)에 공급되는 분석구간은 "a0-b0"의 그대로가 된다.
이와 같이 본 발명의 제1실시예의 음성신호처리장치에 의하면, 등록시에 복수의 사람의 음성으로 한 분석구간이 그룹 또는 단독으로 분류되어 설정되므로, 인식시의 피크검출의 분석구간을 한정해서 설정할 수 있다. 이에 의해 음성판별의 처리의 고속화를 행할 수 있고, 또한 분석구간을 분류하여 한정하고 있으므로, 켑스트럼의 피크검출시에 잡음에 대해서 유효하게 동작하게 되어, 정확한 음성판별을 행할 수 있다.
이상의 실시예로부터 명백한 바와 같이 제1실시예에 의한 음성신호처리장치는, 피크검출부의 피크출력에 따른 최적분석구간을 산출하는 동시에 모드설정입력에 따라서 분석구간을 피크검출부에 부여하는 분석구간설정부와, 분석구간설정부가 산출하는 최적분석구간과 분석구간메모리에 기억된 분석구간을 분류해서 기억시키는 분석구간분류부를 구비한 구성으로 하고, 등록시에는 단수에 한정되지 않고 복수인의 음성을 분류하고, 각각의 그룹 또는 단독으로 켑스트럼피크의 분석구간을 설정하므로, 인식시의 켑스트럼검출의 분석구간을 한정해서 처리의 고속화를 행할 수 있는 효과가 있다. 또 분석구간을 개인 또는 그룹으로 분류하고 있으므로, 켑스트럼피크 검출시에 있어서는 잡음이 존재할 경우에도 극히 양호하게 음성검출동작을 하게 되어, 정확한 음성판별을 행할 수 있다는 우수한 효과가 있다.
이하 본 발명의 제2실시예에 대해서 제5도를 참조하면서 설명한다.
제5도는 본 발명의 실시예에 의한 음성신호처리장치의 블럭도이다. 도면에 있어서, 켑스트럼산출부(101)는 음성입력으로부터 켑스트럼을 산출하여 피크검출부(102)에 공급한다. 피크검출부(102)는 켑스트럽으로부터 피크를 검출해서 제어부(103)와 음성검출부(106)에 각각 공급한다. 음성검출부(106)는 피크검출부(102)로부터 공급되는 켑스트럼피크신호의 유무에 따라 음성의 유무의 검출을 행하고, 매칭부(107)에 제1제어신호를 공급한다. 제어부(103)는, 피크검출부(102)로부터 공급되는 켑스트럼피크신호를 모드설정입력에 따라서 피크치 메모리(104)에 공급하거나 피크치 메모리(104)로부터 공급받은 데이터를 사용해서 매칭부(107)에 제2제어신호를 출력한다. 피크치 메모리(104)는 피크검출부(102)의 켑스트럼피크신호를 기억하는 것으로서, 제어부(103)를 통하여 데이터의 기억, 판독을 행한다. 음성분석부(105)는 음성입력을 매칭부(107)에서 사용하는 데이터형식으로 분석하여 매칭부(107)에 분석신호를 공급한다. 매칭부(107)는 음성분석부(105)에서 분석된 분석신호와, 음성검출부(106)의 제1제어신호 및 제어부(103)의 제2제어신호가 공급되고, 제1, 제2제어신호에 응답하여 음성분석부(105)로부터 공급되는 분석된 분석신호를 템플레이트와 조합해서 인식출력을 얻는 구성으로 되어 있다.
상기 구성에 대한 동작을 설명한다. 먼저 모드설정입력이 "등록"모드일 경우에는 켑스트럼산출부(101)에서 음성입력의 켑스트럼이 산출되고, 그리고 피크검출부(102)에서 켑스트럼피크가 검출되어 제어부(103)에 공급되고, 제어부(103)를 통하여 피크치 메모리(104)에 기억된다. 그리고 제어부(103)는 매칭부(107)에 매칭처리를 행하지 않기 위한 제2제어신호를 보낸다. 다음에 모드설정입력이 "인식"모드일 경우는, 마찬가지로 켑스트럼산출부(101)에서 음성입력의 켑스트럼이 산출되고, 피크검출부(102)에서 켑스트럼피크가 검출된다. 그리고 피크검출부(102)의 켑스트럼피크신호의 유무에 따라서 음성검출부(106)에서 음성의 유무가 판별되고, 음성일 경우에는 매칭처리를 행하기 위한 제1제어신호를 보내고, 음성이 아닐 경우에는 매칭처리를 행하지 않기 위한 제2제어신호를 매칭부(107)에 보낸다. 동시에 피크검출부(102)의 켑스트럼피크신호는 제어부(103)에 의해서 미리 기억된 피크치 메모리(104)의 내용과 비교되고, 양자의 퀴프렌시값이 근접하고 있을 겨우에는 매칭부(107)에 매칭처리를 행하기 위한 제2제어신호를 보내고, 또 양자의 퀴프렌시값이 근접하고 있지 않을 경우에는, 매칭부(107)에 매칭처리를 행하지 않기 위한 제2제어신호를 보낸다.
그리고 매칭부(107)에서는 음성분석부(105)에서 분석된 분석신호를, 음성검출부(106) 및 제어부(103)로부터 각각 공급되는 제1 및 제2제어신호가 어느쪽이든 매칭처리를 행하는 샹태의 신호일때에는 템플레이트의 데이터와 비교하여 인식처리동작을 행하고, 그 결과를 인식출력으로서 출력한다.
이와같이 이 발명의 실시예의 음성신호처리장치에 의하면, 음성입력의 켑스트럼피크의 퀴프렌시(즉, 화자의 피치주파수)가 미리 등록한 것에 가까울 경우에만 템플레이트와의 매칭처리를 행하므로, 등록한 화자이외의 음성입력일때는 매칭처리를 행하지 않아, 매칭부의 매칭처리에 소요되는 처리시간을 삭감할 수 있고, 등록화자 이외의 음성입력이 입력되었을 때에는 즉시 거절결과가 출력된다.
또한, 음성신호처리장치를 마이크로프로세서등으로 구성할 경우, 매칭처리 프로세서를 최소한으로 억제할 수 있으므로, CPU의 부하를 경감할 수 있어, 그 만큼 다른 처리프로세스에 충당할 수 있게 된다.
또한 인식출력으로서 등록화자와 다르다는 결과를 내는 것은 제어부(103)의 제어신호를 사용하면 용이하게 행할 수 있음은 물론이다.
이상의 실시예로부터 명백한 바와같이, 본 발명의 제2실시예에 의한 음성신호처리장치는, 모드설정입력에 따라서 켑스트럼피크검출부의 피크신호출력을 피크치메모리에 기억하거나 피크검출부의 피크신호출력을 피크치메모리와 비교해서 매칭부에 제2제어신호를 공급하는 제어부를 구비한 구성에 의해서 음성입력의 피치주파수가 미리 등록한 것에 가까울 경우에만 매칭동작을 행하도록 할 수 있으므로, 등록한 화자 이외의 음성이 입력되었을 때에는 매칭처리를 행하지 않아 그만큼 프로세스를 생략할 수 있는 동시에, 고속으로 거절결과를 얻을 수 있는 효과가 얻어진다. 또 장치를 마이크로프로세서등으로 구성한 경우의 매칭 처리프로세서를 최소한으로 억제하는 것이 가능해지고, CPU의 부하를 매우 경감할 수 있어, 그만큼 다른 처리프로세스에 충당할 수 있으므로 CPU설계의 합리화를 도모할 수 있는 효과가 있다.
이하, 본 발명의 제3실시예에 대해서 제6도를 참조하면서 설명한다.
제6도는 본 발병의 제3실시예에 의한 음성신호처리장치의 블록도이다. 도면에 도시한 바와 같이 켑스트럼산출부(208)는 음성입력으로부터 켑스트럼을 산출해서 피크검출부(209)에 공급하고, 피크검출부(209)는 켑스트럼으로부터 피크를 검출해서 분석구간처리부(210)와 음성검출부(214)에 각각 공급한다. 음성검출부(214)는 피크검출부(209)로부터 공급되는 켑스트럼의 피크에 따라서 음성의 유무의 검출을 행하고, 매칭부(215)에 음성신호의 유무에 대응하는 제1제어신호를 공급한다. 분석구간처리부(210)는 피크검출부(209)로부터 공급되는 켑스트럼의 피크에 따른 최적분석구간을 설정해서 분석구간분류부(211)에 공급하는 동시에 모드설정입력에 따라서, 분석구간메모리(212)로부터 공급되는 상기 유사분석구간데이터나 미리 결정된 분석구간데이터를 피크검출부(209)에 공급한다. 분석구간분류부(211)는, 분석구간처리부(210)로부터 공급되는 상기 최적분석구간데이터와, 분석구간메모리(212)로부터 공급되는 분석구간데이터를 비교해서 분류처리를 행하고, 모드설정입력에 따라서 분석구간메모리(212)에 데이타를 기억하거나 분석구간메모리(212)를 판독해서 분석구간을 제어하는 동시에, 분류결과를 제2제어신호로 매칭부(215)에 공급한다. 또 음성분석부(213)는 음성입력을 매칭부(215)에서 사용하는 형식으로 분석해서 매칭부(215)에 공급한다. 매칭부(215)는, 음성분석부(213)에서 분석된 음성입력과, 음성검출부(214)의 제1제어신호 및 분석구간분류부(211)의 제2제어신호가 공곱되고, 이들 제어신호에 따라서 음성분석부(213)로부터 분석된 음성입력을 템플레이트와 조합해서 인식출력을 얻는 구성으로 되어 있다.
상기 구성에 대한 동작을 설명한다.
음성입력은 켑스트럼산출부(208) 및 피크검출부(209)를 통하여 켑스트럼의 피크가 검출되고, 켑스트럼피크는 음성검출부(214)에 공급되어 음성의 유무가 검출된다. 음성검출부(214)는 음성의 유무에 따라서 매칭부(215)에 제1제어신호를 공급한다. 여기서 피크검출부(209)는 분석구간처리부(210)로부터 공급되는 분석구간에 따라서 켑스트럼의 피크를 검출하도록 동작한다. 이때 피크검출부(209)에 공급되는 분석구간은 후술하는 바와 같이 모드설정입력에 대응한다. 또한, 음셩입력은 매칭부(215)에서 매칭처리를 행할 수 있도록, 음성분석부(213)에서 분석이 행해진다. 여기서 모드설정입력이 "등록"모드일 경우와 "인식"모드일 경우로 나누어 동작을 생각할 수 있다.
먼저, 모드설정입력이 "등록"모드일 경우, 분석구간처리부(210)는 피크검출부(209)에서의 피크검출의 분석구간을 미리 정해진 것으로 설정하고, 또 피크검출부(209)로부터 얻은 켑스트럼의 피크에 따라서 분석구간을 높은 정밀도로 산출해서 최적분석구간을 분석구간분류부(211)에 공급한다. 분석구간분류부(211)에서는 최적분석구간에 상기 유사한 분석구간이 분석구간메모리(212)에 존재하는지의 여부를 조사하여, 존재하지 않는 경우에는 최적분석구간을 새롭게 분석구간메모리(212)에 기억하고, 존재할 경우에는 분석구간메모리(212)의 상기 유사한 분석구간과 상기 최적분석구간을 상기와 같이 합성해서 분석구간메모리(212)의 내용과 치환해서 기억한다.
다음에 모드설정입력이 "인식"모드로 되었을 경우, 분석구간처리부(210)는 미리 부여된 분석구간의 데이터를 피크검출부(209)에 공급한다. 피크검출부(209)에서는 음성입력에 따른 켑스트럼의 피크가 검출되고, 피크에 대응해서 분석구간처리부(210)는 최적분석구간을 산출해서 분석구간분류부(211)에 공급한다. 분석구간분류부(211)는 주어진 최적분석구간에 상기 유사한 구간이 분석구간메모리(212)에 존재하는지의 여부를 조사하여, 존재할 경우에는 유사한 분석구간을 분석구간처리부(210)를 통하여 피크검출부(209)에 미리 결정한 상기 분석구간으로 치환해서 공급하고, 존재하지 않을 경우에는 미리 주어진 분석구간이 피크검출부(209)에 유지해서 공급된다. 또한 상기 유사한 분석구간의 존재유무를 표시하는 제2제어신호를 매칭부(215)에 공급한다. 그리고 매칭부(215)에서는 음성검출부(214)로부터 공급되는 제1제어신호 및 분석구간분류부(211)로부터 공급되는 제2제어신호에 따라서, 음성입력에 실제로 음성이 존재하고, 또한 음성입력의 켑스트럼의 피크분석구간이 상기한 바와 같이 미리 등록되어 있는 것과 유사할 경우에, 템플레이트와의 매치동작을 행하는 것이다.
이와 같이 본 발명의 제3실시예의 음성신호처리장치에 의하면, 음성신호를 등록할 때 음성의 특징을 표시하는 피치주파수에 대응하는 켑스트럼피크가 있고, 켑스트럼피크에 대응한 분석구간을 분류처리에서 메모리에 기억함으로써, 등록한 복수의 음성입력중에서 유사한 것은 합성된 분석구간에 대응하고, 그밖의 음성입력은 단독의 분석구간에 대응해서 기억된다. 음성을 인식처리할 때는 임의의 음성입력의 켑스트럼피크에 대응한 분석구간을 메모리에 등록한 분석구간과 비교해서 등록완료인지의 여부를 판정할 수 있다. 또한, 분석구간을 설정함으로써 켑스트럼피크검출의 분석처리를 한정된 구간에서 행함으로써 처리를 신속하게 할 수 있고, 음성입력의 유무판정을 높은 표율로 할 수 있다. 또한 켑스트럼피크를 가지지 않는 잡음이 배제되어 오동작이 없어진다. 또한, 음성인식처리를 상기의 효율적인 음성입력의 확인과 등록와교의 확인후에 행하도록 하였으므로, 낭비없는 인식처리를 할 수 있어, 장치의 활용도 효율적으로 할 수 있다.
또 낭비없는 처리동작은 장치를 마이크로프로세서등으로 구성할 때, 소자의 처리부담이 경감되므로 많은 처리를 할 수 있게 되어 구성을 간략화할 수 있는 효과도 있다.
이상의 실시예로부터 명백한 바와 같이, 본 발명의 제3실시예에 의한 음성신호처리장치는, 음성신호를 입력하여 음성분석수단의 분석출력을 사용해서 인식출력을 얻는 매칭부에 인식동작의 실행을 제어하는 제1제어신호의 입력 수단 및 제2제어신호의 입력수단을 구비하고, 음성신호의 켑스트럼을 산출해서 피크를지정된 분석구간에서 검출하는 피크검출수단과, 피크검출수단의 출력으로부터 음성신호에 유무에 대응하는 상기 제1제어신호를 출력하는 것으로 하고, 상기 음성입력에 대응한 최적분석구간을 산출하여 최적분석구간을 기본으로 한 분석구간을 분류해서 메모리에 기억 및 피크검출부에 공급하는 수단을 형성하고, 임의의 음성입력의 인식처리에 있어서, 음성입력에 대응한 분석구간과 상기 기억된 분석구간을 비교해서 제2제어신호를 출력하는 것으로 하고, 상기 제1 및 제2제어신호에 의한 제한은 음성신호가 있고, 음성신호가 인식대상일 때의 인식을 실행하는 음성신호처리장치로 함으로써, 인식처리에 낭비가 없고, 또 분석구간을 설정함으로써 켑스트럼피크검출의 분석처리가 신속하고 또한 켑스트럼피크를 가지지 않는 잡음이 배제되어 오동작이 없어진다. 또 낭비없는 인식처리를 할 수 있어 장치의 활용도 효율적으로 할 수 있다.
또 낭비없는 처리동작은 장치의 소자의 처리부담이 경감되므로, 구성을 간략화할 수는 효과도 있다.

Claims (3)

  1. 음성을 입력해서 켑스트럼을 산출하는 켑스트럼산출부와, 상기 켑스트럼으로부터 지정된 분석구간에서 피크를 검출하는 피크검출부와, 피크검출출력으로부터 음성검출출력을 얻는 음성판별부와, 상기 피크검출출력으로부터 최적분석구간을 산출하는 동시에 상기 피크검출부에 분석구간을 지정하는 분석구간설정부와, 상기 최적분석구간을 기본으로 하여 분류처리한 분석구간을 기억하는 분석구간메모리와, 모드설정입력에 응답해서 상기 분석구간설정부가 피크검출부에 지정하는 분석구간을 지정하고, 또한 상기 모드설정입력에 응답해서 상기 최적분석구간을 상기 분석구간메모리와 조합(照合)해서 상기 분석구간설정부에 지시하는 분석구간분류부를 구비한 것을 특징으로 하는 음성신호처리장치.
  2. 음성입력을 분석해서 분석신호를 출력하는 음성분석부와, 음성입력으로부터 켑스트럼을 산출해서 출력하는 켑스트럼산출부와, 상기 켑스트럼의 피크를 검출에서 피크신호를 출력하는 피크검출부와, 상기 피크신호로부터 음성의 유무를 판정해서 제1제어신호를 출력하는 음성검출부와, 상기 피크신호를 기억하는 피크치메모리와, 모드설정입력의 "설정"모드에 응답해서 상기 피크신호를 상기메모리에 기록하고, 모드설정입력의 "인식"모드에 응답해서 상기 메모리의 피크신호와 음성입력의 켑스트럼피크신호를 비교해서, 각각의 퀴프렌시의 차에 대응해서 상기 제2제어신호를 출력하는 제어부와, 제1제어신호 및 제2제어신호의 입력에 응답해서 . 상기 음성분석부의 분석신호를 템플레이트와 비교하여 인식출력을 행하는 매칭부를 구비한 것을 특징으로 하는 음성신호처리장치.
  3. 음성입력을 분석해서 분석신호를 출력하는 음성분석부와, 음성신호로부터 켑스트럼을 산출하여 출력하는 켑스트럼산출부와, 지정된 구간에서 켑스트럼의 피크를 검출해서 출력하는 피크검출부와 상기 피크검출부의 출력으로부터 음성신호의 유무에 대응하는 상기 제1제어신호를 출력하는 음성검출부와 분석구간을 상기 피크검출부에 지정해서 출력하는 동시에 상기 켑스트럼피크에 대응하는 최적분석구간을 산출해서 출력하는 분석구간처리부와, 상기 최적분석구간을 기본으로 하여 분류처리한 분석구간을 기억하는 분석구간메모리와, 모드설정입력의 모드에 응답해서, 상기 분석구간처리부가 피크검출부에 지정하는 분석구간을 지정하고, 또한 상기 모드설정입력에 응답해서 상기 죄적분석구간을 상기 구간메모리의 분석구간데이터와 조합해서 음성신호의 인식대상에 대응하는 제2제어신호를 출력하는 동시에 상기 분석구간메모리의 분석구간데이타의 분류처리와 상기 분석구간처리부에 분석구간을 지정하는 분석구간분류부와, 상기 제1제어신호 및 제2제어신호의 입력에 응답해서 상기 음성분석부의 분석신호를 템플레이트와 비교해서 인식출력을 행하는 매칭부를 구비한 것을 특징으로 하는 음성신호처리장치.
KR1019940023426A 1990-01-18 1994-09-15 음성신호처리장치 KR950001068B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019940023426A KR950001068B1 (ko) 1990-01-18 1994-09-15 음성신호처리장치

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP90-8592 1990-01-18
JP2008592A JP2712691B2 (ja) 1990-01-18 1990-01-18 信号処理装置
JP2026506A JP2712703B2 (ja) 1990-02-06 1990-02-06 信号処理装置
JP90-26506 1990-02-06
JP90-26507 1990-02-06
JP2026507A JP2712704B2 (ja) 1990-02-06 1990-02-06 信号処理装置
KR1019910000760A KR960005739B1 (ko) 1990-01-18 1991-01-18 음성검출장치
KR1019940023426A KR950001068B1 (ko) 1990-01-18 1994-09-15 음성신호처리장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1019910000760A Division KR960005739B1 (ko) 1990-01-18 1991-01-18 음성검출장치

Publications (1)

Publication Number Publication Date
KR950001068B1 true KR950001068B1 (ko) 1995-02-08

Family

ID=27454979

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940023426A KR950001068B1 (ko) 1990-01-18 1994-09-15 음성신호처리장치

Country Status (1)

Country Link
KR (1) KR950001068B1 (ko)

Similar Documents

Publication Publication Date Title
EP0763811B1 (en) Speech signal processing apparatus for detecting a speech signal
US7957967B2 (en) Acoustic signal classification system
US5684924A (en) User adaptable speech recognition system
JP3045510B2 (ja) 音声認識処理装置
US4833713A (en) Voice recognition system
KR910020641A (ko) 잡음예측장치와 이것을 사용한 신호처리장치
US4677673A (en) Continuous speech recognition apparatus
US5144672A (en) Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
EP0614169B1 (en) Voice signal processing device
JPS6060080B2 (ja) 音声認識装置
CN111477226B (zh) 控制方法、智能设备和存储介质
KR950001068B1 (ko) 음성신호처리장치
US4868879A (en) Apparatus and method for recognizing speech
JP2712703B2 (ja) 信号処理装置
EP1939861B1 (en) Registration for speaker verification
EP1391876A1 (en) Method of determining phonemes in spoken utterances suitable for recognizing emotions using voice quality features
JP3474949B2 (ja) 音声認識装置
JP2712704B2 (ja) 信号処理装置
JP2712691B2 (ja) 信号処理装置
JP2844592B2 (ja) 離散単語音声認識装置
JPS61292199A (ja) 音声認識装置
JP2712708B2 (ja) 音声検出装置
JPH08146996A (ja) 音声認識装置
JP2608702B2 (ja) 音声認識における音声区間検出方法
CN118379994A (zh) 一种用于ar头盔的智能语音识别方法及***

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070125

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee