KR19980020011A - 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법 - Google Patents

음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법 Download PDF

Info

Publication number
KR19980020011A
KR19980020011A KR1019960038319A KR19960038319A KR19980020011A KR 19980020011 A KR19980020011 A KR 19980020011A KR 1019960038319 A KR1019960038319 A KR 1019960038319A KR 19960038319 A KR19960038319 A KR 19960038319A KR 19980020011 A KR19980020011 A KR 19980020011A
Authority
KR
South Korea
Prior art keywords
speech
weight
feature vector
speech feature
probability value
Prior art date
Application number
KR1019960038319A
Other languages
English (en)
Other versions
KR0169592B1 (ko
Inventor
안영목
Original Assignee
양승택
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 양승택, 한국전자통신연구원 filed Critical 양승택
Priority to KR1019960038319A priority Critical patent/KR0169592B1/ko
Publication of KR19980020011A publication Critical patent/KR19980020011A/ko
Application granted granted Critical
Publication of KR0169592B1 publication Critical patent/KR0169592B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 인식에 사용되는 음성 특징 벡터에 관한 것이다. 음성 특징 벡터는 음성 명령어 입력신호르 A/D 변환한 후에 음성 특징 추출기에서 추출되는 것으로써 기준 패턴 비교기의 입력으로 사용된다. 이 음성 특징 벡터는 동일한 단어를 발성한다고 해도 음성 인식기가 어디에서 사용되느냐에 따라서 달라지며, 또한 사용자의 발성 패턴의 변화 및 입력 수단의 변경에 의해서도 달라진다. 따라서 이러한 변화는 기준 패턴 비교기에서 사용되는 기준 모델 생성시 사용하였던 음성 특징 벡터와 차이를 발생시키고, 이 차이에 의해 음성 인식기의 성능은 저하된다. 따라서 음성 특징 벡터가 기준 패턴 비교기에 입력되기 전에 음성 특징 벡터를 기준 모델에 적합하도록 처리에 줌으로써 음성 인식기의 성능 저하를 막을 수 있다. 본 발명은 이러한 처리 단계에 필요한 적응 음성 특징 벡터의 생성 방법 및 그 구현 절차에 관한 것이다.

Description

음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법
본 발명은 사람과 컴퓨터 사이의 인터페이스에서 음성 인식 방법을 사용할 때, 음성 인식에 사용되는 음성 특징을 사용하는 환경에 따라서 적응 시킴으로써 음성 인식의 성능을 개선 시키기 위한 음성 특징의 적응에 의한 음성 인식기의 개선 방법에 관한 것이다.
종래의 음성 인식 시스템에서 사용되는 음성 특징은 구현된 프로그램 및 하드웨어 장치에 의해서 입력되는 음성의 특징을 매 구간마다 구하여 사용 환경에 따른 특별한 변환 및 적응의 단계가 없이 바로 비교기로 넘겨준다. 따라서, 음성 인식기의 사용 환경이 바뀌게 되면 저장되어 있는 기준 패턴들의 각 모델들은 새로운 환경과 차이가 발생된다. 이러한 차이는 음성 인식기의 성능을 저하시키는 한 원인이 된다. 또한 화자의 건강 상태 및 감정에 의해서 목소리가 바뀔 수 있다. 이러한 경우에 그 화자가 처음에 음성 인식기를 훈련시킬 때와는 다른 음성 특징이 추출된다. 즉, 화자가 처음 등록할 때 생성한 기준 패턴들의 각 모델들과 현재 발성에 의해서 만들어 지는 각 기준 패턴들의 각 모델들 사이에는 차이가 발생된다. 이러한 변화는 화자가 바뀔 경우에도 발생될 수 있으며, 음성 입력 장치에 의해서 바뀔 수 있다.
상술한 바와 같이 최초의 모델 생성시의 환경과 달라진 이러한 변화들은 음성 인식기의 성능을 저하시키므로 변화에 적응할 수 있는 처리 단계가 필요하다.
따라서, 본 발명은 음성 특징을 비교부로 넘겨주는 단계에서 바뀐 환경에 적응된 음성 특징을 넘겨줌으로써 음성인식기의 성능이 환경 및 화자의 변화에 대해서 적응력을 갖도록 하는데 그 목적이 있다.
상기의 목적을 달성하기 위한 본 발명은 음성 명령어 입력신호를 A/D 변환 하고, 이로부터 음성 특징 벡터를 추출하는 단계와, 추출된 상기 음성 특징 벡터을 입력으로하여 적응 음성 특징 벡터를 추출하는 단계와, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위발음 사전인 등록 단어 발음 사전과 각 음소의 모델 성분을 조합하여 각 등록된 단어의 단어 모델들을 생성하는 단계와, 생성된 상기 단어 모델들과 상기 적응 음성 특징 벡터를 기준 패턴 비교하는 단계와, 상기 기준 패턴 비교에 따라 가장 거리가 가까운 단어를 인식 결과로 출력하는 단계로 이루어진 것을 특징으로 한다. 적응 음성 추출 단계는 음성 인식기를 새로운 환경에 적응시킴에 있어서 가중치를 선택하는 단계와, 상기 가중치를 선택하는 단계에서 결정된 가중치를 현재 음성 특징 벡터와 이전 음성 특징 벡터에 반영된 결과를 바탕으로 하여 현재 음성 특징 벡터를 구하는 적응 음성 벡터 생성 단계와, 상기 적응 음성 벡터 생성 단계에서 추출된 적응 음성 특징 벡터를 기준 패턴과 비교하여 해당 모델에 대한 발생 확률 값을 구하는 발생 확률 값 계산 단계와, 상기 발생 확률 값 계산 단계에서 얻어진 발생 확률 값을 이용하여 최적의 가중치가 얻어 졌는지를 판단하는 최적 가중치 판단 단계로 이루어진 것을 특징으로 한다.
도 1은 본 발명에 적용되는 하드웨어의 구성도.
도 2은 종래의 음성 인식기의 처리 흐름도.
도 3은 본 발명에 따른 음성 인식기의 처리 흐름도.
도 4는 본 발명에 따른 음성 특징의 환경 적응에 대한 흐름도.
*도면의 주요 부분에 대한 부호의 설명*
11 : 음성 입력 장치12 : A/D 변환 장치
13 : 기억 장치14 : 중앙 처리 장치
15 : 인식 결과 출력 장치
이하 첨부된 도면을 참조하여 본 발명에 따른 일실시 예를 상세히 설명한다.
도 1은 본 발명에 적용되는 하드웨어의 구성도이다. 컴퓨터에 음성 명령어를 발성하면 음성 입력 장치(11)와 컴퓨터 내의 A/D변환 장치(12)를 거쳐 디지털로 변환 된다. 중앙 처리 장치(14)는 이 디지털 음성 데이타로부터 음성 특징벡터를 추출하고, 이 특징 벡터와, 기억장치(13) 내에 저장되어 있던 인식 대상 단어의 단어 모델과 비교하여 가장 거리가 가까운 단어를 출력 장치(15)를 통해 인식 결과로 출력시킨다.
도 2는 종래의 음성 인식기의 처리 흐름도이다. 먼저, 음성 명령어가 입력(21)되면, 이를 A/D 변환(22)하고, 이로부터 음성 특징 벡터 추출기(23)에서 음성 특징벡터를 추출한다. 추출된 음성 특징 벡터와 비교할 모델을 구성하는 방법은, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어위목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전(25)과 각 음소의 모델 성분(27)을 조합하여 각 등록된 단어의 단어 모델을 생성(26)시킨다. 생성된 단어 모델들과 앞서 추출해 높은 음성 특징 벡터 열을 기준 패턴 비교기(24)에서 비교하여 가장 거리가 가까운 단어를 인식 결과로 출력(28)한다.
도 3은 본 발명에 따른 음성 특징 적응이가 포함된 처리 흐름도이다. 음성 명령어가 입력(21)되면, 이를 A/D 변환(22)하고, 이로부터 음성 특징 벡터 추출기(23)에서 음성 특징 벡터를 추출한다. 이후, 추출된 음성 특징 벡터를 입력으로하는 적응 음성 특징 벡터 추출기(29)에서 적응 음성 특징 벡터를 추출(29)한다. 추출된 적응 음성 특징 벡터와 비교할 모델을 구성하는 방법은, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전(25)과 각 음소의 모델 성분(27)을 조합하여 각 등록된 단어의 단어 모델을 생성(26)시킨다. 새성된 단어 모델들과 앞서 추출해 놓은 음성 특징 벡터 열을 기준 패턴 비교기(24)에서 비교하여 가장 거리가 가까운 단어를 인식 결과로 출력(28)한다.
도 4는 적응 음성 특징 추출기의 처리 흐름도이다. 가중치 선택기(31)에는 제3도의 음성 특징 추출기(23)의 출력인 음성 특징 벡터가 입력된다. 최초로 음성 특징 벡터가 입력되는 경우에 현재 음성 특징 벡터는 현재 음성 특징 벡터만을 이용한다. 다시 말하면 이전 음성 특징 벡터의 반영 비율은 0%이고, 현재 음성 특징 벡터는 100%이다. 이 반영 비율 즉, 가중치는 적응 음성 벡터 생성기(32)에 전해지고 이 가중치를 사용하여 적응 음성 벡터가 생성된다. 따라서, 최초로 구해지는 적응 음성 벡터는 원래 음성 특징 벡터 즉 음성 특징추출기(23)에서 전해지는 것과 동일하다. 이 적응 음성 벡터는 발생 확률 값 계산기(33)에서 해당 모델과 음성 특징 벡터를 비교하여 발생 확률 값이 구해진다. 이 발생 확률 값은 최적 가중치 판단기(34)로 전해진다. 최적 가중치 판단기(34)에서는 넘겨 받은 발생 확률 값을 이전 발생 확률 값과 비교하여 최적의 가중치가 발생되었는가를 판단하여 음성 특징 적응기의 작업을 계속할 것인지 끝낼 것인지를 판단한다. 최적 가중치 판단기(34)에서는 전체적으로 세 가지의 상황이 발생된다. 첫째의 경우는 최초로 최적 가중치 판단기(34)가 동작하였을 경우이다. 즉 발생 확률 값 계산이 처음으로 아루어진 경우를 말한다.
이런 경우에는 다음 작업이 바로 가중치 선택기(31)로 넘어간다. 둘째의 경우는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률값이 감소한 경우이다. 이러한 경우에는 이전의 가중치를 고정시키는 신호를 가중치 선택기(31)에 전달한다. 셋째의 경우에는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률 값이 증가한 경우이다. 이러한 경우에는 가중치 선택기(31)에 가중치를 계속적으로 변화시키라는 신호를 보낸다. 가중치 선택기(31)에서는 최적 가중치 판단기(34)의 신호를 바탕으로 가중치를 변경시켜서 적응 음성 벡터 생성기(32)로 전달한다.
상기와 같이 구성되어 동작하는 본 발명은 다음과 같이 효과가 있다.
첫 번째의 효과는 음성 특징 벡터가 변화된 발성 환경에 따라서 기준 패턴에 적합하도록 적응됨으로써 음성 인식기가 발성 환경에 덜 민감하게 된다.
두 번째의 효과는 화자의 변화 즉, 건강 상태, 감정 등에 의해서 발성 패턴은 변화하게 되는데 이러한 경우에 음성 특징 벡터가 새로운 발성에 적응함으로써 음성 인식기의 성능이 유지된다.
세 번째의 효과는 음성 입력 장치가 바뀔 경우 원래의 기준 패턴과 입력되는 음성 특징은 다소 차이가 발새된다. 이러한 경우 적응 음성 벡터 생성기는 음성 특징을 변환하여 음성 입력 장치의 특성에 의한 기준 패턴과의 차이를 감소시킨다.

Claims (6)

  1. 음성 명령에 입력신호를 A/D 변환하고 이로부터 음성 특징 벡터를 추출하는 단계와,
    추출된 상기 음성 특징 벡터에 따라 적응 음성 특징 벡터를 추출하는 단계와,
    컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전과 각 음소의 모델 성분을 조합하여 각 등록된 단어의 단어 모델들을 생성하는 단계와,
    생성된 상기 단어 모델들과 상기 적응 음성 특징 벡터를 비교하는 단계와,
    상기 비교에 따라 가장 거리가 가까운 단어를 인식 결과로 출력하는 단계로 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선방법.
  2. 제1항에 있어서, 상기 적응 음성 추출 단계는 음성 인식기를 새로운 환경에 적응시킴에 있어서 가중치 선택 단계와,
    상기 가중치 선택 단계에서 결정된 가중치를 현재 음성 특징 벡터와 이전 음성 특징 벡터에 반영된 결과를 바탕으로 하여 현재 음성 특징 벡터를 구하는 적응 음성 벡터 생성 단계와,
    상기 적응 음성 벡터 생성 단계에서 추출된 적응 음성 특징 벡터를 기준 패턴과 비교하여 해당 모델에 대한 발생 확률 값을 구하는 발생 확률 값 계산 단계와,
    상기 발생 확률 값 계산 단계에서 얻어진 발생 확률 값을 이용하여 최적의 가중치가 얻어졌는지를 판단하는 최적 가중치 판단 단계로 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
  3. 제2항에 있어서, 상기 최적 가중치 판단 단계는 최초로 최적 가중치 판단기가 동작하였을 경우에는 다음 작업이 바로 가중치 선택기로 넘어가도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
  4. 제2항에 있어서, 상기 최적 가중치 판단 단계는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률 값이 감소한 경우에는 이전의 가중치를 고정시키는 신호가 가중치 선택기로 넘어가도록 이루어진 것을 특징으로하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
  5. 제2항에 있어서, 상기 최적 가중치 판단 단계는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률 값이 증가한 경우에는 가중치 선택기에 가중치를 계속적으로 변화시키라는 신호를 보내도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
  6. 제2항에 있어서, 상기 가중치 선택 단계는 최적 가중치 판단기의 신호를 바탕으로 가중치를 변경시켜서 적응 음성 벡터 생성기로 전달하도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
KR1019960038319A 1996-09-05 1996-09-05 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법 KR0169592B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960038319A KR0169592B1 (ko) 1996-09-05 1996-09-05 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960038319A KR0169592B1 (ko) 1996-09-05 1996-09-05 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법

Publications (2)

Publication Number Publication Date
KR19980020011A true KR19980020011A (ko) 1998-06-25
KR0169592B1 KR0169592B1 (ko) 1999-03-20

Family

ID=19472786

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960038319A KR0169592B1 (ko) 1996-09-05 1996-09-05 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법

Country Status (1)

Country Link
KR (1) KR0169592B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100335189B1 (ko) * 1997-03-25 2002-06-20 류정열 음성인식 장치 작동방법
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
KR101398218B1 (ko) * 2012-09-03 2014-05-22 경희대학교 산학협력단 감정 음성 인식장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100335189B1 (ko) * 1997-03-25 2002-06-20 류정열 음성인식 장치 작동방법
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
KR101398218B1 (ko) * 2012-09-03 2014-05-22 경희대학교 산학협력단 감정 음성 인식장치 및 방법

Also Published As

Publication number Publication date
KR0169592B1 (ko) 1999-03-20

Similar Documents

Publication Publication Date Title
CN106971709B (zh) 统计参数模型建立方法和装置、语音合成方法和装置
US11450313B2 (en) Determining phonetic relationships
KR100438826B1 (ko) 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
US5602960A (en) Continuous mandarin chinese speech recognition system having an integrated tone classifier
US7660717B2 (en) Speech recognition system and program thereof
KR100932538B1 (ko) 음성 합성 방법 및 장치
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
GB2364814A (en) Speech recognition
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2898568B2 (ja) 声質変換音声合成装置
KR19980020011A (ko) 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법
JP3523382B2 (ja) 音声認識装置及び音声認識方法
CN115762465A (zh) 语音生成模型的训练、使用方法以及训练、使用装置
CN113990325A (zh) 流式语音识别方法及装置、电子设备、存储介质
JPH01202798A (ja) 音声認識方法
KR100212448B1 (ko) 무제한 음성 명령어 인식기의 인식 성능 및 처리 속도 개선 방법
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
KR100322730B1 (ko) 화자적응방법
CN118197280A (zh) 语音合成方法、装置及电子设备
JPH1097269A (ja) 音声検出装置及び方法
JP6468518B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
KR20230100543A (ko) 인공지능에 기초한 대화상황예측과 의도분류 시스템 및 그 방법
JPH09305195A (ja) 音声認識装置および音声認識方法
KR20230070423A (ko) 음성 합성 시스템의 동작방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070919

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee