KR20000001327A

KR20000001327A - 음성인식을위한 단어 훈련방법

Info

Publication number: KR20000001327A
Application number: KR1019980021532A
Authority: KR
Inventors: 홍상진
Original assignee: 윤종용; 삼성전자 주식회사
Priority date: 1998-06-10
Filing date: 1998-06-10
Publication date: 2000-01-15

Abstract

본 발명은 음성인식을 위한 단어 훈련 방법에 관한 것으로서, 음성인식을 위해 소정의 단어와 그에 상응하는 소정의 음성을 미리 데이터베이스로 구축하는 음성인식시의 단어 훈련 방법은, 단어 및 단어의 별칭(alias)를 입력하는 단계; 별칭에 대응하는 음성신호를 입력하는 단계; 별칭의 음성신호 특징(feature)를 추출하는 단계; 별칭의 음성신호 특징과 데이터베이스에 이미 저장되어 있는 다른 단어의 별칭의 음성특징이 소정 기준 이상으로 유사한지를 비교한 후, 소정 기준 이상으로 유사하면 현 입력 단어에 대해 다른 별칭을 입력하는 단계; 및 입력한 별칭에 대한 음성신호의 특징을 데이터베이스에 저장하는 단계를 구비한다.

본 발명에 의하면, 음성인식시 사용되는 데이터베이스에 음성특징이 서로 잘 구분되는 단어의 별칭을 저장함으로써, 소정 단어에 대한 오인식 가능성을 줄일 수 있다.

Description

음성인식을 위한 단어 훈련방법

본 발명은 음성인식에 관한 것으로서, 보다 상세하게는 음성인식 단어에 대한 인식능력을 높이기 위해 단어에 별칭을 부여하여 데이터베이스화하는 음성인식을 위한 단어 훈련방법에 관한 것이다.

음성인식은 음성 입력에 대해 인식하여 그에 따라 텍스트로 나타내거나 소정 시스템 동작의 입력으로 하는 것이다. 음성인식을 위해서는 텍스트에 해당하는 음성의 특징과 음성에 해당하는 텍스트가 미리 저장된 데이터베이스를 필요로 한다.

도 1은 음성인식을 위해 일반적으로 단어를 훈련시켜 데이터베이스화하는 과정을 블록 다이어그램으로 나타낸 것이다. 먼저, 단어 입력부(100)는 텍스트를 입력받아 특징저장 및 단어 테이블 갱신부(140)에 보낸다. 특징저장 및 단어 테이블 갱신부(140)는 그 단어를 단어저장 데이터베이스(150)에 저장한다. 이어서 그 단어를 발음한 음성에 해당하는 신호가 음성입력부(110)를 통해 입력되면, 음성특징추출부(120)에서는 상기 음성의 특징(feature)을 추출하고, 특징저장 및 단어 테이블 갱신부(140)는 그 추출된 음성특징을 특징참고 데이터베이스(130)에 저장한다. 이런식으로 단어와 그 단어에 대응되는 음성신호의 특징이 저장되는 것이 일반적인 음성인식시의 데이터베이스 구축 방법 또는 단어 훈련 방법이었다. 소정 텍스트 또는 음성 입력이 들어오면 도 1의 방법과 같이 구축된 데이터베이스(130, 150)로부터 음성에 대응되는 단어를 가져올 수 있었다. 그러나 이러한 방법으로는 음성인식시 유사한 단어의 음성 입력에 대해 데이터베이스로부터 정확한 단어 데이터를 추출하는데 오류 발생 가능성이 높아 음성인식률이 떨어지는 단점이 있다.

본 발명이 이루고자하는 기술적 과제는, 음성인식시 유사 단어에 대해 구분이 명확한 별칭을 마련하여 데이터베이스로 구축시킴으로써 후에 유사단어의 음성 입력시 그 단어의 별칭을 사용하여 정확한 음성인식이 이뤄지게 하는 음성인식을 위한 단어 훈련 방법을 제공하는데 있다.

도 1은 음성인식을 위해 일반적으로 단어를 훈련시켜 데이터베이스화하는 과정을 블록 다이어그램으로 나타낸 것이다.

도 2는 본 발명이 적용되는 음성처리기능이 구비된 장치의 구성을 보인 것이다.

도 3은 도 2의 컴퓨터 내부의 음성인식을 위한 상세 구성도를 도시한 것이다.

도 4는 본 발명의 음성인식시의 데이터 베이스 구축 방법의 개요를 보인 블록 다이어그램이다.

도 5는 본 발명의 음성인식을 위한 단어 훈련 방법의 흐름도를 도시한 것이다.

상기 과제를 해결하기 위한, 음성인식을 위해 소정의 단어와 그에 상응하는 소정의 음성을 미리 데이터베이스로 구축하는 음성인식시의 단어 훈련 방법은, 단어 및 상기 단어의 별칭(alias)를 입력하는 단계; 상기 별칭에 대응하는 음성신호를 입력하는 단계; 상기 별칭의 음성신호 특징(feature)를 추출하는 단계; 상기 별칭의 음성신호 특징과 상기 데이터베이스에 이미 저장되어 있는 다른 단어의 별칭의 음성특징이 소정 기준 이상으로 유사한지를 비교한 후, 소정 기준 이상으로 유사하면 현 입력 단어에 대해 다른 별칭을 입력하는 단계; 및 상기 입력한 별칭에 대한 음성신호의 특징을 상기 데이터베이스에 저장하는 단계를 구비한다.

이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

도 2는 본 발명이 적용되는 음성신호처리기능이 구비된 장치의 구성을 보인 것으로서, 음성신호처리기능을 갖춘 장치는 전화접속망(PSTN)을 통해 전화나 팩스 정보를 입력받는 팩스모뎀(210), 마이크, 키보드, 스피커 및 모니터등의 입출력 장치(220, 230), 랜(LAN)등의 네트웍에 접속되는 네트웍 어댑터(240) 및 이들로부터 받은 정보를 음성처리하는 시스템A(250)를 구비한다. 시스템A(250)는 전화라인을 통해 입력된 개인정보와 전자우편을 관리할 수 있는 시스템으로서, 개인용 컴퓨터등에 음성명령을 인식할 수 있는 소프트웨어를 탑재하여, 전화라인이나 시스템에서 입력된 음성으로 소정의 프로그램의 입력을 삼을 수 있는 기능을 포함한다. 예를 들면 컴퓨터에 연결된 마이크나 원격지로부터 걸려온 전화로부터 음성을 입력받아 그 음성을 소정의 정보로 가공하여 컴퓨터 내부의 소정 응용 시스템 명령어와 사용자 정의 명령어로서 수행되도록 하는, 사용자 서비스용 장치이다. 시스템A(250)는 또한 전화접속망(PSTN)을 통해 각종 통신기기와 연결이 되어 있고 메일서버와 근거리 지역망(LAN)에 연결된 컴퓨터에서 상술한 네트웍으로부터의 정보를 처리하는 기능을 가진 소프트웨어로 존재한다. 시스템A(250)는 모뎀인터페이스(251), 로컬인터페이스(252) 및 정보저장데이터베이스(253)를 포함한다. 모뎀인터페이스(251)는 팩스모뎀(210)과의 데이터 인터페이스를 위한 것이다. 로컬인터페이스(252)는 컴퓨터에 접속된 각 종 입출력 장치와의 인터페이스를 위한 것이다. 로컬 인터페이스(252)와 모뎀 인터페이스(251)는 시스템A(250)내에서 처리된 여러 응용 프로그램의 입력명령 및 수행결과를 연결된 주변기기와 연결시키는 역할을 한다. 시스템A(250)는 이런 인테페이스 기능외에도 도면에는 도시되지 않았지만 랜(LAN)등에 입출력되는 데이터를 네트웍 어댑터를 통해 인터페이스한다. 정보저장데이터베이스(253)는 상술한 각 인터페이스를 통해 들어온 데이터 또는 그 데이터 처리 결과가, 검색 및 저장을 위해 소정의 방식으로 저장되어 있다.

도 3은 도 2의 컴퓨터 내부를 시스템A 중심으로 상세히 도시한 것으로서, 컴퓨터는 팩스모뎀(300), 팩스모뎀 인터페이스(301), 마이크 및 키보드(302), 스피커 및 모니터(303), 로컬 인터페이스(304), 네트웍 인터페이스(305), 정보관리부(306), 정보저장 데이터베이스(307), 음성인식부(308), 음성합성엔진(309) 및 음성처리 인터페이스(310)를 구비한다. 팩스모뎀(300)부터 네트웍 인터페이스(305)까지는 도 2의 내용과 중복되는 평이한 내용이므로 그 설명을 생략한다. 여기서 정보관리부(306)는 팩스 모뎀 인터페이스(301), 로컬 인터페이스(304) 및 네트웍 인터페이스(305)와 송수신한 데이터를 소정의 정보로 가공한다. 정보관리부(306)에는 개인 정보 유지 시스템(Persnal Information Management System; PIMS), 메일(male), 팩스 사서함 및 음성 사서함등의 응용 정보가 포함될 수 있다. 정보관리부(306)에서 발생된 정보는 검색의 용이를 위해 소정 방식으로 구축된 정보저장 데이터베이스(307)에 저장된다. 음성인식부(308)는 마이크와 같은 입력장치(302)로부터 로컬 인터페이스(304)를 거쳐 입력된 음성신호, 전화선을 통해 팩스 모뎀 인터페이스(301)을 거쳐 보내진 음성신호 또는 네트웍을 통해 정보 관리부(306)를 거쳐 입력된 음성 신호를 인식하여 소정의 텍스트로 변환하여 팩스모뎀 인터페이스(301)나 스피커 또는 모니터등의 출력장치(303)로 출력하거나 소정의 시스템 명령어로 사용되도록 음성신호를 번역한다. 음성인식부(308)에는 이러한 음성인식을 위해 음성신호와 그에 대응되는 텍스트가 데이터베이스로 구축되어 있다. 정보 관리부(306)로부터 수신된 정보중 텍스트 정보에 해당하는 정보는 음성처리 인터페이스(310)로 입력된다. 음성처리 인터페이스(310)는 이들 음성을 음성합성엔진(309)으로 출력한다. 음성합성엔진(309)은 텍스트를 음성으로 합성하며, 이를위해 소정 문자와 그에 대응하는 음성신호가 데이터베이스로 미리 구축되어져 있어서, 입력되는 텍스트에 대해 분석한 후 그 데이터베이스로부터 상기 텍스트에 대응하는 음성신호를 추출한다.

도 4는 본 발명의 음성인식을 위한 데이터베이스 구축 방법의 개요를 보인 블록 다이어그램으로서, 원단어 및 별칭 입력부(400), 음성입력부(410), 음성특징추출부(420), 최고근접특징선택부(430), 특징참고 데이터베이스(440), 음성특징비교부(450), 특징저장 및 원단어/별칭 테이블 갱신부(460) 및 원단어 및 별칭 저장 데이터베이스(470)으로 구성되어 있다. 원단어 및 별칭 입력부(400)는 소정의 단어 및 그 단어를 달리 표현하는 별칭(alias)을 함께 입력한다. 입력된 단어 및 별칭은 특징저장 및 원단어 또는 별칭 테이블 갱신부(460)에서 데이터베이스화되어 원단어 및 별칭 저장 데이터베이스(470)에 저장된다. 원단어 및 별칭 입력부(400)로 입력된 텍스트를 발음할 때 나는 음성신호는 음성입력부(410)로 입력된다. 음성특징 추출부(420)는 입력된 음성신호로부터 소정의 음성 특징(이하 특징이라 함)을 추출한다. 최고근접 특징선택부(430)는 음성신호의 특징이 데이터베이스화되어 저장되어 있는 특징참고 데이터베이스(440)로부터 음성 특징 추출부(420)에서 추출된 특징과 가장 유사한 음성 특징을 가져온다. 음성특징비교부(450)는 현재 추출된 음성특징과 최고근접 특징선택부(430)로부터 가져온 음성특징의 유사도를 비교하여 어느 정도 이상 유사하다고 판단되면 음성입력부(410) 및 원단어 및 별칭 입력부(400)에 '다른 별칭에 대한 텍스트 및 그 음성신호'를 입력해줄 것을 요청한다. 음성특징비교기(450)에서 판단된 유사도가 어느 정도 이하이면 입력된 음성심호를 특징저장 및 원단어 또는 별칭 테이블 갱신부(460)로 출력한다. 특징저장 및 원단어 또는 별칭 테이블 갱신부(460)는 음성특징을 데이터베이스화하여 특징참고 데이터베이스(440)에 저장한다.

도 5는 본 발명의 음성인식을 위한 단어 훈련방법의 흐름도를 도시한 것으로서, 먼저 키보드등의 입력장치를 이용하여 데이터베이스화 할 단어 및 단어의 별칭을 입력한다(500단계). 이는 음성인식시 임의의 단어에 대해 그 인식 또는 합성 효율을 안정적으로 가져가기 위해 별칭을 따로 입력하는 것이다. 소정의 음성입력 장치를 통해, 입력된 원단어 및 별칭에 대한 음성신호를 입력한다(510단계). 통상 사용되는 음성인식 방법을 사용하여 입력된 음성신호중 별칭에 해당하는 음성신호의 특징 A를 추출한다(520단계). 특징 참고 데이터베이스(440)로부터 앞서 저장된 음성신호 특징들 중에서 특징 A와 가장 유사한 특징 B를 가져온다(530단계). 특징 A와 특징 B가 얼마나 유사한지에 대한 유사도 C를 계산한다(540단계). 이는 특징 A와 특징 B가 지나치게 유사한 경우, 상기 별칭의 음성 인식시 특징 B인 음성 데이터를 잘못 가져올 수 있다는 가정하에 그러한 오인식의 소지를 없애기 위해 이미 데이터베이스에 저장되어 있는 별칭의 음성신호 특징과 현재 입력된 별칭의 음성신호 특징의 유사도를 계산하기 위한 것이다. 상기 별칭의 음성 특징 A와 기존에 저장된 음성특징 B의 유사도 C가 소정의 유사도 결정 임계치(threshold)보다 큰지를 확인한다(550단계). 유사도 C가 소정의 유사도 결정 임계치(threshold)보다 크면 상기 별칭의 음성특징과 기존에 저장된 소정 별칭의 음성특징이 매우 유사한 것이므로 데이터베이스 구축 당사자에게 다른 별칭을 입력하라고 알린다(560단계). 유사도 C가 소정의 유사도 결정 임계치(threshold)보다 작거나 560단계를 수행후 상기 단어에 대한 다른 별칭 또는 새로운 단어 및 별칭을 입력할 것인지를 확인한다(570단계). 570단계에서 재입력할 것이라고 하면 500단계부터 다시 위의 과정을 수행하며, 재입력하지 않을 것이라고 하면 상기 단어 및 별칭, 그리고 상기 별칭에 대한 음성신호의 특징을 데이터베이스에 저장한다(580단계).

Claims

음성인식을 위해 소정의 단어와 그에 상응하는 소정의 음성을 미리 데이터베이스로 구축하는 음성인식시의 단어 훈련 방법에 있어서,

단어 및 상기 단어의 별칭(alias)를 입력하는 단계;

상기 별칭에 대응하는 음성신호를 입력하는 단계;

상기 별칭의 음성신호 특징(feature)를 추출하는 단계;

상기 별칭의 음성신호 특징과 상기 데이터베이스에 이미 저장되어 있는 다른 단어의 별칭의 음성특징이 소정 기준 이상으로 유사한지를 비교한 후, 소정 기준 이상으로 유사하면 현 입력 단어에 대해 다른 별칭을 입력하는 단계; 및

상기 입력한 별칭에 대한 음성신호의 특징을 상기 데이터베이스에 저장하는 단계를 구비함을 특징으로하는 음성인식을 위한 단어 훈련방법.