KR20050054706A

KR20050054706A - 음성인식을 위한 어휘 트리 구축 방법

Info

Publication number: KR20050054706A
Application number: KR1020030088222A
Authority: KR
Inventors: 김준석; 이상호
Original assignee: 엘지전자 주식회사
Priority date: 2003-12-05
Filing date: 2003-12-05
Publication date: 2005-06-10
Also published as: US20050125220A1

Abstract

본 발명은 휴대폰에서 인명만을 인식할 수 있는 음성인식기가 인명과 "집/사무실/휴대폰"과 같은 단어를 이어서 발화해도 이를 높은 인식률로 인식할 수 있도록 어휘트리를 구축하는 기술에 관한 것이다. 이러한 본 발명은, 인명을 위한 "인명 트리"와, 인명 뒤에 올 수 있는 "집/사무실/휴대폰" 등과 같은 단어를 위한 "확장단어 트리"와, 인명 트리와 확장단어 트리간의 연음 현상을 해결하기 위한 "연음접속용 트리"의 3단계로 어휘트리를 구축하는 것에 의해 달성된다.

Description

음성인식을 위한 어휘 트리 구축 방법{METHOD FOR BUILDING LEXICAL TREE FOR SPEECH RECOGNITION}

본 발명은 음성인식기에서 연속되는 음성을 인식하는데 적당하도록 어휘 트리를 구축하는 기술에 관한 것으로, 특히 휴대폰 내의 주소록에 포함된 인명만을 인식할 수 있는 음성인식기가 인명과 "집/사무실/휴대폰"과 같은 단어를 이어서 발화해도 이를 높은 인식률로 인식할 수 있도록 3단계의 어휘 트리를 서로 유기적으로 연결한 음성인식을 위한 어휘 트리 구축 방법에 관한 것이다.

일반적으로, 휴대폰의 폰북 주소록에 전화번호를 기록할 때 한 사람의 이름에 대하여 여러 개의 전화번호를 입력할 수 있다. 예를 들어, "김철수"라는 사람의 전화번호로서 "집 전화번호", "사무실 전화번호", "휴대폰 전화번호" 등 여러 가지의 전화번호를 입력할 수 있다.

그리고, 휴대폰의 음성인식기를 이용하여 상기 주소록에 기록되어 있는 여러 사람의 각종 전화번호를 검색할 수 있다. 그런데, 인식 대상의 단어가 확장된 형태일 때에는 소정의 시간 차를 두고 발화해야 한다. 예를 들어, "김철수"라는 사람의 사무실 전화번호를 검색할 때, 먼저 "김철수"라고 발화하여 그 음성이 인식된 것을 확인한 후 "사무실"이라고 발화해야 한다.

즉, 음성인식을 통해 목적한 사람을 검색한 후에도 최종적으로 검색하고자 하는 전화번호가 "집 전화번호"인지 "사무실 전화번호"인지 "휴대폰 전화번호"인지를 인식할 수 있도록 나머지 단어를 발화해야 한다.

이와 같이 종래 휴대폰의 음성인식 시스템에 있어서는 인식 대상의 단어가 확장된 형태일 때에는 소정의 시간 차를 두고 발화해야 하므로 사용하는데 불편함이 있고, 인식 오류의 발생 확률이 높아져 음성인식 성능이 떨어지는 문제점이 있었다.

따라서, 본 발명의 목적은 휴대폰 내의 주소록에 포함된 인명만을 인식할 수 있는 음성인식기가 인명과 "집/사무실/휴대폰"과 같은 단어를 이어서 발화해도 이를 높은 인식률로 인식할 수 있도록 3단계의 어휘 트리를 서로 유기적으로 연결하는 음성인식을 위한 어휘 트리 구축 방법을 제공함에 있다.

본 발명의 제1특징에 따르면, 음성인식을 위한 어휘 트리를 구축할 때 휴대폰 주소록상의 이름으로 이루어지는 인명 트리와 인명트리 뒤에 올 수 있는 집/사무실/휴대폰 등과 같은 단어들로 이루어지는 확장단어 트리로 구축하는 것이다.

본 발명의 제2특징에 따르면, 확장단어 트리를 구축할 때 적절한 위치에 단일 묵음 노드(single silence node)를 삽입해 주는 것이다.

본 발명의 제3특징에 따르면, 북(book)이라는 자료구조에 각 시간(t)에서 활성화된 터미널 노드에 관한 정보를 저장해 두는 것이다.

본 발명의 제4특징에 따르면, 상기 인명 트리에서 확장 단어 트리로 토큰을 전달할 때, 현재 시간 정보를 넘겨주고 나중에 확장 단어 트리의 터미널 노드에 도달했을 때 그 정보를 이용하여 앞에 오는 단어를 북 자료구조에서 찾는 것이다.

본 발명의 제5특징에 따르면, 인명 트리와 확장 단어 트리간의 연음 현상을 해결하기 위해서 연음 접속용 트리를 인명 트리와 확장 단어 트리 사이에 위치시키는 것이다.

본 발명에 의한 음성인식을 위한 어휘 트리 구축 방법은, 인명(이름)을 위한 "인명 트리"와, 인명 뒤에 올 수 있는 "집/사무실/휴대폰" 등과 같은 단어를 위한 "확장단어 트리"와, 인명 트리와 확장단어 트리간의 연음 현상을 해결하기 위한 "연음접속용 트리"의 3단계로 어휘트리는 구축하는 제1과정과; 상기 3단계의 어휘 트리 구조를 이용하여 음성을 인식하는 제2과정으로 이루어지는 것으로, 이와 같이 이루어지는 본 발명의 어휘 트리 구축방법을 첨부한 도 1 내지 도 11을 참조하여 상세히 설명하면 다음과 같다.

먼저, 본 발명에 의한 어휘 트리, 인명 트리 및 확장 단어 트리를 도 1 내지 도 3을 참조하여 설명하면 다음과 같다.

도 1은 이는 음성인식의 탐색 공간(search space)을 제공하는 어휘 트리의 구축과정을 나타낸 것이다. 예를 들어, "강성기"라는 인명의 단어가 있을 때, 우선 자음과 모음열로 분리한다. 이어서, 상기 분리된 자음과 모음열로부터 삼중음소(tri-phone) 리스트를 생성하게 되는데, 이 삼중음소는 트리에서 3개의 노드가 되는 구조를 말한다. 상기 노드는 일반 노드와 각 단의 마지막 노드를 의미하는 터미널 노드로 분류된다. 노드와 노드는 링크로 연결되는데, 이 링크는 트리에서 같은 레벨간의 노드들을 연결해 주는 시블링(sibling) 링크와 서로 다른 레벨간의 노드를 연결해 주는 레프트 차일드(Left Child) 링크로 분류할 수 있다.

도 2는 상기 도 1에서 생성된 어휘 트리에 "강성수"라는 단어가 추가되는 형태를 나타낸 것이다. 이에 도시한 바와 같이, 상기 "강성수"를 자음, 모음으로 분리하고 삼중음소 리스트를 생성한다. 그런데, 리스트의 앞부분은 상기 "강성기"와 일치하므로 노드를 공유할 수 있다. 하지만, 삼중음소 "ㅇ-ㅅ-ㅜ"부터 다르므로, 기존 트리의 첫 번째 다른 노드(N21)와 "ㅇ-ㅅ-ㅜ"의 첫 번째 노드(N22)를 시블링 링크로 연결해 준다.

도 3은 휴대폰 주소록의 인명 리스트로부터 생성된 어휘 트리를 "이름(인명) 트리"라고 정의하고, "묵음(silence)/집/사무실/휴대폰"과 같은 이름 뒤에 올 수 있는 단어들로 이루어진 어휘 트리를 "확장 단어 트리"라고 정의한 것을 나타낸 것이다. 상기 묵음은 사용자가 인명만 발화 했을 경우 인명만을 인식하기 위해 필요하다.

한편, 본 발명에 의한 확장 단어 트리의 구조를 도 4를 참조하여 설명하면 다음과 같다.

도 4는 본 발명에 의한 확장 단어 트리의 구조를 나타낸 것이다. "묵음/집/사무실/휴대폰" 단어의 첫 번째 노드를 스타트 노드라고 부른다. 이름 트리에서 터미널 노드에 도착하면 스타트 노드에 토큰을 전달해 준다. 상기 각 스타트 노드들은 시블링 링크로 연결된다. "묵음/집/사무실/휴대폰" 등과 같은 단어는 자음과 모음으로 분리한 후 삼중음소 리스트를 작성하게 되며, 이의 트리는 상기 설명에서와 같이 구성한다. 여기서, "S"는 시블링 링크를 의미하고, "L"은 레프트 차일드 링크를 의미한다. 또한 특별히 "집"이라는 단어를 위한 트리에 단일 묵음 (single silence) 노드를 제일 앞에 추가하였는데, 이는 사람들이 "XXX집"이라고 발화할 때 약간 포즈(pause)를 두는 경향이 많은 것을 감안한 것이다. 실제로 단일 묵음 노드를 삽입하였을 때 그렇지 않은 경우에 비하여 인식 성능이 현저히 향상된 것을 실험적으로 확인할 수 있었다.

한편, 이름 트리와 확장 단어 트리 간을 연결하고, 인식 결과를 출력하는 처리과정을 도 5 및 도 6을 참조하여 설명하면 다음과 같다.

도 5는 이름 트리와 확장 단어 트리간의 연결 상태를 나타낸 것이다. 임의의 시점 t에서 이름 트리에서 활성화(active)된 노드가 터미널 노드(N51),(N52)인 경우, 확장 단어 트리의 모든 스타트 노드에 토큰을 넘겨준다. 이때, 토큰과 함께 시간정보 t를 넘겨준다.

도 6은 임의의 시점 t에서 활성화된 모든 터미널 노드에 대한 정보를 저장하는 북(book) 자료 구조를 나타낸 것이다. 북에는 각 시점에서 활성화된 각 터미널 노드의 이름 단어와 현재까지의 점수들의 페어(pair)들을 저장한다. 여기에서는 임의의 시점 t에서 (고옥란 100)과 (서순화 80)이 저장된 것을 예시적으로 나타내었는데, (고옥란 100)은 이름 트리의 "고옥란"에 해당하는 터미널 노드가 활성화되어서 확장 단어 트리에 토큰을 전달하였고, 그때까지의 HMM 점수가 100임을 의미한다.

이후에 확장 단어 트리의 터미널 노드에 도달하게 되면, 즉 탐색 동작이 종료되면, 넘겨받은 토큰정보(시간정보)를 이용하여 북 자료구조에서 각 페어(pair)들 중 상기 HMM 점수가 가장 높은 것을 선택하여 탐색 결과로 출력한다. 예를 들어, 확장 단어 트리의 터미널 노드에 도달했는데, "사무실"이라는 단어이었고 토큰 정보가 t였다면 북 자료 구조에서 가장 점수가 높은 것이 "고옥란"이므로 음성인식기에서는 최종적으로 "고옥란 사무실"이라는 음성인식 결과를 출력한다. 만약, 확장 단어 트리에서 "묵음"이 인식되고 토큰 정보가 t라면 최종의 음성인식 결과는 "고옥란"이 된다.

한편, 본 발명에 의한 연음 접속용 트리에 대하여 도 7 내지 도 9를 참조하여 설명하면 다음과 같다.

도 7은 한국어 단어의 마지막 음절의 종성으로 올 수 있는 27개의 자음을 나타낸 테이블이고, 도 8은 한국어 단어의 마지막 음절의 중성으로 올 수 있는 21개의 모음을 나타낸 테이블이다.

연속된 두 개의 단어를 발화하면 연음 현상이 발생하게 되는데, 음성인식을 위한 어휘 트리를 구축할 때 이런 연음 현상에 대비해야 한다. 따라서, 도 9와 같은 연음 접속용 트리가 필요하다. 도 9에서와 같이 연음 접속용 트리는 크게 3개로 구분할 수 있는데, 이들은 "집","사무실","휴대폰" 각각의 단어를 위해 사용된다. 각 트리의 시작 노드는 종성 27개, 중성 21개, 총 48개의 노드로 구성된다. "ㄱ-ㅈ-ㅣ"는 이름 트리에서 인식된 단어의 마지막 음절의 종성이 "ㄱ"으로 끝나는 모든 단어와 "집"이 연결될 때 발생하는 연음 현상을 위해 사용된다. 예를 들어, "김종국 집"과 같은 연결 단어를 위해 사용된다. 실제 음성인식기를 구현하고 연음 접속용 트리가 있는 것과 없는 것의 성능을 비교 실험한 결과 연음 접속용 트리를 사용한 것이 그렇지 않은 것에 비하여 월등이 우수한 성능을 나타내는 것을 확인할 수 있었다.

한편, 본 발명에 의한 이름 트리와 연음 접속용 트리간의 연결 형태를 도 10을 참조하여 설명하면 다음과 같다.

도 10은 본 발명에 의한 연음 접속용 트리 간의 연결 형태를 나타낸 것이다. 상기 도 5에서와 같이 임의의 시점 t에서 이름 트리의 활성화된 터미널 노드(N101)가 있으면 우선 확장 단어 트리인 스타트 노드에 토큰을 전달해 준다. 이와 동시에, 연음 접속용 트리에도 토큰을 전달해 준다. 인식된 단어 "강성기"의 마지막 음절의 중성이 "ㅣ"이기 때문에 "집/사무실/휴대폰"의 47번째 노드(N102,N103,N104)에 토큰을 전달해 준다. 연속 접속용 트리에도 역시 토큰 정보로는 시간 정보를 넘겨주고, 북 자료구조에 현재 시간에 활성화된 모든 터미널 노드의 정보를 기록해 주는 것은 상기 확장 단어 트리의 경우와 동일하게 처리된다.

한편, 본 발명에 의한 연음 접속용 트리와 확장 단어 트리간의 연결 형태를 도 11을 참조하여 설명하면 다음과 같다.

도 11은 연음접속용 트리와 확장 단어 트리간의 연결 형태를 나타낸 것이다. 연음접속용 트리 3부분의 마지막 노드(N111),(N112),(N113)는 각각 확장단어 트리의 노드(N114),(N115),(N116)가 된다. 상기 확장단어 트리의 스타트 노드로부터 들어온 노드(N114),(N115),(N116)와 연음접속용 트리를 통해 들어온 노드(N111), (N112),(N113)가 서로 만나게 되는데, 탐색 과정 중 임의의 시점 t에서 양쪽의 경로로 동시에 토큰이 들어오면 그 중에서 HMM 점수가 높은 것이 선택된다.

이상에서 상세히 설명한 바와 같이 본 발명은 휴대폰 내의 주소록에 포함된 인명만을 인식할 수 있는 음성인식기에서, 인명과 "집/사무실/휴대폰"과 같은 단어를 이어서 발화해도 이를 높은 인식률로 인식할 수 있도록 3단계의 어휘 트리를 서로 유기적으로 연결함으로써, 자신이 원하는 전화번호를 보다 손쉽고 정확하게 찾을 수 있는 효과가 있다.

도 1은 본 발명에 의한 어휘 트리의 예시도.

도 2는 본 발명에 의한 어휘 트리의 구조를 나타낸 설명도.

도 3은 본 발명에 의한 이름 트리와 확장 단어 트리의 예시도.

도 4는 본 발명에 의한 확장 단어 트리의 구조를 나타낸 설명도.

도 5는 본 발명에 의한 이름 트리와 확장단어 트리 간의 연결 관계를 나타낸 예시도.

도 6은 본 발명에 의한 북 자료의 포맷도.

도 7은 본 발명에 의한 종성 테이블.

도 8은 본 발명에 의한 중성 테이블.

도 9는 본 발명에 의한 연속접속용 트리의 구조를 나타낸 설명도.

도 10은 본 발명에 의한 이름 트리와 연음접속용 트리 간의 연결 관계를 나타낸 예시도.

도 11은 본 발명에 의한 연음접속용 트리와 확장단어 트리의 연결 관계를 나타낸 예시도.

Claims

인명을 위한 "인명 트리"와, 인명 뒤에 올 수 있는 "집/사무실/휴대폰" 등과 같은 단어를 위한 "확장단어 트리"와, 인명 트리와 확장단어 트리간의 연음 현상을 해결하기 위한 "연음접속용 트리"의 3단계로 어휘트리를 구축하는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
제1항에 있어서, 확장단어 트리를 구축할 때 적절한 위치에 단일 묵음 노드를 삽입하는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
제1항에 있어서, 상기 인명 트리와 확장 단어 트리를 연결하기 위하여, 임의의 시점 t에서 활성화된 각 터미널 노드의 이름 단어와 현재까지의 HMM 점수들의 페어들을 북에 저장하는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
제1항에 있어서, 상기 인명 트리에서 확장 단어 트리로 토큰을 전달할 때, 현재 시간 정보를 넘겨주고 나중에 확장 단어 트리의 터미널 노드에 도달했을 때 그 정보를 이용하여 앞에 오는 단어를 북 자료구조에서 찾아내는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
제1항에 있어서, 인명 트리와 확장 단어 트리간의 연음 현상을 해결하기 위해 연음 접속용 트리를 인명 트리와 확장 단어 트리 사이에 위치시키는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
제1항에 있어서, 3단계의 어휘 트리는 휴대폰에 적용되는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.