KR20210101971A

KR20210101971A - 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Info

Publication number: KR20210101971A
Application number: KR1020200016609A
Authority: KR
Inventors: 유승우; 김희경; 박성원
Original assignee: 주식회사 케이티
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2021-08-19
Also published as: KR102605159B1

Abstract

정교화된 음소 분리 모델에 기초하여 음성 인식 서비스를 제공하는 서버는 한국인 발음 및 외국인 발음 각각에 대한 복수의 발음열을 구별하여 정의한 발음 사전을 구축하는 사전 구축부, 유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 음소 분리 모델을 학습시키는 학습부, 음성 신호를 입력받는 입력부, 음성 신호를 기설정된 단위 크기로 분할하는 분할부, 음소 분리 모델에 기초하여 분리된 음성 신호를 인식하는 인식부 및 인식 결과에 기초하여 음성 신호에 대한 음성 인식 서비스를 제공하는 제공부를 포함할 수 있다.

Description

음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램{SERVER, METHOD AND COMPUTER PROGRAM FOR PROVIDING VOICE RECOGNITION SERVICE}

본 발명은 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램에 관한 것이다.

종래의 음성 인식 학습은 음성과 발화 문장을 이용, 유사 발음(음소)을 기준으로 군집하여 하나의 모델을 구성한다. 이때, 한국인 발음(예컨대, '아') 및 영어 발음(예컨대, 'a')은 유사하므로 섞이는 현상이 발생한다. 이러한, 음성 인식 학습은 한국인 발음과 영어 발음이 유사한 상황에서 구분하지 못한다는 단점을 갖는다.

이렇게 발음이 유사한 음소 성분이 섞이는 현상은 음성을 인식하는 과정에서 한국인 발음과 영어 발음을 구분하지 못하는 문제로 이어지게 된다.

도 2a를 참조하면, 기존의 트리 규칙은 음성 신호의 유사도로만 판단하여 영어 발음열과 한국어 발음열 간의 경계가 없다. 또한, 기존의 음성 인식 모델은 한국어 발음열과 영어 발음열 간의 구별없이 서로의 발음열을 공유하기 때문에 영어 발음열 및 한국어 발음열 간의 경계가 모호해질 수 밖에 없다.

한국인의 영어 교육 수준의 증가로 영어를 외국인처럼 발화하는 한국인이 늘어나고 있다. 한국인의 영어 발음과 외국인의 영어 발음 간의 인식 경계가 사라지고 있어서, 기존의 음성 인식 모델을 이용한 음성인식 방식으로는 외국인의 영어 발음과 유사한 한국인의 영어 발음을 구분 및 인식하는데 어려움이 있다. 예를 들어, 도 2b를 참조하면, 한국인(207)과 외국인(209)이 “BTS 노래 love 틀어”를 발화할 때, 한국인(207)의 영어 발음이 외국인(209)의 영어 발음과 유사할 경우, 기존의 음성 인식 모델은 인식률 개선이 요구될 수 밖에 없다.

한편, 최근의 음성 인식 서비스의 현황을 살펴보면, 핸드폰의 키패드 설정(예컨대, 한글 타이핑, 영어 타이핑)에 따라 음성 인식 모델이 선택되고, 선택된 음성 인식 모델을 통해 언어별 음성 인식 서비스가 제공되고 있다.

종래의 인공 지능 스피커의 경우, 한글 인식을 중점적으로 구사하고 있거나, 언어 식별 모델을 이용하여 발화되는 언어가 한글인지 또는 영어인지를 판단한 후에 선택된 언어에 대응하는 음성 인식 모델을 이용하여 음성 인식 서비스를 제공하고 있다.

한국등록특허공보 제10-1482148호 (2015.01.07. 등록)

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 음성 신호로부터 추출된 음소 성분을 유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 분류하고자 한다. 또한, 본 발명은 분류 결과에 기초하여 음성 인식 서비스를 제공하고자 한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 음소 분리 모델에 기초하여 음성 인식 서비스를 제공하는 서버는 한국인 발음 및 외국인 발음 각각에 대한 복수의 발음열을 구별하여 정의한 발음 사전을 구축하는 사전 구축부; 유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 음소 분리 모델을 학습시키는 학습부; 음성 신호를 입력받는 입력부; 상기 음성 신호를 기설정된 단위 크기로 분할하는 분할부; 상기 음소 분리 모델에 기초하여 상기 분할된 음성 신호를 인식하는 인식부; 및 인식 결과에 기초하여 음성 인식 서비스를 제공하는 제공부를 포함할 수 있다.

본 발명의 제 2 측면에 따른 음소 분리 모델에 기초하여 음성 인식 서비스를 제공하는 서버는 한국인 발음 및 외국인 발음 각각에 대한 복수의 발음열을 구별하여 정의한 발음 사전을 구축하는 단계; 유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 음소 분리 모델을 학습시키는 단계; 음성 신호를 입력받는 단계; 상기 음성 신호를 기설정된 단위 크기로 분할하는 단계; 상기 음소 분리 모델에 기초하여 상기 분할된 음성 신호를 인식하는 단계; 및 인식 결과에 기초하여 상기 음성 신호에 대한 음성 인식 서비스를 제공하는 단계를 포함할 수 있다.

본 발명의 제 3 측면에 따른 음소 분리 모델에 기초하여 음성 인식 서비스를 제공하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 한국인 발음 및 외국인 발음 각각에 대한 복수의 발음열을 구별하여 정의한 발음 사전을 구축하고, 유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 음소 분리 모델을 학습시키고, 음성 신호를 입력받고, 상기 음성 신호를 기설정된 단위 크기로 분할하고, 상기 음소 분리 모델에 기초하여 상기 분할된 음성 신호를 인식하고, 인식 결과에 기초하여 상기 음성 신호에 대한 음성 인식 서비스를 제공하는 명령어들의 시퀀스를 포함할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 음성 신호로부터 추출된 음소 성분을 유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 분류하고, 분류 결과에 기초하여 음성 인식 서비스를 제공할 수 있다.

이를 통해, 본 발명은 별도의 언어 분류 모델을 이용하지 않더라도 정의된 언어 기반의 트리 규칙에 기초하여 한국인 발음과 외국인 발음을 분류하기 때문에 한국인 발음과 외국인 발음이 섞이는 현상을 제거할 수 있어 한국어 인식률을 유지한 채로 영어 인식률을 향상시킬 수 있다. 또한, 본 발명은 한국어 및 영어가 동시에 포함된 음성 데이터가 입력되더라도 정의된 언어 기반의 트리 규칙을 통해 한영 전환 음성 인식이 가능하다.

도 1은 본 발명의 일 실시예에 따른, 음성 인식 서비스 제공 서버의 블록도이다.
도 2a 내지 2b는 종래의 음성 인식 방법을 설명하기 위한 도면이다.
도 3a 내지 3c는 본 발명의 일 실시예에 따른, 음소 분리 모델을 학습하는 방법을 설명하기 위한 도면이다.
도 4a 내지 4b는 종래의 음성 신호의 인식 방법과 본 발명의 음성 신호의 인식 방법을 비교 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른, 음성 인식 서비스 제공 방법을 나타낸 흐름도이다.
도 6은 본 발명의 일 실시예에 따른, 음소 분리 모델을 생성하는 방법을 나타낸 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른, 음성 인식 서비스 제공 서버(10)의 블록도이다.

도 1을 참조하면, 음성 인식 서비스 제공 서버(10)는 학습부(100), 입력부(110), 분할부(120), 인식부(130), 사전 구축부(140), 트리 규칙 생성부(150) 및 제공부(160)를 포함할 수 있다. 여기서, 트리 규칙 생성부(150)는 언어 레벨 결정부(152), 음소 레벨 결정부(154) 및 운소 레벨 결정부(156)를 포함할 수 있다. 다만, 도 1에 도시된 음성 인식 서비스 제공 서버(10)는 본 발명의 하나의 구현 예에 불과하며, 도 1에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다.

이하에서는 도 3a 내지 4b를 함께 참조하여 도 1을 설명하기로 한다.

사전 구축부(140)는 한국어 발음에 대한 발음열과 외국인 발음에 대한 발음열 간 유사성에 따른 간섭을 최소화하기 위해 발음열을 분리할 수 있다. 예를 들어, 사전 구축부(140)는 한글 모음에 해당하는 'ㅏ'와 영어 모음에 해당하는 'a' 가 유사하기 때문에 이러한 유사성에 따른 간섭을 최소화하기 위해 한국인 발음 및 외국인 발음 각각에 대한 발음열 분리 작업을 수행할 수 있다.

사전 구축부(140)는 한국인 발음 및 외국인 발음 각각에 대한 복수의 발음열을 정의하고, 한국어 발음에 대한 발음열과 외국인 발음에 대한 발음열을 분리할 수 있다. 또한, 사전 구축부(140)는 외국인 발음의 발음열에 대한 강세 또는 길이를 설정하고, 한국인 발음의 발음열에 대한 강세 또는 길이를 설정할 수 있다. 예를 들어, 사전 구축부(140)는 외국인 발음의 발음열을 구성하는 자음 또는 모음의 발음에 대하여 발음의 강세 또는 길이를 설정할 수 있다.

예를 들어, 도 3a를 참조하면, 사전 구축부(140)는 외국인의 영어 발음에 대한 제 1 발음열(301, 예컨대, 대문자 형태의 26개의 발음열)을 정의하고, 한국인의 영어 와 한국인의 한국어 발음에 대한 제 2 발음열(예컨대, 한글 형태의 40개의 한국인 발음열)을 정의하여 각 영어 발음에 대한 발음열을 분리할 수 있다.

예를 들어, 한국인이 'bts 노래 love 틀어'(305)를 발음하게 되는 경우, 해당 발음에 대한 한국인의 발음열은 [b t s ㄴ ㅗ ㄹ ㅐ l o v e ㅌ ㅡ ㄹ ㅇ ㅓ]로 구성될 수 있고, 외국인이 'BTS 노래 LOVE 틀어'(307)를 발음하게 되는 경우, 해당 발음에 대한 외국인의 발음열은 [B T S ㄴ ㅗ ㄹ ㅐ L O V E ㅌ ㅡ ㄹ ㅇ ㅓ]로 구성될 수 있다.

사전 구축부(140)는 학습 텍스트 데이터 및 학습 텍스트 데이터에 대응하는 학습 음성 데이터를 포함하는 학습 데이터에 기초하여 음소 성분을 트라이폰 형태로 배열하고, 배열된 트라이폰 각각에 대하여 라벨링 작업을 수행할 수 있다. 사전 구축부(140)는 학습 텍스트 데이터를 발음하는 학습 음성 데이터가 한국인인지 외국인인지를 분류하고, 학습 텍스트 데이터를 구성하는 음소 성분을 3개씩 배열한 트라이폰 마다 라벨링 작업을 수행할 수 있다. 또한, 사전 구축부(140)는 각 트라이폰마다 트라인폰에 대응하는 발음열 및 트라이폰을 구성하는 음소의 시작과 끝 정보(즉, 음소 구간)을 매핑함으로써 각 트라이폰에 대한 라벨링 작업을 수행할 수 있다.

예를 들어, 도 3b를 참조하면, 음소 추출부(미도시)는 학습 텍스트 데이터(309)로부터 음소 성분을 추출할 수 있다. 음소 추출부(미도시)는 'BTS 노래 LOVE 틀어'로 구성된 학습 텍스트 데이터(309)로부터 음소 성분에 해당하는 'B', 'T', 'S', 'ㄴ', 'ㅗ', 'ㄹ', 'ㅐ', 'L', 'O', 'V', 'E', 'ㅌ', 'ㅡ', 'ㄹ', 'ㅇ', 'ㅓ'를 추출할 수 있다.

배열부(미도시)는 추출된 음소 성분을 3개의 음소 성분씩 그룹으로 묶어 트라이폰(Tri-Phone) 형태(313)로 배열할 수 있다. 예를 들어, 배열부(미도시)는 음소 성분에 해당하는 'B', 'T', 'S', 'ㄴ', 'ㅗ', ... , 'ㅓ'를 [<s>, B, T], [B, T, S], [T, S, ㄴ], [S, ㄴ, ㅗ], , [ㄹ, ㅇ, ㅓ], [ㅇ, ㅓ, <s>]와 같이 트라이폰 형태(313)로 배열할 수 있다.

사전 구축부(140)는 학습 음성 데이터(311)로부터 각 트라이폰마다 트라이폰을 구성하는 음소의 음소 구간(315)을 추출하고, 추출된 음소 구간(315) 및 해당 트라이폰에 대응하는 발음열을 해당 트라이폰에 매핑함으로써 해당 트라이폰에 대한 라벨링 작업을 수행할 수 있다.

각 트라이폰을 구성하는 음소 성분 중 가운데 음소 성분은 한국인 발음에 대응하는 음소 성분인지 또는 외국인 발음에 대응하는 음소 성분인지를 분류하는데 이용되고, 가운데 음소 성분을 제외한 나머지 음소 성분은 각 트라이폰 간의 앞뒤 간격의 문맥 정보(즉, 음향 문맥 정보)를 파악하는데 이용될 수 있다.

사전 구축부(140)는 한국인 발음 및 외국인 발음 각각에 대한 복수의 발음열을 구별하여 정의한 발음 사전을 구축할 수 있다.

이러한, 한국인 발음 및 외국인 발음 각각에 따라 발음열이 정의된 발음 사전을 구축하게 되면, 영어 단독 또는 한국어 및 영어 혼용 발화에 대한 음성 인식에 있어서 한국어 및 영어의 음소 간 자연스러운 전이가 가능하게 된다.

사전 구축부(140)는 발음 사전에 포함된 복수의 발음열의 음소 성분을 한국인 발음 및 상기 외국인 발음으로 분류하여 제 1 데이터베이스에 저장하고, 한국인 발음 및 외국인 발음 중 하나로 분류된 발음열이 자음에 해당하는지 또는 모음에 해당하는지 분류하여 제 2 데이터베이스에 저장하고, 자음 또는 모음으로 분류된 발음열에 대한 강세 또는 길이를 기설정된 강세 레벨 및 길이 레벨에 따라 분류하여 제 3 데이터베이스에 저장할 수 있다.

사전 구축부(140)는 제 1 데이터베이스, 제 2 데이터베이스 및 제 3 데이터베이스 각각으로 분류 저장된 복수의 발음열을 이용하여 발음 사전을 구축할 수 있다.

트리 규칙 생성부(150)는 구축된 발음 사전을 이용하여 정의된 언어 기반의 트리 규칙을 생성할 수 있다. 여기서, 정의된 언어 기반의 트리 규칙은 음소 성분이 한국인 발음 또는 외국인 발음 중 어느 발음에 대응하는 음소 성분인지 1차적으로 판단 및 분류하고, 음소 성분이 자음 또는 모음 중 어느 하나에 해당되는지 2차적으로 판단 및 분류하고, 음소 성분의 강세 또는 길이가 기정의된 복수의 강세 또는 길이 중 어느 하나로 분류되는지 3차적으로 판단 및 분류하는 규칙으로 구성될 수 있다.

트리 규칙 생성부(150)는 언어 레벨 결정부(152), 음소 레벨 결정부(154) 및 운소 레벨 결정부(156)와 연계하여 정의된 언어 기반의 트리 규칙에 기초하여 트라이폰 형태로 배열된 음소 성분을 분류할 수 있다.

언어 레벨 결정부(152)는 학습 데이터를 구성하는 음소 성분이 한국인 발음에 대응하는 음소 성분인지 또는 외국인 발음에 대응하는 음소 성분인지를 분류하여 음소 성분에 대한 언어 레벨을 결정할 수 있다.

언어 레벨 결정부(152)는 트라이폰을 구성하는 3개의 음소 성분 중 가운데 음소 성분이 한국인 발음에 대응하는 음소 성분인지 또는 외국인 발음에 대응하는 음소 성분인지를 분류함으로써 해당 음소 성분에 대한 언어 레벨을 결정할 수 있다. 예를 들어, 언어 레벨 결정부(152)는 트라이폰 형태로 배열된 [B T S]에서 가운데 음소 성분에 해당하는 'T'를 외국인 발음에 대응하는 음소 성분으로 분류할 수 있다. 또는, 언어 레벨 결정부(152)는 트라이폰 형태로 배열된 [S ㄴ ㅗ]의 경우, 가운데 음소 성분이 'ㄴ'이므로 해당 음소 성분을 한국인 발음에 대응하는 음소 성분으로 분류할 수 있다.

음소 레벨 결정부(154)는 음소 성분에 대한 언어 레벨이 결정되면, 해당 음소 성분이 자음에 해당되는지 또는 모음에 해당되는지를 분류하여 음소 성분에 대한 음소 레벨을 결정할 수 있다.

예를 들어, 트라이폰 형태로 배열된 [B T S]가 외국인 발음에 대응하는 음소 성분으로 결정되면, 음소 레벨 결정부(154)는 [B T S]에서 가운데 음소 성분인 'T'가 자음에 해당되는지 또는 모음에 해당되는지를 분류할 수 있다. 또는, 음소 레벨 결정부(154)는 트라이폰 형태로 배열된 [S ㄴ ㅗ]가 한국인 발음에 대응하는 음소 성분으로 결정되면, [S ㄴ ㅗ]에서 가운데 음소 성분인 'ㄴ'이 자음에 해당되는지 또는 모음에 해당되는지를 분류할 수 있다.

운소 레벨 결정부(156)는 음소 성분에 대한 음소 레벨이 결정되면, 음소 성분에 대한 강세 또는 길이를 판단하여 기정의된 복수의 강세 또는 길이 중 하나로 분류함으로써 음소 성분에 대한 운소 레벨을 결정할 수 있다.

정의된 언어 기반의 트리 규칙은 예를 들어, 한국어 발음에 해당하는 '아' 발음과 외국인 발음에 해당하는 'a' 발음을 분리하여 해당 발음들이 동일 군집으로 묶이는 현상을 제거할 수 있다.

학습부(100)는 정의된 언어 기반의 트리 규칙에 기초하여 음소 분리 모델을 생성하고, 유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 음소 분리 모델을 학습시킬 수 있다.

학습부(100)는 정의된 언어 기반의 트리 규칙에 기초하여 분류된 트라이폰 형태의 음소 성분에 대한 분류 결과에 기초하여 음소 분리 모델을 학습시킬 수 있다. 예를 들어, 도 3c를 참조하면, 학습부(100)는 트라이폰 형태로 배열된 [ㄴ, ㅗ, ㄹ]를 음소 분리 모델에 입력하게 되면, [ㄴ, ㅗ, ㄹ]의 'ㅗ' 음소 성분에 기초하여 [ㄴ, ㅗ, ㄹ]를 한국인 발음에 대응하는 음소 성분으로 분류하고, 모음에 해당되는 음소 성분으로 분류하고, 'ㅗ' 음소 성분에 해당하는 기정의된 강세 또는 길이로 분류하도록 음소 분리 모델을 학습시키고, [ㄴ, ㅗ, ㄹ]에 매핑된 발음열 및 음소 구간에 대응하는 학습 음성 데이터를 도출하여 음성 인식하도록 음소 분리 모델을 학습시킬 수 있다.

또한, 학습부(100)는 트라이폰 형태로 배열된 [H, L, O]를 음소 분리 모델에 입력하게 되면, [H, L, O]의 'L' 음소 성분에 기초하여 [H, L, O]을 외국인 발음에 대응하는 음소 성분으로 분류하고, 자음에 해당하는 음소 성분으로 분류하고, 'L' 음소 성분에 해당하는 기정의된 강세 또는 길이로 분류하도록 음소 분리 모델을 학습시키고, [H, L, O]에 매핑된 발음열 및 음소 구간에 대응하는 학습 음성 데이터를 도출하여 음성 인식하도록 음소 분리 모델을 학습시킬 수 있다.

정의된 언어 기반의 트리 규칙에 기초하여 분류된 트라이폰 형태의 음소 성분에 대한 분류 결과는 한국인 발음 및 외국인 발음 간의 경계를 형성하기 때문에 음소 분리 모델을 정교하게 학습시킬 수 있다. 또한, 학습된 음소 분리 모델을 통해 한국인 발음 및 외국인 발음 간의 유사 발음을 분리하기 때문에 한국어 발음 및 외국인 발음을 구별할 수 있다.

입력부(110)는 사용자로부터 음성 신호를 입력 받을 수 있다. 예를 들어, 입력부(110)는 외국인(또는 한국인)으로부터 외국인 영어 발음에 해당하는 음성 데이터(또는, 한국식 영어 발음에 해당하는 음성 데이터)를 포함하는 음성 신호를 입력받을 수 있다.

분할부(120)는 음성 신호를 기설정된 단위 크기로 분할할 수 있다. 예를 들어, 분할부(120)는 음소 분리 모델이 학습한 트라이폰의 음성 길이와 동일한 단위 크기로 음성 신호를 분할할 수 있다. 예를 들어, 트라이폰 크기가 10ms 단위인 경우, 분할부(120)는 음성 신호를 10ms 단위로 분할할 수 있다.

인식부(130)는 학습된 음소 분리 모델에 기초하여 분할된 음성 신호를 인식할 수 있다. 예를 들어, 인식부(130)는 음소 분리 모델에 분할된 음성 신호를 입력하여 해당 분할된 음성 신호와 유사도가 높은 노드를 추출하고, 추출된 노드에 기초하여 음성 신호를 인식할 수 있다.

한편, 도 2b, 도 3c, 도 4a 및 도 4b를 함께 참조하여 종래의 음성 신호의 인식 방법과 본 발명의 음성 신호의 인식 방법을 비교 설명하기로 한다.

도 2b를 참조하면, 기존의 트리 규칙을 이용한 음성 신호의 인식 방법을 살펴보면, 외국인 발음 및 한국인 발음 간의 구별없이 모든 음성 신호를 음성 신호의 유사도로만 분류하여 음성 인식 모델을 학습했기 때문에 외국인 발음과 영어 발음 간의 경계가 모호할 수 밖에 없다.

도 2b 및 4a를 함께 참조하면, 'BTS 노래 LOVE 틀어'를 포함하는 음성 신호에 대하여 기존의 트리 규칙을 적용하게 되면, [B, T, S], [E, ㅌ, ㅡ] 가 발음의 유사성으로 제 1 노드로 클러스터링되고, [ㅌ, ㅡ, ㄹ], [ㄴ, ㅗ, ㄹ], [L, O, V]가 발음의 유사성으로 제 3 노드로 클러스터링되고, [ㅡ, ㄹ, ㅇ], [ㅗ, ㄹ, ㅐ], [ㅐ, L, O]가 발음 유사성으로 제 5 노드로 클러스터링된다.

이러한 기존의 트리 규칙이 적용된 음성 인식 모델은 [L, O, V]의 경우, [L, O, V]의 발음 유사도가 동일한 [ㅌ, ㅡ, ㄹ], [ㄴ, ㅗ, ㄹ], [L, O, V] 중 하나로 인식하기 때문에 음성 인식률이 떨어질 수 밖에 없다.

도 3c를 참조하면, 본 발명은 음소 분리 모델을 통해 정의된 언어 기반의 트리 규칙에 따라 분류된 트라이폰을 리프 노드(leaf node)로서 설정하고, 음소 분리 모델을 통한 음성 인식시, 해당 리프 노드를 음성 인식의 결과로서 활용할 수 있다.

도 3c 및 4b를 함께 참조하면, 정의된 언어 기반의 트리 규칙이 적용된 음소 분리 모델의 경우, 'BTS 노래 LOVE 틀어'를 포함하는 음성 신호 중 [L, O, V]에 대응하는 분리된 음성 신호와 유사도가 높은 제 5 노드의 [L, O, V] 만을 추출하여 인식하기 때문에 음성 인식률을 높일 수 있다.

제공부(160)는 인식 결과에 기초하여 음성 신호에 대한 음성 인식 서비스를 제공할 수 있다. 또한, 제공부(160)는 음소 분리 모델을 통해 한국인 발음과 외국인 발음을 구분하여 음성 인식 서비스를 제공할 수 있다.

한편, 당업자라면, 학습부(100), 입력부(110), 분할부(120), 인식부(130), 사전 구축부(140), 트리 규칙 생성부(150) 및 제공부(160) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.

도 5는 본 발명의 일 실시예에 따른, 음성 인식 서비스 제공 방법을 나타낸 흐름도이다.

도 5를 참조하면, 단계 S501에서 음성 인식 서비스 제공 서버(10)는 유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 음소 분리 모델을 학습시킬 수 있다.

단계 S503에서 음성 인식 서비스 제공 서버(10)는 음성 신호를 입력받을 수 있다.

단계 S505에서 음성 인식 서비스 제공 서버(10)는 음성 신호를 기설정된 단위 크기로 분할할 수 있다.

단계 S507에서 음성 인식 서비스 제공 서버(10)는 음소 분리 모델에 기초하여 분리된 음성 신호를 인식할 수 있다.

단계 S509에서 음성 인식 서비스 제공 서버(10)는 인식 결과에 기초하여 음성 신호에 대한 음성 인식 서비스를 제공할 수 있다.

상술한 설명에서, 단계 S501 내지 S509는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 6은 본 발명의 일 실시예에 따른, 음소 분리 모델을 생성하는 방법을 나타낸 흐름도이다.

도 6을 참조하면, 단계 S601에서 음성 인식 서비스 제공 서버(10)는 학습 데이터로부터 음소 성분을 추출할 수 있다.

단계 S603에서 음성 인식 서비스 제공 서버(10)는 음소 성분이 한국인 발음에 대응하는 음소 성분인지 또는 외국인 발음에 대응하는 음소 성분인지를 분류하여 음소 성분에 대한 언어 레벨을 결정할 수 있다.

단계 S605에서 음성 인식 서비스 제공 서버(10)는 언어 레벨이 결정되면, 음소 성분이 자음에 해당되는지 또는 모음이 해당되는지를 분류하여 음소 성분에 대한 음소 레벨을 결정할 수 있다.

단계 S607에서 음성 인식 서비스 제공 서버(10)는 음소 레벨이 결정되면, 음소 성분에 대한 강세 또는 길이를 판단하여 기정의된 복수의 강세 또는 길이 중 하나로 분류함으로써 음소 성분에 대한 운소 레벨을 결정할 수 있다.

단계 S609에서 음성 인식 서비스 제공 서버(10)는 트라이폰 형태의 음소 성분에 대한 분류 결과(음소 성분에 대한 언어 레벨, 음소 레벨 및 운소 레벨)에 기초하여 음소 분리 모델을 학습시킬 수 있다.

상술한 설명에서, 단계 S601 내지 S609는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

10: 음성 인식 서비스 제공 서버
100: 학습부
110: 입력부
120: 분할부
130: 인식부
140: 사전 구축부
150: 트리 규칙 생성부
152: 언어 레벨 결정부
154: 음소 레벨 결정부
156: 운소 레벨 결정부
160: 제공부

Claims

음소 분리 모델에 기초하여 음성 인식 서비스를 제공하는 서버에 있어서,
한국인 발음 및 외국인 발음 각각에 대한 복수의 발음열을 구별하여 정의한 발음 사전을 구축하는 사전 구축부;
유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 음소 분리 모델을 학습시키는 학습부;
음성 신호를 입력받는 입력부;
상기 음성 신호를 기설정된 단위 크기로 분할하는 분할부;
상기 음소 분리 모델에 기초하여 상기 분할된 음성 신호를 인식하는 인식부; 및
인식 결과에 기초하여 음성 인식 서비스를 제공하는 제공부를 포함하는, 음성 인식 서비스 제공 서버.
제 1 항에 있어서,
상기 발음 사전을 이용하여 상기 언어 기반의 트리 규칙을 생성하는 트리 규칙 생성부
를 더 포함하는 것인, 음성 인식 서비스 제공 서버.
제 2 항에 있어서,
상기 트리 규칙 생성부는
학습 데이터를 구성하는 음소 성분이 상기 한국인 발음에 대응하는 음소 성분인지 또는 상기 외국인 발음에 대응하는 음소 성분인지를 분류하여 언어 레벨을 결정하는 언어 레벨 결정부를 포함하는 것인, 음성 인식 서비스 제공 서버.
제 3 항에 있어서,
상기 트리 규칙 생성부는
상기 음소 성분이 자음에 해당되는지 또는 모음에 해당되는지를 분류하여 음소 레벨을 결정하는 음소 레벨 결정부를 더 포함하는 것인, 음성 인식 서비스 제공 서버.
제 4 항에 있어서,
상기 트리 규칙 생성부는
상기 음소 성분에 대한 강세 또는 길이를 판단하여 기정의된 복수의 강세 또는 길이 중 하나로 분류함으로써 상기 음소 성분에 대한 운소 레벨을 결정하는 운소 레벨 결정부를 더 포함하는 것인, 음성 인식 서비스 제공 서버.
제 5 항에 있어서,
상기 학습부는 상기 정의된 언어 기반의 트리 규칙에 기초하여 분류된 트라이폰 형태의 음소 성분에 대한 분류 결과에 기초하여 상기 음소 분리 모델을 학습시키는 것인, 음성 인식 서비스 제공 서버.
제 1 항에 있어서,
상기 사전 구축부는
상기 발음 사전에 포함된 복수의 발음열의 음소 성분을 상기 한국인 발음 및 상기 외국인 발음으로 분류하여 저장하고,
상기 한국인 발음 및 상기 외국인 발음 중 하나로 분류된 발음열이 자음에 해당하는지 또는 모음에 해당하는지 분류하여 저장하고,
상기 자음 또는 모음으로 분류된 발음열에 대한 강세 또는 길이를 기설정된 강세 레벨 및 길이 레벨에 따라 분류하여 저장하는 것인, 음성 인식 서비스 제공 서버.
음소 분리 모델에 기초하여 음성 인식 서비스를 제공하는 서버에 있어서,
한국인 발음 및 외국인 발음 각각에 대한 복수의 발음열을 구별하여 정의한 발음 사전을 구축하는 단계;
유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 음소 분리 모델을 학습시키는 단계;
음성 신호를 입력받는 단계;
상기 음성 신호를 기설정된 단위 크기로 분할하는 단계;
상기 음소 분리 모델에 기초하여 상기 분할된 음성 신호를 인식하는 단계; 및
인식 결과에 기초하여 상기 음성 신호에 대한 음성 인식 서비스를 제공하는 단계
를 포함하는 음성 인식 서비스 제공 방법.
제 8 항에 있어서,
상기 발음 사전을 이용하여 상기 정의된 언어 기반의 트리 규칙을 생성하는 단계를 포함하는 것인, 음성 인식 서비스 제공 방법.
제 9 항에 있어서,
상기 트리 규칙을 생성하는 단계는
학습 데이터를 구성하는 음소 성분이 상기 한국인 발음에 대응하는 음소 성분인지 또는 상기 외국인 발음에 대응하는 음소 성분인지를 분류하여 언어 레벨을 결정하는 단계를 포함하는 것인, 인식 서비스 제공 방법.
제 10 항에 있어서,
상기 트리 규칙을 생성하는 단계는
상기 음소 성분이 자음에 해당되는지 또는 모음에 해당되는지를 분류하여 음소 레벨을 결정하는 단계를 포함하는 것인, 음성 인식 서비스 제공 방법.
제 11 항에 있어서,
상기 트리 규칙을 생성하는 단계는
상기 음소 성분에 대한 강세 또는 길이를 판단하여 기정의된 복수의 강세 또는 길이 중 하나로 분류함으로써 상기 음소 성분에 대한 운소 레벨을 결정하는 단계를 포함하는 것인, 음성 인식 서비스 제공 방법.
제 12 항에 있어서,
상기 학습시키는 단계는
상기 정의된 언어 기반의 트리 규칙에 기초하여 분류된 트라이폰 형태의 음소 성분에 대한 분류 결과에 기초하여 상기 음소 분리 모델을 학습시키는 단계를 포함하는 것인, 음성 인식 서비스 제공 방법.
제 9 항에 있어서,
상기 발음 사전을 구축하는 단계는
상기 발음 사전에 포함된 복수의 발음열의 음소 성분을 상기 한국인 발음 및 상기 외국인 발음으로 분류하여 저장하는 단계;
상기 한국인 발음 및 상기 외국인 발음 중 하나로 분류된 발음열이 자음에 해당하는지 또는 모음에 해당하는지 분류하여 저장하는 단계 및
상기 자음 또는 모음으로 분류된 발음열에 대한 강세 또는 길이를 기설정된 강세 레벨 및 길이 레벨에 따라 분류하여 저장하는 단계를 포함하는 것인, 음성 인식 서비스 제공 방법.
음소 분리 모델에 기초하여 음성 인식 서비스를 제공하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
한국인 발음 및 외국인 발음 각각에 대한 복수의 발음열을 구별하여 정의한 발음 사전을 구축하고,
유사 발음에 대한 구분을 위해 정의된 언어 기반의 트리 규칙에 기초하여 음소 분리 모델을 학습시키고,
음성 신호를 입력받고,
상기 음성 신호를 기설정된 단위 크기로 분할하고,
상기 음소 분리 모델에 기초하여 상기 분할된 음성 신호를 인식하고,
인식 결과에 기초하여 상기 음성 신호에 대한 음성 인식 서비스를 제공하는 명령어들의 시퀀스를 포함하는, 매체에 저장된 컴퓨터 프로그램.