KR20210052563A

KR20210052563A - 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치

Info

Publication number: KR20210052563A
Application number: KR1020217011945A
Authority: KR
Inventors: 황명진; 강민호; 지창진
Original assignee: 주식회사 엘솔루
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2021-05-10
Also published as: CN113016029A; WO2020091123A1

Abstract

본 발명은 음성을 인식하는 방법 및 그 장치에 관한 것이다. 보다 구체적으로, 본 발명에 의한 음성 인식 장치는 사용자로부터 음성 정보를 획득하고, 획득된 음성 정보를 음성 데이터로 변환할 수 있다.
이후, 음성 인식 모델은 제1 음성인식 모델로 상기 변환된 음성 데이터를 인식하여 제1 음성 인식 결과를 생성하고, 제2 음성인식 모델로 상기 변환된 음성 데이터를 인식하여 제2 음성 인식 결과를 생성하며, 특정 판단 절차를 통해서 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 특정 음성 인식 결과를 선택할 수 있다.

Description

문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치

본 발명은 사용자의 음성을 인식하기 위한 방법 및 장치에 관한 것이다. 보다 구체적으로, 사용자로부터 획득된 음성을 인식하기 위한 방법에 있어서 문맥을 기반으로 음성인식 정확도를 향상시키기 위한 방법 및 장치에 관한 것이다.

자동 음성인식은(이하 음성인식이라 호칭한다.) 컴퓨터를 이용하여 음성을 문자로 변환해주는 기술이다. 이러한 음성인식은 최근 들어 급격한 인식 율 향상을 이뤘다.

하지만, 전체적으로 인식율은 향상되었지만 언어모델이나 음향모델 학습 시 사용하는 데이터의 구성이나 모델의 구조에 따라 성능의 차이가 발생한다.

본 발명의 목적은, 복수의 음성인식모델을 이용하여 음성을 인식하는 경우, 복수의 음성 인식 결과 중 정확도가 높은 음성 인식 결과를 선택하기 위한 방법을 제공함에 그 목적이 있다.

또한, 문맥 정보를 이용하여 음성 인식을 위한 음성 인식 모델을 선택하기 위한 방법을 제공함에 그 목적이 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에게 명확하게 이해될 수 있을 것이다.

본 발명에 의한 음성을 인식하는 방법은 사용자로부터 음성 정보를 획득하는 단계; 획득된 음성 정보를 음성 데이터로 변환하는 단계; 제1 음성인식 모델로 상기 변환된 음성 데이터를 인식하여 제1 음성 인식 결과를 생성하는 단계; 제2 음성인식 모델로 상기 변환된 음성 데이터를 인식하여 제2 음성 인식 결과를 생성하는 단계; 및 특정 판단 절차를 통해서 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 특정 음성 인식 결과를 선택하는 단계를 포함

또한, 본 발명에서, 상기 특정 판단 절차는, 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과로부터 문맥 정보를 추출하는 단계; 상기 문맥정보를 기 설정된 상기 제1 음성 인식 모델의 제 1 특성 및 상기 제 2 음성 인식 모델의 제 2 특성과 각각 비교하는 단계; 및 상기 비교 결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택하는 단계를 포함한다.

또한, 본 발명에서, 문맥 정보는 상기 음성 정보의 일부 또는 상기 제 1 음성 인식 결과 및 상기 제 2 음성 인식 결과로부터 획득될 수 있는 정보 또는 음성을 발성한 사용자와 관련된 정보 중 적어도 하나를 포함할 수 있다.

또한, 본 발명에서, 상기 제1 음성 인식 모델 및 상기 제2 음성 인식 모델은 상기 사용자로부터 획득되는 상기 음성 정보를 인식하기 위한 복수의 음성 인식 모델들 중 하나이다.

또한, 본 발명은, 상기 복수의 음성 인식 모델들로 상기 변환된 음성 데이터를 인식하여 복수의 음성 인식 결과를 생성하는 단계를 더 포함하되, 상기 특정 음성 인식 결과는 상기 제1 음성 인식 결과, 상기 제2 음성 인식 결과 및 상기 복수의 음성 인식 결과 중에서 선택된다.

또한, 본 발명에서, 상기 특정 판단 절차는 문맥 정보에 포함된 문맥에 기초하여 음성 인식 결과를 판단하는 절차이다.

또한, 본 발명은, 사용자로부터 음성 정보를 획득하는 단계; 획득된 음성 정보를 음성 데이터로 변환하는 단계; 상기 제1 음성 인식 모델로 상기 음성 데이터를 인식하여 제1 음성 인식 결과를 생성하는 단계; 상기 제1 음성 인식 결과에 기초하여 복수의 음성 인식 모델 중 상기 음성 데이터를 인식하기 위한 제2 음성 인식 모델을 선택하는 단계; 및 상기 제2 음성 인식 모델로 상기 음성 데이터를 인식하여 제2 음성 인식 결과를 생성하는 단계를 포함하는 방법을 제공한다.

또한, 본 발명은, 상기 제1 음성 인식 결과로부터 문맥 정보를 추출하는 단계; 및 상기 문맥 정보와 상기 복수의 음성 인식 모델의 기 설정된 특정을 비교하는 단계를 더 포함하되, 상기 제2 음성 인식 모델은 상기 비교결과에 기초하여 선택된다.

또한, 본 발명에서, 상기 제1 음성 인식 모델은 상기 문맥 정보를 추출하기 위한 음성 인식 모델이다.

또한, 본 발명은, 사용자로부터 음성 정보를 획득하는 단계; 획득된 음성 정보를 음성 데이터로 변환하는 단계; 및 복수의 음성 인식 모델 중에 선택된 특정 음성 인식 모델로 상기 음성 데이터를 인식하여 음성 인식 결과를 생성하는 단계를 포함하는 방법을 제공한다.

또한, 본 발명은, 음성 인식을 위한 문맥 정보를 설정하는 단계; 및 상기 복수의 음성 인식 모델 중에서 특성이 상기 문맥 정보에 가장 적합한 상기 특정 음성 인식 모델을 선택하는 단계를 더 포함한다.

본 발명의 어느 한 실시예에 따르면, 음성입력을 인식할 때 복수의 음성인식모델을 사용하여 복수의 결과를 생성했을 때 이들 중 정확도가 높은 음식인식모델의 인식 결과를 선택함으로써, 음성 인식의 정확도를 높일 수 있다.

또한, 문맥 정보에 따른 음성 인식 모델을 선택함으로써, 복수의 음성 인식 모델 각각을 용도에 맞게 이용할 수 있다.

또한, 대규모 사용자를 위한 서비스나 사용자가 위치한 물리적, 상황적 환경이 수시로 바뀌는 환경에서도 적절한 음성인식모델을 선택할 수 있다.

또한, 적절한 음성인식모델을 선택할 수 있음으로 인해, 거대 언어모델을 적용하면서 발생할 수 있는 유사 어휘로 인한 오인식을 줄일 수 있고, 소규모 언어모델을 적용하면서 발생할 수 있는 미등록 어휘로 인한 오인식을 줄일 수 있다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성인식장치의 블록도이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 음성 인식 장치의 일 예를 나타내는 도면이다.
도 4 및 도 5는 본 발명의 일 실시예에 따른 음성 인식 장치의 또 다른 일 예를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 음성 인식 장치의 또 다른 일 예를 나타내는 도면이다.
도 7은 본 발명의 일 실시 예에 따른 음성 인식 방법의 일 예를 나타내는 순서도이다.
도 8은 본 발명의 일 실시 예에 따른 음성 인식 방법의 또 다른 일 예를 나타내는 순서도이다.
도 9는 본 발명의 일 실시 예에 따른 음성 인식 방법의 또 다른 일 예를 나타내는 순서도이다.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시 형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당 업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.

몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심 기능을 중심으로 한 블록도 형식으로 도시될 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성인식장치의 블록도이다.

도 1을 참조하면, 사용자의 음성을 인식하기 위한 음성인식장치(100)는 입력부(110), 저장부(120), 제어부(130) 및/또는 출력부(140) 등을 포함할 수 있다.

도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 전자기기가 구현될 수도 있다.

이하, 상기 구성요소들에 대해 차례로 살펴본다.

입력부(110)는 오디오 신호, 비디오 신호 또는 사용자로부터 음성 정보(또는 음성 신호) 및 데이터를 입력 받을 수 있다.

입력부(110)는 오디오 신호 또는 비디오 신호 입력 받기 위해서 카메라와 마이크 등을 포함할 수 있다. 카메라는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다.

카메라에서 처리된 화상 프레임은 저장부(120)에 저장될 수 있다.

마이크는 통화모드 또는 녹음모드, 음성인식 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 마이크에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.

입력부(110)는 마이크 또는 마이크로폰(microphone)을 통해서 사용자의 발화(utterance)된 음성이 입력되면 이를 전기적 신호로 변환하여 제어부(130)로 전달할 수 있다.

제어부(130)는 입력부(110)로부터 수신한 신호에 음성인식(speech recognition) 알고리즘 또는 음성인식 엔진(speech recognition engine)을 적용하여 사용자의 음성 데이터를 획득할 수 있다.

이때, 제어부(130)로 입력되는 신호는 음성인식을 위한 더 유용한 형태로 변환될 수 있으며, 제어부(130)는 입력된 신호를 아날로그 형태에서 디지털 형태로 변환하고, 음성의 시작과 끝지점을 검출하여 음성데이터에 포함된 실제 음성구간/데이터를 검출할 수 있다. 이를 EPD(End Point Detection)라 한다.

그리고, 제어부(130)는 검출된 구간 내에서 켑스트럼(Cepstrum), 선형예측코딩(Linear Predictive Coefficient: LPC), 멜 프리퀀시 켑스트럼(Mel Frequency Cepstral Coefficient: MFCC) 또는 필터뱅크 에너지(Filter Bank Energy) 등의 특징벡터 추출 기술을 적용하여 신호의 특징 벡터를 추출할 수 있다.

메모리(120)는 제어부(130)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들을 임시 저장할 수도 있다. 사용자로부터 심볼 기반 악성 코드 탐지 모델을 위한 샘플 파일을 저장할 수 있으며, 악성코드의 분석 결과를 저장할 수 있다.

메모리(120)는 인식된 음성과 관련된 다양한 데이터를 저장할 수 있으며, 특히, 제어부(130)에 의해서 처리된 음성 데이터의 끝지점과 관련된 정보 및 특징 벡터를 저장할 수 있다.

메모리(120)는 플래시메모리(flash memory), 하드디크스(hard disc), 메모리카드, 롬(ROM:Read-OnlyMemory), 램(RAM:Random Access Memory), 메모리카드, EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기메모리, 자기디스크, 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다.

그리고, 제어부(130)는 추출된 특징벡터와 훈련된 기준패턴과의 비교를 통하여 인식결과를 얻을 수 있다. 이를 위해, 음성의 신호적인 특성을 모델링하여 비교하는 음성인식모델과 인식어휘에 해당하는 단어나 음절 등의 언어적인 순서관계를 모델링하는 언어모델(Language Model)이 사용될 수 있다.

음성인식모델은 다시 인식대상을 특징벡터 모델로 설정하고 이를 음성데이터의 특징벡터와 비교하는 직접비교방법과 인식대상의 특징벡터를 통계적으로 처리하여 이용하는 통계방법으로 나뉠 수 있다.

직접비교방법은 인식대상이 되는 단어, 음소 등의 단위를 특징벡터모델로 설정하고 입력음성이 이와 얼마나 유사한지를 비교하는 방법으로서, 대표적으로 벡터양자화(Vector Quantization) 방법이 있다. 벡터 양자화 방법에 의하면 입력된 음성데이터의 특징벡터를 기준모델인 코드북(codebook)과 매핑시켜 대표값으로 부호화함으로써 이 부호값들을 서로 비교하는 방법이다.

통계적모델 방법은 인식대상에 대한 단위를 상태열(State Sequence)로 구성하고 상태열간의 관계를 이용하는 방법이다. 상태열은 복수의 노드(node)로 구성될 수 있다. 상태열 간의 관계를 이용하는 방법은 다시 동적시간 와핑(Dynamic Time Warping: DTW), 히든마르코프모델(Hidden Markov Model: HMM), 신경회로망을 이용한 방식 등이 있다.

동적시간 와핑은 같은 사람이 같은 발음을 해도 신호의 길이가 시간에 따라 달라지는 음성의 동적 특성을 고려하여 기준모델과 비교할 때 시간축에서의 차이를 보상하는 방법이고, 히든마르코프모델은 음성을 상태천이확률 및 각 상태에서의 노드(출력심볼)의 관찰확률을 갖는 마르코프프로세스로 가정한 후에 학습데이터를 통해 상태천이확률 및 노드의 관찰확률을 추정하고, 추정된 모델에서 입력된 음성이 발생할 확률을 계산하는 인식기술이다.

한편, 단어나 음절 등의 언어적인 순서관계를 모델링하는 언어모델은 언어를 구성하는 단위들간의 순서관계를 음성인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 언어모델에는 통계적언어 모델과 유한상태네트워크(Finite State Automata: FSA)에 기반한 모델이 있고, 통계적 언어모델에는 Unigram, Bigram, Trigram 등 단어의 연쇄확률이 이용된다.

제어부(130)는 음성을 인식함에 있어 상술한 방식 중 어느 방식을 사용해도 무방하다. 예를 들어, 히든마르코프모델이 적용된 음성인식모델을 사용할 수도 있고, 음성인식모델과 언어모델을 통합한 N-best 탐색법을 사용할 수 있다. N-best 탐색법은 음성인식모델과 언어모델을 이용하여 N개까지의 인식결과후보를 선택한 후, 이들 후보의 순위를 재평가함으로써 인식성능을 향상시킬 수 있다.

제어부(130)는 인식결과의 신뢰성을 확보하기 위해 신뢰도점수(confidence score)(또는'신뢰도'로 약칭될 수 있음)를 계산할 수 있다.

신뢰도점수는 음성인식결과에 대해서 그 결과를 얼마나 믿을 만한 것인가를 나타내는 척도로서, 인식된 결과인 음소나 단어에 대해서, 그외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값으로 정의할 수 있다. 따라서, 신뢰도점수는 0 에서 1 사이의 값으로 표현할 수도 있고, 0 에서 100 사이의 값으로 표현할 수도 있다. 신뢰도 점수가 미리 설정된 임계값(threshold)보다 큰 경우에는 인식결과를 인정하고, 작은 경우에는 인식결과를 거절(rejection)할 수 있다.

이 외에도, 신뢰도점수는 종래의 다양한 신뢰도점수 획득 알고리즘에 따라 획득될 수 있다.

제어부(130)는 소프트웨어, 하드웨어 또는 이들의 조합을 이용하여 컴퓨터로 읽을 수 있는 기록매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable LogicDevices), FPGAs(Field Programmable Gate Arrays), 프로세서(processor), 마이크로컨트롤러(microcontrollers),마이크로제어부(micro-processor) 등의 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다.

소프트웨어적인 구현에 의하면, 적어도 하나의 기능 또는 동작을 수행하는 별개의 소프트웨어 모듈과 함께 구현될 수 있고, 소프트웨어코드는 적절한 프로그램언어로 쓰여진 소프트웨어 어플리케이션에 의해 구현될 수 있다.

제어부(130)는 이하에서 후술할 도2내지 도6에서 제안된 기능, 과정 및/또는 방법을 구현하며, 이하에서는 설명의 편의를 위해 제어부(130)을 음성인식장치(100)와 동일시하여 설명한다.

출력부(140)는 시각, 청각 등과 관련된 출력을 발생시키기 위한 것으로, 장치(100)에 의해 처리되는 정보를 출력한다.

예를 들어, 출력부(140)는 제어부(130)에서 처리된 음성 신호의 인식 결과를 시각 또는 청각을 통해 사용자가 인식할 수 있도록 출력할 수 있다.

이하에서 설명하는 음성인식 모델은 도 1에서 설명한 음성인식 모델과 동일한 방법을 통해서 사용자로부터 입력된 음성 정보를 인식할 수 있다.

도 2 및 도 3은 본 발명의 일 실시예에 따른 음성 인식 장치의 일 예를 나타내는 도면이다.

도 2 및 도 3을 참조하면, 음성 인식 장치는 사용자로부터 획득된 음성 데이터를 복수의 음성인식 모델로 인식하고, 문맥 정보에 기초하여 복수의 음성 인식 모델로부터 인식된 결과 중 하나를 선택하여 음성 인식 서비스를 제공할 수 있다.

구체적으로, 음성 인식 장치는 사용자로부터 입력된 음성 정보를 전기적 신호로 변환하고, 변환된 전기적 신호인 아날로그 신호를 디지털 신호로 변환하여 음성 데이터를 생성할 수 있다.

이후 음성 인식 모델은 제1 음성 인식 모델(2010) 및 제2 음성 인식 모델(2020)을 이용하여 음성 데이터를 각각 인식할 수 있다.

음성 인식 장치는 기본 음성인식 모델 및 사용자 음성인식 모델 각각을 이용하여 사용자로부터 입력된 음성신호가 변환된 음성 데이터로부터 두 개의 음성인식 결과(음성인식 결과 1(2030), 음성인식 결과2(2040))을 획득할 수 있다.

음성 인식 장치는 상기 제1 음성인식결과와 상기 제2 음성인식결과를 제1 특정 판단 절차(예를 들면, 제1 문맥기반 적정 음성인식모델 판단기법)에 적용해 제1 음성인식결과 및 제2 음성인식결과 중 더 적합한 음성 인식 결과(2050)를 선택해 출력할 수 있다.

즉, 음성 인식 장치는 따라 제1 음성 인식 결과 및 제2 음성 인식 결과 중 음성 인식의 목적에 더 적합한 음성 인식 결과를 제1 특정 판단 절차를 통해서 선택할 수 있으며, 선택된 음성 인식 결과를 출력할 수 있다.

예를 들면, 제1 음성 인식 결과 및 제2 음성 인식 결과에서 추출한 문맥정보가 주소 검색과 관련된 경우, 제1 음성인식 모델과 제2 음성인식 모델 중 주소 검색에 더 적합한 음성 인식 모델을 선택하고, 선택된 음성 인식 모델의 음성 인식 결과를 음성 인식 서비스로 제공할 수 있다.

이하, 도 3을 참조하여 특정 판단 절차에 대해서 살펴보도록 한다.

도 3은 제1 음성 인식 결과 및 제2 음성 인식 결과를 문맥에 기반하여 적정한 음성 인식 모델을 판단하기 위한 제1 특정 판단 절차의 일 예를 나타내는 순서도이다.

도 3에 도시된 바와 같이 제1 특정 판단 절차는, 제1 음성 인식 결과(3010)와 제2 음성인식결과(3020)가 제1 음성 인식 모델 및 제2 음성 인식 모델로부터 각각 생성된 경우, 제 1 음성 인식 결과(3010) 및 제 2 음성 인식 결과(3020)에서 추출된 문맥(3032)에 기초하여 제1 음성 인식 결과(3010)와 제2 음성인식결과(3020) 중 음성 인식의 목적에 더 적합한 음성 인식 모델을 선택할 수 있다(3034).

이후, 음성 인식 장치는 선택된 음성 인식 모델로부터 생성된 음성 인식 결과를 선택(3036)하여 출력(3040)할 수 있다.

예를 들면, 도 3에서 제1 음성 인식 결과인 '이기통 주소 좀 알려줘'와 제2 음성 인식 결과인'이길동 주소 좀 알려줘'에서 음성 인식 장치는'주소 좀 알려줘'를 문맥정보로 판단하였다.

구체적으로, 음성 인식 장치는 이기통 주소 좀 알려줘'와 '이길동 주소 좀 알려줘'로부터 문맥 정보인 '주소좀 알려줘'(3032)를 추출할 수 있다.

이후, 음성 인식 장치는 추출된 문맥 정보와 제1 음성 인식 모델의 특성(제1 특성) 및 제2 음성 인식 모델의 특성(제2 특성)을 비교하여 음성 인식의 목적에 더 적합한 음성인식 모델로 제1 음성 인식 모델을 선택할 수 있다(3034).

이후, 음성 인식 장치는 선택된 제1 음성 인식 모델의 제1 음성 인식 결과를 선택하고(3036), 선택된 제1 음성 인식 결과인 '이기통 주소 좀 알려줘'를 출력할 수 있다.

이때, 문맥 정보로 음성 데이터로부터 인식된 인식 문장의 부분 외에도 인식 결과 등을 통해 유추할 수 있는 모든 정보가 문맥정보로 사용될 수 있다.

예를 들면, 사용자와 관련된 정보인 사용자의 위치, 사용자가 처한 날씨, 사용자 습관, 사용자의 이전 발화 문맥, 사용자의 경력, 사용자의 직책, 사용자의 금전 상태, 현재 시각 및 사용자의 언어 등 중 적어도 하나가 문맥 정보로 사용될 수 있다.

도 4 및 도 5는 본 발명의 일 실시예에 따른 음성 인식 장치의 또 다른 일 예를 나타내는 도면이다.

도 4 및 도 5를 참조하면, 음성 인식 장치는 사용자로부터 획득된 음성 데이터를 복수의 음성인식 모델로 인식하고, 문맥 정보에 기초하여 복수의 음성 인식 모델로부터 인식된 결과 중 하나를 선택하여 음성 인식 서비스를 제공할 수 있다.

구체적으로, 음성 인식 장치는 사용자로부터 입력된 음성 정보를 제1 음성 인식 모델(4010)로 인식하여 제1 음성인식 결과(4020)를 생성할 수 있다.

이때, 제1 음성 인식 모델은 사용자로부터 획득된 음성 정보로부터 문맥을 추출하기 위한 음성 정보 모델로써, 음성 인식의 목적에 따른 음성 정보 모델의 용도에 따라 작은 리소스만을 사용하도록 구성될 수 있다.

음성인식 장치는 제2 특정 판단 절차(예를 들면, 제2 문맥기반 적정 음성인식 모델 판단기법)을 이용하여 기 설정된 복수개의 음성 인식 모델 중 사용자로부터 입력된 음성 정보를 인식하기에 가장 적합한 특정 음성 인식 모델을 선택할 수 있다(4030).

즉, 음성인식 장치는 음성 인식의 목적 및 용도에 따라 제 1 음성 인식 결과에 기초하여 복수의 음성 인식 모델 중 특정 음성 인식 모델을 선택할 수 있다.

예를 들면, 제 1 음성 인식 결과에서 추출한 문맥 정보가 주소 검색과 관련된 경우, 복수의 후보 음성 인식 모델 중에서 주소 검색에 가장 적합한 음성 인식 모델을 특정 음성 인식 모델로 선택할 수 있다.

이때, 제2 특정 판단 절차는 특정 음성 인식 모델을 선택하기 위해 제1 음성인식결과로부터 문맥정보를 추출하고, 추출된 문맥정보를 이용하여 특정 음성 인식 모델을 선택하는 절차를 포함한다.

이후, 음성 인식 절차는 선택된 특정 음성 인식 모델을 이용하여 사용자로부터 입력된 음성 정보가 변환된 음성 데이터를 재 인식하여 최종적으로 음성 인식 결과(4040)을 생성할 수 있다.

이하, 도 5을 참조하여 제 2 특정 판단 절차에 대해서 살펴보도록 한다.

도 5는 제1 음성 인식 결과 및 제2 음성 인식 결과를 문맥에 기반하여 적정한 음성 인식 모델을 판단하기 위한 제2 특정 판단 절차의 일 예를 나타내는 순서도이다.

구체적으로, 음성 인식 장치는 도 4에서 설명한 제1 음성인식 모델에 의해서 사용자의 음성 정보를 인식한 제1 음성 인식 결과(5010)를 생성(또는 입력 받아)하고, 생성된 제1 음성 인식 결과에 기초하여 제2 특정 판단 절차를 통해서 복수(예를 들면, N개)의 음성 인식 모델 중에서 도 4에서 살펴본 바와 같이 음성 인식의 목적에 가장 적합한 특정 음성 인식 모델을 선택할 수 있다(5020).

예를 들면, 제1 음성 인식 모델을 통해서 인식한 제1 음성 인식 결과인 '이길동 주소 좀 알려줘'로부터 '주소 좀 알려줘'를 문맥 정보로 추출할 수 있다.

이때, 제1 음성 인식 모델은 앞에서 살펴본 바와 같이 사용자로부터 획득된 음성 정보로부터 문맥을 추출하기 위한 음성 정보 모델로써, 음성 인식의 목적에 따른 음성 정보 모델의 용도에 따라 작은 리소스만을 사용하도록 구성될 수 있다.

문맥 정보는 음성 인식 모델을 통해서 인식된 문장의 일 부분 외에도 인식 결과 등을 통해 유추할 수 있는 모든 정보가 문맥정보로 사용될 수 있다.

이후, 음성 인식 장치는 추출된 문맥 정보인 '주소 좀 알려줘'를 이용하여 복수의 음성 인식 모델 중에서 도 4에서 살펴본 바와 같이 음성 인식의 목적에 가장 적합한 특정 음성 인식 모델을 선택할 수 있다.

이와 같은 방법을 통해서 음성 인식 장치는 문맥 정보를 획득하기 위한 음성 인식 모델을 통해서 문맥 정보를 추출하여 음성 인식의 목적에 가장 적합한 특정 음성 인식 모델을 선택할 수 있다.

도 6은 본 발명의 일 실시예에 따른 음성 인식 장치의 또 다른 일 예를 나타내는 도면이다.

도 6을 참조하면, 음성 인식 장치는 음성 인식을 위한 문맥 정보를 설정하여 사전에 복수의 음성 인식 모델들 중에서 특정한 음성 인식 모델을 선택할 수 있으며, 선택된 음성 인식 모델을 통해서 인식된 음성 인식 결과를 이용하여 음성 인식 서비스를 제공할 수 있다.

구체적으로, 음성 인식 장치는 기 설정된 문맥정보에 따라 복수의 음성 인식 모델 중에서 음성 인식에 가장 적합하다고 판단되는 특정 음성 인식 모델을 선택할 수 있다(6010).

예를 들면, 음성 인식 서비스의 목적 및 용도가 주소 검색인 경우, 음성 인식 장치는 복수 개의 음성 인식 모델 중 주소 검색을 위한 용도로 기 설정된 음성 인식 모델을 특정 음성 인식 모델로 선택할 수 있다.

이후, 음성 인식 모델은 선택된 특정 음식 모델을 통해서 사용자로부터 획득된 음성 데이터를 인식하여 음성 인식 결과(6020)를 생성할 수 있다.

이때, 음성 데이터는 사용자로부터 획득된 음성 정보가 전기적 신호로 변경되고, 변경된 전기적 신호인 아날로그 신호가 디지털 신호로 변경된 데이터를 의미할 수 있다.

도 7은 본 발명의 일 실시 예에 따른 음성 인식 방법의 일 예를 나타내는 순서도이다.

도 7을 참조하면, 도 2 및 도 3에서 살펴본 바와 같이 음성 인식 장치는 복수의 음성 인식 장치들을 통해서 음성 인식 결과를 생성하고, 생성된 음성 인식 결과들 중에서 가장 적합한 음성 인식 결과를 선택하여 음성 인식 서비스를 제공할 수 있다.

구체적으로, 음성 인식 장치는 사용자로부터 음성 정보를 획득하고, 획득된 음성 정보를 음성 데이터로 변환할 수 있다(S7010).

예를 들면, 음성 인식 장치는 사용자로부터 획득한 음성 정보를 전기적 신호로 변환하고, 변경된 전기적 신호인 아날로그 신호를 디지털 신호인 음성 데이터로 변환할 수 있다.

이후, 음성 인식 장치는 음성 데이터를 제1 음성 인식 모델 및 제2 음성 인식 모델로 각각 인식하여 제1 음성 인식 결과 및 제2 음성 인식 결과를 생성할 수 있다(S7020, S7030).

이후, 음성 인식 장치는 도 2 및 도 3에서 살펴본 제1 특정 판단 절차를 통해서 제1 음성 인식 결과 및 제2 음성 인식 결과 중 음성 인식의 목적에 더 적합한 음성 인식 결과를 선택하여 음성 인식 서비스를 제공할 수 있다(S7040).

예를 들면, 음성 인식 장치는 제1 음성 인식 결과 및 제2 음성 인식 결과로부터 문맥 정보를 추출하고, 추출된 문맥 정보를 기 설정된 제1 음성 인식 모델의 제 1 특성 및 제 2 음성 인식 모델의 제 2 특성과 각각 비교할 수 있다.

이후, 음성 인식 장치는 상기 비교 결과에 기초하여 상기 제1 음성 인식 모델 및 제2 음성 인식 모델 중 음성 인식의 목적 및/또는 용도에 적합한 음성 인식 모델을 선택할 수 있다.

이후, 음성 인식 장치는 선택된 제2 음성 인식 모델에 의해서 생성된 제2 음성 인식 결과를 음성 인식 결과로 선택하고, 선택된 제2 음성 인식 결과에 기초하여 음성 인식 서비스를 제공할 수 있다.

도 8은 본 발명의 일 실시 예에 따른 음성 인식 방법의 또 다른 일 예를 나타내는 순서도이다.

도 8을 참조하면, 음성 인식 모델은 음성 데이터를 통해서 문맥 정보를 추출하고, 추출된 문맥 정보에 기초하여 음성 인식 서비스를 제공할 수 있다.

먼저 단계 S8010은 도 7의 단계 S7010과 동일하므로 설명을 생략하도록 한다.

이후, 음성 인식 장치는 제1 음성 인식 모델로 음성 데이터를 인식하여 제1 음성 인식 결과를 생성한다(S8020).

이때, 제1 음성 인식 모델은 도 4에서 설명한 바와 같이 사용자로부터 획득된 음성 정보로부터 문맥을 추출하기 위한 음성 정보 모델로써, 음성 인식의 목적에 따른 음성 정보 모델의 용도에 따라 작은 리소스만을 사용하도록 구성될 수 있다.

음성인식 장치는 제1 음성 인식 결과로부터 문맥 정보를 추출할 수 있다(S8030).

문맥 정보는 음성 인식 모델을 통해서 인식된 문장의 일 부분 외에도 인식 결과 등을 통해 유추할 수 있는 모든 정보를 의미할 수 있다.

이후, 음성 인식 장치는 도 4 및 도 5에서 설명한 제2 특정 판단 절차을 이용하여 기 설정된 복수개의 음성 인식 모델 중 사용자로부터 입력된 음성 정보를 인식하기에 가장 적합한 특정 음성 인식 모델을 선택할 수 있다(S8040).

예를 들면, 제 1 음성 인식 결과에서 추출한 문맥 정보가 주소 검색과 관련된 경우, 복수의 후보 음성 인식 모델 중에서 주소 검색에 가장 적합한 음성 인식 모델을 특정 음식 인식 모델로 선택할 수 있다.

이후, 음성 인식 절차는 선택된 특정 음성 인식 모델을 이용하여 사용자로부터 입력된 음성 정보가 변환된 음성 데이터를 재 인식하여 최종적으로 음성 인식 결과을 생성할 수 있다(S8040).

이후, 음성 인식 장치는 특정 음성 인식 모델을 통해서 음성 데이터를 인식한 음성 인식 결과에 기초하여 음성 인식 서비스를 제공할 수 있다.

도 9는 본 발명의 일 실시 예에 따른 음성 인식 방법의 또 다른 일 예를 나타내는 순서도이다.

도 9를 참조하면, 음성 인식 장치는 사용자로부터 음성 정보를 입력받기 전에 문맥 정보에 기초하여 복수의 음성 인식 모델 중 특정 음성 인식 모델을 선택할 수 있으며, 선택된 음성 인식 모델을 통해서 사용자로부터 입력되는 음성 정보를 인식할 수 있다.

구체적으로, 음성 인식 장치는 음성 인식을 위한 문맥 정보를 기 설정할 수 있다.

이후, 음성 인식 장치는 문맥 정보에 기초하여 복수의 음성 인식 모델 중 음성 인식의 목적/용도에 따라 특정 음성 인식 모델을 선택한다(S9020).

예를 들면, 주소 검색인 경우, 음성 인식 장치는 복수의 음성 인식 모델 중에서 주소 검색을 위한 용도로 기 설정된 음성 인식 모델을 특정 음성 인식 모델로 선택할 수 있다.

이후, 음성 인식 장치는 사용자로부터 음성 정보가 획득된 경우, 획득된 음성 정보를 음성 데이터로 변환할 수 있다(S9010).

이후, 음성 인식 장치는 선택된 특정 음성 인식 모델로 음성 데이터를 인식하여 음성 인식 결과를 생성할 수 있다(S9050).

본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로콘트롤러, 마이크로프로세서 등에 의해 구현될 수 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현될 수 있다. 소프트웨어코드는 메모리에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리는 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고받을 수 있다.

본 발명은 본 발명의 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당 업자에게 자명하다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

본 발명은 다양한 음성인식 기술 분야에 적용될 수 있으며, 본 발명은 문맥에 기반한 최적의 음성인식모델 선택 방법을 제공할 수 있다.

이런 특징으로 인해, 분야별로 강점이 다른 다수의 음성인식모델을 이용한 서비스에서 불특정 음성입력이 들어왔을 때 최상의 음성인식결과를 도출할 수 있다.

이러한 특징은 음성인식뿐만 아니라 다른 인공지능 서비스에서도 적용될 수 있다.

Claims

음성을 인식하는 방법에 있어서,
사용자로부터 음성 정보를 획득하는 단계;
획득된 음성 정보를 음성 데이터로 변환하는 단계;
제1 음성인식 모델로 상기 변환된 음성 데이터를 인식하여 제1 음성 인식 결과를 생성하는 단계;
제2 음성인식 모델로 상기 변환된 음성 데이터를 인식하여 제2 음성 인식 결과를 생성하는 단계; 및
특정 판단 절차를 통해서 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 특정 음성 인식 결과를 선택하는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 특정 판단 절차는,
상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과로부터 문맥 정보를 추출하는 단계;
상기 문맥정보를 기 설정된 상기 제1 음성 인식 모델의 제 1 특성 및 상기 제 2 음성 인식 모델의 제 2 특성과 각각 비교하는 단계; 및
상기 비교 결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택하는 단계를 포함하는 방법.
제 2 항에 있어서,
문맥 정보는 상기 음성 정보의 일부 또는 상기 제 1 음성 인식 결과 및 상기 제 2 음성 인식 결과로부터 획득될 수 있는 정보 또는 음성을 발성한 사용자와 관련된 정보 중 적어도 하나를 포함하는 방법.
제 1 항에 있어서,
상기 제1 음성 인식 모델 및 상기 제2 음성 인식 모델은 상기 사용자로부터 획득되는 상기 음성 정보를 인식하기 위한 복수의 음성 인식 모델들 중 하나인 방법.
제 1 항이 있어서,
상기 복수의 음성 인식 모델들로 상기 변환된 음성 데이터를 인식하여 복수의 음성 인식 결과를 생성하는 단계를 더 포함하되,
상기 특정 음성 인식 결과는 상기 제1 음성 인식 결과, 상기 제2 음성 인식 결과 및 상기 복수의 음성 인식 결과 중에서 선택되는 방법.
제 1 항에 있어서,
상기 특정 판단 절차는 문맥 정보에 포함된 문맥에 기초하여 음성 인식 결과를 판단하는 절차인 방법.
음성을 인식하는 방법에 있어서,
사용자로부터 음성 정보를 획득하는 단계;
획득된 음성 정보를 음성 데이터로 변환하는 단계;
상기 제1 음성 인식 모델로 상기 음성 데이터를 인식하여 제1 음성 인식 결과를 생성하는 단계;
상기 제1 음성 인식 결과에 기초하여 복수의 음성 인식 모델 중 상기 음성 데이터를 인식하기 위한 제2 음성 인식 모델을 선택하는 단계; 및
상기 제2 음성 인식 모델로 상기 음성 데이터를 인식하여 제2 음성 인식 결과를 생성하는 단계를 포함하는 방법.
제 7 항에 있어서,
상기 제1 음성 인식 결과로부터 문맥 정보를 추출하는 단계; 및
상기 문맥 정보와 상기 복수의 음성 인식 모델의 기 설정된 특정을 비교하는 단계를 더 포함하되,
상기 제2 음성 인식 모델은 상기 비교결과에 기초하여 선택되는 방법.
제 8 항에 있어서,
상기 제1 음성 인식 모델은 상기 문맥 정보를 추출하기 위한 음성 인식 모델인 방법.
음성을 인식하는 방법에 있어서,
사용자로부터 음성 정보를 획득하는 단계;
획득된 음성 정보를 음성 데이터로 변환하는 단계; 및
복수의 음성 인식 모델 중에 선택된 특정 음성 인식 모델로 상기 음성 데이터를 인식하여 음성 인식 결과를 생성하는 단계를 포함하는 방법.
제 10 항에 있어서,
음성 인식을 위한 문맥 정보를 설정하는 단계; 및
상기 복수의 음성 인식 모델 중에서 음성 인식 모델의 특성이 상기 문맥 정보에 가장 적합한 상기 특정 음성 인식 모델을 선택하는 단계를 더 포함하는 방법.