KR102442528B1

KR102442528B1 - 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치 및 그 동작 방법

Info

Publication number: KR102442528B1
Application number: KR1020200153601A
Authority: KR
Inventors: 최보람
Original assignee: 주식회사 한글과컴퓨터
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2022-09-13
Also published as: KR20220067179A

Abstract

음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치 및 그 동작 방법이 개시된다. 본 발명에 따른 음성 인식 처리 장치 및 그 동작 방법은 사용자의 발화 속도에 따라 맞춤형으로 음성 발화의 끝점을 검출하기 위한 묵음 대기 시간을 설정함으로써, 보다 자연스러운 음성 인식이 가능하도록 지원하는 기술에 대한 것이다.

Description

음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치 및 그 동작 방법{SPEECH RECOGNITION PROCESSING APPARATUS THAT DETECTS THE END POINT OF SPEECH UTTERANCE FOR SPEECH RECOGNITION PROCESSING CUSTOMIZED BY A USER AND THE OPERATING METHOD THEREOF}

본 발명은 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치 및 그 동작 방법에 대한 것이다.

최근, 인공지능 기능이 탑재된 전자 장비들이 출시됨에 따라 사용자가 음성으로 명령을 인가하면, 사용자의 음성을 인식하여 제어를 수행하는 기술이 주목받고 있다.

음성 인식 기술은 발화자로부터 음성이 입력되면, 음성의 특징을 분석하여 특징 벡터를 추출하고, 특징 벡터의 패턴을 인식한 후 패턴 인식 결과에 기반하여 발화자의 음성에 매칭되는 텍스트를 결과로 출력하는 기술을 의미한다.

이러한 음성 인식 기술은 다양한 음성 데이터를 수집하여 소정의 음성 인식 모델로 구축해 둠으로써, 사용자에 의해 인가되는 음성에 매칭되는 텍스트를 생성하도록 구성된다.

보통의 음성 인식기는 EPD(End Point Detection) 기능을 제공하고 있다. EPD는 음성의 끝점을 검출하는 기능으로서, 사용자가 말을 하다가 말을 멈추면, 음성 인식기가 사용자의 말이 멈추었음을 감지하고, 음성 인식 결과를 확정하게 되는데, 이때, 사용가 음성 입력을 완료한 시점을 검출하는 기능을 EPD라고 한다.

일반적인 EPD는 사용자가 발화를 멈춘 후 일정 시간 동안의 묵음이 지속되면, 그 지점을 음성 입력의 끝점으로 판단하도록 구성된다. 이와 관련해서, 기존의 음성 인식 기술에서의 EPD는 사용자가 발화를 멈춘 후 소정의 고정된 묵음 대기 시간이 발생하는지 확인하는 방식으로 음성의 끝점을 검출하도록 구성되어 있었다.

하지만, 사람들은 제각기 서로 다른 발화 속도에 따라 음성을 발화하기 때문에, 기존의 음성 인식 기술과 같이 일관된 묵음 대기 시간을 적용하여 음성 발화의 끝점을 검출하게 되면, 정확한 끝점 검출이 어려울 수 있다.

예컨대, 말을 빠르게 하는 사람의 경우에는 음성 간의 묵음 시간이 상대적으로 짧을 것이고, 말을 느리게 하는 사람의 경우에는 음성 간의 묵음 시간이 상대적으로 길 것이기 때문에, 일관된 묵음 대기 시간을 적용하여 발화된 음성에 대한 인식 처리를 진행하게 된다면, 자연스러운 음성 인식이 어려워질 수 있다.

따라서, 사용자의 발화 속도에 따라 맞춤형으로 음성 발화의 끝점을 검출하기 위한 묵음 대기 시간을 설정함으로써, 보다 자연스러운 음성 인식이 가능하도록 지원하는 기술에 대한 연구가 필요하다.

본 발명에 따른 음성 인식 처리 장치 및 그 동작 방법은 사용자의 발화 속도에 따라 맞춤형으로 음성 발화의 끝점을 검출하기 위한 묵음 대기 시간을 설정함으로써, 보다 자연스러운 음성 인식이 가능하도록 지원하고자 한다.

본 발명의 일실시예에 따른 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치는 사전 설정된 표준 발화 속도에 대한 정보와 음성 발화가 끝나는 지점을 판단하기 위한 사전 설정된 묵음 대기 시간에 대한 정보가 저장되어 있는 정보 저장부, 사용자로부터 음성 인식을 진행할 것을 지시하는 명령이 인가되면, 사용자의 음성이 발화되는 속도인 사용자 발화 속도를 측정하고, 상기 사용자 발화 속도에 대한 상기 표준 발화 속도의 비율을 연산한 후 상기 묵음 대기 시간에 상기 비율을 곱함으로써, 상기 사용자의 음성 발화가 끝나는 지점을 판단하기 위한 맞춤형 묵음 대기 시간을 산출하는 산출부 및 상기 맞춤형 묵음 대기 시간이 산출된 후 상기 사용자로부터 음성이 인가되면, 상기 맞춤형 묵음 대기 시간에 따른 묵음이 발생할 때마다 사전 설정된 음성 인식 모델을 기초로 음성 인식 처리를 진행하는 음성 인식 처리부를 포함한다.

또한, 본 발명의 일실시예에 따른 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법은 사전 설정된 표준 발화 속도에 대한 정보와 음성 발화가 끝나는 지점을 판단하기 위한 사전 설정된 묵음 대기 시간에 대한 정보가 저장되어 있는 정보 저장부를 유지하는 단계, 사용자로부터 음성 인식을 진행할 것을 지시하는 명령이 인가되면, 사용자의 음성이 발화되는 속도인 사용자 발화 속도를 측정하고, 상기 사용자 발화 속도에 대한 상기 표준 발화 속도의 비율을 연산한 후 상기 묵음 대기 시간에 상기 비율을 곱함으로써, 상기 사용자의 음성 발화가 끝나는 지점을 판단하기 위한 맞춤형 묵음 대기 시간을 산출하는 단계 및 상기 맞춤형 묵음 대기 시간이 산출된 후 상기 사용자로부터 음성이 인가되면, 상기 맞춤형 묵음 대기 시간에 따른 묵음이 발생할 때마다 사전 설정된 음성 인식 모델을 기초로 음성 인식 처리를 진행하는 단계를 포함한다.

본 발명에 따른 음성 인식 처리 장치 및 그 동작 방법은 사용자의 발화 속도에 따라 맞춤형으로 음성 발화의 끝점을 검출하기 위한 묵음 대기 시간을 설정함으로써, 보다 자연스러운 음성 인식이 가능하도록 지원할 수 있다.

도 1은 본 발명의 일실시예에 따른 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법을 도시한 순서도이다.

이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.

본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.

한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 명령들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 명령들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 명령 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.

도 1은 본 발명의 일실시예에 따른 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 구조를 도시한 도면이다.

도 1을 참조하면, 본 발명에 따른 음성 인식 처리 장치(110)는 정보 저장부(111), 산출부(112) 및 음성 인식 처리부(113)를 포함한다.

정보 저장부(111)에는 사전 설정된 표준 발화 속도에 대한 정보와 음성 발화가 끝나는 지점을 판단하기 위한 사전 설정된 묵음 대기 시간에 대한 정보가 저장되어 있다.

예컨대, 정보 저장부(111)에는 상기 표준 발화 속도로 '4.5글자/초'가 저장되어 있을 수 있고, 상기 묵음 대기 시간으로 '0.5초'가 저장되어 있을 수 있다.

산출부(112)는 사용자로부터 음성 인식을 진행할 것을 지시하는 명령이 인가되면, 사용자의 음성이 발화되는 속도인 사용자 발화 속도를 측정하고, 상기 사용자 발화 속도에 대한 상기 표준 발화 속도의 비율을 연산한 후 상기 묵음 대기 시간에 상기 비율을 곱함으로써, 상기 사용자의 음성 발화가 끝나는 지점을 판단하기 위한 맞춤형 묵음 대기 시간을 산출한다.

관련해서, 산출부(112)는 하기의 수학식 1의 연산에 따라 상기 맞춤형 묵음 대기 시간을 산출할 수 있다.

여기서, T_U는 상기 맞춤형 묵음 대기 시간으로, T_S는 상기 묵음 대기 시간, V_S는 상기 표준 발화 속도, V_U는 상기 사용자 발화 속도를 의미한다.

예컨대, 정보 저장부(111)에 저장되어 있는 상기 표준 발화 속도가 '4.5글자/초', 상기 묵음 대기 시간이 '0.5초'라고 하고, 상기 사용자의 음성이 발화되는 속도인 상기 사용자 발화 속도가 '5글자/초'라고 측정되었다고 하는 경우, 산출부(112)는 상기 수학식 1의 연산에 따라 상기 맞춤형 묵음 대기 시간을 '0.45초'로 산출할 수 있다. 즉, 본 실시예에서는 상기 사용자 발화 속도가 상기 표준 발화 속도보다 빠른 것으로 측정되었기 때문에, 상기 사용자에 대한 맞춤형 묵음 대기 시간이 '0.45초'로 정보 저장부(111)에 저장되어 있는 묵음 대기 시간인 '0.5초'보다 짧은 값으로 산출될 수 있다.

음성 인식 처리부(113)는 산출부(112)에 의해 상기 맞춤형 묵음 대기 시간이 산출된 후 상기 사용자로부터 음성이 인가되면, 상기 맞춤형 묵음 대기 시간에 따른 묵음이 발생할 때마다 사전 설정된 음성 인식 모델을 기초로 음성 인식 처리를 진행한다.

예컨대, 전술한 예와 같이, 상기 맞춤형 묵음 대기 시간이 '0.45초'로 측정되었다고 하는 경우, 음성 인식 처리부(113)는 사용자로부터 음성이 인가되면, '0.45초' 간의 묵음이 발생할 때마다, 묵음과 묵음 간에 입력된 음성에 대해서 상기 음성 인식 모델을 기초로 음성 인식 처리를 진행할 수 있다.

이때, 본 발명의 일실시예에 따르면, 산출부(112)는 상기 사용자 발화 속도를 측정하고, 이를 기초로 상기 맞춤형 묵음 대기 시간을 산출하기 위한 구체적인 구성으로, 샘플 문장 저장부(114), 샘플 문장 표시부(115), 샘플 음성 인식부(116), 정확도 측정부(117), 속도 측정부(118), 대기 시간 산출부(119)를 포함할 수 있다.

샘플 문장 저장부(114)에는 사전 설정된 복수의 샘플 문장들이 저장되어 있다.

샘플 문장 표시부(115)는 상기 사용자로부터 음성 인식을 진행할 것을 지시하는 명령이 인가되면, 상기 복수의 샘플 문장들 중 어느 하나인 제1 샘플 문장을 랜덤하게 추출하여 화면 상에 표시하면서, 상기 제1 샘플 문장을 음성으로 발화할 것을 안내하는 발화 안내 메시지를 상기 화면 상에 표시한다.

이렇게, 상기 제1 샘플 문장과 상기 발화 안내 메시지가 상기 화면 상에 표시되면, 상기 사용자는 상기 화면 상에 표시되는 발화 안내 메시지를 보고 상기 제1 샘플 문장을 음성으로 발화함으로써, 음성 인식 처리 장치(110)에 음성을 인가할 수 있다.

이때, 샘플 음성 인식부(116)는 상기 사용자에 의해 상기 제1 샘플 문장이 음성으로 인가되면, 상기 제1 샘플 문장의 발화가 끝나는 지점을 추출하기 위해서 상기 묵음 대기 시간만큼의 묵음이 발생하는지 여부를 확인할 수 있다.

만약, 상기 사용자에 의해 상기 제1 샘플 문장이 음성으로 인가된 후 상기 묵음 대기 시간만큼의 묵음이 발행하는 것으로 확인되면, 샘플 음성 인식부(116)는 상기 제1 샘플 문장에 대한 음성 입력이 완료된 것으로 확인한 후 상기 음성 인식 모델을 기초로 상기 제1 샘플 문장에 대한 음성 인식을 수행한다.

정확도 측정부(117)는 상기 제1 샘플 문장에 대한 음성 인식 결과의 정확도를 측정한다.

이때, 본 발명의 일실시예에 따르면, 정확도 측정부(117)는 하기의 수학식 2에 따라 연산되는 상기 제1 샘플 문장과 음성 인식 문장(상기 음성 인식 문장은 상기 제1 샘플 문장에 대한 음성 인식을 통해 생성된 문장을 의미함) 간의 BLEU(Bilingual Evaluation Understudy) 스코어를 상기 정확도로 측정할 수 있다.

여기서,

는 상기 제1 샘플 문장과 상기 음성 인식 문장 간의 BLEU 스코어,

는 상기 음성 인식 문장의 음절 수,

는 상기 제1 샘플 문장의 음절 수,

는 상기 음성 인식 문장과 상기 제1 샘플 문장 간의 음절 N-gram 기반의 정밀도(precision)로서, 1-gram 정밀도부터 k(k는 2이상의 자연수임)-gram 정밀도들 중 s-gram 정밀도를 의미한다.

BLEU 스코어란 두 문장 간의 유사도를 나타내는 지표를 의미한다. 관련해서, 상기 제1 샘플 문장과 상기 음성 인식 문장이 하기의 표 2와 같다고 하고, k를 3이라고 가정한 후 상기 제1 샘플 문장과 상기 음성 인식 문장 간의 BLEU 스코어를 연산하는 과정을 설명하면 다음과 같다.

제1 샘플 문장	안녕하세요
음성 인식 문장	안녕하시오

우선, N-gram 정밀도는 '

'으로 연산될 수 있다. 따라서, 1-gram 정밀도는 상기 음성 인식 문장에서의 모든 1-gram쌍이 '안', '녕', '하', '시', '오'로 총 5개이고, 상기 음성 인식 문장에서 상기 제1 샘플 문장과 서로 일치하는 1-gram 쌍이 '안', '녕', '하'로 3개이므로, '3/5'로 연산될 수 있다.

그리고, 2-gram 정밀도는 상기 음성 인식 문장에서의 모든 2-gram쌍이 '안녕', '녕하', '하시', '시오'로 총 4개이고, 상기 음성 인식 문장에서 상기 제1 샘플 문장과 서로 일치하는 2-gram 쌍이 '안녕', '녕하'로 2개이므로, '2/4'로 연산될 수 있다.

마지막으로, 3-gram 정밀도는 상기 음성 인식 문장에서의 모든 3-gram쌍이 '안녕하', '녕하시', '하시오'로 총 3개이고, 상기 음성 인식 문장에서 상기 제1 샘플 문장과 서로 일치하는 3-gram 쌍이 '안녕하'로 1개이므로, '1/3'로 연산될 수 있다.

이렇게, 1-gram 정밀도가 '3/5', 2-gram 정밀도가 '2/4', 3-gram 정밀도가 '1/3'으로 연산되면, 정확도 측정부(117)는 상기 음성 인식 문장과 상기 제1 샘플 문장의 음절수가 각각 5개이기 때문에 하기의 수학식 3의 연산에 따라 '0.464'라는 BLEU 스코어를 연산할 수 있다.

이렇게, 정확도 측정부(117)에 의해 상기 음성 인식 결과의 정확도가 측정되면, 속도 측정부(118)는 상기 정확도가 사전 설정된 기준치를 초과하는지 여부를 확인하고, 상기 정확도가 상기 기준치를 초과하는 것으로 확인되면, 상기 사용자에 의해 상기 제1 샘플 문장이 음성으로 발화된 발화 시간을 확인한 후 상기 제1 샘플 문장을 구성하는 글자수를 상기 발화 시간으로 나누어 상기 사용자 발화 속도를 측정할 수 있다.

예컨대, 상기 사용자에 의해 상기 제1 샘플 문장이 음성으로 발화된 발화 시간이 총 '100초'라고 하고, 상기 제1 샘플 문장을 구성하는 글자수가 '500자'라고 하는 경우, 속도 측정부(118)는 상기 사용자 발화 속도를 '5글자/초'로 측정할 수 있다.

이렇게, 상기 사용자 발화 속도가 측정되면, 대기 시간 산출부(119)는 상기 수학식 1과 같이, 상기 사용자 발화 속도에 대한 상기 표준 발화 속도의 비율을 연산한 후 상기 묵음 대기 시간에 상기 비율을 곱함으로써, 상기 사용자의 음성 발화가 끝나는 지점을 판단하기 위한 상기 맞춤형 묵음 대기 시간을 산출할 수 있다.

이때, 본 발명의 일실시예에 따르면, 대기 시간 산출부(119)는 상기 맞춤형 묵음 대기 시간이 산출되면, 상기 맞춤형 묵음 대기 시간을 사전 설정된 최소 대기 시간 및 사전 설정된 최대 대기 시간과 비교하여, 상기 맞춤형 묵음 대기 시간이 상기 최소 대기 시간보다 짧은 경우, 상기 맞춤형 묵음 대기 시간을 상기 최소 대기 시간으로 재설정하고, 상기 맞춤형 묵음 대기 시간이 상기 최대 대기 시간보다 긴 경우, 상기 맞춤형 묵음 대기 시간을 상기 최대 대기 시간으로 재설정할 수 있다.

예컨대, 상기 최소 대기 시간을 '0.2초'라고 하고, 상기 최대 대기 시간을 '1초'라고 하는 경우, 대기 시간 산출부(119)는 상기 맞춤형 묵음 대기 시간이 '0.2초'보다 짧게 산출되었다면, 상기 맞춤형 묵음 대기 시간을 '0.2초'로 재설정할 수 있고, 상기 맞춤형 묵음 대기 시간이 '1초'보다 길게 산출되었다면, 상기 맞춤형 묵음 대기 시간을 '1초'로 재설정할 수 있다.

즉, 대기 시간 산출부(119)는 상기 맞춤형 묵음 대기 시간이 너무 짧게 산출되거나 너무 길게 산출되는 경우, 최소/최대 경계 값으로 상기 맞춤형 묵음 대기 시간을 재설정함으로써, 음성 인식 처리가 부자연스럽게 진행되는 것을 방지할 수 있다.

본 발명의 일실시예에 따르면, 샘플 문장 표시부(115)는 사용자 발화 속도를 측정하기 위해 추출된 제1 샘플 문장을 사용자가 임의로 변경할 수 있도록 하기 위한 구성으로, 벡터 저장부(120), 문장 벡터 생성부(121) 및 대체 문장 표시부(122)를 포함할 수 있다.

벡터 저장부(120)에는 복수의 단어들 각각에 대응되는 원-핫 벡터(one-hot)가 저장되어 있다.

여기서, 원-핫 벡터란 하나의 성분만 1이고 나머지 성분은 모두 0으로 설정된 벡터를 의미한다.

이와 관련해서, 벡터 저장부(120)에는 하기의 표 2와 같이 정보가 저장되어 있을 수 있다.

복수의 단어들	원-핫 벡터
특허	[1 0 0 0 0 0 ... 0 0 0]
상표	[0 1 0 0 0 0 ... 0 0 0]
디자인	[0 0 1 0 0 0 ... 0 0 0]
...	...

문장 벡터 생성부(121)는 상기 제1 샘플 문장과 상기 발화 안내 메시지가 상기 화면 상에 표시된 후 상기 사용자에 의해 상기 제1 샘플 문장을 다른 샘플 문장으로 교체할 것을 지시하는 교체 명령이 인가되면, 벡터 저장부(120)를 참조하여 상기 제1 샘플 문장에 포함된 단어들의 원-핫 벡터를 합산함으로써, 상기 제1 샘플 문장에 대응되는 문장 벡터를 생성하고, 상기 복수의 샘플 문장들 중 상기 제1 샘플 문장을 제외한 나머지 샘플 문장들 각각에 대해, 상기 나머지 샘플 문장들 각각에 포함된 단어들의 원-핫 벡터를 합산함으로써, 상기 나머지 샘플 문장들 각각에 대응되는 문장 벡터를 생성한다.

예컨대, 상기 제1 샘플 문장에 총 10개의 단어들이 포함되어 있다고 하는 경우, 문장 벡터 생성부(121)는 상기 표 2와 같은 벡터 저장부(120)를 참조하여 상기 10개의 단어들 각각의 원-핫 벡터를 합산함으로써, 상기 제1 샘플 문장에 대응되는 문장 벡터를 생성할 수 있다. 그리고, 문장 벡터 생성부(121)는 샘플 문장 저장부(114)에 저장되어 있는 복수의 샘플 문장들 중 상기 제1 샘플 문장을 제외한 나머지 샘플 문장들 각각에 대해서도 단어들의 원-핫 벡터를 모두 합산함으로써, 상기 나머지 문장들 각각에 대응되는 문장 벡터를 생성할 수 있다.

이렇게, 상기 제1 샘플 문장과 상기 나머지 샘플 문장들 각각에 대한 문장 벡터가 생성되면, 대체 문장 표시부(122)는 상기 나머지 샘플 문장들 중 상기 제1 샘플 문장과의 문장 벡터의 벡터 유사도가 최소인 제2 샘플 문장을 상기 제1 샘플 문장을 대신할 교체 대상 문장으로 선택한 후 상기 제2 샘플 문장을 상기 화면 상에 표시하면서, 상기 제2 샘플 문장을 음성으로 발화할 것을 안내하는 상기 발화 안내 메시지를 상기 화면 상에 다시 표시한다.

여기서, 상기 벡터 유사도는 코사인 유사도, 유클리드 거리(Euclidean distance) 등과 같은 다양한 벡터 유사도가 활용될 수 있다.

즉, 사용자에 의해 상기 제1 샘플 문장에 대한 교체 명령이 인가되면, 대체 문장 표시부(122)는 상기 나머지 샘플 문장들 중 상기 제1 샘플 문장과 가장 유사하지 않은 제2 샘플 문장을 선택한 후 상기 제2 샘플 문장으로 음성 발화를 진행할 것을 안내하는 발화 안내 메시지를 상기 화면 상에 다시 표시할 수 있다.

이를 통해, 사용자는 상기 제1 샘플 문장 대신, 상기 제2 샘플 문장을 음성으로 발화할 수 있을 것이고, 이때, 샘플 음성 인식부(116)는 상기 제2 샘플 문장에 대한 음성 인식을 수행하고, 정확도 측정부(117)는 상기 제2 샘플 문장에 대한 음성 인식 결과의 정확도를 측정하며, 속도 측정부(118)는 상기 정확도가 기준치를 초과하는 경우, 상기 제2 샘플 문장에 대한 발화 시간을 기초로 사용자 발화 속도를 측정하고, 대기 시간 산출부(119)는 상기 사용자 발화 속도를 기초로 상기 맞춤형 묵음 대기 시간을 산출하게 된다.

도 2는 본 발명의 일실시예에 따른 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법을 도시한 순서도이다.

단계(S210)에서는 사전 설정된 표준 발화 속도에 대한 정보와 음성 발화가 끝나는 지점을 판단하기 위한 사전 설정된 묵음 대기 시간에 대한 정보가 저장되어 있는 정보 저장부를 유지한다.

단계(S220)에서는 사용자로부터 음성 인식을 진행할 것을 지시하는 명령이 인가되면, 사용자의 음성이 발화되는 속도인 사용자 발화 속도를 측정하고, 상기 사용자 발화 속도에 대한 상기 표준 발화 속도의 비율을 연산한 후 상기 묵음 대기 시간에 상기 비율을 곱함으로써, 상기 사용자의 음성 발화가 끝나는 지점을 판단하기 위한 맞춤형 묵음 대기 시간을 산출한다.

단계(S230)에서는 상기 맞춤형 묵음 대기 시간이 산출된 후 상기 사용자로부터 음성이 인가되면, 상기 맞춤형 묵음 대기 시간에 따른 묵음이 발생할 때마다 사전 설정된 음성 인식 모델을 기초로 음성 인식 처리를 진행한다.

이때, 본 발명의 일실시예에 따르면, 단계(S220)에서는 사전 설정된 복수의 샘플 문장들이 저장되어 있는 샘플 문장 저장부를 유지하는 단계, 상기 사용자로부터 음성 인식을 진행할 것을 지시하는 명령이 인가되면, 상기 복수의 샘플 문장들 중 어느 하나인 제1 샘플 문장을 랜덤하게 추출하여 화면 상에 표시하면서, 상기 제1 샘플 문장을 음성으로 발화할 것을 안내하는 발화 안내 메시지를 상기 화면 상에 표시하는 단계, 상기 사용자에 의해 상기 제1 샘플 문장이 음성으로 인가된 후 상기 묵음 대기 시간만큼의 묵음이 발생하면, 상기 음성 인식 모델을 기초로 상기 제1 샘플 문장에 대한 음성 인식을 수행하는 단계, 상기 제1 샘플 문장에 대한 음성 인식 결과의 정확도를 측정하는 단계, 상기 정확도가 사전 설정된 기준치를 초과하는 것으로 확인되면, 상기 사용자에 의해 상기 제1 샘플 문장이 음성으로 발화된 발화 시간을 확인한 후 상기 제1 샘플 문장을 구성하는 글자수를 상기 발화 시간으로 나누어 상기 사용자 발화 속도를 측정하는 단계 및 상기 사용자 발화 속도가 측정되면, 상기 사용자 발화 속도에 대한 상기 표준 발화 속도의 비율을 연산한 후 상기 묵음 대기 시간에 상기 비율을 곱함으로써, 상기 사용자의 음성 발화가 끝나는 지점을 판단하기 위한 상기 맞춤형 묵음 대기 시간을 산정하는 단계를 포함할 수 있다.

이때, 본 발명의 일실시예에 따르면, 상기 정확도를 측정하는 단계는 상기 수학식 1에 따라 연산되는 상기 제1 샘플 문장과 음성 인식 문장(상기 음성 인식 문장은 상기 제1 샘플 문장에 대한 음성 인식을 통해 생성된 문장을 의미함)간의 BLEU 스코어를 상기 정확도로 측정할 수 있다.

이때, 본 발명의 일실시예에 따르면, 상기 산정하는 단계는 상기 맞춤형 묵음 대기 시간이 산정되면, 상기 맞춤형 묵음 대기 시간을 사전 설정된 최소 대기 시간 및 사전 설정된 최대 대기 시간과 비교하여, 상기 맞춤형 묵음 대기 시간이 상기 최소 대기 시간보다 짧은 경우, 상기 맞춤형 묵음 대기 시간을 상기 최소 대기 시간으로 재설정하고, 상기 맞춤형 묵음 대기 시간이 상기 최대 대기 시간보다 긴 경우, 상기 맞춤형 묵음 대기 시간을 상기 최대 대기 시간으로 재설정할 수 있다.

또한, 본 발명의 일실시예에 따르면, 상기 표시하는 단계는 복수의 단어들 각각에 대응되는 원-핫 벡터가 저장되어 있는 벡터 저장부를 유지하는 단계, 상기 제1 샘플 문장과 상기 발화 안내 메시지가 상기 화면 상에 표시된 후 상기 사용자에 의해 상기 제1 샘플 문장을 다른 샘플 문장으로 교체할 것을 지시하는 교체 명령이 인가되면, 상기 벡터 저장부를 참조하여 상기 제1 샘플 문장에 포함된 단어들의 원-핫 벡터를 합산함으로써, 상기 제1 샘플 문장에 대응되는 문장 벡터를 생성하고, 상기 복수의 샘플 문장들 중 상기 제1 샘플 문장을 제외한 나머지 샘플 문장들 각각에 대해, 상기 나머지 샘플 문장들 각각에 포함된 단어들의 원-핫 벡터를 합산함으로써, 상기 나머지 샘플 문장들 각각에 대응되는 문장 벡터를 생성하는 단계 및 상기 나머지 샘플 문장들 중 상기 제1 샘플 문장과의 문장 벡터의 벡터 유사도가 최소인 제2 샘플 문장을 상기 제1 샘플 문장을 대신할 교체 대상 문장으로 선택한 후 상기 제2 샘플 문장을 상기 화면 상에 표시하면서, 상기 제2 샘플 문장을 음성으로 발화할 것을 안내하는 상기 발화 안내 메시지를 상기 화면 상에 다시 표시하는 단계를 포함할 수 있다.

이상, 도 2를 참조하여 본 발명의 일실시예에 따른 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법은 도 1을 이용하여 설명한 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.

본 발명의 일실시예에 따른 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.

또한, 본 발명의 일실시예에 따른 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

110: 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치
111: 정보 저장부 112: 산출부
113: 음성 인식 처리부 114: 샘플 문장 저장부
115: 샘플 문장 표시부 116: 샘플 음성 인식부
117: 정확도 측정부 118: 속도 측정부
119: 대기 시간 산출부 120: 벡터 저장부
121: 문장 벡터 생성부 122: 대체 문장 표시부

Claims

사전 설정된 표준 발화 속도에 대한 정보와 음성 발화가 끝나는 지점을 판단하기 위한 사전 설정된 묵음 대기 시간에 대한 정보가 저장되어 있는 정보 저장부;
사용자로부터 음성 인식을 진행할 것을 지시하는 명령이 인가되면, 사용자의 음성이 발화되는 속도인 사용자 발화 속도를 측정하고, 상기 사용자 발화 속도에 대한 상기 표준 발화 속도의 비율을 연산한 후 상기 묵음 대기 시간에 상기 비율을 곱함으로써, 상기 사용자의 음성 발화가 끝나는 지점을 판단하기 위한 맞춤형 묵음 대기 시간을 산출하는 산출부; 및
상기 맞춤형 묵음 대기 시간이 산출된 후 상기 사용자로부터 음성이 인가되면, 상기 맞춤형 묵음 대기 시간에 따른 묵음이 발생할 때마다 사전 설정된 음성 인식 모델을 기초로 음성 인식 처리를 진행하는 음성 인식 처리부
를 포함하고,
상기 산출부는
사전 설정된 복수의 샘플 문장들이 저장되어 있는 샘플 문장 저장부;
상기 사용자로부터 음성 인식을 진행할 것을 지시하는 명령이 인가되면, 상기 복수의 샘플 문장들 중 어느 하나인 제1 샘플 문장을 랜덤하게 추출하여 화면 상에 표시하면서, 상기 제1 샘플 문장을 음성으로 발화할 것을 안내하는 발화 안내 메시지를 상기 화면 상에 표시하는 샘플 문장 표시부;
상기 사용자에 의해 상기 제1 샘플 문장이 음성으로 인가된 후 상기 묵음 대기 시간만큼의 묵음이 발생하면, 상기 음성 인식 모델을 기초로 상기 제1 샘플 문장에 대한 음성 인식을 수행하는 샘플 음성 인식부;
상기 제1 샘플 문장에 대한 음성 인식 결과의 정확도를 측정하는 정확도 측정부;
상기 정확도가 사전 설정된 기준치를 초과하는 것으로 확인되면, 상기 사용자에 의해 상기 제1 샘플 문장이 음성으로 발화된 발화 시간을 확인한 후 상기 제1 샘플 문장을 구성하는 글자수를 상기 발화 시간으로 나누어 상기 사용자 발화 속도를 측정하는 속도 측정부; 및
상기 사용자 발화 속도가 측정되면, 상기 사용자 발화 속도에 대한 상기 표준 발화 속도의 비율을 연산한 후 상기 묵음 대기 시간에 상기 비율을 곱함으로써, 상기 사용자의 음성 발화가 끝나는 지점을 판단하기 위한 상기 맞춤형 묵음 대기 시간을 산출하는 대기 시간 산출부
를 포함하는 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치.
삭제
제1항에 있어서,
상기 정확도 측정부는
하기의 수학식 1에 따라 연산되는 상기 제1 샘플 문장과 음성 인식 문장 - 상기 음성 인식 문장은 상기 제1 샘플 문장에 대한 음성 인식을 통해 생성된 문장을 의미함 - 간의 BLEU(Bilingual Evaluation Understudy) 스코어를 상기 정확도로 측정하는 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치.
[수학식 1]

여기서,
는 상기 제1 샘플 문장과 상기 음성 인식 문장 간의 BLEU 스코어,
는 상기 음성 인식 문장의 음절 수,
는 상기 제1 샘플 문장의 음절 수,
는 상기 음성 인식 문장과 상기 제1 샘플 문장 간의 음절 N-gram 기반의 정밀도(precision)로서, 1-gram 정밀도부터 k(k는 2이상의 자연수임)-gram 정밀도들 중 s-gram 정밀도를 의미함.
제1항에 있어서,
상기 대기 시간 산출부는
상기 맞춤형 묵음 대기 시간이 산출되면, 상기 맞춤형 묵음 대기 시간을 사전 설정된 최소 대기 시간 및 사전 설정된 최대 대기 시간과 비교하여, 상기 맞춤형 묵음 대기 시간이 상기 최소 대기 시간보다 짧은 경우, 상기 맞춤형 묵음 대기 시간을 상기 최소 대기 시간으로 재설정하고, 상기 맞춤형 묵음 대기 시간이 상기 최대 대기 시간보다 긴 경우, 상기 맞춤형 묵음 대기 시간을 상기 최대 대기 시간으로 재설정하는 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치.
제1항에 있어서,
상기 샘플 문장 표시부는
복수의 단어들 각각에 대응되는 원-핫 벡터(one-hot)가 저장되어 있는 벡터 저장부;
상기 제1 샘플 문장과 상기 발화 안내 메시지가 상기 화면 상에 표시된 후 상기 사용자에 의해 상기 제1 샘플 문장을 다른 샘플 문장으로 교체할 것을 지시하는 교체 명령이 인가되면, 상기 벡터 저장부를 참조하여 상기 제1 샘플 문장에 포함된 단어들의 원-핫 벡터를 합산함으로써, 상기 제1 샘플 문장에 대응되는 문장 벡터를 생성하고, 상기 복수의 샘플 문장들 중 상기 제1 샘플 문장을 제외한 나머지 샘플 문장들 각각에 대해, 상기 나머지 샘플 문장들 각각에 포함된 단어들의 원-핫 벡터를 합산함으로써, 상기 나머지 샘플 문장들 각각에 대응되는 문장 벡터를 생성하는 문장 벡터 생성부; 및
상기 나머지 샘플 문장들 중 상기 제1 샘플 문장과의 문장 벡터의 벡터 유사도가 최소인 제2 샘플 문장을 상기 제1 샘플 문장을 대신할 교체 대상 문장으로 선택한 후 상기 제2 샘플 문장을 상기 화면 상에 표시하면서, 상기 제2 샘플 문장을 음성으로 발화할 것을 안내하는 상기 발화 안내 메시지를 상기 화면 상에 다시 표시하는 대체 문장 표시부
를 포함하는 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치.
사전 설정된 표준 발화 속도에 대한 정보와 음성 발화가 끝나는 지점을 판단하기 위한 사전 설정된 묵음 대기 시간에 대한 정보가 저장되어 있는 정보 저장부를 유지하는 단계;
사용자로부터 음성 인식을 진행할 것을 지시하는 명령이 인가되면, 사용자의 음성이 발화되는 속도인 사용자 발화 속도를 측정하고, 상기 사용자 발화 속도에 대한 상기 표준 발화 속도의 비율을 연산한 후 상기 묵음 대기 시간에 상기 비율을 곱함으로써, 상기 사용자의 음성 발화가 끝나는 지점을 판단하기 위한 맞춤형 묵음 대기 시간을 산출하는 단계; 및
상기 맞춤형 묵음 대기 시간이 산출된 후 상기 사용자로부터 음성이 인가되면, 상기 맞춤형 묵음 대기 시간에 따른 묵음이 발생할 때마다 사전 설정된 음성 인식 모델을 기초로 음성 인식 처리를 진행하는 단계
를 포함하고,
상기 산출하는 단계는
사전 설정된 복수의 샘플 문장들이 저장되어 있는 샘플 문장 저장부를 유지하는 단계;
상기 사용자로부터 음성 인식을 진행할 것을 지시하는 명령이 인가되면, 상기 복수의 샘플 문장들 중 어느 하나인 제1 샘플 문장을 랜덤하게 추출하여 화면 상에 표시하면서, 상기 제1 샘플 문장을 음성으로 발화할 것을 안내하는 발화 안내 메시지를 상기 화면 상에 표시하는 단계;
상기 사용자에 의해 상기 제1 샘플 문장이 음성으로 인가된 후 상기 묵음 대기 시간만큼의 묵음이 발생하면, 상기 음성 인식 모델을 기초로 상기 제1 샘플 문장에 대한 음성 인식을 수행하는 단계;
상기 제1 샘플 문장에 대한 음성 인식 결과의 정확도를 측정하는 단계;
상기 정확도가 사전 설정된 기준치를 초과하는 것으로 확인되면, 상기 사용자에 의해 상기 제1 샘플 문장이 음성으로 발화된 발화 시간을 확인한 후 상기 제1 샘플 문장을 구성하는 글자수를 상기 발화 시간으로 나누어 상기 사용자 발화 속도를 측정하는 단계; 및
상기 사용자 발화 속도가 측정되면, 상기 사용자 발화 속도에 대한 상기 표준 발화 속도의 비율을 연산한 후 상기 묵음 대기 시간에 상기 비율을 곱함으로써, 상기 사용자의 음성 발화가 끝나는 지점을 판단하기 위한 상기 맞춤형 묵음 대기 시간을 산정하는 단계
를 포함하는 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법.
삭제
제6항에 있어서,
상기 정확도를 측정하는 단계는
하기의 수학식 1에 따라 연산되는 상기 제1 샘플 문장과 음성 인식 문장 - 상기 음성 인식 문장은 상기 제1 샘플 문장에 대한 음성 인식을 통해 생성된 문장을 의미함 - 간의 BLEU(Bilingual Evaluation Understudy) 스코어를 상기 정확도로 측정하는 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법.
[수학식 1]

여기서,
는 상기 제1 샘플 문장과 상기 음성 인식 문장 간의 BLEU 스코어,
는 상기 음성 인식 문장의 음절 수,
는 상기 제1 샘플 문장의 음절 수,
는 상기 음성 인식 문장과 상기 제1 샘플 문장 간의 음절 N-gram 기반의 정밀도(precision)로서, 1-gram 정밀도부터 k(k는 2이상의 자연수임)-gram 정밀도들 중 s-gram 정밀도를 의미함.
제6항에 있어서,
상기 산정하는 단계는
상기 맞춤형 묵음 대기 시간이 산정되면, 상기 맞춤형 묵음 대기 시간을 사전 설정된 최소 대기 시간 및 사전 설정된 최대 대기 시간과 비교하여, 상기 맞춤형 묵음 대기 시간이 상기 최소 대기 시간보다 짧은 경우, 상기 맞춤형 묵음 대기 시간을 상기 최소 대기 시간으로 재설정하고, 상기 맞춤형 묵음 대기 시간이 상기 최대 대기 시간보다 긴 경우, 상기 맞춤형 묵음 대기 시간을 상기 최대 대기 시간으로 재설정하는 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법.
제6항에 있어서,
상기 표시하는 단계는
복수의 단어들 각각에 대응되는 원-핫 벡터(one-hot)가 저장되어 있는 벡터 저장부를 유지하는 단계;
상기 제1 샘플 문장과 상기 발화 안내 메시지가 상기 화면 상에 표시된 후 상기 사용자에 의해 상기 제1 샘플 문장을 다른 샘플 문장으로 교체할 것을 지시하는 교체 명령이 인가되면, 상기 벡터 저장부를 참조하여 상기 제1 샘플 문장에 포함된 단어들의 원-핫 벡터를 합산함으로써, 상기 제1 샘플 문장에 대응되는 문장 벡터를 생성하고, 상기 복수의 샘플 문장들 중 상기 제1 샘플 문장을 제외한 나머지 샘플 문장들 각각에 대해, 상기 나머지 샘플 문장들 각각에 포함된 단어들의 원-핫 벡터를 합산함으로써, 상기 나머지 샘플 문장들 각각에 대응되는 문장 벡터를 생성하는 단계; 및
상기 나머지 샘플 문장들 중 상기 제1 샘플 문장과의 문장 벡터의 벡터 유사도가 최소인 제2 샘플 문장을 상기 제1 샘플 문장을 대신할 교체 대상 문장으로 선택한 후 상기 제2 샘플 문장을 상기 화면 상에 표시하면서, 상기 제2 샘플 문장을 음성으로 발화할 것을 안내하는 상기 발화 안내 메시지를 상기 화면 상에 다시 표시하는 단계
를 포함하는 음성 인식 처리를 위한 음성 발화의 끝점을 사용자 맞춤형으로 검출하는 음성 인식 처리 장치의 동작 방법.
제6항, 제8항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
제6항, 제8항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.