KR102153220B1

KR102153220B1 - 동일성 판단에 기초한 음성 인식 결과 출력 방법 및 이를 이용한 장치

Info

Publication number: KR102153220B1
Application number: KR1020190058834A
Authority: KR
Inventors: 김승일
Original assignee: 주식회사 모두의연구소
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2020-09-07

Abstract

본 발명에 의하면, 동일성 판단에 기초한 음성 인식 결과 출력 방법에 있어서, 사용자의 제1 음성 명령을 수신하는 단계, 제1 음성 명령에 응답하여 생성된 제1 음성 인식 결과를 출력하는 단계, 사용자의 제2 음성 명령을 연속하여 수신하는 단계, 및 제1 음성 명령과 제2 음성 명령의 동일성 여부를 판단하는 단계를 포함하는 음성 인식 결과 출력 방법을 제공할 수 있다.

Description

동일성 판단에 기초한 음성 인식 결과 출력 방법 및 이를 이용한 장치{METHOD FOR OUTPUTTING SPEECH RECOGNITION RESULTS BASED ON DETERMINATION OF SAMENESS AND APPRATUS USING THE SAME}

본 발명은 사용자로부터 입력되는 음성 명령의 동일성 판단에 기초한 음성 인식 결과 출력 방법 및 이를 이용한 장치에 관한 것이다. 보다 구체적으로, 사용자로부터 동일한 의도의 음성 명령이 반복되는 것으로 판단되는 경우 기존과 상이한 음성 인식 결과를 출력함으로써 음성 인식 오류의 반복을 방지하기 위한 방법 및 장치에 관한 것이다.

최근 애플(Apple)의 Siri나 구글(Google)의 음성 키보드(voice keyboard)로 인하여 사용자들의 음성 인식에 대한 관심은 높아지고 있다. 또한, 음성 인식 앱 또는 프로그램의 적용 범위도 스마트폰, PC, 노트북, 음성 인식 스피커, 자동차 등 모든 분야로 확장되고 있다. 하지만 실제로 음성 인식 기능을 유용하게 사용하는 사용자는 그리 많지 않은 실정이다. 그 이유 중 하나는 음성 인식 결과의 정확도가 떨어지기 때문이다. 사용자는 음성 인식 기능을 통하여 단말기에 명령을 입력해보지만, 사용자의 의도와 다른 인식 결과가 반복되어 나오게 되면서 결국 음성 인식 기능의 사용을 포기하는 경우가 많다.

이를 개선시키기 위해 음성 인식기의 성능을 향상시키기 위한 많은 알고리즘이 개발되고 있다. 하지만 그 어떤 알고리즘도 사용자를 만족할만한 인식 과를 내어주고 있지 않은 것이 현실이다. 따라서, 사용자의 음성 명령의 인식 오류가 발생하였을 때, 이를 효율적으로 해결하기 위한 방법이 필요하다.

대한민국 등록특허 10-1605148호 (등록일자: 2016.03.15)

본 발명은 사용자로부터 동일한 의도의 음성 명령이 반복되는 것으로 판단되는 경우 이전과 상이한 음성 인식 결과를 출력함으로써 음성 인식 오류의 반복을 방지하기 위한 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 사용자의 음성 명령의 동일성 판단에 기초하여 음성 인식 결과의 오류 여부를 판단함으로써, 상이한 음성 인식 결과를 제공하기 위한 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 사용자의 음성 명령을 반복적으로 잘못 인식하여 동일한 오류를 반복하여 수행하는 문제점을 해결하고 음성 인식 오류 판단 시에 다양한 방법으로 상이한 인식 결과를 제공하는 것을 목적으로 한다.

본 발명의 해결 과제들은 이상에서 언급한 내용들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따르면, 동일성 판단에 기초한 음성 인식 결과 출력 방법에 있어서, 사용자의 제1 음성 명령을 수신하는 단계; 상기 제1 음성 명령에 응답하여 생성된 제1 음성 인식 결과를 출력하는 단계; 상기 사용자의 제2 음성 명령을 연속하여 수신하는 단계; 및 상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부를 판단하는 단계를 포함하는 음성 인식 결과 출력 방법을 제공할 수 있다.

또한, 상기 제1 음성 명령과 상기 제2 음성 명령이 동일 또는 유사하다고 판단하는 경우, 상기 제1 음성 인식 결과와 상이한 제2 음성 인식 결과를 생성하여 출력하는 단계를 더 포함하는 음성 인식 결과 출력 방법을 제공할 수 있다.

또한, 상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부는 상기 제1 음성 인식 결과와, 상기 제2 음성 명령에 응답하여 생성된 제2 음성 인식 결과의 동일성에 기초하여 판단할 수 있다.

또한, 상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부는 상기 제1 음성 인식 결과를 출력한 시점과 상기 제2 음성 명령을 수신한 시점 사이의 시간 간격이 미리 결정된 기준 간격보다 큰지 여부에 기초하여 판단할 수 있다.

또한, 상기 제1 음성 인식 결과는 적어도 하나의 오류를 포함한 음성-텍스트 변환 결과이고, 상기 제2 음성 인식 결과는 상기 제1 음성 인식 결과와 관련된 텍스트를 삭제하고, 상기 제1 음성 인식 결과와 상이한 음성-텍스트 변환 결과를 나타낼 수 있다.

또한, 상기 제1 음성 인식 결과는 적어도 하나의 오류를 포함한 명령 수행 결과이고, 상기 제2 음성 인식 결과는 상기 제1 음성 인식 결과에 따른 오류를 복원하기 위한 명령을 수행하고, 상기 제1 음성 인식 결과와 상이한 명령을 수행하는 것일 수 있다.

또한, 상기 제2 음성 인식 결과는 상기 제1 음성 인식 결과와 상이하게 사용자가 선택할 수 있는 인식 결과의 후보군을 제공할 수 있다.

또한, 상기 제1 음성 명령과 상기 제2 음성 명령의 인식 결과가 동일한 경우에는 음성 인식기의 변경, 음성 인식기 피처(feature)의 변경, 발음에 대한 룰(rule)의 변경, 전처리(Pre-processing) 룰의 변경 및 사용자 음성 속도 설정의 변경 중 적어도 하나를 적용할 수 있다.

본 발명의 다른 실시예에 따르면, 동일성 판단에 기초한 음성 인식 결과 출력 장치에 있어서, 사용자의 제1 음성 명령 및 제2 음성 명령을 연속하여 수신하고, 상기 제1 음성 명령 및 상기 제2 음성 명령에 응답하여 각각 생성된 제1 음성 인식 결과 및 제2 음성 인식 결과를 출력하도록 구성되는 음성 인터페이스부; 상기 제1 음성 명령 및 상기 제2 음성 명령에 각각 응답하여 제1 음성 인식 결과 및 제2 음성 인식 결과를 생성하도록 구성된 음성 인식 결과 생성부; 및 상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부를 판단하도록 구성된 동일성 판단부를 포함하는 음성 인식 결과 출력 장치를 제공할 수 있다.

또한, 상기 동일성 판단부에서 상기 제1 음성 명령과 상기 제2 음성 명령이 동일 또는 유사하다고 판단하는 경우, 상기 음성 인식 결과 생성부는 상기 제1 음성 인식 결과와 상이한 제2 음성 인식 결과를 생성할 수 있다.

또한, 상기 동일성 판단부에서, 상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부는 상기 제1 음성 인식 결과와, 상기 제2 음성 인식 결과의 동일성에 기초하여 판단할 수 있다.

또한, 상기 동일성 판단부에서, 상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부는 상기 제1 음성 인식 결과를 출력한 시점과 상기 제2 음성 명령을 수신한 시점 사이의 시간 간격이 미리 결정된 기준 간격보다 큰지 여부에 기초하여 판단할 수 있다.

본 발명에 의하면, 사용자로부터 동일한 의도의 음성 명령이 반복되는 것으로 판단되는 경우 이전과 상이한 음성 인식 결과를 출력함으로써 음성 인식 오류의 반복을 방지하기 위한 방법 및 장치를 제공할 수 있다.

또한, 본 발명은 사용자의 음성 명령의 동일성 판단에 기초하여 음성 인식 결과의 오류 여부를 판단함으로써, 상이한 음성 인식 결과를 제공하기 위한 방법 및 장치를 제공할 수 있다.

또한, 본 발명은 사용자의 음성 명령을 반복적으로 잘못 인식하여 동일한 오류를 반복하여 수행하는 문제점을 해결하고 음성 인식 오류 판단 시에 다양한 방법으로 상이한 인식 결과를 제공할 수 있다.

본 발명의 효과들은 이상에서 언급한 내용들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따라 명령의 동일성 판단에 기초한 음성 인식 결과 출력을 위한 사용자 장치의 구성을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따라 명령의 동일성 판단에 기초한 음성 인식 결과 출력 방법을 설명하기 위한 예시도이다.
도 3은 본 발명의 다른 실시예에 따라 명령의 동일성 판단에 기초한 음성 인식 결과 출력 방법을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따라 명령의 동일성 판단에 기초하여 음성-텍스트(speech to text) 변환 결과를 출력하는 방법을 설명하기 위한 예시도이다.
도 5는 본 발명의 일 실시예에 따라 명령의 동일성 판단에 기초하여 이전 명령 수행 결과의 오류를 복원하는 방법을 설명하기 위한 예시도이다.
도 6은 본 발명의 일 실시예에 따라 명령의 동일성 판단에 기초하여 사용자에게 인식 결과의 후보군을 제공하는 방법을 설명하기 위한 예시도이다.

이하, 첨부된 도면을 참조하여 본 발명에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

본 명세서에서 사용되는 "포함한다(comprises)", "포함하는(comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

또한, 본 발명에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 이와 같은 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

또한, 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 기술되고, 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다. 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리 범위에 포함된다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다.

도 1은 본 발명의 일 실시예에 따라 명령의 동일성 판단에 기초한 음성 인식 결과 출력을 위한 사용자 장치의 구성을 설명하기 위한 블록도이다.

사용자 장치(100)는 음성 인식 및 처리 기능을 갖는 장치로서, 구체적으로 스마트폰(smart phone), 태블릿(tablet) 컴퓨터, 데스크탑(desktop) 컴퓨터, 랩탑(laptop) 컴퓨터, 노트북, 워크스테이션(workstation), PDA (Personal Digital Assistants), 포터블(portable) 컴퓨터, 무선 전화기(wireless phone), 모바일 폰(mobile phone), e-북(e-book), PMP(portable multimedia player), 휴대용 게임기, 디지털 카메라(digital camera), 텔레비전(television), 웨어러블 디바이스(wearable device), AI(인공지능) 스피커 중 어느 하나일 수 있으며, 이들에 제한되지 않는다.

사용자 장치(100)는 예컨대, 음성 인터페이스부(101), 음성 인식 결과 생성부(102), 동일성 판단부(103), 통신부(104)를 포함할 수 있으며, 이들 각 구성 요소는 소프트웨어 또는 하드웨어의 조합으로 구현될 수 있으며, 일부 구성 요소들의 통합 구현도 가능할 것이다.

먼저 음성 인터페이스부(101)는 사용자의 음성 입력을 수신하고, 음성 인식 결과를 출력함으로써 사용자와의 인터액션을 수행하며, 마이크, 스피커, 디스플레이 등을 포함할 수 있다. 음성 인터페이스부(101)는 사용자의 제1 음성 명령 및 제2 음성 명령을 연속하여 수신할 수 있고, 제1 음성 명령 및 제2 음성 명령에 응답하여 각각 생성된 제1 음성 인식 결과 및 제2 음성 인식 결과를 출력하도록 구성될 수 있다.

음성 인식 결과 생성부(102)는 음성 명령을 처리하여 음성 인식 결과를 생성하도록 구성되며, 제1 음성 명령 및 제2 음성 명령에 각각 응답하여 제1 음성 인식 결과 및 제2 음성 인식 결과를 생성하도록 구성될 수 있다. 또한, 음성 인식 결과 생성부(102)는 음성 명령을 처리하기 위해 음성 명령 의도를 파악하는 음성 명령 인식부를 포함할 수 있다.

동일성 판단부(103)는 제1 음성 명령과 제2 음성 명령의 동일성 여부를 판단하도록 구성되며, 예컨대 제1 음성 명령과 제2 음성 명령의 동일성 여부는 제1 음성 명령에 응답하여 생성된 제1 음성 인식 결과와, 연속된 제2 음성 명령에 응답하여 생성된 제2 음성 인식 결과의 동일성에 기초하여 판단할 수 있다. 즉, 본 실시예에서 제1 음성 명령과 제2 음성 명령의 결과 값인 음성 인식 결과가 동일한 경우에 제1 음성 명령과 제2 음성 명령이 동일한 것으로 판단할 수 있다.

또한, 동일성 판단부(103)는 제1 음성 명령과 제2 음성 명령의 유사성 여부를 판단하도록 구성될 수 있으며, 예컨대 제1 음성 명령과 제2 음성 명령의 유사성 여부는 제1 음성 명령에 응답하여 생성된 제1 음성 인식 결과와, 연속된 제2 음성 명령에 응답하여 생성된 제2 음성 인식 결과의 유사성에 기초하여 판단할 수 있다. 예컨대, 제1 음성 인식 결과와 제2 음성 인식 결과가 미리 정해진 기준 값, 예컨대 80% 또는 90% 이상 동일하다고 판단하는 경우, 제1 음성 명령과 제2 음성 명령은 유사하다고 판단할 수 있다.

동일성 판단부(103)에서 제1 음성 명령과 연속하여 입력된 제2 음성 명령이 동일 또는 유사하다고 판단하는 경우, 음성 인식 결과 생성부(102)는 제1 음성 인식 결과와 상이한 제2 음성 인식 결과를 생성하도록 구성될 수 있다. 사용자가 두 번 이상 같은 명령을 반복하여 연속적으로 입력하였다면, 이것은 첫 번째 인식 결과가 사용자 의도에 맞지 않아 틀렸다는 것을 의미한다. 따라서, 본 실시예에 따르면 동일성 판단부(103)에서의 동일성 판단 결과에 기초하여, 음성 인식 결과 생성부(102)가 두 번째 인식 결과를 의도적으로 첫 번째 인식 결과와는 다른 방법으로 도출하거나 사용자에게 다른 방식으로 보여주는 방법을 제공할 수 있다.

이때, 제2 음성 명령이 제1 음성 명령의 오류를 시정하기 위해 연속하여 입력되었음을 판단하기 위해, 동일성 판단부(103)에서, 제1 음성 명령과 제2 음성 명령의 동일성 여부 판단 시에 제1 음성 인식 결과를 출력한 시점과 제2 음성 명령을 수신한 시점 사이의 시간 간격이 미리 결정된 기준 간격 이내에 발생하였는지 여부를 고려할 수 있다. 사용자가 잘못된 인식 결과에 대응하여 동일한 명령을 반복하는 것은 일정 시간 내에 짧은 시간 내에 반복될 것이므로, 제2 음성 명령이 오류를 바로 잡기 위한 사용자의 연속적 반복 입력임을 확인하기 위해 제1 음성 인식 결과 출력 시점과 이에 대응한 제2 음성 명령 수신 시점을 기준으로 하여 오류를 시정하기 위한 연속 입력임을 판단하여 명령의 동일성을 판단할 수 있다.

음성 인식 결과 생성부(102) 및 동일성 판단부(103)는 하나 이상의 프로세서(processor)에 의해 실행될 수 있는 프로그램 또는 프로그램 모듈을 포함할 수 있다. 음성 인식 결과 생성부(102) 및 동일성 판단부(103)에 포함된 프로그램 또는 프로그램 모듈들은 운영 체제(operating system), 어플리케이션 프로그램(application program) 또는 프로그램 등의 형태로 구성될 수 있으며, 널리 사용되는 다양한 종류의 저장 장치 상에 물리적으로 저장될 수 있다. 이와 같은 프로그램 또는 프로그램 모듈은 하나 이상의 루틴(routine), 서브루틴(subroutine), 프로그램(program), 오브젝트(object), 콤포넌트(component), 명령(instructions), 데이터 구조(data structure) 및 특정 작업(task)을 수행하거나 특정 데이터 유형을 실행하기 위한 다양한 형태를 포함할 수 있으며, 이들 형태로 제한되지 않는다.

통신부(104)는 서버나 다른 장치와의 데이터 송수신을 위해 유무선 통신을 수행하기 위한 구성요소로서, 다양한 통신 방식, 예컨대 5G(generation), LTE(long term evolution), WCDMA(wideband code division multiple access), WiFi(wireless fidelity), 블루투스(bluetooth), 지그비(zigbee) 및 NFC(near field communications) 중 적어도 하나의 통신 방식을 지원할 수 있으며, 이들에 제한되지 않는다.

도 2는 본 발명의 일 실시예에 따라 명령의 동일성 판단에 기초한 음성 인식 결과 출력 방법을 설명하기 위한 예시도이다.

본 발명의 일 실시예에 따른 음성 인식 결과 출력 방법은 크게 2단계로 구분될 수 있다.

첫 번째 단계에서는 동일한 음성 명령을 연속으로 입력하였는지 판단하는 단계로서, 이 검출 단계는 입력 음성의 특징(feature)이나 패턴(pattern)을 비교하는 것처럼 알고리즘 내부에서 다양한 방식으로 구현 가능할 것이다. 그러나, 보다 간단하면서 효율적인 동일성 판단 방법으로서, 첫 번째 음성 명령에 응답하여 생성된 제1 음성 인식 결과와, 연속하여 입력된 두 번째 음성 명령에 응답하여 생성된 제2 음성 인식 결과가 동일 또는 유사한 경우에 동일한 음성 명령이 반복된 것으로 판단할 수 있다.

두 번째 단계는 동일한 음성 명령이 연속으로 입력되는 경우 상이한 인식 결과를 출력하는 단계이다.

사용자가 두 번 이상 같은 명령을 반복하여 연속적으로 입력하였다면, 이것은 첫 번째 인식 결과가 사용자의 의도와 맞지 않는다는 것을 의미한다. 따라서 본 발명에서는 두 번째 인식 결과를 첫 번째 인식 결과와는 다른 방법으로 도출하거나 사용자에게 다른 방식으로 보여주는 방법을 제공한다. 이것은 크게 다음 두 가지 방법으로 나누어 제공할 수 있다.

- 음성 인식 결과를 알리거나 수행하는 방식의 변경

첫 번째 입력 받은 음성 명령과 두 번째 반복하여 입력 받은 음성 명령의 인식 결과가 동일 또는 유사한 경우에는 두 번째 음성 인식 결과를 첫 번째 음성 인식 결과와 다른 방식 또는 다른 UX/UI로 제공할 수 있으며, 도 4, 도 5 및 도 6을 참조하여 구체적으로 후술될 것이다.

- 내부 알고리즘의 변경

첫 번째 음성 인식 결과는 틀렸으므로, 두 번째 명령에 대해서는 첫 번째 음성 인식 알고리즘과 다른 음성인식 알고리즘을 사용할 수 있으며, 예컨대, 인식 룰(rule)을 변경하거나, 인식기에 이용되는 피처(feature)의 변경, 전처리 프로세싱의 변경 또는 음성 모델 또는 음성 인식기의 변경, 음성 속도의 변경 등을 이용할 수 있다. 특히. 첫 번째 입력 받은 음성 명령과 두 번째 반복하여 입력 받은 음성 명령의 인식 결과가 동일한 경우에는 음성 인식기의 변경, 음성 인식기 피처(feature)의 변경, 발음에 대한 룰(rule)의 변경, 전처리(Pre-processing) 룰의 변경 및 사용자 음성 속도 설정의 변경 중 적어도 하나를 적용함으로써, 상이한 인식 결과를 출력할 수 있다. 이에 대한 구체적인 예시에 대해서는 후술될 것이다.

도 3은 본 발명의 다른 실시예에 따라 명령의 동일성 판단에 기초한 음성 인식 결과 출력 방법을 설명하기 위한 예시도이다.

먼저 음성 인터페이스부(101)를 통해 사용자의 제1 음성 명령을 수신한다.(S310) 음성 인식기를 포함한 사용자 장치는 음성 인식 결과 생성부(102)에서 제1 음성 명령에 응답하여 생성된 제1 음성 인식 결과를 음성 인터페이스부(101)를 통해 출력할 수 있다.(S320)

사용자는 제1 음성 인식 결과가 사용자의 의도에 맞지 않은 잘못된 결과인 경우, 동일한 명령을 2번 이상 연속하여 반복할 수 있고, 이때 사용자의 제2 음성 명령을 연속하여 수신하는 단계가 수행된다.(S330)

동일성 판단부(130)에서 제1 음성 명령과 제2 음성 명령의 동일성 여부를 판단하기 위해, 예컨대 제1 음성 인식 결과와, 제2 음성 명령에 응답하여 생성된 제2 음성 인식 결과의 동일 유사성을 판단할 수 있다.(S340)

동일성 판단부(103)에서 1차 음성 인식 결과와 2차 음성 인식 결과가 동일한 경우, 동일한 음성 명령이 반복되어 입력된 것으로 판단할 수 있다.(S350) 동일한 음성 명령이 반복되어 입력된 것으로 판단하는 경우는 1차 음성 인식 결과와 2차 음성 인식 결과가 완전 동일한 경우 뿐만 아니라 유사한 경우도 포함한다.

이때, 제1 음성 명령과 제2 음성 명령의 동일성 여부는 사용자의 연속적 반복 입력을 확인하기 위한 것이므로, 제1 음성 명령과 제2 음성 명령의 입력 사이의 시간이 미리 결정된 기준 간격 이내에 있는 경우에만 동일 명령이 반복된 것으로 판단할 수 있다. 또한, 예컨대 제1 음성 인식 결과를 출력한 시점과 제2 음성 명령을 수신한 시점 사이의 시간 간격이 미리 결정된 기준 간격보다 작은 경우에만 동일 명령이 반복된 것으로 판단할 수 있다.

동일성 판단을 통해 동일 또는 유사한 음성 명령이 입력된 것으로 판단되는 경우, 음성 인식 결과 생성부(102)에서 1차 음성 인식 결과와 상이한 2차 음성 인식 결과를 생성하고, 2차 음성 인식 결과를 음성 인터페이스부(101)를 통해 출력할 수 있다.(S360)

도 4는 본 발명의 일 실시예에 따라 명령의 동일성 판단에 기초하여 음성-텍스트(speech to text) 변환 결과를 출력하는 방법을 설명하기 위한 예시도이다.

예컨대, 음성 인식을 이용하여 음성-텍스트(speech to text) 변환 기능을 이용하여 문서 작업을 하고 있는 경우를 가정한다. 일 예시로, 사용자가 다음과 같은 영문 문장을 음성 인식을 통해 입력하고자 한다고 가정한다.

“The best way to predict the future is to invent it.”

그러나, 사용자의 의도와는 달리 음성 인식 장치가 위 문장을 잘못 인식하여 도 4a에서와 같이, “The next way to predict the future is to invent it.”로 출력될 수 있다. 즉, 도 4a는 음성 인식기가 단어 중 하나인 'best'를 'next'로 잘못 인식된 결과를 화면에 출력한 예이다.

이와 같은 경우, 사용자는 동일한 문장을 다시 반복 명령하여 오류를 해결하려고 할 것이다.

도 4b의 경우 종래의 출력 방법으로서, 두 번째 음성 명령에서는 문장을 제대로 인식하였다면 오류를 포함한 첫 번째 음성 인식 결과와 오류가 없는 두 번째 음성 인식 결과가 연속하여 출력된 모습을 나타내며, 아래와 같다.

“The next way to predict the future is to invent it. The best way to predict the future is to invent it.”

이와 같이, 종래의 음성 인식 출력 방법을 이용하면, 음성-텍스트(speech to text) 변환 시에 오타가 난 문장을 그대로 둔 채 두 번째 말한 문장을 연이어 출력한다. 본 실시예에 따르면 동일성 판단에 의해, 첫 번째 음성 인식 결과와 두 번째 인식 결과는 'next'와 'best' 단어 1개의 오류 인식만 상이하며 나머지 인식 결과는 동일하기 때문에, 제1 음성 명령과 제2 음성 명령이 유사한 것으로 판단할 수 있다. 즉, 사용자는 첫 번째 문장에 오타가 발생했기 때문에 두 번째 문장을 반복하여 말한 것이므로, 본 실시예를 적용하면 오타(오류)가 발생한 첫 번째 문장은 자동으로 삭제 처리하는 것이 가능하다.

도 4c를 참조하면, 사용자가 유사한 문장을 반복하여 음성 명령으로 입력한 경우, 첫 번째 음성 명령에 대한 인식 오류가 포함된 인식 결과인 “The next way to predict the future is to invent it.” 문장은 삭제하고, 두 번째 연속된 음성 명령에 대한 올바른 인식 결과인 “The best way to predict the future is to invent it.”만을 텍스트로 표시할 수 있다. 이때, 사용자가 두 번의 동일 또는 유사한 음성 명령을 반복한 것을 인식함으로써, 명령의 동일성 판단을 통해 첫 번째 음성 명령에 대한 인식 결과는 오류로 판단할 수 있고, 두 번째 음성 인식 결과는 첫 번째 음성 인식 결과와 상이한 결과를 출력하고, 사용자의 동일 또는 유사한 음성 명령이 반복되지 않음을 판단함으로써 두 번째 음성 인식 결과가 오류가 없다고 판단할 수 있다.

이와 같은 자동 삭제(auto erase) 기능을 통해, 특히 음성-텍스트 변환 등의 음성 인식 어플리케이션에서 사용자가 잘못된 인식 결과를 수동적으로 지워야 하는 번거로움을 없앨 수 있어 사용자의 편의성을 향상시킬 수 있다.

도 5는 본 발명의 일 실시예에 따라 명령의 동일성 판단에 기초하여 이전 명령 수행 결과의 오류를 복원하는 방법을 설명하기 위한 예시도이다.

도 5를 참조하면, 사용자의 제1 음성 명령은 “음악을 꺼줘”였으나, 이에 대한 제1 음성 인식 결과는 “불을 꺼줘”로서 '음악'을 '불'로 잘못 인식하는 오류를 포함하여 음성 인식기의 오류에 의해 음악 대신 불을 끄는 잘못된 명령을 수행할 수 있다.

이때, 사용자의 반복된 제2 음성 명령을 통해 제1 음성 명령과 제2 음성 명령이 유사하다고 판단되는 경우, 예컨대 제1 음성 명령의 인식 결과인 “불을 꺼줘”와 제2 음성 명령의 인식 결과인 “음악을 꺼줘”의 동일성 여부를 판단하여, 문장의 맥락과 명령의 의미의 동일성에 기초하여 제1 음성 명령과 제2 음성 명령의 인식 결과가 유사하다고 판단하는 경우, 제2 음성 인식 결과에 따른 동작 수행에 있어서, 제1 음성 인식 결과의 오류를 해결하기 위한 동작을 수행할 수 있다.

즉, 제2 음성 인식 결과는 제1 음성 인식 결과에 따른 오류를 복원하기 위한 명령을 수행한 이후에, 제1 음성 인식 결과와 상이한 명령을 수행할 수 있으며, 예컨대 도 5에서와 같이 꺼진 불을 다시 켜서 잘못된 명령 수행 결과를 원 상태로 되돌리고, 올바른 음성 인식 결과에 따른 명령 수행으로서 음악을 끄는 동작을 수행할 수 있다.

이와 같은 자동 복원(auto restore) 기능을 통해, 특히 음성 인식 어플리케이션에서 잘못 인식된 명령 수행 결과를 사용자가 수동적으로 복원하여야 하는 번거로움을 없앨 수 있어 사용자의 편의성을 향상시킬 수 있다.

도 6은 본 발명의 일 실시예에 따라 명령의 동일성 판단에 기초하여 사용자에게 인식 결과의 후보군을 제공하는 방법을 설명하기 위한 예시도이다.

일반적으로 음성 인식기는 사용자 편의성을 위해 사용자가 음성 명령을 내리면 해당 명령을 바로 수행한다. 하지만 일부 기기에서는 명령을 바로 수행하는 것이 아니라 확인 과정을 한 번 더 수행하는 경우가 있다. 이것은 음성 인식기의 인식률이 100%가 아니기 때문에 사용자에게 다시 한번 선택을 하게 함으로써 정확성을 증가시키기 위한 하나의 방법이다.

예컨대, 사용자가 음성 인식 기능을 갖는 텔레비전(TV)에 “CNN”라는 음성 명령을 내렸다면, 올바른 음성 인식 결과인 경우에 일반적으로 바로 CNN 채널로 채널 변경을 수행할 수 있을 것이다. 그러나, 사용자로부터 반복 명령 등이 수행되어 사용자의 의도에 맞지 않은 인식 결과가 나올 수 있는 경우에 도 5에서의 예시적 화면에서와 같이 CNN 채널, NBC 채널, CBS 채널과 같이 인식 결과의 후보군, 즉 사용자가 선택할 수 있는 2개 이상의 인식 결과를 보여주고 사용자로 하여금 선택하도록 할 수 있다.

이와 같이, 사용자가 음성 명령을 내리고 기기가 명령에 대한 인식 결과를 바로 수행했는데 사용자가 연속적으로 같은 명령을 반복했다고 가정하자. 그렇다면 두 번째 반복된 명령에 대해서는 바로 명령을 수행하는 것이 아닌 인식 결과의 복수의 선택 후보군을 사용자에게 제공하고 선택하도록 만들어 줄 수 있다.

<본 발명의 다른 실시예: 음성 인식기의 변경>

음성 인식에 사용되는 알고리즘은 다양하게 존재하고 분류된다. 본 실시예에 따르면, 사용자가 연속적으로 동일한 음성 명령을 입력하는 행동을 하면, 두 번째 음성 명령에 대해서는 첫 번째 음성 명령에 사용했던 것과는 다른 음성 인식 알고리즘을 사용할 수 있다. 예컨대, 첫 번째 음성 명령에 대해서는 화자 독립적 인식기(speaker independent recognizer)를 사용했었다면, 두 번째 음성 명령에 대해서는 화자 의존 인식기(speaker dependent recognizer)를 사용할 수 있다. 또는 첫 번째 음성 명령에 대해서는 고정 단어 인식기(fixed vocabulary recognizer)를 사용했었다면, 두 번째 음성 명령에 대해서는 플렉서블 단어 인식기(flexible vocabulary recognizer)를 사용할 수도 있을 것이다. 또한, 첫 번째 음성 명령은 기업 A의 인식기를 두 번째 음성 명령은 서로 상이한 기업 A의 인식기를 사용하는 것도 가능하다.

이와 같이, 동일한 음성 명령이 반복되어 음성 인식 결과에 오류가 있다고 판단되는 경우 두 번째 음성 인식 처리는 음성 인식기 자체를 변경함으로써 상이한 음성 인식 결과를 생성 및 제공할 수 있을 것이다.

<본 발명의 다른 실시예: 음성 인식기 피처(feature)의 변경>

음성 인식기에는 예컨대, MFCC(Mel-Frequency Cepstral Coefficient) 나 LPCC(Linear Predictive Coding Coefficient)와 같은 다양한 피처(feature)가 사용될 수 있다. 예컨대, 음성 인식기가 첫 번째 음성 명령에 대해서는 MFCC를 피처로 사용했는데, 사용자가 연속적으로 동일한 명령을 반복한 경우, 두 번째 음성 명령은 LPCC를 피처로 사용할 수 있을 것이다.

이와 같이, 동일한 음성 명령이 반복되어 음성 인식 결과에 오류가 있다고 판단되는 경우 두 번째 음성 인식 처리는 음성 인식기 피처(feature)를 변경함으로써 상이한 음성 인식 결과를 생성 및 제공할 수 있을 것이다.

<본 발명의 다른 실시예: 발음에 대한 룰(rule)의 변경>

예컨대, 사용자들이 모두 같은 나라에서 같은 언어를 사용할지라도, 각 지방마다 사투리가 존재한다. 음성 인식기가 첫 번째 음성 명령에 대해서는 표준말 데이터베이스(DB)를 이용한 음성 인식 프로세스를 수행했는데, 사용자가 연속적으로 같은 명령을 반복하는 경우, 각 지방의 사투리 DB를 이용한 음성인식 프로세스를 두 번째 음성 명령에 대해 적용하여 처리할 수 있다.

또한, 첫 번째 음성 명령에 대해서는 모국어 사용자 DB를 이용한 음성 인식 프로세스를 적용하고, 동일한 명령이 반복되는 경우 두 번째 음성 명령에 대해서는 외국어 사용자 DB를 이용한 음성 인식 프로세스를 사용할 수도 있을 것이다.

이와 같이, 동일한 음성 명령이 반복되어 음성 인식 결과에 오류가 있다고 판단되는 경우 두 번째 음성 인식 처리는 발음 DB를 변경함으로써 룰의 변경을 통해 상이한 음성 인식 결과를 생성 및 제공할 수 있을 것이다.

<본 발명의 다른 실시예: 전처리(Pre-processing) 룰의 변경>

시끄러운 환경에서는 음성 인식의 성능이 떨어지는 것이 일반적이다. 하지만 이 문제를 해결하기 위해 노이즈 감소(noise reduction)과 같은 전처리(pre-processing) 기술을 음성 인식에 사용한다면, 오히려 조용한 환경에서의 성능이 떨어질 수도 있다. 따라서 음성 인식기가 전처리 프로세싱을 수행하지 않았는데 사용자가 연속적으로 같은 명령을 반복했다면, 두 번째 명령에 대해서는 첫 번째 명령의 처리 때와는 상이하게 노이즈 감소(noise reduction)와 같은 전처리 프로세싱을 수행함으로써 상이한 음성 인식 결과를 생성 및 제공할 수 있을 것이다.

<본 발명의 다른 실시예: 속도 설정의 변경>

사용자가 너무 빠르게 말하거나 또는 너무 느리게 말하면 음성 인식기가 제대로 인식하지 못할 수도 있다. 따라서 본 실시예를 적용하면, 첫 번째 명령과 두 번째 명령에 대해 사용자가 말하는 속도에 대한 설정(setting)을 상이하게 적용해줌으로써 상이한 음성 인식 결과의 출력을 생성 및 제공하는 것이 가능하다.

이상 본 발명의 실시예에 따른 동일성 판단에 기초한 음성 인식 결과 출력 방법 및 장치를 구체적인 다양한 실시 형태로서 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명은 이에 한정되지 않는 것이며, 본 명세서에 개시된 기초 사상에 따르는 최광의 범위를 갖는 것으로 해석되어야 한다. 당업자는 개시된 실시형태들을 조합, 치환하여 적시되지 않은 형상의 패턴을 실시할 수 있으나, 이 역시 본 발명의 범위를 벗어나지 않는 것이다. 이외에도 당업자는 본 명세서에 기초하여 개시된 실시형태를 용이하게 변경 또는 변형할 수 있으며, 이러한 변경 또는 변형도 본 발명의 권리범위에 속함은 명백하다.

100: 사용자 장치
101: 음성 인터페이스부
102: 음성 인식 결과 생성부
103: 동일성 판단부
104: 통신부

Claims

동일성 판단에 기초한 음성 인식 결과 출력 방법에 있어서,
사용자의 제1 음성 명령을 수신하는 단계;
상기 제1 음성 명령에 응답하여 생성된 제1 음성 인식 결과를 출력하는 단계;
상기 사용자의 제2 음성 명령을 연속하여 수신하는 단계;
상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부를 판단하는 단계; 및
상기 제1 음성 명령과 상기 제2 음성 명령이 동일 또는 유사하다고 판단하는 경우, 상기 제1 음성 인식 결과와 상이한 제2 음성 인식 결과를 생성하여 출력하는 단계
를 포함하고,
상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부는 상기 제1 음성 인식 결과를 출력한 시점과 상기 제2 음성 명령을 수신한 시점 사이의 시간 간격이 미리 결정된 기준 간격보다 큰지 여부에 기초하여 판단하는 것인, 음성 인식 결과 출력 방법.
삭제
제1항에 있어서, 상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부는 상기 제1 음성 인식 결과와, 상기 제2 음성 명령에 응답하여 생성된 제2 음성 인식 결과의 동일성에 기초하여 판단하는 것인, 음성 인식 결과 출력 방법.
삭제
제1항에 있어서, 상기 제1 음성 인식 결과는 적어도 하나의 오류를 포함한 음성-텍스트(speech to text) 변환 결과이고,
상기 제2 음성 인식 결과는 상기 제1 음성 인식 결과와 관련된 텍스트를 삭제하고, 상기 제1 음성 인식 결과와 상이한 음성-텍스트 변환 결과를 나타내는 것인, 음성 인식 결과 출력 방법.
제1항에 있어서, 상기 제1 음성 인식 결과는 적어도 하나의 오류를 포함한 명령 수행 결과이고,
상기 제2 음성 인식 결과는 상기 제1 음성 인식 결과에 따른 오류를 복원하기 위한 명령을 수행하고, 상기 제1 음성 인식 결과와 상이한 명령을 수행하는 것인, 음성 인식 결과 출력 방법.
제1항에 있어서, 상기 제2 음성 인식 결과는 상기 제1 음성 인식 결과와 상이하게 사용자가 선택할 수 있는 인식 결과의 후보군을 제공하는 것인, 음성 인식 결과 출력 방법.
제1항에 있어서, 상기 제1 음성 명령과 상기 제2 음성 명령의 인식 결과가 동일한 경우에는 음성 인식기의 변경, 음성 인식기 피처(feature)의 변경, 발음에 대한 룰(rule)의 변경, 전처리(Pre-processing) 룰의 변경 및 사용자 음성 속도 설정의 변경 중 적어도 하나를 적용하는 것인, 음성 인식 결과 출력 방법.
동일성 판단에 기초한 음성 인식 결과 출력 장치에 있어서,
사용자의 제1 음성 명령 및 제2 음성 명령을 연속하여 수신하고, 상기 제1 음성 명령 및 상기 제2 음성 명령에 응답하여 각각 생성된 제1 음성 인식 결과 및 제2 음성 인식 결과를 출력하도록 구성되는 음성 인터페이스부;
상기 제1 음성 명령 및 상기 제2 음성 명령에 각각 응답하여 제1 음성 인식 결과 및 제2 음성 인식 결과를 생성하도록 구성된 음성 인식 결과 생성부; 및
상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부를 판단하도록 구성된 동일성 판단부
를 포함하고,
상기 동일성 판단부에서 상기 제1 음성 명령과 상기 제2 음성 명령이 동일 또는 유사하다고 판단하는 경우, 상기 음성 인식 결과 생성부는 상기 제1 음성 인식 결과와 상이한 제2 음성 인식 결과를 생성하는 것이며,
상기 동일성 판단부에서, 상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부는 상기 제1 음성 인식 결과를 출력한 시점과 상기 제2 음성 명령을 수신한 시점 사이의 시간 간격이 미리 결정된 기준 간격보다 큰지 여부에 기초하여 판단하는 것인, 음성 인식 결과 출력 장치.
삭제
제9항에 있어서, 상기 동일성 판단부에서, 상기 제1 음성 명령과 상기 제2 음성 명령의 동일성 여부는 상기 제1 음성 인식 결과와, 상기 제2 음성 인식 결과의 동일성에 기초하여 판단하는 것인, 음성 인식 결과 출력 장치.
삭제
제9항에 있어서, 상기 제1 음성 인식 결과는 적어도 하나의 오류를 포함한 음성-텍스트 변환 결과이고,
상기 제2 음성 인식 결과는 상기 제1 음성 인식 결과와 관련된 텍스트를 삭제하고, 상기 제1 음성 인식 결과와 상이한 음성-텍스트 변환 결과를 나타내는 것인, 음성 인식 결과 출력 장치.
제9항에 있어서, 상기 제1 음성 인식 결과는 적어도 하나의 오류를 포함한 명령 수행 결과이고,
상기 제2 음성 인식 결과는 상기 제1 음성 인식 결과에 따른 오류를 복원하기 위한 명령을 수행하고, 상기 제1 음성 인식 결과와 상이한 명령을 수행하는 것인, 음성 인식 결과 출력 장치.
제9항에 있어서, 상기 제2 음성 인식 결과는 상기 제1 음성 인식 결과와 상이하게 사용자가 선택할 수 있는 인식 결과의 후보군을 제공하는 것인, 음성 인식 결과 출력 장치.
제9항에 있어서, 상기 제1 음성 명령과 상기 제2 음성 명령의 인식 결과가 동일한 경우에는 음성 인식기의 변경, 음성 인식기 피처(feature)의 변경, 발음에 대한 룰(rule)의 변경, 전처리(Pre-processing) 룰의 변경 및 사용자 음성 속도 설정의 변경 중 적어도 하나를 적용하는 것인, 음성 인식 결과 출력 장치.