KR20190133325A

KR20190133325A - 음성인식 방법 및 장치

Info

Publication number: KR20190133325A
Application number: KR1020180058093A
Authority: KR
Inventors: 이재석
Original assignee: 카페24 주식회사
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2019-12-03
Also published as: KR102114365B1

Abstract

본 발명의 일 양태는 음성인식장치를 개시하고 있다. 상기 장치는 음성신호를 취득하는 신호 취득부, 상기 취득된 음성신호를 분석하여 사람의 정상음성과 연관된 제 1 신호인지 속삭임과 연관된 제 2 신호인지 판단하여 제 1 신호인식부 및 제 2 신호인식부 중 적어도 하나를 호출하는 신호분석부, 상기 신호분석부에서의 호출에 응답하여, 제 1 음성인식 알고리즘에 따라 상기 제 1 신호를 인식하는 제 1 신호인식부 및 상기 신호분석부에서의 호출에 응답하여, 제 2 음성인식 알고리즘에 따라 상기 제 2 신호를 인식하는 제 2 신호 인식부를 포함한다.

Description

음성인식 방법 및 장치{SPEECH RECOGNITION METHOD AND APPARATUS}

본 발명은 음성인식 방법에 관한 것으로, 보다 상세하게는, 음성인식을 기반으로 하는 정보 입력 방법에 관한 것이다.

최근들어, 음성인식 기술이 발전하면서, 스마트폰에도 음성인식을 기반으로 하는 기능들이 다수 탑재되고 있다. 전형적으로, 아이폰의 시리(siri) 등 음성인식을 통한 명령어 입력 기능이 대부분의 스마트폰에 탑재되어 있다. 이러한 음성 인터페이스는 터치 인터페이스 보다 자연스럽고 직관적인 인터페이스이며, 이에 따라, 터치 인터페이스의 단점을 보완할 수 있는 차세대 인터페이스로 각광받고 있다.

공공 장소에서 기계를 상대로 큰 목소리로 말을 하는 것은 일반적인 사람들에게는 매우 부끄럽고 부자연스러운 행위이다. 이에 따라, 음성 인터페이스는 사람들이 많거나 또는 조용히 해야 하는 공공 장소에서 사용하기 어렵다는 단점이 존재한다. 이러한 단점은 음성 인터페이스의 가장 큰 단점으로 지적되고 있으며, 음성 인터페이스의 사용 확산을 가로막는 큰 장애물로 지적되고 있다. 이로 인해 음성 인터페이스는 자동차와 같이 혼자 있는 극히 제한적인 상황에서만 주로 사용되고 있다. 이에 따라, 공공 장소에서도 다른 사람들에게 피해를 주지 않고, 음성 인터페이스를 자유롭게 이용할 수 있는 방법이 요구된다.

상술한 문제점을 해결하기 위한 본 발명의 일 양태에 따른 목적은 사용자로부터 입력되는 음성을 취득하여 음성의 세기 및 음역대를 분석하고, 이를 기반으로 사용자가 입력한 음성이 성대를 사용한 음성인지 속삭임인지를 판단하여 모드에 따라 음성을 인식하는 음성인식장치를 제공하는 것이다.

상기한 목적을 달성하기 위한 본 발명의 일 양태에 따른 음성인식장치는 음성신호를 취득하는 신호 취득부, 상기 취득된 음성신호를 분석하여 사람의 정상음성과 연관된 제 1 신호인지 속삭임과 연관된 제 2 신호인지 판단하여 제 1 신호인식부 및 제 2 신호인식부 중 적어도 하나를 호출하는 신호분석부, 상기 신호분석부에서의 호출에 응답하여, 제 1 음성인식 알고리즘에 따라 상기 제 1 신호를 인식하는 제 1 신호인식부 및 상기 신호분석부에서의 호출에 응답하여, 제 2 음성인식 알고리즘에 따라 상기 제 2 신호를 인식하는 제 2 신호 인식부를 포함할 수 있다.

상기 음성인식장치는 상기 제 1 신호인식부 및 상기 제 2 신호인식부 중 적어도 하나에서 인식한 텍스트 기반의 정보를 기반으로 명령어 정보를 생성하여 입력하는 정보입력부를 더 포함할 수 있다.

상기 정보입력부는 상기 제 1 신호인식부 및 상기 제 2 신호인식부 중 적어도 하나에서 인식한 텍스트 기반의 정보를 명령어로 변환하는 명령어 변환부 및 상기 변환된 명령어를 입력하는 명령어 입력부를 포함할 수 있다.

상기 명령어 변환부는 기저장된 명령어 모델을 이용하여 명령어로 변환할 수 있다.

상기 인식한 텍스트 정보는 디스플레이부를 통해 표시될 수 있다.

상기 디스플레이부를 통해 표시되는 텍스트 정보 내에 포함된 소정 문자를 사용자 인터페이스를 통한 문자 입력을 통해 수정할 수 있다.

상기 디스플레이부를 통해 표시되는 텍스트 정보 내에 포함된 소정 문자를 특정하여 사용자 인터페이스를 통한 음성 재입력을 통해 수정할 수 있다.

상기 디스플레이부를 통해 표시되는 텍스트 주변에 텍스트 수정을 위한 아이콘을 함께 표시할 수 있다.

상기 명령어 모델은 중요단어와 비중요단어를 구분하여 이루어지되, 상기 변환된 명령어를 표시할 때, 상기 중요단어와 비중요단어를 구분하여 표시할 수 있다.

상기 정보입력부는 통화 중이 아닌 상태에 자동으로 활성화될 수 있다.

상기 신호분석부는 상기 취득된 음성신호의 세기 및 음역대 중 적어도 하나를 분석하여 상기 제 1 신호인지 상기 제 2 신호인지 판단할 수 있다.

상기 신호분석부는 상기 취득된 음성신호의 세기가 제 1 임계값보다 큰지 여부 및 상기 취득된 음성신호의 음역대가 제 2 임계값보다 큰지 여부 중 적어도 하나를 기반으로 상기 제 1 신호인지 상기 제 2 신호인지 판단할 수 있다.

상기 제 1 임계값 및 상기 제 2 임계값 중 적어도 하나는 상기 음성인식장치 주변의 소음의 크기에 따라 가변될 수 있다.

상기 제 1 임계값 및 상기 제 2 임계값 중 적어도 하나는 기저장된 사용자 음성 프로파일(profile)을 기반으로 설정될 수 있다.

상기 제 2 신호인식부는 속삭임 음성신호 인식과 연관된 음성모델을 이용하여 상기 제 2 신호를 인식할 수 있다.

상기 음성인식장치는 사용자로부터 토출되는 공기의 압력을 감지하는 기압센서를 더 포함하고, 상기 신호분석부는 상기 기압센서로부터의 압력값이 제 3 임계값보다 큰지 여부를 기반으로 상기 제 1 신호인지 상기 제 2 신호인지 판단할 수 있다.

상기 기압센서는 상기 음성신호 취득부로부터 2cm 반경 내에 배치될 수 있다.

상기 음성인식장치가 통화 중일 때, 상기 제 1 신호인식부를 비활성화시키고 상기 제 2 신호인식부만 활성화시키되, 상기 음성인식장치는 상기 제 2 신호인식부에서 인식한 정보를 정상음성신호로 변환하는 신호 변환부를 더 포함할 수 있다.

상기 음성인식장치는 제 1 사용자의 정상음성신호 특성을 포함하는 제 1 사용자 음성신호 및 제 2 사용자의 정상음성신호 특성을 포함하는 제 2 사용자 음성신호를 보유하는 저장부를 더 포함하되, 상기 신호 변환부는 상기 취득된 음성신호가 상기 제 1 사용자 음성신호인지 상기 제 2 사용자 음성신호인지 판단하여 그에 대응되는 음성신호로 변환할 수 있다.

상기 신호 변환부는 상기 취득된 음성신호의 특성에 대응되는 정상음성신호로 변환할 수 있다.

상기 신호분석부는 하나의 연속된 언어에서 제 1 구간은 상기 제 1 신호인식부의 처리구간으로, 제 2 구간은 제 2 구간은 상기 제 2 신호인식부의 처리구간으로 식별하여 상기 제 1 신호인식부와 상기 제 2 신호인식부를 호출할 수 있다.

상기 제 1 신호인식부는 제 1 프로세서로, 제 2 신호인식부는 제 2 프로세서로 구현되어, 실질적으로 동시에 병렬적으로 상기 하나의 연속된 언어의 제 1 구간과 제 2 구간에 대한 신호인식작업이 수행될 수 있다.

상기한 목적을 달성하기 위한 본 발명의 일 양태에 따른 음성인식방법은 음성신호를 취득하는 단계, 상기 취득된 음성신호를 분석하여 사람의 정상음성과 연관된 제 1 신호인지 속삭임과 연관된 제 2 신호인지 판단하여 제 1 신호인식부 및 제 2 신호인식부 중 적어도 하나를 호출하는 단계, 상기 신호분석부에서의 호출에 응답하여, 상기 제 1 신호인식부에서, 제 1 음성인식 알고리즘에 따라 상기 제 1 신호를 인식하는 단계 및 상기 신호분석부에서의 호출에 응답하여, 상기 제 2 신호인식부에서, 제 2 음성인식 알고리즘에 따라 상기 제 2 신호를 인식하는 단계를 포함할 수 있다.

상기한 목적을 달성하기 위한 본 발명의 다른 양태에 따른 음성인식장치는 음성신호를 취득하는 신호 취득부, 상기 취득된 음성신호를 분석하여 사람의 정상음성과 연관된 제 1 신호인지 속삭임과 연관된 제 2 신호인지 판단하여 제 1 신호인식부 및 제 2 신호인식부 중 적어도 하나를 호출하는 신호분석부, 상기 신호분석부에서의 호출에 응답하여, 제 1 음성인식 알고리즘에 따라 상기 제 1 신호를 인식하는 제 1 신호인식부 및 상기 신호분석부에서의 호출에 응답하여, 제 2 음성인식 알고리즘에 따라 상기 제 2 신호를 인식하는 제 2 신호 인식부를 포함하되, 통화 중인지 여부를 기반으로 상기 제 1 신호인식부 및 상기 제 2 신호인식부 중 적어도 하나에서 인식한 정보를 텍스트 기반의 입력신호 또는 정상음성신호로 변환하는 신호 변환부를 더 포함할 수 있다.

상기한 목적을 달성하기 위한 본 발명의 다른 양태에 따른 음성인식방법은 음성신호를 취득하는 단계, 상기 취득된 음성신호를 분석하여 사람의 정상음성과 연관된 제 1 신호인지 속삭임과 연관된 제 2 신호인지 판단하여 제 1 신호인식부 및 제 2 신호인식부 중 적어도 하나를 호출하는 단계, 상기 신호분석부에서의 호출에 응답하여, 상기 제 1 신호인식부에서, 제 1 음성인식 알고리즘에 따라 상기 제 1 신호를 인식하는 단계 및 상기 신호분석부에서의 호출에 응답하여, 상기 제 2 신호인식부에서, 제 2 음성인식 알고리즘에 따라 상기 제 2 신호를 인식하는 단계를 포함하되, 통화 중인지 여부를 기반으로 상기 제 1 신호인식부 및 상기 제 2 신호인식부 중 적어도 하나로부터 획득된 신호를 텍스트 기반의 입력신호 또는 정상음성신호로 변환하는 단계를 더 포함할 수 있다.

본 발명의 일 양태에 따른 음성인식장치에 따르면, 사용자가 큰 소리로 얘기하는 것이 허용된 장소에서는 큰소리로 입력하고, 도서관이나 지하철 등 큰소리 입력이 어려울 경우 속삭임으로 입력하면, 휴대폰에서 모드 선택 없이도 이를 자동 인식하여 사용자 음성을 인식 가능케 하는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 음성인식장치를 개략적으로 나타낸 블록도,
도 2는 본 발명의 일 실시예에 따른 음성인식장치가 제 1 신호인식부 및 제 2 신호인식부를 호출하여 정상음성 및 속삭임음성을 인식하는 과정을 구체적으로 나타낸 흐름도,
도 3은 본 발명의 일 실시예에 따른 음성인식장치의 기압센서를 기반으로 하는 속삭임 음성인식을 설명하기 위한 개념도,
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 음성인식장치의 속삭임 인식을 위한 임계값의 가변가능성을 나타낸 개념도,
도 5는 본 발명의 일 실시예에 따른 음성인식장치가 인식한 속삭임 관련 텍스트를 수정하는 모드를 나타낸 개념도,
도 6은 본 발명의 일 실시예에 따른 음성인식장치의 명령어 모델 데이터베이스를 나타낸 블록도,
도 7은 도 6의 명령어 모델 데이터베이스를 통해 생성된 명령어를 디스플레이부에 표시한 화면을 나타낸 도면,
도 8은 본 발명의 일 실시예에 따른 음성인식장치가 통화 중에 속삭임 모드로 음성을 인식할 때의 처리방법을 설명하기 위한 개념도,
도 9는 본 발명의 다른 실시예에 따른 음성인식장치를 개략적으로 나타낸 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

본 명세서에 걸쳐서, 속삭임은 속삭이는 음성신호를 나타내고, 이는 예컨대, 조용하고 개인적인 대화의 형태로써 사용되는 현상을 나타낼 수 있다. 준언어적 현상으로서, 속삭임은 정상음성과 다르게 고려되어 양자는 서로 구분될 수 있다. 음성 생성 과정은 성도 및 비강을 통해 공진하고 입을 통해 나오는 가변 피치 신호를 생성하기 위해 성문을 통해 나오는 폐의 내쉼으로 시작한다. 성도강, 구강 및 비강 내에서, 벨럼, 혀 및 입술 위치는 음성 사운드를 형성하는 데에 중요한 역할을 한다. 이들을 집합적으로 성도 모듈레이터(vocal tract modulator)라고 할 수 있다.

이에 반해, 속삭임은 또렷한 대화를 원하지만 정상음성의 큰 소리가 금지된 상황에 사용될 수 있고, 특히 속삭임은 후두 장애가 있는 사람을 위한 필수적인 대화 수단이다. 속삭임은 인식성과 이해 정도가 떨어지는 것이 일반적이다. 정상적으로 발음된 음성과 속삭임 간의 주요한 차이는 속삭임에는 성대 떨림이 없다는 것이다. 이것은 속삭일 때 성대 떨림이 생리적으로 막힌 경우 또는 병이 있을 때에 질병이나 질병 치료에 의해 성대를 제거하였거나 발성 계의 질병에 의해 성대가 막힌 경우에 생길 수 있다.

본 명세서에서, 용어 "속삭임 음성"(whispered speech)에 대한 고유의 정의는 없다. "속삭임 음성"은 부드러운 속삭임(soft whisper)과 고성의 속삭임(stage whisper)으로 크게 분류할 수 있다. 이들은 약간 다를 수 있다. 부드러운 속삭임(조용한 속삭임)은 다른 사람의 귀에 속삭이는 등에 의해 인지를 의도적으로 감소시키기 위해 정상적으로 말하는 사람에 의해 이루어지며, 일반적으로는 편안하고 용이하게 사용된다. 이들은 성대 주름의 떨림이 없이도 만들어지며, 일상 생활에서 많이 사용되며, 후두 절제 환자에 의해 만들어진 속삭임의 형태와 유사하다.

한편, 고성의 속삭임은 듣는 사람이 말하는 사람으로부터 어느 정도 떨어져 있을 때에 사용된다. 고성의 속삭임을 만들기 위해, 음성은 의도적으로 속삭이는 듯이 말해야 한다. 성대 주름의 떨림을 필요로 하는 일부 부분적인 발성이 고성의 속삭임에 속한다.

본 발명의 일 실시예에 따른 음성인식장치는 기본적으로 부드러운 속삭임을 위해 구성되었지만, 입력 신호에서의 속삭임은 고성의 속삭임의 형태로도 사용가능하다. 속삭임 음성의 특징은, 속삭임 음성이 만들어지는 방법으로부터 생기는 음향적 특징, 및 정상 음성과 비교되는 스펙트럼 특징과 관련해서 고려될 수 있다. 따라서, 속삭임 음성인식은 정상음성인식과 구분되어 이루어질 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성인식장치를 개략적으로 나타낸 블록도이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성인식장치는 음성신호 취득부(110), 신호분석부(120), 제 1 신호인식부(130), 제 2 신호인식부(140) 및 정보입력부(150)를 포함할 수 있다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 음성인식장치는 기설정된 프로그램에 따라 동작하는 컴퓨팅 장치이다. 음성인식 장치는 내장된 센서를 통해 음성 신호를 감지하고, 프로세서를 통해 감지한 음성신호에 대한 연산 처리가 가능한 단말을 의미한다. 이는 사용자단말로 지칭될 수 있고, 이러한 사용자 단말은 이동국(MS), 사용자 장비(UE; User Equipment), 사용자 터미널(UT; User Terminal), 무선 터미널, 액세스 터미널(AT), 터미널, 고정 또는 이동 가입자 유닛(Subscriber Unit), 가입자 스테이션(SS; Subscriber Station), 셀룰러 전화, 무선 기기(wireless device), 무선 통신 디바이스, 무선송수신유닛(WTRU; Wireless Transmit/Receive Unit), 이동 노드, 모바일, 모바일국, 개인 휴대 정보 단말(personal digital assistant; PDA), 스마트폰, 랩톱, 넷북, 개인용 컴퓨터, 무선 센서, 웨어러블 디바이스, 소비자 전자기기(CE) 또는 다른 용어들로서 지칭될 수 있다.

사용자 단말의 다양한 실시예들은 셀룰러 전화기, 무선 통신 기능을 가지는 스마트 폰, 무선 통신 기능을 가지는 개인 휴대용 단말기(PDA), 무선 모뎀, 무선 통신 기능을 가지는 휴대용 컴퓨터, 무선 통신 기능을 가지는 디지털 카메라와 같은 촬영장치, 무선 통신 기능을 가지는 게이밍 장치, 무선 통신 기능을 가지는 음악저장 및 재생 가전제품, 무선 인터넷 접속 및 브라우징이 가능한 인터넷 가전제품뿐만 아니라 그러한 기능들의 조합들을 통합하고 있는 휴대형 유닛 또는 단말기들을 포함할 수 있으나, 이에 한정되는 것은 아니다.

음성신호 취득부(110)는 사용자로부터 토출되는 음성을 취득하는 구성으로, 마이크(mic)를 포함할 수 있다.

신호분석부(120)는 음성신호 취득부(110)에서 취득된 음성을 분석하는 기능을 수행할 수 있다. 이는 마이크로프로세서(micro-processor)와 같은 하드웨어로 구현될 수 있다. 신호분석부(120)는 취득된 음성신호의 세기, 음역대 및/또는 주파수를 기반으로 취득된 음성이 사람의 정상음성인지, 속삭임과 관련된 음성인지 판단한다. 음성 인식 센서로 입력되는 소리의 세기(음량)를 감지할 수 있다.

신호분석부(120)는 취득된 음성신호의 음성세기를 감지하고 음성세기가 제 1 임계값을 초과하는지 여부를 기반으로 속삭임 음성인지 정상음성인지 판단할 수 있다. 경우에 따라, 음량의 변화를 음량변화 임계값과 비교하여 속삭임 음성인지 판단할 수 있다. 또는, 신호분석부(120)는 상기 취득된 음성신호의 음역대를 기반으로 속삭임음성인지 정상음성인지 구분할 수 있다. 속삭임 음성의 경우, 정상음성의 음역대보다 현저히 낮거나 또는 현저히 높을 수 있다. 따라서, 제 2 임계값을 하나 또는 복수 개 이상 설정하여 임계값보다 현저히 낮거나 높은 음역대의 음성신호를 속삭임 관련 신호로 판단할 수 있다. 또는, 특정 구간의 음역대를 특정하여 해당 구간 음역대를 속삭임과 관련된 음역대로 고려할 수 있다. 또한, 음성의 주파수 분석을 통해 양자를 구분할 수 있다. 다만, 이러한 음성신호의 세기, 음역대 및/또는 주파수 기반의 신호구분만으로는 그 구분이 아주 정확하진 않을 수 있기에, 이를 보조하기 위한 다양한 방안들이 본 발명에서 논의될 수 있다. 여기에는, 공기압을 통한 인식, 주변소음과의 관계, 신호 스펙트럼 분석, 사용자 프로파일(profile)을 활용하는 방안 등이 포함될 수 있다.

신호분석부(120)는 정상음성 신호와 속삭임 관련 음성 신호를 구분하고 나면, 정상음성 신호에 대해서는 제 1 신호인식부(130)를 호출하여 신호를 인식시키고, 속삭임 음성신호에 대해서는 제 2 신호인식부(140)를 호출하여 신호를 인식시킬 수 있다. 정상음성과 속삭임 관련 음성신호는 신호 특성과 인식을 위한 알고리즘이 다르기 때문에 서로 다른 모듈(130, 140)을 호출하여 각각 동작하도록 제어한다. 하나의 문장이나 하나의 연결된 언어에서, 정상음성으로 이야기하다가 속삭임 음성으로 이야기할 때, 신호분석부(120)는 상기와 같은 방식으로 신호특성 분석을 통해 각 구간별로 정상음성과 속삭임음성 구간을 구분 인식하여 제 1 신호인식부(130)로부터 제 2 신호인식부(140)가 활성화되도록 스위칭(switching)하거나 제 2 신호인식부(140)로부터 제 1 신호인식부(130)가 활성화되도록 스위칭할 수 있다. 즉, 하나의 연속된 언어에서 제 1 구간은 제 1 신호인식부(130)의 처리구간으로, 제 2 구간은 제 2 신호인식부(140)의 처리구간으로 식별한 후, 식별정보에 기반하여 제 1 신호인식부(130)와 제 2 신호인식부(140)를 적절히 호출할 수 있다. 또한, 복수 개의 프로세서를 구비하여 제 1 신호인식부(130)와 제 2 신호인식부(140)를 구현하는 경우, 양자는 실질적으로 거의 동시에 병렬적으로 신호인식작업을 수행할 수 있다.

제 1 신호인식부(130)는 일반적인 정상음성인식 알고리즘을 이용하여 음성신호를 텍스트 기반의 정보로 변환할 수 있다. 상기 정상음성인식 알고리즘은 MFCC(Mel Frequency Cepstral Coefficient) 알고리즘을 포함할 수 있다. 이는 입력된 신호에서 노이즈 및 배경소리를 제거하고 실제 유효소리를 추출한 후, 일정구간(short time)으로 나누어 해당 구간에 대한 스펙트럼 분석을 통해 유효음성을 추출하는 방식이다. 다만, 반드시 상기 알고리즘을 활용해야만 하는 것은 아니고, LPC(Linear Prediction Coefficients)와 LPCC(Linear Prediction Cepstral Coefficient) 방식도 활용가능하다.

제 2 신호인식부(140)는 속삭임 음성 데이터베이스(142)를 이용하여 해당 데이터베이스(142) 내에 포함된 다양한 속삭임 관련 음성모델을 활용할 수 있다. 속삭임 관련 음성모델을 활용한 속삭임 음성인식 알고리즘은 속삭임 음성신호로부터 음성을 재구성하는 알고리즘을 포함할 수 있다. 이는 입력신호의 표현을 형성하기 위해 입력신호를 분석하는 분석모듈, 입력신호의 스펙트럼을 조절하기 위해 입력신호의 표현을 변경하는 보강모듈(enhancement module) 및 입력신호의 변경된 표현으로부터 음성을 재구성하는 합성모듈을 포함할 수 있다. 이때, 입력신호의 스펙트럼의 조절에서는, 스펙트럼 내의 하나 이상의 포먼트(formant)에 대해 미리 정해진 스펙트럼 에너지 분포 및 진폭을 달성하기 위해, 하나 이상의 포먼트의 대역폭을 변경하는 알고리즘을 사용할 수 있다.

제 1 신호인식부(130) 및 제 2 신호인식부(140)는 각각 정상 음성인식 알고리즘과 속삭임 음성인식 알고리즘을 활용하여 취득된 음성신호를 텍스트 기반의 정보로 생성할 수 있다. 여기서 텍스트는, 문자, 숫자, 수식, 각종 기호 등을 포함할 수 있다.

본 발명의 실시예에 따르면, 제 1 신호인식부(130)와 제 2 신호인식부(140) 역시 하드웨어 프로세서로써 구현될 수 있고, 프로세서는 관련 기능을 수행하기 위한 명령어를 기반으로 프로그래밍되어있을 수 있다. 이때, 신호분석부(120), 제 1 신호인식부(130) 및 제 2 신호인식부(140)는 하나의 프로세서 내의 각각의 기능블록으로 구현될 수 있고, 복수 개의 프로세서로 구현될 수도 있다.

정보 입력부(150)는 제 1 신호인식부(130) 및 제 2 신호인식부(140)에서 인식된 텍스트 기반의 정보를 디스플레이부(160)를 통해 표시할 수 있다. 그리고는, 변환된 문자를 명령어 데이터베이스(170)와 매칭하여 명령어 정보를 생성하여 장치에 입력한다. 명령어 변환을 위해 정보입력부(150)는 상기 텍스트 기반의 정보를 명령어로 변환하는 명령어 변환부(미도시) 및 변환된 명령어를 입력하는 명령어 입력부(미도시)를 포함할 수 있다. 장치는 정보 입력부(150)에서 생성한 명령어대로 동작을 수행할 수 있다. 예컨대, "xx에게 전화걸어"라는 명령어에 대해서, 문장 구조를 파악하여 "전화걸어"라는 용어에 대해 통화 송신을 준비하고, "xx"라는 명령어를 통해 전화걸 대상을 찾아 "xx"라는 기저장된 연락처에게 전화를 거는 동작을 수행하도록 한다. 명령어와 제어동작의 매칭은 미리 프로그래밍되어 있을 수 있다.

이때, 속삭임 음성인식의 경우, 인식률이 매우 높지 않을 수 있으므로 잘못된 명령어 입력을 방지하기 위해, 이를 수정하는 알고리즘을 추가할 수 있다. 이는 음성인식 단계에서 텍스트 정보를 수정하는 형태로 구현될 수 있고, 또는 텍스트에서 변환된 명령어를 수정하는 형태로 구현될 수도 있다. 예컨대, 사용자는 디스플레이부(160)를 통해 표시되는 음성인식 및/또는 속삭임 인식된 문자의 내용을 보고 수정하고자 하는 부분이 있을 때, 사용자 인터페이스(180)(예컨대, 키보드, 마우스, 터치패드 등)를 이용하여 텍스트 입력을 수행할 수 있고, 이를 기반으로 인식된 문자의 내용을 변경할 수 있다. 이 경우, 정보입력부(150)는 변경된 문자 내용을 기반으로 명령어 데이터베이스(170)와 관련 명령어를 검색 및 조회 작업을 거쳐 대응되는 명령어로 변환할 수 있다.

도 2는 본 발명의 일 실시예에 따른 음성인식장치가 제 1 신호인식부 및 제 2 신호인식부를 호출하여 정상음성 및 속삭임음성을 인식하는 과정을 구체적으로 나타낸 흐름도이다.

도 2를 참조하면, 음성신호 취득부는 음성신호를 취득한다(S210). 취득되는 음성신호는 사용자로부터 토출되는 음성일 수 있다. 취득된 음성신호는 신호분석부에 제공되고, 신호분석부는 취득된 음성신호의 크기를 제 1 임계값과 비교한다(S220). 이때, 제 1 임계값보다 큰 신호는 정상음성신호로 간주되어 제 1 신호인식부로 제공될 수 있다. 세기 비교 이후에는, 취득된 음성신호의 음역대를 제 2 임계값과 비교한다(S230). 이때, 음역대가 제 2 임계값보다 높으면 정상음성신호로 간주되어 제 1 신호인식부로 제공될 수 있고, 제 2 임계값보다 낮은 음성신호는 속삭임 관련 음성신호로 간주될 수 있다. 다만, 위와 같이 일괄적으로 판단되어야 하는 것은 아니고, 음성세기가 작음에도 제 3 임계값보다 높은 음역대의 신호는 고성의 속삭임으로 판단하여 이 역시 속삭임 음성신호로 인식할 수 있다. 또는 복수 임계값을 통해 구간을 특정하여 속삭임 음성신호로 인식할 수도 있다.

세기 및 음역대 비교 과정(S220, S230)은 선후관계를 고려할 필요가 없을 수 있다.

세기 및 음역대 비교 과정(S220, S230)을 통해 속삭임 음성으로 구분된 신호(예컨대, 세기도 작고 음역대로 낮은 신호)에 대해서는, 신호분석부가 제 2 신호인식부를 호출하여(S240), 제 2 신호인식부에서 신호를 인식하도록 제어한다(S250). 반대로, 세기 및 음역대 비교 과정(S220, S230)을 통해 정상음성으로 구분된 신호(예컨대, 세기가 크거나 음역대가 높은 신호)에 대해서는, 신호분석부가 제 1 신호인식부를 호출하여(S245), 제 1 신호인식부에서 신호를 인식하도록 제어한다(S255).

본 발명의 다른 실시예에 따르면, 음성의 세기 및 음역대를 임계값과 직접 비교하는 것뿐만 아니라, 음성 세기의 변화 및 음역대(또는 주파수)의 변화량을 세기변화 임계값 및 음역대변화 임계값(또는 주파수변화 임계값)과 비교하는 방식을 통해 속삭임 관련 신호와 정상음성신호로 구분할 수 있다.

상기와 같은 방법을 통해 제 1 신호인식부 및 제 2 신호인식부로 각 음성신호가 할당되면, 제 1 신호인식부 및 제 2 신호인식부는 각 모듈로 제공된 신호를 텍스트 기반의 정보로 변환할 수 있다(S260).

도 3은 본 발명의 일 실시예에 따른 음성인식장치의 기압센서를 기반으로 하는 속삭임 음성인식을 설명하기 위한 개념도이다.

도 3을 참조하면, 사용자 단말은 사용자가 속삭임 음성을 표현하기 위해 단말에 가까이 근접하여 이야기함을 감지할 수 있다. 이때, 사용자의 근접에 따라 이야기와 함께 나오는 입김의 세기도 커지게 된다. 즉, 정상음성신호를 표출할 때와 속삭임음성신호를 표출할 때 사용자가 사용자 단말에 제공하는 입김의 세기는 현저히 변할 수 있다.

본 발명의 실시예에 따른 음성인식장치(사용자 단말)는 공기의 흐름 및/또는 압력을 감지하는 기압센서를 더 포함할 수 있다. 이는 마이크에 근접하여 배치되는 것이 바람직하다. 예컨대, 기압센서는 마이크로부터 2cm 반경 내에 배치되는 것이 바림직할 수 있다. 이를 통해, 속삭임 행위를 위해 더 강해진 입김의 세기변화를 감지하여 속삭임행위로 규정할 수 있다. 즉, 기압의 세기 및/또는 기압세기의 변화량에 대한 임계값을 설정하여 해당 임계값보다 큰 세기 및/또는 세기변화량이 감지될 때, 속삭임 음성신호라고 판단하는 것을 고려할 수 있다.

본 발명의 일 실시예에 따르면, 음성의 세기, 음역대, 주파수 및/또는 기압의 세기뿐만 아니라, 다른 팩터들도 속삭임 음성으로의 구분을 위한 기준으로 사용될 수 있다. 상기 다른 팩터들에는, 사용자의 손날 터치를 감지하기 위해 단말의 특정영역에 대한 (예컨대, 압력센서를 활용한) 터치감지, 광량센서를 활용한 광량변화 감지 등이 포함될 수 있다. 이외에도, 열, 광, 온도와 같은 팩터도 광 센서, 온도센서, 압력센서 등을 통해 활용할 수 있고, 다수의 팩터들 중 임의의 둘 이상의 조합이 속삭임 구분을 위해 활용될 수 있다.

도 4a 및 도 4b는 본 발명의 일 실시예에 따른 음성인식장치의 속삭임 인식을 위한 임계값의 가변가능성을 나타낸 개념도이다.

도 4a를 참조하면, 음성세기 및/또는 음역대(또는 주파수) 관련 임계값은 주변의 소음상태에 따라 변화될 수 있다. 이는 사용자 단말의 설정 기능을 통해 변경가능한 부분인데, 주변소음상태에 따른 임계값 변화를 활용할 수도 있고 그렇지 않을 수도 있다. 다만, 임계값 변화를 활용하는 경우, 주변 소음이 거의 없을 때, 예컨대, 도서관과 같은 환경에서는 사용자가 일반 상황보다 더 작은 소리의 속삭임 음성을 낼 가능성이 많으므로, 평소보다 더 적은 음성신호도 속삭임으로 간주하는 것이 바람직할 수 있다. 이에 주변의 소리 크기(dB)에 비례하여 임계값을 변경하도록 설정할 수 있다. 이를 위해 주변소리 측정을 위한 소음 감지 센서가 장치 내에 추가적으로 구성될 수 있다. 도 4a의 실시예에서는, 주변소음이 50dB일 때는, 속삭임 구분을 위한 음성세기/음역대 임계값이 40(예컨대, dB)이였는데, 주변소음이 0dB 일 때는, 상기 임계값이 20까지 작아지도록 설정될 수 있다.

도 4b를 참조하면, 장치는 음성세기 및/또는 음역대(또는 주파수)와 관련된 임계값을 사용자의 음성 특성에 따라 가변할 수 있다. 이때, 장치는 적어도 하나의 사용자에 대한 음성특성과 관련된 프로파일을 보유하고 있을 수 있다. 즉, 제 1 사용자에 대한 제 1 음성프로파일과 제 2 사용자에 대한 제 2 음성 프로파일을 가지고 있을 수 있다. 도 4b의 실시예에서는, 특정 사용자에 대한 음성프로파일을 사용하지 않지 않고 디폴트(default) 상태에서 속삭임 구분을 위한 판단이 수행되는 경우, 15(dB)의 임계값이 사용될 수 있는데, 제 1 사용자의 음성프로파일을 사용하는 경우 30, 제 2 사용자의 음성프로파일을 사용하는 경우 45의 임계값이 사용되어 서로 다른 임계값이 사용될 수 있다. 즉, 특정 사용자에 대응되는 임계값이 사용될 수 있다.

상기 음성 프로파일들은 사용자 프로파일 입력을 위한 모드에서 사용자가 정상음성으로 내는 음성신호와 속삭임으로 내는 음성신호를 각각 추출한 후, 해당 음성에 대한 프로파일 분석을 통해 이루어질 수 있다. 또는, 정상음성신호 또는 속삭임음성 신호 하나만을 추출하여 분석이 수행된 후, 프로파일이 생성될 수도 있다. 기본적으로 고음을 가진 사용자에게는 보다 높은 음역대의 임계값이 설정되는 것이 바람직할 수 있기 때문에, 사전에 사용자별 음성신호 분석을 통해 복수 개의 프로파일을 저장하고 있다가, 속삭임과 관련된 음성이 감지되는 경우, 해당 음성신호 분석을 통해 기저장된 사용자와 매칭을 수행하고 매칭에 따른 임계값을 불러와서 속삭임여부를 판단할 수 있는 것이다. 이러한 프로파일 기반의 임계값 변경은 사용할 수도 있고, 그렇지 않을 수도 있다. 또는, 음성신호 분석을 통한 매칭을 사용하지 않고, 사용자가 미리 수동으로 제 1 사용자의 프로파일을 활용하는 모드로 설정하고 속삭임 여부 판단이 이루어지도록 할 수도 있다.

본 발명의 실시예에 따르면, 속삭임과 정상음성 구분을 통한 음성인식은 음성인식 모드를 수동으로 활성화하여 실행될 수도 있고, 통화 중이 아닌 상황에서 자동으로 활성화되도록 설정해 놓고 사용되도록 할 수도 있다.

도 5는 본 발명의 일 실시예에 따른 음성인식장치가 인식한 속삭임 관련 텍스트를 수정하는 모드를 나타낸 개념도이다.

도 5의 좌측 도면을 참조하면, 장치는 제 1 신호인식부 및/또는 제 2 신호인식부를 통해 인식된 텍스트 기반의 정보를 디스플레이부를 통해 표시할 수 있다. 이때, 사용자는 장치에서 음성인식된 텍스트 기반 정보와 자신이 실제 입력한 정보의 동일성 여부를 따질 수 있고, 잘못된 입력을 바로잡을 수 있다. 즉, 텍스트 수정을 위한 아이콘(510)을 텍스트 기반의 정보와 함께 표시하여 사용자가 해당 아이콘(510)을 클릭 또는 터치하는 경우, 인식된 정보를 수정할 수 있도록 제어한다. 특히, 속삭임 기반의 인식은 인식률이 정상음성 인식률보다 떨어질 수 있기 때문에, 텍스트 수정 기능의 활용이 보다 높을 수 있다. 이를 위해, 본 발명의 실시예에 따르면, 정상음성 인식의 경우는 텍스트 수정 기능이 활성화되지 않도록 하고, 속삭임 음성인식의 경우에만 텍스트 수정기능이 활성화되도록 할 수 있다. 다만, 무조건 그렇게 해야 하는 것은 아니다.

도 5의 우측하단 도면에서, 사용자는 디스플레이된 음성인식 정보로 "김이사님께 문자 걸어줘"라고 인식된 것을 확인할 수 있다. 이때, "문자"라는 표현(520)이 잘못됐다고 인식할 수 있고, 이에 대응하여 해당 부분을 수정할 수 있다. 이때, 아이콘(510)을 누르면, 음성명령어 변환을 위해 키보드와 같은 사용자 인터페이스가 표시될 수 있고, 사용자 인터페이스를 통한 문자 입력을 통해 해당 문구(520)를 "전화"와 같은 올바른 표현으로 수정할 수 있다.

도 5의 우측 하단 도면을 참조하면, 장치는 수정되어야 할 문구 부분을 제 1 표시(530) 및 제 2 표시(532)를 통해 특정할 수 있다. 즉, 수정되어야 할 문구의 시작부분은 제 1 표시(530)로 수정되어야 할 문구의 종료부분은 제 2 표시(532)를 이용하여 특정할 수 있다. 그리고는, 장치는 해당 부분에 대해서만 음성인식을 재활용하여 수정하도록 제어할 수 있다. 즉, 사용자는 인식된 텍스트 정보 중 일부를 특정한 후, 특정된 부분에 해당되는 용어를 재표출함으로써 해당 부분의 문구가 수정되도록 할 수 있다. 도 5의 우하단 실시예에서는, "김이사님" 부분을 특정한 후, "이사장님"이라고 속삭이거나 정상음성으로 표출하면, 장치는 이를 다시 입력으로 받아들여, 속삭임 및 정상음성으로 구분한 후, 해당 부분을 "이사장님"으로 수정할 수 있다. 그리고는, 장치는 "인식 완료" 아이콘을 표시하여 해당 부분 클릭시 음성인식이 정확하게 완료되었다고 판단하게 된다.

상기한 바와 같은 음성인식된 텍스트 정보 변경은 정보입력부에서 변환된 명령어에도 유사하게 적용될 수 있다. 즉, 음성인식된 텍스트 정보를 명령어로 변환한 후에도 명령어 수정이 이루어질 수 있다.

본 발명의 다른 실시예에 따르면, 제 1 신호인식부에서의 정상음성인식 알고리즘과 제 2 신호인식부에서의 속삭임 음성인식 알고리즘의 정확도를 높이기 위해, 취득된 음성신호와 수정된 텍스트 정보 또는 수정없이 정확히 인식된 텍스트 정보를 훈련데이터 셋으로 하여 CNN(Convolutional Neural Network) 또는 RNN(Recurrent Neural Network)과 같은 딥 러닝(Deep Learning) 알고리즘을 실행시킬 수 있다. 즉, (취득음성신호, 텍스트 정보)를 훈련데이터 셋으로 생성하여 매 취득된 음성신호에 대해 학습데이터화하여 정상음성인식 알고리즘 및/또는 속삭임음성인식 알고리즘을 교육시킬 수 있다. 또한, 상기 (취득음성신호, 텍스트 정보) 셋 중 일부는 검증을 위한 데이터 셋으로, 또 다른 일부는 테스트용 데이터셋으로 생성하여 교육을 시킬 수 있다. 더욱이, 취득된 음성신호를 기저장된 사용자 프로파일과 대조하여, 사용자를 식별함으로써, 특정사용자에 특화된 학습이 이루어지도록 할 수 있다. 예컨대, (사용자 1 취득음성신호, 텍스트 정보(수정완료 또는 정확히 인식된 것))을 훈련데이터로 사용자 1에 대한 정상 및/또는 속삭임 음성인식 알고리즘의 기계학습이 가능하다.

도 6은 본 발명의 일 실시예에 따른 음성인식장치의 명령어 모델 데이터베이스를 나타낸 블록도이다. 도 6에 도시된 바와 같이, 본 발명의 일 실시예에 따른 명령어 모델 데이터베이스(600)는 중요 단어 모델(610)과 비중요단어 모델(620)을 포함할 수 있다.

도 6을 참조하면, 장치는 음성인식된 텍스트 정보를 명령어 모델을 이용하여 명령어로 변환할 수 있다. 이때, 명령어 모델은 중요단어 모델(610)과 비중요단어 모델(620)을 포함할 수 있는데, 여기서 중요단어는 장치가 단말에서의 제어동작을 수행함에 있어서 중요한 요소로 작용하는 단어를 의미할 수 있다. 중요단어에는 전화나 문자 등의 대상이 될 수 있는 사람이름, 행위 관련된 용어들(예컨대, 전화, 문자, (카카오 톡과 같은) 메시저 서비스 등), 정보검색과 관련된 용어들이 포함될 수 있다. 이러한 단어들을 특정하여 음성인식된 텍스트 정보로부터 변환된 명령어를 표시할 때, 중요단어가 사용자의 눈에 띌 수 있도록 시각화하는 것이 바람직할 수 있다.

비중요단어에는, 조사, 부사, 의태어/의성어와 같이 잘못된 명령어로써 입력되어도 단말에서의 동작에 크게 영향을 미치지 않는 단어를 포함한다.

도 7은 도 6의 명령어 모델 데이터베이스를 통해 생성된 명령어를 디스플레이부에 표시한 화면을 나타낸 도면이다.

도 7을 참조하면, 전술한 바와 같이, 음성인식된 텍스트 정보에서 변환된 명령어도 디스플레이부를 통해 표시될 수 있다. 이때, 중요단어와 비중요단어를 구분한 명령어 모델 데이터베이스를 통해 생성된 명령어에서도 수정작업이 이루어질 수 있다. 표시되는 명령어는 중요단어와 비중요단어가 구분되어 표시될 수 있다. 예컨대, "김이사님께 전화걸어줘"에서, 사람이름을 나타내는 "김이사님"(710)과 제어동작과 관련된 "전화"(712)는 중요단어로써 굵은 글씨체, 다른 색상 및/또는 밑줄을 통해 비중요단어와 구분되어 표시될 수 있다. 그리고는, 명령어 수정 아이콘(714)을 클릭하여 중요단어가 구분된 명령어를 수정할 수 있다. 이때, 명령어 수정은 문자입력 및/또는 음성재입력을 통해 이루어질 수 있다. 본 발명의 실시예에 따르면, 중요단어를 중심으로 수정이 이루어지도록 명령어 수정 아이콘(714) 클릭에 응답하여 중요단어(710, 712)의 위치로 명령어 수정을 위한 커서가 이동할 수 있다. 즉, 수정 아이콘(714) 클릭시, 1차로 "김이사님"(710)이 수정 대상 문자로 특정될 수 있고, 커서 이동 입력에 응답하여 2차로 바로 "전화"(712)로 수정대상 문자가 특정될 수 있다. 이는 중요단어 단위로 수정을 위한 문자특정이 바로 이루어지도록 할 수 있다.

본 발명의 실시예에 따르면, 신호분석부에서 취득된 음성신호를 속삭임 음성신호로 인식했을 때, 주변소음이 적고 타인의 눈에 최대한 띄지 않아야 하는 환경일 가능성이 높다. 따라서, 이때, 사용자의 모드 설정에 따라 자동으로 단말로부터 출력되는 음성부분을 특정 임계값 이하로 줄이는 제어동작, 단말의 출력 광량을 줄이는 제어 동작이 단독 또는 조합되어 연계되도록 할 수 있다.

도 8은 본 발명의 일 실시예에 따른 음성인식장치가 통화 중에 속삭임 모드로 음성을 인식할 때의 처리방법을 설명하기 위한 개념도이다.

도 8을 참조하면, 본 발명의 음성인식장치는 속삭임 음성과 정상음성으로 구분하는 기능이 통화 중이 아닌 상황에서 명령어 입력으로 활성화되는 것뿐만 아니라 통화 중인 상황에서 활성화될 수 있다. 이 경우, 입력된 음성신호는 텍스트 기반의 신호로 변환되는 것뿐만 아니라 특수한 형태의 음성신호로 변환될 수 있다. 정상음성신호는 음성인식률이 좋기 때문에, 통화중인 경우에는 활성화되지 않도록 하고, 통화 중인 경우, 속삭임 음성신호만 인식되도록 할 수 있다. 즉, 제 2 신호인식부만 활성화되어 인식된 속삭임 음성신호를 기반으로 증폭된 음성신호를 생성할 수 있다. 이때, 소리의 증폭만이 아니라 사용자의 프로파일에 맞는 정상음성신호로 변경할 수 있다. 앞서 설명한 바와 같이, 장치는 복수 개의 사용자에 대한 정상 및/또는 속삭임 음성프로파일을 보유하고 있을 수 있다. 이때, 취득된 음성신호를 분석하여 특정 사용자로 식별하고 나면, 해당 사용자의 정상음성 프로파일을 가져와서, 제 2 신호인식부에서 인식한 정보를 기반으로 상기 사용자의 정상음성 프로파일을 덧씌위서 음성신호를 가공할 수 있다. 즉, 통화상대방 입장에서는 속삭임 음성통화신호는 잘 안들릴 수 있기 때문에, 속삭임 음성신호로 사용자가 이야기하더라도, 일정 크기의 정상음성신호로 변환하되, 사용자의 정상음성신호와 동일 또는 유사하게 변환하여 통화상대방 단말로 전달되기 때문에, 대화에 불편함을 최소화할 수 있는 것이다.

또한, 본 발명의 실시예에 따르면, 통화 중인 경우, 속삭임 음성인식에 대해 정상음성신호로 변환함에 있어서, 속삭임 음성신호의 특성에 따라 그에 대응되는 정상음성신호로 변환할 수 있다. 예컨대, 입력된 속삭임 음성신호의 음역대가 평균 속삭임 음성신호의 음역대보다 다소 높은 경우, 음역대가 다소 높게 형성된 기저장된 제 1 정상음성 프로파일에 기반한 제 1 정상음성신호로 변환될 수 있다. 반대로, 입력된 속삭임 음성신호의 음역대가 평균보다 낮은 경우, 음역대가 다소 낮게 형성된 정상음성 프로파일에 기반한 제 2 정상음성신호로 변환될 수 있다. 속삭임 음성신호의 특성은 음성의 크기, 음역대, 발음의 길이(말이 빠른지 느린지)를 기반으로 기저장된 복수 개의 임계값들 중 적어도 하나와 비교함으로써 구분될 수 있고, 각 특성에 대응되는 정상음성 프로파일을 보유하고 있다가 해당되는 정상음성 프로파일을 추출하여 적절한 정상음성신호로 변환할 수 있다. 이러한 통화 중 음성변환모드는 사용자 설정에 따라 사용할 수도 있고, 사용하지 않을 수 있으며, 다양한 음성프로파일의 고려 또한 사용자 설정에 따라 사용여부가 결정된다. 예컨대, 디폴트로 설정된 하나의 정상음성 프로파일만을 사용하여 속삭임 음성신호의 특성 고려없이 무조건 특정 정상음성신호로 변환되도록 할 수 있다. 다만, 이 경우, 사용자의 통화 음성과 괴리가 있어 통화상대방에게 부자연스럽게 들릴 수 있는 문제가 있다.

도 9는 본 발명의 다른 실시예에 따른 음성인식장치를 개략적으로 나타낸 블록도이다. 도 9에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 음성인식장치는 음성신호 취득부(910), 신호분석부(920), 제 1 신호인식부(930), 제 2 신호인식부(940) 및 신호변환부(950)를 포함할 수 있다.

도 9를 참조하면, 음성신호 취득부(910), 신호분석부(920), 제 1 신호인식부(930), 제 2 신호인식부(940)는 도 1의 음성신호 취득부(110), 신호분석부(120), 제 1 신호인식부(130), 제 2 신호인식부(140)와 동일 또는 유사한 기능을 수행할 수 있다(도 1 관련 설명 참조).

신호변환부(950)는 현재 장치가 통화중인지 여부를 판단하여 제 1 신호인식부(930) 및 제 2 신호인식부(940)에서 인식한 정보를 텍스트 기반의 명령어 신호 또는 정상음성신호로 변환할 수 있다. 예컨대, 현재 통화 중이 아닌 경우, 음성신호 취득부(910)에서 취득한 신호는 통화음성신호가 아닌 음성명령을 위한 신호로 판단하여, 제 1 신호인식부(930) 및 제 2 신호인식부(940)를 통해 인식된 정보를 텍스트 기반의 명령어 정보로 변환할 수 있다. 반대로, 현재 통화중에 속삭임과 관련된 음성이 인식된 경우, 이 경우는 제 1 신호인식부(930)는 이미 정상음성신호를 출력하고 있기에 적절히 비활성화시킬 수 있다. 제 2 신호인식부(940)만이 활성화되어 속삭임 음성신호로 감지된 경우, 제 2 신호인식부(940)에서 인식된 정보는 정상음성신호로 변환될 수 있다. 이때, 디폴트로 설정된 정상음성신호를 활용하는 방식, 사용자 프로파일을 활용하는 방식 및/또는 속삭임 음성특성에 대응되는 정상음성 프로파일에 따른 정상음성신호로 변환하는 방식을 활용할 수 있다.

본 발명의 또 다른 실시예에 따르면, 음성인식에 따른 명령어 실행 또는 정상통화음성 변환을 위한 방식에, 입모양 판단모드도 추가하여 구성될 수 있다. 입모양 판단모드는 "입모양 인식모드"로 사용자가 설정을 변경한 경우, 구현되는 모드로써, 단말에 포함된 카메라를 이용하여 사용자의 입모양을 기반으로 음성을 인식하는 모드이다. 즉, 동그란 입모양은 "ㅗ"의 모음이 발음되는 것으로 인식하고, 앞글자와 뒷글자와의 관계에 따라 자음을 유추하여 인식할 수 있다. 이를 위한 알고리즘도 별도로 코딩되어 제 3 신호인식부(미도시)에서 실행될 수 있다. 또한, 이러한 입모양 인식 모드와 관련하여, 장치는 기저장된 기본 입모양 인식알고리즘에 더해, 사용자가 말하는 동영상(예컨대, 영상통화 또는 동영상 파일)에서 사용자에게 특화된 입모양 동작 특성을 추출하여 보다 사용자에게 최적화된 입모양 인식이 가능하도록 할 수 있다.

이상 도면 및 실시예를 참조하여 설명하였지만, 본 발명의 보호범위가 상기 도면 또는 실시예에 의해 한정되는 것을 의미하지는 않으며 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

음성신호를 취득하는 신호 취득부;
상기 취득된 음성신호를 분석하여 사람의 정상음성과 연관된 제 1 신호인지 속삭임과 연관된 제 2 신호인지 판단하여 제 1 신호인식부 및 제 2 신호인식부 중 적어도 하나를 호출하는 신호분석부;
상기 신호분석부에서의 호출에 응답하여, 제 1 음성인식 알고리즘에 따라 상기 제 1 신호를 인식하는 제 1 신호인식부; 및
상기 신호분석부에서의 호출에 응답하여, 제 2 음성인식 알고리즘에 따라 상기 제 2 신호를 인식하는 제 2 신호 인식부를 포함하는 음성인식장치.
제 1 항에 있어서,
상기 제 1 신호인식부 및 상기 제 2 신호인식부 중 적어도 하나에서 인식한 텍스트 기반의 정보를 기반으로 명령어 정보를 생성하여 입력하는 정보입력부를 더 포함하는 음성인식장치.
제 2 항에 있어서, 상기 정보입력부는
상기 제 1 신호인식부 및 상기 제 2 신호인식부 중 적어도 하나에서 인식한 텍스트 기반의 정보를 명령어로 변환하는 명령어 변환부; 및
상기 변환된 명령어를 입력하는 명령어 입력부를 포함하는 음성인식장치.
제 3 항에 있어서,
상기 명령어 변환부는 기저장된 명령어 모델을 이용하여 명령어로 변환하는 음성인식장치.
제 2 항에 있어서,
상기 인식한 텍스트 정보는 디스플레이부를 통해 표시되는 음성인식장치.
제 5 항에 있어서,
상기 디스플레이부를 통해 표시되는 텍스트 정보 내에 포함된 소정 문자를 사용자 인터페이스를 통한 문자 입력을 통해 수정하는 음성인식장치.
제 5 항에 있어서,
상기 디스플레이부를 통해 표시되는 텍스트 정보 내에 포함된 소정 문자를 특정하여 사용자 인터페이스를 통한 음성 재입력을 통해 수정하는 음성인식장치.
제 5 항에 있어서,
상기 디스플레이부를 통해 표시되는 텍스트 주변에 텍스트 수정을 위한 아이콘을 함께 표시하는 음성인식장치.
제 4 항에 있어서,
상기 명령어 모델은 중요단어와 비중요단어를 구분하여 이루어지되,
상기 변환된 명령어를 표시할 때, 상기 중요단어와 비중요단어를 구분하여 표시하는 음성인식장치.
제 2 항에 있어서,
상기 정보입력부는 통화 중이 아닌 상태에 자동으로 활성화되는 음성인식장치.
제 1 항에 있어서,
상기 신호분석부는 상기 취득된 음성신호의 세기 및 음역대 중 적어도 하나를 분석하여 상기 제 1 신호인지 상기 제 2 신호인지 판단하는 음성인식장치.
제 11 항에 있어서, 상기 신호분석부는
상기 취득된 음성신호의 세기가 제 1 임계값보다 큰지 여부 및 상기 취득된 음성신호의 음역대가 제 2 임계값보다 큰지 여부 중 적어도 하나를 기반으로 상기 제 1 신호인지 상기 제 2 신호인지 판단하는 음성인식장치.
제 12 항에 있어서,
상기 제 1 임계값 및 상기 제 2 임계값 중 적어도 하나는 상기 음성인식장치 주변의 소음의 크기에 따라 가변되는 음성인식장치.
제 12 항에 있어서,
상기 제 1 임계값 및 상기 제 2 임계값 중 적어도 하나는 기저장된 사용자 음성 프로파일(profile)을 기반으로 설정되는 음성인식장치.
제 1 항에 있어서,
상기 제 2 신호인식부는 속삭임 음성신호 인식과 연관된 음성모델을 이용하여 상기 제 2 신호를 인식하는 음성인식장치.
제 1 항에 있어서,
사용자로부터 토출되는 공기의 압력을 감지하는 기압센서를 더 포함하고,
상기 신호분석부는 상기 기압센서로부터의 압력값이 제 3 임계값보다 큰지 여부를 기반으로 상기 제 1 신호인지 상기 제 2 신호인지 판단하는 음성인식장치.
제 16 항에 있어서,
상기 기압센서는 상기 음성신호 취득부로부터 2cm 반경 내에 배치되는 음성인식장치.
제 1 항에 있어서,
상기 음성인식장치가 통화 중일 때, 상기 제 1 신호인식부를 비활성화시키고 상기 제 2 신호인식부만 활성화시키되,
상기 제 2 신호인식부에서 인식한 정보를 정상음성신호로 변환하는 신호 변환부를 더 포함하는 음성인식장치.
제 18 항에 있어서,
제 1 사용자의 정상음성신호 특성을 포함하는 제 1 사용자 음성신호 및 제 2 사용자의 정상음성신호 특성을 포함하는 제 2 사용자 음성신호를 보유하는 저장부를 더 포함하되,
상기 신호 변환부는 상기 취득된 음성신호가 상기 제 1 사용자 음성신호인지 상기 제 2 사용자 음성신호인지 판단하여 그에 대응되는 음성신호로 변환하는 음성인식장치.
제 18 항에 있어서,
상기 신호 변환부는 상기 취득된 음성신호의 특성에 대응되는 정상음성신호로 변환하는 음성인식장치.
제 1 항에 있어서,
상기 신호분석부는 하나의 연속된 언어에서 제 1 구간은 상기 제 1 신호인식부의 처리구간으로, 제 2 구간은 제 2 구간은 상기 제 2 신호인식부의 처리구간으로 식별하여 상기 제 1 신호인식부와 상기 제 2 신호인식부를 호출하는 음성인식장치.
제 21 항에 있어서,
상기 제 1 신호인식부는 제 1 프로세서로, 제 2 신호인식부는 제 2 프로세서로 구현되어, 실질적으로 동시에 병렬적으로 상기 하나의 연속된 언어의 제 1 구간과 제 2 구간에 대한 신호인식작업이 수행되는 음성인식장치.
음성신호를 취득하는 단계;
상기 취득된 음성신호를 분석하여 사람의 정상음성과 연관된 제 1 신호인지 속삭임과 연관된 제 2 신호인지 판단하여 제 1 신호인식부 및 제 2 신호인식부 중 적어도 하나를 호출하는 단계;
상기 신호분석부에서의 호출에 응답하여, 상기 제 1 신호인식부에서, 제 1 음성인식 알고리즘에 따라 상기 제 1 신호를 인식하는 단계; 및
상기 신호분석부에서의 호출에 응답하여, 상기 제 2 신호인식부에서, 제 2 음성인식 알고리즘에 따라 상기 제 2 신호를 인식하는 단계를 포함하는 음성인식방법.
음성신호를 취득하는 신호 취득부;
상기 취득된 음성신호를 분석하여 사람의 정상음성과 연관된 제 1 신호인지 속삭임과 연관된 제 2 신호인지 판단하여 제 1 신호인식부 및 제 2 신호인식부 중 적어도 하나를 호출하는 신호분석부;
상기 신호분석부에서의 호출에 응답하여, 제 1 음성인식 알고리즘에 따라 상기 제 1 신호를 인식하는 제 1 신호인식부; 및
상기 신호분석부에서의 호출에 응답하여, 제 2 음성인식 알고리즘에 따라 상기 제 2 신호를 인식하는 제 2 신호 인식부를 포함하되,
통화 중인지 여부를 기반으로 상기 제 1 신호인식부 및 상기 제 2 신호인식부 중 적어도 하나에서 인식한 정보를 텍스트 기반의 입력신호 또는 정상음성신호로 변환하는 신호 변환부를 더 포함하는 음성인식장치.
음성신호를 취득하는 단계;
상기 취득된 음성신호를 분석하여 사람의 정상음성과 연관된 제 1 신호인지 속삭임과 연관된 제 2 신호인지 판단하여 제 1 신호인식부 및 제 2 신호인식부 중 적어도 하나를 호출하는 단계;
상기 신호분석부에서의 호출에 응답하여, 상기 제 1 신호인식부에서, 제 1 음성인식 알고리즘에 따라 상기 제 1 신호를 인식하는 단계; 및
상기 신호분석부에서의 호출에 응답하여, 상기 제 2 신호인식부에서, 제 2 음성인식 알고리즘에 따라 상기 제 2 신호를 인식하는 단계를 포함하되,
통화 중인지 여부를 기반으로 상기 제 1 신호인식부 및 상기 제 2 신호인식부 중 적어도 하나로부터 획득된 신호를 텍스트 기반의 입력신호 또는 정상음성신호로 변환하는 단계를 더 포함하는 음성인식방법.