KR101042499B1 - 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법 - Google Patents

음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법 Download PDF

Info

Publication number
KR101042499B1
KR101042499B1 KR1020080103028A KR20080103028A KR101042499B1 KR 101042499 B1 KR101042499 B1 KR 101042499B1 KR 1020080103028 A KR1020080103028 A KR 1020080103028A KR 20080103028 A KR20080103028 A KR 20080103028A KR 101042499 B1 KR101042499 B1 KR 101042499B1
Authority
KR
South Korea
Prior art keywords
user
speech recognition
voice
voice recognition
evaluation
Prior art date
Application number
KR1020080103028A
Other languages
English (en)
Other versions
KR20100043822A (ko
Inventor
류창선
구명완
김재인
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020080103028A priority Critical patent/KR101042499B1/ko
Publication of KR20100043822A publication Critical patent/KR20100043822A/ko
Application granted granted Critical
Publication of KR101042499B1 publication Critical patent/KR101042499B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법에 관한 것으로서, 음성인식 결과에 대한 사용자 평가에 기초하여 발음 사전의 범위를 제한하여 음성인식 처리를 재수행함으로써, 저비용으로 음성인식 성능(음성인식의 신속성 및 성공률)을 현저히 향상시키고자 한다.
이를 위하여, 본 발명은, 음성인식 성능의 향상을 위한 음성인식 처리 장치에 있어서, 사용자로부터 음성인식을 위한 사용자 음성 또는 음성인식 결과에 대한 사용자 평가를 입력받기 위한 사용자 인터페이스 수단; 및 상기 사용자 평가에 따라 발음 사전의 범위를 제한하여 상기 발음 사전을 재정의해가면서 상기 입력된 사용자 음성에 대한 음성인식을 반복 수행하여, 해당 음성인식 결과를 상기 사용자에게 제공하기 위한 음성인식 수단을 포함한다.
Figure R1020080103028
음성인식, 음성인식 성능, 발음사전, 수정 발음사전, 인터액션, DTMF

Description

음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법{APPARATUS AND METHOD FOR PROCESSING SPEECH RECOGNITION TO IMPROVE SPEECH RECOGNITION PERFORMANCE}
본 발명은 음성인식 처리 기술 분야에 관한 것으로, 더욱 상세하게는 사용자와의 인터액션을 통하여 음성인식 처리를 수행함으로써 저비용으로 음성인식 성능을 현저히 향상시킬 수 있는, 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법에 관한 것이다.
음성인식의 편리성 및 필요성은 많은 사람이 공감을 하고 있는 것으로, 미래 10대 기술의 하나로 항상 소개되고 있으며, 이러한 음성인식의 성능 향상을 위해 많은 노력이 기울여지고 있다. 특히, 사용자 인터페이스를 통하여 음성인식 기능을 제공하는 음성인식 서비스에 적용하기 위한 음성인식 기술은 현재에도 계속적으로 발전되어 가고 있다.
하지만, 현재의 음성인식 기술은 시장에서 소비자가 원하는 수준의 서비스를 제공하는데 많은 어려움이 있다. 그 이유는 음성인식은 기본적으로 발음 사전에 기반하여 음성인식 대상에 대하여 음성인식을 수행하기 때문이다.
이를 상세히 설명하면, 서비스 시나리오에서 음성인식을 원하는 상태에서 사용자가 입력하는 음성이라는 아날로그 데이터를 음성인식 모듈 내에서 음성에 대해 디지털화한 데이터를 가지고 확률적 표현으로 변경한 후, 미리 훈련된 음소기반의 확률 값들과 주어진 발음사전에 기반한 음성인식 대상단어에 대한 확률 값들과 입력된 음성에 대한 확률 값들을 비교한다.
비교 결과, 발음 사전에서 확률적으로 가장 가까운 대상단어를 찾아 음성인식 결과로 출력한다. 즉, 음성인식은 확률적으로 접근하기 때문에, 0.0001% 라도 틀릴 확률이 있게 되고, 이는 서비스 품질이 달라진다는 것을 의미한다. 따라서 이러한 문제로 인해, 음성인식 기술이 날로 발전해가는 오늘날에도 음성인식의 한계는 존재하게 되는 것이다.
상기와 같은 문제는 단어기반 음성인식 서비스에 있어서 필수적으로 해결해야 하는 과제이다. 즉, 음성인식 기술의 한계가 존재하는 상황에서, 기존의 음성인식 방법을 통해 새로운 서비스를 개발하여 제공한다 해도, 결국에는 사용자의 요구를 만족시켜 주지 못하여 실패한 서비스가 되고 말 것이다.
도 1은 종래의 음성인식 서비스 방법에 대한 흐름도로서, 음성인식 처리 장치(음성인식 서버라 할 수도 있음)에서 수행되는 방법을 나타낸다.
종래의 음성인식 서비스는 도 1에 도시된 바와 같이, 먼저 서비스에 접속(전화 접속)한(100) 사용자에게 서비스에 대한 간단한 설명(서비스개요 안내 멘트 구동)을 한 후(102), 서비스 시나리오상의 특정 단계의 진행을 위한 음성 입력을 사용자에게 요구한다(104).
그에 따라, 사용자로부터 음성인식을 위한 사용자 음성을 입력받으면(106), 그 입력된 사용자 음성에 대하여 음성인식을 수행한다(108). 음성인식을 수행한 후에는 음성인식 결과를 해당 사용자에게 들려주며(110) 맞는지 틀리는지를 사용자에게 선택하게 한다(112).
음성인식 결과가 맞는지 여부를 확인한 결과(112), 음성인식 결과가 맞으면 음성인식 결과에 해당하는 서비스 시나리오를 계속 수행한다(114). 이와 달리, 만약 틀린 경우는 지금까지의 음성인식 실패 횟수가 예를 들어 3회가 되면 서비스 종료 멘트를 구동하여 사용자에게 들려준 후(116) 종료하지만, 음성인식 실패 횟수가 2회 이내의 경우에는 음성입력을 재요구하며(104), 이후의 과정이 반복 수행된다.
이와 같이 음성 재입력을 통한 음성인식 반복수행의 경우, 음성인식을 위한 도메인인 발음사전이 1만 단어였다면 반복 수행될 때마다 지속적으로 1만 단어 범위에서 음성인식을 수행한다. 결국 재시도에 따라 음성인식을 반복 수행하더라도, 음성 인식은 처음이나 두 번째나 세 번째나 똑같이 실패할 확률이 높다.
상기와 같은 종래 기술은 음성인식 결과에 대해 맞는지, 틀리는지를 확인하여 처음부터 음성인식을 다시 수행하기 때문에, 비록 음성 인식 처리를 여러 번 반복 수행하더라도 그 음성인식의 결과는 음성인식 처리 서버의 처리 능력(Computing Power)이나 발음사전의 크기 등에 좌우된다는 문제가 있다.
즉, 음성인식 처리 서버의 처리 능력이나 발음사전의 크기 등이 개선되지 않는 한, 반복 수행을 하더라도 음성인식 결과는 크게 달라지지 않을 것이다.
여기서, 음성인식 처리 서버의 처리 능력이나 발음사전의 크기는 음성인식 성능에 지대한 영향을 미치지만, 한번 구축된 후에는 이를 향상시키기 위한 작업에는 막대한 비용이 소요된다.
따라서 특히, 전국을 범위로 하여 서비스를 제공하는 통신 사업자(예를 들어, 주식회사 케이티)에게는 시스템 구축에 따른 비용을 줄이기 위해, 처리 능력이나 발음사전 크기의 확장 없이도 음성인식 성능을 향상시키는 방식이 절실히 요구되고 있다.
따라서 본 발명은 음성인식 처리 서버의 처리 능력(Computing Power)이나 발음사전 크기의 확장 없이도 음성인식 성능을 향상시킬 수 있는, 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 더욱 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 발명은 상기와 같은 목적을 달성하기 위하여, 사용자와의 인터액션을 통하여 음성인식 처리를 수행하는 것을 특징으로 한다.
즉, 본 발명은 음성인식 결과에 대한 사용자 평가에 기초하여 발음 사전의 범위를 제한하여 음성인식 처리를 재수행하는 것을 특징으로 한다.
더욱 구체적으로 본 발명은, 음성인식 성능의 향상을 위한 음성인식 처리 장치에 있어서, 사용자로부터 음성인식을 위한 사용자 음성 또는 음성인식 결과에 대한 사용자 평가를 입력받기 위한 사용자 인터페이스 수단; 및 상기 사용자 평가에 따라 발음 사전의 범위를 제한하여 상기 발음 사전을 재정의해가면서 상기 입력된 사용자 음성에 대한 음성인식을 반복 수행하여, 해당 음성인식 결과를 상기 사용자에게 제공하기 위한 음성인식 수단을 포함한다.
또한, 본 발명은, 음성인식 성능의 향상을 위한 음성인식 처리 방법에 있어서, 사용자로부터 음성인식을 위한 사용자 음성을 입력받아 음성인식을 수행하는 제1 음성인식 단계; 상기 사용자 음성에 대한 음성인식 결과를 상기 사용자에게 제공하여 사용자 평가를 받는 사용자평가 단계; 및 상기 사용자 평가에 따라 발음 사전의 범위를 제한하여 상기 발음 사전을 재정의한 후에 상기 사용자 음성에 대한 음성인식처리를 재수행하는 제2 음성인식 단계를 포함한다.
상기와 같은 발명은, 사용자와의 인터액션을 통하여 음성인식 처리를 수행함으로써 저비용으로 음성인식 성능을 현저히 향상시킬 수 있는 효과가 있다. 즉, 본 발명은 음성인식 결과에 대한 사용자 평가에 기초하여 발음 사전의 범위를 제한하여 음성인식 처리를 재수행함으로써 음성인식의 신속성과 정확성(성공률)을 현저히 향상시킬 수 있으며, 이로 인하여 소비자에게 더 나은 품질의 음성인식 서비스를 제공할 수 있는 효과가 있다.
또한, 본 발명은, 발음사전의 확장이나 처리 능력(Computing Power)의 확장 없이 기존 음성인식 시스템의 적은 수정만으로도 음성인식 성능을 현저히 증가시킬 수 있는 효과가 있으며, 이로 인하여 기존 음성인식 시스템의 성능 향상시킬 수 있을 뿐만 아니라 음성인식 인터페이스를 제공하는 신규 서비스의 개발을 활성화시킬 수 있는 효과가 있다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 더욱 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 2는 본 발명에 따른 음성인식 성능의 향상을 위한 음성인식 처리 장치(서버)의 일실시예 구성도이다.
본 발명에 따른 음성인식 처리 장치(서버)는 도 2에 도시된 바와 같이, 사용자 인터페이스부(221), 사용자음성 DB(222), 음성인식부(223), 최초 발음사전 DB(224), 및 수정 발음사전 DB(225)를 포함하여 이루어진다. 이하, 각각의 구성요소에 대하여 상세히 설명하기로 한다.
사용자 인터페이스부(221)는 전화망(21)을 통하여 접속한 사용자 단말(20)로부터 음성인식을 위한 사용자 음성을 입력받거나, 또는 사용자 단말(20)에게 각종 안내 멘트를 제공하고 그에 따라 음성인식 결과에 대한 평가를 입력받는 기능을 수행한다. 여기서, 사용자 단말은 유선전화기, 이동통신 단말기, 인터넷 전화기 등과 같이 사용자 음성을 전달할 수 있는 단말기를 말한다. 그리고 전화망(21)은 상기 사용자 단말(20)과 연결되어 사용자의 음성을 음성인식 처리 장치(서버)(22)에 전달할 수 있는 네트워크를 의미하며, 이에는 이동통신망, 공중전화망, IP망 등이 포함된다.
사용자음성 데이터베이스(DB)(222)는 사용자 인터페이스부(221)를 통하여 수신된 사용자 음성을 저장하며, 이렇게 사용자 음성을 저장하는 이유는 발음 사전을 재정의하여 음성인식을 재수행하는 경우에도 새로이 사용자 음성을 입력받지 않고 초기 입력된 사용자 음성을 사용하기 위함이다. 즉, 사용자 음성을 한번 입력하면, 음성인식 처리 장치(서버)는 그 입력된 사용자 음성에 대하여 발음사전을 재정의해가면서 수차례의 음성인식 과정을 반복적으로 수행한다.
음성인식부(223)는 사용자 인터페이스부(221)를 통하여 입력된 사용자 음성에 대하여 음성인식을 수행하여 해당 결과(음성인식 결과)를 제공하되, 사용자로부터 입력된 평가(음성인식 결과에 대한 평가)에 따라 발음 사전을 재정의하여 음성인식 처리를 재수행한다.
즉, 음성인식부(223)는 최초의 발음 사전(224)을 이용하여 사용자 음성에 대한 음성인식을 수행하고 그 결과를 사용자 단말(20)에 제공한다. 그에 대한 응답으로 사용자 단말이 음성 인식결과에 결과에 대한 평가(사용자 평가)를 전송하면, 음성인식부(223)는 전송받은 사용자 평가에 기초하여 발음 사전을 재정의하고 그 재정의 발음사전(이하, '수정 발음사전'이라 한다)(225)을 이용하여 음성인식을 재수행한다.
다음으로, 음성인식 결과에 대한 평가(사용자 평가) 방식을 설명하면, 사용자 평가는 음성인식 결과 중에서 정상적으로 인식된 음절 개수에 해당하는 숫자의 사용자 단말 버튼을 누름으로써 이루어진다. 즉, 사용자가 숫자 3의 버튼을 누르면, 이는 DTMF(Dual-Tone Multi-Frequency) 신호로 변환되어 음성인식 처리 장치(서버)(22)에 전달되는데, 음성인식부(223)는 이렇게 전달된 DTMF 신호를 통하여 음성인식 결과 중 "3개의 음절"은 정상적으로 음성인식이 이루어졌다고 판단하게 되는 것이다.
평가 방식은, 상기와 같은 버튼 입력에 의한 평가 방식에 한정되지 않고. 사용자가 "정상으로 인식된 음절 개수"를 직접 음성으로 말하는 방식(음성 입력에 의한 평가 방식)도 가능하다.
한편, 수정 발음 사전을 생성하는 과정을 설명하면, 음성인식부(223)는 사용자 평가의 대상이 되었던 음성인식 결과를 배제하고 그 사용자 평가가 나타내는 음절 개수(음성인식이 정상적으로 이루어진 음절 개수)까지의 글자를 포함하는 단어까지로 발음 사전의 범위를 재정의한다.
예를 들어, 사용자가 "홍길동"이라고 말한 경우, 음성인식부(223)는 최초의 발음 사전을 대상으로 음성인식을 수행한 후, 그 결과로 "홍길서"라고 음성으로 제공한다. 음성인식 결과를 들은 사용자가 숫자 2의 버튼을 누르면("홍길"까지는 정상적으로 인식되었기 때문임), 음성인식부(223)는 사용자 평가의 대상이 되었던 음성인식 결과("홍길서")를 배제하고, "홍길"이라는 단어로 시작하는 모든 단어(예를 들면, 홍길남, 홍길동, 홍길북 등)를 대상으로 한다. 이렇게 대상이 한정된 발음 사전이 수정 발음 사전이 되는 것이다.
도 3은 본 발명에 따른 음성인식 성능의 향상을 위한 음성인식 처리 방법에 대한 일실시예 흐름도로서, 도 2에 도시된 바와 같은 음성인식 처리 장치(서버)에서 수행되는 방법을 나타낸다.
먼저, 본 발명에 따른 음성인식 처리 방법에 대하여 개괄적으로 설명하기로 한다.
사용자가 음성인식을 위하여 입력한 사용자 음성에 대해 음성인식을 수행한 후 그 음성인식 결과에 대해 몇 번째까지 인식결과가 맞는지를 사용자에게 물어본다.
만약, 두 번째 음절까지 맞는 경우에 해당하여 사용자가 2번 버튼을 누르면, 음성인식 결과의 두 번째 음절까지 포함하는 단어를 발음사전에서 검색을 하여 그 검색된 내용(두 번째 음절까지 포함한 단어열)을 임시 발음사전(수정 발음사전)으로 재정의한다. 그리고 나서, 재정의된 발음사전(수정 발음사전)을 이용하여 기저장된 사용자 음성에 대해 음성인식을 수행한다.
음성인식을 재수행한 후 그 결과를 다시 사용자에게 들려주어 몇 번째까지의 음절이 맞는지를 확인하여, 음성인식 결과가 모두 맞은 경우에는 해당 메뉴로 점프(이동)하며, 만약 틀린 경우에는 그에 해당하는 서비스 루틴으로 점프(이동)한다.
구체적인 예를 들어, 본 발명을 설명하면 다음과 같다.
사용자가“미래기술연구소”라고 발화했다고 가정하자. 이때, 음성인식 결과가 “미래기술”이라고 나왔다고 한다면, 사용자는 4번 버튼을 누른다.
그러면, 음성인식 처리 장치에서는 만 단어의 발음사전에서“미래기술”을 시작으로 포함된 단어를 찾아 그 찾은 음성인식 대상단어를 대상으로 새로운 발음사전을 재정의한다.
그리고 나서, 그 재정의된 발음사전을 음성인식 엔진의 입력으로 하여 음성인식 엔진을 초기화한 후, 기저장되었던 사용자 음성을 음성인식 엔진의 입력으로 하여 음성인식을 재수행한다. 이 경우 사용자는 다시 음성입력을 할 필요가 없으며, 또한 음성인식 대상단어의 숫자가 획기적으로 감소하기 때문에 인식율이 현저히 향상될 수 있다.
이하, 본 발명에 따른 음성인식 처리 방법을 도 3을 참조하여 상세히 설명하기로 한다.
음성인식 처리 장치(22)는 전화 접속한(300) 사용자 단말에게 서비스에 대한 간단한 설명(서비스개요 안내 멘트 구동)을 한 후(302), 음성인식을 위한 음성 입력을 사용자에게 요구한다(304).
그에 따라, 사용자로부터 음성인식을 위한 사용자 음성을 입력받으면 음성인식 처리 장치(22)는 입력된 사용자 음성을 저장하고(306) 사용자 음성에 대하여 음성인식을 수행한다(308).
음성인식 처리 장치(22)는 음성인식을 수행한 후에는(308), 음성인식 결과를 해당 사용자에게 들려주면서 음성인식 결과가 맞는지 여부를 확인한다(310). 구체 적으로는 "음성인식 결과가 맞으면 #를 누르시고, 틀리면 별표(*)를 누르세요"와 같은 멘트를 제공한다.
사용자의 응답을 통해 음성인식 결과가 맞는지를 확인하여(312), 맞으면 해당 서비스 시나리오를 수행하고(314) 틀리면 지금까지의 음성인식 오류 횟수가 기준치(예를 들면, 4회)에 해당하는지를 확인한다(316).
음성인식 오류 횟수 확인 결과, 음성인식 오류 횟수가 4회 미만이면 음성 인식 결과에 대한 평가(상세 평가)를 유도하는 멘트("들은 멘트에서 몇 번째 음절까지 맞는지를 확인하여 맞는 음절 개수에 해당하는 버튼을 누르시오")를 제공한다(318). 실시예에 따라서는 음성인식 결과가 맞는지 여부를 확인하는 과정(312)과 사용자 평가를 유도하는 멘트 제공 과정(318)을 하나의 과정을 통하여 구현할 수도 있다. 즉, "음성인식 결과가 맞으면 #를 누르시고, 틀리는 경우에는 몇 번째 음절까지 맞는지를 확인하여 맞는 음절 개수에 해당하는 버튼을 누르시오"와 같은 안내 멘트를 사용자에게 들려주고 사용자 단말로부터 입력되는 상황에 따라 처리하면 된다. 만약, 사용자 단말이 입력한 DTMF 신호가 "0"을 나타내는 경우에는 음성인식이 전부 틀린 경우이므로 재입력을 받기 위하여 "304"로 피드백할 것이다.
사용자 평가를 유도하는 멘트를 들은 사용자는 음성인식 결과에 대하여 평가를 하게 되는데, 그 평가 방식에는 버튼 입력에 의한 평가 방식, 음성 입력에 의한 평가 방식 등이 있는데, 도 3과 관련해서는 버튼 입력에 의한 평가 방식을 예로 들어 설명하기로 한다.
음성인식 처리 장치(22)가 사용자 단말(20)로부터 DTMF 신호를 수신하여 "정 상적으로 인식된 음절 개수"를 확인하고(320), 그 확인된 음절 개수(DTMF 신호가 나타내는 숫자)에 해당하는 음절까지를 포함하는 단어를 발음사전에서 찾아 새로운 발음사전(수정 발음 사전)으로 재정의한다(322).
음성인식 처리 장치(22)는 재정의된 발음사전(수정 발음사전)을 기준으로 하여 음성인식 엔진을 재 초기화한 후(324), "306"에서 저장되었던 사용자 음성을 입력으로 하여 음성인식을 재수행한 후(326), "310"으로 피드백함으로써 "310" 이하의 과정을 반복 수행한다.
한편, 음성인식 오류 횟수 확인 결과(316), 음성인식 오류 횟수가 4회에 해당하면 사용자에게 음성 재입력 의사를 확인하여(328) 재입력 의사가 있는 경우에는 "304"로 피드백하고, 재입력 의사가 없는 경우에는 서비스 종료 멘트를 구동한다(330). 여기서, 음성 재입력 의사를 확인하는 과정은, 음성인식 처리 장치(22)가 "음성인식 오류가 기준횟수를 초과하였으니, 음성인식 대상단어를 재입력하고자 하면 #를 누르시고, 종료를 원하면 별표(*)를 누르세요"와 같은 멘트를 제공하여 재입력 의사를 확인하는 과정이다.
위에서 설명한 바와 같은 본 발명은 음성인식을 통하여 각 단계의 서비스메뉴를 선택하면서 진행되는 서비스, 음성인식을 이용한 자동 전화연결 서비스 등과 같은 음성인식을 이용하는 각종 서비스에 적용할 수 있다.
한편, 본 발명에 따른 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법은 도 2 및 도 3에 도시된 바와 같이 전화망과 같은 네트워크로 연결된 사 용자 단말(20)로부터 사용자 음성 및 사용자 평가를 입력받는 "서버-클라이언트" 방식으로 구현될 수도 있지만, 실시예에 따라서는 이에 한정되지 않고 "단일의 음성인식 처리 장치"를 통해서도 구현될 수 있다.
즉, 음성인식 기능을 갖는 사용자 단말(휴대폰, PDA, 전자 사전 등)이나 각종 정보처리기기 등과 같은 "단일 시스템"으로 구현된 경우에는, 사용자나 운용자 등으로부터 해당 단일 시스템의 입력부를 통하여 사용자 음성이 입력되고 그에 대한 음성인식이 수행된다. 이때에는, 해당 단일 시스템에서의 버튼 입력, 터치 입력(터치패드, 터치스크린의 경우), 음성 입력 등과 같은 각종 입력을 통하여 사용자 평가(음성인식 결과에 대한 사용자 평가)가 이루어지게 된다.
한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.
즉, 본 발명은, 음성인식 성능의 향상을 위한 음성인식 처리를 위하여, 프로세서를 구비한 음성인식 처리 장치에, 사용자로부터 음성인식을 위한 사용자 음성을 입력받아 음성인식을 수행하는 제1 음성인식 기능; 상기 사용자 음성에 대한 음성인식 결과를 상기 사용자에게 제공하여 사용자 평가를 받는 사용자평가 기능; 및 상기 사용자 평가에 따라 발음 사전의 범위를 제한하여 상기 발음 사전을 재정의한 후에 상기 사용자 음성에 대한 음성인식처리를 재수행하는 제2 음성인식 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
도 1은 종래의 음성인식 서비스 방법에 대한 흐름도,
도 2는 본 발명에 따른 음성인식 성능의 향상을 위한 음성인식 처리 장치(서버)의 일실시예 구성도,
도 3은 본 발명에 따른 음성인식 성능의 향상을 위한 음성인식 처리 방법에 대한 일실시예 흐름도이다.
* 도면의 주요부분에 대한 부호 설명
20: 사용자 단말 21: 전화망
22: 음성인식 처리 장치 221: 사용자 인터페이스부
222: 사용자음성 DB 223: 음성인식부
224: 최초 발음사전 DB 225: 수정 발음사전 DB

Claims (13)

  1. 음성인식 성능의 향상을 위한 음성인식 처리 장치에 있어서,
    사용자로부터 음성인식을 위한 사용자 음성 또는 음성인식 결과에 대한 사용자 평가를 입력받기 위한 사용자 인터페이스 수단; 및
    상기 사용자 평가에 따라 발음 사전의 범위를 제한하여 상기 발음 사전을 재정의해가면서 상기 입력된 사용자 음성에 대한 음성인식을 반복 수행하여, 해당 음성인식 결과를 상기 사용자에게 제공하기 위한 음성인식 수단
    을 포함하는 음성인식 처리 장치.
  2. 제 1 항에 있어서,
    상기 사용자 평가는,
    상기 음성인식 결과 중에서 정상적으로 인식된 음절 개수를 나타내는 것을 특징으로 하는 음성인식 처리 장치.
  3. 제 2 항에 있어서,
    상기 음성인식 수단은,
    상기 사용자 평가의 대상이 되었던 음성인식 결과를 배제하고 상기 사용자 평가가 나타내는 음절 개수까지의 글자를 포함하는 단어까지로 발음 사전의 범위를 재정의하는 음성인식 처리 장치.
  4. 제 1 항에 있어서,
    상기 음성인식 수단은,
    상기 사용자 인터페이스 수단을 통하여 초기 입력된 사용자 음성을 이용하여 음성인식을 반복 수행하는 음성인식 처리 장치.
  5. 제 2 항에 있어서,
    상기 사용자 평가는,
    DTMF 신호 또는 상기 사용자의 음성을 통하여 입력되는 것을 특징으로 하는 음성인식 처리 장치.
  6. 제 5 항에 있어서,
    상기 사용자는,
    전화망을 통하여 접속한 전화 단말기의 사용자인 것을 특징으로 하는 음성인식 처리 장치.
  7. 제 1 항에 있어서,
    상기 사용자 인터페이스 수단은,
    안내 멘트를 통하여 상기 사용자 음성 또는 상기 사용자 평가의 입력을 유도하는 음성인식 처리 장치.
  8. 음성인식 성능의 향상을 위한 음성인식 처리 방법에 있어서,
    사용자로부터 음성인식을 위한 사용자 음성을 입력받아 음성인식을 수행하는 제1 음성인식 단계;
    상기 사용자 음성에 대한 음성인식 결과를 상기 사용자에게 제공하여 사용자 평가를 받는 사용자평가 단계; 및
    상기 사용자 평가에 따라 발음 사전의 범위를 제한하여 상기 발음 사전을 재정의한 후에 상기 사용자 음성에 대한 음성인식처리를 재수행하는 제2 음성인식 단계
    를 포함하는 음성인식 처리 방법.
  9. 제 8 항에 있어서,
    상기 사용자 평가는,
    상기 음성인식 결과 중에서 정상적으로 인식된 음절 개수를 나타내는 것을 특징으로 하는 음성인식 처리 방법.
  10. 제 9 항에 있어서,
    상기 제2 음성인식 단계는,
    상기 사용자 평가의 대상이 되었던 음성인식 결과를 배제하고 상기 사용자 평가가 나타내는 음절 개수까지의 글자를 포함하는 단어까지로 발음 사전의 범위를 재정의하는 음성인식 처리 방법.
  11. 제 8 항에 있어서,
    상기 제2 음성인식 단계는,
    상기 음성인식처리를 재수행한 후 상기 사용자평가 단계로 피드백하는 것을 특징으로 하는 음성인식 처리 방법.
  12. 제 11 항에 있어서,
    상기 제2 음성인식 단계는,
    기설정된 횟수 범위 내에서 음성인식이 성공할 때까지 반복 수행하는 음성인식 처리 방법.
  13. 제 9 항에 있어서,
    상기 사용자 평가는,
    DTMF 신호 또는 상기 사용자의 음성을 통하여 입력되는 것을 특징으로 하는 음성인식 처리 방법.
KR1020080103028A 2008-10-21 2008-10-21 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법 KR101042499B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080103028A KR101042499B1 (ko) 2008-10-21 2008-10-21 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080103028A KR101042499B1 (ko) 2008-10-21 2008-10-21 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20100043822A KR20100043822A (ko) 2010-04-29
KR101042499B1 true KR101042499B1 (ko) 2011-06-16

Family

ID=42218746

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080103028A KR101042499B1 (ko) 2008-10-21 2008-10-21 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101042499B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102373247B1 (ko) * 2014-11-25 2022-03-11 현대모비스 주식회사 네트워크를 이용한 사용자 적응 음성 명령 인식 방법 및 그 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100194764B1 (ko) * 1995-11-04 1999-06-15 이계철 전화 버튼을 이용한 음성 인식 시스템 및 음성 인식 결과 확인 방법
KR20010044675A (ko) * 2001-03-15 2001-06-05 백종관 음절 단위로 음성인식을 수행하는 방법 및 그 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100194764B1 (ko) * 1995-11-04 1999-06-15 이계철 전화 버튼을 이용한 음성 인식 시스템 및 음성 인식 결과 확인 방법
KR20010044675A (ko) * 2001-03-15 2001-06-05 백종관 음절 단위로 음성인식을 수행하는 방법 및 그 장치

Also Published As

Publication number Publication date
KR20100043822A (ko) 2010-04-29

Similar Documents

Publication Publication Date Title
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
US8812316B1 (en) Speech recognition repair using contextual information
US8328089B2 (en) Hands free contact database information entry at a communication device
KR101027548B1 (ko) 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러
CN110751943A (zh) 一种语音情绪识别方法、装置以及相关设备
US20070112571A1 (en) Speech recognition at a mobile terminal
US20070286399A1 (en) Phone Number Extraction System For Voice Mail Messages
CN113362828B (zh) 用于识别语音的方法和装置
CN103139404A (zh) 基于语音识别生成交互式语音响应显示菜单的***和方法
US20080243517A1 (en) Speech bookmarks in a voice user interface using a speech recognition engine and acoustically generated baseforms
JP2002528804A (ja) サービスアプリケーションに対するユーザインタフェースの音声制御
CN102984666B (zh) 一种通话过程中的通讯录语音信息处理方法及***
US9088655B2 (en) Automated response system
JP5283947B2 (ja) 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
CN104301522A (zh) 通讯中的信息输入方法及通讯终端
KR101367722B1 (ko) 휴대단말기의 통화 서비스 방법
JP2017068061A (ja) 通信端末及び音声認識システム
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
US7460999B2 (en) Method and apparatus for executing tasks in voice-activated command systems
KR101042499B1 (ko) 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법
US8594640B2 (en) Method and system of providing an audio phone card
CN111274828B (zh) 基于留言的语言翻译方法、***、计算机程序和手持终端
KR20200109995A (ko) 피싱 분석 장치 및 그 방법
EP1895748A1 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
JP2007272123A (ja) 音声操作システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140602

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150601

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160609

Year of fee payment: 6