KR20050066805A - 음절 음성인식기의 음성인식결과 전달 방법 - Google Patents

음절 음성인식기의 음성인식결과 전달 방법 Download PDF

Info

Publication number
KR20050066805A
KR20050066805A KR1020030098287A KR20030098287A KR20050066805A KR 20050066805 A KR20050066805 A KR 20050066805A KR 1020030098287 A KR1020030098287 A KR 1020030098287A KR 20030098287 A KR20030098287 A KR 20030098287A KR 20050066805 A KR20050066805 A KR 20050066805A
Authority
KR
South Korea
Prior art keywords
voice recognition
voice
scenario
speech
recognition result
Prior art date
Application number
KR1020030098287A
Other languages
English (en)
Other versions
KR101002135B1 (ko
Inventor
류창선
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020030098287A priority Critical patent/KR101002135B1/ko
Publication of KR20050066805A publication Critical patent/KR20050066805A/ko
Application granted granted Critical
Publication of KR101002135B1 publication Critical patent/KR101002135B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 음절 음성인식기의 음성인식결과 전달 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 서비스별 음성인식기를 독립적으로 사용하지 않고 모든 서비스가 공유하여 사용하는 지능망 시스템에서의 음성인식 서비스 중, 음절 음성인식 기능을 사용할 경우에 있어서, 보다 효율적으로 음절 음성인식결과를 전달함으로써, 시스템 성능을 향상시킬 수 있는 음성인식 결과 전달 방법을 제공하고자 함.
3. 발명의 해결 방법의 요지
본 발명은, 음성인식 시스템에서의 음성인식결과 전달 방법에 있어서, 호 접속시, 호 처리부가 시나리오 처리부로부터 해당 시나리오를 가져와 시나리오를 구동시키는 시나리오 구동단계; 상기 시나리오에 따라 음성인식 기능을 이용하는 경우, 상기 시나리오 처리부가 음성인식 엔진정보(제어정보)를 상기 호처리부를 통해 음성인식기로 전달하는 정보제공단계; 및 상기 음성인식기가 음성인식을 수행하여, 음성인식결과를 상기 음성인식 엔진정보(제어정보)에 의거하여 하나의 스트링으로 패킹하여, 상기 호 처리부를 통해 상기 시나리오 처리부로 전달하는 제1 음성인식결과 전달단계를 포함함.
4. 발명의 중요한 용도
본 발명은 지능망 시스템 등에 이용됨.

Description

음절 음성인식기의 음성인식결과 전달 방법{Transfer method with syllable as a result of speech recognition}
본 발명은 음절 음성인식기의 음성인식 결과 전달 방법에 관한 것으로, 특히 음성인식 서비스 중 음절 음성인식 기능을 사용할 경우에 있어서 음절 음성인식 결과의 전달 방법에 관한 것이다.
음성인식 시스템에서는 통신망을 통하여 입력된 사람의 음성을 음성인식 기술을 이용하여 텍스트로 변환하고, 이를 입력으로 서비스를 제공한다. 이러한 음성인식 시스템에서는 서비스 성능을 분석하기 위해서 입력된 음성과 그에 대한 결과들을 저장해 놓고, 나중에 이를 분석하여 서비스 성능 분석 및 개선하는 자료로 사용하고 있다.
참고적으로, 음성인식 서비스 과정을 살펴보면, 음성인식 시나리오 절차에 따라 사용자의 음성이 입력되면, 음성인식기가 이를 인식하여, 인식결과는 발화검증단계를 거쳐 인식단어에 대한 발화검증값이 계산되는데, 이때 이 값이 높게 나오면 사용자에게 확인 절차없이 서비스를 진행하고, 중간값의 경우는 사용자의 확인절차를 거친 후 성공여부에 따라 서비스가 진행되며, 아주 낮은 경우는 "서비스 대상 단어가 아닙니다"라는 안내멘트를 출력한 후 재입력을 요구하게 된다. 여기서, 검증결과의 임계값 설정은 서비스에 따라서 운용자가 탄력적으로 설정할 수 있다.
즉, 발화검증시에는, 인식에 사용되는 데이터를 처리하여 발화검증용 데이터를 만들어 사용하는데, 인식결과가 맞는 경우 발화검증용 데이터를 사용한 인식을 하게 되면 그 확률값이 매우 작게 나와서 인식결과의 확률값과 발화검증시에 확률값의 비가 크게 되어 "1"에 가까운 값이 나오게 되고, 인식결과가 틀린 경우는 "0"에 가까운 값이 나오게 된다. 그러므로, 발화검증시 "1"에 가까운 값이 출력되면 사용자에게 확인 절차없이 서비스(예를 들면, 전화번호 다이얼링 서비스)를 진행할 수 있고, "0"과 "1"의 중간값의 경우는 사용자의 확인절차를 거친후 성공여부에 따라 서비스(전화번호 다이얼링 서비스)가 진행되며, "0"에 가까운 경우는 서비스 대상 단어가 아니라는 안내멘트를 출력후 재입력을 요구한다.
이와 같은 음성인식 기능을 이용하는 서비스에서 음성인식 대상단어의 추가 및 삭제 등의 작업은 필수 사항이다. 하지만, 종래에는 텍스트 입력을 통해 대상단어의 추가 및 삭제, 수정 등의 작업을 수행하였다. 그러나, 현재 지능망 기반 음성인식 서비스에서 음성인식 대상 단어(명칭)의 추가를 위해 텍스트 입력을 통하지 않고, 사용자 음성을 이용한 음성등록 기능을 이용하게 되었다. 이에, 음성등록을 위해 필요한 기능은 음성인식 기능을 이용하여 구현할 수 있다. 이 경우 음절 인식기능을 이용하여 구현 가능하지만, 특히 지능망 시스템에서의 음성인식결과 전달시, 전달 갯수에 한계가 있고, 쓸데없는 데이터의 전송으로 인해 네트워크 부담이 증가된다.
그럼, 지능망 시스템에서의 음성인식결과를 전달하는 종래의 방법을 보다 구체적으로 살펴보면 다음과 같다.
일반적으로, 음성인식을 담당하는 음성인식기에서 입력된 사용자 음성에 대한 음성인식을 수행한 결과는 호처리를 담당하고 있는 호 처리부를 경유해서 서비스 로직을 제어하는 시나리오 처리부로 전달된다.
그러나, 이때 종래의 음성인식결과 전달 방법에 따르면, 다음과 같은 문제점이 발생된다.
첫 번째로, 특히 지능망 시스템에서는 음성인식결과의 전달에 있어 한계가 있다. 즉, 지능망 시스템은 시스템 구성상 한번에 12개까지의 인식결과만을 전달할 수 있도록 설계되어 있어, 12개 이상의 음성인식결과는 전달할 수 없다. 예를 들면, 음성인식기가 "안녕하세요 홍길동이 좀 부탁합니다."를 인식한 경우, 전체 문장을 인식했다 하더라도 13번째부터의 인식결과는 전달하지 못한다. 즉, "합니다."는 전달이 안된다.
두 번째로, 네트워크 부하가 많이 발생한다. 예를 들면, 음절인식 기능을 이용한 서비스 중 이름인식이 있다. 즉, "홍길동"이라고 발화하면, "홍", "길", "동"의 결과가 나오게 된다. 이 경우 3개의 패킷(3개 × 패킷사이즈(1024 바이트))의 전달이 필요하다. 그러나, 각 패킷에 포함된 다른 내용은 거의 의미가 없다. 즉, 이름인식의 경우, 한번 음성인식 요구시 적어도 2개 혹은 3개 이상의 패킷이 전송되므로 네트워크 부담이 많이 증가하게 된다. 이러한 문제는 결국 전체 지능망 서비스에 큰 부담을 주게 된다.
즉, 지능망 시스템에서의 서비스는 지능망 시스템을 구성하는 각 구성요소간 네트워크를 통한 제어정보의 이동이 많으므로, 네트워크 부하는 제어정보의 흐름을 방해하기 때문에 다른 서비스에 큰 영향을 주게 된다. 특히, 지능망 시스템에서는 서비스별 음성인식기를 독립적으로 사용하지 않고 모든 서비스가 공유하여 사용하므로, 지능망 시스템의 자원들을 보다 효율적으로 사용하여 서비스에 지장없는 안정적인 서비스를 지원할 수 있는 방안이 절실히 요구된다.
정리해 보면, 음성인식 기능이 지능망으로 수용되면서 다양한 음성인식 서비스가 개발되고 있는 바, 음성인식 기능의 특성상 음성인식을 위해서 인식 대상단어의 음성인식 엔진으로 전달되어 그 도메인내에서 음성인식을 수행하게 된다.
종래의 인식 대상단어에 대한 입력은 텍스트 입력을 통한 방법이 보통이지만, 최근 개발된 음성등록 기능은 음성인식 기능을 이용한 응용으로서 음성인식 대상단어의 입력을 텍스트로만 하는 방법에서 탈피하여, 전화상으로 음성을 통해 등록하는 것이 가능하게 되었다.
그럼에도 불구하고, 지능망 시스템에서는 서비스별로 음성인식기를 독립적으로 사용하지 않고 모든 서비스가 공유하여 사용하고 있는 바, 종래의 지능망 시스템에서의 음성인식결과 전달 체계는 인식결과 전달 갯수에 한계가 있고, 쓸데없는 데이터의 전송으로 인해 네트워크 부담이 증가되므로, 지능망 시스템의 자원들을 효율적으로 사용하여 보다 안정적인 서비스를 제공할 수 있는 방안이 필수적으로 요구된다.
본 발명은, 상기와 같은 요구에 부응하기 위하여 제안된 것으로, 서비스별 음성인식기를 독립적으로 사용하지 않고 모든 서비스가 공유하여 사용하는 지능망 시스템에서의 음성인식 서비스 중, 음절 음성인식 기능을 사용할 경우에 있어서, 보다 효율적으로 음절 음성인식결과를 전달함으로써, 시스템 성능을 향상시킬 수 있는 음성인식 결과 전달 방법을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명은, 음성인식 시스템에서의 음성인식결과 전달 방법에 있어서, 호 접속시, 호 처리부가 시나리오 처리부로부터 해당 시나리오를 가져와 시나리오를 구동시키는 시나리오 구동단계; 상기 시나리오에 따라 음성인식 기능을 이용하는 경우, 상기 시나리오 처리부가 음성인식 엔진정보(제어정보)를 상기 호처리부를 통해 음성인식기로 전달하는 정보제공단계; 및 상기 음성인식기가 음성인식을 수행하여, 음성인식결과를 상기 음성인식 엔진정보(제어정보)에 의거하여 하나의 스트링으로 패킹하여, 상기 호 처리부를 통해 상기 시나리오 처리부로 전달하는 제1 음성인식결과 전달단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 상기 음성인식기가 음성인식을 수행하여, 음성인식결과를 상기 음성인식 엔진정보(제어정보)에 의거하여 공지의 방식대로 여러 패킷으로 나누어 상기 호 처리부를 통해 상기 시나리오 처리부로 전달하는 제2 음성인식결과 전달단계를 더 포함한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 일반적인 음성인식 시스템의 구성 예시도이다.
시나리오 처리부(12)는 호 처리부(11)를 통해 들어온 접속호에 해당하는 시나리오를 구동시킨다. 호 접속후, 해당 시나리오가 구동되면서, 음절 음성인식인지 아니면 일반 음성인식인지에 대한 제어정보(엔진정보)가 호 처리부(11)를 통해 음성인식기(13)로 전달된다.
호 처리부(11)는 음성등록을 위한 음절 음성인식 서비스를 위하여 사용자가 해당 전화번호로 발신을 하면, 시나리오 처리부(12)로부터 해당 시나리오를 갖고 와서, 시나리오를 구동시킨다.
음성인식기(13)에서는 음성인식을 수행하되, 제어정보(엔진정보)에 따라 음성인식결과에 대한 처리 방법을 달리한다. 즉, 일반 음성인식의 경우, 인식결과는 하나의 전달 패킷에 실려서 호 처리부(11)를 통해 시나리오 처리부(11)로 전달된다. 하지만, 음절 음성인식의 경우에는, 시나리오 처리부(11)에서 전달한 제어정보를 판독하여, 음절인식이라 판단되면, 음성인식 결과로서 나온 결과들을 하나로 묶게 된다. 예를 들어 "홍", "길", "동"이라는 세개의 음절이 음성인식 결과로 나왔다면, 하나의 스트링 "홍길동"으로 묶는다. 이렇게 묶은 결과는 최종 음성인식 결과로서 호 처리부(11)를 거쳐 시나리오 처리부(12)로 전달되어, 시나리오 처리부(12)에서 해당하는 시나리오에 이용하게 된다.
전체적인 동작을 살펴보면, 음성등록을 위한 음절 음성인식 서비스를 위하여 사용자가 해당 전화번호로 발신을 하면, 먼저 호 처리부(11)로 호 접속이 이루어지면서, 호 처리부(11)는 시나리오 처리부(12)로부터 해당 시나리오를 갖고 와서 시나리오를 구동시킨다. 이때, 음성인식 기능을 이용하는 상태인 경우, 시나리오 처리부(12)에서 음성인식 엔진정보(제어정보)를 호처리부(11)를 통해 음성인식기(13)로 전달한다. 즉, 서비스 로직에 따라 음성등록 기능을 수행할 시점이라면 이에 해당하는 음절 음성인식기 요구인지 아니면 일반적인 음성인식의 경우인지에 대한 제어정보(엔진정보)를 호 처리부(11)를 통해 음성인식기(13)로 전달한다.
그러면, 음성인식기(13)에서는 입력된 사용자 음성에 대한 음성인식을 수행하고, 전달받은 엔진정보(제어정보)를 이용해서 음성인식 결과를 정리(음절 음성인식의 경우 음성인식결과를 하나의 스트링으로 패킹, 일반 음성인식의 경우 패킹하지 않음)하여, 해당 음성인식 결과를 호 처리부(11)를 통해 시나리오 처리부(12)로 전달한다. 즉, 음성인식기(13)의 음성인식 엔진에서는 입력된 사용자의 음성에 대한 음성인식을 수행하여 그 결과를 정리하는데, 이때 전달받은 제어정보(엔진정보)에 따라 음성인식결과를 묶음으로 하거나 하지 않고 정해진 패킷 구조에 따라 호 처리부(11)를 통해 시나리오 처리부(12)로 전달한다. 이때, 음절 음성인식 결과 각각의 하나의 스트링으로 패킹하는데, 예를 들면 "홍", "길", "동"이란 음절인식결과가 나왔다면, "홍길동"이란 하나의 스트링으로 패킹한다.
여기서, 음성인식결과로서는 인식명, 대표명, 클래스명, 신뢰도(발화검증값) 정보 등이 될 수 있다. 그리고, 음성인식기(13)는 음성등록의 경우 사용자 음성을 음성 저장기(14)에 저장시, 패킹 작업 수행후 얻어진 결과를 사용자 음성 파일의 이름으로 사용한다. 이때, 음성 파일 저장시, 음성인식 결과에 대한 사용자의 선택으로서 음성인식 결과가 틀렸다는 정보를 이중음다주파(DTMF) 톤으로 입력할 경우, 사용자 음성들을 별도로 저장한다. 즉, 틀렸다고 "*" 버튼을 눌렀을 경우, 해당 디렉토리에 따로 사용자 음성을 저장한다. 그 이유는 추후에 음성인식율 등 해당 음성파일에 대한 상세 분석을 위한 근거자료로 사용하기 위함이다.
상기 음성인식결과는 묶음을 하거나(스트링 패킹) 하지 않고 정해진 패킷 구조에 따라 호 처리부(11)를 통해 시나리오 처리부(12)로 전달된다.
이해를 돕기 위하여, 음성인식기(13)에서의 음성인식 과정을 살펴보면 다음과 같다.
음성인식기(13)는 보통 전처리부, 인식 어휘 관리부, 비대상 어휘 관리부, 발음사전 관리부, HMM 파라미터 처리부, 인식 처리부 등으로 구성된다.
전처리부에서의 음성인식 전처리 과정을 살펴보면, 호 처리부(11)를 통해 입력되는 음성의 앞뒤에 있는 묵음 구간을 제외한 음성구간을 찾아, 찾은 음성 구간의 음성신호로부터 음성의 특징을 추출한다.
서비스가 제공되기 전에, 시나리오 처리부(12)의 시나리오에 따라 필요한 인식 어휘가 호 처리부(11)를 통해 인식 어휘 관리부에 보내지며, 비대상 어휘는 관리자에 의해서 수동으로 입력되거나, 인식 어휘 관리부에서 이전 데이터와 새로운 데이터를 비교하여 인식할 필요가 없는 인식어휘들을 자동으로 생성하여 비대상 어휘 관리부로 보내진다. 그러면, 비대상 어휘 관리부에서는 비대상 어휘 목록 관리 과정을 거친 후 발음사전 관리부로 보낸다.
여기서, 초기에 서비스에 필요없지만 필요없이 자주 입력되는 명칭들을 관리자가 수동으로 설정하거나, 인식 어휘 관리부에서 네트워크로 연결된 시스템에서 관련 자료를 받아 이전 자료와의 차이를 이용하여 새로운 데이터에서 빠진 어휘를 해당 날짜와 카운터를 초기화시켜 비대상 어휘 군에 자동으로 첨가한다.
이후, 발음사전 관리부는 인식 어휘 관리부와 비대상 어휘 관리부에서 보내온 어휘들을 통합하여 인식에 필요한 발음사전과 인식결과 기호를 만들어 인식 처리부로 보낸다. 또한, 인식에 필요한 은닉 마르코프 모델(HMM) 파라미터 역시 HMM 파라미터 처리부에서 인식 처리부로 보내진다.
상기 인식 처리부에서의 음성인식 처리 과정을 구체적으로 살펴보면 다음과 같다.
먼저, 비터비 탐색 과정을 수행하여, 음소 모델 데이터베이스로 구성된 발음사전에 등록된 단어들에 대해 전처리부의 음성 특징값을 이용하여 유사도(Likelihood)가 가장 유사한 단어들을 선정한다.
이어서, 발화검증 과정을 수행하여, 비터비 탐색 과정에서 선정된 단어를 이용하여 음소단위로 특징구간을 분할한 후에, 반음소 모델을 이용하여 음소단위의 유사 신뢰도(Likelihood Ratio Confidence Score)를 구한다.
이때, 문장을 인식할 경우에도 상기의 발화검증 과정은 동일하게 적용되어 문법만 추가되며, 문장단위의 검증이 된다.
상기의 신뢰도는 비터비 탐색 결과 수치와는 의미가 다르다. 즉, 비터비 탐색 결과 수치는 어떤 단어나 음소에 대한 단순한 유사도를 나타낸 것인 반면에, 신뢰도는 인식된 결과인 음소나 단어에 대해 그 외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값을 의미한다.
신뢰도를 결정하기 위해서는 음소(Phone) 모델과 반음소(Anti-phone) 모델이 필요하다.
먼저, 음소 모델은 어떤 음성에서 실제로 발화된 음소들을 추출하여 추출된 음소들을 훈련시켜 생성된 HMM이다. 이러한 음소 모델은 일반적인 HMM에 근거한 음성인식 시스템에서 사용되는 모델이다.
한편, 반음소 모델은 실제 발화된 음소와 아주 유사한 음소들(이를 유사음소집합(Cohort Set)이라 함)을 사용하여 훈련된 HMM을 말한다.
이와 같이, 음성인식 시스템에서는 사용하는 모든 음소들에 대해서 각기 음소 모델과 반음소 모델이 존재한다. 예를 들어 설명하면, "ㅏ"라는 음소에 대해서는 "ㅏ" 음소 모델이 있고, "ㅏ"에 대한 반음소 모델이 존재하게 되는 것이다. 예를 들면, "ㅏ" 음소의 모델은 음성 데이터베이스에서 "ㅏ"라는 음소만을 추출하여 HMM의 훈련 방식대로 훈련을 시켜서 만들어지게 된다. 그리고, "ㅏ"에 대한 반음소 모델을 구축하기 위해서는 "ㅏ"에 대한 유사음소집합을 구해야 한다. 이는 음소인식 결과를 보면 구할 수 있는데, 음소인식 과정을 수행하여 "ㅏ" 이외의 다른 어떤 음소들이 "ㅏ"로 오인식되었는지를 보고 이를 모아서 "ㅏ"에 대한 유사음소집합을 결정할 수 있다. 즉, "ㅑ, ㅓ, ㅕ" 등의 음소들이 주로 "ㅏ"로 오인식되었다면 이들을 유사음소집합이라 할 수 있고, 이들을 모아서 HMM 훈련과정을 거치면 "ㅏ" 음소에 대한 반음소 모델이 생성된다.
이와 같은 방식으로 모든 음소에 대하여 음소 모델과 반음소 모델이 생성되었다면, 입력된 음성에 대한 신뢰도는 다음과 같이 계산된다.
우선, 음소 모델을 탐색하여 가장 유사한 음소를 하나 찾아낸다.
그리고, 찾아낸 음소에 대한 반음소 모델에 대한 유사도를 계산해 낸다.
최종적인 신뢰도는 음소 모델에 대한 유사도와 반음소 모델에 대한 유사도의 차이를 구하고, 이에 소정의 특정함수를 적용시켜 신뢰도값의 범위를 조절하여 구할 수 있다.
인식 처리부의 인식결과는 비대상 어휘 관리부로 보내지고, 아울러 호 처리부(11)를 통해 시나리오 처리부(12)로 전달되어, 해당 서비스 시나리오에서 이용된다.
도 2 는 본 발명에 따른 음절 음성인식기의 음성인식결과 전달 방법에 대한 일실시예 흐름도이다.
우선, 음성등록을 위한 음절 음성인식 서비스를 위하여 사용자가 해당 전화번호로 발신을 하면, 호 처리부(11)로 호 접속이 이루어지면서, 호 처리부(11)는 시나리오 처리부(12)로부터 해당 시나리오를 갖고 와서 시나리오를 구동시킨다. 이때, 음성인식 기능을 이용하는 상태인 경우, 시나리오 처리부(12)에서 음성인식 엔진정보(제어정보)를 호처리부(11)를 통해 음성인식기(13)로 전달한다. 즉, 서비스 로직에 따라 음성등록 기능을 수행할 시점이라면, 이에 해당하는 음절 음성인식기 요구인지 아니면 일반적인 음성인식의 경우인지에 대한 제어정보(엔진정보)를 호 처리부(11)를 통해 음성인식기(13)로 전달한다.
그러면, 음성인식기(13)에서는 도 2에 도시된 바와 같이 입력된 사용자 음성에 대한 음성인식을 수행하고, 호 처리부(11)로부터 전달받은 엔진정보(제어정보)를 판독하여(201) 음절 음성인식인지이지 혹은 일반 음성인식인지를 확인한다(202).
확인 결과, 음절 음성인식의 경우, 음성인식결과를 하나의 스트링으로 패킹하여(203), 하나의 패킷에 음성인식결과를 적용한 후(204), 호 처리부(11)를 통해 패킷을 전달한다(205). 즉, 음절 음성인식 결과 각각의 하나의 스트링으로 패킹하는데, 예를 들면 "류", "차", "앙", "썬"이란 음절인식결과가 나왔다면, "류차앙썬"이란 스트링으로 패킹하여 하나의 패킷으로 호 처리부(11)를 통해 시나리오 처리부(12)로 전달한다.
확인 결과, 일반 음성인식의 경우, 패킹하지 않고 인식결과별로 패킷에 적용하여(204) 호 처리부(11)를 통해 시나리오 처리부(12)로 전달한다(205). 예를 들면, "류", "차", "앙", "썬"이란 음절인식결과가 나왔다면, 각각의 패킷으로(4개의 패킷으로) 호 처리부(11)를 통해 시나리오 처리부(12)로 전달한다.
상기 음성인식기(13)에서 호 처리부(11)를 통해 시나리오 처리부(12)로 전달되는 패킷에는 인식명, 대표명, 클래스명, 신뢰도(발화검증값) 정보 등이 포함된다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 음절인식 기능을 사용할 경우 하나의 스트링으로 패킹함으로써, 특히 서비스별로 음성인식 유닛을 독립적으로 사용하지 않고 모든 서비스가 공유하여 사용하는 지능망 시스템에서, 인식결과 전달 갯수의 한계를 극복하고, 쓸데없는 데이터의 전송을 막아 네트워크 부담을 경감시킬 있어, 지능망 시스템의 자원들을 보다 효율적으로 사용할 수 있고, 안정적인 서비스가 가능한 효과가 있다.
도 1 은 본 발명이 적용되는 음성인식 시스템의 구성 예시도.
도 2 는 본 발명에 따른 음절 음성인식기의 음성인식결과 전달 방법에 대한 일실시예 흐름도.
* 도면의 주요 부분에 대한 부호 설명
11 : 호 처리부 12 : 시나리오 처리부
13 : 음성인식 유닛 14 : 음성 저장기

Claims (6)

  1. 음성인식 시스템에서의 음성인식결과 전달 방법에 있어서,
    호 접속시, 호 처리부가 시나리오 처리부로부터 해당 시나리오를 가져와 시나리오를 구동시키는 시나리오 구동단계;
    상기 시나리오에 따라 음성인식 기능을 이용하는 경우, 상기 시나리오 처리부가 음성인식 엔진정보(제어정보)를 상기 호처리부를 통해 음성인식기로 전달하는 정보제공단계; 및
    상기 음성인식기가 음성인식을 수행하여, 음성인식결과를 상기 음성인식 엔진정보(제어정보)에 의거하여 하나의 스트링으로 패킹하여, 상기 호 처리부를 통해 상기 시나리오 처리부로 전달하는 제1 음성인식결과 전달단계
    를 포함하는 음성인식 시스템에서의 음성인식결과 전달 방법.
  2. 제 1 항에 있어서,
    상기 음성인식기가 음성인식을 수행하여, 음성인식결과를 상기 음성인식 엔진정보(제어정보)에 의거하여 공지의 방식대로 여러 패킷으로 나누어 상기 호 처리부를 통해 상기 시나리오 처리부로 전달하는 제2 음성인식결과 전달단계
    를 더 포함하는 음성인식 시스템에서의 음성인식결과 전달 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 음성인식 엔진정보(제어정보)는,
    서비스 로직에 따라 음성등록 기능을 수행할 시점에 전송되되, 음절 음성인식 요구인지 혹은 공지의 일반 음성인식 요구인지를 나타내는 것을 특징으로 하는 음성인식 시스템에서의 음성인식결과 전달 방법.
  4. 제 3 항에 있어서,
    상기 음성인식결과는,
    인식명, 대표명, 클래스명, 신뢰도(발화검증값) 정보를 포함하는 것을 특징으로 하는 음성인식 시스템에서의 음성인식결과 전달 방법.
  5. 제 3 항에 있어서,
    상기 음성등록시,
    패킹작업 수행후 얻어진 결과를 사용자 음성파일의 이름으로 사용하는 것을 특징으로 하는 음성인식 시스템에서의 음성인식결과 전달 방법.
  6. 제 3 항에 있어서,
    상기 음성인식 시스템은,
    서비스별로 음성인식 유닛을 독립적으로 사용하지 않고 모든 서비스가 공유하여 사용하는 지능망의 음성인식 시스템인 것을 특징으로 하는 음성인식 시스템에서의 음성인식결과 전달 방법.
KR1020030098287A 2003-12-27 2003-12-27 음절 음성인식기의 음성인식결과 전달 방법 KR101002135B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030098287A KR101002135B1 (ko) 2003-12-27 2003-12-27 음절 음성인식기의 음성인식결과 전달 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030098287A KR101002135B1 (ko) 2003-12-27 2003-12-27 음절 음성인식기의 음성인식결과 전달 방법

Publications (2)

Publication Number Publication Date
KR20050066805A true KR20050066805A (ko) 2005-06-30
KR101002135B1 KR101002135B1 (ko) 2010-12-16

Family

ID=37257830

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030098287A KR101002135B1 (ko) 2003-12-27 2003-12-27 음절 음성인식기의 음성인식결과 전달 방법

Country Status (1)

Country Link
KR (1) KR101002135B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100718147B1 (ko) * 2005-02-01 2007-05-14 삼성전자주식회사 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6171730A (ja) 1984-09-14 1986-04-12 Nec Corp 音声デ−タ転送方式
JP2001195087A (ja) 2000-01-06 2001-07-19 Mitsubishi Electric Corp 音声認識システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100718147B1 (ko) * 2005-02-01 2007-05-14 삼성전자주식회사 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법

Also Published As

Publication number Publication date
KR101002135B1 (ko) 2010-12-16

Similar Documents

Publication Publication Date Title
US6937983B2 (en) Method and system for semantic speech recognition
US7231019B2 (en) Automatic identification of telephone callers based on voice characteristics
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US7711105B2 (en) Methods and apparatus for processing foreign accent/language communications
US8488750B2 (en) Method and system of providing interactive speech recognition based on call routing
CN110689877A (zh) 一种语音结束端点检测方法及装置
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
US8428241B2 (en) Semi-supervised training of destination map for call handling applications
US20080243504A1 (en) System and method of speech recognition training based on confirmed speaker utterances
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
CN111768789A (zh) 电子设备及其语音发出者身份确定方法、装置和介质
US20080243499A1 (en) System and method of speech recognition training based on confirmed speaker utterances
US20050049858A1 (en) Methods and systems for improving alphabetic speech recognition accuracy
US20040240633A1 (en) Voice operated directory dialler
CN109616116B (zh) 通话***及其通话方法
KR101002135B1 (ko) 음절 음성인식기의 음성인식결과 전달 방법
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
US20090326940A1 (en) Automated voice-operated user support
US20080243498A1 (en) Method and system for providing interactive speech recognition using speaker data
CN113822029A (zh) 客服辅助方法、装置和***
KR20050001684A (ko) 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체
TWI722715B (zh) 智能語音助理之模組化系統及其運作方法
KR100541759B1 (ko) 비대상 어휘 관리를 통한 음성인식 서비스 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131202

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee