KR100541759B1 - 비대상 어휘 관리를 통한 음성인식 서비스 방법 - Google Patents

비대상 어휘 관리를 통한 음성인식 서비스 방법 Download PDF

Info

Publication number
KR100541759B1
KR100541759B1 KR1020030003603A KR20030003603A KR100541759B1 KR 100541759 B1 KR100541759 B1 KR 100541759B1 KR 1020030003603 A KR1020030003603 A KR 1020030003603A KR 20030003603 A KR20030003603 A KR 20030003603A KR 100541759 B1 KR100541759 B1 KR 100541759B1
Authority
KR
South Korea
Prior art keywords
recognition
service
target vocabulary
list
vocabulary
Prior art date
Application number
KR1020030003603A
Other languages
English (en)
Other versions
KR20040066520A (ko
Inventor
김재인
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020030003603A priority Critical patent/KR100541759B1/ko
Publication of KR20040066520A publication Critical patent/KR20040066520A/ko
Application granted granted Critical
Publication of KR100541759B1 publication Critical patent/KR100541759B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 비대상 어휘 관리를 통한 음성인식 서비스 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 서비스에서 제외된 인식명칭들을 인식단어 목록에서 제거하는 것이 아니라 새로운 그룹으로 묶고, 이때 인식결과를 문자가 아닌 숫자로 넘겨 줌으로써, 숫자의 범위에 따라 서비스 이외의 인식결과는 서비스가 제공되지 않는다고 즉시 안내하여, 사용자의 편의성을 증대시키고 서비스 지연 현상을 해결하기 위한 비대상 어휘 관리 방법 및 그를 이용한 음성인식 서비스 방법과 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결 방법의 요지
본 발명은, 음성인식 시스템에서의 음성인식 서비스 방법에 있어서, 비대상 어휘 관리부에서 서비스에 필요없지만 필요없이 자주 입력되는 명칭들을 대상으로 서비스에 필요한 어휘들(서비스 대상 어휘 목록)과 별도의 비서비스 대상 어휘 목록을 만들어, 사용빈도수 및 적용 날짜 정보를 바탕으로 유지ㆍ삭제를 관리하는 단계; 인식대상 음성 입력시에, 인식 처리부가 음성인식하여, 상기 비서비스 대상 어휘 목록을 바탕으로 인식결과로서 인식명칭과 '비서비스 대상 어휘군에 속함을 나타내는 인식번호'를 넘겨 주는 단계; 및 시나리오 처리부에서 상기 '비서비스 대상 어휘군에 속함을 나타내는 인식번호'의 범위를 판단하여, 비서비스 대상 어휘에 대해 서비스 대상이 아님을 즉시 안내하는 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 음성인식 서비스 등에 이용됨.
음성인식, 비서비스 대상 어휘, 비대상 어휘, 발음사전, 어휘 목록

Description

비대상 어휘 관리를 통한 음성인식 서비스 방법{Service method of speech recognition using management of out - of - service vocabularies}
도 1 은 종래의 음성인식 서비스 방법에 대한 흐름도.
도 2 는 종래의 발음사전 테이블을 나타낸 설명도.
도 3 은 본 발명이 적용되는 음성인식 서비스 시스템의 구성 예시도.
도 4 는 본 발명에 따른 음성인식 서비스를 위한 비대상 어휘 목록 관리 과정에 대한 일실시예 흐름도.
도 5 는 본 발명에 이용되는 비대상 어휘 목록 테이블을 나타낸 일실시예 설명도.
도 6 는 본 발명에 따른 음성인식 서비스 방법에 대한 일실시예 흐름도.
도 7 은 본 발명에 이용되는 발음사전 테이블을 나타낸 일실시예 설명도.
* 도면의 주요 부분에 대한 부호 설명
31 : 전화망 정합부 32 : 시나리오 처리부
33 : 인식 어휘 관리부 34 : 발음사전 관리부
35 : 비대상 어휘 관리부 36 : HMM 파라미터 처리부
37 : 전처리부 38 : 인식 처리부
본 발명은 전화망을 통해 연결되어 사용되는 음성인식 서비스 시스템에서의 인식대상 어휘에 포함되어 있지 않은 비대상 어휘의 관리 방법 및 그를 이용한 음성인식 서비스 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
음성인식 시스템에서는 전화망을 통하여 입력된 사람의 음성을 음성인식 기술을 이용하여 텍스트로 변환하고 이를 입력으로 서비스를 제공한다. 이러한 음성인식 시스템에서의 가장 큰 문제점 중 하나는 사용자가 사용 가능한 어휘를 사전에 정확히 알 수 없다는 것이다. 여기서, 사용 가능한 어휘는 "핵심어"를 칭하며, 예를 들면 사람이름을 인식하여 전화를 연결하여 주는 시스템(음성인식 다이얼링(VAD : Voice Activated Dialing) 시스템)의 경우 사용자가 "여보세요 홍길동 좀 바꿔 주세요"라고 했다면 "홍길동"이 핵심어가 된다. 어째든 이 경우 서비스에 관계없는 어휘가 입력되는 경우가 종종 발생한다. 이러한 경우, 시스템에서는 잘못 인식된 결과를 확인 요청하거나 다시 한번 말해 달라는 요청을 하여 사용자를 불편하게 한다.
그런데, 기계가 사람의 말에 따라 사람이 원하는 동작을 해 주는 것은 오래 전부터 간절히 바라는 일 중에 하나이다. 하지만, 공상과학에서 그려지고 있는 그러한 시스템은 아직 존재하지 않지만, 제한적으로 사람의 말을 인식할 수 있는 시스템이 만들어지고 있다. 이들 시스템의 문제점 중 하나는 인식대상 단어와 아닌 것(비인식대상 단어)을 구별할 수 있는 완벽한 방법이 없다는 것이다. 그래서, 사용자가 인식대상 단어를 잘 모르는 경우 여러 번의 시행착오나 안내 등을 통하여 이러한 정보를 얻어야 하는 번거로움이 존재한다. 더욱이, 이러한 번거로움은 사용자로 하여금 서비스를 외면하게 만드는 원인을 제공하기 때문에 문제 해결이 시급한 실정이다.
일예로, 회사이름을 인식하여 해당되는 전화번호를 다이얼링(dialing)해 주는 서비스(VAD)의 경우, 서비스 시스템이 인식하고 있는 어휘 수는 600개 회사 명칭과 그 파생어휘를 포함하여 1000개가 등록되어 있는데, 사용자 성향을 분석해 보면 사용 음성의 60%에 해당하는 등록되지 않은 어휘(미 등록어)로 입력되었으며, 이들 중의 87%가 등록어(인식이 가능한 어휘)와는 전혀 관계가 없는(등록어의 파생어휘가 아닌), 새로운 어휘(미 등록어)들로 밝혀졌다. 또한, 미 등록어휘 중 특정한 어휘 하나가 차지하는 비율이 미등록어의 33%를 차지하고 있다. 이러한 경우, 이 단어를 제대로 처리해 줄 수만 있다면 서비스 성공률은 기존의 40%에서 20% 증가된 60%로 대폭 향상될 것이다.
그럼, 도 1 및 도 2를 참조하여 종래의 음성인식 서비스 방법에 대해 살펴보기로 한다.
도 1 은 종래의 음성인식 서비스 방법에 대한 흐름도이다.
먼저, 음성이 입력되면(101), 음성인식기가 이를 인식한다(102). 이때, 인식결과는 발화검증 단계(103)를 거쳐, 인식단어에 대한 발화검증이 된다. 발화 검증시에는 인식에 사용되는 데이터를 처리하여 발화 검증용 데이터를 만들어 사용하는데, 인식결과가 맞는 경우 발화 검증용 데이터를 사용한 인식을 하게 되면 그 확률값이 매우 작게 나와서 인식결과의 확률값과 발화 검증시에 확률값의 비가 크게 되어 "1"에 가까운 값이 나오게 되고, 인식결과가 틀린경우는 "0"에 가까운 값이 나오게 된다. 그러므로, 발화검증시 "1"에 가까운 값이 출력되면 사용자에게 확인 절차없이 서비스를 진행할 수 있고(106), "0"과 "1"의 중간값의 경우는 사용자의 확인절차를 거친 후(105) 성공여부에 따라 서비스(전화번호 다이얼링 서비스)가 진행되며(106), "0"에 가까운 경우는 서비스 대상 단어가 아니라는 안내멘트를 출력후(104) 재입력을 요구한다(107).
예를 들면, 어떤 회사에 근무하는 사람의 이름을 인식하여 전화를 연결하는 음성인식 다이얼링(VAD) 시스템의 경우, "홍길동"이라는 사람이 근무를 하고 있다면, 시스템은 "홍길동"이라는 사람을 인식하고 사용자의 검증을 거친 후 해당 전화번호를 다이얼링해 줄 것이다. 하지만, "홍길동"이라는 사람이 회사를 떠난 경우라면, 도 2의 발음사전에서 "홍길동"이라는 이름은 지워지고, 시스템은 더이상 "홍길동"이라는 이름을 인식하지 못하게 된다. 이러한 경우, 이전에 "홍길동"과 통화를 했던 사람이 "홍길동"이라고 발화한 경우, 시스템은 결코 "홍길동"이라는 결과를 출력하지 못하게 되고, 사용자는 계속 사용하면서 시간을 낭비하다가 다른 대안을 찾게 될 것이다.
이렇게 낭비되는 시간은 다음과 같이 하면 대폭 줄여질 수 있다.
예를 들면, "홍길동"과 같이 회사에 근무하다가 다른 곳으로 옮겨서 인식을 할 필요가 없는 경우에도 하나의 그룹으로 만들어 인식은 하되, 인식결과에 따른 안내를 다르게, 즉 "홍길동은 현재 근무하고 있지 않습니다"와 같은 유형의 안내를 해 준다면 다음 서비스 이용시 다시 "홍길동"을 찾는 수고를 덜 수 있을 것이다. 따라서, 이처럼 서비스 대상이 아닌 어휘들(비대상 어휘 목록)을 관리할 수 있는 방안이 필수적으로 요구된다.
아울러, 도 2의 발음사전과 같이 단어나 어휘들을 관리할 경우, 인식된 결과는 그래로 문자열로 나오게 된다. 즉, 입력된 음성의 인식결과가 "홍길동"으로 나오는 경우, 인식기의 결과도 "홍길동"이라는 문자열로 전달받게 되는 것이다. 하지만, 이렇게 되면 인식결과와 관계없는 단어 군과 일일이 비교해야만 하므로 서비스 지연이 발생할 수 있다. 따라서, 이러한 서비스 지연을 해결할 수 있는 방안이 아울러 요구된다.
본 발명은, 상기와 같은 요구에 부응하기 위하여 제안된 것으로, 서비스에서 제외된 인식명칭들을 인식단어 목록에서 제거하는 것이 아니라 새로운 그룹으로 묶고, 이때 인식결과를 문자가 아닌 숫자로 넘겨 줌으로써, 숫자의 범위에 따라 서비스 이외의 인식결과는 서비스가 제공되지 않는다고 즉시 안내하여, 사용자의 편의성을 증대시키고 서비스 지연 현상을 해결하기 위한 비대상 어휘 관리 방법 및 그 를 이용한 음성인식 서비스 방법과 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명은, 음성인식 시스템에서의 음성인식 서비스 방법에 있어서, 비대상 어휘 관리부에서 서비스에 필요없지만 필요없이 자주 입력되는 명칭들을 대상으로 서비스에 필요한 어휘들(서비스 대상 어휘 목록)과 별도의 비서비스 대상 어휘 목록을 만들어, 사용빈도수 및 적용 날짜 정보를 바탕으로 유지ㆍ삭제를 관리하는 단계; 인식대상 음성 입력시에, 인식 처리부가 음성인식하여, 상기 비서비스 대상 어휘 목록을 바탕으로 인식결과로서 인식명칭과 '비서비스 대상 어휘군에 속함을 나타내는 인식번호'를 넘겨 주는 단계; 및 시나리오 처리부에서 상기 '비서비스 대상 어휘군에 속함을 나타내는 인식번호'의 범위를 판단하여, 비서비스 대상 어휘에 대해 서비스 대상이 아님을 즉시 안내하는 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은, 인식대상 음성 입력시에, 상기 인식 처리부가 음성인식하여, 상기 서비스 대상 어휘 목록을 바탕으로 인식결과로서 인식명칭과 '서비스 대상 어휘군에 속함을 나타내는 인식번호'를 넘겨 주는 단계; 및 상기 시나리오 처리부에서 상기 '서비스 대상 어휘군에 속함을 나타내는 인식번호'의 범위를 판단하여, 서비스 대상 어휘에 대해 해당 서비스를 제공하는 단계를 더 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은, 비대상 어휘 관리를 통한 음성인식 서비스를 위하여, 프로세서를 구비한 음성인식 시스템에, 비대상 어휘 관리부에서 서비스에 필요없지만 필요없이 자주 입력되는 명칭들을 대상으로 서비스에 필요한 어휘들(서비스 대상 어휘 목록)과 별도의 비서비스 대상 어휘 목록을 만들어, 사용빈도수 및 적용 날짜 정보를 바탕으로 유지ㆍ삭제를 관리하는 기능; 인식대상 음성 입력시에, 인식 처리부가 음성인식하여, 상기 비서비스 대상 어휘 목록을 바탕으로 인식결과로서 인식명칭과 '비서비스 대상 어휘군에 속함을 나타내는 인식번호'를 넘겨 주는 기능; 및 시나리오 처리부에서 상기 '비서비스 대상 어휘군에 속함을 나타내는 인식번호'의 범위를 판단하여, 비서비스 대상 어휘에 대해 서비스 대상이 아님을 즉시 안내하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명은, 인식대상 음성 입력시에, 상기 인식 처리부가 음성인식하여, 상기 서비스 대상 어휘 목록을 바탕으로 인식결과로서 인식명칭과 '서비스 대상 어휘군에 속함을 나타내는 인식번호'를 넘겨 주는 기능; 및 상기 시나리오 처리부에서 상기 '서비스 대상 어휘군에 속함을 나타내는 인식번호'의 범위를 판단하여, 서비스 대상 어휘에 대해 해당 서비스를 제공하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명은 서비스를 제공하면서 서비스에 원래 포함되어 있지 않았던 어휘나 포함되어 있던 어휘가 제외된 경우, 이들을 새로운 그룹(비대상 어휘 그룹)으로 만들어 인식대상에 남겨 놓고 인식을 수행하되, 이때 인식결과는 원래의 인식명칭이 아닌 "인식대상 단어가 아니라는 결과"를 리턴(return)하도록 하며, 이 그룹에 속한 날짜 누적치와 사용빈도에 따라 점차적으로 비대상 어휘 그룹에서도 제외시킨다.
본 발명을 적용하면, 사용자가 서비스 내용과 무관한 어휘를 입력하여도 거부감을 유발하지 않게 좀더 유연하게 서비스를 제공할 수 있으므로 음성인식을 이용한 서비스 성공률을 크게 높힐 수 있게 된다. 즉, 서비스 내용에 포함시켜 인식 하였던 명칭이 시나리오 변경이나 관련 데이터의 변경으로 인식명칭에서 제외된 경우에도 인식되었던 것이 갑자기 되지 않아서 서비스 이용자들의 혼란을 유발하지 않게 하고 서비스에 대한 친근감을 계속 유지할 수 있게 한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 3 은 본 발명이 적용되는 음성인식 서비스 시스템의 구성 예시도이다.
본 발명이 적용되는 음성인식 서비스 시스템은 공지의 음성인식 서비스 시스템에 있어서 비대상 어휘 목록을 관리하는 비대상 어휘 관리부(35)가 더 구비된다.
전처리부(37)에서의 음성인식 전처리 과정을 살펴보면, 전화망 정합부(31)를 통해 입력되는 음성의 앞뒤에 있는 묵음 구간을 제외한 음성구간을 찾아, 찾은 음성 구간의 음성신호로부터 음성의 특징을 추출한다.
서비스가 제공되기 전에, 시나리오 처리부(32)의 시나리오에 따라 필요한 인식 어휘가 인식 어휘 관리부(33)에 보내지며, 비대상 어휘는 관리자에 의해서 수동으로 입력되거나, 인식 어휘 관리부(33)에서 이전 데이터와 새로운 데이터를 비교하여 인식할 필요가 없는 인식어휘들을 자동으로 생성하여 비대상 어휘 관리부(35)로 보내진다. 그러면, 비대상 어휘 관리부(35)에서는 도 4와 같은 비대상 어휘 목록 관리 과정을 거친 후 발음사전 관리부(34)로 보낸다.
여기서, 초기에 서비스에 필요없지만 필요없이 자주 입력되는 명칭들을 관리자가 수동으로 설정하거나, 인식 어휘 관리부(33)에서 네트워크로 연결된 시스템에 서 관련 자료를 받아 이전 자료와의 차이를 이용하여 새로운 데이터에서 빠진 어휘를 해당 날짜와 카운터를 초기화시켜 비대상 어휘 군에 자동으로 첨가한다.
이후, 발음사전 관리부(34)는 인식 어휘 관리부(33)와 비대상 어휘 관리부(35)에서 보내온 어휘들을 통합하여 인식에 필요한 발음사전과 인식결과 기호를 만들어 인식 처리부(38)로 보낸다. 또한, 인식에 필요한 HMM 파라미터 역시 HMM 파라미터 처리부(36)에서 인식 처리부(38)로 보내진다.
이해를 돕기 위하여, 인식 처리부(38)에서의 음성인식 처리 과정을 구체적으로 살펴보면 다음과 같다.
먼저, 비터비 탐색 과정을 수행하여, 음소 모델 데이터베이스로 구성된 발음사전에 등록된 단어들에 대해 전처리부(37)의 음성 특징값을 이용하여 유사도(Likelihood)가 가장 유사한 단어들을 선정한다.
이어서, 발화 검증 과정을 수행하여, 비터비 탐색 과정에서 선정된 단어를 이용하여 음소단위로 특징구간을 분할한 후에, 반음소 모델을 이용하여 음소단위의 유사 신뢰도(Likelihood Ratio Confidence Score)를 구한다.
이때, 문장을 인식할 경우에도 상기의 발화 검증 과정은 동일하게 적용되어 문법만 추가되며, 문장단위의 검증이 된다.
상기의 신뢰도는 비터비 탐색 결과 수치와는 의미가 다르다. 즉, 비터비 탐색 결과 수치는 어떤 단어나 음소에 대한 단순한 유사도를 나타낸 것인 반면에, 신뢰도는 인식된 결과인 음소나 단어에 대해 그 외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값을 의미한다.
신뢰도를 결정하기 위해서는 음소(Phone) 모델과 반음소(Anti-phone) 모델이 필요하다.
먼저, 음소 모델은 어떤 음성에서 실제로 발화된 음소들을 추출하여 추출된 음소들을 훈련시켜 생성된 HMM이다. 이러한 음소 모델은 일반적인 HMM에 근거한 음성인식 시스템에서 사용되는 모델이다.
한편, 반음소 모델은 실제 발화된 음소와 아주 유사한 음소들(이를 유사음소집합(Cohort Set)이라 함)을 사용하여 훈련된 HMM을 말한다.
이와 같이, 음성인식 시스템에서는 사용하는 모든 음소들에 대해서 각기 음소 모델과 반음소 모델이 존재한다. 예를 들어 설명하면, "ㅏ"라는 음소에 대해서는 "ㅏ" 음소 모델이 있고, "ㅏ"에 대한 반음소 모델이 존재하게 되는 것이다. 예를 들면, "ㅏ" 음소의 모델은 음성 데이터베이스에서 "ㅏ"라는 음소만을 추출하여 HMM의 훈련 방식대로 훈련을 시켜서 만들어지게 된다. 그리고, "ㅏ"에 대한 반음소 모델을 구축하기 위해서는 "ㅏ"에 대한 유사음소집합을 구해야 한다. 이는 음소인식 결과를 보면 구할 수 있는데, 음소인식 과정을 수행하여 "ㅏ" 이외의 다른 어떤 음소들이 "ㅏ"로 오인식되었는지를 보고 이를 모아서 "ㅏ"에 대한 유사음소집합을 결정할 수 있다. 즉, "ㅑ, ㅓ, ㅕ" 등의 음소들이 주로 "ㅏ"로 오인식되었다면 이들을 유사음소집합이라 할 수 있고, 이들을 모아서 HMM 훈련과정을 거치면 "ㅏ" 음소에 대한 반음소 모델이 생성된다.
이와 같은 방식으로 모든 음소에 대하여 음소 모델과 반음소 모델이 생성되었다면, 입력된 음성에 대한 신뢰도는 다음과 같이 계산된다.
우선, 음소 모델을 탐색하여 가장 유사한 음소를 하나 찾아낸다.
그리고, 찾아낸 음소에 대한 반음소 모델에 대한 유사도를 계산해 낸다.
최종적인 신뢰도는 음소 모델에 대한 유사도와 반음소 모델에 대한 유사도의 차이를 구하고, 이에 소정의 특정함수를 적용시켜 신뢰도값의 범위를 조절하여 구할 수 있다.
인식 처리부(38)의 인식결과는 비대상 어휘 관리부(35)로 보내지고, 아울러 시나리오 처리부(32)를 통해 전화망 정합부(31)에 연결된 전화망을 경유하여 발신측으로 전달된다.
도 4 는 본 발명에 따른 음성인식 서비스를 위한 비대상 어휘 목록 관리 과정에 대한 일실시예 흐름도로서, 비대상 어휘 관리부(35)에서의 비대상 어휘 목록 관리 절차를 나타낸다.
전술한 바와 같이 수동이나 자동으로 만들어진 비대상 어휘 목록은 도 5에 도시된 바와 같이 목록 각각에 카운터와 날짜 정보가 같이 관리된다.
도 5의 비대상 어휘 목록을 살펴보면, 첫 번째 열은 인식 처리부(38)에서 인식결과로 리턴(return)하는 정보 중의 하나인 해당 그룹에 대한 일련번호들이다. 두 번째 열은 비대상 어휘 명칭들이다. 세 번째 열은 사용빈도수를 나타내는 카운터, 네 번째 열은 목록에 입력된 날짜이다. 이 빈도수와 날짜를 가지고 비대상 어휘 관리부(35)에서 삭제할 것인지를 자동적으로 판단한다.
최초, 비대상 어휘 관리부(35)에서는 비대상 어휘 목록(하기의 도 5 참조)을 설정해 두고(401), 그룹 리스트 각각에 카운터 값을 "0"으로 설정해 둔다(402).
이후, 인식 처리부(38)에서 출력된 결과가 비대상 어휘 목록(도 5 참조)에 속한 결과로 나오면(403,404), 해당되는 목록의 카운터를 증가시킨다(405).
만약, 각 항목들이 목록에 속한 날짜와 대응되는 카운터를 조사하여(406), 사용된 적이 없는 경우, 즉 카운터 값이 "0"인 경우는 비대상 어휘 목록(도 5 참조)에서 제외시키고(407) 새로운 목록을 만들어 이를 발음사전 관리부로 보내어(408) 인식 처리부(38)에 적용시킨다.
도 6 는 본 발명에 따른 음성인식 서비스 방법에 대한 일실시예 흐름도이다.
먼저, 음성이 입력되면(601), 전처리 과정을 거쳐 인식 처리부(38)에서 음성인식을 하고(602), 인식결과를 시나리오 처리부(32)로 넘겨, 시나리오 처리부(32)에서는 인식결과가 예를 들면 800,000이 넘는 경우(서비스 대상 이외의 명칭군인 경우, 즉 비 서비스 대상 명칭군, 서술어 명칭군 등) 서비스 대상 단어가 아니므로 숫자만을 보고도 이에 대한 안내(서비스 대상이 아님을 안내)를 하고(604) 음성의 재입력을 요구하며(605), 넘지 않는 경우(서비스 대상 명칭군에 속하는 경우) 인식단어를 검증하는 단계(606)를 거쳐 검증에 성공하면 서비스를 제공한다(609).
이때, 검증에 실패한 경우 서비스 대상이 아님을 안내한 후(604) 음성의 재입력을 요구할 수 있고(605), 검증이 애매한 경우 확인 과정을 거쳐(607) 확인에 성공하면 서비스를 제공하고(609), 확인에 실패한 경우 죄송하다는 종류의 방송을 출력하고(608) 재입력을 요구한다(605). 이 경우는 도 1의 경우보다 사용자가 서비스 이용에 따른 시행착오를 하지 않게 하여 서비스에 대한 호감도를 계속 유지할 수 있다.
인식 처리부(38)에서 인식된 결과를 출력할 때에 인식명칭으로 출력을 할 수 있지만, 이러한 경우 전술한 바와 같이 시나리오 처리부(32)에서는 어떤 군에 속하는지를 알기 위해 출력과 등록된 어휘들을 일일이 비교하여 처리해야 한다. 즉, 상기 도 2와 같이 관리할 경우, 인식된 결과는 문자열로 나오게 된다. 따라서, 입력된 인식결과가 "홍길동"으로 나오는 경우 인식기의 결과도 "홍길동"이라는 문자열로 전달받는 것이다. 하지만, 시나리오 처리부(32)에서는 인식결과와 관계되는 단어 군과 일일이 비교하여야만 하므로 서비스 지연 현상이 발생한다.
이러한 서비스 지연 현상을 해소하기 위해, 도 7과 같이 어휘 관리시 인식명칭과 인식번호 그리고 발음사전을 같이 관리하고 인식 처리부(38)에서 인식명칭과 함께 번호를 같이 준다면, 시나리오 처리부(32)가 인식결과를 인식 처리부(38)에서 받았을 경우에 인식명칭들과 비교해 보지 않아도 간단하게 어느 군에 속하는지를 알 수 있게 된다. 이렇게 하면, 각 서비스 대상 어휘군에 새로운 어휘가 추가되더라도 시나리오에 프로그램을 변경하지 않아도 되어 편리하다.
음성인식 서비스 중에 회사이름을 인식하여 해당되는 전화번호를 다이얼링(dialing) 해주는 서비스(VAD 서비스) 시스템이 인식하고 있는 어휘 수는 600개 회사 명칭과 그 파생어휘를 포함하여 1000개가 인식어휘로 등록되어 있는데 사용자 이용성향을 분석해 보니 사용음성의 60%가 등록되지 않은 어휘가 음성으로 입력되었으며, 미 등록어의 87%가 서비스와 완전히 관계없는 어휘의 음성입력으로 밝혀졌다. 또한, 미등록어휘 중 특정한 어휘와 그 파생 어휘 하나가 차지하는 비율이 미등록어의 33%를 차지하고 있었다. 본 발명에 따르면, 이러한 경우 이 단어들 을 제대로 처리해 줄 수만 있게 되면, 서비스 성공률은 기존의 40%에서 20% 증가된 60%로 대폭 향상된다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 사용자가 서비스 시스템에 등록된 단어가 아닌 것을 말하더라도 시스템이 유연하게(서비스 지연없이) 처리할 가능성을 높일 수 있으며, 사용자가 같은 실패를 다음에는 겪지 않도록 할 수 있게 하여 서비스에 대한 호감도를 높일 수 있고, 또한 인식명칭을 관리하는데 있어서 인식명칭과 번호를 같이 사용함으로써 인식결과를 숫자 및 문자로 받고 숫자의 범위에 따라 어휘 군을 간편하게 분류할 수 있게 되며, 인식명칭 추가에 따른 시스템 시나리오 프로그램의 변경을 하지 않아도 되는 효과가 있다.

Claims (7)

  1. 음성인식 시스템에서의 음성인식 서비스 방법에 있어서,
    비대상 어휘 관리부에서 서비스에 필요없지만 필요없이 자주 입력되는 명칭들을 대상으로 서비스에 필요한 어휘들(서비스 대상 어휘 목록)과 별도의 비서비스 대상 어휘 목록을 만들어, 사용빈도수 및 적용 날짜 정보를 바탕으로 유지ㆍ삭제를 관리하는 단계;
    인식대상 음성 입력시에, 인식 처리부가 음성인식하여, 상기 비서비스 대상 어휘 목록을 바탕으로 인식결과로서 인식명칭과 '비서비스 대상 어휘군에 속함을 나타내는 인식번호'를 넘겨 주는 단계; 및
    시나리오 처리부에서 상기 '비서비스 대상 어휘군에 속함을 나타내는 인식번호'의 범위를 판단하여, 비서비스 대상 어휘에 대해 서비스 대상이 아님을 즉시 안내하는 단계
    를 포함하는 비대상 어휘 관리를 통한 음성인식 서비스 방법.
  2. 제 1 항에 있어서,
    인식대상 음성 입력시에, 상기 인식 처리부가 음성인식하여, 상기 서비스 대상 어휘 목록을 바탕으로 인식결과로서 인식명칭과 '서비스 대상 어휘군에 속함을 나타내는 인식번호'를 넘겨 주는 단계; 및
    상기 시나리오 처리부에서 상기 '서비스 대상 어휘군에 속함을 나타내는 인식번호'의 범위를 판단하여, 서비스 대상 어휘에 대해 해당 서비스를 제공하는 단계
    를 더 포함하는 비대상 어휘 관리를 통한 음성인식 서비스 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 비서비스 대상 어휘 목록은,
    상기 인식 처리부에서 인식결과로 리턴(return)하는 정보 중의 하나인 해당 그룹에 대한 일련번호 정보, 비대상 어휘 명칭 정보, 사용빈도수를 나타내는 카운터 정보, 목록에 입력된 날짜 정보를 포함하며, 상기 카운터 정보와 날짜 정보를 바탕으로 상기 비대상 어휘 관리부에서 삭제할 것인지를 자동적으로 판단하는 것을 특징으로 하는 비대상 어휘 관리를 통한 음성인식 서비스 방법.
  4. 제 3 항에 있어서,
    상기 비대상 어휘 관리부는,
    비서비스 대상 어휘군을, 상기 인식 처리부의 결과를 이용하여 사용 빈도수를 나타내는 해당 어휘의 카운터 값을 증감시키고, 적용된 날짜의 길이에 따라 감소시키는 것을 특징으로 하는 비대상 어휘 관리를 통한 음성인식 서비스 방법.
  5. 제 3 항에 있어서,
    상기 인식 처리부는,
    인식대상 어휘마다 인식명칭과 인식번호를 같이 관리하며, 인식결과로 인식명칭과 인식번호를 같이 주어, 인식결과가 속한 군을 상기 시나리오 처리부에서 숫자로 판단하게 할 수 있는 것을 특징으로 하는 비대상 어휘 관리를 통한 음성인식 서비스 방법.
  6. 비대상 어휘 관리를 통한 음성인식 서비스를 위하여, 프로세서를 구비한 음성인식 시스템에,
    비대상 어휘 관리부에서 서비스에 필요없지만 필요없이 자주 입력되는 명칭들을 대상으로 서비스에 필요한 어휘들(서비스 대상 어휘 목록)과 별도의 비서비스 대상 어휘 목록을 만들어, 사용빈도수 및 적용 날짜 정보를 바탕으로 유지ㆍ삭제를 관리하는 기능;
    인식대상 음성 입력시에, 인식 처리부가 음성인식하여, 상기 비서비스 대상 어휘 목록을 바탕으로 인식결과로서 인식명칭과 '비서비스 대상 어휘군에 속함을 나타내는 인식번호'를 넘겨 주는 기능; 및
    시나리오 처리부에서 상기 '비서비스 대상 어휘군에 속함을 나타내는 인식번호'의 범위를 판단하여, 비서비스 대상 어휘에 대해 서비스 대상이 아님을 즉시 안내하는 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  7. 제 6 항에 있어서,
    인식대상 음성 입력시에, 상기 인식 처리부가 음성인식하여, 상기 서비스 대상 어휘 목록을 바탕으로 인식결과로서 인식명칭과 '서비스 대상 어휘군에 속함을 나타내는 인식번호'를 넘겨 주는 기능; 및
    상기 시나리오 처리부에서 상기 '서비스 대상 어휘군에 속함을 나타내는 인식번호'의 범위를 판단하여, 서비스 대상 어휘에 대해 해당 서비스를 제공하는 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020030003603A 2003-01-20 2003-01-20 비대상 어휘 관리를 통한 음성인식 서비스 방법 KR100541759B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030003603A KR100541759B1 (ko) 2003-01-20 2003-01-20 비대상 어휘 관리를 통한 음성인식 서비스 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030003603A KR100541759B1 (ko) 2003-01-20 2003-01-20 비대상 어휘 관리를 통한 음성인식 서비스 방법

Publications (2)

Publication Number Publication Date
KR20040066520A KR20040066520A (ko) 2004-07-27
KR100541759B1 true KR100541759B1 (ko) 2006-01-10

Family

ID=37356339

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030003603A KR100541759B1 (ko) 2003-01-20 2003-01-20 비대상 어휘 관리를 통한 음성인식 서비스 방법

Country Status (1)

Country Link
KR (1) KR100541759B1 (ko)

Also Published As

Publication number Publication date
KR20040066520A (ko) 2004-07-27

Similar Documents

Publication Publication Date Title
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US9368111B2 (en) System and method for targeted tuning of a speech recognition system
US7711105B2 (en) Methods and apparatus for processing foreign accent/language communications
US8392188B1 (en) Method and system for building a phonotactic model for domain independent speech recognition
US20090287483A1 (en) Method and system for improved speech recognition
US5937383A (en) Apparatus and methods for speech recognition including individual or speaker class dependent decoding history caches for fast word acceptance or rejection
JP2001005488A (ja) 音声対話システム
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
US7447636B1 (en) System and methods for using transcripts to train an automated directory assistance service
KR20110095338A (ko) 검색 용어에 대한 인덱싱 가중치 할당
US20040186819A1 (en) Telephone directory information retrieval system and method
CA2481080C (en) Method and system for detecting and extracting named entities from spontaneous communications
US20080147400A1 (en) Adapting a language model to accommodate inputs not found in a directory assistance listing
US8423354B2 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
WO2008150003A1 (ja) キーワード抽出モデル学習システム、方法およびプログラム
CN113744742A (zh) 对话场景下的角色识别方法、装置和***
KR100541759B1 (ko) 비대상 어휘 관리를 통한 음성인식 서비스 방법
JP2000250593A (ja) 話者認識装置及び方法
KR100952974B1 (ko) 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체
KR101002135B1 (ko) 음절 음성인식기의 음성인식결과 전달 방법
JP5215512B2 (ja) 発声内に含まれる会社名の自動認識方法
KR100931790B1 (ko) 음성인식 시스템에서 발음명칭목록을 이용한 인식사전 생성 방법 및 그를 이용한 유사발음명칭 처리 방법
KR101002165B1 (ko) 사용자 음성 분류 장치 및 그 방법과 그를 이용한음성인식 서비스방법
JP2002532763A (ja) 音声によって動作される自動問合せシステム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121205

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20131205

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee