KR100718147B1 - 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 - Google Patents

음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 Download PDF

Info

Publication number
KR100718147B1
KR100718147B1 KR1020060009868A KR20060009868A KR100718147B1 KR 100718147 B1 KR100718147 B1 KR 100718147B1 KR 1020060009868 A KR1020060009868 A KR 1020060009868A KR 20060009868 A KR20060009868 A KR 20060009868A KR 100718147 B1 KR100718147 B1 KR 100718147B1
Authority
KR
South Korea
Prior art keywords
word
dialogue
dialogue sentence
generating
map
Prior art date
Application number
KR1020060009868A
Other languages
English (en)
Other versions
KR20060088512A (ko
Inventor
황광일
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20060088512A publication Critical patent/KR20060088512A/ko
Application granted granted Critical
Publication of KR100718147B1 publication Critical patent/KR100718147B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체 음성인식장치 및 방법이 개시된다. 음성인식용 문법망 생성장치는 시스템과 사용자간에 진행된 대화이력을 저장하는 대화이력 저장부; 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되며, 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어별로 의미적으로 상관도를 갖는 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제1 후보 그룹을 생성하는 의미 맵; 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되며, 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어 및 제1 후보그룹에 포함된 각 단어별로 음향적으로 유사한 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제2 후보 그룹을 생성하는 음향 맵; 및 제1 후보 그룹에 포함된 단어들과 제2 후보 그룹에 포함된 단어들을 랜덤하게 조합하여 문법망을 구성하는 문법망 구성부로 이루어진다.

Description

음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체 음성인식장치 및 방법{Apparatus and method of generating grammar network for speech recognition and dialogue speech recognition apparatus and method employing the same}
도 1은 본 발명에 따른 음성인식용 문법망 생성장치의 구성을 보여주는 블럭도,
도 2는 도 1에 도시된 음향 맵 및 의미 맵의 생성과정을 설명하는 블럭도,
도 3은 본 발명에 따른 대화체 음성인식장치의 구성을 보여주는 블럭도, 및
도 4는 본 발명에 따른 대화체 음성인식방법을 동작을 설명하는 흐름도이다.
본 발명은 음성인식에 관한 것으로, 특히 진행된 이전 대화내용에 기반하여 적응적 및 자동적으로 음성인식용 문법망을 생성하는 장치 및 방법과 진행된 이전 대화내용에 기반하여 적응적 및 자동적으로 생성된 음성인식용 문법망을 이용하여 대화체 음성인식을 수행하는 장치 및 방법에 관한 것이다.
가상머쉰 혹은 컴퓨터와 같은 음성인식장치의 구성요소 중 복호기에 사용되 는 문법생성 알고리즘에는 잘 알려진 n-gram 방식, HMM(Hidden Markov Model) 방식, SAPI(Speech Application Programming Interface), VXML(Voice eXtensible Markup Language) 및 SALT(Speech Application Language Tags) 방식 등이 있다. 여기서, n-ram 방식에서는 음성인식장치와 사용자 간의 실시간 대화흐름 정보를 발화예측에 반영시키지 않고 있으며, HMM 방식에서는 사용자의 매 발화순간을 사용자 혹은 음성인식장치의 다른 발화순간들과는 완전히 독립적인 개별 확률사건으로 전제하고 있다. 한편, SAPI, VXML 및 SALT 방식은 미리 고정된 단순한 대화흐름에서 미리 정의된 문법들이 미리 정의된 시점에서만 로딩되어진다.
그 결과, 사용자의 발화내용이 미리 정의된 표준적인 문법 구조를 벗어나는 경우에는 음성인식장치에서 인식하는 것이 어렵게 되고, 이에 따라 음성인식장치가 사용자의 재발화를 요청하게 된다. 결국, 음성인식장치가 사용자의 발화를 인식하는데 소요되는 시간이 길어지게 되어 음성인식장치와 사용자간의 대화가 지루해질 뿐만 아니라 자연스럽지 못하게 되는 단점이 있다.
또한, 통계적 모델을 사용하는 n-gram 방식의 문법망 생성 방식은 대화체(Conversational)가 아닌 낭독체(Dictation) 음성인식기의 문법망 생성기에 적합할 수 있으나 대화체 음성인식에는 실시간 대화 흐름 정보가 발화예측으로 활용되지 않는 단점으로 인해 부적합하다. 또한, 계산언어 모델을 사용하는 CFG(Context Free Grammar) 방식의 SAPI, VXML 및 SALT 방식의 문법망 생성 방식은 대화체가 아닌 명령체(Command and Control) 음성인식기의 문법망 생성기에 적합할 수 있으나 대화체 음성인식에는 사용자의 대화흐름과 발화내용이 미리 설계된 고정적인 대화 흐름에서 벗어날 수 없는 단점으로 인해 부적합하다.
본 발명이 이루고자 하는 기술적 과제는 진행된 이전 대화내용에 따라서 적응적으로 및 자동적으로 음성인식용 문법망을 생성하기 위한 장치 및 방법을 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 진행된 이전 대화내용에 따라서 적응적으로 및 자동적으로 생성되는 음성인식용 문법망을 이용하여 대화체 음성인식을 수행하기 위한 장치 및 방법을 제공하는데 있다.
상기한 기술적 과제를 달성하기 위하여, 본 발명에 따른 음성인식용 문법망 생성장치는 시스템과 사용자간에 진행된 대화이력을 저장하는 대화이력 저장부; 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어별로 의미적으로 상관도를 갖는 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제1 후보 그룹을 생성하는 의미 맵; 상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어 및 상기 제1 후보그룹의 각 단어별로 음향적으로 유사한 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제2 후보 그룹을 생성하는 음향 맵; 및 상기 제1 후보 그룹에 포함된 단어들과 상기 제2 후보 그룹에 포함된 단어들을 조합하여 문법망을 구성하는 문법망 구성부를 포함한다.
상기한 기술적 과제를 달성하기 위하여, 본 발명에 따른 음성인식용 문법망 생성방법은 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되는 음향 맵을 생성하는 단계; 상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되는 의미 맵을 생성하는 단계; 상기 의미 맵을 활성화시켜 시스템과 사용자간에 진행된 대화이력에 포함된 대화문장을 구성하는 각 단어별로 의미적으로 상관도를 갖는 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제1 후보 그룹을 생성하는 단계; 상기 음향 맵을 활성화시켜 시스템과 사용자간에 진행된 대화이력에 포함된 대화문장을 구성하는 각 단어 및 상기 제1 후보 그룹에 포함된 각 단어별로 음향적으로 유사한 적어도 하나의 단어를 추출하고, 각 단어별로 추출된 복수개의 단어들로 이루어지는 제2 후보 그룹을 생성하는 단계; 및 상기 제1 후보 그룹에 포함된 단어들과 상기 제2 후보 그룹에 포함된 단어들을 조합하여 문법망을 구성하는 단계를 포함한다.
상기한 다른 기술적 과제를 달성하기 위하여, 본 발명에 따른 대화형 음성인식장치는 사용자 음성으로부터 특징을 추출하여 특징벡터열을 생성하는 특징추출부; 사용자 음성이 발화될 때마다, 가장 최근에 발화된 대화내용을 이용하여 음향 맵과 의미 맵을 활성화시켜 문법망을 생성하는 문법망 생성부; 상기 문법망 생성부에서 생성된 문법망을 로딩시키는 로딩부; 및 상기 특징추출부로부터 제공되는 특 징벡터열을 이용하여 상기 로딩부에서 로딩되는 문법망을 탐색하여, 상기 특징벡터열과 정합되는 단어열로 이루어지는 인식문장을 생성하는 탐색부를 포함한다.
상기한 다른 기술적 과제를 달성하기 위하여, 본 발명에 따른 대화형 음성인식방법은 사용자 음성으로부터 특징을 추출하여 특징벡터열을 생성하는 단계; 사용자 음성이 발화될 때마다, 가장 최근에 발화된 대화내용을 이용하여 음향 맵과 의미 맵을 활성화시켜 문법망을 생성하는 단계; 상기 생성된 문법망을 로딩시키는 단계; 및 상기 사용자 음성의 특징벡터열을 이용하여 상기 문법망을 탐색하여, 상기 특징벡터열과 정합되는 단어열로 이루어지는 인식문장을 생성하는 단계를 포함한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명하면 다음과 같다.
도 1은 본 발명에 따른 음성인식용 문법망 생성장치의 구성을 보여주는 블럭도로서, 대화이력 저장부(110), 의미 맵(130), 음향 맵(150), 및 문법망 구성부(170)을 포함하여 이루어진다.
도 1을 참조하면, 대화이력 저장부(110)는 음성인식기능을 구비한 가상머쉰 혹은 컴퓨터(이하, 시스템으로 약함)와 사용자간에 진행된 미리 설정된 턴(turn) 횟수만큼의 대화이력을 저장한다. 이에 따르면, 대화이력 저장부(110)에 저장되는 대화이력은 시스템과 사용자와의 대화가 진행됨에 따라서 갱신될 수 있다. 일예를 들면, 대화이력은 이전 사용자 음성에 대한 도 3의 탐색부(370)로부터 제공되는 복수개의 후보인식결과, 도 3의 발화검증부(380)로부터 제공되는 이전 사용자 음성에 대한 최종 인식결과, 도 3의 재발화 요청부(390)로부터 제공되는 재발화 요청 메시지, 및 이전 시스템 발화문장 중 적어도 하나 이상의 조합으로 이루어질 수 있다. 즉, 도 3의 발화검증부(380)로부터 제공되는 최종 인식결과가 존재하는 경우, 대화이력의 제1 예는 이전 사용자 음성에 대한 도 3의 탐색부(370)로부터 제공되는 복수개의 후보인식결과와 도 3의 발화검증부(380)로부터 제공되는 최종 인식결과를 포함하며, 이때 이전 사용자 음성이 발화되기 이전에 시스템으로부터 발화된 시스템 발화문장이 더 포함될 수 있다. 한편, 도 3의 발화검증부(380)로부터 제공되는 최종 인식결과가 존재하지 않는 경우, 대화이력의 제2 예는 이전 사용자 음성에 대한 도 3의 탐색부(370)로부터 제공되는 복수개의 후보인식결과와 도 3의 재발화 요청부(390)로부터 제공되는 재발화 요청 메시지를 포함하며, 마찬가지로 이전 사용자 음성이 발화되기 이전에 시스템으로부터 발화된 시스템 발화문장이 더 포함될 수 있다.
의미 맵(130)은 의미적인 상관도에 따라서 단어유사단위(word-like unit)들을 클러스터링하여 구성한 맵이다. 의미 맵(130)은 대화이력 저장부(110)에 저장된 대화이력 중에서 가장 최근의 대화문장을 구성하는 단어유사단위에 의해 활성화되며, 가장 최근의 대화문장에 있는 각 단어유사단위별로 의미적으로 상관이 높은 적어도 하나 이상의 단어유사단위들을 추출하고, 가장 최근의 대화문장에 있는 각 단어유사단위별로 추출된 복수개의 단어유사단위들로 이루어지는 제1 후보 그룹을 생성한다.
음향 맵(150)은 음향적인 유사도에 따라서 단어유사단위들을 클러스터링하여 구성한 맵이다. 음향 맵(150)은 대화이력 저장부(110)에 저장된 대화이력 중에서 가장 최근의 대화문장을 구성하는 단어유사단위와 의미 맵(130)에 의하여 활성화된 단어유사단위들에 의해 활성화되며, 가장 최근의 대화문장에 있는 각 단어유사단위별로 음향적으로 유사한 적어도 하나 이상의 단어유사단위들을 추출하고, 가장 최근의 대화문장에 있는 각 단어유사단위별로 추출된 복수개의 단어유사단위들로 이루어지는 제2 후보 그룹을 생성한다.
바람직하게는, 의미 맵(130) 및 음향 맵(150)에는 대화이력 저장부(110)에 저장된 대화이력 중 컴퓨터가 가장 최근에 인식한 사용자의 대화문장과 컴퓨터가 가장 최근에 발화한 대화문장이 각각 단어유사단위로 분리되어 수신된다.
문법망 구성부(170)는 의미 맵(130)으로부터 제공되는 제1 후보 그룹에 포함된 단어유사단위들과 음향 맵(150)으로부터 제공되는 제2 후보 그룹에 포함된 단어유사단위들을 랜덤하게 혹은 코퍼스로부터 추출된 다양한 방식으로 조합하여 문법망을 구성한다.
도 2는 도 1에 도시된 의미 맵(130) 및 음향 맵(150)의 생성과정을 설명하는 블럭도로서, 대화문장 코퍼스(210), 의미 맵 생성부(230) 및 음향 맵 생성부(250)를 포함하여 이루어진다.
대화문장 코퍼스(210)는 시스템과 사용자, 혹은 사람과 사람 사이에 가능한 모든 대화내용을 순차적인 대화문장(혹은 부분문장들)으로 나열하여 데이터베이스화하여 저장한다. 이때, 도메인 별로 대화문장을 구성하여 저장하는 것도 가능하다. 또한, 각 어휘의 다양한 사용예(usage)를 포함시켜 대화문장을 구성하는 것이 바람직하다. 여기서, 단어유사단위란, 각 대화문장을 구성하는 기본요소로서 하나 이상의 음절로 구성된 단어 혹은 단어열이며 단일한 의미와 단일한 발음의 쌍으로 이루어져 있다. 따라서 그 의미나 발음을 유지하는 한, 더 이상 쪼개지거나 다른 요소와 합쳐질 수 없다. 또한 동일한 의미와 동일한 발음의 쌍은 오로지 한 개만 정의된다. 반면, 발음은 같지만 의미가 약간씩이라도 다른 경우, 예를 들면 동음이의어(homonym), 동음이철어(homophone), 동철이의어(homograph), 다의어(polysemy)는 모두 나열하여 각각 다른 요소로 정의된다. 또한, 의미는 같지만 발음이 약간씩이라도 다른 경우, 예를 들면 사투리, 축약어 등도 모두 나열하여 각각 다른 요소로 정의된다.
의미 맵 생성부(230)는 대화문장 코퍼스(210)에 저장된 대화내용에 대하여 순차적으로 하나의 대화문장을 선택하고, 선택된 대화문 이전 시점에 위치하는 적어도 하나의 대화문과 선택된 대화문 이후 시점에 위치하는 적어도 하나의 대화문을 학습단위로 설정한다. 설정된 학습단위에 대하여 각 단어유사단위에 인접하여 발생되는 단어유사단위들을 의미적인 상관도가 높은 것으로 판단한다. 대화문장 코퍼스(210)에 포함되어 있는 모든 대화문장에 대하여 의미적인 상관도를 고려하여 클러스터링 혹은 분류기 학습(classifier training)을 수행하여 의미 맵을 생성한다. 이때 클러스터링 혹은 분류기 학습을 위해서는 코호넨 망(Kohonen network), 벡터양자화(vector quantization), 베이지안 망(Bayesian network), 인공신경망(Artificial neural network), 베이지안 트리(Bayesian tree) 등과 같은 다양한 알고리즘을 사용할 수 있다.
한편, 의미 맵 생성부(230)에서 정량적으로 단어유사단위간의 의미적 거리를 측정하는 방법은 다음과 같다. 기본적으로 의미적으로 대화문장 코퍼스(210)로부터 의미 맵 생성부(230)을 통해 의미 맵을 생성할 때 쓰이는 거리 측정은 함께 발생하는 정도(co-occurrence rate)이다. 함께 발생하는 정도에 대하여 좀 더 설명하면 다음과 같다. 대화문장 코퍼스(210)로부터 현재 시간 t에서 포인트하고 있는 문장(혹은 부분문장)을 중심으로 t-1에서 t를 포함하여 t+1까지의 문장들을 포함하는 윈도우를 씌운다. 이 경우는 하나의 윈도우에 세 개의 문장이 포함된다. 또한 t-1은 t-n이 될 수 있으며 t+1은 t+n이 될 수 있다. 이때 n은 1에서 7까지의 값이 바람직하나, 이에 한정되지는 않는다. 최대가 7인 이유는 인간의 단기기억의 한계가 7개의 단위이기 때문이다. 하나의 윈도우에 함께 존재하는(co-occurrence) 단어유사단위들에게 각각 서로가 서로를 가리키는 카운트를 한다. 예를 들어 해당 윈도우에 포함된 특정 문장에 "예 그래요"라는 문장이 있고 이 문장은 "예(yes)"와 "그래요(right)"라는 두 개의 단어유사단위로 구성이 되어 있으므로 "예(yes): 그래요(right)"가 1번 나타난 것으로 기록하고, 또한 "그래요(right): 예(yes)"가 1번 나타난 것으로 기록한다. 이렇게 함께 나타난 횟수를 나열하여 기록한 것을 나중에 전체 코퍼스의 내용에 대하여 카운트를 한다. 즉, 전체 코퍼스에 대하여 해당 크기의 윈도우를 시간에 따라 한 스텝씩 이동하면서 위의 동일한 카운트 작업을 수행한다. 전체 코퍼스에 대한 카운트 작업을 완료하면 전체 단어유사단위에 대하여 각각의 쌍(pair)에 대한 카운트 값(정수값)이 나오게 되며 이 정수값을 전체 모든 카운트 값의 합(total sum)으로 나누면 각각의 단어유사단어의 쌍(pair)은 0.0 에서 1.0 사이의 분수(fraction)값이 된다. 이것이 특정 단어유사단어 쌍의 정량적인 거리이다. 특정 단어유사단위 A와 그와 다른 특정 단어유사단위 B 사이의 거리는 특정 분수값이 된다. 이 값이 0.0 이라는 것의 의미는 한번도 함께 나타난 적이 없다는 것을 의미하며 이것이 1.0 이라는 것의 의미는 전체 코퍼스에 이 쌍(pair)만 존재하였고 다른 가능한 쌍은 단 한번도 나타나지 않았음을 의미한다. 결과적으로 대부분의 쌍에 대한 값은 1.0 보다는 작고 0.0 보다는 큰 임의의 값이 될 것이며, 모든 쌍의 값들을 합하면 1.0 이 될 것이다.
상기한 함께 발생하는 정도(co-occurrence rate)는 일반적인 언어학에서 정의되어 있는 모든 의미적 중요 관계를 정량적으로 바꾼 것에 해당한다. 즉, 반의어(antonym), 동의어(synonym), 유사단어(similar words), 상위개념(super concept)단어, 하위개념(sub concept)단어, 부분개념(part concept)단어 등이 모두 포함되며, 심지어는 어느 상황에서나 자주 나타나는 간투사(interjection)도 포함된다. 특히, 간투사의 경우 매우 다양한 단어유사단위와의 의미적 거리가 상당한 값을 가질 것이다. 반면, 조사(particle)의 경우에는 특정 문형에서만 인접하여 나타날 것이다. 즉, 한국어의 경우는 명사 뒤에만 나타날 것이다. 종래의 경우 이러한 언어적 지식을 일일이 수작업으로 정의해야 했으나, 본 발명의 경우 대화문장 코퍼스(210)에 대화문장들을 제대로 수집하면 자동으로 정리되며 정량적인 거리를 측정할 수 있게 된다. 그 결과, 대화의 흐름에 적합한 문법망을 만들어서 사용자의 발화를 예측할 수 있도록 한다.
음향 맵 생성부(250)는 대화문장 코퍼스(210)에 저장된 대화문장에 대하여 순차적으로 하나의 대화문장을 선택하고, 하나의 대화문장에 포함된 각 단어유사단위에 대하여 발음은 동일하나 사용예에 따라 다른 의미를 갖는 적어도 하나 이상의 단어유사단위 혹은, 발음은 다르나 동일한 의미를 가지는 적어도 하나 이상의 단어유사단위들을 매칭시킨다. 그러면, 하나의 단어유사단위에 매칭되는 적어도 하나 이상의 단어유사단위들에 대하여 음향적인 유사도에 따라서 의미별로 혹은 발음별로 인덱스를 부여한 다음, 클러스터링 혹은 분류기 학습을 수행하여 음향 맵을 생성한다. 이때, 의미 맵 생성부(250)에서와 마찬가지로 클러스터링 혹은 분류기 학습(classifier training)을 수행하여 음향 맵을 생성한다. 이때 클러스터링 혹은 분류기 학습을 위해서는 코호넨 망(Kohonen network), 벡터양자화(vector quantization), 베이지안 망(Bayesian network), 인공신경망(Artificial neural network), 베이지안 트리(Bayesian tree) 등과 같은 다양한 알고리즘을 사용할 수 있다. 음향 맵 생성부(250)에서 정량적으로 단어유사단위간의 음향적 거리를 측정하는 방법의 일예로는 한국공개특허번호 2001-0073506호(발명의 명칭:한국어 문자열간의 전역 유사도 측정방법)에 개시된 방법을 들 수 있다.
이하, 대화문장 코퍼스(210)가 다음 표 1과 같은 사용예를 포함하는 것으로 가정하고, 의미 맵 생성부(230)에서 생성된 의미 맵과 음향 맵 생성부(250)에서 생성된 음향 맵의 일 예를 설명하면 다음과 같다.
낟알, 낟가리, 낫놓고 기역자, 병이 낫다, 낮과 밤, 직위가 낮다, 무슨 낯으로 보나, 낱개, 낱낱이, 아기를 낳다, 새끼를 낳다, 배타고 바다에, 배가 아프다, 배가 맛있다, 말타다, 말과 글, 벌에 쏘이다, 벌을 받다, 눈이 안프다, 눈이 온다, 밤이 맛있다, 밤이 어둡다, 다리가 아프다, 다리를 건너다, 아침에 보자, 아침이 맛있다
이때, 단어유사단위는 다음 표 2와 같이 총 45개로 구성할 수 있다.
낟(grain) 알(egg) 가리(stack) 낫(sickle) 놓다(put) 기역(kiyok) 자(letter) 낫(recover) 병(sickness) 낮(day) 밤(night ) 낮(low) 직위(position) 낯(face) 보다(see) 낱(piece) 개(unit) 낳(bear) 아기(baby) 새끼(young) 알(egg)* 배(ship) 바다(sea) 배(stomach) 아프다(sick) 배(pear) 맛있다(tasty) 말(horse) 타다(ride) 말(language) 글(writing) 벌(bee) 쏘다(bite) 벌(punishment) 받다(get) 눈(eye) 아프다(sick)* 눈(snow) 오다(come) 밤(chestnut) 맛있다(tasty)* 밤(night) 어둡다(dark) 다리(leg) 아프다(sick)** 다리(bridge) 건너다(cross) 아침(morning) 보다(see)* 아침(breakfast) 맛있다(tasty)** (여기서 *, ** 는 중복을 나타내는 표시)
상기 표 2에 도시된 단어유사단어들을 이용하여 다음 표 3과 같이 발음과 어절간의 관계를 갖는 음향 맵과 표 4와 같이 각 어절간의 관계를 갖는 의미 맵을 생성한다.
Figure 112006007759008-pat00001
낟(grain) - 알(egg) 낟(grain) - 가리(stack) 낫(sickle) - 놓다(put) ... 기역(kiyok) - 자(letter) 병(sickness) - 낫(recover) 낮(day) = 밤(night ) 직위(position) - 낮(low) 낯(face) - 보다(see) 낱(piece) - 개(unit) 아기(baby) - 낳(bear) 새끼(young) - 낳(bear) 알(egg) - 낳(bear) 배(ship) = 바다(sea) 배(stomach) - 아프다(sick) 배(pear) - 맛있다(tasty) 말(horse) - 타다(ride) 말(language) = 글(writing) 벌(bee) - 쏘다(bite) 벌(punishment) - 받다(get) 눈(eye) - 아프다(sick) 눈(snow) - 오다(come) 밤(chestnut) - 맛있다(tasty) 밤(night) - 어둡다(dark) 다리(leg) - 아프다(sick) 다리(bridge) - 건너다(cross) 아침(morning) - 보다(see) 아침(breakfast) - 맛있다(tasty)
상기 표 3에서 '/·/' 는 발음을 나타내고, 표 4에서 '-'는 인접된 관계, '='는 발화순서에 상관없는 관계, '...'은 인접될 수도 스킵될(skipped) 수도 있는 관계를 나타낸다.
도 3은 본 발명에 따른 대화체 음성인식장치의 구성을 보여주는 블럭도로서, 특징추출부(310), 문법망 생성부(330), 로딩부(350), 탐색부(370), 음향모델(375), 발화검증부(380), 및 사용자 재발화 요청부(390)를 포함하여 이루어진다.
도 3을 참조하면, 특징추출부(310)는 사용자로부터 발화되는 음성신호를 입력받아, 멜주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficient) 등과 같은 음성인식에 유용한 특징벡터열로 변환한다.
문법망 생성부(330)는 가장 최근의 대화이력을 입력으로 하여 의미 맵(도 1의 130)과 음향 맵(도 1의 150)을 활성화시켜 문법망을 생성한다. 여기서, 가장 최근의 대화이력은 이전 사용자 음성에 대한 탐색부(370)로부터 제공되는 복수개의 후보인식결과, 발화검증부(380)로부터 제공되는 최종 인식결과 및 재발화 요청부(390)로부터 제공되는 재발화 요청 메시지 중 적어도 하나 이상의 조합으로 이루어질 수 있다. 문법망 생성부(330)의 세부적인 구성 및 이에 대한 구체적인 동작은 도 1에서 설명한 바와 같다.
로딩부(350)는 문법망 생성부(330)에서 생성된 문법망에 포함되는 음소들에 대한 음소결합정보를 문맥 자유 문법(Context Free Grammar) 등과 같은 구조로 표현하여 탐색부(370)로 로딩시킨다.
탐색부(370)는 특징추출부(310)로부터 현재 입력된 음성신호에 대한 특징벡터열을 입력받아, 로딩부(350)에서 로딩되는 음소결합정보를 토대로 음향모델(375)로부터 추출되는 음소모델들로 구성되는 문법망에 대하여 비터비 탐색을 수행하여 정합되는 단어열로 이루어지는 후보인식문장들(N-Best)을 찾는다.
발화검증부(380)는 탐색부(370)로부터 제공되는 후보인식문장들에 대하여 발화검증을 수행한다. 이때, 별도의 언어모델을 사용하지 않고서 본 발명에서 생성된 문법망을 적용하여 발화검증을 수행할 수 있다. 즉, 복수개의 후보인식문장 중 문법망을 이용하여 계산되는 유사도가 임계값 이상인 하나의 후보인식문장이 존재하는 경우 현재 사용자 음성입력의 발화검증에 성공한 것으로 판단하여 최종 인식결과를 출력하고, 모든 복수개의 후보인식문장에 대하여 계산된 유사도가 임계값 이하인 경우 현재 사용자 음성입력의 발화검증에 실패한 것으로 판단한다. 발화검증과 관련해서는 본 출원인이 이전에 출원한 한국특허출원번호 2004-0115069호(발명의 명칭:시계열 신호의 패턴 인식 가능성 판단 방법 및 장치)에 개시된 방법을 적용할 수 있다. 또한, 그외 기존의 다양한 공지 기술들을 이용하여 발화검증을 수행하는 것도 가능하다.
사용자 재발화 요청부(390)는 발화검증부(380)에서 후보인식문장들 모두에 대하여 발화검증에 실패한 경우, 액정과 같은 디스플레이(미도시)상에 사용자의 재발화를 요청하는 텍스트를 표시하거나, 스피커(미도시)를 통해 사용자의 재발화를 요청하는 시스템 발화문을 발생시킨다.
도 4는 본 발명에 따른 대화체 음성인식방법을 동작을 설명하는 흐름도이다.
도 4를 참조하면, 410 단계에서는 가장 최근의 대화이력, 즉 가장 최근에 사용자가 발화하여 시스템이 인식한 제1 대화문장과 가장 최근에 시스템이 발화한 제2 대화문장 중 적어도 하나 이상을 입력한다. 여기서, 제1 대화문장은 이전 사용자 음성에 대한 탐색부(370)로부터 제공되는 복수개의 후보인식결과 및 발화검증부(380)로부터 제공되는 최종 인식결과 중 적어도 하나 이상으로 이루어질 수 있고, 제2 대화문장은 재발화 요청부(390)로부터 제공되는 재발화 요청 메시지, 및 이전 시스템 발화문장 중 적어도 하나 이상으로 이루어질 수 있다.
420 단계에서는 410 단계에서 수신된 가장 최근의 대화이력을 이용하여 의미 맵(도 1의 130)과 음향 맵(도1 의 150)을 활성화시키고, 의미 맵(130)으로부터 제공되는 제1 후보 그룹에 포함된 복수개의 단어유사단위들과 음향 맵(150)으로부터 제공되는 제2 후보 그룹에 포함된 복수개의 단어유사단위들을 서로 랜덤하게 혹은 코퍼스로부터 추출된 다양한 방식으로 조합하여 문법망을 생성한다.
430 단계에서는 420 단계에서 생성되는 문법망에 포함되는 음소들에 대한 음소결합정보를 문맥 자유 문법 등과 같은 구조로 표현하여 비터비 탐색을 위하여 로딩한다.
440 단계에서는 410 단계에서 현재 입력된 음성입력에 대한 특징벡터열에 대하여, 430 단계에서 로딩된 음소결합정보를 토대로 음향모델(375)로부터 추출되는 음소모델들로 구성되는 문법망에 대하여 비터비 탐색을 수행하여 정합되는 단어열로 이루어지는 후보인식문장들(N-Best)을 찾는다.
450 단계에서는 440 단계에서의 탐색 결과, 후보인식문장들에 대하여 발화검증이 성공한 후보인식문장이 존재하는지를 판단한다. 460 단계에서는 450 단계에서의 판단 결과, 발화검증이 성공한 후보인식문장이 존재하는 경우 인식문장을 시스템이 발화하고, 470 단계에서는 발화검증이 성공한 후보인식문장이 존재하지 않는 경우 사용자에게 재발화를 요청한다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
상술한 바와 같이, 본 발명에 따르면 이전 대화내용을 반영하여 적응적 및 자동적으로 생성된 음성인식용 문법망을 이용하여 대화체 음성인식을 수행함으로써, 사용자가 표준적인 문법 구조를 벗어난 내용을 발화하더라도 용이하게 인식할 수 있으므로 사용자와 시스템간에 대화가 신속하고도 자연스럽게 진행될 수 있는 이점이 있다.
또한, 본 발명은 대화체(Conversational) 혹은 대화형(Dialogue-driven) 음성인식기의 문법망 생성기로서 기존 기술인 n-gram 방식 및 SAPI, VXML, SALT 방식을 대체할 수 있을 뿐만 아니라 사용자 발화예측 기능을 통해 높은 대화 인식률을 실현할 수 있도록 한다.
본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.

Claims (24)

  1. 시스템과 사용자간의 대화이력을 저장하는 대화이력 저장부;
    대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어별로 추출된 의미적인 상관도를 갖는 적어도 하나의 단어들로 이루어지는 제1 후보 그룹을 생성하는 의미 맵;
    상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어 및 상기 제1 후보그룹의 각 단어별로 추출된 음향적인 유사도를 갖는 적어도 하나의 단어들로 이루어지는 제2 후보 그룹을 생성하는 음향 맵; 및
    상기 제1 후보 그룹과 상기 제2 후보 그룹을 조합하여 문법망을 구성하는 문법망 구성부를 포함하는 것을 특징으로 하는 음성인식용 문법망 생성장치.
  2. 제1 항에 있어서, 상기 대화이력 저장부는 가장 최근의 대화내용을 저장하며, 저장된 대화내용은 대화가 진행됨에 따라서 갱신되어지는 것을 특징으로 하는 음성인식용 문법망 생성장치.
  3. 제1 항에 있어서, 상기 의미 맵 및 상기 음향 맵은 상기 대화이력 저장부에 저장된 대화이력 중 가장 최근에 상기 시스템이 인식한 대화문장과 상기 시스템이 발화한 대화문장에 의해 활성화되는 것을 특징으로 하는 음성인식용 문법망 생성장치.
  4. 제1 항에 있어서, 상기 단어는 각 대화문장을 구성하는 기본요소로서 하나 이상의 음절로 구성된 단어 혹은 단어열이며, 단일한 의미와 단일한 발음의 쌍으로 이루어지는 것을 특징으로 하는 음성인식용 문법망 생성장치.
  5. 제1 항에 있어서, 상기 대화문장 코퍼스는 시스템과 사용자 사이에 가능한 모든 대화내용을 다양한 사용예를 포함하는 순차적인 대화문장으로 구성하여 데이터베이스화한 것임을 특징으로 하는 음성인식용 문법망 생성장치.
  6. 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되는 음향 맵을 생성하는 단계;
    상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되는 의미 맵을 생성하는 단계;
    상기 의미 맵을 활성화시켜 시스템과 사용자간에 진행된 대화이력에 포함된 대화문장을 구성하는 각 단어별로 추출된 의미적인 상관도를 갖는 단어들로 이루어지는 제1 후보 그룹을 생성하는 단계;
    상기 음향 맵을 활성화시켜 상기 대화이력에 포함된 대화문장을 구성하는 각 단어 및 상기 제1 후보 그룹에 포함된 각 단어별로 추출된 음향적인 유사도를 갖는 단어들로 이루어지는 제2 후보 그룹을 생성하는 단계; 및
    상기 제1 후보 그룹과 상기 제2 후보 그룹을 조합하여 문법망을 구성하는 단계를 포함하는 것을 특징으로 하는 음성인식용 문법망 생성방법.
  7. 제6 항에 있어서, 상기 의미 맵과 상기 음향 맵은 사용자로부터 음성이 발화될 때마다 활성화되는 것을 특징으로 하는 음성인식용 문법망 생성방법.
  8. 제6 항에 있어서, 상기 제1 및 제2 후보 그룹은 가장 최근에 상기 시스템이 인식한 대화문장과 상기 시스템이 발화한 대화문장에 포함되는 단어들과 음향적 유사도 및 의미적 상관도를 갖는 단어들로 이루어지는 것을 특징으로 하는 음성인식용 문법망 생성방법.
  9. 제6 항에 있어서, 상기 단어는 각 대화문장을 구성하는 기본요소로서 하나 이상의 음절로 구성된 단어 혹은 단어열이며 단일한 의미와 단일한 발음의 쌍으로 이루어지는 것을 것을 특징으로 하는 음성인식용 문법망 생성방법.
  10. 사용자 음성으로부터 특징을 추출하여 특징벡터열을 생성하는 특징추출부;
    사용자 음성이 발화될 때마다, 가장 최근에 발화된 대화내용을 이용하여 음향 맵과 의미 맵을 활성화시켜 문법망을 생성하는 문법망 생성부;
    상기 문법망 생성부에서 생성된 문법망을 로딩시키는 로딩부; 및
    상기 특징추출부로부터 제공되는 특징벡터열을 이용하여 상기 로딩부에서 로딩되는 문법망을 탐색하여, 상기 특징벡터열과 정합되는 단어열로 이루어지는 후보인식문장을 생성하는 탐색부를 포함하는 것을 특징으로 하는 음성인식장치.
  11. 제10 항에 있어서, 상기 문법망 생성부는
    시스템과 사용자간의 대화이력을 저장하는 대화이력 저장부;
    대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어별로 추출된 의미적인 상관도를 갖는 적어도 하나의 단어들로 이루어지는 제1 후보 그룹을 생성하는 의미 맵;
    상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되며, 상기 대화이력 저장부로부터 제공되는 대화문장을 구성하는 각 단어 및 상기 제1 후보그룹의 각 단어별로 추출된 음향적인 유사도를 갖는 적어도 하나의 단어들로 이루어지는 제2 후보 그룹을 생성하는 음향 맵; 및
    상기 제1 후보 그룹과 상기 제2 후보 그룹을 조합하여 문법망을 구성하는 문법망 구성부로 이루어지는 것을 특징으로 하는 음성인식장치.
  12. 제11 항에 있어서, 상기 대화이력 저장부는 가장 최근의 대화내용을 저장하 며, 저장되는 대화내용은 대화가 진행됨에 따라서 갱신되어지는 것을 특징으로 하는 음성인식장치.
  13. 제11 항에 있어서, 상기 의미 맵 및 상기 음향 맵은 상기 대화이력 저장부에 저장된 대화이력 중 가장 최근에 상기 시스템이 인식한 대화문장과 상기 시스템이 발화한 대화문장에 의해 활성화되는 것을 특징으로 하는 음성인식장치.
  14. 제11 항에 있어서, 상기 단어는 각 대화문장을 구성하는 기본요소로서 하나 이상의 음절로 구성된 단어 혹은 단어열이며 단일한 의미와 단일한 발음의 쌍으로 이루어지는 것을 특징으로 하는 음성인식장치.
  15. 제11 항에 있어서, 상기 대화문장 코퍼스는 시스템과 사용자 사이에 가능한 모든 대화내용을 다양한 사용예를 포함하는 순차적인 대화문장으로 구성하여 데이터베이스화한 것임을 특징으로 하는 음성인식장치.
  16. 사용자 음성으로부터 특징을 추출하여 특징벡터열을 생성하는 단계;
    사용자 음성이 발화될 때마다, 가장 최근에 발화된 대화내용을 이용하여 음향 맵과 의미 맵을 활성화시켜 문법망을 생성하는 단계;
    상기 문법망을 로딩시키는 단계; 및
    상기 사용자 음성의 특징벡터열을 이용하여 상기 로딩된 문법망을 탐색하여, 상기 특징벡터열과 정합되는 단어열로 이루어지는 후보인식문장을 생성하는 단계를 포함하는 것을 특징으로 하는 음성인식방법.
  17. 제16 항에 있어서, 상기 문법망 생성단계는
    대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되는 음향 맵을 생성하는 단계;
    상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되는 의미 맵을 생성하는 단계;
    상기 의미 맵을 활성화시켜 시스템과 사용자간에 진행된 대화이력에 포함된 대화문장을 구성하는 각 단어별로 추출된 의미적인 상관도를 갖는 단어들로 이루어지는 제1 후보 그룹을 생성하는 단계;
    상기 음향 맵을 활성화시켜 상기 대화이력에 포함된 대화문장을 구성하는 각 단어 및 상기 제1 후보 그룹에 포함된 각 단어별로 추출된 음향적인 유사도를 갖는 단어들로 이루어지는 제2 후보 그룹을 생성하는 단계; 및
    상기 제1 후보 그룹과 상기 제2 후보 그룹을 조합하여 문법망을 구성하는 단계로 이루어지는 것을 특징으로 하는 음성인식방법.
  18. 제17 항에 있어서, 상기 제1 및 제2 후보 그룹은 가장 최근에 상기 시스템이 인식한 대화문장과 상기 시스템이 발화한 대화문장에 포함되는 단어들과 음향적 유사도 및 의미적 상관도를 갖는 단어들로 이루어지는 것을 특징으로 하는 음성인식 방법.
  19. 제17 항에 있어서, 상기 단어는 각 대화문장을 구성하는 기본요소로서 하나 이상의 음절로 구성된 단어 혹은 단어열이며 단일한 의미와 단일한 발음의 쌍으로 이루어지는 것을 것을 특징으로 하는 음성인식방법.
  20. 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 음향적인 유사도에 따라서 클러스터링하여 구성되는 음향 맵을 생성하는 단계;
    상기 대화문장 코퍼스에 포함되는 대화문장을 구성하는 단어들을 의미적인 상관도에 따라서 클러스터링하여 구성되는 의미 맵을 생성하는 단계;
    상기 의미 맵을 활성화시켜 시스템과 사용자간에 진행된 대화이력에 포함된 대화문장을 구성하는 각 단어별로 추출된 의미적인 상관도를 갖는 단어들로 이루어지는 제1 후보 그룹을 생성하는 단계;
    상기 음향 맵을 활성화시켜 상기 대화이력에 포함된 대화문장을 구성하는 각 단어 및 상기 제1 후보 그룹에 포함된 각 단어별로 추출된 음향적인 유사도를 갖는 단어들로 이루어지는 제2 후보 그룹을 생성하는 단계; 및
    상기 제1 후보 그룹과 상기 제2 후보 그룹을 조합하여 문법망을 구성하는 단계를 포함하는 음성인식용 문법망 생성방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  21. 사용자 음성으로부터 특징을 추출하여 특징벡터열을 생성하는 단계;
    사용자 음성이 발화될 때마다, 가장 최근에 발화된 대화내용을 이용하여 음향 맵과 의미 맵을 활성화시켜 문법망을 생성하는 단계;
    상기 문법망을 로딩시키는 단계; 및
    상기 사용자 음성의 특징벡터열을 이용하여 상기 로딩된 문법망을 탐색하여, 상기 특징벡터열과 정합되는 단어열로 이루어지는 후보인식문장을 생성하는 단계를 포함하는 음성인식방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  22. 사용자 음성으로부터 특징을 추출하고 특징벡터열을 생성하는 단계;
    사용자의 대화내용을 사용하여 의미맵과 음향맵을 활성화시켜 문법망을 생성하는 단계; 및
    상기 특징벡터열을 사용하여 문법망을 탐색하고, 상기 특징벡터열과 정합하는 단어열로 이루어지는 복수개의 후보인식 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 음성인식방법.
  23. 제22 항에 있어서, 상기 문법망은 상기 의미맵의 활성화에 의해 형성되는 제1 후보그룹과 상기 음성맵의 활성화에 의해 형성되는 제2 후보그룹을 결합하여 생성되는 것을 특징으로 하는 음성인식방법.
  24. 사용자 음성으로부터 특징을 추출하고 특징벡터열을 생성하는 단계;
    사용자와 시스템간의 대화내용을 사용하여 의미맵과 음향맵을 활성화시켜 문법망을 생성하는 단계; 및
    상기 특징벡터열을 사용하여 문법망을 탐색하고, 상기 특징벡터열과 정합하는 단어열로 이루어지는 복수개의 후보인식 문장을 생성하는 단계를 포함하는 음성인식방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020060009868A 2005-02-01 2006-02-01 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 KR100718147B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020050009144 2005-02-01
KR20050009144 2005-02-01

Publications (2)

Publication Number Publication Date
KR20060088512A KR20060088512A (ko) 2006-08-04
KR100718147B1 true KR100718147B1 (ko) 2007-05-14

Family

ID=36757750

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060009868A KR100718147B1 (ko) 2005-02-01 2006-02-01 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법

Country Status (2)

Country Link
US (1) US7606708B2 (ko)
KR (1) KR100718147B1 (ko)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US7689420B2 (en) * 2006-04-06 2010-03-30 Microsoft Corporation Personalizing a context-free grammar using a dictation language model
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天***及其实现方法
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US20140324528A1 (en) * 2013-03-14 2014-10-30 Adaequare Inc. Computerized System and Method for Determining an Action's Relevance to a Transaction
KR101905827B1 (ko) * 2013-06-26 2018-10-08 한국전자통신연구원 연속어 음성 인식 장치 및 방법
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US9922138B2 (en) 2015-05-27 2018-03-20 Google Llc Dynamically updatable offline grammar model for resource-constrained offline device
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US9870196B2 (en) * 2015-05-27 2018-01-16 Google Llc Selective aborting of online processing of voice inputs in a voice-enabled electronic device
US10083697B2 (en) * 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9940577B2 (en) * 2015-07-07 2018-04-10 Adobe Systems Incorporated Finding semantic parts in images
US9836527B2 (en) 2016-02-24 2017-12-05 Google Llc Customized query-action mappings for an offline grammar model
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
CA3101015A1 (en) 2018-05-23 2019-11-28 Vermeer Manufacturing Company Shredder for comminuting bulk material
US10861456B2 (en) * 2018-09-17 2020-12-08 Adobe Inc. Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network
CN109920432B (zh) * 2019-03-05 2024-06-18 联通在线信息科技有限公司 一种语音识别方法、装置、设备及存储介质
US11437026B1 (en) * 2019-11-04 2022-09-06 Amazon Technologies, Inc. Personalized alternate utterance generation
CN111178062B (zh) * 2019-12-02 2023-05-05 云知声智能科技股份有限公司 一种面向人机交互多轮对话语料的加速标注方法及装置
US11915697B2 (en) 2020-11-11 2024-02-27 Samsung Electronics Co., Ltd. Electronic device, system and control method thereof
US20220237632A1 (en) * 2021-01-22 2022-07-28 EMC IP Holding Company LLC Opportunity conversion rate calculator

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980013825A (ko) * 1996-08-03 1998-05-15 구자홍 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
KR20030010979A (ko) * 2001-07-28 2003-02-06 삼성전자주식회사 의미어단위 모델을 이용한 연속음성인식방법 및 장치
US20030110037A1 (en) * 2001-03-14 2003-06-12 Walker Marilyn A Automated sentence planning in a task classification system
US20030187648A1 (en) * 2002-03-27 2003-10-02 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
KR20040028722A (ko) * 2001-02-28 2004-04-03 보이스 인사이트 정보 시스템 억세스를 위한 자연어 질의 시스템
KR20040051350A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
KR20050049207A (ko) * 2003-11-21 2005-05-25 한국전자통신연구원 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
KR20050066805A (ko) * 2003-12-27 2005-06-30 주식회사 케이티 음절 음성인식기의 음성인식결과 전달 방법

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5774628A (en) * 1995-04-10 1998-06-30 Texas Instruments Incorporated Speaker-independent dynamic vocabulary and grammar in speech recognition
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
KR100342785B1 (ko) 2000-01-17 2002-07-04 정명식 한국어 문자열간의 전역 유사도 측정 방법
US7243069B2 (en) * 2000-07-28 2007-07-10 International Business Machines Corporation Speech recognition by automated context creation
US20020087312A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented conversation buffering method and system
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
WO2002086864A1 (en) * 2001-04-18 2002-10-31 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
DE10147341B4 (de) * 2001-09-26 2005-05-19 Voiceobjects Ag Verfahren und Vorrichtung zum Aufbau einer in einem Computersystem implementierten Dialogsteuerung aus Dialogobjekten sowie zugehöriges Computersystem zur Durchführung einer Dialogsteuerung
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition
US7299181B2 (en) * 2004-06-30 2007-11-20 Microsoft Corporation Homonym processing in the context of voice-activated command systems

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980013825A (ko) * 1996-08-03 1998-05-15 구자홍 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
KR20040028722A (ko) * 2001-02-28 2004-04-03 보이스 인사이트 정보 시스템 억세스를 위한 자연어 질의 시스템
US20030110037A1 (en) * 2001-03-14 2003-06-12 Walker Marilyn A Automated sentence planning in a task classification system
KR20030010979A (ko) * 2001-07-28 2003-02-06 삼성전자주식회사 의미어단위 모델을 이용한 연속음성인식방법 및 장치
US20030187648A1 (en) * 2002-03-27 2003-10-02 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
KR20040051350A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
KR20050049207A (ko) * 2003-11-21 2005-05-25 한국전자통신연구원 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
KR20050066805A (ko) * 2003-12-27 2005-06-30 주식회사 케이티 음절 음성인식기의 음성인식결과 전달 방법

Also Published As

Publication number Publication date
US20060173686A1 (en) 2006-08-03
KR20060088512A (ko) 2006-08-04
US7606708B2 (en) 2009-10-20

Similar Documents

Publication Publication Date Title
KR100718147B1 (ko) 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법
US9812122B2 (en) Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US8214213B1 (en) Speech recognition based on pronunciation modeling
EP0867857B1 (en) Enrolment in speech recognition
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US10832668B1 (en) Dynamic speech processing
US10515637B1 (en) Dynamic speech processing
US20040210437A1 (en) Semi-discrete utterance recognizer for carefully articulated speech
Smit et al. Aalto system for the 2017 Arabic multi-genre broadcast challenge
Ahmed et al. Arabic automatic speech recognition enhancement
Hieronymus et al. Spoken language identification using large vocabulary speech recognition
Diwakar et al. Improving speech to text alignment based on repetition detection for dysarthric speech
Hwang et al. Building a highly accurate Mandarin speech recognizer
Gauvain et al. Speech-to-text conversion in French
Kurian et al. Automated Transcription System for MalayalamLanguage
Gorniak et al. Augmenting user interfaces with adaptive speech commands
Hwang et al. Building a highly accurate Mandarin speech recognizer with language-independent technologies and language-dependent modules
Udhaykumar et al. Multilingual speech recognition for information retrieval in Indian context
Padmanabhan et al. Transcription of new speaking styles-Voicemail
Colton Confidence and rejection in automatic speech recognition
Demenko et al. Development of large vocabulary continuous speech recognition for polish
Raj et al. Design and implementation of speech recognition systems
Amdal Learning pronunciation variation: A data-driven approach to rule-based lecxicon adaptation for automatic speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130429

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140429

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150429

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160428

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170427

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180427

Year of fee payment: 12