KR20050054706A - 음성인식을 위한 어휘 트리 구축 방법 - Google Patents

음성인식을 위한 어휘 트리 구축 방법 Download PDF

Info

Publication number
KR20050054706A
KR20050054706A KR1020030088222A KR20030088222A KR20050054706A KR 20050054706 A KR20050054706 A KR 20050054706A KR 1020030088222 A KR1020030088222 A KR 1020030088222A KR 20030088222 A KR20030088222 A KR 20030088222A KR 20050054706 A KR20050054706 A KR 20050054706A
Authority
KR
South Korea
Prior art keywords
tree
word
extended word
life
name
Prior art date
Application number
KR1020030088222A
Other languages
English (en)
Inventor
김준석
이상호
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020030088222A priority Critical patent/KR20050054706A/ko
Priority to US10/993,724 priority patent/US20050125220A1/en
Publication of KR20050054706A publication Critical patent/KR20050054706A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 휴대폰에서 인명만을 인식할 수 있는 음성인식기가 인명과 "집/사무실/휴대폰"과 같은 단어를 이어서 발화해도 이를 높은 인식률로 인식할 수 있도록 어휘트리를 구축하는 기술에 관한 것이다. 이러한 본 발명은, 인명을 위한 "인명 트리"와, 인명 뒤에 올 수 있는 "집/사무실/휴대폰" 등과 같은 단어를 위한 "확장단어 트리"와, 인명 트리와 확장단어 트리간의 연음 현상을 해결하기 위한 "연음접속용 트리"의 3단계로 어휘트리를 구축하는 것에 의해 달성된다.

Description

음성인식을 위한 어휘 트리 구축 방법{METHOD FOR BUILDING LEXICAL TREE FOR SPEECH RECOGNITION}
본 발명은 음성인식기에서 연속되는 음성을 인식하는데 적당하도록 어휘 트리를 구축하는 기술에 관한 것으로, 특히 휴대폰 내의 주소록에 포함된 인명만을 인식할 수 있는 음성인식기가 인명과 "집/사무실/휴대폰"과 같은 단어를 이어서 발화해도 이를 높은 인식률로 인식할 수 있도록 3단계의 어휘 트리를 서로 유기적으로 연결한 음성인식을 위한 어휘 트리 구축 방법에 관한 것이다.
일반적으로, 휴대폰의 폰북 주소록에 전화번호를 기록할 때 한 사람의 이름에 대하여 여러 개의 전화번호를 입력할 수 있다. 예를 들어, "김철수"라는 사람의 전화번호로서 "집 전화번호", "사무실 전화번호", "휴대폰 전화번호" 등 여러 가지의 전화번호를 입력할 수 있다.
그리고, 휴대폰의 음성인식기를 이용하여 상기 주소록에 기록되어 있는 여러 사람의 각종 전화번호를 검색할 수 있다. 그런데, 인식 대상의 단어가 확장된 형태일 때에는 소정의 시간 차를 두고 발화해야 한다. 예를 들어, "김철수"라는 사람의 사무실 전화번호를 검색할 때, 먼저 "김철수"라고 발화하여 그 음성이 인식된 것을 확인한 후 "사무실"이라고 발화해야 한다.
즉, 음성인식을 통해 목적한 사람을 검색한 후에도 최종적으로 검색하고자 하는 전화번호가 "집 전화번호"인지 "사무실 전화번호"인지 "휴대폰 전화번호"인지를 인식할 수 있도록 나머지 단어를 발화해야 한다.
이와 같이 종래 휴대폰의 음성인식 시스템에 있어서는 인식 대상의 단어가 확장된 형태일 때에는 소정의 시간 차를 두고 발화해야 하므로 사용하는데 불편함이 있고, 인식 오류의 발생 확률이 높아져 음성인식 성능이 떨어지는 문제점이 있었다.
따라서, 본 발명의 목적은 휴대폰 내의 주소록에 포함된 인명만을 인식할 수 있는 음성인식기가 인명과 "집/사무실/휴대폰"과 같은 단어를 이어서 발화해도 이를 높은 인식률로 인식할 수 있도록 3단계의 어휘 트리를 서로 유기적으로 연결하는 음성인식을 위한 어휘 트리 구축 방법을 제공함에 있다.
본 발명의 제1특징에 따르면, 음성인식을 위한 어휘 트리를 구축할 때 휴대폰 주소록상의 이름으로 이루어지는 인명 트리와 인명트리 뒤에 올 수 있는 집/사무실/휴대폰 등과 같은 단어들로 이루어지는 확장단어 트리로 구축하는 것이다.
본 발명의 제2특징에 따르면, 확장단어 트리를 구축할 때 적절한 위치에 단일 묵음 노드(single silence node)를 삽입해 주는 것이다.
본 발명의 제3특징에 따르면, 북(book)이라는 자료구조에 각 시간(t)에서 활성화된 터미널 노드에 관한 정보를 저장해 두는 것이다.
본 발명의 제4특징에 따르면, 상기 인명 트리에서 확장 단어 트리로 토큰을 전달할 때, 현재 시간 정보를 넘겨주고 나중에 확장 단어 트리의 터미널 노드에 도달했을 때 그 정보를 이용하여 앞에 오는 단어를 북 자료구조에서 찾는 것이다.
본 발명의 제5특징에 따르면, 인명 트리와 확장 단어 트리간의 연음 현상을 해결하기 위해서 연음 접속용 트리를 인명 트리와 확장 단어 트리 사이에 위치시키는 것이다.
본 발명에 의한 음성인식을 위한 어휘 트리 구축 방법은, 인명(이름)을 위한 "인명 트리"와, 인명 뒤에 올 수 있는 "집/사무실/휴대폰" 등과 같은 단어를 위한 "확장단어 트리"와, 인명 트리와 확장단어 트리간의 연음 현상을 해결하기 위한 "연음접속용 트리"의 3단계로 어휘트리는 구축하는 제1과정과; 상기 3단계의 어휘 트리 구조를 이용하여 음성을 인식하는 제2과정으로 이루어지는 것으로, 이와 같이 이루어지는 본 발명의 어휘 트리 구축방법을 첨부한 도 1 내지 도 11을 참조하여 상세히 설명하면 다음과 같다.
먼저, 본 발명에 의한 어휘 트리, 인명 트리 및 확장 단어 트리를 도 1 내지 도 3을 참조하여 설명하면 다음과 같다.
도 1은 이는 음성인식의 탐색 공간(search space)을 제공하는 어휘 트리의 구축과정을 나타낸 것이다. 예를 들어, "강성기"라는 인명의 단어가 있을 때, 우선 자음과 모음열로 분리한다. 이어서, 상기 분리된 자음과 모음열로부터 삼중음소(tri-phone) 리스트를 생성하게 되는데, 이 삼중음소는 트리에서 3개의 노드가 되는 구조를 말한다. 상기 노드는 일반 노드와 각 단의 마지막 노드를 의미하는 터미널 노드로 분류된다. 노드와 노드는 링크로 연결되는데, 이 링크는 트리에서 같은 레벨간의 노드들을 연결해 주는 시블링(sibling) 링크와 서로 다른 레벨간의 노드를 연결해 주는 레프트 차일드(Left Child) 링크로 분류할 수 있다.
도 2는 상기 도 1에서 생성된 어휘 트리에 "강성수"라는 단어가 추가되는 형태를 나타낸 것이다. 이에 도시한 바와 같이, 상기 "강성수"를 자음, 모음으로 분리하고 삼중음소 리스트를 생성한다. 그런데, 리스트의 앞부분은 상기 "강성기"와 일치하므로 노드를 공유할 수 있다. 하지만, 삼중음소 "ㅇ-ㅅ-ㅜ"부터 다르므로, 기존 트리의 첫 번째 다른 노드(N21)와 "ㅇ-ㅅ-ㅜ"의 첫 번째 노드(N22)를 시블링 링크로 연결해 준다.
도 3은 휴대폰 주소록의 인명 리스트로부터 생성된 어휘 트리를 "이름(인명) 트리"라고 정의하고, "묵음(silence)/집/사무실/휴대폰"과 같은 이름 뒤에 올 수 있는 단어들로 이루어진 어휘 트리를 "확장 단어 트리"라고 정의한 것을 나타낸 것이다. 상기 묵음은 사용자가 인명만 발화 했을 경우 인명만을 인식하기 위해 필요하다.
한편, 본 발명에 의한 확장 단어 트리의 구조를 도 4를 참조하여 설명하면 다음과 같다.
도 4는 본 발명에 의한 확장 단어 트리의 구조를 나타낸 것이다. "묵음/집/사무실/휴대폰" 단어의 첫 번째 노드를 스타트 노드라고 부른다. 이름 트리에서 터미널 노드에 도착하면 스타트 노드에 토큰을 전달해 준다. 상기 각 스타트 노드들은 시블링 링크로 연결된다. "묵음/집/사무실/휴대폰" 등과 같은 단어는 자음과 모음으로 분리한 후 삼중음소 리스트를 작성하게 되며, 이의 트리는 상기 설명에서와 같이 구성한다. 여기서, "S"는 시블링 링크를 의미하고, "L"은 레프트 차일드 링크를 의미한다. 또한 특별히 "집"이라는 단어를 위한 트리에 단일 묵음 (single silence) 노드를 제일 앞에 추가하였는데, 이는 사람들이 "XXX집"이라고 발화할 때 약간 포즈(pause)를 두는 경향이 많은 것을 감안한 것이다. 실제로 단일 묵음 노드를 삽입하였을 때 그렇지 않은 경우에 비하여 인식 성능이 현저히 향상된 것을 실험적으로 확인할 수 있었다.
한편, 이름 트리와 확장 단어 트리 간을 연결하고, 인식 결과를 출력하는 처리과정을 도 5 및 도 6을 참조하여 설명하면 다음과 같다.
도 5는 이름 트리와 확장 단어 트리간의 연결 상태를 나타낸 것이다. 임의의 시점 t에서 이름 트리에서 활성화(active)된 노드가 터미널 노드(N51),(N52)인 경우, 확장 단어 트리의 모든 스타트 노드에 토큰을 넘겨준다. 이때, 토큰과 함께 시간정보 t를 넘겨준다.
도 6은 임의의 시점 t에서 활성화된 모든 터미널 노드에 대한 정보를 저장하는 북(book) 자료 구조를 나타낸 것이다. 북에는 각 시점에서 활성화된 각 터미널 노드의 이름 단어와 현재까지의 점수들의 페어(pair)들을 저장한다. 여기에서는 임의의 시점 t에서 (고옥란 100)과 (서순화 80)이 저장된 것을 예시적으로 나타내었는데, (고옥란 100)은 이름 트리의 "고옥란"에 해당하는 터미널 노드가 활성화되어서 확장 단어 트리에 토큰을 전달하였고, 그때까지의 HMM 점수가 100임을 의미한다.
이후에 확장 단어 트리의 터미널 노드에 도달하게 되면, 즉 탐색 동작이 종료되면, 넘겨받은 토큰정보(시간정보)를 이용하여 북 자료구조에서 각 페어(pair)들 중 상기 HMM 점수가 가장 높은 것을 선택하여 탐색 결과로 출력한다. 예를 들어, 확장 단어 트리의 터미널 노드에 도달했는데, "사무실"이라는 단어이었고 토큰 정보가 t였다면 북 자료 구조에서 가장 점수가 높은 것이 "고옥란"이므로 음성인식기에서는 최종적으로 "고옥란 사무실"이라는 음성인식 결과를 출력한다. 만약, 확장 단어 트리에서 "묵음"이 인식되고 토큰 정보가 t라면 최종의 음성인식 결과는 "고옥란"이 된다.
한편, 본 발명에 의한 연음 접속용 트리에 대하여 도 7 내지 도 9를 참조하여 설명하면 다음과 같다.
도 7은 한국어 단어의 마지막 음절의 종성으로 올 수 있는 27개의 자음을 나타낸 테이블이고, 도 8은 한국어 단어의 마지막 음절의 중성으로 올 수 있는 21개의 모음을 나타낸 테이블이다.
연속된 두 개의 단어를 발화하면 연음 현상이 발생하게 되는데, 음성인식을 위한 어휘 트리를 구축할 때 이런 연음 현상에 대비해야 한다. 따라서, 도 9와 같은 연음 접속용 트리가 필요하다. 도 9에서와 같이 연음 접속용 트리는 크게 3개로 구분할 수 있는데, 이들은 "집","사무실","휴대폰" 각각의 단어를 위해 사용된다. 각 트리의 시작 노드는 종성 27개, 중성 21개, 총 48개의 노드로 구성된다. "ㄱ-ㅈ-ㅣ"는 이름 트리에서 인식된 단어의 마지막 음절의 종성이 "ㄱ"으로 끝나는 모든 단어와 "집"이 연결될 때 발생하는 연음 현상을 위해 사용된다. 예를 들어, "김종국 집"과 같은 연결 단어를 위해 사용된다. 실제 음성인식기를 구현하고 연음 접속용 트리가 있는 것과 없는 것의 성능을 비교 실험한 결과 연음 접속용 트리를 사용한 것이 그렇지 않은 것에 비하여 월등이 우수한 성능을 나타내는 것을 확인할 수 있었다.
한편, 본 발명에 의한 이름 트리와 연음 접속용 트리간의 연결 형태를 도 10을 참조하여 설명하면 다음과 같다.
도 10은 본 발명에 의한 연음 접속용 트리 간의 연결 형태를 나타낸 것이다. 상기 도 5에서와 같이 임의의 시점 t에서 이름 트리의 활성화된 터미널 노드(N101)가 있으면 우선 확장 단어 트리인 스타트 노드에 토큰을 전달해 준다. 이와 동시에, 연음 접속용 트리에도 토큰을 전달해 준다. 인식된 단어 "강성기"의 마지막 음절의 중성이 "ㅣ"이기 때문에 "집/사무실/휴대폰"의 47번째 노드(N102,N103,N104)에 토큰을 전달해 준다. 연속 접속용 트리에도 역시 토큰 정보로는 시간 정보를 넘겨주고, 북 자료구조에 현재 시간에 활성화된 모든 터미널 노드의 정보를 기록해 주는 것은 상기 확장 단어 트리의 경우와 동일하게 처리된다.
한편, 본 발명에 의한 연음 접속용 트리와 확장 단어 트리간의 연결 형태를 도 11을 참조하여 설명하면 다음과 같다.
도 11은 연음접속용 트리와 확장 단어 트리간의 연결 형태를 나타낸 것이다. 연음접속용 트리 3부분의 마지막 노드(N111),(N112),(N113)는 각각 확장단어 트리의 노드(N114),(N115),(N116)가 된다. 상기 확장단어 트리의 스타트 노드로부터 들어온 노드(N114),(N115),(N116)와 연음접속용 트리를 통해 들어온 노드(N111), (N112),(N113)가 서로 만나게 되는데, 탐색 과정 중 임의의 시점 t에서 양쪽의 경로로 동시에 토큰이 들어오면 그 중에서 HMM 점수가 높은 것이 선택된다.
이상에서 상세히 설명한 바와 같이 본 발명은 휴대폰 내의 주소록에 포함된 인명만을 인식할 수 있는 음성인식기에서, 인명과 "집/사무실/휴대폰"과 같은 단어를 이어서 발화해도 이를 높은 인식률로 인식할 수 있도록 3단계의 어휘 트리를 서로 유기적으로 연결함으로써, 자신이 원하는 전화번호를 보다 손쉽고 정확하게 찾을 수 있는 효과가 있다.
도 1은 본 발명에 의한 어휘 트리의 예시도.
도 2는 본 발명에 의한 어휘 트리의 구조를 나타낸 설명도.
도 3은 본 발명에 의한 이름 트리와 확장 단어 트리의 예시도.
도 4는 본 발명에 의한 확장 단어 트리의 구조를 나타낸 설명도.
도 5는 본 발명에 의한 이름 트리와 확장단어 트리 간의 연결 관계를 나타낸 예시도.
도 6은 본 발명에 의한 북 자료의 포맷도.
도 7은 본 발명에 의한 종성 테이블.
도 8은 본 발명에 의한 중성 테이블.
도 9는 본 발명에 의한 연속접속용 트리의 구조를 나타낸 설명도.
도 10은 본 발명에 의한 이름 트리와 연음접속용 트리 간의 연결 관계를 나타낸 예시도.
도 11은 본 발명에 의한 연음접속용 트리와 확장단어 트리의 연결 관계를 나타낸 예시도.

Claims (6)

  1. 인명을 위한 "인명 트리"와, 인명 뒤에 올 수 있는 "집/사무실/휴대폰" 등과 같은 단어를 위한 "확장단어 트리"와, 인명 트리와 확장단어 트리간의 연음 현상을 해결하기 위한 "연음접속용 트리"의 3단계로 어휘트리를 구축하는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
  2. 제1항에 있어서, 확장단어 트리를 구축할 때 적절한 위치에 단일 묵음 노드를 삽입하는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
  3. 제1항에 있어서, 상기 인명 트리와 확장 단어 트리를 연결하기 위하여, 임의의 시점 t에서 활성화된 각 터미널 노드의 이름 단어와 현재까지의 HMM 점수들의 페어들을 북에 저장하는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
  4. 제1항에 있어서, 상기 인명 트리에서 확장 단어 트리로 토큰을 전달할 때, 현재 시간 정보를 넘겨주고 나중에 확장 단어 트리의 터미널 노드에 도달했을 때 그 정보를 이용하여 앞에 오는 단어를 북 자료구조에서 찾아내는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
  5. 제1항에 있어서, 인명 트리와 확장 단어 트리간의 연음 현상을 해결하기 위해 연음 접속용 트리를 인명 트리와 확장 단어 트리 사이에 위치시키는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
  6. 제1항에 있어서, 3단계의 어휘 트리는 휴대폰에 적용되는 것을 특징으로 하는 음성인식을 위한 어휘 트리 구축 방법.
KR1020030088222A 2003-12-05 2003-12-05 음성인식을 위한 어휘 트리 구축 방법 KR20050054706A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020030088222A KR20050054706A (ko) 2003-12-05 2003-12-05 음성인식을 위한 어휘 트리 구축 방법
US10/993,724 US20050125220A1 (en) 2003-12-05 2004-11-19 Method for constructing lexical tree for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030088222A KR20050054706A (ko) 2003-12-05 2003-12-05 음성인식을 위한 어휘 트리 구축 방법

Publications (1)

Publication Number Publication Date
KR20050054706A true KR20050054706A (ko) 2005-06-10

Family

ID=34632108

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030088222A KR20050054706A (ko) 2003-12-05 2003-12-05 음성인식을 위한 어휘 트리 구축 방법

Country Status (2)

Country Link
US (1) US20050125220A1 (ko)
KR (1) KR20050054706A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062929A (ko) * 2018-11-27 2020-06-04 (주)아이와즈 비정형 문서 인명 식별 시스템

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7636657B2 (en) * 2004-12-09 2009-12-22 Microsoft Corporation Method and apparatus for automatic grammar generation from data entries
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US8271003B1 (en) 2007-03-23 2012-09-18 Smith Micro Software, Inc Displaying visual representation of voice messages
US11238227B2 (en) * 2019-06-20 2022-02-01 Google Llc Word lattice augmentation for automatic speech recognition

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159704C (zh) * 1994-06-13 2004-07-28 松下电器产业株式会社 信号分析装置
US5875426A (en) * 1996-06-12 1999-02-23 International Business Machines Corporation Recognizing speech having word liaisons by adding a phoneme to reference word models
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US6574599B1 (en) * 1999-03-31 2003-06-03 Microsoft Corporation Voice-recognition-based methods for establishing outbound communication through a unified messaging system including intelligent calendar interface
US6690772B1 (en) * 2000-02-07 2004-02-10 Verizon Services Corp. Voice dialing using speech models generated from text and/or speech
US6963633B1 (en) * 2000-02-07 2005-11-08 Verizon Services Corp. Voice dialing using text names
US7035802B1 (en) * 2000-07-31 2006-04-25 Matsushita Electric Industrial Co., Ltd. Recognition system using lexical trees
US20020072917A1 (en) * 2000-12-11 2002-06-13 Irvin David Rand Method and apparatus for speech recognition incorporating location information
ATE261607T1 (de) * 2000-12-14 2004-03-15 Ericsson Telefon Ab L M Sprachgesteuertes tragbares endgerät
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US6879954B2 (en) * 2002-04-22 2005-04-12 Matsushita Electric Industrial Co., Ltd. Pattern matching for large vocabulary speech recognition systems
US7013282B2 (en) * 2003-04-18 2006-03-14 At&T Corp. System and method for text-to-speech processing in a portable device
GB0312271D0 (en) * 2003-05-29 2003-07-02 Ibm A voice operated directory dialler
US6983244B2 (en) * 2003-08-29 2006-01-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for improved speech recognition with supplementary information
US7299181B2 (en) * 2004-06-30 2007-11-20 Microsoft Corporation Homonym processing in the context of voice-activated command systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062929A (ko) * 2018-11-27 2020-06-04 (주)아이와즈 비정형 문서 인명 식별 시스템

Also Published As

Publication number Publication date
US20050125220A1 (en) 2005-06-09

Similar Documents

Publication Publication Date Title
US8065144B1 (en) Multilingual speech recognition
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US7043431B2 (en) Multilingual speech recognition system using text derived recognition models
US5333275A (en) System and method for time aligning speech
US7590533B2 (en) New-word pronunciation learning using a pronunciation graph
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
CN104157285B (zh) 语音识别方法、装置及电子设备
Bazzi et al. Heterogeneous lexical units for automatic speech recognition: preliminary investigations
US7299179B2 (en) Three-stage individual word recognition
JP2000221990A (ja) 音声認識装置
Keating Word-level phonetic variation in large speech corpora
US20170270923A1 (en) Voice processing device and voice processing method
US7464033B2 (en) Decoding multiple HMM sets using a single sentence grammar
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
KR20050054706A (ko) 음성인식을 위한 어휘 트리 구축 방법
JP4826719B2 (ja) 音声認識システム、音声認識方法、および音声認識プログラム
JP2010164918A (ja) 音声翻訳装置、および方法
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
KR100736496B1 (ko) 연속 음성인식기의 성능 개선 방법
Hanazawa et al. An efficient search method for large-vocabulary continuous-speech recognition
KR20030010979A (ko) 의미어단위 모델을 이용한 연속음성인식방법 및 장치
Prieto et al. Continuous speech understanding based on automatic learning of acoustic and semantic models.
KR100305446B1 (ko) 음성 데이터 베이스 구축 방법
Sugamura et al. Speech processing technologies and telecommunications applications at NTT
Huang et al. The use of tree-trellis search for large-vocabulary Mandarin polysyllabic word speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application