KR101069534B1 - 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치 - Google Patents

미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치 Download PDF

Info

Publication number
KR101069534B1
KR101069534B1 KR1020090039889A KR20090039889A KR101069534B1 KR 101069534 B1 KR101069534 B1 KR 101069534B1 KR 1020090039889 A KR1020090039889 A KR 1020090039889A KR 20090039889 A KR20090039889 A KR 20090039889A KR 101069534 B1 KR101069534 B1 KR 101069534B1
Authority
KR
South Korea
Prior art keywords
voice data
voice
search
index table
query
Prior art date
Application number
KR1020090039889A
Other languages
English (en)
Other versions
KR20100120977A (ko
Inventor
이동현
김석환
이근배
노형종
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020090039889A priority Critical patent/KR101069534B1/ko
Publication of KR20100120977A publication Critical patent/KR20100120977A/ko
Application granted granted Critical
Publication of KR101069534B1 publication Critical patent/KR101069534B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 무제한 단어 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치에 관한 것으로, 크게 색인부와 검색부로 구성되어 있다. 색인부는 오디오 및 비디오로부터 음성 데이터를 추출하는 음성 데이터 추출기; 음성 데이터를 음성 인식기에서 수행하기 위해 문장 단위로 추정되는 적당한 분량으로 분할하여 웨이브 파일 형태로 저장하는 음성 데이터 분할기; 음성 웨이브 파일을 입력으로 받아 텍스트 데이터 파일 형태로 출력해주는 음성 인식기; 음성 인식의 결과로 나온 격자 형태의 정보를 이용하여 다양한 단위로 색인 테이블을 생성하는 색인기를 포함한다. 검색부는 사용자의 질의를 음성 인식에서의 미등록어 여부를 고려하여 색인 테이블을 활용하도록 여러 가지 가능한 질의들로 확장해주는 질의 확장기; 확장된 질의로부터 색인 테이블을 이용하여 검색을 수행하는 검색기; 검색된 결과를 사용자에게 효과적으로 표시해주는 결과 출력기를 포함한다.
음성 검색, 비디오 검색, 무제한 단어, 미등록어

Description

미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치{Method and apparatus for searching voice data from audio and video data under the circumstances including unregistered words}
본 발명은 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치에 관한 것으로, 특히 음성 데이터를 음성 인식 기술을 이용하여 텍스트 정보 형태로 변환한 뒤 색인기로부터 색인 테이블을 생성하고, 음성 인식에서의 미등록어까지 고려하여 음성 내용을 검색할 수 있게 하는 방법 및 장치에 관한 것이다.
최근에 들어서, 인터넷의 급격한 발달과 함께 오디오 및 비디오 형태의 자료가 급증하고 있다. 이런 자료를 보다 효율적으로 관리하고 사용하기 위해서는 검색 기술이 필수적이다.
하지만, 수작업을 거쳐 제공 되는 제목이나 내용에 대한 간략한 정보만으로는 정밀한 검색이 불가능하며, 사용자가 직접 오디오 및 비디오를 살펴보며 판단해야하는 경우가 많다. 오디오 및 비디오에서 중요한 역할을 하는 음성 데이터를 이용하여 내용 기반의 검색을 수행 하면 사용자의 불편함을 최소화할 수 있다.
2008년 8월 18일 공개된 공개번호 10-2008-0075266의 "음성 데이터를 이용하여 멀티미디어 데이터 파일의 인덱싱정보를 생성하는 시스템 및 방법과 멀티미디어 데이터파일의 인덱싱 정보를 검색하는 시스템 및 방법"에서는 전반적인 음성 데이터 검색 시스템 및 방법에 관한 내용을 다루고 있으며, 2008년 7월 24일 공개된 공개번호 10-2008-0068844의 "텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체"에서는 음성문서에 따라 오는 메타데이터를 참고하여 기존의 검색을 활용하는 것에 관한 내용을 다루고 있다.
하지만, 이런 종래의 기술은 미등록어를 고려하지 않고 있다. 즉, 음성 인식기에서 정의한 사전에 포함되지 않는 검색어의 경우 실제 음성 문서에 그러한 내용이 포함되어 있더라고 아무런 결과를 나타내지 못하는 한계를 가지고 있다.
본 발명은 음성 인식기의 미등록어에 따른 문제점을 해결하기 위한 것으로써, 음성 인식 결과를 색인하는 데 있어서 단어 형태와 함께 그 하위 레벨까지 고려하며, 검색에서 미등록어가 나타났을 때 색인 테이블에 맞추어서 확장함으로써 미등록어를 포함한 환경에서 오디오 및 비디오 음성 데이터 검색 방법 및 장치를 제공하는 것을 목적으로 한다.
상술한 본 발명의 목적은 오디오 및 비디오로부터 음성 데이터를 추출하여 문장 단위로 추정되는 적당한 분량으로 분할, 웨이브 파일 형태로 저장한 뒤 음성 인식기를 통해 텍스트 데이터 파일 형태로 변환한 정보를 바탕으로 다양한 단위로 생성한 색인 테이블을 참고하여 주어진 사용자 질의에 대해 색인 테이블들을 활용하도록 확장해 검색을 수행함으로써 사용자에게 효과적으로 결과를 표시해 주는 과정을 통해서 달성된다.
보다 구체적으로, 본 발명의 하나의 태양에 의하면, 색인부와 검색부를 포함하는 음성 데이터 검색 장치에 있어서,
상기 색인부는 오디오 및 비디오로부터 음성 데이터(220)를 추출하는 음성 데이터 추출기(210); 상기 음성 데이터(220)를 음성 인식기(250)에서 수행하기 위해 문장 단위로 추정되는 적당한 분량으로 분할하여 웨이브 파일 형태(240)로 저장하는 음성 데이터 분할기(230); 음성 웨이브 파일을 입력으로 받아 텍스트 데이터 파일 형태(260)로 출력해주는 음성 인식기(250); 음성 인식의 결과(260)로 나온 격자 형태의 정보를 이용하여 다양한 단위로 색인 테이블(280)을 생성하는 색인기(270)를 포함하고,
상기 검색부는 사용자의 질의를 음성 인식에서의 미등록어 여부를 고려하여 색인 테이블을 활용하도록 여러 가지 가능한 질의들로 확장해주는 질의 확장기(110); 확장된 질의(21)로부터 색인 테이블을 이용하여 검색을 수행하는 검색기(120); 검색된 결과(30)를 사용자에게 효과적으로 표시해주는 결과 출력기(130)를 포함하는 미등록어를 포함한 환경에서 오디오 및 비디오 음성 데이터 검색 장치를 제공한다.
바람직하기로는, 상기 음성 데이터 검색 장치는 상기 음성 인식기의 오류에 강인한 시스템을 위해 격자에서 시간 정보를 바탕으로 중복되는 부분을 최대한 하나로 결합한 압축된 표현을 사용하여, 음성 문서의 해당 지점에 대해 단어, 시간 정보, 확률값 등의 정보를 포함한 색인 테이블을 생성한다.
바람직하기로는, 상기 음성 데이터 검색 장치는 상기 음성 인식기의 미등록어에 관한 문제를 해결하기 위해서 격자를 결합 형태소 보다 더 낮은 단위인 음절, 음소 단위로 변환하여 색인 테이블을 생성한다.
바람직하기로는, 상기 음성 데이터 검색 장치는 사용자가 검색하고자 하는 키워드가 음성 인식기에서 미등록어인 것으로 판정이 난 경우 여러 단위의 조합 형태로 질의를 확장하여 해당 되는 여러 가지 색인 테이블을 활용한다.
바람직하기로는, 상기 음성 데이터 검색 장치는 보다 빠른 검색을 위해 결합 형태소 단위가 가장 먼저 나타나는 부분부터 양방향으로 진행하며, 인접한 단위 사이의 거리가 일정한 시간 이내에 들어있는지를 체크하여 검색을 수행한다.
본 발명의 다른 태양에 의하면, 색인부의 색인단계와 검색부의 검색단계를 포함하는 음성 데이터 검색 방법에 있어서,
상기 색인단계는 오디오 및 비디오로부터 음성 데이터를 추출하는 음성 데이터 추출 단계; 상기 음성 데이터를 음성 인식 단계에서 수행하기 위해 문장 단위로 추정되는 적당한 분량으로 분할하여 웨이브 파일 형태로 저장하는 음성 데이터 분할 단계; 음성 웨이브 파일을 입력으로 받아 텍스트 데이터 파일 형태로 출력해주는 음성 인식 단계; 음성 인식의 결과로 나온 격자 형태의 정보를 이용하여 다양한 단위로 색인 테이블을 생성하는 색인 단계를 포함하고,
상기 검색단계는 사용자의 질의를 음성 인식에서의 미등록어 여부를 고려하여 색인 테이블을 활용하도록 여러 가지 가능한 질의들로 확장해주는 질의 확장단계; 확장된 질의로부터 색인 테이블을 이용하여 검색을 수행하는 검색수행단계; 검색된 결과를 사용자에게 효과적으로 표시해주는 결과 출력단계를 포함하는 미등록어를 포함한 환경에서 오디오 및 비디오 음성 데이터 검색 방법을 제공한다.
바람직하기로는, 상기 음성 데이터 검색 방법은 상기 음성 인식단계에서 오류에 강인한 시스템을 위해 격자에서 시간 정보를 바탕으로 중복되는 부분을 최대한 하나로 결합한 압축된 표현을 사용하여, 음성 문서의 해당 지점에 대해 단어, 시간 정보, 확률값 등의 정보를 포함한 색인 테이블을 생성한다.
바람직하기로는, 상기 음성 데이터 검색 방법은 상기 음성 인식단계의 미등 록어에 관한 문제를 해결하기 위해서 격자를 결합 형태소 보다 더 낮은 단위인 음절, 음소 단위로 변환하여 색인 테이블을 생성한다.
바람직하기로는, 상기 음성 데이터 검색 방법은 사용자가 검색하고자 하는 키워드가 음성 인식단계에서 미등록어인 것으로 판정이 난 경우 여러 단위의 조합 형태로 질의를 확장하여 해당 되는 여러 가지 색인 테이블을 활용한다.
바람직하기로는, 상기 음성 데이터 검색 방법은 보다 빠른 검색을 위해 결합 형태소 단위가 가장 먼저 나타나는 부분부터 양방향으로 진행하며, 인접한 단위 사이의 거리가 일정한 시간 이내에 들어있는지를 체크하여 검색을 수행한다.
상술한 바와 같이, 본 발명은 음성 데이터 검색 시스템을 구축하는 데 있어서 미등록어를 고려한 색인과 검색 과정을 통해 미등록어를 포함한 환경에서 오디오 및 비디오 음성 데이터 검색을 수행할 수 있다.
첨부한 도면을 참조하여 본 발명의 실시예에 대한 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치에 대해서 상세하게 설명한다.
도 1은 검색 시스템의 구성을 설명하기 위한 전반적인 개요 블록도이다.
도 1에서, 일반적으로 음성 데이터 검색 시스템은 사용자(10)가 찾고자 하는 키워드(20)에 대해서 검색을 통해 수많은 비디오 및 오디오(60)에서 키워드가 나타난 지점을 효과적으로 제공해주는 시스템이다.
본 발명의 실시예에 따른 음성 데이터 검색 시스템은 크게 색인부(200)와 검색부(100)로 구성되어 있다.
색인부(200)는 오디오 및 비디오로부터 음성 데이터(220)를 추출하는 음성 데이터 추출기(210); 상기 음성 데이터(220)를 음성 인식기(250)에서 수행하기 위해 문장 단위로 추정되는 적당한 분량으로 분할하여 웨이브 파일 형태(240)로 저장하는 음성 데이터 분할기(230); 음성 웨이브 파일을 입력으로 받아 텍스트 데이터 파일 형태(260)로 출력해주는 음성 인식기(250); 음성 인식의 결과(260)로 나온 격자 형태의 정보를 이용하여 다양한 단위로 색인 테이블(280)을 생성하는 색인기(270)를 포함한다.
검색부(100)는 사용자의 질의를 음성 인식에서의 미등록어 여부를 고려하여 색인 테이블을 활용하도록 여러 가지 가능한 질의들로 확장해주는 질의 확장기(110); 확장된 질의(21)로부터 색인 테이블을 이용하여 검색을 수행하는 검색기(120); 검색된 결과(30)를 사용자에게 효과적으로 표시해주는 결과 출력기(130)를 포함한다.
음성 데이터 검색 시스템을 구축하는 데 있어서 가장 먼저 고려해야하는 것은 바로 음성 인식이다. 음성 인식을 위해서는 음성 오디오에 대해 다양한 전처리 과정이 요구된다. 우선적으로 비디오 및 오디오로부터 음성 데이터를 추출해내는 작업이 필요하다. 이런 작업은 음성 데이터 추출기(210)로부터 수행된다. 음성 데이터 추출기(210)는 비디오 및 오디오에서 음성 데이터를 포함하고 있는지를 판단하여 해당 내용을 저장한다.
음성 인식을 효과적으로 수행하기 위해서는 적절한 길이의 음성 데이터가 필요하다. 길이가 지나치게 긴 경우 음성 인식 성능이 떨어지며 속도 측면에서도 큰 손해를 본다. 따라서 음성 데이터 추출기(210)로부터 나온 음성 데이터를 문장 단위로 추정되는 적당한 분량으로 분할하여 웨이브 파일 형태로 저장하는 것이 필요한 데, 이를 음성 데이터 분할기(230)에서 수행한다. 음성 데이터 분할기(230)는 긴 음성 데이터로부터 여러 개의 짧은 웨이브 파일 형태를 생성해낸다. 음성 데이터를 분석하여 일정한 길이 이상의 묵음이 있는지를 판단하여 이 과정을 수행한다.
이상으로, 음성 인식기(250)의 입력에 해당하는 부분을 위한 전처리 과정을 모두 마쳤다. 일반적으로, 한국어 음성 인식에 있어서 단위를 어떻게 정의하느냐가 성능에 큰 영향을 미친다. 어절을 단위로 인식할 경우 사전에 많은 단어를 등록해야하고, 미등록어가 빈번하게 발생하여 성능이 좋지 못하다. 형태소를 단위로 인식할 경우 사전에 1~2음절의 짧은 등록어가 많이 포함되어 인식 성능에 악영향을 미친다. 따라서 짧고 빈번하게 발생하는 형태소들의 쌍을 하나로 결합한 결합 형태소를 인식 단위로 사용하는 것이 일반적이다.
음성 인식기(250)를 사용하는 데 있어서 크게 두 가지 모델이 필요하다. 하나는 언어 모델(40)이고, 다른 하나는 음향 모델(50)이다. 이 각각의 모델을 일반적인 도메인에서 훈련한 것을 사용할 경우 음성 인식 성능이 좋지 못하다. 따라서 각각의 모델을 음성 데이터에 맞게 적응하는 과정이 필요하다.
언어 모델(40)의 경우 오디오 및 비디오에 부가적으로 제공되는 정보를 최대한 활용하여 관련 있는 내용들을 수집하여 훈련한 것과 일반적인 도메인에서 훈련 한 것을 적절히 섞은 뒤 최종적으로 언어 모델로 사용한다. 음향 모델(50)은 기존에 대량으로 훈련된 음향 모델을 현재 사용하는 음성 데이터의 성격에 맞게 적응시키는 기술을 사용한다. 음향 모델 적응 기술은 일반적으로 사용되는 MAP(maximum a-posteriori) 혹은 MLLR(maximum likelihood linear regression) 방법을 HTK Toolkit[The HTK Book, Young, S. 등, http://htk.eng.cam.ac.uk/docs/docs.shtml]을 이용하여 적용할 수 있다.
이로써 음성 인식기(250)는 음성 웨이브 파일을 입력으로 받아서 텍스트 데이터 파일 형태로 출력한다. 텍스트 데이터 파일 형태에 포함될 수 있는 내용으로는 대표적으로 1-best, n-best, 격자(lattice)가 있다. 일반적으로 음성 인식기는 인식 오류로부터 자유로울 수는 없다. 특히, 음성 인식기에서 생성하는 1-best 만을 고려하여 색인할 경우 음성 인식 오류에 전체 시스템이 민감해질 수밖에 없다.
음성 인식 오류에 보다 강인한 시스템을 구축하기 위해서 음성 인식기로부터 다수의 후보군을 이용해야하는데, 격자를 그대로 색인에 활용할 경우 색인 테이블 크기가 엄청나게 증가하는 문제점이 발생한다. 따라서 격자에서 시간 정보를 바탕으로 중복되는 부분을 최대한 하나로 결합한 압축된 표현을 사용한다. 이는 TMI (Time-based Merging for Indexing) [Word-lattice based spoken-document indexing with standard text indexers, Peng Yu, K. Thambiratnam, SLT 2008]와 비슷하며 약간은 변형된 형태이다. 색인 테이블의 엔트리는 단어, 문서의 ID, 시작 지점, 끝 지점, 확률 값으로 이루어져 있다.
위의 과정을 거치면 결합 형태소 단위의 음성 인식 결과를 바탕으로 하여 색 인 테이블(280)이 생성된다. 결합 형태소 색인 테이블(283)을 이용하여 결합 형태소 단위로 인식을 수행했을 경우에서 역시 미등록어 문제를 피할 수 없다. 음성 인식기(250)에서 사전의 목록에 포함되지 않은 단어는 인식이 될 수 없으며 보통의 경우 가장 확률적으로 가장 비슷한 것으로 대체된다. 실제 음성 문서에서 검색하고자 하는 키워드가 있음에도 불구하고 음성 인식기(250)에서 미등록어인 관계로 아무런 결과를 나타내주지 못하는 문제점이 발생한다.
이를 해결하기 위한 것이 도 2에 도시한 바와 같이 단어 혹은 결합 형태소 보다 더 낮은 단위인 음절이나 음소의 색인 테이블(281, 282)을 생성하는 것이다. 이를 위해 음절 혹은 음소 단위의 음성 인식기를 사용하는 것도 방법이지만 성능이 나쁘기 때문에 결합 형태소 단위로 인식하여 나온 격자를 음절 혹은 음소 단위로 변환해주는 방법을 사용한다. 변환 방법은 간단하게 격자의 링크를 음절 혹은 음소의 개수만큼 나누어주면 된다. 확률 값은 그대로 유지하며 시간 정보는 해당 개수로 나누어 추정한다. 이렇게 생성한 음절 혹은 음소 단위의 격자를 바탕으로 위의 색인 과정을 똑같이 거쳐 더 낮은 단위의 색인 테이블이 생성된다.
이로써, 사용자(10)가 검색하고자 하는 키워드(20)가 음성 인식기(250)에서 미등록어인 것으로 판정이 될 경우 보다 낮은 단위로 변환하여 음절 혹은 음소 색인 테이블을 활용함으로써 기존의 문제점을 보완할 수 있게 된다.
한국어 입력 시스템은 기본적으로 어절 단위의 띄어쓰기를 하는 데, 이것은 음성 인식 및 색인에서 사용한 결합 형태소 단위와 일치하지 않는다. 또한 한국어의 경우 결합어가 많고, 띄어쓰기도 일정하지 않은 경우도 있다. 따라서 사용자가 입력한 질의를 결합 형태소 단위로 변환해주는 과정이 필요한 데, 형태소 분석기를 이용한 변환기를 사용하는 것도 방법이지만 미등록어 질의는 형태소 분석도 잘 이루어지지 않을 가능성이 크다.
검색부(100)의 질의 확장기(110)에서는 주어진 질의가 우선 미등록어로 인식된 경우, 최소한 하나의 결합 형태소를 포함하는 모든 가능한 결합 형태소와 음절의 조합을 고려한다. 이러한 조합이 하나도 없을 경우에 음절로만 이루어진 조합만 고려한다. 각각의 조합에 대해서 해당 음절이 음절 미등록어에 해당할 경우 음소 단위로 변환해 준다. 이 경우 결합 형태소, 음절, 음소 등 총 3가지 단계를 포함하는 질의들이 생성된다. 경우에 따라서는 결합 형태소, 음소만의 조합만 생각할 수도 있다. 각각은 검색 과정에서 해당하는 색인 테이블을 활용하게 된다.
도 2에 도시한 바와 같이 예를 들면 사용자 질의가 '대운하사업'(20)인 경우, 결합 형태소 색인 테이블에는 '운하'와 '사업'이 포함되어 있고, 음절 색인 테이블에는 '운', '하', '사', '업'이 포함되어 있고, '대'는 음절 미등록어에 해당하며 'T EH'의 음소열로 변환이 가능하다고 할 때, 최종적으로 확장되는 질의(21)는 (T, EH, 운하, 사, 업), (T, EH, 운, 하, 사업), (T, EH, 운하, 사업)으로 총 세 가지가 생성된다.
위의 방법은 기본적으로 결합 형태소를 최대한으로 활용하는 방법인데, 그런 방법을 사용하는 이유는 우선적으로 결합 형태소 색인 테이블(283)이 가장 안정적인 성능을 보여주기 때문이다. 기본적으로 음성 인식 단위이기도 하며, 격자를 색인하는 데 있어서 다른 단위보다 추정 부분이 적게 들어간다. 또 다른 이유는 결합 형태소의 경우 색인 테이블을 검색하는 데 있어서 결과 목록이 다른 단위에 비해서 적게 나타난다. 즉, 좀 더 빠른 속도로 검색을 수행할 수 있다는 것을 의미한다. 만약에 음소 색인 테이블(281)만을 활용한다고 가정하면, 테이블 검색 횟수가 증가할 뿐만 아니라 각각에 대해서 결과 목록도 많기 때문에 많은 시간을 필요로 하게 된다.
사용자의 질의는 질의 확장(110)기를 거쳐서 여러 개의 질의들(21)로 확장되며 검색기(120)에서는 확장된 질의(21)를 입력으로 받아 여러 가지 색인 테이블을 이용하여 검색을 수행한다. 질의에 포함되어 있는 각각의 단위에 대해서 해당되는 색인 테이블로부터 목록을 추출한다. 이 목록들의 조합 중에서 모든 단위가 순서대로 근접하여 나타나는 지점이 사용자에게 표시해 줄 최종 결과에 포함되며, 인접한 단위 사이의 거리가 일정한 시간 이내에 들어있는지를 체크하는 과정으로 수행된다.
검색을 수행하는 데 있어서 질의의 왼쪽에서부터 오른쪽으로 시작하는 것 대신에 결합 형태소 단위가 가장 먼저 나타나는 부분부터 양방향으로 진행하는 방식이 효과적이다. 결합 형태소 단위의 경우 색인 테이블로부터 추출한 목록의 개수가 상대적으로 다른 단위에 비해서 적게 되므로 검색 과정에 있어서 앞 과정부터 조합 가능한 경우를 크게 줄여준다.
검색에 있어서 스코어는 다음과 같이 계산 된다.
Figure 112009027518286-pat00001
여기서 Q는 사용자 질의를 의미하며
Figure 112009027518286-pat00002
, ... ,
Figure 112009027518286-pat00003
은 확장된 사용자 질의를 의미한다. 따라서 N은 확장된 사용자 질의의 개수가 되며, I는 특정 구간을 의미한다. HScore는 해당 질의가 특정 구간에서 어떤 확률로 나타났는지를 의미하며, 이는 색인 테이블의 확률 값으로부터 구한다.
검색 과정을 거치고 나면 최종적으로 출력기(130)를 통해 검색 결과(30)를 사용자에게 나타내주어야 한다. 출력기(130)는 결과를 스코어(Score)에 따라서 순차적으로 나타내며, 단순히 해당 오디오와 비디오를 제공해 주는 것이 아니라 질의어가 나타난 지점으로 빠르게 이동할 수 있는 인터페이스를 제공해준다.
도 1은 검색 시스템의 구성을 설명하기 위한 전반적인 개요 블록도이다.
도 2는 도 1의 색인부의 색인 테이블과 확장된 질의를 보다 구체적으로 도시한 블록도이다.

Claims (10)

  1. 색인부와 검색부를 포함하는 음성 데이터 검색 장치에 있어서,
    상기 색인부는 오디오 및 비디오로부터 음성 데이터(220)를 추출하는 음성 데이터 추출기(210); 상기 음성 데이터(220)를 음성 인식기(250)에서 수행하기 위해 문장 단위로 추정되는 분량으로 분할하여 웨이브 파일 형태(240)로 저장하는 음성 데이터 분할기(230); 음성 웨이브 파일을 입력으로 받아 텍스트 데이터 파일 형태(260)로 출력해주는 음성 인식기(250); 음성 인식의 결과(260)로 나온 격자 형태의 정보를 이용하여 다양한 단위로 색인 테이블(280)을 생성하는 색인기(270)를 포함하고,
    상기 검색부는 사용자의 질의를 음성 인식에서의 미등록어 여부를 고려하여 색인 테이블을 활용하도록 여러 가지 가능한 질의들로 확장해주는 질의 확장기(110); 확장된 질의(21)로부터 색인 테이블을 이용하여 검색을 수행하는 검색기(120); 검색된 결과(30)를 사용자에게 효과적으로 표시해주는 결과 출력기(130)를 포함하며,
    상기 색인기(270)는 음성 인식기의 미등록어에 관한 문제를 해결하기 위해서 격자를 결합 형태소 보다 더 낮은 단위인 음절, 음소 단위로 변환하여 색인 테이블을 생성하는 것을 특징으로 하는 미등록어를 포함한 환경에서 오디오 및 비디오 음성 데이터 검색 장치.
  2. 제1항에 있어서, 음성 인식기의 오류에 강인한 시스템을 위해 격자에서 시간 정보를 바탕으로 중복되는 부분을 최대한 하나로 결합한 압축된 표현을 사용하여, 음성 문서의 해당 지점에 대해 단어, 시간 정보, 확률값 등의 정보를 포함한 색인 테이블을 생성하는 음성 데이터 검색 장치.
  3. 삭제
  4. 제1항에 있어서, 사용자가 검색하고자 하는 키워드가 음성 인식기에서 미등록어인 것으로 판정이 난 경우 여러 단위의 조합 형태로 질의를 확장하여 해당 되는 여러 가지 색인 테이블을 활용하는 음성 데이터 검색 장치.
  5. 제1항에 있어서, 보다 빠른 검색을 위해 결합 형태소 단위가 가장 먼저 나타나는 부분부터 양방향으로 진행하며, 인접한 단위 사이의 거리가 일정한 시간 이내에 들어있는지를 체크하여 검색을 수행하는 음성 데이터 검색 장치.
  6. 색인부의 색인단계와 검색부의 검색단계를 포함하는 음성 데이터 검색 방법에 있어서,
    상기 색인단계는 오디오 및 비디오로부터 음성 데이터를 추출하는 음성 데이터 추출 단계; 상기 음성 데이터를 음성 인식 단계에서 수행하기 위해 문장 단위로 추정되는 분량으로 분할하여 웨이브 파일 형태로 저장하는 음성 데이터 분할 단계; 음성 웨이브 파일을 입력으로 받아 텍스트 데이터 파일 형태로 출력해주는 음성 인식 단계; 음성 인식의 결과로 나온 격자 형태의 정보를 이용하여 다양한 단위로 색인 테이블을 생성하는 색인 단계를 포함하고,
    상기 검색단계는 사용자의 질의를 음성 인식에서의 미등록어 여부를 고려하여 색인 테이블을 활용하도록 여러 가지 가능한 질의들로 확장해주는 질의 확장단계; 확장된 질의로부터 색인 테이블을 이용하여 검색을 수행하는 검색수행단계; 검색된 결과를 사용자에게 효과적으로 표시해주는 결과 출력단계를 포함하며,
    상기 색인단계는 음성 인식단계의 미등록어에 관한 문제를 해결하기 위해서 격자를 결합 형태소 보다 더 낮은 단위인 음절, 음소 단위로 변환하여 색인 테이블을 생성하는 것을 특징으로 하는 미등록어를 포함한 환경에서 오디오 및 비디오 음성 데이터 검색 방법.
  7. 제6항에 있어서, 음성 인식단계에서 오류에 강인한 시스템을 위해 격자에서 시간 정보를 바탕으로 중복되는 부분을 최대한 하나로 결합한 압축된 표현을 사용하여, 음성 문서의 해당 지점에 대해 단어, 시간 정보, 확률값 등의 정보를 포함한 색인 테이블을 생성하는 음성 데이터 검색 방법.
  8. 삭제
  9. 제6항에 있어서, 사용자가 검색하고자 하는 키워드가 음성 인식단계에서 미등록어인 것으로 판정이 난 경우 여러 단위의 조합 형태로 질의를 확장하여 해당 되는 여러 가지 색인 테이블을 활용하는 음성 데이터 검색 방법.
  10. 제6항에 있어서, 보다 빠른 검색을 위해 결합 형태소 단위가 가장 먼저 나타나는 부분부터 양방향으로 진행하며, 인접한 단위 사이의 거리가 일정한 시간 이내에 들어있는지를 체크하여 검색을 수행하는 음성 데이터 검색 방법.
KR1020090039889A 2009-05-07 2009-05-07 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치 KR101069534B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090039889A KR101069534B1 (ko) 2009-05-07 2009-05-07 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090039889A KR101069534B1 (ko) 2009-05-07 2009-05-07 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20100120977A KR20100120977A (ko) 2010-11-17
KR101069534B1 true KR101069534B1 (ko) 2011-09-30

Family

ID=43406391

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090039889A KR101069534B1 (ko) 2009-05-07 2009-05-07 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101069534B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
KR101678787B1 (ko) * 2015-07-15 2016-12-06 포항공과대학교 산학협력단 자동질의응답 방법 및 그 장치
KR20220083294A (ko) * 2020-12-11 2022-06-20 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100817432B1 (ko) 2007-01-31 2008-03-27 한국과학기술원 문서 확장에 의한 음성 자료의 고속 검색 방법 및 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100817432B1 (ko) 2007-01-31 2008-03-27 한국과학기술원 문서 확장에 의한 음성 자료의 고속 검색 방법 및 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
논문1(2004.9:한국도서관)*
논문2(2007학술대회)*

Also Published As

Publication number Publication date
KR20100120977A (ko) 2010-11-17

Similar Documents

Publication Publication Date Title
KR100760301B1 (ko) 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
JP6813591B2 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
Chelba et al. Retrieval and browsing of spoken content
JP3720068B2 (ja) 質問の転記方法及び装置
US8069045B2 (en) Hierarchical approach for the statistical vowelization of Arabic text
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
US20120179694A1 (en) Method and system for enhancing a search request
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
EP2595144B1 (en) Voice data retrieval system and program product therefor
CN102081634A (zh) 语音检索装置和语音检索方法
KR101025814B1 (ko) 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치
Juhár et al. Recent progress in development of language model for Slovak large vocabulary continuous speech recognition
KR101069534B1 (ko) 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치
TWI270792B (en) Speech-based information retrieval
Masumura et al. Training a Language Model Using Webdata for Large Vocabulary Japanese Spontaneous Speech Recognition.
Oger et al. On-demand new word learning using world wide web
Lestari et al. Adaptation to pronunciation variations in Indonesian spoken query-based information retrieval
CN107342080B (zh) 一种会议现场同步速记的***和方法
Turunen et al. Speech retrieval from unsegmented Finnish audio using statistical morpheme-like units for segmentation, recognition, and retrieval
Souter et al. Using Parsed Corpora: A review of current practice
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Oger et al. Using the world wide web for learning new words in continuous speech recognition tasks: Two case studies
JP3707506B2 (ja) 文書検索装置及び文書検索方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140612

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee