KR20090025939A - 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법 - Google Patents

음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법 Download PDF

Info

Publication number
KR20090025939A
KR20090025939A KR1020070091156A KR20070091156A KR20090025939A KR 20090025939 A KR20090025939 A KR 20090025939A KR 1020070091156 A KR1020070091156 A KR 1020070091156A KR 20070091156 A KR20070091156 A KR 20070091156A KR 20090025939 A KR20090025939 A KR 20090025939A
Authority
KR
South Korea
Prior art keywords
recognition
unit
model
voice
speech recognition
Prior art date
Application number
KR1020070091156A
Other languages
English (en)
Inventor
정희석
박홍석
Original Assignee
(주)한국파워보이스
주식회사 모뉴엘
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)한국파워보이스, 주식회사 모뉴엘 filed Critical (주)한국파워보이스
Priority to KR1020070091156A priority Critical patent/KR20090025939A/ko
Publication of KR20090025939A publication Critical patent/KR20090025939A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 인식 기술을 이용하여 홈 미디어 PC 시스템의 동작을 제어할 수 있도록 하는 음성 인식을 이용한 홈 미디어 PC 시스템 및 그 제어 방법을 제시한다.
이를 위해, 본 발명은 다수의 음원 감지용 마이크로폰으로부터 입력된 음원의 위치를 파악한 후, 파악된 결과치에 의거하여 음성 인식용 마이크로폰의 방향을 조절하는 음원 감지부와; 상기 음성 인식용 마이크로폰을 통해 사용자로부터 입력받은 음성을 음소 단위 발음열 생성기를 통하여 발음열로 생성한 후, 생성된 발음열을 인식 단위인 트라이폰으로 변환하고, 트라이폰 변환을 통해 변환된 트라이폰을 인식하되, 단어의 끝 음소와 상기 단어의 뒤에 오는 단어의 첫 음소(즉, 좌우 음소)를 결합시켜 음성 인식시에는 나타나지 않는 트라이폰 열을 생성시키고, 상기 인식된 트라이폰을 사용하여 연속 입력 단어에 대한 음성을 인식하는 음성 인식부와; 각각의 문장에 정의되어 있는 제어 명령을 일대일 매칭시켜 저장하고 있는 제어 명령 테이블을 구비하여 이루어지며, 상기 음성 인식부로부터 음성 인식 결과인 문장을 인가받으면, 상기 제어 명령 테이블을 참조하여 상기 음성 인식부로부터 인가받은 문장에 정의되어 있는 제어 명령을 파악하고, 파악된 제어 명령에 의거하여 시스템의 동작을 제어하는 제어부를 포함하여 이루어지는 것이 바람직하다.
이에 따라, 본 발명은 홈 미디어 PC 시스템이 설치되어 있는 곳까지 사용자가 이동하지 않고도 음성으로만 동작을 제어할 수 있게 되며, 기계 조작이 서툰 어 린이, 노인 또는 장애인들도 쉽게 홈 미디어 PC 시스템을 이용할 수 있게 된다.
또한, 음원의 방향을 감지하여 감지된 방향을 향하도록 마이크로폰을 조절하고 지향성 마이크로폰을 사용하므로, 오디오가 구동되고 있는 환경에서도 음성 인식 성능을 향상시킬 수 있게 된다.
음성 인식, 음원 방향, 지향성 마이크로폰, 홈 미디어 PC 시스템

Description

음성 인식을 이용한 홈 미디어 PC 시스템 및 그 제어 방법{HOME MEDIA PC SYSTEM USING VOICE RECOGNITION, AND CONTROL METHOD FOR THE SAME}
본 발명은 음성 인식을 이용한 홈 미디어 PC 시스템 및 그 제어 방법에 관한 것으로서, 특히 음성 인식 기술을 이용하여 홈 미디어 PC 시스템의 동작을 제어할 수 있도록 하는 음성 인식을 이용한 홈 미디어 PC 시스템 및 그 제어 방법에 관한 것이다.
일반적으로 홈 미디어 PC 시스템은 가정용 PC 또는 HTPC(Home Theater PC)를 이용하여 TV, 영화, 오디오, 인터넷, 디지털 방송, 인터넷 게임 등을 즐길 수 있을 뿐만 아니라 편집, 예약 녹화까지 가능한 것으로, 리모콘을 이용하여 사용자가 홈 미디어 PC 시스템이 설치되어 있는 곳까지 가지 않고도 홈 미디어 PC 시스템을 제어할 수 있다.
그러나, 리모콘을 이용하는 경우, 기계 조작이 서툰 어린이, 노인 또는 장애인들은 리모콘 조작에 어려움을 겪게 되는 문제점이 있다.
본 발명은 전술한 문제점을 해결하기 위해 안출된 것으로서, 음성 인식시, 패턴 매칭부에서 좌우 음소 연결 기법 및 음성 데이터베이스 구축을 위한 잡음 합성 및 적응 알고리즘을 적용하고, 후처리부에서 새로운 반음소 모델을 이용한 발화 검증과 소규모 연속 음성 인식 시스템용 언어 모델을 응용한 순차적 미등록어 거절 알고리즘을 적용하여 사용자의 음성을 인식한 후, 인식된 음성에 정의되어 있는 제어 신호에 의거하여 시스템 동작을 제어할 수 있도록 하는 음성 인식을 이용한 홈 미디어 PC 시스템 및 그 제어 방법을 제공함에 그 목적이 있다.
본 발명의 다른 목적은 음원의 방향을 감지하여 감지된 방향을 향하도록 마이크로폰을 조절하고, 지향성 마이크로폰을 사용하여 오디오가 구동되고 있는 환경에서도 음성 인식 성능을 향상시킬 수 있도록 함에 있다.
전술한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성 인식을 이용한 홈 미디어 PC 시스템은, 다수의 음원 감지용 마이크로폰으로부터 입력된 음원의 위치를 파악한 후, 파악된 결과치에 의거하여 음성 인식용 마이크로폰의 방향을 조절하는 음원 감지부와; 상기 음성 인식용 마이크로폰을 통해 사용자로부터 입력받은 음성을 음소 단위 발음열 생성기를 통하여 발음열로 생성한 후, 생성된 발음열 을 인식 단위인 트라이폰으로 변환하고, 트라이폰 변환을 통해 변환된 트라이폰을 인식하되, 단어의 끝 음소와 상기 단어의 뒤에 오는 단어의 첫 음소(즉, 좌우 음소)를 결합시켜 음성 인식시에는 나타나지 않는 트라이폰 열을 생성시키고, 상기 인식된 트라이폰을 사용하여 연속 입력 단어에 대한 음성을 인식하는 음성 인식부와; 각각의 문장에 정의되어 있는 제어 명령을 일대일 매칭시켜 저장하고 있는 제어 명령 테이블을 구비하여 이루어지며, 상기 음성 인식부로부터 음성 인식 결과인 문장을 인가받으면, 상기 제어 명령 테이블을 참조하여 상기 음성 인식부로부터 인가받은 문장에 정의되어 있는 제어 명령을 파악하고, 파악된 제어 명령에 의거하여 시스템의 동작을 제어하는 제어부를 포함하여 이루어지는 것이 바람직하다.
나아가, 상기 음원 감지부는, 다수의 음원 감지용 마이크로폰을 통해 입력받은 음성 신호를 전기적인 신호로 변환하는 마이크 인터페이스부와; 상기 마이크 인터페이스부를 통해 전달받은 전기 신호를 디지털 변조하여 음원 데이터로 변환하는 코덱부와; 상기 코덱부에서 변환된 음원 데이터를 이용하여 음원의 위치를 파악하는 연산을 수행하는 DSP와; 상기 DSP로부터 전달받은 연산 결과치에 의거하여 음원 인식용 마이크로폰이 음이 발생한 방향을 향하도록 조절하는 마이크로폰 방향 조절부를 포함하여 이루어지는 것이 바람직하다.
그리고, 상기 음성 인식용 마이크로폰은, 전방에서 발생되는 소리에 대에서만 감도가 좋은 지향성 마이크로폰으로 구현되는 것이 바람직하다.
그리고, 사용자의 키조작에 따라 근거리 무선 통신 방식을 채택하고 있는 리모콘이 송출하는 무선 신호를 수신하고, 상기 무선 신호에 포함되어 있는 제어 명 령을 추출하여 상기 제어부로 인가하는 근거리 무선 통신부를 더 포함하여 이루어지는 것이 바람직하다.
그리고, 상기 음성 인식부는, 여러 종류의 잡음 환경에서 발생되는 잡음 신호들을 취득하고, 취득된 잡음 신호들에 깨끗한 원음성 신호를 결합시켜 혼합 신호들을 생성한 후, 생성된 혼합 신호들을 학습하여 여러 종류의 잡음 환경에서 수집되는 학습 데이터들을 취득하고, 취득된 학습 데이터들을 모델 재추정 시스템에서 다양한 잡음 환경의 로우 데이터로 변환시켜 HMM 모델로 학습하고, 학습된 HMM 모델을 사용하여 연속 입력 단어에 대한 음성을 인식하는 것이 바람직하다.
또한, 상기 음성 인식부는, 다수개의 트라이폰 모델을 특정 개수의 클러스터로 유사 음소 군집화를 실행한 후, MLLR을 이용하여 HMM 모델을 평균 보상해 주고, 군집화된 트라이폰 모델들을 학습하며, 상기 학습에 의해 조사된 트라이폰 별 상태에 따라 상기 평균 보상된 HMM 모델에 대해 적응 데이터의 MAP 적응을 수행하고, 적응 데이터의 MAP 적응에 의해 학습된 적응 모델을 사용하여 연속 입력 단어에 대한 음성을 인식하는 것이 바람직하다.
또한, 상기 음성 인식부는, HMM 모델의 상태 천이를 자신의 상태 천이와 반대로 설정하여 반음소의 특성을 지닐 수 있도록 HMM 모델의 상태 천이 확률을 '1-상태 천이 확률'의 값으로 대치하고, 세그먼테이션된 프레임의 가우시안 모델에 대한 심볼 관측 확률을 상기 프레임을 역으로 취한 값으로 대치한 후, 상기 대치된 상태 천이 확률과 상기 역프레임을 취한 심볼 관측 확률을 이용하여 음소 대 반음소의 우도비를 계산하여 신뢰도를 측정하고, 새로운 반음소 모델을 이용한 새로운 신뢰도 측정 기법을 적용하여 미등록어 거절 기능을 수행하는 것이 바람직하다.
또한, 상기 음성 인식부는, 각 노드 뒤에는 모든 인식 대상이 따라올 수 있도록 단어와 단어 사이의 연결 확률이 모두 같아지도록 미리 설정하고, 단어와 단어 사이가 전부 연결되어 있는 상태로 인식 대상 문장을 선정한 후, 선정된 인식 대상 문장을 인식 대상 단어로 각각 분할하고, 분할된 인식 대상 단어를 이용하여 인식 네트워크를 구성한 후, 입력되는 음성에 대한 인식을 인식 네트워크를 통해 수행하고, 인식 네트워크를 통해 나온 최종 인식 단어열이 앞서 선정된 인식 대상 문장과 일치하는 지를 확인하여, 일치하는 경우에는 인식 처리하고, 일치하지 않으면 거절 처리하는 것이 바람직하다.
한편, 본 발명의 일 실시예에 따른 음성 인식을 이용한 홈 미디어 PC 시스템 제어 방법은, 좌우 음소 연결 기법, 음성 데이터베이스 구축을 위한 잡음 합성 알고리즘, 음성 데이터베이스 구축을 위한 적응 알고리즘, 새로운 반음소 모델을 이용한 발화 검증, 소규모 연속 음성 인식 시스템용 언어 모델을 응용한 순차적 미등록어 거절 알고리즘 중에서 적어도 어느 하나를 이용하여 입력 음성을 인식하는 과정과; 상기 음성 인식 과정을 통해 인식된 음성 인식 결과에 의거하여 제어 명령을 파악하는 과정과; 상기 파악된 제어 명령에 의거하여 홈 미디어 PC 시스템의 동작을 제어하는 과정을 포함하여 이루어지는 것이 바람직하다.
본 발명의 음성 인식을 이용한 홈 미디어 PC 시스템 및 그 제어 방법에 따르 면, 홈 미디어 PC 시스템의 동작을 제어하고자 하는 사용자의 음성을 인식한 후, 인식된 음성에 정의되어 있는 제어 신호에 의거하여 시스템의 동작을 제어함으로써, 홈 미디어 PC 시스템이 설치되어 있는 곳까지 사용자가 이동하지 않고도 음성으로만 동작을 제어할 수 있게 된다. 또한, 음성만으로 쉽게 홈 미디어 PC 시스템의 동작을 제어할 수 있게 되어, 기계 조작이 서툰 어린이, 노인 또는 장애인들도 쉽게 홈 미디어 PC 시스템을 이용할 수 있게 된다.
또한, 음원의 방향을 감지하여 감지된 방향을 향하도록 마이크로폰을 조절하고 지향성 마이크로폰을 사용하므로, 오디오가 구동되고 있는 환경에서도 음성 인식 성능을 향상시킬 수 있게 된다.
이하에서는 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 따른 음성 인식을 이용한 홈 미디어 PC 시스템 및 그 제어 방법에 대해서 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성 인식을 이용한 홈 미디어 PC 시스템의 구성을 개략적으로 보인 도로, 음원 감지부(10), 음성 인식부(20), 제어부(80), 오디오 처리부(30)와, 영상 처리부(40), 메모리부(50, 인터넷 접속부(60), 근거리 무선 통신부(70)를 포함하여 이루어진다.
이와 같은 구성에 있어서, 음원 감지부(10)는 다수의 음원 감지용 마이크로폰(1a, 1b, 1c)으로부터 입력된 음원의 위치를 파악한 후, 파악된 결과치에 의거하여 음성 인식용 마이크로폰(5)의 방향을 조절한다.
전술한, 음원 감지부(10)에서 음원의 방향을 감지하는 방법을 살펴보면 다음과 같다.
음원 감지부(10)는 음원이 발생하는 음향을 마이크로폰 센서 열을 이용하여 수신하고, 각 센서에 의해 얻어지는 정보에 대해 적절한 신호처리를 하여 각 센서 신호의 차등 시간 지연을 측정함으로써, 수신기에 대한 음원의 상대 위치(거리, 방위)를 측정한다. 또한, 일정한 시간 간격을 두고 상대 위치를 측정함으로써 음원의 상대 운동(이동 속도, 이동 방향)도 구할 수 있게 된다.
음원의 음향 신호를 마이크로폰 센서 열로 수신할 경우, 어느 한 센서를 기준으로 했을 때, 다른 센서에는 센서의 배열, 간격 등의 제요소에 따라 수신음에 대한 시간 지연이 생기게 된다. 각 센서 신호의 시간 지연 차를 측정하여 음원의 상대 위치를 구하는 알고리즘은 다음과 같다.
음원의 음파 에너지가 n개로 구성된 센서열에 수신된다고 하면, 어떤 시간 t에 i번째 센서에 수신되는 신호 ei는 수학식 1과 같이 주어진다.
Figure 112007065268176-PAT00001
수학식 1에서, s(t), ni(t)는 센서에 수신되는 신호와 외부 잡음이고, τi는 시간지연, Ki는 음원이 센서에 대해 상대 운동을 함으로써 발생되는 시간 압축이다.
여기서, 신호와 잡음은 상관 관계가 없다고 보았을 때, i번째 센서에 대한 시간 압축은 수학식 2와 같다.
Figure 112007065268176-PAT00002
수학식 2에서, C는 음속, Vi는 bearing line에서의 속도이다.
한편, 음원의 속도는 음속 C에 비해 무시할 수 있을 정도로 작다고 하면, Vi/C항은 무시할 수 있다. 따라서, 수학식 1은 수학식 3으로 나타낼 수 있다.
Figure 112007065268176-PAT00003
음원에서 i번째 센서까지의 거리 Ri는 수학식 4로 나타낼 수 있다.
Figure 112007065268176-PAT00004
수학식 4에서, τi는 음원으로부터 i번째 센서까지 음향의 전파 시간이다.
한편, 각 센서 사이의 시간차는 수학식 5로 나타낼 수 있다.
Figure 112007065268176-PAT00005
도 2는 음원과 마이크로폰 센서들로 이루어진 3-센서 음원 감지기의 기하학적 구조를 보인 도로, M1, M2, M3은 수신 센서(음원 감지용 마이크로폰)이고, L1, L2 는 센서간의 간격이고, B1, B2, B3은 각 센서에서 음원과 센서열이 이루는 교각이다.
3-센서 음원 감지기에서 3개의 센서들은 동일 일직선상에 존재하고 센서 간격은 알고 있다고 하면, 센서 M2를 기준으로 할 때 삼각 함수의 관계를 이용하면 센서로부터 음원까지의 거리 R2와 음원에 대한 방위 B2를 구할 수 있다.
음원과 각 센서 사이에는 수학식 6이 성립한다.
Figure 112007065268176-PAT00006
음원과 각 센서들로 이루어지는 평면상의 삼각 함수 관계를 이용하여 L1=L2=L로 두고, R1과 R3를 소거하면, 센서(M2)로부터 음원까지의 거리와 방위는 수학식 7과 수학식 8에 의해 구할 수 있다.
Figure 112007065268176-PAT00007
Figure 112007065268176-PAT00008
한편, 음원의 방향을 감지하는 다른 방법으로 상호 상관 관계를 이용한 본체 일치형 음원 감지 기법이 존재한다.
도 3은 상호 상관 관계를 이용한 본체 일치형 음원 감지 기법을 설명하기 위한 도로, 상호 상관 함수의 최대값을 이용하여 음원의 위치 및 방향을 감지한다.
샘플링 주파수 Fs =16KHz, 음속 V = 342m/s이라고 했을 때, 지연 샘플링의 최대수는 다음과 같다.
Figure 112007065268176-PAT00009
Figure 112007065268176-PAT00010
위와 같은 삼각함수 법에 의해 다음의 r행렬은 모든 Kac와 Kbc에 대한 Rac와 Rbc의 상호 상관을 표현한다.
Figure 112007065268176-PAT00011
Figure 112007065268176-PAT00012
Figure 112007065268176-PAT00013
Figure 112007065268176-PAT00014
상호 상관 함수내 최대값은 수학식 15와 수학식 16으로 나타낼 수 있으며, 세팅값은 수학식 17로 나타낼 수 있다.
Figure 112007065268176-PAT00015
Figure 112007065268176-PAT00016
Figure 112007065268176-PAT00017
한편, 음원의 방향을 감지하는 또 다른 방법으로 사람의 음성이 가지는 특성을 이용하여 음원을 감지하는 기법이 존재한다.
음성이 가지는 특성을 이용하여 음원을 감지하는 기법은 반음소(Anti-phone) 모델을 이용하여 음원을 감지하는 방법과, 단어 단위의 신뢰도를 이용하여 음원을 감지하는 방법과, 반음소 HMM 모델을 이용하여 음원을 감지하는 방법으로 구분된다.
반음소 모델을 이용하여 음원을 감지하는 경우, 반음소 모델은 자기 음소를 제외한 유사 음소 집합을 말하는 것으로, 유사 음소 집합이 많을수록 반음소가 잘 모델링되지만, 유사 음소 집합의 크기가 너무 크게 되면 훈련 데이터량이 너무 많아지게 된다.
이에 따라, 음소 모델에 반하는 반음소 모델을 미리 정하여 메모리상에 등록시켜 놓는다.
한편, 단어 단위의 신뢰도를 이용하여 음원을 감지하는 경우, 가변 어휘 단어 인식기를 통해 음성이 기본적으로 단어 단위로 인식이 되지만, 그 인식된 단어는 내부적으로 음소 단위로 인식이 된다. 따라서 인식된 음소 단위들을 각각의 반음소 모델과 비교하여 신뢰도를 구하고, 음소 단위의 신뢰도를 단어 단위의 신뢰도로 환산하기 위해서 음소 단위의 신뢰도를 평균 내게 된다.
우선, 자신외의 다른 패턴, 즉 θ={θ1, θ2, …, θk}에 상응하는 발화 검증 모델을 사용하는 신뢰도를 선택한다. 각 패턴 1에 대해서 음소 모델을 θl (k)라 표시하고, 반음소 모델을 θl (a)라 표시했다. 따라서, 음소 단위들을 평균낸 단어 단위의 신뢰도는 수학식 18과 같이 표현될 수 있다.
Figure 112007065268176-PAT00018
신뢰도가 미리 정해둔 임계값 τs이하라면 거절시키게 된다. 수학식 18에서 f는 음의 값을 가지는 상수이며, 가변 어휘 단어 인식기에서 인식된 결과인 등록어 i는 N(i)음소들로 구성되어 있다.
한편, 반음소 HMM 모델을 이용하여 음원을 감지하는 경우를 설명하면 다음과 같다.
수학식 19는 신뢰도를 측정하기 위한 음소 대 반음소 우도비(Likelihood ratio) 계산 기법이다.
Figure 112007065268176-PAT00019
수학식 19에서, 반음소 모델 λk-anti는 반음소 HMM 모델로, 자신의 음소 모델만을 사용하여 음소 대 반음소 우도비를 다음과 같이 계산한다.
반음소 HMM 모델의 상태 천이 확률 aij
Figure 112007065268176-PAT00020
로 대치하여 모델의 상태 천이를 자동적으로 자신의 상태 천이와 반대로 설정함으로써, 반음소의 특성을 지닐 수 있다.
또한, 세그멘테이션된 프레임 xt(N1≤t<NT)의 가우시안 모델에 대한 관측 확률 또한, 수학식 20과 같이 프레임을 역으로 취함으로써 음소 모델이 가지는 특성에 반하는 반음소의 특성을 살릴 수 있게 된다.
Figure 112007065268176-PAT00021
전술한 바와 같은 방법으로 신뢰도를 측정하면 음소 대 반음소의 우도비는 인식 대상이 변화하거나 음성의 품질이 잡음 등에 의하여 왜곡되었을 경우에도 적응적으로 신뢰도를 측정할 수 있을 뿐 아니라 계산량도 감소한다.
전술한, 반음소 HMM 모델의 생성 및 신뢰도 계산 과정을 살펴보면,
1> 상태 천이 확률 대치
Figure 112007065268176-PAT00022
2> 심볼 관측 확률 대치
Figure 112007065268176-PAT00023
λk의 반음소 모델은
Figure 112007065268176-PAT00024
로 대치된다.
3> 신뢰도 계산
Figure 112007065268176-PAT00025
Figure 112007065268176-PAT00026
Figure 112007065268176-PAT00027
전술한, 반음소 HMM 모델 기반 신뢰도 계산법은 학습시 환경과 인식 환경의 차이에서 기인하는 채널 불일치(Mis-match condition) 조건 발생시 큰 오류가 발생하는 기존의 신뢰도 검증 기법에 비해 잡음에 강인하며 계산량이 적은 이점이 있으며, 이러한 신뢰도를 기반으로 사람의 음성과 환경 음향을 분류해 냄으로써 음원을 보다 지능적으로 탐지해 낼 수 있다.
도 4는 도 1의 음원 감지부의 구성을 개략적으로 보인 도로, 마이크로폰 인터페이스부(11), 코덱(CODEC)부(12), DSP(Digital Signal Processor)부(13), 마이크로폰 방향 조절부(14)를 포함하여 이루어진다.
이와 같은 구성에 있어서, 마이크 인터페이스부(11)는 다수의 음원 감지용 마이크로폰(1a, 1b, 1c)을 통해 입력받은 음성 신호를 전기적인 신호로 변환하여 코덱부(12)로 전달한다.
코덱부(12)는 마이크로폰 인터페이스부(11)를 통해 전달받은 전기 신호를 디지털 변조하여 음원 데이터로 변환한다.
DSP부(13)는 코덱부(12)에서 변환된 음원 데이터를 이용하여 음원의 위치를 파악하는 연산을 수행하고, 음원 위치 파악에 따른 결과치를 마이크로폰 방향 조절부(14)로 전달한다.
마이크로폰 방향 조절부(14)는 DSP부(13)로부터 전달받은 연산 결과치에 따라 음성 인식용 마이크로폰(5)과 연결되어 있는 모터(15)를 구동시켜 음성 인식용 마이크로폰(5)이 음이 발생한 방향을 향하게 한다.
전술한, 음성 인식용 마이크로폰(5)은 전방에서 발생되는 소리에 대에서만 감도가 좋은 지향성 마이크로폰으로 구현되는 것이 바람직하다.
한편, 음성 인식부(20)는 홈 미디어 PC 시스템의 동작을 제어하고자 하는 사용자로부터 입력받은 음성을 인식하고, 음성 인식 결과(문장)를 제어부(80)로 인가한다.
전술한, 음성 인식부(20)는 도 5에 도시하는 바와 같이, 음성의 언어 정보의 특징을 추출해 파라미터화하는 전처리부(23)와, 전처리부(23)에서 추출된 특징 파라미터의 패턴을 분석하여 모델링(학습)하는 학습 과정을 수행하거나, 정해진 모델과 비교하여 매칭하는 인식 과정을 수행하는 패턴 매칭부(25)와, 어휘나 문법과 같은 언어 모델을 이용한 인식률을 향상시키거나, 미등록어를 거절하기 위한 거절 기능, 환경 변화에 적응하는 적응 기법 등과 같은 기능을 수행하는 후처리부(27)로 나뉘게 된다.
전술한, 패턴 매칭부(25)는 전처리부(23)를 통해 입력받은 음성을 음소 단위 발음열 생성기를 통하여 발음열로 생성시키고, 생성된 발음열을 인식 단위인 트라이폰으로 변환하는 과정을 통해 학습된 트라이폰을 사용하여 연속 단어에 대한 음성을 인식한다.
여기서, 패턴 매칭부(25)는 첫 번째 단어의 끝 음소와 두 번째 단어의 첫 음소(즉, 좌우 음소)를 결합시켜 인식시에는 나타나지 않는 트라이폰 열을 인위적으로 생성시켜 줌으로써, 사람의 음성이 자연스럽게 발성할 때에 나타나는 연음 형상을 인식 단계에서 고려해 줄 수 있게 되어, 연속 단어 인식 능력을 향상시킬 수 있게 된다.
또한, 패턴 매칭부(25)는 여러 종류의 잡음 환경에서 발생되는 잡음 신호 들(N1, N2, …, Nk)을 취득하고, 취득된 잡음 신호들(N1, N2, …, Nk)을 깨끗한 원음성 신호(S)에 결합시켜 혼합 신호들(M1, M2, …, Mk)을 생성한 후, 생성된 혼합 신호들을 학습하여 여러 종류의 잡음 환경에서 수집되는 학습 데이터들을 취득하고, 취득된 학습 데이터(즉, 음성 로우 데이터)를 모델 재추정 시스템에서 다양한 잡음 환경의 로우 데이터로 변환시켜 HMM 모델로 학습하고, 학습된 HMM 모델을 사용하여 연속 입력 단어에 대한 음성을 인식한다.
전술한, 모델 재추정 시스템은 도 6에 도시하는 바와 같이, 모델 파라미터 데이터베이스(25a)와, 학습 데이터 데이터베이스(25b)와, 모델 초기화부(25c)와, 상태열 분할부(25d)와, 확률 결정부(25e)와, 모델 재추정부(25f)와, 모델 수렴부(25g)를 포함하여 이루어진다.
여기서, 모델 파라미터 데이터베이스(25a)는 모델 수렴부(25g)로부터 인가되는 모델 파라미터를 저장한다.
학습 데이터 데이터베이스(25b)는 취득한 학습 데이터들을 저장한다.
모델 초기화부(25c)는 모델 파라미터 데이터베이스(25a)로부터 모델 파라미터를 판독하여 판독된 모델 파라미터를 초기화하고, 초기화된 모델 파라미터를 최초 모델 매개 변수(
Figure 112007065268176-PAT00028
)로서 상태열 분할부(25d)에 인가한다.
상태열 분할부(25d)는 학습 데이터 데이터베이스(25b)로부터 학습 데이터를 판독하고, 판독된 학습 데이터를 이용하여 모델 초기화부(25c)로부터 인가되는 최초 모델 매개 변수(
Figure 112007065268176-PAT00029
)에 대해 상태열 분할 동작을 수행하여 해당 상태열 분할된 정 보를 확률 결정부(25e)에 인가한 후에, 학습 데이터 데이터베이스(25b)로부터 학습 데이터를 판독하고, 판독된 학습 데이터를 이용하여 모델 수렴부(25g)로부터 인가되는 수정된 모델 매개 변수(
Figure 112007065268176-PAT00030
)에 대해 상태열 분할 동작을 수행하여 해당 상태열 분할된 정보를 확률 결정부(25e)에 인가한다.
확률 결정부(25e)는 학습 데이터 데이터베이스(25b)로부터 학습 데이터를 판독하고, 판독된 학습 데이터와 상태열 분할부(25d)에서 인가되는 정보를 이용하여 확률(
Figure 112007065268176-PAT00031
)을 결정하는 데, 수학식 24와 같이 확률(
Figure 112007065268176-PAT00032
)을 구하고, 구한 확률(
Figure 112007065268176-PAT00033
)을 모델 재추정부(25f)에 인가한다.
모델 재추정부(25f)는 학습 데이터 데이터베이스(25b)로부터 학습 데이터를 판독하고, 판독된 학습 데이터와 확률 결정부(25e)에서 결정된 확률(
Figure 112007065268176-PAT00034
)을 이용하여 모델 파라미터를 재추정하는 데, 수학식 24와 같이 새로운 파라미터(
Figure 112007065268176-PAT00035
)를 재추정하고, 재추정된 새로운 파라미터(
Figure 112007065268176-PAT00036
)를 모델 수렴부(25g)에 인가한다.
Figure 112007065268176-PAT00037
모델 수렴부(25g)는 모델 재추정부(25f)에서 재추정한 모델 파라미터가 강인한 HMM 모델로 수렴되었는 지를 판단하는 데, 모델 재추정부(25f)로부터 인가되는 새로운 파라미터(
Figure 112007065268176-PAT00038
)가 '
Figure 112007065268176-PAT00039
'일 때에 모델 파라미터로 근사화된 것으로 판단하고 이를 모델 파라미터 데이터베이스(25a)에 업그레이드시켜 주게 된다. 반면에, 모델 수렴부(25g)는 모델 재추정부(25f)에서 재추정한 모델 파라미터가 강인한 HMM 모델로 수렴되지 않은 경우에 모델 재추정부(25f)로부터 인가되는 새로운 파라미터(
Figure 112007065268176-PAT00040
)를 다시 수정된 모델 매개 변수(
Figure 112007065268176-PAT00041
)로서 상태열 분할부(25d)로 인가한다.
또한, 패턴 매칭부(25)는 수 만개의 트라이폰들을 특정 개수(즉, k개)의 클러스터로 유사 음소 군집화를 실행한 후, MLLR(Maximum Likelihood Linear Regression)을 이용하여 HMM 모델을 평균 보상해 주고, 군집화된 트라이폰 모델들을 학습하며 조사된 트라이폰 별 상태에 따라 평균 보상된 HMM 모델에 대해 적응 데이터의 MAP(Maximum A Posteriori) 적응을 수행하고, 적응 데이터의 MAP 적응에 의해 학습된 적응 모델을 사용하여 연속 입력 단어에 대한 음성을 인식한다.
후처리부(27)는 HMM 모델의 상태 천이를 자신의 상태 천이와 반대로 설정하여 반음소의 특성을 지닐 수 있도록 HMM 모델의 상태 천이 확률을 '1-상태 천이 확률'의 값으로 대치하고, 세그먼테이션된 프레임의 가우시안 모델에 대한 심볼 관측 확률도 음소 모델이 가지는 특성에 반하는 반음소의 특성을 살릴 수 있도록 프레임을 역으로 취한 후, 대치된 상태 천이 확률과 역프레임을 취한 심볼 관측 확률을 이용하여 음소 대 반음소의 우도비를 계산하여 신뢰도를 측정하는 새로운 반음소 모델을 이용한 새로운 신뢰도 측정 기법을 적용하여 미등록어 거절 기능을 수행한 다.
또한, 후처리부(27)는 각 노드 뒤에는 모든 인식 대상이 따라올 수 있도록 단어와 단어 사이의 연결 확률이 모두 같아지도록 미리 설정하고, 단어와 단어 사이가 전부 연결되어 있는 상태로 인식 대상 문장을 선정한 후, 선정된 인식 대상 문장을 인식 대상 단어로 각각 분할하고, 분할된 인식 대상 단어를 이용하여 인식 네트워크를 구성한 후, 입력되는 음성에 대한 인식을 인식 네트워크를 통해 수행하고, 인식 네트워크를 통해 나온 최종 인식 단어열이 앞서 선정된 인식 대상 문장과 일치하는 지를 확인하여, 일치하는 경우에는 인식 처리하도록 하고, 일치하지 않으면 거절 처리하도록 한다.
한편, 제어부(80)는 각각의 문장에 정의되어 있는 제어 명령을 일대일 매칭시켜 저장하고 있는 제어 명령 테이블을 구비하여 이루어져, 음성 인식부(20)로부터 음성 인식 결과인 문장을 인가받으면, 제어 명령 테이블을 참조하여 음성 인식부(20)로부터 인가받은 문장에 정의되어 있는 제어 명령을 파악한 후, 파악된 제어 명령에 의거하여 홈 미디어 PC 시스템의 동작을 제어한다.
예를 들어, 음성 인식부(20)로부터 'TV 켜'라는 음성 인식 결과를 인가받으면, 제어 명령 테이블을 참조하여 'TV 켜'에 정의되어 있는 제어 명령을 파악하고, 파악된 제어 명령에 의거하여 TV 기능을 실행시킨다.
전술한, 제어부(80)는 근거리 무선 통신부(70)로부터 인가받은 제어 명령에 의거하여 홈 미디어 PC 시스템의 동작을 제어한다.
한편, 오디오 처리부(30)는 마이크로폰(MIC)으로부터 입력받은 음성 신호를 변조하여 음성 데이터로 변환하고, 근거리 무선 통신부(70)로부터 입력된 음성 데이터 및 메모리부(50)에 저장되어 있는 음성 데이터를 음성 신호로 복조하여 스피커(SPK)를 통해 출력한다.
영상 처리부(40)는 영상 신호를 TV, 모니터 등 영상 신호 재생 기기에서 표시할 수 있도록 처리한다.
메모리부(50는 제어부(80)의 동작 프로그램, 시스템 프로그램이 저장되어 있다.
인터넷 접속부(60)는 유선 또는 무선 방식으로 인터넷에 접속을 수행한다.
근거리 무선 통신부(70)는 근거리 무선 통신 방식을 채택하고 있는 리모콘(90)이 송출하는 무선 신호를 수신하고, 수신한 무선 신호에 포함되어 있는 제어 명령을 추출하여 제어부(80)로 인가한다.
전술한, 근거리 무선 통신부(70)와 리모콘(90)은 지그비(Zigbee) 통신, WLAN(Wireless Local Area Network) 통신, 블루투스(Bluetooth) 통신, RFID(Radio Frequency Identification) 통신, UWB(Ultra Wide Band) 통신 중에서 어느 하나를 이용하여 신호를 송수신할 수 있다.
또한, 근거리 무선 통신부(70)는 근거리 무선 통신 방식을 채택하고 있는 헤드셋(91)과 쌍방향 통신을 수행한다.
도 7은 본 발명의 일 실시예에 따른 음성 인식을 이용한 홈 미디어 PC 시스템 제어 방법을 설명하기 위한 순서도이다.
우선, 마이크 등과 같은 음성 입력 장치를 통해 홈 미디어 PC 시스템의 동작 을 제어하고자 하는 사용자로부터 음성(예를 들어, "나래야 볼륨 높여")을 인가받으면(S10), 음성 인식부(20)에서 인가받은 음성을 인식한 후(S12), 음성 인식 결과(문장)를 제어부(80)로 인가한다(S14).
상기한 과정 S14를 통해 음성 인식부(20)로부터 음성 인식 결과를 인가받은 제어부(80)는 제어 명령 테이블을 참조하여 음성 인식부(20)로부터 인가받은 문장에 정의되어 있는 제어 명령을 파악한다(S16).
이후에는 상기한 과정 S16을 통해 파악된 제어 명령에 의거하여 홈 미디어 PC 시스템의 동작을 제어한다(S18).
상기한 과정 S18에서 제어부(80)는 상기한 과정 S16을 통해 파악된 제어 명령에 의거하여 볼륨을 높힌다.
한편, 홈 미디어 PC 시스템의 동작을 제어하고자 하는 사용자의 조작에 따라, 근거리 무선 통신 방식을 채택하고 있는 리모콘(90)이 송출한 무선 신호를 근거리 무선 통신부(70)에서 수신하면, 근거리 무선 통신부(70)는 수신한 무선 신호에 포함되어 있는 제어 명령을 추출하여 제어부(80)로 인가하고, 제어부(80)는 근거리 무선 통신부(70)로부터 인가받은 제어 명령을 분석하여, 해당 기능을 수행한다.
도 8은 도 7의 음성 인식 과정(S12)에 적용되는 제 1 실시예에 따른 음성 인식 방법을 설명하는 순서도로, 마이크 등과 같은 음성 입력 장치를 통해 입력받은 음성(예를 들어, "나래야 볼륨 높여")을 패턴 매칭부(15)에서 음소(Phone) 단위 발음열 생성기를 통해 발음열을 생성한다(S20).
이후에는, 상기한 과정 S20을 통해 생성된 발음열을 인식 단위인 트라이폰(Tri-phone)으로 변환시켜 주고(S22), 트라이폰 변환 과정(S22)을 통해 트라이폰을 학습하도록 하며(S24), 학습된 트라이폰을 사용하여 연속 입력 단어에 대한 음성을 인식한다(S26).
상기한 과정 S24를 통해 트라이폰을 학습하는 상황에 있어서 음성은 묵음 구간으로부터 첫 음소를 이루는 특성을 가지고 있으나, 인식 과정의 상황에서 연속적인 발성음이 녹음될 경우에는, 음성의 특성과 달라지므로 다른 인식 대상을 찾게 되어 연속 단어 인식률은 크게 떨어지게 된다.
이에 따라, 상기한 과정 S24에서의 트라이폰 학습 시에, 프로그램에 의해 강제적으로, 임의의 단어의 끝 음소와 해당 단어 뒤에 오는 단어의 첫 음소(즉, 좌우 음소)를 결합시켜 인식 시에는 나타나지 않는 트라이폰 열을 생성시켜 줌으로써, 연속 단어 인식률을 향상시킬 수 있게 된다.
전술한 바와 같은 좌우 음소 연결 기법은, 사람의 음성이 자연스럽게 발성할 때에 나타나는 연음 현상을 인식 단계에서 고려해 줌으로써, 연속 단어 인식 성능을 크게 향상시킬 수 있다.
도 9는 도 7의 음성 인식 과정(S12)에 적용되는 제 2 실시예에 따른 음성 인식 방법을 설명하는 순서도로, 여러 종류의 잡음 환경에서 발생되는 잡음 신호들(N1, N2, ..., Nk), 즉 다양한 신호대잡음비(SNR)를 가지는 잡음 신호들을 취득하여 잡음 신호 데이터베이스를 구현하고, 원음성 신호(S1)를 저장하고 있는 원음성 신호 데이터베이스도 함께 구현한다(S31).
이후에는 상기한 과정 S31에서 취득한 잡음 신호들(N1, N2, ..., Nk)을 깨끗한 원음성 신호(S1)에 결합시켜 혼합 신호들(M1, M2, ..., Mk)을 생성하고(S32), 생성된 혼합 신호들(M1, M2, ..., Mk)을 학습하도록 하며(S33), 하나의 PLU(Phone Like Unit)에 대하여 다양한 환경에서 수집되는 학습 데이터들을 취득할 수 있도록 한다(S34). 즉, 다양한 신호대잡음비를 가지는 혼합 신호들에 대한 학습 데이터 데이터베이스들을 구현하도록 한다.
이에 따라, 전술한 바와 같은 잡음 합성 기법에 의하여 취득된 학습 데이터들(즉, 음성 로우 데이터(Raw Data)들)은, 모델 재추정(Re-estimation) 시스템에 의한 EM(Expectation-Maximization) 기법으로 잘 알려진 보움-웰취(Baum-welch) 재추정 동작을 통해서, 한정된 음성 로우 데이터를 다양한 잡음 환경의 로우 데이터로 변환해 줌으로써(S35), 실제 인식 환경에 가까운 환경을 프로그램에 의해 강제적으로 만들어, 보다 잡음에 강인(Robust)한 HMM(Hidden Markov Model) 모델로 학습할 수 있게 된다(S36).
그런 후에, 다양한 잡음 환경의 학습 데이터들을 이용하여 전술한 보움-웰취 재추정 동작을 통해 학습된 HMM 모델을 사용하여 다양한 잡음 환경에서도 음성 인식 과정을 정확하게 수행하게 된다(S37).
도 10은 도 7의 음성 인식 과정(S12)에 적용되는 제 3 실시예에 따른 음성 인식 방법을 설명하는 순서도로, 소량의 적용 분야에 따라 필요한 음성 데이터를 저장하고 있는 적응 데이터베이스로부터 판독한 소량의 적응 데이터를 이용하여 수만 개의 트라이폰 모델을 적응하기 위하여 k 개의 유사 음소 클러스터가 생성되도록 수만 개의 트라이폰 모델을 군집화한다(S40).
다시 말해서, 도 11에 도시하는 바와 같이, 우선 파라미터를 초기화하는데, 모든 트라이폰의 평균(Mean)에 대한 하나의 중심 값(즉, 초기 중심 값)을 수학식 25와 같이 설정한다(S50).
Figure 112007065268176-PAT00042
그리고, 각 클러스터를 분할(Splitting)하는데, 각 클러스터의 중심 값을 이동
Figure 112007065268176-PAT00043
시켜 수학식 26과 같이 두 개로 분할한다(S51).
Figure 112007065268176-PAT00044
이후, 모든 입력 벡터를 재할당하는 데, 모든 입력 벡터에 대한 분할된 각 클러스터와의 유클리드 거리를 측정하여 수학식 27과 같이 가장 작은 거리를 갖는 클러스터의 멤버 벡터로 집단화한다(S52).
Figure 112007065268176-PAT00045
그리고, 센트로이드 업데이트(Centroid Update)를 수행하는 데, 상기 각 클러스터의 멤버 벡터를 통해 클러스터의 중심점을 수학식 28과 같이 갱신한다(S53).
Figure 112007065268176-PAT00046
이후, 제1터미네이션(Termination)을 수행하는 데, 오차의 갱신 값이 기설정된 임계값 이하인 지를 판단하여(S54), 오차의 갱신 값이 기설정된 임계값 이하가 아니면 상기한 과정 S51로 되돌아가 반복 수행한다.
한편, 상기한 과정 S54의 판단결과 오차의 갱신 값이 기설정된 임계값 이하이면, 제2터미네이션을 수행하는 데, 정해진 수의 클러스터로 분할되었는 지를 판단하여(S55), 정해진 수의 클러스터로 분할된 경우에는 작업을 종료하고, 그렇지 않으면 상기한 과정 S51로 되돌아가 반복 수행한다.
한편, 상기한 과정 S40을 수행한 후에는, MLLR 기법을 통해 HMM 모델을 평균 보상해 준다(S42). 여기서, MLLR은 가우시안 혼합 HMM 시스템의 평균값에 대한 선형 변환의 집합을 예측하는 모델 적응 기법이다. 이러한 변환의 효과는, 모델의 평균값을 이동시켜 줌으로써, 적응 데이터에 적합하도록 HMM 시스템의 상태를 변환하도록 하는 것이다. 새롭게 적응되는 평균값을 예측하기 위해 수학식 29와 같은 변환 행렬(
Figure 112007065268176-PAT00047
)이 사용된다.
Figure 112007065268176-PAT00048
수학식 29에서, '
Figure 112007065268176-PAT00049
'는 '
Figure 112007065268176-PAT00050
' 변환 행렬이고 'n'은 특징 파라미터 벡터 차수를 나타낸다. '
Figure 112007065268176-PAT00051
'은 확장 평균 벡터(Extended Mean Vector)로서, '
Figure 112007065268176-PAT00052
'이며, '
Figure 112007065268176-PAT00053
'는 바이어스 오프셋(Bias Offset)을 나타낸다.
따라서, 변환 행렬(
Figure 112007065268176-PAT00054
)은 '
Figure 112007065268176-PAT00055
'로 분해된다. 여기서, 'b'는 바이어스 벡터를 나타내며, 'A'는 '
Figure 112007065268176-PAT00056
' 변환 행렬을 나타낸다.
이에 따라, 상기한 과정 S40에서 군집화된 트라이폰 모델들을 학습하며, 학습에 의해 조사된 트라이폰 별 상태에 따라 수학식 30과 같이 평균 보상된 HMM 모델에 대해 적응 데이터의 MAP 적응을 수행하도록 한다(S44).
Figure 112007065268176-PAT00057
수학식 30에서, '
Figure 112007065268176-PAT00058
'은 적응 데이터에 대한 보움-웰취 재추정에 의해 추정된 적응 모델을 나타내며, '
Figure 112007065268176-PAT00059
'는 기존 학습 데이터의 개수를 나타내며, '
Figure 112007065268176-PAT00060
'은 적응 데이터의 개수를 나타낸다.
이후에는, 상기한 과정 S44에서 적응 데이터의 MAP 적응에 의해 학습된 적응 모델을 사용하여 음성 인식 과정을 수행한다(S46).
도 12는 도 7의 음성 인식 과정(S12)에 적용되는 제 4 실시예에 따른 음성 인식 방법을 설명하는 순서도로, HMM 모델의 상태 천이 확률(
Figure 112007065268176-PAT00061
)을 '
Figure 112007065268176-PAT00062
'로 대치하여 해당 HMM 모델의 상태 천이를 자동적으로 자신의 상태 천이와 반대로 설정하여(S60), 반음소의 특성을 지닐 수 있도록 한다.
그리고, 세그멘테이션된 프레임(
Figure 112007065268176-PAT00063
)의 가우시안 모델에 대한 심볼 관측 확률도, 수학식 31과 같이 프레임을 역으로 취하여(S62), 음소 모델이 가지는 특성에 반하는 반음소의 특성을 살릴 수 있도록 한다.
Figure 112007065268176-PAT00064
이때, '
Figure 112007065268176-PAT00065
'의 반음소 모델은 '
Figure 112007065268176-PAT00066
'로, 즉 새로운 반음소 모델로 대치된다.
이에, 상기한 과정 S60에서 대치된 상태 천이 확률과 상기한 과정 S62에서 역프레임을 취한 심볼 관측 확률을 이용하여 수학식 32에 나타나 있는 바와 같이 음소 대 반음소의 우도비를 계산하여 신뢰도를 측정하게 된다(S64).
Figure 112007065268176-PAT00067
상기한 과정 S64와 같이 신뢰도를 측정하게 되면, 음소 대 반음소의 우도비는 인식 대상이 변화하거나 음성의 품질이 잡음 등에 의하여 왜곡되었을 경우에도 적응적으로 신뢰도를 측정할 수 있을 뿐 아니라, 계산량도 감소시켜 준다.
이후에는, 전술한 바와 같은 새로운 반음소 모델을 이용한 새로운 신뢰도 측정 기법을 적용하여 미등록어 거절 기능을 수행하게 된다(S66).
도 13은 도 7의 음성 인식 과정(S12)에 적용되는 제 5 실시예에 따른 음성 인식 방법을 설명하는 순서도로, 각 노드 뒤에는 모든 인식 대상이 따라올 수 있도록 단어와 단어 사이의 연결 확률은 모두 같아지도록 미리 설정해 준다(S70). 이때, 역전파 경로를 통한 최종 인식 단어열은, 미리 정해진 인식 문장과 일치해야만 인식되도록 한다.
예를 들어, "나래야"라는 제1핵심어와, "볼륨, TV, 라디오, 사진, 영화, 음악, ... 컴퓨터" 등의 제2핵심어와, "높여, 줄여, 재생, 정지, ..., 켜, 꺼" 등의 제3핵심어 사이에 서로가 연결될 확률이 모두 동일하다고 모델링을 해 놓으면, 노드별 네트워크 천이 시에 수학식 33과 같이 언어 모델(
Figure 112007065268176-PAT00068
)이 가중된다.
Figure 112007065268176-PAT00069
그런 후에, "나래야TV켜", "나래야TV꺼", "나래야볼륨줄여", "나래야볼륨높여" 등과 같이, 단어와 단어 사이가 전부 연결되어 있는 상태로 인식 대상 문장을 선정한다(S71).
그리고, "나래야", "TV", "높여", "꺼", "컴퓨터", "녹화", "시작" 등과 같이, 상기한 과정 S71에서 선정된 인식 대상 문장을 인식 대상 단어로 각각 분할하 고(S72), 분할된 인식 대상 단어를 이용하여 도 14에 도시된 바와 같은 인식 네트워크를 구성해 준다(S73).
이에 따라, 음성 입력 장치를 통해 입력되는 음성에 대한 인식을 상기한 과정 S73에서 구성된 인식 네트워크를 통해 수행한 후에(S74), 인식 네트워크를 통해 나온 최종 인식 단어열이 상기한 과정 S71에서 선정된 인식 대상 문장과 일치하는 지를 확인하여(S75), 일치하는 경우에는 인식 처리하도록 하고(S76), 일치되지 않는 경우에는 거절 처리하도록 한다(S77).
본 발명의 음성 인식을 이용한 홈 미디어 PC 시스템 및 그 제어 방법은 전술한 실시예에 국한되지 않고 본 발명의 기술 사상이 허용하는 범위 내에서 다양하게 변형하여 실시할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 인식을 이용한 홈 미디어 PC 시스템의 구성을 개략적으로 보인 도면.
도 2는 음원과 마이크로폰 센서들로 이루어진 3-센서 음원 감지기의 기하학적 구조를 보인 도면.
도 3은 상호 상관 관계를 이용한 본체 일치형 음원 감지 기법을 설명하기 위한 도면.
도 4는 도 1의 음원 감지부의 구성을 개략적으로 보인 도면.
도 5는 도 1의 음성 인식부의 내부 구성을 개략적으로 보인 도면.
도 6은 모델 재추정 시스템을 예시적으로 보인 도면.
도 7은 본 발명의 일 실시예에 따른 음성 인식을 이용한 홈 미디어 PC 시스템 제어 방법을 설명하기 위한 순서도.
도 8은 도 7의 음성 인식 과정(S12)에 적용되는 제 1 실시예에 따른 음성 인식 방법을 설명하는 순서도.
도 9는 도 7의 음성 인식 과정(S12)에 적용되는 제 2 실시예에 따른 음성 인식 방법을 설명하는 순서도.
도 10은 도 7의 음성 인식 과정(S12)에 적용되는 제 3 실시예에 따른 음성 인식 방법을 설명하는 순서도.
도 11은 도 10에 있어 트라이폰 모델 군집화 단계를 나타낸 순서도.
도 12는 도 7의 음성 인식 과정(S12)에 적용되는 제 4 실시예에 따른 음성 인식 방법을 설명하는 순서도.
도 13은 도 7의 음성 인식 과정(S12)에 적용되는 제 5 실시예에 따른 음성 인식 방법을 설명하는 순서도.
도 14는 도13에 있어 인식 네트워크 구성을 설명하기 위한 도면.
*** 도면의 주요 부분에 대한 부호의 설명 ***
10. 음원 감지부, 11. 마이크로폰 인터페이스부, 12. 코덱부,
13. DSP부, 14. 마이크로폰 방향 조절부, 15. 모터,
20. 음성 인식부, 23. 전처리부, 25. 패턴 매칭부,
27. 후 처리부, 30. 오디오 처리부, 40. 영상 처리부,
50. 메모리부, 60. 인터넷 접속부, 70. 근거리 무선 통신부,
80. 제어부, 90. 리모콘, 91. 헤드셋

Claims (9)

  1. 다수의 음원 감지용 마이크로폰으로부터 입력된 음원의 위치를 파악한 후, 파악된 결과치에 의거하여 음성 인식용 마이크로폰의 방향을 조절하는 음원 감지부와;
    상기 음성 인식용 마이크로폰을 통해 사용자로부터 입력받은 음성을 음소 단위 발음열 생성기를 통하여 발음열로 생성한 후, 생성된 발음열을 인식 단위인 트라이폰으로 변환하고, 트라이폰 변환을 통해 변환된 트라이폰을 인식하되, 단어의 끝 음소와 상기 단어의 뒤에 오는 단어의 첫 음소(즉, 좌우 음소)를 결합시켜 음성 인식시에는 나타나지 않는 트라이폰 열을 생성시키고, 상기 인식된 트라이폰을 사용하여 연속 입력 단어에 대한 음성을 인식하는 음성 인식부와;
    각각의 문장에 정의되어 있는 제어 명령을 일대일 매칭시켜 저장하고 있는 제어 명령 테이블을 구비하여 이루어지며, 상기 음성 인식부로부터 음성 인식 결과인 문장을 인가받으면, 상기 제어 명령 테이블을 참조하여 상기 음성 인식부로부터 인가받은 문장에 정의되어 있는 제어 명령을 파악하고, 파악된 제어 명령에 의거하여 시스템의 동작을 제어하는 제어부를 포함하여 이루어지는 음성 인식을 이용한 홈 미디어 PC 시스템.
  2. 제 1항에 있어서, 상기 음원 감지부는,
    다수의 음원 감지용 마이크로폰을 통해 입력받은 음성 신호를 전기적인 신호로 변환하는 마이크 인터페이스부와;
    상기 마이크 인터페이스부를 통해 전달받은 전기 신호를 디지털 변조하여 음원 데이터로 변환하는 코덱부와;
    상기 코덱부에서 변환된 음원 데이터를 이용하여 음원의 위치를 파악하는 연산을 수행하는 DSP와;
    상기 DSP로부터 전달받은 연산 결과치에 의거하여 음원 인식용 마이크로폰이 음이 발생한 방향을 향하도록 조절하는 마이크로폰 방향 조절부를 포함하여 이루어지는 것을 특징으로 하는 음성 인식을 이용한 홈 미디어 PC 시스템.
  3. 제 2항에 있어서, 상기 음성 인식용 마이크로폰은,
    전방에서 발생되는 소리에 대에서만 감도가 좋은 지향성 마이크로폰으로 구현되는 것을 특징으로 하는 음성 인식을 이용한 홈 미디어 PC 시스템.
  4. 제 1항에 있어서, 사용자의 키조작에 따라 근거리 무선 통신 방식을 채택하고 있는 리모콘이 송출하는 무선 신호를 수신하고, 상기 무선 신호에 포함되어 있는 제어 명령을 추출하여 상기 제어부로 인가하는 근거리 무선 통신부를 더 포함하여 이루어지는 것을 특징으로 하는 음성 인식을 이용한 홈 미디어 PC 시스템.
  5. 제 1항에 있어서, 상기 음성 인식부는,
    여러 종류의 잡음 환경에서 발생되는 잡음 신호들을 취득하고, 취득된 잡음 신호들에 깨끗한 원음성 신호를 결합시켜 혼합 신호들을 생성한 후, 생성된 혼합 신호들을 학습하여 여러 종류의 잡음 환경에서 수집되는 학습 데이터들을 취득하고, 취득된 학습 데이터들을 모델 재추정 시스템에서 다양한 잡음 환경의 로우 데이터로 변환시켜 HMM 모델로 학습하고, 학습된 HMM 모델을 사용하여 연속 입력 단어에 대한 음성을 인식하는 것을 특징으로 하는 음성 인식을 이용한 홈 미디어 PC 시스템.
  6. 제 1항에 있어서, 상기 음성 인식부는,
    다수개의 트라이폰 모델을 특정 개수의 클러스터로 유사 음소 군집화를 실행한 후, MLLR을 이용하여 HMM 모델을 평균 보상해 주고, 군집화된 트라이폰 모델들을 학습하며, 상기 학습에 의해 조사된 트라이폰 별 상태에 따라 상기 평균 보상된 HMM 모델에 대해 적응 데이터의 MAP 적응을 수행하고, 적응 데이터의 MAP 적응에 의해 학습된 적응 모델을 사용하여 연속 입력 단어에 대한 음성을 인식하는 것을 특징으로 하는 음성 인식을 이용한 홈 미디어 PC 시스템.
  7. 제 1항에 있어서, 상기 음성 인식부는,
    HMM 모델의 상태 천이를 자신의 상태 천이와 반대로 설정하여 반음소의 특성을 지닐 수 있도록 HMM 모델의 상태 천이 확률을 '1-상태 천이 확률'의 값으로 대치하고, 세그먼테이션된 프레임의 가우시안 모델에 대한 심볼 관측 확률을 상기 프레임을 역으로 취한 값으로 대치한 후, 상기 대치된 상태 천이 확률과 상기 역프레임을 취한 심볼 관측 확률을 이용하여 음소 대 반음소의 우도비를 계산하여 신뢰도를 측정하고, 새로운 반음소 모델을 이용한 새로운 신뢰도 측정 기법을 적용하여 미등록어 거절 기능을 수행하는 것을 특징으로 하는 음성 인식을 이용한 홈 미디어 PC 시스템.
  8. 제 1항에 있어서, 상기 음성 인식부는,
    각 노드 뒤에는 모든 인식 대상이 따라올 수 있도록 단어와 단어 사이의 연결 확률이 모두 같아지도록 미리 설정하고, 단어와 단어 사이가 전부 연결되어 있는 상태로 인식 대상 문장을 선정한 후, 선정된 인식 대상 문장을 인식 대상 단어로 각각 분할하고, 분할된 인식 대상 단어를 이용하여 인식 네트워크를 구성한 후, 입력되는 음성에 대한 인식을 인식 네트워크를 통해 수행하고, 인식 네트워크를 통해 나온 최종 인식 단어열이 앞서 선정된 인식 대상 문장과 일치하는 지를 확인하여, 일치하는 경우에는 인식 처리하고, 일치하지 않으면 거절 처리하는 것을 특징 으로 하는 음성 인식을 이용한 홈 미디어 PC 시스템.
  9. 좌우 음소 연결 기법, 음성 데이터베이스 구축을 위한 잡음 합성 알고리즘, 음성 데이터베이스 구축을 위한 적응 알고리즘, 새로운 반음소 모델을 이용한 발화 검증, 소규모 연속 음성 인식 시스템용 언어 모델을 응용한 순차적 미등록어 거절 알고리즘 중에서 적어도 어느 하나를 이용하여 입력 음성을 인식하는 과정과;
    상기 음성 인식 과정을 통해 인식된 음성 인식 결과에 의거하여 제어 명령을 파악하는 과정과;
    상기 파악된 제어 명령에 의거하여 홈 미디어 PC 시스템의 동작을 제어하는 과정을 포함하여 이루어지는 음성 인식을 이용한 홈 미디어 PC 시스템 제어 방법.
KR1020070091156A 2007-09-07 2007-09-07 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법 KR20090025939A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070091156A KR20090025939A (ko) 2007-09-07 2007-09-07 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070091156A KR20090025939A (ko) 2007-09-07 2007-09-07 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법

Publications (1)

Publication Number Publication Date
KR20090025939A true KR20090025939A (ko) 2009-03-11

Family

ID=40694178

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070091156A KR20090025939A (ko) 2007-09-07 2007-09-07 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법

Country Status (1)

Country Link
KR (1) KR20090025939A (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626962B2 (en) 2014-05-02 2017-04-18 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model
US9953654B2 (en) 2014-05-20 2018-04-24 Samsung Electronics Co., Ltd. Voice command recognition apparatus and method
US10228906B2 (en) 2016-05-30 2019-03-12 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN109903768A (zh) * 2019-04-26 2019-06-18 长安大学 一种语音识别的智能电机控制***及方法
JP2021505923A (ja) * 2018-02-12 2021-02-18 ラックスロボ カンパニー,リミティド 音声命令による位置基盤音声認識システム(A Location Based Voice Recognition System Using A Voice Command)
US10997973B2 (en) 2016-02-05 2021-05-04 Samsung Electronics Co., Ltd. Voice recognition system having expanded spatial range
KR20210101971A (ko) * 2020-02-11 2021-08-19 주식회사 케이티 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
US11341963B2 (en) 2017-12-06 2022-05-24 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling same

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626962B2 (en) 2014-05-02 2017-04-18 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model
US9953654B2 (en) 2014-05-20 2018-04-24 Samsung Electronics Co., Ltd. Voice command recognition apparatus and method
US10997973B2 (en) 2016-02-05 2021-05-04 Samsung Electronics Co., Ltd. Voice recognition system having expanded spatial range
US10228906B2 (en) 2016-05-30 2019-03-12 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11341963B2 (en) 2017-12-06 2022-05-24 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling same
JP2021505923A (ja) * 2018-02-12 2021-02-18 ラックスロボ カンパニー,リミティド 音声命令による位置基盤音声認識システム(A Location Based Voice Recognition System Using A Voice Command)
CN109903768A (zh) * 2019-04-26 2019-06-18 长安大学 一种语音识别的智能电机控制***及方法
KR20210101971A (ko) * 2020-02-11 2021-08-19 주식회사 케이티 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
Li et al. Online direction of arrival estimation based on deep learning
CN108701453B (zh) 模块化深度学习模型
Feng et al. Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition
Vincent et al. The second ‘CHiME’speech separation and recognition challenge: An overview of challenge systems and outcomes
Huang et al. Audio-visual deep learning for noise robust speech recognition
Richardson et al. Hidden-articulator Markov models for speech recognition
KR20090025939A (ko) 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법
US6442519B1 (en) Speaker model adaptation via network of similar users
KR100814143B1 (ko) 데이터 처리 장치 및 데이터 처리 장치 제어 프로그램
CN111916101B (zh) 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及***
KR20200119377A (ko) 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치
Vadwala et al. Survey paper on different speech recognition algorithm: challenges and techniques
Che et al. Microphone arrays and neural networks for robust speech recognition
Marchi et al. Generalised discriminative transform via curriculum learning for speaker recognition
KR100832556B1 (ko) 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
Richardson et al. Hidden-articulator markov models: Performance improvements and robustness to noise.
Chandrakala et al. Histogram of states based assistive system for speech impairment due to neurological disorders
JP3798530B2 (ja) 音声認識装置及び音声認識方法
Liu Environmental adaptation for robust speech recognition
Singh et al. A critical review on automatic speaker recognition
Pertilä et al. Online own voice detection for a multi-channel multi-sensor in-ear device
JP2019053180A (ja) 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム
Rajavel et al. Optimum integration weight for decision fusion audio–visual speech recognition
Utomo et al. Spoken word and speaker recognition using MFCC and multiple recurrent neural networks
JP2002091480A (ja) 音響モデル生成装置及び音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application