KR102069693B1 - 자연어 대화체 음성을 인식하는 장치 및 방법 - Google Patents

자연어 대화체 음성을 인식하는 장치 및 방법 Download PDF

Info

Publication number
KR102069693B1
KR102069693B1 KR1020160148423A KR20160148423A KR102069693B1 KR 102069693 B1 KR102069693 B1 KR 102069693B1 KR 1020160148423 A KR1020160148423 A KR 1020160148423A KR 20160148423 A KR20160148423 A KR 20160148423A KR 102069693 B1 KR102069693 B1 KR 102069693B1
Authority
KR
South Korea
Prior art keywords
speech
recognition
section
frame
lattice
Prior art date
Application number
KR1020160148423A
Other languages
English (en)
Other versions
KR20180051301A (ko
Inventor
박기영
박전규
정호영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160148423A priority Critical patent/KR102069693B1/ko
Publication of KR20180051301A publication Critical patent/KR20180051301A/ko
Application granted granted Critical
Publication of KR102069693B1 publication Critical patent/KR102069693B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 따른 자연어 대화체 음성 인식 방법은 사용자의 발화에 대응되는 음성 신호를 수신하는 단계; 미리 훈련된 음향 모델 및 언어 모델에 기초하여 상기 음성 신호로부터 래티스를 추출하는 단계; 상기 음성 신호 중 불명확한 발성으로 인식되는 구간을 추정하는 단계; 상기 음향 모델 및 언어 모델에 기초하여 상기 불명확한 발성으로 추정된 구간의 재인식을 수행하는 단계 및 상기 재인식 결과로부터 추출된 래티스를 상기 음성 신호로부터 추출된 래티스와 결합하는 단계를 포함한다.

Description

자연어 대화체 음성을 인식하는 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING NATURAL LANGUAGE DIALOGUE SPEECH}
본 발명은 자연어 대화체 음성을 인식하는 장치 및 방법에 관한 것이다.
음성 인식 기술은 발전을 거듭하여, 최근에 들어서는 조용한 환경에서 책을 읽는 것과 같이 낭독체로 정확하게 발성한 경우 95% 이상의 인식 성능을 보이고 있다.
이러한 음성 인식 기술이 많이 활용되는 대표적인 분야로는 휴대폰, 네비게이션, 개인용 로봇 등과 같은 개인화된 장치에서의 사용자 인터페이스 장치로, 이러한 분야에서는 사용자가 음성 인식을 의식하고 명확하게 발성하므로 음성 인식기의 측면에서는 인식이 비교적 쉬운 편이며, 주로 발성 환경의 잡음이 인식 성능을 저하시키는 요소로 작용한다.
이와 달리, 사용자가 음성 인식을 고려하지 않고 자연스럽게 발성하는 것을 인식해야 하는 분야에서도 음성 인식 기술이 많이 이용되고 있다. 이러한 분야의 예로는 뉴스, 드라마, 영화 등 멀티미디어 데이터의 캡셔닝, 회의록 녹취, 콜센터 등의 통화 내용 녹취 등이 있다.
이러한 분야에서는 사용자가 사람과 대화를 하면서 자연스럽게 발성한 내용을 음성 인식기가 인식(이하 자연어 대화체 음성 인식이라 한다.)하여 텍스트로 변환해야 한다. 자연어 대화체 음성 인식의 성능은 현재 낭독체 인식에 비하여 그 성능이 크게 못 미치고 있으며, 주로 정확한 인식이 되지 않아도 되거나, 정확한 녹취의 보조적인 수단으로 많이 사용되고 있다.
자연어 대화체 음성 인식이 낭독체 인식에 비하여 성능이 저하되는 주요한 요소 중 하나는 발성에 불명확한 구간이 포함되어 있기 때문이다. 예를 들어, 일부 구간에서 발화의 머뭇거림이 있거나 뒷부분으로 진행될수록 발성이 불명확해지는 것도 자연어 대화체 발화의 특징이다.
기존의 음성 인식기에서는 음향 모델의 훈련 과정에 이러한 자연어 발성을 많이 포함시켜서 음향 모델이 불명확한 발성을 모델링할 수 있도록 함으로써 인식 성능을 개선하고자 하였으나, 사용자별로 불명확한 발성의 정도가 다르고 음소 간의 혼동이 많아지므로 그 개선 정도에 한계가 있는 실정이다.
또한, 종래의 일반적인 문장 인식 기술의 경우, 수집된 문장의 통계 정보를 이용하여 단어 및 단어열의 발생 빈도를 추출하고, 이를 이용하여 단어 및 단어열의 발생 확률을 계산한 뒤 인식 단계에서 이러한 확률 정보를 이용하게 된다.
그러나 자연어 대화체 음성 인식의 경우, 발성 중에 불명확한 발성이 포함되면 해당 구간에서는 훈련된 음향 모델과 차이가 발생하여 음성 인식 성능이 저하되고 이로 인해 전체 문장에 대한 인식 성능이 크게 저하된다는 문제가 있다.
이와 관련하여, 한국공개특허공보 제10-2015-0001191호(발명의 명칭: 연속어 음성 인식 장치 및 방법)는 전체 어휘들 중에서 선택된 대표 어휘들을 이용하여 사용자의 의도가 포함된 문형을 인식하고 그 결과와 유사 어휘들을 이용하여 대용량 어휘가 포함된 연속어를 최종 인식하는 기술을 개시하고 있다.
본 발명의 실시예는 사용자의 발화 중 불명확한 발성이 포함된 경우, 불명확한 발성이 포함된 구간에 대하여 음성 인식을 재시도함으로써 음성 인식 성능을 향상시킬 수 있는 자연어 대화체 음성 인식 장치 및 방법을 제공한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 자연어 대화체 음성 인식 방법은 사용자의 발화에 대응되는 음성 신호를 수신하는 단계; 미리 훈련된 음향 모델 및 언어 모델에 기초하여 상기 음성 신호로부터 래티스를 추출하는 단계; 상기 음성 신호 중 불명확한 발성으로 인식되는 구간을 추정하는 단계; 상기 음향 모델 및 언어 모델에 기초하여 상기 불명확한 발성으로 추정된 구간의 재인식을 수행하는 단계 및 상기 재인식 결과로부터 추출된 래티스를 상기 음성 신호로부터 추출된 래티스와 결합하는 단계를 포함한다.
또한, 본 발명의 제 2 측면에 따른 자연어 대화체 음성을 인식하기 위한 장치는 음성 인식부를 통해 사용자의 발화에 대응되는 음성 신호를 수신하는 통신모듈, 상기 음성 신호에 대응하는 사용자의 발화를 인식하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 미리 훈련된 음향 모델 및 언어 모델에 기초하여 상기 음성 신호로부터 래티스를 추출하고, 상기 음성 신호 중 불명확한 발성으로 인식되는 구간을 추정하며, 상기 음향 모델 및 언어 모델에 기초하여 상기 불명확한 발성으로 추정된 구간의 재인식을 수행하고, 재인식 결과로부터 추출된 래티스를 통합하여 상기 음성 신호로부터 추출된 래티스와 결합하여 음성 인식 결과를 출력한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 자연어 대화체 연속어 인식과 같이 사용자가 자유롭게 발성한 연속어 문장의 인식 성능을 향상시킬 수 있다.
또한, 사용자의 발화에 대응되는 음성 신호를 인식한 다음 불명확한 발성으로 인식되는 구간을 추출하여, 해당 구간에 대해서만 정밀한 인식을 수행함으로써 음성 인식의 속도를 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치에서의 음성 인식 방법의 순서도이다.
도 3은 음성 신호로부터 추출된 래티스의 예시도이다.
도 4는 불명확한 발성으로 인식된 구간의 예시도이다.
도 5는 재인식 과정을 통해 생성된 래티스의 예시도이다.
도 6은 음성 인식 및 재인식 결과 추출된 래티스가 통합된 예시도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 발명은 자연어 대화체 음성을 인식하는 장치(100) 및 방법에 관한 것이다.
본 발명의 일 실시예에 따르면, 사용자의 발화 중 불명확한 발성으로 인식되는 구간이 포함된 경우, 해당 구간을 파악하고 재인식 과정을 수행함으로써 음성 인식 속도 및 성능을 향상시킬 수 있다.
이에 따라, 방송 등 멀티미디어 데이터, 회의나 콜센터 대화 녹취 등 사용자가 음성 인식을 고려하지 않고 자연스럽게 발성한 음성 신호를 인식하여 텍스트로 변환하는 음성 인식 기술의 성능을 향상시킬 수 있다.
이하에서는 도 1을 참조하여 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 장치(100)에 대해 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 장치(100)의 블록도이다.
본 발명의 일 실시예에 따른 음성 인식 장치(100)는 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.
통신모듈(110)은 마이크와 같은 음성 인식부(10)를 통해 사용자의 발화에 대응되는 음성 신호를 수신한다. 이와 같은 통신모듈(110)은 유선 통신모듈 및 무선 통신모듈을 모두 포함할 수 있다. 유선 통신모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, 무선 USB 기술 및 무선 HDMI 기술 등으로 구현될 수 있다.
메모리(120)에는 음성 신호에 대응하는 사용자의 발화를 인식하기 위한 프로그램이 저장된다. 이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.
예를 들어, 메모리(120)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.
프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킨다. 프로세서(130)는 프로그램을 실행시킴에 따라, 미리 훈련된 음향 모델 및 언어 모델에 기초하여 음성 신호로부터 래티스를 추출하고, 음성 신호 중 불명확한 발성으로 인식되는 구간이 존재하는지 여부를 판단하여, 해당 구간이 존재하는 경우 재인식을 수행하고, 재인식 결과로부터 추출된 래티스를 통합하여 음성 신호로부터 추출된 래티스와 결합함으로써 음성 인식 결과를 출력한다.
참고로, 본 발명의 실시예에 따른 도 1에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
이하에서는 도 2 내지 도 6을 참조하여, 본 발명의 일 실시예에 따른 노이즈 제거 장치(100)에서 수행되는 희소 깊이 지도의 노이즈를 제거하는 방법에 대해 구체적으로 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치(100)에서의 음성 인식 방법의 순서도이다. 도 3은 음성 신호로부터 추출된 래티스의 예시도이다. 도 4는 불명확한 발성으로 인식된 구간의 예시도이다. 도 5는 재인식 과정을 통해 생성된 래티스의 예시도이다. 도 6은 음성 인식 및 재인식 결과 추출된 래티스가 통합된 예시도이다.
본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 방법은 먼저, 사용자의 발화에 대응되는 음성 신호를 수신하면(S110), 미리 훈련된 음향 모델 및 언어 모델에 기초하여 음성 신호로부터 래티스를 추출한다(S120).
이때, 래티스는 음성 신호로부터 프레임 별 특징 벡터를 추출하고, 추출된 특징 벡터에 대해 음성 인식 디코딩을 수행함으로써 추출될 수 있다.
이러한 제 1 단계에 따른 음성 인식 결과로 추출된 래티스는 도 3과 같이 도시될 수 있다. 이때, 도 3내지 도 6은 FST(Finite State Transducer)을 의미하며, 도 3의‘1’ 내지 ’9’ 노드는 음성 신호의 프레임을 의미하고, 각 노드는 아크(arc)로 연결되어 있다.
한편, 각 아크에는 해당되는 심볼(symbol) 및 천이(transition) 확률이 할당되어 있으며, 음성 인식의 경우 천이 확률은 음향 모델 및 언어 모델에 대응되는 천이 확률이 있을 수 있다.
도 3에서 pi는 해당 아크에 대응되는 프레임동안 입력 프레임이 해당 어휘와의 음향의 유사도를 나타내는 확률을 의미한다. 즉, i번째 아크 구간이 어휘 1일 음향의 유사도를 의미한다.
또한, lwi는 언어 모델에 의한 가중치로서, 언어 모델에 따라서 해당 위치에 해당 어휘가 올 확률을 의미한다. 즉, i번째 아크 구간이 어휘 1일 확률을 의미한다.
각각의 확률은 로그값으로 표현되어 처음부터 끝까지 아크를 따라 진행됨에 따라, 이 확률값을 모두 더한 것이 최대가 되는 경로가 인식 결과로 출력될 수 있다.
이에 따라 정답열은 sum(pi+lwi)가 최소가 되는 어휘 시퀀스가 될 수 있다.
다음으로, 음성 신호 중 불명확한 발성으로 인식되는 구간을 추정한다(S130). 불명확한 발성으로 추정된 구간은 도 4와 같이 나타낼 수 있다. 도 4에서 ‘단어 4’, ‘단어 5’, ‘단어 7’, ‘단어 8’, ‘단어 9’, ‘단어 10’의 경우 불명확한 발성으로 추정된 구간에 해당한다.
음성 신호 중 불명확한 발성을 한 구간 통신모듈을 통해 수신한 음성 신호의 크기, 신호 대 잡음비 및 발화 속도 중 하나 이상을 분석하거나 또는 음향 모델을 이용한 단어별 우도(likelihood) 및 신뢰도에 기초한 인식 스코어를 산출함으로써 추정할 수 있다.
예를 들어, 신호의 크기를 이용하는 경우, 프레임별로 음성 신호의 크기를 산출하고, 산출된 음성 신호의 크기의 변화값이 기 설정된 크기 이상을 가지는 프레임을 추출한다. 이렇게 추출된 프레임을 불명확한 발성을 한 구간으로 추정할 수 있다.
즉, 각 프레임별로 음성 신호의 크기를 계산한 다음, 일정 구간에서 음성 신호의 크기가 급격하게 작아졌거나 또는 커진 경우를 불명확한 발성을 한 구간으로 추정할 수 있다.
또 다른 예로, 신호 대 잡음비를 이용하는 경우, 프레임별로 음성 신호의 크기를 산출하고, 사용자의 발화의 시작점으로부터 일정 프레임까지의 묵음 구간의 에너지를 추정한다. 그리고 추정된 에너지 값과 프레임 별 음성 신호의 크기의 비율을 산출하고, 산출된 비율의 추이를 분석하여 불명확한 발성을 한 구간을 추정할 수 있다.
즉, 사용자의 발성의 앞부분에서 묵음 구간의 에너지를 추정한 다음, 추정된 에너지 값과 입력된 음성 신호간의 비율의 추이로부터 불명확한 발성을 한 구간을 추정할 수 있다.
또 다른 예로, 발화 속도를 이용하는 경우, 모음에 해당하는 프레임을 검출함으로써 비교적 쉽게 불명확한 발성을 한 구간을 추정할 수 있다.
구체적으로, 프레임별로 단위 시간당 모음의 개수를 산출하고, 산출된 모음의 개수를 분석하여 발화 속도를 추정한다. 그리고 프레임별로 추정된 발화 속도와 전체 발화 속도를 비교하여, 기 설정된 임계값 이상 또는 기 설정된 임계값 이하의 발화 속도, 즉 현저하게 빠르거나 느린 구간을 불명확한 발성을 한 구간으로 추정할 수 있다.
이와 같이 래티스 추출 및 불명확한 발성을 한 구간이 추정되면, 불명확한 발성을 한 것으로 추정된 구간에 대해 재인식을 수행한다(S140). 이때, 해당 구간은 래티스 추출 단계에서 사용한 음향 모델 및 언어 모델에 기초하여 재인식될 수도 있으며, 또는 별도의 전용 모델을 사용할 수도 있다.
도 5는 불명확한 발성을 한 것으로 추정된 구간에 대해 재인식을 시도하여 생성된 래티스를 도시한 것으로서, 도 4에서 ‘단어 2(a에 대응됨)’, ‘단어 3(b에 대응됨)’과 연결된 ‘단어 4’ 내지 ‘단어 ‘10’이 포함된 구간이 불명확한 구간으로 추정되었는바, 해당 구간에 대하여 재인식을 수행하여 새로운 래티스 ‘c’ 내지 ‘j’를 추출한다.
이러한 재인식 단계는, 인식하고자 하는 대상 구간이 짧으므로, 보다 넓은 탐색 공간에 대해서 탐색을 하더라도 탐색 시간이 오래 걸리지 않는다는 장점이 있다. 따라서, 보다 풍부하고 빠른 인식 결과를 얻을 수 있게 된다.
다음으로, 재인식 결과로부터 추출된 래티스를 음성 신호로부터 추출된 래티스와 결합하고(S150), 재인식 결과로부터 추출된 래티스에 대하여 리스코어링을 수행함으로써 음성 인식 결과를 출력할 수 있다(S160).
이때, 리스코어링은 음성 인식에서 일반적으로 수행되는 과정으로서, 단어 래티스를 이용하여 새로운 언어 모델 가중치를 적용하여 최적의 음성 인식 결과를 추출하는 과정을 의미한다.
즉, 도 3에서 설명한 바와 같이 sum(pi+lwi)가 최소가 되는 어휘 시퀀스를 출력하도록 하되, 추가적으로 재인식된 결과로부터 pi와 lwi를 새로이 산출하고, 다시 한번 정답열을 산출함으로써 불명확한 발성으로 인식된 구간을 대체할 수 있다.
재인식 결과로부터 추출된 래티스와 음성 신호로부터 추출된 래티스가 결합된 예시는 도 6과 같이 나타낼 수 있다. ‘단어 2’, ‘단어 3’의 경우 불명확한 발성을 한 구간으로 인식된 ‘단어 4’, ‘단어 5’ 등에 대응되는 래티스와 별도로, 재인식 결과 새롭게 추출된 ‘c’ 내지 ‘j’ 래티스를 통해 불명확한 발성으로 인식된 구간을 대체할 수 있다.
한편, 상술한 설명에서, 단계 S110 내지 S160은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1에서 이미 기술된 내용은 도 2 내지 도 6의 음성 인식 방법에도 적용될 수 있다.
이와 같은 본 발명의 일 실시예 중 어느 하나에 의하면, 자연어 대화체 연속어 인식과 같이 사용자가 자유롭게 발성한 연속어 문장의 인식 성능을 향상시킬 수 있다.
또한, 사용자의 발화에 대응되는 음성 신호를 인식한 다음 불명확한 발성으로 인식되는 구간을 추출하여, 해당 구간에 대해서만 정밀한 인식을 수행함으로써 음성 인식의 속도를 향상시킬 수 있다.
한편, 본 발명의 일 실시예에 따른 음성 인식 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 음성 인식부
100: 음성 인식 장치
110: 통신모듈
120: 메모리
130: 프로세서

Claims (10)

  1. 자연어 대화체 음성 인식 방법에 있어서,
    사용자의 발화에 대응되는 음성 신호를 수신하는 단계;
    미리 훈련된 음향 모델 및 언어 모델에 기초하여 상기 음성 신호로부터 래티스를 추출하는 단계;
    상기 음성 신호의 크기, 신호 대 잡음비 및 발화 속도 중 하나 이상을 분석하거나 또는 상기 음향 모델을 이용한 단어별 우도 및 신뢰도에 기초한 인식 스코어를 산출하여 상기 음성 신호 중 불명확한 발성으로 인식되는 구간을 추정하는 단계;
    상기 음향 모델 및 언어 모델에 기초하여 상기 불명확한 발성으로 추정된 구간의 재인식을 수행하는 단계 및
    상기 재인식 결과로부터 추출된 래티스를 상기 음성 신호로부터 추출된 래티스와 결합하는 단계를 포함하는 음성 인식 방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 음성 신호로부터 래티스를 추출하는 단계는,
    상기 음성 신호로부터 프레임 별로 특징 벡터를 추출하고, 상기 추출된 특징 벡터에 대해 음성 인식 디코딩을 수행하여 상기 래티스를 추출하는 것인 음성 인식 방법.
  4. 제 3 항에 있어서,
    상기 음성 신호로부터 추출된 래티스는 음성 신호의 프레임 및 상기 음성 신호의 프레임을 연결하는 아크로 표현된 유한 상태 변환모델(Finite State Transducer)로 제공되는 것인 음성 인식 방법.
  5. 제 4 항에 있어서,
    상기 각 아크에는 심볼 및 천이 확률이 할당되고, 상기 천이 확률은 음향 모델 및 언어 모델에 각각 대응되는 천이 확률을 포함하는 것인 음성 인식 방법.
  6. 제 3 항에 있어서,
    상기 음성 신호 중 불명확한 발성으로 인식되는 구간을 추정하는 단계는,
    상기 프레임 별로 상기 음성 신호의 크기를 산출하는 단계;
    상기 산출된 음성 신호의 크기의 변화값이 기 설정된 크기 이상을 가지는 프레임을 추출하는 단계 및
    상기 추출된 프레임을 상기 불명확한 발성으로 인식되는 구간으로 추정하는 단계를 포함하는 것인 음성 인식 방법.
  7. 제 3 항에 있어서,
    상기 음성 신호 중 불명확한 발성으로 인식되는 구간을 추정하는 단계는,
    상기 프레임 별로 상기 음성 신호의 크기를 산출하는 단계;
    상기 사용자의 발화의 시작점으로부터 일정 프레임에서의 묵음 구간의 에너지를 추정하는 단계;
    상기 추정된 에너지의 값과 상기 프레임 별 음성 신호의 크기의 비율을 산출하는 단계 및
    상기 산출된 비율의 추이를 분석하여 상기 불명확한 발성으로 인식되는 구간을 추정하는 단계를 포함하는 것인 음성 인식 방법.
  8. 제 3 항에 있어서,
    상기 음성 신호 중 불명확한 발성으로 인식되는 구간을 추정하는 단계는,
    상기 프레임 별로 단위 시간당 모음의 개수를 산출하는 단계;
    상기 산출된 모음의 개수를 분석하여 발화 속도를 추정하는 단계 및
    상기 프레임 별 추정된 발화 속도와 전체 발화 속도를 비교하여, 기 설정된 임계값 이상 또는 기 설정된 임계값 이하의 발화 속도를 가지는 구간을 상기 불명확한 발성으로 인식되는 구간으로 추정하는 단계를 포함하는 것인 음성 인식 방법.
  9. 제 5 항에 있어서,
    상기 재인식 결과로부터 추출된 래티스를 이용하여 리스코어링하는 단계 및
    상기 리스코어링된 결과에 기초하여 음성 인식 결과를 출력하는 단계를 더 포함하는 것인 음성 인식 방법.
  10. 제 9 항에 있어서,
    상기 리스코어링된 결과에 기초하여 음성 인식 결과를 출력하는 단계는,
    상기 아크를 따라 진행하여 상기 천이 확률을 모두 더한 결과 최소가 되는 어휘 시퀀스를 상기 음성인식 결과로 출력하되,
    추가적으로 재인식된 결과로부터 상기 음향 모델 및 언어 모델에 대응되는 천이 확률을 새로이 산출하고, 다시 상기 음성인식 결과를 산출하는 것인 음성 인식 방법.
KR1020160148423A 2016-11-08 2016-11-08 자연어 대화체 음성을 인식하는 장치 및 방법 KR102069693B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160148423A KR102069693B1 (ko) 2016-11-08 2016-11-08 자연어 대화체 음성을 인식하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160148423A KR102069693B1 (ko) 2016-11-08 2016-11-08 자연어 대화체 음성을 인식하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20180051301A KR20180051301A (ko) 2018-05-16
KR102069693B1 true KR102069693B1 (ko) 2020-01-23

Family

ID=62452342

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160148423A KR102069693B1 (ko) 2016-11-08 2016-11-08 자연어 대화체 음성을 인식하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102069693B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101134450B1 (ko) * 2009-06-25 2012-04-09 한국전자통신연구원 음성인식 방법
KR101444409B1 (ko) * 2011-07-22 2014-09-30 한국전자통신연구원 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법

Also Published As

Publication number Publication date
KR20180051301A (ko) 2018-05-16

Similar Documents

Publication Publication Date Title
US10699699B2 (en) Constructing speech decoding network for numeric speech recognition
US9466289B2 (en) Keyword detection with international phonetic alphabet by foreground model and background model
CN106233374B (zh) 用于检测用户定义的关键字的关键字模型生成
CN107810529B (zh) 语言模型语音端点确定
US9858919B2 (en) Speaker adaptation of neural network acoustic models using I-vectors
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US10339920B2 (en) Predicting pronunciation in speech recognition
WO2017076222A1 (zh) 语音识别方法及装置
US8719023B2 (en) Robustness to environmental changes of a context dependent speech recognizer
US8996366B2 (en) Multi-stage speaker adaptation
US20150279351A1 (en) Keyword detection based on acoustic alignment
KR100897554B1 (ko) 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US7319960B2 (en) Speech recognition method and system
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
US20130185070A1 (en) Normalization based discriminative training for continuous speech recognition
US20130090921A1 (en) Pronunciation learning from user correction
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
US9484019B2 (en) System and method for discriminative pronunciation modeling for voice search
US20140337024A1 (en) Method and system for speech command detection, and information processing system
US20060129392A1 (en) Method for extracting feature vectors for speech recognition
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
US9672820B2 (en) Simultaneous speech processing apparatus and method
WO2018047421A1 (ja) 音声処理装置、情報処理装置、音声処理方法および情報処理方法
US9263033B2 (en) Utterance selection for automated speech recognizer training
US7454336B2 (en) Variational inference and learning for segmental switching state space models of hidden speech dynamics

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right