KR102072235B1 - 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 - Google Patents
자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 Download PDFInfo
- Publication number
- KR102072235B1 KR102072235B1 KR1020160167004A KR20160167004A KR102072235B1 KR 102072235 B1 KR102072235 B1 KR 102072235B1 KR 1020160167004 A KR1020160167004 A KR 1020160167004A KR 20160167004 A KR20160167004 A KR 20160167004A KR 102072235 B1 KR102072235 B1 KR 102072235B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- rate
- word
- information
- speech rate
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000010304 firing Methods 0.000 claims description 11
- 238000013518 transcription Methods 0.000 claims description 6
- 230000035897 transcription Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 206010071299 Slow speech Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Machine Translation (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
본 발명은 자동음성인식 시스템 학습 및 음향모델 훈련을 위해 필수적인 음성데이터베이스 분류에 관한 기술로서, 입력 음성 신호를 이용하여 음성 신호의 발화속도를 자동 분류하는 방법 및 이를 이용한 음성 인식 시스템에 관한 것이다.
본 발명에 따른 자동 발화속도 분류를 이용한 음성인식 시스템은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하는 음성 인식부와, 단어 격자 정보를 이용하여 단어별 발화속도를 추정하는 발화속도 추정부와, 발화속도가 기설정 범위를 벗어나는 경우 정상 발성 속도로 정규화를 수행하는 발화속도 정규화부 및 발화속도가 정규화된 음성 신호에 대한 리스코어링을 수행하는 리스코어링부를 포함하는 것을 특징으로 한다.
본 발명에 따른 자동 발화속도 분류를 이용한 음성인식 시스템은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하는 음성 인식부와, 단어 격자 정보를 이용하여 단어별 발화속도를 추정하는 발화속도 추정부와, 발화속도가 기설정 범위를 벗어나는 경우 정상 발성 속도로 정규화를 수행하는 발화속도 정규화부 및 발화속도가 정규화된 음성 신호에 대한 리스코어링을 수행하는 리스코어링부를 포함하는 것을 특징으로 한다.
Description
본 발명은 자동음성인식 시스템 학습 및 음향모델 훈련을 위해 필수적인 음성데이터베이스 분류에 관한 기술로서, 입력 음성 신호를 이용하여 음성 신호의 발화속도를 자동 분류하는 방법 및 이를 이용한 음성 인식 시스템에 관한 것이다.
음성인식 기술은 일상생활 속에서 사용하는 단말기를 제어하거나 서비스를 이용함에 있어, 마우스나 키보드 등의 입력 장치를 사용하지 않고, 사람에게 가장 친화적이며 편리한 의사소통 도구인 목소리를 사용하여 원하는 기기의 기능을 실행시키거나, 서비스를 제공받을 수 있도록 지원하는 기술이다.
이러한 음성인식 기술은 홈네트워크, 텔레매틱스, 지능형 로봇 등에 적용될 수 있으며, 정보기기가 소형화되고 이동성이 중요시되는 시대에서 음성인식 기술의 중요성이 더욱 커지고 있다.
자동음성인식 시스템 학습을 위하여는 음성데이터베이스 분류가 필수적인데, 종래 기술에 따르면 발화자의 성별, 대화/읽기 등에 따라 그 분류가 이루어지나, 발화속도 판별 및 그를 통한 음성데이터베이스 분류에 대한 해결책은 제시하지 못하는 한계점이 있다.
본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 음성 파일을 이용하여 그 발화속도를 분류하고, 단어별 발화속도를 추정 및 정규화하며, 음성인식의 성능을 향상시키는 것이 가능한 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템을 제안한다.
본 발명에 따른 자동 발화속도 분류 방법은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하는 단계와, 단어 격자 정보를 이용하여 음절 발화속도를 추정하는 단계 및 음절 발화속도를 이용하여 발화속도를 기설정 기준보다 빠른 속도, 정상 속도, 느린 속도로 각각 판별하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따른 자동 발화속도 분류를 이용한 음성인식 시스템은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자 정보를 추출하는 음성 인식부와, 단어 격자 정보를 이용하여 단어별 발화속도를 추정하는 발화속도 추정부와, 발화속도가 기설정 범위를 벗어나는 경우 정상 발성 속도로 정규화를 수행하는 발화속도 정규화부 및 발화속도가 정규화된 음성 신호에 대한 리스코어링을 수행하는 리스코어링부를 포함하는 것을 특징으로 한다.
본 발명에 따른 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템은자동적으로 발화속도에 따라 음성데이터베이스를 분류함으로써, 음향모델 훈련을 위해 필수적인 음성데이터베이스의 분석을 수행하고 음성인식 시스템의 성능을 향상시키는 효과가 있다.
본 발명에 따르면 자동적으로 발화속도를 고려하여 음성데이터베이스를 분류함으로써, 정상속도 범위를 벗어나는(특히, 정상속도보다 빠른) 음성신호의 학습 시스템 내 비율을 적절히 조정하는 것이 가능한 효과가 있다.
본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 자동 발화속도 분류 방법을 나타내는 순서도이다.
도 2는 본 발명의 실시예에 따른 음절 발화속도 판별 과정을 나타내는 순서도이다.
도 3은 본 발명의 실시예에 따른 자동 발화속도 분류 시스템을 나타내는 도면이다.
도 4는 본 발명의 다른 실시예에 따른 자동 발화속도 분류 시스템을 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 자동 발화속도 분류 방법을 이용한 음성인식 시스템을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 음절 발화속도 판별 과정을 나타내는 순서도이다.
도 3은 본 발명의 실시예에 따른 자동 발화속도 분류 시스템을 나타내는 도면이다.
도 4는 본 발명의 다른 실시예에 따른 자동 발화속도 분류 시스템을 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 자동 발화속도 분류 방법을 이용한 음성인식 시스템을 나타내는 도면이다.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.
한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.
도 1은 본 발명의 실시예에 따른 자동 발화속도 분류 방법을 나타내는 순서도이고, 도 3은 본 발명의 실시예에 따른 자동 발화속도 분류 시스템을 나타내는 도면이며, 도 4는 본 발명의 다른 실시예에 따른 자동 발화속도 분류 시스템을 나타내는 도면이다.
본 발명의 실시예에 따른 자동 발화속도 분류 방법은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하는 단계와, 단어 격자 정보를 이용하여 음절 발화속도를 추정하는 단계 및 음절 발화속도를 이용하여 발화속도를 기설정 기준보다 빠른 속도, 정상 속도, 느린 속도로 각각 판별하는 단계를 포함한다.
S100 단계에서 전사(transcription) 정보가 존재하는 것으로 판단된 경우, 음성신호 강제 정렬부(110)는 전사 정보와 음성 인식 시스템을 이용하여, 입력된 음성 신호를 강제 정렬하고 단어 격자 정보를 추출한다(S150).
이 때, 언어 모델(120)은 자동 음성 인식을 위한 언어모델(language model)이며, 대표적으로 wFST(weighted Finite State Transducer)기반의 음성 인식을 위한 언어모델이다.
음성인식 시스템의 사전(130)은 자동 음성 인식을 위한 단어 사전(lexicon)이며, 음향 모델(140)은 자동 음성인식을 위한 음향 모델(acoustic model)이다.
S100 단계에서 전사 정보가 존재하지 않는 경우, 음성 인식부(150)는 전술한 언어 모델(120), 사전(130) 및 음향 모델(140)을 이용하여 음성 인식을 수행하여 단어 격자 정보를 추출한다(S200).
이 때, 일반적인 음성 인식을 이용하면 단어 격자의 단어 경계 정보 획득에 있어 그 정확도가 떨어지는 문제점이 있어, 본 발명의 실시예에 따르면 확률분포의 차이를 계산하는 쿨백-라이블러 발산(Kullback-Leibler divergence)을 이용하여, 경계정보를 정제한다.
본 발명의 실시예에 따르면, 입력 음성 신호의 스펙트럼으로부터, 아래 [수학식 1]과 같이 확률 밀도 함수(PDF, Probability Density Function)을 구한다.
이어서, 기준이 되는 프레임의 좌,우에 위치한 프레임들로부터 PDF mean μleft, μright와 Σleft, Σright를 구한 다음, 아래 [수학식 2]에 대입하여 쿨백-라이블러 발산을 구한다.
본 발명의 실시예에 따르면, 쿨백-라이블러 발산이 최고값을 가지는 새로운 단어 경계정보를 아래 [수학식 3]과 같이 구할 수 있다.
이 때, 리스코어링부(500)는 High-level 지식을 이용하여 추출된 단어 격자 정보를 재정렬한 후, 향상된 단어 격자 정보를 추출한다(S200).
S250단계는 단어 격자 정보를 이용하여 음절 발화속도를 추정하는 단계로서, 발화속도 추정부(200)는 단어별 지속 시간(duration) 정보 추출부(210), 음절별 지속시간 정보 추정부(220), 음절 발화속도 추정부(230)를 포함하여 구성된다.
단어별 지속 시간 정보 추출부(210)는 단어 격자 정보를 이용하여 단어 지속시간(word duration) 정보를 추출하며, 예컨대 단위는 msec임이 바람직하다.
음절별 지속시간 정보 추정부(220)는 단어 지속 시간 정보로부터 평균 음절당 지속 시간 정보를 추출하고, 음절 발화속도 추정부(230)는 평균 음절당 지속 시간 정보를 이용하여 음절발화속도를 추정한다.
음절발화속도는 단위 시간(sec)당 발화되는 음절(syllables)로서, 발화속도(speaking rate)의 판별 기준이 된다.
S300단계는 음절 발화속도를 이용하여 발화속도를 기설정된 기준보다 빠른 속도, 정상 속도, 느린 속도로 각각 판별하는 단계로서, 발화속도 판별부(300)는 발화속도 판별 지식과 음절 발화속도를 이용하여 발화속도를 3가지로 분류하게 된다.
정상 발화속도를 3.3syl/sec 내지 5.9syl/sec로 기설정된 범위를 정하는 경우, 도 2에 도시된 바와 같이 음절 발화속도가 3.3syl/sec보다 작은 경우에는 느린 속도로 판별하고(S320), 음절 발화속도가 3.3syl/sec 내지 5.9syl/sec 사이인 경우에는 정상 속도로 판별하며(S340), 음절 발화속도가 5.9syl/sec보다 큰 경우에는 빠른 속도로 판별한다(S360).
도 5는 본 발명의 실시예에 따른 자동 발화속도 분류 방법을 이용한 음성인식 시스템을 나타내는 도면이다.
본 발명의 실시예에 따른 자동 발화속도 분류 방법을 이용한 음성인식 시스템은 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자 정보를 추출하는 음성 인식부(160)와, 단어 격자 정보를 이용하여 단어별 발화 속도를 추정하는 발화 속도 추정부(200)와, 발화 속도가 기설정 범위를 벗어나는 경우 정상 발성 속도로 정규화를 수행하는 발화속도 정규화부(700) 및 발화 속도가 정규화된 음성 신호에 대한 리스코어링을 수행하는 리스코어링부(800)를 포함한다.
음성 인식부(160)는 언어 모델(120), 사전(130), 음향 모델(140)을 이용하여 입력 음성 신호로부터 단어 격자 정보를 추출하며, 예컨대 단어 격자 정보는 음성 인식을 통해 인식된 단어 후보들의 연결 및 방향성이 표시된 그래프이다.
발화 속도 추정부(200)는 단어별 지속 시간 정보 추출부(240), 단어별 음절 발화속도 추정부(250) 및 발화속도 판별부(260)를 포함한다.
단어별 지속 시간 정보 추출부(240)는 단어 격자 정보로부터 단어별 지속 시간(duration) 정보를 추출하고, 단어별 음절 발화 속도 추정부(250)는 단어별 지속 시간을 이용하여 단어별 평균 음절 발화 속도(단위: syl/sec)를 추정한다.
발화속도 판별부(260)는 단어별 평균 음절 발화 속도를 이용하여 각 단어별 발화속도를 판별하는데, 평균 음절 발화 속도가 기설정 범위(예: 3.3syl/sec 내지 5.9syl/sec)내인 경우에는 정상 속도로 판별하고, 기설정 범위를 벗어나는 경우 빠른 속도 또는 느린 속도임을 판별한다.
발화 속도 정규화부(700)는 빠르거나 느린 속도인 것으로 판별된 단어에 대하여 발화 속도를 정규화하는데, 발화속도 변환 방법(time-scale modification method)을 이용한다.
발화 속도 정규화부(700)는 기설정된 정규발화 속도(예: 4syl/sec)로 발화 속도를 정규화하는데, 시간축 변환 방법들 중 SOLA(Synchronized Over-Lap and ADD) 기법에 의하면 시간축 변환율이 1.0보다 작은 경우는 발화 속도를 빠르게 합성하는 것이고, 시간축 변환율이 1.0보다 큰 경우에는 발화 속도를 느리게 합성하는 것이다.
판별된 음절 발화 속도 α가 3.3syl/sec보다 적은 느린 속도의 단어인 경우, 4.0/α 의 시간축 변화율로 느린 발성을 정상발성 속도로 정규화하며, 판별된 음절 발화 속도 α가 5.9syl/sec보다 큰 빠른 속도의 단어인 경우, α/4.0의 시간축 변화율로 빠른 발성을 정상발성 속도로 정규화한다.
리스코어링부(800)는 사전(910) 및 음향 모델(920)을 이용하여, 발화속도가 정규화된 음성 신호를 리스코어링하여, 최종 음성 인식 결과를 획득하게 된다.
본 발명의 실시예에 따르면, 입력 음성 신호의 발화 속도를 자동 분류하고(예: 정상 속도인 경우 출력 파라미터는 0, 빠른 속도인 경우 출력 파라미터는 1, 느린 속도인 경우 출력 파라미터는 -1), 빠르거나 느린 속도의 단어를 정상 발화 속도로 정규화한 후 리스코어링을 수행하여 최종 음성 인식 결과를 획득함으로써, 음성 인식의 성능을 향상시키는 효과가 있다.
이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
110: 음성신호 강제 정렬부 120: 언어 모델
130: 사전 140: 음향 모델
150, 160: 음성 인식부 200: 발화속도 추정부
210: 단어별 지속 시간 정보 추출부
220: 음절별 지속 시간 정보 추정부
230: 음절 발화속도 추정부
240: 단어별 지속시간 정보 추출부
250: 단어별 음절 발화속도 추정부
260: 발화속도 판별부 300: 발화속도 판별부
400: 발화속도 판별 지식 DB 500: 리스코어링부
600: High-level 지식 700: 발화속도 정규화부
800: 리스코어링부 910: 사전
920: 음향 모델
130: 사전 140: 음향 모델
150, 160: 음성 인식부 200: 발화속도 추정부
210: 단어별 지속 시간 정보 추출부
220: 음절별 지속 시간 정보 추정부
230: 음절 발화속도 추정부
240: 단어별 지속시간 정보 추출부
250: 단어별 음절 발화속도 추정부
260: 발화속도 판별부 300: 발화속도 판별부
400: 발화속도 판별 지식 DB 500: 리스코어링부
600: High-level 지식 700: 발화속도 정규화부
800: 리스코어링부 910: 사전
920: 음향 모델
Claims (14)
- (a) 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하되, 전사 정보가 존재하지 않는 경우 음성 인식 시스템을 이용하여 단어 격자 정보를 추출하는 단계;
(a-1) 상기 단어 격자 정보를 재정렬한 후 향상된 단어 격자 정보를 추출하는 단계;
(b) 상기 단어 격자 정보를 이용하여 음절 발화속도를 추정하는 단계; 및
(c) 상기 음절 발화속도를 이용하여 발화속도를 기설정 기준보다 빠른 속도, 정상 속도, 느린 속도로 각각 판별하는 단계
을 포함하는 자동 발화속도 분류 방법.
- 제1항에 있어서,
상기 (a) 단계는 전사 정보가 존재하는 경우, 상기 전사 정보와 언어모델, 단어 사전 및 음향 모델을 이용하여 상기 입력 음성 신호를 강제 정렬하고, 상기 단어 격자 정보를 추출하는 것
인 자동 발화속도 분류 방법.
- 삭제
- 제1항에 있어서,
상기 입력 음성 신호의 스펙트럼으로부터 확률 밀도 함수를 구하고, 기준이 되는 프레임의 좌우 프레임들로부터 획득한 데이터를 이용하여 쿨백-라이블러 발산을 구하여, 상기 단어 격자 정보를 추출하기 위한 경계정보를 획득하는 것
인 자동 발화속도 분류 방법.
- 제1항에 있어서,
상기 (a-1) 단계는 high level knowledge를 이용하여 상기 추출된 단어 격자 정보를 재정렬하는 것
인 자동 발화속도 분류 방법.
- 제1항에 있어서,
상기 (b) 단계는 상기 단어 격자 정보를 이용하여 단어별 지속 시간을 추출하고, 상기 단어별 지속 시간을 이용하여 평균 음절당 지속 시간 정보를 추출하며, 상기 음절 발화속도를 추정하는 것
인 자동 발화속도 분류 방법.
- 제1항에 있어서,
상기 (c) 단계는 발화속도 판별 지식과 상기 음절 발화속도를 이용하여 발화속도를 분류하는 것
인 자동 발화속도 분류 방법.
- 제1항에 있어서,
(d) 판별된 발화속도를 정규화하여 음성 신호에 대한 리스코어링을 수행하고, 최종 음성 인식 결과를 획득하는 단계
를 더 포함하는 자동 발화속도 분류 방법.
- 입력 음성 신호에 대한 음성 인식을 수행하여 단어 격자(word lattice) 정보를 추출하는 음성 인식부;
상기 단어 격자 정보를 이용하여 단어별 발화속도를 추정하는 발화속도 추정부;
발화속도가 기설정 범위를 벗어나는 경우 정상 발성 속도로 정규화를 수행하는 발화속도 정규화부; 및
상기 발화속도가 정규화된 음성 신호에 대한 리스코어링을 수행하고, 추출된 단어 격자 정보를 재정렬한 후, 향상된 단어 격자 정보를 추출하는 리스코어링부
를 포함하는 자동 발화속도 분류를 이용한 음성인식 시스템.
- 제9항에 있어서,
상기 단어 격자 정보는 음성 인식을 통해 인식된 단어 후보들의 연결 및 방향성이 표시된 그래프인 것
을 특징으로 하는 자동 발화속도 분류를 이용한 음성인식 시스템.
- 제9항에 있어서,
상기 발화속도 추정부는 단어별 지속 시간 정보를 추출하고, 이를 이용하여 단어별 평균 음절 발화속도를 추정하는 것
인 자동 발화속도 분류를 이용한 음성인식 시스템.
- 제11항에 있어서,
상기 발화속도 추정부는 상기 단어별 평균 음절 발화속도를 이용하여 각 단어별 발화속도를 판별하되, 음절 발화속도가 기설정 범위 내인지 여부를 판단하여 정상 속도, 느린 속도 및 빠른 속도의 발화속도임을 각각 판별하는 것
인 자동 발화속도 분류를 이용한 음성인식 시스템.
- 제9항에 있어서,
상기 발화속도 정규화부는 시간축 변환율을 고려하여 기설정 범위보다 빠르거나 느린 발화속도를 상기 정상 발성 속도로 정규화하는 것
인 자동 발화속도 분류를 이용한 음성인식 시스템.
- 제9항에 있어서,
상기 리스코어링부는 단어 사전 및 음향모델을 이용하여 상기 발화속도가 정규화된 음성 신호를 리스코어링하여 최종 음성 인식 결과를 획득하는 것
인 자동 발화속도 분류를 이용한 음성인식 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160167004A KR102072235B1 (ko) | 2016-12-08 | 2016-12-08 | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 |
US15/607,880 US20180166071A1 (en) | 2016-12-08 | 2017-05-30 | Method of automatically classifying speaking rate and speech recognition system using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160167004A KR102072235B1 (ko) | 2016-12-08 | 2016-12-08 | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180065759A KR20180065759A (ko) | 2018-06-18 |
KR102072235B1 true KR102072235B1 (ko) | 2020-02-03 |
Family
ID=62487964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160167004A KR102072235B1 (ko) | 2016-12-08 | 2016-12-08 | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180166071A1 (ko) |
KR (1) | KR102072235B1 (ko) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017182850A1 (en) * | 2016-04-22 | 2017-10-26 | Sony Mobile Communications Inc. | Speech to text enhanced media editing |
GB2578386B (en) | 2017-06-27 | 2021-12-01 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801661D0 (en) * | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN109671433B (zh) * | 2019-01-10 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
CN109979474B (zh) * | 2019-03-01 | 2021-04-13 | 珠海格力电器股份有限公司 | 语音设备及其用户语速修正方法、装置和存储介质 |
US11011156B2 (en) | 2019-04-11 | 2021-05-18 | International Business Machines Corporation | Training data modification for training model |
CN110689887B (zh) * | 2019-09-24 | 2022-04-22 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
WO2021134551A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 多个机器翻译输出的人类合并和训练 |
CN112466332B (zh) * | 2020-11-13 | 2024-05-28 | 阳光保险集团股份有限公司 | 一种语速评分方法、装置、电子设备及存储介质 |
CN112599148A (zh) * | 2020-12-31 | 2021-04-02 | 北京声智科技有限公司 | 一种语音识别方法及装置 |
CN114067787B (zh) * | 2021-12-17 | 2022-07-05 | 广东讯飞启明科技发展有限公司 | 一种语音语速自适应识别*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003345388A (ja) * | 2002-05-23 | 2003-12-03 | Nec Corp | 音声認識装置、音声認識方法、および、音声認識プログラム |
JP2008026721A (ja) * | 2006-07-24 | 2008-02-07 | Nec Corp | 音声認識装置、音声認識方法、および音声認識用プログラム |
JP6007346B1 (ja) * | 2016-03-03 | 2016-10-12 | 東芝テック株式会社 | チェックアウトシステム、決済装置および制御プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130124704A (ko) * | 2012-05-07 | 2013-11-15 | 한국전자통신연구원 | 분산환경 리스코어링 방법 및 장치 |
-
2016
- 2016-12-08 KR KR1020160167004A patent/KR102072235B1/ko active IP Right Grant
-
2017
- 2017-05-30 US US15/607,880 patent/US20180166071A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003345388A (ja) * | 2002-05-23 | 2003-12-03 | Nec Corp | 音声認識装置、音声認識方法、および、音声認識プログラム |
JP2008026721A (ja) * | 2006-07-24 | 2008-02-07 | Nec Corp | 音声認識装置、音声認識方法、および音声認識用プログラム |
JP6007346B1 (ja) * | 2016-03-03 | 2016-10-12 | 東芝テック株式会社 | チェックアウトシステム、決済装置および制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20180065759A (ko) | 2018-06-18 |
US20180166071A1 (en) | 2018-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102072235B1 (ko) | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 | |
KR102371188B1 (ko) | 음성 인식 장치 및 방법과 전자 장치 | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
US9336780B2 (en) | Identification of a local speaker | |
US8543402B1 (en) | Speaker segmentation in noisy conversational speech | |
CN110211594B (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
US20150066500A1 (en) | Speech processing device, speech processing method, and speech processing program | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
US20200160846A1 (en) | Speaker recognition device, speaker recognition method, and recording medium | |
CN112289323A (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
US11270691B2 (en) | Voice interaction system, its processing method, and program therefor | |
Chaudhary et al. | Gender identification based on voice signal characteristics | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Polzehl et al. | Emotion classification in children's speech using fusion of acoustic and linguistic features | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
US20210065684A1 (en) | Information processing apparatus, keyword detecting apparatus, and information processing method | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
Ong et al. | Malay language speech recogniser with hybrid hidden markov model and artificial neural network (HMM/ANN) | |
Sawakare et al. | Speech recognition techniques: a review | |
KR20160015005A (ko) | 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치 | |
KR101229108B1 (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
CN114067793A (zh) | 音频处理方法和装置、电子设备及可读存储介质 | |
KR102306608B1 (ko) | 음성을 인식하기 위한 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |