KR100905586B1 - 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법 - Google Patents

로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법 Download PDF

Info

Publication number
KR100905586B1
KR100905586B1 KR1020070051740A KR20070051740A KR100905586B1 KR 100905586 B1 KR100905586 B1 KR 100905586B1 KR 1020070051740 A KR1020070051740 A KR 1020070051740A KR 20070051740 A KR20070051740 A KR 20070051740A KR 100905586 B1 KR100905586 B1 KR 100905586B1
Authority
KR
South Korea
Prior art keywords
microphone
voice
speech
attenuation
robot
Prior art date
Application number
KR1020070051740A
Other languages
English (en)
Other versions
KR20080104667A (ko
Inventor
김현수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070051740A priority Critical patent/KR100905586B1/ko
Priority to EP08009716A priority patent/EP1998320B1/en
Priority to DE602008003257T priority patent/DE602008003257D1/de
Priority to US12/127,867 priority patent/US8149728B2/en
Publication of KR20080104667A publication Critical patent/KR20080104667A/ko
Application granted granted Critical
Publication of KR100905586B1 publication Critical patent/KR100905586B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 로봇에서의 음성인식을 위한 원거리 음성인식용 마이크의 성능을 평가하기 위한 기능을 구현한다. 특히 네트워크 로봇을 포함하는 로봇에서는 음성인식이 정상적으로 이루어져야지만 사용자를 인식하고 주변 상황을 인식할 수 있게 되므로, 그 로봇에서 사용되는 마이크의 선정을 위해서는 객관적인 평가 기준(criteria)이 필요하다. 이에 따라 본 발명에서는 음성 감쇠 정도의 측정, 음성 왜곡 정도의 측정, 음성의 감쇠 및 왜곡 정도의 동시 측정 방법을 제안한다. 이와 같이 로봇에서의 음성인식 기능을 위해 수치화가 가능한 마이크 선정에 관한 규격을 제안함으로써, 원거리에서 사용 시 감도가 좋고 왜곡이 되지 않은 음성이 입력되는 마이크를 선정할 수 있게 된다.
로봇, 마이크, 성능

Description

로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템 및 방법{SYSTEM AND METHOD OF ESTIMATING MICROPHONE PERFORMANCE FOR RECOGNIZING REMOTE VOICE IN ROBOT}
도 1은 본 발명에서 마이크의 성능을 평가하는데 이용되는 음성 수집 환경을 예시한 도면,
도 2는 본 발명의 실시 예에 따른 마이크 평가 시스템의 구조도,
도 3은 본 발명의 실시 예에 따른 마이크의 성능 평가 과정을 설명한 흐름도,
도 4는 본 발명의 실시 예에 따라 마이크 간의 비율을 이용하여 마이크의 성능 평가 과정을 설명한 흐름도.
본 발명은 로봇에서의 음성 인식을 위한 시스템 및 방법에 관한 것으로, 특히 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템 및 방법에 관한 것이다.
최근 들어 건강, 안전, 홈 네트워크, 엔터테인먼트 등의 필요성에 의해 더욱 사람들의 관심을 끌고 있는 이동 로봇을 동작시키기 위해서는 사용자과 로봇 간의 상호작용(Human-Robot Interaction)을 필요로 한다. 즉, 이동 로봇은 사용자가 하는 것과 마찬가지로 비젼 시스템을 가지고 사용자를 인식하고 주변 상황을 인지할 수 있어야하며, 자신의 주위에서 말하는 사용자의 위치를 알아야 하고 그 사용자가 하는 말을 이해할 수 있어야 한다.
이동 로봇에 있어서 음성 입력시스템은 사용자와 로봇 간의 상호작용에 필수적일 뿐만 아니라 자율 주행에도 중요한 이슈가 된다. 실내 환경에서 이동 로봇의 음성 입력시스템에 야기되는 중요한 문제는 잡음, 반향 및 거리이다. 실내 환경에서는 여러 가지 잡음원과 벽이나 기타 사물에 의한 반향이 존재한다. 거리에 따라서 음성의 저주파 성분은 고주파 성분에 비하여 더 많이 감쇄되는 특징이 있다. 따라서, 가정의 실내 환경에서 사용자와 로봇 간의 상호작용에 필요한 음성 입력시스템은 자율 주행 이동 로봇이 수 미터 떨어진 거리에서 사용자의 평상적인 목소리를 받아들여 음성인식에 직접적으로 사용될 수 있어야 한다.
이러한 음성 입력시스템에서는 음질 및 음성인식율을 향상시키기 위해 마이크의 선정이 중요하다. 이때, 마이크를 통해 입력되는 음성은 원거리에 있는 사용자의 음성을 최대한 왜곡이 없는 상태로 음성인식기의 특징추출단 또는 잡음제거단에 전달되어야 하므로, 마이크에 대한 성능 비교를 위한 평가 방법이 필요하게 된다.
하지만, 종래에는 마이크 회사에서 알려주는 마이크 자체 특성에 따라 마이크를 선정하였기 때문에 실제 원거리 음성 입력이 필요한 로봇과 같은 단말에서 마 이크 자체 특성 예컨대, 주파수 특성, 지향 특성 등으로 마이크를 평가하는데에는 한계가 있다. 이에 따라 마이크 때문에 입력되는 아날로그 음성신호 자체가 왜곡된다면 그 후의 처리 과정인 아날로그-디지털 변환-잡음제거-특징추출-인식 등의 과정에 있어서도 왜곡된 음성 신호가 전달될 수 밖에 없다. 이로 인해 매우 좋은 성능의 음성 처리 알고리즘이라고 해도 음성을 인식하는데 있어 오인식이 일어날 가능성이 커지게 된다.
한편, 마이크와 사용자의 거리가 멀어질수록 원거리 음성 인식을 위해서는 기본적으로 프리앰프의 이득(gain)을 높일 필요가 있다. 그러나, 이 경우 음성은 물론 잡음까지 증폭되는 문제가 발생하게 된다. 따라서, 원거리에서의 감도가 상대적으로 좋은 마이크를 선정하기 위한 평가 방법이 필요한 실정이다.
상기한 바와 같이 종래에는 단순히 마이크 회사에서 제공하는 마이크 자체 특성을 근거로 마이크를 선정하고 있었다. 하지만, 로봇과 같은 단말에 장착되는 마이크의 경우 잡음, 반향 및 거리에 따른 크기 감쇄 등으로 인해 마이크의 성능을 보장해줄 수 없게 되는 경우가 발생하게 된다.
또한, 로봇에서 음성 인식을 위해서는 원거리에서 사용 시 감도가 좋으면서 거리에 따라 음성이 왜곡되지 않은 상태로 입력되는 마이크를 선정하기 위한 객관적인 평가 기준이 제안될 필요성이 있다.
따라서, 본 발명은 마이크의 특성을 평가하는데 필요한 객관적인 척도를 제 공할 수 있도록 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템 및 방법을 제공한다.
또한, 본 발명은 원거리에서의 음성 감쇠 정도 및/또는 음성 왜곡 정도를 측정할 수 있도록 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템 및 방법을 제공한다.
상술한 바를 달성하기 위한 본 발명은 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템에 있어서, 적어도 두 개 이상의 마이크의 성능 평가에 필요한 음성 신호를 저장하는 기준 음성 데이터베이스와, 상기 마이크들 중 기준 마이크와 대상 마이크로 상기 기준 음성 데이터베이스로부터의 상기 음성 신호가 입력되면, 성능 평가 기준의 선택에 대응하여 상기 입력되는 음성 신호의 감쇠 및 왜곡 중 적어도 어느 하나를 측정하여 수치화하는 측정치 산출부와, 상기 측정치 산출부에 의해 수치화된 측정 결과를 기준값과 비교하는 비교부와, 상기 비교 결과에 따라 상기 대상 마이크의 선정 여부를 결정하는 마이크 선정부를 포함함을 특징으로 한다.
또한, 본 발명은 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템에 있어서, 적어도 두 개 이상의 마이크의 성능 평가에 필요한 음성 신호를 저장하는 기준 음성 데이터베이스와, 상기 마이크들 중 기준 마이크와 대상 마이크로 상기 기준 음성 데이터베이스로부터의 상기 음성 신호가 입력되면, 상기 입력되 는 음성 신호의 감쇠를 측정하기 위해 상기 마이크 간의 음성 감쇠 비율을 산출하는 측정치 산출부와, 상기 측정치 산출부에 의해 산출된 결과를 기준값과 비교한 결과에 따라 상기 대상 마이크의 선정 여부를 결정하는 마이크 선정부를 포함함을 특징으로 한다.
또한, 본 발명은 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 방법에 있어서, 적어도 두 개 이상의 마이크들 중 기준 마이크와 대상 마이크로 성능 평가에 필요한 음성 신호를 입력하는 과정과, 상기 음성 신호가 입력되면, 상기 입력되는 음성 신호의 감쇠를 측정하기 위해 상기 마이크 간의 음성 감쇠 비율을 산출하는 과정과, 상기 산출된 마이크 간의 음성 감쇠 비율을 기준값과 비교하는 과정과, 상기 비교 결과에 따라 상기 대상 마이크의 선정 여부를 결정하는 과정을 포함함을 특징으로 한다.
또한, 본 발명은 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 방법에 있어서, 적어도 두 개 이상의 마이크들 중 기준 마이크와 대상 마이크로 성능 평가에 필요한 음성 신호를 입력하는 과정과, 상기 음성 신호가 입력되면, 성능 평가 기준의 선택에 대응하여 상기 입력되는 음성 신호의 감쇠 및 왜곡 중 적어도 어느 하나를 측정하여 수치화하는 과정과, 상기 수치화된 측정 결과를 기준값과 비교하는 과정과, 상기 비교 결과에 따라 상기 대상 마이크의 선정 여부를 결정하는 과정을 포함함을 특징으로 한다.
이하 본 발명에 따른 바람직한 실시 예를 첨부한 도면의 참조와 함께 상세히 설명한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다.
본 발명은 로봇에서의 음성인식을 위한 원거리 음성인식용 마이크의 성능을 평가하기 위한 기능을 구현한다. 특히 네트워크 로봇을 포함하는 로봇에서는 음성인식이 정상적으로 이루어져야지만 사용자를 인식하고 주변 상황을 인식할 수 있게 되므로, 그 로봇에서 사용되는 마이크의 선정을 위해서는 객관적인 평가 기준(criteria)이 필요하다. 이에 따라 본 발명에서는 음성 감쇠 정도의 측정, 음성 왜곡 정도의 측정, 음성의 감쇠 및 왜곡 정도의 동시 측정 방법을 제안한다. 이와 같이 로봇에서의 음성인식 기능을 위해 수치화가 가능한 마이크 선정에 관한 규격을 제안함으로써, 원거리에서 사용 시 감도가 좋고 왜곡이 되지 않은 음성이 입력되는 마이크를 선정할 수 있게 된다.
한편, 본 발명에서는 다음과 같은 방법으로 마이크의 성능을 평가한다. 첫째, 원거리에서 발성된 음성을 거리에 따라 얼마만큼 잘 입력받을 수 있는지를 나타내는 음성 감쇠 정도를 측정하는 방법을 제안한다. 둘째, 여러가지 잡음원에도 불구하고 얼마만큼 왜곡없이 음성을 잘 입력받을 수 있는지를 나타내는 음성 왜곡 정도를 측정하는 방법을 제안한다. 셋째, 음성 감쇠 정도 및 음성 왜곡 정도를 동시에 측정하는 방법을 제안한다. 상기와 같은 방법을 사용한다면 측정 결과가 수치화되어 나타나기 때문에 서로 다른 종류의 마이크 간 비교도 가능하게 된다. 뿐만 아니라 이러한 마이크의 성능 평가 방법은, 로봇을 이용하여 음성 인식 기능을 제공하는 사업자에게 가이드라인을 제시할 수 있게 된다.
여기서, 본 발명이 적용되는 로봇이란 네트워크 로봇을 포함한다. 이 네트워크 로봇은 로봇 플랫폼에 네트워크 예컨대, 유선망, 무선망, 유무선 연동 프로토콜 및 네트워크 보안기술을 이용하여, 서버와의 통신을 통해 언제 어디서나 다양한 서비스를 제공한다. 이렇게 함으로써 로봇의 공간적, 기능적 제한을 극복하고, 사용자에게 다양한 서비스를 제공해줄 수 있게 된다.
이러한 로봇에서의 음성 인식 기능을 사용자의 편의 등을 위해 원거리에서 사용하려는 시도가 요청되고 있다. 이와 같이 로봇과 멀리 떨어진 위치에서 마이크를 이용한 음성인식을 성공시키기 위해서는, 마이크의 성능이 무엇보다도 중요하다. 즉, 마이크를 통해 입력되는 음성이 왜곡되거나 감도가 떨어지는 경우 음질 및 음성 인식률에 많은 영향을 미치게 된다.
일단, 마이크의 성능을 평가하기 위해서는 마이크로 입력되는 음성은 동일한 환경에서 수집된 음성이어야 한다. 이러한 음성 수집 환경은 도 1에 도시된 바와 같이 설정될 수 있으며, 음성 수집을 위한 환경은 여러 개의 동일한 마이크 및 잡음원이 있으면 설정 가능하며 이에 따라 도 1과 같은 설정에 한정되지 않는다.
도 1은 본 발명에서 마이크의 성능을 평가하는데 이용되는 음성 수집 환경을 예시하고 있는데, 마이크1, 마이크2 및 마이크3은 같은 종류의 마이크이며, 스피커는 점음원의 역할을 할 수 있다. 스피커 자체에 잡음이 있기 때문에 최소한 스튜디오용 모니터 스피커가 권장된다.
도 1과 같은 음성 수집 환경에서 마이크1은 기준(reference) 마이크로써 스피커와의 d1 거리에서 음성을 입력받는 것을 가정한다. 그리고 마이크2 및 마이크3 는 스피커와 각각 d2, d3만큼 떨어진 위치에 있으며 그 위치에서의 마이크2 및 마이크3을 통해 녹음된 음성 신호가 마이크1을 통해 녹음된 음성 신호와 비슷한 특성을 가질수록 좋은 성능을 가지는 마이크에 해당한다.
일반적으로 음성 녹음 환경은 장애물이 없는 경우, 음원의 기준이 되는 지점과의 거리에 따라 소리는 감쇠한다. 예를 들어, 점음원의 경우 역자승법칙에 의해 거리가 2배가 되면 6.02dB의 감쇠가 일어나지만 실내의 경우 주변의 벽이나 장애물로 인해 반향이 생기며 이로 인해 일정거리 이상부터 감쇠가 일어나지 않게 된다. 본 발명에서는 이러한 감쇠의 정도를 측정하는 것이 방해되지 않도록 무반향 환경에서 마이크의 성능을 평가하기 위한 음성 데이터를 수집하도록 한다.
한편, 스피커에서 음성 신호를 재생하는데 먼저 그 이득을 정해야 한다. 음성 신호를 재생하는데 앞서 1kHz에 해당하는 순수 정현(pure sinusoidal) 신호를 틀고 그 크기는 스피커와 1m 떨어진 곳에서 소음계로 측정 시 80dB이 나오는 크기로 정한다. 이 정도의 크기는 진공청소기를 1m거리에서 틀었을 때의 소음의 크기와 같다. 또한, 마이크 프리앰프 이득을 조정해야 하는데, 본 발명에서 제안하는 평가 척도는 마이크 프리앰프 이득에 따라 달라지는 값이 아니다. 그렇지만, 음성을 수집할 때에는 3개의 마이크의 프리앰프 이득은 똑같게 맞추어야 한다. 이때. 스피커 이득을 맞춘 후 기준 마이크인 마이크1을 통해 음성신호를 입력받을 때 클리핑(clipping)이 일어나면 안된다.
도 1과 같은 환경하에서 음성 데이터의 수집이 완료되면, 마이크의 성능을 평가하기 위해 마이크로 음성 데이터를 입력함으로써 실제 로봇의 음성인식을 위한 각 마이크별 특성을 살펴볼 수 있게 된다.
이하, 마이크의 성능 평가를 위한 측정을 수행하는 마이크 평가 시스템의 구조도를 보인 도 2를 참조하여 설명한다. 도 2는 본 발명의 실시 예에 따른 마이크 평가 시스템의 구조도이다.
도 2를 참조하면, 마이크 평가 시스템은 기준 음성 DB(database)(200), 음성 DB 생성부(210), 성능 평가 기준 선택부, 측정치 산출부(230), 비교부(260), 마이크 선정부(270)를 포함한다.
먼저, 기준 음성 DB(200)는 적어도 두 개 이상의 마이크의 성능 평가에 필요한 음성 데이터를 저장하며, 그 음성 데이터는 다양한 화자별로 녹음된 평상적인 음성이다. 음성 DB 생성부(210)는 도 1과 같은 환경에서 스피커로부터 기준 마이크와 비교 마이크와의 거리에서 녹음되는 음성 데이터를 데이터베이스화하는 역할을 한다. 이때, 기준 음성 DB(200)에 저장되는 음성 데이터는 무반향 환경에서 녹음된 음성 데이터이다. 이와 같이 기준 음성 DB(200)를 이용하는 이유는 서로 다른 종류의 마이크를 객관적으로 평가하기 위함이다. 즉, 마이크로 동일한 음성을 입력하여 거리에 따른 감쇠와 왜곡 정도를 측정하게 된다.
성능 평가 기준 선택부(220)는 음성 감쇠 정도, 음성 왜곡 정도, 음성 감쇠 정도 및 음성 왜곡 정도의 동시 측정 방법 중 어느 하나가 선택되는지를 판단한다. 또한, 평기 기준 선택부(220)는 동일한 종류의 마이크들을 거리에 다르게 하여 출력 특성을 측정하고자 하는 경우 그 마이크들 중 기준 마이크와 대상 마이크로 지정되는지를 판단한다. 이러한 선택은 사용자 또는 로봇을 이용하여 음성인식 기능 을 제공하는 사업자에 의해 이루어질 수 있다.
한편, 성능 평가 기준 선택부(220)로부터의 선택 결과에 따라 측정치 산출부(230)는 음성 감쇠 정도 및/또는 음성 왜곡 정도를 산출하게 된다. 이를 위해 측정치 산출부(230)는 음성 감쇠 산출부(240) 및 음성 왜곡 산출부(250)를 포함한다.
이러한 측정치 산출부(230)에 의해 마이크의 출력 특성이 수치화되어 출력되며, 음성 입력에 따른 마이크의 출력 특성은 하기에서 제안하는 수학식에 의해 수치화된다. 이와 같이 수치화된 측정치는 마이크의 성능을 평가하는데 있어 객관적인 척도가 된다. 측정치 산출부(230)로부터 출력되는 측정치는 비교부(260)에 전달된다. 그러면 비교부(260)는 마이크의 측정치를 기준값과 비교한 결과를 마이크 선정부(270)로 출력한다. 이때, 기준값은 음성 감쇠를 측정하는 경우에는 원거리에서도 감도가 좋음을 나타내는 임계값이며, 음성 왜곡을 측정하는 경우에는 최대한 음성 왜곡이 없음을 나타내는 임계값이다. 한편, 로봇에서 고성능의 음성인식 기능을 제공하는 경우에는 마이크도 고성능을 가져야 하므로 그 기준값도 더 높아질 것이다. 이와 같이 기준값은 로봇을 이용한 음성인식 기능을 제공하는 사업자에 따라 다르게 정해질 수 있음은 물론이다.
한편, 마이크 선정부(270)는 비교부(260)의 비교 결과에 따라 측정 대상 마이크를 선정할지의 여부를 결정할 수 있게 된다. 즉, 마이크 선정부(270)는 비교 결과에 따라 측정 대상 마이크를 선택하거나 실격처리할 수 있게 된다.
이하, 상기한 바와 같은 마이크 평가 시스템의 구성 요소에서의 동작을 도 3을 참조하여 설명한다. 도 3은 본 발명의 실시 예에 따른 마이크의 성능 평가 과정 을 설명한 흐름도이다.
도 3을 참조하면, 본 발명에 따른 마이크 평가 시스템은 마이크 성능 평가 모드를 수행하기 위해 300단계에서 성능 측정을 위한 대상 마이크가 선정되면 305단계로 진행하여 기준 음성 DB가 존재하는지를 판단한다. 이러한 기준 음성 DB는 대상 마이크의 객관적인 성능을 측정하기 위해 그 마이크로 입력시킬 음성을 저장하고 있다. 만일 이러한 기준 음성 DB가 존재하지 않는 경우 315단계에서 스피커로부터 기준 마이크, 비교 마이크와의 거리를 결정한 후, 320단계에서 각 마이크별 음성 신호를 녹음한다. 이러한 과정을 통해 325단계에서 기준 음성 DB를 생성하게 된다. 만일 기준 음성 DB가 존재하는 경우에는 310단계에서 그 기준 음성 DB를 사용한다.
그리고나서 마이크 평가 시스템은 대상 마이크로 입력시킬 음성 신호를 가지는 기준 음성 DB가 준비되면, 330단계에서 성능 평가 기준이 선택되는지를 판단한다. 본 발명에서는 음성 감쇠 정도 및/또는 음성 왜곡 정도 중 어느 하나의 평가 기준이 선택되는지를 판단한다. 판단 결과 어느 하나의 평가 기준이 선택되면 마이크 평가 시스템은 335단계로 진행하여 기준 음성 DB의 음성 신호를 대상 마이크로 입력시킨다. 그리고나서 340단계에서 음성 신호 입력에 따른 대상 마이크를 통한 음성 감쇠 정도 및/또는 음성 왜곡 정도 즉, 측정치를 산출한다. 즉, 대상 마이크의 출력 특성을 수치화하여 출력한다. 이어, 마이크 평가 시스템은 345단계에서 이렇게 산출된 측정치가 미리 정해진 기준값을 만족하는지를 판단한다. 만일 기준값을 만족할 경우 마이크 평가 시스템은 350단계로 진행하여 대상 마이크의 선정을 확정한다. 즉, 대상 마이크가 원거리 음성 인식에 적합하다고 판정하게 된다. 이와 달리 기준값을 만족하지 않을 경우 360단계로 진행하여 대상 마이크를 실격 처리한다.
한편, 본 발명의 실시 예에 따른 측정치 산출부(230)에서 마이크의 출력 특성을 수치화하기 위한 방법은 하기와 같다. 즉, 음성 입력에 따른 마이크의 출력 특성은 하기에서 제안하는 수학식에 의해 수치화된다.
먼저, 음성 감쇠 정도를 측정하기 위한 기준으로 하기 수학식 1a 내지 1b를 제안한다.
Figure 112007039060212-pat00001
상기 수학식 1a는 전체 음성 신호에서의 평균 신호대잡음비(Averaged signal-to-noise ratio: Averaged SNR)를 구하는 식이다.
상기 수학식 1a에서 T s 는 음성구간을 나타내며, T n 은 잡음 구간을 나타내고, s(t)는 대상 마이크에서의 음성 신호를 나타낸다.
상기 수학식 1a와 같은 평균 신호대잡음비는 잡음과 음성의 에너지를 나타내는데, 이 값이 크게 나올수록 마이크의 성능이 좋은 것이다. 이러한 평균 신호대잡음비는 프리앰프 이득, 스피커 이득, 마이크 거리 조건이 동일한 상태에서 마이크 간의 비교를 위해 사용된다. 이와 같은 평균 신호대잡음비를 산출하기 위해서는 음 성 구간과 비음성 구간을 알고 있어야 한다.
Figure 112007039060212-pat00002
상기 수학식 1b는 음성 신호의 세그먼트(segment)별 신호대잡음비를 구하는 식이다.
상기 수학식 1b에서 M은 프레임 개수, N은 하나의 프레임 내의 샘플수, m은 프레임 인덱스, s mic1 (t)는 기준 마이크 예컨대, 마이크1 신호, s mic2 (t)는 비교 마이크 신호 예컨대, 마이크2 또는 마이크3 신호를 나타낸다.
음성 신호에서 신호대잡음비를 계산할 경우, 음성 신호는 에너지가 큰 부분과 작은 부분이 반복되는 비정적(non-stationary) 신호이다. 따라서, 수학식 1a에서와 같이 음성 신호 전체에 대해서 신호대잡음비를 계산하면 음성 신호 중 에너지가 큰 부분으로부터 그 값이 영향을 많이 받을 수 있다. 수학식 1b는 이러한 영향을 고려하여 일정한 음성 구간별로 신호대잡음비를 계산한 후, 평균을 구하여 특성을 비교할 수도 있다.
Figure 112007039060212-pat00003
상기 수학식 1c는 마이크 간의 음성 감쇠 비율(Microphone-to-Microphone Ratio: MMR)을 구하기 위한 식이다.
상기 수학식 1c에서 T s 는 음성구간을 나타내며, T n 은 잡음 구간을 나타내고, s mic1 (t)는 기준 마이크에서의 음성 신호 예컨대, 마이크1 신호, s mic2 (t)는 비교 마이크에서의 음성 신호 예컨대, 마이크2 또는 마이크3 신호를 나타낸다. 이때, 각 마이크로 입력되는 음성 신호는 기준 음성 DB(200)에서 제공하는 음성 신호이다. 수학식 1c를 통해 산출되는 마이크 간의 음성 감쇠 수치는 그 산출되는 수치가 작을수록 마이크의 성능이 좋은 것을 나타낸다.
상기 수학식 1c를 근거로 마이크의 성능 평가 과정을 도 4를 참조하여 설명하면 다음과 같다. 도 4는 본 발명의 실시 예에 따라 마이크 간의 비율을 이용하여 마이크의 성능 평가 과정을 설명한 흐름도이다.
도 4를 참조하면, 마이크 성능 평가 모드를 수행하기 위해 마이크 평가 시스템은 400단계에서 기준 음성 DB의 음성 신호를 평가 대상 마이크로 입력시킨다. 이러한 음성 신호의 입력에 따라 마이크 평가 시스템은 410단계에서 기준 마이크와 대상 마이크 간의 음성 에너지 비율을 산출한다. 수학식 1c를 참조하면, 우선 기준 마이크와 대상 마이크 각각의 음성 구간의 에너지와 잡음 구간의 에너지를 산출한다.
상기 수학식 1c에서
Figure 112007039060212-pat00004
는 기준 마이크에서의 음성 신호의 제곱을 음성 구간만큼 합한 것으로 이는 음성 구간의 에너지를 나타내며,
Figure 112007039060212-pat00005
는 기준 마이크에서의 잡음 구간의 에너지를 나타낸다. 이와 같이 기준 마이크에서의 음성 구간의 에너지와 잡음 구간의 에너지 간의 차이를 비교 마이크에서의 음성 구간의 에너지와 잡음 구간의 에너지 간의 차이로 나눈
Figure 112007039060212-pat00006
은 음성 에너지 비율을 나타낸다.
이와 같이 음성 에너지 비율이 산출되면, 마이크 평가 시스템은 420단계로 진행하여 프리앰프 이득 차이를 보정하여 음성이 얼마만큼 감쇠되었는지를 마이크 간 비율(MMR)을 산출하게 된다. 수학식 1c에서 비교 마이크에서의 잡음 구간의 에너지를 기준 마이크에서의 잡음 구간의 에너지로 나눈
Figure 112007039060212-pat00007
는 프리앰프 이득 차이가 있을 경우를 대비하여 이를 보정하기 위한 항목으로, 상기 음성 에너지 비율에 로그를 취하기 전에 상기 이득 차이를 보정하기 위한 항목을 곱하여 마이크 간 비율을 산출하게 된다.
이렇게 구해진 값을 로그화함으로써 마이크 간 비율(MMR)을 산출하게 되면, 마이크 평가 시스템은 430단계로 진행하여 산출된 마이크 간 비율(MMR)이 기준값보 다 작은지를 판단한다. 판단 결과 기준값보다 작을 경우 마이크 평가 시스템은 440단계로 진행하여 대상 마이크의 선정을 확정한다. 이와 달리 기준값보다 클 경우 마이크 평가 시스템은 450단계로 진행하여 대상 마이크를 실격 처리한다. 이와 같은 마이크 간 비율은 서로 다른 종류의 마이크 간 비교가 가능하게 하는 이점이 있다.
상기한 바와 같은 음성 감쇠 정도의 측정을 위한 평가 기준인 수학식 1a 내지 1c는 마이크의 출력 특성을 수치화하기 위해 사용되며, 측정치는 거리에 따라 마이크를 통한 음성이 얼마만큼 감쇠되었는지를 판단하기 위해 사용된다.
한편, 음성 왜곡 정도를 측정하기 위한 기준으로 하기 수학식 2a 내지 2c를 제안한다. 음성 왜곡 정도의 측정은 음성의 성도 모델(Linear Prediction Coefficient: LPC) 및 청각특성에 기반을 둔 특징 (Mel-freq. Cepstral Coefficient)을 이용하며 전술한 감쇠 측정 방법과는 달리 순수하게 음성 구간에 대해서만 측정이 이루어진다.
Figure 112007039060212-pat00008
상기 수학식 2a는 로그 면적 비율(log area ratio)을 구하기 위한 식이다.
상기 수학식 2a에서 M은 프레임 개수, m은 프레임 인덱스, r m , mic1 (t)는 기준 마이크 예컨대, 마이크1의 m번째 프레임의 LP 반사계수(reflection coefficient), r m , mic2 (t)는 비교 마이크 예컨대, 마이크2 또는 마이크3의 m번째 프레임의 LP 반사계수, P는 LP 굴절계수(refraction coefficient)의 차수(order)를 나타낸다.
상기와 같은 로그 면적 비율은 성도 모델을 기반으로 한 LPC 스펙트럼 모양의 차이를 나타내며, 그 로그 면적 비율값이 작을수록 마이크의 성능이 좋은 것을 나타낸다. 이러한 로그 면적 비율은 음성 구간에 대해서만 값을 구할 수 있으며, 거리에 따른 감쇠 정도에 상관없이 음성 왜곡 정도만을 나타낸다.
이러한 로그 면적 비율은 마이크를 통한 음성 신호의 특징(Cepstral Coefficient)을 추출해서 특징들의 변화량을 비교하는 것을 의미한다.
Figure 112007039060212-pat00009
상기 수학식 2b는 로그 우도비를 구하는 식이다.
상기 수학식 2b에서 M은 프레임 개수, m은 프레임 인덱스,
Figure 112007039060212-pat00010
은 기준 마이크의 m번째 프레임의 LPC 벡터,
Figure 112007039060212-pat00011
은 비교 마이크의 m번째 LPC 벡터, R m , mic1 은 기준 마이크의 m번째 프레임의 테플리츠 자기상관 행렬(toeplitz autocorrelation matrix)이다.
상기 로그 우도비는 LPC 스펙트럼의 왜곡 정도를 측정하기 위한 것으로, 그 값이 작을수록 마이크의 성능은 좋은 것이다.
Figure 112007039060212-pat00012
상기 수학식 2c는 켑스트랄 거리(Cepstral distance)를 구하는 식이다.
상기 수학식 2c에서 M은 프레임 개수, m은 프레임 인덱스, c m, mic1 (t)는 기준 마이크 예컨대, 마이크1의 m번째 프레임의 켑스트랄 계수(cepstral coefficient), c m,mic2 (t)는 비교 마이크 예컨대, 마이크2 또는 마이크3의 m번째 프레임의 켑스트랄 계수(cepstral coefficient), P는 켑스트랄 계수(cepstral coefficient)의 차수(order)를 나타낸다.
이러한 켑스트랄 거리는 켑스트랄 벡터 c1과 c2 사이의 거리 척도(distance measure)를 나타내며, 청각모델에 기반을 둔 Mel-spectrum의 켑스트랄 계수값의 차이는 역시 감쇠 정도와 상관없이 순수한 음성 왜곡 정도를 나타낸다. 이러한 켑스트랄 거리값은 그 값이 작을수록 마이크의 성능이 좋을 것을 나타낸다.
한편, 음성의 감쇠 및 음성 왜곡 정도를 동시에 측정하기 위한 기준으로 하기 수학식 3a 내지 3b를 제안한다.
Figure 112007039060212-pat00013
상기 수학식 3a는 이타구라-사이토 척도(Itakura-saito distortion measure)를 구하는 식이다.
상기 수학식 3a에서 M은 프레임 개수, m은 프레임 인덱스,
Figure 112007039060212-pat00014
은 기준 마이크의 m번째 프레임의 LPC 벡터,
Figure 112007039060212-pat00015
은 비교 마이크의 m번째 LPC 벡터,
Figure 112007039060212-pat00016
은 기준 마이크의 all-pole 이득,
Figure 112007039060212-pat00017
는 비교 마이크의 all-pole 이득,R m,mic1 은 기준 마이크의 m번째 프레임의 테플리츠 자기상관 행렬(toeplitz autocorrelation matrix)이다.
상기 이타구라-사이토 척도는 거리에 따른 마이크 입력 신호 LPC 스펙트럼 간의 유사도를 나타낸 것으로, 음성 구간에서 측정이 이루어지며 그 측정값은 작을수록 마이크의 성능이 좋은 것을 나타낸다.
Figure 112007039060212-pat00018
상기 수학식 3b는 가중 스펙트럼 슬로프 척도(Weighted spectral slope measure)를 구하는 식이다.
상기 수학식 3b는 M은 프레임 개수, m은 프레임 인덱스, P는 한계대역폭 필터 뱅크(critical band filter-bank) 개수, p 한계대역폭 필터 뱅크 인덱스, E m , mic1 은 기준 마이크의 m번째 프레임의 에너지, E m , mic2 은 비교 마이크의 m번째 프레임의 에너지, U E 는 가중 상수(weighting constant), S m,mic1 (p)은 기준 마이크의 m번째 프레임의 p번째 한계대역폭 스펙트럼의 슬로프(slope), S m , mic2 (p)은 비교 마이크의 m번째 프레임의 p번째 한계대역폭 스펙트럼의 슬로프(slope), u(p)는 가중 계수(weighting coefficient)를 나타낸다.
상기 가중 스펙트럼 슬로프 척도는 한계대역폭 필터 뱅크(critical band filter-bank)를 이용하여 부드러운 음성 스펙트럼(smoothed spectrum)을 얻고 각각의 대역에서 스펙트럼의 값 대신 그것의 슬로프가 얼마나 유사한지를 측정하여 음성의 왜곡 정도를 산출하는데 이용된다. 이렇게 산출된 값은 그 값이 작을수록 마이크의 성능이 좋은 것을 나타내게 된다.
상기 수학식 3a 및 수학식 3b 이외에도 음성의 감쇠 및 왜곡 정도를 동시 측정하기 위한 방법으로 음성의 인지적 성능 평가(Perceptual Evaluation of Speech Quality: 이하 PESQ)을 이용할 수도 있다. 이 PESQ는 기준 마이크 예컨대, 마이크1의 음성 신호와 다른 비교 마이크 예컨대, 마이크2 또는 마이크3과 비교하여 명료도 면에서 기준 마이크의 음성신호와 얼마나 유사한지를 나타내는 척도이다. 이 PESQ의 값은 음성의 음질을 평가할 때 사용하는 주관적인 통화품질(Mean Option Score: MOS)에 유사한 값으로 매칭하는 객관적인 음질 향상 정도를 측정하는 수치이다. 이 값의 범위는 -0.5에서 4.5까지의 값을 가지고, 기준 음성과 왜곡이 작을수록 4.5에 가까운 값을 나타낸다. 즉, PESQ의 값이 4.5에 가까울수록 마이크의 성능이 좋은 것을 나타내게 된다.
상기한 바와 같이 본 발명은 로봇에서의 음성인식을 위한 원거리 음성인식용 마이크 선정에 관한 규격을 제안함으로써, 로봇을 이용하여 음성인식 기능을 제공하는 사업자에게 가이드라인을 제시할 수 있다. 따라서 로봇 분야에 진출하는 사업자가 일관된 표준을 적용하여서 로봇 성능의 불확실성 감소, 비용 절감, 중복 투자방지 및 개발 기간 단축 등 진입 장벽을 낮추는 효과를 얻을 수 있고, 그 결과로 사용자에게 저렴하고 고성능의 음성인식 기능을 제공하는 로봇을 제공할 수 있는 시점을 앞당길 것으로 기대된다. 또한, 본 발명은 실제 로봇과 같은 제품을 생산할 때, 음성 입력에 사용할 수 있는 마이크 평가를 할 수 있는 방법을 제시함으로써, 생산성을 높일 수 있는 이점이 있다.

Claims (15)

  1. 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템에 있어서,
    적어도 두 개 이상의 마이크의 성능 평가에 필요한 음성 신호를 저장하는 기준 음성 데이터베이스와,
    상기 마이크들 중 기준 마이크와 대상 마이크로 상기 기준 음성 데이터베이스로부터의 상기 음성 신호가 입력되면, 성능 평가 기준의 선택에 대응하여 상기 입력되는 음성 신호의 감쇠 및 왜곡 중 적어도 어느 하나를 측정하여 수치화하는 측정치 산출부와,
    상기 측정치 산출부에 의해 수치화된 측정 결과를 기준값과 비교하는 비교부와,
    상기 비교 결과에 따라 상기 대상 마이크의 선정 여부를 결정하는 마이크 선정부를 포함함을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템.
  2. 제 1항에 있어서, 상기 측정치 산출부는,
    상기 마이크로 입력되는 전체 음성 신호의 평균 신호대잡음비(Averaged SNR) 및 상기 음성 신호의 세그먼트별 신호대잡음비(Segmental SNR) 중 어느 하나를 이용하여 상기 음성 신호의 감쇠를 측정하여 수치화하는 것을 특징으로 하는 로봇에 서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템.
  3. 제 1항에 있어서, 상기 측정치 산출부는,
    상기 기준 마이크 및 상기 대상 마이크 간의 음성 감쇠 비율을 이용하여 상기 음성 신호의 감쇠를 측정하여 수치화하는 것을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템.
  4. 제3항에 있어서, 상기 음성 감쇠 비율은 하기 수학식 1c에 의해 구해지는 것임을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템.
    [수학식 1c]
    Figure 112009004655452-pat00019
    상기 수학식 1c에서 Ts 는 음성구간을 나타내며, Tn 은 잡음 구간을 나타내고, smic1(t)는 상기 기준 마이크에서의 음성 신호, smic2(t)는 상기 대상 마이크에서의 음성 신호를 나타냄.
  5. 제 1항에 있어서, 상기 측정치 산출부는,
    로그 면적 비율(log area ratio), 로그 우도비 척도(Log-likelihood ratio measure) 및 켑스트랄 거리(Cepstral distance) 중 어느 하나를 이용하여 상기 음성 신호의 왜곡을 측정하여 수치화하는 것을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템.
  6. 제 1항에 있어서, 상기 측정치 산출부는,
    이타구라-사이토 척도(Itakura-saito distortion measure), 가중 스펙트럼 슬로프 척도(Weighted spectral slope measure) 및 음성의 인지적 성능 평가(Perceptual Evaluation of Speech Quality) 중 어느 하나를 이용하여 상기 음성 신호의 왜곡을 측정하여 수치화하는 것을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템.
  7. 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템에 있어서,
    적어도 두 개 이상의 마이크의 성능 평가에 필요한 음성 신호를 저장하는 기준 음성 데이터베이스와,
    상기 마이크들 중 기준 마이크와 대상 마이크로 상기 기준 음성 데이터베이스로부터의 상기 음성 신호가 입력되면, 상기 입력되는 음성 신호의 감쇠를 측정하기 위해 상기 마이크 간의 음성 감쇠 비율을 산출하는 측정치 산출부와,
    상기 측정치 산출부에 의해 산출된 결과를 기준값과 비교한 결과에 따라 상기 대상 마이크의 선정 여부를 결정하는 마이크 선정부를 포함함을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템.
  8. 제 7항에 있어서, 상기 측정치 산출부는,
    상기 기준 마이크와 대상 마이크 각각의 음성 구간의 에너지와 잡음 구간의 에너지를 산출하고, 상기 기준 마이크에서의 음성 구간의 에너지와 잡음 구간의 에너지 간의 차이를 상기 대상 마이크에서의 음성 구간의 에너지와 잡음 구간의 에너지 간의 차이로 나눈 후, 프리앰프의 이득 차이를 보정하기 위해 상기 대상 마이크에서의 잡음 구간의 에너지를 상기 기준 마이크에서의 잡음 구간의 에너지로 나눈 값을 곱한 후 로그를 취함으로써 상기 마이크 간의 음성 감쇠 비율을 산출함을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템.
  9. 제 7항에 있어서, 상기 마이크 선정부는,
    상기 측정치 산출부에 의해 산출된 결과가 상기 기준값보다 작을 경우 상기 대상 마이크의 선정을 확정함을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템.
  10. 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 방법에 있어서,
    적어도 두 개 이상의 마이크들 중 기준 마이크와 대상 마이크로 성능 평가에 필요한 음성 신호를 입력하는 과정과,
    상기 음성 신호가 입력되면, 상기 입력되는 음성 신호의 감쇠를 측정하기 위해 상기 마이크 간의 음성 감쇠 비율을 산출하는 과정과,
    상기 산출된 마이크 간의 음성 감쇠 비율을 기준값과 비교하는 과정과,
    상기 비교 결과에 따라 상기 대상 마이크의 선정 여부를 결정하는 과정을 포함함을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 방법.
  11. 제 10항에 있어서, 상기 마이크 간의 음성 감쇠 비율은 하기 수학식 1c에 의해 구해지는 것임을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 방법.
    [수학식 1c]
    Figure 112009004655452-pat00020
    상기 수학식 1c에서 Ts 는 음성구간을 나타내며, Tn 은 잡음 구간을 나타내고, smic1(t)는 상기 기준 마이크에서의 음성 신호, smic2(t)는 상기 대상 마이크에서의 음성 신호를 나타냄.
  12. 제 10항에 있어서, 상기 대상 마이크의 선정 여부를 결정하는 과정은,
    상기 산출된 마이크 간의 음성 감쇠 비율이 상기 기준값보다 작을 경우 상기 대상 마이크의 선정을 확정하는 과정임을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 방법.
  13. 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 방법에 있어서,
    적어도 두 개 이상의 마이크들 중 기준 마이크와 대상 마이크로 성능 평가에 필요한 음성 신호를 입력하는 과정과,
    상기 음성 신호가 입력되면, 성능 평가 기준의 선택에 대응하여 상기 입력되 는 음성 신호의 감쇠 및 왜곡 중 적어도 어느 하나를 측정하여 수치화하는 과정과,
    상기 수치화된 측정 결과를 기준값과 비교하는 과정과,
    상기 비교 결과에 따라 상기 대상 마이크의 선정 여부를 결정하는 과정을 포함함을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 방법.
  14. 제 13항에 있어서, 상기 수치화하는 과정은,
    상기 기준 마이크 및 상기 대상 마이크 간의 음성 감쇠 비율을 이용하여 상기 음성 신호의 감쇠를 측정하여 수치화하는 과정임을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 방법.
  15. 제 14항에 있어서, 상기 음성 감쇠 비율은 하기 수학식 1c에 의해 구해지는 것임을 특징으로 하는 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 방법.
    [수학식 1c]
    Figure 112009004655452-pat00021
    상기 수학식 1c에서 Ts 는 음성구간을 나타내며, Tn 은 잡음 구간을 나타내고, smic1(t)는 상기 기준 마이크에서의 음성 신호, smic2(t)는 상기 대상 마이크에서의 음성 신호를 나타냄.
KR1020070051740A 2007-05-28 2007-05-28 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법 KR100905586B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020070051740A KR100905586B1 (ko) 2007-05-28 2007-05-28 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법
EP08009716A EP1998320B1 (en) 2007-05-28 2008-05-28 System and method for evaluating performance of microphone for long-distance speech recognition in robot
DE602008003257T DE602008003257D1 (de) 2007-05-28 2008-05-28 System und Verfahren zur Einschätzung der Leistung eines Mikrofons für die Spracherkennung in einem Roboter über lange Distanzen
US12/127,867 US8149728B2 (en) 2007-05-28 2008-05-28 System and method for evaluating performance of microphone for long-distance speech recognition in robot

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070051740A KR100905586B1 (ko) 2007-05-28 2007-05-28 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20080104667A KR20080104667A (ko) 2008-12-03
KR100905586B1 true KR100905586B1 (ko) 2009-07-02

Family

ID=39619175

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070051740A KR100905586B1 (ko) 2007-05-28 2007-05-28 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법

Country Status (4)

Country Link
US (1) US8149728B2 (ko)
EP (1) EP1998320B1 (ko)
KR (1) KR100905586B1 (ko)
DE (1) DE602008003257D1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5772591B2 (ja) * 2009-03-18 2015-09-02 日本電気株式会社 音声信号処理装置
KR101053242B1 (ko) * 2009-09-24 2011-08-01 삼성전기주식회사 카메라 모듈 검사 시스템 및 카메라 모듈 검사 방법
US10026407B1 (en) 2010-12-17 2018-07-17 Arrowhead Center, Inc. Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients
CN102800323B (zh) 2012-06-25 2014-04-02 华为终端有限公司 移动终端语音降噪的方法及装置
US20150228274A1 (en) * 2012-10-26 2015-08-13 Nokia Technologies Oy Multi-Device Speech Recognition
US9310800B1 (en) * 2013-07-30 2016-04-12 The Boeing Company Robotic platform evaluation system
CN103928025B (zh) * 2014-04-08 2017-06-27 华为技术有限公司 一种语音识别的方法及移动终端
CN105489219A (zh) * 2016-01-06 2016-04-13 广州零号软件科技有限公司 室内空间服务机器人分布式语音识别***与产品
EP3223279B1 (en) * 2016-03-21 2019-01-09 Nxp B.V. A speech signal processing circuit
US20170366897A1 (en) * 2016-06-15 2017-12-21 Robert Azarewicz Microphone board for far field automatic speech recognition
CN107403629B (zh) * 2017-08-16 2020-10-09 歌尔股份有限公司 远场拾音性能评价方法和***、电子设备
CN111294704B (zh) * 2020-01-22 2021-08-31 北京小米松果电子有限公司 音频处理方法、装置及存储介质
CN111951833A (zh) * 2020-08-04 2020-11-17 科大讯飞股份有限公司 语音测试方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5919821A (ja) 1982-07-26 1984-02-01 Matsushita Electric Ind Co Ltd 音響評価方法
JP2002369296A (ja) 2001-06-05 2002-12-20 Nippon Hoso Kyokai <Nhk> マイクロホン回線検査機能を有するミクシングシステム
KR20050022952A (ko) * 2004-08-11 2005-03-09 장진우 음향입력제품 선별장치
US20060069557A1 (en) 2004-09-10 2006-03-30 Simon Barker Microphone setup and testing in voice recognition software

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4449238A (en) * 1982-03-25 1984-05-15 Bell Telephone Laboratories, Incorporated Voice-actuated switching system
US4741038A (en) * 1986-09-26 1988-04-26 American Telephone And Telegraph Company, At&T Bell Laboratories Sound location arrangement
US5625607A (en) * 1992-02-13 1997-04-29 Canon Kabushiki Kaisha Magneto-optical disk apparatus including two magnetic field applying devices, one of which has a substantial ring-shaped core member with a gap in a portion thereof
US5561737A (en) * 1994-05-09 1996-10-01 Lucent Technologies Inc. Voice actuated switching system
US5715372A (en) * 1995-01-10 1998-02-03 Lucent Technologies Inc. Method and apparatus for characterizing an input signal
JP3280825B2 (ja) * 1995-04-26 2002-05-13 富士通株式会社 音声特徴分析装置
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
JP2001296881A (ja) * 2000-04-14 2001-10-26 Sony Corp 情報処理装置および方法、並びに記録媒体
US6505161B1 (en) * 2000-05-01 2003-01-07 Sprint Communications Company L.P. Speech recognition that adjusts automatically to input devices
GB2398913B (en) * 2003-02-27 2005-08-17 Motorola Inc Noise estimation in speech recognition
DE10320274A1 (de) * 2003-05-07 2004-12-09 Sennheiser Electronic Gmbh & Co. Kg System zur ortssensitiven Wiedergabe von Audiosignalen
DE10339973A1 (de) * 2003-08-29 2005-03-17 Daimlerchrysler Ag Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback
WO2006004099A1 (ja) * 2004-07-05 2006-01-12 Pioneer Corporation 残響調整装置、残響補正方法、および、音響再生システム
US7472041B2 (en) * 2005-08-26 2008-12-30 Step Communications Corporation Method and apparatus for accommodating device and/or signal mismatch in a sensor array
EP1931169A4 (en) * 2005-09-02 2009-12-16 Japan Adv Inst Science & Tech POST-FILTER FOR A MICROPHONE MATRIX
US8533630B2 (en) * 2006-09-05 2013-09-10 Intel Corporation Method and apparatus for controlling an array of input/output devices
US7924655B2 (en) * 2007-01-16 2011-04-12 Microsoft Corp. Energy-based sound source localization and gain normalization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5919821A (ja) 1982-07-26 1984-02-01 Matsushita Electric Ind Co Ltd 音響評価方法
JP2002369296A (ja) 2001-06-05 2002-12-20 Nippon Hoso Kyokai <Nhk> マイクロホン回線検査機能を有するミクシングシステム
KR20050022952A (ko) * 2004-08-11 2005-03-09 장진우 음향입력제품 선별장치
US20060069557A1 (en) 2004-09-10 2006-03-30 Simon Barker Microphone setup and testing in voice recognition software

Also Published As

Publication number Publication date
KR20080104667A (ko) 2008-12-03
US20080298599A1 (en) 2008-12-04
EP1998320A1 (en) 2008-12-03
DE602008003257D1 (de) 2010-12-16
US8149728B2 (en) 2012-04-03
EP1998320B1 (en) 2010-11-03

Similar Documents

Publication Publication Date Title
KR100905586B1 (ko) 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법
KR20080111290A (ko) 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법
RU2642353C2 (ru) Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
Ratnam et al. Blind estimation of reverberation time
JP5998603B2 (ja) 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
JP6454916B2 (ja) 音声処理装置、音声処理方法及びプログラム
CN108464015A (zh) 麦克风阵列信号处理***
KR20130042649A (ko) 오디오 신호에서의 잡음 추정을 위한 방법 및 장치
US20150162021A1 (en) Spectral Comb Voice Activity Detection
JP2013068809A (ja) 残響抑制装置および残響抑制方法並びに残響抑制プログラム
US9183846B2 (en) Method and device for adaptively adjusting sound effect
Ravanelli et al. Impulse response estimation for robust speech recognition in a reverberant environment
WO2020013296A1 (ja) 精神・神経系疾患を推定する装置
CN109313893A (zh) 表征、选择以及调整用于自动语音识别***的音频和声学训练数据
JP2011033717A (ja) 雑音抑圧装置
JP2015019124A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP2018169473A (ja) 音声処理装置、音声処理方法及びプログラム
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
US20210097980A1 (en) Environment aware voice-assistant devices, and related systems and methods
Raikar et al. Effect of Microphone Position Measurement Error on RIR and its Impact on Speech Intelligibility and Quality.
US20220406295A1 (en) Multi-encoder end-to-end automatic speech recognition (asr) for joint modeling of multiple input devices
US20220254332A1 (en) Method and apparatus for normalizing features extracted from audio data for signal recognition or modification
CN112133320A (zh) 语音处理装置及语音处理方法
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP4632831B2 (ja) 音声認識方法および音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150528

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160530

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180530

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190530

Year of fee payment: 11