KR101959903B1 - 스마트 오디오 장치 - Google Patents

스마트 오디오 장치 Download PDF

Info

Publication number
KR101959903B1
KR101959903B1 KR1020170140461A KR20170140461A KR101959903B1 KR 101959903 B1 KR101959903 B1 KR 101959903B1 KR 1020170140461 A KR1020170140461 A KR 1020170140461A KR 20170140461 A KR20170140461 A KR 20170140461A KR 101959903 B1 KR101959903 B1 KR 101959903B1
Authority
KR
South Korea
Prior art keywords
command signal
signal
probability
audio
predetermined
Prior art date
Application number
KR1020170140461A
Other languages
English (en)
Inventor
유재성
신호준
김세웅
Original Assignee
주식회사 마이티웍스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 마이티웍스 filed Critical 주식회사 마이티웍스
Priority to KR1020170140461A priority Critical patent/KR101959903B1/ko
Application granted granted Critical
Publication of KR101959903B1 publication Critical patent/KR101959903B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Selective Calling Equipment (AREA)

Abstract

오디오 소스로부터 제공된 제2오디오 신호에 포함되어 있는 명령신호인 제2명령신호를 인식하여 저장하는 출력명령어인식및임시저장부, 마이크가 출력한 제1오디오 신호에 포함되어 있는 명령신호인 제1명령신호를 인식하는 입력명령신호인식부, 및 상기 제1명령신호를 포함하는 상기 제1오디오 신호가 상기 제2오디오 신호를 스피커를 통해 출력하여 발생한 음파로부터 비롯된 것이라고 판단되면 상기 제1명령신호를 무시하는 입력명령신호필터부를 포함하는 스마트 오디오 장치를 공개한다.

Description

스마트 오디오 장치{Smart audio device}
본 발명은 스피커 및 마이크가 내장되어 있거나 이들에 연결될 수 있는 스마트 오디오 장치로서, 마이크를 이용하여 검출 가능한 음파를 통해 전달되는 명령을 인식하여 상기 명령에 따른 동작을 수행하는 스마트 오디오 장치에 관한 것이다.
음파 신호를 마이크로 입력받아 상기 음파 신호에 포함된 미리 설정된 명령신호를 인식한 후, 상기 인식된 명령신호에 따라 수행해야 하는 미리 결정된 기능을 수행하는 스마트 장치가 개발되고 있다.
상기 스마트 장치에는 스피커 및 마이크가 내장되어 있거나, 또는 상기 스마트 장치는 스피커 및 마이크에 연결될 수 있다.
상기 음파 신호는 사람의 음성일 수 있으며, 상기 명령신호는 사람이 발음하는 자연어일 수 있다. 그러나 이에 한정되지 않는다. 즉, 상기 음파 신호는 음성이 아닐 수도 있으며, 그리고 상기 명령신호도 자연어가 아닐 수도 있다.
상기 스피커에서 출력하는 신호는 상기 마이크에 입력되어 인식될 수 있을 정도로 큰 음파를 발생시킬 수 있다.
상기 스마트 장치는, 상기 마이크를 통해 입력되는 음파 신호가 사람의 성대에서 발생한 경우에만 상기 음파 신호에 포함된 미리 설정된 명령신호에 대응하는 동작을 수행하도록 되어 있는 바람직하다. 즉, 상기 마이크를 통해 입력되는 음파 신호가 상기 스마트 장치에 연결된 스피커에서 발생한 경우에는 상기 음파 신호에 포함된 미리 설정된 명령신호를 무시하도록 되어 있는 것이 바람직하다. 왜냐하면 예컨대 상기 스마트 장치가 예컨대 FM 라디오 신호를 스피커로 출력하는 경우 상기 라디오를 통해 출력되는 음성신호에 미리 설정된 명령신호가 포함되어 있을 수도 있는데, 이 경우에는 상기 명령신호를 무시하는 것이 바람직하기 때문이다.
본 발명은 스피커 및 마이크가 내장되어 있거나 이들에 연결될 수 있는 스마트 오디오 장치로서, 상기 스피커를 통해 출력된 스피커 출력음파에 미리 설정된 제1명령신호가 포함된 경우, 상기 제1명령신호를 무시하는 기능을 제공하는 스마트 오디오 장치를 제공하고자 한다.
또한 본 발명은 오디오 신호에 명령신호가 포함되어 있는지 여부를 효율적으로 결정하는 기술을 제공하고자 한다.
본 발명의 일 관점에 따른 스마트 오디오 장치(1)는, 오디오 소스로부터 제공된 제2오디오 신호(Sw2)에 포함되어 있는 명령신호인 제2명령신호(IC2)를 인식하여 저장하는 출력명령어인식및임시저장부(30), 마이크가 출력한 제1오디오 신호(Sw1)에 포함되어 있는 명령신호인 제1명령신호(IC1)를 인식하는 입력명령신호인식부(22), 및 상기 제1명령신호를 포함하는 상기 제1오디오 신호가, 상기 제2오디오 신호를 스피커를 통해 출력하여 발생한 음파로부터 비롯된 것이라고 판단되면, 상기 제1명령신호를 무시하는 입력명령신호필터부(23)를 포함할 수 있다.
이때, 상기 입력명령신호필터부(23)는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있을 수 있다.
이때, 상기 입력명령신호인식부(22)는, 상기 제1오디오신호에 제1명령신호(IC1)가 포함되어 있을 확률을 제1인식엔진을 이용하여 결정하고, 상기 제1인식엔진을 이용하여 결정한 상기 확률인 제11확률(P11)과 상기 제1명령신호(IC1)를 출력하는 제1인식엔진부(91), 상기 제1오디오신호에 상기 제1명령신호(IC1)가 포함되어 있을 확률을 제2인식엔진을 이용하여 결정하고, 상기 제2인식엔진을 이용하여 결정한 상기 확률인 제12확률(P12)을 출력하는 제2인식엔진부(92), 및 상기 제11확률이 미리 결정된 제1임계값보다 큰 경우 상기 제1명령신호(IC1)를 출력하도록 되어 있고, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제2인식엔진부로 하여금 상기 제12확률을 계산하도록 명령하는 명령신호출력부(92)를 포함할 수 있다. 그리고 상기 명령신호출력부는, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제12확률이 미리 결정된 제2임계값보다 큰 경우 상기 제1명령신호를 출력하도록 되어 있을 수 있다.
이때, 상기 출력명령어인식및임시저장부(30)는, 상기 제2오디오신호에 제2명령신호(IC2)가 포함되어 있을 확률을 제1인식엔진을 이용하여 결정하고, 상기 제1인식엔진을 이용하여 결정한 상기 확률인 제21확률(P21)과 상기 제2명령신호(IC2)를 출력하는 제1인식엔진부(91), 상기 제2오디오신호에 상기 제2명령신호(IC2)가 포함되어 있을 확률을 제2인식엔진을 이용하여 결정하고, 상기 제2인식엔진을 이용하여 결정한 상기 확률인 제22확률(P22)을 출력하는 제2인식엔진부(92), 상기 제21확률이 미리 결정된 제1임계값보다 큰 경우 상기 제2명령신호(IC2)를 출력하도록 되어 있고, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제2인식엔진부로 하여금 상기 제22확률을 계산하도록 명령하는 명령신호출력부(92), 및 상기 명령신호출력부에서 상기 제2명령신호를 출력한 경우, 상기 제2명령신호를 미리 결정된 시간 동안만 메모리에 저장하고 상기 미리 결정된 시간이 지나면 상기 제2명령신호를 상기 메모리로부터 삭제하도록 되어있는 임시저장부(93)를 포함할 수 있다. 그리고 상기 명령신호출력부는, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제22확률이 미리 결정된 제2임계값보다 큰 경우 상기 제2명령신호를 출력하도록 되어 있을 수 있다.
이때, 상기 입력명령신호필터부(23)는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있고, 상기 입력명령신호필터부(23)는, 상기 제2명령신호를 상기 메모리로부터 획득하도록 되어 있을 수 있다.
본 발명에 따르면 스피커 및 마이크가 내장되어 있거나 이들에 연결될 수 있는 스마트 오디오 장치로서, 상기 스피커를 통해 출력된 스피커 출력음파에 미리 설정된 제1명령신호가 포함된 경우, 상기 제1명령을 무시하는 기능을 제공하는 스마트 오디오 장치를 제공할 수 있다.
또한 본 발명에 따르면, 오디오 신호에 명령신호가 포함되어 있는지 여부를 효율적으로 결정하는 기술을 제공하고자 한다.
도 1은 본 발명의 일 실시예에 따른 스마트 오디오 장치(1) 및 서버(2)를 나타낸다.
도 2는 도 1에 나타낸 입력 명령신호 인식부의 구성을 나타낸다.
도 3은 도 1에 나타낸 출력 명령신호 인식 및 임시 저장부의 구성을 나타낸다.
이하, 본 발명의 실시예를 첨부한 도면을 참고하여 설명한다. 그러나 본 발명은 본 명세서에서 설명하는 실시예에 한정되지 않으며 여러 가지 다른 형태로 구현될 수 있다. 본 명세서에서 사용되는 용어는 실시예의 이해를 돕기 위한 것이며, 본 발명의 범위를 한정하고자 의도된 것이 아니다. 또한, 이하에서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다.
도 1은 본 발명의 일 실시예에 따른 스마트 오디오 장치(1) 및 서버(2)를 나타낸다.
도 2는 도 1에 나타낸 입력 명령신호 인식부의 구성을 나타낸다.
도 3은 도 1에 나타낸 출력 명령신호 인식 및 임시 저장부의 구성을 나타낸다.
이하 도 1 내지 도 3을 함께 참조하여 설명한다.
이하 스마트 오디오 장치(1)에 포함된 기능블록들의 특징을 설명한다.
소스 선택부(11)는 복수 개의 소스들 중 하나를 선택하여 상기 선택된 소스가 제공하는 오디호 신호를 출력한다.
상기 복수 개의 소스는, 예컨대 CD, DVD와 같은 미디어 장치로부터 소스를 공급받는 제1소스(101), 블루투스와 같은 근거리 통신을 통해 스마트폰 과 같은 장치로부터 소스를 공급받는 제2소스(102), 및 이동통신망 또는 MAN 등의 망 등을 이용하여 네트워크 통신을 통해 원격의 장치로부터 소스를 공급받은 제3소스(103) 등을 포함할 수 있다.
제1소스(101)로부터는 제1인코딩신호(Se1)가 공급되고, 제2소스(102)로부터는 제2인코딩신호(Se2)가 공급되고, 그리고 제3소스(103)로부터는 제3인코딩신호(Se3)가 공급될 수 있다.
소스 선택부(11)는 제1인코딩신호(Se1), 제2인코딩신호(Se2), 및 제3인코딩신호(Se3) 중 어느 하나를 선택하여 인코딩신호(Se)를 출력할 수 있다.
디코더(12)는 인코딩신호(Se)를 증폭 가능한 아날로그 신호 또는 디지털 신호인 제2오디오 신호(Sw2)로 변환하여 출력할 수 있다.
증폭부(13)는 제2오디오 신호(Sw2)를 증폭하여 스피커(14)를 구동하기 위한 구동신호(Aw2)를 생성하여 출력한다.
제2오디오 신호(Sw2)가 디지털 신호인 경우에는 증폭부(13)에 DAC가 포함되어 있고, 상기 DAC가 제2오디오 신호(Sw2)를 아날로그 신호로 변환할 수 있다.
스마트 오디오 장치(1)는, 미리 설정된 한 개 이상의 명령신호들을 저장하고 있을 수 있다.
상기 미리 설정된 한 개 이상의 명령신호들 제1타입의 명령신호와 제2타입의 명령신호로 구분될 수 있다.
출력 명령신호 인식 및 임시 저장부(30)는, 상기 제2오디오 신호(Sw2)에 상기 미리 설정되어 있는 명령신호들 중 어느 하나 이상이 포함되어 있는지를 판단할 수 있다. 그리고 상기 포함되어 있다고 판단된 제2명령신호(IC2)를 미리 결정된 제1시간 동안만 임시로 메모리에 저장하고 있을 수 있다. 상기 메모리에 저장된 제2명령신호(IC2)는 상기 미리 결정된 제1시간이 지나면 삭제될 수 있다.
출력 명령신호 인식 및 임시 저장부(30), 상기 제2오디오 신호(Sw2)에 명령신호가 포함되지 않은 경우 널 신호를 제공할 수 있다.
출력 명령신호 인식 및 임시 저장부(30), 상기 제2오디오 신호(Sw2)에 명령신호가 포함되어 있는 경우, 상기 명령신호를 인식한 시점으로부터 상기 미리 결정된 제1시간이 지나기 전에는 상기 명령신호를 제공할 수 있지만, 상기 제1시간이 지난 후에는 상기 명령신호를 제공하지 않고 널신를 제공할 수 있다.
마이크(21)는 음파를 감지하여 이에 관한 제1오디오 신호(Sw1)을 출력한다.
입력 명령신호 인식부(22)는 상기 제1오디오 신호(Sw1)에 상기 미리 설정되어 있는 명령신호 중 어느 하나 이상이 포함되어 있는지를 판단할 수 있다. 그리고 상기 포함되어 있다고 판단된 제1명령신호(IC1)를 출력할 수 있다.
입력 명령신호 필터부(23)는 상기 제1명령신호(IC1)를 제공받으면, 출력 명령신호 인식 및 임시 저장부(30)에 저장되어 있는 명령신호를 출력 명령신호 인식 및 임시 저장부(30)로부터 획득한다.
입력 명령신호 필터부(23)가 명령신호를 출력 명령신호 인식 및 임시 저장부(30)로부터 제2명령신호(IC2)를 획득한 경우, 입력 명령신호 필터부(23)는 상기 제1명령신호(IC1)가 제2명령신호(IC2)와 동일한 것인지 여부를 확인한다.
상기 제1명령신호(IC1)가 제2명령신호(IC2)와 동일한 것으로 결정되면, 입력 명령신호 필터부(23)는 상기 제1명령신호(IC1)를 무효인 것으로 처리한다. 즉, 상기 제1명령신호(IC1)를 무시한다.
입력 명령신호 필터부(23)가 상기 제1명령신호(IC1)를 무효로 처리한 경우에는, 입력 명령신호 필터부(23)는 입력 명령신호 처리부(24)에게 제1명령신호(IC1)를 전달하지 않을 수 있다.
입력 명령신호 필터부(23)가 출력 명령신호 인식 및 임시 저장부(30)로부터 아무런 명령신호를 획득할 수 없는 경우, 또는 제1명령신호(IC1)가 제2명령신호(IC2)와 동일하지 않은 경우에는, 입력 명령신호 필터부(23)는 상기 제1명령신호(IC1)를 유효인 것으로 처리한다. 이 경우 입력 명령신호 필터부(23)는 상기 제1명령신호(IC1)를 입력 명령신호 처리부(24)에게 제공한다.
입력 명령신호 처리부(24)는 입력 명령신호 필터부(23)로부터 전달받은 제1명령신호(IC1)가 상기 제1타입의 명령신호인지 아니면 상기 제2타입의 명령신호인지를 판단한다.
입력 명령신호 처리부(24)는, 입력 명령신호 필터부(23)로부터 전달받은 제1명령신호(IC1)가 상기 제1타입의 명령신호라고 결정되면, 제1명령신호(IC1)를 장치 제어부(60)에게 전달할 수 있다.
입력 명령신호 처리부(24)는, 입력 명령신호 필터부(23)로부터 전달받은 제1명령신호(IC1)가 상기 제2타입의 명령신호라고 결정되면, 제1명령신호(IC1)를 자연어 획득 및 전달부(40)에게 전달할 수 있다.
상기 제1타입의 명령신호는 스마트 오디오 장치(1)의 기능을 제어하기 위한 것으로서, 장치 제어부(60)에게 전달될 수 있다. 장치 제어부(60)는 상기 제1타입의 명령신호에 따라 스마트 오디오 장치(1)의 각종 기능을 제어할 수 있다.
예컨대 제1타입의 명령신호가 자연어인 '소리키워', '소리줄여', '구간반복', 'CD로 전환' 등인 경우 스마트 오디오 장치(1)는 이에 대응하는 동작을 자체적으로 수행할 수 있다.
상기 제2타입의 명령신호는 스마트 오디오 장치(1)가 서버(2)의 도움을 받도록 요청하는 것일 수 있다. 상기 제2타입의 명령신호는 자연어 획득 및 전달부(40)에게 전달될 수 있다.
그러면 자연어 획득 및 전달부(40)는 상기 제2타입의 명령신호에 뒤이어 연속적으로 발생한 상기 제1오디오 신호(Sw1)를 추출하여 네트워크 통신부(50)에 전달할 수 있다. 상기 추출된 제1오디오 신호(Sw1)에는 자연어가 포함되어 있을 수 있다.
자연어 획득 및 전달부(40)는 상기 추출된 제1오디오 신호(Sw1)에 자연어가 포함되어 있는지 여부를 판단할 필요는 없다.
네트워크 통신부(50)는 전달받은 제1오디오 신호(Sw1)를 원격의 서버(2)에게 제공할 수 있다.
서버(2)는 네트워크 통신부(50)로부터 전달받은 제1오디오 신호(Sw1)를 해독하여 이에 대응하는 대응신호를 생성하고, 상기 대응신호를 다시 네트워크 통신부(50)에게 제공할 수 있다.
네트워크 통신부(50)는 상기 제공받은 대응신호를 서버 대응신호 판단부(55)에게 제공할 수 있다.
서버 대응신호 판단부(55)는, 상기 제공받은 대응신호에 스마트 오디오 장치(1)를 제어하는 제어신호가 포함되어 있는 것으로 결정되면, 상기 제어신호를 장치 제어부(60)에 전달할 수 있다. 장치 제어부(60)는 서버 대응신호 판단부(55)로부터 제공받은 제어신호에 따라 스마트 오디오 장치(1)를 제어할 수 있다.
서버 대응신호 판단부(55)는, 상기 제공받은 대응신호에 오디오 신호가 포함되어 있는 것으로 결정되면, 상기 오디오 신호를 제3소스(103)에 전달할 수 있다. 제3소스(103)에 전달된 오디오 신호는 스피커(14)를 통해 출력될 수 있다.
제1명령신호(IC1)가 상기 제2타입의 명령신호인 경우, 예컨대 제1명령신호(IC1)는 예컨대 자연어 '도움'일 수 있다. 이때, 이 '도움'은 스피커(14)에서 출력된 것이 아니라, 사람의 성대에서 직접 생성된 것일 수 있다.
이때, 예컨대 제1명령신호(IC1)에 뒤이어 연속적으로 발생한 상기 제1오디오 신호(Sw1)는 자연어 문장인 "오늘 날씨가 어때?"일 수 있다. 그러면 네트워크 통신부(50)는 서버(2)에게 "오늘 날씨가 어때?"를 전달할 수 있다. 서버(2)는 "오늘 날씨가 어때?"가 내포하는 바를 인공지능 알고리즘을 이용하여 판독할 수 있다. 그리고 이에 대응하여 상기 대응신호를 생성할 수 있는데, 상기 대응신호는 예컨대 "기상청 서버가 다운되어 오늘 날씨를 알 수 없습니다. 도움을 드릴 수 없어 죄송합니다"라는 오디오 신호일 수 있다. 그러면 결국 스피커(14)는 "기상청 서버가 다운되어 오늘 날씨를 알 수 없습니다. 도움을 드릴 수 없어 죄송합니다"라는 오디오 신호를 출력할 수 있다. 이때, 스피커(14)는 '도움'이라는 단어를 출력하게 되고, 상기 '도움'은 다시 마이크(21)를 통해 입력될 수 있다. 그러나 상기 '도움'은 사람의 성대에서 발생한 것이 아니라 스피커(14)를 통해 출력된 것이다.
이때 스피커(14)를 통해 발생한 상기 '도움'은 상기 제2타입의 명령신호로서 인식되지 않도록 할 수 있다. 도 1에서 설명한 스마트 오디오 장치(1)를 이용하면 스피커(14)를 통해 발생한 상기 '도움'은 상기 제2타입의 명령신호로서 인식되지 않도록 할 수 있다.
한편, 예컨대 제1명령신호(IC1)에 뒤이어 연속적으로 발생한 상기 제1오디오 신호(Sw1)는 자연어 문장인 "오디오 소리를 줄여줄래?"일 수 있다. 이때 "오디오 소리를 줄여줄래?"에는 상기 제1타입의 명령신호에 해당하는 명령신호가 포함되어 있지 않은 상황을 가정할 수 있다. 이 경우 네트워크 통신부(50)는 서버(2)에게 "오디오 소리를 줄여줄래?"를 전달할 수 있다. 서버(2)는 "오디오 소리를 줄여줄래?"가 내포하는 의미를 인공지능 알고리즘을 이용하여 판독할 수 있다. 그리고 이에 대응하여 상기 대응신호를 생성할 수 있는데, 상기 대응신호는 스마트 오디오 장치(1)의 볼륨을 줄이는 제어신호일 수 있다. 이때, 서버 대응신호 판단부(55)는, 상기 제공받은 제어신호를 장치 제어부(60)에 전달할 수 있다. 장치 제어부(60)는 상기 제어신호에 따라 스마트 오디오 장치(1)의 볼륨을 줄일 수 있다.
본 발명의 일 실시예에 따르면, 오디오 소스로부터 제공된 제2오디오 신호(Sw2)에 포함되어 있는 명령신호인 제2명령신호(IC2)를 인식하여 저장하는 출력명령어인식및임시저장부(30); 마이크가 출력한 제1오디오 신호(Sw1)에 포함되어 있는 명령신호인 제1명령신호(IC1)를 인식하는 입력명령신호인식부(22); 및 상기 제1명령신호를 포함하는 상기 제1오디오 신호가, 상기 제2오디오 신호를 스피커를 통해 출력하여 발생한 음파로부터 비롯된 것이라고 판단되면, 상기 제1명령신호를 무시하는 입력명령신호필터부(23)를 포함하는 스마트 오디오 장치(1)를 제공할 수 있다.
이때, 상기 입력명령신호필터부(23)는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있을 수 있다.
이때, 상기 입력명령신호인식부(22)는, 상기 제1오디오신호에 제1명령신호(IC1)가 포함되어 있을 확률을 제1인식엔진을 이용하여 결정하고, 상기 제1인식엔진을 이용하여 결정한 상기 확률인 제11확률(P11)과 상기 제1명령신호(IC1)를 출력하는 제1인식엔진부(91); 상기 제1오디오신호에 상기 제1명령신호(IC1)가 포함되어 있을 확률을 제2인식엔진을 이용하여 결정하고, 상기 제2인식엔진을 이용하여 결정한 상기 확률인 제12확률(P12)을 출력하는 제2인식엔진부(92); 및 상기 제11확률이 미리 결정된 제1임계값보다 큰 경우 상기 제1명령신호(IC1)를 출력하도록 되어 있고, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제2인식엔진부로 하여금 상기 제12확률을 계산하도록 명령하는 명령신호출력부(92);를 포함할 수 있다. 그리고 상기 명령신호출력부는, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제12확률이 미리 결정된 제2임계값보다 큰 경우 상기 제1명령신호를 출력하도록 되어 있을 수 있다.
이때, 상기 출력명령어인식및임시저장부(30)는, 상기 제2오디오신호에 제2명령신호(IC2)가 포함되어 있을 확률을 제1인식엔진을 이용하여 결정하고, 상기 제1인식엔진을 이용하여 결정한 상기 확률인 제21확률(P21)과 상기 제2명령신호(IC2)를 출력하는 제1인식엔진부(91); 상기 제2오디오신호에 상기 제2명령신호(IC2)가 포함되어 있을 확률을 제2인식엔진을 이용하여 결정하고, 상기 제2인식엔진을 이용하여 결정한 상기 확률인 제22확률(P22)을 출력하는 제2인식엔진부(92); 상기 제21확률이 미리 결정된 제1임계값보다 큰 경우 상기 제2명령신호(IC2)를 출력하도록 되어 있고, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제2인식엔진부로 하여금 상기 제22확률을 계산하도록 명령하는 명령신호출력부(92); 및 상기 명령신호출력부에서 상기 제2명령신호를 출력한 경우, 상기 제2명령신호를 미리 결정된 시간 동안만 메모리에 저장하고 상기 미리 결정된 시간이 지나면 상기 제2명령신호를 상기 메모리로부터 삭제하도록 되어있는 임시저장부(93)를 포함할 수 있다. 그리고 상기 명령신호출력부는, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제22확률이 미리 결정된 제2임계값보다 큰 경우 상기 제2명령신호를 출력하도록 되어 있을 수 있다.
이때, 상기 입력명령신호필터부(23)는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있고, 상기 입력명령신호필터부(23)는, 상기 제2명령신호를 상기 메모리로부터 획득하도록 되어 있을 수 있다.
상술한 본 발명의 실시예들을 이용하여, 본 발명의 기술 분야에 속하는 자들은 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에 다양한 변경 및 수정을 용이하게 실시할 수 있을 것이다. 특허청구범위의 각 청구항의 내용은 본 명세서를 통해 이해할 수 있는 범위 내에서 인용관계가 없는 다른 청구항에 결합될 수 있다.

Claims (5)

  1. 마이크가 출력한 제1오디오신호에 포함되어 있는 명령신호인 제1명령신호를 인식하도록 되어 있는 스마트 오디오 장치로서,
    상기 제1오디오신호에 상기 제1명령신호가 포함되어 있을 확률인 제11확률을 제1인식엔진을 이용하여 결정하고, 상기 제11확률과 상기 제1명령신호를 출력하도록 되어 있는 제1인식엔진부;
    상기 제1오디오신호에 상기 제1명령신호가 포함되어 있을 확률인 제12확률을 제2인식엔진을 이용하여 결정하고, 상기 제12확률을 출력하도록 되어 있는 제2인식엔진부;
    상기 제11확률이 미리 결정된 제1임계값보다 큰 경우 상기 제1명령신호를 출력하도록 되어 있고, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제2인식엔진부로 하여금 상기 제12확률을 계산하도록 명령하는 명령신호출력부;를 포함하는 입력명령신호인식부;
    오디오 소스로부터 제공된 제2오디오신호에 포함되어 있는 명령신호인 제2명령신호를 인식하여 저장하는 출력명령어인식및임시저장부; 및
    상기 제1명령신호를 포함하는 상기 제1오디오신호가, 상기 제2오디오신호를 스피커를 통해 출력하여 발생한 음파로부터 비롯된 것이라고 판단되면, 상기 제1명령신호를 무시하는 입력명령신호필터부;
    를 포함하며,
    상기 출력명령어인식및임시저장부는,
    상기 제2오디오신호에 상기 제2명령신호가 포함되어 있을 확률인 제21확률을 상기 제1인식엔진을 이용하여 결정하고, 상기 제21확률과 상기 제2명령신호를 출력하도록 되어 있는 제3인식엔진부;
    상기 제2오디오신호에 상기 제2명령신호가 포함되어 있을 확률인 제22확률을 상기 제2인식엔진을 이용하여 결정하고, 상기 제22확률을 출력하도록 되어 있는 제4인식엔진부;
    상기 제21확률이 상기 미리 결정된 제1임계값보다 큰 경우 상기 제2명령신호를 출력하도록 되어 있고, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제4인식엔진부로 하여금 상기 제22확률을 계산하도록 명령하는 제2명령신호출력부; 및
    상기 제2명령신호출력부에서 상기 제2명령신호를 출력한 경우, 상기 제2명령신호를 미리 결정된 시간 동안만 메모리에 저장하고 상기 미리 결정된 시간이 지나면 상기 제2명령신호를 상기 메모리로부터 삭제하도록 되어있는 임시저장부
    를 포함하며,
    상기 명령신호출력부는, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제12확률이 미리 결정된 제2임계값보다 큰 경우 상기 제1명령신호를 출력하도록 되어 있고,
    상기 제2명령신호출력부는, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제22확률이 상기 미리 결정된 제2임계값보다 큰 경우 상기 제2명령신호를 출력하도록 되어 있는,
    스마트 오디오 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 입력명령신호필터부는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있는,
    스마트 오디오 장치.
  4. 삭제
  5. 제1항에 있어서,
    상기 입력명령신호필터부는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있고,
    상기 입력명령신호필터부는, 상기 제2명령신호를 상기 메모리로부터 획득하도록 되어 있는,
    스마트 오디오 장치.
KR1020170140461A 2017-10-26 2017-10-26 스마트 오디오 장치 KR101959903B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170140461A KR101959903B1 (ko) 2017-10-26 2017-10-26 스마트 오디오 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170140461A KR101959903B1 (ko) 2017-10-26 2017-10-26 스마트 오디오 장치

Publications (1)

Publication Number Publication Date
KR101959903B1 true KR101959903B1 (ko) 2019-03-19

Family

ID=65908595

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170140461A KR101959903B1 (ko) 2017-10-26 2017-10-26 스마트 오디오 장치

Country Status (1)

Country Link
KR (1) KR101959903B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004832A (ko) * 1999-06-30 2001-01-15 구자홍 음성인식을 이용한 기기 제어장치
KR20130042493A (ko) * 2010-05-18 2013-04-26 샤잠 엔터테인먼트 리미티드 오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템
KR20160079929A (ko) * 2008-07-02 2016-07-06 구글 인코포레이티드 병렬 인식 태스크에 따른 음성 인식

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004832A (ko) * 1999-06-30 2001-01-15 구자홍 음성인식을 이용한 기기 제어장치
KR20160079929A (ko) * 2008-07-02 2016-07-06 구글 인코포레이티드 병렬 인식 태스크에 따른 음성 인식
KR20130042493A (ko) * 2010-05-18 2013-04-26 샤잠 엔터테인먼트 리미티드 오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템

Similar Documents

Publication Publication Date Title
KR101279276B1 (ko) 자동 이득 제어
KR101703214B1 (ko) 문자 데이터의 내용을 문자 데이터 송신자의 음성으로 출력하는 방법
CN111405105B (zh) 用于控制蓝牙耳机的方法和装置、蓝牙耳机及存储介质
CN101437065A (zh) 音频信号处理装置、音频信号处理方法和通信终端
US20220027580A1 (en) Concurrent Reception Of Multiple User Speech Input For Translation
JP2010062663A (ja) 音声信号処理装置、音声信号処理方法、及び、通信端末
EP1804237A1 (en) System and method for personalized text to voice synthesis
CN110177660B (zh) 言行控制装置、机器人、存储介质及控制方法
KR101959903B1 (ko) 스마트 오디오 장치
JP4752516B2 (ja) 音声対話装置および音声対話方法
KR101519493B1 (ko) 비가청 대역의 음파를 이용한 방송방법, 방송시스템, 및 이에 사용되는 믹서
KR101600429B1 (ko) 환경 상황 적응 방식의 청력 보조 기기 및 멀티미디어 장치 연계를 위한 청력 보조 기기의 제어 방법
US9355648B2 (en) Voice input/output device, method and programme for preventing howling
US12014741B2 (en) Electronic device and controlling method thereof
KR102308022B1 (ko) 호출음 인식장치 및 호출음 인식방법
KR102134502B1 (ko) 음성송출기 통합 시스템 제공방법
CN111369972B (zh) 引导声音输出控制***及引导声音输出控制方法
JP2018185758A (ja) 音声対話システムおよび情報処理装置
JP2020127071A (ja) 電子機器及びその制御方法
CN111028832B (zh) 麦克风静音模式控制方法、装置及存储介质和电子设备
JP6559051B2 (ja) 発声機能を備えたロボット装置、発声制御方法およびプログラム
JP4999267B2 (ja) 音声入力装置
CN212586719U (zh) 一种声控盒
CN113571038B (zh) 语音对话方法、装置、电子设备及存储介质
JP6759370B2 (ja) 呼出音認識装置および呼出音認識方法

Legal Events

Date Code Title Description
GRNT Written decision to grant