KR101959903B1 - Smart audio device - Google Patents
Smart audio device Download PDFInfo
- Publication number
- KR101959903B1 KR101959903B1 KR1020170140461A KR20170140461A KR101959903B1 KR 101959903 B1 KR101959903 B1 KR 101959903B1 KR 1020170140461 A KR1020170140461 A KR 1020170140461A KR 20170140461 A KR20170140461 A KR 20170140461A KR 101959903 B1 KR101959903 B1 KR 101959903B1
- Authority
- KR
- South Korea
- Prior art keywords
- command signal
- signal
- probability
- audio
- predetermined
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Selective Calling Equipment (AREA)
Abstract
Description
본 발명은 스피커 및 마이크가 내장되어 있거나 이들에 연결될 수 있는 스마트 오디오 장치로서, 마이크를 이용하여 검출 가능한 음파를 통해 전달되는 명령을 인식하여 상기 명령에 따른 동작을 수행하는 스마트 오디오 장치에 관한 것이다.The present invention relates to a smart audio apparatus in which a speaker and a microphone are built in or can be connected to the smart audio apparatus. The smart audio apparatus recognizes a command transmitted through a detectable sound wave using a microphone and performs an operation according to the command.
음파 신호를 마이크로 입력받아 상기 음파 신호에 포함된 미리 설정된 명령신호를 인식한 후, 상기 인식된 명령신호에 따라 수행해야 하는 미리 결정된 기능을 수행하는 스마트 장치가 개발되고 있다.There has been developed a smart device which micro-receives a sound wave signal, recognizes a predetermined command signal included in the sound wave signal, and performs a predetermined function to perform according to the recognized command signal.
상기 스마트 장치에는 스피커 및 마이크가 내장되어 있거나, 또는 상기 스마트 장치는 스피커 및 마이크에 연결될 수 있다. The smart device may include a speaker and a microphone, or the smart device may be connected to a speaker and a microphone.
상기 음파 신호는 사람의 음성일 수 있으며, 상기 명령신호는 사람이 발음하는 자연어일 수 있다. 그러나 이에 한정되지 않는다. 즉, 상기 음파 신호는 음성이 아닐 수도 있으며, 그리고 상기 명령신호도 자연어가 아닐 수도 있다.The sound wave signal may be a voice of a person, and the command signal may be a natural voice pronounced by a person. However, the present invention is not limited thereto. That is, the sound wave signal may not be speech, and the command signal may not be a natural word.
상기 스피커에서 출력하는 신호는 상기 마이크에 입력되어 인식될 수 있을 정도로 큰 음파를 발생시킬 수 있다.A signal output from the speaker can be input to the microphone and generate a sound wave that is large enough to be recognized.
상기 스마트 장치는, 상기 마이크를 통해 입력되는 음파 신호가 사람의 성대에서 발생한 경우에만 상기 음파 신호에 포함된 미리 설정된 명령신호에 대응하는 동작을 수행하도록 되어 있는 바람직하다. 즉, 상기 마이크를 통해 입력되는 음파 신호가 상기 스마트 장치에 연결된 스피커에서 발생한 경우에는 상기 음파 신호에 포함된 미리 설정된 명령신호를 무시하도록 되어 있는 것이 바람직하다. 왜냐하면 예컨대 상기 스마트 장치가 예컨대 FM 라디오 신호를 스피커로 출력하는 경우 상기 라디오를 통해 출력되는 음성신호에 미리 설정된 명령신호가 포함되어 있을 수도 있는데, 이 경우에는 상기 명령신호를 무시하는 것이 바람직하기 때문이다.Preferably, the smart device performs an operation corresponding to a predetermined command signal included in the sound wave signal only when the sound wave signal input through the microphone occurs in a human vocal cords. That is, when a sound wave signal inputted through the microphone is generated in a speaker connected to the smart device, it is preferable that the preset command signal included in the sound wave signal is ignored. For example, when the smart device outputs, for example, an FM radio signal to a speaker, a voice signal output through the radio may include a preset command signal, in which case it is desirable to ignore the command signal .
본 발명은 스피커 및 마이크가 내장되어 있거나 이들에 연결될 수 있는 스마트 오디오 장치로서, 상기 스피커를 통해 출력된 스피커 출력음파에 미리 설정된 제1명령신호가 포함된 경우, 상기 제1명령신호를 무시하는 기능을 제공하는 스마트 오디오 장치를 제공하고자 한다. The present invention relates to a smart audio device in which a speaker and a microphone are built in or can be connected to the smart audio device, wherein when a preset first command signal is included in a speaker output sound wave outputted through the speaker, To provide a smart audio device.
또한 본 발명은 오디오 신호에 명령신호가 포함되어 있는지 여부를 효율적으로 결정하는 기술을 제공하고자 한다.The present invention also provides a technique for efficiently determining whether a command signal is included in an audio signal.
본 발명의 일 관점에 따른 스마트 오디오 장치(1)는, 오디오 소스로부터 제공된 제2오디오 신호(Sw2)에 포함되어 있는 명령신호인 제2명령신호(IC2)를 인식하여 저장하는 출력명령어인식및임시저장부(30), 마이크가 출력한 제1오디오 신호(Sw1)에 포함되어 있는 명령신호인 제1명령신호(IC1)를 인식하는 입력명령신호인식부(22), 및 상기 제1명령신호를 포함하는 상기 제1오디오 신호가, 상기 제2오디오 신호를 스피커를 통해 출력하여 발생한 음파로부터 비롯된 것이라고 판단되면, 상기 제1명령신호를 무시하는 입력명령신호필터부(23)를 포함할 수 있다. The
이때, 상기 입력명령신호필터부(23)는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있을 수 있다.At this time, the input command
이때, 상기 입력명령신호인식부(22)는, 상기 제1오디오신호에 제1명령신호(IC1)가 포함되어 있을 확률을 제1인식엔진을 이용하여 결정하고, 상기 제1인식엔진을 이용하여 결정한 상기 확률인 제11확률(P11)과 상기 제1명령신호(IC1)를 출력하는 제1인식엔진부(91), 상기 제1오디오신호에 상기 제1명령신호(IC1)가 포함되어 있을 확률을 제2인식엔진을 이용하여 결정하고, 상기 제2인식엔진을 이용하여 결정한 상기 확률인 제12확률(P12)을 출력하는 제2인식엔진부(92), 및 상기 제11확률이 미리 결정된 제1임계값보다 큰 경우 상기 제1명령신호(IC1)를 출력하도록 되어 있고, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제2인식엔진부로 하여금 상기 제12확률을 계산하도록 명령하는 명령신호출력부(92)를 포함할 수 있다. 그리고 상기 명령신호출력부는, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제12확률이 미리 결정된 제2임계값보다 큰 경우 상기 제1명령신호를 출력하도록 되어 있을 수 있다.At this time, the input command
이때, 상기 출력명령어인식및임시저장부(30)는, 상기 제2오디오신호에 제2명령신호(IC2)가 포함되어 있을 확률을 제1인식엔진을 이용하여 결정하고, 상기 제1인식엔진을 이용하여 결정한 상기 확률인 제21확률(P21)과 상기 제2명령신호(IC2)를 출력하는 제1인식엔진부(91), 상기 제2오디오신호에 상기 제2명령신호(IC2)가 포함되어 있을 확률을 제2인식엔진을 이용하여 결정하고, 상기 제2인식엔진을 이용하여 결정한 상기 확률인 제22확률(P22)을 출력하는 제2인식엔진부(92), 상기 제21확률이 미리 결정된 제1임계값보다 큰 경우 상기 제2명령신호(IC2)를 출력하도록 되어 있고, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제2인식엔진부로 하여금 상기 제22확률을 계산하도록 명령하는 명령신호출력부(92), 및 상기 명령신호출력부에서 상기 제2명령신호를 출력한 경우, 상기 제2명령신호를 미리 결정된 시간 동안만 메모리에 저장하고 상기 미리 결정된 시간이 지나면 상기 제2명령신호를 상기 메모리로부터 삭제하도록 되어있는 임시저장부(93)를 포함할 수 있다. 그리고 상기 명령신호출력부는, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제22확률이 미리 결정된 제2임계값보다 큰 경우 상기 제2명령신호를 출력하도록 되어 있을 수 있다.At this time, the output command recognition and
이때, 상기 입력명령신호필터부(23)는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있고, 상기 입력명령신호필터부(23)는, 상기 제2명령신호를 상기 메모리로부터 획득하도록 되어 있을 수 있다.At this time, the input command
본 발명에 따르면 스피커 및 마이크가 내장되어 있거나 이들에 연결될 수 있는 스마트 오디오 장치로서, 상기 스피커를 통해 출력된 스피커 출력음파에 미리 설정된 제1명령신호가 포함된 경우, 상기 제1명령을 무시하는 기능을 제공하는 스마트 오디오 장치를 제공할 수 있다.According to another aspect of the present invention, there is provided a smart audio apparatus having a built-in speaker or a microphone and being connectable to the speaker, wherein when a preset first command signal is included in the speaker output sound wave output through the speaker, To provide a smart audio device.
또한 본 발명에 따르면, 오디오 신호에 명령신호가 포함되어 있는지 여부를 효율적으로 결정하는 기술을 제공하고자 한다.Also, according to the present invention, there is provided a technique for efficiently determining whether or not a command signal is included in an audio signal.
도 1은 본 발명의 일 실시예에 따른 스마트 오디오 장치(1) 및 서버(2)를 나타낸다.
도 2는 도 1에 나타낸 입력 명령신호 인식부의 구성을 나타낸다.
도 3은 도 1에 나타낸 출력 명령신호 인식 및 임시 저장부의 구성을 나타낸다.1 shows a
Fig. 2 shows the configuration of the input command signal recognition unit shown in Fig.
3 shows the configuration of the output command signal recognition and temporary storage unit shown in FIG.
이하, 본 발명의 실시예를 첨부한 도면을 참고하여 설명한다. 그러나 본 발명은 본 명세서에서 설명하는 실시예에 한정되지 않으며 여러 가지 다른 형태로 구현될 수 있다. 본 명세서에서 사용되는 용어는 실시예의 이해를 돕기 위한 것이며, 본 발명의 범위를 한정하고자 의도된 것이 아니다. 또한, 이하에서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다.Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. However, the present invention is not limited to the embodiments described herein, but may be implemented in various other forms. The terminology used herein is for the purpose of understanding the embodiments and is not intended to limit the scope of the present invention. Also, the singular forms as used below include plural forms unless the phrases expressly have the opposite meaning.
도 1은 본 발명의 일 실시예에 따른 스마트 오디오 장치(1) 및 서버(2)를 나타낸다.1 shows a
도 2는 도 1에 나타낸 입력 명령신호 인식부의 구성을 나타낸다.Fig. 2 shows the configuration of the input command signal recognition unit shown in Fig.
도 3은 도 1에 나타낸 출력 명령신호 인식 및 임시 저장부의 구성을 나타낸다.3 shows the configuration of the output command signal recognition and temporary storage unit shown in FIG.
이하 도 1 내지 도 3을 함께 참조하여 설명한다.1 to 3 together.
이하 스마트 오디오 장치(1)에 포함된 기능블록들의 특징을 설명한다.Hereinafter, the features of the functional blocks included in the
소스 선택부(11)는 복수 개의 소스들 중 하나를 선택하여 상기 선택된 소스가 제공하는 오디호 신호를 출력한다.The
상기 복수 개의 소스는, 예컨대 CD, DVD와 같은 미디어 장치로부터 소스를 공급받는 제1소스(101), 블루투스와 같은 근거리 통신을 통해 스마트폰 과 같은 장치로부터 소스를 공급받는 제2소스(102), 및 이동통신망 또는 MAN 등의 망 등을 이용하여 네트워크 통신을 통해 원격의 장치로부터 소스를 공급받은 제3소스(103) 등을 포함할 수 있다. The plurality of sources includes a
제1소스(101)로부터는 제1인코딩신호(Se1)가 공급되고, 제2소스(102)로부터는 제2인코딩신호(Se2)가 공급되고, 그리고 제3소스(103)로부터는 제3인코딩신호(Se3)가 공급될 수 있다.The first encoded signal Se1 is supplied from the
소스 선택부(11)는 제1인코딩신호(Se1), 제2인코딩신호(Se2), 및 제3인코딩신호(Se3) 중 어느 하나를 선택하여 인코딩신호(Se)를 출력할 수 있다.The
디코더(12)는 인코딩신호(Se)를 증폭 가능한 아날로그 신호 또는 디지털 신호인 제2오디오 신호(Sw2)로 변환하여 출력할 수 있다.The
증폭부(13)는 제2오디오 신호(Sw2)를 증폭하여 스피커(14)를 구동하기 위한 구동신호(Aw2)를 생성하여 출력한다. The amplifying
제2오디오 신호(Sw2)가 디지털 신호인 경우에는 증폭부(13)에 DAC가 포함되어 있고, 상기 DAC가 제2오디오 신호(Sw2)를 아날로그 신호로 변환할 수 있다.When the second audio signal Sw2 is a digital signal, the DAC is included in the
스마트 오디오 장치(1)는, 미리 설정된 한 개 이상의 명령신호들을 저장하고 있을 수 있다. The
상기 미리 설정된 한 개 이상의 명령신호들 제1타입의 명령신호와 제2타입의 명령신호로 구분될 수 있다. The predetermined one or more command signals may be classified into a first type command signal and a second type command signal.
출력 명령신호 인식 및 임시 저장부(30)는, 상기 제2오디오 신호(Sw2)에 상기 미리 설정되어 있는 명령신호들 중 어느 하나 이상이 포함되어 있는지를 판단할 수 있다. 그리고 상기 포함되어 있다고 판단된 제2명령신호(IC2)를 미리 결정된 제1시간 동안만 임시로 메모리에 저장하고 있을 수 있다. 상기 메모리에 저장된 제2명령신호(IC2)는 상기 미리 결정된 제1시간이 지나면 삭제될 수 있다.The output command signal recognition and
출력 명령신호 인식 및 임시 저장부(30), 상기 제2오디오 신호(Sw2)에 명령신호가 포함되지 않은 경우 널 신호를 제공할 수 있다.Output command signal recognition and
출력 명령신호 인식 및 임시 저장부(30), 상기 제2오디오 신호(Sw2)에 명령신호가 포함되어 있는 경우, 상기 명령신호를 인식한 시점으로부터 상기 미리 결정된 제1시간이 지나기 전에는 상기 명령신호를 제공할 수 있지만, 상기 제1시간이 지난 후에는 상기 명령신호를 제공하지 않고 널신를 제공할 수 있다.When the command signal is included in the output command signal recognition and
마이크(21)는 음파를 감지하여 이에 관한 제1오디오 신호(Sw1)을 출력한다.The
입력 명령신호 인식부(22)는 상기 제1오디오 신호(Sw1)에 상기 미리 설정되어 있는 명령신호 중 어느 하나 이상이 포함되어 있는지를 판단할 수 있다. 그리고 상기 포함되어 있다고 판단된 제1명령신호(IC1)를 출력할 수 있다. The input command
입력 명령신호 필터부(23)는 상기 제1명령신호(IC1)를 제공받으면, 출력 명령신호 인식 및 임시 저장부(30)에 저장되어 있는 명령신호를 출력 명령신호 인식 및 임시 저장부(30)로부터 획득한다. When the first command signal IC1 is received, the input command
입력 명령신호 필터부(23)가 명령신호를 출력 명령신호 인식 및 임시 저장부(30)로부터 제2명령신호(IC2)를 획득한 경우, 입력 명령신호 필터부(23)는 상기 제1명령신호(IC1)가 제2명령신호(IC2)와 동일한 것인지 여부를 확인한다. When the input command
상기 제1명령신호(IC1)가 제2명령신호(IC2)와 동일한 것으로 결정되면, 입력 명령신호 필터부(23)는 상기 제1명령신호(IC1)를 무효인 것으로 처리한다. 즉, 상기 제1명령신호(IC1)를 무시한다.If it is determined that the first command signal IC1 is the same as the second command signal IC2, the input command
입력 명령신호 필터부(23)가 상기 제1명령신호(IC1)를 무효로 처리한 경우에는, 입력 명령신호 필터부(23)는 입력 명령신호 처리부(24)에게 제1명령신호(IC1)를 전달하지 않을 수 있다. The input command
입력 명령신호 필터부(23)가 출력 명령신호 인식 및 임시 저장부(30)로부터 아무런 명령신호를 획득할 수 없는 경우, 또는 제1명령신호(IC1)가 제2명령신호(IC2)와 동일하지 않은 경우에는, 입력 명령신호 필터부(23)는 상기 제1명령신호(IC1)를 유효인 것으로 처리한다. 이 경우 입력 명령신호 필터부(23)는 상기 제1명령신호(IC1)를 입력 명령신호 처리부(24)에게 제공한다.When the input command
입력 명령신호 처리부(24)는 입력 명령신호 필터부(23)로부터 전달받은 제1명령신호(IC1)가 상기 제1타입의 명령신호인지 아니면 상기 제2타입의 명령신호인지를 판단한다.The input command
입력 명령신호 처리부(24)는, 입력 명령신호 필터부(23)로부터 전달받은 제1명령신호(IC1)가 상기 제1타입의 명령신호라고 결정되면, 제1명령신호(IC1)를 장치 제어부(60)에게 전달할 수 있다. When it is determined that the first command signal IC1 received from the input command
입력 명령신호 처리부(24)는, 입력 명령신호 필터부(23)로부터 전달받은 제1명령신호(IC1)가 상기 제2타입의 명령신호라고 결정되면, 제1명령신호(IC1)를 자연어 획득 및 전달부(40)에게 전달할 수 있다.When it is determined that the first command signal IC1 received from the input command
상기 제1타입의 명령신호는 스마트 오디오 장치(1)의 기능을 제어하기 위한 것으로서, 장치 제어부(60)에게 전달될 수 있다. 장치 제어부(60)는 상기 제1타입의 명령신호에 따라 스마트 오디오 장치(1)의 각종 기능을 제어할 수 있다. The command signal of the first type is for controlling the function of the
예컨대 제1타입의 명령신호가 자연어인 '소리키워', '소리줄여', '구간반복', 'CD로 전환' 등인 경우 스마트 오디오 장치(1)는 이에 대응하는 동작을 자체적으로 수행할 수 있다.For example, when the command signal of the first type is 'natural sounding', 'sound reduction', 'interval repetition', 'switching to CD', etc., the
상기 제2타입의 명령신호는 스마트 오디오 장치(1)가 서버(2)의 도움을 받도록 요청하는 것일 수 있다. 상기 제2타입의 명령신호는 자연어 획득 및 전달부(40)에게 전달될 수 있다. The second type of command signal may be that the
그러면 자연어 획득 및 전달부(40)는 상기 제2타입의 명령신호에 뒤이어 연속적으로 발생한 상기 제1오디오 신호(Sw1)를 추출하여 네트워크 통신부(50)에 전달할 수 있다. 상기 추출된 제1오디오 신호(Sw1)에는 자연어가 포함되어 있을 수 있다. Then, the natural language acquisition and
자연어 획득 및 전달부(40)는 상기 추출된 제1오디오 신호(Sw1)에 자연어가 포함되어 있는지 여부를 판단할 필요는 없다.The natural language acquisition and
네트워크 통신부(50)는 전달받은 제1오디오 신호(Sw1)를 원격의 서버(2)에게 제공할 수 있다.The
서버(2)는 네트워크 통신부(50)로부터 전달받은 제1오디오 신호(Sw1)를 해독하여 이에 대응하는 대응신호를 생성하고, 상기 대응신호를 다시 네트워크 통신부(50)에게 제공할 수 있다.The
네트워크 통신부(50)는 상기 제공받은 대응신호를 서버 대응신호 판단부(55)에게 제공할 수 있다.The
서버 대응신호 판단부(55)는, 상기 제공받은 대응신호에 스마트 오디오 장치(1)를 제어하는 제어신호가 포함되어 있는 것으로 결정되면, 상기 제어신호를 장치 제어부(60)에 전달할 수 있다. 장치 제어부(60)는 서버 대응신호 판단부(55)로부터 제공받은 제어신호에 따라 스마트 오디오 장치(1)를 제어할 수 있다.The server corresponding signal determining unit 55 may transmit the control signal to the
서버 대응신호 판단부(55)는, 상기 제공받은 대응신호에 오디오 신호가 포함되어 있는 것으로 결정되면, 상기 오디오 신호를 제3소스(103)에 전달할 수 있다. 제3소스(103)에 전달된 오디오 신호는 스피커(14)를 통해 출력될 수 있다.The server corresponding signal determining unit 55 may transmit the audio signal to the
제1명령신호(IC1)가 상기 제2타입의 명령신호인 경우, 예컨대 제1명령신호(IC1)는 예컨대 자연어 '도움'일 수 있다. 이때, 이 '도움'은 스피커(14)에서 출력된 것이 아니라, 사람의 성대에서 직접 생성된 것일 수 있다.If the first command signal IC1 is the command signal of the second type, for example, the first command signal IC1 may be natural ' help ', for example. At this time, the 'help' may not be output from the
이때, 예컨대 제1명령신호(IC1)에 뒤이어 연속적으로 발생한 상기 제1오디오 신호(Sw1)는 자연어 문장인 "오늘 날씨가 어때?"일 수 있다. 그러면 네트워크 통신부(50)는 서버(2)에게 "오늘 날씨가 어때?"를 전달할 수 있다. 서버(2)는 "오늘 날씨가 어때?"가 내포하는 바를 인공지능 알고리즘을 이용하여 판독할 수 있다. 그리고 이에 대응하여 상기 대응신호를 생성할 수 있는데, 상기 대응신호는 예컨대 "기상청 서버가 다운되어 오늘 날씨를 알 수 없습니다. 도움을 드릴 수 없어 죄송합니다"라는 오디오 신호일 수 있다. 그러면 결국 스피커(14)는 "기상청 서버가 다운되어 오늘 날씨를 알 수 없습니다. 도움을 드릴 수 없어 죄송합니다"라는 오디오 신호를 출력할 수 있다. 이때, 스피커(14)는 '도움'이라는 단어를 출력하게 되고, 상기 '도움'은 다시 마이크(21)를 통해 입력될 수 있다. 그러나 상기 '도움'은 사람의 성대에서 발생한 것이 아니라 스피커(14)를 통해 출력된 것이다. At this time, for example, the first audio signal Sw1 successively generated following the first command signal IC1 may be a natural language sentence "What is the weather today? &Quot;. Then, the
이때 스피커(14)를 통해 발생한 상기 '도움'은 상기 제2타입의 명령신호로서 인식되지 않도록 할 수 있다. 도 1에서 설명한 스마트 오디오 장치(1)를 이용하면 스피커(14)를 통해 발생한 상기 '도움'은 상기 제2타입의 명령신호로서 인식되지 않도록 할 수 있다.At this time, the 'help' generated through the
한편, 예컨대 제1명령신호(IC1)에 뒤이어 연속적으로 발생한 상기 제1오디오 신호(Sw1)는 자연어 문장인 "오디오 소리를 줄여줄래?"일 수 있다. 이때 "오디오 소리를 줄여줄래?"에는 상기 제1타입의 명령신호에 해당하는 명령신호가 포함되어 있지 않은 상황을 가정할 수 있다. 이 경우 네트워크 통신부(50)는 서버(2)에게 "오디오 소리를 줄여줄래?"를 전달할 수 있다. 서버(2)는 "오디오 소리를 줄여줄래?"가 내포하는 의미를 인공지능 알고리즘을 이용하여 판독할 수 있다. 그리고 이에 대응하여 상기 대응신호를 생성할 수 있는데, 상기 대응신호는 스마트 오디오 장치(1)의 볼륨을 줄이는 제어신호일 수 있다. 이때, 서버 대응신호 판단부(55)는, 상기 제공받은 제어신호를 장치 제어부(60)에 전달할 수 있다. 장치 제어부(60)는 상기 제어신호에 따라 스마트 오디오 장치(1)의 볼륨을 줄일 수 있다.On the other hand, for example, the first audio signal Sw1 continuously generated following the first command signal IC1 may be a natural language sentence, "Would you like to reduce the audio sound?" At this time, it can be assumed that the command signal corresponding to the first type command signal is not included in the "Reduce audio sound?". In this case, the
본 발명의 일 실시예에 따르면, 오디오 소스로부터 제공된 제2오디오 신호(Sw2)에 포함되어 있는 명령신호인 제2명령신호(IC2)를 인식하여 저장하는 출력명령어인식및임시저장부(30); 마이크가 출력한 제1오디오 신호(Sw1)에 포함되어 있는 명령신호인 제1명령신호(IC1)를 인식하는 입력명령신호인식부(22); 및 상기 제1명령신호를 포함하는 상기 제1오디오 신호가, 상기 제2오디오 신호를 스피커를 통해 출력하여 발생한 음파로부터 비롯된 것이라고 판단되면, 상기 제1명령신호를 무시하는 입력명령신호필터부(23)를 포함하는 스마트 오디오 장치(1)를 제공할 수 있다. According to an embodiment of the present invention, an output command recognition and
이때, 상기 입력명령신호필터부(23)는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있을 수 있다.At this time, the input command
이때, 상기 입력명령신호인식부(22)는, 상기 제1오디오신호에 제1명령신호(IC1)가 포함되어 있을 확률을 제1인식엔진을 이용하여 결정하고, 상기 제1인식엔진을 이용하여 결정한 상기 확률인 제11확률(P11)과 상기 제1명령신호(IC1)를 출력하는 제1인식엔진부(91); 상기 제1오디오신호에 상기 제1명령신호(IC1)가 포함되어 있을 확률을 제2인식엔진을 이용하여 결정하고, 상기 제2인식엔진을 이용하여 결정한 상기 확률인 제12확률(P12)을 출력하는 제2인식엔진부(92); 및 상기 제11확률이 미리 결정된 제1임계값보다 큰 경우 상기 제1명령신호(IC1)를 출력하도록 되어 있고, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제2인식엔진부로 하여금 상기 제12확률을 계산하도록 명령하는 명령신호출력부(92);를 포함할 수 있다. 그리고 상기 명령신호출력부는, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제12확률이 미리 결정된 제2임계값보다 큰 경우 상기 제1명령신호를 출력하도록 되어 있을 수 있다.At this time, the input command
이때, 상기 출력명령어인식및임시저장부(30)는, 상기 제2오디오신호에 제2명령신호(IC2)가 포함되어 있을 확률을 제1인식엔진을 이용하여 결정하고, 상기 제1인식엔진을 이용하여 결정한 상기 확률인 제21확률(P21)과 상기 제2명령신호(IC2)를 출력하는 제1인식엔진부(91); 상기 제2오디오신호에 상기 제2명령신호(IC2)가 포함되어 있을 확률을 제2인식엔진을 이용하여 결정하고, 상기 제2인식엔진을 이용하여 결정한 상기 확률인 제22확률(P22)을 출력하는 제2인식엔진부(92); 상기 제21확률이 미리 결정된 제1임계값보다 큰 경우 상기 제2명령신호(IC2)를 출력하도록 되어 있고, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제2인식엔진부로 하여금 상기 제22확률을 계산하도록 명령하는 명령신호출력부(92); 및 상기 명령신호출력부에서 상기 제2명령신호를 출력한 경우, 상기 제2명령신호를 미리 결정된 시간 동안만 메모리에 저장하고 상기 미리 결정된 시간이 지나면 상기 제2명령신호를 상기 메모리로부터 삭제하도록 되어있는 임시저장부(93)를 포함할 수 있다. 그리고 상기 명령신호출력부는, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제22확률이 미리 결정된 제2임계값보다 큰 경우 상기 제2명령신호를 출력하도록 되어 있을 수 있다.At this time, the output command recognition and
이때, 상기 입력명령신호필터부(23)는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있고, 상기 입력명령신호필터부(23)는, 상기 제2명령신호를 상기 메모리로부터 획득하도록 되어 있을 수 있다.At this time, the input command
상술한 본 발명의 실시예들을 이용하여, 본 발명의 기술 분야에 속하는 자들은 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에 다양한 변경 및 수정을 용이하게 실시할 수 있을 것이다. 특허청구범위의 각 청구항의 내용은 본 명세서를 통해 이해할 수 있는 범위 내에서 인용관계가 없는 다른 청구항에 결합될 수 있다.It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the essential characteristics thereof. The contents of each claim in the claims may be combined with other claims without departing from the scope of the claims.
Claims (5)
상기 제1오디오신호에 상기 제1명령신호가 포함되어 있을 확률인 제11확률을 제1인식엔진을 이용하여 결정하고, 상기 제11확률과 상기 제1명령신호를 출력하도록 되어 있는 제1인식엔진부;
상기 제1오디오신호에 상기 제1명령신호가 포함되어 있을 확률인 제12확률을 제2인식엔진을 이용하여 결정하고, 상기 제12확률을 출력하도록 되어 있는 제2인식엔진부;
상기 제11확률이 미리 결정된 제1임계값보다 큰 경우 상기 제1명령신호를 출력하도록 되어 있고, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제2인식엔진부로 하여금 상기 제12확률을 계산하도록 명령하는 명령신호출력부;를 포함하는 입력명령신호인식부;
오디오 소스로부터 제공된 제2오디오신호에 포함되어 있는 명령신호인 제2명령신호를 인식하여 저장하는 출력명령어인식및임시저장부; 및
상기 제1명령신호를 포함하는 상기 제1오디오신호가, 상기 제2오디오신호를 스피커를 통해 출력하여 발생한 음파로부터 비롯된 것이라고 판단되면, 상기 제1명령신호를 무시하는 입력명령신호필터부;
를 포함하며,
상기 출력명령어인식및임시저장부는,
상기 제2오디오신호에 상기 제2명령신호가 포함되어 있을 확률인 제21확률을 상기 제1인식엔진을 이용하여 결정하고, 상기 제21확률과 상기 제2명령신호를 출력하도록 되어 있는 제3인식엔진부;
상기 제2오디오신호에 상기 제2명령신호가 포함되어 있을 확률인 제22확률을 상기 제2인식엔진을 이용하여 결정하고, 상기 제22확률을 출력하도록 되어 있는 제4인식엔진부;
상기 제21확률이 상기 미리 결정된 제1임계값보다 큰 경우 상기 제2명령신호를 출력하도록 되어 있고, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우 상기 제4인식엔진부로 하여금 상기 제22확률을 계산하도록 명령하는 제2명령신호출력부; 및
상기 제2명령신호출력부에서 상기 제2명령신호를 출력한 경우, 상기 제2명령신호를 미리 결정된 시간 동안만 메모리에 저장하고 상기 미리 결정된 시간이 지나면 상기 제2명령신호를 상기 메모리로부터 삭제하도록 되어있는 임시저장부
를 포함하며,
상기 명령신호출력부는, 상기 제11확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제12확률이 미리 결정된 제2임계값보다 큰 경우 상기 제1명령신호를 출력하도록 되어 있고,
상기 제2명령신호출력부는, 상기 제21확률이 상기 미리 결정된 제1임계값보다 작은 경우에도, 상기 제22확률이 상기 미리 결정된 제2임계값보다 큰 경우 상기 제2명령신호를 출력하도록 되어 있는,
스마트 오디오 장치.A smart audio device adapted to recognize a first command signal which is a command signal included in a first audio signal output by a microphone,
The first recognition engine determining the eleventh probability that the first command signal is included in the first audio signal using the first recognition engine and outputting the eleventh probability and the first command signal, part;
A second recognition engine configured to determine a twelfth probability that the first command signal is included in the first audio signal using a second recognition engine and output the twelfth probability;
And outputs the first command signal when the eleventh probability is greater than a predetermined first threshold value and outputs the first command signal when the eleventh probability is smaller than the predetermined first threshold value, An input command signal recognizing unit including a command signal output unit for commanding to calculate a probability;
An output command recognition and temporary storage unit for recognizing and storing a second command signal which is a command signal included in a second audio signal provided from an audio source; And
An input command signal filter unit for ignoring the first command signal if it is determined that the first audio signal including the first command signal is derived from a sound wave generated by outputting the second audio signal through a speaker;
/ RTI >
Wherein the output command recognition and temporary storage unit comprises:
Determining a 21st probability that the second command signal is included in the second audio signal using the first recognition engine and outputting the 21st probability and the second command signal; An engine section;
A fourth recognition engine unit configured to determine a twenty-second probability that the second command signal is included in the second audio signal using the second recognition engine, and output the twenty-second probability;
And outputs the second command signal when the 21st probability is larger than the predetermined first threshold value and outputs the second command signal when the 21st probability is smaller than the predetermined first threshold value, 22 < / RTI >command; And
Wherein when the second command signal is output from the second command signal output unit, the second command signal is stored in the memory only for a predetermined time, and the second command signal is deleted from the memory after the predetermined time has elapsed A temporary storage unit
/ RTI >
Wherein the command signal output unit is configured to output the first command signal when the twelfth probability is greater than a predetermined second threshold value even when the eleventh probability is smaller than the predetermined first threshold value,
The second command signal output unit is configured to output the second command signal when the twenty-second probability is greater than the predetermined second threshold value even when the twenty-first probability is smaller than the predetermined first threshold value ,
Smart audio device.
상기 입력명령신호필터부는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있는,
스마트 오디오 장치.The method according to claim 1,
Wherein the input command signal filter unit determines that the first time point at which the first command signal is recognized is within a predetermined first time period from a second time point at which the second command signal is recognized, Wherein the first command signal is ignored if it is determined that the first command signal is identical to the second command signal,
Smart audio device.
상기 입력명령신호필터부는, 상기 제1명령신호가 인식된 제1시점이 상기 제2명령신호가 인식된 제2시점으로부터 미리 결정된 제1시구간 이내인 것으로 판단되고, 그리고 상기 제1명령신호가 상기 제2명령신호와 동일한 것으로 판단되면, 상기 제1명령신호를 무시하도록 되어 있고,
상기 입력명령신호필터부는, 상기 제2명령신호를 상기 메모리로부터 획득하도록 되어 있는,
스마트 오디오 장치.The method according to claim 1,
Wherein the input command signal filter unit determines that the first time point at which the first command signal is recognized is within a predetermined first time period from a second time point at which the second command signal is recognized, The first command signal is ignored if it is determined that the first command signal is identical to the second command signal,
Wherein the input command signal filter section is adapted to obtain the second command signal from the memory,
Smart audio device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170140461A KR101959903B1 (en) | 2017-10-26 | 2017-10-26 | Smart audio device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170140461A KR101959903B1 (en) | 2017-10-26 | 2017-10-26 | Smart audio device |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101959903B1 true KR101959903B1 (en) | 2019-03-19 |
Family
ID=65908595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170140461A KR101959903B1 (en) | 2017-10-26 | 2017-10-26 | Smart audio device |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101959903B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010004832A (en) * | 1999-06-30 | 2001-01-15 | 구자홍 | A control Apparatus For Voice Recognition |
KR20130042493A (en) * | 2010-05-18 | 2013-04-26 | 샤잠 엔터테인먼트 리미티드 | Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization |
KR20160079929A (en) * | 2008-07-02 | 2016-07-06 | 구글 인코포레이티드 | Speech recognition with parallel recognition tasks |
-
2017
- 2017-10-26 KR KR1020170140461A patent/KR101959903B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010004832A (en) * | 1999-06-30 | 2001-01-15 | 구자홍 | A control Apparatus For Voice Recognition |
KR20160079929A (en) * | 2008-07-02 | 2016-07-06 | 구글 인코포레이티드 | Speech recognition with parallel recognition tasks |
KR20130042493A (en) * | 2010-05-18 | 2013-04-26 | 샤잠 엔터테인먼트 리미티드 | Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7974392B2 (en) | System and method for personalized text-to-voice synthesis | |
KR101279276B1 (en) | Automatic gain control | |
CN111405105B (en) | Method and apparatus for controlling bluetooth headset, and storage medium | |
CN101437065A (en) | Audio signal processing apparatus, audio signal processing method, and communication terminal | |
GB2336073A (en) | Voice activated volume control in a mobile telephone | |
JP2010062663A (en) | Audio signal processing apparatus, audio signal processing method, and communication terminal | |
EP1804237A1 (en) | System and method for personalized text to voice synthesis | |
CN110177660B (en) | Language control device, robot, storage medium, and control method | |
US11138390B2 (en) | Concurrent reception of multiple user speech input for translation | |
KR101959903B1 (en) | Smart audio device | |
JP4752516B2 (en) | Voice dialogue apparatus and voice dialogue method | |
US20170221481A1 (en) | Data structure, interactive voice response device, and electronic device | |
KR101519493B1 (en) | Broadcasting method and system using inaudible sound and Mixer | |
KR101600429B1 (en) | An Auxiliary Aid Device for Adaptation of Environmental Circumstance and A method for Linking An Auxiliary Aid Device to A multimedia Device | |
US9355648B2 (en) | Voice input/output device, method and programme for preventing howling | |
US12014741B2 (en) | Electronic device and controlling method thereof | |
KR102308022B1 (en) | Apparatus for recognizing call sign and method for the same | |
KR102134502B1 (en) | voice transmitter integrated system providing method | |
JP2018185758A (en) | Voice interactive system and information processing device | |
KR102179220B1 (en) | Electronic Bible system using speech recognition | |
CN112992139A (en) | Equipment control method, device and equipment | |
JP2020127071A (en) | Electronic apparatus and control method therefor | |
CN111028832B (en) | Microphone mute mode control method and device, storage medium and electronic equipment | |
JP6559051B2 (en) | Robot apparatus having utterance function, utterance control method, and program | |
US12032924B2 (en) | Concurrent reception of multiple user speech input for translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GRNT | Written decision to grant |