WO2020122564A1 - Method and device for recognizing speech - Google Patents

Method and device for recognizing speech Download PDF

Info

Publication number
WO2020122564A1
WO2020122564A1 PCT/KR2019/017401 KR2019017401W WO2020122564A1 WO 2020122564 A1 WO2020122564 A1 WO 2020122564A1 KR 2019017401 W KR2019017401 W KR 2019017401W WO 2020122564 A1 WO2020122564 A1 WO 2020122564A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
speech recognition
information
speech
message
Prior art date
Application number
PCT/KR2019/017401
Other languages
French (fr)
Korean (ko)
Inventor
마르친키에비츠피오트르
파벨 그루지악그제고즈
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2020122564A1 publication Critical patent/WO2020122564A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to a method and apparatus for recognizing speech, and more particularly, to a method and apparatus for reducing noise from other electronic devices for speech recognition.
  • the electronic device can recognize the voice and perform a specific operation according to the content of the voice. For example, the electronic device may perform various operations, such as executing a specific application, controlling the operation of the application, performing a search, or turning on/off the power, based on speech recognition.
  • Some mobile terminals, tablet computers or other electronic devices employ a voice assistant such as Siri, Cortana, Alexa, or Bixby. These voice assistants can perform various operations based on voice commands. For the efficient operation of the voice assistant, clear recognition of voice commands is required. In order to efficiently control not only the voice assistant of the mobile terminal but also other electronic devices operating based on speech recognition, it is necessary to increase the accuracy of speech recognition.
  • a voice assistant such as Siri, Cortana, Alexa, or Bixby.
  • Sounds detected by the electronic device in addition to the desired speech may act as noise for speech recognition.
  • audio output from another electronic device may act as noise, and when the audio includes voice, it may cause confusion with a desired voice, thereby significantly reducing the efficiency of voice detection.
  • An object of the present invention is to provide a method and apparatus for effectively canceling noise due to audio output from another electronic device for efficient speech recognition.
  • a method for recognizing a voice by a first device for solving the above problems includes receiving information regarding content output by the second device from a second device, and And performing voice recognition by erasing data obtained from the output content based on the information on the content.
  • Method for supporting speech recognition by a first device according to another embodiment of the present invention, transmitting information about the content output by the second device, and outputting the content Including a step, the information on the content is used by the first device to erase data obtained from the content based on the information on the content for speech recognition.
  • a first device for recognizing voice includes a transceiver configured to receive information on content output by the second device from a second device, and a voice configured to detect a voice signal Input method; And a controller configured to perform speech recognition based on the detected speech signal by erasing data obtained from the output content based on information about the content.
  • a second device for supporting speech recognition by a first device includes a transceiver configured to transmit information on content output by the second device, and an audio signal of the content It includes an audio output device configured to output, the information on the content is used by the first device to erase the data obtained from the content based on the information on the content for speech recognition.
  • FIG. 1 shows an exemplary speech recognition environment of the present invention.
  • FIG. 2 is a flowchart illustrating a voice recognition method according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a voice recognition method according to another embodiment of the present invention.
  • FIG. 4 is a block diagram of a first device according to an embodiment of the present invention.
  • FIG. 5 is a block diagram of a second device according to an embodiment of the present invention.
  • the first device 110 may recognize speech.
  • the first device 110 can detect the voice signal S1 from the user 130 and recognize the voice therefrom.
  • the first device 110 recognizes the voice and performs an operation according to the recognized voice Can be.
  • an operation corresponding to the keyword eg, execution of an application, termination of an application, or on/off of a specific function
  • the first device 110 may be a smart phone, a cellular phone, a tablet computer, a personal computer, a smart speaker, or a household electronic device (for example, a refrigerator, a washing machine, an air cleaner, and a robot cleaner), but is not limited thereto. It may not be one of various electronic devices that can be operated through voice.
  • the second device 120 may be an electronic device capable of outputting the audio signal S2.
  • the second device 120 may be a household electronic device capable of outputting an audio signal, such as a television or radio, or a smart phone, a cellular phone, a tablet computer, or a personal computer.
  • the second device 120 is not limited to these types, and may be any electronic device capable of outputting an audio signal and communicating with other devices or networks.
  • the audio signal S2 output from the second device 120 may act as noise for speech recognition performed by the first device 110.
  • the second device 120 may not output an audio signal, but may be a device capable of generating noise for speech recognition of the first device 110 by an operation.
  • the second device 120 may transmit information on content being played or content to be played to the first device 110 (210 ).
  • Information about the content may be referred to as metadata about the content.
  • the second device 120 may broadcast information on the content, and the first device 110 may receive information on the broadcasted content.
  • the second device 120 may transmit information on content using a communication protocol such as Bluetooth or Wi-Fi, but the available communication protocol is not limited thereto.
  • a communication protocol such as Bluetooth or Wi-Fi, but the available communication protocol is not limited thereto.
  • the first device 110 and the second device 120 are paired before the second device 120 transmits the content being played or the content to be played to the first device 110.
  • the first device 110 and the second device 120 may be close to each other such that an audio signal from the second device 120 affects speech recognition to the first device 110. Whether the first device 110 and the second device 120 are in proximity may be made by measuring audio volume or measuring Bluetooth signal strength by the first device 110 and/or the second device 120. Pairing of the first device 110 and the second device 120 may be performed only when the first device 110 and the second device 120 are in close proximity. In this way, the first device 110 and the second device 120 can be paired without user intervention. According to some embodiments, the first device 110 and the second device 120 may be paired through user manipulation.
  • Content includes audio.
  • the content may additionally include experiential content such as video and sound, smell, and vibration.
  • the information on the content may include at least one of power levels for different frequencies of the audio signal included in the content, subtitles of the audio signal, lyrics of the song when the audio signal includes a song, and identification information about the content. Can be.
  • Information about the content may be referred to as metadata for the content.
  • information about the content may include an electronic program guide (EPG) associated with the content.
  • EPG electronic program guide
  • the second device 120 can play the content (220).
  • the audio signal S2 included in the reproduced content may act as noise for speech recognition performed by the first device 110.
  • FIG. 2 it is illustrated that playing the content 220 is performed after transmitting the information about the content 210, but this is only exemplary, and according to some embodiments, information about the content May be transmitted simultaneously with the start of playback of the content, or may be transmitted after the start of playback of the content.
  • the first device 110 may perform speech recognition using information on the received content (230).
  • the first device 110 can effectively eliminate noise due to the audio signal S2 included in the content to be reproduced using the information on the received content, thereby improving the accuracy of speech recognition.
  • the first device 110 is configured to block a signal of a specific frequency with respect to the detected audio signal by using power levels for different frequencies of the audio signal included in the content included in the information about the content. Filters can be applied.
  • the first device 110 may remove the text included in the subtitles from the text detected through speech recognition by using the subtitles of the audio signal included in the information about the content.
  • the first device 110 may remove the text included in the lyrics from the text detected through speech recognition by using the lyrics of the song included in the audio signal included in the information about the content.
  • the first device 110 may acquire subtitles or lyrics related to the content through a server or a network (for example, the Internet) by using identification information about the content included in the information about the content, and perform voice recognition. Text included in the subtitle or text included in the lyrics may be removed from the detected text. According to some embodiments, the first device 110 uses speech inference algorithms used in machine learning for speech recognition modified to ignore words present in subtitles for audio noise, thereby recognizing speech. Text included in the subtitle or text included in the lyrics may be removed from the detected text.
  • the first device 110 may use a cloud to perform speech recognition.
  • the first device 110 may transmit data on the detected voice signal and information on content to the cloud.
  • the cloud is obtained by removing text about the content included in the information about the content or text about the content (for example, EPG) from the text extracted from the data on the detected speech signal.
  • the text can be transmitted to the first device 110 as text for the recognized voice.
  • the present invention it is possible to easily and efficiently perform noise removal by providing information on content reproduced by a noise source device and using information on content provided by a speech recognition device. Accordingly, the accuracy of speech recognition by the speech recognition device can be increased.
  • the first device 110 may start speech recognition (310 ).
  • Speech recognition in step 310 may involve removing noise using information about the content received from the second device 230 as in step 230 of FIG. 2, but is not limited thereto.
  • the speech recognition in step 310 may be for detecting keywords.
  • the first device 110 may detect a keyword through voice recognition (320).
  • the keyword may be a voice command composed of at least one word for causing the first device 110 to perform a specific operation.
  • the first device 110 executes an application requiring detection of a subsequent voice in response to detection of the keyword, or the first device 110 detects a subsequent voice in response to detection of the keyword and You can enter a state that requires recognition.
  • the subsequent detection of speech in response to the detection of the keyword may be detection and recognition of additional keywords or detection and recognition of free speech.
  • the first device 110 may use a cloud for detection and recognition of pre-speech. Subsequent voice detection in response to the detection of the keyword may involve noise removal using information on the content received from the second device 120 as in step 230 of FIG. 2.
  • the first device 110 may transmit a first message to the second device 120 in response to the detection of the keyword (340 ). According to some embodiments, the first device 110 may broadcast the first message. The first device broadcasts the first message and delivers it to any devices, thereby allowing any devices to activate the audio filter, as described below. The first device 110 may transmit the first message using a communication protocol such as Bluetooth or Wi-Fi, but this is only an example, and the communication protocol for transmitting the first message is not limited thereto. The first message may be for the second device 120 to activate the audio filter. According to some embodiments, the first message may include a command for the second device 120 to activate the audio filter.
  • a communication protocol such as Bluetooth or Wi-Fi
  • the first message only includes information indicating that the first device 110 has detected the keyword or information that the first device 110 requires subsequent voice input, and the second device 120 ) May not contain a direct command to activate the audio filter.
  • the second device 120 may determine to activate the audio filter based on the information included in the first message.
  • the first message may be for causing the second device 120 to perform an operation to reduce noise in addition to activating the audio filter.
  • the second device 120 Before receiving the first message 340, the second device 120 may be playing content including an audio signal that may act as noise for speech recognition of the first device 110 (330 ). However, playing the content 330 does not necessarily have to start before receiving the first message (340), after receiving the first message (340) or after activating (350) the audio filter. The playback of content may start.
  • the second device 120 can activate the audio filter in response to receiving the first message (350 ).
  • the audio filter 350 may be a notch filter or a bandstop filter for blocking or attenuating an audio signal in a specific frequency band.
  • the frequency band blocked or attenuated by the audio filter may at least partially overlap with the frequency band of the human voice.
  • the second device 120 may activate an audio filter to reduce noise in a frequency band of speech, thereby supporting efficient speech recognition by the first device 110.
  • the second device 120 may perform other actions instead of activating the audio filter in response to receiving the first message. For example, the second device 120 may mute the sound output or decrease the volume of the sound. According to some embodiments, the second device 120 may maintain the volume of the sound when the volume of the sound is below a threshold.
  • the second device 120 may be a device (eg, a vacuum cleaner, a robot cleaner, a laundry dryer) that may generate noise for speech recognition of the first device 110 in addition to sound output. have.
  • the second device 120 may perform an operation for reducing noise in response to receiving the first message.
  • the operation for reducing noise may include, for example, stopping the operation of the second device 120 or reducing the output of the second device 120.
  • the operations described above by the second device 120 in response to receiving the first message i.e. activating the audio filter, muting the sound output, reducing the volume of the sound, Interrupting the operation of the two devices, reducing the output of the second device
  • an operation for reducing noise i.e. activating the audio filter, muting the sound output, reducing the volume of the sound, Interrupting the operation of the two devices, reducing the output of the second device
  • an operation for reducing different noise may be performed in response to receiving the first message according to the type of the noise source device, such as the second device 120.
  • the noise source device When the noise source device is of a type that is adjacent to the first device 110 and generates a volume of noise greater than a threshold, the noise source device may mute the audio output in response to receiving the first message. If the noise source device is of a type that generates average noise (for example, the size of the noise or audio output is within a certain range), the noise source device responds to receiving the first message, and the volume of the audio output You can decrease the level. For a type where the noise source device is very far away or generates noise below a threshold, the noise source device may not change the audio output even upon receiving the first message.
  • the first device In response to detecting a keyword, 110 may determine a device to be silenced among the plurality of noise source devices (ie, the second device 120).
  • the first message When the first message is broadcast, the first message may include identification information about the device to be silenced.
  • Each of the devices receiving the broadcasted first message may perform an operation for reducing noise in response to the reception of the first message when the first message includes its own identification information.
  • the first device 110 may be configured to receive electromagnetic energy from the second device 120 to estimate the distance from the second device 120 or the influence of noise from the second device 120.
  • the propagation of sound waves and the propagation of electromagnetic waves have a similar aspect in that the intensity decreases in inverse proportion to the square of the distance, and the obstacle between the first device 110 and the second device 120 is that of both sound waves and electromagnetic waves. Decrease the intensities.
  • the first device 120 may estimate the influence of distance or noise from the second device 120 through measurement of the intensity of the electromagnetic signal from the second device 120.
  • the first device 120 may estimate a distance or an effect of noise from each of the plurality of noise source devices, and determine a device to perform an operation for reducing noise in response to receiving the first message, and noise It is possible to determine the type of operation (eg, muting, volume reduction, or turn-off) to reduce.
  • the first device 110 may measure the intensity of the Bluetooth signal from the second device 120 to estimate the effect of distance or noise from the second device 120.
  • the second device 120 measures the intensity of the electromagnetic signal, including the Bluetooth signal from the first device 110, to determine the distance to the first device 110 or the first device ( The influence of noise on 110) can be estimated.
  • the second device 12 is based on the estimated distance to the first device 110 or the effect of noise on the first device 110, whether to perform an operation for reducing noise, and noise to perform. You can decide the type to reduce the.
  • the first device 110 can use information about the spectral characteristics of the noise received from the second device 120 to estimate the effect of the distance or noise from the second device 120. have.
  • Information about the spectral characteristics of the noise may be included in information about the content transmitted in step 210.
  • the first device 110 can estimate the effect of the distance or noise from the second device 120 by comparing the information on the noise spectrum characteristics and the power level according to the spectrum of the noise received from the second device 120. have.
  • the first device 110 may end speech recognition (360).
  • the first device 110 may end speech recognition when a voice signal is not detected for a specific period of time.
  • termination of speech recognition in step 360 only means termination of recognition for pre-speech, and first device 110 continues to attempt speech recognition for keywords after step 360 can do.
  • the first device 110 may transmit a second message to the second device based on the end of speech recognition (370 ).
  • the first device 110 may broadcast the second message.
  • the first device 110 may broadcast a second message to allow arbitrary devices to receive the second message to disable the audio filter.
  • the second message may be for the second device 120 to deactivate the audio filter.
  • the second message can include a command to cause the second device 120 to deactivate the audio filter.
  • the second message only includes information indicating that the first device 110 has ended speech recognition, and has issued an explicit command to cause the second device 120 to deactivate the audio filter. May not contain.
  • the second device 120 may determine to deactivate the audio filter based on the information included in the second message.
  • the second message may be to cause the second device 120 to perform an interruption of the operation to reduce noise, including or excluding the audio filter.
  • the second device 120 can deactivate the audio filter in response to receiving the second message (380). According to some embodiments, even if the second device 120 does not receive the second message, the audio filter may be deactivated after activating the audio filter or when a specific time has elapsed since receiving the first message. have. Through this, even if the second device 120 does not receive the broadcast second message, it is possible to prevent the audio filter from being continuously activated. According to some embodiments, second device 120 may perform an interruption in operation to reduce noise other than deactivating the audio filter in response to receiving the second message. Is a block diagram of a first device according to an embodiment of the present invention.
  • the first device 110 may include a voice input device 410, a transceiver 420 and a controller 430.
  • the voice input unit 410 may detect audio signals including voice as well as voice.
  • the voice input device 410 may be a microphone.
  • the voice input device 410 may include an audio filter.
  • the first device 110 uses an audio filter to block a signal of a specific frequency with respect to the detected audio signal by using power levels for different frequencies of the audio signal included in the content included in the information about the content Can be.
  • the audio filter may be configured separately from the voice input device 410.
  • the audio filter can be implemented in software.
  • the first device 110 may communicate with other devices or networks through the transceiver 420.
  • the transceiver 420 may support at least one of known short-range or telecommunication protocols such as Bluetooth, infrared communication, LTE, CDMA, Wi-Fi, Wi-Max, and Wi-Bro.
  • the transceiver may receive information about the content in step 210 and transmit the first message in step 340 and the second message in step 370.
  • the controller 430 may control operations of other components of the first device 110 (eg, the voice input device 410 and the transceiver 420 ).
  • the controller 430 may perform operations required for the operation of the first device 110.
  • the controller 430 may be implemented with at least one processor.
  • the controller 430 may identify a voice signal from the audio signal detected through the voice input device 410 and detect text corresponding to the voice signal.
  • the controller 430 may increase the accuracy of speech recognition by removing text of subtitles or lyrics obtained based on information about content provided by the second device 120 from text detected during speech recognition.
  • the controller 430 may perform voice recognition using a cloud.
  • the first device 110 may further include a memory 440, a display 450, and an audio output device 460.
  • the memory 440 may store instructions for operating the controller 430.
  • the memory 440 may store temporary or permanent data generated or required during the operation of the controller 430.
  • the display 450 may be configured to reproduce an image.
  • the display 450 may be constructed using at least one of known display elements such as a liquid crystal display (LCD), an organic light emitting display (OLED), or an electrophoresis display, and employable display elements are listed above It is not limited.
  • the audio output device 460 may be configured to output an audio signal.
  • the audio output device 460 may be a speaker or an audio terminal.
  • the operation of the memory 440, the display 450, and the audio writer 460 may be controlled by the controller 430.
  • the second device 120 includes a transceiver 510, an audio output unit 520, a controller 530 and an audio filter 540.
  • the second device 120 may communicate with other devices or networks through the transceiver 510.
  • the transceiver 510 may support at least one of known short-range or telecommunication protocols such as Bluetooth, infrared communication, LTE, CDMA, Wi-Fi, Wi-Max, and Wi-Bro.
  • the transceiver 510 may transmit information on the content in step 210 and receive the first message in step 340 and the second message in step 370.
  • the audio output device 520 may be configured to output an audio signal.
  • the audio output device 520 may be a speaker.
  • the audio output device 520 may include an interface (eg, an audio terminal) connectable to a speaker and a wired interface, or an interface (eg, a Bluetooth interface) connectable wirelessly.
  • the interface that can be wirelessly connected to the speaker may be included in the transceiver 510 or at least partially overlap with the transceiver 520.
  • the second device 120 may not include an audio output device 520.
  • the controller 530 may control operations of other components of the second device 120 (eg, the transceiver 510, the audio output unit 520, and the audio filter 540 ).
  • the controller 530 may perform operations necessary for the operation of the second device 120.
  • the controller 530 may be implemented with at least one processor.
  • the controller 530 may determine whether to perform an operation for reducing noise based on the first message received from the first device. For example, the controller 530 may determine whether to activate or deactivate the audio filter 540 based on the first message received from the first device.
  • the audio filter 540 may be a filter for blocking or attenuating an audio signal in a specific frequency band (eg, voice band).
  • a specific frequency band of the audio signal output from the audio output device 520 may be blocked or attenuated.
  • the audio filter 540 may be configured in hardware or software.
  • second device 120 may not include audio filter 540. If the second device 120 does not include the audio filter 540, the second device 120 may not also include the audio writer 520, but is not necessarily so.
  • the second device 120 is a memory 550 and a display 560 may be further included. Descriptions of the memory 550 and the display 560 are the same as the descriptions of the memory 440 and the display 450 of the first device 110, respectively, and thus will be omitted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

Provided is a method for recognizing speech by means of a first device. The above method comprises: a step for receiving, from a second device, information about content output by the second device; and a step for performing speech recognition by erasing data obtained from the output content on the basis of the information about the content.

Description

음성을 인식하기 위한 방법 및 장치Method and apparatus for speech recognition
본 발명은 음성(speech)을 인식하기 위한 방법 및 장치에 관한 것으로서, 보다 구체적으로, 음성 인식을 위해 다른 전자 디바이스로부터의 노이즈를 감소시키기 위한 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for recognizing speech, and more particularly, to a method and apparatus for reducing noise from other electronic devices for speech recognition.
음성을 이용하여 전자 디바이스의 동작을 제어하기 위한 기술들이 널리 이용되고 있다. 전자 디바이스는 음성을 인식하고, 음성의 내용에 따라 특정한 동작을 수행할 수 있다. 예를 들어, 전자 디바이스는 음성 인식에 기반하여, 특정한 어플리케이션을 실행하거나, 어플리케이션의 동작을 제어하거나, 검색을 수행하거나, 또는 전원을 온/오프 하는 것과 같은 다양한 동작들을 수행할 수 있다.Techniques for controlling the operation of an electronic device using voice have been widely used. The electronic device can recognize the voice and perform a specific operation according to the content of the voice. For example, the electronic device may perform various operations, such as executing a specific application, controlling the operation of the application, performing a search, or turning on/off the power, based on speech recognition.
몇몇 모바일 단말들, 태블릿 컴퓨터들 또는 그 밖의 전자 디바이스들은 Siri, Cortana, Alexa, 또는 Bixby 와 같은 보이스 어시스턴트(voice assistant)를 채용하고 있다. 이러한 보이스 어시스턴트들은 음성 명령(command)에 기반하여 다양한 동작들을 수행할 수 있다. 보이스 어시스턴트의 효율적인 동작을 위하여 음성 명령의 명확한 인식이 요구된다. 모바일 단말의 보이스 어시스턴트 뿐만 아니라, 음성 인식에 기반하여 동작하는 다른 전자 디바이스들의 효율적인 제어를 위하여 음성 인식의 정확성을 높일 필요가 있다.Some mobile terminals, tablet computers or other electronic devices employ a voice assistant such as Siri, Cortana, Alexa, or Bixby. These voice assistants can perform various operations based on voice commands. For the efficient operation of the voice assistant, clear recognition of voice commands is required. In order to efficiently control not only the voice assistant of the mobile terminal but also other electronic devices operating based on speech recognition, it is necessary to increase the accuracy of speech recognition.
원하는 음성 이외에 전자 디바이스에 의해 검출되는 소리들은 음성 인식에 대한 노이즈로서 작용할 수 있다. 예를 들어, 다른 전자 디바이스로부터 출력되는 오디오는 노이즈로서 작용할 수 있으며, 상기 오디오가 음성을 포함하는 경우, 원하는 음성과 혼돈을 일으켜 음성 검출의 효율성을 크게 저하시킬 수 있다.Sounds detected by the electronic device in addition to the desired speech may act as noise for speech recognition. For example, audio output from another electronic device may act as noise, and when the audio includes voice, it may cause confusion with a desired voice, thereby significantly reducing the efficiency of voice detection.
본 발명의 과제는 효율적인 음성 인식을 위해 다른 전자 디바이스로부터의 오디오 출력으로 인한 노이즈를 효과적으로 소거(cancel)할 수 있는 방법 및 장치를 제공하고자 하는 것이다.An object of the present invention is to provide a method and apparatus for effectively canceling noise due to audio output from another electronic device for efficient speech recognition.
본 발명의 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 제 1 디바이스에 의해 음성을 인식하기 위한 방법은, 제 2 디바이스로부터 상기 제 2 디바이스에 의해 출력되는 컨텐츠에 관한 정보를 수신하는 단계, 및 상기 컨텐츠에 관한 정보에 기초하여 상기 출력되는 컨텐츠로부터 획득된 데이터를 소거하는 것에 의해, 음성 인식을 수행하는 단계를 포함한다.A method for recognizing a voice by a first device according to an embodiment of the present invention for solving the above problems includes receiving information regarding content output by the second device from a second device, and And performing voice recognition by erasing data obtained from the output content based on the information on the content.
본 발명의 다른 실시예에 따른 제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스에 의한 방법은, 상기 제 2 디바이스에 의해 출력되는 컨텐츠에 대한 정보를 전송하는 단계, 및 상기 컨텐츠를 출력하는 단계를 포함하고, 상기 컨텐츠에 대한 정보는 상기 제 1 디바이스가 음성 인식을 위해 상기 컨텐츠에 대한 정보에 기초하여 상기 컨텐츠로부터 획득된 데이터를 소거하기 위해 이용된다.Method according to a second device for supporting speech recognition by a first device according to another embodiment of the present invention, transmitting information about the content output by the second device, and outputting the content Including a step, the information on the content is used by the first device to erase data obtained from the content based on the information on the content for speech recognition.
본 발명의 또 다른 실시예에 따른 음성을 인식하기 위한 제 1 디바이스는, 제 2 디바이스로부터 상기 제 2 디바이스에 의해 출력되는 컨텐츠에 관한 정보를 수신하도록 구성되는 송수신기, 음성 신호를 검출하도록 구성되는 음성 입력기; 및 상기 컨텐츠에 관한 정보에 기초하여 상기 출력되는 컨텐츠로부터 획득된 데이터를 소거하는 것에 의해, 상기 검출된 음성 신호에 기초하여 음성 인식을 수행하도록 구성되는 제어기를 포함한다.A first device for recognizing voice according to another embodiment of the present invention includes a transceiver configured to receive information on content output by the second device from a second device, and a voice configured to detect a voice signal Input method; And a controller configured to perform speech recognition based on the detected speech signal by erasing data obtained from the output content based on information about the content.
본 발명의 또 다른 실시예에 따른 제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스는, 상기 제 2 디바이스에 의해 출력되는 컨텐츠에 대한 정보를 전송하도록 구성되는 송수신기, 및 상기 컨텐츠의 오디오 신호를 출력하도록 구성되는 오디오 출력기를 포함하고, 상기 컨텐츠에 대한 정보는 상기 제 1 디바이스가 음성 인식을 위해 상기 컨텐츠에 대한 정보에 기초하여 상기 컨텐츠로부터 획득된 데이터를 소거하기 위해 이용된다.A second device for supporting speech recognition by a first device according to another embodiment of the present invention includes a transceiver configured to transmit information on content output by the second device, and an audio signal of the content It includes an audio output device configured to output, the information on the content is used by the first device to erase the data obtained from the content based on the information on the content for speech recognition.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Details of other embodiments are included in the detailed description and drawings.
본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.According to embodiments of the present invention has at least the following effects.
즉, 다른 전자 디바이스로부터의 오디오 출력으로 인한 노이즈를 효과적으로 소거하여 음성 인식의 효율성을 높일 수 있다.That is, it is possible to effectively eliminate noise caused by audio output from other electronic devices, thereby improving the efficiency of speech recognition.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.The effects according to the present invention are not limited by the contents exemplified above, and more various effects are included in the present specification.
도 1은 본 발명의 예시적인 음성 인식의 환경을 나타낸다.1 shows an exemplary speech recognition environment of the present invention.
도 2는 본 발명의 일 실시예에 따른 음성 인식 방법을 나타낸 순서도이다.2 is a flowchart illustrating a voice recognition method according to an embodiment of the present invention.
도 3은 본 발명의 다른 실시예에 따른 음성 인식 방법을 나타낸 순서도이다.3 is a flowchart illustrating a voice recognition method according to another embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따른 제 1 디바이스의 블록도이다.4 is a block diagram of a first device according to an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 따른 제 2 디바이스의 블록도이다.5 is a block diagram of a second device according to an embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention, and methods for achieving them will be clarified with reference to embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but will be implemented in various different forms, and only the embodiments allow the disclosure of the present invention to be complete, and the ordinary knowledge in the technical field to which the present invention pertains. It is provided to fully inform the holder of the scope of the invention, and the invention is only defined by the scope of the claims.
비록 제 1, 제 2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제 1 구성요소는 본 발명의 기술적 사상 내에서 제 2 구성요소일 수도 있음은 물론이다.Although the first, second, etc. are used to describe various components, it goes without saying that these components are not limited by these terms. These terms are only used to distinguish one component from another component. Therefore, it goes without saying that the first component mentioned below may be the second component within the technical spirit of the present invention.
도 1은 본 발명의 예시적인 음성 인식의 환경을 나타낸다. 제 1 디바이스(110)는 음성을 인식할 수 있다. 제 1 디바이스(110)는 사용자(130)로부터의 음성 신호(S1)를 감지하고 이로부터 음성을 인식할 수 있다.제 1 디바이스(110)는 음성을 인식하여 인식된 음성에 따른 동작을 수행할 수 있다. 몇몇 실시예에서, 제 1 디바이스(110)는 음성 인식을 통해 특정한 키워드(keyword)를 인식하는 경우, 키워드에 대응하는 동작(예를 들어, 어플리케이션의 실행, 어플리케이션의 종료, 또는 특정한 기능의 온/오프 등)을 수행할 수 있다. 제 1 디바이스(110)는 스마트폰, 셀룰러 폰, 태블릿 컴퓨터, 개인용 컴퓨터, 스마트 스피커 또는 가정용 전자 기기(예를 들어, 냉장고, 세탁기, 공기 청정기, 및 로봇 청소기 등)일 수 있으나, 반드시 이에 한정되는 것은 아니며, 음성을 통해 동작 가능한 다양한 전자 장비들 중 하나일 수 있다. 1 shows an exemplary speech recognition environment of the present invention. The first device 110 may recognize speech. The first device 110 can detect the voice signal S1 from the user 130 and recognize the voice therefrom. The first device 110 recognizes the voice and performs an operation according to the recognized voice Can be. In some embodiments, when the first device 110 recognizes a specific keyword through speech recognition, an operation corresponding to the keyword (eg, execution of an application, termination of an application, or on/off of a specific function) Off, etc.). The first device 110 may be a smart phone, a cellular phone, a tablet computer, a personal computer, a smart speaker, or a household electronic device (for example, a refrigerator, a washing machine, an air cleaner, and a robot cleaner), but is not limited thereto. It may not be one of various electronic devices that can be operated through voice.
제 2 디바이스(120)는 오디오 신호(S2)를 출력 가능한 전자 디바이스일 수 있다. 예를 들어, 제 2 디바이스(120)는 텔레비전, 라디오 등과 같이 오디오 신호를 출력 가능한 가정용 전자 기기이거나 또는, 스마트폰, 셀룰러 폰, 태블릿 컴퓨터 또는 개인용 컴퓨터일 수 있다. 제 2 디바이스(120)는 이와 같은 종류들에 한정되는 것은 아니며, 오디오 신호를 출력 가능하며 다른 디바이스 또는 네트워크와 통신 가능한 임의의 전자 디바이스일 수 있다. 제 2 디바이스(120)로부터 출력되는 오디오 신호(S2)는 제 1 디바이스(110)에 의해 수행되는 음성 인식에 대하여 노이즈로서 작용할 수 있다. 몇몇 실시예들에 따르면, 제 2 디바이스(120)는 오디오 신호를 출력하지 않을 수 있으나, 동작에 의해 제 1 디바이스(110)의 음성 인식에 대한 노이즈를 발생시킬 수 있는 디바이스일 수 있다.The second device 120 may be an electronic device capable of outputting the audio signal S2. For example, the second device 120 may be a household electronic device capable of outputting an audio signal, such as a television or radio, or a smart phone, a cellular phone, a tablet computer, or a personal computer. The second device 120 is not limited to these types, and may be any electronic device capable of outputting an audio signal and communicating with other devices or networks. The audio signal S2 output from the second device 120 may act as noise for speech recognition performed by the first device 110. According to some embodiments, the second device 120 may not output an audio signal, but may be a device capable of generating noise for speech recognition of the first device 110 by an operation.
도 2는 본 발명의 일 실시예에 따른 음성 인식 방법을 나타낸 순서도이다. 제 2 디바이스(120)는 제 1 디바이스(110)로 재생 중인 컨텐츠 또는 재생할 컨텐츠에 대한 정보를 전송할 수 있다 (210). 컨텐츠에 대한 정보는 컨텐츠에 대한 메타데이터로 지칭될 수 있다. 몇몇 실시예들에 의하면, 제 2 디바이스(120)는 컨텐츠에 대한 정보를 브로드캐스트할 수 있으며, 제 1 디바이스(110)는 브로드캐스트된 컨텐츠에 대한 정보를 수신할 수 있다. 제 2 디바이스(120)는 블루투스 또는 Wi-Fi와 같은 통신 프로토콜을 이용하여 컨텐츠에 대한 정보를 전송할 수 있으나, 이용가능한 통신 프로토콜은 반드시 이에 한정되는 것은 아니다. 제 2 디바이스(120)가 컨텐츠에 대한 정보를 브로드캐스트하는 경우, 제 1 디바이스(110)를 포함하는 청취하는 임의의 디바이스가 제 2 디바이스(120)에 의해 생성되는 노이즈의 레벨을 검출하는 것이 가능하다.2 is a flowchart illustrating a voice recognition method according to an embodiment of the present invention. The second device 120 may transmit information on content being played or content to be played to the first device 110 (210 ). Information about the content may be referred to as metadata about the content. According to some embodiments, the second device 120 may broadcast information on the content, and the first device 110 may receive information on the broadcasted content. The second device 120 may transmit information on content using a communication protocol such as Bluetooth or Wi-Fi, but the available communication protocol is not limited thereto. When the second device 120 broadcasts information about the content, it is possible for any listening device including the first device 110 to detect the level of noise generated by the second device 120 Do.
몇몇 실시예들에서, 제 2 디바이스(120)가 제 1 디바이스(110)로 재생 중인 컨텐츠 또는 재생할 컨텐츠에 대한 정보를 전송하기 이전에 제 1 디바이스(110)와 제 2 디바이스(120)는 페어링될 수 있다. 제 1 디바이스(110) 및 제 2 디바이스(120)는 제 2 디바이스(120)로부터의 오디오 신호가 제 1 디바이스(110)에게 음성 인식에 영향을 미칠 만큼 서로 근접할 수 있다. 제 1 디바이스(110)와 제 2 디바이스(120)가 근접한 지 여부는 제 1 디바이스(110) 및/또는 제 2 디바이스(120)에 의한 오디오 볼륨 측정 또는 블루투스 신호 강도 측정에 의해 이루어질 수 있다. 제 1 디바이스(110)와 제 2 디바이스(120)의 페어링은 제 1 디바이스(110)와 제 2 디바이스(120)가 근접한 경우에만 이루어질 수 있다. 이와 같은 방법으로, 제 1 디바이스(110)와 제 2 디바이스(120)는 사용자의 개입 없이 페어링될 수 있다. 몇몇 실시예들에 따르면, 제 1 디바이스(110)와 제 2 디바이스(120)는 사용자의 조작을 통해 페어링될 수도 있다.In some embodiments, the first device 110 and the second device 120 are paired before the second device 120 transmits the content being played or the content to be played to the first device 110. Can be. The first device 110 and the second device 120 may be close to each other such that an audio signal from the second device 120 affects speech recognition to the first device 110. Whether the first device 110 and the second device 120 are in proximity may be made by measuring audio volume or measuring Bluetooth signal strength by the first device 110 and/or the second device 120. Pairing of the first device 110 and the second device 120 may be performed only when the first device 110 and the second device 120 are in close proximity. In this way, the first device 110 and the second device 120 can be paired without user intervention. According to some embodiments, the first device 110 and the second device 120 may be paired through user manipulation.
컨텐츠는 오디오를 포함한다. 컨텐츠는 추가적으로 영상 및 소리, 냄새, 진동과 같은 체험적 컨텐츠를 포함할 수도 있다.Content includes audio. The content may additionally include experiential content such as video and sound, smell, and vibration.
컨텐츠에 대한 정보는 컨텐츠에 포함된 오디오 신호의 상이한 주파수들에 대한 전력 레벨들, 오디오 신호의 자막, 오디오 신호가 노래를 포함하는 경우 노래의 가사, 및 컨텐츠에 대한 식별 정보 중 적어도 하나를 포함할 수 있다. 이러한 컨텐츠에 대한 정보는 컨텐츠에 대한 메타데이터로서 지칭될 수 있다. 몇몇 실시예들에 따르면, 컨텐츠에 대한 정보는 컨텐츠와 관련된 전자 프로그램 안내(electronic program guide: EPG)를 포함할 수 있다.The information on the content may include at least one of power levels for different frequencies of the audio signal included in the content, subtitles of the audio signal, lyrics of the song when the audio signal includes a song, and identification information about the content. Can be. Information about the content may be referred to as metadata for the content. According to some embodiments, information about the content may include an electronic program guide (EPG) associated with the content.
제 2 디바이스(120)는 컨텐츠를 재생할 수 있다(220). 재생되는 컨텐츠에 포함된 오디오 신호(S2)는 제 1 디바이스(110)에 의해 수행되는 음성 인식에 대하여 노이즈로서 작용할 수 있다. 도 2에서는 컨텐츠를 재생하는 것(220)이 컨텐츠에 관한 정보를 전송하는 것(210) 이후에 수행되는 것으로 도시되어 있으나, 이는 예시적인 것에 불과하며, 몇몇 실시예들에 따르면, 컨텐츠에 관한 정보는 컨텐츠의 재생의 시작과 동시에 전송되거나, 컨텐츠의 재생의 시작 이후에 전송될 수도 있다.The second device 120 can play the content (220). The audio signal S2 included in the reproduced content may act as noise for speech recognition performed by the first device 110. In FIG. 2, it is illustrated that playing the content 220 is performed after transmitting the information about the content 210, but this is only exemplary, and according to some embodiments, information about the content May be transmitted simultaneously with the start of playback of the content, or may be transmitted after the start of playback of the content.
제 1 디바이스(110)는 수신된 컨텐츠에 관한 정보를 이용하여 음성 인식을 수행할 수 있다 (230). 제 1 디바이스(110)는 수신된 컨텐츠에 관한 정보를 이용하여 재생되는 컨텐츠에 포함된 오디오 신호(S2)로 인한 노이즈를 효율적으로 소거함으로써, 음성 인식의 정확도를 높일 수 있다. 예를 들어, 제 1 디바이스(110)는 컨텐츠에 대한 정보에 포함된 컨텐츠에 포함된 오디오 신호의 상이한 주파수들에 대한 전력 레벨들을 이용하여, 검출된 오디오 신호에 대하여 특정한 주파수의 신호를 차단하기 위한 필터를 적용할 수 있다. 제 1 디바이스(110)는 컨텐츠에 대한 정보에 포함된 오디오 신호의 자막을 이용하여, 음성 인식을 통해 검출된 텍스트로부터 자막에 포함된 텍스트를 제거할 수 있다. 제 1 디바이스(110)는 컨텐츠에 대한 정보에 포함된 오디오 신호에 포함된 노래의 가사를 이용하여, 음성 인식을 통해 검출된 텍스트로부터 가사에 포함된 텍스트를 제거할 수 있다. 제 1 디바이스(110)는 컨텐츠에 대한 정보에 포함된 컨텐츠에 대한 식별 정보를 이용하여, 서버 또는 네트워크(예를 들어, 인터넷)를 통해 컨텐츠와 관련된 자막 또는 가사를 획득할 수 있으며, 음성 인식을 통해 검출된 텍스트로부터 자막에 포함된 텍스트 또는 가사에 포함된 텍스트를 제거할 수 있다. 몇몇 실시예들에 따르면, 제 1 디바이스(110)는 오디오 노이즈에 대한 자막들 내에 존재하는 단어들을 무시하도록 수정된 음성 인식을 위한 머신 러닝(machine learning)에서 사용되는 추론 알고리즘을 이용함으로써, 음성 인식을 통해 검출된 텍스트로부터 자막에 포함된 텍스트 또는 가사에 포함된 텍스트를 제거할 수 있다.The first device 110 may perform speech recognition using information on the received content (230). The first device 110 can effectively eliminate noise due to the audio signal S2 included in the content to be reproduced using the information on the received content, thereby improving the accuracy of speech recognition. For example, the first device 110 is configured to block a signal of a specific frequency with respect to the detected audio signal by using power levels for different frequencies of the audio signal included in the content included in the information about the content. Filters can be applied. The first device 110 may remove the text included in the subtitles from the text detected through speech recognition by using the subtitles of the audio signal included in the information about the content. The first device 110 may remove the text included in the lyrics from the text detected through speech recognition by using the lyrics of the song included in the audio signal included in the information about the content. The first device 110 may acquire subtitles or lyrics related to the content through a server or a network (for example, the Internet) by using identification information about the content included in the information about the content, and perform voice recognition. Text included in the subtitle or text included in the lyrics may be removed from the detected text. According to some embodiments, the first device 110 uses speech inference algorithms used in machine learning for speech recognition modified to ignore words present in subtitles for audio noise, thereby recognizing speech. Text included in the subtitle or text included in the lyrics may be removed from the detected text.
몇몇 실시예들에 의하면, 제 1 디바이스(110)는 음성 인식을 수행하기 위해 클라우드(cloud)를 이용할 수 있다. 제 1 디바이스(110)는 검출된 음성 신호에 대한 데이터와 컨텐츠에 관한 정보를 클라우드로 전송할 수 있다. 클라우드는 검출된 음성 신호에 대한 데이터로부터 추출된 텍스트로부터 컨텐츠에 관한 정보에 포함된 컨텐츠에 대한 텍스트 또는 컨텐츠에 관한 정보(예를 들어, EPG)로부터 획득가능한 컨텐츠에 대한 텍스트를 제거하는 것에 의해 획득된 텍스트를 인식된 음성에 대한 텍스트로서 제 1 디바이스(110)로 전송할 수 있다.According to some embodiments, the first device 110 may use a cloud to perform speech recognition. The first device 110 may transmit data on the detected voice signal and information on content to the cloud. The cloud is obtained by removing text about the content included in the information about the content or text about the content (for example, EPG) from the text extracted from the data on the detected speech signal. The text can be transmitted to the first device 110 as text for the recognized voice.
이와 같이 본 발명의 일 실시예에 의하면, 노이즈 소스 디바이스가 재생되는 컨텐츠에 대한 정보를 제공하고, 음성 인식 디바이스가 제공된 컨텐츠에 대한 정보를 이용하여 용이하고 효율적으로 노이즈 제거를 수행할 수 있다. 이에 따라, 음성 인식 디바이스에 의한 음성 인식의 정확성을 증가시킬 수 있다.As described above, according to an embodiment of the present invention, it is possible to easily and efficiently perform noise removal by providing information on content reproduced by a noise source device and using information on content provided by a speech recognition device. Accordingly, the accuracy of speech recognition by the speech recognition device can be increased.
도 3은 본 발명의 다른 실시예에 따른 음성 인식 방법을 나타낸 순서도이다. 제 1 디바이스(110)는 음성 인식을 시작할 수 있다 (310). 단계(310)에서의 음성 인식은 도 2의 단계 230에서와 같이 제 2 디바이스(230)로부터 수신된 컨텐츠에 대한 정보를 이용한 노이즈 제거를 수반할 수 있으나, 반드시 이에 한정되는 것은 아니다. 몇몇 실시예들에 의하면, 단계(310)에서의 음성 인식은 키워드를 검출하기 위한 것일 수 있다.3 is a flowchart illustrating a voice recognition method according to another embodiment of the present invention. The first device 110 may start speech recognition (310 ). Speech recognition in step 310 may involve removing noise using information about the content received from the second device 230 as in step 230 of FIG. 2, but is not limited thereto. According to some embodiments, the speech recognition in step 310 may be for detecting keywords.
제 1 디바이스(110)는 음성 인식을 통하여 키워드를 검출할 수 있다 (320). 키워드는 제 1 디바이스(110)로 하여금 특정한 동작을 수행하도록 하기 위한 적어도 하나의 단어로 구성된 음성 명령(command)일 수 있다. 예를 들어, 제 1 디바이스(110)는 키워드의 검출에 응답하여 후속적인 음성의 검출을 요구하는 어플리케이션을 실행하거나, 또는 제 1 디바이스(110)는 키워드의 검출에 응답하여 후속적인 음성의 검출 및 인식을 요구하는 상태에 진입할 수 있다. 몇몇 실시예들에 의하면, 키워드의 검출에 응답한 후속적인 음성의 검출은 추가적인 키워드의 검출 및 인식 또는 프리 스피치(free speech)의 검출 및 인식일 수 있다. 몇몇 실시예들에 의하면, 프리 스피치의 검출 및 인식을 위해 제 1 디바이스(110)는 클라우드를 이용할 수 있다. 키워드의 검출에 응답한 후속적인 음성의 검출은 도 2의 단계 230에서와 같이 제 2 디바이스(120)로부터 수신된 컨텐츠에 대한 정보를 이용한 노이즈 제거를 수반할 수 있다.The first device 110 may detect a keyword through voice recognition (320). The keyword may be a voice command composed of at least one word for causing the first device 110 to perform a specific operation. For example, the first device 110 executes an application requiring detection of a subsequent voice in response to detection of the keyword, or the first device 110 detects a subsequent voice in response to detection of the keyword and You can enter a state that requires recognition. According to some embodiments, the subsequent detection of speech in response to the detection of the keyword may be detection and recognition of additional keywords or detection and recognition of free speech. According to some embodiments, the first device 110 may use a cloud for detection and recognition of pre-speech. Subsequent voice detection in response to the detection of the keyword may involve noise removal using information on the content received from the second device 120 as in step 230 of FIG. 2.
제 1 디바이스(110)는 키워드의 검출에 응답하여 제 2 디바이스(120)에게 제 1 메시지를 전송할 수 있다 (340). 몇몇 실시예들에 따르면, 제 1 디바이스(110)는 제 1 메시지를 브로드캐스트할 수 있다. 제 1 디바이스는 제 1 메시지를 브로드캐스트하여 임의의 디바이스들에게 전달함으로써, 후술하는 바와 같이 임의의 디바이스들이 오디오 필터를 활성화하도록 할 수 있다. 제 1 디바이스(110)는 제 1 메시지를 블루투스 또는 Wi-Fi와 같은 통신 프로토콜을 이용하여 전송할 수 있으나, 이는 예시적인 것에 불과하며, 제 1 메시지를 전송하기 위한 통신 프로토콜은 이에 한정되지 않는다. 제 1 메시지는 제 2 디바이스(120)가 오디 필터를 활성화하도록 하기 위한 것일 수 있다. 몇몇 실시예에 의하면, 제 1 메시지는 제 2 디바이스(120)가 오디오 필터를 활성화하기 위한 명령을 포함할 수 있다. 몇몇 실시예에 의하면 제 1 메시지는 제 1 디바이스(110)가 키워드를 검출했다는 것을 나타내는 정보 또는 제 1 디바이스(110)가 후속적인 음성 입력을 필요로 한다는 정보를 포함할 뿐, 제 2 디바이스(120)가 오디오 필터를 활성화하도록 하기 위한 직접적인 명령을 포함하지 않을 수 있다. 이러한 경우, 제 2 디바이스(120)는 제 1 메시지에 포함된 정보에 기초하여 오디오 필터를 활성화하는 것을 결정할 수 있다. 몇몇 실시예들에 따르면, 제 1 메시지는 제 2 디바이스(120)로 하여금 오디오 필터를 활성화하는 것 이외에도 노이즈를 감소시키기 위한 동작을 수행하도록 하기 위한 것일 수 있다. The first device 110 may transmit a first message to the second device 120 in response to the detection of the keyword (340 ). According to some embodiments, the first device 110 may broadcast the first message. The first device broadcasts the first message and delivers it to any devices, thereby allowing any devices to activate the audio filter, as described below. The first device 110 may transmit the first message using a communication protocol such as Bluetooth or Wi-Fi, but this is only an example, and the communication protocol for transmitting the first message is not limited thereto. The first message may be for the second device 120 to activate the audio filter. According to some embodiments, the first message may include a command for the second device 120 to activate the audio filter. According to some embodiments, the first message only includes information indicating that the first device 110 has detected the keyword or information that the first device 110 requires subsequent voice input, and the second device 120 ) May not contain a direct command to activate the audio filter. In this case, the second device 120 may determine to activate the audio filter based on the information included in the first message. According to some embodiments, the first message may be for causing the second device 120 to perform an operation to reduce noise in addition to activating the audio filter.
제 2 디바이스(120)는 제 1 메시지를 수신(340)하기 이전에 제 1 디바이스(110)의 음성 인식에 대한 노이즈로서 작용할 수 있는 오디오 신호를 포함하는 컨텐츠를 재생하고 있을 수 있다 (330). 그러나, 컨텐츠를 재생하는 것(330)은 반드시 제 1 메시지를 수신(340)하기 이전에 시작되어야 하는 것은 아니며, 제 1 메시지를 수신(340)한 이후 또는 오디오 필터를 활성화(350)한 이후에 컨텐츠의 재생이 시작될 수도 있다.Before receiving the first message 340, the second device 120 may be playing content including an audio signal that may act as noise for speech recognition of the first device 110 (330 ). However, playing the content 330 does not necessarily have to start before receiving the first message (340), after receiving the first message (340) or after activating (350) the audio filter. The playback of content may start.
제 2 디바이스(120)는 제 1 메시지를 수신하는 것에 응답하여 오디오 필터를 활성화할 수 있다 (350). 예를 들어, 오디오 필터(350)는 특정한 주파수 대역의 오디오 신호를 차단하거나 감쇄시키기 위한 노치(notch) 필터 또는 대역저지(bandstop) 필터일 수 있다. 오디오 필터에 의해 차단되거나 또는 감쇄되는 주파수 대역은 사람의 음성의 주파수 대역과 적어도 부분적으로 중첩할 수 있다. 제 2 디바이스(120)는 오디오 필터를 활성화하여 음성의 주파수 대역의 노이즈를 감소시킴으로써, 제 1 디바이스(110)에 의한 효율적인 음성 인식을 지원할 수 있다. The second device 120 can activate the audio filter in response to receiving the first message (350 ). For example, the audio filter 350 may be a notch filter or a bandstop filter for blocking or attenuating an audio signal in a specific frequency band. The frequency band blocked or attenuated by the audio filter may at least partially overlap with the frequency band of the human voice. The second device 120 may activate an audio filter to reduce noise in a frequency band of speech, thereby supporting efficient speech recognition by the first device 110.
몇몇 실시예들에 따르면, 제 2 디바이스(120)는 제 1 메시지를 수신하는 것에 응답하여, 제 2 디바이스(120)는 오디오 필터를 활성화하는 것 대신 다른 동작들을 수행할 수 있다. 예를 들어, 제 2 디바이스(120)는 사운드 출력을 뮤팅(mute)하거나, 사운드의 볼륨을 감소시킬 수 있다. 몇몇 실시예들에 따르면, 제 2 디바이스(120)는 사운드의 볼륨이 임계치 미만인 경우, 사운드의 볼륨을 유지할 수 있다. According to some embodiments, the second device 120 may perform other actions instead of activating the audio filter in response to receiving the first message. For example, the second device 120 may mute the sound output or decrease the volume of the sound. According to some embodiments, the second device 120 may maintain the volume of the sound when the volume of the sound is below a threshold.
몇몇 실시예들에서, 제 2 디바이스(120)는 사운드 출력 이외에 제 1 디바이스(110)의 음성 인식에 대한 노이즈를 발생시킬 수 있는 디바이스(예를 들어, 진공 청소기, 로봇 청소기, 빨래 건조기)일 수 있다. 이러한 경우, 제 2 디바이스(120)는 제 1 메시지를 수신하는 것에 응답하여, 노이즈를 감소시키기 위한 동작을 수행할 수 있다. 노이즈를 감소시키기 위한 동작은, 예를 들어, 제 2 디바이스(120)의 동작을 중단하거나, 제 2 디바이스(120)의 출력을 감소시키는 것을 포함할 수 있다. 앞서 설명된, 제 2 디바이스(120)가 제 1 메시지를 수신하는 것에 응답하여 수행하는 동작들(즉, 오디오 필터를 활성화하는 것, 사운드 출력을 뮤팅하는 것, 사운드의 볼륨을 감소시키는 것, 제 2 디바이스의 동작을 중단하는 것, 제 2 디바이스의 출력을 감소시키는 것)은 노이즈를 감소시키기 위한 동작으로서 지칭될 수 있다.In some embodiments, the second device 120 may be a device (eg, a vacuum cleaner, a robot cleaner, a laundry dryer) that may generate noise for speech recognition of the first device 110 in addition to sound output. have. In this case, the second device 120 may perform an operation for reducing noise in response to receiving the first message. The operation for reducing noise may include, for example, stopping the operation of the second device 120 or reducing the output of the second device 120. The operations described above by the second device 120 in response to receiving the first message (i.e. activating the audio filter, muting the sound output, reducing the volume of the sound, Interrupting the operation of the two devices, reducing the output of the second device) may be referred to as an operation for reducing noise.
몇몇 실시예들에 따르면, 제 2 디바이스(120)와 같은 노이즈 소스 디바이스의 타입에 따라 제 1 메시지를 수신하는 것에 응답하여 상이한 노이즈를 감소시키기 위한 동작을 수행할 수 있다. 노이즈 소스 디바이스가 제 1 디바이스(110)에 인접하며 임계치보다 큰 볼륨의 노이즈를 발생시키는 타입인 경우, 노이즈 소스 디바이스는 제 1 메시지를 수신하는 것에 응답하여 오디오 출력을 뮤팅할 수 있다. 노이즈 소스 디바이스가 평균적인 노이즈를 발생시키는 타입인 경우(예를 들어, 노이즈 또는 오디오 출력의 크기가 특정한 범위 내에 있는 경우), 노이즈 소스 디바이스는 제 1 메시지를 수신하는 것에 응답하여, 오디오 출력의 볼륨 레벨을 감소시킬 수 있다. 노이즈 소스 디바이스가 매우 멀리 떨어져 있거나 또는 임계치 미만의 노이즈를 발생시키는 타입의 경우, 노이즈 소스 디바이스는 제 1 메시지를 수신하더라도 오디오 출력을 변경하지 않을 수 있다.몇몇 실시예들에 따르면, 제 1 디바이스(110)는 키워드를 검출하는 것에 응답하여, 다수의 노이즈 소스 디바이스들 중 침묵해야 할 디바이스(즉, 제 2 디바이스(120))를 결정할 수 있다. 제 1 메시지가 브로드캐스팅되는 경우, 제 1 메시지는 침묵해야할 디바이스에 대한 식별 정보를 포함할 수 있다. 브로드캐스팅된 제 1 메시지를 수신하는 디바이스들 각각은 제 1 메시지에 자신의 식별 정보가 포함된 경우, 제 1 메시지의 수신에 응답하는 노이즈를 감소시키기 위한 동작을 수행할 수 있다.According to some embodiments, an operation for reducing different noise may be performed in response to receiving the first message according to the type of the noise source device, such as the second device 120. When the noise source device is of a type that is adjacent to the first device 110 and generates a volume of noise greater than a threshold, the noise source device may mute the audio output in response to receiving the first message. If the noise source device is of a type that generates average noise (for example, the size of the noise or audio output is within a certain range), the noise source device responds to receiving the first message, and the volume of the audio output You can decrease the level. For a type where the noise source device is very far away or generates noise below a threshold, the noise source device may not change the audio output even upon receiving the first message. According to some embodiments, the first device ( In response to detecting a keyword, 110 may determine a device to be silenced among the plurality of noise source devices (ie, the second device 120). When the first message is broadcast, the first message may include identification information about the device to be silenced. Each of the devices receiving the broadcasted first message may perform an operation for reducing noise in response to the reception of the first message when the first message includes its own identification information.
몇몇 실시예들에 따르면, 제 1 디바이스(110)는 제 2 디바이스(120)와의 거리 또는 제 2 디바이스(120)로부터의 노이즈의 영향 정도를 추정하기 위해 제 2 디바이스(120)로부터의 전자기(electromagnetic) 신호의 강도를 측정할 수 있다. 음파의 전파(propagation)와 전자기파의 전파는 거리의 제곱에 반비례하여 강도가 감소하는 측면에서 유사한 측면이 있으며, 제 1 디바이스(110)와 제 2 디바이스(120) 사이의 장애물은 음파 및 전자기파 모두의 강도들을 감소시킨다. 따라서, 제 1 디바이스(120)는 제 2 디바이스(120)로부터의 전자기 신호의 강도의 측정을 통해 제 2 디바이스(120)로부터의 거리 또는 노이즈의 영향을 추정할 수 있다. 제 1 디바이스(120)는 다수의 노이즈 소스 디바이스들 각각으로부터의 거리 또는 노이즈의 영향을 추정하여, 제 1 메시지를 수신하는 것에 응바하여 노이즈를 감소시키기 위한 동작을 수행할 디바이스를 결정할 수 있고, 노이즈를 감소시키기 위한 동작의 종류(예를 들어, 뮤팅, 볼륨 감소, 또는 턴 오프)를 결정할 수 있다. 몇몇 실시예들에 따르면, 제 1 디바이스(110)는 제 2 디바이스(120)로부터의 블루투스 신호의 강도를 측정하여 제 2 디바이스(120)로부터의 거리 또는 노이즈의 영향을 추정할 수 있다. 몇몇 실시예들에, 따르면, 제 2 디바이스(120)는 제 1 디바이스(110)로부터의 블루투스 신호를 포함하는 전자기 신호의 강도를 측정하여, 제 1 디바이스(110)까지의 거리 또는 제 1 디바이스(110)에 대한 노이즈의 영향을 추정할 수 있다. 제 2 디바이스(12)는 추정된 제 1 디바이스(110)까지의 거리 또는 제 1 디바이스(110)에 대한 노이즈의 영향에 기초하여, 노이즈를 감소시키기 위한 동작의 수행할 지 여부, 및 수행할 노이즈를 감소시키기 위한 종류를 결정할 수 있다.According to some embodiments, the first device 110 may be configured to receive electromagnetic energy from the second device 120 to estimate the distance from the second device 120 or the influence of noise from the second device 120. ) You can measure the signal strength. The propagation of sound waves and the propagation of electromagnetic waves have a similar aspect in that the intensity decreases in inverse proportion to the square of the distance, and the obstacle between the first device 110 and the second device 120 is that of both sound waves and electromagnetic waves. Decrease the intensities. Accordingly, the first device 120 may estimate the influence of distance or noise from the second device 120 through measurement of the intensity of the electromagnetic signal from the second device 120. The first device 120 may estimate a distance or an effect of noise from each of the plurality of noise source devices, and determine a device to perform an operation for reducing noise in response to receiving the first message, and noise It is possible to determine the type of operation (eg, muting, volume reduction, or turn-off) to reduce. According to some embodiments, the first device 110 may measure the intensity of the Bluetooth signal from the second device 120 to estimate the effect of distance or noise from the second device 120. According to some embodiments, the second device 120 measures the intensity of the electromagnetic signal, including the Bluetooth signal from the first device 110, to determine the distance to the first device 110 or the first device ( The influence of noise on 110) can be estimated. The second device 12 is based on the estimated distance to the first device 110 or the effect of noise on the first device 110, whether to perform an operation for reducing noise, and noise to perform. You can decide the type to reduce the.
몇몇 실시예들에 따르면, 제 1 디바이스(110)는 제 2 디바이스(120)로부터의 거리 또는 노이즈의 영향을 추정하기 위해 제 2 디바이스(120)로부터 수신된 노이즈의 스펙트럼 특성에 대한 정보를 이용할 수 있다. 노이즈의 스펙트럼 특성에 대한 정보는 단계(210)에서 전송되는 컨텐츠에 대한 정보에 포함될 수 있다. 제 1 디바이스(110)는 노이즈 스펙트럼 특성에 대한 정보와 제 2 디바이스(120)로부터 수신된 노이즈의 스펙트럼에 따른 전력 레벨을 비교함으로써 제 2 디바이스(120)로부터의 거리 또는 노이즈의 영향을 추정할 수 있다. According to some embodiments, the first device 110 can use information about the spectral characteristics of the noise received from the second device 120 to estimate the effect of the distance or noise from the second device 120. have. Information about the spectral characteristics of the noise may be included in information about the content transmitted in step 210. The first device 110 can estimate the effect of the distance or noise from the second device 120 by comparing the information on the noise spectrum characteristics and the power level according to the spectrum of the noise received from the second device 120. have.
제 1 디바이스(110)는 음성 인식과 관련된 동작 또는 어플리케이션이 종료되는 경우 음성 인식을 종료할 수 있다 (360). 몇몇 실시예들에 의하면, 제 1 디바이스(110)는 특정한 기간 동안 음성 신호가 검출되지 않는 경우 음성 인식을 종료할 수 있다. 몇몇 실시예들에 의하면, 단계(360)에서의 음성 인식의 종료는 프리 스피치에 대한 인식의 종료를 의미할 뿐이며, 제 1 디바이스(110)는 단계(360) 이후에도 키워드에 대한 음성 인식을 계속 시도할 수 있다. When the operation or application related to speech recognition is terminated, the first device 110 may end speech recognition (360). According to some embodiments, the first device 110 may end speech recognition when a voice signal is not detected for a specific period of time. According to some embodiments, termination of speech recognition in step 360 only means termination of recognition for pre-speech, and first device 110 continues to attempt speech recognition for keywords after step 360 can do.
제 1 디바이스(110)는 음성 인식이 종료되는 것에 기초하여 제 2 메시지를 제 2 디바이스로 전송할 수 있다 (370). 몇몇 실시예들에 의하면, 제 1 디바이스(110)는 제 2 메시지를 브로드캐스트할 수 있다. 제 1 디바이스(110)는 제 2 메시지를 브로드캐스트하여, 임의의 디바이스들이 제 2 메시지를 수신하여, 오디오 필터를 비활성화하도록 할 수 있다. 제 2 메시지는 제 2 디바이스(120)가 오디오 필터를 비활성화시키도록 하기 위한 것일 수 있다. 제 2 메시지는 제 2 디바이스(120)가 오디오 필터를 비활성화시키도록 하기 위한 명령을 포함할 수 있다. 몇몇 실시예들에 의하면, 제 2 메시지는 제 1 디바이스(110)가 음성 인식을 종료했다는 것을 나타내는 정보를 포함할 뿐, 제 2 디바이스(120)가 오디오 필터를 비활성화시키도록 하기 위한 명시적인 명령을 포함하지 않을 수 있다. 이러한 경우, 제 2 디바이스(120)는 제 2 메시지에 포함된 정보에 기초하여 오디오 필터를 비활성화시킬 것을 결정할 수 있다. 몇몇 실시예들에 따르면, 제 2 메시지는 제 2 디바이스(120)가 오디오 필터를 비활성화시키는 것을 포함하거나 또는 제외한 노이즈를 감소시키기 위한 동작의 중단을 수행하도록 하기 위한 것일 수 있다.The first device 110 may transmit a second message to the second device based on the end of speech recognition (370 ). According to some embodiments, the first device 110 may broadcast the second message. The first device 110 may broadcast a second message to allow arbitrary devices to receive the second message to disable the audio filter. The second message may be for the second device 120 to deactivate the audio filter. The second message can include a command to cause the second device 120 to deactivate the audio filter. According to some embodiments, the second message only includes information indicating that the first device 110 has ended speech recognition, and has issued an explicit command to cause the second device 120 to deactivate the audio filter. May not contain. In this case, the second device 120 may determine to deactivate the audio filter based on the information included in the second message. According to some embodiments, the second message may be to cause the second device 120 to perform an interruption of the operation to reduce noise, including or excluding the audio filter.
제 2 디바이스(120)는 제 2 메시지를 수신하는 것에 응답하여 오디오 필터를 비활성화할 수 있다 (380). 몇몇 실시예들에 따르면, 제 2 디바이스(120)는 제 2 메시지를 수신하지 못하더라도, 오디오 필터를 활성화한 이후, 또는 제 1 메시지를 수신한 이후 특정한 시간이 경과한 경우 오디오 필터를 비활성화할 수 있다. 이를 통해, 제 2 디바이스(120)가 브로드캐스트된 제 2 메시지를 수신하지 못하더라도 지속적으로 오디오 필터가 활성화된 상태가 유지되는 것을 방지할 수 있다. 몇몇 실시예들에 따르면, 제 2 디바이스(120)는 제 2 메시지를 수신하는 것에 응답하여 오디오 필터를 비활성화하는 것 이외의 노이즈를 감소시키기 위한 동작의 중단을 수행할 수 있다.도 4는 본 발명의 일 실시예에 따른 제 1 디바이스의 블록도이다. 제 1 디바이스(110)는 음성 입력기(410), 송수신기(420) 및 제어기(430)를 포함할 수 있다. The second device 120 can deactivate the audio filter in response to receiving the second message (380). According to some embodiments, even if the second device 120 does not receive the second message, the audio filter may be deactivated after activating the audio filter or when a specific time has elapsed since receiving the first message. have. Through this, even if the second device 120 does not receive the broadcast second message, it is possible to prevent the audio filter from being continuously activated. According to some embodiments, second device 120 may perform an interruption in operation to reduce noise other than deactivating the audio filter in response to receiving the second message. Is a block diagram of a first device according to an embodiment of the present invention. The first device 110 may include a voice input device 410, a transceiver 420 and a controller 430.
음성 입력기(410)는 음성 뿐만 아니라 음성을 포함하는 오디오 신호를 검출할 수 있다. 예를 들어, 음성 입력기(410)는 마이크로폰일 수 있다. The voice input unit 410 may detect audio signals including voice as well as voice. For example, the voice input device 410 may be a microphone.
도시되지는 않았으나, 음성 입력기(410)는 오디오 필터를 포함할 수 있다. 제 1 디바이스(110)는 컨텐츠에 대한 정보에 포함된 컨텐츠에 포함된 오디오 신호의 상이한 주파수들에 대한 전력 레벨들을 이용하여, 검출된 오디오 신호에 대하여 특정한 주파수의 신호를 차단하기 위해 오디오 필터를 이용할 수 있다. 몇몇 실시예들에 의하면, 오디오 필터는 음성 입력기(410)와 개별적으로 구성될 수 있다. 몇몇 실시예들에 의하면, 오디오 필터는 소프트웨어 상에서 구현될 수 있다.Although not shown, the voice input device 410 may include an audio filter. The first device 110 uses an audio filter to block a signal of a specific frequency with respect to the detected audio signal by using power levels for different frequencies of the audio signal included in the content included in the information about the content Can be. According to some embodiments, the audio filter may be configured separately from the voice input device 410. According to some embodiments, the audio filter can be implemented in software.
송수신기(420)를 통해 제 1 디바이스(110)는 다른 디바이스 또는 네트워크와 통신을 수행할 수 있다. 송수신기(420)는 블루투스, 적외선 통신, LTE, CDMA, Wi-Fi, Wi-Max, 및 Wi-Bro 등과 같이 알려진 근거리 또는 원거리 통신 프로토콜들 중 적어도 하나 이상을 지원할 수 있다. 송수신기는 단계(210)에서의 컨텐츠에 대한 정보를 수신하고, 단계(340)에서의 제 1 메시지 및 단계(370)에서의 제 2 메시지를 전송할 수 있다.The first device 110 may communicate with other devices or networks through the transceiver 420. The transceiver 420 may support at least one of known short-range or telecommunication protocols such as Bluetooth, infrared communication, LTE, CDMA, Wi-Fi, Wi-Max, and Wi-Bro. The transceiver may receive information about the content in step 210 and transmit the first message in step 340 and the second message in step 370.
제어기(430)는 제 1 디바이스(110)의 다른 구성들(예를 들어, 음성 입력기(410) 및 송수신기(420))의 동작들을 제어할 수 있다. 제어기(430)는 제 1 디바이스(110)의 동작에 필요한 연산들을 수행할 수 있다. 제어기(430)는 적어도 하나의 프로세서로 구현될 수 있다. 제어기(430)는 음성 입력기(410)를 통해 검출된 오디오 신호로부터 음성 신호를 식별하고, 음성 신호에 대응하는 텍스트를 검출할 수 있다. 제어기(430)는 음성 인식을 수행하는 동안 검출된 텍스트로부터 제 2 디바이스(120)에 의해 제공된 컨텐츠에 대한 정보에 기초하여 획득된 자막 또는 가사의 텍스트를 제거하여 음성 인식의 정확성을 높일 수 있다. 몇몇 실시예들에 의하면, 제어기(430)는 클라우드(cloud)를 이용하여 음성 인식을 수행할 수 있다.The controller 430 may control operations of other components of the first device 110 (eg, the voice input device 410 and the transceiver 420 ). The controller 430 may perform operations required for the operation of the first device 110. The controller 430 may be implemented with at least one processor. The controller 430 may identify a voice signal from the audio signal detected through the voice input device 410 and detect text corresponding to the voice signal. The controller 430 may increase the accuracy of speech recognition by removing text of subtitles or lyrics obtained based on information about content provided by the second device 120 from text detected during speech recognition. According to some embodiments, the controller 430 may perform voice recognition using a cloud.
제 1 디바이스(110)는 메모리(440), 디스플레이(450), 및 오디오 출력기(460)를 더 포함할 수 있다. 메모리(440)는 제어기(430)를 동작시키기 위한 명령들을 저장할 수 있다. 메모리(440)는 제어기(430)의 연산 과정에서 생성되거나 또는 요구되는 임시적 또는 영구적 데이터를 저장할 수 있다. 디스플레이(450)는 영상을 재생하도록 구성될 수 있다. 디스플레이(450)는 액정 디스플레이(LCD), 유기 발광 디스플레이(OLED) 또는 전기 영동(electrophoresis) 디스플레이와 같이 알려진 디스플레이 엘리먼트들 중 적어도 하나를 이용하여 구성될 수 있으며, 채용 가능한 디스플레이 엘리먼트는 위에 열거된 것으로 한정되지 않는다. 오디오 출력기(460)는 오디오 신호를 출력하도록 구성될 수 있다. 오디오 출력기(460)는 스피커 또는 오디오 단자일 수 있다. 오디오 출력기(460)는 메모리(440), 디스플레이(450), 및 오디오 출력기(460)의 동작은 제어기(430)에 의해 제어될 수 있다.The first device 110 may further include a memory 440, a display 450, and an audio output device 460. The memory 440 may store instructions for operating the controller 430. The memory 440 may store temporary or permanent data generated or required during the operation of the controller 430. The display 450 may be configured to reproduce an image. The display 450 may be constructed using at least one of known display elements such as a liquid crystal display (LCD), an organic light emitting display (OLED), or an electrophoresis display, and employable display elements are listed above It is not limited. The audio output device 460 may be configured to output an audio signal. The audio output device 460 may be a speaker or an audio terminal. The operation of the memory 440, the display 450, and the audio writer 460 may be controlled by the controller 430.
도 5는 본 발명의 일 실시예에 따른 제 2 디바이스의 블록도이다. 제 2 디바이스(120)는 송수신기(510), 오디오 출력기(520), 제어기(530) 및 오디오 필터(540)를 포함한다. 5 is a block diagram of a second device according to an embodiment of the present invention. The second device 120 includes a transceiver 510, an audio output unit 520, a controller 530 and an audio filter 540.
송수신기(510)를 통해 제 2 디바이스(120)는 다른 디바이스 또는 네트워크와 통신을 수행할 수 있다. 송수신기(510)는 블루투스, 적외선 통신, LTE, CDMA, Wi-Fi, Wi-Max, 및 Wi-Bro 등과 같이 알려진 근거리 또는 원거리 통신 프로토콜들 중 적어도 하나 이상을 지원할 수 있다. 송수신기(510)는 단계(210)에서의 컨텐츠에 대한 정보를 전송하고, 단계(340)에서의 제 1 메시지 및 단계(370)에서의 제 2 메시지를 수신할 수 있다.The second device 120 may communicate with other devices or networks through the transceiver 510. The transceiver 510 may support at least one of known short-range or telecommunication protocols such as Bluetooth, infrared communication, LTE, CDMA, Wi-Fi, Wi-Max, and Wi-Bro. The transceiver 510 may transmit information on the content in step 210 and receive the first message in step 340 and the second message in step 370.
오디오 출력기(520)는 오디오 신호를 출력하도록 구성될 수 있다. 오디오 출력기(520)는 스피커일 수 있다. 몇몇 실시예들에 의하면, 오디오 출력기(520)는 스피커와 유선으로 연결 가능한 인터페이스(예를 들어, 오디오 단자) 또는 무선으로 연결 가능한 인터페이스(예를 들어, 블루투스 인터페이스)를 포함할 수 있다. 스피커와 무선으로 연결 가능한 인터페이스는 송수신기(510)에 포함되거나 또는 송수신기(520)와 적어도 일부 중첩될 수 있다. 몇몇 실시예들에서, 제 2 디바이스(120)는 오디오 출력기(520)를 포함하지 않을 수도 있다.The audio output device 520 may be configured to output an audio signal. The audio output device 520 may be a speaker. According to some embodiments, the audio output device 520 may include an interface (eg, an audio terminal) connectable to a speaker and a wired interface, or an interface (eg, a Bluetooth interface) connectable wirelessly. The interface that can be wirelessly connected to the speaker may be included in the transceiver 510 or at least partially overlap with the transceiver 520. In some embodiments, the second device 120 may not include an audio output device 520.
제어기(530)는 제 2 디바이스(120)의 다른 구성들(예를 들어, 송수신기(510), 오디오 출력기(520) 및 오디오 필터(540))의 동작들을 제어할 수 있다. 제어기(530)는 제 2 디바이스(120)의 동작에 필요한 연산들을 수행할 수 있다. 제어기(530)는 적어도 하나의 프로세서로 구현될 수 있다. 제어기(530)는 제 1 디바이스로부터 수신된 제 1 메시지에 기초하여 노이즈를 감소시키기 위한 동작을 수행할 지 여부를 결정할 수 있다. 예를 들어, 제어기(530)는 제 1 디바이스로부터 수신된 제 1 메시지에 기초하여 오디오 필터(540)를 활성화할 지 또는 비활성화할 지 여부를 결정할 수 있다.The controller 530 may control operations of other components of the second device 120 (eg, the transceiver 510, the audio output unit 520, and the audio filter 540 ). The controller 530 may perform operations necessary for the operation of the second device 120. The controller 530 may be implemented with at least one processor. The controller 530 may determine whether to perform an operation for reducing noise based on the first message received from the first device. For example, the controller 530 may determine whether to activate or deactivate the audio filter 540 based on the first message received from the first device.
오디오 필터(540)는 특정한 주파수 대역(예를 들어, 음성 대역)의 오디오 신호를 차단 또는 감쇄하기 위한 필터일 수 있다. 오디오 필터(540)가 활성화되는 경우, 오디오 출력기(520)에서 출력되는 오디오 신호의 특정한 주파수 대역이 차단되거나 또는 감쇄될 수 있다. 오디오 필터(540)의 활성화를 통해 음성 대역의 오디오 신호를 차단 또는 감쇄하여, 제 1 디바이스(510)의 음성 인식의 정확성을 향상시킬 수 있다. 오디오 필터(540)는 하드웨어적으로 구성되거나 또는 소프트웨어적으로 구성될 수도 있다. 몇몇 실시예들에서, 제 2 디바이스(120)는 오디오 필터(540)를 포함하지 않을 수도 있다. 제 2 디바이스(120)가 오디오 필터(540)를 포함하지 않는 경우, 제 2 디바이스(120)는 오디오 출력기(520) 또한 포함하지 않을 수도 있으나, 반드시 그러한 것은 아니다.제 2 디바이스(120)는 메모리(550) 및 디스플레이(560)를 더 포함할 수 있다. 메모리(550) 및 디스플레이(560)에 대한 설명은 제 1 디바이스(110)의 메모리(440) 및 디스플레이(450)에 대한 설명과 각각 동일하므로 생략하도록 한다.The audio filter 540 may be a filter for blocking or attenuating an audio signal in a specific frequency band (eg, voice band). When the audio filter 540 is activated, a specific frequency band of the audio signal output from the audio output device 520 may be blocked or attenuated. By activating the audio filter 540, the audio signal in the speech band is blocked or attenuated, so that the accuracy of speech recognition of the first device 510 can be improved. The audio filter 540 may be configured in hardware or software. In some embodiments, second device 120 may not include audio filter 540. If the second device 120 does not include the audio filter 540, the second device 120 may not also include the audio writer 520, but is not necessarily so. The second device 120 is a memory 550 and a display 560 may be further included. Descriptions of the memory 550 and the display 560 are the same as the descriptions of the memory 440 and the display 450 of the first device 110, respectively, and thus will be omitted.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.Although the embodiments of the present invention have been described with reference to the accompanying drawings, a person skilled in the art to which the present invention pertains may be implemented in other specific forms without changing the technical spirit or essential features of the present invention. You will understand. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

Claims (14)

  1. 제 1 디바이스에 의해 음성을 인식하기 위한 방법으로서,A method for recognizing speech by a first device,
    제 2 디바이스로부터 상기 제 2 디바이스에 의해 출력되는 컨텐츠에 관한 정보를 수신하는 단계; 및Receiving information on content output by the second device from a second device; And
    상기 컨텐츠에 관한 정보에 기초하여 상기 출력되는 컨텐츠로부터 획득된 데이터를 소거하는 것에 의해, 음성 인식을 수행하는 단계를 포함하는,And performing speech recognition by erasing data obtained from the output content based on the information on the content.
    제 1 디바이스에 의해 음성을 인식하기 위한 방법.A method for recognizing speech by a first device.
  2. 제 1 항에 있어서,According to claim 1,
    상기 컨텐츠에 관한 정보는 상기 컨텐츠에 대한 자막, 상기 컨텐츠에 포함된 노래의 가사, 또는 상기 컨텐츠에 관한 식별 정보 중 적어도 하나를 포함하고,The information about the content includes at least one of subtitles for the content, lyrics of songs included in the content, or identification information about the content,
    상기 컨텐츠에 관한 식별 정보에 기초하여, 네트워크로부터 상기 컨텐츠에 대한 자막 또는 상기 컨텐츠에 포함된 노래의 가사를 획득할 수 있는,Based on the identification information regarding the content, it is possible to obtain subtitles for the content or lyrics of songs included in the content from a network,
    제 1 디바이스에 의해 음성을 인식하기 위한 방법.A method for recognizing speech by a first device.
  3. 제 2 항에 있어서,According to claim 2,
    상기 음성 인식을 수행하는 단계는,The step of performing the speech recognition,
    상기 음성 인식을 통해 획득된 텍스트로부터 상기 컨텐츠에 대한 자막 또는 상기 컨텐츠에 포함된 노래의 가사에 대응하는 텍스트를 소거하는 단계를 포함하는,And erasing subtitles for the content or text corresponding to lyrics of a song included in the content from the text obtained through the speech recognition,
    제 1 디바이스에 의해 음성을 인식하기 위한 방법.A method for recognizing speech by a first device.
  4. 제 1 항에 있어서,According to claim 1,
    상기 음성 인식을 통해 키워드를 검출하는 단계; 및Detecting a keyword through the speech recognition; And
    상기 키워드를 검출하는 것에 기초하여, 상기 제 2 디바이스로 상기 제 2 디바이스가 노이즈를 감소시키기 위한 동작을 수행하도록 하기 위한 제 1 메시지를 전송하는 단계를 더 포함하는,Based on detecting the keyword, further comprising transmitting a first message to the second device to cause the second device to perform an operation to reduce noise,
    제 1 디바이스에 의해 음성을 인식하기 위한 방법.A method for recognizing speech by a first device.
  5. 제 4 항에 있어서,The method of claim 4,
    상기 음성 인식이 중단되는 것에 응답하여, 상기 제 2 디바이스로 상기 제 2 디바이스가 상기 노이즈를 감소시키기 위한 동작을 중단하도록 하기 위한 제 2 메시지를 전송하는 단계를 더 포함하는,In response to the speech recognition being interrupted, further comprising sending a second message to the second device to cause the second device to stop the operation to reduce the noise;
    제 1 디바이스에 의해 음성을 인식하기 위한 방법.A method for recognizing speech by a first device.
  6. 제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스에 의한 방법으로서,A method by a second device for supporting speech recognition by a first device,
    상기 제 2 디바이스에 의해 출력되는 컨텐츠에 대한 정보를 전송하는 단계; 및Transmitting information on content output by the second device; And
    상기 컨텐츠를 출력하는 단계를 포함하고,And outputting the content,
    상기 컨텐츠에 대한 정보는 상기 제 1 디바이스가 음성 인식을 위해 상기 컨텐츠에 대한 정보에 기초하여 상기 컨텐츠로부터 획득된 데이터를 소거하기 위해 이용되는,The information on the content is used by the first device to erase data obtained from the content based on the information on the content for speech recognition,
    제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스에 의한 방법.Method by a second device to support speech recognition by the first device.
  7. 제 6 항에 있어서,The method of claim 6,
    상기 컨텐츠에 관한 정보는 상기 컨텐츠에 대한 자막, 상기 컨텐츠에 포함된 노래의 가사, 또는 상기 컨텐츠에 관한 식별 정보 중 적어도 하나를 포함하고,The information about the content includes at least one of subtitles for the content, lyrics of songs included in the content, or identification information about the content,
    상기 컨텐츠에 관한 식별 정보에 기초하여, 네트워크로부터 상기 컨텐츠에 대한 자막 또는 상기 컨텐츠에 포함된 노래의 가사를 획득할 수 있는,Based on the identification information regarding the content, it is possible to obtain subtitles for the content or lyrics of songs included in the content from a network,
    제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스에 의한 방법.Method by a second device to support speech recognition by the first device.
  8. 제 7 항에 있어서,The method of claim 7,
    상기 컨텐츠에 대한 자막 또는 상기 컨텐츠에 포함된 노래의 가사에 대응하는 텍스트는 상기 제 1 디바이스의 상기 음성 인식을 통해 획득된 텍스트로부터 소거되는,The text corresponding to the lyrics of the subtitle or the song included in the content is erased from the text obtained through the speech recognition of the first device,
    제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스에 의한 방법.Method by a second device to support speech recognition by the first device.
  9. 제 6 항에 있어서,The method of claim 6,
    상기 제 1 디바이스로부터, 상기 제 1 디바이스가 상기 인식을 통해 키워드를 검출하는 것에 기초하여 전송되는 제 1 메시지를 수신하는 단계; 및 Receiving, from the first device, a first message transmitted based on the first device detecting a keyword through the recognition; And
    상기 제 1 메시지를 수신하는 것에 응답하여 노이즈를 감소시키기 위한 동작을 수행하는 단계를 더 포함하는,Further comprising performing an action to reduce noise in response to receiving the first message,
    제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스에 의한 방법.Method by a second device to support speech recognition by the first device.
  10. 제 9 항에 있어서,The method of claim 9,
    상기 제 1 디바이스로부터 상기 제 1 디바이스의 상기 음성 인식이 종료되는 것에 기초하여 전송되는 제 2 메시지를 수신하는 단계;Receiving a second message transmitted from the first device based on the end of the speech recognition of the first device;
    상기 제 2 메시지를 수신하는 것에 응답하여 상기 노이즈를 감소시키기 위한 동작을 중단하는 단계를 더 포함하는,Stopping the operation to reduce the noise in response to receiving the second message,
    제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스에 의한 방법.Method by a second device to support speech recognition by the first device.
  11. 음성을 인식하기 위한 제 1 디바이스로서,A first device for recognizing speech,
    제 2 디바이스로부터 상기 제 2 디바이스에 의해 출력되는 컨텐츠에 관한 정보를 수신하도록 구성되는 송수신기; A transceiver configured to receive information regarding content output by the second device from a second device;
    음성 신호를 검출하도록 구성되는 음성 입력기; 및A voice input device configured to detect a voice signal; And
    상기 컨텐츠에 관한 정보에 기초하여 상기 출력되는 컨텐츠로부터 획득된 데이터를 소거하는 것에 의해, 상기 검출된 음성 신호에 기초하여 음성 인식을 수행하도록 구성되는 제어기를 포함하는,And a controller configured to perform speech recognition based on the detected speech signal by erasing data obtained from the outputted content based on information about the content,
    음성을 인식하기 위한 제 1 디바이스.A first device for recognizing speech.
  12. 제 11 항에 있어서,The method of claim 11,
    상기 제 1 디바이스는 제 2 항 내지 제 5 항 중 한 항의 방법에 따라 동작하도록 적응되는,The first device is adapted to operate according to the method of claim 2,
    음성을 인식하기 위한 제 1 디바이스.A first device for recognizing speech.
  13. 제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스로서,A second device for supporting speech recognition by the first device,
    상기 제 2 디바이스에 의해 출력되는 컨텐츠에 대한 정보를 전송하도록 구성되는 송수신기; 및A transceiver configured to transmit information on content output by the second device; And
    상기 컨텐츠의 오디오 신호를 출력하도록 구성되는 오디오 출력기를 포함하고,And an audio output device configured to output an audio signal of the content,
    상기 컨텐츠에 대한 정보는 상기 제 1 디바이스가 음성 인식을 위해 상기 컨텐츠에 대한 정보에 기초하여 상기 컨텐츠로부터 획득된 데이터를 소거하기 위해 이용되는,The information on the content is used by the first device to erase data obtained from the content based on the information on the content for speech recognition,
    제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스.A second device for supporting speech recognition by the first device.
  14. 제 13 항에 있어서,The method of claim 13,
    상기 제 2 디바이스는 제 7 항 내지 제 10 항 중 한 항의 방법에 따라 동작하도록 적응되는,The second device is adapted to operate according to the method of claim 7,
    제 1 디바이스에 의한 음성 인식을 지원하기 위한 제 2 디바이스.A second device for supporting speech recognition by the first device.
PCT/KR2019/017401 2018-12-14 2019-12-10 Method and device for recognizing speech WO2020122564A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0162182 2018-12-14
KR1020180162182A KR20200074349A (en) 2018-12-14 2018-12-14 Method and apparatus for recognizing speech

Publications (1)

Publication Number Publication Date
WO2020122564A1 true WO2020122564A1 (en) 2020-06-18

Family

ID=71077348

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/017401 WO2020122564A1 (en) 2018-12-14 2019-12-10 Method and device for recognizing speech

Country Status (2)

Country Link
KR (1) KR20200074349A (en)
WO (1) WO2020122564A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037792A (en) * 2020-08-20 2020-12-04 北京字节跳动网络技术有限公司 Voice recognition method and device, electronic equipment and storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150007422A (en) * 2013-07-11 2015-01-21 삼성전자주식회사 Electric equipment and method for controlling the same
KR101551968B1 (en) * 2013-12-30 2015-09-09 현대자동차주식회사 Music source information provide method by media of vehicle
JP2016127300A (en) * 2014-12-26 2016-07-11 アイシン精機株式会社 Speech processing unit
US20180160189A1 (en) * 2016-12-06 2018-06-07 The Directv Group, Inc. Search for content data in content
WO2018211983A1 (en) * 2017-05-16 2018-11-22 Sony Corporation Speech enhancement for speech recognition applications in broadcasting environments
KR20180127100A (en) * 2017-05-19 2018-11-28 엘지전자 주식회사 Method for operating home appliance and voice recognition server system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150007422A (en) * 2013-07-11 2015-01-21 삼성전자주식회사 Electric equipment and method for controlling the same
KR101551968B1 (en) * 2013-12-30 2015-09-09 현대자동차주식회사 Music source information provide method by media of vehicle
JP2016127300A (en) * 2014-12-26 2016-07-11 アイシン精機株式会社 Speech processing unit
US20180160189A1 (en) * 2016-12-06 2018-06-07 The Directv Group, Inc. Search for content data in content
WO2018211983A1 (en) * 2017-05-16 2018-11-22 Sony Corporation Speech enhancement for speech recognition applications in broadcasting environments
KR20180127100A (en) * 2017-05-19 2018-11-28 엘지전자 주식회사 Method for operating home appliance and voice recognition server system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037792A (en) * 2020-08-20 2020-12-04 北京字节跳动网络技术有限公司 Voice recognition method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
KR20200074349A (en) 2020-06-25

Similar Documents

Publication Publication Date Title
KR102019361B1 (en) Wireless audio output devices
US8314720B2 (en) Terminal and method for executing function using human body communication
WO2014069798A1 (en) Voice recognition apparatus and voice recognition method thereof
US20160275961A1 (en) Structure for multi-microphone speech enhancement system
JP2018517167A (en) Method and apparatus for processing audio signals
CN110677768A (en) Wireless earphone control method and device, wireless earphone and storage medium
CN106528545B (en) Voice information processing method and device
JP2019128586A (en) Audio processing method and apparatus, and computer-readable storage medium
CN108024128B (en) Control method and device for Bluetooth music playing, terminal equipment and storage medium
CN106940997B (en) Method and device for sending voice signal to voice recognition system
CN109473097B (en) Intelligent voice equipment and control method thereof
JP7254936B2 (en) Information reception method, transmission method, terminal and network side equipment
JP7271711B2 (en) SSB transmission instruction method, device, terminal, equipment and medium
WO2022083620A1 (en) Signal transmission method and apparatus, and terminal device, smart device, and electronic device
WO2020048175A1 (en) Sound effect processing method, device, electronic device and storage medium
WO2020122564A1 (en) Method and device for recognizing speech
CN110475312B (en) Access control method, message broadcasting method and related equipment
CN110035506B (en) Communication method and related equipment
CN107911777B (en) Processing method and device for return-to-ear function and mobile terminal
US10540974B2 (en) Detection and disposition of commands methods and apparatuses
WO2020080638A1 (en) Electronic device and control method therefor
US20210152965A1 (en) Method for detecting blocking of microphone and related products
CN105450880A (en) Speech signal processing method and speech signal processing device
CN106782614B (en) Sound quality detection method and device
WO2021246795A1 (en) Method and system for recognizing gestures, and non-transitory computer-readable recording medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19896428

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19896428

Country of ref document: EP

Kind code of ref document: A1