KR102658808B1 - Method, device and system for remotely controlling a display screen based on stt - Google Patents

Method, device and system for remotely controlling a display screen based on stt Download PDF

Info

Publication number
KR102658808B1
KR102658808B1 KR1020240020763A KR20240020763A KR102658808B1 KR 102658808 B1 KR102658808 B1 KR 102658808B1 KR 1020240020763 A KR1020240020763 A KR 1020240020763A KR 20240020763 A KR20240020763 A KR 20240020763A KR 102658808 B1 KR102658808 B1 KR 102658808B1
Authority
KR
South Korea
Prior art keywords
user
voice data
command
display screen
decibel
Prior art date
Application number
KR1020240020763A
Other languages
Korean (ko)
Inventor
안승은
최재영
Original Assignee
주식회사 빛가람시스템
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 빛가람시스템 filed Critical 주식회사 빛가람시스템
Priority to KR1020240020763A priority Critical patent/KR102658808B1/en
Application granted granted Critical
Publication of KR102658808B1 publication Critical patent/KR102658808B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

일실시예에 따른 장치는 사용자의 단말로부터 사용자의 음성 데이터를 획득하고, 사용자의 음성 데이터를 텍스트 데이터로 변환하고, 텍스트 데이터를 통해 디스플레이 화면의 제어 명령을 결정하고, 결정된 제어 명령에 따라 디스플레이 화면을 제어한다.A device according to an embodiment acquires the user's voice data from the user's terminal, converts the user's voice data into text data, determines a control command for the display screen through the text data, and determines a control command for the display screen according to the determined control command. control.

Description

STT 기반 디스플레이 화면 원격 제어 방법, 장치 및 시스템 { METHOD, DEVICE AND SYSTEM FOR REMOTELY CONTROLLING A DISPLAY SCREEN BASED ON STT}STT-based display screen remote control method, device, and system {METHOD, DEVICE AND SYSTEM FOR REMOTELY CONTROLLING A DISPLAY SCREEN BASED ON STT}

아래 실시예들은 STT를 기반하여 디스플레이 화면을 원격으로 제어하는 기술에 관한 것이다. The embodiments below relate to technology for remotely controlling a display screen based on STT.

음성 인식 기술, 특히 음성을 텍스트로 변환하는 음성 인식 기술(STT, Speech-to-Text)을 활용하여 디스플레이 화면을 원격으로 제어하는 기술은 다양한 산업 및 사용 환경에서 필수적으로 요구되는 혁신적인 해결책이 되고 있다. The technology to remotely control the display screen using voice recognition technology, especially Speech-to-Text (STT), which converts voice into text, is becoming an essential and innovative solution in various industries and usage environments. .

이러한 기술은 사용자의 편의성 증대, 접근성 향상, 그리고 보다 효율적인 인터랙션 방식의 도입에 기인한다. 예를 들어, 스마트 홈 시스템, 자동차 내부 시스템, 공공장소의 정보 키오스크 등에서 음성을 통한 원격 제어 기능은 사용자가 물리적인 접촉 없이도 여러 기능을 조작할 수 있게 함으로써, 편리성을 제공할 뿐만 아니라, 위생적인 측면에서도 큰 이점을 제공한다. These technologies are due to increased user convenience, improved accessibility, and the introduction of more efficient interaction methods. For example, voice-based remote control functions in smart home systems, car interior systems, and information kiosks in public places not only provide convenience by allowing users to operate various functions without physical contact, but also provide hygiene. It also provides great benefits from the side.

또한, 장애를 가진 사용자나 고령의 사용자 같이 전통적인 인터페이스 사용에 어려움을 겪는 사람들에게는 이 기술이 접근성을 대폭 향상시켜준다. Additionally, this technology greatly improves accessibility for people who have difficulty using traditional interfaces, such as disabled users or elderly users.

이와 더불어, 음성 인식 기반의 원격 디스플레이 제어 기술은 사용자 경험을 개선하고, 인간과 기계 간의 상호작용을 보다 자연스럽고 직관적인 방식으로 전환시키는 중요한 역할을 한다. 예를 들어, 사용자가 음성 명령을 통해 정보를 검색하거나, 설정을 조정하며, 다양한 엔터테인먼트 콘텐츠에 접근할 수 있게 해주는 것이다. In addition, voice recognition-based remote display control technology plays an important role in improving user experience and converting interaction between humans and machines into a more natural and intuitive manner. For example, it allows users to search for information, adjust settings, and access a variety of entertainment content through voice commands.

이러한 기술의 발전은 또한 스마트 기기와의 통합을 통해 IoT(Internet of Things) 생태계 내에서의 상호연결성을 강화하며, 다양한 장치와 시스템 간의 원활한 통신을 가능하게 한다. Advances in these technologies also strengthen interconnectivity within the IoT (Internet of Things) ecosystem through integration with smart devices and enable smooth communication between various devices and systems.

따라서, STT를 기반으로 한 디스플레이 화면의 원격 제어 기술은 사용자의 생활을 보다 편리하고, 접근 가능하며, 상호작용적으로 만드는데 중추적인 역할을 하며, 앞으로도 이 기술의 발전은 사용자 경험을 지속적으로 혁신해 나갈 것이다.Therefore, the remote control technology of the display screen based on STT plays a pivotal role in making users' lives more convenient, accessible, and interactive, and the development of this technology will continue to innovate the user experience in the future. will go out

한국등록특허 제 10-2505719호 (2023.03.03. 공고)Korean Patent No. 10-2505719 (announced on March 3, 2023) 한국등록특허 제 10-2576388호 (2023.09.08. 공고)Korean Patent No. 10-2576388 (announced on 2023.09.08) 한국등록특허 제 10-2227599호 (2021.03.16. 공고)Korean Patent No. 10-2227599 (announced on March 16, 2021) 한국등록특허 제 10-2478631호 (2022.12.19. 공고)Korean Patent No. 10-2478631 (announced on December 19, 2022)

실시예들은 STT를 기반하여 디스플레이 화면을 원격으로 제어하고자 한다.Embodiments seek to remotely control a display screen based on STT.

실시예들은 디스플레이 화면을 원격으로 제어하는 과정에서 사용자 인증을 통해 보안을 강화하고자 한다.Embodiments seek to strengthen security through user authentication in the process of remotely controlling a display screen.

실시예들은 음성 데이터를 기초로 단순 명령인지 복잡 명령인지 파악하고, 복잡 명령일 경우 해당 명령이 맞는지 추가 확인을 수행하고자 한다.Embodiments attempt to determine whether a command is a simple command or a complex command based on voice data, and, in the case of a complex command, additionally check whether the command is correct.

STT 기반 디스플레이 화면 원격 제어 방법은 사용자의 단말로부터 사용자의 음성 데이터를 획득하는 단계; 상기 사용자의 음성 데이터를 텍스트 데이터로 변환하는 단계; 상기 텍스트 데이터를 통해 디스플레이 화면의 제어 명령을 결정하는 단계; 및 상기 결정된 제어 명령에 따라 상기 디스플레이 화면을 제어하는 단계를 포함한다.The STT-based display screen remote control method includes obtaining user's voice data from the user's terminal; Converting the user's voice data into text data; determining a control command for a display screen through the text data; and controlling the display screen according to the determined control command.

STT 기반 디스플레이 화면 원격 제어 방법은 사용자의 단말로부터 사용자의 음성 데이터를 획득하는 단계; 이후에 상기 사용자의 음성 데이터를 기초로 사용자 인증을 수행하는 단계를 더 포함한다.The STT-based display screen remote control method includes obtaining user's voice data from the user's terminal; It further includes performing user authentication based on the user's voice data.

상기 사용자의 음성 데이터를 기초로 사용자 인증을 수행하는 단계는, 상기 사용자의 음성 데이터와 상기 사용자의 기준 데이터를 비교하여 일치율을 생성하는 동작, 상기 일치율이 미리 설정된 기준 비율보다 큰지 여부를 확인하는 동작, 상기 일치율이 상기 기준 비율보다 크다고 확인되면, 사용자 인증을 완료하는 동작, 및 상기 일치율이 상기 기준 비율보다 크지 않다고 확인되면, 추가 인증을 수행하는 동작을 포함하고, 상기 추가 인증을 수행하는 동작은, 상기 사용자의 단말로부터 상기 사용자의 위치를 획득하고, 상기 사용자의 위치가 미리 설정된 구역 내에 포함되어 있는 것에 기반하여 사용자 인증을 완료하는 동작, 및 상기 사용자의 단말로부터 비밀번호를 획득하고, 상기 비밀번호가 미리 설정된 인증번호와 동일한 것에 기반하여 사용자 인증을 완료하는 동작 중 적어도 하나를 포함한다.The step of performing user authentication based on the user's voice data includes comparing the user's voice data with the user's reference data to generate a match rate, and checking whether the match rate is greater than a preset reference rate. , completing user authentication when it is confirmed that the match rate is greater than the reference rate, and performing additional authentication when it is confirmed that the match rate is not greater than the reference rate. The operation of performing the additional authentication includes: , Obtaining the user's location from the user's terminal, completing user authentication based on the user's location being included in a preset area, and Obtaining a password from the user's terminal, and the password is At least one of the operations of completing user authentication based on the same as the preset authentication number is included.

STT 기반 디스플레이 화면 원격 제어 방법은 상기 결정된 제어 명령에 따라 상기 디스플레이 화면을 제어하는 단계 이전에 상기 사용자의 음성 데이터를 기초로, 상기 음성 데이터의 길이 및 상기 음성 데이터에 포함된 단어를 확인하는 단계; 상기 음성 데이터의 길이가 미리 설정된 기준 길이보다 짧은지 여부를 확인하는 단계; 상기 음성 데이터의 길이가 상기 기준 길이보다 짧다고 확인되면, 상기 음성 데이터에 포함된 모든 단어가 미리 생성된 단어 데이터베이스에 포함되는지 여부를 확인하는 단계; 상기 음성 데이터에 포함된 모든 단어가 상기 단어 데이터베이스에 포함된다고 확인되면, 상기 결정된 제어 명령을 단순 명령으로 판단하고, 상기 단순 명령에 따라 상기 디스플레이 화면을 제어하는 단계; 상기 음성 데이터에 포함된 단어 중 상기 단어 데이터베이스에 포함되지 않은 단어가 있다고 확인되거나, 상기 음성 데이터의 길이가 상기 기준 길이보다 짧지 않다고 확인되면, 상기 결정된 제어 명령을 복잡 명령으로 판단하는 단계; 상기 복잡 명령 및 상기 복잡 명령이 맞는지 여부를 묻는 메시지를 사용자의 단말로 전송하는 단계; 및 상기 사용자의 단말로부터 메시지에 대한 응답을 획득하고, 상기 응답을 기초로 상기 디스플레이 화면을 제어하는 단계를 더 포함한다.The STT-based display screen remote control method includes the steps of checking the length of the voice data and words included in the voice data based on the user's voice data before controlling the display screen according to the determined control command; checking whether the length of the voice data is shorter than a preset reference length; When it is confirmed that the length of the voice data is shorter than the reference length, checking whether all words included in the voice data are included in a pre-generated word database; When it is confirmed that all words included in the voice data are included in the word database, determining the determined control command as a simple command and controlling the display screen according to the simple command; If it is confirmed that there is a word included in the voice data that is not included in the word database, or if it is confirmed that the length of the voice data is not shorter than the reference length, determining the determined control command as a complex command; Transmitting the complex command and a message asking whether the complex command is correct to the user's terminal; and obtaining a response to the message from the user's terminal and controlling the display screen based on the response.

STT 기반 디스플레이 화면 원격 제어 방법은 상기 결정된 제어 명령에 따라 상기 디스플레이 화면을 제어하는 단계; 이후에 상기 제어 명령과 상기 제어 명령에 따라 디스플레이 화면이 제어된 시간 정보를 태깅하는 단계; 상기 제어 명령 및 상기 태깅된 시간 정보를 기초로, 상기 제어 명령에 대하여 미리 설정된 목표 값보다 많이 태깅된 시간을 반복 시간으로 선정하는 단계; 및 상기 반복 시간에 상기 제어 명령에 따라 상기 디스플레이 화면이 자동으로 제어되도록 설정하는 단계를 더 포함한다.The STT-based display screen remote control method includes controlling the display screen according to the determined control command; subsequently tagging the control command and information on the time at which the display screen was controlled according to the control command; Based on the control command and the tagged time information, selecting a time tagged more than a preset target value for the control command as a repetition time; and setting the display screen to be automatically controlled according to the control command at the repetition time.

STT 기반 디스플레이 화면 원격 제어 방법은 상기 사용자의 음성 데이터를 기초로, 데시벨을 확인하는 단계; 상기 데시벨이 미리 설정된 임계 범위 내에 포함되는지 여부를 확인하는 단계; 상기 데시벨이 상기 임계 범위 내에 포함된다고 확인되면, 데시벨에 따른 추가 명령을 제안하지 않는 단계; 상기 데시벨이 상기 임계 범위 내에 포함되지 않는다고 확인되면, 상기 데시벨이 상기 임계 범위의 최대 데시벨보다 큰지 여부를 확인하는 단계; 상기 데시벨이 상기 임계 범위의 최대 데시벨보다 크다고 확인되면, 제1 추가 명령을 제안하는 단계; 및 상기 데시벨이 상기 임계 범위의 최소 데시벨보다 작다고 확인되면, 제2 추가 명령을 제안하는 단계;를 더 포함한다. The STT-based display screen remote control method includes checking the decibel based on the user's voice data; checking whether the decibel is within a preset threshold range; If it is confirmed that the decibel is within the threshold range, not proposing an additional command according to the decibel; If it is determined that the decibel is not within the threshold range, checking whether the decibel is greater than the maximum decibel of the threshold range; if it is determined that the decibel is greater than the maximum decibel of the threshold range, proposing a first additional command; and if it is confirmed that the decibel is less than the minimum decibel of the threshold range, proposing a second additional command.

일실시예에 따른 장치는 하드웨어와 결합되어 상술한 방법들 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램에 의해 제어될 수 있다.The device according to one embodiment may be combined with hardware and controlled by a computer program stored in a medium to execute any one of the above-described methods.

실시예들은 STT를 기반하여 디스플레이 화면을 원격으로 제어할 수 있다.Embodiments may remotely control a display screen based on STT.

실시예들은 디스플레이 화면을 원격으로 제어하는 과정에서 사용자 인증을 통해 보안을 강화할 수 있다.Embodiments may enhance security through user authentication in the process of remotely controlling the display screen.

실시예들은 음성 데이터를 기초로 단순 명령인지 복잡 명령인지 파악하고, 복잡 명령일 경우 해당 명령이 맞는지 추가 확인을 수행할 수 있다.Embodiments may determine whether a command is a simple command or a complex command based on voice data, and if it is a complex command, additional confirmation may be performed to determine whether the command is correct.

한편, 실시예들에 따른 효과들은 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 해당 기술 분야의 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.Meanwhile, the effects according to the embodiments are not limited to those mentioned above, and other effects not mentioned can be clearly understood by those skilled in the art from the description below.

도 1은 일실시예에 따른 시스템의 구성을 개략적으로 나타낸 도면이다.
도 2는 일실시예에 따른 STT를 기반으로 디스플레이 화면을 원격으로 제어하는 과정을 설명하기 위한 순서도이다.
도 3은 일실시예에 따른 사용자의 음성 데이터를 통해 사용자 인증을 수행하는 과정을 설명하기 위한 순서도이다.
도 4는 일실시예에 따른 추가 인증을 수행하는 과정을 설명하기 위한 순서도이다.
도 5는 일실시예에 따른 단순 명령인지 복잡 명령인지 파악하고, 디스플레이 화면을 제어하는 과정을 설명하기 위한 순서도이다
도 6은 일실시예에 따른 반복 시간에 제어 명령이 자동으로 수행되도록 설정하는 과정을 설명하기 위한 순서도이다.
도 7은 일실시예에 따른 데시벨에 따라 추가 명령을 제안하는 과정을 설명하기 위한 순서도이다.
도 8은 일실시예에 따른 장치의 구성의 예시도이다.
1 is a diagram schematically showing the configuration of a system according to an embodiment.
Figure 2 is a flowchart for explaining a process of remotely controlling a display screen based on STT according to an embodiment.
Figure 3 is a flowchart explaining a process of performing user authentication through user voice data according to an embodiment.
Figure 4 is a flowchart for explaining a process of performing additional authentication according to an embodiment.
Figure 5 is a flowchart for explaining the process of determining whether a command is simple or complex and controlling the display screen according to an embodiment.
FIG. 6 is a flowchart illustrating a process for setting a control command to be automatically performed at a repetition time according to an embodiment.
FIG. 7 is a flowchart illustrating a process for proposing an additional command according to a decibel according to an embodiment.
Figure 8 is an exemplary diagram of the configuration of a device according to an embodiment.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.Hereinafter, embodiments will be described in detail with reference to the attached drawings. However, various changes can be made to the embodiments, so the scope of the patent application is not limited or limited by these embodiments. It should be understood that all changes, equivalents, or substitutes for the embodiments are included in the scope of rights.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Specific structural or functional descriptions of the embodiments are disclosed for illustrative purposes only and may be modified and implemented in various forms. Accordingly, the embodiments are not limited to the specific disclosed form, and the scope of the present specification includes changes, equivalents, or substitutes included in the technical spirit.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Terms such as first or second may be used to describe various components, but these terms should be interpreted only for the purpose of distinguishing one component from another component. For example, a first component may be named a second component, and similarly, the second component may also be named a first component.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.When a component is referred to as being “connected” to another component, it should be understood that it may be directly connected or connected to the other component, but that other components may exist in between.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the examples are for descriptive purposes only and should not be construed as limiting. Singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, terms such as “comprise” or “have” are intended to designate the presence of features, numbers, steps, operations, components, parts, or combinations thereof described in the specification, but are not intended to indicate the presence of one or more other features. It should be understood that this does not exclude in advance the possibility of the existence or addition of elements, numbers, steps, operations, components, parts, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as generally understood by a person of ordinary skill in the technical field to which the embodiments belong. Terms defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related technology, and should not be interpreted in an ideal or excessively formal sense unless explicitly defined in the present application. No.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.In addition, when describing with reference to the accompanying drawings, identical components will be assigned the same reference numerals regardless of the reference numerals, and overlapping descriptions thereof will be omitted. In describing the embodiments, if it is determined that detailed descriptions of related known technologies may unnecessarily obscure the gist of the embodiments, the detailed descriptions are omitted.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. Embodiments may be implemented in various types of products such as personal computers, laptop computers, tablet computers, smart phones, televisions, smart home appliances, intelligent vehicles, kiosks, and wearable devices.

도 1은 일실시예에 따른 시스템의 구성을 개략적으로 나타낸 도면이다.1 is a diagram schematically showing the configuration of a system according to an embodiment.

도 1을 참조하면, 일실시예에 따른 시스템은 통신망을 통해 서로 통신 가능한 사용자의 단말(100), 디스플레이 화면(300), 및 장치(200)를 포함할 수 있다.Referring to FIG. 1, a system according to an embodiment may include a user terminal 100, a display screen 300, and a device 200 that can communicate with each other through a communication network.

먼저, 통신망은 유선 및 무선 등과 같이 그 통신 양태를 가리지 않고 구성될 수 있으며, 서버와 서버 간의 통신과 서버와 단말 간의 통신이 수행되도록 다양한 형태로 구현될 수 있다.First, a communication network can be configured regardless of the communication mode, such as wired or wireless, and can be implemented in various forms to enable communication between servers and between servers and terminals.

사용자의 단말(100)은 음성 인식을 통해 디스플레이 화면을 제어하고자 하는 사용자가 사용하는 단말로, 데스크탑 컴퓨터, 노트북, 태블릿, 스마트폰 등일 수 있다. The user terminal 100 is a terminal used by a user who wants to control the display screen through voice recognition, and may be a desktop computer, laptop, tablet, smartphone, etc.

사용자의 단말(100)은 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다. 사용자의 단말(100)은 장치(200)와 유무선으로 통신하도록 구성될 수 있다.The user's terminal 100 may be configured to perform all or part of the calculation function, storage/reference function, input/output function, and control function of a typical computer. The user's terminal 100 may be configured to communicate with the device 200 wired or wirelessly.

사용자의 단말(100)은 장치(200)를 이용하여 서비스를 제공하는 자 내지 단체가 운영하는 웹 사이트에 접속되거나, 장치(200)를 이용하여 서비스를 제공하는 자 내지 단체가 개발·배포한 애플리케이션이 설치될 수 있다. 사용자의 단말(100)은 웹 사이트 또는 애플리케이션을 통해 장치(200)와 연동될 수 있다.The user's terminal 100 is connected to a website operated by a person or organization that provides services using the device 200, or an application developed and distributed by a person or organization that provides services using the device 200. This can be installed. The user's terminal 100 may be linked to the device 200 through a website or application.

이하에서는 설명의 편의상, 도 1 및 이하의 설명에서는 사용자의 단말(100) 하나만을 도시하였으나, 단말들의 수는 실시예에 따라 얼마든지 달라질 수 있다. 장치(200)의 처리 용량이 허용하는 한, 단말들의 수는 특별한 제한이 없다. Below, for convenience of explanation, only one user terminal 100 is shown in FIG. 1 and the following description, but the number of terminals may vary depending on the embodiment. As long as the processing capacity of the device 200 allows, the number of terminals is not particularly limited.

디스플레이 화면(300)은 정보를 시각적으로 형태로 표현하는 장치일 수 있으며, 디스플레이 장치와 동일한 의미로 사용될 수 있다. 디스플레이 화면(300)은 컴퓨터 모니터, 텔레비전, 스마트폰, 태블릿, 스마트워치, 냉장고 스크린 등의 다양한 전자 장치로 구현될 수 있으며, 이에 한정되는 것은 아니다. 디스플레이 화면(300)은 장치(200)와 유무선으로 통신할 수 있으며, 장치(200)를 통해 제어될 수 있다. 한편, 디스플레이 화면(300)은 본문에 작성하지 않았지만, 통상적으로 디스플레이 화면 및 디스플레이 장치가 수행하는 업무를 수행할 수 있다.The display screen 300 may be a device that visually expresses information and may be used in the same sense as a display device. The display screen 300 may be implemented with various electronic devices such as a computer monitor, television, smartphone, tablet, smart watch, refrigerator screen, etc., but is not limited thereto. The display screen 300 can communicate with the device 200 wired or wirelessly and can be controlled through the device 200. Meanwhile, the display screen 300, although not written in the main text, can perform tasks normally performed by display screens and display devices.

장치(200)는 장치(200)를 이용하여 서비스를 제공하는 자 내지 단체가 보유한 자체 서버일수도 있고, 클라우드 서버일 수도 있고, 분산된 노드(node)들의 p2p(peer-to-peer) 집합일 수도 있다. 장치(200)는 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다. 장치(200)는 추론 기능을 수행하는 적어도 하나 이상의 인공신경망을 구비할 수 있다. 장치(200)는 사용자의 단말(100), 및 디스플레이 화면(300)과 유무선으로 통신하도록 구성될 수 있다.The device 200 may be its own server owned by a person or organization that provides services using the device 200, a cloud server, or a p2p (peer-to-peer) set of distributed nodes. It may be possible. The device 200 may be configured to perform all or part of the calculation function, storage/reference function, input/output function, and control function of a typical computer. The device 200 may include at least one artificial neural network that performs an inference function. The device 200 may be configured to communicate wired or wirelessly with the user's terminal 100 and the display screen 300.

또한, 장치(200)는 블로그, 카페, 인스타그램, 페이스북, 트위터, 유튜브를 포함하는 SNS 및 기사를 포함하는 웹 페이지를 포함하는 웹사이트와 유무선으로 통신할 수 있으며, 장치(200)는 웹사이트에 접속하여 정보를 획득할 수 있다.Additionally, the device 200 can communicate wired or wirelessly with websites including web pages including articles and SNS including blogs, cafes, Instagram, Facebook, Twitter, and YouTube, and the device 200 You can obtain information by accessing the website.

장치(200)는 사용자의 단말(100)로부터 사용자의 음성 데이터를 획득하고, 사용자의 음성 데이터를 텍스트 데이터로 변환하고, 텍스트 데이터를 통해 디스플레이 화면의 제어 명령을 결정하고, 결정된 제어 명령에 따라 디스플레이 화면(300)을 제어할 수 있다.The device 200 acquires the user's voice data from the user's terminal 100, converts the user's voice data into text data, determines a control command for the display screen through the text data, and displays the display screen according to the determined control command. The screen 300 can be controlled.

본 발명에서, 인공지능(Artificial Intelligence, AI)은 인간의 학습능력, 추론능력, 지각능력 등을 모방하고, 이를 컴퓨터로 구현하는 기술을 의미하고, 기계 학습, 심볼릭 로직(Symbolic Logic) 등의 개념을 포함할 수 있다. 기계 학습(Machine Learning, ML)은 입력 데이터들의 특징을 스스로 분류 또는 학습하는 알고리즘 기술이다. 인공지능의 기술은 기계 학습의 알고리즘으로써 입력 데이터를 분석하고, 그 분석의 결과를 학습하며, 그 학습의 결과에 기초하여 판단이나 예측을 할 수 있다. 또한, 기계 학습의 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술들 역시 인공지능의 범주로 이해될 수 있다. 예를 들어, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야가 포함될 수 있다.In the present invention, artificial intelligence (AI) refers to technology that imitates human learning ability, reasoning ability, perception ability, etc. and implements this with a computer, and includes concepts such as machine learning and symbolic logic. may include. Machine Learning (ML) is an algorithmic technology that classifies or learns the characteristics of input data on its own. Artificial intelligence technology is a machine learning algorithm that analyzes input data, learns the results of the analysis, and makes judgments or predictions based on the results of the learning. Additionally, technologies that mimic the functions of the human brain, such as cognition and judgment, using machine learning algorithms can also be understood as the category of artificial intelligence. For example, technical fields such as verbal understanding, visual understanding, reasoning/prediction, knowledge representation, and motion control may be included.

기계 학습은 데이터를 처리한 경험을 이용해 신경망 모델을 훈련시키는 처리를 의미할 수 있다. 기계 학습을 통해 컴퓨터 소프트웨어는 스스로 데이터 처리 능력을 향상시키는 것을 의미할 수 있다. 신경망 모델은 데이터 사이의 상관 관계를 모델링하여 구축된 것으로서, 그 상관 관계는 복수의 파라미터에 의해 표현될 수 있다. 신경망 모델은 주어진 데이터로부터 특징들을 추출하고 분석하여 데이터 간의 상관 관계를 도출하는데, 이러한 과정을 반복하여 신경망 모델의 파라미터를 최적화해 나가는 것이 기계 학습이라고 할 수 있다. 예를 들어, 신경망 모델은 입출력 쌍으로 주어지는 데이터에 대하여, 입력과 출력 사이의 매핑(상관 관계)을 학습할 수 있다. 또는, 신경망 모델은 입력 데이터만 주어지는 경우에도 주어진 데이터 사이의 규칙성을 도출하여 그 관계를 학습할 수도 있다.Machine learning can refer to the process of training a neural network model using experience processing data. Machine learning can mean that computer software improves its own data processing capabilities. A neural network model is built by modeling the correlation between data, and the correlation can be expressed by a plurality of parameters. A neural network model extracts and analyzes features from given data to derive correlations between data. Repeating this process to optimize the parameters of the neural network model can be called machine learning. For example, a neural network model can learn the mapping (correlation) between input and output for data given as input-output pairs. Alternatively, a neural network model may learn the relationships by deriving regularities between given data even when only input data is given.

인공지능 학습모델 또는 신경망 모델은 인간의 뇌 구조를 컴퓨터 상에서 구현하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하며 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 뉴런의 시냅틱(synaptic) 활동을 모의하여, 서로 간의 연결 관계를 가질 수 있다. 인공지능 학습모델에서 복수의 네트워크 노드들은 서로 다른 깊이의 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 인공지능 학습모델은, 예를 들어, 인공 신경망 모델(Artificial Neural Network), 컨볼루션 신경망 모델(Convolution Neural Network: CNN) 등일 수 있다. 일 실시예로서, 인공지능 학습모델은, 지도학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 등의 방식에 따라 기계 학습될 수 있다. 기계 학습을 수행하기 위한 기계 학습 알고리즘에는, 의사결정트리(Decision Tree), 베이지안 망(Bayesian Network), 서포트 벡터 머신(Support Vector Machine), 인공 신경망(Artificial Neural Network), 에이다부스트(Ada-boost), 퍼셉트론(Perceptron), 유전자 프로그래밍(Genetic Programming), 군집화(Clustering) 등이 사용될 수 있다.An artificial intelligence learning model or neural network model may be designed to implement the human brain structure on a computer, and may include a plurality of network nodes with weights that simulate neurons of a human neural network. A plurality of network nodes may have a connection relationship with each other by simulating the synaptic activity of neurons in which neurons exchange signals through synapses. In an artificial intelligence learning model, multiple network nodes are located in layers of different depths and can exchange data according to convolutional connection relationships. The artificial intelligence learning model may be, for example, an artificial neural network model (Artificial Neural Network), a convolution neural network (CNN) model, etc. As an example, an artificial intelligence learning model may be machine-learned according to methods such as supervised learning, unsupervised learning, and reinforcement learning. Machine learning algorithms for performing machine learning include Decision Tree, Bayesian Network, Support Vector Machine, Artificial Neural Network, and Ada-boost. , Perceptron, Genetic Programming, Clustering, etc. can be used.

이중, CNN은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. CNN은 하나 또는 여러 개의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 CNN은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다. 다른 딥러닝 구조들과 비교해서, CNN은 영상, 음성 분야 모두에서 좋은 성능을 보여준다. CNN은 또한 표준 역전달을 통해 훈련될 수 있다. CNN은 다른 피드포워드 인공신경망 기법들보다 쉽게 훈련되는 편이고 적은 수의 매개변수를 사용한다는 이점이 있다.Among them, CNN is a type of multilayer perceptrons designed to use minimal preprocessing. CNN consists of one or several convolution layers and general artificial neural network layers on top of them, and additionally utilizes weights and pooling layers. Thanks to this structure, CNN can fully utilize input data with a two-dimensional structure. Compared to other deep learning structures, CNN shows good performance in both video and audio fields. CNNs can also be trained via standard back propagation. CNNs have the advantage of being easier to train and using fewer parameters than other feedforward artificial neural network techniques.

컨볼루션 네트워크는 묶인 파라미터들을 가지는 노드들의 집합들을 포함하는 신경 네트워크들이다. 사용 가능한 트레이닝 데이터의 크기 증가와 연산 능력의 가용성이, 구분적 선형 단위 및 드롭아웃 트레이닝과 같은 알고리즘 발전과 결합되어, 많은 컴퓨터 비전 작업들이 크게 개선되었다. 오늘날 많은 작업에 사용할 수 있는 데이터 세트들과 같은 엄청난 양의 데이터 세트에서는 초과 맞춤(outfitting)이 중요하지 않으며, 네트워크의 크기를 늘리면 테스트 정확도가 향상된다. 컴퓨팅 리소스들의 최적 사용은 제한 요소가 된다. 이를 위해, 심층 신경 네트워크들의 분산된, 확장 가능한 구현예가 사용될 수 있다.Convolutional networks are neural networks that contain sets of nodes with bound parameters. The increasing size of available training data and the availability of computational power, combined with algorithmic advances such as piecewise linear unit and dropout training, have led to significant improvements in many computer vision tasks. For extremely large data sets, such as those available for many tasks today, overfitting is not critical, and increasing the size of the network improves test accuracy. Optimal use of computing resources becomes a limiting factor. For this purpose, distributed, scalable implementations of deep neural networks can be used.

도 2는 일실시예에 따른 STT를 기반으로 디스플레이 화면을 원격으로 제어하는 과정을 설명하기 위한 순서도이다.Figure 2 is a flow chart to explain a process of remotely controlling a display screen based on STT according to an embodiment.

도 2를 참조하면, 먼저 S201 단계에서, 장치(200)는 사용자의 단말(100)로부터 사용자의 음성 데이터를 획득할 수 있다.Referring to FIG. 2, first, in step S201, the device 200 may obtain the user's voice data from the user's terminal 100.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 사용자의 음성이 담긴 음성 데이터를 획득할 수 있으며, 사용자의 음성 데이터에는 사용자가 제어하고자 하는 디스플레이 화면의 정보 및 사용자가 디스플레이 화면을 어떻게 하고 싶은지에 대한 정보가 포함될 수 있다. 이때, 사용자의 음성 데이터는 mp3, wav, m4a, flac, ogg, amr의 형식의 음성 데이터일 수 있으며, 이에 한정되는 것은 아니다.Specifically, the device 200 can obtain voice data containing the user's voice from the user's terminal 100, and the user's voice data includes information on the display screen that the user wants to control and how the user controls the display screen. Information about what you want may be included. At this time, the user's voice data may be in the form of mp3, wav, m4a, flac, ogg, or amr, but is not limited thereto.

S202 단계에서, 장치(200)는 사용자의 음성 데이터를 텍스트 데이터로 변환할 수 있다.In step S202, the device 200 may convert the user's voice data into text data.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 획득한 사용자의 음성 데이터를 장치(200)에 포함된 STT 모듈을 통해 텍스트 데이터로 변환할 수 있다. 이때, STT는 Speech-to-Text로, 사람이 말하는 음성 언어를 해석하여 텍스트 데이터로 전환하는 처리를 말한다. STT 모듈은 장치(200)에 포함될 수 있으며, STT 모듈은 음성 데이터로부터 음향모델, 어휘/발음사전, 언어모델을 포함한 인식 네트워크 모델을 생성하는 오프라인 학습단계와 사용자가 발성한 음성을 인식하는 온라인 탐색 단계를 통해 사용자의 음성 데이터를 텍스트 데이터로 변환할 수 있다. STT 모듈은 본문에 작성하지 않았지만 통상적으로 STT 모듈이 수행하는 업무를 통해 사용자의 음성 데이터를 텍스트 데이터로 변환할 수 있다.Specifically, the device 200 may convert the user's voice data obtained from the user's terminal 100 into text data through the STT module included in the device 200. At this time, STT stands for Speech-to-Text, which refers to the process of interpreting human voice language and converting it into text data. The STT module may be included in the device 200, and the STT module includes an offline learning step that generates a recognition network model including an acoustic model, vocabulary/pronunciation dictionary, and language model from voice data, and an online search that recognizes the voice uttered by the user. You can convert the user's voice data into text data through these steps. Although the STT module is not written in the main text, it can convert the user's voice data into text data through the tasks normally performed by the STT module.

S203 단계에서, 장치(200)는 텍스트 데이터를 통해 디스플레이 화면의 제어 명령을 결정할 수 있다.In step S203, the device 200 may determine a control command for the display screen through text data.

구체적으로, 장치(200)는 텍스트 데이터를 전처리할 수 있다. 이때, 장치(200)는 텍스트 데이터를 전처리하기 위해, 텍스트 데이터에서 불필요한 문자, 특수 문자, 공백 등을 제거하고, 텍스트를 표준 형식으로 변환할 수 있고, 텍스트 데이터를 단어나 구(phrase) 단위로 분리하여 분석의 기본 단위를 생성할 수 있고, 텍스트 데이터에 포함된 단어의 다양한 변형을 기본 형태로 변환할 수 있고, 불용어를 제거할 수 있다.Specifically, the device 200 can preprocess text data. At this time, in order to preprocess the text data, the device 200 can remove unnecessary characters, special characters, spaces, etc. from the text data, convert the text into a standard format, and convert the text data into words or phrases. By separating them, you can create basic units of analysis, various variations of words contained in text data can be converted to their basic form, and stop words can be removed.

또한, 장치(200)는 전처리가 완료된 텍스트 데이터를 통해 특징을 추출할 수 있다. 이때, 장치(200)는 Word2Vec, GloVe, FastText 등을 활용하여 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 수치적으로 표현할 수 있고, BERT, GPT와 같은 사전 훈련된 언어 모델을 활용하여 전체 문장이나 문단의 의미를 벡터로 표현할 수 있다. Additionally, the device 200 can extract features through preprocessed text data. At this time, the device 200 can numerically express the semantic relationship between words by mapping words to a vector space using Word2Vec, GloVe, FastText, etc., and can use pre-trained language models such as BERT and GPT to express the overall The meaning of a sentence or paragraph can be expressed as a vector.

또한, 장치(200)는 명령어 분류, 의도 인식, 엔티티 인식 등의 기존에 활용되는 모델에 텍스트 데이터 및 추출된 특징 벡터를 입력하여 디스플레이 화면의 제어 명령을 결정할 수 있다.Additionally, the device 200 may determine a control command for the display screen by inputting text data and extracted feature vectors into existing models such as command classification, intent recognition, and entity recognition.

한편, 텍스트 데이터를 통해 디스플레이 화면의 제어 명령을 결정하는 과정은 이에 한정되지 않고, 통상적으로 사용되는 자연어 처리를 통해 의도 파악하는 방법과 동일하게 수행될 수 있다.Meanwhile, the process of determining the control command of the display screen through text data is not limited to this and can be performed in the same way as the commonly used method of determining intent through natural language processing.

S204 단계에서, 장치(200)는 제어 명령에 따라 디스플레이 화면을 제어할 수 있다.In step S204, the device 200 can control the display screen according to the control command.

구체적으로, 장치(200)는 텍스트 데이터를 통해 사용자가 제어하고자 하는 디스플레이 화면 및 사용자의 의도를 파악하여 제어 명령을 결정할 수 있고, 장치(200)는 결정된 제어 명령에 따라 디스플레이 화면(300)을 제어하기 위해, 디스플레이 화면(300)을 인식할 수 있다. 이를 위해, 장치(200)는 장치(200)에 구비된 데이터베이스에 사용자와 매칭하여 사용자가 관리하는 즉, 사용자가 제어할 수 있는 디스플레이 화면에 대한 정보를 저장할 수 있으며, 장치(200)는 데이터베이스를 통해 사용자가 제어하고자 하는 디스플레이 화면에 대한 정보를 확인하고, 사용자가 제어하고자 하는 디스플레이 화면을 인식할 수 있다. 또한, 장치(200)는 사용자가 제어하고자 하는 디스플레이 화면(300)이 인식되면, 제어 명령에 따라 디스플레이 화면(300)을 제어할 수 있다.Specifically, the device 200 can determine the control command by identifying the display screen the user wants to control and the user's intention through text data, and the device 200 controls the display screen 300 according to the determined control command. To do this, the display screen 300 can be recognized. To this end, the device 200 can store information about the display screen that the user manages by matching the user to the database provided in the device 200, that is, the display screen that the user can control, and the device 200 stores the database. Through this, you can check information about the display screen that the user wants to control and recognize the display screen that the user wants to control. Additionally, when the device 200 recognizes the display screen 300 that the user wants to control, it can control the display screen 300 according to a control command.

즉, 장치(200)는 사용자의 음성 데이터를 통해 사용자의 의도를 파악할 수 있고, 사용자의 의도에 따라 디스플레이 화면을 제어할 수 있다.That is, the device 200 can determine the user's intention through the user's voice data and control the display screen according to the user's intention.

한편, 장치(200)는 사용자의 단말(100)로부터 사용자의 음성 데이터를 획득하면, 사용자의 음성 데이터를 기초로 사용자가 맞는지 사용자 인증을 수행하여 사용자 인증이 완료되었을 때 디스플레이 화면을 제어하고, 사용자 인증이 완료되지 않았으면 디스플레이 화면을 제어하지 않을 수 있다.Meanwhile, when the device 200 obtains the user's voice data from the user's terminal 100, the device 200 performs user authentication to determine whether the user is the correct user based on the user's voice data, controls the display screen when user authentication is completed, and controls the user's voice data. If authentication has not been completed, you may not be able to control the display screen.

도 3은 일실시예에 따른 사용자의 음성 데이터를 통해 사용자 인증을 수행하는 과정을 설명하기 위한 순서도이다.FIG. 3 is a flowchart illustrating a process of performing user authentication through user voice data according to an embodiment.

도 3을 참조하면, 먼저 S301 단계에서, 장치(200)는 사용자의 음성 데이터와 사용자의 기준 데이터를 비교하여 일치율을 생성할 수 있다.Referring to FIG. 3, first, in step S301, the device 200 may compare the user's voice data and the user's reference data to generate a match rate.

이를 위해, 장치(200)에 구비된 데이터베이스에는 사용자와 매칭하여 사용자의 평상 시 음성 데이터인 사용자의 기준 데이터가 저장될 수 있다. To this end, the database provided in the device 200 may store the user's standard data, which is the user's usual voice data, by matching the user.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 사용자의 음성 데이터를 획득하면, 사용자의 음성 데이터와 데이터베이스에 저장된 사용자의 기준 데이터를 비교하여 일치율을 생성할 수 있다. Specifically, when the device 200 obtains the user's voice data from the user's terminal 100, the device 200 may compare the user's voice data with the user's reference data stored in the database to generate a match rate.

이때, 장치(200)는 일치율을 생성하기 위해, 사용자의 음성 데이터와 사용자의 기준 데이터를 노이즈 제거, 음성의 볼륨 표준화 등 전처리할 수 있으며, 전처리된 사용자의 음성 데이터를 통해 특징을 추출하고, 전처리된 사용자의 기준 데이터를 통해 특징을 추출할 수 있다. 여기서, 장치(200)는 특징을 추출하기 위해 기존에 사용되는 MFCC(Mel-Frequency Cepstral Coefficients), LPC(Linear Predictive Coding), 혹은 음향 모델을 활용할 수 있으며, 그 외에 통상적으로 사용되는 특징 추출 알고리즘을 활용할 수도 있다. 또한, 장치(200)는 추출된 특징을 기초로, 특징 벡터를 생성할 수 있고, 특징 벡터를 통해 일치율을 계산할 수 있다. 이때, 장치(200)는 일치율을 계산하기 위해 동적 시간 왜곡(DTW)이나 코사인 유사도와 같은 알고리즘을 사용할 수 있으며, 그 외에 통상적으로 사용되는 특징 벡터 간의 일치율을 생성하는 방법을 활용할 수도 있다. At this time, in order to generate a match rate, the device 200 may preprocess the user's voice data and the user's reference data, such as removing noise and standardizing the volume of the voice, extract features through the preprocessed user's voice data, and preprocess the user's voice data. Features can be extracted through the user's reference data. Here, the device 200 may utilize previously used Mel-Frequency Cepstral Coefficients (MFCC), Linear Predictive Coding (LPC), or acoustic models to extract features, and may use other commonly used feature extraction algorithms. You can also use it. Additionally, the device 200 can generate a feature vector based on the extracted features and calculate a match rate through the feature vector. At this time, the device 200 may use an algorithm such as dynamic time warping (DTW) or cosine similarity to calculate the matching rate, and may also utilize a method of generating a matching rate between commonly used feature vectors.

한편, 장치(200)는 사용자의 음성 데이터와 사용자의 기준 데이터를 비교하여 일치율을 생성하는 방법은 이에 한정되지 않고, 음성 데이터 및 기준 데이터에 포함된 음성의 피치의 일치율, 강도의 일치율, 음색의 일치율, 발음 패턴의 일치율을 기초로 평균값을 산출하여 생성할 수도 있다. Meanwhile, the method of generating the match rate by comparing the user's voice data and the user's reference data is not limited to this, and the method of the device 200 is not limited to this, but the match rate of the pitch, intensity, and timbre of the voice included in the voice data and the reference data is not limited to this. It can also be generated by calculating the average value based on the matching rate and pronunciation pattern matching rate.

S302 단계에서, 장치(200)는 일치율이 기준 비율보다 높은지 여부를 확인할 수 있다. 여기서, 기준 비율은 미리 설정된 비율로 실시 예에 따라 달라질 수 있다.In step S302, the device 200 may check whether the match rate is higher than the reference rate. Here, the reference ratio is a preset ratio and may vary depending on the embodiment.

구체적으로, 장치(200)는 사용자의 음성 데이터와 사용자의 기준 데이터를 비교하여 생성된 일치율이 미리 설정된 기준 비율보다 높은지 여부를 확인할 수 있다.Specifically, the device 200 may check whether the match rate generated by comparing the user's voice data and the user's reference data is higher than a preset reference rate.

S302 단계에서 일치율이 기준 비율보다 높다고 확인되면, S303 단계에서, 장치(200)는 사용자 인증을 완료할 수 있다.If the match rate is confirmed to be higher than the reference rate in step S302, the device 200 may complete user authentication in step S303.

구체적으로 장치(200)는 사용자의 음성 데이터와 사용자의 기준 데이터를 비교하여 생성된 일치율이 미리 설정된 기준 비율보다 높다고 확인되면, 디스플레이 화면을 제어하고자 하는 사용자가 디스플레이 화면을 관리하는 사용자와 일치한다고 판단하여 사용자 인증을 완료할 수 있다. Specifically, if the match rate generated by comparing the user's voice data and the user's reference data is confirmed to be higher than the preset reference rate, the device 200 determines that the user who wishes to control the display screen matches the user who manages the display screen. You can complete user authentication by doing this.

S302 단계에서 일치율이 기준 비율보다 높지 않다고 확인되면, S304 단계에서, 장치(200)는 추가 인증을 수행할 수 있다.If it is determined in step S302 that the match rate is not higher than the reference rate, the device 200 may perform additional authentication in step S304.

구체적으로 장치(200)는 사용자의 음성 데이터와 사용자의 기준 데이터를 비교하여 생성된 일치율이 미리 설정된 기준 비율보다 높지 않다고 확인되면. 디스플레이 화면을 제어하고자 하는 사용자가 디스플레이 화면을 관리하는 사용자와 일치하지 않을 수도 있다고 판단하여 추가 인증을 수행할 수 있다. 이때, 추가 인증은 위치 인증 및 비밀번호 인증 중 적어도 하나를 포함할 수 있으며, 추가 인증과 관련하여 구체적인 설명은 도 4를 참조하기로 한다.Specifically, when the device 200 compares the user's voice data and the user's reference data and determines that the generated match rate is not higher than the preset reference rate. Additional authentication may be performed by determining that the user attempting to control the display screen may not match the user managing the display screen. At this time, the additional authentication may include at least one of location authentication and password authentication. For a detailed description regarding the additional authentication, refer to FIG. 4.

이로 인해, 장치(200)는 디스플레이 화면을 관리하는 사용자가 아닌 제3자가 디스플레이 화면을 제어하는 위험을 방지하기 위해 사용자 인증을 통해 보안을 강화할 수 있다.Because of this, the device 200 can strengthen security through user authentication to prevent the risk of a third party other than the user managing the display screen controlling the display screen.

도 4는 일실시예에 따른 추가 인증을 수행하는 과정을 설명하기 위한 순서도이다.Figure 4 is a flowchart for explaining a process of performing additional authentication according to an embodiment.

먼저, 도 4를 참조하면, S302 단계에서, 장치(200)는 일치율이 기준 비율보다 높지 않다고 확인되면, 장치(200)는 추가 인증을 수행하기 위해 S400-1 단계, 및 S400-2 단계 중 적어도 하나의 단계를 수행할 수 있다.First, referring to FIG. 4, in step S302, if the device 200 determines that the match rate is not higher than the reference rate, the device 200 performs at least one of steps S400-1 and S400-2 to perform additional authentication. You can perform one step.

S400-1 단계에서, 장치(200)는 사용자의 단말(100)로부터 사용자의 위치를 획득하고, 사용자의 위치가 미리 설정된 구역 내에 포함되어 있는 것에 기반하여 사용자 인증을 완료할 수 있다.In step S400-1, the device 200 may obtain the user's location from the user's terminal 100 and complete user authentication based on the user's location being included in a preset area.

구체적으로, 장치(200)는 사용자의 음성 데이터와 사용자의 기준 데이터를 비교하여 생성된 일치율이 미리 설정된 기준 비율보다 높지 않다고 확인되면. 사용자의 단말(100)로부터 사용자의 위치를 획득할 수 있고, 사용자의 위치가 미리 설정된 구역에 포함되는지 여부를 확인할 수 있다. 이때, 미리 설정된 구역은 사용자가 제어하고자 하는 디스플레이 화면(300)의 위치를 중심으로 미리 설정된 범위 이내의 구역으로 설정될 수 있으며, 미리 설정된 범위는 실시 예에 따라 달라질 수 있다. 또한, 장치(200)는 사용자의 위치가 미리 설정된 구역에 포함된다고 확인되면, 사용자 인증을 완료할 수 있다. 한편, 장치(200)는 사용자의 위치가 미리 설정된 구역에 포함되지 않는다고 확인되면, 사용자 인증을 완료하지 않을 수 있다.Specifically, when the device 200 compares the user's voice data and the user's reference data and determines that the generated match rate is not higher than the preset reference rate. The user's location can be obtained from the user's terminal 100, and it can be confirmed whether the user's location is included in a preset area. At this time, the preset area may be set as an area within a preset range centered on the position of the display screen 300 that the user wants to control, and the preset range may vary depending on the embodiment. Additionally, the device 200 may complete user authentication when it is confirmed that the user's location is within a preset area. Meanwhile, if the device 200 determines that the user's location is not included in the preset area, the device 200 may not complete user authentication.

S400-2 단계에서, 장치(200)는 사용자의 단말(100)로부터 비밀번호를 획득하고, 비밀번호가 미리 설정된 인증번호와 동일한 것에 기반하여 사용자 인증을 완료할 수 있다.In step S400-2, the device 200 may obtain a password from the user's terminal 100 and complete user authentication based on the password being the same as the preset authentication number.

구체적으로, 장치(200)는 사용자의 음성 데이터와 사용자의 기준 데이터를 비교하여 생성된 일치율이 미리 설정된 기준 비율보다 높지 않다고 확인되면. 사용자의 단말(100)로부터 비밀번호를 획득할 수 있고, 비밀번호가 미리 설정된 인증번호와 동일한지 여부를 확인할 수 있다. 이때, 미리 설정된 인증번호는 디스플레이 화면을 관리하는 사용자에 의해 미리 설정된 번호로 실시 예에 따라 달라질 수 있다. 또한, 장치(200)는 비밀번호가 미리 설정된 인증번호와 동일한 것으로 확인되면, 사용자 인증을 완료할 수 있다. 한편, 장치(200)는 비밀번호가 미리 설정된 인증번호와 동일하지 않은 것으로 확인되면, 사용자 인증을 완료하지 않을 수 있다.Specifically, when the device 200 compares the user's voice data and the user's reference data and determines that the generated match rate is not higher than the preset reference rate. The password can be obtained from the user's terminal 100, and it can be confirmed whether the password is the same as the preset authentication number. At this time, the preset authentication number is a number preset by the user managing the display screen and may vary depending on the embodiment. Additionally, the device 200 can complete user authentication when it is confirmed that the password is the same as the preset authentication number. Meanwhile, if the device 200 determines that the password is not the same as the preset authentication number, it may not complete user authentication.

이때, 장치(200)는 S400-1 단계, 및 S400-2 단계 중 하나의 단계를 수행하였을 때, 사용자 인증이 완료되면, 남은 한 단계는 수행하지 않고 디스플레이 화면을 제어할 수 있지만, 장치(200)는 S400-1 단계, 및 S400-2 단계 중 하나의 단계를 수행하였을 때, 사용자 인증이 완료되지 않으면, 남은 한 단계를 추가로 수행할 수도 있다. At this time, when the device 200 performs one of steps S400-1 and S400-2, and user authentication is completed, the device 200 can control the display screen without performing the remaining step, but the device 200 ), if user authentication is not completed when one of steps S400-1 and S400-2 is performed, one remaining step may be additionally performed.

또한, 장치(200)는 S400-1 단계, 및 S400-2 단계를 모두 수행하였을 때에도, 사용자 인증이 완료되지 않으면, 디스플레이 화면을 관리하는 사용자가 아닌 제3자가 디스플레이 화면을 제어하고자 하는 것으로 판단하여 디스플레이 화면을 제어하지 않을 수 있다.In addition, if user authentication is not completed even when all steps S400-1 and S400-2 are performed, the device 200 determines that a third party other than the user managing the display screen wants to control the display screen. You may not control the display screen.

이에 따라, 장치(200)는 사용자의 목소리가 잠기거나, 쉬는 등 목소리 변조가 생겼어도, 위치 인증 및 비밀번호 인증 중 적어도 하나를 수행함으로써 사용자 인증을 완료할 수 있고, 사용자 인증이 완료되었을 때 디스플레이 화면을 제어하여 디스플레이 화면의 보안을 강화할 수 있다.Accordingly, the device 200 can complete user authentication by performing at least one of location authentication and password authentication even if the user's voice is locked or has a voice change such as hoarseness, and displays the screen when user authentication is completed. You can strengthen the security of the display screen by controlling .

한편, 장치(200)는 결정된 제어 명령에 따라 디스플레이 화면(300)을 제어하기 전에, 장치(200)는 사용자의 음성 데이터를 통해 음성의 길이 및 음성에 포함된 단어의 복잡성을 판단하여 해당 명령이 단순 명령인지 복잡 명령인지 파악하고, 복잡 명령이라고 파악되면, 사용자에게 해당 명령을 시킨 것이 맞는지 확인할 수 있다.Meanwhile, before the device 200 controls the display screen 300 according to the determined control command, the device 200 determines the length of the voice and the complexity of the words included in the voice through the user's voice data and executes the corresponding command. You can determine whether it is a simple command or a complex command, and if it is determined to be a complex command, you can check whether the command was given to the user correctly.

도 5는 일실시예에 따른 단순 명령인지 복잡 명령인지 파악하고, 디스플레이 화면을 제어하는 과정을 설명하기 위한 순서도이다.Figure 5 is a flowchart for explaining a process of determining whether a command is simple or complex and controlling a display screen according to an embodiment.

도 5를 참조하면, 먼저, S501 단계에서 장치(200)는 사용자의 음성 데이터를 기초로, 음성 데이터의 길이 및 음성 데이터에 포함된 단어를 확인할 수 있다.Referring to FIG. 5, first, in step S501, the device 200 may check the length of the voice data and the words included in the voice data based on the user's voice data.

구체적으로, 장치(200)는 사용자의 음성 데이터를 통해 음성 데이터의 길이 즉, 음성 데이터가 몇 초 간 지속되는지 확인할 수 있고, 확인된 시간을 음성 데이터의 길이로 확인할 수 있다. 한편, 장치(200)는 이 외에도 사용자의 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 통해 음성 데이터의 길이를 확인할 수도 있다. 이를 위해, 장치(200)는 변환된 텍스트 데이터의 총 글자수를 확인할 수 있고, 확인된 총 글자수를 음성 데이터의 길이로 확인할 수 있다. Specifically, the device 200 can check the length of the voice data, that is, how many seconds the voice data lasts, through the user's voice data, and can check the confirmed time as the length of the voice data. Meanwhile, the device 200 can also convert the user's voice data into text data and check the length of the voice data through the converted text data. To this end, the device 200 can check the total number of characters of the converted text data, and can check the total number of confirmed characters as the length of the voice data.

또한, 장치(200)는 변환된 텍스트 데이터를 통해 음성 데이터에 포함된 단어를 확인할 수 있다. 이를 위해, 장치(200)는 변환된 텍스트 데이터 토큰화하여 개별 단어로 분리할 수 있고, 이 과정에서 불용어 제거, 어간 추출, 표제어 추출과 같은 전처리 과정을 추가로 수행할 수 있다. 또한, 장치(200)는 토큰화된 단어를 통해 음성 데이터에 포함된 단어를 확인할 수 있다.Additionally, the device 200 can check words included in the voice data through the converted text data. To this end, the device 200 can tokenize the converted text data and separate it into individual words, and in this process, can additionally perform preprocessing processes such as stop word removal, stem extraction, and lemmat extraction. Additionally, the device 200 can check words included in voice data through tokenized words.

S502 단계에서, 장치(200)는 음성 데이터의 길이가 기준 길이보다 짧은지 여부를 확인할 수 있다. 여기서, 기준 길이는 미리 설정된 값으로 실시 예에 따라 달라질 수 있다.In step S502, the device 200 may check whether the length of the voice data is shorter than the reference length. Here, the reference length is a preset value and may vary depending on the embodiment.

구체적으로, 장치(200)는 음성 데이터의 길이가 미리 설정된 기준 길이보다 짧은지 여부를 확인할 수 있다.Specifically, the device 200 can check whether the length of voice data is shorter than a preset reference length.

즉, 장치(200)는 음성 데이터의 길이로 시간을 획득한 경우, 음성 데이터가 지속된 시간이 미리 설정된 기준 시간보다 짧은지 여부를 확인할 수 있고, 장치(200)는 음성 데이터의 길이로 총 글자수를 획득한 경우, 음성 데이터의 총 글자수가 미리 설정된 기준 글자수보다 적은지 여부를 확인할 수 있다.That is, when the device 200 obtains the time from the length of the voice data, it can check whether the time the voice data lasted is shorter than a preset reference time, and the device 200 determines the total number of characters based on the length of the voice data. When the number is obtained, it is possible to check whether the total number of characters in the voice data is less than the preset standard number of characters.

S502 단계에서 음성 데이터의 길이가 기준 길이보다 짧다고 확인되면, S503 단계에서, 장치(200)는 음성 데이터에 포함된 모든 단어가 단어 데이터베이스에 포함되는지 여부를 확인할 수 있다. If it is determined in step S502 that the length of the voice data is shorter than the reference length, in step S503, the device 200 may check whether all words included in the voice data are included in the word database.

구체적으로, 장치(200)는 음성 데이터의 길이가 미리 설정된 기준 길이보다 짧다고 확인되면, 음성 데이터에 포함된 모든 단어가 단어 데이터베이스에 포함되는지 여부를 확인할 수 있다. 이를 위해, 장치(200)는 단어 데이터베이스를 구비하거나 별개의 단어 데이터베이스와 유무선으로 통신할 수 있으며, 단어 데이터베이스에는 디스플레이 화면을 제어하기 위한 명령과 관련된 단어가 저장될 수 있다. 예를 들어, 단어 데이터베이스텔레비전, 모니터, 스크린과 같은 디스플레이 화면에 대한 단어가 저장될 수도 있고, 알람, 밝기, 볼륨, 켜다, 끄다, 높이다, 낮추다와 같은 명령에 대한 단어가 저장될 수도 있다. 이때, 단어 데이터베이스에 저장된 단어는 단어 데이터베이스를 관리하는 관리자에 의해 추가될 수 있으며, 실시 예가 증가함에 따라 단어가 증가될 수도 있다.Specifically, if the device 200 determines that the length of the voice data is shorter than a preset reference length, the device 200 may check whether all words included in the voice data are included in the word database. To this end, the device 200 may be provided with a word database or may communicate wired or wirelessly with a separate word database, and words related to commands for controlling the display screen may be stored in the word database. For example, a word database may store words for display screens such as television, monitor, and screen, or may store words for commands such as alarm, brightness, volume, on, off, increase, and decrease. At this time, words stored in the word database may be added by the administrator who manages the word database, and the number of words may increase as the number of embodiments increases.

S503 단계에서, 모든 단어가 단어 데이터베이스에 포함된다고 확인되면, S504 단계에서, 장치(200)는 결정된 제어 명령을 단순 명령으로 판단하고, 단순 명령에 따라 디스플레이 화면(300)을 제어할 수 있다.In step S503, if it is confirmed that all words are included in the word database, in step S504, the device 200 determines that the determined control command is a simple command and can control the display screen 300 according to the simple command.

구체적으로, 장치(200)는 음성 데이터의 길이가 미리 설정된 기준 길이보다 짧고 음성 데이터에 포함된 모든 단어가 단어 데이터베이스에 포함된다고 확인되면, 텍스트 데이터를 통해 결정된 제어 명령을 단순 명령으로 판단할 수 있고, 단순 명령에 따라 디스플레이 화면(300)을 제어할 수 있다.Specifically, if the device 200 determines that the length of the voice data is shorter than the preset reference length and that all words included in the voice data are included in the word database, the device 200 may determine that the control command determined through the text data is a simple command. , the display screen 300 can be controlled according to simple commands.

S502 단계에서 음성 데이터의 길이가 기준 길이보다 짧지 않다고 확인되거나, S503 단계에서 음성 데이터에 포함된 단어 중 단어 데이터베이스에 포함되지 않는 단어가 있다고 확인되면, S505 단계에서, 장치(200)는 결정된 제어 명령을 복잡 명령으로 판단할 수 있다.If it is confirmed in step S502 that the length of the voice data is not shorter than the reference length, or if it is determined in step S503 that there are words included in the voice data that are not included in the word database, in step S505, the device 200 executes the determined control command. can be judged as a complex command.

구체적으로, 장치(200)는 음성 데이터의 길이가 미리 설정된 기준 길이보다 짧지 않다고 확인되거나, 음성 데이터의 길이가 기준 길이보다 짧지만 음성 데이터에 포함된 단어 중 단어 데이터베이스에 포함되지 않는 단어가 있다고 확인되면, 장치(200)는 텍스트 데이터를 통해 결정된 제어 명령을 복잡 명령으로 판단할 수 있다.Specifically, the device 200 confirms that the length of the voice data is not shorter than the preset standard length, or confirms that the length of the voice data is shorter than the standard length, but that there are words included in the voice data that are not included in the word database. If so, the device 200 may determine that the control command determined through the text data is a complex command.

S506 단계에서, 장치(200)는 복잡 명령 및 복잡 명령이 맞는지 여부를 묻는 메시지를 사용자의 단말(100)로 전송할 수 있다.In step S506, the device 200 may transmit a complex command and a message asking whether the complex command is correct to the user's terminal 100.

구체적으로, 장치(200)는 음성 데이터의 길이 및 음성 데이터에 포함된 단어를 기초로, 제어 명령이 복잡 명령으로 판단되면, 복잡 명령 및 복잡 명령이 사용자가 원하는 제어 명령이 맞는지 여부를 묻는 메시지를 사용자의 단말(100)로 전송할 수 있다.Specifically, if the control command is determined to be a complex command based on the length of the voice data and the words included in the voice data, the device 200 sends a message asking whether the complex command and the complex command are the control command desired by the user. It can be transmitted to the user's terminal 100.

S507 단계에서, 장치(200)는 사용자의 단말(100)로부터 메시지에 대한 응답을 획득하고, 응답을 기초로, 디스플레이 화면(300)을 제어할 수 있다.In step S507, the device 200 may obtain a response to the message from the user's terminal 100 and control the display screen 300 based on the response.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 메시지에 대한 응답을 획득할 수 있고, 장치(200)는 획득한 응답을 통해 복잡 명령이 사용자가 원하는 제어 명령이 맞다고 확인되면, 복잡 명령에 따라 디스플레이 화면(300)을 제어할 수 있다. Specifically, the device 200 may obtain a response to the message from the user's terminal 100, and if the device 200 determines that the complex command is the control command desired by the user through the obtained response, the device 200 may execute the complex command. The display screen 300 can be controlled according to.

한편, 장치(200)는 획득한 응답을 통해 복잡 명령이 사용자가 원하는 제어 명령이 아니라고 확인되면, 다시 사용자의 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 통해 디스플레이 화면의 제어 명령을 재결정하고, 재결정된 제어 명령 및 재결정된 제어 명령이 사용자가 원하는 제어 명령이 맞는지 여부를 묻는 메시지를 사용자의 단말(100)로 전송할 수 있다. 이때, 장치(200)는 재결정된 제어 명령도 사용자가 원하는 제어 명령이 아니라고 확인되면, 사용자의 단말(100)로부터 사용자가 원하는 제어 명령을 획득할 수 있고, 이를 기초로 STT 모듈 및 사용자의 의도를 파악하는 알고리즘을 다시 학습시킬 수 있다. Meanwhile, if the device 200 determines that the complex command is not the control command desired by the user through the obtained response, it converts the user's voice data into text data again and re-determines the control command on the display screen through the converted text data. And, a message asking whether the redetermined control command and the redetermined control command are the control command desired by the user may be transmitted to the user's terminal 100. At this time, if the device 200 determines that the re-determined control command is not the control command desired by the user, the device 200 may obtain the control command desired by the user from the user terminal 100 and determine the STT module and the user's intention based on this. The algorithm that understands can be retrained.

즉, 장치(200)는 음성의 길이 및 음성에 포함된 단어의 복잡성을 판단하여 해당 명령이 단순 명령인지 복잡 명령인지 파악할 수 있고, 단순 명령이라고 판단되면 바로 제어 명령을 수행하고, 복잡 명령이라고 파악되면 사용자에게 확인 수 제어 명령을 수행할 수 있다.In other words, the device 200 can determine whether the command is a simple command or a complex command by determining the length of the voice and the complexity of the words included in the voice. If it is determined to be a simple command, it immediately performs the control command and determines that it is a complex command. Once this is done, you can perform control commands that can be confirmed by the user.

한편, 장치(200)는 제어 명령에 따라 디스플레이 화면이 제어되면, 제어 명령과 제어 명령이 수행된 시간을 태깅하여 반복되는 시간을 확인하고, 반복 시간에는 사용자가 명령하지 않아도 자동으로 제어 명령에 따라 디스플레이 화면이 제어되도록 설정할 수 있다.Meanwhile, when the display screen is controlled according to a control command, the device 200 checks the repetition time by tagging the control command and the time the control command was performed, and automatically follows the control command without a user command at the repetition time. You can set the display screen to be controlled.

도 6은 일실시예에 따른 반복 시간에 제어 명령이 자동으로 수행되도록 설정하는 과정을 설명하기 위한 순서도이다.FIG. 6 is a flowchart illustrating a process for setting a control command to be automatically performed at a repetition time according to an embodiment.

도 6을 참조하면, 먼저 S601 단계에서, 장치(200)는 제어 명령과 제어 명령에 따라 디스플레이 화면이 제어된 시간 정보를 태깅할 수 있다.Referring to FIG. 6, first, in step S601, the device 200 may tag a control command and information on the time the display screen was controlled according to the control command.

구체적으로, 장치(200)는 제어 명령에 따라 디스플레이 화면이 제어되면, 해당 제어 명령과 해당 제어 명령에 따라 디스플레이 화면이 제어된 시간 정보를 태깅하여 장치(200)에 구비된 데이터베이스에 저장할 수 있다. 이때, 시간 정보는 날짜, 요일, 시각이 포함될 수 있다.Specifically, when the display screen is controlled according to a control command, the device 200 may tag the control command and information on the time the display screen was controlled according to the control command and store the tags in a database provided in the device 200. At this time, time information may include date, day, and time.

S602 단계에서, 장치(200)는 제어 명령 및 태깅된 시간 정보를 기초로, 제어 명령에 대하여 목표 값보다 많이 태깅된 시간을 반복 시간으로 선정할 수 있다. 여기서, 목표 값은 미리 설정된 값으로 실시 예에 따라 달라질 수 있다.In step S602, the device 200 may select a time tagged more than the target value for the control command as the repetition time based on the control command and tagged time information. Here, the target value is a preset value and may vary depending on the embodiment.

구체적으로, 장치(200)는 제어 명령과 제어 명령에 대하여 태깅된 시간 정보를 기초로, 제어 명령에 대하여 미리 설정된 목표 값보다 많이 태깅된 시간을 반복 시간으로 선정할 수 있다. Specifically, the device 200 may select a time tagged more than a preset target value for the control command as the repetition time based on the control command and the time information tagged for the control command.

이때, 장치(200)는 반복 시간을 선정하기 위해, 요일을 고려하지 않고 시각만 고려하여 반복 시간을 선정할 수도 있고, 요일 및 시각을 모두 고려하여 반복 시간을 선정할 수도 있다. At this time, in order to select the repetition time, the device 200 may select the repetition time by considering only the time without considering the day of the week, or may select the repetition time by considering both the day of the week and the time.

또한, 장치(200)는 태깅된 시간 정보를 기초로 반복 시간을 선정하는 과정에서, 장치(200)는 태깅된 시간 정보를 미리 설정된 범위만큼 전후로 넓힐 수 있고, 범위가 넓어진 시간 정보를 통해 반복 시간을 선정할 수 있다. 예를 들어, 7시 57분, 7시 59분, 8시, 8시 1분, 8시 3분이 태깅된 시간 정보이고, 미리 설정된 범위가 3분이고, 목표 값이 4일 경우, 장치(200)는 7시 57분에 대하여 미리 설정된 3분만큼 범위를 넓혀 7시 54분, 7시 55분, 7시 56분, 7시 57분, 7시 58분, 7시 59분, 8시를 생성할 수 있고, 7시 59분에 대하여 범위를 넓혀 7시 56분, 7시 57분, 7시 58분, 7시 59분, 8시, 8시 1분, 8시 2분을 생성할 수 있고, 8시에 대하여 범위를 넓혀 7시 57분, 7시 58분, 7시 59분, 8시, 8시 1분, 8시 2분, 8시 3분을 생성할 수 있고, 8시 1분에 대하여 범위를 넓혀 7시 58분, 7시 59분, 8시, 8시 1분, 8시 2분, 8시 3분, 8시 4분을 생성할 수 있고, 8시 3분에 대해여 범위를 넓혀 8시, 8시 1분, 8시 2분, 8시 3분, 8시 4분, 8시 5분, 8시 6분을 생성할 수 있다. 또한, 장치(200)는 목표 값인 4보다 많이 포함된 8시를 반복 시간으로 선정할 수 있다.In addition, in the process of selecting the repetition time based on the tagged time information, the device 200 can expand the tagged time information back and forth by a preset range, and the repetition time information can be adjusted through the expanded time information. can be selected. For example, if 7:57, 7:59, 8:00, 8:01, and 8:03 are tagged time information, the preset range is 3 minutes, and the target value is 4, the device 200 widens the range by a preset 3 minutes for 7:57 to generate 7:54, 7:55, 7:56, 7:57, 7:58, 7:59, and 8:00. You can expand the range for 7:59 to create 7:56, 7:57, 7:58, 7:59, 8:00, 8:01, and 8:02, By expanding the range for 8 o'clock, you can create 7:57, 7:58, 7:59, 8:00, 8:01, 8:02, and 8:03, and at 8:01 By expanding the range, you can create 7:58, 7:59, 8:00, 8:01, 8:02, 8:03, and 8:04, and the range for 8:03 can be expanded to create 8:00, 8:01, 8:02, 8:03, 8:04, 8:05, and 8:06. Additionally, the device 200 may select 8 o'clock, which is more than the target value of 4, as the repetition time.

S603 단계에서, 장치(200)는 반복 시간에 제어 명령에 따라 디스플레이 화면이 자동으로 제어되도록 설정할 수 있다.In step S603, the device 200 may set the display screen to be automatically controlled according to the control command at the repetition time.

구체적으로 장치(200)는 제어 명령 및 제어 명령에 대한 반복 시간이 선정되면, 반복 시간과 제어 명령을 매칭하여 반복 시간에 제어 명령에 따라 디스플레이 화면(300)이 자동으로 제어되도록 설정할 수 있다.Specifically, when the control command and the repetition time for the control command are selected, the device 200 can be set to automatically control the display screen 300 according to the control command at the repetition time by matching the repetition time and the control command.

즉, 장치(200)는 현재 시각이 반복 시간으로 확인되면, 사용자가 사용자의 단말(100)을 통해 사용자의 음성 데이터를 전송하지 않아도 즉, 사용자가 명령하지 않아도 자동으로 제어 명령에 따라 디스플레이 화면(300)이 제어되도록 설정할 수 있다.That is, when the current time is confirmed as a repetition time, the device 200 automatically displays the screen ( 300) can be set to be controlled.

이로 인해, 장치(200)는 제어 명령에 대하여 해당 제어 명령이 주기적으로 수행되는 시간을 확인할 수 있고, 주기적으로 수행되는 시간에 사용자가 명령하지 않아도 제어 명령에 따라 디스플레이 화면이 자동으로 제어되도록 설정할 수 있다.Due to this, the device 200 can check the time at which the corresponding control command is periodically performed, and can set the display screen to be automatically controlled according to the control command without a user command at the periodically performed time. there is.

한편, 장치(200)는 제어 명령에 따라 디스플레이 화면(300)을 제어한 이후에, 사용자의 음성 데이터의 데시벨에 따라 추가 명령을 제안할 수도 있다. Meanwhile, after controlling the display screen 300 according to a control command, the device 200 may suggest an additional command according to the decibel of the user's voice data.

도 7은 일실시예에 따른 데시벨에 따라 추가 명령을 제안하는 과정을 설명하기 위한 순서도이다.FIG. 7 is a flowchart illustrating a process for proposing additional commands according to decibels according to an embodiment.

도 7을 참조하면, 먼저, S701 단계에서, 장치(200)는 사용자의 음성 데이터를 기초로, 데시벨을 확인할 수 있다.Referring to FIG. 7, first, in step S701, the device 200 can check the decibel based on the user's voice data.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 획득한 사용자의 음성 데이터를 확인하여, 데시벨을 확인할 수 있다. 이때, 데시벨은 소리의 크기 또는 세기일 수 있으며, dB 단위로 확인할 수 있다.Specifically, the device 200 can check the user's voice data obtained from the user's terminal 100 and check the decibel. At this time, decibel can be the volume or intensity of sound, and can be confirmed in dB units.

S702 단계에서, 장치(200)는 데시벨이 임계 범위 내에 포함되는지 여부를 확인할 수 있다. 여기서, 임계 범위는 사용자의 기준 데이터의 데시벨에 따라 미리 설정된 범위일 수 있으며, 실시예에 따라 상이하게 설정될 수 있다.In step S702, the device 200 may check whether the decibel is within the threshold range. Here, the threshold range may be a preset range according to the decibel of the user's reference data, and may be set differently depending on the embodiment.

S702 단계에서 데시벨이 임계 범위 내에 포함되는 것으로 확인되면, S703 단계에서, 장치(200)는 데시벨에 따른 추가 명령을 제안하지 않을 수 있다.If it is confirmed that the decibel is within the threshold range in step S702, the device 200 may not propose an additional command according to the decibel in step S703.

구체적으로, 장치(200)는 사용자의 음성 데이터를 통해 획득한 데시벨이 미리 설정된 임계 범위 내에 포함된다고 확인되면, 사용자가 평상 시와 동일한 상황에서 디스플레이 화면(300)을 제어하는 것으로 판단하여, 데시벨에 따른 추가 명령을 제안하지 않을 수 있다.Specifically, if it is confirmed that the decibel obtained through the user's voice data is within a preset threshold range, the device 200 determines that the user is controlling the display screen 300 in the same situation as usual, and determines the decibel Additional orders may not be proposed.

S702 단계에서 데시벨이 임계 범위 내에 포함되지 않고 임계 범위를 벗어나는 것으로 확인되면, S704 단계에서, 장치(200)는 데시벨이 임계 범위의 최대 데시벨보다 큰지 여부를 확인할 수 있다.If it is determined in step S702 that the decibel is not within the threshold range but outside the threshold range, in step S704, the device 200 may check whether the decibel is greater than the maximum decibel of the threshold range.

S704 단계에서 데시벨이 임계 범위의 최대 데시벨보다 큰 것으로 확인되면, S705 단계에서, 장치(200)는 제1 추가 명령을 제안할 수 있다.If the decibel is determined to be greater than the maximum decibel of the threshold range in step S704, the device 200 may propose a first additional command in step S705.

구체적으로, 장치(200)는 사용자의 음성 데이터를 통해 획득한 데시벨이 미리 설정된 임계 범위 내에 포함되지 않고, 데시벨이 임계 범위의 최대 데시벨보다 큰 것으로 확인되면, 사용자가 평상 시보다 시끄러운 상황에서 디스플레이 화면(300)을 제어하는 것으로 판단하여, 장치(200)는 추가 명령 데이터베이스를 통해 시끄러운 상황과 매칭된 명령인 제1 추가 명령을 확인할 수 있다. 이를 위해, 장치(200)는 추가 명령 데이터베이스를 구비하거나, 별개의 추가 명령 데이터베이스와 유무선으로 통신할 수 있다. 추가 명령 데이터베이스에는 시끄러운 상황에서 미리 설정된 설정 값보다 많이 사용된 명령 및 조용한 상황에서 미리 설정된 설정 값보다 많이 사용된 명령이 각각 저장될 수 있으며, 추가 명령 데이터베이스에 저장된 명령은 실시 예가 증가함에 따라 추가될 수 있다. 예를 들어, 추가 명령 데이터베이스에는 시끄러운 상황과 매칭하여 “TV 볼륨을 높여 줘.”, “모니터를 정지해 줘.”, “모니터로 긴급 상황의 대응 메뉴얼을 표시해 줘.” 등이 추가 명령으로 저장될 수 있고, 조용한 상황과 매칭하여 “TV 볼륨을 낮춰 줘.”, “모니터 밝기를 줄여 줘.”, “모니터에 모닥불 영상을 재생해 줘.”, “컴퓨터의 터치스크린을 활성화해 줘.” 등이 추가 명령으로 저장될 수 있다. 한편, 이에 한정되는 것은 아니다. Specifically, if it is determined that the decibel obtained through the user's voice data is not within the preset threshold range and the decibel is greater than the maximum decibel of the threshold range, the device 200 displays the screen in a situation where the user is noisier than usual. Upon determining that 300 is being controlled, the device 200 may check the first additional command, which is a command that matches the noisy situation, through the additional command database. To this end, the device 200 may be provided with an additional command database or may communicate wired or wirelessly with a separate additional command database. The additional command database may store commands used more than the preset setting value in a noisy situation and commands used more than the preset setting value in a quiet situation, respectively. Commands stored in the additional command database may be added as embodiments increase. You can. For example, the additional command database includes noisy situations to match, such as “Turn up the TV volume,” “Stop the monitor,” and “Display the emergency response manual on the monitor.” Additional commands such as “Turn down the TV volume,” “Turn down the monitor brightness,” “Play a campfire video on the monitor,” and “Turn down the computer’s touchscreen” can be stored as additional commands to match quiet situations. Activate .” etc. can be saved as additional commands. Meanwhile, it is not limited to this.

또한, 장치(200)는 추가 명령 데이터베이스를 통해 제1 추가 명령이 확인되면, 제1 추가 명령을 사용자에게 제안할 수 있다. 이때, 장치(200)는 이전에 제어된 디스플레이 화면(300)에 제1 추가 명령을 표시하여 제안할 수도 있고, 사용자의 단말(100)로 제1 추가 명령을 표시하여 제안할 수도 있다.Additionally, when the first additional command is confirmed through the additional command database, the device 200 may suggest the first additional command to the user. At this time, the device 200 may make a suggestion by displaying the first additional command on the previously controlled display screen 300, or may make a suggestion by displaying the first additional command on the user's terminal 100.

즉, 장치(200)는 데시벨이 임계 범위의 최대 데시벨보다 큰 것으로 확인되면, 추가 명령 데이터베이스를 통해 시끄러운 상황과 매칭된 추가 명령을 제1 추가 명령으로 확인하고, 사용자에게 제1 추가 명령을 제안할 수 있다. That is, if the device 200 determines that the decibel is greater than the maximum decibel of the threshold range, the device 200 verifies the additional command matched with the noisy situation as the first additional command through the additional command database, and suggests the first additional command to the user. You can.

S704 단계에서 데시벨이 임계 범위의 최대 데시벨보다 크지 않은 것으로 확인되면, S705 단계에서, 장치(200)는 제1 추가 명령을 제안할 수 있다.If it is determined in step S704 that the decibel is not greater than the maximum decibel of the threshold range, in step S705, the device 200 may propose a first additional command.

구체적으로, 장치(200)는 사용자의 음성 데이터를 통해 획득한 데시벨이 미리 설정된 임계 범위 내에 포함되지 않고, 데시벨이 임계 범위의 최대 데시벨보다 크지 않은 것으로 확인되면, 데시벨이 임계 범위의 최소 데시벨보다 작은 것으로 확인하여, 사용자가 평상 시보다 조용한 상황에서 디스플레이 화면(300)을 제어하는 것으로 판단하여, 장치(200)는 추가 명령 데이터베이스를 통해 조용한 상황과 매칭된 명령인 제2 추가 명령을 확인할 수 있다. 이를 위해, 장치(200)는 추가 명령 데이터베이스를 구비하거나, 별개의 추가 명령 데이터베이스와 유무선으로 통신할 수 있다. 추가 명령 데이터베이스에는 시끄러운 상황에서 미리 설정된 설정 값보다 많이 사용된 명령 및 조용한 상황에서 미리 설정된 설정 값보다 많이 사용된 명령이 각각 저장될 수 있으며, 추가 명령 데이터베이스에 저장된 명령은 실시 예가 증가함에 따라 추가될 수 있다. 예를 들어, 추가 명령 데이터베이스에는 시끄러운 상황과 매칭하여 “TV 볼륨을 높여 줘.”, “모니터를 정지해 줘.”, “모니터로 긴급 상황의 대응 메뉴얼을 표시해 줘.” 등이 추가 명령으로 저장될 수 있고, 조용한 상황과 매칭하여 “TV 볼륨을 낮춰 줘.”, “모니터 밝기를 줄여 줘.”, “모니터에 모닥불 영상을 재생해 줘.”, “컴퓨터의 터치스크린을 활성화해 줘.” 등이 추가 명령으로 저장될 수 있다. 한편, 이에 한정되는 것은 아니다. Specifically, if the device 200 determines that the decibel obtained through the user's voice data is not within the preset threshold range and that the decibel is not greater than the maximum decibel of the threshold range, the device 200 determines that the decibel is less than the minimum decibel of the threshold range. By confirming that the user is controlling the display screen 300 in a quieter situation than usual, the device 200 can check the second additional command, which is a command that matches the quiet situation, through the additional command database. To this end, the device 200 may be provided with an additional command database or may communicate wired or wirelessly with a separate additional command database. The additional command database may store commands used more than the preset setting value in a noisy situation and commands used more than the preset setting value in a quiet situation, respectively. Commands stored in the additional command database may be added as embodiments increase. You can. For example, the additional command database includes noisy situations to match, such as “Turn up the TV volume,” “Stop the monitor,” and “Display the emergency response manual on the monitor.” Additional commands such as “Turn down the TV volume,” “Turn down the monitor brightness,” “Play a campfire video on the monitor,” and “Turn down the computer’s touchscreen” can be stored as additional commands to match quiet situations. Activate .” etc. can be saved as additional commands. Meanwhile, it is not limited to this.

또한, 장치(200)는 추가 명령 데이터베이스를 통해 제2 추가 명령이 확인되면, 제2 추가 명령을 사용자에게 제안할 수 있다. 이때, 장치(200)는 이전에 제어된 디스플레이 화면(300)에 제2 추가 명령을 표시하여 제안할 수도 있고, 사용자의 단말(100)로 제2 추가 명령을 표시하여 제안할 수도 있다.Additionally, when the second additional command is confirmed through the additional command database, the device 200 may suggest the second additional command to the user. At this time, the device 200 may suggest a second additional command by displaying it on the previously controlled display screen 300, or may suggest a second additional command by displaying it on the user's terminal 100.

즉, 장치(200)는 데시벨이 임계 범위의 최소 데시벨보다 작은 것으로 확인되면, 추가 명령 데이터베이스를 통해 조용한 상황과 매칭된 추가 명령을 제2 추가 명령으로 확인하고, 사용자에게 제2 추가 명령을 제안할 수 있다. .That is, when the device 200 determines that the decibel is less than the minimum decibel of the threshold range, the device 200 checks the additional command matched with the quiet situation as the second additional command through the additional command database, and proposes the second additional command to the user. You can. .

이를 통해, 장치(200)는 사용자의 음성 데이터의 데시벨에 따라 사용자가 명령할 가능성이 높은 추가 명령을 제안할 수 있다.Through this, the device 200 can suggest additional commands that the user is likely to command according to the decibel of the user's voice data.

도 8은 일실시예에 따른 장치의 구성의 예시도이다.Figure 8 is an exemplary diagram of the configuration of a device according to an embodiment.

일실시예에 따른 장치(200)는 프로세서(210) 및 메모리(220)를 포함한다. 프로세서(210)는 도 1 내지 도 7을 참조하여 전술된 적어도 하나의 장치들을 포함하거나, 도 1 내지 도 7을 참조하여 전술된 적어도 하나의 방법을 수행할 수 있다. 장치(200)를 이용하는 개인 또는 단체는 도 1 내지 도 7을 참조하여 전술된 방법들 일부 또는 전부와 관련된 서비스를 제공할 수 있다.Device 200 according to one embodiment includes a processor 210 and memory 220. The processor 210 may include at least one device described above with reference to FIGS. 1 to 7 or may perform at least one method described above with reference to FIGS. 1 to 7 . An individual or organization using device 200 may provide services related to some or all of the methods described above with reference to FIGS. 1 to 7 .

메모리(220)는 전술된 방법들과 관련된 정보를 저장하거나 후술되는 방법들이 구현된 프로그램을 저장할 수 있다. 메모리(220)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.The memory 220 may store information related to the methods described above or store a program in which methods described later are implemented. Memory 220 may be volatile memory or non-volatile memory.

프로세서(210)는 프로그램을 실행하고, 장치(200)를 제어할 수 있다. 프로세서(210)에 의하여 실행되는 프로그램의 코드는 메모리(220)에 저장될 수 있다. 장치(200)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 유무선 통신을 통해 데이터를 교환할 수 있다.The processor 210 can execute programs and control the device 200. The code of the program executed by the processor 210 may be stored in the memory 220. The device 200 is connected to an external device (eg, a personal computer or a network) through an input/output device (not shown) and can exchange data through wired or wireless communication.

장치(200)는 인공신경망을 학습시키거나, 학습된 인공신경망을 이용하는데 사용될 수 있다. 메모리(220)는 학습 중인 또는 학습된 인공신경망을 포함할 수 있다. 프로세서(210)는 메모리(220)에 저장된 인공신경망 알고리즘을 학습시키거나 실행시킬 수 있다. 인공신경망을 학습시키는 장치(200)와 학습된 인공신경망을 이용하는 장치(200)는 동일할 수도 있고 개별적일 수도 있다.The device 200 can be used to train an artificial neural network or use a trained artificial neural network. Memory 220 may include an artificial neural network that is being trained or has been trained. The processor 210 may learn or execute the artificial neural network algorithm stored in the memory 220. The device 200 for training an artificial neural network and the device 200 for using the learned artificial neural network may be the same or may be separate.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The embodiments described above may be implemented with hardware components, software components, and/or a combination of hardware components and software components. For example, the devices, methods, and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, and a field programmable gate (FPGA). It may be implemented using one or more general-purpose or special-purpose computers, such as an array, programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. A processing device may execute an operating system (OS) and one or more software applications that run on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software. For ease of understanding, a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include. For example, a processing device may include a plurality of processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination. Program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and available to those skilled in the art of computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -Includes optical media (magneto-optical media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, etc. Examples of program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device. Software and/or data may be used on any type of machine, component, physical device, virtual equipment, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described with limited drawings as described above, those skilled in the art can apply various technical modifications and variations based on the above. For example, the described techniques are performed in a different order than the described method, and/or components of the described system, structure, device, circuit, etc. are combined or combined in a different form than the described method, or other components are used. Alternatively, appropriate results may be achieved even if substituted or substituted by an equivalent.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims also fall within the scope of the following claims.

Claims (3)

장치에 의해 수행되는, STT 기반 디스플레이 화면 원격 제어 방법에 있어서,
사용자의 단말로부터 사용자의 음성 데이터를 획득하는 단계;
상기 사용자의 음성 데이터를 텍스트 데이터로 변환하는 단계;
상기 텍스트 데이터를 통해 디스플레이 화면의 제어 명령을 결정하는 단계; 및
상기 결정된 제어 명령에 따라 상기 디스플레이 화면을 제어하는 단계를 포함하고,
상기 사용자의 음성 데이터를 기초로, 데시벨을 확인하는 단계;
상기 데시벨이 미리 설정된 임계 범위 내에 포함되는지 여부를 확인하는 단계;
상기 데시벨이 상기 임계 범위 내에 포함된다고 확인되면, 데시벨에 따른 추가 명령을 제안하지 않는 단계;
상기 데시벨이 상기 임계 범위 내에 포함되지 않는다고 확인되면, 상기 데시벨이 상기 임계 범위의 최대 데시벨보다 큰지 여부를 확인하는 단계;
상기 데시벨이 상기 임계 범위의 최대 데시벨보다 크다고 확인되면, 제1 추가 명령을 제안하는 단계;
상기 데시벨이 상기 임계 범위의 최소 데시벨보다 작다고 확인되면, 제2 추가 명령을 제안하는 단계;를 더 포함하고,
사용자의 단말로부터 사용자의 음성 데이터를 획득하는 단계; 이후에
상기 사용자의 음성 데이터를 기초로 사용자 인증을 수행하는 단계를 더 포함하고,
상기 사용자의 음성 데이터를 기초로 사용자 인증을 수행하는 단계는,
상기 사용자의 음성 데이터와 상기 사용자의 기준 데이터를 비교하여 일치율을 생성하는 동작,
상기 일치율이 미리 설정된 기준 비율보다 큰지 여부를 확인하는 동작,
상기 일치율이 상기 기준 비율보다 크다고 확인되면, 사용자 인증을 완료하는 동작, 및
상기 일치율이 상기 기준 비율보다 크지 않다고 확인되면, 추가 인증을 수행하는 동작을 포함하고,
상기 추가 인증을 수행하는 동작은,
상기 사용자의 단말로부터 상기 사용자의 위치를 획득하고, 상기 사용자의 위치가 미리 설정된 구역 내에 포함되어 있는 것에 기반하여 사용자 인증을 완료하는 동작, 및
상기 사용자의 단말로부터 비밀번호를 획득하고, 상기 비밀번호가 미리 설정된 인증번호와 동일한 것에 기반하여 사용자 인증을 완료하는 동작 중 적어도 하나를 포함하고,
상기 결정된 제어 명령에 따라 상기 디스플레이 화면을 제어하는 단계; 이전에
상기 사용자의 음성 데이터를 기초로, 상기 음성 데이터의 길이 및 상기 음성 데이터에 포함된 단어를 확인하는 단계;
상기 음성 데이터의 길이가 미리 설정된 기준 길이보다 짧은지 여부를 확인하는 단계;
상기 음성 데이터의 길이가 상기 기준 길이보다 짧다고 확인되면, 상기 음성 데이터에 포함된 모든 단어가 미리 생성된 단어 데이터베이스에 포함되는지 여부를 확인하는 단계;
상기 음성 데이터에 포함된 모든 단어가 상기 단어 데이터베이스에 포함된다고 확인되면, 상기 결정된 제어 명령을 단순 명령으로 판단하고, 상기 단순 명령에 따라 상기 디스플레이 화면을 제어하는 단계;
상기 음성 데이터에 포함된 단어 중 상기 단어 데이터베이스에 포함되지 않은 단어가 있다고 확인되거나, 상기 음성 데이터의 길이가 상기 기준 길이보다 짧지 않다고 확인되면, 상기 결정된 제어 명령을 복잡 명령으로 판단하는 단계;
상기 복잡 명령 및 상기 복잡 명령이 맞는지 여부를 묻는 메시지를 사용자의 단말로 전송하는 단계; 및
상기 사용자의 단말로부터 메시지에 대한 응답을 획득하고, 상기 응답을 기초로 상기 디스플레이 화면을 제어하는 단계를 더 포함하는,
STT 기반 디스플레이 화면 원격 제어 방법.
In an STT-based display screen remote control method performed by a device,
Obtaining the user's voice data from the user's terminal;
Converting the user's voice data into text data;
determining a control command for a display screen through the text data; and
and controlling the display screen according to the determined control command,
Confirming the decibel based on the user's voice data;
checking whether the decibel is within a preset threshold range;
If it is confirmed that the decibel is within the threshold range, not proposing an additional command according to the decibel;
If it is determined that the decibel is not within the threshold range, checking whether the decibel is greater than the maximum decibel of the threshold range;
if it is determined that the decibel is greater than the maximum decibel of the threshold range, proposing a first additional command;
If it is determined that the decibel is less than the minimum decibel of the threshold range, then proposing a second additional command,
Obtaining the user's voice data from the user's terminal; Since the
Further comprising performing user authentication based on the user's voice data,
The step of performing user authentication based on the user's voice data includes:
Comparing the user's voice data and the user's reference data to generate a match rate;
An operation to check whether the matching rate is greater than a preset reference rate;
If it is confirmed that the match rate is greater than the reference rate, completing user authentication, and
If it is determined that the match rate is not greater than the reference rate, performing additional authentication;
The operation of performing the additional authentication is,
Obtaining the user's location from the user's terminal and completing user authentication based on the user's location being included in a preset area, and
At least one of the following operations: obtaining a password from the user's terminal and completing user authentication based on the password being the same as a preset authentication number,
controlling the display screen according to the determined control command; Before
Based on the user's voice data, confirming the length of the voice data and words included in the voice data;
checking whether the length of the voice data is shorter than a preset reference length;
If it is determined that the length of the voice data is shorter than the reference length, checking whether all words included in the voice data are included in a pre-generated word database;
When it is confirmed that all words included in the voice data are included in the word database, determining the determined control command as a simple command and controlling the display screen according to the simple command;
If it is confirmed that there is a word included in the voice data that is not included in the word database, or if it is confirmed that the length of the voice data is not shorter than the reference length, determining the determined control command as a complex command;
Transmitting the complex command and a message asking whether the complex command is correct to the user's terminal; and
Further comprising obtaining a response to the message from the user's terminal and controlling the display screen based on the response,
STT-based display screen remote control method.
삭제delete 삭제delete
KR1020240020763A 2024-02-14 2024-02-14 Method, device and system for remotely controlling a display screen based on stt KR102658808B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020240020763A KR102658808B1 (en) 2024-02-14 2024-02-14 Method, device and system for remotely controlling a display screen based on stt

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020240020763A KR102658808B1 (en) 2024-02-14 2024-02-14 Method, device and system for remotely controlling a display screen based on stt

Publications (1)

Publication Number Publication Date
KR102658808B1 true KR102658808B1 (en) 2024-04-19

Family

ID=90881868

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020240020763A KR102658808B1 (en) 2024-02-14 2024-02-14 Method, device and system for remotely controlling a display screen based on stt

Country Status (1)

Country Link
KR (1) KR102658808B1 (en)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044075A (en) * 2001-07-30 2003-02-14 Matsushita Electric Ind Co Ltd Electronic equipment with speech recognizing function
JP2012037820A (en) * 2010-08-11 2012-02-23 Murata Mach Ltd Voice recognition apparatus, voice recognition apparatus for picking, and voice recognition method
KR20190127513A (en) * 2018-05-04 2019-11-13 삼성전자주식회사 Method and device for authentication in voice input
KR102076212B1 (en) * 2019-03-14 2020-02-11 주식회사 포지큐브 Method of operating a speech recognition device
KR102227599B1 (en) 2013-11-12 2021-03-16 삼성전자 주식회사 Voice recognition system, voice recognition server and control method of display apparatus
KR20220033325A (en) * 2020-09-09 2022-03-16 삼성전자주식회사 Electronice device and control method thereof
KR102478631B1 (en) 2018-11-19 2022-12-19 주식회사 케이티 System for reomte control of device
KR102505719B1 (en) 2016-08-12 2023-03-03 삼성전자주식회사 Electronic device and method for recognizing voice of speech
KR102576388B1 (en) 2018-02-21 2023-09-08 엘지전자 주식회사 Display device and operating method thereof

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044075A (en) * 2001-07-30 2003-02-14 Matsushita Electric Ind Co Ltd Electronic equipment with speech recognizing function
JP2012037820A (en) * 2010-08-11 2012-02-23 Murata Mach Ltd Voice recognition apparatus, voice recognition apparatus for picking, and voice recognition method
KR102227599B1 (en) 2013-11-12 2021-03-16 삼성전자 주식회사 Voice recognition system, voice recognition server and control method of display apparatus
KR102505719B1 (en) 2016-08-12 2023-03-03 삼성전자주식회사 Electronic device and method for recognizing voice of speech
KR102576388B1 (en) 2018-02-21 2023-09-08 엘지전자 주식회사 Display device and operating method thereof
KR20190127513A (en) * 2018-05-04 2019-11-13 삼성전자주식회사 Method and device for authentication in voice input
KR102478631B1 (en) 2018-11-19 2022-12-19 주식회사 케이티 System for reomte control of device
KR102076212B1 (en) * 2019-03-14 2020-02-11 주식회사 포지큐브 Method of operating a speech recognition device
KR20220033325A (en) * 2020-09-09 2022-03-16 삼성전자주식회사 Electronice device and control method thereof

Similar Documents

Publication Publication Date Title
Kansizoglou et al. An active learning paradigm for online audio-visual emotion recognition
JP7170405B2 (en) Recognition method, device and training method using neural network
US11183190B2 (en) Method and apparatus for recognizing a voice
US11594224B2 (en) Voice user interface for intervening in conversation of at least one user by adjusting two different thresholds
KR20190123362A (en) Method and Apparatus for Analyzing Voice Dialogue Using Artificial Intelligence
KR20190111278A (en) Electronic device and Method for controlling the electronic device thereof
KR102595790B1 (en) Electronic apparatus and controlling method thereof
KR20210070213A (en) Voice user interface
Heredia et al. Adaptive multimodal emotion detection architecture for social robots
KR20200046185A (en) Electronic device and Method for controlling the electronic device thereof
KR20180108400A (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
US11955026B2 (en) Multimodal neural network for public speaking guidance
EP4125029A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
KR20200010131A (en) Electronic apparatus and control method thereof
US11315553B2 (en) Electronic device and method for providing or obtaining data for training thereof
KR20200115695A (en) Electronic device and method for controlling the electronic devic thereof
KR102564182B1 (en) Method, apparatus and system for extracting facial expression images based on image data using artificial intelligence models and creating contents using them
KR102586799B1 (en) Method, device and system for automatically processing creation of web book based on web novel using artificial intelligence model
KR102658808B1 (en) Method, device and system for remotely controlling a display screen based on stt
KR102543647B1 (en) Method, apparatus and system for analyzing emotions in aspect-based sentences using adaptive masked attention mechanism
KR102463875B1 (en) Method, device and system for providing personalized psychotherapy content using big data
KR20200021408A (en) Server and Method for controlling the server thereof
KR20210079061A (en) Information processing method and apparatus therefor
KR20200144366A (en) Generating trigger recognition models for robot
KR20230120790A (en) Speech Recognition Healthcare Service Using Variable Language Model

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant