WO2024071469A1 - 인공지능 기기 및 그의 동작 방법 - Google Patents

인공지능 기기 및 그의 동작 방법 Download PDF

Info

Publication number
WO2024071469A1
WO2024071469A1 PCT/KR2022/014593 KR2022014593W WO2024071469A1 WO 2024071469 A1 WO2024071469 A1 WO 2024071469A1 KR 2022014593 W KR2022014593 W KR 2022014593W WO 2024071469 A1 WO2024071469 A1 WO 2024071469A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
artificial intelligence
intelligence device
server
function
Prior art date
Application number
PCT/KR2022/014593
Other languages
English (en)
French (fr)
Inventor
이재경
김용태
이향진
곽창민
민선기
김태준
변영빈
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2022/014593 priority Critical patent/WO2024071469A1/ko
Publication of WO2024071469A1 publication Critical patent/WO2024071469A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • This disclosure relates to artificial intelligence devices and methods of operating them.
  • the device is an artificial intelligence (AI) device that can give commands and have conversations through voice.
  • AI artificial intelligence
  • the voice recognition service has a structure that utilizes a huge amount of database to select the optimal answer to the user's question.
  • the voice search function also converts input voice data into text on a cloud server, analyzes it, and retransmits real-time search results based on the results to the device.
  • the cloud server has the computing power to classify numerous words into voice data classified by gender, age, and accent, store them, and process them in real time.
  • the present disclosure aims to solve the above-described problems and other problems.
  • the purpose of this disclosure is to provide artificial intelligence devices.
  • the present disclosure aims to derive optimal intention analysis result information that better matches the intention of the speaker using an artificial intelligence device.
  • the present disclosure aims to provide corresponding information or perform a function based on optimal intent analysis result information for the input of a speaker using a voice recognition service.
  • An artificial intelligence device includes a display; and a processor that controls the display, wherein the processor receives a user input, transmits the user input to a server, and receives response information including intention analysis result information for the user input from the server. , At least one operation of outputting information and performing a function is performed according to the response information, wherein the intention analysis result information includes the user input that is primarily processed based on at least one intention analysis factor transmitted to the server. The results of the intended analysis may be included.
  • the processor receives user feedback data according to the at least one operation performed, and performs the one operation based on the feedback data. Or, more intent analysis factors may be updated, and the updated intent analysis factors may be transmitted to the server.
  • the artificial intelligence device further includes a memory that communicates with the processor and stores data, wherein the processor parses the response information and sends the parsed response. Based on the information, information to be output and information related to function performance can be read from the memory.
  • the processor when the processor outputs information according to the intent analysis result information in the response information, one or more information transmitted to the server Based on the analysis factors, information consisting of a first version or a second version may be provided.
  • the processor determines whether the function can be performed, and , If the above determination results show that it is impossible to perform, recommended function information may be provided, and the recommended function may be performed instead.
  • the processor when an event occurrence is detected, extracts the immediately preceding user input, intention analysis result information, and function performance operation information to provide recommendation compensation.
  • Information on at least one of the functions may be output and a recommendation compensation function may be performed.
  • the processor configures routine information regarding function performance and stores it in a memory, and the received intent analysis result information is stored in the stored routine. If there is a relationship with at least one of the routines defined in the information, the remaining routines included in the routine information can be automatically executed.
  • the processor provides a speech agent including at least one recommendation query, wherein the at least one recommendation query includes the intent analysis. It may be created based on a recommended keyword configured based on at least one of the factors.
  • the method includes receiving a user input; transmitting the user input to a server; Receiving response information including intention analysis result information for the user input from the server; And performing at least one operation of outputting information and performing a function according to the response information, wherein the intent analysis result information is primarily processed based on at least one intent analysis factor transmitted to the server.
  • a result of intent analysis of the user input may be included.
  • the method includes receiving user feedback data according to the at least one operation performed; updating the one or more intent analysis factors based on the feedback data; And it may further include transmitting the updated intent analysis factors to the server.
  • an artificial intelligence device when outputting information according to intent analysis result information in the response information, one or more analyzes transmitted to the server Based on the factors, information consisting of a first version or a second version may be provided.
  • an artificial intelligence device when performing a function according to the intention analysis result information in the response information, it is determined whether the function can be performed, If it is impossible to perform as a result of the determination, recommended function information is provided, and the recommended function can be performed instead.
  • the method includes detecting the occurrence of an event; Extracting immediately preceding user input, intention analysis result information, and function performance operation information; Outputting information about at least one of information about a recommendation reward function; And it may further include performing a recommendation compensation function.
  • the method includes: storing routine information regarding function performance; And if the received intention analysis result information is related to at least one of the routines defined in the stored routine information, it may further include automatically executing the remaining routines included in the routine information.
  • an artificial intelligence device further includes providing a speech agent including at least one recommendation query, wherein the at least one recommendation query may be created based on a recommended keyword configured based on at least one of the intent analysis factors.
  • the quality of the voice recognition service is improved and the user's device usage satisfaction is improved by deriving the optimal intention analysis result that matches various user inputs and providing corresponding information or performing a function. There is an effect that can be maximized.
  • FIG. 1 is a diagram for explaining a voice system according to an embodiment of the present invention.
  • Figure 2 is a block diagram for explaining the configuration of an artificial intelligence device according to an embodiment of the present disclosure.
  • Figure 3 is a block diagram for explaining the configuration of a voice service server according to an embodiment of the present invention.
  • Figure 4 is a diagram illustrating an example of converting a voice signal into a power spectrum according to an embodiment of the present invention.
  • Figure 5 is a block diagram illustrating the configuration of a processor for voice recognition and synthesis of an artificial intelligence device, according to an embodiment of the present invention.
  • Figure 6 is a diagram for explaining the landscape mode and portrait mode of a stand-type artificial intelligence device according to an embodiment of the present disclosure.
  • Figure 7 is a block diagram of an artificial intelligence device according to another embodiment of the present disclosure.
  • FIG. 8 is an example of a detailed block diagram of the processor of FIG. 7.
  • Figure 9 is a flow chart illustrating a method of operating an artificial intelligence device according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram illustrating an operation based on intention analysis result information considering time information in an artificial intelligence device according to an embodiment of the present disclosure.
  • FIGS. 11 and 12 are diagrams illustrating operations based on intention analysis result information considering content information in an artificial intelligence device according to an embodiment of the present disclosure.
  • FIG. 13 is a diagram illustrating an operation based on intention analysis result information considering spatial information in an artificial intelligence device according to an embodiment of the present disclosure.
  • FIG. 14 is a diagram illustrating a user input processing method of an artificial intelligence device according to an embodiment of the present disclosure.
  • FIG. 15 is a diagram illustrating a user input processing method of an artificial intelligence device according to another embodiment of the present disclosure.
  • FIG. 16 is a diagram illustrating a user input processing method of an artificial intelligence device according to another embodiment of the present disclosure.
  • FIG. 17 is a diagram illustrating a recommendation query through a speech agent according to an embodiment of the present disclosure.
  • 'Artificial intelligence devices' described in this specification include mobile phones, smart phones, laptop computers, artificial intelligence devices for digital broadcasting, personal digital assistants (PDAs), portable multimedia players (PMPs), navigation, and slates.
  • PDAs personal digital assistants
  • PMPs portable multimedia players
  • PC slate PC
  • tablet PC tablet PC
  • ultrabook wearable device (e.g., watch-type artificial intelligence device (smartwatch), glass-type artificial intelligence device (smart glass), HMD ( head mounted display)), etc.
  • wearable device e.g., watch-type artificial intelligence device (smartwatch), glass-type artificial intelligence device (smart glass), HMD ( head mounted display)
  • HMD head mounted display
  • artificial intelligence devices may also be applied to fixed artificial intelligence devices such as smart TVs, desktop computers, digital signage, refrigerators, washing machines, air conditioners, and dishwashers.
  • artificial intelligence devices can also be applied to fixed or movable robots.
  • an artificial intelligence device can perform the function of a voice agent (or speech agent).
  • a voice agent may be a program that recognizes the user's voice and outputs a response appropriate for the recognized user's voice as a voice.
  • FIG. 1 is a diagram for explaining a voice service system according to an embodiment of the present invention.
  • the voice service may include at least one of voice recognition and voice synthesis services.
  • the speech recognition and synthesis process converts the speaker's (or user's) voice data into text data, analyzes the speaker's intention based on the converted text data, and converts the text data corresponding to the analyzed intention into synthesized voice data. , It may include a process of outputting the converted synthesized voice data.
  • a voice service system as shown in Figure 1, can be used.
  • the voice service system includes an artificial intelligence device (10), a Speech To Text (STT) server (20), a Natural Language Processing (NLP) server (30), and a voice synthesis server ( 40) may be included.
  • a plurality of AI agent servers 50-1 to 50-3 communicate with the NLP server 30 and may be included in the voice service system.
  • the STT server 20, NLP server 30, and voice synthesis server 40 may exist as separate servers as shown, or may be included in one server 200.
  • a plurality of AI agent servers 50-1 to 50-3 may also exist as separate servers or may be included in one server.
  • the artificial intelligence device 10 may transmit a voice signal corresponding to the speaker's voice received through the microphone 122 of FIG. 2 to the STT server 20.
  • the STT server 20 can convert voice data received from the artificial intelligence device 10 into text data.
  • the STT server 20 can increase the accuracy of voice-to-text conversion by using a language model.
  • a language model can refer to a model that can calculate the probability of a sentence or the probability of the next word appearing given the previous words.
  • the language model may include probabilistic language models such as Unigram model, Bigram model, N-gram model, etc.
  • the unigram model is a model that assumes that the usage of all words is completely independent of each other, and calculates the probability of a word string as the product of the probability of each word.
  • the bigram model is a model that assumes that the use of a word depends only on the previous word.
  • the N-gram model is a model that assumes that the usage of a word depends on the previous (n-1) words.
  • the STT server 20 can use the language model to determine whether text data converted from voice data has been appropriately converted, and through this, the accuracy of conversion to text data can be increased.
  • the NLP server 30 may receive text data from the STT server 20.
  • the STT server 20 may be included in the NLP server 30.
  • the NLP server 30 may perform intent analysis on text data based on the received text data.
  • the NLP server 30 may transmit intention analysis information indicating the result of intention analysis to the artificial intelligence device 10.
  • the NLP server 30 may transmit intention analysis information to the voice synthesis server 40.
  • the voice synthesis server 40 may generate a synthesized voice based on intent analysis information and transmit the generated synthesized voice to the artificial intelligence device 10.
  • the NLP server 30 may generate intention analysis information by sequentially performing a morpheme analysis step, a syntax analysis step, a dialogue act analysis step, and a dialogue processing step on text data.
  • the morpheme analysis step is a step that classifies text data corresponding to the voice uttered by the user into morpheme units, which are the smallest units with meaning, and determines what part of speech each classified morpheme has.
  • the syntax analysis step is a step that uses the results of the morpheme analysis step to classify text data into noun phrases, verb phrases, adjective phrases, etc., and determines what kind of relationship exists between each divided phrase.
  • the subject, object, and modifiers of the voice uttered by the user can be determined.
  • the speech act analysis step is a step of analyzing the intention of the voice uttered by the user using the results of the syntax analysis step. Specifically, the speech act analysis step is to determine the intent of the sentence, such as whether the user is asking a question, making a request, or simply expressing an emotion.
  • the conversation processing step is a step that uses the results of the dialogue act analysis step to determine whether to answer, respond to, or ask a question for additional information about the user's utterance.
  • the NLP server 30 may generate intention analysis information including one or more of a response to the intention uttered by the user, a response, and an inquiry for additional information.
  • the NLP server 30 may transmit a search request to a search server (not shown) and receive search information corresponding to the search request in order to search for information that matches the user's utterance intention.
  • the search information may include information about the searched content.
  • the NLP server 30 transmits search information to the artificial intelligence device 10, and the artificial intelligence device 10 can output the search information.
  • the NLP server 30 may receive text data from the artificial intelligence device 10. For example, if the artificial intelligence device 10 supports a voice-to-text conversion function, the artificial intelligence device 10 converts voice data into text data and transmits the converted text data to the NLP server 30. .
  • the voice synthesis server 40 can generate a synthesized voice by combining pre-stored voice data.
  • the voice synthesis server 40 can record the voice of a person selected as a model and divide the recorded voice into syllables or words.
  • the voice synthesis server 40 can store the segmented voice in units of syllables or words in an internal or external database.
  • the voice synthesis server 40 may search for syllables or words corresponding to given text data from a database, synthesize a combination of the searched syllables or words, and generate a synthesized voice.
  • the voice synthesis server 40 may store a plurality of voice language groups corresponding to each of a plurality of languages.
  • the speech synthesis server 40 may include a first audio language group recorded in Korean and a second audio language group recorded in English.
  • the speech synthesis server 40 may translate text data in the first language into text in the second language and generate synthesized speech corresponding to the translated text in the second language using the second speech language group.
  • the voice synthesis server 40 can transmit the generated synthesized voice to the artificial intelligence device 10.
  • the voice synthesis server 40 may receive analysis information from the NLP server 30.
  • the analysis information may include information analyzing the intention of the voice uttered by the user.
  • the voice synthesis server 40 may generate a synthesized voice that reflects the user's intention based on the analysis information.
  • At least two of the STT server 20, NLP server 30, and voice synthesis server 40 may be implemented as one server.
  • Each function of the STT server 20, NLP server 30, and voice synthesis server 40 described above may also be performed by the artificial intelligence device 10.
  • the artificial intelligence device 10 may include one or more processors.
  • Each of the plurality of AI agent servers 50-1 to 50-3 may transmit search information to the NLP server 30 or the artificial intelligence device 10 according to a request from the NLP server 30.
  • the NLP server 30 transmits the content search request to one or more of the plurality of AI agent servers 50-1 to 50-3, , content search results can be received from the corresponding server.
  • the NLP server 30 may transmit the received search results to the artificial intelligence device 10.
  • Figure 2 is a block diagram for explaining the configuration of an artificial intelligence device 10 according to an embodiment of the present disclosure.
  • the artificial intelligence device 10 includes a communication unit 110, an input unit 120, a learning processor 130, a sensing unit 140, an output unit 150, a memory 170, and a processor 180. may include.
  • the communication unit 110 can transmit/receive data to/from external devices using wired/wireless communication technology.
  • the communication unit 110 may transmit/receive sensor information, user input, learning models, control signals, etc. with external devices.
  • communication technologies used by the communication unit 110 include GSM (Global System for Mobile communication), CDMA (Code Division Multi Access), LTE (Long Term Evolution), LTE-A (advanced), 5G, WLAN (Wireless LAN), These include Wi-Fi (Wireless-Fidelity), BluetoothTM RFID (Radio Frequency Identification), Infrared Data Association (IrDA), ZigBee, and NFC (Near Field Communication).
  • GSM Global System for Mobile communication
  • CDMA Code Division Multi Access
  • LTE Long Term Evolution
  • LTE-A advanced wireless LAN
  • WLAN Wireless LAN
  • Wi-Fi Wireless-Fidelity
  • BluetoothTM RFID Radio Frequency Identification
  • IrDA Infrared Data Association
  • ZigBee ZigBee
  • NFC Near Field Communication
  • the input unit 120 can acquire various types of data.
  • the input unit 120 may include a camera for inputting video signals, a microphone for receiving audio signals, and a user input unit for receiving information from a user.
  • the camera or microphone may be treated as a sensor, and the signal obtained from the camera or microphone may be referred to as sensing data or sensor information.
  • the input unit 120 may acquire training data for model learning and input data to be used when obtaining an output using the learning model.
  • the input unit 120 may acquire unprocessed input data, and in this case, the processor 180 or the learning processor 130 may extract input features by preprocessing the input data.
  • the input unit 120 may include a camera 121 for inputting video signals, a microphone 122 for receiving audio signals, and a user input unit 123 for receiving information from the user. there is.
  • Voice data or image data collected by the input unit 120 may be analyzed and processed as a user's control command.
  • the input unit 120 is for inputting image information (or signal), audio information (or signal), data, or information input from the user. To input image information, one or more artificial intelligence devices 10 are used. of cameras 121 may be provided.
  • the camera 121 processes image frames, such as still images or moving images, obtained by an image sensor in video call mode or shooting mode.
  • image frames such as still images or moving images, obtained by an image sensor in video call mode or shooting mode.
  • the processed image frame may be displayed on the display unit 151 or stored in the memory 170.
  • the microphone 122 processes external acoustic signals into electrical voice data.
  • Processed voice data can be used in various ways depending on the function (or application program being executed) being performed by the artificial intelligence device 10. Meanwhile, various noise removal algorithms may be applied to the microphone 122 to remove noise generated in the process of receiving an external acoustic signal.
  • the user input unit 123 is for receiving information from the user.
  • the processor 180 can control the operation of the artificial intelligence device 10 to correspond to the input information. there is.
  • the user input unit 123 is a mechanical input means (or mechanical key, such as a button, dome switch, jog wheel, jog switch, etc. located on the front/rear or side of the artificial intelligence device 10). ) and a touch input means.
  • the touch input means consists of a virtual key, soft key, or visual key displayed on the touch screen through software processing, or a part other than the touch screen. It can be done with a touch key placed in .
  • the learning processor 130 can train a model composed of an artificial neural network using training data.
  • the learned artificial neural network may be referred to as a learning model.
  • a learning model can be used to infer a result value for new input data other than learning data, and the inferred value can be used as the basis for a decision to perform an operation.
  • the learning processor 130 may include memory integrated or implemented in the artificial intelligence device 10. Alternatively, the learning processor 130 may be implemented using the memory 170, an external memory directly coupled to the artificial intelligence device 10, or a memory maintained in an external device.
  • the sensing unit 140 may use various sensors to obtain at least one of internal information of the artificial intelligence device 10, information about the surrounding environment of the artificial intelligence device 10, and user information.
  • the sensors included in the sensing unit 140 include a proximity sensor, illuminance sensor, acceleration sensor, magnetic sensor, gyro sensor, inertial sensor, RGB sensor, IR sensor, fingerprint recognition sensor, ultrasonic sensor, light sensor, microphone, and lidar. , radar, etc.
  • the output unit 150 may generate output related to vision, hearing, or tactile sensation.
  • the output unit 150 includes at least one of a display unit (Display Unit, 151), a sound output unit (152), a haptic module (153), and an optical output unit (Optical Output Unit, 154). It can be included.
  • the display unit 151 displays (outputs) information processed by the artificial intelligence device 10.
  • the display unit 151 may display execution screen information of an application running on the artificial intelligence device 10, or UI (User Interface) and GUI (Graphic User Interface) information according to such execution screen information.
  • UI User Interface
  • GUI Graphic User Interface
  • the display unit 151 can implement a touch screen by forming a layered structure or being integrated with the touch sensor.
  • This touch screen functions as a user input unit 123 that provides an input interface between the artificial intelligence device 10 and the user, and can simultaneously provide an output interface between the terminal 100 and the user.
  • the audio output unit 152 may output audio data received from the communication unit 110 or stored in the memory 170 in call signal reception, call mode or recording mode, voice recognition mode, broadcast reception mode, etc.
  • the sound output unit 152 may include at least one of a receiver, a speaker, and a buzzer.
  • the haptic module 153 generates various tactile effects that the user can feel.
  • a representative example of a tactile effect generated by the haptic module 153 may be vibration.
  • the optical output unit 154 uses light from the light source of the artificial intelligence device 10 to output a signal to notify the occurrence of an event. Examples of events that occur in the artificial intelligence device 10 may include receiving a message, receiving a call signal, missed call, alarm, schedule notification, receiving email, receiving information through an application, etc.
  • the memory 170 can store data supporting various functions of the artificial intelligence device 10.
  • the memory 170 may store input data, learning data, learning models, learning history, etc. obtained from the input unit 120.
  • the processor 180 may determine at least one executable operation of the artificial intelligence device 10 based on information determined or generated using a data analysis algorithm or a machine learning algorithm. And the processor 180 can control the components of the artificial intelligence device 10 to perform the determined operation.
  • the processor 180 may request, retrieve, receive, or utilize data from the learning processor 130 or the memory 170, and may artificially execute an operation that is predicted or determined to be desirable among the at least one executable operation. Components of the intelligent device 10 can be controlled.
  • the processor 180 may generate a control signal to control the external device and transmit the generated control signal to the external device.
  • the processor 180 may obtain intent information regarding user input and determine the user's request based on the obtained intent information.
  • the processor 180 uses at least one of an STT engine (410 in FIG. 5) for converting voice input into a character string or an NLP engine (430 in FIG. 5) for acquiring intent information of natural language, corresponding to the user input. Intention information can be obtained.
  • At least one of the STT engine (410 in FIG. 5) or the NLP engine (430 in FIG. 5) may be configured at least in part with an artificial neural network learned according to a machine learning algorithm. And at least one of the STT engine (410 in FIG. 5) or the NLP engine (430 in FIG. 5) is learned by the learning processor 130, and is learned by the learning processor 240 of the AI server 200. , or it may be learned through distributed processing.
  • the processor 180 collects history information including the user's feedback on the operation of the artificial intelligence device 10 and stores it in the memory 170 or the learning processor 130 or the AI server 200, etc. Can be transmitted to external devices. The collected historical information can be used to update the learning model.
  • the processor 180 may control at least some of the components of the artificial intelligence device 10 to run an application program stored in the memory 170. Furthermore, the processor 180 may operate two or more of the components included in the artificial intelligence device 10 in combination with each other in order to run the application program.
  • Figure 3 is a block diagram for explaining the configuration of the voice service server 200 according to an embodiment of the present invention.
  • the voice service server 200 may include one or more of the STT server 20, NLP server 30, and voice synthesis server 40 shown in FIG. 1.
  • the voice service server 200 may be referred to as a server system.
  • the voice service server 200 may include a preprocessor 220, a controller 230, a communication unit 270, and a database 290.
  • the preprocessing unit 220 may preprocess the voice received through the communication unit 270 or the voice stored in the database 290.
  • the preprocessing unit 220 may be implemented as a separate chip from the controller 230 or may be implemented as a chip included in the controller 230.
  • the preprocessor 220 may receive a voice signal (uttered by a user) and filter noise signals from the voice signal before converting the received voice signal into text data.
  • the preprocessor 220 If the preprocessor 220 is provided in the artificial intelligence device 10, it can recognize a startup word to activate voice recognition of the artificial intelligence device 10.
  • the preprocessor 220 converts the startup word received through the microphone 121 into text data, and if the converted text data is text data corresponding to a pre-stored startup word, it may be determined that the startup word has been recognized. .
  • the preprocessor 220 may convert the noise-removed voice signal into a power spectrum.
  • the power spectrum may be a parameter that indicates which frequency components and at what magnitude are included in the temporally varying waveform of a voice signal.
  • the power spectrum shows the distribution of squared amplitude values according to the frequency of the waveform of the voice signal.
  • FIG. 4 is a diagram illustrating an example of converting a voice signal 410 into a power spectrum 430 according to an embodiment of the present invention.
  • the voice signal 410 may be received from an external device or may be a signal previously stored in the memory 170.
  • the x-axis of the voice signal 410 may represent time, and the y-axis may represent amplitude.
  • the power spectrum processor 225 can convert the voice signal 410, where the x-axis is the time axis, into a power spectrum 430, where the x-axis is the frequency axis.
  • the power spectrum processor 225 may convert the voice signal 410 into a power spectrum 430 using Fast Fourier Transform (FFT).
  • FFT Fast Fourier Transform
  • the x-axis of the power spectrum 430 represents frequency, and the y-axis represents the square value of amplitude.
  • the functions of the preprocessor 220 and the controller 230 described in FIG. 3 can also be performed by the NLP server 30.
  • the preprocessor 220 may include a wave processor 221, a frequency processor 223, a power spectrum processor 225, and an STT converter 227.
  • the wave processing unit 221 can extract the waveform of the voice.
  • the frequency processing unit 223 can extract the frequency band of the voice.
  • the power spectrum processing unit 225 can extract the power spectrum of the voice.
  • the power spectrum may be a parameter that indicates which frequency components and at what size are included in the waveform.
  • the STT converter 227 can convert voice into text.
  • the STT conversion unit 227 can convert voice in a specific language into text in that language.
  • the controller 230 can control the overall operation of the voice service server 200.
  • the controller 230 may include a voice analysis unit 231, a text analysis unit 232, a feature clustering unit 233, a text mapping unit 234, and a voice synthesis unit 235.
  • the voice analysis unit 231 may extract voice characteristic information using one or more of the voice waveform, voice frequency band, and voice power spectrum preprocessed in the preprocessor 220.
  • the voice characteristic information may include one or more of the speaker's gender information, the speaker's voice (or tone), the pitch of the sound, the speaker's speaking style, the speaker's speech speed, and the speaker's emotion.
  • the voice characteristic information may further include the speaker's timbre.
  • the text analysis unit 232 may extract key expressions from the text converted by the STT conversion unit 227.
  • the text analysis unit 232 When the text analysis unit 232 detects a change in tone between phrases from the converted text, it can extract the phrase with a different tone as the main expression phrase.
  • the text analysis unit 232 may determine that the tone has changed when the frequency band between the phrases changes more than a preset band.
  • the text analysis unit 232 may extract key words from phrases in the converted text.
  • a key word may be a noun that exists within a phrase, but this is only an example.
  • the feature clustering unit 233 can classify the speaker's speech type using the voice characteristic information extracted from the voice analysis unit 231.
  • the feature clustering unit 233 may classify the speaker's utterance type by assigning weight to each type item constituting the voice characteristic information.
  • the feature clustering unit 233 can classify the speaker's utterance type using the attention technique of a deep learning model.
  • the text mapping unit 234 may translate the text converted into the first language into the text of the second language.
  • the text mapping unit 234 may map the text translated into the second language with the text of the first language.
  • the text mapping unit 234 can map key expressions constituting the text in the first language to corresponding phrases in the second language.
  • the text mapping unit 234 may map the utterance type corresponding to the main expression phrases constituting the text of the first language to phrases of the second language. This is to apply the classified utterance type to the phrases of the second language.
  • the voice synthesis unit 235 applies the utterance type and speaker's tone classified by the feature clustering unit 233 to the main expressions of the text translated into the second language in the text mapping unit 234 to produce a synthesized voice. can be created.
  • the controller 230 may determine the user's speech characteristics using one or more of the delivered text data or the power spectrum 430.
  • the user's speech characteristics may include the user's gender, the user's pitch, the user's tone, the user's speech topic, the user's speech speed, and the user's voice volume.
  • the controller 230 may use the power spectrum 430 to obtain the frequency of the voice signal 410 and the amplitude corresponding to the frequency.
  • the controller 230 can determine the gender of the user who uttered the voice using the frequency band of the power spectrum 430.
  • the controller 230 may determine the user's gender as male.
  • the controller 230 may determine the user's gender as female.
  • the second frequency band range may be larger than the first frequency band range.
  • the controller 230 can determine the pitch of the voice using the frequency band of the power spectrum 430.
  • the controller 230 may determine the pitch of the sound according to the size of the amplitude within a specific frequency band.
  • the controller 230 may determine the user's tone using the frequency band of the power spectrum 430. For example, the controller 230 may determine a frequency band with an amplitude greater than a certain level among the frequency bands of the power spectrum 430 as the user's main sound range, and determine the determined main sound range as the user's tone.
  • the controller 230 may determine the user's speech rate based on the number of syllables uttered per unit time from the converted text data.
  • the controller 230 can determine the topic of the user's speech using the Bag-Of-Word Model technique for the converted text data.
  • the Bag-Of-Word Model technique is a technique to extract frequently used words based on the frequency of words in a sentence.
  • the Bag-Of-Word Model technique is a technique that extracts unique words within a sentence and expresses the frequency of each extracted word as a vector to determine the characteristics of the topic of speech.
  • the controller 230 may classify the topic of the user's speech as exercise.
  • the controller 230 may determine the topic of the user's speech from text data using a known text categorization technique.
  • the controller 230 may extract keywords from text data and determine the topic of the user's speech.
  • the controller 230 may determine the user's voice volume by considering amplitude information in the entire frequency band.
  • the controller 230 may determine the user's voice quality based on the average or weighted average of the amplitude in each frequency band of the power spectrum.
  • the communication unit 270 may communicate with an external server by wire or wirelessly.
  • the database 290 may store the voice of the first language included in the content.
  • the database 290 may store a synthesized voice in which the voice of the first language is converted into the voice of the second language.
  • the database 290 may store a first text corresponding to a voice in the first language and a second text in which the first text is translated into the second language.
  • the database 290 may store various learning models required for voice recognition.
  • the processor 180 of the artificial intelligence device 10 shown in FIG. 2 may include the preprocessor 220 and the controller 230 shown in FIG. 3.
  • the processor 180 of the artificial intelligence device 10 may perform the functions of the preprocessor 220 and the controller 230.
  • FIG. 5 is a block diagram illustrating the configuration of a processor for voice recognition and synthesis of the artificial intelligence device 10, according to an embodiment of the present invention.
  • the voice recognition and synthesis process of FIG. 5 may be performed by the learning processor 130 or processor 180 of the artificial intelligence device 10 without going through a server.
  • the processor 180 of the artificial intelligence device 10 may include an STT engine 510, an NLP engine 530, and a voice synthesis engine 550.
  • Each engine can be either hardware or software.
  • the STT engine 510 may perform the function of the STT server 20 of FIG. 1. That is, the STT engine 510 can convert voice data into text data.
  • the NLP engine 530 may perform the functions of the NLP server 30 of FIG. 1. That is, the NLP engine 530 can obtain intention analysis information indicating the speaker's intention from the converted text data.
  • the voice synthesis engine 550 may perform the function of the voice synthesis server 40 of FIG. 1.
  • the speech synthesis engine 550 may search a database for syllables or words corresponding to given text data, synthesize a combination of the searched syllables or words, and generate a synthesized voice.
  • the voice synthesis engine 550 may include a preprocessing engine 551 and a TTS engine 553.
  • the preprocessing engine 551 may preprocess text data before generating synthetic speech.
  • the preprocessing engine 551 performs tokenization by dividing text data into tokens, which are meaningful units.
  • the preprocessing engine 551 may perform a cleansing operation to remove unnecessary characters and symbols to remove noise.
  • the preprocessing engine 551 can generate the same word token by integrating word tokens with different expression methods.
  • the preprocessing engine 551 may remove meaningless word tokens (stopwords).
  • the TTS engine 553 can synthesize speech corresponding to preprocessed text data and generate synthesized speech.
  • FIG. 6 is a diagram illustrating the landscape mode and portrait mode of the stand-type artificial intelligence device 10 according to an embodiment of the present disclosure.
  • a stand type artificial intelligence device 10 is shown.
  • a shaft 603 and a stand base 605 may be connected to the artificial intelligence device 10.
  • the shaft 603 can connect the artificial intelligence device 10 and the stand base 605.
  • the shaft 603 may extend vertically.
  • the lower end of the shaft 603 may be connected to the edge of the stand base 605.
  • the lower end of the shaft 603 may be rotatably connected to the circumference of the stand base 605.
  • the artificial intelligence device 10 and the shaft 603 can rotate about a vertical axis with respect to the stand base 605.
  • the upper part of the shaft 603 may be connected to the rear of the artificial intelligence device 10.
  • the stand base 605 may serve to support the artificial intelligence device 10.
  • the artificial intelligence device 10 may be configured to include a shaft 603 and a stand base 605.
  • the artificial intelligence device 10 can rotate around the point where the top of the shaft 603 and the rear of the display 151 meet.
  • Figure 6(a) shows that the display 151 operates in landscape mode in a position in which the horizontal length is greater than the vertical length
  • Figure 6(b) indicates that the display 151 operates in a landscape mode in which the vertical length is greater than the horizontal length. It can be indicated that it operates in landscape mode with .
  • the stand-type artificial intelligence device 10 has improved mobility and the user is not limited by its placement location.
  • the NLP server 30 receives, for example, text data for user input from the STT server 20, and performs a morpheme analysis step, a syntax analysis step, a dialogue act analysis step, and By performing the dialogue processing steps sequentially, intention analysis result information (for convenience, referred to as 'first intention analysis result information') can be generated.
  • intention analysis result information for convenience, referred to as 'first intention analysis result information'
  • the artificial intelligence device 10 may perform a corresponding operation.
  • the corresponding operation may include configuring and providing information (or recommended information) based on the first intent analysis result information, performing a function (or recommended function), etc.
  • the artificial intelligence device 10 may derive first intention analysis result information and then derive second intention analysis result information based on the above-described intention analysis factor. there is. Meanwhile, the artificial intelligence device 10 may receive both first intention analysis result information and second intention analysis result information through, for example, the NLP server 30 or the voice synthesis server 40 of FIG. 1, Only second intention analysis result information may be received.
  • a single intention analysis result information may be derived by considering the above-described intention analysis factors together in the intention analysis process.
  • both the first intention analysis result information and the second intention analysis result information can be generated in the NLP server 30, and the NLP server 30 or the voice synthesis server 40 in the artificial intelligence device 10. This will be explained by taking as an example the case of receiving only the first and second intention analysis result information or the second intention analysis result information.
  • Intention analysis factors related to deriving the second intention analysis result information may include, for example, time, space, user, schedule, content, etc. Individual intention analysis factors are explained in detail in the relevant section.
  • intent analysis factors may be applied individually for intent analysis, or at least two or more intent analysis factors may be applied simultaneously or sequentially for intent analysis.
  • each intent analysis factor may or may not be assigned the same priority or weight.
  • at least two of the intent analysis factors may be grouped and assigned and applied together for intent analysis. At this time, one intent analysis factor may belong to multiple groups.
  • the number and type of intention analysis factors may be registered in advance with the artificial intelligence device 10 and the voice service server 200, or may be arbitrarily determined.
  • Figure 7 is a block diagram of an artificial intelligence device 10 according to another embodiment of the present disclosure.
  • FIG. 8 is an example of a detailed block diagram of the processor 720 of FIG. 7.
  • the voice service server 200 may include the STT server 20 and the NLP server 30 shown in FIG. 1, and may even include a voice synthesis server 40 depending on the embodiment.
  • the 'voice service server 200' when the 'voice service server 200' is described, it may indicate the NLP server 30, or may mean that it further includes at least one of the STT server 20 and the voice synthesis server 40. . However, it is not limited to this.
  • some of the functions of the voice service server 200 may be performed by the artificial intelligence device 10.
  • the artificial intelligence device 10 may be configured to include a display 150 or 151 and a processing unit 700.
  • the processing unit 700 may include a memory 710 and a processor 720.
  • the processing unit 700 can be connected to the voice service server 200 in various ways to exchange data.
  • the memory 710 may store various data, such as data received or processed by the processing unit 700.
  • the memory 710 may store intention analysis result information processed by the processing unit 700 or received from the voice service server 200.
  • the memory 710 is controlled by the processing unit 700 or the processor 720 and can store corresponding action information related to the stored intention analysis result information, and can be provided to the user through the display 150 or 151. You can.
  • the processor 720 may include a voice data reception module 810, a result reception module 820, and a corresponding operation module.
  • the corresponding operation module may include an information generation module 830 and a function generation module 840.
  • the present disclosure is not limited to this.
  • the voice data receiving module 810 can receive a user's input, that is, a voice input (but is not limited to this), and can transmit the received user's voice input to the voice service server 200.
  • the voice data receiving module 810 may receive a user's input (eg, text data) rather than a voice input and transmit it to the voice service server 200 as described above.
  • the result receiving module 820 may receive the intent analysis result corresponding to the user's voice input transmitted from the voice service server 200 through the voice data receiving module 810.
  • the processor 720 may determine a corresponding action based on the result of parsing the intent analysis result information received through the result receiving module 820. If the determined corresponding action is related to providing information (or recommended information), the information generation module 83 may be operated. If the determined operation is related to performing a function (or recommended function), the function creation module 840 may operate.
  • the voice data receiving module 810 transmits voice data to the server 200, but the corresponding operation can be replaced by another module (for example, the result receiving module 820, etc.). there is.
  • the voice data reception module 810 is described as transmitting the user input to the voice service server 200 without any additional processing.
  • the STT engine (510) after processing the user input in the NLP engine 530, the processed data may be transmitted to the voice service server 200, and intention analysis result information may be derived based on the processed data in the artificial intelligence device 10, Only user input and derived intention analysis result information may be transmitted to the server 200.
  • the intent analysis result information represents, for example, the above-described second intent analysis result information, but is not limited thereto and may include first intent analysis result information depending on the embodiment.
  • the processor 720 may have the same configuration as the processor 180 of FIG. 2 described above, but may also have a separate configuration.
  • FIG. 9 is a diagram illustrating a user input processing method of a voice service system according to an embodiment of the present disclosure.
  • the artificial intelligence device 10 can receive user input (S101).
  • user input refers to voice input for convenience of explanation, but is not limited thereto.
  • the user's input may be a text input or a combination of text input and voice input.
  • the remote control device may include a remote control used by the artificial intelligence device 10.
  • the remote control device may include at least one of an AI speaker, smartphone, tablet PC, wearable device, etc.
  • the remote control device may be a device installed with firmware/software such as applications, programs, and API (Application Program Interface) required for data communication such as voice input with the artificial intelligence device 10.
  • the remote control device may be a device registered in advance with the artificial intelligence device 10.
  • the artificial intelligence device 10 may transmit the user input received in step S101 to the STT server 20 (S103).
  • the STT server 20 may transfer the received user input (text data) to the NLP server 30 as is. Meanwhile, if the received user input is not voice data, the artificial intelligence device 10 may directly transmit the user input to the NLP server 30 rather than the STT server 20.
  • the STT server 20 may derive text data corresponding to the user input received through the artificial intelligence device 10 in step S103 (S105).
  • the STT server 20 may transmit text data corresponding to the user input derived in step S105 to the NLP server 30 (S107).
  • the NLP server 30 may perform an intention analysis process on the text data received from the STT server 20 through step S107 and derive intention analysis result information (S109).
  • the intent analysis process may use at least one intent analysis factor among the intent analysis factors according to the present disclosure.
  • the intention analysis result information may correspond to or include the second intention analysis result information.
  • the NLP server 30 may return (or transmit) the intention analysis result information derived through step S109 to the artificial intelligence device 10 (S111).
  • the artificial intelligence device 10 may parse the intention analysis result information according to the user input returned from the NLP server 30 through step S111 and determine a corresponding action based on the intention analysis result information (S113).
  • the artificial intelligence device 10 may perform a function (or recommendation function) or output information (e.g., recommended information, information about a function or recommended function, etc.) based on the corresponding action determined through step S113 ( S115).
  • a function or recommendation function
  • output information e.g., recommended information, information about a function or recommended function, etc.
  • the NLP server 30 may also transmit operation control information corresponding to the operation determined by the artificial intelligence device 10, that is, function performance or information output. .
  • the artificial intelligence device 10 may recognize this as recommended information or reference information. Accordingly, the artificial intelligence device 10 can select or modify some or all of them and use them to determine a corresponding action.
  • the artificial intelligence device 10 may receive additional input from the user, for example, feedback from the user in relation to the function or output information performed through step S115 (S117).
  • the artificial intelligence device 10 may transmit the user's feedback to be received through step S117 to the NLP server 30 (S119).
  • the NLP server 30 updates the algorithm or artificial intelligence learning model (AI learning model) used to derive the result of the previously performed intention analysis based on the user's feedback received from the artificial intelligence device 10 through step S119. and save (S121).
  • AI learning model algorithm or artificial intelligence learning model
  • the NLP server 30 may return the fact that the algorithm has been updated in step S121 to the artificial intelligence device 10, etc.
  • voice recognition based on voice input related to weather, for example, is increasingly being used.
  • the user input for intent analysis is voice input
  • the voice input is related to a weather information request as an example, but is not limited thereto.
  • FIG. 10 is a diagram illustrating an operation based on intention analysis result information considering time information in an artificial intelligence device 10 according to an embodiment of the present disclosure.
  • time information is a specific time (e.g., 9 a.m., 8 p.m., 10 p.m., etc.), time zone (e.g., between 9 a.m. and 10 a.m., 8 p.m., etc.) It can represent at least one of: 10:00 - 10:00 PM, morning, evening, night, etc.), day of the week (e.g., Monday - Friday, weekend, etc.), etc.
  • time zone e.g., between 9 a.m. and 10 a.m., 8 p.m., etc.
  • the voice recognition function is most used in the evening hours (for example, 19:00), and its use is relatively low in the early morning hours (for example, 4 o'clock).
  • Table 1 shows examples of voice recognition use (main speech information) at a specific time or time zone in Korea, and Table 2 shows an example of voice recognition use at a specific time or time zone in Italy.
  • the utterance 'tomorrow's weather' was the most frequently uttered at 22:00, followed by 'weather', 'what's the weather like tomorrow', 'today's weather', and 'tell me the weather tomorrow'. You can see that the same utterances are followed, and at 01:00, the utterance 'Tell me the weather tomorrow' was the most frequently uttered, followed by 'today's weather', 'weather', 'weekend weather', and 'weather'. You can see that it is followed by an utterance such as 'Tell me.'
  • the utterance 'weather forecast' was the most frequently uttered at 22:00, followed by 'What is the weather today', 'What's the weather like tomorrow', 'Forecasts', and ' It can be seen that utterances such as 'What is the weather' are followed, and at 01:00, utterances 'What's the weather like tomorrow', 'What's the weather like today', and 'Weather forecast' have the highest number of utterances. There were many, and you can see that they are followed by utterances such as 'Trapani weather' and 'Weekend Weather Forecast'.
  • a day is set from 0:00 to 23:59:59, and a new day is set from 24:00.
  • the same utterance may have different intentions based on the time of utterance.
  • an utterance related to tomorrow's weather at 22 o'clock can be analyzed as an intent analysis as it naturally means tomorrow's weather.
  • the utterance 'Tell me the weather tomorrow' which has the highest number of utterances at 01:00, can be recognized and judged as telling the weather for the day after tomorrow, not tomorrow, but the day before, because the date has already changed from the device's perspective. there is.
  • the user is still awake without sleep and may still perceive it as the previous day, not tomorrow based on absolute time, and from this perspective, 'Tell me the weather tomorrow' is the day after tomorrow based on the previous day. Instead, it may have been intended for tomorrow.
  • the artificial intelligence device 10 can guide the weather for January 2, 2022, but the speaker's intention is to say the weather for January 1, 2022.
  • the intention may be to receive information about the weather.
  • time information e.g., timing of utterance
  • the intention of the utterance is to view it as requesting weather information for tomorrow, that is, the day, based on the previous day, not tomorrow based on 01:00. It will be more likely to match the user's intent. Therefore, information about time information (e.g., timing of utterance) must be referred to in intent analysis to more accurately match the intent of the utterance.
  • the first intention analysis result information by the NLP server 30 according to FIG. 1 that is, the weather information for tomorrow is provided based on 01 o'clock, it may not match the user's intention.
  • time information e.g., utterance time information
  • time information is further considered in response to the user's input, and time information is taken into consideration in addition to the first intention analysis result information. 2 It may be desirable to use information resulting from intent analysis.
  • time information may represent information about the speaker's utterance point, as described above.
  • This time information may also represent information about time referenced based on at least one of statistical values, user log data, and the general idea of time information of a user who uses the server 200 or is registered.
  • the relative time can be determined by mapping the time-related utterance content among the user's input to 24 hours, which is absolute time. For example, in Table 1, 22:00 and 01:00 are different dates in absolute time, but the artificial intelligence device 10 can recognize 22:00 and 01:00 as the same date in relative time.
  • the artificial intelligence device 10 or the NLP server 30 uses the same voice input at 22:00 and 01:00, that is, in the utterance "tomorrow's weather," the term “tomorrow” related to time information is a relative time standard. It can be judged to be the same date. In general, users may not be aware that the date has changed at the time of utterance, and even if they do, they tend to ignore the fact that the date has changed before going to sleep, which can lead to errors in intent analysis. Therefore, as in the present disclosure, when analyzing the user's intention, it may be more consistent with the user's intention to analyze and respond based on relative time rather than absolute time. At this time, relative time does not exclude the idea of absolute time. For example, 14 o'clock can represent the same date in either absolute or relative time. In other words, in this disclosure, the concepts of absolute time and relative time may be used interchangeably when analyzing the user's intention.
  • the user when the user utters 'tomorrow's weather' at 01:00, it may be requesting the weather for tomorrow based on absolute time, that is, the day after tomorrow based on the previous day.
  • the absolute time may be requested. This problem can be resolved by providing both today's weather and tomorrow's weather as a standard.
  • the artificial intelligence device 10 provides both today's weather and tomorrow's weather, but if the probability of requesting today's weather as a result of intention analysis is greater than the threshold value than the probability of requesting tomorrow's weather, differential composition of weather information provided simultaneously is provided. You can put it.
  • the artificial intelligence device 10 provides weather information with a relatively high probability as full or long information, but weather information with a low probability provides simple or short information. It can be provided by configuring only. Meanwhile, simple information may be changed to provide full information depending on the user's selection.
  • the artificial intelligence device 10 can configure mapping information for related information and store it in the memory 710, as shown in Table 3 below.
  • Table 3 the present disclosure is not limited to the content defined in Table 3.
  • the artificial intelligence device 10 provides only today's (6/11) weather information when the voice input 'How's the weather?' is received between 7:00 and 20:59, but it also provides 'What's the weather like tomorrow'?
  • the voice input 'What's the weather like' is received between 21:00 and 23:59
  • the weather information for today (6/11) and tomorrow ( 6/12) weather information is provided together, but when a voice input saying 'what's the weather like tomorrow' is received, only the weather information for tomorrow (6/12th) is provided, and between 00:00 and 6:59 a.m.
  • Tables 1 and 2 may be information on the results of intent analysis without considering day of the week information.
  • the artificial intelligence device 10 requests weather information on Monday through voice input, it is intended to request weekday weather information for that week. If weather information is requested on Tuesday and Wednesday (or Thursday may also be included), it can be analyzed as if weather information for today or tomorrow is requested by referring to the above-mentioned Tables 1 and 2. If weather information is requested on Friday, the intent can be analyzed as a request for weekend weather or weather information from that day to the weekend.
  • this is only an example, and the present disclosure is not limited thereto.
  • the artificial intelligence device 10 may combine the time information in Tables 1 and 2 and the above-described day information to generate mapping information as shown in Table 3, and use it to analyze the intention of the user's input.
  • the information provided based on the intention analysis result information may be differentiated, as described above.
  • Figures 10 (a) to (c) may be an example of a user interface for weather information
  • Figure 10 (d) may be another example of a user interface for weather information.
  • the artificial intelligence device 10 may provide a simple version as shown in (a) to (c) of Figure 10, or a full version as shown in (d) of Figure 10. can do.
  • the operation of the artificial intelligence device 10 based on the intention analysis result information considering user information is as follows.
  • user information may mean, for example, single user/multiple users, logged in user, etc.
  • the artificial intelligence device 10 can refer to whether a user is logged in as user information for intention analysis.
  • the artificial intelligence device 10 analyzes log data of the logged in user, extracts user history data for intention analysis based on the analyzed log data, and ensures that the extracted user history data is reflected in intention analysis. You can.
  • User history data includes, for example, the user's recent or previous user input-intention analysis results and feedback thereon, recent content usage history, the user's artificial intelligence device (10), content or voice command or voice input usage pattern, and usage frequency. It may include at least one of the number of uses, etc., or may be data separately generated based on it for reference in intention analysis.
  • user information includes single user/multiple users, for example, information on whether multiple user inputs were entered simultaneously or sequentially within a predetermined time, and whether the user watching the artificial intelligence device 10 is single or multiple users. It may be determined based on information about whether the user's input is for a single user or multiple users (for example, a request to play a two-player game, etc.).
  • the artificial intelligence device 10 can provide simple information such as (a) to (c) of Figure 10 when the user information is recognized as a single user, and when the user information is recognized as a single user, the artificial intelligence device 10 can provide simple information such as (a) to (c) of Figure 10. In this case, pool information such as (d) of FIG. 10 may be provided.
  • the artificial intelligence device 10 if the logged in user matches the subject of the user input, the artificial intelligence device 10 provides full information as shown in (d) of FIG. 10 in response to the intention analysis result information. , In other cases, that is, when the logged in user and the speaker do not match each other, simple information such as any one of (a) to (c) of Figure 10 can be provided.
  • user information may be combined with the time information and day information described above as well as at least one piece of information described later and used for intent analysis.
  • scheduling information may represent the user's scheduling information that can be obtained through the user's mobile device or cloud server.
  • the artificial intelligence device 10 can obtain related information by accessing the scheduling information with the user's consent so that it can be used.
  • the artificial intelligence device 10 may process it as described above in relation to Tables 1 and 2, but may provide more precise intention analysis result information by referring to the scheduling information. You can also obtain it. For example, let's say it's rainy today and the user has a workout schedule for the weekend. In this case, when the user inputs 'what's the weather like?', the artificial intelligence device 10 may simply display today's or tomorrow's weather information, but there is concern about whether or not the schedule scheduled for the weekend, that is, the outdoor exercise schedule, can be completed. It may be because.
  • the artificial intelligence device 10 acquires the user's scheduling information, extracts information whose relevance to the user's input is more than a threshold from the obtained scheduling information, and stores the extracted information in the NLP server (30).
  • the NLP server 30 refers to the information in the intention analysis of the user input, and determines not just the weather for today or tomorrow or the weather during the week, but also the weather for the weekend, for the user's input 'How is the weather?' By considering outdoor exercise schedules, you can decide what weather information to provide.
  • the scheduling information functions as only one intention analysis factor, but when combined with at least one of other intention analysis factors, the accuracy of intention analysis can be further increased.
  • the scheduling information may be user scheduling information determined based on the above-described user information.
  • the operation of the artificial intelligence device 10 based on the intention analysis result information considering the content information as the intention analysis factor is as follows.
  • FIGS. 11 and 12 are diagrams illustrating operations based on intention analysis result information considering content information in an artificial intelligence device 10 according to an embodiment of the present disclosure.
  • the content may indicate other information such as type, attribute, genre, etc. of the content currently being played, scheduled to be played, or scheduled to be played on the artificial intelligence device 10.
  • the artificial intelligence device 10 is currently providing a news or weather application or information and receives a user's input.
  • the artificial intelligence device 10 may transmit the user's input and at least one of content information currently being played, content information just before play, or content information scheduled to be played to the NLP server 30.
  • the NLP server 30 extracts related words or corpora from the text data for the delivered user input and the content information delivered by the artificial intelligence device 10, and when the relevance of both is greater than a threshold, the user input
  • the content information delivered by the artificial intelligence device 10 can be further referred to.
  • the artificial intelligence device 10 provides news.
  • the news is providing information about the weather.
  • a user input such as 'Show me the weather' is received from the artificial intelligence device 10
  • it is transmitted to the NLP server 30, and information about the news providing the weather information can also be provided as content information. there is.
  • the NLP server 30 When analyzing the intention of the user input 'Show me the weather', the NLP server 30 performs the intention analysis by referring to the fact that news containing weather information was being played on the artificial intelligence device 10 at the time of the user input. can do.
  • the NLP server 30 may provide a corresponding operation using weather information as shown in (b) of FIG. 11, which includes the region and specific weather information, as intention analysis result information.
  • the artificial intelligence device 10 or the NLP server 30 is the intention analysis result information, the region to which the current user belongs and/or the region related to the weather information mentioned in the news.
  • Detailed weather information e.g. full version
  • the artificial intelligence device 10 when the artificial intelligence device 10 is providing a drama rather than news containing weather information, when a user input of 'Show me the weather' is received, the above-mentioned The corresponding operation may be different from the embodiment.
  • the artificial intelligence device 10 transmits the content information to the NLP server 30 along with the user input, but if the NLP server 30 determines that the correlation between the content information and the user input is less than a threshold or is irrelevant, the intent analysis is performed. It may not be noted or ignored.
  • the artificial intelligence device 10 can provide information on the content currently being played along with user input.
  • the artificial intelligence device 10 may transmit content information including additional information to the NLP server 30 depending on the content.
  • (a) of FIG. 12 is basically a travel program, and if travel information for a specific region (for example, Denmark) is provided in the corresponding episode, the additional information may include information about the region. If the correlation between content information including additional information and the user input is greater than a threshold, the artificial intelligence device 10 performs intention analysis with reference to this, and as a result of the intention analysis, (b) in FIG. 12 It is possible to provide weather information for the relevant area and/or weather information for Korea (the area to which the artificial intelligence device 10 belongs, etc.) as shown in (c) of FIG. 12 .
  • the operation of the artificial intelligence device 10 based on the intention analysis result information considering spatial information as an intention analysis factor is as follows.
  • FIG. 13 is a diagram illustrating an operation based on information as a result of intention analysis considering spatial information in an artificial intelligence device 10 according to an embodiment of the present disclosure.
  • the space may represent a space pre-registered in at least one of the artificial intelligence device 10 and the voice service server 200.
  • These spaces include a living room (e.g., space A in FIG. 13), a kitchen (e.g., space B in FIG. 13), a bedroom (e.g., space C in FIG. 13), and a child's study room (e.g., space C in FIG. 13).
  • Settings can be registered by defining them in various ways, such as space D in 13.
  • the space does not necessarily have to be physically one space. For example, if the living room can be identified by dividing it into living room 1, living room 2, etc., it can be defined as a separate space.
  • the artificial intelligence device 10 must be able to detect or identify entry and exit into the space.
  • known technologies related to spatial recognition, detection, and identification are referred to, and separate descriptions thereof are omitted.
  • Spatial information may indicate identification information about the space to which the movable artificial intelligence device 10 belongs or when it enters or releases the space, as shown in FIG. 6 .
  • the artificial intelligence device 10 can hold map information about spaces, and can identify each space by assigning an identifier to it. Meanwhile, each space may have different usage patterns depending on the characteristics of the space, which can be referred to in intention analysis and contribute to more accurate intention analysis of user input.
  • the artificial intelligence device 10 may belong to any one of spaces A to D or enter another space.
  • the same user input e.g., 'How's the weather?'
  • space A living room
  • space C bedroom
  • the NLP server 30 may perform intention analysis on the user input using spatial identification information when the artificial intelligence device 10 belongs to space A and space C.
  • the NLP server 30 if the artificial intelligence device 10 belongs to space C, the space identification information, that is, the user input in the bedroom ('what's the weather like'), is based on tomorrow's workplace rather than the current weather in the area. You may decide that you want to see information about the weather in your location.
  • the NLP server 30 may refer to the spatial identification information of the artificial intelligence device 10, perform intent analysis on the user input, and derive more accurate intent analysis result information.
  • the NLP server 30 may further refer to at least one of the various intention analysis factors described above (eg, time information) to derive analysis result information that better matches the user's intention.
  • the above-described embodiments are one of the response operations based on the intention analysis result information received through the NLP server 30 in response to user input in the artificial intelligence device 10, according to the present disclosure, and information (recommendation information) It can be seen as an embodiment that provides.
  • FIG. 14 is a diagram illustrating a user input processing method of the artificial intelligence device 10 according to an embodiment of the present disclosure.
  • FIG. 15 is a diagram illustrating a user input processing method of the artificial intelligence device 10 according to another embodiment of the present disclosure.
  • the user input may not necessarily be a direct request for execution of the function.
  • the artificial intelligence device 10 transmits it to the NLP server 30, and receives the intention for the user input from the NLP server 30. Analysis result information can be received (S203).
  • steps S201 to S203 For specific details of steps S201 to S203, refer to the above-described content in the present disclosure, and redundant description is omitted here.
  • the artificial intelligence device 10 When the artificial intelligence device 10 receives intention analysis result information from the NLP server 30 through step S203, it can determine a function corresponding to the user input based on the intention analysis result information (S205).
  • the artificial intelligence device 10 may determine whether the function determined in step S205 can currently be performed (S207).
  • the artificial intelligence device 10 determines that the function determined in step S207 can currently be performed, it can perform and apply the function (S213).
  • the artificial intelligence device 10 may configure and provide recommended function information (S209).
  • the artificial intelligence device 10 may determine whether the recommended function provided through step S209 has been selected (S211).
  • the artificial intelligence device 10 can perform the corresponding function (S213).
  • the artificial intelligence device 10 transmits feedback data, including the user's previous input, to the NLP server 30 to further consider the feedback data and indicate the intention for the user input.
  • the analysis result may be requested again, or the user input response function determination process may be performed again based on the feedback data in step S205 and subsequent procedures may be performed again.
  • step S201 if the user input received in step S201 is, for example, 'Dark the screen' or 'Turn off the artificial intelligence device 10 in 30 minutes,' for example, an eye protection function in step S205. This is determined, and guide information (e.g., ‘Would you like me to set up the vision protection function?’) may also be provided.
  • guide information e.g., ‘Would you like me to set up the vision protection function?’
  • step S205 if the user input received in step S201 is, for example, 'dark the screen' or 'turn off the artificial intelligence device 10 in 30 minutes', then yes in step S205.
  • the screen brightness function is determined and the screen can be provided darkly.
  • the artificial intelligence device 10 additionally determines an eye protection function (or eye protection mode) as a recommended function and recommends guide information related thereto (e.g., 'Can I set up the eye protection function? ?) can also be provided.
  • Figure 15 may represent a compensation function that can be automatically provided following or separately from Figure 14.
  • FIG. 15 is illustrated by taking the case after the first function (recommended function) is set based on the user input and intent analysis result information in FIG. 14 as an example.
  • the artificial intelligence device 10 can detect the occurrence of an event (S301).
  • the event is at least one of receiving user input, receiving input from a remote control device such as a function request, turning on the artificial intelligence device 10, turning on/off the power of a device linked to or surrounding the artificial intelligence device 10, etc.
  • a remote control device such as a function request
  • the user input does not necessarily need to be input related to the above-described compensation function, nor does it necessarily need to be limited to a specific type (eg, voice).
  • the artificial intelligence device 10 can configure and provide the first screen (S303).
  • the first screen may be configured differently depending on the event detected in step S301. For example, if the event is a request to power on the artificial intelligence device 10, the first screen may be the initial screen. On the other hand, if the artificial intelligence device 10 is already in the power-on state and the event is the power on/off of a device linked to or around the artificial intelligence device 10, the first screen may be displayed on the currently playing content screen. This may be an OSD message or a separately configured user interface screen.
  • the artificial intelligence device 10 can extract the immediately preceding user input-intention analysis result information-corresponding action information (S305).
  • the artificial intelligence device 10 may determine and provide compensation information or a compensation recommendation function based on the information extracted through step S305 (S307, S309).
  • the artificial intelligence device 10 may determine whether the user selects the reward information or reward recommendation function provided through step S309 (S311).
  • the artificial intelligence device 10 may set the corresponding function in the artificial intelligence device 10 (S313).
  • the reward information or reward recommendation function may represent, for example, a previous or previous user input-intention analysis result information-corresponding action and a corresponding action in a compensation relationship, but is not necessarily limited thereto.
  • the reward information or reward recommendation function may be the same as the corresponding action based on the intention analysis result information for the previous user input, but its level or intensity may be different.
  • the reward information or reward recommendation function may be a response to the content currently set in the artificial intelligence device 10, and the setting timing of the currently set content may not be a problem.
  • the 15 is not necessarily activated when a user input is directly received, and may be automatically or manually performed as an operation corresponding to or following the previous or immediately preceding user input.
  • the response action (information or function) according to the previous user input is based on the current state of the artificial intelligence device 10 or surrounding situation information, the user may feel uncomfortable, or the log data analysis results or user history It may be performed automatically when such user input is expected, based on the basis or the like.
  • this automatic compensation operation may be based on the average contents (settings, requests, etc.) of various users registered in the voice service server rather than the individual user, which is a compensation operation provided based on the user's input. Rather, it may be because it is an automatic compensation operation. Meanwhile, in another embodiment, the reverse is also possible.
  • User A's usage pattern is to set the volume to 30 in the morning, use ABC as the channel, and ask about the weather by voice.
  • the user turns on the artificial intelligence device 10 in the morning, based on the above-mentioned usage pattern, it says 'Good morning', 'Shall we switch to ABC channel?', 'Today's weather'. You can perform the action ‘Do you want to see the information?’
  • the artificial intelligence device 10 can operate as follows. First, in relation to the results of the operation performed the previous evening, the artificial intelligence device 10 changes the volume from 15 to 30, changes to channel BCD instead of channel ABC, and responds to 'what's the weather like' with voice input on the same day. Weather information of the expected area based on area and/or scheduling information may be provided as compensation information or compensation operation. Alternatively, the artificial intelligence device 10 may perform compensation information or compensation operations corresponding only to voice input, excluding input (volume change and channel change) through a remote control device the evening before.
  • FIGS. 14 and 15 describes performing a function or performing a recommendation through a corresponding action corresponding to a user input.
  • the content is not performed according to the user input.
  • it is not a function corresponding to the information as a result of intention analysis, it may be interpreted as providing a function related to information or recommended information provided based on that information.
  • FIG. 16 is a diagram illustrating a user input processing method of the artificial intelligence device 10 according to another embodiment of the present disclosure.
  • the artificial intelligence device 10 can configure and store routine information based on user-time-space, etc., and provide services by applying the routine according to preset conditions. However, in cases where user input corresponds to or is placed in one of these routine information, definition of the processing operation may be necessary.
  • the artificial intelligence device 10 can configure and store routine information (S401).
  • the artificial intelligence device 10 may receive user input after S401 (S403).
  • the artificial intelligence device 10 may determine whether the user input received in step S403 matches (or is related to) at least one of the routine information stored in step S401 (S405).
  • step S405 if the user input in step S403 matches at least one of the routine information stored in step S401, the artificial intelligence device 10 may determine whether to execute the routine according to the remaining stored routine information (S407). .
  • the artificial intelligence device 10 can execute the routine according to the remaining routine information stored as a result of the determination in step S407 (S409).
  • the artificial intelligence device 10 can manually or automatically determine whether to execute the routine according to the remaining routine information stored in step S407.
  • a guide is provided as to whether or not to execute the routine, and a decision can be made based on the user's input.
  • whether to execute the routine may be determined with reference to at least one of the intention analysis factors.
  • the artificial intelligence device 10 refers to user information-time information-spatial information, and if it matches the execution content or pattern preset in the routine or if the relevance is above a threshold, it automatically determines whether to execute the routine and applies it. can do.
  • step S409 the artificial intelligence device 10 executes the remaining routines sequentially in the subsequent order if the user's input matches (or is related to) at least one of the routine information to be executed sequentially according to the set order. Only scheduled routine information can be executed.
  • the artificial intelligence device 10 reads routine information corresponding to the user input, and when the user input matches (or is related to) at least one routine in the read routine information, the user related to the specific routine Even if it is input, all routines included in the read routine information may be executed.
  • the artificial intelligence device 10 reads routine information corresponding to the user input, but when there is a plurality of routine information to be read, one of the routine information is manually or automatically selected, It can be processed as described above.
  • the artificial intelligence device 10 provides a guide message to select specific routine information through the screen, and performs the specific routine information selected according to the user's input and the procedure after step S407.
  • the artificial intelligence device 10 further refers to at least one of the intention analysis factors and the execution schedule information of the original corresponding routines, selects the most relevant, that is, optimal specific routine information, and adds the selected routine information to the selected routine information. Based on this, the procedures after step S407 can be performed. In this case, the unselected routine information may or may not be briefly provided through the screen.
  • FIG. 17 is a diagram illustrating a recommendation query 1720 through the speech agent 1710 according to an embodiment of the present disclosure.
  • the artificial intelligence device 10 can provide the speech agent 1710 on one area of the display 150 or 151.
  • the artificial intelligence device 10 may also provide a recommendation query 1720 when providing the speech agent 1710.
  • the recommended query 1720 may be for the convenience of users using the speech agent 1710.
  • the utterance agent 1710 may be provided by a remote trigger word or upon occurrence of an arbitrary event, but is not limited thereto.
  • the recommended query 1720 may be provided with at least one piece of query information randomly determined at the time the speech agent 1710 is provided.
  • the artificial intelligence device 10 when providing the speech agent 1710, may determine and provide a recommended query by referring to at least one of the intent analysis factors. .
  • the recommended query included in the speech agent 1710 may or may not change each time the speech agent 1710 is provided.
  • the recommendation query may determine the reason for providing the speech agent 1710 by comparing it with at least one of the intention analysis factors at the time the speech agent 1710 is provided, and determine the recommendation query based on the comparison determination result.
  • the recommended query may be determined based on at least one of user, time, and space. That is, the artificial intelligence device 10 may create at least one recommendation query 1720 based on a recommendation keyword configured based on at least one of the intent analysis factors.
  • the query information includes previous or immediately preceding utterance information, compensation function-related information, recommended utterance information based on the previous or immediately preceding utterance, help information for using the voice recognition function, utterance information related to the current content, etc.
  • At least one of arbitrarily determined utterance information may be included in consideration of the various intention analysis factors described above in the present disclosure.
  • Table 4 shows an example of a recommended query (or recommended keyword) based on time information, which is one of the intent analysis factors.
  • Table 4 may exist in a form stored or embedded in the artificial intelligence device 10, or may be stored in the NLP server 30. Meanwhile, the recommended queries (recommended keywords) in Table 4 can be continuously updated. The update may be customized to the user or may be updated based on the user's usage information or all artificial intelligence devices registered with the voice service server 200. However, the present disclosure is not limited to the content disclosed in Table 4.
  • At least one of the operations performed by the artificial intelligence device 10 may be performed by the NLP server 30, and vice versa.
  • the order of at least some of the operations disclosed in this disclosure may be performed simultaneously, may be performed in an order different from the previously described order, or some may be omitted/added.
  • the above-described method can be implemented as processor-readable code on a program-recorded medium.
  • media that the processor can read include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices.
  • the display device described above is not limited to the configuration and method of the above-described embodiments, and the embodiments may be configured by selectively combining all or part of each embodiment so that various modifications can be made. It may be possible.
  • the quality of the voice recognition service can be improved and the user's satisfaction with device use can be maximized by deriving the optimal intention analysis result that matches various user inputs and providing corresponding information or performing a function. Therefore, it has industrial applicability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

인공지능 기기 및 그 동작 방법이 개시된다. 본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기는, 디스플레이; 및 상기 디스플레이를 제어하는 프로세서를 포함하되, 상기 프로세서는, 사용자 입력을 수신하고, 상기 사용자 입력을 서버로 전송하고, 상기 서버로부터 상기 사용자 입력에 대한 의도 분석 결과 정보가 포함된 응답 정보를 수신하고, 상기 응답 정보에 따라 정보 출력 및 기능 수행 중 적어도 하나의 동작을 수행하되, 상기 의도 분석 결과 정보에는, 상기 서버로 전송된 적어도 하나 이상의 의도 분석 팩터들에 기초하여 1차 처리된 상기 사용자 입력에 대해 의도 분석된 결과가 포함될 수 있다.

Description

인공지능 기기 및 그의 동작 방법
본 개시는 인공지능 기기 및 그 동작 방법에 관한 것이다.
스마트폰에 시작된 음성 인식 기술 경쟁은 사물인터넷(IoT: Internet of Things)의 본격 확산과 맞물려 이제 집 안에서 본격적으로 불붙을 전망이다.
특히, 주목할 만한 점은 그 기기가 음성을 매개로 명령을 내리고, 대화를 나눌 수도 있는 인공지능(AI: Artificial Intelligence) 기기라는 점이다.
음성 인식 서비스는 막대한 양의 데이터베이스를 활용하여, 사용자의 질문에 최적의 답변을 선택하는 구조를 갖고 있다.
음성 검색 기능 역시 입력된 음성 데이터를 클라우드 서버에서 텍스트로 변환하여 분석하고, 그 결과에 따른 실시간 검색 결과를 기기로 재전송하는 방식이다.
클라우드 서버는 수많은 단어들을 성별, 연령, 및 억양별로 구분된 음성 데이터로 구분하여, 저장하고 실시간으로 처리할 수 있는 컴퓨팅 능력을 보유하고 있다.
음성 인식은 더 많은 음성 데이터가 축적될수록, 인간과 동등한(Human parity) 수준 정도로, 정확해질 것이다.
다만, 종래는 음성 인식에 따른 의도 분석 결과가 발화자의 의도에 부합하지 않는 경우가 많아, 그 이용에 불편함이 있었다.
본 개시는 전술한 문제 및 다른 문제를 해결하는 것을 목적으로 한다.
본 개시는 인공지능 기기의 제공을 목적으로 한다.
본 개시는 인공지능 기기를 이용하는 발화자의 의도에 더욱 부합하는 최적의 의도 분석 결과 정보를 도출하는 것이다.
본 개시는 음성 인식 서비스를 이용하는 발화자의 입력에 최적의 의도 분석 결과 정보에 기초하여 상응하는 정보를 제공하거나 기능을 수행하도록 하는 것이다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기는, 디스플레이; 및 상기 디스플레이를 제어하는 프로세서를 포함하되, 상기 프로세서는, 사용자 입력을 수신하고, 상기 사용자 입력을 서버로 전송하고, 상기 서버로부터 상기 사용자 입력에 대한 의도 분석 결과 정보가 포함된 응답 정보를 수신하고, 상기 응답 정보에 따라 정보 출력 및 기능 수행 중 적어도 하나의 동작을 수행하되, 상기 의도 분석 결과 정보에는, 상기 서버로 전송된 적어도 하나 이상의 의도 분석 팩터들에 기초하여 1차 처리된 상기 사용자 입력에 대해 의도 분석된 결과가 포함될 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 상기 수행된 적어도 하나의 동작에 따른 사용자의 피드백 데이터를 수신하고, 상기 피드백 데이터에 기초하여 상기 하나 또는 그 이상의 의도 분석 팩터들을 업데이트하고, 업데이트된 상기 의도 분석 팩터들을 상기 서버로 전송할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서와 통신하여 데이터를 저장하는 메모리를 더 포함하고, 상기 프로세서는, 상기 응답 정보를 파싱하고, 파싱된 응답 정보에 기초하여 출력할 정보 및 기능 수행에 관련된 정보를 상기 메모리로부터 독출할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 상기 응답 정보 내 의도 분석 결과 정보에 따른 정보를 출력하는 경우, 상기 서버로 전송된 하나 또는 그 이상의 분석 팩터들에 기초하여, 제1 버전 또는 제2 버전으로 구성된 정보를 제공할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 상기 응답 정보 내 의도 분석 결과 정보에 따른 기능을 수행하는 경우, 해당 기능의 수행 가능 여부를 판단하고, 상기 판단 결과 수행 불가능한 경우에는 추천 기능 정보를 제공하고, 추천 기능을 대신하여 수행할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 이벤트 발생이 감지되면, 직전 사용자 입력, 의도 분석 결과 정보 및 기능 수행 동작 정보를 추출하여, 추천 보상 기능에 대한 정보 중 적어도 하나에 대한 정보를 출력하고, 추천 보상 기능을 수행할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 기능 수행에 관한 루틴 정보를 구성하여 메모리에 저장하고, 상기 수신된 의도 분석 결과 정보가 상기 저장된 루틴 정보 내 정의된 루틴들 중 적어도 하나와 관련성이 있는 경우, 상기 루틴 정보에 포함된 나머지 루틴을 자동으로 실행할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 적어도 하나의 추천 쿼리가 포함된 발화 에이전트를 제공하되, 상기 적어도 하나의 추천 쿼리는, 상기 의도 분석 팩터들 중 적어도 하나에 기초하여 구성된 추천 키워드 기반으로 작성될 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따른 인공지능 기기의 동작 방법에 따르면, 사용자 입력을 수신하는 단계; 상기 사용자 입력을 서버로 전송하는 단계; 상기 서버로부터 상기 사용자 입력에 대한 의도 분석 결과 정보가 포함된 응답 정보를 수신하는 단계; 및 상기 응답 정보에 따라 정보 출력 및 기능 수행 중 적어도 하나의 동작을 수행하는 단계를 포함하되, 상기 의도 분석 결과 정보에는, 상기 서버로 전송된 적어도 하나 이상의 의도 분석 팩터들에 기초하여 1차 처리된 상기 사용자 입력에 대해 의도 분석된 결과가 포함될 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 수행된 적어도 하나의 동작에 따른 사용자의 피드백 데이터를 수신하는 단계; 상기 피드백 데이터에 기초하여 상기 하나 또는 그 이상의 의도 분석 팩터들을 업데이트하는 단계; 및 업데이트된 상기 의도 분석 팩터들을 상기 서버로 전송하는 단계를 더 포함할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 응답 정보 내 의도 분석 결과 정보에 따른 정보를 출력하는 경우, 상기 서버로 전송된 하나 또는 그 이상의 분석 팩터들에 기초하여, 제1 버전 또는 제2 버전으로 구성된 정보가 제공될 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 응답 정보 내 의도 분석 결과 정보에 따른 기능을 수행하는 경우, 해당 기능의 수행 가능 여부를 판단하고, 상기 판단 결과 수행 불가능한 경우에는 추천 기능 정보를 제공하고, 추천 기능이 대신하여 수행될 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 이벤트 발생을 감지하는 단계; 직전 사용자 입력, 의도 분석 결과 정보 및 기능 수행 동작 정보를 추출하는 단계; 추천 보상 기능에 대한 정보 중 적어도 하나에 대한 정보를 출력하는 단계; 및 추천 보상 기능을 수행하는 단계를 더 포함할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 기능 수행에 관한 루틴 정보를 저장하는 단계; 및 상기 수신된 의도 분석 결과 정보가 상기 저장된 루틴 정보 내 정의된 루틴들 중 적어도 하나와 관련성이 있는 경우, 상기 루틴 정보에 포함된 나머지 루틴을 자동으로 실행하는 단계를 더 포함할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 적어도 하나의 추천 쿼리가 포함된 발화 에이전트를 제공하는 단계;를 더 포함하되, 상기 적어도 하나의 추천 쿼리는, 상기 의도 분석 팩터들 중 적어도 하나에 기초하여 구성된 추천 키워드 기반으로 작성될 수 있다.
본 발명의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 그러나 본 발명의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 발명의 바람직한 실시 예와 같은 특정 실시 예는 단지 예시로 주어진 것으로 이해되어야 한다.
본 개시의 다양한 실시예들 중 적어도 하나에 따르면, 다양한 사용자 입력에 부합하는 최적의 의도 분석 결과를 도출하여 대응하는 정보를 제공하거나 기능을 수행함으로써, 음성 인식 서비스의 퀄리티를 높이고 사용자의 기기 이용 만족도를 극대화할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 시스템을 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 인공지능 기기의 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 서비스 서버의 구성을 설명하기 위한 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.
도 5는 본 발명의 일 실시 예에 따라, 인공지능 기기의 음성 인식 및 합성을 위한 프로세서의 구성을 설명하는 블록도이다.
도 6은 본 개시의 실시 예에 따른 스탠드 타입의 인공지능 기기의 가로 모드 및 세로 모드를 설명하기 위한 도면이다.
도 7은 본 개시의 다른 일 실시 예에 따른 인공지능 기기의 구성 블록도이다.
도 8은 도 7의 프로세서의 상세 구성 블록도의 일예이다.
도 9는 본 개시의 일실시예에 따른 인공지능 기기의 동작 방법을 설명하기 위해 도시한 순서도이다.
도 10 은 본 개시의 일실시예에 따른 인공지능 기기에서 시간 정보가 고려된 의도 분석 결과 정보 기반 동작을 설명하기 위해 도시한 도면이다.
도 11과 12는 본 개시의 일실시예에 따른 인공지능 기기에서 컨텐츠 정보가 고려된 의도 분석 결과 정보 기반 동작을 설명하기 위해 도시한 도면이다.
도 13은 본 개시의 일실시예에 따른 인공지능 기기에서 공간 정보가 고려된 의도 분석 결과 정보 기반 동작을 설명하기 위해 도시한 도면이다.
도 14는 본 개시의 일실시예에 따른 인공지능 기기의 사용자 입력 처리 방법을 설명하기 위해 도시한 도면이다.
도 15는 본 개시의 다른 일실시예에 따른 인공지능 기기의 사용자 입력 처리 방법을 설명하기 위해 도시한 도면이다.
도 16은 본 개시의 또 다른 일실시예에 따른 인공지능 기기의 사용자 입력 처리 방법을 설명하기 위해 도시한 도면이다.
도 17은 본 개시의 일실시예에 따른 발화 에이전트를 통한 추천 쿼리를 설명하기 위해 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "-모듈" 및 "-부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 명세서에서 설명되는 '인공지능 기기'에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털 방송용 인공지능 기기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 인공지능 기기(smartwatch), 글래스형 인공지능 기기(smart glass), HMD(head mounted display)) 등이 포함될 수 있다.
그러나, 본 명세서에 기재된 실시 예에 따른 인공지능 기기는 스마트 TV, 데스크탑 컴퓨터, 디지털 사이니지(digital Signage), 냉장고, 세탁기, 에어컨, 식기 세척기 등과 같은 고정 인공지능 기기에도 적용될 수도 있다.
또한, 본 발명의 실시 예에 따른 인공지능 기기는 고정 또는 이동 가능한 로봇(Robot)에도 적용될 수 있다.
또한, 본 발명의 실시 예에 따른 인공지능 기기는 음성 에이전트(또는 발화 에이전트)의 기능을 수행할 수 있다. 음성 에이전트는 사용자의 음성을 인식하고, 인식된 사용자의 음성에 적합한 응답을 음성으로 출력하는 프로그램일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 서비스 시스템을 설명하기 위한 도면이다.
음성 서비스는 음성 인식 및 음성 합성 서비스 중 적어도 하나를 포함할 수 있다. 음성 인식 및 합성 과정은 발화자(또는 사용자)의 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터에 기반하여 발화자의 의도를 분석하고, 분석된 의도에 상응하는 텍스트 데이터를 합성 음성 데이터로 변환하고, 변환된 합성 음성 데이터를 출력하는 과정을 포함할 수 있다.
음성 인식 및 합성 과정을 위해, 도 1에 도시된 바와 같은, 음성 서비스 시스템이 사용될 수 있다.
도 1을 참조하면, 음성 서비스 시스템은 인공지능 기기(10), 음성 텍스트 변환(Speech To Text, STT) 서버(20), 자연어 처리(Natural Language Processing, NLP) 서버(30) 및 음성 합성 서버(40)을 포함할 수 있다. 복수의 AI 에이전트 서버들(50-1 내지 50-3)은 NLP 서버(30)와 통신하며, 음성 서비스 시스템에 포함될 수 있다.
한편, STT 서버(20), NLP 서버(30) 및 음성 합성 서버(40)는 도시된 바와 각각 별개 서버로서 존재할 수도 있고, 하나의 서버(200)에 포함되어 존재할 수도 있다. 그 밖에, 복수의 AI 에이전트 서버들(50-1 내지 50-3) 역시 별개의 서버로 존재하거나 하나의 서버에 포함되어 존재할 수도 있다.
인공지능 기기(10)는 예를 들어, 도 2의 마이크로폰(122)을 통해 수신된 발화자의 음성에 상응하는 음성 신호 STT 서버(20)에 전송할 수 있다.
STT 서버(20)는 인공지능 기기(10)로부터 수신된 음성 데이터를 텍스트 데이터로 변환할 수 있다.
STT 서버(20)는 언어 모델을 이용하여 음성-텍스트 변환의 정확도를 높일 수 있다.
언어 모델은 문장의 확률을 계산하거나, 이전의 단어들이 주어졌을 때 다음 단어가 나올 확률을 계산할 수 있는 모델을 의미할 수 있다.
예컨대, 언어 모델은 유니그램(Unigram) 모델, 바이그램(Bigram) 모델, N-그램(N-gram) 모델 등과 같은 확률론적 언어 모델들을 포함할 수 있다.
유니그램 모델은 모든 단어의 활용이 완전히 서로 독립적이라고 가정하는 모델로, 단어 열의 확률을 각 단어의 확률의 곱으로 계산하는 모델이다.
바이그램 모델은 단어의 활용이 이전 1개의 단어에만 의존한다고 가정하는 모델이다.
N-그램 모델은 단어의 활용이 이전 (n-1)개의 단어에 의존한다고 가정하는 모델이다.
즉, STT 서버(20)는 언어 모델을 이용하여 음성 데이터로부터 변환된 텍스트 데이터가 적합하게 변환된 것인지 판단할 수 있고, 이를 통해 텍스트 데이터로의 변환의 정확도를 높일 수 있다.
NLP 서버(30)는 STT 서버(20)로부터 텍스트 데이터를 수신할 수 있다. 실시예에 따라서, STT 서버(20)는 NLP 서버(30)에 포함될 수도 있다.
NLP 서버(30)는 수신된 텍스트 데이터에 기초하여, 텍스트 데이터에 대한 의도 분석을 수행할 수 있다.
NLP 서버(30)는 의도 분석의 수행 결과를 나타내는 의도 분석 정보를 인공지능 기기(10)에 전송할 수 있다.
또 다른 예로, NLP 서버(30)는 의도 분석 정보를 음성 합성 서버(40)에 전송할 수 있다. 음성 합성 서버(40)는 의도 분석 정보에 기반한 합성 음성을 생성하고, 생성된 합성 음성을 인공지능 기기(10)에 전송할 수 있다.
NLP 서버(30)는 텍스트 데이터에 대해, 형태소 분석 단계, 구문 분석 단계, 화행 분석 단계, 및 대화 처리 단계를 순차적으로 수행하여, 의도 분석 정보를 생성할 수 있다.
형태소 분석 단계는 사용자가 발화한 음성에 대응하는 텍스트 데이터를 의미를 지닌 가장 작은 단위인 형태소 단위로 분류하고, 분류된 각 형태소가 어떤 품사를 가지는지를 결정하는 단계이다.
구문 분석 단계는 형태소 분석 단계의 결과를 이용하여, 텍스트 데이터를 명사구, 동사구, 형용사 구 등으로 구분하고, 구분된 각 구들 사이에, 어떠한 관계가 존재하는지를 결정하는 단계이다.
구문 분석 단계를 통해, 사용자가 발화한 음성의 주어, 목적어, 수식어들이 결정될 수 있다.
화행 분석 단계는 구문 분석 단계의 결과를 이용하여, 사용자가 발화한 음성에 대한 의도를 분석하는 단계이다. 구체적으로, 화행 분석 단계는 사용자가 질문을 하는 것인지, 요청을 하는 것인지, 단순한 감정 표현을 하는 것인지와 같은 문장의 의도를 결정하는 단계이다.
대화 처리 단계는 화행 분석 단계의 결과를 이용하여, 사용자의 발화에 대해 대답을 할지, 호응을 할지, 추가 정보를 문의하는 질문을 할지를 판단하는 단계이다.
NLP 서버(30)는 대화 처리 단계 후, 사용자가 발화한 의도에 대한 답변, 호응, 추가 정보 문의 중 하나 이상을 포함하는 의도 분석 정보를 생성할 수 있다.
NLP 서버(30)는 사용자의 발화 의도에 맞는 정보를 검색하기 위해, 검색 서버(미도시)에 검색 요청을 전송하고, 검색 요청에 상응하는 검색 정보를 수신할 수 있다.
사용자의 발화 의도가 컨텐트의 검색인 경우, 검색 정보는 검색된 컨텐트에 대한 정보를 포함할 수 있다.
NLP 서버(30)는 검색 정보를 인공지능 기기(10)에 전송하고, 인공지능 기기(10)는 검색 정보를 출력할 수 있다.
한편, NLP 서버(30)는 인공지능 기기(10)로부터 텍스트 데이터를 수신할 수도 있다. 예를 들어, 인공지능 기기(10)가 음성 텍스트 변환 기능을 지원하는 경우, 인공지능 기기(10)는 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 NLP 서버(30)에 전송할 수 있다.
음성 합성 서버(40)는 기 저장된 음성 데이터들을 조합하여, 합성 음성을 생성할 수 있다.
음성 합성 서버(40)는 모델로 선정된 한 사람의 음성을 녹음하고, 녹음된 음성을 음절 또는 단어 단위로 분할할 수 있다.
음성 합성 서버(40)는 음절 또는 단어 단위로, 분할된 음성을 내부 또는 외부의 데이터 베이스에 저장할 수 있다.
음성 합성 서버(40)는 주어진 텍스트 데이터에 대응하는 음절 또는 단어를 데이터 베이스로부터 검색하고, 검색된 음절 또는 단어들의 조합을 합성하여, 합성 음성을 생성할 수 있다.
음성 합성 서버(40)는 복수의 언어들 각각에 대응하는 복수의 음성 언어 그룹들을 저장하고 있을 수 있다.
예를 들어, 음성 합성 서버(40)는 한국어로 녹음된 제1 음성 언어 그룹, 영어로, 녹음된 제2 음성 언어 그룹을 포함할 수 있다.
음성 합성 서버(40)는 제1 언어의 텍스트 데이터를 제2 언어의 텍스트로 번역하고, 제2 음성 언어 그룹을 이용하여, 번역된 제2 언어의 텍스트에 대응하는 합성 음성을 생성할 수 있다.
음성 합성 서버(40)는 생성된 합성 음성을 인공지능 기기(10)에 전송할 수 있다.
음성 합성 서버(40)는 NLP 서버(30)로부터 분석 정보를 수신할 수 있다. 분석 정보는 사용자가 발화한 음성의 의도를 분석한 정보를 포함할 수 있다.
음성 합성 서버(40)는 분석 정보에 기초하여, 사용자의 의도를 반영한, 합성 음성을 생성할 수 있다.
일 실시 예에서, STT 서버(20), NLP 서버(30) 및 음성 합성 서버(40) 중 적어도 둘 이상은 하나의 서버로 구현될 수 있다.
위에서 설명된 STT 서버(20), NLP 서버(30) 및 음성 합성 서버(40) 각각의 기능은 인공지능 기기(10)에서도 수행될 수도 있다. 이를 위해, 인공지능 기기(10)는 하나 이상의 프로세서들을 포함할 수 있다.
복수의 AI 에이전트 서버들(50-1 내지 50-3) 각각은 NLP 서버(30)의 요청에 따라 검색 정보를 NLP 서버(30) 또는 인공지능 기기(10)에 전송할 수 있다.
NLP 서버(30)의 의도 분석 결과가 컨텐트의 검색 요청인 경우, NLP 서버(30)는 컨텐트의 검색 요청을 복수의 AI 에이전트 서버들(50-1 내지 50-3) 중 하나 이상의 서버에 전송하고, 컨텐트의 검색 결과를 해당 서버로부터 수신할 수 있다.
NLP 서버(30)는 수신된 검색 결과를 인공지능 기기(10)에 전송할 수 있다.
도 2는 본 개시의 일 실시 예에 따른 인공지능 기기(10)의 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 인공지능 기기(10)는 통신부(110), 입력부(120), 러닝 프로세서(130), 센싱부(140), 출력부(150), 메모리(170) 및 프로세서(180)를 포함할 수 있다.
통신부(110)는 유/무선 통신 기술을 이용하여 외부 장치들과 데이터를 송/수신할 수 있다. 예컨대, 통신부(110)는 외부 장치들과 센서 정보, 사용자 입력, 학습 모델, 제어 신호 등을 송/수신할 수 있다.
이때, 통신부(110)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), LTE-A(dvanced), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth™RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.
입력부(120)는 다양한 종류의 데이터를 획득할 수 있다.
입력부(120)는 영상 신호 입력을 위한 카메라, 오디오 신호를 수신하기 위한 마이크로폰, 사용자로부터 정보를 입력 받기 위한 사용자 입력부 등을 포함할 수 있다. 여기서, 카메라나 마이크로폰을 센서로 취급하여, 카메라나 마이크로폰으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.
입력부(120)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(120)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(180) 또는 러닝 프로세서(130)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.
입력부(120)는 영상 신호 입력을 위한 카메라(Camera, 121), 오디오 신호를 수신하기 위한 마이크로폰(Microphone, 122), 사용자로부터 정보를 입력 받기 위한 사용자 입력부(User Input Unit, 123)를 포함할 수 있다.
입력부(120)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어 명령으로 처리될 수 있다.
입력부(120)는 영상 정보(또는 신호), 오디오 정보(또는 신호), 데이터, 또는 사용자로부터 입력되는 정보의 입력을 위한 것으로서, 영상 정보의 입력을 위하여, 인공지능 기기(10)는 하나 또는 복수의 카메라(121)들을 구비할 수 있다.
카메라(121)는 화상 통화 모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시되거나 메모리(170)에 저장될 수 있다.
마이크로폰(122)은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 인공지능 기기(10)에서 수행 중인 기능(또는 실행 중인 응용프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰(122)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 적용될 수 있다.
사용자 입력부(123)는 사용자로부터 정보를 입력 받기 위한 것으로서, 사용자 입력부(123)를 통해 정보가 입력되면, 프로세서(180)는 입력된 정보에 대응되도록 인공지능 기기(10)의 동작을 제어할 수 있다.
사용자 입력부(123)는 기계식(mechanical) 입력 수단(또는, 메커니컬 키, 예컨대, 인공지능 기기(10)의 전/후면 또는 측면에 위치하는 버튼, 돔 스위치(dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력 수단을 포함할 수 있다. 일 예로서, 터치식 입력 수단은, 소프트웨어적인 처리를 통해 터치스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다.
러닝 프로세서(130)는 학습 데이터를 이용하여 인공 신경망으로 구성된 모델을 학습시킬 수 있다. 여기서, 학습된 인공 신경망을 학습 모델이라 칭할 수 있다. 학습 모델은 학습 데이터가 아닌 새로운 입력 데이터에 대하여 결과 값을 추론해 내는데 사용될 수 있고, 추론된 값은 어떠한 동작을 수행하기 위한 판단의 기초로 이용될 수 있다.
러닝 프로세서(130)는 인공지능 기기(10)에 통합되거나 구현된 메모리를 포함할 수 있다. 또는, 러닝 프로세서(130)는 메모리(170), 인공지능 기기(10)에 직접 결합된 외부 메모리 또는 외부 장치에서 유지되는 메모리를 사용하여 구현될 수도 있다.
센싱부(140)는 다양한 센서들을 이용하여 인공지능 기기(10) 내부 정보, 인공지능 기기(10)의 주변 환경 정보 및 사용자 정보 중 적어도 하나를 획득할 수 있다.
이때, 센싱부(140)에 포함되는 센서에는 근접 센서, 조도 센서, 가속도 센서, 자기 센서, 자이로 센서, 관성 센서, RGB 센서, IR 센서, 지문 인식 센서, 초음파 센서, 광 센서, 마이크로폰, 라이다, 레이더 등이 있다.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다.
출력부(150)는 디스플레이부(Display Unit, 151), 음향 출력부(Sound Output Unit, 152), 햅틱 모듈(Haptic Module, 153), 및 광 출력부(Optical Output Unit, 154) 중 적어도 하나를 포함할 수 있다.
디스플레이부(151)는 인공지능 기기(10)에서 처리되는 정보를 표시(출력)한다. 예컨대, 디스플레이부(151)는 인공지능 기기(10)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다.
디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 인공지능 기기(10)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(123)로써 기능함과 동시에, 단말기(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
음향 출력부(152)는 호신호 수신, 통화 모드 또는 녹음 모드, 음성 인식 모드, 방송 수신 모드 등에서 통신부(110)로부터 수신되거나 메모리(170)에 저장된 오디오 데이터를 출력할 수 있다.
음향 출력부(152)는 리시버(receiver), 스피커(speaker), 버저(buzzer) 중 적어도 하나 이상을 포함할 수 있다.
햅틱 모듈 (153)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(153)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 될 수 있다.
광출력부(154)는 인공지능 기기(10)의 광원의 빛을 이용하여 이벤트 발생을 알리기 위한 신호를 출력한다. 인공지능 기기(10)에서 발생되는 이벤트의 예로는 메시지 수신, 호 신호 수신, 부재중 전화, 알람, 일정 알림, 이메일 수신, 애플리케이션을 통한 정보 수신 등이 될 수 있다.
메모리(170)는 인공지능 기기(10)의 다양한 기능을 지원하는 데이터를 저장할 수 있다. 예컨대, 메모리(170)는 입력부(120)에서 획득한 입력 데이터, 학습 데이터, 학습 모델, 학습 히스토리 등을 저장할 수 있다.
프로세서(180)는 데이터 분석 알고리즘 또는 머신 러닝 알고리즘을 사용하여 결정되거나 생성된 정보에 기초하여, 인공지능 기기(10)의 적어도 하나의 실행 가능한 동작을 결정할 수 있다. 그리고 프로세서(180)는 인공지능 기기(10)의 구성 요소들을 제어하여 결정된 동작을 수행할 수 있다.
프로세서(180)는 러닝 프로세서(130) 또는 메모리(170)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 상기 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 인공지능 기기(10)의 구성 요소들을 제어할 수 있다.
프로세서(180)는 결정된 동작을 수행하기 위하여 외부 장치의 연계가 필요한 경우, 해당 외부 장치를 제어하기 위한 제어 신호를 생성하고, 생성한 제어 신호를 해당 외부 장치에 전송할 수 있다.
프로세서(180)는 사용자 입력에 대하여 의도 정보를 획득하고, 획득한 의도 정보에 기초하여 사용자의 요구 사항을 결정할 수 있다.
프로세서(180)는 음성 입력을 문자열로 변환하기 위한 STT 엔진(도 5의 410) 또는 자연어의 의도 정보를 획득하기 위한 NLP 엔진(도 5의 430) 중에서 적어도 하나 이상을 이용하여, 사용자 입력에 상응하는 의도 정보를 획득할 수 있다.
STT 엔진(도 5의 410) 또는 NLP 엔진(도 5의 430) 중에서 적어도 하나 이상은 적어도 일부가 머신 러닝 알고리즘에 따라 학습된 인공 신경망으로 구성될 수 있다. 그리고 STT 엔진(도 5의 410) 또는 NLP 엔진(도 5의 430) 중에서 적어도 하나 이상은 러닝 프로세서(130)에 의해 학습된 것, AI 서버(200)의 러닝 프로세서(240)에 의해 학습된 것, 또는 이들의 분산 처리에 의해 학습된 것일 수 있다.
프로세서(180)는 인공지능 기기(10)의 동작 내용이나 동작에 대한 사용자의 피드백 등을 포함하는 이력 정보를 수집하여 메모리(170) 또는 러닝 프로세서(130)에 저장하거나, AI 서버(200) 등의 외부 장치에 전송할 수 있다. 수집된 이력 정보는 학습 모델을 갱신하는데 이용될 수 있다.
프로세서(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 인공지능 기기(10)의 구성 요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(180)는 상기 응용 프로그램의 구동을 위하여, 인공지능 기기(10)에 포함된 구성 요소들 중 둘 이상을 서로 조합하여 동작 시킬 수 있다.
도 3은 본 발명의 일 실시 예에 따른 음성 서비스 서버(200)의 구성을 설명하기 위한 블록도이다.
음성 서비스 서버(200)는 도 1에 도시된, STT 서버(20), NLP 서버(30), 음성 합성 서버(40) 중 하나 이상을 포함할 수 있다. 음성 서비스 서버(200)는 서버 시스템으로 명명될 수 있다.
도 3을 참고하면, 음성 서비스 서버(200)는 전처리부(220), 컨트롤러(230), 통신부(270) 및 데이터 베이스(290)를 포함할 수 있다.
전처리부(220)는 통신부(270)를 통해 수신된 음성 또는 데이터 베이스(290)에 저장된 음성을 전처리 할 수 있다.
전처리부(220)는 컨트롤러(230)와 별도의 칩으로 구현되거나, 컨트롤러(230)에 포함된 칩으로 구현될 수 있다.
전처리부(220)는 (사용자가 발화한) 음성 신호를 수신하고, 수신된 음성 신호를 텍스트 데이터로 변환하기 전, 음성 신호로부터 잡음 신호를 필터링할 수 있다.
전처리부(220)가 인공지능 기기(10)에 구비된 경우, 인공지능 기기(10)의 음성 인식을 활성화시키기 위한 기동어를 인식할 수 있다. 전처리부(220)는 마이크로폰(121)을 통해 수신된 기동어를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터가 기 저장된 기동어에 대응하는 텍스트 데이터인 경우, 기동어를 인식한 것으로 판단할 수 있다.
전처리부(220)는 잡음이 제거된 음성 신호를 파워 스펙트럼으로 변환할 수 있다.
파워 스펙트럼은 시간적으로 변동하는 음성 신호의 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되어 있는지를 나타내는 파라미터일 수 있다.
파워 스펙트럼은 음성 신호의 파형의 주파수에 따른 진폭 제곱 값의 분포를 보여준다.
이에 대해서는, 도 4를 참조하여 설명한다.
도 4는 본 발명의 일 실시 예에 따른 음성 신호(410)를 파워 스펙트럼(430)으로 변환한 예를 설명한 도면이다.
도 4를 참조하면, 음성 신호(410)가 도시되어 있다. 음성 신호(410)는 외부 기기로부터 수신되거나, 메모리(170)에 미리 저장된 신호일 수 있다.
음성 신호(410)의 x축은 시간이고, y축은 진폭의 크기를 나타낼 수 있다.
파워 스펙트럼 처리부(225)는 x축이 시간 축인 음성 신호(410)를 x축이 주파수 축인 파워 스펙트럼(430)으로 변환할 수 있다.
파워 스펙트럼 처리부(225)는 고속 푸리에 변환(Fast Fourier Transform, FFT)을 이용하여, 음성 신호(410)를 파워 스펙트럼(430)으로 변환할 수 있다.
파워 스펙트럼(430)의 x축은 주파수, y축은 진폭의 제곱 값을 나타낸다.
다시 도 3을 설명한다.
도 3에서 설명된 전처리부(220) 및 컨트롤러(230)의 기능은 NLP 서버(30)에서도 수행될 수 있다.
전처리부(220)는 웨이브 처리부(221), 주파수 처리부(223), 파워 스펙트럼 처리부(225), 및 STT 변환부(227)를 포함할 수 있다.
웨이브 처리부(221)는 음성의 파형을 추출할 수 있다.
주파수 처리부(223)는 음성의 주파수 대역을 추출할 수 있다.
파워 스펙트럼 처리부(225)는 음성의 파워 스펙트럼을 추출할 수 있다.
파워 스펙트럼은 시간적으로 변동하는 파형이 주어졌을 때, 그 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되고 있는지를 나타내는 파라미터일 수 있다.
STT 변환부(227)는 음성을 텍스트로 변환할 수 있다.
STT 변환부(227)는 특정 언어의 음성을 해당 언어의 텍스트로 변환할 수 있다.
컨트롤러(230)는 음성 서비스 서버(200)의 전반적인 동작을 제어할 수 있다.
컨트롤러(230)는 음성 분석부(231), 텍스트 분석부(232), 특징 클러스터링부(233), 텍스트 매핑부(234) 및 음성 합성부(235)를 포함할 수 있다.
음성 분석부(231)는 전처리부(220)에서 전처리 된, 음성의 파형, 음성의 주파수 대역 및 음성의 파워 스펙트럼 중 하나 이상을 이용하여, 음성의 특성 정보를 추출할 수 있다.
음성의 특성 정보는 화자의 성별 정보, 화자의 목소리(또는 음색, tone), 음의 높낮이, 화자의 말투, 화자의 발화 속도, 화자의 감정 중 하나 이상을 포함할 수 있다.
또한, 음성의 특성 정보는 화자의 음색을 더 포함할 수도 있다.
텍스트 분석부(232)는 STT 변환부(227)에서 변환된 텍스트로부터, 주요 표현 어구를 추출할 수 있다.
텍스트 분석부(232)는 변환된 텍스트로부터 어구와 어구 간의 어조가 달라짐을 감지한 경우, 어조가 달라지는 어구를 주요 표현 어구로 추출할 수 있다.
텍스트 분석부(232)는 어구와 어구 간의 주파수 대역이 기 설정된 대역 이상 변경된 경우, 어조가 달라진 것으로 판단할 수 있다.
텍스트 분석부(232)는 변환된 텍스트의 어구 내에, 주요 단어를 추출할 수도 있다. 주요 단어란 어구 내에 존재하는 명사일 수 있으나, 이는 예시에 불과하다.
특징 클러스터링부(233)는 음성 분석부(231)에서 추출된 음성의 특성 정보를 이용하여, 화자의 발화 유형을 분류할 수 있다.
특징 클러스터링부(233)는 음성의 특성 정보를 구성하는 유형 항목들 각각에, 가중치를 두어, 화자의 발화 유형을 분류할 수 있다.
특징 클러스터링부(233)는 딥러닝 모델의 어텐션(attention) 기법을 이용하여, 화자의 발화 유형을 분류할 수 있다.
텍스트 매핑부(234)는 제1 언어로 변환된 텍스트를 제2 언어의 텍스트로 번역할 수 있다.
텍스트 매핑부(234)는 제2 언어로 번역된 텍스트를 제1 언어의 텍스트와 매핑 시킬 수 있다.
텍스트 매핑부(234)는 제1 언어의 텍스트를 구성하는 주요 표현 어구를 이에 대응하는 제2 언어의 어구에 매핑 시킬 수 있다.
텍스트 매핑부(234)는 제1 언어의 텍스트를 구성하는 주요 표현 어구에 대응하는 발화 유형을 제2 언어의 어구에 매핑 시킬 수 있다. 이는, 제2 언어의 어구에 분류된 발화 유형을 적용시키기 위함이다.
음성 합성부(235)는 텍스트 매핑부(234)에서 제2 언어로 번역된 텍스트의 주요 표현 어구에, 특징 클러스터링부(233)에서 분류된 발화 유형 및 화자의 음색을 적용하여, 합성된 음성을 생성할 수 있다.
컨트롤러(230)는 전달된 텍스트 데이터 또는 파워 스펙트럼(430) 중 하나 이상을 이용하여, 사용자의 발화 특징을 결정할 수 있다.
사용자의 발화 특징은 사용자의 성별, 사용자의 음의 높낮이, 사용자의 음색, 사용자의 발화 주제, 사용자의 발화 속도, 사용자의 성량 등을 포함할 수 있다.
컨트롤러(230)는 파워 스펙트럼(430)을 이용하여, 음성 신호(410)의 주파수 및 주파수에 대응하는 진폭을 획득할 수 있다.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 음성을 발화한 사용자의 성별을 결정할 수 있다.
예를 들어, 컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역이 기 설정된 제1 주파수 대역 범위 내인 경우, 사용자의 성별을 남자로 결정할 수 있다.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역이 기 설정된 제2 주파수 대역 범위 내인 경우, 사용자의 성별을 여자로 결정할 수 있다. 여기서, 제2 주파수 대역 범위는 제1 주파수 대역 범위보다 클 수 있다.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 음성의 높낮이를 결정할 수 있다.
예를 들어, 컨트롤러(230)는 특정 주파수 대역 범위 내에서, 진폭의 크기에 따라 음의 높낮이 정도를 결정할 수 있다.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 사용자의 음색(tone)을 결정할 수 있다. 예를 들어, 컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역들 중, 진폭의 크기가 일정 크기 이상인 주파수 대역을 사용자의 주요 음역대로 결정하고, 결정된 주요 음역대를 사용자의 음색으로 결정할 수 있다.
컨트롤러(230)는 변환된 텍스트 데이터로부터, 단위 시간 당 발화된 음절 수를 통해, 사용자의 발화 속도를 결정할 수 있다.
컨트롤러(230)는 변환된 텍스트 데이터에 대해, Bag-Of-Word Model 기법을 이용하여, 사용자의 발화 주제를 결정할 수 있다.
Bag-Of-Word Model 기법은 문장 내 단어 빈도 수 기반으로, 주로 사용하는 단어를 추출하는 기법이다. 구체적으로, Bag-Of-Word Model 기법은 문장 내에서, 유니크한 단어를 추출하고, 추출된 각 단어의 빈도 수를 벡터로 표현하여, 발화 주제를 특징을 결정하는 기법이다.
예를 들어, 컨트롤러(230)는 텍스트 데이터에 <달리기>, <체력> 등과 같은 단어가 자주 등장하면, 사용자의 발화 주제를 운동으로 분류할 수 있다.
컨트롤러(230)는 공지된 텍스트 카테고리화(Text Categorization) 기법을 이용하여, 텍스트 데이터로부터 사용자의 발화 주제를 결정할 수 있다. 컨트롤러(230)는 텍스트 데이터로부터 키워드를 추출하여, 사용자의 발화 주제를 결정할 수 있다.
컨트롤러(230)는 전체 주파수 대역에서의 진폭 정보를 고려하여 사용자의 성량을 결정할 수 있다.
예컨대, 컨트롤러(230)는 파워 스펙트럼의 각 주파수 대역에서의 진폭의 평균 또는 가중치 평균을 기준으로 사용자의 성량을 결정할 수 있다.
통신부(270)는 외부 서버와 유선 또는 무선으로 통신을 수행할 수 있다.
데이터베이스(290)는 컨텐트에 포함된 제1 언어의 음성을 저장할 수 있다.
데이터베이스(290)는 제1 언어의 음성이 제2 언어의 음성으로 변환된 합성 음성을 저장할 수 있다.
데이터베이스(290)는 제1 언어의 음성에 대응하는 제1 텍스트, 제1 텍스트가 제2 언어로 번역된 제2 텍스트를 저장할 수 있다.
데이터베이스(290)는 음성 인식에 필요한 다양한 학습 모델을 저장하고 있을 수 있다.
한편, 도 2에 도시된 인공지능 기기(10)의 프로세서(180)는 도 3에 도시된 전처리부(220) 및 컨트롤러(230)를 구비할 수 있다.
즉, 인공지능 기기(10)의 프로세서(180)는 전처리부(220)의 기능 및 컨트롤러(230)의 기능을 수행할 수도 있다.
도 5는 본 발명의 일 실시 예에 따라, 인공지능 기기(10)의 음성 인식 및 합성을 위한 프로세서의 구성을 설명하는 블록도이다.
즉, 도 5의 음성 인식 및 합성 과정은 서버를 거치지 않고, 인공지능 기기(10)의 러닝 프로세서(130) 또는 프로세서(180)에 의해 수행될 수도 있다.
도 5를 참조하면, 인공지능 기기(10)의 프로세서(180)는 STT 엔진(510), NLP 엔진(530), 및 음성 합성 엔진(550)을 포함할 수 있다.
각 엔진은 하드웨어 또는 소프트웨어 중 어느 하나일 수 있다.
STT 엔진(510)은 도 1의 STT 서버(20)의 기능을 수행할 수 있다. 즉, STT 엔진(510)은 음성 데이터를 텍스트 데이터로 변환할 수 있다.
NLP 엔진(530)은 도 1의 NLP 서버(30)의 기능을 수행할 수 있다. 즉, NLP 엔진(530)은 변환된 텍스트 데이터로부터 발화자의 의도를 나타내는 의도 분석 정보를 획득할 수 있다.
음성 합성 엔진(550)은 도 1의 음성 합성 서버(40)의 기능을 수행할 수 있다.
음성 합성 엔진(550)은 주어진 텍스트 데이터에 대응하는 음절 또는 단어를 데이터 베이스로부터 검색하고, 검색된 음절 또는 단어들의 조합을 합성하여, 합성 음성을 생성할 수 있다.
음성 합성 엔진(550)은 전처리 엔진(551) 및 TTS 엔진(553)을 포함할 수 있다.
전처리 엔진(551)은 합성 음성을 생성하기 전, 텍스트 데이터를 전처리할 수 있다.
구체적으로, 전처리 엔진(551)은 텍스트 데이터를 의미 있는 단위인 토큰으로 나누는 토큰화를 수행한다.
토큰화 수행 후, 전처리 엔진(551)은 노이즈 제거를 위해 불필요한 문자, 기호를 제거하는 클렌징 작업을 수행할 수 있다.
그 후, 전처리 엔진(551)는 표현 방법이 다른 단어 토큰들을 통합시켜, 같은 단어 토큰을 생성할 수 있다.
그 후, 전처리 엔진(551)는 의미 없는 단어 토큰(불용어, stopword)을 제거할 수 있다.
TTS 엔진(553)은 전처리 된 텍스트 데이터에 상응하는 음성을 합성하고, 합성 음성을 생성할 수 있다.
도 6은 본 개시의 실시 예에 따른 스탠드 타입의 인공지능 기기(10)의 가로 모드 및 세로 모드를 설명하기 위한 도면이다.
도 6의 (a) 및 도 6의 (b)를 참조하면, 스탠드 타입의 인공지능 기기(10)가 도시되어 있다.
인공지능 기기(10)에는 샤프트(603) 및 스탠드 베이스(605)가 연결될 수 있다.
샤프트(603)는 인공지능 기기(10) 및 스탠드 베이스(605)를 이어줄 수 있다. 상기 샤프트(603)는 수직하게 연장될 수 있다.
샤프트(603)의 하단은 스탠드 베이스(605)의 가장자리부에 연결될 수 있다.
샤프트(603)의 하단은 스탠드 베이스(605)의 둘레부에 회전 가능하게 연결될 수 있다.
인공지능 기기(10) 및 샤프트(603)는 스탠드 베이스(605)에 대해 수직축(axis)을 중심으로 회전할 수 있다.
샤프트(603)의 상부는 인공지능 기기(10)의 후면에 연결될 수 있다.
스탠드 베이스(605)는 인공지능 기기(10)를 지지하는 역할을 할 수 있다.
인공지능 기기(10)는 샤프트(603) 및 스탠드 베이스(605)를 포함하도록 구성될 수 있다.
인공지능 기기(10)는 샤프트(603)의 상부와 디스플레이(151)의 후면이 맞닿은 지점을 중심으로 회전할 수 있다.
도 6의 (a)는 디스플레이(151)의 가로 길이가 세로 길이보다 큰 자세를 갖는 가로 모드로 동작함을 나타내고, 도 6의 (b)는 디스플레이(151)의 세로 길이가 가로 길이보다 큰 자세를 갖는 가로 모드로 동작함을 나타낼 수 있다.
사용자는 스탠드 타입의 디스플레이 장치를 들고 이동할 수 있다. 즉, 스탠드 타입의 인공지능 기기(10)는 고정된 기기와는 달리 이동성이 향상되어 사용자는 배치 위치에 구애받지 않는다.
도 1을 다시 참조하면, NLP 서버(30)는 STT 서버(20)로부터 예를 들어, 사용자입력에 대한 텍스트 데이터를 수신하여, 텍스트 데이터에 대해 형태소 분석 단계, 구문 분석 단계, 화행 분석 단계, 및 대화 처리 단계를 순차적으로 수행하여, 의도 분석 결과 정보(편의상, '제1 의도 분석 결과 정보'라 함)를 생성할 수 있다.
인공지능 기기(10)는 NLP 서버(30)(또는 도 1의 음성 합성 서버(40))로부터 제1 의도 분석 결과 정보가 수신되면, 대응 동작을 수행할 수 있다. 대응 동작에는 제1 의도 분석 결과 정보에 기초한 정보(또는 추천 정보) 구성 및 제공, 기능(또는 추천 기능) 수행 등이 포함될 수 있다.
다만, 이하에서는 전술한 제1 의도 분석 결과 정보에, 추가로 후술하는 다양한 의도 분석 팩터들 중 적어도 하나 이상을 더 고려하여, 의도 분석 결과 정보(편의상, '제2 의도 분석 결과'라 함)를 도출하는 것에 관해 기술한다.
실시예에 따라서, 인공지능 기기(10)는 제1 의도 분석 결과 정보를 도출한 후, 도출된 제1 의도 분석 결과 정보를 다시 전술한 의도 분석 팩터 기반으로 제2 의도 분석 결과 정보를 도출할 수 있다. 한편, 인공지능 기기(10)는 예를 들어, 도 1의 NLP 서버(30) 또는 음성 합성 서버(40)를 통해 제1 의도 분석 결과 정보와 제2 의도 분석 결과 정보를 모두 수신할 수도 있고, 제2 의도 분석 결과 정보만 수신할 수도 있다.
다른 실시예에 따르면, 제1 의도 분석 결과 정보를 별도 도출하지 않고, 의도 분석 과정에서 전술한 의도 분석 팩터들을 함께 고려하여 하나의 의도 분석 결과 정보를 도출할 수도 있다.
이하에서는 설명의 편의상 NLP 서버(30)에서 제1 의도 분석 결과 정보와 제2 의도 분석 결과 정보를 모두 생성할 수 있으며, 인공지능 기기(10)에서 NLP 서버(30) 또는 음성 합성 서버(40)를 통해 제1 및 제2 의도 분석 결과 정보 또는 제2 의도 분석 결과 정보만을 수신하는 경우를 예로 하여 설명한다.
제2 의도 분석 결과 정보의 도출과 관련된 의도 분석 팩터들에는 예를 들어, 시간, 공간, 사용자, 스케줄, 컨텐츠 등이 포함될 수 있다. 개별 의도 분석 팩터에 대해서는 해당 부분에서 상세하게 설명한다.
한편, 상술한 의도 분석 팩터들은 각각 개별적으로 의도 분석을 위해 적용될 수도 있고, 적어도 둘 이상의 의도 분석 팩터들이 의도 분석을 위해 동시 또는 순차로 적용될 수도 있다. 이와 같이, 복수의 의도 분석 팩터들이 의도 분석을 위해 적용되는 경우, 각 의도 분석 팩터는 동일한 우선순위나 가중치가 할당될 수도 있고, 그렇지 않을 수도 있다. 한편, 의도 분석 팩터들 중 적어도 둘 이상은 그룹핑(groupping)되어 의도 분석을 위해 함께 할당 적용될 수도 있다. 이 때, 하나의 의도 분석 팩터는 복수의 그룹에 중복하여 속할 수도 있다.
관련하여, 의도 분석 팩터의 개수, 종류 등에 대해서는 인공지능 기기(10)와 음성 서비스 서버(200)에 미리 등록될 수도 있고, 임의 결정될 수도 있다.
도 7은 본 개시의 다른 일 실시 예에 따른 인공지능 기기(10)의 구성 블록도이다.
도 8은 도 7의 프로세서(720)의 상세 구성 블록도의 일 예시이다.
도 7에서는 본 개시의 일실시예에 따른 인공지능 기기(10)의 의도 분석 결과에 따른 대응 동작에 관련된 구성만을 개시하였으나, 이에 한정되는 것은 아니다.
음성 서비스 서버(200)는 전술한 바와 같이, 도 1에 도시된 STT 서버(20)와 NLP 서버(30)를 포함할 수 있으며, 실시예에 따라 음성 합성 서버(40)까지 포함할 수 있다. 이하에서, '음성 서비스 서버(200)'라고 기술하는 경우, 그것은 NLP 서버(30)를 나타낼 수도 있고, STT 서버(20) 및 음성 합성 서버(40) 중 적어도 하나를 더 포함하는 의미일 수도 있다. 다만, 이에 한정되는 것은 아니다.
한편, 인공지능 기기(10)와 음성 서비스 서버(200) 사이에서 음성 인식/음성 합성 처리 과정에 대해서는 전술한 도 1 내지 5에 개시한 내용을 참조하고, 여기서 중복 설명은 생략한다.
실시예에 따르면, 도 5에 도시된 바와 같이, 음성 서비스 서버(200)의 기능 중 일부는 인공지능 기기(10)에서 수행될 수도 있다.
인공지능 기기(10)는 디스플레이(150 또는 151)와 처리부(700)를 포함하여 구성될 수 있다.
처리부(700)는 메모리(710)와 프로세서(720)을 포함하여 구성될 수 있다.
처리부(700)는 음성 서비스 서버(200)와 다양한 방식으로 연결되어 데이터를 주고받을 수 있다.
메모리(710)는 다양한 데이터 예를 들어, 처리부(700)에서 수신하거나 처리되는 데이터를 저장할 수 있다.
메모리(710)는 처리부(700)에서 처리되었거나 음성 서비스 서버(200)로부터 수신되는 의도 분석 결과 정보를 저장할 수 있다.
메모리(710)는 처리부(700) 또는 프로세서(720)의 제어를 받아, 저장된 의도 분석 결과 정보와 관련된 대응 동작 정보를 저장할 수 있으며, 디스플레이(150 또는 151)를 통해 사용자에게 제공될 수 있도록 제공할 수 있다.
도 7 및 도 8을 참조하면, 프로세서(720)는 음성 데이터 수신 모듈(810), 결과 수신 모듈(820) 및 대응 동작 모듈을 포함할 수 있다. 대응 동작 모듈은 정보 생성 모듈(830)과 기능 생성 모듈(840)을 포함할 수 있다. 다만, 본 개시가 이에 한정되는 것은 아니다.
음성 데이터 수신 모듈(810)은 사용자의 입력 즉, 음성 입력(다만, 이에 한정되는 것은 아님)을 수신할 수 있으며, 수신한 사용자의 음성 입력을 음성 서비스 서버(200)로 전달할 수 있다. 실시예에 따라서, 음성 데이터 수신 모듈(810)은 음성 입력이 아닌 사용자의 입력(예를 들어, 텍스트 데이터)을 수신하여, 전술한 바와 같이 음성 서비스 서버(200)로 전달할 수도 있다.
결과 수신 모듈(820)은 음성 데이터 수신 모듈(810)을 통해 음성 서비스 서버(200)로부터 전달된 사용자의 음성 입력에 대응하는 의도 분석 결과를 수신할 수 있다.
프로세서(720)는 결과 수신 모듈(820)을 통해 수신되는 의도 분석 결과 정보를 파싱(parsing)한 결과에 기초하여 대응 동작을 결정할 수 있다. 결정된 대응 동작이 정보(또는 추천 정보)를 제공에 관련된 경우, 정보 생성 모듈(83)이 동작될 수 있다. 결정된 동작이 기능(또는 추천 기능) 수행에 관련된 경우, 기능 생성 모듈(840)이 동작할 수 있다.
도 8을 참조하면, 음성 데이터 수신 모듈(810)에서 음성 데이터를 서버(200)로 전달하는 것으로 기술하였으나, 다른 모듈(예를 들어, 결과 수신 모듈(820) 등)에서 해당 동작을 대신할 수 있다.
한편, 도 8을 참조하면, 설명의 편의상 음성 데이터 수신 모듈(810)은 사용자 입력을 별도의 가공없이 그대로 음성 서비스 서버(200)로 전달하는 것으로 기술하였으나, 도 5에 도시된 바와 같이, STT 엔진(510), NLP 엔진(530)에서 사용자 입력을 가공 후에 가공된 데이터를 음성 서비스 서버(200)로 전달할 수도 있고, 인공지능 기기(10)에서 가공된 데이터 기반으로 의도 분석 결과 정보를 도출하고, 서버(200)에는 사용자 입력과 도출된 의도 분석 결과 정보만을 전달할 수도 있다. 여기서, 의도 분석 결과 정보는 예를 들어, 전술한 제2 의도 분석 결과 정보를 나타내나, 이에 한정되지 않고 실시 예에 따라서는 제1 의도 분석 결과 정보까지 포함할 수 있다.
한편, 프로세서(720)는 전술한 도 2의 프로세서(180)와 동일한 구성일 수도 있으나, 별개의 구성일 수도 있다.
도 9는 본 개시의 일실시예에 따른 음성 서비스 시스템의 사용자 입력 처리 방법을 설명하기 위해 도시한 도면이다.
인공지능 기기(10)는 사용자의 입력을 수신할 수 있다(S101).
본 개시에서 사용자의 입력은 설명의 편의상 음성 입력을 의미하나, 이에 한정되는 것은 아니다. 예를 들어, 사용자의 입력은 텍스트 입력 또는 텍스트 입력과 음성 입력의 조합에 의한 입력 등일 수도 있다.
사용자 입력은 원격제어장치(미도시)를 통해 수신될 수 있으나, 이에 한정되는 것은 아니다. 한편, 원격제어장치에는 인공지능 기기(10)에서 이용하는 리모컨이 포함될 수 있다. 또는, 원격제어장치에는 AI 스피커, 스마트폰, 태블릿pc, 웨어러블 디바이스 등 중 적어도 하나가 포함될 수 있다. 원격제어장치는 인공지능 기기(10)와 음성 입력 등 데이터 커뮤니케이션을 위하여 필요한 어플리케이션, 프로그램, API(Application Program Interface) 등 펌웨어/소프트웨어 등이 설치된 기기일 수 있다. 또한, 원격제어장치는 인공지능 기기(10)에 미리 등록된 기기일 수 있다.
인공지능 기기(10)는 S101 단계에서 수신한 사용자 입력을 STT 서버(20)로 전달할 수 있다(S103).
실시예에 따르면, 사용자 입력이 텍스트 데이터인 경우, STT 서버(20)는 전달받은 사용자 입력(텍스트 데이터)을 그대로 NLP 서버(30)로 전달할 수 있다. 한편, 인공지능 기기(10)는 수신된 사용자 입력이 음성 데이터가 아닌 경우에는, STT 서버(20)가 아니라 NLP 서버(30)로 사용자 입력을 다이렉트로 전달할 수도 있다.
STT 서버(20)는 S103 단계에서 인공지능 기기(10)를 통해 전달받은 사용자 입력에 상응하는 텍스트 데이터를 도출할 수 있다(S105).
STT 서버(20)는 S105 단계에서 도출한 사용자 입력에 상응하는 텍스트 데이터를 NLP 서버(30)로 전달할 수 있다(S107).
NLP 서버(30)는 S107 단계를 통해 STT 서버(20)로부터 전달받은 텍스트 데이터에 대하여 의도 분석 프로세스를 수행하고, 의도 분석 결과 정보를 도출할 수 있다(S109). 의도 분석 프로세스는 전술한 바와 같이, 본 개시에 따른 의도 분석 팩터들 중 적어도 하나 이상의 의도 분석 팩터가 이용될 수 있다. 따라서, 의도 분석 결과 정보는 제2 의도 분석 결과 정보에 해당하거나 그를 포함할 수 있다.
NLP 서버(30)는 S109 단계를 통해 도출한 의도 분석 결과 정보를 인공지능 기기(10)로 리턴(또는 전달)할 수 있다(S111).
인공지능 기기(10)는 S111 단계를 통해 NLP 서버(30)로부터 리턴된 사용자 입력에 따른 의도 분석 결과 정보를 파싱하고, 의도 분석 결과 정보에 기초하여 대응 동작을 결정할 수 있다(S113).
인공지능 기기(10)는 S113 단계를 통해 결정된 대응 동작에 기초하여 기능(또는 추천 기능)을 수행하거나 정보(예를 들어, 추천 정보, 기능 또는 추천 기능에 관한 정보 등)를 출력할 수 있다(S115).
실시예에 따라서, NLP 서버(30)는 의도 분석 결과 정보를 제공하는 경우, 전술한 인공지능 기기(10)에서 결정하는 동작 즉, 기능 수행이나 정보 출력에 해당하는 동작 제어 정보를 함께 전달할 수 있다.
실시예에 따라서, NLP 서버(30)에서 의도 분석 결과 정보와 함께 동작 제어 정보를 전송하는 경우, 인공지능 기기(10)는 이를 추천 정보 내지 참조 정보로 인식할 수 있다. 따라서, 인공지능 기기(10)는 그로부터 일부 또는 전부를 선택하거나 수정하여 대응 동작 결정에 이용할 수 있다.
인공지능 기기(10)는 S115 단계를 통해 수행된 기능이나 출력 정보와 관련하여, 사용자의 추가 입력 예를 들어, 사용자의 피드백(feedback)을 수신할 수 있다(S117).
인공지능 기기(10)는 S117 단계를 통해 수신할 사용자의 피드백을 NLP 서버(30)로 전달할 수 있다(S119).
NLP 서버(30)는 S119 단계를 통해 인공지능 기기(10)로부터 수신되는 사용자의 피드백에 기초하여 기수행했던 의도 분석 결과 도출에 이용했던 알고리즘 또는 인공지능 학습 모델(AI learning model)을 업데이트(update)하고 저장할 수 있다(S121).
NLP 서버(30)는 S121 단계에서 알고리즘을 업데이트한 사실을 인공지능 기기(10) 등으로 리턴 할 수 있다.
이하에서는 전술한 각 의도 분석 팩터에 기반하여 인공지능 기기(10)의 동작에 대해 기술한다.
한편, 음성 인식 사용량이 증가하면서 예를 들어, 날씨와 관련된 음성 입력에 따른 음성 인식이 많이 사용되고 있다.
이하 본 개시에서는, 의도 분석을 위한 사용자 입력은 음성 입력을, 그리고 음성 입력은 날씨 정보 요청과 관련된 것을 일실시예로 하나, 이에 한정되는 것은 아니다.
먼저, 의도 분석 팩터로서 시간 정보가 고려된 의도 분석 결과 정보에 기초한 인공지능 기기(10)의 동작에 대해 살펴보면, 다음과 같다.
도 10은 본 개시의 일실시예에 따른 인공지능 기기(10)에서 시간 정보가 고려된 의도 분석 결과 정보 기반 동작을 설명하기 위해 도시한 도면이다.
전술한 의도 분석 팩터들 중 하나로, 시간 정보는 특정 시각(예를 들어, 아침 9시, 저녁 8시, 저녁 10시 등), 시간대(예를 들어, 오전 9시-오전 10시 사이, 오후 8시-오후 10시 사이, 오전, 저녁, 밤 등), 요일(예를 들어, 월-금, 주말 등) 등 중 적어도 하나를 나타낼 수 있다.
음성 인식 기능은, 저녁 시간(예를 들어, 19시)에 가장 많이 이용되고, 새벽 시간(예를 들어, 4시)에는 상대적으로 그 이용이 저조하다.
표 1은 한국에서의 특정 시각 또는 시간대에서의 음성 인식 사용(주요 발화 정보)에 대한 예시를, 그리고 표 2는 이탈리아에서의 특정 시각 또는 시간대에서의 음성 인식 사용에 대한 예시를 나타내었다.
한국
발화문 발화횟수비중(%)
22시 1 내일 날씨 12.7
2 날씨 10.3
3 내일 날씨 어때 7.3
4 오늘 날씨 6.7
5 내일 날씨 알려줘 5.5
01시 1 내일 날씨 알려줘 12.8
2 오늘의 날씨 12.8
3 날씨 10.3
4 주말 날씨 7.7
5 날씨 알려줘 5.1
이탈리아
발화문 발화횟수비중(%)
22시 1 Meteo(Weather forecast) 7.3
2 Che tempo fa oggi(What's the weather today) 6.7
3 Che tempo fa domani(What's the weather like tomorrow) 6.1
4 Previsioni(Forecast) 4.9
5 Che tempo fa(What's the weather) 2.4
01시 1 Che tempo fa domani(What's the weather like tomorrow) 9.7
2 Che tempo fa oggi?(What's the weather like today?) 9.7
3 Meteo (Weather forecast) 9.7
4 Meteo Trapani(Trapani weather) 6.5
5 Previsioni Meteo del Fine Settimana(Weekend Weather Forecast) 6.5
표 1과 2를 참조하면, 날씨와 관련하여 음성 인식 기능을 통해 수신되는 사용자의 발화문(발화 정보)과 비율이 예시되었으나, 이는 일실시예일 뿐이다.
표 1을 참조하면, 한국에서는, 22시에 '내일 날씨'라는 발화문이 가장 발화 횟수가 많았으며, 다음으로 '날씨', '내일 날씨 어때', '오늘 날씨', '내일 날씨 알려줘'와 같은 발화문이 뒤따르고 있는 것을 알 수 있으며, 01시에는 '내일 날씨 알려줘'라는 발화문이 가장 발화 횟수가 많았으며, 다음으로 '오늘의 날씨', '날씨', '주말 날씨', '날씨 알려줘'와 같은 발화문이 뒤따르고 있는 것을 알 수 있다.
표 2를 참조하면, 이탈리아에서는, 22시에 'weather forecast'라는 발화문이 가장 발화 횟수가 많았으며, 다음으로 'What is the weather today', 'What's the weather like tomorrow', 'Forecasts', 'What is the weather'와 같은 발화문이 뒤따르고 있는 것을 알 수 있으며, 01시에는 'What's the weather like tomorrow', 'What's the weather like today', 및 'Weather forecast'라는 발화문이 가장 발화 횟수가 많았으며, 다음으로 'Trapani weather', 'Weekend Weather Forecast'와 같은 발화문이 뒤따르고 있는 것을 알 수 있다.
인공지능 기기(10)에서 하루는 0시-23시 59분 59초까지로 설정되고, 24시부터는 새로운 하루가 설정된다.
다만, 전술한 인공지능 기기(10)가 아닌 사람의 경우에는, 발화 시점을 기준으로 동일한 발화문에 대해서도 다른 의도를 포함할 수 있다.
예를 들어, 표 1을 다시 참조하면, 22시에 내일 날씨와 관련된 발화문은, 당연히 내일 날씨를 의미하는 것으로 의도 분석을 할 수 있다. 그러나 표 1에서 01시에 가장 발화 횟수가 많은 '내일 날씨 알려줘'라는 발화문에 대해서는, 기기 관점에서는 이미 날짜가 변경되었으므로 전날 기준 내일이 아니라 전날 기준으로 모레의 날씨를 알려 달라고 인식되고 판단될 수 있다. 그러나 이 경우, 인공지능 기기(10)와 달리, 사용자는 여전히 수면을 취하지 않고 깨어 있어 절대 시간 기준의 내일이 아닌 여전히 전날로 인식할 수 있으며, 이러한 관점에서 '내일 날씨 알려줘'는 전날 기준으로 모레가 아니라 내일을 의도한 것일 수 있다. 즉, 현재 시각이 2022년 01월 1일, 01시라고 가정하자. 이 때, 사용자가 '내일 날씨 알려줘'라고 음성 입력을 발화하는 경우, 인공지능 기기(10)는 2022년 01월 02일의 날씨를 안내할 수 있으나, 발화자의 의도는 2022년 01월 01일의 날씨를 안내받고 싶다는 의도일 수 있다. 통상 01시는 막 날짜가 변경된 것이기에, 발화자는 여전히 전 날짜로 인식할 가능성이 큰바 그 발화문의 의도는 01시를 기준으로 내일이 아닌 전날을 기준으로 내일 즉, 당일의 날씨 정보를 요청한 것으로 보는 것이 사용자에 의도에 더 부합할 가능성이 클 것이다. 따라서 시간 정보(예를 들어, 발화 시점)에 대한 정보가 의도 분석에 참고되어야 더욱 정확한 발화문의 의도에 부합할 수 있다.
즉, 도 1에 따른 NLP 서버(30)에 의한 제1 의도 분석 결과 정보 즉, 01시를 기준으로 내일에 대한 날씨 정보를 제공하게 되면, 사용자의 의도와 부합하지 않을 수 있는바 예를 들어, 도 1에 따른 제1 의도 분석 결과 정보를 그대로 이용하는 것이 아니라 사용자의 입력에 대응하여 시간 정보(예를 들어, 발화 시점 정보)가 더 고려된, 제1 의도 분석 결과 정보에 시간 정보까지 고려된 제2 의도 분석 결과 정보를 이용하는 것이 바람직할 수 있다.
여기서, 시간 정보라 함은, 전술한 바와 같이, 발화자의 발화 시점에 대한 정보를 나타낼 수 있다. 이러한 시간 정보는 또한, 통계 수치, 사용자의 로그 데이터, 서버(200)를 이용하거나 등록된 사용자의 일반적인 시간 정보에 대한 관념 등 중 적어도 하나에 기초하여 참조되는 시간에 대한 정보를 나타낼 수 있다. 다시 말해, 절대적인 시간인 24시에 대하여 사용자의 입력 중 시간에 관련된 발화 내용을 매핑하여, 상대적인 시간을 결정할 수 있다. 예를 들어, 표 1에서, 22시와 01시는 절대적인 시간으로 서로 다른 날짜이지만, 인공지능 기기(10)는 22시와 01에 대해 상대적인 시간으로는 동일 날짜로 인식할 수 있다. 예컨대, 인공지능 기기(10) 또는 NLP 서버(30)는 22시와 01시에 동일하게 입력된 음성 입력 즉, '내일 날씨'라는 발화문에서 시간 정보와 관련된 '내일'이라는 용어는 상대적인 시간 기준으로 동일 날짜로 판단할 수 있다. 일반적으로 사용자가 발화 시점에 이미 날짜가 변경되었음을 인지하지 못할 수도 있고 그렇다고 하더라도 수면에 들기 전에는 날짜 변경 사실을 무시하는 경향이 많기에 의도 분석의 오류가 발생할 수 있다. 따라서 본 개시에서와 같이, 사용자의 의도를 분석함에 있어서, 절대적인 시간이 아닌 상대적인 시간을 기준으로 분석하여 대응하는 것이 더욱 사용자의 의도에 부합할 수 있다. 이 때, 상대적인 시간이 절대적인 시간 관념을 배제하는 것이 아니다. 예컨대, 14시는 절대적인 시간 관념에서든 상대적인 시간 관념에서든 동일한 날짜를 나타낼 수 있다. 다시 말해, 본 개시에서는 사용자의 의도를 분석함에 있어서 절대적인 시간과 상대적인 시간의 관념이 혼용될 수 있다.
다만, 예외적으로, 사용자는 01시에 '내일 날씨'라고 발화하는 경우, 그것은 절대적인 시간을 기준으로 내일 즉, 전날 기준으로 모레의 날씨를 요청하는 것일 수도 있는바, 실시예에 따라서는 절대적인 시간을 기준으로 당일(오늘) 날씨와 내일 날씨를 함께 제공하여, 이러한 문제점을 해소할 수도 있다.
이 경우, 인공지능 기기(10)는 오늘 날씨와 내일 날씨를 함께 제공하되, 의도 분석 결과 오늘 날씨를 요청한 확률이 내일 날씨를 요청한 확률보다 임계치 이상인 경우에는, 동시에 제공되는 날씨 정보의 구성에 차등을 둘 수 있다. 인공지능 기기(10)는 예를 들어, 후술하는 바와 같이, 상대적으로 확률이 높은 날씨 정보는 풀(Full or Long) 정보로 구성하여 제공하되, 확률이 낮은 날씨 정보는 심플(Simple or Short) 정보만으로 구성하여 제공할 수 있다. 한편, 심플 정보는 사용자의 선택에 따라 풀 정보로 제공으로 변경될 수도 있다.
또한, 인공지능 기기(10)는 아래 표 3과 같이 관련 정보에 대한 매핑 정보를 구성하고, 메모리(710)에 저장할 수 있다. 다만, 본 개시가 표 3에 정의된 내용에 한정되는 것은 아니다.
7-20:59 21-23:59 0-6:59
'날씨 어때' 오늘(6/11) 날씨로 표시 오늘(6/11) 날씨 + 내일(6/12) 날씨Ex. '지금은 6월 11일 10시이고, 오늘 밤은 기온이 00도, 습도 00으로 후덥지근하며, 내일 6월 12일 날씨는 아침 기온 00도, 최고 기온은 00도이며, 습도도는 낮아 화창할 것으로 예상됩니다.' 오늘(6/12) 날씨로 표시
'내일 날씨 어때' 내일(6/12) 날씨로 표시 내일(6/12) 날씨로 표시 오늘(6/12) 날씨 + 내일(6/13) 날씨Ex. '지금은 6월 12일 2시이고 오늘 아침은 기온이 00도로 맑고 화창할 것으로 예상됩니다. 내일 6월 13일은 기온이 00도로 ~'
표 3에 나타낸 바와 같이, 인공지능 기기(10)는 7시-20시 59분 사이에서는 '날씨 어때'라는 음성 입력이 들어오면 오늘(6/11일) 날씨 정보만 제공하되, '내일 날씨 어때'라는 음성 입력이 들어오면 내일(6/12일) 날씨 정보만 제공하고, 21시-23시59분 사이에는 '날씨 어때'라는 음성 입력이 들어오면 오늘(6/11일) 날씨와 내일(6/12일) 날씨 정보가 함께 제공하되 '내일 날씨 어때'라는 음성 입력이 들어오면 내일(6/12일) 날씨 정보만 제공하고, 다음 날 0시-6시 59분 사이에는 '날씨 어때'라는 음성 입력이 들어오면 오늘(6/12일) 날씨 정보만 제공하되, '내일 날씨 어때'라는 음성 입력이 들어오면 오늘(6/12일) 날씨 정보와 내일(6/13일) 날씨 정보를 함께 제공할 수 있다.
다음으로, 요일 정보를 고려한 의도 분석 결과 정보에 대해 기술한다.
표 1 및 표 2은 요일 정보가 고려되지 않은 의도 분석 결과 정보일 수 있다.
요일 정보를 고려한 의도 분석 결과 정보에 대한 실시예로서 예를 들어, 인공지능 기기(10)는 음성 입력으로 월요일에 날씨 정보를 요청하는 경우에는 해당 주(week)에 대한 주중 날씨 정보까지 요청한 것으로 의도 분석할 수 있으며, 화요일과 수요일(또는 목요일도 포함 가능)에 날씨 정보를 요청하는 경우에는 전술한 표 1과 2를 참고하여 오늘 또는 내일에 대한 날씨 정보를 요청한 것으로 의도 분석할 수 있으며, 목요일 또는 금요일에 날씨 정보를 요청한 경우에는 주말 날씨 또는 당일부터 주말까지의 날씨 정보를 요청한 것으로 의도 분석할 수 있다. 다만, 이는 일실시예일 뿐, 본 개시가 이에 한정되는 것은 아니다.
실시예에 따라, 인공지능 기기(10)는 표 1과 2의 시간 정보와 전술한 요일 정보를 결합하여, 표 3과 같은 매핑 정보를 생성하여, 사용자의 입력에 대한 의도 분석에 이용할 수 있다.
도 10은 특히, 본 개시의 일실시예에 따라 의도 분석 결과 정보에 기초하여 제공되는 정보를 전술한 바와 같이, 차등을 둘 수 있다.
도 10의 (a) 내지 (c)는 날씨 정보에 대한 사용자 인터페이스의 일 예이고, 도 10의 (d)는 날씨 정보에 대한 사용자 인터페이스의 다른 예일 수 있다.
인공지능 기기(10)는 예를 들어, 날씨 정보를 제공함에 있어서, 도 10의 (a) 내지 (c)와 같은 심플 버전을 제공할 수도 있고, 도 10의 (d)와 같이 풀 버전을 제공할 수 있다.
다음으로, 의도 분석 팩터로서, 사용자 정보가 고려된 의도 분석 결과 정보에 기초한 인공지능 기기(10)의 동작에 대해 살펴보면, 다음과 같다.
의도 분석 팩터들 중 하나로, 사용자 정보는 예를 들어, 싱글 사용자/복수 사용자 여부, 로그인한 사용자 여부 등을 의미할 수 있다.
먼저, 인공지능 기기(10)는 로그인한 사용자 여부를 사용자 정보로서 의도 분석에 참고할 수 있다.
인공지능 기기(10)는 로그인한 사용자의 로그 데이터(log data)를 분석하고, 분석된 로그 데이터 기반으로 의도 분석을 위한 사용자 이력 데이터를 추출하고, 추출된 사용자 이력 데이터가 의도 분석에 반영되도록 할 수 있다. 사용자 이력 데이터에는 예를 들어, 사용자의 최근 또는 이전 사용자 입력-의도 분석 결과 및 그에 대한 피드백, 최근 컨텐츠 이용 내역, 사용자의 인공지능 기기(10), 컨텐츠 또는 음성 명령 내지 음성 입력 이용 패턴, 이용 빈도 내지 이용 횟수 등 중 적어도 하나 이상이 포함되거나 그에 기초하여 의도 분석 참고용으로 별도 생성된 데이터일 수 있다.
다음으로, 사용자 정보로서 싱글 사용자/복수 사용자 여부는 예를 들어, 복수의 사용자 입력이 동시에 또는 소정 시간 내에 순차로 입력되었는지 여부에 대한 정보, 인공지능 기기(10)를 시청하는 사용자가 싱글이냐 복수이냐 여부에 대한 정보, 또는 사용자의 입력이 싱글 사용자를 위한 것인지 아니면 복수의 사용자(예를 들어, 2인용 게임 실행 요청 등)를 위한 것인지 여부에 대한 정보에 근거하여 판단될 수 있다.
일실시예에 따르면, 인공지능 기기(10)는 사용자 정보가 싱글 사용자인 것으로 인식된 경우, 도 10의 (a) 내지 (c)와 같은 심플 정보를 제공할 수 있고, 복수 사용자인 것으로 인식된 경우, 도 10의 (d)와 같은 풀 정보를 제공할 수 있다.
다른 일실시예에 따르면, 인공지능 기기(10)는 로그인한 사용자가 사용자 입력의 주체와 일치하는 경우에는 의도 분석 결과 정보에 대응하여 도 10의 (d)에 도시된 바와 같은 풀 정보를 제공하되, 그렇지 않은 경우 즉, 로그인한 사용자와 발화자가 서로 일치하지 않는 경우에는 도 10의 (a) 내지 (c) 중 어느 하나와 같은 심플 정보를 제공할 수 있다.
의도 분석 팩터로서 사용자 정보는 전술한 시간 정보, 요일 정보뿐만 아니라 후술하는 적어도 하나 이상의 정보와 결합되어, 의도 분석을 위해 사용될 수 있다.
다음으로, 의도 분석 팩터로서 스케줄링 정보(scheduling information)가 고려된 의도 분석 결과 정보에 기초한 인공지능 기기(10)의 동작에 대해 살펴보면, 다음과 같다.
의도 분석 팩터들 중 하나로, 스케줄링 정보는 사용자의 모바일 기기나 클라우드 서버(Cloud server) 등을 통해서 획득 가능한 사용자의 스케줄링 정보를 나타낼 수 있다. 인공지능 기기(10)는 스케줄링 정보를 이용할 수 있도록 사용자의 동의를 받아 해당 정보를 액세스하여 관련 정보를 획득할 수 있다.
예를 들어, 인공지능 기기(10)는 사용자 입력이 '날씨 어때'인 경우, 표 1 및 표 2과 관련하여 전술한 바와 같이 처리할 수도 있으나, 스케줄링 정보를 참고하여 더욱 정밀한 의도 분석 결과 정보를 획득할 수도 있다. 예를 들어, 오늘 비가 오는 날씨이고, 사용자는 주말에 운동 스케줄이 있다고 하자. 이 경우, 사용자가 '날씨 어때'라고 입력하는 경우, 인공지능 기기(10)는 단순 오늘이나 내일 날씨 정보를 나타낼 수도 있으나, 주말에 예정된 스케줄 즉, 야외 운동 스케줄을 소화할 수 있는지 여부에 대한 걱정 때문일 수도 있다. 따라서, 인공지능 기기(10)(또는 NLP 서버(30))에서 사용자의 스케줄링 정보를 획득하고, 획득한 스케줄링 정보에서 사용자의 입력과 관련성이 임계치 이상인 정보를 추출하고, 추출한 정보를 NLP 서버(30)로 전송하면, NLP 서버(30)는 정보를 사용자 입력에 대한 의도 분석에 참고하여, '날씨 어때?'라는 사용자의 입력에 대하여, 단지 오늘 또는 내일의 날씨나 주중 날씨만이 아니라 주말에 예정된 야외 운동 스케줄까지 고려하여, 어떤 날씨 정보를 제공할 것인지 결정할 수 있다. 이 때, 스케줄링 정보는 단지 하나의 의도 분석 팩터로서 기능하지만, 다른 의도 분석 팩터들 중 적어도 하나 이상과 결합되면 의도 분석의 정확성을 더욱 높일 수 있다.
상기 스케줄링 정보는 전술한 사용자 정보에 기초하여 결정된 사용자의 스케줄링 정보일 수 있다.
다음으로, 의도 분석 팩터로서 컨텐츠 정보가 고려된 의도 분석 결과 정보에 기초한 인공지능 기기(10)의 동작에 대해 살펴보면, 다음과 같다.
도 11과 12는 본 개시의 일실시예에 따른 인공지능 기기(10)에서 컨텐츠 정보가 고려된 의도 분석 결과 정보 기반 동작을 설명하기 위해 도시한 도면이다.
의도 분석 팩터들 중 하나로, 컨텐츠는 인공지능 기기(10)에서 현재 재생 중이거나 재생 예정 또는 재생 예약된 컨텐츠의 타입(type), 속성(attribute), 장르(genre) 등 기타 정보를 나타낼 수 있다.
인공지능 기기(10)는 도 11의 (a)에 도시된 바와 같이, 현재 뉴스 또는 날씨 어플이나 정보를 제공 중인 상태에서, 사용자의 입력이 수신되었다고 하자.
인공지능 기기(10)는 사용자의 입력과 현재 재생 중인 컨텐츠 정보, 직전 재생 컨텐츠 정보 또는 재생 예정인 컨텐츠 정보 중 적어도 하나를 함께 NLP 서버(30)로 전달할 수 있다.
NLP 서버(30)는 전달된 사용자 입력에 대한 텍스트 데이터와 인공지능 기기(10)에 의해 전달된 컨텐츠 정보에서 관련성이 있는 단어나 말뭉치를 추출하고, 양자의 관련성이 임계치 이상인 경우에는, 사용자 입력에 대한 텍스트 데이터에 기초하여 의도 분석 시 인공지능 기기(10)에 의해 전달된 컨텐츠 정보를 더 참고할 수 있다.
도 11의 (a)를 참조하면, 인공지능 기기(10)는 뉴스를 제공하고 있다. 이 때, 뉴스는 날씨에 관한 정보가 제공 중이다. 이 과정에서, 인공지능 기기(10)에서 '날씨 보여줘'와 같은 사용자 입력이 수신되면, 이를 NLP 서버(30)로 전송하되, 상기 날씨 정보를 제공 중인 뉴스에 대한 정보 역시 컨텐츠 정보로서 제공할 수 있다.
NLP 서버(30)는 '날씨 보여줘'라는 사용자 입력에 대한 의도 분석 시, 상기 사용자 입력 시점에 인공지능 기기(10)에서 날씨 정보가 포함된 뉴스가 재생 중이었다는 사실을 참고하여, 의도 분석을 수행할 수 있다.
따라서, NLP 서버(30)는 의도 분석 결과 정보로서, 지역과 구체적인 날씨 정보가 포함된 도 11의 (b)와 같은 날씨 정보를 대응 동작을 제공할 수 있다.
도 11의 (a)와 (b)를 참고하면, 인공지능 기기(10) 또는 NLP 서버(30)는 의도 분석 결과 정보로, 현재 사용자가 속한 지역 및/또는 뉴스에서 언급한 날씨 정보와 관련된 지역의 상세한 날씨 정보(예를 들어, 풀 버전)를 제공할 수 있다.
반면, 도 11의 (a)에 도시된 바와 달리, 인공지능 기기(10)에서 날씨 정보가 포함된 뉴스가 아니라 드라마가 제공 중인 경우에, '날씨 보여줘' 라는 사용자 입력이 수신되는 경우, 전술한 실시예와 다르게 대응 동작할 수 있다. 인공지능 기기(10)는 컨텐츠 정보를 사용자 입력과 함께 NLP 서버(30)로 전달하되, NLP 서버(30)는 판단 결과 컨텐츠 정보와 사용자 입력 사이의 연관성이 임계치 미만이거나 무관한 경우, 의도 분석에 참고하지 않거나 무시할 수 있다.
마찬가지로, 도 12의 (a)에 도시된 바와 같이, 인공지능 기기(10)는 특정 지역에 대한 여행 프로그램을 재생 중이며, 이 때 '날씨 보여줘'라는 사용자 입력이 수신되었다고 하자.
인공지능 기기(10)는 사용자 입력과 함께 현재 재생 중인 컨텐츠 정보를 제공할 수 있다. 인공지능 기기(10)는 컨텐츠에 따라서 부가 정보가 포함된 컨텐츠 정보를 NLP 서버(30)로 전달할 수 있다. 예컨대, 도 12의 (a)는 기본적으로는 여행 프로그램으로 해당 회차에서는 특정 지역(예를 들어, 덴마크)에 대한 여행 정보를 제공 중인 경우, 부가 정보는 해당 지역에 대한 정보가 포함될 수 있다. 인공지능 기기(10)는 NLP 서버(30)는 부가 정보가 포함된 컨텐츠 정보와 사용자 입력의 연관성이 임계치 이상인 경우에는, 이를 참조하여 의도 분석을 수행하고, 의도 분석 결과로서 도 12의 (b)의 해당 지역의 날씨 정보 및/또는 도 12의 (c)에 도시된 바와 같이 한국(인공지능 기기(10)가 속한 지역 등)의 날씨 정보를 제공할 수 있다.
한편, 사용자 입력에 대하여 컨텐츠 정보를 고려하여 의도 분석 결과 도 12의 (b)에 도시된 바와 같이, 해당 지역에 대한 날씨 정보를 제공하는 경우, 사용자 입력이 특정되지 않은 경우(예를 들어, 내일, 이번 주, 다음 주 등)에는, 현재 및 이번 주 해당 지역의 날씨 정보뿐만 아니라, 해당 지역의 기후, 1년 동안의 날씨 정보 등이 함께 제공될 수도 있다. 이는 스케줄 정보와 연동되어, 스케줄 정보와 관련된 스케줄에 대한 날씨 정보가 제공될 수도 있다.
다음으로, 의도 분석 팩터로서 공간 정보가 고려된 의도 분석 결과 정보에 기초한 인공지능 기기(10)의 동작에 대해 살펴보면, 다음과 같다.
도 13은 본 개시의 일실시예에 따른 인공지능 기기(10)에서 공간 정보가 고려된 의도 분석 결과 정보 기반 동작을 설명하기 위해 도시한 도면이다.
전술한 의도 분석 팩터들 중 하나로, 공간은 인공지능 기기(10)와 음성 서비스 서버(200) 중 적어도 하나에 미리 등록된 공간을 나타낼 수 있다. 이러한 공간에는 거실(예를 들어, 도 13의 공간 A), 부엌(예를 들어, 도 13의 공간 B), 침실(예를 들어, 도 13의 공간 C), 자녀 학습방(예를 들어, 도 13의 공간 D) 등 다양하게 정의하여 설정 등록할 수 있다. 이 때, 공간은 반드시 물리적으로 하나의 공간일 필요는 없다. 예를 들어, 거실을 거실1, 거실2 등과 같이 구분하여 식별 가능하면 별도 공간으로 정의할 수도 있다.
한편, 본 의도 분석 팩터로서 공간에 대하여 적어도 인공지능 기기(10)는 해당 공간에 대한 진입과 진입 해제에 대한 감지 내지 식별을 할 수 있어야 한다. 본 개시에서는 공간 인식, 감지 내지 식별과 관련하여 공지된 기술을 참조하고, 별도 이에 대한 설명은 생략한다.
공간 정보는 도 6과 같이 이동 가능한 형태의 인공지능 기기(10)가 속한 또는 진입하거나 진입 해제 시, 해당 공간에 대한 식별 정보를 나타낼 수 있다.
인공지능 기기(10)는 공간에 대한 맵(map) 정보를 보유할 수 있으며, 각 공간에 식별자를 부여하여 식별할 수 있다. 한편, 각 공간은 해당 공간의 특성에 따라 이용 패턴 등이 다를 수 있으며, 이는 의도 분석에 참조되어, 사용자 입력에 대한 더욱 정확한 의도 분석에 기여할 수 있다.
도 13을 참조하면, 인공지능 기기(10)는 공간 A 내지 공간 D 중 어느 하나의 공간에 속해 있거나 다른 공간으로 진입할 수 있다.
본 개시와 관련하여, 동일한 사용자 입력(예를 들어, '날씨 어때?')이, 인공지능 기기(10)가 공간 A(거실)에 위치한 경우와 공간 C(침실)에 위치한 경우에, 수신되었다고 하자.
이 경우, NLP 서버(30)는, 인공지능 기기(10)가 공간 A에 속한 경우와 공간 C에 속한 경우에, 공간 식별 정보를 활용하여 사용자 입력에 대한 의도 분석을 수행할 수 있다.
예를 들어, NLP 서버(30)는, 인공지능 기기(10)가 공간 A에 속한 경우에는, 해당 공간 식별 정보 즉, 거실에 있는 사용자의 입력('날씨 어때')는 현재 해당 지역의 날씨 정보를 보고 싶다고 판단할 수 있다.
반면, NLP 서버(30)는, 인공지능 기기(10)가 공간 C에 속한 경우에는, 해당 공간 식별 정보 즉, 침실에 있는 사용자 입력('날씨 어때')는 현재 해당 지역의 날씨보다는 내일 직장이 위치한 지역의 날씨에 대한 정보를 보고 싶다고 판단할 수 있다.
이와 같이, NLP 서버(30)는 인공지능 기기(10)의 공간 식별 정보를 참조하여, 사용자 입력에 대한 의도 분석을 수행하여, 보다 정확한 의도 분석 결과 정보를 도출할 수 있다.
NLP 서버(30)는 전술한 다양한 의도 분석 팩터들 중 적어도 하나(예를 들어, 시간 정보)를 더 참조하여, 더욱 사용자의 의사에 부합하는 분석 결과 정보를 도출할 수도 있다.
상술한 실시예들은 본 개시에 따라, 인공지능 기기(10)에서 사용자 입력에 대응하여, NLP 서버(30)를 통하여 수신되는 의도 분석 결과 정보에 기초하여 대응 동작의 하나로서, 정보(추천 정보)를 제공하는 실시예로 볼 수 있다.
이하에서는, 인공지능 기기(10)에서 NLP 서버(30)로부터 수신되는 의도 분석 결과 정보에 기초하여 대응 동작의 하나로서, 기능(추천 기능)을 수행하거나 기능(추천 기능)과 관련된 정보를 출력하는 실시예를 설명한다.
도 14는 본 개시의 일실시예에 따른 인공지능 기기(10)의 사용자 입력 처리 방법을 설명하기 위해 도시한 도면이다.
도 15는 본 개시의 다른 일실시예에 따른 인공지능 기기(10)의 사용자 입력 처리 방법을 설명하기 위해 도시한 도면이다.
도 14와 15는 인공지능 기기(10) 관점에서 기술하나, 이에 한정되는 것은 아니다.
인공지능 기기(10)에서 기능을 수행하거나 기능에 관한 추천 정보를 제공하기 위하여, 사용자 입력이 반드시 해당 기능 실행에 대한 직접적인 요청이 아닐 수도 있다.
먼저, 도 14의 (a)를 참조하면, 인공지능 기기(10)는 사용자 입력이 수신되면(S201), 이를 NLP 서버(30)로 전달하고, NLP 서버(30)로부터 수신 사용자 입력에 대한 의도 분석 결과 정보를 수신할 수 있다(S203).
S201 내지 S203 단계의 구체적인 내용은 본 개시에서 전술한 내용을 참조하고, 여기서 중복 설명은 생략한다.
인공지능 기기(10)는 S203 단계를 통해 NLP 서버(30)로부터 의도 분석 결과 정보가 수신되면, 의도 분석 결과 정보에 기초하여 사용자 입력에 대응하는 기능을 결정할 수 있다(S205).
인공지능 기기(10)는 S205 단계에서 결정된 기능의 현재 수행 가능 여부를 판단할 수 있다(S207).
인공지능 기기(10)는 S207 단계를 통해 결정된 기능을 현재 수행 가능한 것으로 판단되는 경우, 해당 기능을 수행하여 적용할 수 있다(S213).
반면, 인공지능 기기(10)는 S207 단계를 통해 결정된 기능을 현재 수행 가능하지 않은 것으로 판단되는 경우, 추천 기능 정보를 구성하여 제공할 수 있다(S209).
인공지능 기기(10)는 S209 단계를 통해 제공된 추천 기능이 선택되었는지 판단할 수 있다(S211).
인공지능 기기(10)는 S211 단계를 통해 판단 결과 추천 기능이 선택된 경우, 해당 기능을 수행할 수 있다(S213).
인공지능 기기(10)는 S211 단계를 통해 판단 결과 추천 기능이 선택되지 않은 경우, 사용자의 이전 입력을 포함하여 피드백 데이터를 NLP 서버(30)에 전달하여 피드백 데이터를 더 고려하여 사용자 입력에 대한 의도 분석 결과를 다시 요청하거나 S205 단계에서 피드백 데이터에 기초하여 사용자 입력 대응 기능 결정 과정을 다시 수행하고 그 이후의 절차를 다시 수행할 수 있다.
도 14의 (a)에서 S201 단계에서 수신되는 사용자 입력이 예를 들어, '화면 어둡게 해줘' 또는 '30분 뒤에 인공지능 기기(10) 꺼줘'인 경우, S205 단계에서 예를 들어, 시력 보호 기능이 결정되고, 가이드 정보(예: '시력보호기능을 설정해 드릴까요?)도 제공될 수 있다.
다른 실시예에 따르면, 도 14의 (a)에서 S201 단계에서 수신되는 사용자 입력이 예를 들어, '화면 어둡게 해줘' 또는 '30분 뒤에 인공지능 기기(10) 꺼줘'인 경우, S205 단계에서 예를 들어, 화면 밝기 기능이 결정되고, 화면을 어둡게 제공할 수 있다. 이와 별개로, 인공지능 기기(10)는 화면 밝기 기능과 관련하여, 추천 기능으로 시력 보호 기능(또는 시력 보호 모드)를 추가 결정하고 그에 관한 추천 가이드 정보(예: '시력 보호 기능을 설정해 드릴까요?)도 제공될 수 있다.
도 15는 도 14에 이은 또는 그와 별개로 자동으로 제공 가능한 보상 기능을 나타낼 수 있다. 설명의 편의상, 도 15는 도 14에서 사용자 입력 및 그 의도 분석 결과 정보에 기초하여 제1 기능(추천 기능)이 설정된 이후를 예로 하여 설명한다.
인공지능 기기(10)는 이벤트 발생을 감지할 수 있다(S301). 여기서, 이벤트는 사용자 입력 수신, 기능 요청과 같은 원격제어장치의 입력 수신, 인공지능 기기(10)의 전원 온, 인공지능 기기(10)와 연동된 또는 주변의 기기의 전원 온/오프 등 중 적어도 하나가 포함될 수 있다. 사용자 입력은 반드시 전술한 보상 기능에 관련된 입력일 필요는 없으며, 반드시 특정 형태(예를 들어, 음성)에만 한정될 필요도 없다.
인공지능 기기(10)는 제1 화면을 구성하여 제공할 수 있다(S303).
제1 화면은 S301 단계에서 감지되는 이벤트에 따라 다르게 구성될 수 있다. 예를 들어, 이벤트가 인공지능 기기(10) 전원 온 요청이면, 제1 화면은 초기 화면일 수 있다. 반면, 인공지능 기기(10)는 이미 전원 온 상태이고, 이벤트가 인공지능 기기(10)와 연동된 또는 주변의 기기의 전원 온/오프인 경우, 제1 화면은 현재 재생 컨텐츠 화면 상에 제공 가능한 OSD 메시지 또는 별도 구성된 사용자 인터페이스 화면일 수도 있다.
인공지능 기기(10)는 이벤트 발생이 감지되는 경우, 직전 사용자 입력-의도 분석 결과 정보-대응 동작 정보를 추출할 수 있다(S305).
인공지능 기기(10)는 S305 단계를 통해 추출되는 정보에 기초하여 보상 정보 또는 보상 추천 기능을 결정하여 제공할 수 있다(S307, S309).
인공지능 기기(10)는 S309 단계를 통해 제공되는 보상 정보 또는 보상 추천 기능의 사용자에 의한 선택 여부를 판단할 수 있다(S311).
인공지능 기기(10)는 S311 단계를 통해 판단 결과, 사용자에 의해 제공된 보상 정보 또는 보상 추천 기능이 선택된 경우, 해당 기능을 인공지능 기기(10)에 설정할 수 있다(S313).
본 개시에서 보상 정보 내지 보상 추천 기능은 예를 들어, 이전 또는 직전 사용자 입력-의도 분석 결과 정보-대응 동작과 보상 관계에 있는 대응 동작을 나타낼 수 있으나, 반드시 이에 한정되는 것은 아니다. 예컨대, 보상 정보 내지 보상 추천 기능이 직전 사용자 입력에 대한 의도 분석 결과 정보에 기초한 대응 동작과 동일한 동작이나 그 레벨이나 세기 등이 다를 수도 있다. 보상 정보 내지 보상 추천 기능은 현재 인공지능 기기(10)에 설정된 내용에 대한 대응 동작일 수 있으며, 현재 설정된 내용의 설정 시기는 문제되지 않을 수 있다.
도 15는 반드시 사용자 입력이 직접 수신되어야만 활성화되는 것은 아니며, 이전 또는 직전 사용자 입력에 대응하는 또는 이어지는 동작으로 자동 또는 수동으로 수행될 수 있다. 예를 들어, 직전 사용자 입력에 따른 대응 동작(정보 또는 기능)이 현재 인공지능 기기(10)의 현재 상태나 주변 상황 정보에 기초할 때, 사용자가 불편을 느낄 수 있거나 로그 데이터 분석 결과나 사용자 이력 기반 등에 기초할 때, 그러한 사용자 입력이 예상되는 경우에 자동으로 수행될 수 있다.
다른 실시예에 따르면, 이러한 자동 보상 동작은 사용자 개인이 아닌 음성 서비스 서버에 등록된 다양한 사용자의 평균적인 내용(설정, 요청 등)에 기초할 수도 있는데, 이는 사용자의 입력에 기반하여 제공되는 보상 동작이라기 보다 자동 보상 동작이기 때문일 수 있다. 한편, 또 다른 실시예에서는, 그 반대도 가능하다.
사용자 A의 이용 패턴이 아침에는 음량 30, 채널은 ABC, 음성으로 날씨를 묻는 패턴이라고 하자. 이 때, 사용자가 아침 시간에 인공지능 기기(10)의 전원을 온 하면, 전술한 이용 패턴에 기초하여, '좋은 아침입니다.'라고 하면서, 'ABC 채널로 전환할까요?', '오늘의 날씨 정보를 보시겠습니까?'라는 동작을 수행할 수 있다.
반면, 사용자 B의 전날 저녁 시간에, 원격제어장치를 통해 '음량 15', 및 '채널 ABC 틀어줘', 음성 입력으로 '날씨 어때'라고 사용자 입력을 하고 인공지능 기기(10)에서 그에 대응하는 동작을 수행하였다고 하자. 사용자가 다음 날 아침 시간에 인공지능 기기(10)의 전원을 온 하면, 인공지능 기기(10)는 다음 중 어느 하나와 같이 동작할 수 있다. 먼저, 인공지능 기기(10)는 전날 저녁 시간에 동작 수행한 결과와 관련하여, 음량을 15에서 음량 30으로 변경, 채널 ABC가 아닌 채널 BCD로 변경, 음성 입력으로 '날씨 어때'에 대해 당일 해당 지역 및/또는 스케줄링 정보 기반 예상 지역의 날씨 정보를 보상 정보 내지 보상 동작으로 제공할 수 있다. 또는, 인공지능 기기(10)는 전날 저녁 시간에 원격제어장치를 통한 입력(음량 변경과 채널 변경)은 제외하고 음성 입력에만 대응하는 보상 정보 내지 보상 동작을 수행할 수 있다.
도 15의 (b)에서는 도 14의 (b)에서 전날 저녁에 수행한 시력 보호 모드 동작 설정에 대응하여, 다음 날 오전에 시력 보호 모드가 동작 중인바, 해제 여부를 문의하는 가이드 메시지를 제공할 수 있다.
도 14와 15에서 개시한 실시예는 사용자 입력에 상응하는 대응 동작으로 기능을 수행하거나 추천 수행하는 내용을 기술하였으나, 전술한 바와 같이 대응 동작으로 정보 또는 추천 정보를 제공하는 경우에도 사용자 입력에 따른 의도 분석 결과 정보에 상응하는 기능은 아니나 그 정보에 기초하여 제공되는 정보 또는 추천 정보에 관련된 기능을 제공하는 것으로 해석될 수도 있다.
도 16은 본 개시의 또 다른 일실시예에 따른 인공지능 기기(10)의 사용자 입력 처리 방법을 설명하기 위해 도시한 도면이다.
인공지능 기기(10)는 사용자-시간-공간 등을 기준으로 루틴 정보를 구성하여 저장하고, 미리 설정된 바에 따라 루틴을 적용하여 서비스 제공할 수 있다. 다만, 사용자 입력이 이러한 루틴 정보 중 하나에 상응하거나 배치되는 경우에 그 처리 동작에 대한 정의가 필요할 수 있다.
도 16을 참조하면, 인공지능 기기(10)는 루틴 정보를 구성하고 저장할 수 있다(S401).
인공지능 기기(10)는 S401 이후에, 사용자 입력을 수신할 수 있다(S403).
인공지능 기기(10)는 S403 단계에서 수신한 사용자 입력이 S401 단계에서 저장한 루틴 정보 중 적어도 하나와 일치(또는 관련)되는지 판단할 수 있다(S405).
인공지능 기기(10)는 S405 단계 판단 결과, S403 단계의 사용자 입력이 S401 단계에서 저장된 루틴 정보 중 적어도 하나와 일치하면, 저장된 나머지 루틴 정보에 따라 루틴을 실행할 지 여부를 판단할 수 있다(S407).
인공지능 기기(10)는 S407 단계 판단 결과, 저장된 나머지 루틴 정보에 따라 루틴을 실행할 수 있다(S409).
인공지능 기기(10)는 S407 단계에서 저장된 나머지 루틴 정보에 따라 루틴을 실행할지 여부는 수동 또는 자동으로 판단할 수 있다. 전자의 경우, 루틴 실행 여부에 대한 가이드를 제공하고, 사용자의 입력에 따라 판단할 수 있다. 후자의 경우, 루틴 실행 여부는 의도 분석 팩터들 중 적어도 하나 이상을 참조하여 판단될 수 있다. 예를 들어, 인공지능 기기(10)는 사용자정보-시간정보-공간정보를 참조하여, 해당 루틴에 기설정된 실행 내용이나 패턴과 일치하거나 관련성이 임계치 이상이면, 루틴 실행 여부를 자동 판단하여, 적용할 수 있다.
인공지능 기기(10)는 S409 단계에서 나머지 루틴의 실행은, 사용자의 입력이 설정된 순서에 따라 순차로 실행되어야 하는 루틴 정보 중 적어도 하나와 일치(또는 관련)하는 경우에는, 그 이후 순서에 순차 실행 예정된 루틴 정보만 실행할 수 있다.
다른 실시예에 따르면, 인공지능 기기(10)는 사용자 입력에 상응하는 루틴 정보를 독출하고, 사용자 입력이 독출된 루틴 정보 내 적어도 하나의 루틴과 일치(또는 관련)하는 경우, 특정 루틴과 관련된 사용자 입력이라도 독출된 루틴 정보에 포함된 모든 루틴을 실행할 수도 있다.
또 다른 실시예에 따르면, 인공지능 기기(10)는 사용자 입력에 상응하는 루틴 정보를 독출하되, 독출되는 루틴 정보가 복수 개인 경우에는, 그 중 하나의 루틴 정보를 수동 또는 자동으로 선택하여, 전술한 바와 같이 처리할 수 있다. 전자의 경우, 인공지능 기기(10)는 화면을 통해 특정 루틴 정보를 선택할 수 있도록 가이드 메시지를 제공하고, 사용자의 입력에 따라 선택된 특정 루틴 정보와 S407 단계 이후의 절차를 수행할 수 있다. 후자의 경우, 인공지능 기기(10)는 의도 분석 팩터들 중 적어도 하나와 원래 해당 루틴들의 실행 예정 정보를 더 참고하여, 관련성이 가장 높은 즉, 최적의 특정 루틴 정보를 선택하고, 선택된 루틴 정보에 기초하여 S407 단계 이후의 절차를 수행할 수 있다. 이 경우, 선택되지 않은 루틴 정보는 화면을 통해 간략히 정보가 제공될 수도 있고, 그렇지 않을 수도 있다.
도 17은 본 개시의 일실시예에 따른 발화 에이전트(1710)를 통한 추천 쿼리(1720)를 설명하기 위해 도시한 도면이다.
본 개시에 따른 인공지능 기기(10)는 발화 에이전트(1710)를 디스플레이(150 또는 151)의 일 영역상에 제공할 수 있다.
인공지능 기기(10)는, 도 17에 도시된 바와 같이, 발화 에이전트(1710) 제공 시, 추천 쿼리(1720)를 함께 제공할 수 있다. 추천 쿼리(1720)는 발화 에이전트(1710)를 이용하는 사용자의 편의를 위한 것일 수 있다. 발화 에이전트(1710)는 원거리 기동어에 의해 또는 임의의 이벤트 발생에 따라 제공될 수 있으나, 이에 한정되는 것은 아니다.
추천 쿼리(1720)는 발화 에이전트(1710)가 제공되는 시점에 임의로 결정된 적어도 하나 이상의 쿼리 정보가 제공될 수 있다.
일실시예에 따라, 본 개시에 따른 인공지능 기기(10)는, 발화 에이전트(1710)를 제공하는 경우, 의도 분석 팩터들 중 적어도 하나 이상을 참고하여, 추천 쿼리를 결정하여, 제공할 수 있다.
발화 에이전트(1710)에 포함되는 추천 쿼리는 매 발화 에이전트(1710)가 제공될 때마다 달라질 수도 있고, 그렇지 않을 수도 있다. 추천 쿼리는 발화 에이전트(1710)가 제공되는 시점에, 발화 에이전트(1710)가 제공되는 이유를 의도 분석 팩터들 중 적어도 하나와 비교 판단하고, 비교 판단 결과에 기초하여 추천 쿼리를 결정할 수도 있다. 또는, 추천 쿼리는 사용자, 시간, 및 공간 중 적어도 하나에 기초하여 결정될 수도 있다. 즉, 인공지능 기기(10)는 적어도 하나의 추천 쿼리(1720)를 상기 의도 분석 팩터들 중 적어도 하나에 기초하여 구성된 추천 키워드 기반으로 작성할 수 있다.
실시예에 따라서, 쿼리 정보에는, 이전 또는 직전 발화문 정보, 보상 기능 관련 정보, 이전 또는 직전 발화문 기반 추천 발화문 정보, 음성 인식 기능 이용을 위한 도움말 정보, 현재 컨텐츠와 관련된 발화문 정보, 기타 본 개시에서 전술한 각종 의도 분석 팩터를 고려해 임의 결정된 발화문 정보 등 중 적어도 하나가 포함될 수도 있다.
표 4에서는 일실시예로, 의도 분석 팩터들 중 하나인 시간 정보에 기반하여, 추천 쿼리(또는 추천 키워드)를 예시한 것이다. 표 4는 인공지능 기기(10)에 저장 또는 임베디드되는 형태로 존재할 수도 있고, NLP 서버(30) 단에 저장될 수도 있다. 한편, 표 4의 추천 쿼리(추천 키워드)는 계속하여 업데이트될 수 있다. 업데이트는 사용자 맞춤형으로 업데이트되거나 음성 서비스 서버(200)에 등록된 모든 인공지능 기기들 또는 사용자의 이용 정보에 기초하여 업데이트될 수도 있다. 다만, 표 4에 개시된 내용에 본 개시가 한정되는 것은 아니다.
추천 쿼리
(추천 키워드)
현재 시간대
새벽
(24:00~04:59)
오전
(05:00~11:59)
오후
(12:00~17:59)
저녁
(18:00~23:59)
오늘 날씨 어때? O O
내일 날씨 알려줘 O O
이번 주말 날씨는? O O O
유산소 운동 찾아줘 O O
청력보호모드 켜줘 O O
시력보호모드 켜줘 O O
취침예약해줘(30분 뒤 TV 꺼줘) O O
지금 몇 시야? O O O O
10분뒤 알람 설정해줘/7시에 알람 설정해줘 O O
12시에 TV꺼줘 O
외부 입력 목록 보여줘 O O O
어제 이 시간에 본 채널 틀어줘 O O O
화면 어둡게 해줘 O
화면 밝게 해줘 O
에어컨 켜줘 O O O
식기 세척기 다됐어? O O O
블루투스 스피커 연결해줘 O O O
LG Fitness O O O
볼만한 거 없어? (매직링크) O O O O
매직 익스플로러 O O O O
이 음악 뭐야? O O O O
화면 설정 O O O O
스포츠 알람 O O O O
채널 잠금 O O O O
게임 홈 O O O O
멀티 액션 보여줘 O O O O
음향 설정 O O O O
나 요즘에 뭐 봤지? O O O O
{인물명} 누구야? O O O O
화면 꺼줘 O O O O
본 개시의 다양한 실시예들 중 적어도 하나에 의하면, 인공지능 기기(10)에 의해 수행되는 동작들 중 적어도 하나는 NLP 서버(30)에 의해 수행될 수 있으며, 반대도 마찬가지이다.
특별히 언급하지 않더라도, 본 개시에서 개시한 적어도 일부의 동작의 순서는, 동시에 수행되거나 기설명한 순서와 다른 순서로 수행되거나 일부는 생략/추가될 수도 있다.
본 발명의 일 실시 예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다.
상기와 같이 설명된 디스플레이 장치는 상기 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
본 개시에 따른 디스플레이 장치에 의하면, 다양한 사용자 입력에 부합하는 최적의 의도 분석 결과를 도출하여 대응하는 정보를 제공하거나 기능을 수행함으로써, 음성 인식 서비스의 퀄리티를 높이고 사용자의 기기 이용 만족도를 극대화할 수 있으므로, 산업상 이용가능성이 있다.

Claims (15)

  1. 디스플레이; 및
    상기 디스플레이를 제어하는 프로세서를 포함하되,
    상기 프로세서는, 사용자 입력을 수신하고, 상기 사용자 입력을 서버로 전송하고, 상기 서버로부터 상기 사용자 입력에 대한 의도 분석 결과 정보가 포함된 응답 정보를 수신하고, 상기 응답 정보에 따라 정보 출력 및 기능 수행 중 적어도 하나의 동작을 수행하되,
    상기 의도 분석 결과 정보에는, 상기 서버로 전송된 적어도 하나 이상의 의도 분석 팩터들에 기초하여 1차 처리된 상기 사용자 입력에 대해 의도 분석된 결과가 포함되는,
    인공지능 기기.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 수행된 적어도 하나의 동작에 따른 사용자의 피드백 데이터를 수신하고, 상기 피드백 데이터에 기초하여 상기 하나 또는 그 이상의 의도 분석 팩터들을 업데이트하고, 업데이트된 상기 의도 분석 팩터들을 상기 서버로 전송하는,
    인공지능 기기.
  3. 제2항에 있어서,
    상기 프로세서와 통신하여 데이터를 저장하는 메모리를 더 포함하고,
    상기 프로세서는, 상기 응답 정보를 파싱하고, 파싱된 응답 정보에 기초하여 출력할 정보 및 기능 수행에 관련된 정보를 상기 메모리로부터 독출하는,
    인공지능 기기.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 응답 정보 내 의도 분석 결과 정보에 따른 정보를 출력하는 경우, 상기 서버로 전송된 하나 또는 그 이상의 의도 분석 팩터들에 기초하여, 제1 버전 또는 제2 버전으로 구성된 정보를 제공하는,
    인공지능 기기.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 응답 정보 내 의도 분석 결과 정보에 따른 기능을 수행하는 경우, 해당 기능의 수행 가능 여부를 판단하고, 상기 판단 결과 수행 불가능한 경우에는 추천 기능 정보를 제공하고, 추천 기능을 대신하여 수행하는,
    인공지능 기기.
  6. 제1항에 있어서,
    상기 프로세서는,
    이벤트 발생이 감지되면, 직전 사용자 입력, 의도 분석 결과 정보 및 기능 수행 동작 정보를 추출하여, 추천 보상 기능에 대한 정보 중 적어도 하나에 대한 정보를 출력하고, 추천 보상 기능을 수행하는,
    인공지능 기기.
  7. 제1항에 있어서,
    상기 프로세서는,
    기능 수행에 관한 루틴 정보를 구성하여 메모리에 저장하고, 상기 수신된 의도 분석 결과 정보가 상기 저장된 루틴 정보 내 정의된 루틴들 중 적어도 하나와 관련성이 있는 경우, 상기 루틴 정보에 포함된 나머지 루틴을 자동으로 실행하는,
    인공지능 기기.
  8. 제1항에 있어서,
    상기 프로세서는,
    적어도 하나의 추천 쿼리가 포함된 발화 에이전트를 제공하되, 상기 적어도 하나의 추천 쿼리는, 상기 의도 분석 팩터들 중 적어도 하나에 기초하여 구성된 추천 키워드 기반으로 작성되는,
    인공지능 기기.
  9. 사용자 입력을 수신하는 단계;
    상기 사용자 입력을 서버로 전송하는 단계;
    상기 서버로부터 상기 사용자 입력에 대한 의도 분석 결과 정보가 포함된 응답 정보를 수신하는 단계; 및
    상기 응답 정보에 따라 정보 출력 및 기능 수행 중 적어도 하나의 동작을 수행하는 단계를 포함하되,
    상기 의도 분석 결과 정보에는, 상기 서버로 전송된 적어도 하나 이상의 의도 분석 팩터들에 기초하여 1차 처리된 상기 사용자 입력에 대해 의도 분석된 결과가 포함되는,
    인공지능 기기의 동작 방법.
  10. 제9항에 있어서,
    상기 수행된 적어도 하나의 동작에 따른 사용자의 피드백 데이터를 수신하는 단계; 상기 피드백 데이터에 기초하여 상기 하나 또는 그 이상의 의도 분석 팩터들을 업데이트하는 단계; 및
    업데이트된 상기 의도 분석 팩터들을 상기 서버로 전송하는 단계를 더 포함하는,
    인공지능 기기의 동작 방법.
  11. 제10항에 있어서,
    상기 응답 정보 내 의도 분석 결과 정보에 따른 정보를 출력하는 경우, 상기 서버로 전송된 하나 또는 그 이상의 분석 팩터들에 기초하여, 제1 버전 또는 제2 버전으로 구성된 정보가 제공되는,
    인공지능 기기의 동작 방법.
  12. 제11항에 있어서,
    상기 응답 정보 내 의도 분석 결과 정보에 따른 기능을 수행하는 경우, 해당 기능의 수행 가능 여부를 판단하고, 상기 판단 결과 수행 불가능한 경우에는 추천 기능 정보를 제공하고, 추천 기능이 대신하여 수행되는,
    인공지능 기기의 동작 방법.
  13. 제9항에 있어서,
    이벤트 발생을 감지하는 단계;
    직전 사용자 입력, 의도 분석 결과 정보 및 기능 수행 동작 정보를 추출하는 단계;
    추천 보상 기능에 대한 정보 중 적어도 하나에 대한 정보를 출력하는 단계; 및
    추천 보상 기능을 수행하는 단계를 더 포함하는,
    인공지능 기기의 동작 방법.
  14. 제9항에 있어서,
    기능 수행에 관한 루틴 정보를 저장하는 단계; 및
    상기 수신된 의도 분석 결과 정보가 상기 저장된 루틴 정보 내 정의된 루틴들 중 적어도 하나와 관련성이 있는 경우, 상기 루틴 정보에 포함된 나머지 루틴을 자동으로 실행하는 단계를 더 포함하는,
    인공지능 기기의 동작 방법.
  15. 제9항에 있어서,
    적어도 하나의 추천 쿼리가 포함된 발화 에이전트를 제공하는 단계;를 더 포함하되,
    상기 적어도 하나의 추천 쿼리는, 상기 의도 분석 팩터들 중 적어도 하나에 기초하여 구성된 추천 키워드 기반으로 작성되는,
    인공지능 기기의 동작 방법.
PCT/KR2022/014593 2022-09-28 2022-09-28 인공지능 기기 및 그의 동작 방법 WO2024071469A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/014593 WO2024071469A1 (ko) 2022-09-28 2022-09-28 인공지능 기기 및 그의 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/014593 WO2024071469A1 (ko) 2022-09-28 2022-09-28 인공지능 기기 및 그의 동작 방법

Publications (1)

Publication Number Publication Date
WO2024071469A1 true WO2024071469A1 (ko) 2024-04-04

Family

ID=90478247

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/014593 WO2024071469A1 (ko) 2022-09-28 2022-09-28 인공지능 기기 및 그의 동작 방법

Country Status (1)

Country Link
WO (1) WO2024071469A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160142802A (ko) * 2011-09-30 2016-12-13 애플 인크. 가상 비서에서 커맨드 처리를 용이하게 하기 위한 컨텍스트 정보의 이용
KR20180068850A (ko) * 2016-12-14 2018-06-22 삼성전자주식회사 전자 장치, 그의 가이드 제공 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR20200013152A (ko) * 2018-07-18 2020-02-06 삼성전자주식회사 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
US20220111855A1 (en) * 2020-10-09 2022-04-14 Toyota Jidosha Kabushiki Kaisha Agent device, agent method and storage medium storing agent program
KR20220109238A (ko) * 2021-01-28 2022-08-04 삼성전자주식회사 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160142802A (ko) * 2011-09-30 2016-12-13 애플 인크. 가상 비서에서 커맨드 처리를 용이하게 하기 위한 컨텍스트 정보의 이용
KR20180068850A (ko) * 2016-12-14 2018-06-22 삼성전자주식회사 전자 장치, 그의 가이드 제공 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR20200013152A (ko) * 2018-07-18 2020-02-06 삼성전자주식회사 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
US20220111855A1 (en) * 2020-10-09 2022-04-14 Toyota Jidosha Kabushiki Kaisha Agent device, agent method and storage medium storing agent program
KR20220109238A (ko) * 2021-01-28 2022-08-04 삼성전자주식회사 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법

Similar Documents

Publication Publication Date Title
WO2021071115A1 (en) Electronic device for processing user utterance and method of operating same
WO2017160073A1 (en) Method and device for accelerated playback, transmission and storage of media files
WO2020246844A1 (en) Device control method, conflict processing method, corresponding apparatus and electronic device
WO2020222444A1 (en) Server for determining target device based on speech input of user and controlling target device, and operation method of the server
WO2020017849A1 (en) Electronic device and method for providing artificial intelligence services based on pre-gathered conversations
WO2018182202A1 (en) Electronic device and method of executing function of electronic device
WO2019182325A1 (ko) 전자 장치 및 전자 장치의 음성 인식 제어 방법
WO2020246634A1 (ko) 다른 기기의 동작을 제어할 수 있는 인공 지능 기기 및 그의 동작 방법
WO2018194268A9 (en) Electronic device and method for processing user speech
WO2016114428A1 (ko) 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
WO2019039834A1 (en) METHOD FOR PROCESSING VOICE DATA AND ELECTRONIC DEVICE SUPPORTING SAID METHOD
WO2019078588A1 (ko) 전자 장치 및 그의 동작 방법
WO2018135753A1 (ko) 전자 장치 및 그의 동작 방법
WO2017039142A1 (en) User terminal apparatus, system, and method for controlling the same
WO2013168860A1 (en) Method for displaying text associated with audio file and electronic device
WO2019078576A1 (ko) 음성 신호를 제어하기 위한 전자 장치 및 방법
WO2020218650A1 (ko) 전자기기
WO2020196955A1 (ko) 인공 지능 기기 및 인공 지능 기기의 동작 방법
WO2013176366A1 (en) Method and electronic device for easy search during voice record
WO2013176365A1 (en) Method and electronic device for easily searching for voice record
EP3603040A1 (en) Electronic device and method of executing function of electronic device
WO2020218635A1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
WO2020263016A1 (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
WO2018174445A1 (ko) 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치
WO2024071469A1 (ko) 인공지능 기기 및 그의 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22961072

Country of ref document: EP

Kind code of ref document: A1