WO2014115952A1 - 유머 발화를 이용하는 음성 대화 시스템 및 그 방법 - Google Patents

유머 발화를 이용하는 음성 대화 시스템 및 그 방법 Download PDF

Info

Publication number
WO2014115952A1
WO2014115952A1 PCT/KR2013/009229 KR2013009229W WO2014115952A1 WO 2014115952 A1 WO2014115952 A1 WO 2014115952A1 KR 2013009229 W KR2013009229 W KR 2013009229W WO 2014115952 A1 WO2014115952 A1 WO 2014115952A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
word
humorous
user
original
Prior art date
Application number
PCT/KR2013/009229
Other languages
English (en)
French (fr)
Inventor
이근배
이인재
이동현
김용희
류성한
한상도
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to US14/763,061 priority Critical patent/US20150371627A1/en
Publication of WO2014115952A1 publication Critical patent/WO2014115952A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Definitions

  • the present invention relates to a voice conversation system, and more particularly, to a voice conversation system and method for generating and using humorous speech.
  • a conversation system refers to a device that provides a user with necessary information through a conversation using voice or text, and its range of use is gradually extended to terminals, automobiles, robots, etc. with next-generation intelligent interfaces.
  • FIG. 1 is a block diagram illustrating the operation of a conventional voice conversation system.
  • the speech is transformed into a text form through the voice recognition unit 11 and the user intention is extracted through the natural language understanding unit 12.
  • the conversation manager 13 determines a system intention that is responsive to the user's intention extracted from the natural language understanding unit 12 by using the recording information, the conversation example information, and the content information of the conversation stored in the database 16.
  • the response generator 14 generates a system utterance based on the determined system intention, and converts the system utterance into an actual voice through the voice synthesizer 15 and provides the response to the user.
  • the conversation system may be divided into an object-oriented dialog system and a chat-oriented dialog system.
  • the purpose-oriented dialogue system is to give an appropriate response to a user query based on the knowledge information of a corresponding domain within a limited domain. For example, when a smart TV system asks a user to find information about a particular program, such as asking for a movie channel today, the MBC is broadcasting 'Muk Duk-ee'. To provide.
  • Chat-oriented conversation systems are domain-limited and are conversation systems that handle conversations for fun or for chat, which may not have a specific purpose for the conversation. For example, I really like playing basketball with friends.A question that doesn't belong to a domain, but that can occur in everyday life, the chat conversation system recognizes and recognizes the various kinds of speech that can occur in normal situations. You should be able to generate a response. Since the chat conversation system is intended to maintain a natural and interesting conversation without a specific purpose, it is necessary to train and operate the system by collecting corpuses which are used in universal situations and can be used in various situations.
  • the corpus collection in the voice conversation system is performed in units of domains, but since the domain for constructing the system is not limited in the chat conversation system, various kinds of corpus collection are required, and in general, applicable in any situation A collection of utterances is needed.
  • the chat conversation system can use an example-based chat management technique.
  • Such a system is a method of building a system based on a conversation example (user speech system speech pair), and finds a conversation pair most similar to the input user speech and provides it as a system speech. This method can generate natural system responses by training the system using real world examples.
  • An object of the present invention for solving the above problems is to provide a voice conversation system that maintains a natural and interesting conversation in response to user speech.
  • Another object of the present invention for solving the above problems is to provide a voice conversation method that maintains a natural and interesting conversation in response to user speech using a voice conversation system.
  • Voice dialogue system for achieving the above object, a speech analysis unit for receiving the user's speech and converting it into a text form and analyzing the user's intention, a key word included in the user's speech based on the user's intention or A humorous speech generation unit that generates a humorous speech using an abbreviation, a chat speech generation unit that generates a chat speech in response to a user's intention, and a final speech selection unit that selects a final speech from humorous speech and chat speech. .
  • the humorous speech generation unit by selecting a key word from the user utterance, performs a pronunciation string conversion for the key word in phonological units, and selects an example sentence from sentences containing words similar to the key word pronunciation column to pronounce the key word in the example sentence
  • a humorous speech can be generated by substituting a key word for a column-like word.
  • the humorous speech generation unit extracts words similar to the pronunciation string of the core word based on a phonological dictionary or a phonological similarity table, and calculates word similarity, and sorts words similar to the keyword pronunciation column based on the word similarity to be similar to the keyword pronunciation column. You can select example sentences from sentences containing words.
  • the phonological dictionary may be a unigram phoneme dictionary or a bigram phoneme dictionary.
  • the humorous speech generation unit extracts the abbreviation included in the user's speech, searches for an original word having the original meaning of the abbreviation, and uses humorous characters generated through other words that match the second word of the original word. Ignition may be generated.
  • the humorous speech generation unit by retrieving the original meaning of the abbreviation using the abbreviation dictionary or web information to restore the original sentence by selecting the original word corresponding to the abbreviation, by changing the original sentence using the two-character humor Ignition may be generated.
  • the humorous speech generation unit may include at least one humor generation module that generates humorous speech by different techniques.
  • the final speech selection unit may select the final speech from the humorous speech and the chat speech based on a similarity score for the humorous speech or a probability value indicating the naturalness of the sentence according to the humorous speech.
  • the voice conversation system may further include a system utterance providing unit configured to generate a system utterance which is a response to a user utterance using a final utterance, and convert the system utterance into a voice and provide the voice.
  • a system utterance providing unit configured to generate a system utterance which is a response to a user utterance using a final utterance, and convert the system utterance into a voice and provide the voice.
  • Voice communication method for achieving the above object, in the method to be processed in the voice conversation system, receiving the user's speech and changing the text to analyze the user intention, based on the user intention Generating a humorous speech using a key word or abbreviation included in the user speech, generating a chat speech in response to the user speech, and selecting a final speech from the humorous speech and the chatting speech.
  • the generating of the humorous speech may include selecting a key word from a user utterance to perform a pronunciation column transformation on the key word in phonological units, and generating a word similar to the pronunciation column of the key word based on a phonological dictionary or a phonological similarity table. Extracting the word similarity, arranging words similar to the keyword pronunciation column based on the word similarity, selecting a sample sentence from sentences including words similar to the keyword pronunciation column, and words similar to the keyword pronunciation column in the example sentence. Generating a humorous speech by substituting for a key word.
  • the generating of the humorous speech may include extracting an abbreviation included in the user speech, searching for an original meaning of the abbreviation using an abbreviation dictionary or web information, and selecting an original word corresponding to the abbreviation. Restoring the word, selecting another word that matches the second word of the original word, generating a double letter, and changing the original sentence using the double letter to generate a humorous speech.
  • the step of generating the two-character letter, extracting the core part from the original word through morphological analysis and syntax analysis of the original word, and other words that match the two words of the original word, leaving the core part It may include the step of changing the original word using.
  • Humorous speech generating apparatus for achieving the above object, in the apparatus for generating a humorous speech by receiving a user speech, by selecting a key word from the user speech, pronunciation heat conversion for the core word in phonological units And a first humor generation module configured to generate a humorous speech by selecting an example sentence from sentences including words similar to the keyword pronunciation column and replacing words similar to the keyword pronunciation column in the example sentence with the keyword. And a second humor generation module for extracting the abbreviation, searching for the original word having the original meaning of the abbreviation, and generating a humorous speech using the two-character generated through another word that matches the two words of the original word.
  • Voice conversation system and method using a humorous speech according to an embodiment of the present invention as described above, to provide a user with a humorous speech to reduce boredom and the user can have fun while using a chat conversation system.
  • various humorous speeches may be provided without providing only simple and repetitive speeches.
  • FIG. 1 is a block diagram illustrating the operation of a conventional voice conversation system.
  • FIG. 2 is a block diagram illustrating an operation of a voice conversation system using humorous speech according to an embodiment of the present invention.
  • FIG. 3 is a conceptual diagram illustrating a configuration of a humorous speech generation unit according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a voice conversation method according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating an operation of a humorous speech generation unit according to an embodiment of the present invention.
  • FIG. 6 is an exemplary diagram illustrating a phonological dictionary and a phonological similarity table utilized according to an embodiment of the present invention.
  • FIG. 7 is an exemplary view illustrating a method of calculating word similarity according to an embodiment of the present invention.
  • FIG. 8 is an exemplary diagram illustrating selection of an example sentence according to an embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating an operation of a humorous speech generation unit according to another embodiment of the present invention.
  • FIG. 10 is a flowchart illustrating an operation of a final speech selection unit according to an embodiment of the present invention.
  • first, second, A, and B may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component.
  • Humor refers to funny words or actions, and can mean elements that can make a conversation fun in a chat conversation system. Humor can logically tell a story or situation description that everyone can understand, and then suddenly draw an audience's laughter by saying something that everyone didn't expect about a particular phenomenon or object.
  • Humor can be divided into a set-up section and a punch-line section.
  • the preparatory part is a prerequisite of humor, which describes the prior knowledge to make people laugh through humor.
  • humor describes the prior knowledge to make people laugh through humor.
  • a decisive word is the most important part of humor and can mean a word that makes the audience laugh. This leads to laughter in the audience, clashing with existing expectations while performing words that are different or out of line with the expectations of the audience.
  • humorous speech may be referred to as humorous speech
  • chat speech a general response to user speech through the chat conversation system
  • humor depending on whether humor is included in the speech can be divided into humorous speech or chat speech.
  • the user utterance may mean an utterance that the user inputs into the chat conversation system by voice
  • the system utterance may mean an utterance provided by the chat conversation system in response to the user utterance.
  • FIG. 2 is a block diagram illustrating an operation of a voice conversation system using humorous speech according to an embodiment of the present invention.
  • the voice conversation system includes a speech analysis unit 110, a humorous speech generation unit 120, a chat speech generation unit 130, a final speech selection unit 140, and a system speech. It includes a providing unit 150.
  • the speech analysis unit 110 may receive a user speech and convert it into a text form to analyze the user intention.
  • the speech analysis unit 110 includes a speech recognition unit 111 and a natural language understanding unit 112.
  • the speech recognition unit 111 may convert the user speech input into the text into a text form
  • the natural language understanding unit 112 may analyze the user intention using the user speech converted into the text form.
  • the humorous speech generator 120 and the chat speech generator 130 may generate humorous speech and chat speech based on the analyzed user intention.
  • the humorous speech generation unit 120 may generate a humorous speech using a keyword or an abbreviation included in the user speech based on a user's intention.
  • the humorous speech generation unit 120 may generate humorous speech in various ways.
  • the humorous speech generation unit 120 may generate a humorous speech by finding a word having a similar pronunciation and replacing it with the core word based on the pronunciation similarity of the core word included in the user speech.
  • a method of generating humorous speech in this manner may be referred to as a pun punctuation method.
  • the humorous speech generation unit 120 selects a key word from the user's utterance, performs pronunciation column conversion on the key word in phonological units, selects an example sentence from sentences including words similar to the key word pronunciation column, and selects a key word pronunciation column from the example sentence.
  • Humorous speech can be generated by replacing similar words with key words.
  • the humorous speech generation unit 120 extracts words similar to the pronunciation string of the core word based on a phonological dictionary or a phonological similarity table, and calculates word similarity, and sorts words similar to the keyword pronunciation column based on the word similarity, Example sentences can be selected from sentences containing similar words.
  • the phonological dictionary may mean a uni-gram phonological dictionary or a bi-gram phonological dictionary.
  • the humorous speech generation unit 120 restores the abbreviation included in the user's speech to the original word having the original meaning, and generates a humorous speech using the two-characters generated through other words that match the two words of the original word. can do.
  • a method of generating a humorous speech in this manner may be referred to as a 'abbreviation-based two-letter character generating method'.
  • the humorous speech generation unit 120 extracts the abbreviation included in the user's speech, retrieves the original word having the original meaning of the abbreviation, and uses the two-characters generated through other words that match the two words of the original word. Can be generated.
  • the humorous speech generation unit 120 retrieves the original meaning of the abbreviation by using the abbreviation dictionary or web information, selects the original word corresponding to the abbreviation, restores the original sentence, and changes the original sentence by using the acronyms. Can produce humorous speech.
  • the final speech selection unit 140 may select the final speech from the humorous speech and the chat speech.
  • the final speech selection unit 140 may select the final speech from the humorous speech and the chat speech based on a similarity score for the humorous speech or a probability value indicating the naturalness of the sentence according to the humorous speech.
  • the system utterance provider 150 may generate a system utterance which is a response to the user utterance by using the final utterance, and convert the system utterance into a voice and provide the voice.
  • the system speech providing unit 150 includes a response generator 151 and a voice synthesizer 152.
  • the response generator 151 may generate a system speech that is a response to the user speech using the selected final speech.
  • the speech synthesizer 152 may convert the system speech into actual speech and express the speech.
  • FIG. 3 is a conceptual diagram illustrating a configuration of the humorous speech generation unit 120 according to an embodiment of the present invention.
  • the humorous speech generation unit 120 may utilize at least one humor generation module. That is, the humorous speech generation unit 120 may utilize the first humor generation module 121, the second humor generation module 122, and the third humor generation module 123.
  • the humor generation module may generate humorous speech by different techniques.
  • the humorous speech generation unit 120 may add or delete a method of generating humorous speech by adding or deleting a new humor generation module. That is, addition or deletion to each humor generation module does not affect other humor generation modules. Accordingly, the humorous speech generation unit 120 may have expandability in generating humorous speech.
  • the humorous speech generation unit 120 may be constructed through a distributed structure of each humor generation module.
  • the first humor generation module 121 may generate humorous speech according to the 'pun punctuation method generation method'
  • the second humor generation module 122 may generate humorous speech according to the 'abbreviation-based abbreviation character generation method'. Can be generated.
  • a humorous speech generation apparatus that receives a user speech and generates a humorous speech, selects a keyword from the user speech, performs a pronunciation column transformation on the keyword in phonological units, and is similar to the keyword pronunciation string.
  • the first humor generation module 121 may generate a humorous speech by selecting an example sentence from sentences including a word and replacing a word similar to a key word pronunciation string in the example sentence with a key word.
  • the humorous speech generating apparatus extracts the abbreviation included in the user's speech, retrieves the original word having the original meaning of the abbreviation, and uses the two-character generated through the other words that match the two words of the original word. It may include a second humor generation module 122 for generating a.
  • Each component of the voice conversation system or the humorous speech apparatus according to the embodiment of the present invention has been described as a component for convenience of description, but at least two of the components are combined to form one component, or one component includes a plurality of components. Functions can be divided into four components and the integrated and separated embodiments of each of the components are included in the scope of the present invention without departing from the spirit of the present invention.
  • the operation of the voice conversation system or the humor generating device can be implemented as a computer-readable program or code on a computer-readable recording medium.
  • Computer-readable recording media include all kinds of recording devices that store data that can be read by a computer system.
  • the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable program or code is stored and executed in a distributed fashion.
  • FIG. 4 is a flowchart illustrating a voice conversation method according to an embodiment of the present invention.
  • the voice conversation method according to FIG. 4 includes analyzing a user intention (S410), generating a humorous speech (S420), generating a chat speech (S430), and selecting a final speech (S440). do.
  • the user's intention may be analyzed by converting the user's speech into text (S410).
  • a humorous speech may be generated using a key word or an abbreviation included in the user speech (S420).
  • a humorous speech may be generated by using the above-described punctuation sentence generation method or abbreviation-based abbreviation generation method.
  • the chat utterance may be generated in response to the user utterance (S430).
  • the chat utterance may generate the chat utterance in response to the user utterance based on the analysis of the user intention using the user utterance.
  • the chat utterance may be generated through a method used in a conventional conversation system, and the generating method is not particularly limited.
  • the final speech may be selected from the humorous speech and the chat speech (S440). That is, one of the humorous speech and the chat speech may be selected as the final speech.
  • the criterion for selecting the final utterance may be variously set, and in particular, the final utterance may be selected based on the similarity to the humorous utterance or the naturalness of the sentence.
  • FIG. 5 is a flowchart illustrating an operation of the humorous speech generation unit 120 according to an embodiment of the present invention
  • Figure 6 is an exemplary diagram showing a phonetic dictionary and a phonetic similarity table utilized in accordance with an embodiment of the present invention to be.
  • the punctuation sentence generation method performed by the humorous speech generation unit 120 will be described.
  • the keyword is selected from the user speech based on the user's intention (S510).
  • the pronunciation string conversion may be performed on a key word selected in the user speech in units of phonemes (S520). For example, if the word 'soccer' is selected as a key word, it may be converted into a pronunciation string of 'CH UW KQ KK UW'.
  • a word similarity may be calculated by extracting a word similar to a pronunciation string of the key word based on a phonological dictionary or a phonological similarity table (S530). That is, words similar to the pronunciation string of the core word can be found.
  • FIG. 6A is an exemplary diagram of a unigram phonological dictionary
  • FIG. 6B is a phonological dictionary of a bigram phonological dictionary.
  • the unigram phonological dictionary may be expressed in a form that depends only on the probability value of the current word regardless of the word that appeared in the past, and the grammatical phonological dictionary depends on the immediately previous past.
  • the Levenshtein distance method and the Korean phonological similarity table can be used to measure word similarity.
  • the Korean Phonological Similarity Table classifies Korean pronunciations into 50 categories and records the similarities between pronunciations.
  • 6C is an illustration of a phonological similarity table.
  • the corresponding pronunciation similarity may mean that the lower the value is the similar pronunciation.
  • FIG. 7 is an exemplary view illustrating a method of calculating word similarity according to an embodiment of the present invention.
  • FIG. 7A shows the similarity between the pronunciation strings of 'dead' and 'soccer'
  • FIG. 7B shows the similarity score for the similarity of the pronunciation string.
  • the similarity between pronunciation strings may be measured using the Levenstein distance and the Korean phonological similarity table.
  • the distance is calculated using a value expressed as (1-1 / similarity), so that the higher the similarity (the more the pronunciation is), the lower the substitution value is. Can have.
  • words similar to the keyword pronunciation column may be sorted, and an example sentence may be selected from sentences including words similar to the keyword pronunciation column (S540).
  • sentences containing words similar to the keyword pronunciation column may be sorted in ascending order based on the similarity score. That is, the word ranked above may be most similar to the key word given in pronunciation.
  • An example sentence may be selected that includes words whose calculated word similarity between key words, unigrams, and bigram phonetic dictionaries is less than or equal to a preset threshold.
  • FIG. 8 is an exemplary diagram illustrating selection of an example sentence according to an embodiment of the present invention.
  • the word similar to the key word pronunciation column may be replaced with the key word to generate a humorous speech (S550).
  • a humorous expression of 'I want to play soccer' may be generated by replacing the keyword 'soccer' with the comparison word 'dead'.
  • FIG. 9 is a flowchart illustrating an operation of the humorous speech generation unit 120 according to another embodiment of the present invention.
  • the abbreviation-based acronym generation method performed by the humorous speech generation unit 120 will be described.
  • an abbreviation word included in a user speech may be extracted (S910).
  • the abbreviation refers to a language used by shortly compressing and expressing the word when the word used is too long.
  • an abbreviation may be referred to as 'infinite challenge' as 'martial art' and 'bibimbnaengmyeon' as 'non-cold'.
  • the original sentence may be restored by searching for the original meaning of the abbreviation using the abbreviation dictionary or web information (S920).
  • Find words that have the original meaning of the abbreviation That is, the word having the original meaning of the abbreviation may be searched using the abbreviation dictionary and the web information. For example, if the word 'non-cold' comes in, it can be restored to its original meaning of 'bibim cold noodle'.
  • another word that matches the second word of the original word may be selected to generate a double letter.
  • the duo character can be generated using the 'random generation' or 'dictionary generation' method.
  • the second character may be generated by searching for other words that match the second word and randomly selecting and replacing a word to be replaced.
  • the dictionary-based generation method may determine a portion of the words constituting the original sentence to be changed or not to change through morphological analysis and parsing, and convert the words using dictionary information or Wordnet information.
  • the core part of the original word can be extracted, and the original word can be changed by using other words that match the two words of the original word, leaving the core part.
  • the dictionary-based generation method can generate modified words based on dictionaries and Wordnet. Based on the results of stemming and parsing, you can decide what should and should not change.
  • the word 'bibim cold noodles' Given the word 'bibim cold noodles', the word 'naengmyeon' is not changed, and 'bibim' is a word that should be changed. You can find words. In other words, the word 'Birin Cold Noodles', which includes 'Birin' and the essential part 'Cold Noodles', may be generated as a double letter.
  • a humorous speech can be generated by changing the original sentence using the two-character character (S940).
  • FIG. 10 is a flowchart illustrating an operation of the final speech selection unit 140 according to an embodiment of the present invention.
  • a final speech may be selected from humorous speech and chat speech.
  • the final speech can be selected according to the strategy of generating humor in the conversation system.
  • the final speech may be selected by a random selection method and a score based selection method.
  • one speech is randomly selected among M humorous speeches and N chat speeches and may be selected as a system speech.
  • the score-based selection method may calculate a score for the final speech using the similarity score and the humorous speech language model score calculated when generating the humorous speech, and select the final speech based on the final score.
  • the final speech may be selected from the humorous speech and the chat speech based on the similarity score for the humorous speech or the probability value indicating the naturalness of the sentence according to the humorous speech.
  • the score-based selection method may select one of the humorous speeches as the final speech when the chat speech does not exist or the application score for the chat speech is less than or equal to a predetermined threshold (S1010).
  • the final speech may be selected based on a similarity score calculated for each humorous speech generation method and a humor LM score indicating how natural the generated sentences are.
  • the score for the final utterance selection is calculated using Equation 1 below.
  • a humorous speech may be generated based on a given sentence or key word.
  • the similarity score may be set to a value between 0 and 1 through normalization since the score measurement method may vary according to the method of generating humor.
  • Probability values can be obtained through a humorous language model of the generated humorous speeches.
  • the humor language model score is a measure of how natural the generated humor is in real terms and may be expressed as a probability value between 0 and 1. Where and are coefficients for normalization.
  • Humor-related data may include humorous speech produced during training, humorous speech collected, and slang dictionary.
  • the final speech may be used to generate a system speech, which is a response to the user speech, and convert the system speech into a voice to provide the user.
  • the voice conversation system and method using the humorous speech according to the embodiment of the present invention provide the user with humorous speech so as to reduce boredom and allow the user to have fun while using the chat conversation system.
  • the present invention provides a structure in which a method of generating humorous speech can be added or deleted in a scalable manner.
  • various humorous speeches may be provided without providing only simple and repetitive speeches.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

유머 발화를 생성하여 이용하는 음성 대화 시스템 및 방법이 개시된다. 음성 대화 시스템은 사용자 발화를 입력받아 문자 형태로 변환하여 사용자 의도를 분석하는 발화 분석부와, 사용자 의도에 기반하여 사용자 발화에 포함된 핵심어 또는 축약어를 이용하여 유머 발화를 생성하는 유머 발화 생성부와, 사용자 의도에 상응하는 응답으로 채팅 발화를 생성하는 채팅 발화 생성부와, 유머 발화와 채팅 발화로부터 최종 발화를 선택하는 최종 발화 선택부를 포함한다. 따라서, 사용자에게 유머 발화를 제공함으로써 지루함을 덜고 사용자가 채팅 대화 시스템을 사용하면서 재미를 느낄 수 있도록 한다.

Description

유머 발화를 이용하는 음성 대화 시스템 및 그 방법
본 발명은 음성 대화 시스템에 관한 것으로, 더욱 상세하게는 유머 발화를 생성하여 이용하는 음성 대화 시스템 및 방법에 관한 것이다.
대화 시스템은 음성 또는 문자를 이용하여 사용자에게 대화를 통해 필요한 정보를 제공 장치를 말하며, 차세대 지능형 인터페이스로 단말기, 자동차, 로봇 등으로 그 이용 범위가 점차 확장되어 가고 있다.
도 1은 종래의 음성 대화 시스템의 동작을 설명하기 위한 블록도이다. 일반적으로 기존의 대화 시스템에서는 사용자 발화가 입력되면, 음성 인식부(11)를 거쳐 문자 형태로 변형되고, 자연어 이해부(12)를 거쳐 사용자 의도가 추출된다. 대화 관리부(13)는 데이터베이스(16)에 저장된 대화의 기록정보, 대화 예제정보 및 컨텐츠 정보를 활용하여 자연어 이해부(12)에서 추출된 사용자 의도에 상응하여 응답 가능한 시스템 의도를 결정한다. 응답 생성부(14)는 결정된 시스템 의도를 바탕으로 시스템 발화를 생성하며, 음성 합성부(15)를 통해 시스템 발화를 실제 음성으로 변환하여 사용자에게 응답으로 제공한다.
대화 시스템은 목적 지향 대화 시스템과 채팅 지향 대화 시스템으로 구분될 수 있다.
목적 지향 대화 시스템(목적 대화 시스템)은 한정된 도메인 내에서 해당 영역의 지식 정보를 바탕으로 사용자 질의에 대해 적절한 응답을 내어주는 것이다. 예를 들어, 스마트 TV 시스템에서 사용자가 오늘 영화 채널 알려줘라는 질문처럼 특정 프로그램의 정보를 찾는 질의를 했을 때, MBC에서 '만득이'가 방영 중 입니다.와 같이 사용자의 의도를 이해하고 그에 대응하는 응답을 제공하는 것이다.
채팅 지향 대화 시스템(채팅 대화 시스템)은 도메인의 제한이 없으며 재미 혹은 채팅을 위한 대화를 처리하는 대화 시스템으로서 대화에 특정 목적이 없을 수 있다. 예를 들어 나는 친구들과 농구하는 것이 정말 좋아.와 같은 질문은 특정 도메인에 귀속되지 않지만 일상 생활에서 발생할 수 있는 발화로서, 채팅 대화 시스템은 일반적인 상황에서 발생할 수 있는 다양한 종류의 발화를 인지하고 그에 대한 응답을 생성할 수 있어야 한다. 채팅 대화 시스템은 특정한 목적 없이 자연스럽고 재미있는 대화를 유지하는 것이 목적이기 때문에, 이를 구축하기 위해서는 보편적인 상황에서 사용되고, 다양한 상황에서 사용될 수 있는 말뭉치들을 수집하여 시스템을 훈련하고 동작시키는 것이 필요하다.
즉, 일반적으로 음성 대화 시스템에서의 말뭉치 수집은 도메인 단위로 이루어지나, 채팅 대화 시스템에서는 시스템을 구축하기 위한 도메인이 한정되어 있지 않기 때문에, 다양한 종류의 말뭉치 수집이 필요하며, 어떤 상황에서나 적용 가능한 일반적인 발화들에 대한 수집이 필요하다.
채팅 대화 시스템은 예제 기반 대화 관리 기법을 이용할 수 있다. 이러한 시스템은 대화 예제(사용자 발화 시스템 발화 쌍)를 바탕으로 시스템을 구축하는 방법으로, 입력된 사용자 발화와 가장 비슷한 대화 쌍을 찾아 그것을 시스템 발화로 제공하는 방법이다. 이 방법은 실제 예제를 이용하여 시스템을 훈련함으로써 자연스러운 시스템 응답을 생성할 수 있다.
하지만, 채팅 대화 시스템에서는 발생할 수 있는 상황 및 대화 흐름이 다양하기 때문에 모든 다양한 흐름을 고려할 수 있는 훈련 데이터를 획득하기 어렵다. 또한, 사용자 발화에 상응하는 적절한 예제를 훈련 데이터를 통하여 얻을 수 없는 경우 자연스러운 대화를 유지하기 어려울 수 있고, 대화가 지루해질 수 있는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 사용자 발화에 대한 응답으로 자연스럽고 재미있는 대화를 유지하는 음성 대화 시스템을 제공하는데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 음성 대화 시스템을 이용하여 사용자 발화에 대한 응답으로 자연스럽고 재미있는 대화를 유지하는 음성 대화 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 음성 대화 시스템은, 사용자 발화를 입력받아 문자 형태로 변환하여 사용자 의도를 분석하는 발화 분석부와, 사용자 의도에 기반하여 사용자 발화에 포함된 핵심어 또는 축약어를 이용하여 유머 발화를 생성하는 유머 발화 생성부와, 사용자 의도에 상응하는 응답으로 채팅 발화를 생성하는 채팅 발화 생성부와, 유머 발화와 채팅 발화로부터 최종 발화를 선택하는 최종 발화 선택부를 포함한다.
여기에서, 상기 유머 발화 생성부는, 사용자 발화에서 핵심어를 선택하여 음운 단위로 핵심어에 대해 발음 열 변환을 수행하고, 핵심어 발음 열과 유사한 단어를 포함하는 문장들로부터 예제 문장을 선택하여 예제 문장에서 핵심어 발음 열과 유사한 단어를 핵심어로 대체하여 유머 발화를 생성할 수 있다.
여기에서, 상기 유머 발화 생성부는, 음운 사전 또는 음운 유사도 표를 기반하여 핵심어의 발음 열과 유사한 단어를 추출하여 단어 유사도를 산출하고, 단어 유사도를 기준으로 핵심어 발음 열과 유사한 단어를 정렬하여 핵심어 발음 열과 유사한 단어를 포함하는 문장으로부터 예제 문장을 선택할 수 있다.
여기에서, 상기 음운 사전은, 유니그램 음운 사전 또는 바이그램 음운 사전일 수 있다.
여기에서, 상기 유머 발화 생성부는, 사용자 발화에 포함된 축약어를 추출하고, 축약어의 원래 의미를 가진 원본 단어를 검색하고, 원본 단어의 두음과 일치하는 다른 단어를 통하여 생성된 두음 문자를 이용하여 유머 발화를 생성할 수 있다.
여기에서, 상기 유머 발화 생성부는, 축약어 사전 또는 웹 정보를 이용하여 축약어의 원래 의미를 검색하여 축약어에 상응하는 원본 단어를 선택함으로써 원본 문장을 복원하고, 두음 문자를 이용하여 원본 문장을 변경하여 유머 발화를 생성할 수 있다.
여기에서, 상기 유머 발화 생성부는, 서로 다른 기법에 의해 유머 발화를 생성하는 적어도 하나의 유머 생성 모듈을 포함할 수 있다.
여기에서, 상기 최종 발화 선택부는, 유머 발화에 대한 유사도 점수 또는 유머 발화에 따른 문장의 자연스러움을 나타내는 확률값에 기반하여 유머 발화 및 채팅 발화로부터 최종 발화를 선택할 수 있다.
여기에서, 상기 음성 대화 시스템은, 최종 발화를 이용하여 사용자 발화에 대한 응답인 시스템 발화를 생성하고, 시스템 발화를 음성으로 변환하여 제공하는 시스템 발화 제공부를 더 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 측면에 따른 음성 대화 방법은, 음성 대화 시스템에서 처리되는 방법에 있어서, 사용자 발화를 입력받아 문자로 변화하여 사용자 의도를 분석하는 단계와, 사용자 의도에 기반하여 사용자 발화에 포함된 핵심어 또는 축약어를 이용하여 유머 발화를 생성하는 단계와, 사용자 발화에 상응하는 응답으로 채팅 발화를 생성하는 단계와, 유머 발화와 채팅 발화로부터 최종 발화를 선택하는 단계를 포함한다.
여기에서, 상기 유머 발화를 생성하는 단계는, 사용자 발화에서 핵심어를 선택하여 음운 단위로 핵심어에 대해 발음 열 변환을 수행하는 단계와, 음운 사전 또는 음운 유사도 표에 기반하여 핵심어의 발음 열과 유사한 단어를 추출하여 단어 유사도를 산출하는 단계와, 단어 유사도를 기준으로 핵심어 발음 열과 유사한 단어를 정렬하고 핵심어 발음 열과 유사한 단어를 포함하는 문장들로부터 예제 문장을 선택하는 단계와, 예제 문장에서 핵심어 발음 열과 유사한 단어를 핵심어로 대체하여 유머 발화를 생성하는 단계를 포함한다.
여기에서, 상기 유머 발화를 생성하는 단계는, 사용자 발화에 포함된 축약어를 추출하는 단계와, 축약어 사전 또는 웹 정보를 이용하여 축약어의 원래 의미를 검색하여 축약어에 상응하는 원본 단어를 선택하여 원본 문장을 복원하는 단계와, 원본 단어의 두음과 일치하는 다른 단어를 선택하여 두음 문자를 생성하는 단계와, 두음 문자를 이용하여 원본 문장을 변경하여 유머 발화를 생성하는 단계를 포함할 수 있다.
여기에서, 상기 두음 문자를 생성하는 단계는, 원본 단어에 대한 형태소 분석 및 구문 분석을 통하여 원본 단어에서 핵심적인 부분을 추출하는 단계와, 핵심적인 부분을 남겨두고 원본 단어의 두음과 일치하는 다른 단어를 이용하여 원본 단어를 변경하는 단계를 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 또 다른 측면에 따른 유머 발화 생성 장치는, 사용자 발화를 입력받아 유머 발화를 생성하는 장치에 있어서, 사용자 발화에서 핵심어를 선택하여 음운 단위로 핵심어에 대해 발음 열 변환을 수행하고, 핵심어 발음 열과 유사한 단어를 포함하는 문장들로부터 예제 문장을 선택하여 예제 문장에서 핵심어 발음 열과 유사한 단어를 핵심어로 대체하여 유머 발화를 생성하는 제 1 유머 생성 모듈과, 사용자 발화에 포함된 축약어를 추출하고, 축약어의 원래 의미를 가진 원본 단어를 검색하고, 원본 단어의 두음과 일치하는 다른 단어를 통하여 생성된 두음 문자를 이용하여 유머 발화를 생성하는 제 2 유머 생성 모듈을 포함한다.
상기와 같은 본 발명의 실시예에 따른 유머 발화를 이용하는 음성 대화 시스템 및 방법은, 사용자에게 유머 발화를 제공함으로써 지루함을 덜고 사용자가 채팅 대화 시스템을 사용하면서 재미를 느낄 수 있도록 한다.
또한, 다양한 유머 발화 중에서 최종 발화를 선택하여 제공함으로써 단순하고 반복적인 발화만을 제공하지 않고 다양한 유머 발화를 제공할 수 있다.
도 1은 종래의 음성 대화 시스템의 동작을 설명하기 위한 블록도이다.
도 2는 본 발명의 실시예에 따른 유머 발화를 이용한 음성 대화 시스템의 동작을 설명하기 위한 블록도이다.
도 3은 본 발명의 실시예에 따른 유머 발화 생성부의 구성을 설명하는 개념도이다.
도 4는 본 발명의 실시예에 따른 음성 대화 방법을 설명하는 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 유머 발화 생성부의 동작을 설명하기 위한 흐름도이다.
도 6은 본 발명의 일 실시예에 따라 활용되는 음운 사전 및 음운 유사도 표를 나타내는 예시도이다.
도 7은 본 발명의 일 실시예에 따라 단어 유사도를 산출하는 방법을 설명하는 예시도이다.
도 8은 본 발명의 일 실시예 따른 예제 문장의 선택을 설명하는 예시도이다.
도 9는 본 발명의 다른 실시예에 따른 유머 발화 생성부의 동작을 설명하기 위한 흐름도이다.
도 10은 본 발명의 실시예에 따른 최종 발화 선택부의 동작을 설명하기 위한 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명의 실시예를 명확히 설명하기 위하여 용어를 정의한다.
유머란 남을 웃기는 말이나 행동을 의미하는 것으로, 채팅 대화 시스템에서 대화를 재미있게 진행시킬 수 있는 요소를 의미할 수 있다. 유머는 청중이 알만한 이야기나 상황 설명을 누구나 공감 가능하도록 논리적으로 이야기를 진행하다가 갑자기 특정 현상 및 물건에 대해 모두가 기대하지 못했던 한마디를 통해 청중의 웃음을 이끌어 낼 수 있다.
유머는 준비작업(set-up) 부분과 결정적 한마디(punch-line) 부분으로 구분할 수 있다. 준비작업 부분은 유머의 전제조건 부분으로 사람들을 유머를 통해 웃게 만들기 위한 사전 지식들을 설명하는 것 의미한다. 즉, 해당 상황에 대한 설명을 논리적으로 청중들이 공감할 수 있게 설명함으로써 청중들에게 상황에 대한 공감을 이끌어낼 수 있고, 대화의 흐름 및 대화 속에 등장하는 것들에 대하여 향후에 어떤 일이 벌어질지에 대한 기대치를 생성할 수 있다. 결정적 한마디 부분은 유머에서 가장 중요한 부분으로서 청중들을 웃게 만드는 한마디를 의미할 수 있다. 이는 준비작업 부분을 통해 생긴 청중의 기대치와 다른 혹은 엉뚱한 말을 수행하면서 기존의 기대치와 충돌을 일으키며 청중에게 웃음을 야기시킨다.
본 출원에서 있어서, 유머가 포함된 발화를 유머 발화라고 지칭할 수 있고, 채팅 대화 시스템을 통하여 사용자 발화에 대한 일반적인 응답을 채팅 발화라고 지칭할 수 있다. 따라서, 발화에 유머가 포함되었는지에 따라 유머 발화 또는 채팅 발화로 구분할 수 있다.
또한, 사용자 발화는 사용자가 채팅 대화 시스템에 음성으로 입력하는 발화를 의미하고, 시스템 발화는 사용자 발화에 대한 응답으로 채팅 대화 시스템이 제공하는 발화를 의미할 수 있다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 2는 본 발명의 실시예에 따른 유머 발화를 이용한 음성 대화 시스템의 동작을 설명하기 위한 블록도이다.
도 2를 참조하면, 본 발명의 실시예에 따른 음성 대화 시스템은 발화 분석부(110), 유머 발화 생성부(120), 채팅 발화 생성부(130), 최종 발화 선택부(140) 및 시스템 발화 제공부(150)를 포함한다.
발화 분석부(110)는 사용자 발화를 입력받아 문자 형태로 변환하여 사용자 의도를 분석할 수 있다.
상세하게는, 발화 분석부(110)는 음성 인식부(111)와 자연어 이해부(112)를 포함한다. 음성 인식부(111)는 음성으로 입력되는 사용자 발화를 문자 형태로 변환할 수 있고, 자연어 이해부(112)는 문자 형태로 변환된 사용자 발화를 이용하여 사용자 의도를 분석할 수 있다.
유머 발화 생성부(120)와 채팅 발화 생성부(130)는 분석된 사용자 의도에 기반하여 유머 발화와 채팅 발화를 각각 생성할 수 있다.
유머 발화 생성부(120)는 사용자 의도에 기반하여 사용자 발화에 포함된 핵심어 또는 축약어를 이용하여 유머 발화를 생성할 수 있다.
유머 발화 생성부(120)는 다양한 방법으로 유머 발화를 생성할 수 있다.
먼저, 유머 발화 생성부(120)는 사용자 발화에 포함된 핵심어의 발음 유사도에 기반하여 발음이 유사한 단어를 찾아내어 핵심어와 교체함으로써 유머 발화를 생성할 수 있다. 예컨대, 이러한 방식의 유머 발화 생성 방법을 '말장난 문장 생성 방법'이라 할 수 있다.
'말장난 문장 생성 방법'에 따른 유머 발화의 생성을 설명한다.
유머 발화 생성부(120)는 사용자 발화에서 핵심어를 선택하여 음운 단위로 핵심어에 대해 발음 열 변환을 수행하고, 핵심어 발음 열과 유사한 단어를 포함하는 문장들로부터 예제 문장을 선택하여 예제 문장에서 핵심어 발음 열과 유사한 단어를 핵심어로 대체하여 유머 발화를 생성할 수 있다.
즉, 유머 발화 생성부(120)는 음운 사전 또는 음운 유사도 표를 기반하여 핵심어의 발음 열과 유사한 단어를 추출하여 단어 유사도를 산출하고, 단어 유사도를 기준으로 핵심어 발음 열과 유사한 단어를 정렬하여 핵심어 발음 열과 유사한 단어를 포함하는 문장으로부터 예제 문장을 선택할 수 있다. 여기에서, 음운 사전은 유니그램(uni-gram) 음운 사전 또는 바이그램(bi-gram) 음운 사전을 의미할 수 있다.
다음으로, 유머 발화 생성부(120)는 사용자 발화에 포함된 축약어를 원래 의미를 가지는 원본 단어로 복원하고, 원본 단어의 두음과 일치하는 다른 단어를 통하여 생성된 두음 문자를 이용하여 유머 발화를 생성할 수 있다. 예컨대, 이러한 방식의 유머 발화 생성 방법을 '축약어 기반 두음 문자 생성 방법'이라 할 수 있다.
'축약어 기반 두음 문자 생성 방법'에 따른 유머 발화의 생성을 설명한다.
유머 발화 생성부(120)는 사용자 발화에 포함된 축약어를 추출하고, 축약어의 원래 의미를 가진 원본 단어를 검색하고, 원본 단어의 두음과 일치하는 다른 단어를 통하여 생성된 두음 문자를 이용하여 유머 발화를 생성할 수 있다.
한편, 유머 발화 생성부(120)는 축약어 사전 또는 웹 정보를 이용하여 축약어의 원래 의미를 검색하여 축약어에 상응하는 원본 단어를 선택함으로써 원본 문장을 복원하고, 두음 문자를 이용하여 원본 문장을 변경하여 유머 발화를 생성할 수 있다.
최종 발화 선택부(140)는 유머 발화와 채팅 발화로부터 최종 발화를 선택할 수 있다. 최종 발화 선택부(140)는 유머 발화에 대한 유사도 점수 또는 유머 발화에 따른 문장의 자연스러움을 나타내는 확률값에 기반하여 유머 발화 및 채팅 발화로부터 최종 발화를 선택할 수 있다.
시스템 발화 제공부(150)는 최종 발화를 이용하여 사용자 발화에 대한 응답인 시스템 발화를 생성하고, 시스템 발화를 음성으로 변환하여 제공할 수 있다. 시스템 발화 제공부(150)는 응답 생성부(151)와 음성 합성부(152)를 포함한다. 응답 생성부(151)는 선택된 최종 발화를 이용하여 사용자 발화에 대한 응답인 시스템 발화를 생성할 수 있다. 또한, 음성 합성부(152)는 시스템 발화를 실제 음성으로 변환하여 표현할 수 있다.
도 3은 본 발명의 실시예에 따른 유머 발화 생성부(120)의 구성을 설명하는 개념도이다.
도 3을 참조하면, 유머 발화 생성부(120)는 적어도 하나의 유머 생성 모듈을 활용할 수 있다. 즉, 유머 발화 생성부(120)는 제 1 유머 생성 모듈(121), 제 2 유머 생성 모듈(122) 및 제 3 유머 생성 모듈(123)을 활용할 수 있다. 유머 생성 모듈은 서로 다른 기법에 의해 유머 발화를 생성할 수 있다.
유머 발화 생성부(120)는 새로운 유머 생성 모듈을 추가 또는 삭제함으로써 유머 발화를 생성하는 방법을 추가 또는 삭제할 수 있다. 즉, 각각의 유머 생성 모듈에 대한 추가 또는 삭제는 다른 유머 생성 모듈에 영향을 미치지 않는다. 이를 통하여 유머 발화 생성부(120)는 유머 발화의 생성에 있어서 확장성을 가질 수 있다.
따라서, 유머 발화 생성부(120)는 각각의 유머 생성 모듈의 분산 구조를 통하여 구축될 수 있다.
예를 들어, 제 1 유머 생성 모듈(121)은 '말장난 문장 생성 방법'에 따라 유머 발화를 생성할 수 있고, 제 2 유머 생성 모듈(122)은 '축약어 기반 두음 문자 생성 방법'에 따라 유머 발화를 생성할 수 있다.
따라서, 본 발명의 실시예에 따르면, 사용자 발화를 입력받아 유머 발화를 생성하는 유머 발화 생성 장치는, 사용자 발화에서 핵심어를 선택하여 음운 단위로 핵심어에 대해 발음 열 변환을 수행하고, 핵심어 발음 열과 유사한 단어를 포함하는 문장들로부터 예제 문장을 선택하여 예제 문장에서 핵심어 발음 열과 유사한 단어를 핵심어로 대체하여 유머 발화를 생성하는 제 1 유머 생성 모듈(121)을 포함할 수 있다.
또한, 유머 발화 생성 장치는, 사용자 발화에 포함된 축약어를 추출하고, 축약어의 원래 의미를 가진 원본 단어를 검색하고, 원본 단어의 두음과 일치하는 다른 단어를 통하여 생성된 두음 문자를 이용하여 유머 발화를 생성하는 제 2 유머 생성 모듈(122)을 포함할 수 있다.
본 발명의 실시예에 따른 음성 대화 시스템 또는 유머 발화 장치의 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 설명하였으나, 각 구성부 중 적어도 두 개가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합 및 분리된 실시예의 경우도 본 발명의 본질에서 벋어나지 않는 한 본 발명의 권리범위에 포함된다.
또한, 본 발명의 실시예에 따른 음성 대화 시스템 또는 유머 생성 장치의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.
도 4는 본 발명의 실시예에 따른 음성 대화 방법을 설명하는 흐름도이다.
도 4에 따른 음성 대화 방법은, 사용자 의도를 분석하는 단계(S410), 유머 발화를 생성하는 단계(S420), 채팅 발화를 생성하는 단계(S430) 및 최종 발화를 선택하는 단계(S440)를 포함한다.
사용자 발화를 입력받아 문자로 변환하여 사용자 의도를 분석할 수 있다(S410).
사용자 의도에 기반하여 사용자 발화에 포함된 핵심어 또는 축약어를 이용하여 유머 발화를 생성할 수 있다(S420).
예를 들어, 상술한 '말장난 문장 생성 방법' 또는 '축약어 기반 두음 문자 생성 방법'을 이용하여 유머 발화를 생성할 수 있다.
사용자 발화에 상응하는 응답으로 채팅 발화를 생성할 수 있다(S430). 채팅 발화는 사용자 발화를 이용한 사용자 의도에 대한 분석에 기반하여 사용자 발화에 대한 응답으로 채팅 발화를 생성할 수 있다. 예컨대, 채팅 발화는 종래의 대화 시스템에서 사용하는 방식을 통하여 생성될 수 있으며, 그 생성 방법에 대해서는 특별히 제한하지 않는다.
유머 발화와 채팅 발화로부터 최종 발화를 선택할 수 있다(S440). 즉, 유머 발화와 채팅 발화 중에서 하나를 최종 발화로 선택할 수 있다. 최종 발화를 선택하는 기준은 다양하게 설정할 수 있으며, 특히, 유머 발화에 대한 유사도 또는 문장의 자연스러움을 기준으로 하여 최종 발화를 선택할 수 있다.
도 5는 본 발명의 일 실시예에 따른 유머 발화 생성부(120)의 동작을 설명하기 위한 흐름도이고, 도 6은 본 발명의 일 실시예에 따라 활용되는 음운 사전 및 음운 유사도 표를 나타내는 예시도이다.
도 5를 참조하여, 유머 발화 생성부(120)에 의해 수행되는 '말장난 문장 생성 방법'에 대해 설명한다.
사용자 의도에 기반하여 사용자 발화로부터 핵심어를 선택한다(S510). 사용자 발화에서 선택된 핵심어를 음운(phone) 단위로 발음 열 변환을 수행할 수 있다(S520). 예를 들어, 예를 들어 '축구'라는 단어가 핵심어로 선택되면,'CH UW KQ KK UW'라는 발음 열로 변환할 수 있다.
음운 사전 또는 음운 유사도 표에 기반하여 상기 핵심어의 발음 열과 유사한 단어를 추출하여 단어 유사도를 산출할 수 있다(S530). 즉, 핵심어의 발음 열과 비슷한 단어를 찾을 수 있다.
유사한 단어를 찾기 위해서 수집된 대화 예제 훈련 자료를 통하여 유니그램(uni-gram), 바이그램(bi-gram) 음운 사전을 구축하고, 사전 내에 단어와 핵심어 사이에 단어 유사도를 측정할 수 있다.
도 6a는 유니그램 음운 사전에 대한 예시도이고, 도 6b는 바이그램 음운 사전에 대한 음운 사전이다.
즉, 유니그램 음운 사전은 과거에 나타난 단어에 상관없이 현재 단어가 나타날 확률 값에만 의존하고 바이그램 음운 사전은 바로 이전 과거에 의존하는 형태로 표현될 수 있다.
단어 유사도의 측정을 위해 레벤스타인 거리(levenshtein distance) 방법과 한국어 음운 유사도 표를 이용할 수 있다. 한국어 음운 유사도 표는 한국어의 발음들을 50가지로 구분하고, 발음 사이의 유사도가 기록되어 있다.
도 6c는 음운 유사도 표의 예시도이다. 예컨대, 해당 발음 유사도는 그 수치가 낮을수록 유사한 발음임을 의미할 수 있다.
도 7은 본 발명의 일 실시예에 따라 단어 유사도를 산출하는 방법을 설명하는 예시도이다.
도 7을 참조하여, '축구'를 핵심어로 한 단어 유사도의 산출을 설명한다. 도 7a는 '죽고'와 '축구'의 발음 열 간의 유사도를 나타내고, 도 7b는 발음 열의 유사도에 대한 유사도 점수를 나타낸다.
본 발명의 실시예에 따르면, 레벤스타인 거리와 한국어 음운 유사도 표를 이용하여 발음 열 간 유사도를 측정할 수 있다.
예를 들어, 새로운 단어가 추가될 때(insertion), 단어가 삭제될 때(deletion), 단어가 대체될 때(substitution) 단어 간 변화 정도를 1로 산정하여 단어 간 거리(distance)를 계산하며, 거리의 값이 낮을수록 유사하다고 할 수 있다.
또한, 다른 방법으로, 단어가 대체될 때, (1-1/similarity)로 표현되는 수치를 이용하여 거리를 계산함으로써 유사도(similarity)가 높을수록(발음이 유사할수록) 낮은 대체(substitution) 수치를 가질 수 있다.
단어 유사도를 기준으로 핵심어 발음 열과 유사한 단어를 정렬하고 핵심어 발음 열과 유사한 단어를 포함하는 문장들로부터 예제 문장을 선택할 수 있다(S540).
예를 들어, 핵심어 발음 열과 유사한 단어를 포함하는 문장들을 유사도 점수를 기반으로 오름차순 정렬할 수 있다. 즉, 상위에 랭크된 단어는 발음 상 주어진 핵심어와 가장 유사할 수 있다.
핵심어와 유니그램, 바이그램 음운 사전 사이에 계산된 단어 유사도가 미리 설정된 임계값(threshold) 이하인 단어를 포함한 예제 문장을 선택할 수 있다.
도 8은 본 발명의 일 실시예 따른 예제 문장의 선택을 설명하는 예시도이다.
핵심어 '축구'의 발음 열인 'CH UW KQ KK UW'와 가장 유사한 단어가 '죽고' 라고 할 때, '죽고'라는 단어가 원래 포함되었던 예제인 '죽고 싶다'를 예제 문장으로 선택할 수 있다.
예제 문장에서 핵심어 발음 열과 유사한 단어를 핵심어로 대체하여 유머 발화를 생성할 수 있다(S550).
예를 들어, '죽고 싶다' 라는 예제 문장이 선택되었을 때, 핵심어인 '축구'를 비교 대상 단어인 '죽고'와 대체하여 '축구 싶다'라는 유머 발화를 생성할 수 있다.
도 9는 본 발명의 다른 실시예에 따른 유머 발화 생성부(120)의 동작을 설명하기 위한 흐름도이다.
도 9를 참조하여, 유머 발화 생성부(120)에 의해 수행되는 '축약어 기반 두음 문자 생성 방법'에 대해 설명한다.
먼저, 사용자 발화에 포함된 축약어를 추출할 수 있다(S910). 여기서, 축약어란, 일반적으로 사용되는 단어가 너무 길 때 해당 단어를 짧게 압축하여 표현함으로써 사용되는 언어를 말한다. 예를 들어, '무한도전'을 '무도', '비빔냉면'을 '비냉'으로 부르는 것이 축약어에 해당할 수 있다.
한편, 축약어 사전 또는 웹 정보를 이용하여 축약어의 원래 의미를 검색하여 축약어에 상응하는 원본 단어를 선택하여 원본 문장을 복원할 수 있다(S920).
축약어의 원래 의미를 갖는 단어를 찾을 수 있다. 즉, 축약어 사전 및 웹 정보를 이용하여 축약어의 원래 의미를 가진 단어를 검색할 수 있다. 예를 들어, '비냉'이라는 문자가 들어오면 '비빔냉면'이라는 원래의 의미로 복원할 수 있다.
원본 단어의 두음과 일치하는 다른 단어를 선택하여 두음 문자를 생성할 수 있다(930). '무작위 생성' 또는 '사전 기반 생성' 방법을 통해 두음 문자를 생성할 수 있다.
'무작위 생성 방법'은 축약어의 원문을 구성하는 단어들 중, 두음을 일치시키는 다른 단어들을 검색하여 교체할 단어를 랜덤으로 선택하여 교체함으로써 두음 문자를 생성할 수 있다.
또한, '사전 기반 생성'방법은 형태소 분석 및 파싱을 통해 원본 문장을 구성하는 단어 중 변할 부분과 변하지 않을 부분을 결정하고, 사전 정보 또는 Wordnet 정보를 이용하여 단어를 변환할 수 있다.
즉, 원본 단어에 대한 형태소 분석 및 구문 분석을 통하여 원본 단어에서 핵심적인 부분을 추출하고, 핵심적인 부분을 남겨두고 원본 단어의 두음과 일치하는 다른 단어를 이용하여 원본 단어를 변경할 수 있다.
예를 들어, '비빔 냉면' 이라는 단어가 들어오면 형태소 분석을 통해 '비빔/NN 냉면/NN'이라는 정보를 얻을 수 있으며, 구문 분석을 통해 '냉면'이 핵심적인 부분임을 파악할 수 있다.
'사전 기반 생성'방법은 사전과 Wordnet을 기반으로 변경된 단어를 생성할 수 있다. 형태소 분석 및 구문 분석의 결과를 바탕으로 변하지 말아야 할 부분과 변해야 할 부분을 결정할 수 있다.
'비빔 냉면'이라는 단어가 주어지면, '냉면'을 변하지 않는 단어로, '비빔'을 변해야 하는 단어로 정하고, 사전 정보를 바탕으로 '비빔'과 두음은 일치하고 다른 의미를 지닌 '비린'이라는 단어를 찾아낼 수 있다. 즉, '비린'과 핵심적인 부분인 '냉면'이 포함된 단어인 '비린 냉면'을 두음 문자로 생성할 수 있다.
그리하여, 두음 문자를 이용하여 원본 문장을 변경하여 유머 발화를 생성할 수 있다(S940).
도 10은 본 발명의 실시예에 따른 최종 발화 선택부(140)의 동작을 설명하기 위한 흐름도이다.
도 10을 참조하면, 유머 발화와 채팅 발화로부터 최종 발화를 선택할 수 있다.
최종 발화는 대화 시스템에서 유머를 발생하는 전략에 따라 선택될 수 있다. 최종 발화는 무작위 선택 방법과 점수 기반 선택 방법으로 선택될 수 있다.
무작위 선택 방법은 M개의 유머 발화와 N개의 채팅 발화 중 랜덤으로 하나의 발화를 선택하여 시스템 발화로 선택할 수 있다.
또한, 점수 기반 선택 방법은 유머 발화 생성시 계산된 유사도 점수 및 유머 발화 언어 모델 점수를 이용하여 최종 발화에 대한 점수를 산정하고, 최종 점수를 기반으로 최종 발화를 선택할 수 있다.
즉, 유머 발화에 대한 유사도 점수 또는 유머 발화에 따른 문장의 자연스러움을 나타내는 확률값에 기반하여 유머 발화 및 채팅 발화로부터 최종 발화를 선택할 수 있다.
점수 기반 선택 방법은 채팅 발화가 존재하지 않거나 채팅 발화에 대한 적용 점수가 미리 설정된 임계값(threshold)이하일 경우 유머 발화 중 하나를 최종 발화로 선택할 수 있다(S1010).
최종 발화는 각 유머 발화 생성 방법 별 산정된 유사도 점수(similarity score)와 생성된 문장이 얼마나 자연스러운지 나타내는 유머 언어 모델 점수(humor LM score)에 기반하여 선택될 수 있다. 최종 발화 선택을 위한 점수는 다음의 수학식 1을 이용하여 산정한다.
수학식 1
Figure PCTKR2013009229-appb-M000001
유머 발화 생성에 있어서, 주어진 문장이나 핵심어를 기반으로 유머 발화를 생성할 수 있다. 여기서, 유사도 점수는 유머 생성 방법에 따라 점수 측정 방법이 다를 수 있으므로 정규화(normalization)를 통해 0과 1사이의 값으로 할 수 있다.
생성된 유머 발화들의 유머 언어 모델을 통해 확률 수치를 구할 수 있다. 유머 언어 모델 점수는 만들어진 유머가 실제 얼마나 자연스러운 문장인지를 나타내는 척도로서 0과 1사이의 확률값으로 표시될 수 있다. 여기서, 와 는 정규화를 위한 계수를 의미한다.
유머 언어 모델을 훈련하기 위해서 다양한 유머 관련 데이터를 사용하여 언어 모델을 훈련할 수 있다. 유머 관련 데이터는 훈련 과정에서 만들어진 유머 발화, 수집된 유머 발화, 비속어 사전 등이 사용될 수 있다.
마지막으로, 최종 발화를 이용하여 사용자 발화에 대한 응답인 시스템 발화를 생성하고, 시스템 발화를 음성으로 변환하여 사용자에게 제공할 수 있다.
상술한 바와 같이 본 발명의 실시예에 따른 유머 발화를 이용하는 음성 대화 시스템 및 방법은 사용자에게 유머 발화를 제공함으로써 지루함을 덜고 사용자가 채팅 대화 시스템을 사용하면서 재미를 느낄 수 있도록 한다.
또한, 유머 발화의 생성 방법을 확장성 있게 추가 또는 삭제하여 관리할 수 있는 구조를 제공한다.
또한, 다양한 유머 발화 중에서 최종 발화를 선택하여 제공함으로써 단순하고 반복적인 발화만을 제공하지 않고 다양한 유머 발화를 제공할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (19)

  1. 사용자 발화를 입력받아 문자 형태로 변환하여 사용자 의도를 분석하는 발화 분석부;
    상기 사용자 의도에 기반하여 상기 사용자 발화에 포함된 핵심어 또는 축약어를 이용하여 유머 발화를 생성하는 유머 발화 생성부;
    상기 사용자 의도에 상응하는 응답으로 채팅 발화를 생성하는 채팅 발화 생성부; 및
    상기 유머 발화와 상기 채팅 발화로부터 최종 발화를 선택하는 최종 발화 선택부를 포함하는 음성 대화 시스템.
  2. 청구항 1에 있어서, 상기 유머 발화 생성부는,
    상기 사용자 발화에서 상기 핵심어를 선택하여 음운 단위로 상기 핵심어에 대해 발음 열 변환을 수행하고, 상기 핵심어 발음 열과 유사한 단어를 포함하는 문장들로부터 예제 문장을 선택하여 상기 예제 문장에서 상기 핵심어 발음 열과 유사한 단어를 상기 핵심어로 대체하여 유머 발화를 생성하는 것을 특징으로 하는 음성 대화 시스템.
  3. 청구항 2에 있어서, 상기 유머 발화 생성부는,
    음운 사전 또는 음운 유사도 표를 기반하여 상기 핵심어의 발음 열과 유사한 단어를 추출하여 단어 유사도를 산출하고, 상기 단어 유사도를 기준으로 상기 핵심어 발음 열과 유사한 단어를 정렬하여 상기 핵심어 발음 열과 유사한 단어를 포함하는 문장으로부터 상기 예제 문장을 선택하는 것을 특징으로 하는 음성 대화 시스템.
  4. 청구항 3에 있어서, 상기 음운 사전은,
    유니그램 음운 사전 또는 바이그램 음운 사전인 것을 특징으로 하는 음성 대화 시스템.
  5. 청구항 1에 있어서, 상기 유머 발화 생성부는,
    상기 사용자 발화에 포함된 상기 축약어를 추출하고, 상기 축약어의 원래 의미를 가진 원본 단어를 검색하고, 상기 원본 단어의 두음과 일치하는 다른 단어를 통하여 생성된 두음 문자를 이용하여 상기 유머 발화를 생성하는 것을 특징으로 하는 음성 대화 시스템.
  6. 청구항 5에 있어서, 상기 유머 발화 생성부는,
    축약어 사전 또는 웹 정보를 이용하여 상기 축약어의 원래 의미를 검색하여 상기 축약어에 상응하는 상기 원본 단어를 선택함으로써 원본 문장을 복원하고, 상기 두음 문자를 이용하여 상기 원본 문장을 변경하여 상기 유머 발화를 생성하는 것을 특징으로 하는 음성 대화 시스템.
  7. 청구항 1에 있어서, 상기 유머 발화 생성부는,
    서로 다른 기법에 의해 상기 유머 발화를 생성하는 적어도 하나의 유머 생성 모듈을 포함하는 것을 특징으로 하는 음성 대화 시스템.
  8. 청구항 1에 있어서, 상기 최종 발화 선택부는,
    상기 유머 발화에 대한 유사도 점수 또는 상기 유머 발화에 따른 문장의 자연스러움을 나타내는 확률값에 기반하여 상기 유머 발화 및 상기 채팅 발화로부터 상기 최종 발화를 선택하는 것을 특징으로 하는 음성 대화 시스템.
  9. 청구항 1에 있어서,
    상기 최종 발화를 이용하여 상기 사용자 발화에 대한 응답인 시스템 발화를 생성하고, 상기 시스템 발화를 음성으로 변환하여 제공하는 시스템 발화 제공부를 더 포함하는 것을 특징으로 하는 음성 대화 시스템.
  10. 음성 대화 시스템에서 처리되는 방법에 있어서,
    사용자 발화를 입력받아 문자로 변화하여 사용자 의도를 분석하는 단계;
    상기 사용자 의도에 기반하여 상기 사용자 발화에 포함된 핵심어 또는 축약어를 이용하여 유머 발화를 생성하는 단계;
    상기 사용자 발화에 상응하는 응답으로 채팅 발화를 생성하는 단계; 및
    상기 유머 발화와 상기 채팅 발화로부터 최종 발화를 선택하는 단계를 포함하는 음성 대화 방법.
  11. 청구항 10에 있어서, 상기 유머 발화를 생성하는 단계는,
    상기 사용자 발화에서 상기 핵심어를 선택하여 음운 단위로 상기 핵심어에 대해 발음 열 변환을 수행하는 단계;
    음운 사전 또는 음운 유사도 표에 기반하여 상기 핵심어의 발음 열과 유사한 단어를 추출하여 단어 유사도를 산출하는 단계;
    상기 단어 유사도를 기준으로 상기 핵심어 발음 열과 유사한 단어를 정렬하고 상기 핵심어 발음 열과 유사한 단어를 포함하는 문장들로부터 예제 문장을 선택하는 단계; 및
    상기 예제 문장에서 상기 핵심어 발음 열과 유사한 단어를 상기 핵심어로 대체하여 유머 발화를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 대화 방법.
  12. 청구항 10에 있어서,
    상기 음운 사전은 유니그램 음운 사전 또는 바이그램 음운 사전인 것을 특징으로 하는 음성 대화 방법.
  13. 청구항 10에 있어서, 상기 유머 발화를 생성하는 단계는,
    상기 사용자 발화에 포함된 상기 축약어를 추출하는 단계;
    축약어 사전 또는 웹 정보를 이용하여 상기 축약어의 원래 의미를 검색하여 상기 축약어에 상응하는 원본 단어를 선택하여 원본 문장을 복원하는 단계;
    상기 원본 단어의 두음과 일치하는 다른 단어를 선택하여 두음 문자를 생성하는 단계; 및
    상기 두음 문자를 이용하여 상기 원본 문장을 변경하여 상기 유머 발화를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 대화 방법.
  14. 청구항 13에 있어서, 상기 두음 문자를 생성하는 단계는,
    상기 원본 단어에 대한 형태소 분석 및 구문 분석을 통하여 상기 원본 단어에서 핵심적인 부분을 추출하는 단계; 및
    상기 핵심적인 부분을 남겨두고 상기 원본 단어의 두음과 일치하는 다른 단어를 이용하여 상기 원본 단어를 변경하는 단계를 포함하는 것을 특징으로 하는 음성 대화 방법.
  15. 청구항 10에 있어서, 상기 최종 발화를 선택하는 단계는,
    상기 유머 발화에 대한 유사도 점수 또는 상기 유머 발화에 따른 문장의 자연스러움을 나타내는 확률값에 기반하여 상기 유머 발화 및 상기 채팅 발화로부터 상기 최종 발화를 선택하는 것을 특징으로 하는 음성 대화 방법.
  16. 청구항 10에 있어서,
    상기 최종 발화를 이용하여 상기 사용자 발화에 대한 응답인 시스템 발화를 생성하고, 상기 시스템 발화를 음성으로 변환하여 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 대화 방법.
  17. 사용자 발화를 입력받아 유머 발화를 생성하는 장치에 있어서,
    상기 사용자 발화에서 핵심어를 선택하여 음운 단위로 상기 핵심어에 대해 발음 열 변환을 수행하고, 상기 핵심어 발음 열과 유사한 단어를 포함하는 문장들로부터 예제 문장을 선택하여 상기 예제 문장에서 상기 핵심어 발음 열과 유사한 단어를 상기 핵심어로 대체하여 상기 유머 발화를 생성하는 제 1 유머 생성 모듈;
    상기 사용자 발화에 포함된 축약어를 추출하고, 상기 축약어의 원래 의미를 가진 원본 단어를 검색하고, 상기 원본 단어의 두음과 일치하는 다른 단어를 통하여 생성된 두음 문자를 이용하여 상기 유머 발화를 생성하는 제 2 유머 생성 모듈을 포함하는 유머 발화 생성 장치.
  18. 청구항 17에 있어서, 상기 제 1 유머 생성 모듈은,
    음운 사전 또는 음운 유사도 표를 기반하여 상기 핵심어의 발음 열과 유사한 단어를 추출하여 단어 유사도를 산출하고, 상기 단어 유사도를 기준으로 상기 핵심어 발음 열과 유사한 단어를 정렬하여 상기 핵심어 발음 열과 유사한 단어를 포함하는 문장들로부터 예제 문장을 선택하는 것을 특징으로 유머 발화 생성 장치.
  19. 청구항 17에 있어서, 상기 제 2 유머 생성 모듈은,
    축약어 사전 또는 웹 정보를 이용하여 상기 축약어의 원래 의미를 검색하여 상기 축약어에 상응하는 상기 원본 단어를 선택함으로써 원본 문장을 복원하고, 상기 두음 문자를 이용하여 상기 원본 문장을 변경하여 상기 유머 발화를 생성하는 것을 특징으로 하는 유머 발화 생성 장치.
PCT/KR2013/009229 2013-01-25 2013-10-16 유머 발화를 이용하는 음성 대화 시스템 및 그 방법 WO2014115952A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/763,061 US20150371627A1 (en) 2013-01-25 2013-10-16 Voice dialog system using humorous speech and method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0008478 2013-01-25
KR1020130008478A KR101410601B1 (ko) 2013-01-25 2013-01-25 유머 발화를 이용하는 음성 대화 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
WO2014115952A1 true WO2014115952A1 (ko) 2014-07-31

Family

ID=51133690

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/009229 WO2014115952A1 (ko) 2013-01-25 2013-10-16 유머 발화를 이용하는 음성 대화 시스템 및 그 방법

Country Status (3)

Country Link
US (1) US20150371627A1 (ko)
KR (1) KR101410601B1 (ko)
WO (1) WO2014115952A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480291A (zh) * 2017-08-28 2017-12-15 大国创新智能科技(东莞)有限公司 基于幽默生成的情感交互方法和机器人***
WO2020019745A1 (zh) * 2018-07-27 2020-01-30 张建军 一种基于知识库生成机器人幽默性格信息的方法及***

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105228070A (zh) * 2014-06-16 2016-01-06 施耐德电气工业公司 现场扬声器装置、现场语音广播***及其方法
CN105955949B (zh) * 2016-04-29 2018-05-29 华南师范大学 基于大数据搜索的幽默型机器人对话控制方法和***
US10789536B2 (en) 2017-08-08 2020-09-29 International Business Machines Corporation Using Trie structures to efficiently identify similarities among topical subjects
CN107564542B (zh) * 2017-09-04 2020-08-11 大国创新智能科技(东莞)有限公司 基于幽默识别的情感交互方法和机器人***
EP3766066B1 (en) * 2018-04-19 2024-02-21 Microsoft Technology Licensing, LLC Generating response in conversation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001162573A (ja) * 1999-12-08 2001-06-19 Fujitsu Ltd ロボット装置
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
KR100772660B1 (ko) * 2006-04-14 2007-11-01 학교법인 포항공과대학교 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법
JP2010140282A (ja) * 2008-12-11 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 対話装置、対話方法、対話プログラムおよび記録媒体
JP2010157081A (ja) * 2008-12-26 2010-07-15 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001162573A (ja) * 1999-12-08 2001-06-19 Fujitsu Ltd ロボット装置
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
KR100772660B1 (ko) * 2006-04-14 2007-11-01 학교법인 포항공과대학교 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법
JP2010140282A (ja) * 2008-12-11 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 対話装置、対話方法、対話プログラムおよび記録媒体
JP2010157081A (ja) * 2008-12-26 2010-07-15 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480291A (zh) * 2017-08-28 2017-12-15 大国创新智能科技(东莞)有限公司 基于幽默生成的情感交互方法和机器人***
CN107480291B (zh) * 2017-08-28 2019-12-10 大国创新智能科技(东莞)有限公司 基于幽默生成的情感交互方法和机器人***
WO2020019745A1 (zh) * 2018-07-27 2020-01-30 张建军 一种基于知识库生成机器人幽默性格信息的方法及***

Also Published As

Publication number Publication date
KR101410601B1 (ko) 2014-06-20
US20150371627A1 (en) 2015-12-24

Similar Documents

Publication Publication Date Title
WO2014115952A1 (ko) 유머 발화를 이용하는 음성 대화 시스템 및 그 방법
WO2016010245A1 (en) Method and system for robust tagging of named entities in the presence of source or translation errors
US8620658B2 (en) Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
JP3848319B2 (ja) 情報処理方法及び情報処理装置
WO2018097091A1 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
WO2021132802A1 (en) Apparatus for video searching using multi-modal criteria and method thereof
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
JP2008287210A (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
WO2014106979A1 (ko) 통계적 음성 언어 이해 방법
WO2023163383A1 (ko) 멀티모달 기반 실시간 감정인식 방법 및 장치
US9805740B2 (en) Language analysis based on word-selection, and language analysis apparatus
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
WO2021051557A1 (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN114036957B (zh) 一种快速语义相似度计算方法
CN114996506A (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
WO2014200187A1 (ko) 모음 약화를 학습하기 위한 장치 및 그 방법
WO2020204256A1 (ko) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
CA2496872A1 (en) Phonetic and stroke input methods of chinese characters and phrases
JP2009163358A (ja) 情報処理装置、情報処理方法、プログラムおよび音声チャットシステム
JP4153843B2 (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
JP2000259653A (ja) 音声認識装置及び音声認識方法
WO2019189951A1 (ko) 고객의 소리 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법
CN110874527A (zh) 一种基于云端的智能释义注音***
JP4806997B2 (ja) 文章解析プログラム、および文章解析システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13872697

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14763061

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13872697

Country of ref document: EP

Kind code of ref document: A1