KR102552297B1 - Method for generating user customized refine sentences using a deep learning based conversation model and apparatus thereof - Google Patents

Method for generating user customized refine sentences using a deep learning based conversation model and apparatus thereof Download PDF

Info

Publication number
KR102552297B1
KR102552297B1 KR1020230040916A KR20230040916A KR102552297B1 KR 102552297 B1 KR102552297 B1 KR 102552297B1 KR 1020230040916 A KR1020230040916 A KR 1020230040916A KR 20230040916 A KR20230040916 A KR 20230040916A KR 102552297 B1 KR102552297 B1 KR 102552297B1
Authority
KR
South Korea
Prior art keywords
model
sentence
deep learning
text data
user
Prior art date
Application number
KR1020230040916A
Other languages
Korean (ko)
Inventor
이홍재
고형석
Original Assignee
(주)유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Priority to KR1020230040916A priority Critical patent/KR102552297B1/en
Application granted granted Critical
Publication of KR102552297B1 publication Critical patent/KR102552297B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치에 관한 것으로, 음성 신호에서 추출한 음성 데이터를 문장으로 변환하고, 변환된 문장의 의미를 파악하여 문장을 자연스럽고 명확하게 재구성하며, 상기 재구성한 문장을 대화모델에 적용하여 사용자 맞춤형의 답변을 제공할 수 있도록 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치에 관한 것이다.The present invention relates to a user-customized purified sentence generation method and apparatus using a deep learning-based dialogue model, which converts speech data extracted from a speech signal into sentences, and understands the meaning of the converted sentences to naturally and clearly reconstruct the sentences. It relates to a method and apparatus for generating user-customized refined sentences using a deep learning-based dialogue model that applies the reconstructed sentence to a dialogue model to provide a user-customized answer.

Description

딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치{METHOD FOR GENERATING USER CUSTOMIZED REFINE SENTENCES USING A DEEP LEARNING BASED CONVERSATION MODEL AND APPARATUS THEREOF}User-customized pure sentence generation method and apparatus using deep learning-based conversation model

본 발명은 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치에 관한 것으로, 더욱 상세하게는 음성 신호에서 추출한 음성 데이터를 문장으로 변환하고, 변환된 문장의 의미를 파악하여 문장을 자연스럽고 명확하게 재구성하며, 상기 재구성한 문장을 대화모델에 적용하여 사용자 맞춤형의 답변을 제공할 수 있도록 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치에 관한 것이다.The present invention relates to a method for generating user-customized purified sentences using a deep learning-based dialogue model and an apparatus therefor, and more particularly, converts speech data extracted from a speech signal into sentences, understands the meaning of the converted sentences, and converts the sentences into natural sentences. A method and apparatus for generating user-customized refined sentences using a deep-learning-based dialogue model, which are reconstructed clearly and clearly, and apply the reconstructed sentence to a dialogue model to provide a user-customized answer.

딥러닝(Deep Learning)은 인공지능(Artificial Intelligence)의 한 분야로서, 인공신경망(Artificial Neural Network)이라는 모델을 사용하여 데이터로부터 학습을 통해 패턴을 인식하고, 이를 바탕으로 예측이나 분류 등의 작업을 수행하는 기술이다.Deep Learning is a field of Artificial Intelligence, which recognizes patterns through learning from data using a model called Artificial Neural Network, and performs tasks such as prediction or classification based on this. It is a technique to perform

딥러닝에서 사용되는 인공신경망은 생물학적 뉴런의 구조와 기능을 모방하여 만들어진 모델이며, 여러 개의 층(layer)으로 구성되어 있다. 입력층(input layer)에서 데이터를 받아들이고, 은닉층(hidden layer)을 거쳐 출력층(output layer)에서 결과를 출력한다. 이때, 각 층의 뉴런은 가중치(weight)와 편향(bias)을 갖고, 이를 조절하여 데이터를 분류하거나 예측한다.The artificial neural network used in deep learning is a model made by imitating the structure and function of biological neurons, and is composed of several layers. It receives data from the input layer, passes through a hidden layer, and outputs the result from the output layer. At this time, neurons in each layer have weights and biases, and classify or predict data by adjusting them.

딥러닝은 대량의 데이터와 높은 연산 능력이 필요하지만, 이를 보완하기 위해 GPU(Graphic Processing Unit) 등의 하드웨어 가속기를 사용하거나, 분산 학습(Distributed Learning) 등의 기술을 적용하여 속도와 정확도를 높일 수 있다.Deep learning requires a large amount of data and high computational power, but to compensate for this, speed and accuracy can be increased by using hardware accelerators such as GPU (Graphic Processing Unit) or by applying techniques such as distributed learning. there is.

또한, 딥러닝은 이미지, 음성, 자연어 등 다양한 데이터에서 인식, 분류, 예측 등의 작업을 수행하며, 이를 기반으로 다양한 분야에서 활용되고 있다. 특히, 최근 들어 딥러닝을 통해 음성 신호를 문장으로 변환하여 의미나 의도를 파악하는 언어 모델의 개발이 활발하게 이루어지고 있다.In addition, deep learning performs operations such as recognition, classification, and prediction on various data such as image, voice, and natural language, and is used in various fields based on this. In particular, recently, development of a language model that converts a voice signal into a sentence through deep learning to understand meaning or intention has been actively conducted.

하지만, 음성을 텍스트로 변환할 때 사용하는 언어 모델은 언어의 다양성과 의미의 다양성을 충분히 반영하지 못하는 한계가 있었다.However, the language model used when converting speech into text has limitations in not fully reflecting the diversity of language and meaning.

또한, 소음이 많은 환경에서는 음성 신호가 왜곡되거나 손실되는 것은 물론, 강세나 발음의 차이, 억양 등의 발화자의 다양성으로 인해 정확하게 인식하지 못하는 문제가 있었다.In addition, in a noisy environment, voice signals are distorted or lost and cannot be accurately recognized due to diversity of speakers such as stress, difference in pronunciation, and intonation.

또한, 문장의 주어나 목적어를 파악하는 것이 어렵거나 의도가 분명하지 않은 문장의 경우 잘못 이해하는 등 문맥 파악에 한계가 있었다.In addition, there were limitations in understanding the context, such as misunderstanding of sentences in which it was difficult to grasp the subject or object of the sentence or the intention was unclear.

그러므로 더욱 정확하고 신뢰성 있는 음성 인식 및 문맥 파악 기술의 개발이 필요한 실정이다.Therefore, it is necessary to develop a more accurate and reliable voice recognition and context detection technology.

따라서 본 발명에서는 음성인식을 통해 변환한 문장을 구문 분석과 의미론적 분석을 통해 분석하고, 상기 분석한 정보를 바탕으로 문장을 명확하게 재구성하는 순화처리를 수행할 수 있는 방안을 제시하고자 한다.Therefore, the present invention intends to propose a method capable of analyzing a sentence converted through voice recognition through syntactic analysis and semantic analysis, and performing a refinement process that clearly reconstructs the sentence based on the analyzed information.

즉, 음성인식을 통해 입력된 문장을 보다 의미 있고 자연스러운 문장으로 순화하여 생성하여, 대화모델을 이용하는 사용자에게 맞춤형의 답변을 제공할 수 있도록 하는 것이다.That is, sentences input through voice recognition are refined and generated into more meaningful and natural sentences, so that customized answers can be provided to users using the dialogue model.

본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 음성인식을 통해 입력된 문장을 보다 의미 있고 자연스러운 문장으로 순화하여 생성할 수 있는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치를 제공하는 것을 목적으로 한다.The present invention was created to solve the above problems, and a method for generating customized purified sentences using a deep learning-based dialogue model that can refine and generate sentences input through voice recognition into more meaningful and natural sentences, and a method for generating customized purified sentences therefor. It aims to provide a device.

또한, 본 발명은 음성 신호에서 추출한 음성 데이터를 자연어 처리를 통해 문장으로 변환하고, 상기 변환한 문장의 의미와 의도를 딥러닝 모델을 통해 파악하고, 상기 파악한 의미와 의도에 따라 문장을 순화하여 재구성하며, 상기 재구성한 문장을 대화모델에 적용하여 사용자 맞춤형의 답변을 제공할 수 있도록 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치를 제공하는 것을 다른 목적으로 한다.In addition, the present invention converts voice data extracted from a voice signal into sentences through natural language processing, grasps the meaning and intent of the converted sentence through a deep learning model, and refines and reconstructs the sentence according to the identified meaning and intent. Another object of the present invention is to provide a user-customized refined sentence generation method and device using a deep-learning-based dialogue model that enables a user-customized answer to be provided by applying the reconstructed sentence to a dialogue model.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the present embodiment is not limited to the technical problems described above, and other technical problems may exist.

본 발명의 일 실시예에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법은, 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치에서, 사용자로부터 대화모델에 적용하기 위한 음성신호를 입력받는 음성신호 입력 단계; 상기 입력받은 음성신호를 텍스트 데이터로 변환하는 음성인식 단계; 상기 변환한 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하는 후처리 단계; 상기 오류를 인식하여 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하는 순화문장 생성 단계; 및 상기 생성한 순화문장을 상기 대화모델에 적용하고, 상기 대화모델에서 출력되는 답변을 사용자에게 제공하는 답변 제공 단계;를 포함하는 것을 특징으로 한다.According to an embodiment of the present invention, a user-customized customized sentence generation method using a deep learning-based dialogue model is an apparatus for generating user-customized customized sentences to which a deep learning-based dialogue model is applied, by inputting a voice signal to be applied to the dialogue model from the user. Received voice signal input step; a voice recognition step of converting the input voice signal into text data; a post-processing step of recognizing and correcting errors in the process of converting the converted text data; a refined sentence generation step of generating a refined sentence by analyzing the meaning and intention of the text data corrected by recognizing the error; and an answer providing step of applying the generated purified sentence to the dialog model and providing a user with an answer output from the dialog model.

또한, 상기 음성인식 단계는, 음성인식용 딥러닝 모델을 사용하여, 상기 입력받은 음성신호를 텍스트 데이터로 변환하며, 상기 음성인식용 딥러닝 모델은, E2E(end-to-end) 딥러닝 STT(speech- to-text) 모델로서, 대량으로 수집한 음성데이터를 학습데이터와 검증데이터로 나누어 데이터세트를 구성한 다음, 상기 구성한 데이터세트의 학습 및 검증을 통해 생성되는 것을 특징으로 한다.In addition, the voice recognition step converts the input voice signal into text data using a deep learning model for voice recognition, and the deep learning model for voice recognition uses an end-to-end (E2E) deep learning STT. As a (speech-to-text) model, it is characterized in that it is created by dividing voice data collected in large quantities into learning data and verification data to form a dataset, and then learning and verifying the constructed dataset.

또한, 상기 후처리 단계는, 자연어 처리용 딥러닝 모델을 사용하여, 상기 변환한 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하며, 상기 자연어 처리용 딥러닝 모델은, BERT(Bidirectional Encoder Representations from Transformers) 모델을 사용하며, 상기 음성인식 단계를 통해 변환한 텍스트 데이터에서, 구두점 및 띄어쓰기를 제거하고, 대소문자를 통일하며, 특수 문자를 치환하는 것을 포함한 전처리 작업을 수행하는 전처리 단계: 상기 전처리한 텍스트 데이터를 상기 BERT 모델의 입력 형식에 맞게 변환하는 변환 단계; 상기 BERT 모델의 입력 형식에 맞게 변환한 텍스트 데이터에서 단어를 추출하고, 상기 추출한 단어 각각의 의미를 파악하며, 상기 문장 내의 각 단어의 위치와 연관성을 토대로 예측 결과를 생성하는 예측 단계; 상기 생성한 예측 결과를 상기 음성인식 단계를 통해 변환환 텍스트 데이터와 비교하고, 상기 비교한 결과를 토대로 오류가 발생한 단어, 구절 또는 이들의 조합을 확인하고, 상기 확인한 단어, 구절 또는 이들의 조합에 대한 오류를 보정하는 오류 확인 및 보정 단계; 및 상기 보정한 결과에 따른 문장을 출력하는 문장 출력 단계;를 포함하는 것을 특징으로 한다.In addition, the post-processing step uses a deep learning model for natural language processing to recognize and correct errors in the conversion process of the converted text data, and the deep learning model for natural language processing uses BERT (Bidirectional Encoder Representations from Transformers) model, and a preprocessing step of performing preprocessing tasks including removing punctuation marks and spaces, unifying case, and substituting special characters in the text data converted through the speech recognition step: A conversion step of converting text data to suit the input format of the BERT model; a prediction step of extracting words from text data converted to suit the input format of the BERT model, figuring out the meaning of each of the extracted words, and generating a prediction result based on the position and relationship of each word in the sentence; The generated prediction result is compared with the converted text data through the speech recognition step, and based on the comparison result, the word, phrase or combination thereof in which an error has occurred is identified, and the identified word, phrase or combination thereof is identified. an error checking and correcting step for correcting an error; and a sentence output step of outputting a sentence according to the result of the correction.

또한, 상기 순화문장 생성 단계는, 의미 및 의도 파악용 딥러닝 모델을 사용하여, 상기 후처리 단계를 통해 오류를 인식하여 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하며, 상기 의미 및 의도 파악용 딥러닝 모델은, TextCNN(Text Convolutional Neural Networks) 모델을 사용하며, 상기 보정한 텍스트 데이터를 임베딩(embedding) 레이어를 통해 고정 길이의 벡터로 변환하는 벡터 변환 단계; 상기 변환한 벡터를 합성곱(Convolution) 레이어와 풀링(Pooling) 레이어를 통해 특징을 추출하는 특징 추출 단계; 상기 추출한 특징을 이용하여 분류기를 통해 해당 문장의 의미 및 의도를 분류하는 분류 단계; 및 상기 분류한 의미 및 의도에 따라 순화문장을 생성하여 출력하는 순화문장 출력 단계;를 포함하는 것을 특징으로 한다.In addition, in the generating of the refined sentence, the refined sentence is generated by analyzing the meaning and intention of the text data corrected by recognizing the error through the post-processing step, using a deep learning model for grasping the meaning and intention, and generating the purified sentence. and a vector conversion step of converting the corrected text data into a fixed-length vector through an embedding layer using a TextCNN (Text Convolutional Neural Networks) model as a deep learning model for recognizing intent; A feature extraction step of extracting features from the converted vector through a convolution layer and a pooling layer; a classification step of classifying the meaning and intent of the corresponding sentence through a classifier using the extracted features; and a purified sentence output step of generating and outputting a purified sentence according to the classified meaning and intention.

또한, 상기 답변 제공 단계는, 상기 순화문장 생성 단계에서 생성한 순화문장을 상기 대화모델에 입력하여 답변을 요청하고, 상기 대화모델에서 생성한 답변을 사용자가 원하는 형식으로 문자, 숫자, 그래픽 또는 이들의 조합을 통해 제공하며, 상기 대화모델은, 트랜스포머(Transformer) 모델을 기반으로 하는 것으로서, 상기 순화문장 생성 단계에서 생성한 순화문장을 사전적 및 문맥적으로 이해하고, 사용자의 의도에 맞춘 문장을 생성해 제공하는 모델인 것을 특징으로 한다.In addition, the step of providing an answer may include requesting an answer by inputting the purified sentence generated in the step of generating the purified sentence into the conversation model, and displaying the answer generated in the dialogue model in a format desired by the user, such as letters, numbers, graphics, or the like. The dialogue model is based on the Transformer model, and the purified sentence generated in the purified sentence generation step is lexically and contextually understood, and the sentence tailored to the user's intention is provided. It is characterized by being a model that is created and provided.

아울러, 본 발명의 일 실시예에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치는, 대화모델에 적용하기 위한 음성신호를 입력받는 음성신호 입력부; 상기 입력받은 음성신호를 텍스트 데이터로 변환하는 음성인식부; 상기 변환한 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하는 후처리부; 상기 오류를 인식하여 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하는 순화문장 생성부; 및 상기 생성한 순화문장을 상기 대화모델에 적용하고, 상기 대화모델에서 출력되는 답변을 사용자에게 제공하는 답변 제공부;를 포함하는 것을 특징으로 한다.In addition, an apparatus for generating user-customized purified sentences to which a deep learning-based dialog model is applied according to an embodiment of the present invention includes a voice signal input unit for receiving a voice signal to be applied to the dialog model; a voice recognition unit that converts the input voice signal into text data; a post-processing unit recognizing and correcting errors in the process of converting the converted text data; a refined sentence generation unit for generating a refined sentence by analyzing the meaning and intention of the corrected text data by recognizing the error; and an answer providing unit for applying the generated purified sentence to the dialog model and providing a user with an answer output from the dialog model.

또한, 상기 음성인식부는, 음성인식용 딥러닝 모델을 사용하여, 상기 입력받은 음성신호를 텍스트 데이터로 변환하며, 상기 음성인식용 딥러닝 모델은, E2E(end-to-end) 딥러닝 STT(speech- to-text) 모델로서, 대량으로 수집한 음성데이터를 학습데이터와 검증데이터로 나누어 데이터세트를 구성한 다음, 상기 구성한 데이터세트의 학습 및 검증을 통해 생성되는 것을 특징으로 한다.In addition, the voice recognition unit uses a deep learning model for voice recognition to convert the input voice signal into text data, and the deep learning model for voice recognition uses an end-to-end (E2E) deep learning STT ( As a speech-to-text model, it is characterized in that a dataset is formed by dividing voice data collected in large quantities into training data and verification data, and then generated through learning and verification of the constructed dataset.

또한, 상기 후처리부는, 자연어 처리용 딥러닝 모델을 사용하여, 상기 변환한 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하며, 상기 자연어 처리용 딥러닝 모델은, BERT(Bidirectional Encoder Representations from Transformers) 모델을 사용하며, 상기 음성인식부를 통해 변환한 텍스트 데이터에서, 구두점 및 띄어쓰기를 제거하고, 대소문자를 통일하며, 특수 문자를 치환하는 것을 포함한 전처리 작업을 수행하는 전처리부: 상기 전처리한 텍스트 데이터를 상기 BERT 모델의 입력 형식에 맞게 변환하는 변환부; 상기 BERT 모델의 입력 형식에 맞게 변환한 텍스트 데이터에서 단어를 추출하고, 상기 추출한 단어 각각의 의미를 파악하며, 상기 문장 내의 각 단어의 위치와 연관성을 토대로 예측 결과를 생성하는 예측부; 상기 생성한 예측 결과를 상기 음성인식부를 통해 변환환 텍스트 데이터와 비교하고, 상기 비교한 결과를 토대로 오류가 발생한 단어, 구절 또는 이들의 조합을 확인하고, 상기 확인한 단어, 구절 또는 이들의 조합에 대한 오류를 보정하는 오류 확인 및 보정부; 및 상기 보정한 결과에 따른 문장을 출력하는 문장 출력부;를 포함하는 것을 특징으로 한다.In addition, the post-processing unit recognizes and corrects errors in the conversion process of the converted text data using a deep learning model for natural language processing, and the deep learning model for natural language processing uses BERT (Bidirectional Encoder Representations from Transformers ) model, and a pre-processing unit that performs pre-processing tasks including removing punctuation marks and spaces from the text data converted through the speech recognition unit, unifying case and substituting special characters: the pre-processed text data a conversion unit for converting to fit the input format of the BERT model; a prediction unit that extracts words from the text data converted to the input format of the BERT model, identifies the meaning of each of the extracted words, and generates a prediction result based on the position and relationship of each word in the sentence; The generated prediction result is compared with the converted text data through the voice recognition unit, and based on the comparison result, an erroneous word, phrase, or combination thereof is identified, and the word, phrase, or combination thereof is identified. Error checking and correcting unit for correcting errors; and a sentence output unit outputting sentences according to the result of the correction.

또한, 상기 순화문장 생성부는, 의미 및 의도 파악용 딥러닝 모델을 사용하여, 상기 후처리부를 통해 오류를 인식하여 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하며, 상기 의미 및 의도 파악용 딥러닝 모델은, TextCNN(Text Convolutional Neural Networks) 모델을 사용하며, 상기 보정한 텍스트 데이터를 임베딩(embedding) 레이어를 통해 고정 길이의 벡터로 변환하는 벡터 변환부; 상기 변환한 벡터를 합성곱(Convolution) 레이어와 풀링(Pooling) 레이어를 통해 특징을 추출하는 특징 추출부; 상기 추출한 특징을 이용하여 분류기를 통해 해당 문장의 의미 및 의도를 분류하는 분류부; 및 상기 분류한 의미 및 의도에 따라 순화문장을 생성하여 출력하는 순화문장 출력부;를 포함하는 것을 특징으로 한다.In addition, the purified sentence generation unit analyzes the meaning and intention of the corrected text data by recognizing an error through the post-processing unit using a deep learning model for understanding meaning and intention, and generates a purified sentence, and the meaning and intention The deep learning model for understanding uses a TextCNN (Text Convolutional Neural Networks) model, and includes a vector converter that converts the corrected text data into a fixed-length vector through an embedding layer; a feature extractor for extracting features from the converted vector through a convolution layer and a pooling layer; a classification unit that classifies the meaning and intent of the corresponding sentence through a classifier using the extracted features; and a purified sentence output unit generating and outputting a purified sentence according to the classified meaning and intention.

또한, 상기 답변 제공부는, 상기 순화문장 생성부에서 생성한 순화문장을 상기 대화모델에 입력하여 답변을 요청하고, 상기 대화모델에서 생성한 답변을 사용자가 원하는 형식으로 문자, 숫자, 그래픽 또는 이들의 조합을 통해 제공하며, 상기 대화모델은, 트랜스포머(Transformer) 모델을 기반으로 하는 것으로서, 상기 순화문장 생성부에서 생성한 순화문장을 사전적 및 문맥적으로 이해하고, 사용자의 의도에 맞춘 문장을 생성해 제공하는 모델인 것을 특징으로 한다.In addition, the answer providing unit requests an answer by inputting the purified sentence generated by the purified sentence generating unit into the conversation model, and the answer generated by the conversation model is displayed in a format desired by the user, such as letters, numbers, graphics, or the like. The dialogue model is provided through a combination, and the dialogue model is based on a Transformer model, and understands the purified sentence generated by the purified sentence generation unit in a dictionary and contextual way, and generates a sentence tailored to the user's intention. It is characterized by being a model provided by

이상에서와 같이 본 발명의 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치에 따르면, 음성 신호에서 추출한 음성 데이터를 자연어 처리를 통해 문장으로 변환하고, 상기 변환한 문장의 의미와 의도를 딥러닝 모델을 통해 파악하고, 상기 파악한 의미와 의도에 따라 문장을 순화하여 재구성함으로써, 순화한 문장을 통해 대화모델을 이용하는 사용자에게 맞춤형의 답변을 제공할 수 있는 효과가 있다.As described above, according to the user-customized purified sentence generation method and apparatus using the deep learning-based dialogue model of the present invention, voice data extracted from a voice signal is converted into a sentence through natural language processing, and the meaning and intent of the converted sentence is identified through a deep learning model, and the sentences are refined and reconstructed according to the identified meaning and intention, thereby providing a customized answer to the user using the conversation model through the refined sentences.

다만, 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.However, the effects of the present invention are not limited to the above-mentioned effects, and effects not mentioned will be clearly understood by those skilled in the art from this specification and the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치를 포함한 전체 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치의 구성을 보다 상세하게 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치의 하드웨어 구조를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법의 동작과정을 상세하게 나타낸 순서도이다.
1 is a diagram schematically showing the overall configuration including a user-customized pure sentence generating device to which a deep learning-based dialogue model is applied according to an embodiment of the present invention.
2 is a block diagram showing in detail the configuration of a user-customized pure sentence generator to which a deep learning-based dialogue model is applied according to an embodiment of the present invention.
3 is a diagram showing the hardware structure of a user-customized pure sentence generator to which a deep learning-based dialogue model is applied according to an embodiment of the present invention.
4 is a flowchart showing in detail the operation process of a user-customized pure sentence generation method to which a deep learning-based dialogue model is applied according to an embodiment of the present invention.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.Hereinafter, specific embodiments of the present invention will be described in detail with reference to the drawings. However, the spirit of the present invention is not limited to the presented embodiments, and those skilled in the art who understand the spirit of the present invention may add, change, delete, etc. other elements within the scope of the same spirit, through other degenerative inventions or the present invention. Other embodiments included within the scope of the inventive idea can be easily proposed, but it will also be said to be included within the scope of the inventive concept.

또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.In addition, components having the same function within the scope of the same idea appearing in the drawings of each embodiment are described using the same reference numerals.

도 1은 본 발명의 일 실시예에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치를 포함한 전체 구성을 개략적으로 나타낸 도면이다.1 is a diagram schematically showing the overall configuration including a user-customized pure sentence generating device to which a deep learning-based dialogue model is applied according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명은 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치(100, 이하 사용자 맞춤형 순화문장 생성장치라 함), 사용자 단말(200), 데이터베이스(300) 등을 포함하여 구성된다.As shown in FIG. 1, the present invention includes a user-customized, customized sentence generator (100, hereinafter referred to as a user-customized, customized sentence generator) to which a deep learning-based dialogue model is applied, a user terminal 200, a database 300, and the like. consists of including

상기 사용자 맞춤형 순화문장 생성장치(100)는 네트워크를 통해 상기 사용자 단말(200)로부터 대화모델에 적용하기 위한 일련의 음성신호(즉, 질문)를 입력받고, 상기 입력받은 음성신호를 텍스트 데이터로 변환한다.The user-customized pure sentence generating device 100 receives a series of voice signals (ie, questions) to be applied to a conversation model from the user terminal 200 through a network, and converts the received voice signals into text data. do.

이때 상기 네트워크는 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미한다.In this case, the network may be a core network integrated with a wired public network, a wireless mobile communication network, or a portable Internet, and various services existing in the TCP/IP protocol and its upper layer, that is, HTTP (Hyper Text Transfer Protocol), HTTPS (Hyper Text Transfer) Protocol Secure), Telnet, FTP (File Transfer Protocol), DNS (Domain Name System), SMTP (Simple Mail Transfer Protocol), etc. It comprehensively means a data communication network capable of transmitting and receiving data in a form.

또한, 상기 사용자 맞춤형 순화문장 생성장치(100)는 상기 변환한 텍스트 데이터의 오류를 확인하여 보정하며, 상기 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성한다.In addition, the user-customized purified sentence generating device 100 checks and corrects errors in the converted text data, analyzes the meaning and intention of the corrected text data, and generates a purified sentence.

또한, 상기 사용자 맞춤형 순화문장 생성장치(100)는 상기 생성한 순화문장을 대화모델에 입력하고, 상기 대화모델에서 출력되는 답변을 상기 사용자 단말(200)로 제공한다.In addition, the user-customized purified sentence generating device 100 inputs the generated purified sentence into a dialogue model and provides an answer output from the dialogue model to the user terminal 200 .

즉, 음성인식을 통해 사용자로부터 제공받은 음성신호를 문장으로 변환한 다음, 상기 변환한 문장의 의도와 의미를 파악하여 보다 의미 있고 자연스러운 문장으로 순화하여 재구성하며, 상기 재구성한 문장을 대화모델에 입력하여 사용자 맞춤형의 답변을 제공할 수 있도록 하는 것이다.That is, after converting the voice signal provided from the user through voice recognition into a sentence, the intent and meaning of the converted sentence is grasped, refined into a more meaningful and natural sentence, and then reconstructed, and the reconstructed sentence is input into the dialog model. This allows us to provide customized answers to our users.

특히, 본 발명에서는 사용자가 발화하는 음성신호를 인식하고, 이를 구문 분석을 통해 문장의 구조를 파악함과 동시에 의미론적 분석을 통해 문장의 의미를 파악하여, 문장을 순화(refine)하는 것을 특징으로 한다.In particular, the present invention recognizes the voice signal uttered by the user, grasps the structure of the sentence through syntactic analysis, and at the same time grasps the meaning of the sentence through semantic analysis, and refines the sentence. do.

이때 구문 분석은 문장의 구조를 분석하여 어절, 구, 절 등의 구성요소를 파악하고 이들 간의 관계를 결정하는 것을 의미한다. 일 예로, 입력된 문장을 단어나 구문 단위로 분할하는 토큰화(tokenization)하여, 문장에 포함된 단어들을 형태소 단위로 분할하고, 각 형태소의 품사를 결정한 다음, 문장을 구성하는 구성요소들의 문법적인 관계를 분석하여 문장의 구조를 결정한다. 이렇게 얻어진 정보를 바탕으로 문장 내에서 단어들이 어떻게 연결되는지, 어떤 문법 규칙을 따르는지 등을 파악할 수 있다.At this time, syntactic analysis means analyzing the structure of a sentence to identify components such as words, phrases, and clauses, and determining the relationship between them. For example, tokenization is performed by dividing an input sentence into words or phrases, dividing the words included in the sentence into morpheme units, determining the parts of speech of each morpheme, and then determining the grammatical structure of the components constituting the sentence. Analyze relationships to determine the structure of sentences. Based on the information obtained in this way, it is possible to determine how words are connected in a sentence and which grammatical rules are followed.

또한 의미론적 분석은 문장에서 단어들의 의미를 파악하고, 이를 토대로 문장의 전체 의미를 추론하는 것을 의미한다. 일 예로, 문장 내에서 명사나 대명사 등의 단어가 어떤 개체를 나타내는지 개체명 인식을 수행하고, 동사를 파악하여 문장 내에서 각 단어가 어떤 역할을 하는지 결정하며, 문장의 의미를 표현하는 구조를 파악하여 문장의 의미를 추론한다. 이렇게 얻어진 정보를 바탕으로 문장 내에서 단어들의 의미와 역할을 파악하고, 문장의 전체 의미를 추론할 수 있다.In addition, semantic analysis means grasping the meaning of words in a sentence and inferring the overall meaning of the sentence based on this. For example, object name recognition is performed to determine what entity a word such as a noun or pronoun represents in a sentence, a verb is identified to determine what role each word plays in the sentence, and a structure expressing the meaning of the sentence is determined. comprehend and infer the meaning of the sentence. Based on the information obtained in this way, the meaning and role of words in the sentence can be grasped, and the overall meaning of the sentence can be inferred.

상기 사용자 맞춤형 순화문장 생성장치(100)는 이러한 구문 분석과 의미론적 분석을 통해 문장을 분석하고, 파악된 정보를 바탕으로 문장을 순화하는 리파인 작업을 수행한다.The user-customized purified sentence generating device 100 analyzes the sentence through such syntactic analysis and semantic analysis, and performs a refinement task of refining the sentence based on the identified information.

상기 사용자 단말(200)은 발화하는 음성신호를 토대로 원하는 답변을 제공받기 위한 사용자가 보유하고 있는 스마트폰, 태블릿, PC 등의 유무선 통신기기로서, 애플리케이션 프로그램이나 네트워크를 통한 웹 접속을 통해 상기 사용자 맞춤형 순화문장 생성장치(100)와 통신 접속을 수행한 후, 사용자가 말하는 음성신호를 상기 사용자 맞춤형 순화문장 생성장치(100)로 전송한다.The user terminal 200 is a wired and wireless communication device possessed by a user to receive a desired answer based on an uttered voice signal, such as a smartphone, tablet, or PC, and is customized to the user through an application program or web access through a network. After performing a communication connection with the customized sentence generator 100, a voice signal spoken by the user is transmitted to the user-customized customized sentence generator 100.

또한, 상기 사용자 단말(200)은 상기 사용자 맞춤형 순화문장 생성장치(100)로부터 사용자의 음성신호를 토대로 대화모델을 통한 답변을 제공받아 화면상에 표시하여, 사용자가 확인할 수 있도록 한다.In addition, the user terminal 200 receives an answer through a conversation model based on the user's voice signal from the user-customized purified sentence generating device 100 and displays it on the screen so that the user can check it.

상기 데이터베이스(300)는 상기 사용자 맞춤형 순화문장 생성장치(100)에서 입력받은 각 사용자의 음성신호와 이를 변환한 텍스트 데이터 및 순화한 문장 데이터를 저장하여 관리한다.The database 300 stores and manages each user's voice signal input from the user-customized purified sentence generator 100, converted text data, and purified sentence data.

또한, 상기 데이터베이스(300)는 상기 사용자 맞춤형 순화문장 생성장치(100)에서 사용하는 각종 동작프로그램은 물론, 음성인식용 딥러닝 모델, 자연어처리용 딥러닝 모델, 의미 및 의도파악용 딥러닝 모델 등을 저장하여 관리한다.In addition, the database 300 includes various operation programs used in the user-customized pure sentence generator 100, as well as a deep learning model for voice recognition, a deep learning model for natural language processing, a deep learning model for understanding meaning and intent, etc. save and manage

도 2는 본 발명의 일 실시예에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치의 구성을 보다 상세하게 나타낸 블록도이다.2 is a block diagram showing in detail the configuration of a user-customized pure sentence generator to which a deep learning-based dialogue model is applied according to an embodiment of the present invention.

도 2에 도시한 것과 같이, 상기 사용자 맞춤형 순화문장 생성장치(100)는 음성신호 입력부(110), 음성인식부(120), 후처리부(130), 순화문장 생성부(140), 답변 제공부(150) 등을 포함하여 구성된다.As shown in FIG. 2, the user-customized purified sentence generating device 100 includes a voice signal input unit 110, a voice recognition unit 120, a post-processing unit 130, a purified sentence generating unit 140, and an answer providing unit. (150) and the like.

상기 음성신호 입력부(110)는 네트워크를 통해 상기 사용자 단말(200)로부터 대화모델에 적용하기 위한 음성신호를 입력받고, 상기 입력받은 음성신호를 상기 음성인식부(120)로 출력한다.The voice signal input unit 110 receives a voice signal to be applied to a conversation model from the user terminal 200 through a network, and outputs the received voice signal to the voice recognition unit 120 .

상기 음성인식부(120)는 상기 음성신호 입력부(110)로부터 입력받은 음성신호를 텍스트 데이터로 변환하고, 상기 변환한 텍스트 데이터를 상기 후처리부(130)로 출력한다.The voice recognition unit 120 converts the voice signal received from the voice signal input unit 110 into text data, and outputs the converted text data to the post-processing unit 130 .

이때 상기 음성인식부(120)는 음성인식용 딥러닝 모델을 사용하여 음성신호를 텍스트 데이터로 변환하는데, 이때 사용되는 음성인식용 딥러닝 모델로는 E2E(end-to-end) 딥러닝 STT(speech-to-text) 모델이 사용된다.At this time, the voice recognition unit 120 converts the voice signal into text data using a deep learning model for voice recognition. The deep learning model for voice recognition used at this time is an end-to-end (E2E) deep learning STT ( speech-to-text) model is used.

상기 E2E 딥러닝 STT 모델은 사람이 발화한 음성을 자동으로 인식하고 이를 텍스트로 변환하는 것으로서, 컴퓨터 비전 분야에서 사용되는 CNN(Convolutional Neural Networks)과 자연어 처리 분야에서 사용되는 RNN(Recurrent Neural Networks) 및 트랜스포머(Transformer) 모델을 결합한 형태로 구성된다.The E2E deep learning STT model automatically recognizes speech uttered by a person and converts it into text. Convolutional Neural Networks (CNNs) used in the field of computer vision and Recurrent Neural Networks (RNNs) used in the field of natural language processing, It is composed of a combination of Transformer models.

상기 E2E 딥러닝 STT 모델은 일련의 음성신호를 입력으로 받아 특징을 추출하고, 상기 추출한 특징을 이용하여 입력된 음성신호를 자연어로 번역한다. 특히, 입력된 음성신호와 관련된 문맥 정보를 고려하여 보다 정확하게 음성 데이터를 텍스트로 변환할 수 있다.The E2E deep learning STT model receives a series of voice signals as input, extracts features, and translates the input voice signals into natural language using the extracted features. In particular, it is possible to more accurately convert voice data into text in consideration of contextual information related to the input voice signal.

상기 E2E 딥러닝 STT 모델은 대량으로 수집한 음성데이터를 학습데이터와 검증데이터로 나누어 데이터세트를 구성한 다음, 상기 구성한 데이터세트의 학습 및 검증을 통해 생성될 수 있다.The E2E deep learning STT model can be generated by dividing voice data collected in large quantities into training data and verification data to configure a dataset, and then learning and verifying the configured dataset.

일 예로, 상기 E2E 딥러닝 STT 모델을 생성하기 위해서는 Common Voice나 Librispeech 등을 통해서 음성 데이터세트를 수집하고, 수집한 음성 데이터를 전처리하여 딥러닝 모델이 이해할 수 있는 형태로 변환한 다음, 상기 전처리된 데이터를 입력 데이터와 출력 데이터의 형태를 고려하여 구성한 딥러닝 모델에 입력하여 학습시켜 생성한다. 그리고 모바일 애플리케이션, 웹 애플리케이션 등 다양한 플랫폼에서 사용될 수 있도록 딥러닝 모델을 최적화하여 배포한다.For example, in order to generate the E2E deep learning STT model, a voice dataset is collected through Common Voice or Librispeech, the collected voice data is preprocessed and converted into a form that the deep learning model can understand, and then the preprocessed Data is input into the deep learning model configured considering the shape of input data and output data, and it is created by learning. In addition, deep learning models are optimized and distributed so that they can be used on various platforms such as mobile applications and web applications.

상기 후처리부(130)는 자연어 처리용 딥러닝 모델을 사용하여, 상기 음성인식부(120)를 통해 변환한 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하는 기능을 수행한다.The post-processing unit 130 performs a function of recognizing and correcting an error in the conversion process of the text data converted through the voice recognition unit 120 using a deep learning model for natural language processing.

이때 상기 후처리부(130)는 자연어처리용 딥러닝 모델로 BERT(Bidirectional Encoder Representations from Transformers) 모델을 사용한다. 즉, 상기 음성인식부(120)를 통해 변환된 텍스트 데이터는 오류가 있을 수 있는데, 이러한 오류를 최소화하고 텍스트 데이터를 보정하기 위하여 본 발명에서는 양방향 트랜스포머 인코더를 기반으로 하여 학습된 딥러닝 모델인 BERT를 사용하여 이용하여 인식 결과를 개선하는 것이다.At this time, the post-processing unit 130 uses a BERT (Bidirectional Encoder Representations from Transformers) model as a deep learning model for natural language processing. That is, the text data converted through the voice recognition unit 120 may have errors. In order to minimize such errors and correct text data, in the present invention, BERT, a deep learning model trained based on a bidirectional transformer encoder, is used. is used to improve the recognition result.

한편, 상기 후처리부(130)는 전처리부(131), 변환부(132), 예측부(133), 오류 확인 및 보정부(134), 문장 출력부(135)로 구성된다.Meanwhile, the post-processing unit 130 includes a pre-processing unit 131, a conversion unit 132, a prediction unit 133, an error checking and correcting unit 134, and a sentence output unit 135.

상기 전처리부(131)는 상기 음성인식부(120)에서 변환한 텍스트 데이터에서, 구두점 및 띄어쓰기를 제거하고, 대소문자를 통일하며, 특수 문자를 치환하는 것을 포함한 전처리 작업을 수행한다.The pre-processing unit 131 performs pre-processing operations including removing punctuation marks and spaces from the text data converted by the voice recognition unit 120, unifying uppercase and lowercase letters, and substituting special characters.

상기 변환부(132)는 상기 전처리부(131)에서 전처리한 텍스트 데이터를 상기 BERT 모델의 입력 형식에 맞게 변환한다. 일 예로, 문장 앞에 [CLS] 토큰을 추가하고, 문장 끝에 [SEP] 토큰을 추가하는 등의 작업을 통해서 BERT 모델의 정해진 형식에 맞게 입력 데이터를 변환하는 것이다.The conversion unit 132 converts the text data preprocessed by the preprocessor 131 to fit the input format of the BERT model. For example, input data is converted according to the format of the BERT model by adding a [CLS] token before a sentence and adding a [SEP] token at the end of a sentence.

상기 예측부(133)는 상기 변환부(132)를 통해 상기 BERT 모델의 입력 형식에 맞게 변환한 텍스트 데이터에서 단어를 추출하고, 상기 추출한 단어 각각의 의미를 파악하며, 상기 문장 내의 각 단어의 위치와 연관성을 토대로 예측 결과를 생성하여 상기 오류 확인 및 보정부(134)로 출력한다.The prediction unit 133 extracts words from the text data converted to suit the input format of the BERT model through the conversion unit 132, identifies the meaning of each of the extracted words, and locates each word in the sentence A prediction result is generated based on correlation with and outputted to the error checking and correcting unit 134.

즉, 상기 변환부(132)에서 변환한 텍스트 데이터를 상기 BERT 모델에 입력하여 예측 결과를 얻는 것으로서, 상기 BERT 모델은 입력된 텍스트 데이터의 각 단어의 임베딩을 추출하고, 문맥 정보를 반영하여 단어의 의미를 파악하여 문장의 의미를 이해하며, 문장 내의 각 단어의 위치와 연관성을 파악하여 보정 작업에 활용할 수 있도록 하는 것이다.That is, the text data converted by the conversion unit 132 is input to the BERT model to obtain a prediction result. The BERT model extracts the embedding of each word of the input text data and reflects the context information to obtain a prediction result. It is to understand the meaning of the sentence by grasping the meaning, and to grasp the position and relationship of each word in the sentence so that it can be used for correction work.

상기 오류 확인 및 보정부(134)는 상기 예측부(133)에서 생성한 예측 결과를 상기 음성인식부(120)를 통해 변환환 텍스트 데이터와 비교하고, 상기 비교한 결과를 토대로 오류가 발생한 단어, 구절 또는 이들의 조합을 확인하고, 상기 확인한 단어, 구절 또는 이들의 조합에 대한 오류를 보정한다.The error checking and correcting unit 134 compares the prediction result generated by the prediction unit 133 with the converted text data through the voice recognition unit 120, and based on the comparison result, a word in which an error occurred, Phrases or combinations thereof are identified, and errors in the identified words, phrases, or combinations thereof are corrected.

일 예로, '누가 가장 쉬운 계산법을 알려줄 수 있어'라는 문장에서 '쉬운'이 '시원'으로 잘못 변환된 경우, 상기 BERT 모델을 이용하여 '쉬운'이라는 단어를 정확하게 추론하고, 이를 '시원'으로 잘못 인식한 오류를 보정하는 작업을 수행하는 것이다.For example, if 'easy' is incorrectly converted to 'siwon' in the sentence 'Who can tell me the easiest calculation method', the word 'easy' is accurately inferred using the BERT model, and it is converted to 'siwon'. It is to perform the work of correcting misrecognized errors.

상기 문장 출력부(135)는 상기 오류 확인 및 보정부(134)에서 보정한 결과에 따른 문장을 상기 순화문장 생성부(140)로 출력한다.The sentence output unit 135 outputs the sentence according to the result of correction by the error checking and correcting unit 134 to the refined sentence generator 140 .

상기 순화문장 생성부(140)는 상기 후처리부(130)를 통해 오류를 인식하여 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하고, 이를 상기 답변 제공부(150)로 제공하는 기능을 수행한다.The refined sentence generation unit 140 analyzes the meaning and intention of text data corrected by recognizing an error through the post-processing unit 130 to generate a refined sentence, and provides the result to the answer providing unit 150. Do it.

이때 상기 순화문장 생성부(140)는 의미 및 의도 파악용 딥러닝 모델로 TextCNN(Text Convolutional Neural Networks) 모델을 사용한다. 상기 textCNN은 텍스트 분류 문제에서 사용되는 딥러닝 모델 중 하나로서, 합성곱 신경망(CNN)을 이용하여 텍스트 데이터의 특징을 추출하며, 의미 또는 의도 분석을 수행하는데 사용될 수 있다.At this time, the purified sentence generation unit 140 uses a TextCNN (Text Convolutional Neural Networks) model as a deep learning model for understanding meaning and intent. The textCNN is one of the deep learning models used in text classification problems, and can be used to extract features of text data using a convolutional neural network (CNN) and perform meaning or intent analysis.

여기서, 의미 또는 의도 분석은 자연어 처리에서 매우 중요한 작업 중 하나이다. 이 작업은 주어진 문장의 의미나 의도를 파악하여 해당 문장을 분류하는 작업으로서, 예를 들어, '내일은 비가 올 것 같아'라는 문장이 주어졌을 때, 이 문장의 의도가 '날씨 예보'라는 것을 파악할 수 있다.Here, semantic or intention analysis is one of the very important tasks in natural language processing. This task is to classify the sentence by grasping the meaning or intention of the given sentence. For example, given the sentence 'I think it will rain tomorrow', it is possible to find out that the intention of this sentence is 'weather forecast'. can

한편, 상기 순화문장 생성부(140)는 벡터 변환부(141), 특징 추출부(142), 분류부(143), 순화문장 출력부(144)로 구성된다.On the other hand, the purified sentence generation unit 140 is composed of a vector conversion unit 141, a feature extraction unit 142, a classification unit 143, and a purified sentence output unit 144.

상기 벡터 변환부(141)는 상기 후처리부(130)를 통해 보정한 텍스트 데이터를 임베딩(embedding) 레이어를 통해 고정 길이의 벡터로 변환한다.The vector conversion unit 141 converts the text data corrected through the post-processing unit 130 into a fixed-length vector through an embedding layer.

상기 특징 추출부(142)는 상기 벡터 변환부(141)에서 변환한 벡터를 합성곱(Convolution) 레이어와 풀링(Pooling) 레이어를 통해 특징을 추출한다.The feature extraction unit 142 extracts features from the vector converted by the vector conversion unit 141 through a convolution layer and a pooling layer.

상기 분류부(143)는 상기 특징 추출부(142)에서 추출한 특징을 이용하여 분류기를 통해 해당 문장의 의미 및 의도를 분류한다.The classification unit 143 classifies the meaning and intention of the corresponding sentence through a classifier using the features extracted by the feature extraction unit 142 .

상기 순화문장 출력부(144)는 상기 분류부(143)에서 분류한 의미 및 의도에 따라 순화문장을 생성하여 상기 답변 제공부(150)로 출력한다. 즉 상기 분류부(143)를 통해 분류된 의미나 의도에 따라 순화 문장을 생성할 수 있는데, 예를 들어, 날씨 예보 분류기에서 '내일은 비가 올 것 같아'라는 문장이 '비가 올 것 같은 날씨입니다'라는 순화 문장으로 생성될 수 있다.The purified sentence output unit 144 generates a purified sentence according to the meaning and intention classified by the classification unit 143 and outputs it to the answer providing unit 150 . That is, a purified sentence can be generated according to the meaning or intention classified through the classification unit 143. For example, in the weather forecast classifier, the sentence 'It seems to rain tomorrow' is replaced with 'It is likely to rain'. It can be generated as a purified sentence called.

이처럼, 상기 textCNN은 텍스트 분류 작업에서 높은 성능을 보이는 모델 중 하나로서, 의미 또는 의도 분석을 통해 순화된 문장을 생성하는데 활용될 수 있다.As such, the textCNN is one of the models showing high performance in text classification tasks, and can be used to generate refined sentences through semantic or intentional analysis.

상기 답변 제공부(150)는 상기 순화문장 생성부(140)에서 생성한 순화문장을 상기 대화모델에 적용하고, 상기 대화모델에서 출력되는 답변을 네트워크를 통해 상기 사용자 단말(200)로 제공한다. 이때 상기 답변 제공부(150)는 상기 대화모델에서 생성한 답변을 사용자가 원하는 형식으로 문자, 숫자, 그래픽 또는 이들의 조합을 통해 제공할 수 있다.The answer providing unit 150 applies the refined sentence generated by the refined sentence generating unit 140 to the conversation model, and provides the answer output from the conversation model to the user terminal 200 through a network. At this time, the answer providing unit 150 may provide the answer generated by the conversation model in a format desired by the user through letters, numbers, graphics, or a combination thereof.

또한, 본 발명에서는 상기 대화모델로 한국어 대화를 생성하는 자연어 처리 모델인 KoGPT를 사용할 수 있다.In addition, in the present invention, KoGPT, a natural language processing model for generating Korean conversations, can be used as the conversation model.

상기 KoGPT 모델은 OpenAI에서 개발한 GPT-2 모델을 기반으로 한 국내 최초의 대화 생성 모델로서, 한국어 문장을 입력받아 문맥에 맞는 대화 응답을 생성하는 모델이며, 대화 데이터를 이용하여 사전 학습되어 있다. 상기 KoGPT 모델은 4개의 레이어로 구성되어 있고, 총 118M의 파라미터를 가지고 있고, 트랜스포머 모델을 기반으로 하며, 상기 순화문장 생성부(140)에서 생성한 순화문장을 사전적 및 문맥적으로 이해하고, 사용자의 의도에 맞춘 문장을 생성한다.The KoGPT model is the first dialogue generation model in Korea based on the GPT-2 model developed by OpenAI. It is a model that receives Korean sentences and generates contextual dialogue responses, and is pre-learned using dialogue data. The KoGPT model is composed of four layers, has a total of 118M parameters, is based on a transformer model, and understands the purified sentence generated by the purified sentence generator 140 lexically and contextually, Create sentences tailored to the user's intention.

본 발명에서 제시하는 상기 대화모델에 순화문장을 적용하여 사용자 맞춤형 답변을 제공하는 프로세스는 챗봇(Chatbot)이나 가상 비서(Virtual Assistant) 등과 같은 인공지능 기반 서비스에서 사용될 수 있다.The process of providing user-customized answers by applying purified sentences to the dialogue model proposed in the present invention can be used in artificial intelligence-based services such as chatbots or virtual assistants.

도 3은 본 발명의 일 실시예에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치의 하드웨어 구조를 나타낸 도면이다.3 is a diagram showing the hardware structure of a user-customized pure sentence generator to which a deep learning-based dialogue model is applied according to an embodiment of the present invention.

도 3에 도시한 것과 같이, 상기 사용자 맞춤형 순화문장 생성장치(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.As shown in FIG. 3, the hardware structure of the user-customized pure sentence generator 100 includes a central processing unit 1000, a memory 2000, a user interface 3000, a database interface 4000, a network interface ( 5000), a web server 6000, and the like.

상기 사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.The user interface 3000 provides an input and output interface to the user by using a graphical user interface (GUI).

상기 데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다. 상기 네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.The database interface 4000 provides an interface between a database and a hardware structure. The network interface 5000 provides a network connection between devices possessed by a user.

상기 웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 상기 사용자 맞춤형 순화문장 생성장치(100)를 사용할 수 있다.The web server 6000 provides a means for users to access hardware structures through a network. Most users can access the web server remotely and use the user-customized pure sentence generating device 100 .

상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.Each step of the above configuration or method may be implemented as computer readable code on a computer readable recording medium or transmitted through a transmission medium. A computer-readable recording medium is a data storage device capable of storing data that can be read by a computer system.

컴퓨터 판독 가능한 기록매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.Examples of computer-readable recording media include, but are not limited to, databases, ROMs, RAMs, CD-ROMs, DVDs, magnetic tapes, floppy disks, and optical data storage devices. The transmission medium may include a carrier wave transmitted through the Internet or various types of communication channels. Also, the computer readable recording medium may be distributed over a network coupled computer system such that the computer readable code is stored and executed in a distributed manner.

또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.In addition, at least one component applied to the present invention may include or be implemented by a processor such as a central processing unit (CPU) or a microprocessor that performs each function, and two or more of the components are one single All operations or functions for two or more components that are combined into components can be performed. In addition, some of at least one or more components applied to the present invention may be performed by other components among these components. Also, communication between the components may be performed through a bus (not shown).

다음에는, 이와 같이 구성된 본 발명에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법의 일 실시예를 도 4를 참조하여 상세하게 설명한다. 이때 본 발명의 방법에 따른 각 단계는 사용 환경이나 당업자에 의해 순서가 변경될 수 있다.Next, an embodiment of a method for generating user-customized purified sentences to which the deep learning-based dialogue model according to the present invention configured as described above will be described in detail with reference to FIG. 4 . At this time, the order of each step according to the method of the present invention may be changed by a user environment or a person skilled in the art.

도 4는 본 발명의 일 실시예에 따른 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법의 동작과정을 상세하게 나타낸 순서도이다.4 is a flowchart showing in detail the operation process of a user-customized pure sentence generation method to which a deep learning-based dialogue model is applied according to an embodiment of the present invention.

도 4에 도시된 바와 같이, 상기 사용자 맞춤형 순화문장 생성장치(100)는 네트워크를 통해 통신 접속된 상기 사용자 단말(200)로부터 대화모델에 적용하기 위한 음성신호를 입력받는 음성신호 입력 단계를 수행한다(S100).As shown in FIG. 4, the user-customized purified sentence generating device 100 performs a voice signal input step of receiving a voice signal to be applied to a conversation model from the user terminal 200 connected through communication through a network. (S100).

이어서, 상기 사용자 맞춤형 순화문장 생성장치(100)는 상기 사용자 단말(200)로부터 입력받은 음성신호를 텍스트 데이터로 변환하는 음성인식 단계를 수행한다(S200).Subsequently, the user-customized pure sentence generating device 100 performs a voice recognition step of converting the voice signal input from the user terminal 200 into text data (S200).

즉, E2E 딥러닝 STT 모델인 음성인식용 딥러닝 모델을 사용하여, 상기 입력받은 음성신호를 텍스트 데이터로 변환하는 것이다.That is, the input voice signal is converted into text data using a deep learning model for speech recognition, which is an E2E deep learning STT model.

상기 S200 단계를 통해 음성신호를 텍스트 데이터로 변환한 이후, 상기 사용자 맞춤형 순화문장 생성장치(100)는 상기 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하는 후처리 단계를 수행한다(S300).After converting the voice signal into text data through the step S200, the user-customized purified sentence generator 100 performs a post-processing step of recognizing and correcting errors in the process of converting the text data (S300).

즉, 자연어 처리용 딥러닝 모델인 BERT 모델을 사용하여, 상기 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하는 것이다.That is, by using the BERT model, which is a deep learning model for natural language processing, errors in the conversion process of the text data are recognized and corrected.

보다 구체적으로 설명하면, 상기 사용자 맞춤형 순화문장 생성장치(100)는 상기 S200 단계를 통해 변환한 텍스트 데이터에서 구두점 및 띄어쓰기를 제거하고, 대소문자를 통일하며, 특수 문자를 치환하는 것을 포함한 전처리 작업을 수행한 다음, 상기 전처리한 텍스트 데이터를 상기 BERT 모델의 입력 형식에 맞게 변환한다. 그리고 상기 BERT 모델의 입력 형식에 맞게 변환한 텍스트 데이터에서 단어를 추출하고, 상기 추출한 단어 각각의 의미를 파악하며, 상기 문장 내의 각 단어의 위치와 연관성을 토대로 예측 결과를 생성한다. 이어서 상기 생성한 예측 결과를 상기 S200 단계를 통해 변환환 텍스트 데이터와 비교하고, 상기 비교한 결과를 토대로 오류가 발생한 단어, 구절 또는 이들의 조합을 확인하고, 상기 확인한 단어, 구절 또는 이들의 조합에 대한 오류를 보정하며, 상기 보정한 결과에 따른 문장을 출력한다.More specifically, the user-customized pure sentence generating device 100 performs preprocessing including removing punctuation marks and spaces from the text data converted through step S200, unifying uppercase and lowercase letters, and substituting special characters. After that, the preprocessed text data is converted to fit the input format of the BERT model. Then, words are extracted from the text data converted to suit the input format of the BERT model, the meaning of each extracted word is grasped, and a prediction result is generated based on the position and relationship of each word in the sentence. Next, the generated prediction result is compared with the converted text data through the step S200, and based on the comparison result, the word, phrase or combination thereof in which an error has occurred is identified, and the identified word, phrase or combination thereof corrects the error, and outputs the sentence according to the result of the correction.

이와 같이 상기 S300 단계를 통해 오류 인식 및 보정에 대한 후처리를 수행한 이후, 상기 사용자 맞춤형 순화문장 생성장치(100)는 상기 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하는 순화문장 생성 단계를 수행한다(S400).After performing post-processing for error recognition and correction through the step S300 as described above, the user-customized purified sentence generating device 100 analyzes the meaning and intention of the corrected text data to generate a refined sentence. A generation step is performed (S400).

즉, 의미 및 의도 파악용 딥러닝 모델인 textCNN 모델을 사용하여, 상기 S300 단계에서 오류를 인식하여 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하는 것이다.That is, using the textCNN model, which is a deep learning model for grasping meaning and intent, a refined sentence is generated by analyzing the meaning and intent of the text data corrected by recognizing errors in step S300.

이를 위해서, 상기 사용자 맞춤형 순화문장 생성장치(100)는 상기 S300 단계에서 보정한 텍스트 데이터를 임베딩 레이어를 통해 고정 길이의 벡터로 변환하고, 상기 변환한 벡터를 합성곱 레이어와 풀링 레이어를 통해 특징을 추출한다. 이어서 상기 추출한 특징을 이용하여 분류기를 통해 해당 문장의 의미 및 의도를 분류하고, 상기 분류한 의미 및 의도에 따라 순화문장을 생성하여 출력한다.To this end, the user-customized purified sentence generator 100 converts the text data corrected in the step S300 into a fixed-length vector through an embedding layer, and converts the converted vector into a feature through a convolutional layer and a pooling layer. extract Subsequently, the meaning and intention of the corresponding sentence are classified through a classifier using the extracted features, and a refined sentence is generated and output according to the classified meaning and intention.

상기 S400 단계를 통해 순화문장을 생성한 이후, 상기 사용자 맞춤형 순화문장 생성장치(100)는 상기 순화문장을 상기 대화모델에 적용하고, 상기 대화모델에서 출력되는 답변을 네트워크를 통해 상기 사용자 단말(300)로 제공하는 답변 제공 단계를 수행한다(S500).After generating the customized sentence through the step S400, the user-customized customized sentence generating device 100 applies the customized sentence to the dialog model, and sends an answer output from the dialog model to the user terminal 300 through a network. ) Performs the step of providing answers provided (S500).

이때 상기 사용자 맞춤형 순화문장 생성장치(100)는 상기 대화모델에서 생성한 답변을 사용자가 원하는 형식으로 문자, 숫자, 그래픽 또는 이들의 조합을 통해 제공할 수 있음은 상기 설명한 바와 같다.At this time, as described above, the user-customized pure sentence generating device 100 may provide the answers generated by the conversation model in a format desired by the user through letters, numbers, graphics, or a combination thereof.

이처럼, 본 발명은 음성 신호에서 추출한 음성 데이터를 자연어 처리를 통해 문장으로 변환하고, 상기 변환한 문장의 의미와 의도를 딥러닝 모델을 통해 파악하고, 상기 파악한 의미와 의도에 따라 문장을 순화하여 재구성하기 때문에, 순화한 문장을 통해 대화모델을 이용하는 사용자에게 맞춤형의 답변을 제공할 수 있다.As such, the present invention converts voice data extracted from a voice signal into sentences through natural language processing, grasps the meaning and intention of the converted sentence through a deep learning model, and refines and reconstructs the sentence according to the identified meaning and intention. Therefore, it is possible to provide a customized answer to the user using the conversation model through the refined sentence.

첨부된 도면은 본 발명의 기술적 사상을 보다 명확하게 표현하기 위해, 본 발명의 기술적 사상과 관련성이 없거나 떨어지는 구성에 대해서는 간략하게 표현하거나 생략하였다.In the accompanying drawings, in order to more clearly express the technical idea of the present invention, components that are not related to or detached from the technical idea of the present invention are briefly expressed or omitted.

상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명백한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.In the above, the configuration and characteristics of the present invention have been described based on the embodiments according to the present invention, but the present invention is not limited thereto, and various changes or modifications can be made within the spirit and scope of the present invention. It is apparent to those skilled in the art, and therefore such changes or modifications are intended to fall within the scope of the appended claims.

100 : 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치
110 : 음성신호 입력부 120 : 음성인식부
130 : 후처리부 131 : 전처리부
132 : 변환부 133 : 예측부
134 : 오류 확인 및 보정부 135 : 문장 출력부
140 : 순화문장 생성부 141 : 벡터 변환부
142 : 특징 추출부 143 : 분류부
144 : 순화문장 출력부 150 : 답변 제공부
200 : 사용자 단말 300 : 데이터베이스
100: User-customized pure sentence generation device applying deep learning-based conversation model
110: voice signal input unit 120: voice recognition unit
130: post-processing unit 131: pre-processing unit
132: conversion unit 133: prediction unit
134: error checking and correction unit 135: sentence output unit
140: purified sentence generation unit 141: vector conversion unit
142: feature extraction unit 143: classification unit
144: purified sentence output unit 150: answer providing unit
200: user terminal 300: database

Claims (10)

딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치에서, 사용자로부터 대화모델에 적용하기 위한 음성신호를 입력받는 음성신호 입력 단계;
상기 입력받은 음성신호를 텍스트 데이터로 변환하는 음성인식 단계;
상기 변환한 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하는 후처리 단계;
상기 오류를 인식하여 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하는 순화문장 생성 단계; 및
상기 생성한 순화문장을 상기 대화모델에 적용하고, 상기 대화모델에서 출력되는 답변을 사용자에게 제공하는 답변 제공 단계;를 포함하며,
상기 답변 제공 단계는, 상기 순화문장 생성 단계에서 생성한 순화문장을 상기 대화모델에 입력하여 답변을 요청하고, 상기 대화모델에서 생성한 답변을 사용자가 원하는 형식으로 문자, 숫자, 그래픽 또는 이들의 조합을 통해 제공하며,
상기 대화모델은, 트랜스포머(Transformer) 모델을 기반으로 하는 것으로서, 상기 순화문장 생성 단계에서 생성한 순화문장을 사전적 및 문맥적으로 이해하고, 사용자의 의도에 맞춘 문장을 생성해 제공하는 모델인 것을 특징으로 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법.
A voice signal input step of receiving a voice signal to be applied to a dialog model from a user in an apparatus for generating a user-customized refined sentence to which a deep learning-based dialog model is applied;
a voice recognition step of converting the input voice signal into text data;
a post-processing step of recognizing and correcting errors in the process of converting the converted text data;
a refined sentence generation step of generating a refined sentence by analyzing the meaning and intention of the text data corrected by recognizing the error; and
An answer providing step of applying the generated purified sentence to the dialogue model and providing a user with an answer output from the dialogue model;
The step of providing an answer may include requesting an answer by inputting the purified sentence generated in the step of generating the purified sentence into the conversation model, and displaying the answer generated in the dialogue model in a format desired by the user in letters, numbers, graphics, or a combination thereof. provided through
The conversation model is based on a Transformer model, and is a model that understands the purified sentence generated in the purified sentence generation step in a dictionary and contextual way, and generates and provides sentences tailored to the user's intention. A method for generating user-customized purified sentences using a deep learning-based dialogue model characterized by:
청구항 1에 있어서,
상기 음성인식 단계는,
음성인식용 딥러닝 모델을 사용하여, 상기 입력받은 음성신호를 텍스트 데이터로 변환하며,
상기 음성인식용 딥러닝 모델은, E2E(end-to-end) 딥러닝 STT(speech- to-text) 모델로서, 대량으로 수집한 음성데이터를 학습데이터와 검증데이터로 나누어 데이터세트를 구성한 다음, 상기 구성한 데이터세트의 학습 및 검증을 통해 생성되는 것을 특징으로 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법.
The method of claim 1,
The voice recognition step,
Using a deep learning model for voice recognition, the input voice signal is converted into text data,
The deep learning model for speech recognition is an end-to-end (E2E) deep learning speech-to-text (STT) model, which divides the collected voice data into training data and verification data to form a dataset, A user-customized purified sentence generation method using a deep learning-based dialogue model, characterized in that it is generated through learning and verification of the configured dataset.
청구항 1에 있어서,
상기 후처리 단계는,
자연어 처리용 딥러닝 모델을 사용하여, 상기 변환한 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하며,
상기 자연어 처리용 딥러닝 모델은, BERT(Bidirectional Encoder Representations from Transformers) 모델을 사용하며,
상기 음성인식 단계를 통해 변환한 텍스트 데이터에서, 구두점 및 띄어쓰기를 제거하고, 대소문자를 통일하며, 특수 문자를 치환하는 것을 포함한 전처리 작업을 수행하는 전처리 단계:
상기 전처리한 텍스트 데이터를 상기 BERT 모델의 입력 형식에 맞게 변환하는 변환 단계;
상기 BERT 모델의 입력 형식에 맞게 변환한 텍스트 데이터에서 단어를 추출하고, 상기 추출한 단어 각각의 의미를 파악하며, 상기 BERT 모델의 입력 형식에 맞게 변환한 텍스트 데이터 내의 각 단어의 위치와 연관성을 토대로 예측 결과를 생성하는 예측 단계;
상기 생성한 예측 결과를 상기 음성인식 단계를 통해 변환환 텍스트 데이터와 비교하고, 상기 비교한 결과를 토대로 오류가 발생한 단어, 구절 또는 이들의 조합을 확인하고, 상기 확인한 단어, 구절 또는 이들의 조합에 대한 오류를 보정하는 오류 확인 및 보정 단계; 및
상기 보정한 결과에 따른 문장을 출력하는 문장 출력 단계;를 포함하는 것을 특징으로 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법.
The method of claim 1,
In the post-processing step,
Using a deep learning model for natural language processing, recognizing and correcting errors in the conversion process of the converted text data,
The deep learning model for natural language processing uses a BERT (Bidirectional Encoder Representations from Transformers) model,
A preprocessing step of performing preprocessing operations including removing punctuation marks and spaces, unifying case, and substituting special characters in the text data converted through the voice recognition step:
a conversion step of converting the preprocessed text data to suit the input format of the BERT model;
Words are extracted from the text data converted to suit the input format of the BERT model, the meaning of each extracted word is identified, and prediction is made based on the location and association of each word in the text data converted to suit the input format of the BERT model. a prediction step that produces a result;
The generated prediction result is compared with the converted text data through the speech recognition step, and based on the comparison result, the word, phrase or combination thereof in which an error has occurred is identified, and the identified word, phrase or combination thereof is identified. an error checking and correcting step for correcting an error; and
A sentence outputting step of outputting a sentence according to the result of the correction; a user-customized refined sentence generation method using a deep learning-based dialogue model, characterized in that it comprises a.
청구항 1에 있어서,
상기 순화문장 생성 단계는,
의미 및 의도 파악용 딥러닝 모델을 사용하여, 상기 후처리 단계를 통해 오류를 인식하여 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하며,
상기 의미 및 의도 파악용 딥러닝 모델은, TextCNN(Text Convolutional Neural Networks) 모델을 사용하며,
상기 보정한 텍스트 데이터를 임베딩(embedding) 레이어를 통해 고정 길이의 벡터로 변환하는 벡터 변환 단계;
상기 변환한 벡터를 합성곱(Convolution) 레이어와 풀링(Pooling) 레이어를 통해 특징을 추출하는 특징 추출 단계;
상기 추출한 특징을 이용하여 분류기를 통해 해당 문장의 의미 및 의도를 분류하는 분류 단계; 및
상기 분류한 의미 및 의도에 따라 순화문장을 생성하여 출력하는 순화문장 출력 단계;를 포함하는 것을 특징으로 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법.
The method of claim 1,
The step of generating the purified sentence,
Using a deep learning model for understanding meaning and intent, the error is recognized and corrected through the post-processing step, and the meaning and intent of the corrected text data is analyzed to generate a refined sentence,
The deep learning model for understanding meaning and intent uses a TextCNN (Text Convolutional Neural Networks) model,
a vector conversion step of converting the corrected text data into a fixed-length vector through an embedding layer;
A feature extraction step of extracting features from the converted vector through a convolution layer and a pooling layer;
a classification step of classifying the meaning and intent of the corresponding sentence through a classifier using the extracted features; and
A method for generating a user-customized customized sentence using a deep learning-based dialogue model, characterized in that it comprises a; outputting a refined sentence to generate and output a refined sentence according to the classified meaning and intention.
삭제delete 대화모델에 적용하기 위한 음성신호를 입력받는 음성신호 입력부;
상기 입력받은 음성신호를 텍스트 데이터로 변환하는 음성인식부;
상기 변환한 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하는 후처리부;
상기 오류를 인식하여 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하는 순화문장 생성부; 및
상기 생성한 순화문장을 상기 대화모델에 적용하고, 상기 대화모델에서 출력되는 답변을 사용자에게 제공하는 답변 제공부;를 포함하며,
상기 답변 제공부는, 상기 순화문장 생성부에서 생성한 순화문장을 상기 대화모델에 입력하여 답변을 요청하고, 상기 대화모델에서 생성한 답변을 사용자가 원하는 형식으로 문자, 숫자, 그래픽 또는 이들의 조합을 통해 제공하며,
상기 대화모델은, 트랜스포머(Transformer) 모델을 기반으로 하는 것으로서, 상기 순화문장 생성부에서 생성한 순화문장을 사전적 및 문맥적으로 이해하고, 사용자의 의도에 맞춘 문장을 생성해 제공하는 모델인 것을 특징으로 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치.
a voice signal input unit that receives a voice signal to be applied to the dialog model;
a voice recognition unit that converts the input voice signal into text data;
a post-processing unit recognizing and correcting errors in the process of converting the converted text data;
a refined sentence generation unit for generating a refined sentence by analyzing the meaning and intention of the corrected text data by recognizing the error; and
An answer providing unit for applying the generated purified sentence to the dialogue model and providing a user with an answer output from the dialogue model;
The answer providing unit requests an answer by inputting the purified sentence generated by the purified sentence generation unit to the conversation model, and converts the answer generated by the conversation model into letters, numbers, graphics, or a combination thereof in a format desired by the user. provided through
The dialog model is based on a Transformer model, and is a model that understands the purified sentence generated by the purified sentence generation unit in a dictionary and contextual way, and generates and provides sentences tailored to the user's intention. A user-customized pure sentence generator using a deep learning-based conversation model.
청구항 6에 있어서,
상기 음성인식부는,
음성인식용 딥러닝 모델을 사용하여, 상기 입력받은 음성신호를 텍스트 데이터로 변환하며,
상기 음성인식용 딥러닝 모델은, E2E(end-to-end) 딥러닝 STT(speech- to-text) 모델로서, 대량으로 수집한 음성데이터를 학습데이터와 검증데이터로 나누어 데이터세트를 구성한 다음, 상기 구성한 데이터세트의 학습 및 검증을 통해 생성되는 것을 특징으로 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치.
The method of claim 6,
The voice recognition unit,
Using a deep learning model for voice recognition, the input voice signal is converted into text data,
The deep learning model for speech recognition is an end-to-end (E2E) deep learning speech-to-text (STT) model, which divides the collected voice data into training data and verification data to form a dataset, A user-customized purified sentence generation device using a deep learning-based dialogue model, characterized in that it is generated through learning and verification of the configured dataset.
청구항 6에 있어서,
상기 후처리부는,
자연어 처리용 딥러닝 모델을 사용하여, 상기 변환한 텍스트 데이터의 변환과정에서의 오류를 인식하여 보정하며,
상기 자연어 처리용 딥러닝 모델은, BERT(Bidirectional Encoder Representations from Transformers) 모델을 사용하며,
상기 음성인식부를 통해 변환한 텍스트 데이터에서, 구두점 및 띄어쓰기를 제거하고, 대소문자를 통일하며, 특수 문자를 치환하는 것을 포함한 전처리 작업을 수행하는 전처리부:
상기 전처리한 텍스트 데이터를 상기 BERT 모델의 입력 형식에 맞게 변환하는 변환부;
상기 BERT 모델의 입력 형식에 맞게 변환한 텍스트 데이터에서 단어를 추출하고, 상기 추출한 단어 각각의 의미를 파악하며, 상기 BERT 모델의 입력 형식에 맞게 변환한 텍스트 데이터 내의 각 단어의 위치와 연관성을 토대로 예측 결과를 생성하는 예측부;
상기 생성한 예측 결과를 상기 음성인식부를 통해 변환환 텍스트 데이터와 비교하고, 상기 비교한 결과를 토대로 오류가 발생한 단어, 구절 또는 이들의 조합을 확인하고, 상기 확인한 단어, 구절 또는 이들의 조합에 대한 오류를 보정하는 오류 확인 및 보정부; 및
상기 보정한 결과에 따른 문장을 출력하는 문장 출력부;를 포함하는 것을 특징으로 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치.
The method of claim 6,
The post-processing unit,
Using a deep learning model for natural language processing, recognizing and correcting errors in the conversion process of the converted text data,
The deep learning model for natural language processing uses a BERT (Bidirectional Encoder Representations from Transformers) model,
A pre-processing unit for performing pre-processing tasks including removing punctuation marks and spaces from the text data converted through the speech recognition unit, unifying case, and substituting special characters:
a conversion unit for converting the preprocessed text data to suit the input format of the BERT model;
Words are extracted from the text data converted to suit the input format of the BERT model, the meaning of each extracted word is identified, and prediction is made based on the location and association of each word in the text data converted to suit the input format of the BERT model. a predictor generating a result;
The generated prediction result is compared with the converted text data through the voice recognition unit, and based on the comparison result, an erroneous word, phrase, or combination thereof is identified, and the word, phrase, or combination thereof is identified. Error checking and correcting unit for correcting errors; and
A sentence output unit for outputting a sentence according to the result of the correction; a user-customized natural sentence generating device using a deep learning-based dialogue model, characterized in that it comprises a.
청구항 6에 있어서,
상기 순화문장 생성부는,
의미 및 의도 파악용 딥러닝 모델을 사용하여, 상기 후처리부를 통해 오류를 인식하여 보정한 텍스트 데이터의 의미 및 의도를 분석하여 순화문장을 생성하며,
상기 의미 및 의도 파악용 딥러닝 모델은, TextCNN(Text Convolutional Neural Networks) 모델을 사용하며,
상기 보정한 텍스트 데이터를 임베딩(embedding) 레이어를 통해 고정 길이의 벡터로 변환하는 벡터 변환부;
상기 변환한 벡터를 합성곱(Convolution) 레이어와 풀링(Pooling) 레이어를 통해 특징을 추출하는 특징 추출부;
상기 추출한 특징을 이용하여 분류기를 통해 해당 문장의 의미 및 의도를 분류하는 분류부; 및
상기 분류한 의미 및 의도에 따라 순화문장을 생성하여 출력하는 순화문장 출력부;를 포함하는 것을 특징으로 하는 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성장치.
The method of claim 6,
The purified sentence generation unit,
By using a deep learning model for understanding meaning and intent, the post-processing unit recognizes errors and analyzes the meaning and intent of corrected text data to generate refined sentences,
The deep learning model for understanding meaning and intent uses a TextCNN (Text Convolutional Neural Networks) model,
a vector conversion unit that converts the corrected text data into a fixed-length vector through an embedding layer;
a feature extractor for extracting features from the converted vector through a convolution layer and a pooling layer;
a classification unit that classifies the meaning and intent of the corresponding sentence through a classifier using the extracted features; and
A user-customized purified sentence generating device using a deep learning-based dialogue model, characterized in that it comprises a;
삭제delete
KR1020230040916A 2023-03-29 2023-03-29 Method for generating user customized refine sentences using a deep learning based conversation model and apparatus thereof KR102552297B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230040916A KR102552297B1 (en) 2023-03-29 2023-03-29 Method for generating user customized refine sentences using a deep learning based conversation model and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230040916A KR102552297B1 (en) 2023-03-29 2023-03-29 Method for generating user customized refine sentences using a deep learning based conversation model and apparatus thereof

Publications (1)

Publication Number Publication Date
KR102552297B1 true KR102552297B1 (en) 2023-07-06

Family

ID=87186006

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230040916A KR102552297B1 (en) 2023-03-29 2023-03-29 Method for generating user customized refine sentences using a deep learning based conversation model and apparatus thereof

Country Status (1)

Country Link
KR (1) KR102552297B1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110119478A (en) * 2010-04-27 2011-11-02 삼성전자주식회사 Apparatus for speech recognition and method thereof
KR20160069329A (en) * 2014-12-08 2016-06-16 삼성전자주식회사 Method and apparatus for training language model, method and apparatus for recognizing speech
KR20180055189A (en) * 2016-11-16 2018-05-25 삼성전자주식회사 Method and apparatus for processing natural languages, method and apparatus for training natural language processing model
KR101913191B1 (en) * 2018-07-05 2018-10-30 미디어젠(주) Understanding the language based on domain extraction Performance enhancement device and Method
KR20190103080A (en) * 2019-08-15 2019-09-04 엘지전자 주식회사 Deeplearing method for voice recognition model and voice recognition device based on artifical neural network
KR20210146089A (en) * 2020-05-26 2021-12-03 주식회사 케이티 Method for generating multi persona model and providing for conversation styling using the multi persona model

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110119478A (en) * 2010-04-27 2011-11-02 삼성전자주식회사 Apparatus for speech recognition and method thereof
KR20160069329A (en) * 2014-12-08 2016-06-16 삼성전자주식회사 Method and apparatus for training language model, method and apparatus for recognizing speech
KR20180055189A (en) * 2016-11-16 2018-05-25 삼성전자주식회사 Method and apparatus for processing natural languages, method and apparatus for training natural language processing model
KR101913191B1 (en) * 2018-07-05 2018-10-30 미디어젠(주) Understanding the language based on domain extraction Performance enhancement device and Method
KR20190103080A (en) * 2019-08-15 2019-09-04 엘지전자 주식회사 Deeplearing method for voice recognition model and voice recognition device based on artifical neural network
KR20210146089A (en) * 2020-05-26 2021-12-03 주식회사 케이티 Method for generating multi persona model and providing for conversation styling using the multi persona model

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Xie, Ziang, et al., Neural language correction with character-based attention., arXiv preprint arXiv:1603.09727, Mar. 2016 *

Similar Documents

Publication Publication Date Title
JP6802005B2 (en) Speech recognition device, speech recognition method and speech recognition system
WO2019200923A1 (en) Pinyin-based semantic recognition method and device and human-machine conversation system
CN113439301A (en) Reconciling between analog data and speech recognition output using sequence-to-sequence mapping
Darabkh et al. An efficient speech recognition system for arm‐disabled students based on isolated words
CN112002308A (en) Voice recognition method and device
KR20170034227A (en) Apparatus and method for speech recognition, apparatus and method for learning transformation parameter
CN110797010A (en) Question-answer scoring method, device, equipment and storage medium based on artificial intelligence
KR102152902B1 (en) Method for converting voice data into text data and speech-to-text device performing method
KR101534413B1 (en) Method and apparatus for providing counseling dialogue using counseling information
CN112364658A (en) Translation and voice recognition method, device and equipment
Sefara et al. HMM-based speech synthesis system incorporated with language identification for low-resourced languages
Abhishek et al. Aiding the visually impaired using artificial intelligence and speech recognition technology
Peguda et al. Speech to sign language translation for Indian languages
KR102552297B1 (en) Method for generating user customized refine sentences using a deep learning based conversation model and apparatus thereof
Rajendran et al. A robust syllable centric pronunciation model for Tamil text to speech synthesizer
Zahariev et al. An approach to speech ambiguities eliminating using semantically-acoustical analysis
Reddy et al. Indian sign language generation from live audio or text for tamil
Singh et al. An Integrated Model for Text to Text, Image to Text and Audio to Text Linguistic Conversion using Machine Learning Approach
CN115374784A (en) Chinese named entity recognition method based on multi-mode information selective fusion
US11817079B1 (en) GAN-based speech synthesis model and training method
Amal et al. Hand kinesics in Indian sign language using NLP techniques with SVM based polarity
CN113555006B (en) Voice information identification method and device, electronic equipment and storage medium
Tripathy Audio to Indian sign language interpreter (AISLI) using machine translation and NLP techniques
Dandge et al. Multilingual Global Translation using Machine Learning
KR102606415B1 (en) Apparatus and method for contextual intent recognition using speech recognition based on deep learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant