KR102380998B1

KR102380998B1 - 유효 발화문 인식 학습 장치, 유효 발화문 인식 학습 방법, 유효 발화문 인식 장치 및 유효 발화문 인식 방법

Info

Publication number: KR102380998B1
Application number: KR1020200001322A
Authority: KR
Inventors: 왕지현; 이충희
Original assignee: 주식회사 엔씨소프트
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2022-03-31
Also published as: KR20210088155A

Abstract

본 발명의 일실시예에 따르면, 하나 이상의 명령어를 저장하는 메모리 및 상기 하나 이상의 명령어를 실행하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 유효 발화 여부에 대한 정보가 태깅(tagging)된 적어도 하나의 입력 시퀀스(input sequence)를 기초로 상기 적어도 하나의 입력 시퀀스의 문맥적 특징에 대한 제1 정보를 생성하고, 상기 생성한 제1 정보 및 상기 태깅(tagging)된 유효 발화 여부에 대한 정보를 기초로 뉴럴 네트워크를 학습시킨다.

Description

유효 발화문 인식 학습 장치, 유효 발화문 인식 학습 방법, 유효 발화문 인식 장치 및 유효 발화문 인식 방법{LEARNING DEVICE, LEARNING METHOD, DEVICE AND METHOD FOR VALID UTTERANCE RECOGNITION}

아래의 실시예들은 유효 발화문 인식 학습 장치, 유효 발화문 인식 학습 방법, 유효 발화문 인식 장치 및 유효 발화문 인식 방법에 관한 것이다.

자연 언어(또는 자연어, Natural Language)란 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 오며, 오랜 세월에 걸쳐 자연적으로 만들어진 언어를 의미한다.

자연어 처리(Natural Language Processing)란 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말한다.

머신 러닝(machine learning)은 인공 지능의 한 분야로, 패턴인식과 컴퓨터 학습 이론의 연구로부터 진화한 분야이며, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다.

머신 러닝의 핵심은 표현(representation)과 일반화(generalization)에 있다. 표현이란 데이터의 평가이며, 일반화란 아직 알 수 없는 데이터에 대한 처리이다. 이는 전산 학습 이론 분야이기도 하다.

딥 러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습(machine learning) 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있다.

본 발명의 실시예에 따르면, 입력 시퀀스의 문맥적 특징을 추출하고, 상기 추출한 문맥적 특징을 기초로 뉴럴 네트워크를 학습시킬 수 있는 유효 발화문 인식 학습 장치 및 유효 발화문 인식 학습 방법을 제공할 수 있다.

또한, 본 발명의 다른 실시예에 따르면, 입력 시퀀스의 문맥적 특징 및 현재 발화문의 의도(intent)를 추출하고, 상기 추출한 문맥적 특징 및 상기 현재 발화문의 의도를 기초로 뉴럴 네트워크를 학습시킬 수 있는 유효 발화문 인식 학습 장치 및 유효 발화문 인식 학습 방법을 제공할 수 있다.

또한, 본 발명의 또 다른 실시예에 따르면, 발화문들 사이의 간격과 무관하게 유효 발화문을 인식할 수 있는 유효 발화문 인식 학습 장치 및 유효 발화문 인식 학습 방법을 제공할 수 있다.

또한, 본 발명의 또 다른 실시예에 따르면, 입력 시퀀스의 문맥적 특징을 추출하고, 상기 추출한 문맥적 특징을 기초로 이전 발화문이 유효 발화문인지 여부를 결정할 수 있는 유효 발화문 인식 장치 및 유효 발화문 인식 방법을 제공할 수 있다.

또한, 본 발명의 또 다른 실시예에 따르면, 입력 시퀀스의 문맥적 특징 및 현재 발화문의 의도(intent)를 추출하고, 상기 추출한 문맥적 특징 및 상기 현재 발화문의 의도를 기초로 이전 발화문이 유효 발화문인지 여부를 결정할 수 있는 유효 발화문 인식 장치 및 유효 발화문 인식 방법을 제공할 수 있다.

또한, 본 발명의 또 다른 실시예에 따르면, 발화문들 사이의 간격과 무관하게 유효 발화문을 결정할 수 있는 유효 발화문 인식 장치 및 유효 발화문 인식 방법을 제공할 수 있다.

또한, 상기 적어도 하나의 입력 시퀀스(input sequence)는, 유효 발화 여부에 대한 정보가 태깅된 적어도 하나의 이전 발화문과 현재 발화문을 포함할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰(token)화 하고, 상기 토큰(token)화 한 상기 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 제2 정보를 획득하고, 상기 획득한 제2 정보에 대한 문맥적 특징을 추출할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 상기 현재 발화문의 의도(intent)에 대한 제3 정보를 생성하고, 상기 제1 정보, 상기 제3 정보 및 상기 태깅된 유효 발화 여부에 대한 정보를 기초로 상기 뉴럴 네트워크를 학습시킬 수 있다.

본 발명의 다른 실시예에 따르면, 유효 발화 여부에 대한 정보가 태깅된 적어도 하나의 입력 시퀀스(input sequence)를 기초로 상기 적어도 하나의 입력 시퀀스의 문맥적 특징에 대한 제1 정보를 생성하는 동작 및 상기 생성한 제1 정보 및 상기 태깅된 유효 발화 여부에 대한 정보를 기초로 뉴럴 네트워크를 학습시키는 동작을 포함한다.

또한, 상기 제1 정보를 생성하는 동작은, 상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰(token)화 하는 동작, 상기 토큰(token)화 한 상기 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 제2 정보를 획득하는 동작 및 상기 획득한 제2 정보에 대한 문맥적 특징을 추출하는 동작을 포함할 수 있다.

또한, 상기 유효 발화문 인식 학습 방법은, 상기 현재 발화문의 의도(intent)에 대한 제3 정보를 생성하는 동작 및 상기 제1 정보, 제3 정보 및 상기 태깅된 유효 발화 여부에 대한 정보를 기초로 뉴럴 네트워크를 학습시키는 동작을 포함할 수 있다.

본 발명의 또 다른 실시예에 따르면, 하나 이상의 명령어를 저장하는 메모리 및 상기 하나 이상의 명령어를 실행하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 이전 발화문과 현재 발화문을 포함하는 적어도 하나의 입력 시퀀스(input sequence)를 기초로 상기 적어도 하나의 입력 시퀀스의 문맥적 특징에 대한 제1 정보를 생성하고, 상기 생성한 제1 정보를 기초로 상기 이전 발화문이 유효 발화문인지 여부를 결정한다.

또한, 상기 적어도 하나의 프로세서는, 상기 현재 발화문의 의도(intent)에 대한 제3 정보를 생성하고, 상기 제1 정보 및 상기 제3 정보를 기초로 상기 이전 발화문이 유효 발화문인지 여부를 결정할 수 있다.

본 발명의 또 다른 실시예에 따르면, 이전 발화문과 현재 발화문의 두 문장을 포함하는 적어도 하나의 입력 시퀀스(input sequence)를 기초로 상기 적어도 하나의 입력 시퀀스의 문맥적 특징에 대한 제1 정보를 생성하는 동작 및 상기 생성한 제1 정보를 기초로 상기 이전 발화문이 유효 발화문인지 여부를 결정하는 동작을 포함한다.

또한, 상기 유효 발화문 인식 방법은, 상기 현재 발화문의 의도(intent)에 대한 제3 정보를 생성하는 동작 및 상기 제1 정보, 제3 정보 및 상기 태깅된 유효 발화 여부에 대한 정보를 기초로 뉴럴 네트워크를 학습시키는 동작을 포함할 수 있다.

본 발명의 일실시예에 따르면, 입력 시퀀스의 문맥적 특징을 추출하고, 상기 추출한 문맥적 특징을 기초로 뉴럴 네트워크를 학습시킬 수 있는 효과가 있다.

또한, 입력 시퀀스의 문맥적 특징 및 현재 발화문의 의도(intent)를 추출하고, 상기 추출한 문맥적 특징 및 상기 현재 발화문의 의도를 기초로 뉴럴 네트워크를 학습시킬 수 있는 효과가 있다.

또한, 발화문들 사이의 간격과 무관하게 유효 발화문을 인식할 수 있는 효과가 있다.

또한, 입력 시퀀스의 문맥적 특징을 추출하고, 상기 추출한 문맥적 특징을 기초로 이전 발화문이 유효 발화문인지 여부를 결정할 수 있는 효과가 있다.

또한, 입력 시퀀스의 문맥적 특징 및 현재 발화문의 의도(intent)를 추출하고, 상기 추출한 문맥적 특징 및 상기 현재 발화문의 의도를 기초로 이전 발화문이 유효 발화문인지 여부를 결정할 수 있는 효과가 있다.

또한, 발화문들 사이의 간격과 무관하게 유효 발화문을 결정할 수 있는 효과가 있다.

도 1은 일실시예에 따른 유효 발화문 인식 학습 장치의 구성을 나타내는 도면이다.
도 2는 일실시예에 따른 유효 발화문 인식 학습 방법을 나타내는 플로우 차트이다.
도 3은 다른 실시예에 따른 유효 발화문 인식 학습 장치의 구성을 나타내는 도면이다.
도 4는 다른 실시예에 따른 유효 발화문 인식 학습 방법을 나타내는 플로우 차트이다.
도 5는 일실시예에 따른 유효 발화문 인식 장치의 구성을 나타내는 도면이다.
도 6은 일실시예에 따른 유효 발화문 인식 방법을 나타내는 플로우 차트이다.
도 7은 다른 실시예에 따른 유효 발화문 인식 장치의 구성을 나타내는 도면이다.
도 8은 다른 실시예에 따른 유효 발화문 인식 방법을 나타내는 플로우 차트이다.
도 9는 본 발명의 일실시예를 구현하기 위한 예시적인 컴퓨터 시스템의 블록도이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.

본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소는 제1구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하의 설명에서 동일한 식별 기호는 동일한 구성을 의미하며, 불필요한 중복적인 설명 및 공지 기술에 대한 설명은 생략하기로 한다.

본 발명의 실시 예에서 '통신', '통신망' 및 '네트워크'는 동일한 의미로 사용될 수 있다. 상기 세 용어들은, 파일을 사용자 단말, 다른 사용자들의 단말 및 다운로드 서버 사이에서 송수신할 수 있는 유무선의 근거리 및 광역 데이터 송수신망을 의미한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.

도 1은 일실시예에 따른 유효 발화문 인식 학습 장치의 구성을 나타내는 도면이다.

도 1을 참조하면, 일실시예에 따른 유효 발화문 인식 학습 장치(100)는 전처리 모듈(110), 특징 추출 모듈(120) 및 분류 모듈(130)을 포함한다.

유효 발화문 인식 학습 장치(100)를 구성하는 전처리 모듈(110), 특징 추출 모듈(120) 및 분류 모듈(130)은 상호 연결되어 있으며, 상호 데이터를 전송하는 것이 가능하다.

유효 발화문 인식 학습 장치(100)는 유효 발화 여부에 대한 정보가 태깅(tagging, 이하 ‘태깅’이라 한다)된 적어도 하나의 입력 시퀀스(input sequence)를 입력 받을 수 있다. 이때, 상기 적어도 하나의 입력 시퀀스(input sequence)는, 유효 발화 여부에 대한 정보가 태깅된 적어도 하나의 이전 발화문과 현재 발화문의 두 문장을 포함할 수 있으나, 상기 적어도 하나의 입력 시퀀스(input sequence)가 이에 한정되는 것은 아니다. 또한, 상기 유효 발화 여부에 대한 정보는 상기 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 상기 이전 발화문이 유효한 발화문인 경우 “1”, 상기 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 상기 이전 발화문이 유효하지 않은 발화문인 경우 “0”으로 태깅될 수 있고, 그 역도 가능하나, 상기 유효 발화 여부에 대한 정보가 상기 적어도 하나의 입력 시퀀스(input sequence)에 태깅되는 방법이 이에 한정되는 것은 아니다.

유효 발화문 인식 학습 장치(100)는 이전 발화문이 복수개인 경우 상기 이전 발화문의 개수와 동일한 입력 시퀀스(input sequence)를 입력 받을 수 있다.

유효 발화문 인식 학습 장치(100)는 적어도 하나의 입력 시퀀스(input sequence)에 태깅된 유효 발화 여부에 대한 정보(예컨대, “1” 또는 “0”)를 획득하여 분류 모듈(130)에 입력할 수 있다.

전처리 모듈(110)은 상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩(embedding, 이하 ‘임베딩’이라 한다)할 수 있다. 이때, 상기 임베딩은 토큰의 위치에 관한 포지션 임베딩, 하나의 입력 시퀀스가 여러 개의 문장을 포함할 경우, 각 문장별로 임베딩하는 세그먼트 임베딩 및 토크나이저(tokenizer)를 기초로 한 토큰 임베딩 일 수 있으나, 상기 임베딩이 이에 한정되는 것은 아니다.

전처리 모듈(110)은 상기 적어도 하나의 입력 시퀀스(input sequence)를 형태소(morpheme) 또는 띄어쓰기 단위로 토큰화 할 수 있으나, 상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰화 하는 단위가 이에 한정되는 것은 아니다.

일실시예에 따라 전처리 모듈(110)이 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩하는 것으로 표현하였으나, 다른 실시예에 따라 유효 발화문 인식 학습 장치(100)의 외부에서 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩한 데이터를 생성하고, 상기 생성한 데이터를 유효 발화문 인식 학습 장치(100)가 입력 받아 이후의 동작을 수행하는 것도 가능하다.

전처리 모듈(110)은 미리 설정된 모델을 기초로 토큰(token)화 한 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 제2 정보를 획득할 수 있다. 이때, 상기 미리 설정된 모델은 BERT(Bidirectional Encoder Representations from Transformers)일 수 있으나, 상기 미리 설정된 모델이 이에 한정되는 것은 아니다.

전처리 모듈(110)은 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간에 형성된 문맥 또는 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간의 연관성에 대한 제2 정보를 획득할 수 있다. 이때, 상기 제2 정보의 형태는 벡터일 수 있으나, 상기 제2 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(120)은 미리 설정된 뉴럴 네트워크를 기초로 상기 획득한 제2 정보에 대한 문맥적 특징을 추출할 수 있다. 이때, 상기 미리 설정된 뉴럴 네트워크는 미리 학습된 합성곱 신경망(Convolutional Neural Networks, CNN)일 수 있으나, 상기 미리 설정된 뉴럴 네트워크가 이에 한정되는 것은 아니다.

특징 추출 모듈(120)은 상기 획득한 제2 정보를 기초로 입력 시퀀스를 구성하는 이전 발화문과 현재 발화문의 텍스트의 순서, 문맥 정보 등의 지역적인 정보를 문맥적 특징으로 추출할 수 있다.

특징 추출 모듈(120)은 상기 획득한 제2 정보를 기초로 입력 시퀀스를 구성하는 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간의 연관성에 대한 정보를 문맥적 특징으로 추출할 수 있다.

특징 추출 모듈(120)은 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 임베딩을 이미지의 한 픽셀로 가정하여 윈도우 사이즈(window size)(n)에 따라 n-그램 토큰 표현 정보를 추출하여 지역적 정보가 보존된 문맥적 특징을 추출할 수 있다.

특징 추출 모듈(120)은 추출한 문맥적 특징을 기초로 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(120)은 미리 설정된 뉴럴 네트워크(예컨대, 미리 학습된 합성곱 신경망(Convolutional Neural Networks, CNN))를 통해 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 지역적 정보가 보존된 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(120)은 미리 설정된 뉴럴 네트워크(예컨대, 합성곱 신경망(Convolutional Neural Networks, CNN))를 통해 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 연관성에 대한 정보가 보존된 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

분류 모듈(130)은 유효 발화문 인식을 학습시키기 위한 분류기(예컨대, Softmax Classifier)를 포함할 수 있다.

분류 모듈(130)은 특징 추출 모듈(120)이 생성한 제1 정보 및 태깅(tagging)된 유효 발화 여부에 대한 정보를 기초로 분류기를 학습시킬 수 있다.

분류 모듈(130)은 가중치 매트릭스를 이용하여 특징 추출 모듈(120)이 생성한 제1 정보를 분류할 수 있다.

분류 모듈(130)은 특징 추출 모듈(120)이 생성한 제1 정보를 기초로 입력 시퀀스를 분류한 정보(예컨대, “1” 또는 “0”)와, 태깅(tagging)된 유효 발화 여부에 대한 정보(예컨대, “1” 또는 “0”)를 비교하여 분류기를 학습시킬 수 있다.

분류 모듈(130)은 특징 추출 모듈(120)이 생성한 제1 정보를 기초로 입력 시퀀스를 분류한 정보(예컨대, “1” 또는 “0”)가 태깅(tagging)된 유효 발화 여부에 대한 정보(예컨대, “1” 또는 “0”)와 동일할 때까지, 분류기를 학습시킬 수 있다.

분류 모듈(130)은 가중치 매트릭스의 가중치를 조절하도록 분류기를 학습시킬 수 있다.

분류 모듈(130)은 분류기를 학습시키기 위하여 역전파(BackPropagation)를 이용할 수 있으나, 상기 분류기를 학습시키기 위하여 이용하는 방법이 이에 한정되는 것은 아니다.

여기서 사용된 '모듈'이라는 용어는 논리적인 구성 단위를 나타내는 것으로서, 반드시 물리적으로 구분되는 구성 요소가 아니라는 점은 본 발명이 속하는 기술분야의 당업자에게 자명한 사항이다.

도 2는 일실시예에 따른 유효 발화문 인식 학습 방법을 나타내는 플로우 차트이다.

도 2를 참조하면, 유효 발화문 인식 학습 장치가 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩(embedding)한다(200).

이때, 입력 시퀀스(input sequence)는 유효 발화 여부에 대한 정보가 태깅된 적어도 하나의 이전 발화문과 현재 발화문을 포함할 수 있다.

또한, 상기 유효 발화문 인식 학습 장치는 입력 시퀀스(input sequence)를 형태소(morpheme) 또는 띄어쓰기 단위로 토큰화 할 수 있으나, 상기 입력 시퀀스(input sequence)를 토큰화 하는 단위가 이에 한정되는 것은 아니다.

또한, 상기 임베딩은 토큰의 위치에 관한 포지션 임베딩, 하나의 입력 시퀀스가 여러 개의 문장을 포함할 경우, 각 문장별로 임베딩하는 세그먼트 임베딩 및 토크나이저(tokenizer)를 기초로 한 토큰 임베딩 일 수 있으나, 상기 임베딩이 이에 한정되는 것은 아니다.

일실시예에 따라 상기 유효 발화문 인식 학습 장치가 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩하는 것으로 표현하였으나, 다른 실시예에 따라 상기 유효 발화문 인식 학습 장치의 외부에서 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩한 데이터를 생성하고, 상기 생성한 데이터를 상기 유효 발화문 인식 학습 장치가 입력 받아 이후의 동작을 수행하는 것도 가능하다.

유효 발화문 인식 학습 장치가 상기 토큰(token)화 한 상기 입력 시퀀스(input sequence)의 문맥에 대한 정보를 획득한다(210).

이때, 상기 유효 발화문 인식 학습 장치는 미리 설정된 모델을 기초로 토큰(token)화 한 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 정보를 획득할 수 있다. 이때, 상기 미리 설정된 모델은 BERT(Bidirectional Encoder Representations from Transformers)일 수 있으나, 상기 미리 설정된 모델이 이에 한정되는 것은 아니다.

또한, 상기 유효 발화문 인식 학습 장치는 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간에 형성된 문맥 또는 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간의 연관성에 대한 정보를 획득할 수 있다.

유효 발화문 인식 학습 장치가 상기 획득한 정보에 대한 문맥적 특징을 추출하여 문맥적 특징에 대한 정보를 생성한다(220).

이때, 상기 유효 발화문 인식 학습 장치는 미리 설정된 뉴럴 네트워크를 기초로 상기 획득한 정보에 대한 문맥적 특징을 추출할 수 있다. 이때, 상기 미리 설정된 뉴럴 네트워크는 미리 학습된 합성곱 신경망(Convolutional Neural Networks, CNN)일 수 있으나, 상기 미리 설정된 뉴럴 네트워크가 이에 한정되는 것은 아니다.

또한, 상기 유효 발화문 인식 학습 장치는 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 임베딩을 이미지의 한 픽셀로 가정하여 윈도우 사이즈(window size)(n)에 따라 n-그램 토큰 표현 정보를 추출하여 지역적 정보가 보존된 문맥적 특징을 추출할 수 있다.

또한, 상기 유효 발화문 인식 학습 장치는 추출한 문맥적 특징을 기초로 문맥적 특징에 대한 정보를 생성할 수 있다.

유효 발화문 인식 학습 장치가 문맥적 특징에 대한 정보 및 태깅(tagging)된 유효 발화 여부에 대한 정보를 기초로 뉴럴 네트워크를 학습한다(230).

이때, 상기 유효 발화문 인식 학습 장치는 가중치 매트릭스를 이용하여 문맥적 특징에 대한 정보를 분류할 수 있다.

또한, 상기 유효 발화문 인식 학습 장치는 문맥적 특징에 대한 정보를 기초로 입력 시퀀스를 분류한 정보(예컨대, “1” 또는 “0”)와, 태깅(tagging)된 유효 발화 여부에 대한 정보(예컨대, “1” 또는 “0”)를 비교하여 뉴럴 네트워크를 학습시킬 수 있다.

도 3은 다른 실시예에 따른 유효 발화문 인식 학습 장치의 구성을 나타내는 도면이다.

도 3을 참조하면, 다른 실시예에 따른 유효 발화문 인식 학습 장치(300)는 전처리 모듈(310), 특징 추출 모듈(320), 인텐트(intent) 모듈(330) 및 분류 모듈(340)을 포함한다.

유효 발화문 인식 학습 장치(300)를 구성하는 전처리 모듈(310), 특징 추출 모듈(320), 인텐트(intent) 모듈(330) 및 분류 모듈(340)은 상호 연결되어 있으며, 상호 데이터를 전송하는 것이 가능하다.

유효 발화문 인식 학습 장치(300)는 유효 발화 여부에 대한 정보가 태깅(tagging, 이하 ‘태깅’이라 한다)된 적어도 하나의 입력 시퀀스(input sequence)를 입력 받을 수 있다. 이때, 상기 적어도 하나의 입력 시퀀스(input sequence)는, 유효 발화 여부에 대한 정보가 태깅된 적어도 하나의 이전 발화문과 현재 발화문을 포함할 수 있으나, 상기 적어도 하나의 입력 시퀀스(input sequence)가 이에 한정되는 것은 아니다. 또한, 상기 유효 발화 여부에 대한 정보는 상기 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 상기 이전 발화문이 유효한 발화문인 경우 “1”, 상기 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 상기 이전 발화문이 유효하지 않은 발화문인 경우 “0”으로 태깅될 수 있고, 그 역도 가능하나, 상기 유효 발화 여부에 대한 정보가 상기 적어도 하나의 입력 시퀀스(input sequence)에 태깅되는 방법이 이에 한정되는 것은 아니다.

유효 발화문 인식 학습 장치(300)는 이전 발화문이 복수개인 경우 상기 이전 발화문의 개수와 동일한 입력 시퀀스(input sequence)를 입력 받을 수 있다.

유효 발화문 인식 학습 장치(300)는 적어도 하나의 입력 시퀀스(input sequence)에 태깅된 유효 발화 여부에 대한 정보(예컨대, “1” 또는 “0”)를 획득하여 분류 모듈(340)에 입력할 수 있다.

유효 발화문 인식 학습 장치(300)는 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 현재 발화문에 대한 정보를 획득하여 인텐트(intent) 모듈(330)에 입력할 수 있다.

전처리 모듈(310)은 상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩(embedding, 이하 ‘임베딩’이라 한다)할 수 있다. 이때, 상기 임베딩은 토큰의 위치에 관한 포지션 임베딩, 하나의 입력 시퀀스가 여러 개의 문장을 포함할 경우, 각 문장별로 임베딩하는 세그먼트 임베딩 및 토크나이저(tokenizer)를 기초로 한 토큰 임베딩 일 수 있으나, 상기 임베딩이 이에 한정되는 것은 아니다.

전처리 모듈(310)은 상기 적어도 하나의 입력 시퀀스(input sequence)를 형태소(morpheme) 또는 띄어쓰기 단위로 토큰화 할 수 있으나, 상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰화 하는 단위가 이에 한정되는 것은 아니다.

일실시예에 따라 전처리 모듈(310)이 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩하는 것으로 표현하였으나, 다른 실시예에 따라 유효 발화문 인식 학습 장치(300)의 외부에서 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩한 데이터를 생성하고, 상기 생성한 데이터를 유효 발화문 인식 학습 장치(300)가 입력 받아 이후의 동작을 수행하는 것도 가능하다.

전처리 모듈(310)은 미리 설정된 모델을 기초로 토큰(token)화 한 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 제2 정보를 획득할 수 있다. 이때, 상기 미리 설정된 모델은 BERT(Bidirectional Encoder Representations from Transformers)일 수 있으나, 상기 미리 설정된 모델이 이에 한정되는 것은 아니다.

전처리 모듈(310)은 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간에 형성된 문맥 또는 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간의 연관성에 대한 제2 정보를 획득할 수 있다. 이때, 상기 제2 정보의 형태는 벡터일 수 있으나, 상기 제2 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(320)은 미리 설정된 뉴럴 네트워크를 기초로 상기 획득한 제2 정보에 대한 문맥적 특징을 추출할 수 있다. 이때, 상기 미리 설정된 뉴럴 네트워크는 미리 학습된 합성곱 신경망(Convolutional Neural Networks, CNN)일 수 있으나, 상기 미리 설정된 뉴럴 네트워크가 이에 한정되는 것은 아니다.

특징 추출 모듈(320)은 상기 획득한 제2 정보를 기초로 입력 시퀀스를 구성하는 이전 발화문과 현재 발화문의 텍스트의 순서, 문맥 정보 등의 지역적인 정보를 문맥적 특징으로 추출할 수 있다.

특징 추출 모듈(320)은 상기 획득한 제2 정보를 기초로 입력 시퀀스를 구성하는 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간의 연관성에 대한 정보를 문맥적 특징으로 추출할 수 있다.

특징 추출 모듈(320)은 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 임베딩을 이미지의 한 픽셀로 가정하여 윈도우 사이즈(window size)(n)에 따라 n-그램 토큰 표현 정보를 추출하여 지역적 정보가 보존된 문맥적 특징을 추출할 수 있다.

특징 추출 모듈(320)은 추출한 문맥적 특징을 기초로 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(320)은 미리 설정된 뉴럴 네트워크(예컨대, 미리 학습된 합성곱 신경망(Convolutional Neural Networks, CNN))를 통해 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 지역적 정보가 보존된 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(320)은 미리 설정된 뉴럴 네트워크(예컨대, 합성곱 신경망(Convolutional Neural Networks, CNN))를 통해 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 연관성에 대한 정보가 보존된 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

인텐트(intent) 모듈(330)은 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 현재 발화문의 의도(intent)를 미리 설정된 유형 중 어느 하나로 분류할 수 있다. 이때, 상기 미리 설정된 유형은 현재 발화문에 따라 변경된다.

일실시예에 따라, 인텐트(intent) 모듈(330)은 현재 발화문이 야구 분야의 대화인 경우, 현재 발화문을 경기일정, 구장, 매치 업, 기관_팀, 인물_선수 등을 포함하는 야구와 관련된 53개의 유형 중 어느 하나로 분류할 수 있으나, 상기 야구와 관련된 유형이 이에 한정되는 것은 아니다.

인텐트(intent) 모듈(330)은 분류한 현재 발화문의 의도를 One-hot 임베딩 방식으로 표현할 수 있다.

인텐트(intent) 모듈(330)은 분류한 현재 발화문의 의도를 미리 설정된 벡터(예컨대, 현재 발화문의 의도를 분류해 놓은 벡터)들 중 어느 하나와 매칭시켜 제3 정보를 생성할 수 있다. 상기 제3 정보의 형태는 벡터 일 수 있으나, 상기 제3 정보의 형태가 이에 한정되는 것은 아니다.

일실시예에 따라, 유효 발화문 인식 학습 장치(300)는 특징 추출 모듈(320)이 생성한 제1 정보와 인텐트(intent) 모듈(330)이 생성한 제3 정보를 연결(concatenate)할 수 있다. 또한, 다른 실시예에 따라, 특징 추출 모듈(320)은 특징 추출 모듈(320)이 생성한 제1 정보와 인텐트(intent) 모듈(330)이 생성한 제3 정보를 연결(concatenate)할 수 있다. 또한, 또 다른 실시예에 따라, 인텐트(intent) 모듈(330)은 특징 추출 모듈(320)이 생성한 제1 정보와 인텐트(intent) 모듈(330)이 생성한 제3 정보를 연결(concatenate)할 수 있다. 이때, 제1 정보와 제3 정보의 연결(concatenate)은 벡터의 연결일 수 있으나, 제1 정보와 제3 정보의 연결(concatenate)이 이에 한정되는 것은 아니다.

분류 모듈(340)은 유효 발화문 인식을 학습시키기 위한 분류기(예컨대, Softmax Classifier)를 포함할 수 있다.

분류 모듈(340)은 특징 추출 모듈(320)이 생성한 제1 정보, 인텐트 모듈(330)이 생성한 제3 정보 및 태깅(tagging)된 유효 발화 여부에 대한 정보를 기초로 분류기를 학습시킬 수 있다. 이때, 특징 추출 모듈(320)이 생성한 제1 정보 및 인텐트 모듈(330)이 생성한 제3 정보는 연결(concatenate)될 수 있다.

분류 모듈(340)은 가중치 매트릭스를 이용하여 특징 추출 모듈(320)이 생성한 제1 정보 및 인텐트 모듈(330)이 생성한 제3 정보를 분류할 수 있다. 이때, 특징 추출 모듈(320)이 생성한 제1 정보 및 인텐트 모듈(330)이 생성한 제3 정보는 연결(concatenate)될 수 있다.

분류 모듈(340)은 특징 추출 모듈(320)이 생성한 제1 정보 및 인텐트 모듈(330)이 생성한 제3 정보를 기초로 입력 시퀀스를 분류한 정보(예컨대, “1” 또는 “0”)와, 태깅(tagging)된 유효 발화 여부에 대한 정보(예컨대, “1” 또는 “0”)를 비교하여 분류기를 학습시킬 수 있다. 이때, 특징 추출 모듈(320)이 생성한 제1 정보 및 인텐트 모듈(330)이 생성한 제3 정보는 연결(concatenate)될 수 있다.

분류 모듈(340)은 특징 추출 모듈(320)이 생성한 제1 정보 및 인텐트 모듈(330)이 생성한 제3 정보를 기초로 입력 시퀀스를 분류한 정보(예컨대, “1” 또는 “0”)가 태깅(tagging)된 유효 발화 여부에 대한 정보(예컨대, “1” 또는 “0”)와 동일할 때까지, 분류기를 학습시킬 수 있다. 이때, 특징 추출 모듈(320)이 생성한 제1 정보 및 인텐트 모듈(330)이 생성한 제3 정보는 연결(concatenate)될 수 있다.

분류 모듈(340)은 가중치 매트릭스의 가중치를 조절하도록 분류기를 학습시킬 수 있다.

분류 모듈(340)은 분류기를 학습시키기 위하여 역전파(BackPropagation)를 이용할 수 있으나, 상기 분류기를 학습시키기 위하여 이용하는 방법이 이에 한정되는 것은 아니다.

도 4는 다른 실시예에 따른 유효 발화문 인식 학습 방법을 나타내는 플로우 차트이다.

도 4를 참조하면, 유효 발화문 인식 학습 장치가 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩(embedding)하고, 현재 발화문 정보를 획득한다(400).

유효 발화문 인식 학습 장치가 상기 토큰(token)화 한 상기 입력 시퀀스(input sequence)의 문맥에 대한 정보를 획득한다(410).

유효 발화문 인식 학습 장치가 상기 획득한 정보에 대한 문맥적 특징을 추출하여 문맥적 특징에 대한 정보를 생성한다(420).

유효 발화문 인식 학습 장치가 입력 시퀀스(input sequence)를 구성하는 현재 발화문의 의도(intent)에 대한 정보를 생성한다(430).

이때, 상기 유효 발화문 인식 학습 장치는 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 현재 발화문의 의도(intent)를 미리 설정된 유형 중 어느 하나로 분류할 수 있다. 이때, 상기 미리 설정된 유형은 현재 발화문에 따라 변경된다.

또한, 상기 유효 발화문 인식 학습 장치는 분류한 현재 발화문의 의도를 One-hot 임베딩 방식으로 표현할 수 있다.

또한, 상기 유효 발화문 인식 학습 장치는 분류한 현재 발화문의 의도를 미리 설정된 벡터(예컨대, 현재 발화문의 의도를 분류해 놓은 벡터)들 중 어느 하나와 매칭시켜 현재 발화문의 의도에 대한 정보를 생성할 수 있다. 상기 현재 발화문의 의도에 대한 정보의 형태는 벡터 일 수 있으나, 상기 현재 발화문의 의도에 대한 정보의 형태가 이에 한정되는 것은 아니다.

비록 도 4에서는 410 및 420 동작이 430 동작보다 먼저 수행되는 것으로 예시되어 있으나, 410 및 420 동작과 430 동작은 동시, 병렬력 또는 오버랩되어 수행될 수도 있고, 410 및 420의 동작이 430 동작보다 나중에 수행될 수 있다.

유효 발화문 인식 학습 장치가 문맥적 특징에 대한 정보와 현재 발화문의 의도에 대한 정보를 연결(concatenate)한다(440).

이때, 상기 유효 발화문 인식 학습 장치는 벡터의 연결을 이용하여 문맥적 특징에 대한 정보와 현재 발화문의 의도에 대한 정보를 연결(concatenate)할 수 있다.

유효 발화문 인식 학습 장치가 문맥적 특징에 대한 정보와 현재 발화문의 의도에 대한 정보가 연결된 정보 및 태깅된 유효 발화여부에 대한 정보를 기초로 뉴럴 네트워크를 학습한다(450).

이때, 상기 유효 발화문 인식 학습 장치는 가중치 매트릭스를 이용하여 문맥적 특징에 대한 정보와 현재 발화문의 의도에 대한 정보가 연결된 정보를 분류할 수 있다.

또한, 상기 유효 발화문 인식 학습 장치는 문맥적 특징에 대한 정보와 현재 발화문의 의도에 대한 정보가 연결된 정보를 기초로 입력 시퀀스를 분류한 정보(예컨대, “1” 또는 “0”)와, 태깅(tagging)된 유효 발화 여부에 대한 정보(예컨대, “1” 또는 “0”)를 비교하여 뉴럴 네트워크를 학습시킬 수 있다.

도 5는 일실시예에 따른 유효 발화문 인식 장치의 구성을 나타내는 도면이다.

도 5를 참조하면, 일실시예에 따른 유효 발화문 인식 장치(500)는 전처리 모듈(510), 특징 추출 모듈(520) 및 분류 모듈(530)을 포함한다.

유효 발화문 인식 장치(500)를 구성하는 전처리 모듈(510), 특징 추출 모듈(520) 및 분류 모듈(530)은 상호 연결되어 있으며, 상호 데이터를 전송하는 것이 가능하다.

유효 발화문 인식 장치(500)는 적어도 하나의 입력 시퀀스(input sequence)를 입력 받을 수 있다. 이때, 상기 적어도 하나의 입력 시퀀스(input sequence)는, 적어도 하나의 이전 발화문과 현재 발화문을 포함할 수 있으나, 상기 적어도 하나의 입력 시퀀스(input sequence)가 이에 한정되는 것은 아니다.

유효 발화문 인식 장치(100)는 이전 발화문이 복수개인 경우 상기 이전 발화문의 개수와 동일한 입력 시퀀스(input sequence)를 입력 받을 수 있다.

전처리 모듈(510)은 상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩(embedding, 이하 ‘임베딩’이라 한다)할 수 있다. 이때, 상기 임베딩은 토큰의 위치에 관한 포지션 임베딩, 하나의 입력 시퀀스가 여러 개의 문장을 포함할 경우, 각 문장별로 임베딩하는 세그먼트 임베딩 및 토크나이저(tokenizer)를 기초로 한 토큰 임베딩 일 수 있으나, 상기 임베딩이 이에 한정되는 것은 아니다.

전처리 모듈(510)은 상기 적어도 하나의 입력 시퀀스(input sequence)를 형태소(morpheme) 또는 띄어쓰기 단위로 토큰화 할 수 있으나, 상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰화 하는 단위가 이에 한정되는 것은 아니다.

일실시예에 따라 전처리 모듈(510)이 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩하는 것으로 표현하였으나, 다른 실시예에 따라 유효 발화문 인식 장치(500)의 외부에서 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩한 데이터를 생성하고, 상기 생성한 데이터를 유효 발화문 인식 장치(500)가 입력 받아 이후의 동작을 수행하는 것도 가능하다.

전처리 모듈(510)은 미리 설정된 모델을 기초로 토큰(token)화 한 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 제2 정보를 획득할 수 있다. 이때, 상기 미리 설정된 모델은 BERT(Bidirectional Encoder Representations from Transformers)일 수 있으나, 상기 미리 설정된 모델이 이에 한정되는 것은 아니다.

전처리 모듈(510)은 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간에 형성된 문맥 또는 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간의 연관성에 대한 제2 정보를 획득할 수 있다. 이때, 상기 제2 정보의 형태는 벡터일 수 있으나, 상기 제2 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(520)은 미리 설정된 뉴럴 네트워크를 기초로 상기 획득한 제2 정보에 대한 문맥적 특징을 추출할 수 있다. 이때, 상기 미리 설정된 뉴럴 네트워크는 미리 학습된 합성곱 신경망(Convolutional Neural Networks, CNN)일 수 있으나, 상기 미리 설정된 뉴럴 네트워크가 이에 한정되는 것은 아니다.

특징 추출 모듈(520)은 상기 획득한 제2 정보를 기초로 입력 시퀀스를 구성하는 이전 발화문과 현재 발화문의 텍스트의 순서, 문맥 정보 등의 지역적인 정보를 문맥적 특징으로 추출할 수 있다.

특징 추출 모듈(520)은 상기 획득한 제2 정보를 기초로 입력 시퀀스를 구성하는 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간의 연관성에 대한 정보를 문맥적 특징으로 추출할 수 있다.

특징 추출 모듈(520)은 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 임베딩을 이미지의 한 픽셀로 가정하여 윈도우 사이즈(window size)(n)에 따라 n-그램 토큰 표현 정보를 추출하여 지역적 정보가 보존된 문맥적 특징을 추출할 수 있다.

특징 추출 모듈(520)은 추출한 문맥적 특징을 기초로 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(520)은 미리 설정된 뉴럴 네트워크(예컨대, 미리 학습된 합성곱 신경망(Convolutional Neural Networks, CNN))를 통해 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 지역적 정보가 보존된 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(520)은 미리 설정된 뉴럴 네트워크(예컨대, 합성곱 신경망(Convolutional Neural Networks, CNN))를 통해 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 연관성에 대한 정보가 보존된 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

분류 모듈(530)은 유효 발화문 인식을 위한 분류기(예컨대, Softmax Classifier)를 포함할 수 있다.

분류 모듈(530)은 특징 추출 모듈(520)이 생성한 제1 정보를 기초로 적어도 하나의 입력 시퀀스(input sequence)에 포함된 이전 발화문이 유효 발화문인지 여부를 결정할 수 있다.

분류 모듈(530)은 가중치 매트릭스를 이용하여 특징 추출 모듈(120)이 생성한 제1 정보를 분류할 수 있다.

분류 모듈(530)은 특징 추출 모듈(520)이 생성한 제1 정보를 기초로 입력 시퀀스를 분류한 정보(예컨대, 유효 발화문인 경우 “1” 또는 유효하지 않은 발화문인 경우 “0”)를 생성할 수 있다.

분류 모듈(530)은 생성한 정보를 기초로 이전 발화문이 유효 발화문인지 여부에 대한 결과를 출력할 수 있다.

도 6은 일실시예에 따른 유효 발화문 인식 방법을 나타내는 플로우 차트이다.

도 6을 참조하면, 유효 발화문 인식 장치가 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩(embedding)한다(600).

이때, 입력 시퀀스(input sequence)는 적어도 하나의 이전 발화문과 현재 발화문을 포함할 수 있다.

또한, 상기 유효 발화문 인식 장치는 입력 시퀀스(input sequence)를 형태소(morpheme) 또는 띄어쓰기 단위로 토큰화 할 수 있으나, 상기 입력 시퀀스(input sequence)를 토큰화 하는 단위가 이에 한정되는 것은 아니다.

일실시예에 따라 상기 유효 발화문 인식 장치가 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩하는 것으로 표현하였으나, 다른 실시예에 따라 상기 유효 발화문 인식 장치의 외부에서 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩한 데이터를 생성하고, 상기 생성한 데이터를 상기 유효 발화문 인식 장치가 입력 받아 이후의 동작을 수행하는 것도 가능하다.

유효 발화문 인식 장치가 상기 토큰(token)화 한 상기 입력 시퀀스(input sequence)의 문맥에 대한 정보를 획득한다(610).

이때, 상기 유효 발화문 인식 장치는 미리 설정된 모델을 기초로 토큰(token)화 한 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 정보를 획득할 수 있다. 이때, 상기 미리 설정된 모델은 BERT(Bidirectional Encoder Representations from Transformers)일 수 있으나, 상기 미리 설정된 모델이 이에 한정되는 것은 아니다.

또한, 상기 유효 발화문 인식 장치는 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간에 형성된 문맥 또는 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간의 연관성에 대한 정보를 획득할 수 있다.

유효 발화문 인식 장치가 상기 획득한 정보에 대한 문맥적 특징을 추출하여 문맥적 특징에 대한 정보를 생성한다(620).

이때, 상기 유효 발화문 인식 장치는 미리 설정된 뉴럴 네트워크를 기초로 상기 획득한 정보에 대한 문맥적 특징을 추출할 수 있다. 이때, 상기 미리 설정된 뉴럴 네트워크는 미리 학습된 합성곱 신경망(Convolutional Neural Networks, CNN)일 수 있으나, 상기 미리 설정된 뉴럴 네트워크가 이에 한정되는 것은 아니다.

또한, 상기 유효 발화문 인식 장치는 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 임베딩을 이미지의 한 픽셀로 가정하여 윈도우 사이즈(window size)(n)에 따라 n-그램 토큰 표현 정보를 추출하여 지역적 정보가 보존된 문맥적 특징을 추출할 수 있다.

또한, 상기 유효 발화문 인식 장치는 추출한 문맥적 특징을 기초로 문맥적 특징에 대한 정보를 생성할 수 있다.

유효 발화문 인식 장치가 문맥적 특징에 대한 정보를 기초로 적어도 하나의 입력 시퀀스(input sequence)에 포함된 이전 발화문이 유효 발화문인지 여부를 결정한다(630).

이때, 상기 유효 발화문 인식 장치는 가중치 매트릭스를 이용하여 문맥적 특징에 대한 정보를 분류할 수 있다.

또한, 상기 유효 발화문 인식 장치는 문맥적 정보를 기초로 입력 시퀀스를 분류한 정보(예컨대, 유효 발화문인 경우 “1” 또는 유효하지 않은 발화문인 경우 “0”)를 생성할 수 있다.

유효 발화문 인식 장치가 생성한 정보를 기초로 이전 발화문이 유효 발화문인지 여부에 대한 결과를 출력한다(640).

이때, 상기 유효 발화문 인식 장치는 이전 발화문이 유효 발화문인 경우 “1”, 이전 발화문이 유효 발화문이 아닌 경우 “0”을 출력할 수 있으나, 반대로 출력하는 것도 가능하다.

도 7은 다른 실시예에 따른 유효 발화문 인식 장치의 구성을 나타내는 도면이다.

도 7을 참조하면, 다른 실시예에 따른 유효 발화문 인식 장치(700)는 전처리 모듈(710), 특징 추출 모듈(720), 인텐트(intent) 모듈(730) 및 분류 모듈(740)을 포함한다.

유효 발화문 인식 장치(700)를 구성하는 전처리 모듈(710), 특징 추출 모듈(720), 인텐트(intent) 모듈(730) 및 분류 모듈(740)은 상호 연결되어 있으며, 상호 데이터를 전송하는 것이 가능하다.

유효 발화문 인식 장치(700)는 적어도 하나의 입력 시퀀스(input sequence)를 입력 받을 수 있다. 이때, 상기 적어도 하나의 입력 시퀀스(input sequence)는, 적어도 하나의 이전 발화문과 현재 발화문을 포함할 수 있으나, 상기 적어도 하나의 입력 시퀀스(input sequence)가 이에 한정되는 것은 아니다.

유효 발화문 인식 장치(700)는 이전 발화문이 복수개인 경우 상기 이전 발화문의 개수와 동일한 입력 시퀀스(input sequence)를 입력 받을 수 있다.

유효 발화문 인식 장치(700)는 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 현재 발화문에 대한 정보를 획득하여 인텐트(intent) 모듈(330)에 입력할 수 있다.

전처리 모듈(710)은 상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩(embedding, 이하 ‘임베딩’이라 한다)할 수 있다. 이때, 상기 임베딩은 토큰의 위치에 관한 포지션 임베딩, 하나의 입력 시퀀스가 여러 개의 문장을 포함할 경우, 각 문장별로 임베딩하는 세그먼트 임베딩 및 토크나이저(tokenizer)를 기초로 한 토큰 임베딩 일 수 있으나, 상기 임베딩이 이에 한정되는 것은 아니다.

전처리 모듈(710)은 상기 적어도 하나의 입력 시퀀스(input sequence)를 형태소(morpheme) 또는 띄어쓰기 단위로 토큰화 할 수 있으나, 상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰화 하는 단위가 이에 한정되는 것은 아니다.

일실시예에 따라 전처리 모듈(710)이 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩하는 것으로 표현하였으나, 다른 실시예에 따라 유효 발화문 인식 장치(700)의 외부에서 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩한 데이터를 생성하고, 상기 생성한 데이터를 유효 발화문 인식 장치(700)가 입력 받아 이후의 동작을 수행하는 것도 가능하다.

전처리 모듈(710)은 미리 설정된 모델을 기초로 토큰(token)화 한 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 제2 정보를 획득할 수 있다. 이때, 상기 미리 설정된 모델은 BERT(Bidirectional Encoder Representations from Transformers)일 수 있으나, 상기 미리 설정된 모델이 이에 한정되는 것은 아니다.

전처리 모듈(710)은 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간에 형성된 문맥 또는 입력 시퀀스를 토큰(token)화하여 생성된 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간의 연관성에 대한 제2 정보를 획득할 수 있다. 이때, 상기 제2 정보의 형태는 벡터일 수 있으나, 상기 제2 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(720)은 미리 설정된 뉴럴 네트워크를 기초로 상기 획득한 제2 정보에 대한 문맥적 특징을 추출할 수 있다. 이때, 상기 미리 설정된 뉴럴 네트워크는 미리 학습된 합성곱 신경망(Convolutional Neural Networks, CNN)일 수 있으나, 상기 미리 설정된 뉴럴 네트워크가 이에 한정되는 것은 아니다.

특징 추출 모듈(720)은 상기 획득한 제2 정보를 기초로 입력 시퀀스를 구성하는 이전 발화문과 현재 발화문의 텍스트의 순서, 문맥 정보 등의 지역적인 정보를 문맥적 특징으로 추출할 수 있다.

특징 추출 모듈(720)은 상기 획득한 제2 정보를 기초로 입력 시퀀스를 구성하는 토큰들 각각과 상기 토큰들 각각의 좌 우에 존재하는 다른 토큰들 간의 연관성에 대한 정보를 문맥적 특징으로 추출할 수 있다.

특징 추출 모듈(720)은 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 임베딩을 이미지의 한 픽셀로 가정하여 윈도우 사이즈(window size)(n)에 따라 n-그램 토큰 표현 정보를 추출하여 지역적 정보가 보존된 문맥적 특징을 추출할 수 있다.

특징 추출 모듈(720)은 추출한 문맥적 특징을 기초로 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(720)은 미리 설정된 뉴럴 네트워크(예컨대, 미리 학습된 합성곱 신경망(Convolutional Neural Networks, CNN))를 통해 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 지역적 정보가 보존된 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

특징 추출 모듈(720)은 미리 설정된 뉴럴 네트워크(예컨대, 합성곱 신경망(Convolutional Neural Networks, CNN))를 통해 입력 시퀀스를 구성하는 텍스트의 각 토큰들의 연관성에 대한 정보가 보존된 제1 정보를 생성할 수 있다. 이때, 상기 제1 정보의 형태는 벡터 일 수 있으나, 상기 제1 정보의 형태가 이에 한정되는 것은 아니다.

인텐트(intent) 모듈(730)은 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 현재 발화문의 의도(intent)를 미리 설정된 유형 중 어느 하나로 분류할 수 있다. 이때, 상기 미리 설정된 유형은 현재 발화문에 따라 변경된다.

일실시예에 따라, 인텐트(intent) 모듈(730)은 현재 발화문이 야구 분야의 대화인 경우, 현재 발화문을 경기일정, 구장, 매치 업, 기관_팀, 인물_선수 등을 포함하는 야구와 관련된 53개의 유형 중 어느 하나로 분류할 수 있으나, 상기 야구와 관련된 유형이 이에 한정되는 것은 아니다.

인텐트(intent) 모듈(730)은 분류한 현재 발화문의 의도를 One-hot 임베딩 방식으로 표현할 수 있다.

인텐트(intent) 모듈(730)은 분류한 현재 발화문의 의도를 미리 설정된 벡터(예컨대, 현재 발화문의 의도를 분류해 놓은 벡터)들 중 어느 하나와 매칭시켜 제3 정보를 생성할 수 있다. 상기 제3 정보의 형태는 벡터 일 수 있으나, 상기 제3 정보의 형태가 이에 한정되는 것은 아니다.

일실시예에 따라, 유효 발화문 인식 장치(700)는 특징 추출 모듈(720)이 생성한 제1 정보와 인텐트(intent) 모듈(730)이 생성한 제3 정보를 연결(concatenate)할 수 있다. 또한, 다른 실시예에 따라, 특징 추출 모듈(720)은 특징 추출 모듈(720)이 생성한 제1 정보와 인텐트(intent) 모듈(730)이 생성한 제3 정보를 연결(concatenate)할 수 있다. 또한, 또 다른 실시예에 따라, 인텐트(intent) 모듈(730)은 특징 추출 모듈(720)이 생성한 제1 정보와 인텐트(intent) 모듈(730)이 생성한 제3 정보를 연결(concatenate)할 수 있다. 이때, 제1 정보와 제3 정보의 연결(concatenate)은 벡터의 연결일 수 있으나, 제1 정보와 제3 정보의 연결(concatenate)이 이에 한정되는 것은 아니다.

분류 모듈(740)은 유효 발화문 인식을 위한 분류기(예컨대, Softmax Classifier)를 포함할 수 있다.

분류 모듈(740)은 특징 추출 모듈(720)이 생성한 제1 정보 및 인텐트 모듈(730)이 생성한 제3 정보를 기초로 적어도 하나의 입력 시퀀스(input sequence)에 포함된 이전 발화문이 유효 발화문인지 여부를 결정할 수 있다. 이때, 특징 추출 모듈(720)이 생성한 제1 정보 및 인텐트 모듈(730)이 생성한 제3 정보는 연결(concatenate)될 수 있다.

분류 모듈(740)은 가중치 매트릭스를 이용하여 특징 추출 모듈(720)이 생성한 제1 정보 및 인텐트 모듈(730)이 생성한 제3 정보를 분류할 수 있다. 이때, 특징 추출 모듈(720)이 생성한 제1 정보 및 인텐트 모듈(730)이 생성한 제3 정보는 연결(concatenate)될 수 있다.

분류 모듈(740)은 특징 추출 모듈(720)이 생성한 제1 정보 및 인텐트 모듈(730)이 생성한 제3 정보를 기초로 입력 시퀀스를 분류한 정보(예컨대, 유효 발화문인 경우 “1” 또는 유효하지 않은 발화문인 경우 “0”)를 생성할 수 있다.

분류 모듈(740)은 생성한 정보를 기초로 이전 발화문이 유효 발화문인지 여부에 대한 결과를 출력할 수 있다.

도 8은 다른 실시예에 따른 유효 발화문 인식 방법을 나타내는 플로우 차트이다.

도 8을 참조하면, 유효 발화문 인식 치가 입력 시퀀스(input sequence)를 토큰(token)화 하여 임베딩(embedding)하고, 현재 발화문 정보를 획득한다(800).

이때, 입력 시퀀스(input sequence)는 적어도 하나의 이전 발화문과 현재 발화문의 두 문장을 포함할 수 있다.

유효 발화문 인식 장치가 상기 토큰(token)화 한 상기 입력 시퀀스(input sequence)의 문맥에 대한 정보를 획득한다(810).

유효 발화문 인식 장치가 상기 획득한 정보에 대한 문맥적 특징을 추출하여 문맥적 특징에 대한 정보를 생성한다(820).

유효 발화문 인식 장치가 입력 시퀀스(input sequence)를 구성하는 현재 발화문의 의도(intent)에 대한 정보를 생성한다(830).

이때, 상기 유효 발화문 인식 장치는 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 현재 발화문의 의도(intent)를 미리 설정된 유형 중 어느 하나로 분류할 수 있다. 이때, 상기 미리 설정된 유형은 현재 발화문에 따라 변경된다.

또한, 상기 유효 발화문 인식 장치는 분류한 현재 발화문의 의도를 One-hot 임베딩 방식으로 표현할 수 있다.

또한, 상기 유효 발화문 인식 장치는 분류한 현재 발화문의 의도를 미리 설정된 벡터(예컨대, 현재 발화문의 의도를 분류해 놓은 벡터)들 중 어느 하나와 매칭시켜 현재 발화문의 의도에 대한 정보를 생성할 수 있다. 상기 현재 발화문의 의도에 대한 정보의 형태는 벡터 일 수 있으나, 상기 현재 발화문의 의도에 대한 정보의 형태가 이에 한정되는 것은 아니다.

비록 도 8에서는 810 및 820 동작이 830 동작보다 먼저 수행되는 것으로 예시되어 있으나, 810 및 820 동작과 830 동작은 동시, 병렬력 또는 오버랩되어 수행될 수도 있고, 810 및 820의 동작이 830 동작보다 나중에 수행될 수 있다.

유효 발화문 인식 장치가 문맥적 특징에 대한 정보와 현재 발화문의 의도에 대한 정보를 연결(concatenate)한다(840).

이때, 상기 유효 발화문 인식 장치는 벡터의 연결을 이용하여 문맥적 특징에 대한 정보와 현재 발화문의 의도에 대한 정보를 연결(concatenate)할 수 있다.

유효 발화문 인식 장치가 문맥적 특징에 대한 정보와 현재 발화문의 의도에 대한 정보가 연결된 정보를 기초로 적어도 하나의 입력 시퀀스(input sequence)에 포함된 이전 발화문이 유효 발화문인지 여부를 결정한다(850).

이때, 상기 유효 발화문 인식 장치는 가중치 매트릭스를 이용하여 문맥적 특징에 대한 정보와 현재 발화문의 의도에 대한 정보가 연결된 정보를 분류할 수 있다.

또한, 상기 유효 발화문 인식 장치는 문맥적 특징에 대한 정보와 현재 발화문의 의도에 대한 정보가 연결된 정보를 기초로 입력 시퀀스를 분류한 정보(예컨대, 유효 발화문인 경우 “1” 또는 유효하지 않은 발화문인 경우 “0”)를 생성할 수 있다.

유효 발화문 인식 장치가 생성한 정보를 기초로 이전 발화문이 유효 발화문인지 여부에 대한 결과를 출력한다(860).

도 9는 본 발명의 일실시예를 구현하기 위한 예시적인 컴퓨터 시스템의 블록도이다.

도 9를 참조하면, 본 발명의 일실시예를 구현하기 위한 예시적인 컴퓨터 시스템은 정보를 교환하기 위한 버스 또는 다른 커뮤니케이션 채널(901)을 포함하고, 프로세서(902)는 정보를 처리하기 위하여 버스(901)와 연결된다.

컴퓨터 시스템(900)은 정보 및 프로세서(902)에 의해 처리되는 명령들을 저장하기 위하여 버스(901)와 연결된 RAM(Random Access Memory) 또는 다른 동적 저장 장치인 메인 메모리(903)를 포함한다.

또한, 메인 메모리(903)는 프로세서(902)에 의한 명령들의 실행동안 임시변수들 또는 다른 중간 정보를 저장하기 위해 사용될 수 있다.

컴퓨터 시스템(900)은 프로세서(902)에 대한 정적인 정보 또는 명령들을 저장하기 위하여 버스(901)에 결합된 ROM(Read Only Memory) 및 다른 정적 저장장치(904)를 포함할 수 있다.

마그네틱 디스크, 집(zip) 또는 광 디스크 같은 대량 저장장치(905) 및 그것과 대응하는 드라이브 또한 정보 및 명령들을 저장하기 위하여 컴퓨터 시스템(900)에 연결될 수 있다.

컴퓨터 시스템(900)은 엔드 유저(end user)에게 정보를 디스플레이 하기 위하여 버스(901)를 통해 음극선관 또는 엘씨디 같은 디스플레이 장치(910)와 연결될 수 있다.

키보드(920)와 같은 문자 입력 장치는 프로세서(902)에 정보 및 명령을 전달하기 위하여 버스(901)에 연결될 수 있다.

다른 유형의 사용자 입력 장치는 방향 정보 및 명령 선택을 프로세서(902)에 전달하고, 디스플레이(910) 상의 커서의 움직임을 제어하기 위한 마우스, 트랙볼 또는 커서 방향 키들과 같은 커서 컨트롤 장치(930)이다.

통신 장치(940) 역시 버스(901)와 연결된다.

통신 장치(940)는 지역 네트워크 또는 광역망에 접속되는 것을 서포트 하기 위하여 모뎀, 네트워크 인터페이스 카드, 이더넷, 토큰 링 또는 다른 유형의 물리적 결합물과 연결하기 위해 사용되는 인터페이스 장치를 포함할 수 있다. 이러한 방식으로 컴퓨터 시스템(900)은 인터넷 같은 종래의 네트워크 인프라 스트럭쳐를 통하여 다수의 클라이언트 및 서버와 연결될 수 있다.

여기서 사용된 '장치'라는 용어는 논리적인 구성 단위를 나타내는 것으로서, 반드시 물리적으로 구분되는 구성 요소가 아니라는 점은 본 발명이 속하는 기술분야의 당업자에게 자명한 사항이다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 적어도 하나로 선택적으로 결합하여 동작할 수도 있다.

또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다.

이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 등이 포함될 수 있다.

또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다.

기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명에서 개시된 방법들은 상술된 방법을 달성하기 위한 하나 이상의 동작들 또는 단계들을 포함한다. 방법 동작들 및/또는 단계들은 청구항들의 범위를 벗어나지 않으면서 서로 상호 교환될 수도 있다. 다시 말해, 동작들 또는 단계들에 대한 특정 순서가 명시되지 않는 한, 특정 동작들 및/또는 단계들의 순서 및/또는 이용은 청구항들의 범위로부터 벗어남이 없이 수정될 수도 있다.

본 발명에서 이용되는 바와 같이, 아이템들의 리스트 중 "그 중 적어도 하나" 를 지칭하는 구절은 단일 멤버들을 포함하여, 이들 아이템들의 임의의 조합을 지칭한다. 일 예로서, "a, b, 또는 c: 중의 적어도 하나" 는 a, b, c, a-b, a-c, b-c, 및 a-b-c 뿐만 아니라 동일한 엘리먼트의 다수의 것들과의 임의의 조합 (예를 들어, a-a, a-a-a, a-a-b, a-a-c, a-b-b, a-c-c, b-b, b-b-b, b-b-c, c-c, 및 c-c-c 또는 a, b, 및 c 의 다른 임의의 순서 화한 것) 을 포함하도록 의도된다.

본 발명에서 이용되는 바와 같이, 용어 "결정하는"는 매우 다양한 동작들을 망라한다. 예를 들어, "결정하는"는 계산하는, 컴퓨팅, 프로세싱, 도출하는, 조사하는, 룩업하는 (예를 들어, 테이블, 데이터베이스, 또는 다른 데이터 구조에서 룩업하는), 확인하는 등을 포함할 수도 있다. 또한, "결정하는"은 수신하는 (예를 들면, 정보를 수신하는), 액세스하는 (메모리의 데이터에 액세스하는) 등을 포함할 수 있다. 또한, "결정하는"은 해결하는, 선택하는, 고르는, 확립하는 등을 포함할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100... 유효 발화문 인식 학습 장치
200... 유효 발화문 인식 학습 장치
300... 유효 발화문 인식 장치
400... 유효 발화문 인식 장치

Claims

하나 이상의 명령어를 저장하는 메모리; 및
상기 하나 이상의 명령어를 실행하는 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
유효 발화 여부에 대한 정보가 태깅(tagging)된 적어도 하나의 입력 시퀀스(input sequence)를 기초로 상기 적어도 하나의 입력 시퀀스의 문맥적 특징에 대한 제1 정보를 생성하고,
상기 생성한 제1 정보 및 상기 태깅(tagging)된 유효 발화 여부에 대한 정보를 기초로 뉴럴 네트워크를 학습시키되,
상기 적어도 하나의 입력 시퀀스(input sequence)는,
상기 유효 발화 여부에 대한 정보가 태깅된 적어도 하나의 이전 발화문과 현재 발화문을 포함하는 유효 발화문 인식 학습 장치.
삭제
제1항에 있어서,
상기 적어도 하나의 프로세서는,
상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰(token)화 하고,
상기 토큰(token)화 한 상기 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 제2 정보를 획득하고,
상기 획득한 제2 정보에 대한 문맥적 특징을 추출하는 유효 발화문 인식 학습 장치.
제1항에 있어서,
상기 적어도 하나의 프로세서는,
상기 현재 발화문의 의도(intent)에 대한 제3 정보를 생성하고,
상기 제1 정보, 상기 제3 정보 및 상기 태깅된 유효 발화 여부에 대한 정보를 기초로 상기 뉴럴 네트워크를 학습시키는 유효 발화문 인식 학습 장치.
유효 발화 여부에 대한 정보가 태깅된 적어도 하나의 입력 시퀀스(input sequence)를 기초로 상기 적어도 하나의 입력 시퀀스의 문맥적 특징에 대한 제1 정보를 생성하는 동작; 및
상기 생성한 제1 정보 및 상기 태깅된 유효 발화 여부에 대한 정보를 기초로 뉴럴 네트워크를 학습시키는 동작
을 포함하되,
상기 적어도 하나의 입력 시퀀스(input sequence)는,
상기 유효 발화 여부에 대한 정보가 태깅된 적어도 하나의 이전 발화문과 현재 발화문을 포함하는 유효 발화문 인식 학습 방법.
삭제
제5항에 있어서,
상기 제1 정보를 생성하는 동작은,
상기 적어도 하나의 입력 시퀀스(input sequence)를 토큰(token)화 하는 동작;
상기 토큰(token)화 한 상기 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 제2 정보를 획득하는 동작; 및
상기 획득한 제2 정보에 대한 문맥적 특징을 추출하는 동작
을 포함하는 유효 발화문 인식 학습 방법.
제5항에 있어서,
상기 유효 발화문 인식 학습 방법은,
상기 현재 발화문의 의도(intent)에 대한 제3 정보를 생성하는 동작; 및
상기 제1 정보, 제3 정보 및 상기 태깅된 유효 발화 여부에 대한 정보를 기초로 뉴럴 네트워크를 학습시키는 동작
을 포함하는 유효 발화문 인식 학습 방법.
하나 이상의 명령어를 저장하는 메모리; 및
상기 하나 이상의 명령어를 실행하는 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
이전 발화문과 현재 발화문을 포함하는 적어도 하나의 입력 시퀀스(input sequence)를 토큰(token)화 하고,
상기 토큰(token)화 한 상기 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 제2 정보를 획득하고,
상기 획득한 제2 정보에 대한 문맥적 특징을 추출하고,
상기 추출한 상기 적어도 하나의 입력 시퀀스의 문맥적 특징에 대한 제1 정보를 생성하고,
상기 현재 발화문의 의도(intent)를 미리 설정된 벡터들 중 어느 하나와 매칭시켜 상기 현재 발화문의 의도에 대한 제3 정보를 생성하고,
상기 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 텍스트의 각 토큰들의 연관성에 대한 정보가 보존된 상기 제1 정보 및 상기 제3 정보를 기초로 분류기를 이용하여 상기 이전 발화문이 유효 발화문인지 여부를 결정하는 유효 발화문 인식 장치.
삭제
삭제
이전 발화문과 현재 발화문의 두 문장을 포함하는 적어도 하나의 입력 시퀀스(input sequence)를 토큰(token)화 하는 동작;
상기 토큰(token)화 한 상기 적어도 하나의 입력 시퀀스(input sequence)의 문맥에 대한 제2 정보를 획득하는 동작;
상기 획득한 제2 정보에 대한 문맥적 특징을 추출하는 동작;
상기 추출한 상기 적어도 하나의 입력 시퀀스의 문맥적 특징에 대한 제1 정보를 생성하는 동작;
상기 현재 발화문의 의도(intent)를 미리 설정된 벡터들 중 어느 하나와 매칭시켜 상기 현재 발화문의 의도에 대한 제3 정보를 생성하는 동작; 및
상기 적어도 하나의 입력 시퀀스(input sequence)를 구성하는 텍스트의 각 토큰들의 연관성에 대한 정보가 보존된 상기 제1 정보 및 상기 제3 정보를 기초로 분류기를 이용하여 상기 이전 발화문이 유효 발화문인지 여부를 결정하는 동작
을 포함하는 유효 발화문 인식 방법.
삭제
삭제
제12항의 방법을 실행하기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.