KR102506404B1 - 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법 - Google Patents

훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법 Download PDF

Info

Publication number
KR102506404B1
KR102506404B1 KR1020220070865A KR20220070865A KR102506404B1 KR 102506404 B1 KR102506404 B1 KR 102506404B1 KR 1020220070865 A KR1020220070865 A KR 1020220070865A KR 20220070865 A KR20220070865 A KR 20220070865A KR 102506404 B1 KR102506404 B1 KR 102506404B1
Authority
KR
South Korea
Prior art keywords
prompt
vector
attention
cross
module
Prior art date
Application number
KR1020220070865A
Other languages
English (en)
Inventor
정대영
Original Assignee
큐에라소프트(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 큐에라소프트(주) filed Critical 큐에라소프트(주)
Priority to KR1020220070865A priority Critical patent/KR102506404B1/ko
Priority to KR1020220129419A priority patent/KR20230170542A/ko
Application granted granted Critical
Publication of KR102506404B1 publication Critical patent/KR102506404B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법에 관한 것이다. 이를 위하여, 크로스 어텐션 매트릭스를 입력 데이터로 하고 특정 태스크(task)에 대해 기설정된 클래스(class)인 태스크 클래스와 신뢰도(confidence score)를 포함하는 태스크 정보를 출력 데이터로 하는 인공신경망 모듈인 멀티모달 태스크 분류 모듈; 크로스 어텐션 매트릭스에 태스크 정보를 임베딩한 일련의 임베딩 벡터를 입력 데이터로 하고, 개선된 프롬프트 정보를 출력 데이터로 하는 Self-attention을 이용하는 디코더 블록을 포함하는 Transformer 기반의 인공신경망 모듈인 프롬프트 제너레이터 모듈; 및 셀프 어텐션 레이어, 크로스 어텐션 레이어, 피드 포워드 인공신경망 레이어를 포함하는 transformer block을 n개 포함하고, 개선된 프롬프트 정보를 입력 데이터로 하고 의사결정 텍스트 정보를 출력 데이터로 하는 기학습된(pre-trained) 인공신경망 모듈인 훈련된 언어 모델을 의미하는 베이스 인공신경망 모듈;이 제공될 수 있다.

Description

훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법{Decision-making simulation apparatus and method using pre-trained language model}
본 발명은 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법에 관한 것이다.
인공지능을 이용한 자연어 처리(NLP)에서 가장 화제가 되고 있는 플랫폼으로는 Google의 양방향 언어 모델 BERT(Bidirectional Encoder Representations from Transformers model), OpenAI의 단방향 언어 모델 GPT-3(Generative Pre-Training 3), META의 OPT-175B 등을 뽑을 수 있다. 특히 GPT-3의 경우에는 2020년 6월에 arXiv를 통해 공개된 모델로서, 4,990억개의 데이터셋 중에서 가중치 샘플링하여 3,000억개로 구성된 데이터세트로 pre-trained 되었으며 1,750억개의 매개변수를 가지고 있어 2019년 초에 공개된 GPT-2에 비해 2배 이상 큰 규모의 모델이다. GPT-3 출시 전 가장 큰 언어 모델은 2020년 2월에 선보인 마이크로소프트의 튜링 NLG로 GPT-3보다 용량이 10배 적다. GPT-3가 수행가능한 작업으로는 각종 언어 관련 문제풀이, 랜덤 글짓기, 간단한 사칙연산, 번역, 주어진 문장에 따른 간단한 웹 코딩이 가능하다.
미국 공개특허 2021-0192140 A1, CONTROLLABLE GROUNDED TEXT GENERATION, Microsoft Technology Licensing, LLC
본 발명의 목적은 훈련된 언어 모델을 통한 의사결정 시뮬레이션 장치를 제공하는 데에 있다.
이하 본 발명의 목적을 달성하기 위한 구체적 수단에 대하여 설명한다.
본 발명의 목적은, 사용자 클라이언트 내에 포함되어 구동되는 애플리케이션 모듈에 의해 표시되는 화면의 이미지인 환경 이미지 정보를 입력 데이터로 하고 상기 환경 이미지 정보의 임베딩 벡터인 환경 이미지 벡터를 출력 데이터로 하는 Convolution 기반의 Downsampling 인공신경망 모듈인 이미지 인코더; 상기 사용자 클라이언트의 키보드 모듈을 통해 사용자에 의해 입력되는 텍스트의 형태인 Raw 프롬프트 정보를 입력 데이터로 하고, 상기 Raw 프롬프트 정보의 임베딩 벡터인 프롬프트 벡터를 출력 데이터로 하는 Downsampling 인공신경망 모듈인 텍스트 인코더; 상기 환경 이미지 벡터와 상기 프롬프트 벡터를 입력 데이터로 하고 크로스 어텐션 적용된 상기 환경 이미지 벡터(Icross)와 크로스 어텐션 적용된 상기 프롬프트 벡터(Pcross)가 조합된 조합 벡터인 크로스 어텐션 매트릭스를 출력 데이터로 하는 인공신경망 모듈인 크로스 어텐션 네트워크 모듈; 상기 크로스 어텐션 매트릭스를 입력 데이터로 하고 특정 태스크(task)에 대해 기설정된 클래스(class)인 태스크 클래스와 신뢰도(confidence score)를 포함하는 태스크 정보를 출력 데이터로 하는 인공신경망 모듈인 멀티모달 태스크 분류 모듈; 상기 크로스 어텐션 매트릭스에 상기 태스크 정보를 임베딩한 일련의 임베딩 벡터를 입력 데이터로 하고, 개선된 프롬프트 정보를 출력 데이터로 하는 Self-attention을 이용하는 디코더 블록을 포함하는 Transformer 기반의 인공신경망 모듈인 프롬프트 제너레이터 모듈; 및 셀프 어텐션 레이어, 크로스 어텐션 레이어, 피드 포워드 인공신경망 레이어를 포함하는 transformer block을 n개 포함하고, 상기 개선된 프롬프트 정보를 입력 데이터로 하고 의사결정 텍스트 정보를 출력 데이터로 하는 기학습된(pre-trained) 인공신경망 모듈인 훈련된 언어 모델을 의미하는 베이스 인공신경망 모듈;을 포함하고, 상기 개선된 프롬프트 정보는, 상기 베이스 인공신경망 모듈의 initial transformer block의 상기 셀프 어텐션 레이어의 입력단에 입력되도록 구성되는, 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치를 제공하여 달성될 수 있다.
또한, 상기 크로스 어텐션 네트워크 모듈의 출력 데이터인 상기 크로스 어텐션 매트릭스를 구성하는 상기 Icross는 상기 환경 이미지 벡터만으로 구성된 self-attention과 상기 환경 이미지 벡터와 상기 프롬프트 벡터로 구성된 cross-attention을 포함하고, 상기 Pcross는 상기 프롬프트 벡터만으로 구성된 self-attention과 상기 환경 이미지 벡터와 상기 프롬프트 벡터로 구성된 cross-attention을 포함하고, 상기 크로스 어텐션 매트릭스는 Add & Norm Layer를 통과하여 잔차연결(residual connection) 및 정규화(normalization) 되는 것을 특징으로 할 수 있다.
또한, 외부 텍스트 정보가 기저장된 이그잼플 데이터베이스와 연결되어, 기저장된 상기 외부 텍스트 데이터, 상기 환경 이미지 벡터, 상기 프롬프트 벡터 및 상기 태스크 정보를 입력 데이터로 하고 이그잼플 텍스트의 식별 및 위치에 대한 이그잼플 저장 위치 정보, 프롬프트-태스크 관련도 스코어를 출력 데이터로 하는 인공신경망 모듈인 이그잼플 인덱싱 인공신경망 모듈;을 포함하고, 상기 프롬프트-태스크 관련도 스코어가 특정 값 이상인 상기 이그잼플 텍스트를 이그잼플 텍스트 정보로 생성하고, 생성된 상기 이그잼플 텍스트 정보를 transformer 기반의 encoder로 인코딩하여 이그잼플 텍스트 벡터를 생성하는 모듈;을 포함하며, 상기 Raw 프롬프트 정보 및 상기 태스크 정보와 관련된 상기 이그잼플 텍스트 벡터를 생성하는 이그잼플 인덱싱 모듈;을 포함하고, 상기 이그잼플 텍스트 벡터는, 상기 베이스 인공신경망 모듈의 상기 각 transformer block의 상기 크로스 어텐션 레이어에 입력되도록 구성될 수 있다.
또한, 상기 프롬프트 벡터, 상기 환경 이미지 벡터, 상기 태스크 정보 및 상기 의사결정 손실을 입력 데이터로 하는 인공신경망 모듈로서 상위층을 공유하는 복수의 하위층을 포함하도록 구성되며, 상기 하위층에서 상기 이미지 인코더의 손실인 이미지 인코더 손실, 상기 텍스트 인코더의 손실인 텍스트 인코더 손실, 상기 멀티모달 태스크 분류 모듈의 손실인 멀티모달 태스크 분류 모듈 손실 및 상기 프롬프트 제너레이터 모듈의 손실인 프롬프트 제너레이터 모듈 손실이 출력 데이터로 출력되는 로스 어텐션 네트워크 모듈;을 포함하고, 상기 이미지 인코더의 학습 세션에서는 상기 이미지 인코더 손실이 저감되는 방향으로 상기 이미지 인코더의 파라미터가 업데이트 되고, 상기 텍스트 인코더의 학습 세션에서는 상기 텍스트 인코더 손실이 저감되는 방향으로 상기 텍스트 인코더의 파라미터가 업데이트 되며, 상기 멀티모달 태스크 분류 모듈의 학습 세션에서는 상기 멀티모달 태스크 분류 모듈 손실이 저감되는 방향으로 상기 멀티모달 태스크 분류 모듈의 파라미터가 업데이트 되고, 상기 프롬프트 제너레이터 모듈의 학습 세션에서는 상기 프롬프트 제너레이터 모듈 손실이 저감되는 방향으로 상기 프롬프트 제너레이터 모듈의 파라미터가 업데이트 될 수 있다.
본 발명의 다른 목적은, 사용자 클라이언트 내에 포함되어 구동되는 애플리케이션 모듈에 의해 표시되는 화면의 이미지인 환경 이미지 정보를 입력 데이터로 하고 상기 환경 이미지 정보의 임베딩 벡터인 환경 이미지 벡터를 출력 데이터로 하는 Convolution 기반의 Downsampling 인공신경망 모듈인 이미지 인코더가, 상기 환경 이미지 벡터를 출력하는 환경 이미지 벡터 출력 단계; 상기 사용자 클라이언트의 키보드 모듈을 통해 사용자에 의해 입력되는 텍스트의 형태인 Raw 프롬프트 정보를 입력 데이터로 하고, 상기 Raw 프롬프트 정보의 임베딩 벡터인 프롬프트 벡터를 출력 데이터로 하는 Downsampling 인공신경망 모듈인 텍스트 인코더가, 상기 프롬프트 벡터를 출력하는 프롬프트 벡터 출력 단계; 상기 환경 이미지 벡터와 상기 프롬프트 벡터를 입력 데이터로 하고 크로스 어텐션 적용된 상기 환경 이미지 벡터(Icross)와 크로스 어텐션 적용된 상기 프롬프트 벡터(Pcross)가 조합된 조합 벡터인 크로스 어텐션 매트릭스를 출력 데이터로 하는 인공신경망 모듈인 크로스 어텐션 네트워크 모듈이, 상기 크로스 어텐션 매트릭스를 출력하는 크로스 어텐션 매트릭스 출력 단계; 상기 크로스 어텐션 매트릭스를 입력 데이터로 하고 특정 태스크(task)에 대해 기설정된 클래스(class)인 태스크 클래스와 신뢰도(confidence score)를 포함하는 태스크 정보를 출력 데이터로 하는 인공신경망 모듈인 멀티모달 태스크 분류 모듈이, 상기 태스크 정보를 출력하는 태스크 정보 출력 단계; 상기 크로스 어텐션 매트릭스에 상기 태스크 정보를 임베딩한 일련의 임베딩 벡터를 입력 데이터로 하고, 개선된 프롬프트 정보를 출력 데이터로 하는 Self-attention을 이용하는 디코더 블록을 포함하는 Transformer 기반의 인공신경망 모듈인 프롬프트 제너레이터 모듈이, 상기 개선된 프롬프트 정보를 출력하는 프롬프트 개선 단계; 및 셀프 어텐션 레이어, 크로스 어텐션 레이어, 피드 포워드 인공신경망 레이어를 포함하는 transformer block을 n개 포함하고, 상기 개선된 프롬프트 정보를 입력 데이터로 하고 의사결정 텍스트 정보를 출력 데이터로 하는 기학습된(pre-trained) 인공신경망 모듈인 훈련된 언어 모델을 의미하는 베이스 인공신경망 모듈이, 상기 의사결정 텍스트 정보를 출력하는 의사결정 시뮬레이션 단계;를 포함하고, 상기 개선된 프롬프트 정보는, 상기 베이스 인공신경망 모듈의 initial transformer block의 상기 셀프 어텐션 레이어의 입력단에 입력되도록 구성되는, 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 방법을 제공하여 달성될 수 있다.
상기한 바와 같이, 본 발명에 의하면 이하와 같은 효과가 있다.
첫째, 본 발명의 일실시예에 따르면, 다양한 상황에서의 의사결정을 지원하는 인공신경망을 제공할 수 있게 되는 효과가 발생된다.
둘째, 본 발명의 일실시예에 따르면, 훈련된 언어 모델을 사용하면서도 특정 환경이나 상황에 맞는 최적의 프롬프트를 사용할 수 있게 되어 훈련된 언어 모델의 정확도나 속도 등의 성능이 향상되는 효과가 발생된다.
본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 일실시예에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치의 추론 세션을 도시한 모식도,
도 2는 본 발명의 일실시예에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치의 구체적인 구성을 도시한 모식도,
도 3은 본 발명의 일실시예에 따른 인코더부(이미지 인코더(10), 텍스트 인코더(20), 크로스 어텐션 네트워크 모듈(30)을 도시한 모식도,
도 4는 본 발명의 일실시예에 따른 멀티모달 태스크 분류 모듈(40)을 도시한 모식도,
도 5는 본 발명의 일실시예에 따른 프롬프트 제너레이터 모듈(50)을 도시한 모식도,
도 6은 본 발명의 일실시예에 따른 이그잼플 인덱싱 모듈(60)을 도시한 모식도,
도 7은 본 발명의 일실시예에 따른 베이스 인공신경망 모듈(70)의 구체적인 구성을 도시한 모식도,
도 8은 본 발명의 일실시예에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)의 학습 세션을 도시한 모식도이다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 특정 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에서 설명되는 컴퓨팅 장치에는 사용자와의 인터렉션을 통해 화상으로 표현되는 모든 매체 (단순 정보전달이 아닌)가 포함될 수 있으며, 그 예시로 디지털 TV, 데스크탑 컴퓨터, 휴대폰, 스마트 폰(smart phone), 태블릿 PC, 노트북 컴퓨터(laptop computer), 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, HMD(Head Mounted Display), AR card, HUD(Heads Up Display) 등이 포함될 수 있다.
운영체제(Operating System, OS)는, 컴퓨팅 장치의 하드웨어와 소프트웨어를 제어하여, 실무자가 컴퓨팅 장치를 이용할 수 있게 만들어주는 프로그램을 의미한다. 운영체제는 하드웨어와 응용 프로그램 간의 인터페이스 역할을 하면서 프로세서, 저장 장치, 입출력 인터페이스 장치 등의 컴퓨터 자원을 관리할 수 있다. 예를 들어, 운영체제의 종류에는 안드로이드(Android), iOS, 윈도우(Windows), 맥(Mac), 타이젠(TIZEN), 유닉스(Unix) 및 리눅스(Linux) 등이 포함될 수 있다.
응용 프로그램(이하, '프로그램' 또는 '애플리케이션')은 실무자가 디바이스를 사용하여 특정한 작업을 수행할 수 있도록 개발된 소프트웨어를 의미한다. 예를 들어, 이메일 프로그램, 메신저 프로그램, 스케쥴 관리 프로그램 및 문서 편집 프로그램 등이 있을 수 있다. 또한, 프로그램은 특정한 작업을 수행하는데 필요한 명령어들로 구성될 수 있다. 여기에서, 프로그램을 구성하는 명령어들은 운영체제의 종류에 따라 서로 상이할 수 있다.
화면은 운영체제에 의해 정의될 수 있다. 화면은 소정의 범위의 좌표를 가진 가상의 2차원 영역일 수 있다. 화면은 표시 장치에 의해 표시되고, 실무자는 표시 장치를 통해 화면을 시각적으로 인식할 수 있다. 화면의 좌표 범위는 표시 장치의 가용 해상도에 따라 운영체제에 의해 조절될 수 있다. 화면의 좌표 단위는 표시 장치의 화소의 위치에 대응될 수 있다.
몇몇 프로그램은 동작 형태가 화면에서 객체로서 표시되도록 구성될 수 있다. 일 예로, 몇몇 프로그램의 동작 형태는 화면에서 객체로서 '실행 창'의 형태로 표시될 수 있다. 예를 들어, 실행 창으로는 문서 편집 프로그램이 실행됨에 따라 출력되는 문서 편집 창 및 웹 브라우저 애플리케이션이 실행됨에 따라 출력되는 웹 브라우저 창 등이 포함될 수 있다. 다른 예로, 몇몇 프로그램의 동작 형태는 화면에서 객체로서 '마우스 커서(마우스나 터치패드 등의 움직임에 따라 시각적으로 함께 움직이는 포인터로서, 일반적으로 화살표의 형상)'의 형태로 표시될 수 있다. 예를 들어, 마우스 커서 및 터치 포인트 등은 실무자의 입력 수단의 감지에 대응하여, 화면 내에서 움직이도록 표시될 수 있다. 다른 몇몇 프로그램은 화면에 별도 표시되지 않고, 백그라운드 형태로 동작하도록 구성될 수도 있다.
복수의 객체가 화면에 표시되는 경우, 상기 프로그램들의 동작 형태를 나타내는 객체들이 미리 정해진 레벨에 따라 표시될 수 있다. 예를 들어, 운영체제에는 화면에서 제1 프로그램에 대응되는 제1 객체가 표시되는 영역이 제2 프로그램에 대응되는 제2 객체가 표시되는 영역과 중첩할 경우, 중첩 영역에서 제1 객체가 제2 객체보다 우선하여 표시되도록 설정될 수 있다.
훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치
본 발명의 일실시예에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치의 작동 관계와 관련하여, 도 1은 본 발명의 일실시예에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치의 추론 세션을 도시한 모식도이다. 도 1에 도시된 바와 같이 본 발명의 일실시에에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)는, 사용자 클라이언트(100)에 구성되거나(예를 들어, ①사용자 클라이언트(100) 내에 포함된 애플리케이션 모듈 내에 구성, ②사용자 클라이언트(100) 내에 포함된 애플리케이션 모듈 내에 SDK 등의 방식으로 포함된 별도의 키보드 모듈에 포함, ③사용자 클라이언트(100)의 OS 내에 포함된 키보드 모듈에 포함), ④사용자 클라이언트(100)와 유무선 네트워크로 연결된 서버에 구성될 수 있다(예를 들어, 서버 내에 구성되어 사용자 클라이언트(100) 내에 포함된 키보드 모듈과 API 등의 방식으로 연결). 이때, 사용자 클라이언트(100)의 키보드 모듈은, text 입력을 위한 자판을 사용자 클라이언트(100)의 디스플레이에 출력하고 text의 입력을 처리하며 입력된 text를 디스플레이에 출력하는 모듈로서, 애플리케이션 모듈 내에 구성되거나, OS 자체에 구성될 수 있다. 사용자 클라이언트(100)가 터치 스크린을 입력 장치로 사용하지 않고 별도의 키보드 장치를 입력 장치로 사용하는 경우에는 사용자 클라이언트(100)의 키보드 모듈은 text의 입력을 처리하며 입력된 text를 디스플레이에 출력하는 모듈을 의미할 수 있다. 키보드 모듈을 통해 본 발명의 일실시에에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)에 Raw 프롬프트 정보를 입력하면 의사결정 텍스트 정보가 출력되도록 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)의 추론 세션이 구성될 수 있다.
본 발명의 일실시예에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치의 구체적인 구성 관계와 관련하여, 도 2는 본 발명의 일실시예에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치의 구체적인 구성을 도시한 모식도이다. 도 2에 도시된 바와 같이 본 발명의 일실시에에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)는, 인코더부(이미지 인코더(10), 텍스트 인코더(20), 크로스 어텐션 네트워크 모듈(30), 멀티모달 태스크 분류 모듈(40), 프롬프트 제너레이터 모듈(50), 이그잼플 인덱싱 모듈(60), 베이스 인공신경망 모듈(70), 로스 어텐션 네트워크 모듈(80)을 포함하도록 구성될 수 있다. 본 발명의 일실시에에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)에 Raw 프롬프트 정보를 입력하면 의사결정 텍스트 정보가 출력되도록 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)의 추론 세션이 구성되고, 로스 어텐션 네트워크 모듈(80)에 의해 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)의 훈련 세션이 구성된다.
인코더부(이미지 인코더(10), 텍스트 인코더(20), 크로스 어텐션 네트워크 모듈(30)의 구체적인 구성과 관련하여, 도 3은 본 발명의 일실시예에 따른 인코더부(이미지 인코더(10), 텍스트 인코더(20), 크로스 어텐션 네트워크 모듈(30)을 도시한 모식도이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 인코더부(이미지 인코더(10), 텍스트 인코더(20), 크로스 어텐션 네트워크 모듈(30)은, 환경 이미지 정보와 Raw 프롬프트 정보를 입력 데이터로 하고, 환경 이미지 벡터, 프롬프트 벡터, 크로스 어텐션 매트릭스를 출력 데이터로 하도록 구성될 수 있다.
환경 이미지 정보는, 사용자 클라이언트(100)의 디스플레이에 특정 애플리케이션 모듈을 통해 현재 출력되고 있는 의사결정 환경에 대한 이미지 정보를 의미한다. 예를 들어, 특정 애플리케이션 모듈의 게임 화면, 영화 화면, 라이브 스트리밍 화면, 주식창, 카톡창, 문서 작성창 등을 의미할 수 있다. 구체적인 예시로는 사용자 클라이언트(100)의 애플리케이션 모듈에 의해 채팅 화면이 출력되고 있는 경우에는 채팅창의 캡쳐 이미지가 환경 이미지 정보로 입력될 수 있고, 사용자 클라이언트(100)의 애플리케이션 모듈에 의해 특정 가상화폐에 대한 차트 화면이 출력되고 있는 경우에는 차트창의 캡쳐 이미지가 환경 이미지 정보로 입력될 수 있으며, 사용자 클라이언트(100)의 애플리케이션 모듈에 의해 특정 영화 화면이 출력되고 있는 경우에는 해당 영화의 캡쳐 이미지가 환경 이미지 정보로 입력될 수 있다.
환경 이미지 벡터는, 이미지 인코더(10)에 의해 환경 이미지 정보가 인코딩 된 환경 이미지 정보의 임베딩 벡터를 의미한다.
Raw 프롬프트 정보는, 키보드 모듈을 통해 텍스트 정보 형태로 입력되는 사용자의 initial한 프롬프트 정보를 의미한다. 예를 들어, '이 채팅에 대해 뭐라고 대답할까?', '지금 이 가상화폐 살까 말까?', '이 배우가 출연한 다른 영화는 뭐 있어?' 등의 사용자가 의사결정을 요청하는 이니셜 쿼리(initial query)를 의미한다.
프롬프트 벡터는, 텍스트 인코더(20)에 의해 Raw 프롬프트 정보가 인코딩 된 Raw 프롬프트 정보의 임베딩 벡터를 의미한다.
크로스 어텐션 매트릭스는, 크로스 어텐션 네트워크 모듈(30)에 의해 출력되는 환경 이미지 벡터와 프롬프트 벡터에 대한 어텐션 매트릭스를 의미한다.
이미지 인코더(10)와 관련하여, 본 발명의 일실시예에 따른 이미지 인코더(10)는 환경 이미지 정보(특정 애플리케이션 모듈의 게임 화면, 영화 화면, 라이브 스트리밍 화면, 주식창, 카톡창, 문서 작성창 등)를 입력 데이터로 하고 환경 이미지 벡터를 출력 데이터로 하는 Convolution 기반의 Downsampling 인공신경망 모듈을 의미한다. 이미지 인코더(10)에는 Convolution Layer 및 Pooling Layer를 포함하는 CNN 계열의 인공신경망이 포함될 수 있고, 출력단에는 FC Layer(Fully Connected Layer)가 단독으로 구성되는 일반적인 CNN 구조와 다르게 GAP Layer(Global Average Pooling Layer)가 구성되어 환경 이미지 정보의 다양한 크기를 수용하면서도 동일한 차원의 환경 이미지 벡터를 출력할 수 있도록 구성될 수 있다. 구체적으로, 이미지 인코더(10)의 출력단에는 GAP Layer가 구성되며, FC Layer 없이 GAP Layer만 구성되거나 GAP Layer 이후에 FC Layer가 구성될 수 있다. 본 발명의 일실시예에 따른 환경 이미지 벡터는 특정 환경 이미지 정보와 대응되도록 구성되므로, 특정 환경 이미지 정보의 식별을 수행하도록 구성될 수 있다. 이때, 이미지 인코더(10)의 GAP Layer는 이전 Conv. Layer의 Feature map(dimention = H,W,C)에 대해 같은 channel의 feature 들을 모두 평균 낸 뒤 각 channel의 feature 평균 값을 조합하여 channel의 개수만큼의 원소를 갖는 차원의 환경 이미지 벡터(1,1,C)를 출력하도록 구성될 수 있다. 이때, H는 Height, W는 Width, C는 Channel을 의미할 수 있다.
또한, 본 발명의 일실시예에 따른 이미지 인코더(10)는, classification과 localization을 수행하는 multi-object detection 인공신경망 모듈을 포함할 수 있고, 이러한 multi-object detection 인공신경망 모듈로는 2-stage detector로서 RCNN(2013), OverFeat(ICLR 2014), Fast RCNN(ICCV 2015), Faster RCNN(NIPS 2015), Mask RCNN(ICCV 2017) 등이 활용될 수 있고, 1-stage detector로서 anchor based의 YOLO v1(CVPR 2016), YOLO v2(CVPR 2017), YOLO v3(arXiv 2018), SSD(ECCV 2016), RetinaNet(ICCV 2017) 등이 활용될 수 있으며, 1-stage detector로서 non-anchor based의 CornerNet(ECCV 2018), ExtreamNet(2019), CenterNet(2019) 등이 활용될 수 있고, CRAFT(down sampling/up sampling) 등이 활용될 수 있다. 이 경우, 이미지 인코더(10)에는 이러한 multi-object detection 인공신경망 모듈의 출력단에 GAP layer가 구성되어 환경 이미지 벡터를 출력하도록 구성될 수 있다.
텍스트 인코더(20)와 관련하여, 본 발명의 일실시예에 따른 텍스트 인코더(20)는 텍스트의 형태인 Raw 프롬프트 정보를 입력 데이터로 하고, 프롬프트 벡터를 출력 데이터로 하는 Downsampling 인공신경망 모듈을 의미한다. 본 발명의 일실시예에 따른 텍스트 인코더(20)는 구체적으로는 토큰화 모듈(텍스트 정보 형태인 Raw 프롬프트 정보를 입력 데이터로 하고 적어도 하나의 토큰을 포함하는 토큰 정보(예를 들어, [CLS], [뭐], [라고], [대답할까], [SEP], 이때 CLS와 SEP는 문장의 시작, 끝, 공백을 구분하는 구분자)를 출력 데이터로 하는 모듈)과 텐서화 모듈(토큰 정보를 입력 데이터로 하고 텐서(tensor)인 프롬프트 벡터를 출력 데이터로 하는 모듈)을 포함할 수 있다. 이때, 토큰화 모듈은 Word-based Tokenization, Character-based Tokenization, Subword Tokenization, Byte-level BPE(GPT-2에 사용됨), WordPiece(BERT에 사용됨), SentencePiece, Unigram(몇몇 다국어 모델에 사용됨) 등의 기존의 토크나이저 방식이 적용될 수 있다. 또한, 텐서화 모듈은 BERT(예를 들어, KoElectra), GPT, OPT와 같은 Base model에 구성되는 transformer 구조의 인공신경망을 포함할 수 있다.
크로스 어텐션 네트워크 모듈(30)과 관련하여, 본 발명의 일실시예에 따른 크로스 어텐션 네트워크 모듈(30)은 환경 이미지 벡터와 프롬프트 벡터를 입력 데이터로 하고 크로스 어텐션 적용된 환경 이미지 벡터(I)와 크로스 어텐션 적용된 프롬프트 벡터(P)가 조합된 조합 벡터인 크로스 어텐션 매트릭스를 출력 데이터로 하는 인공신경망 모듈을 의미한다. 본 발명의 일실시예에 따른 크로스 어텐션 네트워크 모듈(30)에는 Scaled Dot-Product Attention Layer를 포함하는 Multi-Head Attention Layer가 포함될 수 있고, 크로스 어텐션 네트워크 모듈(30)은 환경 이미지 벡터(I)와 프롬프트 벡터(P)를 조합(concatenate)한 조합 벡터(y)를 Q(Query feature), K(Key feature), V(Value feature)로 구성하여 Qy, Ky, Vy를 생성하며, 생성된 Qy, Ky, Vy를 Scaled Dot-Product Attention Layer의 입력 데이터로 한다. 이하 수학식은 Qy, Ky, Vy와 환경 이미지 벡터와 프롬프트 벡터의 관계를 기재한 것이다.
Figure 112022060896232-pat00001
이때, Qyy벡터의 Query feature, Kyy벡터의 Key feature, Qi,Ki,Vi의 i는 환경 이미지 벡터에서 기원된 Q,K,V를 의미하고, Qp,Kp,Vp의 p는 프롬프트 벡터에서 기원된 Q,K,V를 의미한다. Q와 K는 1st MatMul operation의 입력 데이터로 입력되어 Scale 및 softmax operation을 통해 Q에 대해서 모든 K에 대한 유사도를 계산하여 일련의 환경 이미지 벡터와 프롬프트 벡터의 사이 또는 일련의 환경 이미지 벡터나 일련의 프롬프트 벡터 사이의 유사도 벡터를 출력하고, 이 유사도 벡터와 V는 2nd MatMul operation의 입력 데이터로 입력된다. 본 발명의 일실시예에 따른 Scaled Dot-Product Attention Layer의 1st MatMul operation은, Q가 기준이 되고 K와의 Dot-product operation을 통해 Q와 K의 유사도(similarity)를 출력하게 되고, Q와 K의 유사도(similarity)에 Scaling을 적용하여 분포가 치우치지 않도록 구성하며, Scaling된 Q와 K의 유사도(similarity)에 Softmax operation을 적용하여 일련의 환경 이미지 벡터와 프롬프트 벡터의 사이 또는 일련의 환경 이미지 벡터나 일련의 프롬프트 벡터 사이의 유사도 확률 분포인 유사도 벡터를 출력하게 된다. 본 발명의 일실시예에 따른 Scaled Dot-Product Attention Layer의 2nd MatMul operation은, 유사도 벡터와 V의 Dot-Product를 통해 새로운 feature vector인 크로스 어텐션 매트릭스를 출력하게 된다. 이에 의해, 유사도 벡터가 가중치로서 V에 반영되게 되고 유사도 벡터가 반영된 V를 모두 가중합하여 최종적으로 유사도 벡터가 가중치로서 반영된 인코딩 정보인 크로스 어텐션 매트릭스(Mx(C/h)를 Scaled Dot-Product Attention Layer의 출력 데이터로 출력하게 된다. Scaled Dot-Product Attention Layer에서 출력된 Mx(C/h) 차원의 크로스 어텐션 매트릭스는 Concat. Layer와 Linear layer를 통해 MxC 차원의 벡터로 출력될 수 있다. 아래 수학식은 본 발명의 일실시예에 따른 크로스 어텐션 매트릭스를 나타낸다.
Figure 112022060896232-pat00002
위 수학식에서, CAMy는 y벡터에 대한 크로스 어텐션 매트릭스, Qyy벡터의 Query feature, Kyy벡터의 Key feature, Vy는 y벡터의 Value feature, KT는 K의 전치 행렬, dk는 Q와 K의 차원, y벡터는 i벡터(환경 이미지 벡터)와 t벡터(프롬프트 벡터)의 concatenate vector를 의미한다. 위 수학식에서 QyKy T·Vy 는 수학식 1과 통합하여 아래 수학식과 같이 표현될 수 있다.
Figure 112022060896232-pat00003
Figure 112022060896232-pat00004
위 수학식에서, Qyy벡터의 Query feature, Kyy벡터의 Key feature, Vy는 y벡터의 Value feature, KT는 K의 전치 행렬, Qyy벡터의 Query feature, Kyy벡터의 Key feature, Qi,Ki,Vi의 i는 환경 이미지 벡터에서 기원된 Q,K,V를 의미하고, Qp,Kp,Vp의 p는 프롬프트 벡터에서 기원된 Q,K,V를 의미하며, I는 환경 이미지 벡터, Icross는 크로스 어텐션 적용된 환경 이미지 벡터, P는 프롬프트 벡터, Pcross는 크로스 어텐션 적용된 프롬프트 벡터를 의미한다. 즉, 위 수학식에 기재된 바와 같이, 크로스 어텐션 네트워크 모듈의 출력 데이터인 크로스 어텐션 매트릭스(Icross와 Pcross의 조합 벡터)를 구성하는 Icross는 환경 이미지 벡터만으로 구성된 self-attention과 환경 이미지 벡터와 프롬프트 벡터로 구성된 cross-attention을 포함하고, Pcross는 프롬프트 벡터만으로 구성된 self-attention과 환경 이미지 벡터와 프롬프트 벡터로 구성된 cross-attention을 포함하도록 구성된다. Multi-Head Attention Layer의 출력부에서 MxC 차원의 벡터로 출력된 크로스 어텐션 매트릭스(Icross와 Pcross의 조합 벡터)는 Add & Norm Layer를 통과하여 잔차연결(residual connection) 및 정규화(normalization) 된 크로스 어텐션 매트릭스(MxC)로 출력된다.
이에 따르면, 본 발명의 일실시예에 따른 크로스 어텐션 네트워크 모듈(30)의 크로스 어텐션 매트릭스 생성에 의해, 환경 이미지 정보와 Raw 프롬프트 정보의 inter-modality와 각각에 대한 intra-modality가 크로스 어텐션 매트릭스로 모두 고려되게 되는 효과가 발생된다.
멀티모달 태스크 분류 모듈(40)과 관련하여, 도 4는 본 발명의 일실시예에 따른 멀티모달 태스크 분류 모듈(40)을 도시한 모식도이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 멀티모달 태스크 분류 모듈(40)은 크로스 어텐션이 적용된 환경 이미지 벡터와 크로스 어텐션이 적용된 프롬프트 벡터가 조합된 크로스 어텐션 매트릭스를 입력 데이터로 하고 상기 Raw 프롬프트 정보에 포함된 사용자의 의도에 대응되는 특정 task에 대해 기설정된 class인 태스크 클래스와 confidence score를 포함하는 태스크 정보를 출력 데이터로 하는 인공신경망 모듈이다. 이때, 태스크 클래스는 Question answering, Instruction following, Generating document 등의 class로 구성될 수 있다.
프롬프트 제너레이터 모듈(50)과 관련하여, 도 5는 본 발명의 일실시예에 따른 프롬프트 제너레이터 모듈(50)을 도시한 모식도이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 프롬프트 제너레이터 모듈(50)은 크로스 어텐션 매트릭스에 태스크 정보를 임베딩한 일련의 임베딩 벡터를 입력 데이터로 하고, 베이스 인공신경망 모듈(70)에서의 결과가 향상되거나 개선되도록 구성되는 프롬프트 정보인 개선된 프롬프트 정보를 출력 데이터로 하는 Self-attention을 이용하는 디코더 블록을 포함하는 Transformer 기반의 인공신경망 모듈을 의미한다. 본 발명의 일실시예에 따른 프롬프트 제너레이터 모듈(50)의 Transformer 기반의 인공신경망 모듈에는 Multi-head Self-Attention layer, Add & Norm layer, Position wise FFNN layer가 포함될 수 있다.
개선된 프롬프트 정보는, Raw 프롬프트 정보가 베이스 인공신경망 모듈(70)에 입력되었을 때보다 더 나은 성능을 보이도록 개선된 프롬프트 정보를 의미하며, 예를 들어 Raw 프롬프트 정보가 '이번에 손흥민 골 넣었던데, 손흥민 선수가 올해 몇 골 넣었어?'라면 '손흥민은 EPL 21/22 시즌에서 몇 골 넣었어?'라는 개선된 프롬프트 정보가 출력되도록 구성될 수 있다.
이그잼플 인덱싱 모듈(60)과 관련하여, 도 6은 본 발명의 일실시예에 따른 이그잼플 인덱싱 모듈(60)을 도시한 모식도이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 이그잼플 인덱싱 모듈(60)은 Wikipedia, 블로그, GitHub, Instagram, Facebook 등의 Web page, app page의 텍스트 정보가 기저장된 이그잼플 데이터베이스와 연결되어, 기저장된 외부 텍스트 데이터, 환경 이미지 벡터, 프롬프트 벡터, 태스크 정보를 입력 데이터로 하고 이그잼플 텍스트의 상기 이그잼플 데이터베이스에서의 저장 위치에 대한 이그잼플 저장 위치 정보, 프롬프트-태스크 관련도 스코어를 출력 데이터로 하는 인공신경망 모듈(이그잼플 인덱싱 인공신경망 모듈)을 포함하며, 프롬프트-태스크 관련도 스코어가 특정 값 이상인 텍스트 데이터를 이그잼플 텍스트 정보로 생성하고, 생성된 이그잼플 텍스트 정보를 transformer 기반의 encoder로 인코딩하여 이그잼플 텍스트 벡터를 생성하는 모듈을 의미한다. 본 발명의 일실시예에 따르면, 이그잼플 인덱싱 모듈(60)에 의해 프롬프트 및 태스크와 관련된 n개의 이그잼플 텍스트 벡터가 생성되도록 구성될 수 있다.
이그잼플 인덱싱 모듈(60)의 이그잼플 인덱싱 인공신경망 모듈의 구체적인 구성과 관련하여, 이그잼플 저장 위치 정보는 text bounding box의 시작 텍스트의 좌표(예를 들어, database에서의 저장 위치 및 몇 번째 텍스트인지), 끝 텍스트의 좌표를 포함할 수 있다. 본 발명의 일실시예에 따른 이그잼플 인덱싱 모듈(60)에 convolution layer를 적용하는 경우 convolution layer들을 통해 feature map을 추출하고, fully connected layer를 거쳐 바로 text bounding box의 프롬프트-태스크 관련도 스코어(prompt-task relativity score), coordinate data(이그잼플 저장 위치 정보)를 추론(inference)하여 출력 데이터로서 출력하도록 구성된다. 본 발명의 일실시예에 따른 이그잼플 인덱싱 모듈(60)에서는 input 텍스트인 기저장된 외부 텍스트 데이터를 SxS grid로 나누고 각 grid 영역에 해당하는 bounding box(SxSxB개)와 prompt-task relativity score(Probability(prompt relativity)×IoU(prediction, ground truth), prompt-task probability map(Probability(task_i|prompt)을 구하도록 구성된다. 구체적인 네트워크 구조를 예를 들면, 한 grid 영역당 n개의 bounding box coordinate(이그잼플 저장 위치 정보)와 confidence score(프롬프트 관련도 스코어)를 출력하도록 구성될 수 있고, 예를 들어, 기저장된 외부 텍스트 정보는 448x448x3의 크기로 입력되도록 구성될 수 있으며, 이그잼플 인덱싱 인공신경망 모듈의 Activation map은 7x7x1024의 크기로 구성될 수 있고, 이후 4,096 및 7x7x30의 Fully Connected Layer가 구성될 수 있다.
이그잼플 텍스트 정보는, 기저장된 외부 텍스트 정보 내에서 Raw 프롬프트 정보 및 태스크와 관련성이 높아 베이스 인공신경망 모듈(70)의 성능 향상에 도움이 될 예시 텍스트 정보를 의미하며, 예를 들어 Raw 프롬프트 정보가 '이번에 손흥민 골 넣었던데, 손흥민 선수가 올해 몇 골 넣었어?'라면 '손흥민은 대한민국 국적의 토트넘 홋스퍼 FC 소속 축구선수. 주 포지션은 윙어이며, 현재 대한민국 축구 국가대표팀 주장을 맡고 있다. 프리미어 리그와 UEFA 챔피언스 리그 아시아 선수 역대 최다 득점자이자 최초로 발롱도르 후보 30인과 FIFA FIFPro 월드 XI 후보 55인에 선정됐다. 또한 FIFA 푸스카스상을 수상했으며, 프리미어 리그 이달의 선수에 3회 선정되었고, 아시아 선수 최초로 PFA 올해의 팀 선정 및 프리미어 리그 득점왕을 수상했다.'라는 이그잼플 텍스트 정보가 인덱싱되도록 구성될 수 있다.
베이스 인공신경망 모듈(70)과 관련하여, 도 7은 본 발명의 일실시예에 따른 베이스 인공신경망 모듈(70)의 구체적인 구성을 도시한 모식도이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 베이스 인공신경망 모듈(70)은, 셀프 어텐션 레이어, 크로스 어텐션 레이어, 피드 포워드 인공신경망 레이어를 포함하는 transformer block을 n개 포함하고, 개선된 프롬프트 정보, 이그잼플 텍스트 벡터를 입력 데이터로 하고 의사결정 텍스트 정보를 출력 데이터로 하는 기학습된(pre-trained) 인공신경망 모듈(훈련된 언어 모델)을 의미한다. 이때, 개선된 프롬프트 정보는 initial transformer block의 셀프 어텐션 레이어의 입력단에 입력되며, 이그잼플 텍스트 벡터는 각 transformer block의 크로스 어텐션 레이어에 입력되도록 구성될 수 있다. 본 발명의 일실시예에 따른 베이스 인공신경망 모듈(70)은, BERT 모델/GPT-3 모델/OPT-175B 모델 등의 transformer 기반의 기학습된(pre-trained) 인공신경망 모듈(훈련된 언어 모델)을 의미할 수 있다.
의사결정 텍스트 정보는, 개선된 프롬프트 정보의 입력에 대한 베이스 인공신경망 모듈(70)의 출력으로서, 예를 들어 개선된 프롬프트 정보가 '손흥민 올해 몇 골 넣었어?'라면 '손흥민은 EPL 21/22 시즌에서 23골을 넣어 Golden boots를 수상했어'라는 의사결정 텍스트 정보가 출력되도록 구성될 수 있다.
훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)의 학습 세션과 관련하여, 도 8은 본 발명의 일실시예에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)의 학습 세션을 도시한 모식도이다. 도 8에 도시된 바와 같이 본 발명의 일실시예에 따른 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)의 학습 세션은, 로스 어텐션 네트워크 모듈(80)에 의해 이미지 인코더(10), 텍스트 인코더(20), 멀티모달 태스크 분류 모듈(40), 프롬프트 제너레이터 모듈(50), 이그잼플 인덱싱 모듈(60)의 손실 값이 결정되고 파라미터가 업데이트 되도록 구성될 수 있다.
로스 어텐션 네트워크 모듈(80)은, 프롬프트 벡터, 환경 이미지 벡터, 태스크 정보, 의사결정 손실을 입력 데이터로 하고, 이미지 인코더 손실, 텍스트 인코더 손실, 멀티모달 태스크 분류 모듈 손실, 프롬프트 제너레이터 모듈 손실, 이그잼플 인덱싱 모듈 손실을 출력 데이터로 하는 인공신경망 모듈을 의미한다.
입력 데이터 중 의사결정 손실은, 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)의 출력인 의사결정 텍스트 정보와 학습 데이터의 정답 정보(Ground truth)의 차이(또는 유사도)를 의미한다.
로스 어텐션 네트워크 모듈(80)의 구체적인 구성과 관련하여, 본 발명의 일실시예에 따른 로스 어텐션 네트워크 모듈(80)은, 상위층(입력단에 가까운 n개의 상위 Layers)을 공유하는 복수의 하위층(출력단에 가까운 m개의 하위 Layers)을 포함하도록 구성되며, 각각의 하위층(제1하위층, 제2하위층...제5하위층)에서 각각의 인공신경망 모듈에 대한 손실(이미지 인코더 손실, 텍스트 인코더 손실, 멀티모달 태스크 분류 모듈 손실, 프롬프트 제너레이터 모듈 손실, 이그잼플 인덱싱 모듈 손실)이 출력되도록 구성될 수 있다. 이에 따르면, 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치(1)를 구성하는 각각의 모듈에 대하여, 의사결정 손실에 대한 각각의 모듈의 영향력에 기반하여 각 모듈의 파라미터를 업데이트 할 수 있게 되는 효과가 발생된다. 즉, 상기 이미지 인코더의 학습 세션에서는 상기 이미지 인코더 손실이 저감되는 방향으로 상기 이미지 인코더의 파라미터가 업데이트 되고, 상기 텍스트 인코더의 학습 세션에서는 상기 텍스트 인코더 손실이 저감되는 방향으로 상기 텍스트 인코더의 파라미터가 업데이트 되며, 상기 멀티모달 태스크 분류 모듈의 학습 세션에서는 상기 멀티모달 태스크 분류 모듈 손실이 저감되는 방향으로 상기 멀티모달 태스크 분류 모듈의 파라미터가 업데이트 되고, 상기 프롬프트 제너레이터 모듈의 학습 세션에서는 상기 프롬프트 제너레이터 모듈 손실이 저감되는 방향으로 상기 프롬프트 제너레이터 모듈의 파라미터가 업데이트 되도록 구성될 수 있다.
이상에서 설명한 바와 같이, 본 발명이 속하는 기술 분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 상술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함하는 것으로 해석되어야 한다.
본 명세서 내에 기술된 특징들 및 장점들은 모두를 포함하지 않으며, 특히 많은 추가적인 특징들 및 장점들이 도면들, 명세서, 및 청구항들을 고려하여 당업자에게 명백해질 것이다. 더욱이, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수도 있다는 것을 주의해야 한다.
본 발명의 실시예들의 상기한 설명은 예시의 목적으로 제시되었다. 이는 개시된 정확한 형태로 본 발명을 제한하거나, 빠뜨리는 것 없이 만들려고 의도한 것이 아니다. 당업자는 상기한 개시에 비추어 많은 수정 및 변형이 가능하다는 것을 이해할 수 있다.
그러므로 본 발명의 범위는 상세한 설명에 의해 한정되지 않고, 이를 기반으로 하는 출원의 임의의 청구항들에 의해 한정된다. 따라서, 본 발명의 실시예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것은 아니다.
1: 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치
10: 이미지 인코더
20: 텍스트 인코더
30: 크로스 어텐션 네트워크 모듈
40: 멀티모달 태스크 분류 모듈
50: 프롬프트 제너레이터 모듈
60: 이그잼플 인덱싱 모듈
70: 베이스 인공신경망 모듈
80: 로스 어텐션 네트워크 모듈
100: 사용자 클라이언트

Claims (5)

  1. 사용자 클라이언트 내에 포함되어 구동되는 애플리케이션 모듈에 의해 표시되는 화면의 이미지인 환경 이미지 정보를 입력 데이터로 하고 상기 환경 이미지 정보의 임베딩 벡터인 환경 이미지 벡터를 출력 데이터로 하는 Convolution 기반의 Downsampling 인공신경망 모듈인 이미지 인코더;
    상기 사용자 클라이언트의 키보드 모듈을 통해 사용자에 의해 입력되는 텍스트의 형태인 Raw 프롬프트 정보를 입력 데이터로 하고, 상기 Raw 프롬프트 정보의 임베딩 벡터인 프롬프트 벡터를 출력 데이터로 하는 Downsampling 인공신경망 모듈인 텍스트 인코더;
    상기 환경 이미지 벡터와 상기 프롬프트 벡터를 입력 데이터로 하고 크로스 어텐션 적용된 상기 환경 이미지 벡터(Icross)와 크로스 어텐션 적용된 상기 프롬프트 벡터(Pcross)가 조합된 조합 벡터인 크로스 어텐션 매트릭스를 출력 데이터로 하는 인공신경망 모듈인 크로스 어텐션 네트워크 모듈;
    상기 크로스 어텐션 매트릭스를 입력 데이터로 하고 특정 태스크(task)에 대해 기설정된 클래스(class)인 태스크 클래스와 신뢰도(confidence score)를 포함하는 태스크 정보를 출력 데이터로 하는 인공신경망 모듈인 멀티모달 태스크 분류 모듈;
    상기 크로스 어텐션 매트릭스에 상기 태스크 정보를 임베딩한 일련의 임베딩 벡터를 입력 데이터로 하고, 개선된 프롬프트 정보를 출력 데이터로 하는 Self-attention을 이용하는 디코더 블록을 포함하는 Transformer 기반의 인공신경망 모듈인 프롬프트 제너레이터 모듈; 및
    셀프 어텐션 레이어, 크로스 어텐션 레이어, 피드 포워드 인공신경망 레이어를 포함하는 transformer block을 n개 포함하고, 상기 개선된 프롬프트 정보를 입력 데이터로 하고 의사결정 텍스트 정보를 출력 데이터로 하는 기학습된(pre-trained) 인공신경망 모듈인 훈련된 언어 모델을 의미하는 베이스 인공신경망 모듈;
    을 포함하고,
    상기 개선된 프롬프트 정보는, 상기 베이스 인공신경망 모듈의 initial transformer block의 상기 셀프 어텐션 레이어의 입력단에 입력되도록 구성되는,
    훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치.
  2. 제1항에 있어서,
    상기 크로스 어텐션 네트워크 모듈의 출력 데이터인 상기 크로스 어텐션 매트릭스를 구성하는 상기 Icross는 상기 환경 이미지 벡터만으로 구성된 self-attention과 상기 환경 이미지 벡터와 상기 프롬프트 벡터로 구성된 cross-attention을 포함하고, 상기 Pcross는 상기 프롬프트 벡터만으로 구성된 self-attention과 상기 환경 이미지 벡터와 상기 프롬프트 벡터로 구성된 cross-attention을 포함하고,
    상기 크로스 어텐션 매트릭스는 Add & Norm Layer를 통과하여 잔차연결(residual connection) 및 정규화(normalization) 되는 것을 특징으로 하는,
    훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치.
  3. 제1항에 있어서,
    상기 프롬프트 벡터, 상기 환경 이미지 벡터, 상기 태스크 정보 및 의사결정 손실을 입력 데이터로 하는 인공신경망 모듈로서 상위층을 공유하는 복수의 하위층을 포함하도록 구성되며, 상기 하위층에서 상기 이미지 인코더의 손실인 이미지 인코더 손실, 상기 텍스트 인코더의 손실인 텍스트 인코더 손실, 상기 멀티모달 태스크 분류 모듈의 손실인 멀티모달 태스크 분류 모듈 손실 및 상기 프롬프트 제너레이터 모듈의 손실인 프롬프트 제너레이터 모듈 손실이 출력 데이터로 출력되는 로스 어텐션 네트워크 모듈;
    을 포함하고,
    상기 의사결정 손실은, 상기 베이스 인공신경망 모듈의 출력 데이터인 상기 의사결정 텍스트 정보와 학습 데이터의 정답 정보(Ground truth)의 차이 또는 유사도를 의미하며,
    상기 이미지 인코더의 학습 세션에서는 상기 이미지 인코더 손실이 저감되는 방향으로 상기 이미지 인코더의 파라미터가 업데이트 되고, 상기 텍스트 인코더의 학습 세션에서는 상기 텍스트 인코더 손실이 저감되는 방향으로 상기 텍스트 인코더의 파라미터가 업데이트 되며, 상기 멀티모달 태스크 분류 모듈의 학습 세션에서는 상기 멀티모달 태스크 분류 모듈 손실이 저감되는 방향으로 상기 멀티모달 태스크 분류 모듈의 파라미터가 업데이트 되고, 상기 프롬프트 제너레이터 모듈의 학습 세션에서는 상기 프롬프트 제너레이터 모듈 손실이 저감되는 방향으로 상기 프롬프트 제너레이터 모듈의 파라미터가 업데이트 되는,
    훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치.
  4. 사용자 클라이언트 내에 포함되어 구동되는 애플리케이션 모듈에 의해 표시되는 화면의 이미지인 환경 이미지 정보를 입력 데이터로 하고 상기 환경 이미지 정보의 임베딩 벡터인 환경 이미지 벡터를 출력 데이터로 하는 Convolution 기반의 Downsampling 인공신경망 모듈인 이미지 인코더가, 상기 환경 이미지 벡터를 출력하는 환경 이미지 벡터 출력 단계;
    상기 사용자 클라이언트의 키보드 모듈을 통해 사용자에 의해 입력되는 텍스트의 형태인 Raw 프롬프트 정보를 입력 데이터로 하고, 상기 Raw 프롬프트 정보의 임베딩 벡터인 프롬프트 벡터를 출력 데이터로 하는 Downsampling 인공신경망 모듈인 텍스트 인코더가, 상기 프롬프트 벡터를 출력하는 프롬프트 벡터 출력 단계;
    상기 환경 이미지 벡터와 상기 프롬프트 벡터를 입력 데이터로 하고 크로스 어텐션 적용된 상기 환경 이미지 벡터(Icross)와 크로스 어텐션 적용된 상기 프롬프트 벡터(Pcross)가 조합된 조합 벡터인 크로스 어텐션 매트릭스를 출력 데이터로 하는 인공신경망 모듈인 크로스 어텐션 네트워크 모듈이, 상기 크로스 어텐션 매트릭스를 출력하는 크로스 어텐션 매트릭스 출력 단계;
    상기 크로스 어텐션 매트릭스를 입력 데이터로 하고 특정 태스크(task)에 대해 기설정된 클래스(class)인 태스크 클래스와 신뢰도(confidence score)를 포함하는 태스크 정보를 출력 데이터로 하는 인공신경망 모듈인 멀티모달 태스크 분류 모듈이, 상기 태스크 정보를 출력하는 태스크 정보 출력 단계;
    상기 크로스 어텐션 매트릭스에 상기 태스크 정보를 임베딩한 일련의 임베딩 벡터를 입력 데이터로 하고, 개선된 프롬프트 정보를 출력 데이터로 하는 Self-attention을 이용하는 디코더 블록을 포함하는 Transformer 기반의 인공신경망 모듈인 프롬프트 제너레이터 모듈이, 상기 개선된 프롬프트 정보를 출력하는 프롬프트 개선 단계; 및
    셀프 어텐션 레이어, 크로스 어텐션 레이어, 피드 포워드 인공신경망 레이어를 포함하는 transformer block을 n개 포함하고, 상기 개선된 프롬프트 정보를 입력 데이터로 하고 의사결정 텍스트 정보를 출력 데이터로 하는 기학습된(pre-trained) 인공신경망 모듈인 훈련된 언어 모델을 의미하는 베이스 인공신경망 모듈이, 상기 의사결정 텍스트 정보를 출력하는 의사결정 시뮬레이션 단계;
    를 포함하고,
    상기 개선된 프롬프트 정보는, 상기 베이스 인공신경망 모듈의 initial transformer block의 상기 셀프 어텐션 레이어의 입력단에 입력되도록 구성되는,
    훈련된 언어 모델을 이용한 의사결정 시뮬레이션 방법.

  5. 삭제
KR1020220070865A 2022-06-10 2022-06-10 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법 KR102506404B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220070865A KR102506404B1 (ko) 2022-06-10 2022-06-10 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법
KR1020220129419A KR20230170542A (ko) 2022-06-10 2022-10-11 이그잼플 텍스트 벡터 및 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220070865A KR102506404B1 (ko) 2022-06-10 2022-06-10 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020220129419A Division KR20230170542A (ko) 2022-06-10 2022-10-11 이그잼플 텍스트 벡터 및 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102506404B1 true KR102506404B1 (ko) 2023-03-07

Family

ID=85513732

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020220070865A KR102506404B1 (ko) 2022-06-10 2022-06-10 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법
KR1020220129419A KR20230170542A (ko) 2022-06-10 2022-10-11 이그잼플 텍스트 벡터 및 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020220129419A KR20230170542A (ko) 2022-06-10 2022-10-11 이그잼플 텍스트 벡터 및 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법

Country Status (1)

Country Link
KR (2) KR102506404B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468298A (zh) * 2023-06-12 2023-07-21 江西五十铃汽车有限公司 基于gpt网络模型的汽车技术规划与决策的方法及***
CN116561286A (zh) * 2023-07-06 2023-08-08 杭州华鲤智能科技有限公司 一种对话方法及装置
CN116844161A (zh) * 2023-09-04 2023-10-03 深圳市大数据研究院 一种基于分组提示学习的细胞检测分类方法及***
CN116934796A (zh) * 2023-07-20 2023-10-24 河南大学 基于孪生残差注意力聚合网络的视觉目标跟踪方法
CN117171331A (zh) * 2023-11-01 2023-12-05 清华大学 基于大型语言模型的专业领域信息交互方法、装置及设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708568B (zh) * 2024-02-02 2024-07-12 智慧眼科技股份有限公司 大语言模型的特征提取方法、装置、计算机设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210156283A (ko) * 2019-04-19 2021-12-24 삼성전자주식회사 프롬프트 정보 처리 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210156283A (ko) * 2019-04-19 2021-12-24 삼성전자주식회사 프롬프트 정보 처리 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
미국 공개특허 2021-0192140 A1, CONTROLLABLE GROUNDED TEXT GENERATION, Microsoft Technology Licensing, LLC

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468298A (zh) * 2023-06-12 2023-07-21 江西五十铃汽车有限公司 基于gpt网络模型的汽车技术规划与决策的方法及***
CN116468298B (zh) * 2023-06-12 2023-11-03 江西五十铃汽车有限公司 基于gpt网络模型的汽车技术规划与决策的方法及***
CN116561286A (zh) * 2023-07-06 2023-08-08 杭州华鲤智能科技有限公司 一种对话方法及装置
CN116561286B (zh) * 2023-07-06 2023-10-27 杭州华鲤智能科技有限公司 一种对话方法及装置
CN116934796A (zh) * 2023-07-20 2023-10-24 河南大学 基于孪生残差注意力聚合网络的视觉目标跟踪方法
CN116844161A (zh) * 2023-09-04 2023-10-03 深圳市大数据研究院 一种基于分组提示学习的细胞检测分类方法及***
CN116844161B (zh) * 2023-09-04 2024-03-05 深圳市大数据研究院 一种基于分组提示学习的细胞检测分类方法及***
CN117171331A (zh) * 2023-11-01 2023-12-05 清华大学 基于大型语言模型的专业领域信息交互方法、装置及设备
CN117171331B (zh) * 2023-11-01 2024-02-06 清华大学 基于大型语言模型的专业领域信息交互方法、装置及设备

Also Published As

Publication number Publication date
KR20230170542A (ko) 2023-12-19

Similar Documents

Publication Publication Date Title
KR102506404B1 (ko) 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법
US10963759B2 (en) Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US11507800B2 (en) Semantic class localization digital environment
EP4024232A1 (en) Text processing model training method, and text processing method and apparatus
US11907337B2 (en) Multimodal image classifier using textual and visual embeddings
US20220164548A1 (en) System and Method for Temporal Attention Behavioral Analysis of Multi-Modal Conversations in a Question and Answer System
Yang et al. Continuous Chinese sign language recognition with CNN-LSTM
US12039766B2 (en) Image processing method, apparatus, and computer product for image segmentation using unseen class obtaining model
US11238631B2 (en) Align-to-ground, weakly supervised phrase grounding guided by image-caption alignment
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
Du et al. From plane to hierarchy: Deformable transformer for remote sensing image captioning
US20230376687A1 (en) Multimodal extraction across multiple granularities
US11481419B2 (en) Method and apparatus for evaluating matching degree based on artificial intelligence, device and storage medium
CN113609863B (zh) 一种训练、使用数据转换模型的方法、装置及计算机设备
Jia et al. Training quantized one-stage object detection neural networks via selective feature imitation
Susitha et al. Static and Dynamic Hand Gesture Recognition for Indian Sign Language
GB2556378A (en) Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US20240104951A1 (en) Image and semantic based table recognition
US20240062560A1 (en) Unified scene text detection and layout analysis
Peng et al. GAF-Net: Global view guided attribute fusion network for remote sensing image captioning
Shang et al. Visual question answering using hierarchical dynamic memory networks
Wu et al. Application Research of Attention Mechanism in Machine Reading Comprehension
KR20230161788A (ko) 인공신경망을 이용한 이모지 추천 장치 및 방법
Mohit Sai Aravind et al. Military Hand Signal Classification Using Deep Learning

Legal Events

Date Code Title Description
GRNT Written decision to grant