KR20210124938A - 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

이벤트 추출 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210124938A
KR20210124938A KR1020210127359A KR20210127359A KR20210124938A KR 20210124938 A KR20210124938 A KR 20210124938A KR 1020210127359 A KR1020210127359 A KR 1020210127359A KR 20210127359 A KR20210127359 A KR 20210127359A KR 20210124938 A KR20210124938 A KR 20210124938A
Authority
KR
South Korea
Prior art keywords
event
argument
description text
query phrase
extraction
Prior art date
Application number
KR1020210127359A
Other languages
English (en)
Inventor
신뉴 리
파유안 리
루 판
유광 첸
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210124938A publication Critical patent/KR20210124938A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 출원은 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체를 개시하고, 컴퓨터 기술 분야에 관한 것으로, 구체적으로 자연 언어 처리, 딥러닝, 지식 그래프 등 인공지능 기술 분야에 관한 것이다. 구체적인 구현 솔루션은 이벤트 묘사 텍스트를 획득하고; 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정하며, 후보 이벤트 유형은 한 그룹의 문의 어구에 대응하고; 문의 어구에 따라 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하는 단계들을 포함하여, 이벤트 요소 추출이 이벤트 정의 시스템에 대한 의존성을 효과적으로 낮출 수 있고, 이벤트 요소의 추출 효과를 효과적으로 제고하고, 또한 일반화 능력이 상대적으로 우수하다.

Description

이벤트 추출 방법, 장치, 전자 기기 및 저장 매체{EVENT EXTRACTION METHOD, DEVICE, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM}
본 출원은 컴퓨터 기술 분야에 관한 것으로, 구체적으로 자연 언어 처리, 딥러닝, 지식 그래프 등 인공지능 기술 분야에 관한 것으로, 특히 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.
인공지능은 인간의 특정 사유 과정 및 지능 행위(예컨대, 학습, 추리, 사고, 계획 등)를 컴퓨터로 시뮬레이션하기 위해 연구하는 학과이며, 하드웨어 층면의 기술 뿐만 아니라 소프트웨어 층면의 기술도 포함한다. 인공지능 하드웨어 기술은 일반적으로 예컨대 센서, 전용 인공지능 칩, 클라우드 컴퓨팅, 분산 저장, 빅데이터 처리 등 기술을 포함하고; 인공지능 소프트웨어 기술은 주로 컴퓨터 시각 기술, 음성 인식 기술, 자연 언어 처리 기술 및 기계 학습/딥러닝, 빅데이터 처리 기술, 지식 그래프 기술 등 몇 가지 주요 방향을 포함한다.
이벤트 추출(Event Extraction) 기술은 이벤트 묘사 자연 텍스트를 해석하여 구조화된 이벤트 묘사 정보를 획득하는 것을 의미하고, 이벤트 추출은 객관적인 세계에서 풍부하고 구조화되지 않은 텍스트를 구조화된 지식으로 전환하는 중요한 수단이며, 금융 위험 관리, 여론 모니터링 등 측면에서 넓은 응용 전망이 있다.
이벤트 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품을 제공한다.
제1 측면에 따르면, 이벤트 추출 방법이 제공되어, 이벤트 묘사 텍스트를 획득하는 단계; 상기 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정하는 단계 - 상기 후보 이벤트 유형은 한 그룹의 문의 어구에 대응함 -; 상기 문의 어구에 따라 상기 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하는 단계를 포함한다.
제2 측면에 따르면, 이벤트 추출 장치가 제공되어, 이벤트 묘사 텍스트를 획득하는 획득 모듈; 상기 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정하는 결정 모듈, 및 상기 후보 이벤트 유형은 한 그룹의 문의 어구에 대응하고; 상기 문의 어구에 따라 상기 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하는 추출 모듈을 포함한다.
제3 측면에 따르면, 전자 기기가 제공되어, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리를 포함하고; 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서가 본 출원 실시예의 이벤트 추출 방법을 수행하도록 한다.
제4 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체가 제공되어, 상기 컴퓨터 명령은 상기 컴퓨터가 본 출원 실시예에서 개시된 이벤트 추출 방법을 수행하도록 한다.
제5 측면에 따르면, 컴퓨터 프로그램 제품이 제공되어, 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행되는 경우 본 출원 실시예에서 개시된 이벤트 추출 방법을 구현하도록 한다.
제6 측면에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 본 출원 실시예에서 개시된 이벤트 추출 방법이 실행된다.
이해 가능한 바로는 본 부분에서 설명된 내용은 본 출원의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 출원의 범위를 한정하지도 않는다. 본 출원의 기타 특징들은 하기의 명세서에 의해 쉽게 이해될 것이다.
첨부된 도면은 본 솔루션을 더 잘 이해하기 위한 것으로, 본 출원에 대한 한정이 구성되지 않는다.
도1은 본 출원의 제1 실시예에 따른 개략도이고;
도2는 본 출원의 제2 실시예에 따른 개략도이고;
도3은 본 출원의 제3 실시예에 따른 개략도이고;
도4는 본 출원의 제4 실시예에 따른 개략도이고;
도5는 본 출원 실시예의 이벤트 추출 방법을 구현하기 위한 전자 기기의 블록도이다.
이하, 첨부된 도면을 결합하여 본 출원의 예시적인 실시예에 대해 설명하며, 여기에는 이해를 돕기 위해 본 출원 실시예의 다양한 세부 사항을 포함하되, 이는 단지 예시적인 것으로 이해해야 한다. 따라서, 당업자는 본 출원의 범위 및 사상을 벗어나지 않는 한 여기에 설명된 실시예에 대해 다양한 변경 및 수정이 이루어질 수 있음을 인식해야 한다. 마찬가지로, 명확성과 간결성을 위해, 하기의 설명에서는 공지된 기능 및 구조에 대한 설명을 생략한다.
도1은 본 출원의 제1 실시예에 따른 개략도이다.
설명해야 하는 바로는, 본 실시예의 이벤트 추출 방법의 수행 주체는 이벤트 추출 장치이며, 당해 장치는 소프트웨어 또는 하드웨어 중의 적어도 하나의 방식에 의해 구현될 수 있고, 당해 장치는 전자 기기에 구성될 수 있으며, 전자 기기는 단말기, 서버 등을 포함하되 이에 제한되지 않는다.
본 출원 실시예는 자연 언어 처리, 딥러닝, 지식 그래프 등 인공지능 기술 분야에 관한 것이다.
인공지능(Artificial Intelligence)의 영문 약자는 AI이다. 인공지능은 인간의 지능을 시뮬레이션, 연장 및 확장하기 위한 이론, 방법, 기술 및 응용 시스템을 연구하고 개발하는 하나의 새로운 기술 과학이다.
딥러닝은 샘플 데이터의 내재적 법칙 및 표현 계층을 학습하는 것이며, 이러한 학습 과정에서 획득한 정보는 문자, 이미지 및 소리 등과 같은 데이터의 해석에 대해 큰 도움이 된다. 딥러닝의 최종 목적은 기계로 하여금 인간과 같은 분석 학습 능력을 구비할 수 있고, 문자, 이미지 및 소리 등과 같은 데이터를 인식할 수 있도록 한다.
자연 언어 처리는 인간과 컴퓨터 사이에서 자연 언어로 효과적인 통신을 진행할 수 있도록 구현되는 다양한 이론 및 방법이다. 딥러닝은 샘플 데이터의 내재적 법칙 및 표현 계층을 학습하는 것이며, 이러한 학습 과정에서 획득한 정보는 문자, 이미지 및 소리 등과 같은 데이터의 해석에 대해 큰 도움이 된다. 딥러닝의 최종 목적은 기계로 하여금 인간과 같은 분석 학습 능력을 구비할 수 있고, 문자, 이미지 및 소리 등과 같은 데이터를 인식할 수 있도록 한다.
지식 그래프는 응용 수학, 그래픽스, 정보 시각화 기술, 정보 과학 등 학과의 이론과 방법을 계량학 인용 분석, 동시출현 분석 등 방법과 결합하여, 시각화된 그래프를 사용하여 학과의 핵심 구조, 발전 역사, 첨단 영역 및 전체적인 지식 아키텍처를 생생하게 전시하여 학제간 융합 목적을 달성하기 위한 현대 이론이다.
도1에 도시된 바와 같이, 당해 이벤트 추출 방법은 하기의 단계를 포함한다.
S101, 이벤트 묘사 텍스트를 획득한다.
이벤트 묘사 텍스트는 예를 들어 한 절의 상응하는 어의를 구비하는 텍스트이고, 당해 이벤트 묘사 텍스트의 어의는 하나의 이벤트를 묘사하며, 이벤트 묘사 텍스트는 예를 들어 "비극! 사오싱 스마오에 35세 여성 한 명이 건물에서 추락해 사망!"일 수 있다.
본 출원 실시예에서, 전자 기기에 의해 텍스트 입력 인터페이스를 제공하므로, 사용자가 입력한 한 절의 텍스트를 수신하고, 당해 절의 텍스트를 이벤트 묘사 텍스트로 할 수 있으며, 또는, 사용자 음성으로 녹음된 한 절의 음성을 해석하므로, 당해 절의 음성을 상응하는 텍스트로 전환하고, 이벤트 묘사 텍스트로 할 수도 있으며, 이에 대해 제한하지 않는다.
S102, 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정하며, 후보 이벤트 유형은 한 그룹의 문의 어구에 대응한다.
상기에서 한 절의 이벤트 묘사 텍스트를 획득한 다음, 예를 들어, 당해 이벤트 묘사 텍스트에 대해 어의 해석을 수행하여 상응하는 어의 결과를 획득할 수 있으므로, 수많은 후보 이벤트 유형으로부터 어의 결과에 매칭되는 적어도 하나의 후보 이벤트 유형을 결정하거나, 또는, 기존의 후보 이벤트 유형을 직접 결정할 수도 있으며, 후보 이벤트 유형은 [이벤트 사망], [이벤트 결혼], [이벤트 교육], [이벤트 여행] 등일 수 있다.
본 출원 실시예에서, 각종의 후보 이벤트 유형은 한 그룹의 문의 어구에 대응하고, 당해 문의 어구는 이벤트 묘사 텍스트로부터 상응하는 이벤트 요소를 매칭하도록 사용되고, 각 그룹의 문의 어구에는 한 스트립 또는 다수 스트립의 문의 어구를 포함할 수 있으며, 예를 들어, 서로 다른 문의 어구를 사용하여 이벤트 묘사 텍스트로부터 서로 다른 유형의 이벤트 요소를 매칭할 수 있다.
예를 들어 설명하면, 문의 어구 예컨대 [이벤트 사망의 트리거 단어는?] 또한 [이벤트 결혼의 트리거 단어는?]에 있어서, 서로 다른 문의 어구는 후보 이벤트 유형에 대응할 수 있으며, 예를 들어, [이벤트 사망의 트리거 단어는?]가 후보 이벤트 유형 [이벤트 사망]에 대응하고, [이벤트 결혼의 트리거 단어는?]가 후보 이벤트 유형 [이벤트 결혼]에 대응하되, 이에 대해 제한하지 않는다.
S103, 문의 어구에 따라 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출한다.
상기에서 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정한 다음, 문의 어구에 따라 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출할 수 있다.
즉, 본 출원 실시예에서, 후보 이벤트 유형에 대응하는 문의 어구를 사용하여 이벤트 묘사 텍스트로부터 상응하는 이벤트 요소를 매칭하지만, 문의 어구에 따라, 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하는 경우, 구체적으로 어의 인식을 사용하고, 어의 매칭하는 방식으로 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출할 수 있다.
예를 들어 설명하면, 문의 어구 예컨대 [이벤트 사망의 트리거 단어는?]에 있어서, 이벤트 묘사 텍스트로부터 매칭되는 내용을 인식하여 추출된 이벤트 요소로 할 수 있으며, 예를 들어, [이벤트 사망의 트리거 단어는?]에 매칭되는 내용이 [사망]이면, [사망]을 인식되는 이벤트 요소로 할 수 있다.
또 다른 예를 들면, 문의 어구 예컨대 [이벤트 결혼의 트리거 단어는?]에 있어서, 이벤트 묘사 텍스트로부터 매칭되는 내용을 인식하여 추출된 이벤트 요소로 할 수 있으며, 예를 들어, [이벤트 결혼의 트리거 단어는?]가 상기 예시의 이벤트 묘사 텍스트에서 매칭되는 내용이 공백이면, 당해 이벤트 묘사 텍스트는 문의 어구 [이벤트 결혼의 트리거 단어는?]에 매칭되지 않음을 의미하며, 즉 이벤트 묘사 텍스트에 대응하는 이벤트 유형은 문의 어구 [이벤트 결혼의 트리거 단어는?]에 대응하는 후보 이벤트 유형에 적합하지 않는다.
일부 실시예에서, 문의 어구에 따라 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하는 것은 문의 어구에 따라 이벤트 묘사 텍스트로부터 이벤트 트리거 단어, 이벤트 유형, 이벤트 논항, 및 논항 역할을 추출하는 것일 수 있고; 이벤트 트리거 단어, 이벤트 유형, 이벤트 논항, 및 논항 역할을 대응하는 이벤트 요소로 함으로써 문의 어구를 사용하여 어의 매칭하는 방식으로 이벤트 트리거 단어, 이벤트 유형, 이벤트 논항, 및 논항 역할을 인식하도록 지원하여, 따라서, 문의 어구에 따라 이벤트 묘사 텍스트로부터 완전한 이벤트 요소를 인식할 수 있고 이벤트 요소 추출의 완전성을 효과적으로 제고할 수 있다.
이벤트 트리거 단어는 이벤트 발생함을 표시하는 핵심 단어이고, 주로 동사 또는 명사이며; 이벤트 유형은 예컨대 이벤트가 속한 분류이고, 이벤트 논항은 즉 이벤트의 참여자를 표시하여, 주로 엔티티, 값, 시간으로 구성되며; 논항 역할은 이벤트 논항이 이벤트에서 맡은 역할을 표시한다.
본 출원 실시예에서, 문의 어구를 사용하여 어의 매칭하는 방식을 지원하여 이벤트 묘사 텍스트로부터 이벤트 트리거 단어, 이벤트 유형, 이벤트 논항, 및 논항 역할을 매칭하고; 이벤트 트리거 단어, 이벤트 유형, 이벤트 논항, 및 논항 역할을 대응하는 이벤트 요소로 한다.
빠르고, 정확하게 이벤트 묘사 텍스트로부터 이벤트 트리거 단어, 이벤트 유형, 이벤트 논항, 및 논항 역할을 인식할 수 있도록, 본 출원 실시예에서, 또한, 문의 어구를 구성할 수 있고, 상기 문의 어구는 적어도 하나의 스트립의 제1 문의 어구를 포함하며, 제1 문의 어구는 한 종류의 이벤트 유형에 대응하고, 이벤트 유형은 적어도 하나의 스트립의 제2 문의 어구에 대응하고, 제2 문의 어구는 또한 논항 역할에 대응하고, 제1 문의 어구는 이벤트 묘사 텍스트로부터 이벤트 트리거 단어 및 이벤트 유형을 추출하도록 사용되고, 제2 문의 어구는 이벤트 논항 및 논항 역할을 추출하도록 사용된다.
즉, 본 출원 실시예에서 각 그룹의 문의 어구에는 제1 문의 어구 및 제2 문의 어구를 포함하고, 그리고, 제1 문의 어구의 스트립 수량은 적어도 하나의 스트립이고, 제1 문의 어구의 스트립 수량이 다수 스트립인 경우, 각 스트립의 문의 어구는 한 종류의 이벤트 유형에 대응하고, 이벤트 유형은 적어도 하나의 스트립의 제2 문의 어구에 대응하고, 제2 문의 어구는 또한 논항 역할에 대응한다.
예를 들어 설명하면, 제1 문의 어구가 [이벤트 사망의 트리거 단어는?]인 경우, 대응하는 이벤트 유형은 [이벤트 사망]이고, [이벤트 사망]에 또한 적어도 하나의 스트립의 제2 문의 어구 [사망 사망자는 누구?]가 대응하면, 제2 문의 어구에 대응하는 논항 역할은 [사망자]이고, 여기서 [사망]은 이벤트 유형 [이벤트 사망]의 약어일 수 있으며, 즉 각종의 이벤트 유형에는 다종의 논항 역할을 포함하며, [논항 역할]은 또한 예컨대 시간, 지점, 장면 등 기타 내용일 수 있고, 서로 다른 제2 문의 어구는 이벤트 묘사 텍스트로부터 시간, 지점, 장면 등 기타 논항 역할에 대응하는 이벤트 논항을 매칭하도록 사용될 수 있다.
본 실시예에서, 이벤트 묘사 텍스트를 획득하고, 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정함으로써, 후보 이벤트 유형은 한 그룹의 문의 어구에 대응하고, 또한 문의 어구에 따라 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하여, 이벤트 요소 추출이 이벤트 정의 시스템에 대한 의존성을 효과적으로 낮출 수 있고, 이벤트 요소의 추출 효과를 효과적으로 제고하고, 또한 일반화 능력이 상대적으로 우수하다.
도2는 본 출원의 제2 실시예에 따른 개략도이다.
도2에 도시된 바와 같이, 당해 이벤트 추출 방법은 하기의 단계를 포함한다.
S201, 이벤트 묘사 텍스트를 획득한다.
S202, 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정하며, 후보 이벤트 유형은 한 그룹의 문의 어구에 대응한다.
S201 - S202에 대한 설명은 상기 실시예를 참조할 수 있으므로, 여기서는 더 이상 설명하지 않는다.
S203, 이벤트 묘사 텍스트로부터 제1 문의 어구에 매칭되는 트리거 단어를 인식하고, 매칭되는 트리거 단어를 이벤트 트리거 단어로 한다.
본 실시예는 적어도 하나의 스트립의 제1 문의 어구를 포함하는 문의 어구가 구성되고, 제1 문의 어구는 한 종류의 이벤트 유형에 대응하고, 이벤트 유형은 적어도 하나의 스트립의 제2 문의 어구에 대응하고, 제2 문의 어구는 또한 논항 역할에 대응하고, 제1 문의 어구는 이벤트 묘사 텍스트로부터 이벤트 트리거 단어 및 이벤트 유형을 추출하도록 사용되고, 제2 문의 어구는 이벤트 논항 및 논항 역할을 추출하도록 사용되며, 이에 대해 제한하지 않는다.
예를 들어, 실제 추출 응용 요구에 따라 기타 내용의 문의 어구를 확장할 수 있고, 또한 기타 내용의 문의 어구를 사용하여 이벤트 묘사 텍스트로부터 임의의 이벤트 요소를 인식할 수 있되, 이에 대해 제한하지 않는다.
문의 어구가 적어도 하나의 스트립의 제1 문의 어구, 및 적어도 하나의 스트립의 제2 문의 어구를 포함하도록 구성되고, 또한 제1 문의 어구는 이벤트 묘사 텍스트로부터 이벤트 트리거 단어 및 이벤트 유형을 추출하도록 사용되고, 제2 문의 어구는 이벤트 논항 및 논항 역할을 추출하도록 사용되는 경우, 이벤트 묘사 텍스트로부터 제1 문의 어구에 매칭되는 트리거 단어를 인식할 수 있고, 매칭되는 트리거 단어를 이벤트 트리거 단어로 할 수 있다.
예를 들어 설명하면, 제1 문의 어구가 [이벤트 사망의 트리거 단어는?]인 경우, 대응하는 이벤트 유형은 [이벤트 사망]이고, 이벤트 묘사 텍스트 "비극! 사오싱 스마오에 35세 여성 한 명이 건물에서 추락해 사망!"으로부터 제1 문의 어구 [이벤트 사망의 트리거 단어는?]에 매칭되는 트리거 단어는 [사망]인 것을 인식하면, [이벤트 사망의 트리거 단어는?]인 제1 문의 어구를 기반으로 인식된 내용이 공백이 아님을 표시하고, [이벤트 사망의 트리거 단어는?]인 제1 문의 어구를 기반으로 인식된 내용이 공백인 경우, 하나의 제1 문의 어구를 사용하여 상응하는 트리거 단어를 매칭할 때까지 다음 제1 문의 어구를 순회하여, 공백이 아닌 경우 인식된 트리거 단어를 이벤트 트리거 단어로 직접 사용할 수 있다.
선택적으로, 일부 실시예에서, 이벤트 묘사 텍스트로부터 제1 문의 어구에 매칭되는 트리거 단어를 인식하는 것은 이벤트 묘사 텍스트 및 제1 문의 어구를 미리 훈련된 이벤트 트리거 단어 추출 모델에 입력하여, 이벤트 트리거 단어 추출 모델에서 출력한 매칭되는 트리거 단어를 획득하는 것일 수 있으며, 미리 훈련된 이벤트 트리거 단어 추출 모델에 따라 이벤트 묘사 텍스트 및 제1 문의 어구에 대해 각각 어의 인식, 트리거 단어 매칭 처리를 수행함으로써, 빠르고, 정확하게 매칭되는 트리거 단어를 획득할 수 있다.
이벤트 트리거 단어 추출 모델은 수많은 훈련 데이터를 기반으로 미리 훈련하여 획득할 수 있으며, 예를 들어, 먼저 이벤트 추출 표기 데이터 집합을 획득하여 이벤트 추출 표기 데이터 중의 이벤트 트리거 단어 및 이벤트 유형을 인식하고, 그 다음, 이벤트 추출 표기 데이터 중의 이벤트 트리거 단어 및 이벤트 유형 부분의 격식을 독해 문답 격식으로 전환된 이벤트 트리거 단어 추출 데이터 집합에 대해, 이벤트 묘사 텍스트를 단락으로, 이벤트 유형을 사용하여 문의 어구를 구성하고, 당해 이벤트 유형 하에 대응하는 트리거 단어가 답안(현재 이벤트가 대응하는 이벤트 유형에 속하지 않으면 답안은 공백임) 이므로, 따라서, 독해 문답 방식인 이벤트 트리거 단어 추출 및 대응 이벤트 유형 분류 모델을 형성하고, 또한 훈련하여 획득한 모델을 이벤트 트리거 단어 추출 모델로 하여, 당해 이벤트 트리거 단어 추출 모델은 수많은 이벤트 추출 표기 데이터 집합을 기반으로 훈련하여 획득함으로써, 상대적으로 우수한 트리거 단어 인식 효과를 획득할 수 있다.
S204, 제1 문의 어구에 대응하는 이벤트 유형을 추출된 이벤트 유형으로 한다.
상기에서 이벤트 묘사 텍스트로부터 제1 문의 어구에 매칭되는 트리거 단어를 인식하고, 매칭되는 트리거 단어를 이벤트 트리거 단어로 함으로써, 제1 문의 어구에 대응하는 이벤트 유형을 추출된 이벤트 유형으로 직접 사용할 수 있다.
따라서, 어구 문의와 모델 인식이 결합하는 방식을 기반으로 이벤트 묘사 텍스트로부터 이벤트 트리거 단어 및 이벤트 유형을 직접 추출하고, 이벤트 트리거 단어 및 이벤트 유형의 추출 처리 논리를 간소화하여, 이벤트 트리거 단어 및 이벤트 유형의 추출 효율 및 추출 정확성을 제고하고, 이벤트 정의 시스템 중의 대량의 데이터 표기 정보에 의존할 필요가 없으며, 추출 효과를 제고하는 동시에 이벤트 트리거 단어 및 이벤트 유형의 추출이 이벤트 정의 시스템에 대한 의존성을 낮출 수 있다.
S205, 추출된 이벤트 유형에 대응하는 적어도 하나의 스트립의 제2 문의 어구를 결정한다.
상기에서, 이벤트 묘사 텍스트로부터 제1 문의 어구에 매칭되는 트리거 단어를 인식하여, 매칭되는 트리거 단어를 이벤트 트리거 단어로 하고, 제1 문의 어구에 대응하는 이벤트 유형을 추출된 이벤트 유형으로 직접 사용한 다음, 더 나아가, 추출된 이벤트 유형에 대응하는 적어도 하나의 스트립의 제2 문의 어구를 결정할 수 있으며, 당해 대응하는 제2 문의 어구는 대량의 제2 문의 어구로부터 선택한 추출된 이벤트 유형에 대응하는 제2 문의 어구일 수 있다.
즉, 본 출원 실시예에서, 먼저 이벤트 트리거 단어 및 이벤트 유형을 추출하고, 그 다음, 이벤트 유형에 따라 대응하는 제2 문의 어구를 결정하고, 제2 문의 어구는 이벤트 논항 및 논항 역할을 추출하도록 사용되어, 제2 문의 어구를 사용하여 효율적으로 이벤트 논항 및 논항 역할을 추출하도록 지원하고, 또한 제2 문의 어구의 데이터 수량을 적시에 감소하여, 이벤트 유형을 인식한 기반에서 이벤트 논항 및 논항 역할을 인식할 때 더욱 높은 목표성이 구비되어 이벤트 논항 및 논항 역할의 인식 효율을 크게 제고할 수 있다.
S206, 이벤트 묘사 텍스트로부터 제2 문의 어구에 매칭되는 이벤트 논항을 인식하고, 매칭되는 이벤트 논항을 추출된 이벤트 논항으로 한다.
상기에서 추출된 이벤트 유형에 대응하는 적어도 하나의 스트립의 제2 문의 어구를 결정한 다음, 이벤트 묘사 텍스트 및 제2 문의 어구를 미리 훈련된 이벤트 논항 추출 모델에 입력하여, 이벤트 논항 추출 모델에서 출력한 매칭되는 이벤트 논항을 획득할 수 있으며, 미리 훈련된 이벤트 논항 추출 모델에 따라 이벤트 묘사 텍스트 및 적어도 하나의 스트립의 제2 문의 어구에 대해 각각 어의 인식, 이벤트 논항의 매칭 처리를 수행함으로써, 빠르고, 정확하게 매칭되는 이벤트 논항을 획득할 수 있다.
이벤트 논항 추출 모델은 수많은 훈련 데이터를 기반으로 미리 훈련하여 획득할 수 있으며, 예를 들어, 먼저 이벤트 추출 표기 데이터 집합을 획득하여 이벤트 추출 표기 데이터 중의 이벤트 논항 및 논항 역할을 인식하고, 그 다음, 이벤트 추출 표기 데이터 결과 중의 이벤트 논항 및 논항 역할 부분의 격식을 독해 문답 격식으로 전환된 이벤트 논항 추출 데이터 집합에 대해, 이벤트 묘사 텍스트를 단락으로, 이벤트 유형 및 논항 역할 구조 문제를 사용하여, 대응하는 이벤트 논항은 답안 훈련 최초의 이벤트 논항 추출 모델(예를 들어, 인공지능 중의 신경 네트워크 모델)이고, 또한 훈련하여 획득한 모델을 이벤트 논항 추출 모델로 하여, 당해 이벤트 논항 추출 모델은 수많은 이벤트 추출 표기 데이터 집합을 기반으로 훈련하여 획득함으로써, 상대적으로 우수한 이벤트 논항 및 논항 역할의 인식 효과를 획득할 수 있다.
S207, 제2 문의 어구에 대응하는 논항 역할을 추출된 논항 역할로 한다.
예를 들어 설명하면, 이벤트 묘사 텍스트가 "비극! 사오싱 스마오에 35세 여성 한 명이 건물에서 추락해 사망!"인 경우, 제2 문의 어구는 [사망자는?]이고, 제2 문의 어구에 대응하는 논항 역할은 [사망자]이면, 매칭되는 이벤트 논항은 [사오싱 스마오에 35세 여성 한 명]이고, 논항 역할은 [사망자]임을 추출된 논항 역할로 인식한다.
상기에서, 이벤트 묘사 텍스트로부터 제2 문의 어구에 매칭되는 이벤트 논항을 인식하여, 제2 문의 어구에 대응하는 논항 역할을 추출된 논항 역할로 직접 사용할 수 있다.
따라서, 어구 문의와 모델 인식이 결합하는 방식을 기반으로 이벤트 묘사 텍스트로부터 논항 역할 및 이벤트 논항을 직접 추출하고, 논항 역할 및 이벤트 논항의 추출 처리 논리를 간소화하여, 논항 역할 및 이벤트 논항의 추출 효율 및 추출 정확성을 제고하고, 이벤트 정의 시스템 중의 대량의 데이터 표기 정보에 의존할 필요가 없으며, 추출 효과를 제고하는 동시에 논항 역할 및 이벤트 논항의 추출이 이벤트 정의 시스템에 대한 의존성을 낮출 수 있다.
본 실시예에서, 이벤트 묘사 텍스트를 획득하고, 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정함으로써, 후보 이벤트 유형은 한 그룹의 문의 어구에 대응하고, 또한 문의 어구에 따라 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하여, 이벤트 요소 추출이 이벤트 정의 시스템에 대한 의존성을 효과적으로 낮출 수 있고, 이벤트 요소의 추출 효과를 효과적으로 제고하고, 또한 일반화 능력이 상대적으로 우수하다. 먼저 이벤트 트리거 단어 및 이벤트 유형을 추출하고, 그 다음, 이벤트 유형에 따라 대응하는 제2 문의 어구를 결정하고, 제2 문의 어구는 이벤트 논항 및 논항 역할을 추출하도록 사용되어, 제2 문의 어구를 사용하여 효율적으로 이벤트 논항 및 논항 역할을 추출하도록 지원하고, 또한 제2 문의 어구의 데이터 수량을 적시에 감소하여, 이벤트 유형을 인식한 기반에서 이벤트 논항 및 논항 역할을 인식할 때 더욱 높은 목표성이 구비되어 이벤트 논항 및 논항 역할의 인식 효율을 크게 제고할 수 있다. 어구 문의와 모델 인식이 결합하는 방식을 기반으로 이벤트 묘사 텍스트로부터 이벤트 트리거 단어, 이벤트 유형, 논항 역할 및 이벤트 논항을 직접 추출하고, 상기 이벤트 요소의 추출 처리 논리를 간소화하여, 이벤트 요소의 추출 효율 및 추출 정확성을 제고하고, 이벤트 정의 시스템 중의 대량의 데이터 표기 정보에 의존할 필요가 없으며, 추출 효과를 제고하는 동시에 이벤트 요소의 추출이 이벤트 정의 시스템에 대한 의존성을 낮출 수 있다.
도3은 본 출원의 제3 실시예에 따른 개략도이다.
도3에 도시된 바와 같이, 당해 이벤트 추출 장치(30)는,
이벤트 묘사 텍스트를 획득하는 획득 모듈(301);
이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정하는 결정 모듈(302) - 후보 이벤트 유형은 한 그룹의 문의 어구에 대응함 -;
문의 어구에 따라 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하는 추출 모듈(303)을 포함한다.
선택적으로, 일부 실시예에서, 도4를 참조하여, 도4는 본 출원의 제4 실시예에 따른 개략도이고, 당해 이벤트 추출 장치(40)는 획득 모듈(401), 결정 모듈(402), 추출 모듈(403)을 포함하며, 추출 모듈(403)은,
문의 어구에 따라 이벤트 묘사 텍스트로부터 이벤트 트리거 단어, 이벤트 유형, 이벤트 논항, 및 논항 역할을 추출하는 추출 서브모듈(4031); 및
이벤트 트리거 단어, 이벤트 유형, 이벤트 논항, 및 논항 역할을 대응하는 이벤트 요소로 하는 획득 서브모듈(4032)을 포함한다.
선택적으로, 일부 실시예에서, 문의 어구는 적어도 하나의 스트립의 제1 문의 어구를 포함하며, 제1 문의 어구는 한 종류의 이벤트 유형에 대응하고, 이벤트 유형은 적어도 하나의 스트립의 제2 문의 어구에 대응하고, 제2 문의 어구는 또한 논항 역할에 대응하고, 제1 문의 어구는 이벤트 묘사 텍스트로부터 이벤트 트리거 단어 및 이벤트 유형을 추출하도록 사용되고, 제2 문의 어구는 이벤트 논항 및 논항 역할을 추출하도록 사용된다.
선택적으로, 일부 실시예에서, 추출 서브모듈(4031)은, 구체적으로,
이벤트 묘사 텍스트로부터 제1 문의 어구에 매칭되는 트리거 단어를 인식하고, 매칭되는 트리거 단어를 이벤트 트리거 단어로 하고;
제1 문의 어구에 대응하는 이벤트 유형을 추출된 이벤트 유형으로 하도록 구성된다.
선택적으로, 일부 실시예에서, 추출 서브모듈(4031)은, 또한,
추출된 이벤트 유형에 대응하는 적어도 하나의 스트립의 제2 문의 어구를 결정하고;
이벤트 묘사 텍스트로부터 제2 문의 어구에 매칭되는 이벤트 논항을 인식하고, 매칭되는 이벤트 논항을 추출된 이벤트 논항으로 하고;
제2 문의 어구에 대응하는 논항 역할을 추출된 논항 역할로 하도록 구성된다.
선택적으로, 일부 실시예에서, 추출 서브모듈(4031)은, 더 나아가,
이벤트 묘사 텍스트 및 제1 문의 어구를 미리 훈련된 이벤트 트리거 단어 추출 모델에 입력하여, 이벤트 트리거 단어 추출 모델에서 출력한 매칭되는 트리거 단어를 획득하도록 사용된다.
선택적으로, 일부 실시예에서, 추출 서브모듈(4031)은, 또한,
이벤트 묘사 텍스트 및 제2 문의 어구를 미리 훈련된 이벤트 논항 추출 모델에 입력하여, 이벤트 논항 추출 모델에서 출력한 매칭되는 이벤트 논항을 획득하도록 사용된다.
이해 가능한 바로는, 도4에 도시된 바와 같이 본 실시예의 이벤트 추출 장치(40)는 상기 실시예의 이벤트 추출 장치(30), 획득 모듈(401)은 상기 실시예의 획득 모듈(301), 결정 모듈(402)은 상기 실시예의 결정 모듈(302), 추출 모듈(403)은 상기 실시예의 추출 모듈(303)과 같은 기능 및 구조를 구비할 수 있다.
설명해야 하는 바로는, 상기에서 이벤트 추출 방법에 대한 설명은 본 실시예의 이벤트 추출 장치에도 적용하여, 여기서는 더 이상 설명하지 않는다.
본 실시예에서, 이벤트 묘사 텍스트를 획득하고, 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정함으로써, 후보 이벤트 유형은 한 그룹의 문의 어구에 대응하고, 또한 문의 어구에 따라 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하여, 이벤트 요소 추출이 이벤트 정의 시스템에 대한 의존성을 효과적으로 낮출 수 있고, 이벤트 요소의 추출 효과를 효과적으로 제고하고, 또한 일반화 능력이 상대적으로 우수하다.
본 출원 실시예를 따르면, 본 출원은 또한 전자 기기 및 판독 가능 저장 매체가 제공된다. 본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 이벤트 추출 방법이 실행된다.
도5에 도시된 바와 같이, 도5는 본 출원 실시예의 이벤트 추출 방법을 구현하기 위한 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 디지털 비서, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 또한 개인용 디지털 처리, 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본 명세서에서 제시된 구성 요소, 이들의 연결 및 관계, 또한 이들의 기능은 단지 예일 뿐이며 본문에서 설명되거나 및/또는 요구되는 본 출원의 구현을 제한하려는 의도가 아니다.
도5에 도시된 바와 같이, 당해 전자 기기는 하나 또는 하나 이상의 프로세서(501), 메모리(502) 및 고속 인터페이스와 저속 인터페이스를 포함하는 각 구성 요소를 연결하기 위한 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스를 사용하여 서로 연결되며 공통 메인보드에 설치되거나 필요에 따라 다른 방식으로 설치될 수도 있다. 프로세서는 전자 기기 내부에서 수행되는 명령을 처리할 수 있고, 메모리 내에 혹은 메모리 위에 저장된 외부 입력 장치 또는 출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 기기) 중의 적어도 하나에 GUI의 그래픽 정보를 디스플레이하기 위한 명령을 포함한다. 다른 실시 방식에서, 필요한 경우, 다수의 프로세서 및/또는 다수의 버스와 다수의 메모리를 다수의 메모리와 함께 사용될 수 있다. 마찬가지로 다수의 전자 기기를 연결할 수 있으며 각 기기는 필요한 작업의 일부를 제공한다(예를 들어, 서버 어레이, 블레이드 서버 세트 또는 다중 프로세서 시스템). 도5에서는 프로세서(501)가 예시로 도시되었다.
메모리(502)는 본 출원에 의해 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 상기 메모리는 적어도 하나의 프로세서에 의해 수행 가능한 명령을 저장하므로, 상기 적어도 하나의 프로세서에 의해 본 출원에서 제공되는 이벤트 추출 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터 명령이 저장되어 있고, 당해 컴퓨터 명령은 컴퓨터에 의해 본 출원에서 제공되는 이벤트 추출 방법을 수행하도록 사용된다.
하나의 비일시적 컴퓨터 판독 가능 저장 매체로서, 메모리(502)는 본 출원 실시예에 따른 이벤트 추출 방법에 대응하는 프로그램 명령/모듈(예를 들어, 도3에 도시된 획득 모듈(301), 결정 모듈(302), 추출 모듈(303))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 수행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(501)는 메모리(502)에 저장되어 있는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 수행함으로써 서버의 다양한 기능적 응용 및 데이터 처리를 수행하며, 즉 전술한 방법 실시예에 따른 이벤트 추출 방법을 구현한다.
메모리(502)는 저장 프로그램 영역 및 저장 데이터 영역을 포함할 수 있으며, 여기서 저장 프로그램 영역은 운영 시스템, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있고; 저장 데이터 영역은 이벤트 추출 방법을 수행하는 전자 기기의 사용시 창립된 데이터 등을 저장할 수 있다. 이 외에, 메모리(502)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 비일시적 메모리를 포함할 수도 있으며, 예를 들어 적어도 하나의 자기 디스크 메모리 장치, 플래시 메모리 장치 또는 기타 비일시적 솔리드 스테이트 메모리 장치를 포함할 수 있다. 일부 실시예에서, 메모리(502)는 프로세서(501)에 대해 원격으로 제공된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 당해 전자 기기에 연결될 수 있다. 전술한 네트워크의 예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하지만 이에 제한되지 않는다.
당해 전자 기기는 입력 장치(503) 및 출력 장치(504)를 더 포함할 수 있다. 프로세서(501), 메모리(502), 입력 장치(503) 및 출력 장치(504)는 버스 또는 다른 방식으로 연결될 수 있고, 도5에서는 버스를 통한 연결을 예시로 도시되었다.
입력 장치(503)는 입력된 디지털 또는 캐릭터 정보를 수신하고, 당해 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어 터치 스크린, 작은 키보드, 마우스, 트랙 패드, 터치 패드, 명령 스틱, 하나 또는 하나 이상의 마우스 버튼, 트랙볼, 조이스틱 등과 같은 입력 장치일 수 있다. 출력 장치(504)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나 이에 제한되지 않는다. 일부 실시 방식에서, 디스플레이 기기는 터치 스크린일 수 있다.
본 명세서에 설명된 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및 이들의 조합 중의 적어도 하나로 구현될 수 있다. 상기 다양한 실시 방식은 다음을 포함할 수 있으며, 하나 또는 하나 이상의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 수행 및/또는 해석될 수있고, 당해 프로그램 가능 프로세서는 전용 또는 일반용일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하고 또한 데이터 및 명령을 당해 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 전송한다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 또한 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 용어 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 의미하고, 기계 판독 가능 신호인 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는데 사용되는 모든 신호를 의미한다.
사용자와의 상호 작용을 제공하기 위해 여기에 설명된 시스템 및 기술은 컴퓨터에서 실시될 수 있다. 당해 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터); 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 당해 키보드 및 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 다른 유형의 장치를 사용하여 사용자와의 상호 작용을 제공할 수도 있으며, 예를 들어, 사용자에게 제공되는 피드백은 모든 형태의 감지 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고, 사용자의 입력은 모든 형식(음향 입력, 음성 입력 또는 촉각 입력 포함)으로 받을 수 있다.
여기에 설명된 시스템 및 기술은 백엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프런트 엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 갖춘 사용자 컴퓨터, 사용자가 당해 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 통하여 여기에 설명된 시스템 및 기술의 실시 방식과 상호 작용할 수 있다), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소 또는 프런트 엔드 구성 요소의 임의의 조합을 포한하는 컴퓨팅 시스템에서 실시될 수 있다. 시스템의 구성 요소는 모든 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷이 있다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 일반적으로 통신 네트워크를 통해 상호 작용한다. 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 대응되는 컴퓨터에서 수행하여 클라이언트와 서버 간의 관계를 생성한다. 서버는 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하는 클라우드 서버일 수 있고, 클라우드 컴퓨팅 서비스 시스템 중의 하나의 호스트 제품이고, 기존의 물리적 호스트 및 VPS 서비스("Virtual Private Server", 또는 약자"VPS")에 존재하고 있는 관리가 어렵고 비즈니스 확장이 약한 결점을 해결하기 위한 것이다. 서버는 또한 분산 시스템의 서버, 또는 블록체인을 결합한 서버일 수 있다.
이해 가능한 바로는 전술한 다양한 형식의 프로세스에 있어서 단계 재정렬, 추가 또는 삭제를 할 수 있다. 예를 들어, 본 출원에 개시된 기술 솔루션이 이루고자 하는 결과를 구현할 수 있는 한, 본 출원에 기재된 각 단계들은 병렬로, 순차적으로 또는 다른 순서로 수행될 수 있으나, 본 명세서에서 이에 대해 한정하지 않는다.
전술한 구체적인 실시 방식들은 본 출원의 보호 범위에 대한 한정을 구성하지 않는다. 당업자라면 본 출원의 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 본 출원의 보호 범위에 포함된다.

Claims (17)

  1. 이벤트 추출 방법에 있어서,
    이벤트 묘사 텍스트를 획득하는 단계;
    상기 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정하는 단계 - 상기 후보 이벤트 유형은 한 그룹의 문의 어구에 대응함 -; 및
    상기 문의 어구에 따라 상기 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하는 단계를 포함하는 것,
    을 특징으로 하는 이벤트 추출 방법.
  2. 제1항에 있어서,
    상기 문의 어구에 따라 상기 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하는 단계는,
    상기 문의 어구에 따라 상기 이벤트 묘사 텍스트로부터 이벤트 트리거 단어, 이벤트 유형, 이벤트 논항, 및 논항 역할을 추출하는 단계;
    상기 이벤트 트리거 단어, 상기 이벤트 유형, 상기 이벤트 논항, 및 상기 논항 역할을 상기 대응하는 이벤트 요소로 하는 단계를 포함하는 것,
    을 특징으로 하는 이벤트 추출 방법.
  3. 제2항에 있어서,
    상기 문의 어구는, 적어도 하나의 스트립의 제1 문의 어구를 포함하며, 상기 제1 문의 어구는 한 종류의 상기 이벤트 유형에 대응하고, 상기 이벤트 유형은 적어도 하나의 스트립의 제2 문의 어구에 대응하고, 상기 제2 문의 어구는 또한 논항 역할에 대응하고, 상기 제1 문의 어구는 상기 이벤트 묘사 텍스트로부터 상기 이벤트 트리거 단어 및 상기 이벤트 유형을 추출하도록 사용되고, 상기 제2 문의 어구는 상기 이벤트 논항 및 상기 논항 역할을 추출하도록 사용되는 것,
    을 특징으로 하는 이벤트 추출 방법.
  4. 제3항에 있어서,
    상기 문의 어구에 따라 상기 이벤트 묘사 텍스트로부터 이벤트 트리거 단어 및 이벤트 유형을 추출하는 단계는,
    상기 이벤트 묘사 텍스트로부터 상기 제1 문의 어구에 매칭되는 트리거 단어를 인식하고, 상기 매칭되는 트리거 단어를 상기 이벤트 트리거 단어로 하는 단계;
    상기 제1 문의 어구에 대응하는 상기 이벤트 유형을 추출된 이벤트 유형으로 하는 단계를 포함하는 것,
    을 특징으로 하는 이벤트 추출 방법.
  5. 제4항에 있어서,
    상기 문의 어구에 따라 상기 이벤트 묘사 텍스트로부터 상기 이벤트 논항 및 상기 논항 역할을 추출하는 단계는,
    상기 추출된 이벤트 유형에 대응하는 적어도 하나의 스트립의 제2 문의 어구를 결정하는 단계;
    상기 이벤트 묘사 텍스트로부터 상기 제2 문의 어구에 매칭되는 이벤트 논항을 인식하고, 상기 매칭되는 이벤트 논항을 추출된 이벤트 논항으로 하는 단계;
    상기 제2 문의 어구에 대응하는 상기 논항 역할을 추출된 논항 역할로 하는 단계를 포함하는 것,
    을 특징으로 하는 이벤트 추출 방법.
  6. 제4항에 있어서,
    상기 이벤트 묘사 텍스트로부터 상기 제1 문의 어구에 매칭되는 트리거 단어를 인식하는 단계는,
    상기 이벤트 묘사 텍스트 및 상기 제1 문의 어구를 미리 훈련된 이벤트 트리거 단어 추출 모델에 입력하여, 상기 이벤트 트리거 단어 추출 모델에서 출력한 상기 매칭되는 트리거 단어를 획득하는 단계를 포함하는 것,
    을 특징으로 하는 이벤트 추출 방법.
  7. 제5항에 있어서,
    상기 이벤트 묘사 텍스트로부터 상기 제2 문의 어구에 매칭되는 이벤트 논항을 인식하는 단계는,
    상기 이벤트 묘사 텍스트 및 상기 제2 문의 어구를 미리 훈련된 이벤트 논항 추출 모델에 입력하여, 상기 이벤트 논항 추출 모델에서 출력한 상기 매칭되는 이벤트 논항을 획득하는 단계를 포함하는 것,
    을 특징으로 하는 이벤트 추출 방법.
  8. 이벤트 추출 장치에 있어서,
    이벤트 묘사 텍스트를 획득하는 획득 모듈;
    상기 이벤트 묘사 텍스트에 따라 적어도 하나의 후보 이벤트 유형을 결정하는 결정 모듈 - 상기 후보 이벤트 유형은 한 그룹의 문의 어구에 대응함 -; 및
    상기 문의 어구에 따라 상기 이벤트 묘사 텍스트로부터 대응하는 이벤트 요소를 추출하는 추출 모듈을 포함하는 것,
    을 특징으로 하는 이벤트 추출 장치.
  9. 제8항에 있어서,
    상기 추출 모듈은,
    상기 문의 어구에 따라 상기 이벤트 묘사 텍스트로부터 이벤트 트리거 단어, 이벤트 유형, 이벤트 논항, 및 논항 역할을 추출하는 추출 서브모듈; 및
    상기 이벤트 트리거 단어, 상기 이벤트 유형, 상기 이벤트 논항, 및 상기 논항 역할을 상기 대응하는 이벤트 요소로 하는 획득 서브모듈을 포함하는 것,
    을 특징으로 하는 이벤트 추출 장치.
  10. 제9항에 있어서,
    상기 문의 어구는 적어도 하나의 스트립의 제1 문의 어구를 포함하며, 상기 제1 문의 어구는 한 종류의 상기 이벤트 유형에 대응하고, 상기 이벤트 유형은 적어도 하나의 스트립의 제2 문의 어구에 대응하고, 상기 제2 문의 어구는 또한 논항 역할에 대응하고, 상기 제1 문의 어구는 상기 이벤트 묘사 텍스트로부터 상기 이벤트 트리거 단어 및 상기 이벤트 유형을 추출하도록 사용되고, 상기 제2 문의 어구는 상기 이벤트 논항 및 상기 논항 역할을 추출하도록 사용되는 것,
    을 특징으로 하는 이벤트 추출 장치.
  11. 제10항에 있어서,
    상기 추출 서브모듈은, 구체적으로,
    상기 이벤트 묘사 텍스트로부터 상기 제1 문의 어구에 매칭되는 트리거 단어를 인식하고, 상기 매칭되는 트리거 단어를 상기 이벤트 트리거 단어로 하고;
    상기 제1 문의 어구에 대응하는 상기 이벤트 유형을 추출된 이벤트 유형으로 하도록 구성된 것,
    을 특징으로 하는 이벤트 추출 장치.
  12. 제11항에 있어서,
    상기 추출 서브모듈은, 또한,
    상기 추출된 이벤트 유형에 대응하는 적어도 하나의 스트립의 제2 문의 어구를 결정하고;
    상기 이벤트 묘사 텍스트로부터 상기 제2 문의 어구에 매칭되는 이벤트 논항을 인식하고, 상기 매칭되는 이벤트 논항을 추출된 이벤트 논항으로 하고;
    상기 제2 문의 어구에 대응하는 상기 논항 역할을 추출된 논항 역할로 하도록 구성된 것,
    을 특징으로 하는 이벤트 추출 장치.
  13. 제11항에 있어서,
    상기 추출 서브모듈은, 또한,
    상기 이벤트 묘사 텍스트 및 상기 제1 문의 어구를 미리 훈련된 이벤트 트리거 단어 추출 모델에 입력하여, 상기 이벤트 트리거 단어 추출 모델에서 출력한 상기 매칭되는 트리거 단어를 획득하도록 사용되는 것,
    을 특징으로 하는 이벤트 추출 장치.
  14. 제12항에 있어서,
    상기 추출 서브모듈은, 또한,
    상기 이벤트 묘사 텍스트 및 상기 제2 문의 어구를 미리 훈련된 이벤트 논항 추출 모델에 입력하여, 상기 이벤트 논항 추출 모델에서 출력한 상기 매칭되는 이벤트 논항을 획득하도록 사용되는 것,
    을 특징으로 하는 이벤트 추출 장치.
  15. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리를 포함하고;
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제7항 중 어느 한 항에 따른 이벤트 추출 방법을 수행하도록 하는 것,
    을 특징으로 하는 전자 기기.
  16. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제7항 중 어느 한 항에 따른 이벤트 추출 방법을 수행하도록 하는 것,
    을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체.
  17. 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제7항 중 어느 한 항에 따른 이벤트 추출 방법이 실행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020210127359A 2020-11-26 2021-09-27 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체 KR20210124938A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011356616.4 2020-11-26
CN202011356616.4A CN112507700A (zh) 2020-11-26 2020-11-26 事件抽取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
KR20210124938A true KR20210124938A (ko) 2021-10-15

Family

ID=74966798

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210127359A KR20210124938A (ko) 2020-11-26 2021-09-27 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20220004714A1 (ko)
EP (1) EP3910492A3 (ko)
JP (1) JP7228662B2 (ko)
KR (1) KR20210124938A (ko)
CN (1) CN112507700A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492377A (zh) * 2021-12-30 2022-05-13 永中软件股份有限公司 一种事件角色的标注方法和计算机设备、计算机可读存储介质
CN114741516A (zh) * 2021-12-08 2022-07-12 商汤国际私人有限公司 一种事件抽取方法和装置、电子设备及存储介质
CN115238685A (zh) * 2022-09-23 2022-10-25 华南理工大学 一种基于位置感知的建筑工程变更事件联合抽取方法
CN116628210A (zh) * 2023-07-24 2023-08-22 广东美的暖通设备有限公司 基于对比学习对智慧楼宇故障事件抽取的故障确定方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905868A (zh) * 2021-03-22 2021-06-04 京东方科技集团股份有限公司 事件抽取方法、装置、设备及存储介质
US11893345B2 (en) 2021-04-06 2024-02-06 Adobe, Inc. Inducing rich interaction structures between words for document-level event argument extraction
CN113392213B (zh) * 2021-04-19 2024-05-31 合肥讯飞数码科技有限公司 事件抽取方法以及电子设备、存储装置
CN113241138B (zh) * 2021-06-21 2022-06-17 中国平安人寿保险股份有限公司 医疗事件信息的抽取方法、装置、计算机设备及存储介质
US12019982B2 (en) * 2021-10-25 2024-06-25 Adobe Inc. Event understanding with deep learning
CN114118049B (zh) * 2021-10-28 2023-09-22 北京百度网讯科技有限公司 信息获取方法、装置、电子设备及存储介质
CN114676271A (zh) * 2022-03-07 2022-06-28 上海安硕企业征信服务有限公司 事件抽取方法、装置、电子设备及存储介质
CN115062137B (zh) * 2022-08-15 2022-11-04 中科雨辰科技有限公司 一种基于主动学习确定异常文本的数据处理***
CN115827848B (zh) * 2023-02-10 2023-06-23 天翼云科技有限公司 一种知识图谱事件抽取方法、装置、设备和存储介质
CN116451787B (zh) * 2023-02-16 2023-12-26 阿里巴巴(中国)有限公司 内容风险识别方法、装置、***及设备
CN116701576B (zh) * 2023-08-04 2023-10-10 华东交通大学 无触发词的事件检测方法和***
CN117454987B (zh) * 2023-12-25 2024-03-19 临沂大学 基于事件自动抽取的矿山事件知识图谱构建方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3322313B2 (ja) * 1991-09-13 2002-09-09 日本電信電話株式会社 事象解析器
WO2015084726A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Event detection through text analysis template models
CN104156352B (zh) * 2014-08-15 2017-04-19 苏州大学 一种中文事件的处理方法及***
CN111401033B (zh) * 2020-03-19 2023-07-25 北京百度网讯科技有限公司 事件抽取方法、事件抽取装置和电子设备
CN111325020B (zh) * 2020-03-20 2023-03-31 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111414482B (zh) * 2020-03-20 2024-02-20 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
US11687385B2 (en) * 2020-05-21 2023-06-27 International Business Machines Corporation Unsupervised event extraction
CN111651581A (zh) * 2020-06-05 2020-09-11 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及计算机可读存储介质
CN111753522A (zh) * 2020-06-29 2020-10-09 深圳壹账通智能科技有限公司 事件抽取方法、装置、设备以及计算机可读存储介质
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741516A (zh) * 2021-12-08 2022-07-12 商汤国际私人有限公司 一种事件抽取方法和装置、电子设备及存储介质
CN114492377A (zh) * 2021-12-30 2022-05-13 永中软件股份有限公司 一种事件角色的标注方法和计算机设备、计算机可读存储介质
CN114492377B (zh) * 2021-12-30 2024-04-16 永中软件股份有限公司 一种事件角色的标注方法和计算机设备、计算机可读存储介质
CN115238685A (zh) * 2022-09-23 2022-10-25 华南理工大学 一种基于位置感知的建筑工程变更事件联合抽取方法
CN116628210A (zh) * 2023-07-24 2023-08-22 广东美的暖通设备有限公司 基于对比学习对智慧楼宇故障事件抽取的故障确定方法
CN116628210B (zh) * 2023-07-24 2024-03-19 广东美的暖通设备有限公司 基于对比学习对智慧楼宇故障事件抽取的故障确定方法

Also Published As

Publication number Publication date
US20220004714A1 (en) 2022-01-06
EP3910492A3 (en) 2022-03-16
EP3910492A2 (en) 2021-11-17
CN112507700A (zh) 2021-03-16
JP2022031804A (ja) 2022-02-22
JP7228662B2 (ja) 2023-02-24

Similar Documents

Publication Publication Date Title
KR20210124938A (ko) 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체
JP7283009B2 (ja) 対話理解モデルの訓練方法、装置、デバイス及び記憶媒体
US20220350965A1 (en) Method for generating pre-trained language model, electronic device and storage medium
US20220004892A1 (en) Method for training multivariate relationship generation model, electronic device and medium
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
EP3852000A1 (en) Method and apparatus for processing semantic description of text entity, device and storage medium
EP3822842A2 (en) Method and apparatus for generating semantic representation model, electronic device, and storage medium
KR102521765B1 (ko) 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체
EP3971761A1 (en) Method and apparatus for generating summary, electronic device and storage medium thereof
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
CN114281968B (zh) 一种模型训练及语料生成方法、装置、设备和存储介质
CN113590776A (zh) 基于知识图谱的文本处理方法、装置、电子设备及介质
CN113641830B (zh) 模型预训练方法、装置、电子设备和存储介质
KR20210131923A (ko) 신경망 모델의 사전 훈련 방법, 장치, 전자 기기 및 매체
US20220215180A1 (en) Method for generating dialogue, electronic device, and storage medium
EP3869382A2 (en) Method and device for determining answer of question, storage medium and computer program product
CN112507705B (zh) 一种位置编码的生成方法、装置及电子设备
CN112269884B (zh) 信息抽取方法、装置、设备及存储介质
CN113221566A (zh) 实体关系抽取方法、装置、电子设备和存储介质
CN116484870B (zh) 提取文本信息的方法、装置、设备及介质
CN113553411B (zh) 查询语句的生成方法、装置、电子设备和存储介质
CN114255427B (zh) 视频理解方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal