KR102290767B1 - 정보를 생성하기 위한 방법 및 장치 - Google Patents

정보를 생성하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR102290767B1
KR102290767B1 KR1020190029040A KR20190029040A KR102290767B1 KR 102290767 B1 KR102290767 B1 KR 102290767B1 KR 1020190029040 A KR1020190029040 A KR 1020190029040A KR 20190029040 A KR20190029040 A KR 20190029040A KR 102290767 B1 KR102290767 B1 KR 102290767B1
Authority
KR
South Korea
Prior art keywords
triple
target
event information
historical event
determining
Prior art date
Application number
KR1020190029040A
Other languages
English (en)
Other versions
KR20190138562A (ko
Inventor
위광 첸
루 판
원하오 첸
후이 조우
웨이나 첸
위홍 정
위 루오
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20190138562A publication Critical patent/KR20190138562A/ko
Application granted granted Critical
Publication of KR102290767B1 publication Critical patent/KR102290767B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

본 출원의 실시예는 정보를 생성하기 위한 방법 및 장치를 개시한다. 상기한 방법의 한 구체적 구현 방식은: 목표 텍스트를 수신하고, 목표 텍스트는 대상 및 대상에 대한 설명 정보를 포함하는 단계; 목표 텍스트에 대한 의존 구문 분석을 수행하여 목표 텍스트의 의존성 트리를 생성하는 단계; 기설정된 적어도 하나의 구문 구조 트리와 상기 의존성 트리를 매칭하여 적어도 하나의 트리플을 획득하고, 여기서, 트리플은 주어, 서술어 및 목적어를 포함하는 단계; 적어도 하나의 트리플 중의 트리플에 포함되는 단어 및 매칭으로 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 적어도 하나의 트리플에서 목표 트리플을 확정하는 단계를 포함한다. 당해 구현 방식은 목표 트리플 추출의 정확률을 높인다.

Description

정보를 생성하기 위한 방법 및 장치{METHOD AND APPARATUS FOR INFORMATION GENERATION}
본 출원의 실시예는 컴퓨터 기술 분야에 관한 것으로, 구체적으로 정보를 생성하기 위한 방법 및 장치에 관한 것이다.
현재, 일반적으로 개체명 식별(Named Entity Recognition, NER) 기술 및 개체 연결(Entity linking, EL) 기술을 적용하여 텍스트 중의 개체를 마이닝할 수 있다. 여기서, NER는 인물, 기업 등과 같은 고유 명사를 식별할 수 있다. EL는 텍스트 중의 단어와 지식 그래프 중의 개체를 연결하고 개체의 동일 지시어 문제를 해결할 수 있다. 그러나 현재는 사건에 대해서는 식별하고 연결하기 불가능하다.
한국공개특허 제10-2014-0104543호
본 출원의 실시예는 정보를 생성하기 위한 방법 및 장치를 제시한다.
제1양태로, 본 출원의 실시예는, 목표 텍스트를 수신하고, 목표 텍스트는 대상 및 상기한 대상에 대한 설명 정보를 포함하는 단계; 목표 텍스트에 대한 의존 구문 분석을 수행하여 목표 텍스트의 의존성 트리를 생성하는 단계; 기설정된 적어도 하나의 구문 구조 트리와 상기한 의존성 트리를 매칭하여 적어도 하나의 트리플을 획득하고, 여기서, 트리플은 주어, 서술어 및 목적어를 포함하는 단계; 및 상기한 적어도 하나의 트리플 중의 트리플에 포함되는 단어 및 매칭으로 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 상기한 적어도 하나의 트리플에서 목표 트리플을 확정하는 단계를 포함하는 정보를 생성하기 위한 방법을 제공한다.
일부 실시예에서, 상술한 상기한 적어도 하나의 트리플 중의 트리플에 포함되는 단어 및 매칭으로 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 상기한 적어도 하나의 트리플에서 목표 트리플을 확정하는 단계는, 상기한 의존성 트리에 근거하여 목표 텍스트 중의 수량사 및 관형어를 확정하는 단계; 상기한 수량사가 수식하는 대상 및 상기한 관형어가 수식하는 대상을 확정하는 단계; 확정된 수량사, 관형어 및 대상에 근거하여 상기한 적어도 하나의 트리플을 업데이트하는 단계; 및 업데이트 된 적어도 하나의 트리플에서 목표 트리플을 확정하는 단계를 포함한다.
일부 실시예에서, 상술한 확정된 수량사, 관형어 및 대상에 근거하여 상기한 적어도 하나의 트리플을 업데이트하는 단계는, 상기한 적어도 하나의 트리플 중의 트리플에 대하여, 확정된 대상이 당해 트리플의 주어 또는 목적어와 매칭되는지 여부를 확정하는 단계; 확정된 대상과 당해 트리플의 주어와의 매칭이 확정된 것에 응답하여 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 주어를 병합하고, 병합된 텍스트를 당해 트리플의 주어로 확정하는 단계; 및 확정된 대상과 당해 트리플의 목적어와의 매칭이 확정된 것에 응답하여 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 목적어를 병합하고, 병합된 텍스트를 당해 트리플의 목적어로 확정하는 단계를 포함한다.
일부 실시예에서, 상술한 상기한 적어도 하나의 트리플 중의 트리플에 포함되는 단어 및 매칭으로 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 상기한 적어도 하나의 트리플에서 목표 트리플을 확정하는 단계는, 상기한 적어도 하나의 트리플 중의 트리플에 대하여, 매칭으로 당해 트리플을 획득한 구문 구조 트리의 기설정 가중치를 확정하고, 당해 트리플에 포함되는 단어의 글자 수를 확정하고, 당해 트리플 중의 단어의 동시출현도를 확정하고, 확정된 가중치, 글자 수 및 동시출현도에 근거하여 당해 트리플의 평점을 확정하는 단계; 및 상기한 적어도 하나의 트리플에서 평점이 최고인 트리플을 목표 트리플로 확정하는 단계를 포함한다.
일부 실시예에서, 상술한 방법은, 적어도 하나의 역사 목표 트리플을 획득하는 단계; 상기한 적어도 하나의 역사 목표 트리플 중 동일한 구문 구조 트리의 매칭으로 획득된 역사 목표 트리플의 수량을 통계하는 단계; 및 통계 결과에 근거하여 상기한 적어도 하나의 구문 구조 트리의 가중치를 확정하는 단계를 더 포함한다.
일부 실시예에서, 상술한 방법은, 상기한 목표 트리플에 근거하여 기설정된 역사 사건 정보 집합에서 목표 텍스트와 관련되는 적어도 하나의 역사 사건 정보를 확정하는 단계; 목표 텍스트와 상기한 적어도 하나의 역사 사건 정보와의 유사도를 확정하는 단계; 및 목표 텍스트와의 유사도가 최대인 역사 사건 정보를 출력하는 단계를 더 포함한다.
일부 실시예에서, 역사 사건 정보는 참여자 정보와 트리거 단어(trigger word) 정보를 포함하고; 또한 상술한 상기한 목표 트리플에 근거하여 기설정된 역사 사건 정보 집합에서 목표 텍스트와 관련되는 적어도 하나의 역사 사건 정보를 확정하는 단계는, 이하 조건이 만족되는지 여부를 확정하는 단계: 상기한 목표 트리플의 주어 또는 목적어는 상기한 역사 사건 정보 집합 중의 역사 사건 정보의 참여자 정보와 매칭됨, 상기한 목표 트리플의 서술어는 상기한 역사 사건 정보 집합 중의 역사 사건 정보의 트리거 단어 정보와 매칭됨; 및 위의 조건중 적어도 하나를 만족하는 역사 사건 정보가 목표 텍스트와 관련됨을 확정하는 단계를 포함한다.
일부 실시예에서, 역사 사건 정보는 키워드를 포함하고; 또한 상술한 목표 텍스트와 상기한 적어도 하나의 역사 사건 정보와의 유사도를 확정하는 단계는, 목표 텍스트를 분할하여 제1 단어 집합을 획득하는 단계; 및 상기한 적어도 하나의 역사 사건 정보 중의 역사 사건 정보에 대하여 당해 역사 사건 정보에 포함되는 키워드를 연결하고 연결하여 획득한 텍스트를 분할하여 제2 단어 집합을 획득하고, 상기한 제1 단어 집합과 상기한 제2 단어 집합에 근거하여 목표 텍스트와 당해 역사 사건 정보와의 유사도를 확정하는 단계를 포함한다.
제2양태로, 본 출원의 실시예는, 목표 텍스트를 수신하고, 목표 텍스트는 대상 및 상기한 대상에 대한 설명 정보를 포함하도록 구성되는 목표 텍스트 수신 유닛; 목표 텍스트에 대한 의존 구문 분석을 수행하여 목표 텍스트의 의존성 트리를 생성하도록 구성되는 의존성 트리 생성 유닛; 기설정된 적어도 하나의 구문 구조 트리와 상기한 의존성 트리를 매칭하여 적어도 하나의 트리플을 획득하고, 여기서, 트리플은 주어, 서술어 및 목적어를 포함하도록 구성되는 트리플 확정 유닛; 및 상기한 적어도 하나의 트리플 중의 트리플에 포함되는 단어 및 매칭으로 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 상기한 적어도 하나의 트리플에서 목표 트리플을 확정하도록 구성되는 목표 트리플 확정 유닛을 포함하는 정보를 생성하기 위한 장치를 제공한다.
일부 실시예에서, 상술한 목표 트리플 확정 유닛은, 상기한 의존성 트리에 근거하여 목표 텍스트 중의 수량사 및 관형어를 확정하도록 구성되는 관형어 확정 모듈; 상기한 수량사가 수식하는 대상 및 상기한 관형어가 수식하는 대상을 확정하도록 구성되는 대상 확정 모듈; 확정된 수량사, 관형어 및 대상에 근거하여 상기한 적어도 하나의 트리플을 업데이트하도록 구성되는 트리플 업데이트 모듈; 및 업데이트 된 적어도 하나의 트리플에서 목표 트리플을 확정하도록 구성되는 목표 트리플 확정 모듈을 포함한다.
일부 실시예에서, 상술한 트리플 업데이트 모듈은, 상기한 적어도 하나의 트리플 중의 트리플에 대하여, 확정된 대상이 당해 트리플의 주어 또는 목적어와 매칭되는지 여부를 확정하고; 확정된 대상과 당해 트리플의 주어와의 매칭이 확정된 것에 응답하여 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 주어를 병합하고, 병합된 텍스트를 당해 트리플의 주어로 확정하고; 및 확정된 대상과 당해 트리플의 목적어와의 매칭이 확정된 것에 응답하여 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 목적어를 병합하고, 병합된 텍스트를 당해 트리플의 목적어로 확정하도록 더 구성된다.
일부 실시예에서, 상술한 목표 트리플 확정 유닛은, 상기한 적어도 하나의 트리플 중의 트리플에 대하여, 매칭으로 당해 트리플을 획득한 구문 구조 트리의 기설정 가중치를 확정하고, 당해 트리플에 포함되는 단어의 글자 수를 확정하고, 당해 트리플 중의 단어의 동시출현도를 확정하고, 확정된 가중치, 글자 수 및 동시출현도에 근거하여 당해 트리플의 평점을 확정하고; 및 상기한 적어도 하나의 트리플에서 평점이 최고인 트리플을 목표 트리플로 확정하도록 더 구성된다.
일부 실시예에서, 상술한 장치는 가중치 설정 유닛을 더 포함하고, 상술한 가중치 설정 유닛은, 적어도 하나의 역사 목표 트리플을 획득하도록 구성되는 역사 목표 트리플 모듈; 상기한 적어도 하나의 역사 목표 트리플 중 동일한 구문 구조 트리의 매칭으로 획득된 역사 목표 트리플의 수량을 통계하도록 구성되는 트리플 수량 통계 모듈; 통계 결과에 근거하여 상기한 적어도 하나의 구문 구조 트리의 가중치를 확정하도록 구성되는 가중치 확정 모듈을 포함한다.
일부 실시예에서, 상술한 장치는, 상기한 목표 트리플에 근거하여 기설정된 역사 사건 정보 집합에서 목표 텍스트와 관련되는 적어도 하나의 역사 사건 정보를 확정하도록 구성되는 역사 사건 정보 확정 유닛; 목표 텍스트와 상기한 적어도 하나의 역사 사건 정보와의 유사도를 확정하도록 구성되는 유사도 확정 유닛; 및 목표 텍스트와의 유사도가 최대인 역사 사건 정보를 출력하도록 구성되는 역사 사건 정보 출력 유닛을 더 포함한다.
일부 실시예에서, 역사 사건 정보는 참여자 정보와 트리거 단어 정보를 포함하고; 또한 상술한 역사 사건 정보 확정 유닛은, 이하 조건이 만족되는지 여부를 확정하고: 상기한 목표 트리플의 주어 또는 목적어는 상기한 역사 사건 정보 집합 중의 역사 사건 정보의 참여자 정보와 매칭됨, 상기한 목표 트리플의 서술어는 상기한 역사 사건 정보 집합 중의 역사 사건 정보의 트리거 단어 정보와 매칭됨; 및 위의 조건중 적어도 하나를 만족하는 역사 사건 정보가 목표 텍스트와 관련됨을 확정하도록 더 구성된다.
일부 실시예에서, 역사 사건 정보는 키워드를 포함하고; 또한 상술한 유사도 확정 유닛은, 목표 텍스트를 분할하여 제1 단어 집합을 획득하고; 상기한 적어도 하나의 역사 사건 정보 중의 역사 사건 정보에 대하여 당해 역사 사건 정보에 포함되는 키워드를 연결하고 연결하여 획득한 텍스트를 분할하여 제2 단어 집합을 획득하고, 상기한 제1 단어 집합과 상기한 제2 단어 집합에 근거하여 목표 텍스트와 당해 역사 사건 정보와의 유사도를 확정하도록 더 구성된다.
제3양태로, 본 출원의 실시예는, 하나 또는 복수 개 프로세서; 및 위에는 하나 또는 복수 개 프로그램이 저장되어 있고, 상기한 하나 또는 복수 개 프로그램은 상기한 하나 또는 복수 개 프로세서에 의하여 실행될 시, 상기한 하나 또는 복수 개 프로세서가 제1양태의 임의의 실시예에 설명된 방법을 구현하도록 하는 저장 디바이스를 포함하는 기기를 제공한다.
제4양태로, 본 출원의 실시예는, 위에는 컴퓨터 프로그램이 저장되어 있고,당해 프로그램은 프로세서에 의하여 실행될 시, 제1양태의 임의의 실시예에 설명된 방법을 구현하는 컴퓨터 판독가능 매체를 제공한다.
본 출원의 상술한 실시예가 제공하는 정보를 생성하기 위한 방법 및 장치는, 목표 텍스트를 수신한 뒤, 목표 텍스트에 대한 의존 구문 분석을 수행하여 목표 텍스트의 의존성 트리를 생성할 수 있다. 그리고 기설정된 적어도 하나의 구문 구조 트리와 상기한 의존성 트리를 매칭하여 적어도 하나의 트리플을 획득할 수 있다. 마지막으로 상기한 적어도 하나의 트리플 중의 각각의 트리플에 포함되는 단어 및 매칭으로 당해 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 상기한 적어도 하나의 트리플에서 목표 트리플을 확정할 수 있다. 본 실시예의 방법과 장치는, 목표 텍스트에 포함되는 사건과 가장 관련되는 트리플을 선별해낼 수 있고, 목표 트리플 추출의 정확률을 높인다.
본 출원의 기타 특징, 목적 및 이점은 이하의 첨부 도면을 참조하여 제시되는 비한정 실시예에 대한 상세한 설명을 통하여 더 명확해질 것이다.
도1은 본 출원의 일 실시예가 그 중에 적용 가능한 예시적인 시스템 체계도이고;
도2는 본 출원에 따른 정보를 생성하기 위한 방법의 일 실시예의 흐름도이고;
도2a는 본 출원에 따른 정보를 생성하기 위한 방법의 일 실시예 중의 의존성 트리의 구조 개략도이고;
도2b는 본 출원에 따른 정보를 생성하기 위한 방법의 일 실시예 중의 구문 구조 트리의 구조 개략도이고;
도2c는 본 출원에 따른 정보를 생성하기 위한 방법 중 도2a에 도시된 의존성 트리와 도2b에 도시된 구문 구조 트리를 매칭하여 얻은 하나의 후보 트리플의 구조 개략도이고;
도2d는 본 출원에 따른 정보를 생성하기 위한 방법 중 도2a에 도시된 의존성 트리와 도2b에 도시된 구문 구조 트리를 매칭하여 얻은 다른 하나의 후보 트리플의 구조 개략도이고;
도2e는 본 출원에 따른 정보를 생성하기 위한 방법 중 도2a에 도시된 의존성 트리와 도2b에 도시된 구문 구조 트리를 매칭하여 얻은 또 하나의 후보 트리플의 구조 개략도이고;
도3은 본 출원에 따른 정보를 생성하기 위한 방법의 하나의 응용 시나리오의 개략도이고;
도4는 본 출원에 따른 정보를 생성하기 위한 방법 중 목표 트리플을 확정하는 흐름도이고;
도5는 본 출원에 따른 정보를 생성하기 위한 방법의 다른 하나의 실시예의 흐름도이고;
도6은 본 출원에 따른 정보를 생성하기 위한 장치의 일 실시예의 구조 개략도이고;
도7은 본 출원의 실시예의 기기를 구현하는데 적합한 컴퓨터 시스템의 구조 개략도이다.
이하, 첨부 도면과 실시예를 결부하여 본 출원에 대하여 더 상세히 설명하도록 한다. 여기에 설명되는 구체 실시예는, 단지 관련 발명을 해석하기 위한 것으로, 당해 발명에 대해 한정하기 위한 것이 아님을 이해할 수 있다. 또한 설명의 편의를 위하여 첨부 도면에는 관련 발명과 관련되는 부분만 도시한 점 또한 언급하고자 한다.
서로 모순되지 않는 한, 본 출원의 실시예들과 실시예 중의 특징들은 상호 조합될 수 있음을 언급하고자 한다. 이하, 첨부 도면을 참조하고, 또한 실시예를 결부하여 본 출원에 대하여 상세히 설명하도록 한다.
도1은 본 출원의 정보를 생성하기 위한 방법 또는 정보를 생성하기 위한 장치의 실시예가 적용 가능한 예시적인 시스템 체계(100)를 도시한다.
도1에 도시된 바와 같이, 시스템 체계(100)은 단말기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기(101, 102, 103) 및 서버(105)사이에서 통신 링크를 제공하기 위한 매개체로 이용된다. 네트워크(104)는 예컨대, 유선 또는 무선 통신 링크, 또는 광섬유 케이블 등과 같은 각종 연결 유형을 포함할 수 있다.
사용자는 단말기(101, 102, 103)을 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션하여 메시지 등을 수신하거나 송신할 수 있다. 단말기(101, 102, 103)에는 예컨대, 텍스트 입력 애플리케이션, 웹 페이지 브라우저 애플리케이션, 쇼핑용 애플리케이션, 검색용 애플리케이션, 인스턴트 메세징 툴, 사서함 클라이언트, 소셜 플랫폼 소프트웨어 등과 같은 각종 통신 클라이언트 애플리케이션이 설치될 수 있다.
단말기(101, 102, 103)은 하드웨어일 수도 있고 소프트웨어일 수도 있다. 단말기(101, 102, 103)이 하드웨어일 시, 표시 화면을 구비하고 텍스트 입력을 지원하는 각종 전자 기기일 수 있고, 이느 스마트폰, 태블릿 PC, 전자책 단말기, MP3 플레이어 (Moving Picture Experts Group Audio Layer III, 동화상 전문가 그룹 오디오 계3), MP4(Moving Picture Experts Group Audio Layer IV, 동화상 전문가 그룹 오디오 계층 4) 플레이어, 휴대형 랩탑 컴퓨터 및 데스크탑 컴퓨터 등을 포함하나 이에 한정되지 않는다. 단말기(101, 102, 103)이 소프트웨어일 시, 상기 열거한 전자 기기에 설치될 수 있고, 복수의 소프트웨어 또는 복수의 소프트웨어 모듈 (예컨대, 분산 서비스를 제공하기 위한 것)로 구현될수 있고, 또한 낱개의 소프트웨어 또는 낱개의 소프트웨어 모듈로도 구현될수 있는 바, 여기서는 구체적으로 한정하지 않는다.
서버(105)는 각종 서비스를 제공하는 서버, 예컨대, 단말기(101, 102, 103)에 입력 된 텍스트를 지원하는 백그라운드 서버일 수 있다. 백그라운드 서버는 수신한 목표 텍스트 등 데이터에 대하여 분석 등 처리를 수행하여 처리 결과(예컨대, 목표 트리플)를 단말기(101, 102, 103)로 피드백할 수 있다.
서버(105)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 서버(105)가 하드웨어일 시, 복수의 서버로 구성된 분산 서버 클러스터로 구현될 수 있고, 또한 낱개의 서버로도 구현될 수 있다. 서버(105)가 소프트웨어일 시, 복수의 소프트웨어 또는 복수의 소프트웨어 모듈 (예컨대, 분산 서비스를 제공하기 위한 것)로 구현될 수 있고, 또한 낱개의 소프트웨어 또는 낱개의 소프트웨어 모듈로도 구현될 수 있는 바, 여기서는 구체적으로 한정하지 않는다.
본 출원의 실시예가 제공하는 정보를 생성하기 위한 방법은 단말기(101, 102, 103)에 의해 실행되거나 서버(105)에 의해 실행될 수 있음을 설명하고자 한다. 따라서, 정보를 생성하기 위한 장치는 단말기(101, 102, 103)에 설치될 수도 있고, 서버(105)에 설치될 수도 있다.
본 출원의 실시예가 제공하는 정보를 생성하기 위한 방법이 단말기(101, 102, 103)에 의해 실행될 시, 상기한 시스템 체계(100)에는 네트워크(104) 및 서버(105)가 포함되지 않을 수 있음을 이해할 수 있다.
도1 중의 단말기, 네트워크 및 서버의 수량은 단지 도식적(schematic)인 것일 뿐, 구현 수요에 따라, 단말기, 네트워크 및 서버를 임의의 양으로 구비할 수 있음을 이해하여야 한다.
이어서 도2를 참조하면, 이는 본 출원에 따른 정보를 생성하기 위한 방법의 일 실시예의 흐름(200)을 도시한다. 본 실시예의 정보를 생성하기 위한 방법은 이하 단계를 포함한다.
단계(201), 목표 텍스트를 수신한다.
본 실시예에서, 정보를 생성하기 위한 방법의 실행 주체(예컨대, 도1에 도시된 단말기(101, 102, 103) 또는 서버(105))는 목표 텍스트를 수신할 수 있다. 정보를 생성하기 위한 방법의 실행 주체가 단말기일 시, 이는 사용자가 상기 단말기를 통하여 입력한 목표 텍스트를 직접 수신할 수 있다. 정보를 생성하기 위한 방법의 실행 주체가 서버일 시, 이는 유선 또는 무선 연결 방식으로 사용자가 사용하는 단말기로부터 목표 텍스트를 수신할 수 있다. 상기한 목표 텍스트는 대상 및 상기한 대상에 대한 설명 정보를 포함할 수 있다. 상기한 대상은 NER 기술 또는 EL 기술을 통해 식별한, 인물, 기업 등과 같은 임의의 개체일 수 있다. 상기한 설명 정보는 상기한 대상을 설명하기 위한 정보일 수 있고, 대상의 상태를 설명하기 위한 정보, 상기한 대상의 동작을 설명하기 위한 정보 등을 포함하나 이에 한정되지 않는다.
상기한 무선 연결 방식은 3G/4G 연결, WiFi 연결, 블루투스 연결, WiMAX 연결, Zigbee 연결, UWB(Ultra Wideband) 연결 및 기타 기존에 알려진 또는 미래에 개발될 무선 연결 방식을 포함할 수 있으나, 이에 한정되지 않음을 지적하고자 한다.
단계(202), 목표 텍스트에 대한 의존 구문 분석을 수행하여 목표 텍스트의 의존성 트리를 생성한다.
실행 주체는 목표 텍스트를 수신한 뒤, 목표 텍스트에 대하여 의존 구문 분석을 수행할 수 있다. 의존 구문법은 종속 관계 구문법이라고도 하며, 프랑스 언어학자인 L.Tesniere에 의하여 20세기 50년대에 최초로 제기되었다. 의존 구문법은 일종의 구조 구문법으로, 이는 단어 사이에 조성된 의존 관계를 이용하여 한 문장의 언어 구조를 설명한다. 의존 구문법의 구조적 특징을 명백하게 설명하기 위하여, 의존성 트리를 통하여 표시할 수 있다. 의존성 트리 중의 각각의 노드는 전부 문장 중의 단어에 대응된다. 의존성 트리는 단어 사이의 의존 관계를 특징지을 수 있을뿐만 아니라, 단어의 품사(예컨대, 수량사, 조사 등)를 특징지을 수 있고, 단어의 텍스트 중에서의 작용(예컨대, 관형어, 부사어 등)을 특징지을 수 있다. 실제 응용에서, 실행 주체는 각종 오픈 소스 도구 키트를 통해 목표 텍스트에 대하여 의존 구문 분석을 수행할 수 있다. 상기한 오픈 소스 도구 키트는 예컨대, 미국 스탠포드대학교(Stanford University)의 Stanford NLP 그룹이 제공하는 오픈 소스 도구 키트인 StandfordParser, 중국 푸단대학교 컴퓨터 대학에서 개발한 오픈 소스 도구 키트인 Fudan NLP 등을 포함할 수 있다.
단계(203), 기설정된 적어도 하나의 구문 구조 트리와 의존성 트리를 매칭하여 적어도 하나의 트리플(triple)을 획득한다.
목표 텍스트의 의존성 트리를 생성한 뒤, 실행 주체는 기설정된 구문 구조 트리와 의존성 트리를 매칭할 수 있다. 여기서, 구문 구조 트리의 트리 구조는 복수의 노드를 포함하고, 구문 구조 트리는 각각의 노드에 위치한 단어의 품사를 포함할 수 있다. 상기한 구문 구조 트리와 의존성 트리를 매칭하면, 의존성 트리 중에서 구문 구조 트리와 동일한 의존 관계의 단어를 획득할 수 있다. 이와 동시에, 획득한 각각의 단어의 품사는 구문 구조 트리 중 대응되는 노드의 단어의 품사와 동일하다.
예컨대, 목표 텍스트의 의존성 트리의 구조는 도2a에서 도시한 바와 같고, 구문 구조 트리의 구조는 도2b에서 도시한 바와 같으며, 도2b에 도시된 구문 구조 트리는 각각의 노드의 단어의 품사를 도시하고, 여기서, v.는 동사를 표시하고, n.은 명사를 표시한다. 일부 선택 가능한 구현 방식에 있어서, 아래와 같은 방식으로 구문 구조 트리와 의존성 트리를 매칭할 수 있다. 우선, 구문 구조 트리와 의존성 트리의 구조만 고려하고 품사를 고려하지 않은 채, 도2c, 도2d 및 도2e에서 점선 노드에 위치한 단어가 형성하는 후보 트리플을 확정할 수 있다. 이어서, 도2c, 도2d 및 도2e에 도시된 후보 트리플 중 각각의 노드의 단어의 품사와 구문 구조 트리 중 각각의 노드의 단어의 품사를 매칭하여, 도2c에 도시된 트리플의 각각의 단어의 품사와 구문 구조 트리 중 각각의 노드의 단어의 품사가 동일하다는 것을 확정한다. 따라서, 도2c에 도시된 트리플이 바로 의존성 트리와 구문 구조 트리를 매칭하여 획득한 결과이다.
트리플은 주어, 서술어 및 목적어를 포함할 수 있고, 여기서 트리플은 넓은 의미에서의 트리플일 수 있다. 예컨대, 일부 문장에는 목적어가 존재하지 않으므로, 획득한 트리플에서 목적어는 "빈(empty)"이다. 예컨대, 일부 문장은 병렬 서술어를 포함하므로, 획득한 트리플에서 서술어는 두 개 단어를 포함할 수 있다. 트리플 중의 주어, 서술어 및 목적어는 목표 텍스트의 주어, 서술어 및 목적어와 동일할 수도 있고 상이할 수도 있음을 이해할 수 있다. 예컨대, 목표 텍스트가 "공유 자전거 산업은 2016 년 및 2017 년 상반기의 급속 확장 이후, 2017년 하반기에는 점차 하락 추세를 보였다"이면, 획득한 트리플은 공유 자전거 산업-확장-빈(empty), 공유 자전거 산업-보였다-하락 추세를 포함할 수 있다. 목표 텍스트의 주어가 "공유 자전거 산업"이고, 서술어가 "보였다"이고, 목적어가 "하락 추세"이다. 여기서, 첫번째 트리플 중의 서술어 "확장"과 목표 텍스트의 서술어 "보였다"는 상이하다. 두번째 트리플 중의 주어, 서술어 및 목적어와 목표 텍스트의 주어, 서술어 및 목적어는 동일하다.
단계(204), 적어도 하나의 트리플 중의 트리플에 포함되는 단어 및 매칭으로 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 적어도 하나의 트리플에서 목표 트리플을 확정한다.
상기한 적어도 하나의 트리플을 획득한 뒤, 상기한 적어도 하나의 트리플 중의 각각의 트리플에 대하여, 실행 주체는 당해 트리플에 포함되는 단어 및 매칭으로 당해 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 적어도 하나의 트리플에서 목표 트리플을 확정할 수 있다. 여기서, 구문 구조 트리의 가중치는 당업자가 구체적 응용 시나리오에 근거하여 설정한다. 예컨대, 당업자는 상기한 적어도 하나의 구문 구조 트리에서 매번 하나의 구문 구조 트리를 선택하여 트리플의 매칭을 수행할 수 있으므로, 구문 구조 트리가 과거의 기간 동안 선택되어 트리플의 매칭을 수행하게 된 횟수에 근거하여 가중치를 설정할 수 있다. 혹은, 당업자는 구문 구조 트리에 포함된 노드의 수량에 근거하여 가중치를 설정할 수 있다.
이어서 도3을 참조하면, 도3은 본 실시예에 따른 정보를 생성하기 위한 방법의 응용 시나리오의 하나의 개략도이다. 도3의 응용 시나리오 중, 사용자가 단말을 통해 입력한 목표 텍스트는 영상 제목이고, 단말은 상기한 영상 제목을 서버에 송신한다. 서버는 상기한 영상 제목을 수신한 뒤, 우선 영상 제목의 의존성 트리를 생성할 수 있다. 그리고, 구문 구조 트리와 매칭하여 적어도 하나의 트리플을 획득한다. 그리고, 적어도 하나의 트리플에서 목표 트리플을 확정한다. 마지막으로 목표 트리플을 단말에 출력하여 사용자가 체크하도록 한다.
본 출원의 상술한 실시예가 제공하는 정보를 생성하기 위한 방법에 있어서, 목표 텍스트를 수신한 뒤, 목표 텍스트에 대한 의존 구문 분석을 수행하여 목표 텍스트의 의존성 트리를 생성할 수 있다. 그리고 기설정된 적어도 하나의 구문 구조 트리와 상기한 의존성 트리를 매칭하여 적어도 하나의 트리플을 획득할 수 있다. 마지막으로 상기한 적어도 하나의 트리플 중의 각각의 트리플에 포함되는 단어 및 매칭으로 당해 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 상기한 적어도 하나의 트리플에서 목표 트리플을 확정할 수 있다. 본 실시예의 방법은, 목표 텍스트에 포함되는 사건과 가장 관련되는 트리플을 선별해낼 수 있고, 목표 트리플 추출의 정확률을 높인다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 실행 주체는 도2에 도시되지 않은 아래의 단계를 통하여 구문 구조 트리의 가중치를 확정할 수 있다. 우선, 적어도 하나의 역사 목표 트리플을 획득한다. 그리고, 상기한 적어도 하나의 역사 목표 트리플 중 동일한 구문 구조 트리의 매칭으로 획득된 역사 목표 트리플의 수량을 통계한다. 마지막으로, 통계 결과에 근거하여 적어도 하나의 구문 구조 트리의 가중치를 확정한다.
본 구현 방식에서, 실행 주체는 우선 적어도 하나의 역사 목표 트리플을 획득할 수 있다. 여기서, 역사 목표 트리플은 실행 주체가 과거의 기간 동안 수신된 목표 텍스트에 대하여 처리를 수행하여 획득한 목표 트리플을 가리킨다. 그리고, 실행 주체는 상기한 적어도 하나의 역사 목표 트리플 중, 동일한 구문 구조 트리의 매칭으로 획득된 역사 목표 트리플의 수량을 통계할 수 있다. 어느 한 구문 구조 트리가 매칭으로 획득한 역사 목표 트리플의 수량이 많을 수록, 당해 구문 구조 트리의 정확률이 높다는 것을 말해주고, 따라서 당해 구문 구조 트리의 가중치도 더 커야 함을 이해할 수 있다. 마지막으로, 실행 주체는 상기한 통계 결과에 근거하여 각각의 구문 구조 트리의 가중치를 확정할 수 있다. 예컨대, 실행 주체는 100개의 역사 목표 트리플을 획득하였고, 통계를 통해 발견한 바는, 50개의 역사 목표 트리플은 구문 구조 트리a에 의해 획득한 것이고, 30개의 역사 목표 트리플은 구문 구조 트리b에 의해 획득한 것이고, 나머지 20개의 역사 목표 트리플은 구문 구조 트리c에 의해 획득한 것이다. 실행 주체는 상기한 통계 결과에 근거하여 구문 구조 트리a의 가중치가 50/100=0.5이고, 구문 구조 트리b의 가중치가 30/100=0.3이며, 구문 구조 트리c의 가중치가 20/100=0.2임을 확정할 수 있다.
본 구현 방식의 정보를 생성하기 위한 방법은, 역사 목표 트리플을 결부하여 적시에 구문 구조 트리의 가중치를 조정할 수 있고, 이로써 목표 트리플을 확정하는 정확률을 높인다.
이어서 도4를 참조하면, 이는 본 출원에 따른 정보를 생성하기 위한 방법에서, 목표 트리플을 확정하는 흐름(400)을 도시한다. 도4에 도시된 바와 같이, 본 출원은 아래와 같은 단계에 근거하여 목표 트리플을 확정할 수 있다.
단계(401), 의존성 트리에 근거하여 목표 텍스트 중의 수량사 및 관형어를 확정한다.
본 실시예에서, 의존성 트리에서 단어의 품사 및 작용을 특징지었으므로, 실행 주체는 생성된 목표 텍스트의 의존성 트리에 근거하여 목표 텍스트 중의 수량사 및 관형어를 확정할 수 있다. 관형어는 주어 및 목적어를 수식하기 위한 것으로, 이는 명사, 대명사 및 형용사를 포함할 수 있다.
단계(402), 상기한 수량사가 수식하는 대상 및 상기한 관형어가 수식하는 대상을 확정한다.
수량사 및 관형어를 확정한 뒤, 실행 주체는 상기한 수량사가 수식하는 대상 및 상기한 관형어가 수식하는 대상을 확정할 수 있다. 상기한 대상은 트리플 중의 주어일 수도 있고, 트리플 중의 목적어일 수도 있다. 예컨대, 텍스트 "하나의 사과"에서, "하나의"는 수량사이고, "사과"는 수량사 "하나의"가 수식하는 대상이다. 텍스트 "빨간 사과"에서, "빨간"은 관형어이고, "사과"는 관형어 "빨간"이 수식하는 대상이다.
단계(403), 확정된 수량사, 관형어, 대상에 근거하여 적어도 하나의 트리플을 업데이트한다.
실행 주체는 상기한 수량사, 관형어 및 이들이 수식하는 대상을 확정한 뒤, 적어도 하나의 트리플을 업데이트할 수 있다. 예컨대, 확정된 대상이 트리플의 목적어일 시, 실행 주체는 당해 대상을 수식하는 수량사 및/또는 관형어와 당해 대상을 병합하고, 병합한 텍스트를 트리플의 새로운 목적어로 할 수 있는 바, 이로써 당해 트리플을 업데이트한다. 상기한 업데이트를 통해, 한편으로 각각의 트리플 중의 단어를 증가할 수 있고, 또한 업데이트된 트리플에 포함된 글자 수를 통해 목표 트리플을 확정할 수 있으므로, 목표 트리플을 확정하는 정확률을 높인다. 예컨대, 목표 텍스트가 "장삼은 심천 생일파티에 출석한다", 실행 주체는 의존성 트리를 생성한 뒤, 이를 구문 구조 트리와 매칭함으로써 트리플 "장삼-출석한다-심천" 및 트리플 "장삼-출석한다-생일파티"를 획득할 수 있다. 의존성 트리에 근거하면, "심천"이 "생일파티"의 관형어임을 확정할 수 있고, 따라서 실행 주체는 업데이트로 트리플 "장삼-출석한다-심천 생일파티"를 획득할 수 있다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 상기한 단계(403)은 도4에 도시되지 않은 아래 내용을 더 포함할 수 있다. 상기한 적어도 하나의 트리플에서 목적어가 목표 텍스트 중의 관형어와 매칭되는 트리플을 삭제한다.
본 구현 방식에서, 실행 주체는 획득된 적어도 하나의 트리플에 목적어가 목표 텍스트의 관형어인 트리플이 존재하는지 여부를 확정할 수 있다. 존재한다면, 실행 주체는 당해 트리플을 삭제할 수 있다. 예컨대, 트리플 "장삼-출석한다-심천"에 대하여, 실행 주체는 관형어로서의 "심천"은 트리플의 목적어여서는 안됨을 확정할 수 있다. 때문에 실행 주체는 트리플 "장삼-출석한다-심천"은 정확하지 않음을 확정할 수 있고, 당해 트리플을 삭제할 수 있다. 이로써, 계산량을 효과적으로 감소할 수 있고, 계산 효율을 높일 수 있다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 실행 주체는 도4에 도시되지 않은 아래 단계를 통해 트리플을 업데이트할 수 있다. 우선, 적어도 하나의 트리플 중의 트리플에 대하여, 확정된 대상이 당해 트리플의 주어 또는 목적어와 매칭되는지 여부를 확정한다. 그리고, 확정된 대상과 당해 트리플의 주어가 매칭됨을 확정한 뒤, 상기한 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 주어를 병합하고, 병합한 텍스트가 당해 트리플의 주어임을 확정한다. 그리고, 확정된 대상과 당해 트리플의 목적어가 매칭됨을 확정한 뒤, 상기한 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 목적어를 병합하고, 병합한 텍스트가 당해 트리플의 목적어임을 확정한다.
상기한 적어도 하나의 트리플 중의 각각의 트리플에 대하여, 실행 주체는 우선 확정된 대상이 당해 트리플의 주어 또는 목적어와 매칭되는지 여부를 확정할 수 있다. 여기서 매칭은 상기한 대상 중의 적어도 하나의 글자가 트리플의 주어 또는 목적어 중의 적어도 하나의 글자와 동일하다는 것을 가리킬수 있음을 이해할 수 있다. 예컨대, 대상이 "장선생"이고, 트리플의 주어가 "장삼선생"이면, 상기한 대상이 당해 트리플의 주어와 매칭된다고 확정할 수 있다.
확정된 대상과 당해 트리플의 주어가 매칭된다는 것이 확정되면, 실행 주체는 상기한 대상을 수식하는 수량사, 관형어 및 당해 트리플의 주어를 병합할 수 있고, 병합한 텍스트를 당해 트리플의 주어로 할 수 있다. 예컨대, 대상이 "장선생"이고, 당해 대상을 수식하는 관형어가 "기분 상쾌한"이고, 트리플의 주어가 "장삼선생"이면, 병합한 텍스트는 "기분 상쾌한 장삼선생"이 될 수 있다. 그리고, "기분 상쾌한 장삼선생"을 당해 트리플의 주어로 한다. 이로써, 트리플의 주어에 대한 업데이트를 실현한다.
확정된 대상과 당해 트리플의 목적어가 매칭됨을 확정한 뒤, 실행 주체는 상기한 대상을 수식하는 수량사, 관형어 및 당해 트리플의 목적어를 병합할 수 있고, 병합한 텍스트를 당해 트리플의 목적어로 할 수 있다. 이로써, 트리플의 목적어에 대한 업데이트를 실현한다.
트리플에 대해 업데이트를 수행할 시, 트리플의 주어만 업데이트할 수도 있고, 트리플의 목적어만 업데이트할 수도 있으며, 트리플의 주어와 목적어를 동시에 업데이트 할 수 있음을 이해할 수 있다. 이 외에도, 상기한 병합 작업을 실행할 시, 수량사와 관형어 중의 임의의 하나를 취하여 트리플의 주어와 병합하거나, 또는 트리플의 목적어와 병합할 수 있다.
단계(404), 업데이트 된 적어도 하나의 트리플에서 목표 트리플을 확정한다.
트리플을 업데이트한 뒤, 업데이트 된 적어도 하나의 트리플에서 목표 트리플을 확정할 수 있다. 구체적으로, 실행 주체는 아래의 서브 단계에 근거하여 목표 트리플을 확정할 수 있다.
서브 단계(4041), 적어도 하나의 트리플 중의 트리플에 대하여, 매칭으로 당해 트리플을 획득한 구문 구조 트리의 기설정 가중치를 확정하고, 당해 트리플에 포함되는 단어의 글자 수를 확정하고, 당해 트리플 중의 단어의 동시출현도를 확정하고, 확정된 가중치, 글자 수 및 동시출현도에 근거하여 당해 트리플의 평점을 확정한다.
상기한 적어도 하나의 트리플 중의 각각의 트리플에 대하여, 실행 주체는 우선 매칭으로 당해 트리플을 획득한 구문 구조 트리의 가중치를 확정할 수 있다. 그리고, 당해 트리플에 포함되는 단어에 근거하여 당해 트리플에 포함되는 단어의 글자 수를 확정한다. 그리고, 당해 트리플 중의 단어의 동시출현도를 확정한다. 마지막으로, 확정된 가중치, 글자 수 및 동시출현도에 근거하여 당해 트리플의 평점을 계산한다. 여기서, 상기 동시출현은 트리플 중의 단어가 동일한 말, 동일한 단락 또는 동일한 글에 출현함을 가리킬 수 있다. 상기한 동시출현도는 삼자(트리플 중의 첫번째 단어의 출현 확률, 첫번째 단어의 출현을 기초로 두번째 단어가 출현하는 확률, 및 첫번째 단어 및 두번째 단어의 출현을 기초로 세번째 단어가 출현하는 확률)의 곱일 수 있다.
예컨대, 트리플이 "장삼이-문안하다-신생아를"이면, 실행 주체는 우선 기설정된 정보 집합에서 "장삼"이 출현하는 확률을 확정할 수 있다. 상기한 정보 집합은 웹 페이지 테마의 집합, 복수의 글의 집합 등일 수 있다. 상기한 정보 집합은 10000개 정보를 포함하고, 여기서 "장삼"을 포함하는 정보가 100개라고 가정하면, "장삼"이 출현하는 확률은 1%이다. 그리고, 실행 주체는 "문안하다"가 상기한 정보 집합에서 "장삼"을 포함하는 정보에 출현하는 확률을 확정할 수 있다. 상기한 "장삼"을 포함하는 100개 정보에서, 20개 정보가 "문안하다"를 포함한다고 가정하면, "장삼"의 출현을 기초로 "문안하다"가 출현하는 확률은 20%이다. 그리고, 실행 주체는 동일한 방법에 근거하여 "장삼"과 "문안하다"의 출현을 기초로 "신생아"가 "문안하다" 다음으로 출현할 확률은 50%임을 확정할 수 있다. 따라서 상기한 동시출현도는 1%Х20%Х50%=0.1%이다.
실행 주체가 가중치, 글자 수 및 동시출현도를 획득한 뒤, 아래 공식에 근거하여 당해 트리플의 평점을 확정할 수 있다. 평점=aХ가중치+bХ글자 수+cХ동시출현도. 여기서, a, b, c는 기설정된 계수이다.
서브 단계(4042), 적어도 하나의 트리플에서 평점이 최고인 트리플을 목표 트리플로 확정한다.
각각의 트리플의 평점을 획득한 뒤, 실행 주체는 상기한 적어도 하나의 트리플에서 평점이 최고인 트리플을 목표 트리플로 할 수 있다. 트리플의 평점이 높으면 높을수록 이는 당해 트리플의 정확률이 더 높고 목표 텍스트에 포함된 대상과 대상에 대한 설명 정보가 더 잘 표현될 수 다는 것을 말해줌을 이해할 수 있다.
본 출원의 상술한 실시예가 제공하는 정보를 생성하기 위한 방법은, 복수의 트리플에서 목표 텍스트와 가장 관련되는 트리플을 확정할 수 있고, 이로써 트리플 추출의 정확률을 높인다.
이어서 도5를 참조하면, 이는 본 출원에 따른 정보를 생성하기 위한 방법의 다른 하나의 실시예의 흐름(500)을 도시한다. 도5에 도시된 바와 같이, 본 실시예의 정보를 생성하기 위한 방법은 목표 트리플을 획득한 뒤 아래 단계를 포함할 수 있다.
단계(501), 목표 트리플에 근거하여 기설정된 역사 사건 정보 집합에서 목표 텍스트와 관련되는 적어도 하나의 역사 사건 정보를 확정한다.
목표 트리플을 확정한 뒤, 상기한 목표 트리플에 근거하여 기설정된 역사 사건 정보 집합에서 목표 텍스트와 관련되는 적어도 하나의 역사 사건 정보를 확정할 수 있다. 상기한 역사 사건 정보는 대상 및 대상을 설명하는 정보도 포함할 수 있다. 본 실시예에서, 역사 사건 정보 중의 대상과 목표 트리플의 주어가 동일할 시, 또는 역사 사건 정보에 목표 트리플의 주어, 서술어 또는 목적어가 포함될 시, 역사 사건 정보는 목표 텍스트와 관련됨을 확정할 수 있다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 역사 사건 정보는 참여자 정보와 트리거 단어 정보를 포함할 수 있다. 실행 주체는 도5에 도시되지 않은 아래 단계에 근거하여 역사 사건 정보와 목표 텍스트가 관련되는지 여부를 확정할 수 있다. 우선, 이하 조건이 만족되는지 여부를 확정한다. 구체적으로, 목표 트리플의 주어 또는 목적어는 역사 사건 정보 집합 중의 역사 사건 정보의 참여자 정보와 매칭되는지 여부, 목표 트리플의 서술어는 역사 사건 정보 집합 중의 역사 사건 정보의 트리거 단어 정보와 매칭되는지 여부를 확정한다. 그리고, 위의 조건중 적어도 하나를 만족하는 역사 사건 정보가 목표 텍스트와 관련됨을 확정한다.
본 구현 방식에서, 상기한 참여자 정보는 역사 사건 중의 관련 인물의 정보이다. 트리거 단어 정보는 상기한 참여자 정보의 동작 정보일 수 있다. 예컨대, 역사 사건 정보가 "샤오밍과 샤오훙이 함께 제일식당에 가서 점심밥을 먹는다"이면, 참여자 정보는 "샤오밍" 및 "샤오훙"을 포함할 수 있고, 트리거 단어 정보는 "먹는다"이다. 목표 트리플의 주어 또는 목적어와 참여자 정보를 매칭하여 매칭이 성공하면, 이는 트리플의 주어 또는 목적어가 역사 사건 중의 참여자와 동일하다는 것을 말해준다. 목표 트리플의 서술어와 트리거 단어 정보를 매칭하여 매칭이 성공하면, 이는 트리플의 서술어가 역사 사건 중의 트리거 단어와 동일하다는 것을 말해준다. 상기한 두 조건 중의 적어도 하나의 조건이 만족되면, 실행 주체는 당해 역사 사건이 목표 텍스트와 관련됨을 확정할 수 있다.
단계(502), 목표 텍스트와 적어도 하나의 역사 사건 정보와의 유사도를 확정한다.
목표 트리플에 근거하여 적어도 하나의 역사 사건 정보를 확정한 뒤, 목표 텍스트와 가장 관련되는 역사 사건 정보를 획득하기 위하여, 실행 주체는 목표 텍스트와 상기한 적어도 하나의 역사 사건 정보 중 각각의 역사 사건 정보와의 유사도를 확정할 수 있다. 실행 주체는 목표 텍스트와 역사 사건 정보 중 동일한 글자 또는 단어의 수량에 근거하여 목표 텍스트와 역사 사건 정보와의 유사도를 확정할 수 있다. 또한, 실행 주체 또한 역사 사건 정보 중 상기한 조건을 만족하는 항목 수에 의해 유사도를 확정할 수 있다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 상기한 역사 사건 정보는 키워드를 포함할 수 있다. 상기한 키워드는 사건 명칭, 사건 발생 시간 등일 수 있다. 여기서 상기한 사건 명칭은 역사 사건의 주어, 서술어 및 목적어를 포함할 수 있다. 실행 주체는 도5에 도시되지 않은 아래 단계에 근거하여 목표 텍스트와 역사 사건 정보와의 유사도를 확정할 수 있다. 우선, 목표 텍스트를 분할하여 제1 단어 집합을 획득한다. 그리고, 상기한 적어도 하나의 역사 사건 정보 중의 각각의 역사 사건 정보에 대하여, 당해 역사 사건 정보에 포함되는 키워드를 연결하고, 연결하여 획득한 텍스트를 분할하여 제2 단어 집합을 획득한다. 제1 단어 집합과 제2 단어 집합에 근거하여 목표 텍스트와 당해 역사 사건 정보와의 유사도를 확정한다.
본 구현 방식에서, 실행 주체는 우선목표 텍스트를 분할하여 제1 단어 집합을 획득할 수 있다. 분할 시, 의미에 따라서 단어를 분할할 수도 있고, 글자 수에 따라서 단어를 분할할 수도 있다. 그리고, 상기한 적어도 하나의 역사 사건 정보 중의 각각의 역사 사건 정보에 대하여, 실행 주체는 당해 역사 사건 정보의 키워드를 연결하고, 연결하여 획득한 텍스트를 분할하여 제2 단어 집합을 획득할 수 있다. 유사도의 정확성을 확보하기 위하여, 동일한 입도(granularity)로 단어를 분할할 수 있다. 즉, 목표 텍스트 및 연결하여 획득한 텍스트를 분할할 시, 모두 bigram 또는 trigram의 방식을 적용하여 단어를 분할하며, 이때 획득한 단어에 포함된 글자 수가 동일하다. 예컨대, 목표 텍스트가 "나는 중국인"이고, bigram방식을 적용하여 단어를 분할하면, "나는", "는중", "중국", "국인"을 획득한다. trigram방식을 적용하여 단어를 분할하면, "나는중", "는중국", "중국인"을 획득한다.
실행 주체는 제1 단어 집합과 제2 단어 집합을 획득한 후, 제1 단어 집합과 제2 단어 집합 중의 단어를 전부 나열할 수 있다. 그리고, 상기한 각각의 단어가 목표 텍스트에 출현한 횟수를 통계하고 획득한 각각의 횟수를 통합하여 제1 단어 벡터A를 획득한다. 그리고, 상기한 각각의 단어가 연결하여 획득한 텍스트중에서
나타난 횟수를 통계하고 획득한 각각의 횟수를 통합하여 제2 단어 벡터B를 형성한다. 그리고, 실행 주체는 벡터 코사인 공식에 근거하여 목표 텍스트와 연결하여 획득한 텍스트와의 유사도를 계산할 수 있다. 유사도는 아래 수학식과 같이 나타낼 수 있다.
Figure 112019026038889-pat00001
여기서, A=(A1,A2,...,An), B=(B1,B2,...,Bn). Ai는 제1 단어 벡터A 중의 제i번째 값이고, Bi는 제2 단어 벡터B 중의 제i번째 값이다.
단계(503), 목표 텍스트와의 유사도가 최대인 역사 사건 정보를 출력한다.
목표 텍스트와 관련되는 각각의 역사 사건 정보와 목표 텍스트와의 유사도를 확정한 뒤, 실행 주체는 목표 텍스트와의 유사도가 가장 높은 역사 사건 정보를 출력할 수 있다.
본 출원의 상술한 실시예가 제공하는 정보를 생성하기 위한 방법은, 역사 사건 정보 집합에서 목표 텍스트와 가장 관련되는 역사 사건 정보를 확정하여 사용자의 정보량을 풍부히 할 수 있다. 본 실시예의 방법은 영상 선정 분야에 활용될 수 있다. 영상의 제목을 목표 텍스트로하여 영상 제목의 목표 트리플을 확정하고, 상기한 영상 제목과 관련되는 역사 사건을 선정함으로써, 영상이 과거 영상인지 여부를 판단할 수 있다.
도6을 추가로 참조하면, 상기한 각각의 도면에 도시된 방법에 대한 구현으로, 본 출원은 정보를 생성하기 위한 장치의 일 실시예를 제공하는 바, 당해의 장치 실시예는 도2에 도시된 방법 실시예와 서로 대응되고, 당해 장치는 구체적으로 각종 전자 기기에 활용될 수 있다.
도6에 도시된 바와 같이, 본 실시예의 정보를 생성하기 위한 장치 (600)는 목표 텍스트 수신 유닛(601), 의존성 트리 생성 유닛(602), 트리플 확정 유닛(603) 및 목표 트리플 확정 유닛(604)을 포함한다.
여기서, 목표 텍스트 수신 유닛(601)은, 목표 텍스트를 수신하도록 구성된다. 목표 텍스트는 대상 및 대상에 대한 설명 정보를 포함한다.
의존성 트리 생성 유닛(602)은, 목표 텍스트에 대한 의존 구문 분석을 수행하여 목표 텍스트의 의존성 트리를 생성하도록 구성된다.
트리플 확정 유닛(603)은, 기설정된 적어도 하나의 구문 구조 트리와 의존성 트리를 매칭하여 적어도 하나의 트리플을 획득하도록 구성된다. 여기서, 트리플은 주어, 서술어 및 목적어를 포함한다.
목표 트리플 확정 유닛(604)은, 적어도 하나의 트리플 중의 트리플에 포함되는 단어 및 매칭으로 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 적어도 하나의 트리플에서 목표 트리플을 확정하도록 구성된다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 상기한 목표 트리플 확정 유닛(604)은 도6에 도시되지 않은 관형어 확정 모듈, 대상 확정 모듈, 트리플 업데이트 모듈 및 목표 트리플 확정 모듈을 더 포함할 수 있다.
관형어 확정 모듈은, 의존성 트리에 근거하여 목표 텍스트 중의 수량사 및 관형어를 확정하도록 구성된다.
대상 확정 모듈은, 수량사가 수식하는 대상 및 관형어가 수식하는 대상을 확정하도록 구성된다.
트리플 업데이트 모듈은, 확정된 수량사, 관형어 및 대상에 근거하여 적어도 하나의 트리플을 업데이트하도록 구성된다.
목표 트리플 확정 모듈은, 업데이트 된 적어도 하나의 트리플에서 목표 트리플을 확정하도록 구성된다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 상기한 트리플 업데이트 모듈은, 적어도 하나의 트리플 중의 트리플에 대하여, 확정된 대상이 당해 트리플의 주어 또는 목적어와 매칭되는지 여부를 확정하고; 확정된 대상과 당해 트리플의 주어와의 매칭이 확정된 것에 응답하여 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 주어를 병합하고, 병합된 텍스트를 당해 트리플의 주어로 확정하고; 및 확정된 대상과 당해 트리플의 목적어와의 매칭이 확정된 것에 응답하여 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 목적어를 병합하고, 병합된 텍스트를 당해 트리플의 목적어로 확정하도록 더 구성될 수 있다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 상기한 목표 트리플 확정 유닛은, 적어도 하나의 트리플 중의 트리플에 대하여, 매칭으로 당해 트리플을 획득한 구문 구조 트리의 기설정 가중치를 확정하고, 당해 트리플에 포함되는 단어의 글자 수를 확정하고, 당해 트리플 중의 단어의 동시출현도를 확정하고, 확정된 가중치, 글자 수 및 동시출현도에 근거하여 당해 트리플의 평점을 확정하고; 및 적어도 하나의 트리플에서 평점이 최고인 트리플을 목표 트리플로 확정하도록 더 구성될 수 있다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 상기한 장치(600)는 도6에 도시되지 않은 가중치 설정 유닛을 더 포함할 수 있다. 상기한 가중치 설정 유닛은 역사 목표 트리플 모듈, 트리플 수량 통계 모듈 및 가중치 확정 모듈을 포함할 수 있다.
역사 목표 트리플 모듈은, 적어도 하나의 역사 목표 트리플을 획득하도록 구성된다.
트리플 수량 통계 모듈은, 상기한 적어도 하나의 역사 목표 트리플 중 동일한 구문 구조 트리의 매칭으로 획득된 역사 목표 트리플의 수량을 통계하도록 구성된다.
가중치 확정 모듈은, 통계 결과에 근거하여 상기한 적어도 하나의 구문 구조 트리의 가중치를 확정하도록 구성된다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 상기한 장치(600)는 도6에 도시되지 않은 역사 사건 정보 확정 유닛, 유사도 확정 유닛 및 역사 사건 정보 출력 유닛을 더 포함할 수 있다.
여기서, 역사 사건 정보 확정 유닛은, 목표 트리플에 근거하여 기설정된 역사 사건 정보 집합에서 목표 텍스트와 관련되는 적어도 하나의 역사 사건 정보를 확정하도록 구성된다.
유사도 확정 유닛은, 목표 텍스트와 적어도 하나의 역사 사건 정보와의 유사도를 확정 하도록 구성된다.
역사 사건 정보 출력 유닛은, 목표 텍스트와의 유사도가 최대인 역사 사건 정보를 출력하도록 구성된다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 상기한 역사 사건 정보는 참여자 정보와 트리거 단어 정보를 포함할 수 있다. 따라서 상기한 역사 사건 정보 확정 유닛은 조건(목표 트리플의 주어 또는 목적어는 역사 사건 정보 집합 중의 역사 사건 정보의 참여자 정보와 매칭됨, 목표 트리플의 서술어는 역사 사건 정보 집합 중의 역사 사건 정보의 트리거 단어 정보와 매칭됨)이 만족되는지 여부를 확정하고, 위의 조건중 적어도 하나를 만족하는 역사 사건 정보가 목표 텍스트와 관련됨을 확정하도록 더 구성된다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 상기한 역사 사건 정보는 키워드를 포함할 수 있다. 상기한 유사도 확정 유닛은 목표 텍스트를 분할하여 제1 단어 집합을 획득하고; 적어도 하나의 역사 사건 정보 중의 역사 사건 정보에 대하여 당해 역사 사건 정보에 포함되는 키워드를 연결하고 연결하여 획득한 텍스트를 분할하여 제2 단어 집합을 획득하고, 제1 단어 집합과 제2 단어 집합에 근거하여 목표 텍스트와 당해 역사 사건 정보와의 유사도를 확정하도록 더 구성된다.
본 출원의 상술한 실시예가 제공하는 정보를 생성하기 위한 장치는, 목표 텍스트를 수신한 뒤, 목표 텍스트에 대한 의존 구문 분석을 수행하여 목표 텍스트의 의존성 트리를 생성할 수 있다. 그리고 기설정된 적어도 하나의 구문 구조 트리와 상기한 의존성 트리를 매칭하여 적어도 하나의 트리플을 획득할 수 있다. 마지막으로 상기한 적어도 하나의 트리플 중의 각각의 트리플에 포함되는 단어 및 매칭으로 당해 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 상기한 적어도 하나의 트리플에서 목표 트리플을 확정할 수 있다. 본 실시예의 장치는, 목표 텍스트에 포함되는 사건과 가장 관련되는 트리플을 선별해낼 수 있고, 목표 트리플 추출의 정확률을 높인다.
정보를 생성하기 위한 장치(600)에서 기재한 유닛(601)부터 유닛(604)까지는 참조도면2에서 설명한 방법 중의 각각의 단계와 각각 서로 대응됨을 이해하여야 한다. 따라서 위에서 정보를 생성하기 위한 방법에 대하여 설명한 작업과 특징은 장치(600) 및 이에 포함되는 유닛에도 동일하게 적용되며, 이에 대한 자세한 설명은 생략하기로 한다.
이하 도면7을 참조하면, 이는 본 출원의 실시예의 기기를 구현하는데 적합한 컴퓨터 시스템(700)의 구조 개략도를 도시한다. 도7에 도시된 기기는 단지 하나의 예시일뿐, 이로써 본 출원의 실시예의 기능 및 사용범위를 한정지어서는 안된다.
도7에 도시된 바와 같이, 컴퓨터 시스템(700)은 중앙 처리 장치 (CPU)(701)를 포함하고, 이는 읽기용 기억 장치(ROM)(702)에 저장된 프로그램 또는 저장부(708)로부터 임의 접근 기억 장치(RAM)(703)에 로딩된 프로그램에 따라 여러 가지 적당한 동작 및 처리를 실행할 수 있다. RAM(703)에는 시스템(700) 작업에 필요한 각종 프로그램 및 데이터도 저장되어 있다. CPU(701), ROM(702) 및 RAM(703)은 버스(304)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(304)에 연결된다. 인터페이스(705)에는 다음과 같이, 키보드, 마우스 등을 포함하는 입력부(706); 음극선관(CRT) 및 액정 표시 장치(LCD) 등 및 스피커 등을 포함하는 출력부(707); 하드 디스크 드라이브 등을 포함하는 저장부(708); 및 LAN 카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신부(709)가 연결된다. 통신부(709)는 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 구동장치(710)도 수요에 따라 I/O 인터페이스(705)에 연결된다. 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 등과 같은 이동식 매체(711)는 이로부터 판독된 컴퓨터 프로그램이 수요에 따라 저장부(708)에 설치되도록 수요에 따라 구동장치(710)에 설치된다.
특히, 본 개시의 실시예에 의하면, 흐름도를 참조하여 설명한 상기 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예컨대, 본 개시의 실시예는 컴퓨터 프로그램 제품을 포함하고, 이는 기계 판독 가능 매체 위에 유형의 형태로 포함되어 있는 컴퓨터 프로그램을 포함하고 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서 당해 컴퓨터 프로그램은 통신부(709)를 통해 온라인에서 다운되어 설치될 수 있거나 및/또는 이동식 매체(711)로부터 설치될 수 있다. 당해 컴퓨터 프로그램은 중앙 처리 장치(CPU)(701)에 의하여 실행될 시, 본 출원의 방업에서 한정한 상기 기능을 실행한다.
언급하고 자 하는 바는, 본 출원에서 설명하는 컴퓨터 판독가능 매체는 컴퓨터 판독가능 저장 매체일 수 있다. 컴퓨터 판독가능 저장 매체의 더 구체적인 예는, 휴대용 컴퓨터 자기 디스크, 하드 디스크 드라이브, 임의 접근 기억 장치(RAM), 읽기용 기억 장치(ROM), 소거 및 프로그램 가능 읽기용 기억 장치(EPROM 또는 플래시 메모리), 휴대용 읽기용 콤팩트 디스크 기억 장치(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 이들의 임의의 적합한 조합을 포함할 수 있으나 이에 한정되지 않는다.
본 출원에서, 컴퓨터 판독가능 저장 매체는 프로그램을 포함하거나 저장하는 유형의 임의 매체일 수 있고, 당해 프로그램은 명령 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 또는 이들과 결합되어 사용될 수 있다. 컴퓨터 판독가능 매체에 포함되는 프로그램 코드는 임의의 적당한 매개체를 사용하여 전송할 수 있으며, 이는 무선, 전선, 광케이블, RF 등, 또는 이들의 임의의 적합한 조합을 포함하나 이에 한정되지 않는다.
한가지 또는 여러 가지 프로그램 설계 언어 또는 그 조합으로 본 출원의 작업을 실행하기 위한 컴퓨터 프로그램 코드를 작성할 수 있고, 상기 프로그램 설계 언어는 Java, Smalltalk, C++와 같은 객체 지향 프로그램 설계 언어를 포함하고, 또한 "C"언어 또는 그와 유사한 프로그램 설계 언어와 같은 통상적인 절차 지향 프로그램 설계 언어도 포함한다. 프로그램 코드는 사용자 컴퓨터에서 전부 실행되거나, 사용자 컴퓨터에서 일부 실행되거나, 독립적인 하나의 소프트웨어 패키지로서 실행되거나, 일부는 사용자 컴퓨터에서, 일부는 원격 컴퓨터에서 실행되거나, 혹은 원격 컴퓨터에서 또는 서버에서 전부 실행될 수 있다. 원격 컴퓨터와 연관되는 상황에서, 원격 컴퓨터는 근거리 통신망(LAN) 및 광역 통신망(WAN)을 포함하는 임의 유형의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다. (예컨대, 인터넷 서비스 제공자를 활용하여 인터넷을 통해 연결한다.)
첨부 도면 중의 흐름도 및 블록도는 본원의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 시스템 체계, 기능 및 작업을 도시한다. 이러한 부분에서 흐름도 또는 블록도 중의 각각의 블록은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 표시할수 있고 상기 모듈, 프로그램 세그먼트, 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 실행 가능한 명령을 하나 또는 복수 개 포함한다. 일부 대안적인 구현에 있어서, 블록에 표기된 기능은 첨부 도면에서의 표기 순서와 다른 순서로 발생할 수도 있음을 유의하여야 한다. 예컨대, 순차적인 연결로 표시된 두 개의 블록은 사실상 기본적으로 병행하여 실행될 수도 있고 경우에 따라서는 반대인 순서로 실행될 수도 있는데 이러한 부분은 관련 기능에 따라 결정된다. 이 외에도, 블록도 및/또는 흐름도에서의 각각의 블록, 그리고 블록도 및/또는 흐름도에서의 블록의 조합은 하드웨어를 기반으로 하고 규정된 기능 또는 작업을 실행하는 전용화된 시스템을 통하여 구현되거나, 또는 전용 하드웨어와 컴퓨터 명령의 조합으로도 구현될 수 있음도 유의하여야 한다.
본 출원의 실시예에 관련하여 설명된 유닛은, 소프트웨어 형태로 구현될 수도 있고 하드웨어 형태로 구현될 수도 있다. 설명된 유닛은 프로세서에 설치될 수도 있는 바, 예컨대 이는, 목표 텍스트 수신 유닛, 의존성 트리 생성 유닛, 트리플 확정 유닛 및 목표 트리플 확정 유닛을 포함하는 프로세서로 설명될 수 있다. 여기서, 이러한 유닛의 명칭은 모종의 상황에서 당해 유닛 자체에 대하여 한정짓지 않는 바, 예컨대, 목표 텍스트 수신 유닛은 "목표 텍스트를 수신하기 위한 유닛"으로 설명될 수 있다.
다른 한편으로, 본 출원은 컴퓨터 판독가능 매체도 제공하는 바, 당해 컴퓨터 판독가능 매체는 상기한 실시예에서 설명되는 장치에 포함될 수도 있고, 당해 장치에 설치되지 않고 독립적으로 존재할 수도 있다. 상기한 컴퓨터 판독가능 매체에는 하나 또는 복수 개 프로그램이 탑재되어 있고, 상기 하나 또는 복수 개 프로그램이 당해 장치에 의해 실행될 시, 당해 장치로 하여금, 목표 텍스트를 수신하되, 목표 텍스트는 대상 및 대상에 대한 설명 정보를 포함하고; 목표 텍스트에 대한 의존 구문 분석을 수행하여 목표 텍스트의 의존성 트리를 생성하고; 기설정된 적어도 하나의 구문 구조 트리와 상기 의존성 트리를 매칭하여 적어도 하나의 트리플을 획득하되, 여기서, 트리플은 주어, 서술어 및 목적어를 포함하고; 적어도 하나의 트리플 중의 트리플에 포함되는 단어 및 매칭으로 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 적어도 하나의 트리플에서 목표 트리플을 확정하게 한다.
이상의 설명은 단지 본 출원의 바람직한 실시예 및 운용된 기술 원리에 대한 설명일 뿐이다. 당해 분야의 통상의 기술자라면 본 출원에서 주장하는 발명의 범위는 상술한 기술적 특징의 특정 조합으로 구성된 기술 방안에 한정되지 않으며, 또한 상기 발명 사상을 벗어나지 않는 범주에서 상기 기술적 특징 또는 그 등가물의 임의의 조합으로 구성된 기타 기술방안도 이에 포함되는 것임을 이해할 수가 있다. 예하면, 상기 특징을 본원에서 개시한(단, 이에 한정되지 않음) 이와 유사한 기능을 가진 기술 특징으로 치환하여 얻은 기술방안도 본원의 청구 범위에 포함된다.

Claims (18)

  1. 목표 텍스트 수신 유닛이 목표 텍스트를 수신하고, 상기 목표 텍스트는 대상 및 상기 대상에 대한 설명 정보를 포함하는 단계;
    의존성 트리 생성 유닛이 상기 목표 텍스트에 대한 의존 구문 분석을 수행하여 상기 목표 텍스트의 의존성 트리를 생성하는 단계;
    트리플 확정 유닛이 기설정된 적어도 하나의 구문 구조 트리와 상기 의존성 트리를 매칭하여 적어도 하나의 트리플을 획득하고, 여기서, 트리플은 주어, 서술어 및 목적어를 포함하는 단계; 및
    목표 트리플 확정 유닛이 상기 적어도 하나의 트리플 중의 트리플에 포함되는 단어 및 매칭으로 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 상기 적어도 하나의 트리플에서 목표 트리플을 확정하는 단계를 포함하되,
    상기 목표 트리플 확정 유닛이 상기 목표 트리플을 확정하는 단계는 상기 의존성 트리에 근거하여 상기 목표 텍스트 중의 수량사 및 관형어를 확정하는 단계; 상기 수량사가 수식하는 대상 및 상기 관형어가 수식하는 대상을 확정하는 단계; 상기 확정된 수량사, 관형어 및 대상에 근거하여 상기 적어도 하나의 트리플을 업데이트하는 단계; 및 상기 업데이트 된 적어도 하나의 트리플에서 목표 트리플을 확정하는 단계를 포함하고,
    상기 확정된 수량사, 관형어 및 대상에 근거하여 상기 적어도 하나의 트리플을 업데이트하는 단계는 상기 적어도 하나의 트리플 중의 트리플에 대하여, 확정된 대상이 당해 트리플의 주어 또는 목적어와 매칭되는지 여부를 확정하는 단계; 상기 확정된 대상이 상기 트리플의 주어와의 매칭되는 경우, 상기 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 주어를 병합하고, 병합된 텍스트를 당해 트리플의 주어로 확정하는 단계; 및 상기 확정된 대상이 트리플의 목적어와의 매칭되는 경우, 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 목적어를 병합하고, 병합된 텍스트를 당해 트리플의 목적어로 확정하는 단계를 포함하는 정보를 생성하기 위한 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 목표 트리플을 확정하는 단계는
    상기 적어도 하나의 트리플 중의 트리플에 대하여, 매칭으로 당해 트리플을 획득한 구문 구조 트리의 기설정 가중치를 확정하고, 당해 트리플에 포함되는 단어의 글자 수를 확정하고, 당해 트리플 중의 단어의 동시출현도를 확정하고, 확정된 가중치, 글자 수 및 동시출현도에 근거하여 당해 트리플의 평점을 확정하는 단계; 및
    상기 적어도 하나의 트리플에서 평점이 최고인 트리플을 목표 트리플로 확정하는 단계를 포함하는 정보를 생성하기 위한 방법.
  5. 제1항에 있어서,
    상기 방법은
    적어도 하나의 역사 목표 트리플을 획득하는 단계;
    상기 적어도 하나의 역사 목표 트리플 중 동일한 구문 구조 트리의 매칭으로 획득된 역사 목표 트리플의 수량을 통계하는 단계; 및
    통계 결과에 근거하여 상기 적어도 하나의 구문 구조 트리의 가중치를 확정하는 단계를 더 포함하는 정보를 생성하기 위한 방법.
  6. 제1항에 있어서,
    상기 방법은
    상기 목표 트리플에 근거하여 기설정된 역사 사건 정보 집합에서 상기 목표 텍스트와 관련되는 적어도 하나의 역사 사건 정보를 확정하는 단계;
    상기 목표 텍스트와 상기 적어도 하나의 역사 사건 정보와의 유사도를 확정하는 단계; 및
    상기 목표 텍스트와의 유사도가 최대인 역사 사건 정보를 출력하는 단계를 더 포함하는 정보를 생성하기 위한 방법.
  7. 제6항에 있어서,
    상기 역사 사건 정보는 참여자 정보와 트리거 단어 정보를 포함하되,
    상기의 상기 목표 트리플에 근거하여 기설정된 역사 사건 정보 집합에서 상기 목표 텍스트와 관련되는 적어도 하나의 역사 사건 정보를 확정하는 단계는
    이하 조건이 만족되는지 여부를 확정하는 단계: 상기 목표 트리플의 주어 또는 목적어는 상기 역사 사건 정보 집합 중의 역사 사건 정보의 참여자 정보와 매칭됨, 상기 목표 트리플의 서술어는 상기 역사 사건 정보 집합 중의 역사 사건 정보의 트리거 단어 정보와 매칭됨; 및
    위의 조건중 적어도 하나를 만족하는 역사 사건 정보가 상기 목표 텍스트와 관련됨을 확정하는 단계를 포함하는 정보를 생성하기 위한 방법.
  8. 제6항에 있어서,
    상기 역사 사건 정보는 키워드를 포함하되,
    상기의 상기 목표 텍스트와 상기 적어도 하나의 역사 사건 정보와의 유사도를 확정하는 단계는
    상기 목표 텍스트를 분할하여 제1 단어 집합을 획득하는 단계; 및
    상기 적어도 하나의 역사 사건 정보 중의 역사 사건 정보에 대하여 당해 역사 사건 정보에 포함되는 키워드를 연결하고 연결하여 획득한 텍스트를 분할하여 제2 단어 집합을 획득하고, 상기 제1 단어 집합과 상기 제2 단어 집합에 근거하여 상기 목표 텍스트와 당해 역사 사건 정보와의 유사도를 확정하는 단계를 포함하는 정보를 생성하기 위한 방법.
  9. 목표 텍스트를 수신하고, 상기 목표 텍스트는 대상 및 상기 대상에 대한 설명 정보를 포함하도록 구성되는 목표 텍스트 수신 유닛;
    상기 목표 텍스트에 대한 의존 구문 분석을 수행하여 상기 목표 텍스트의 의존성 트리를 생성하도록 구성되는 의존성 트리 생성 유닛;
    기설정된 적어도 하나의 구문 구조 트리와 상기 의존성 트리를 매칭하여 적어도 하나의 트리플을 획득하고, 여기서, 트리플은 주어, 서술어 및 목적어를 포함하도록 구성되는 트리플 확정 유닛; 및
    상기 적어도 하나의 트리플 중의 트리플에 포함되는 단어 및 매칭으로 트리플을 획득한 구문 구조 트리의 기설정 가중치에 근거하여 상기 적어도 하나의 트리플에서 목표 트리플을 확정하도록 구성되는 목표 트리플 확정 유닛을 포함하되,
    상기 목표 트리플 확정 유닛은 상기 의존성 트리에 근거하여 상기 목표 텍스트 중의 수량사 및 관형어를 확정하도록 구성되는 관형어 확정 모듈; 상기 수량사가 수식하는 대상 및 상기 관형어가 수식하는 대상을 확정하도록 구성되는 대상 확정 모듈; 확정된 수량사, 관형어 및 대상에 근거하여 상기 적어도 하나의 트리플을 업데이트하도록 구성되는 트리플 업데이트 모듈; 및 업데이트 된 적어도 하나의 트리플에서 목표 트리플을 확정하도록 구성되는 목표 트리플 확정 모듈을 포함하고,
    상기 트리플 업데이트 모듈은 상기 적어도 하나의 트리플 중의 트리플에 대하여, 확정된 대상이 당해 트리플의 주어 또는 목적어와 매칭되는지 여부를 확정하고; 확정된 대상과 당해 트리플의 주어와의 매칭이 확정된 것에 응답하여 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 주어를 병합하고, 병합된 텍스트를 당해 트리플의 주어로 확정하고; 및 확정된 대상과 당해 트리플의 목적어와의 매칭이 확정된 것에 응답하여 확정된 대상을 수식하는 수량사, 관형어 및 당해 트리플의 목적어를 병합하고, 병합된 텍스트를 당해 트리플의 목적어로 확정하도록 더 구성되는 정보를 생성하기 위한 장치.
  10. 삭제
  11. 삭제
  12. 제9항에 있어서,
    상기 목표 트리플 확정 유닛은
    상기 적어도 하나의 트리플 중의 트리플에 대하여, 매칭으로 당해 트리플을 획득한 구문 구조 트리의 기설정 가중치를 확정하고, 당해 트리플에 포함되는 단어의 글자 수를 확정하고, 당해 트리플 중의 단어의 동시출현도를 확정하고, 확정된 가중치, 글자 수 및 동시출현도에 근거하여 당해 트리플의 평점을 확정하고; 및
    상기 적어도 하나의 트리플에서 평점이 최고인 트리플을 목표 트리플로 확정하도록 더 구성되는 정보를 생성하기 위한 장치.
  13. 제9항에 있어서,
    상기 장치는 가중치 설정 유닛을 더 포함하고, 상기 가중치 설정 유닛은
    적어도 하나의 역사 목표 트리플을 획득하도록 구성되는 역사 목표 트리플 모듈;
    상기 적어도 하나의 역사 목표 트리플 중 동일한 구문 구조 트리의 매칭으로 획득된 역사 목표 트리플의 수량을 통계하도록 구성되는 트리플 수량 통계 모듈; 및
    통계 결과에 근거하여 상기 적어도 하나의 구문 구조 트리의 가중치를 확정하도록 구성되는 가중치 확정 모듈을 포함하는 정보를 생성하기 위한 장치.
  14. 제9항에 있어서,
    상기 장치는
    상기 목표 트리플에 근거하여 기설정된 역사 사건 정보 집합에서 상기 목표 텍스트와 관련되는 적어도 하나의 역사 사건 정보를 확정하도록 구성되는 역사 사건 정보 확정 유닛;
    상기 목표 텍스트와 상기 적어도 하나의 역사 사건 정보와의 유사도를 확정하도록 구성되는 유사도 확정 유닛; 및
    상기 목표 텍스트와의 유사도가 최대인 역사 사건 정보를 출력하도록 구성되는 역사 사건 정보 출력 유닛을 더 포함하는 정보를 생성하기 위한 장치.
  15. 제14항에 있어서,
    상기 역사 사건 정보는 참여자 정보와 트리거 단어 정보를 포함하되,
    상기 역사 사건 정보 확정 유닛은
    이하 조건이 만족되는지 여부를 확정하고: 상기 목표 트리플의 주어 또는 목적어는 상기 역사 사건 정보 집합 중의 역사 사건 정보의 참여자 정보와 매칭됨, 상기 목표 트리플의 서술어는 상기 역사 사건 정보 집합 중의 역사 사건 정보의 트리거 단어 정보와 매칭됨; 및
    위의 조건중 적어도 하나를 만족하는 역사 사건 정보가 상기 목표 텍스트와 관련됨을 확정하도록 더 구성되는 정보를 생성하기 위한 장치.
  16. 제14항에 있어서,
    상기 역사 사건 정보는 키워드를 포함하되,
    상기 유사도 확정 유닛은
    상기 목표 텍스트를 분할하여 제1 단어 집합을 획득하고; 및
    상기 적어도 하나의 역사 사건 정보 중의 역사 사건 정보에 대하여 당해 역사 사건 정보에 포함되는 키워드를 연결하고 연결하여 획득한 텍스트를 분할하여 제2 단어 집합을 획득하고, 상기 제1 단어 집합과 상기 제2 단어 집합에 근거하여 상기 목표 텍스트와 당해 역사 사건 정보와의 유사도를 확정하도록 더 구성되는 정보를 생성하기 위한 장치.
  17. 하나 또는 복수 개 프로세서; 및
    하나 또는 복수 개 프로그램이 저장되어 있고, 상기 하나 또는 복수 개 프로그램은 상기 하나 또는 복수 개 프로세서에 의하여 실행될 시, 상기 하나 또는 복수 개 프로세서가 제1항 및 제4항 내지 제8항 중 어느 하나의 항에 기술된 방법을 구현하도록 하는 저장 디바이스를 포함하는 기기.
  18. 컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독 가능한 저장 매체로서,
    상기 프로그램은 프로세서에 의하여 실행될 시, 제1항 및 제4항 내지 제8항 중 어느 하나의 항에 기술된 방법을 구현하는 비일시적 컴퓨터 판독 가능한 저장 매체.
KR1020190029040A 2018-06-05 2019-03-14 정보를 생성하기 위한 방법 및 장치 KR102290767B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810567936.0A CN110569494B (zh) 2018-06-05 2018-06-05 用于生成信息的方法、装置、电子设备及可读介质
CN201810567936.0 2018-06-05

Publications (2)

Publication Number Publication Date
KR20190138562A KR20190138562A (ko) 2019-12-13
KR102290767B1 true KR102290767B1 (ko) 2021-08-17

Family

ID=65817830

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190029040A KR102290767B1 (ko) 2018-06-05 2019-03-14 정보를 생성하기 위한 방법 및 장치

Country Status (5)

Country Link
US (1) US11494420B2 (ko)
EP (1) EP3579119A1 (ko)
JP (1) JP6849723B2 (ko)
KR (1) KR102290767B1 (ko)
CN (1) CN110569494B (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027312B (zh) * 2019-12-12 2024-04-19 中金智汇科技有限责任公司 文本扩充方法、装置、电子设备及可读存储介质
CN113128200B (zh) * 2019-12-31 2023-07-21 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN111274391B (zh) * 2020-01-15 2023-09-01 北京百度网讯科技有限公司 一种spo的抽取方法、装置、电子设备及存储介质
CN113761919A (zh) * 2020-06-04 2021-12-07 国家计算机网络与信息安全管理中心 一种口语化短文本的实体属性提取方法及电子装置
CN113094469B (zh) * 2021-04-02 2022-07-05 清华大学 文本数据分析方法、装置、电子设备及存储介质
CN113245734B (zh) * 2021-05-11 2023-06-16 无锡先导智能装备股份有限公司 配置参数推荐方法、***、仪器和存储介质
CN116679889B (zh) * 2023-07-31 2023-11-03 苏州浪潮智能科技有限公司 Raid设备配置信息的确定方法及装置、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101396131B1 (ko) 2013-11-18 2014-05-19 한국과학기술정보연구원 패턴 기반 관계 유사도 측정 장치 및 방법
US20150127323A1 (en) 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
US20170357625A1 (en) 2016-06-14 2017-12-14 Northrop Grumman Systems Corporation Event extraction from documents

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4625535B1 (ja) * 2009-12-14 2011-02-02 株式会社野村総合研究所 情報抽出システム及び情報抽出プログラム
US9336205B2 (en) * 2012-04-10 2016-05-10 Theysay Limited System and method for analysing natural language
CN102968431B (zh) * 2012-09-18 2018-08-10 华东师范大学 一种基于依存树的中文实体关系挖掘的控制装置
US9817810B2 (en) * 2012-11-07 2017-11-14 International Business Machines Corporation SVO-based taxonomy-driven text analytics
KR101475439B1 (ko) 2013-02-18 2014-12-24 주식회사 솔트룩스 사용자에게 최적화된 관심 정보를 제공하기 위한 시스템 및 방법
CN103473223B (zh) * 2013-09-25 2017-05-03 中国科学院计算技术研究所 一种基于句法树的规则抽取及翻译方法
CN103617280B (zh) * 2013-12-09 2017-01-25 苏州大学 一种中文事件信息挖掘方法和***
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
US10110533B2 (en) * 2014-10-28 2018-10-23 Salesforce.Com, Inc. Identifying entities in email signature blocks
CN104331480B (zh) * 2014-11-07 2017-09-29 苏州大学 一种中文事件触发词的抽取***及方法
CN104462327B (zh) * 2014-12-02 2018-09-11 百度在线网络技术(北京)有限公司 语句相似度的计算、搜索处理方法及装置
CN104933027B (zh) * 2015-06-12 2017-10-27 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
US20170083817A1 (en) * 2015-09-23 2017-03-23 Isentium, Llc Topic detection in a social media sentiment extraction system
CN105574092B (zh) * 2015-12-10 2019-08-23 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
KR101768852B1 (ko) * 2016-01-26 2017-08-17 경북대학교 산학협력단 트리플 데이터의 생성 방법 및 시스템
US10127274B2 (en) * 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers
CN105912575B (zh) * 2016-03-31 2020-05-15 百度在线网络技术(北京)有限公司 文字信息推送方法和装置
CN105975458B (zh) * 2016-05-03 2018-10-09 安阳师范学院 一种基于细粒度依存关系的中文长句相似度计算方法
CN107977379B (zh) * 2016-10-25 2022-06-28 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN107291687B (zh) * 2017-04-27 2021-03-26 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107748742A (zh) * 2017-06-16 2018-03-02 平安科技(深圳)有限公司 一种基于句法依存关系提取中心词的方法、终端以及设备
CN107908637B (zh) * 2017-09-26 2021-02-12 北京百度网讯科技有限公司 一种基于知识库的实体更新方法及***
EP3462331B1 (en) * 2017-09-29 2021-08-04 Tata Consultancy Services Limited Automated cognitive processing of source agnostic data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127323A1 (en) 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
KR101396131B1 (ko) 2013-11-18 2014-05-19 한국과학기술정보연구원 패턴 기반 관계 유사도 측정 장치 및 방법
US20170357625A1 (en) 2016-06-14 2017-12-14 Northrop Grumman Systems Corporation Event extraction from documents

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. Sun, Query-Guided Event Detection From News and Blog Streams, IEEE Trans. on Systems, man, and cybernetics, vol.41 no.5 pp.834-839 (2011.09.) 1부.*
H. Patrick et al., Efficient Event Detection for the Blogosphere, Big Data and Cloud Computing conference IEEE, pp.408-415 (2014.12)

Also Published As

Publication number Publication date
CN110569494B (zh) 2023-04-07
US11494420B2 (en) 2022-11-08
CN110569494A (zh) 2019-12-13
US20190370272A1 (en) 2019-12-05
KR20190138562A (ko) 2019-12-13
JP2019212289A (ja) 2019-12-12
EP3579119A1 (en) 2019-12-11
JP6849723B2 (ja) 2021-03-24

Similar Documents

Publication Publication Date Title
KR102290767B1 (ko) 정보를 생성하기 위한 방법 및 장치
US20230206087A1 (en) Techniques for building a knowledge graph in limited knowledge domains
US11720635B2 (en) Providing command bundle suggestions for an automated assistant
US10019437B2 (en) Facilitating information extraction via semantic abstraction
US12002456B2 (en) Using semantic frames for intent classification
US11449687B2 (en) Natural language text generation using semantic objects
JP2018533126A (ja) データベースへの自然言語インタフェースのための方法、システム、およびコンピュータ・プログラム製品
US20050108195A1 (en) Method, system, and apparatus for processing information based on the discovery of semantically labeled strings
US10776579B2 (en) Generation of variable natural language descriptions from structured data
JP2023519713A (ja) 自然言語処理のためのノイズデータ拡張
More et al. Joint transition-based models for morpho-syntactic parsing: Parsing strategies for MRLs and a case study from modern Hebrew
US10978053B1 (en) System for determining user intent from text
JP2022050379A (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
EP3598436A1 (en) Structuring and grouping of voice queries
US20120158742A1 (en) Managing documents using weighted prevalence data for statements
JP2023551860A (ja) 自然言語処理のためのドメイン外データ拡張
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
US11907678B2 (en) Context-aware machine language identification
US10235362B1 (en) Continuous translation refinement with automated delivery of re-translated content
CN111783395A (zh) 用于输出文本的方法和装置
US10261995B1 (en) Semantic and natural language processing for content categorization and routing
US10229113B1 (en) Leveraging content dimensions during the translation of human-readable languages
US10275459B1 (en) Source language content scoring for localizability
CN114896974A (zh) 媒体信息处理方法、装置、电子设备以及存储介质
CN118215920A (zh) 用于使用散列嵌入进行语言检测的宽深网络

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant