KR20120009446A - 자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법 - Google Patents

자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법 Download PDF

Info

Publication number
KR20120009446A
KR20120009446A KR1020117023813A KR20117023813A KR20120009446A KR 20120009446 A KR20120009446 A KR 20120009446A KR 1020117023813 A KR1020117023813 A KR 1020117023813A KR 20117023813 A KR20117023813 A KR 20117023813A KR 20120009446 A KR20120009446 A KR 20120009446A
Authority
KR
South Korea
Prior art keywords
text
semantic
esao
linguistic
labels
Prior art date
Application number
KR1020117023813A
Other languages
English (en)
Inventor
제임스 토드헌터
이고르 소브펠
지아니스 파스타노하우
Original Assignee
인벤션 머신 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인벤션 머신 코포레이션 filed Critical 인벤션 머신 코포레이션
Publication of KR20120009446A publication Critical patent/KR20120009446A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 전자적 또는 디지절 형식으로 제공되는 자연 언어 문서들의 자동화 의미적 라벨링을 위한 시스템 및 방법에 관한 것으로, 상기 시스템 및 방법은 텍스트의 기초적 언어적 분석을 수행하는 의미적 프로세서를 포함하고, 상기 의미적 분석은 대상물 및/또는 대상물의 계층, 사실 및 인과 관계 패턴들의 타입의 의미적 관계들을 상기 텍스트에서 인식하고, 목표 의미적 관계의 특별한 케이스들의 일반화에 의하여 생성되고, 언어적으로 분석된 텍스트 및 매칭 결과를 기초로 의미적 관계 라벨들을 생성한다.

Description

자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법{System and method for automatic semantic labeling of natural language texts}
본 출원은, 우선권 출원인 2009년 3월 13일에 출원된 미국 특허 가출원 번호 61/159,972의 발명의 명칭 "자연 언어 텍스트의 자동화된 의미적 라벨링 시스템 및 방법" 및 2009년 3월 13일자에 출원된 미국 특허 가출원 번호 61/159,959의 발명의 명칭 "텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법"의 우선권을 수반하며, 상기 출원의 내용은 본 출원에 원용되어 완전히 통합된다.
본 출원은 2000년 12월 26일자로 발행된, 미국 등록 특허 번호 6167370의 발명의 명칭 "Document semantic analysis/ selection with knowledge creativity capability utilizing subject-action-object(SAO) structrure" 및 2007년 7월 31일자로 발행된 미국 등록 특허 번호 7251781건의 " Computer based summarization of natural language documents "와 관련된다.
본 발명은 자연 언어 텍스트의 자동화된 의미적 라벨링을 위한 시스템 및 방법 및 상기 라벨링을 수행하기 위한 기초를 제공하는 언어적 패턴의 생성을 적절하게 하는 기술에 관한 것이다.
다음의 미국 특허 문헌들은 본 발명과 관련된 기술분양의 상세한 설명을 제공한다 :
미국 등록 특허 번호 5418889(1995년 3월 발행, 이하 "Ito"라 함.); 미국 등록 특허 번호 5696916(1997년 12월 발행, 이하, "Hitachi"라 함); 미국 등록 특허 번호 6026388(2000년 2월 발행, 이하, "Liddy"라 함); 미국 등록 특허 번호 61855592(2001년 2월 발행, 이하,"Boguraev 1"이라함); 미국 등록 특허 번호 6212494(2001년 4월 발행, 이하, "boguraev 2"라함); 미국 등록 특허 번호 6246977(2001년 6월 발행, 이하, "Messerly"라 함); 미국 등록 특허 번호 6263335 (2001년 7월 발행, 이하, "Paik"라 함); 미국 등록 특허 번호 7421645(2008년 9월 발행, 이하 "Reynar"라 함).
정보 검색, 지식 공학, 기계 번역, 요약 등의 과제를 포함하는 자동화된 텍스트 프로세싱은 수행되는 일정한 언어학적 분석을 요구한다.
특히, 분석의 깊이 및 복잡성은 일차적인 사전적 레벨에서 의미 레벨로 갈수록 증가한다. 이러한 분석은 언어에 대한 전통적인 지식, 가령 단어, 어구 등을 기초로 하거나, 어느 정도는, 텍스트 해석을 수행하는 사람의 인식 기능 및 모델로 하고, 언어의 실제의 사전적 어휘 유닛뿐만 아니라, 언어의 품사 분류, 및 구문적, 의미적 관계들의 엘리먼트(element)들을 사용하게 하는 언어학적 모델 또는 패턴들을 인식하는 것을 기초로 한다.
상기 두 개의 언급된 통계적 방법에 관한 지식 타입들은 다양한 의미적 컴포넌트(component), 관계들 및 텍스트 상에서의 그것들의 속성들, 예를 들어, 키워드, 오브젝트들 및 그것들의 파라미터, 에이전트, 행위, 사실, 인과 관계 등, 을 위한 자동화된 인식의 알고리즘을 위한 근거를 제공한다. 다시 말해, 그것들은 앞서 명시된 분류, 예를 들어, 문장 열을 의미적으로 라벨링하는 것, 에 따라서, 텍스트 자연 언어 텍스트의 자동화된 의미적 라벨링을 제공한다. 이중 후자의 것은 텍스트 프로세싱 과제의 마지막 목적을 기초로 정의된다.
일부 현존하는 방법들은 엄격한 구조를 갖는 데이터 베이스들을 목표로 하며, 수동으로 컴파일되거나, 엄격하게 정의된 필드를 갖는 텍스트를 목표로 한다. 텍스트의 얕은 언어학적 분석은 통상 사용되며, 이러한 분석은 높은 정확도를 제공하지 못한다.
특히, 텍스트의 문장열의 의미적 라벨링은 의미 컴포넌트들 또는 의미 관계들의 오직 몇몇 특별한 타입들의 인식들이 핵심이 된다. 이와 같이, Reynar는 사용자가 문서들을 생성하는 동안에, 텍스트의 문장열에 의미적 범주 또는 목록을 라벨링하기 위한 어플리케이션 프로그램 인터페이스를 제공하고, 사용자에게 상기 의미적 범주 또는 목록들을 기초로 한 전자 상거래 액션들을 제공한다. 목록은 예를 들어, "사용자 이름" 또는 "마이크로소프트 직원"와 같은 타입의 라벨을 포함할 수 있다.
Hitachi는 개념들 사이의 "is-a" 관계들 및 "부분-전체"관계들과 같은 하이-로우 관계가 사전에 정의된 개념 사전을 사용하는 시스템을 기술한다.
Liddy는 사용자가 정보 검색 시스템의 확장을 문의하기 위한 기술과 유사한 기술을 사용한다.
Ito는 지식 기반을 사용하는 것을 기술한다. 상기 지식 기반은 인과 관계적 모델 기반 및 장치 모델 기반을 포함한다. 상기 장치 모델 기반은 목표 머신의 장치들의 계층 구조를 기술하는 장치 지식 세트를 포함한다. 상기 인과 관계적 모델 기반은 상기 장치 모델 기반 상에 형성되고, 목표 머신의 오류 정보의 인과 관계의 세트들을 포함한다. 따라서, 장치의 각 컴포넌트(component)의 오류의 가능한 원인은, 상기 장치의 다른 컴포넌트(component)와의 구조적 연결관계에 대한 정보의 기초를 통해, 추측된다.
Boguraev 1은 심도있는 텍스트 분석을 수행하는 것을 기술한다. Boguraev 1은 텍스트 세그먼트에서, 가장 중요한 명사 그룹들이, 그것들의 비중 있는 의미적 역할로의 사용 빈도에 기초하여, 마킹되는 것을 개시한다.
Boguraev 2는, 기술 분야의 중요 용어들의 카탈로그를 생성하고 기술적 기능들(동사-목적어)의 행위자(또는 해결자)를 결정하기 위하여, 컴퓨터에 적용된 언어적 분석을 기술한다.
Paik은 도메인 독립적이고 그리고 자동으로 그 자체의 주어 지식 기반을 건설하는 정보 추출 시스템을 개시한다. 상기 지식 기반의 단위는 개념-관계-개념 트리플(concept-relation-concept triples, CRCs)로 구성되며, 여기에서, 제1 개념은 대개 적절한 이름이다. 이것은 상당히 단순화하고 융통성없이 정의된 개념들의 연결 쌍들(link pairs)의 2개의 부분으로 구성된 관계들(dyadic relations) 및 단일 개념과 관련된 단일의 관계들(monadic relations)의 인식에 의존하는 텍스트의 밀접한 의미적 분석의 예이다. 상기 시스템은 몇몇의 전치사들, 구두점, 또는 전문화된 구를 포함하는 언어적 단서들 및 개념들의 전문화된 유형들을 찾는 것에 의해 이전의 품사(part-of-speech) 태그 되고 구문론적으로 분석된 텍스트로부터 의미적 관계들을 추출한다.
물론, 의미적 분석의 절차는 이러한 경우에 CRC 관계들의 프레임워크(framework)에 의해 제한된다. 예를 들어, 원인-결과 관계의 인식은 오직 어떤 동사의 유형과 함께 나타나는 목적어들을 위해 수행될 수 있다. 비록, 이러한 인식이 종종 더 넓은 문맥(context)을 요구하고, 그리고 일반적인 경우에 소위 "사실들(facts)"이라 일컬어지는 텍스트 내 일련의 자동적으로 인식되는 의미적 엘리먼트(element)들에 기초한 것으로 판명된다. 예를 들어, 이러한 사실들의 엘리먼트(element)들의 하나는 오직 "동사(verb)"와는 달리 "액션(action)"의 의미적 개념(semantic notion)이다. CRC 관계들의 부과된 프레임워크 내에 본질적인 제한을 고려컨대, 이러한 경우의 의미적 라벨링(semantic labeling)은 매우 노동 소비적인 많은 수의 패턴들의 개발을 요구한다. 마지막으로, 이러한 의미적 라벨링은 실제적으로 텍스트의 시사적인 컨텐트만을 다루고, 논리적 컨텐트를 고려하지 않는다.
Messerly 는 논리 형식 "밀접한 주어-동사-밀접한 목적어,"의 형식에서 텍스트의 의미적 분석을 수행한다. 그러나, 상기 언급된 논리 형식은 순수하게 문법적 개념이다: "밀접한 주어(deep subject)" 및 "밀접한 목적어(deep object)"는 오직 "명사(noun)"이고, "동사(verb)"는 오직 "원칙 동사(principle verb)"이다. 그러므로, 밀접한 주어, 밀접한 목적어 등의 결정 및 분석은 상기 특허에서 실제적으로 표현되어 있지 않았다.
본 발명이 해결하려는 과제는 노동의 집약을 감소시킬 수 있고, 생산된 결과물의 질을 향상시킬 수 있고, 관련된 의미적 프로세싱을 사용하는 어플리케이션의 영역을 확장시킬 수 있다. 의미적 프로세서는 텍스트의 더 기초적인 언어학적 분석을 수행하고, 언어학적 분석의 의미적 구조를 활용하고 사용자 요구조건을 기초로 하는 기술적 접근에 따라 의미적 프로세서의 의미적 라벨링을 수행하는 특유의 의미적 프로세서(SP)가 제공하는 것이다.
본 발명이 해결하려는 다른 과제는 의미적 프로세서를 포함하거나 사용하고, 상기 의미적 프로세서는 텍스트의 기초적 언어적 분석을 수행하고, 특정한 타입의 어휘적, POS, 구문적 및 의미적 분석을 포함한다. 이러한 분석 자체가 가장 중요한 의미 컴포넌트(components)들 및 관계를 인식하는 텍스트의 의미적 라벨링의 일부분이다. 또한, 이러한 분석 결과는, 추가적인 의미적 라벨링을 목적으로, 전문적 언어적 패턴들의 효과적인 생성을 위해 사용될 수 있다. 이러한 패턴들은 텍스트 프로세싱의 지시된 목적에 응답하는 자연 언어 텍스트의 자동화 의미적 라벨링을 위한 시스템 및 방법을 제공하는 것이다.
본 발명이 해결하려는 또 다른 과제는 대상물/ 대상물의 계층, 사실 및 예를 들어, 외부 세계 및/또는 인과 관계의 형식의 지식 영역과 같은 외부 영역의 규칙성을 반영하는 규칙들의 세트와 같은 지식의 기초적 타입들의 레벨의 깊이를 달성하는 의미적 프로세서를 제공하는 것이다.
본 발명의 관점들에 따르면, 특유의 의미적 프로세서(SP)가 제공된다. 이는 노동의 집약을 감소시킬 수 있고, 생산된 결과물의 질을 향상시킬 수 있고, 관련된 의미적 프로세싱을 사용하는 어플리케이션의 영역을 확장시킬 수 있다. 의미적 프로세서는 텍스트의 더 기초적인 언어학적 분석을 수행하고, 언어학적 분석의 의미적 구조를 활용하고 사용자 요구조건을 기초로 하는 기술적 접근에 따라 의미적 프로세서의 의미적 라벨링을 수행한다.
또한, 본 발명의 관점들에 따르면, 자연 언어 텍스트의 자동화 의미적 라벨링을 위한 시스템 및 방법이 제공된다. 상기 시스템 및 방법은 의미적 프로세서를 포함하거나 사용하고, 상기 의미적 프로세서는 텍스트의 기초적 언어적 분석을 수행하고, 특정한 타입의 어휘적, POS, 구문적 및 의미적 분석을 포함한다. 이러한 분석 자체가 가장 중요한 의미 컴포넌트(components)들 및 관계를 인식하는 텍스트의 의미적 라벨링의 일부분이다. 또한, 이러한 분석 결과는, 추가적인 의미적 라벨링을 목적으로, 전문적 언어적 패턴들의 효과적인 생성을 위해 사용될 수 있다. 이러한 패턴들은 텍스트 프로세싱의 지시된 목적에 응답한다.
의미적 프로세서에 의해 수행되는 텍스트의 언어적 분석의 깊이는 의미적 라벨링의 목적을 성취하는 면에서 제공되는 것이 무엇인지 여부에 의해 결정된다. 이러한 목적에서 기준의 세트들을 결정된다. 상기 기준의 세트는 다음을 포함할 수 있다:
의미적 컴포넌트(component)과 기초적 언어적 분석시에 추출되는 관계들의 보편성;
분석 텍스트의 최대 가능한 "커버 범위";
텍스트의 주제 컨탠츠 뿐만이 아니라, 텍스트의 논리적 컨택츠의 의미적 라벨링의 가능성;
추가적 의미적 라벨링을 위하여 개발된 언어적 패턴들의 최대 가능한 일반화 정도; 및
자연 언어(NL) 텍스트에서, 특정한 정도로, 주요 영역으로부터 의미적 라벨링하는 알고리즘의 독립성
본 발명의 관점들에 따른 의미적 프로세서는 다음과 같은 지식의 기초적 타입들의 레벨의 깊이를 달성한다: 대상물/ 대상물의 계층, 사실 및 예를 들어, 외부 세계 및/또는 인과 관계의 형식의 지식 영역과 같은 외부 영역의 규칙성을 반영하는 규칙들의 세트.
이러한 언어적 분석의 밀접한 레벨은 상기 언급된 기준을 만족한다.
따라서, 의미적 프로세서에 의하여 기초적 언어적 프로세싱하는 단계에서,
(a) 입력 텍스트의 라벨링은, 대상물/ 대상물 계층의 자동화 인식;
(b) 복수의 대상물의 예를 들어, S-A-O(subject-anction-object) 타입 관계들 및 이러한 관계들의 컴포넌트(component)의 특질과 같은 사실들의 인식;
(c) 복수의 사실들의 인과 관계에 대한 인식, 이러한 관계들은 의미적 프로세서에 의해 할당될 수 잇는 라벨들의 세트를 포함할 수 있고, 이러한 관계들의 컴포넌트 (components) 및 특질은 함께 POS 및 구문적 태그들을 포함할 수 있다. 종합하면, 이러한 라벨들은 기초적 언어적 분석 단계에서 처리되는 입력 텍스트의 모든 어휘적 유닛들을 실용적으로 커버한다. 이러한 라벨들은 또한 특정한 어플리케이션의 요구조건에 부합하는 추가적인 텍스트 의미적 라벨링을 목적하는 언어적 패턴들의 효과적인 기술적 발전을 보장한다.
본 발명의 관점들에 따르면, 전문가가 언어적 분석 및 처리 단계에서 처리되는 입력 문장에서 의도적으로 새로운 의미적 관계(또는, 관계들을 참조하는 것)의 예시(가령, "전체-부분", "장소, "시간" 등")를 찾는 다면, 상기 전문가는 모든 구성된 컴포넌트들의 라벨을, POS 구문적 태그들에서 의미적 라벨까지의 모든 자연 언어의 중요한 라벨들의 관점에서, 즉각적으로 확인할 수 있다. 그러므로, 전문가는 최대로 일반화가 가능한 정도로, 동일한 의미적 프로세서를 사용하는 어떤 텍스트의 예시 형식에서 발견되는 새로운 의미적 관계들의 자동화 인식을 목적하는 언어적 패턴의 원형을 공식화 할 수 있다.
몇몇 실시예들에서, 언어적 패턴들의 일반화는 의미적 프로세서와의 상호관계를 통하여 전문가에 의해 수동으로 수행되거나, 의미적 프로세서에 의하여 자동으로 수행될 수 있다. 이는 목적을 위하여 효율적인 문맥을 제공하는 텍스트의 기초적 언어적 분석 때문에 구현될 수 있다.
본 발명의 개념의 일 관점에 따르면, 자연 언어 텍스트의 자동화 라벨링을 위한 방법이 제공된다.
상기 방법은, 적어도 하나의 저장 매체와 연결된 적어도 하나의 컴퓨터 프로세서를 제공하는 단계를 포함하며, 상기 적어도 하나의 컴퓨터 프로세서가 상기 방법을 실행하되, 상기 방법은 전자적 포맷의 적어도 하나의 자연 언어 문서로부터 텍스트를 수신하는 단계; 상기 텍스트의 기초적 언어적 분석을 수행하는 단계; 상기 언어적으로 분석된 텍스트와 저장된 목표 의미적 관계 패턴들을 매칭하는 단계; 상기 언어적으로 분석된 텍스트 및 상기 언어적으로 분석된 텍스트와 목표 의미적 관계 패턴들을 매칭한 결과를 기초로 의미적 관계 라벨들을 생성함으로써, 의미적으로 라벨링된 텍스트를 생성하는 단계; 및 상기 의미적으로 라벨링된 텍스트를 데이터 베이스에 저장하는 단계를 포함하는 방법을 수행하되, 상기 의미적 관계 라벨은 상기 텍스트의 문장들의 단어들 또는 어구들과 관련되고, 상기 의미적 관계 라벨은 의미적 관계들의 소정의 타입들의 컴포넌트들을 지시한다.
상기 방법은 상기 텍스트의 태깅된 일부분을 생성하기 위하여, POS 태그들(parts-of-speech tages)을 상기 텍스트의 적어도 일부분에 적용하는 단계; 상기 텍스트의 파싱되고 태깅된 일부분을 생성하기 위하여, 상기 텍스트의 상기 태깅된 일부분을 파싱하는 단계; 및 상기 텍스트의 의미적으로 분석되고, 파싱되고, 태깅된 일부분을 생성하기 위하여, 상기 텍스트의 상기 파싱되고 태깅된 일부분을 의미적으로 분석하는 단계를 더 포함할 수 있다.
상기 POS 태그들(parts of speech tags)을 적용하는 단계는 상기 텍스트의 미리 포맷된 일부분 상에서 실행되고, 상기 텍스트의 미리 포맷된 일부분은 비자연 언어 부호들이 제거된 텍스트를 포함할 수 있다.
상기 텍스트의 상기 파싱되고 태깅된 일부분을 의미적 분석하는 단계는, 상기 텍스트에서 하나 이상의 eSAO(expanded Subject-Action-Object) 세트의 형식으로 하나 이상의 사실들(facts)을 인식하는 단계; 및 적어도 하나 이상의 외부 영역 및 지식 영역의 규칙성들을 적어도 인과 관계의 형식으로, 하나 이상의 eSAO(expanded Subject-Action-Object) 세트에서, 반영하는 규칙들의 세트를 인식하는 단계를 포함하되, 상기 각 eSAO 세트는 적어도 하나의 eSAO 컴포넌트(component)들을 포함하고, 상기 적어도 하나의 인과 관계는 원인 eSAO(cause eSAO) 및 결과eSAO(effect eSAO)를 포함한다.
상기 하나 이상의 eSAO 컴포넌트(component)들은 주어들, 목적어들, 액션들, 형용사들, 전치사들, 간접 목적어들, 부사들을 구성하는 한 그룹에서 선택되는 하나 이상의 엘리먼트(element)들과 관련된 텍스트를 포함한다.
상기 텍스트 문서에서 하나 이상의 eSAO 세트들을 인식하는 단계는, 상기 텍스트의 적어도 하나의 문장에서 하나 이상의 주어들, 목적어들, 액션들, 형용사들, 전치사들, 간접 목적어들, 및 부사들을 인식하는 단계를 포함한다.
상기 텍스트에서 상기 하나 이상의 eSAO 세트들 및 인과 관계들을 인식하는 단계는, eSAO 및 인과 컴포넌트들을 정의하는 패턴들의 데이터베이스를 구비하는 언어적 지식 기반을 접속하는 단계를 포함한다.
상기 원인 eSAO는 적어도 하나의 eSAO 세트들의 적어도 하나의 eSAO 컴포넌트을 포함하고, 상기 결과 eSAO는 적어도 하나의 eSAO 세트들의 적어도 하나의 다른 eSAO 컴포넌트들을 포함한다.
상기 인과 관계들은 어휘적 의미들, 문법적 의미들, 및/또는 의미적 언어 의미들로 상기 결과 eSAO의 상기 다른 eSAO 컴포넌트들에 상기 원인 eSAO의 상기 eSAO 컴포넌트들을 관련시키는 순차 연산자를 포함한다.
상기 언어적으로 분석된 텍스트와 저장된 목표 의미적 관계 패턴들을 매칭하는 단계는, 언어적 지식 기반의 일부인 패턴 데이터베이스에 접속하는 단계를 더 포함하되, 상기 패턴 데이터베이스는, 텍스트 문서의 코퍼스(corpus)의 기초적 언어 분석을 수행하는 단계; 언어적으로 분석된 코퍼스(corpus)에서, 목표 의미적 관계들의 특별한 케이스들을 인식하는 단계; 상기 목표 의미적 관계들의 특별한 케이스를, 상기 인식된 목표 의미적 관계들의 특별한 케이스들로부터, 어휘적 언어 유닛들 및 의미적 분류들, POS 태그들 및 구문적 태그들, eSAO 및 인과 라벨들을 사용하는 언어적 패턴으로 일반화하는 단계; 및 상기 언어적 패턴들을 저장하는 단계에 의해 생성된다
상기 목표 의미적 관계들의 특별한 케이스들을 언어적 패턴들로 일반화하는 단계는 문맥(context)으로 eSAO 형식을 사용하고, 상기 목표 의미적 관계들의 특별한 케이스들을 언어적 패턴들로 일반화하는 단계는 택스트 문서의 언어적으로 분석된 코퍼스를 상기 컴포넌트들을 위해 상기 기초적 언어적 분석으로부터 획득된 어휘적 라벨, 문법적 라벨, 구문적 라벨, eSAO 라벨 및 인과 라벨을 사용하여, 목표 의미적 관계의 특별한 케이스들을 구성하는 컴포넌트들을 생성하는 단계를 포함한다.
상기 언어적으로 분석된 텍스트와 상기 목표 의미적 관계 패턴들을 매칭하는 단계는 단어들, POS 태그들, 구문적 태그들, eSAO 및 인과 세트들을 매칭하는 단계를 포함하고, 상기 의미적 관계 라벨들을 생성하는 단계는 eSAO 및 인과 라벨들을 생성하는 단계를 포함한다.
본 발명의 다른 관점에 따르면, 실행 시에, 적어도 하나의 프로세서에 의하여 자연 언어 텍스트의 의미적 라벨링 방법을 수행하는 컴퓨터로 실행 가능한 지시들을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다. 상기 방법은 적어도 하나의 자연 언어 문서로부터 텍스트를 수신하는 단계; 상기 텍스트의 기초적 언어적 분석을 수행하는 단계; 상기 언어적으로 분석된 텍스트와 저장된 목표 의미적 관계 패턴들을 매칭하는 단계; 상기 언어적으로 분석된 텍스트 및 상기 언어적으로 분석된 텍스트와 목표 의미적 관계 패턴들을 매칭한 결과를 기초로 의미적 관계 라벨들을 생성함으로써, 의미적으로 라벨링된 텍스트를 생성하는 단계; 및 상기 의미적으로 라벨링된 텍스트를 데이터 베이스에 저장하는 단계를 포함하는 방법을 수행하되, 상기 의미적 관계 라벨은 상기 텍스트의 문장들의 단어들 또는 어구들과 관련되고, 상기 의미적 관계 라벨은 의미적 관계들의 소정의 타입들의 컴포넌트들들을 지시한다.
본 발명의 또 다른 관점에 따르면, 전자적 또는 디지턱 형식의 자연 언어 텍스트의 자동 의미적 라벨링의 위한 의미적 프로세서가 제공된다. 상기 의미적 프로세서는, 수신된 전자적 텍스트를 미리 포맷팅하는 프리포맷터; 미리 포맷된 텍스트의 기초적 언어적 분석을 수행하는 언어적 분석기; 상기 언어적으로 분석된 텍스트와 저장된 목표 의미적 관계 패턴들을, 의미적으로 라벨링된 텍스트를 생산하기 위하여, 매칭하는 라벨기를 포함하되, 상기 의미적으로 라벨링된 텍스트는 상기 텍스트의 문장들의 단어들 또는 어구들과 관련된 의미적 관계 레벨들을 포함하고, 상기 의미적 관계 라벨들은 의미적 관계들의 소정의 타입들의 컴포넌트들을 지시한다.
상기 언어적 분석기는 의미적으로 분석된 텍스트 생산하되, 상기 언어적 분석기는, 상기 텍스트의 eSAO 세트를 인식하는 eSAO 인식기; 및 인과 관계를 인식하는 C-E 인식기를 포함하고, 상기 eSAO 및 C-E 인식은 언어적 언어적 지식 기반에 저장된 언어적 패턴들을 기초로 한다.
상기 라벨기에 의해 생성된 상기 의미적 관계 라벨들은 eSAO 라벨들 및 인과 라벨들을 포함한다.
상기 eSAO 인과 관계는 원인 eSAO(Cause eSAO), 결과(Effect eSAO), 그리고 상기 결과 eSAO에 상기 원인 eSAO를 결부시키는 적어도 하나의 순차 연산자(sequential operator )를 포함한다.
상기 eSAO 세트들의 각각은 eSAO 컴포넌트(components)들을 포함하며, 상기 원인 eSAO는 적어도 하나의 eSAO 컴포넌트들을 포함하고, 상기 결과 eSAO는 상기 원인 eSAO의 상기 적어도 하나의 eSAO 컴포넌트들과 다른 적어도 하나의 eSAO 컴포넌트들을 포함한다.
상기 eSAO 컴포넌트들은 주어들, 목적어들, 액션들, 형용사들, 전치사들, 간접 목적어들, 그리고 부사들로 구성된 그룹으로부터 선택되는 하나 이상의 엘리먼트(element)들과 관련된 텍스트를 포함한다.
상기 언어적 분석기는, 미리 포맷된 텍스트를 수신하고 POS(part-of-speech) 태깅된 텍스트를 생산하는 POS (part-of-speech tagger) 태거; 및 상기 POS 태거에 의해 태깅된 텍스트를 수신하고, 파싱된 텍스트를 생성하고, 파싱된 텍스트를 의미적 분석기에 제공하는 파서를 더 포함하되,상기 POS 태거 및 상기 파서는 상기 언어적 지식 기반에 저장되는 데이터로 동작한다.
상기 프리포맷기는, 자연어 텍스트의 부분을 형성하지 않는 텍스트 문서들의 디지털 또는 전자 표현 에서 심볼들의 제거 기능, 텍스트 문서들에서 미스매치들(mismatches) 또는 오류들(mistakes)의 검출 및 보정 기능, 또는 상기 텍스트를 문장들 및 단어들의 구조로 분할하는 기능 중 적어도 하나의 기능을 수행할 수 있다.
상기 목표 의미적 관계 패턴들은 패턴 생성기에 의해 생성되되, 상기 패턴 생성기는, 텍스트 문서의 코퍼스의 기초적 언어적 분석을 수행하는 코퍼스 언어적 분석기; POS 태그들, 구문적 태그들, eSAO 라벨들 및 인과 라벨들을 포함하는 라벨링된 텍스트 코퍼스를 생성하는 라벨링된 텍스트 코퍼스 생성기; 상기 라벨링된 텍스트 코퍼스에서 목표 의미적 관계들의 특별한 케이스를 인식하는 관계 생성기; 상기 의미적 관계의 라벨들을 더 일반화된 언어적 패턴들을 생성하기 위해 사용함으로써, 상기 의미적 관계들의 특별한 케이스를 일반화하되, 상기 라벨들은 어휘적 언어 유닛, 의미적 뷴류들, 품사(POS:parts-of-speech 및 구문적 태그들 및 eSAO 및 인과 라벨들을 포함하는 패턴 생성기; 및 상기 패턴 생성기에 의해 인반화된 언어적 패턴들을 검사하기 위한 패턴 검사기를 포함한다.
상기 목표 의미적 관계들의 특별한 케이스들을 언어적 패턴들로 일반화할 때, 상기 패턴 생성기는, 상기 목표 의미적 관계들의 특별한 케이스들을 언어적 패턴들로 일반화할 때 문맥(context)으로 eSAO 형식을, 상기 컴포넌트들을 위해 상기 기초적 언어 분석에서 획득된 POS라벨들, 구문적 라벨들, eSAO 라벨들 및 인과 라벨들을 사용하여, 언어적으로 분석된 코퍼스에서 검색된 결과로서 컴포넌트들을 일반화하기 위하여 위하여 사용한다.
상기 라벨기는 언어적으로 분석된 텍스트를, 단어들 태그, POS 태그, eSAO 및 인과 세트들을 매칭함으로써, 목표 언어적 관계 패턴들에 매칭한다.
도면은 본 발명의 바람직한 일 실시예를 도시한 것이며, 본 발명은 이에 한정되는 것이 아니다. 상기 도면에서, 동일하거나 유사한 구성 요소에 대하여 동일한 참조 번호를 참조한다. 도면들은 축척을 한정하는 것이 아니고, 발명의 관점을 도시하기 위해 강조 표시가 대신 도시된다.
도 1은 기능 모듈들 또는 프로세서들의 세트의 일실시예의 하이 레벨 아키텍쳐 다이어그램에 관한 것이고, 상기 기능 모듈들 또는 프로세서들은 하나 또는 하나 이상의 컴퓨터들에서 본 발명의 관점들에 따라 의미적 프로세서를 형성하기 위하여 수행될 수 있다.
도 2 는 기능 모듈들 또는 프로세서들의 세트의 일실시예의 하이 레벨 아키텍쳐 다이어그램에 관한 것이고, 상기 기능 모듈들 또는 프로세서들은 하나 또는 하나 이상의 컴퓨터들에서 본 발명의 관점들에 따라 언어적 분석기를 형성하기 위하여 수행될 수 있다.
도3은 기능 모듈들 또는 프로세서들의 세트의 일실시예의 하이 레벨 아키텍쳐 다이어그램에 관한 것이고, 상기 기능 모듈들 또는 프로세서들은 하나 또는 하나 이상의 컴퓨터들에서 본 발명의 관점들에 따라 의미적 분석기를 형성하기 위하여 수행될 수 있다.
도 4A 및 도 4B는 두 명확한 문장에 대한 eSAO 인식기의 출력에 대한 일 실시예를 도시한다.
도 5A는 하나의 eSAO안의 C-E관계들의 인식을 위한 언어적 패턴의 일반적인 형태의 일 실시예를 도시한다.
도5B는 도 5A에 도시된 언어적 패턴을 활용한 문장을 위한 C-E 인식기의 출력의 일 실시예를 도시한다.
도 6A는 두개의 eSAO 사이의 C-E 관계들의 인식을 위한 언어적 패턴의 일반적인 형식의 일 실시예를 도시한다.
도 6B는 특정한 문장에 대하여 도 6A에 도시된 언어적 패턴을 사용한 C-E 인식기(320)의 출력의 일 실시예를 도시한다.
도 7은 기능 모듈들 도는 프로세서들의 세트의 일 실시예의 하이-레벨 아키텍쳐 다이어그램에 관한 것이고, 상기 기능 모듈들 또는 프로세서들은 하나 또는 하나 이상의 컴퓨터들에서 본 발명의 관점들에 따라 텍스트의 의미적 라벨링에 유용한 언어적 패턴들을 생성하기 위하여 수행될 수 있다.
도 8은 컴퓨터 수행의 일 실시예의 아키텍쳐 다이어그램을 도시한다. 상기 컴퓨터 수행은, 적절히 설정된 때에, 본 발명의 관점들에 따라, 본 명세서에 기술된 하나 또는 하나 이상의 기능들 또는 방법들을 수행하기 위하여 사용될 수 있다.
도 9는 본 발명이 실행될 수 있는 컴퓨팅 디바이스의 네트워크의 일 실시예를 도시한다.
이하에서, 본 발명의 관점들은 첨부된 도면을 참조하여 도시된 실시예들에 의해 기술될 수 있다. 이러한 실시예들을 기술하는 때에, 잘 알려진 항목, 기능, 형태의 상세한 설명들은 간략성을 위하여 생략될 수 있다.
비록, 본 명세서에서 제1 , 제 2, 등의 용어가 다양한 구성 요소들을 설명하기 위하여 사용되더라도, 이러한 구성 요소들은 이러한 용어로 한정되는 것은 아니다. 이러한 용어들은 일 구성요소를 다른 구성요소와 구별하기 위하여 사용되는 것이지, 구성요소의 요구되는 순서를 나타내는 것이 아니다. 예를 들어, 본 발명의 권리 범위 내에서, 제1 구성요소는 제2 구성요소로 지칭될 수 있고, 유사하게 제2 구성요소를 제1 구성요소로 지칭될 수 있다. 본 명세서에서 사용된 것과 같이, "및/또는"의 용어는 관련된 항목들의 하나 또는 모두의 조합 또는 어느 하나를 포함한다.
일 구성 요소가 다른 구성 요소와 "위에(on)" 또는 "연결된(connected)" 또는 "커플링된(coupled)"으로 지칭되는 것은 어느 일 구성 요소가 다른 구성 요소와 "직접 위(directly on)에" 또는 "직접 연결된(directly connected)" 또는 "직접 커플링된(directly coupled)"을 지칭하는 것이거나 중간에 다른 구성요소를 포함하는 것일 수 있다. 반면에 어느 일 구성요소가 다른 구성 요소와 "직접 위(directly on)에" 또는 "직접 연결된(directly connected)" 또는 "직접 커플링된(directly coupled)"으로 지칭되는 것은 중간에 다른 구성요소가 없는 것을 나타낸다. 구성요소들 사이의 관계를 기술하기 위하여 사용되는 다른 용어는 유사한 방식으로 해석되어야 한다.(예, "사이에(between)"와 "직접 사이에(directly between)", "인접한(adjacent)"와 "직접 인접하(directly adjacent)" 등)
본 발명에서 사용되는 기술은 오직 특별한 실시예들을 설명하는 목적을 위한 것이고, 본 발명을 한정하기 위한 것이 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 또한, 명세서에서 사용되는 "포함한다(comprises)", "포함하는(comprising)","포함하다(includes)" 및/또는 "포함하는(including)"는 언급된 특징, 단계, 동작, 소자 및/또는 구성요소들에 하나 이상의 다른 특징, 단계, 동작 및/또는 구성요소들의 존재 또는 추가를 배제하지 않는다.
본 발명의 관점들에 따르면, 특유의 의미적 프로세서(SP)가 제공된다. 이는 노동의 집약을 감소시킬 수 있고, 생산된 결과물의 질을 향상시킬 수 있고, 관련된 의미적 프로세싱을 사용하는 어플리케이션의 영역을 확장시킬 수 있다. 의미적 프로세서는 텍스트의 더 기초적인 언어학적 분석을 수행하고, 언어학적 분석의 의미적 구조를 활용하고 사용자 요구조건을 기초로 하는 기술적 접근에 따라 의미적 프로세서의 의미적 라벨링을 수행한다.
본 발명의 실시예들은 전자적 형식의 자연 언어 텍스트의 자동화된 의미적 라벨링을 위한 시스템 및 방법에 관련된다. 상기 시스템은 의미적 프로세서를 포함한다, 상기 의미적 프로세서는 입력 텍스트의 기초적인 언어학적 분석들, 대상물/ 대상물 계층의 인식, 대상물의 세트로부터 사실들을 인식하고, 사실들의 세트로부터 인과관계의 인식을 수행한다. 상기에 언급된 의미적 관계들은 주요 영역 및 언어에서 독립적이고, 상기에 언급된 의미적 관계들은 가령, 외부 세계 및/ 또는 주요 영역과 같은 외부 영역들에 관한 지식의 세 개의 주요한 타입들을 나타낸다.
이러한 의미적 관계들, 상기 의미적 관계들의 구성요소 및 특질들은 의미적 라벨 또는 의미적 관계 라벨들로도 지칭되는 것의 세트를 결정한다. 이 때, 의미적 프로세서는 기초적 언어학적 분석 단계동안 입력 텍스트의 의미적 텍스트 라벨링을 수행한다. 그렇게 함으로써, 의미적 프로세서는 특정한 어플리케이션의 요구에 의존하여, 추가적인 목표 의미적 라벨링을 위한 언어학적 패턴들을 발전시킨다.
본 발명의 실시예들에 따르면, 전기적 또는 디지털 형식의 텍스트를 라벨링 하기 위한 의미적 프로세싱은 텍스트를 미리 포멧팅하는 단계, 언어학적 분석을 미리 형성하는 단계, 및 텍스트 라벨링하는 단계를 포함한다.
도 1은 기능 모듈들 또는 프로세서들의 세트의 일실시예의 하이 레벨 아키텍쳐 다이어그램에 관한 것이고, 상기 기능 모듈들 또는 프로세서들은 하나 또는 하나 이상의 컴퓨터들에서 본 발명의 관점들에 따라 의미적 라벨링 프로세서(100) (또는, 의미적 프로세서 (SP, 100)로 지칭됨)를 형성하기 위하여 실행될 수 있다.
의미적 프로세서(100)은 라벨링된 텍스트 문서 데이터 베이스(50)을 생성하기 위하여 원본 텍스트(10)을 처리하기 위하여 구조화되거나, 조정되거나, 설정된다. 본 실시예에서, 의미적 프로세서(100)은 원본 텍스트(10)을 프리포맷하는 프리 포맷기(20), 프리포맷된 텍스트의 언어학적 분석을 수행하는, 언어학적 분석기(30) 및 언어적으로 분석된 텍스트의 의미적 라벨링을 수행하고 라벨링된 텍스트 데이터 베이스(50)을 생성하는 라벨기(40)를 포함한다.
본 실시예에서, 라벨기(40) 또는 의미적 라벨기로 지칭되는 것은 의미적으로 분석된 텍스트를 저장되거나 언어적 지식 기반(60)에 의해 접근가능한 목표 의미적 관계 패턴들(또는 의미적 패턴들)을 매칭하거나 비교하고, 의미적으로 분석된 텍스트 및 매칭 결과들을 기초로 의미적 관계 라벨들을 생성한다. 상기 의미적 라벨들은 예를 들어, 인과 관계 및/ 또는 전체-일부와 같은 의미적 관계들의 특정 타입에 상응하는 분석된 텍스트의 단어 또는 어구들을 포함할 수 있다.
의미적 프로세서(100)의 모듈들의 기능은 적어도 하나의 프로세서로 실행될 수 있고 언어적 지식 기반(60)으로 유지될 수 있는 컴퓨터 프로그램 코드로 구현될 수 있다.
의미적 프로세싱 기능은 하드웨어, 펌웨어 또는 이들의 조합으로 대체되거나 부가되어 구현될 수 있다. 또는 본 명세서에 설명된 바와 같이, 의미적 프로세싱 기능은 다른 기능적 모듈들 또는 다른 프로세서들로 구현될 수 있다.
언어적 지식 기반(60)은 사전들, 분류사들, 통계적 데이터 등과 같은 다양한 데이터베이스를 포함할 수 있다. 또한, 언어적 지식 기반(60)은 텍스트를 단어로 분할하고, 명사구 및 동사구를 인식하고, 주어, 목적어, 액션 및 그것들의 특질들을 인식하기 위하여 사용되는 언어적 모델 또는 언어적 패턴들을 인식하는 것의 데이터 베이스를 포함할 수 있다.
언어적 분석기(30) 및 라벨기(40)은 추가적인 상세한 설명은 다음과 같다. 프리포맷터(20)에 의해 수행되는 텍스트를 미리 포맷팅하는 것은 바람직하게는 미국 특허 번호 7,251,781에 설명된 기술에 따라 프리포맷 되고, 상세한 설명은 상기 참조 문헌의 내용을 원용하여 통합된다.
도 2 는 기능 모듈들 또는 프로세서들의 세트의 일실시예의 하이 레벨 아키텍쳐 다이어그램에 관한 것이고, 상기 기능 모듈들 또는 프로세서들은 하나 또는 하나 이상의 컴퓨터들에서 본 발명의 관점들에 따라 도 1의 언어적 분석기(30)를 형성하기 위하여 수행될 수 있다. 본 발명의 다른 실시예들에서 언어적 분석기(30)은 실질적으로 동일한 기능을 수행하는 다른 컴퓨터 모델들의 세트를 포함할 수 있다.
언어적 분석기(30)은 의미적으로 분석된 텍스트(16)을 생성하기 위하여, 예를 들어, 도 1에 도시된 프리포맷기(20)과 같은 프리포맷기로부터 수신된 미리 포맷된 텍스트를 처리한다. 미리 포맷된된 텍스트(12)는 POS(POS:Parts-of-Speech) 태거(32)에 의해 수신되고, 상기 POS 태거(32)는 POS(parts-of-speech) 태그들 결정하고, 상기 POS(parts-of-speech) 태그들을 프리 포맷된 텍스트(12)에 적용한다.
이 후, 파서(34)는 의미적 분석기(300)에 의해 처리되기 위한 POS 태그된 텍스트를 분석한다.
본 실시예에서, POS 태거(32) 및 파서(34)에 의해 수행되는 기능들은 바람직하게는 미국 특허 등록 번호 7,251,781에 설명된 기술에 따라 수행될 수 있다.
도 3은 기능 모듈들 또는 프로세서들의 세트의 일실시예의 하이 레벨 아키텍쳐 다이어그램에 관한 것이고, 상기 기능 모듈들 또는 프로세서들은 하나 또는 하나 이상의 컴퓨터들에서 본 발명의 관점들에 따라 의미적 분석기(300)를 형성하기 위하여 수행될 수 있다. 본 실시예에서, 의미적 분석기(300)은 Fig. 2에 도시된 의미적 분석기(300)과 유사하거나 동일한 것일 수 있다.
본 실시예에서, 의미적 분석기(300)은 파싱된 텍스트(14)를 파서로부터 수신하고 의미적으로 분석된 텍스트(16)을 파싱된 텍스트(14)로부터 생성한다. 의미적 분석기(300)은 eSAO(extended subject-Action-Object) 인식기(310)을 포함하고, 상기 eSAO 인식기(310)은 eSAO 의미적 관계 인식을 수행한다. 또한, 의미적 분석기(300)은 C-E 인식기(320)를 포함하고, 상기 C-E인식기(320)는 eSAO들 사이의 의미적 인과 관계 인식을 수행한다. 주어(S) 타입, 액션(A) 타입, 목적어(O) 타입의 의미적 엘리먼트(element)들 또는 컴포넌트들에 더하여, 전치사 타입, 간접 목적어 타입, 형용사 타입, 부사구 타입의 의미적 엘리먼트(element)들 또는 의미적 컴포넌트(component)들은 본 발명에서 eSAO들로서 인식될 수 있다. 상기 기술된 바와 같이, 다른 의미적 관계들, 가령 인과 관계들과 같은 의미적 관계들도 인식될 수 있다.
본 실시예에서, eSAO 관계 인식은 바람직하게는 미국 특허 등록 번호 7,251,781에 설명된 기술에 따라 미리 형성될 수 있다. 또한, 본 실시예에서, 인과 관계 인식은 미국 특허 공개 번호 2006041424에 설명된 기술에 따라 미리 형성될 수 있고, 상기 문헌의 내용은 본 명세서에 완전히 원용되어 통합된다.
도 4A 및 4B는 텍스트의 eSAO 타입의 의미적 관계를 인식하는 예를 도시한 것이다. 상기 eSAO type은 도 3의 eSAO 인식기(310)에 의해, 입력 문장들에 대해 성취된 결과일 수 있다. 구체적으로, 도 4A 및 도4B는 두 개의 특정한 샘플 문장들에 대한 eSAO 인식기(310)의 출력의 예를 도시한다.
"A dephasing element guide completely suppresses unwanted modes" (도. 4A의 입력 문장); and
"The maximum value of x is dependent of the ionic radius of the lanthanide element" (도. 4B의 입력 문장).
도 4A에서, 주어, 액션, 목적어 및 부사구에 상응하는 eSAO 컴포넌트들은 입력 문장으로부터 eSAO 인식기(310)에 의해 결정된다.
도 4B에서, 주어, 액션, 전치사, 간접 목적어 및 형용사에 상응하는 eSAO 컴포넌트들은 입력 문장으로부터 eSAO 인식기(310)에 의해 결정된다.
본 실시예에서, eSAO 컴포넌트들로 주어, 목적어 및 간접 목적어는, 가령, 엄밀한 의미의 구성요소들 또는 그것들의 특질과 같은 내부 구조를 갖으며, 상기 내부 구조는 의미적 관계에 상응한다. 예를 들어, 주어, 목적어 또는 간접 목적어는 가령, 어느 관계의 전체 또는 부분에 상응하는지, 다른 어떤 기능적 관계들의 파라미터가 될 수 있는 지와 같은 전체-부분(whole-part or metrological) 관계의 파라미터가 될 수 있는 문장으로부터 결정될 수 있다.
본 실시예에 따른 인과 관계들은 원인으로써, 하나 이상의 완전한 eSAO들 및/또는 불완전한 eSAO들을, 상응하는 결과로서, 하나 이상의 완전한 eSAO들 및/또는 불완전한 eSAO들을 짝을 이루게 하는 것을 포함한다. 이 때, 하나의 eSAO는 원인 eSAO 및 결과 eSAO 모두를 야기할 수 있다. 또한, 지식 공학 및 자연 언어 독특함의 관점에서, 인과 관계는 별개의 eSAO들에서 찾을 수 있다.
C-E 인식기(320)은 텍스트 문장들에서 하나의 eSAO 및 서로 다른 eSAO들 사이의 인과 관계들을 발견하기 위하여 언어학적 패턴들을 사용한다. 상기 언어학적 패턴들은 지식 언어 기반 60에 저장될 수 있다.
예를 들어, 만일, 주어가 "CAUSE_OF"의 의미를 가지고, 액션이 주어와 목적어를 "BE"의 의미로 연결하는 경우에, ""cause of"가 주어인 구조" 타입의 패턴이 하나의 eSAO에 의해 도출된다. 이러한 패턴에서, "CAUSE_OF" 주어 의미는 명사구를 나타내는 비종단 부호(non-terminal symbol)이다. 상기 주어 의미는 바람직하게는 다음과 같은 패턴에 따른다. : 몇 개의 단어들; 단어 "cause" 또는 "causes"; 몇 개의 단어들의 뒤에 따라오는 전치사 "of"
상기 "CAUSE_OF" 의미는 하기의 방정식에 의해 표현될 수 있다.
CAUSE_OF = .* ("cause"|"causes") "of" .*
바람직한 실시예에서, 상기 "BE"의 의미는 적어도 "be|become"의 단어 또는 어구와 동일하다.
도 5A는 하나의 eSAO안의 C-E관계들의 인식을 위한 언어적 패턴의 일반적인 형태의 일 실시예를 도시한다. 도5B는 도 5A에 도시된 언어적 패턴을 활용한 문장을 위한 C-E 인식기(320)의 출력을 도시한다.
구체적으로, 도 5B는 입력 문장 "The cause of water evaportaion is heat"에 대하여 eSAO 인식기(310)로부터 인식된 eSAO 타입 관계를 도시한다. 또한, 이러한 하나의 eSAO에 대하여 C-E 인식기(320)으로부터, 상기 언급된 언어학적 패턴에 따라 인식된 인과 관계가 도시된다. 여기서, 결과 "water evaporation"은 원인 "heat"을 포함한다. 이 때, 상기 예시에서 표시된 부호 "-"는 상응하는 구성은 어떤 의미를 갖는 것이거나, 아무런 부호를 참조하지 않거나, 빈 영역을 의미하는 것일 수 있다.
이전에 언급된 언어적 패턴과는 다르게, 만일, 원인으로 고려되는 제1 eSAO가 "ACTIVE"의 의미를 갖는 액션을 포함하고, 결과로 고려되는 제2 eSAO가 "TO_VB|DO|HV"의 의미를 갖는 액션을 포함할 때, "목적을 한정하는 부사구: TO VB|DO|HV" 타입의 패턴이 두개의 eSAO들에 의해 도출된다.
상기 "ACTIVE" 액션의 의미는 능동태형 동사 그룹으로부터 추출되는 액션을 나타내는 비종단 부호(non-terminal symbol)일 수 있다. 상기 " TO_VB|DO|HV" 액션의 의미는 "to"의 뒤에 위치한 일 부정형 동사(VB); 부정형 "have" (HV); 또는 부정형 "do" (DO)를 포함하는 동사 그룹으로부터 추출되는 액션을 나타내는 비종단 부호(non-terminal symbol)일 수 있다.
도 6A는 두개의 eSAO 사이의 C-E 관계들의 인식을 위한 언어적 패턴의 일반적인 형식을 도시한다. 도 6B는 특정한 문장에 대하여 도 6A에 도시된 언어적 패턴을 사용한 C-E 인식기(320)의 출력을 도시한다. 도 6A에서, 언어적 패턴은 주어1 및 목적어2로 "exist"를 요구한다. 즉, 제2 eSAO에 목적어2가 포함될 때, 주어1은 제1 eSAO에 포함된다. 상기에서 논의한 바에 따라, 제1 eSAO의 액션1는 "ACTIVE" 이어야 하고, 제2 eSAO의 액션2는 " TO_VB|DO|HV" 형식을 가져야 한다.
구체적으로, 도 6B는, 상기 도 6A에 관한 설명에서 기술된 상기 언어적 패턴에 따라, 입력 문장 " The register contains the proper bit pattern to begin its shift-out operation,"의 두개의 eSAO로부터 C-E 인식기(320)에 의해 인식된 인과 관계를 도시한다. 입력 문장의 단어들 및 어구들은 도 6A의 언어적 패턴을 사용하여 결정된 상응하는 의미적 라벨들과 함께 도시된다.
도 1을 참조하면, 기초적 의미적 분석 동안 입력 텍스트에 대하여 의미적 프로세서(100)에 의해 생성된 의미적 라벨들은 어휘적, 문법적, 구문적 태그들과 함께, 입력 텍스트의 사실상 모든 어휘적 유닛들에 부착된다.
본 실시예에서, 의미적 프로세서(100)은 추가적인 텍스트 의미적 라벨링에 유용한 언어적 패턴들의 효율적인 발전을 가능케 한다. 예를 들어, 의미적 프로세서(100)은 전문가에게 새로운 목표 의미적 관계의 어떠한 특별한 예라도 다른 레벨의 언어 분석을 위하여 라벨들로 포장(wrap)하는 능력을 제공한다. 다른 레벨의 언어 분석은 가령, 어휘적, 문법적, 구문적 및 의미적 분석일 수 있고, 언어 및 지식 영역과는 독립적일 수 있다.
사용자는 예를 들어, 컴퓨터 디스플레이상의 텍스트 조각의 상응하는 단어들에 하이라이팅하여 상기 새로운 목표 의미적 관계를 명시할 수 있다. 따라서, 의미적 프로세서(100)는 한편으로는, 텍스트의 의미적 관계들을 인식하기 위한 의미적 패턴을 일반화하는 능력을 제공한다. 또한, 다른 한편으로는 의미적 프로세서(100)는 일반화된 언어적 패턴의 기반을 기초로 어떠한 텍스트의 의미적 관계들의 자동화 인식을 기능적으로 지지하는 능력을 제공한다. 왜냐하면, 의미적 프로세서(100)는 언어적 패턴을 사용하여 텍스트를 처리하기 위하여 필요한 텍스트 분석의 레벨 또는 양에 저급할 수 있기 때문이다. 이러한 인식은 시사적인 컨텐츠 뿐만 아니라 논리적인 컨텐츠에서도 수행될 수 있다.
도 7은 기능 모듈들 도는 프로세서들의 세트의 일 실시예의 하이-레벨 아키텍쳐 다이어그램에 관한 것이고, 상기 기능 모듈들 또는 프로세서들은 하나 또는 하나 이상의 컴퓨터들에서 본 발명의 관점들에 따라 텍스트의 의미적 라벨링에 유용한 언어적 패턴들을 생성하기 위하여 수행될 수 있다.
구체적으로, Fig. 7은 본 명세서에서 개시되는 실시예들에서 실행될 수 있는 새로운 언어적 패턴들을 자동으로 생성하기 위해 사용될 수 있는 모듈들(180, 190, 200, 210, 220)을 도시한다. 다양한 실시예들에서, 도 7의 하나 이상의 모듈은 상기 도 1 내지 도 3의 설명에서 기술된 적어도 하나의 언어적 분석기(30) 및 라벨기(40)에 포함될 수 있다.
도 7에 도시된 바에 따르면, 자연 언어 텍스트 문서의 충분히 큰 코퍼스인 텍스트 코퍼스(170)은 바람직하게는 복수의 언어적 패턴들로 구성된 패턴 데이터베이스(230)을 형성하고, 확립하기 하기 위하여 사용된다. 다른 실시예들에서, 많은 양의 텍스트가 사용될 수 있으나, 큰 텍스트의 코퍼스에 비하여 더 적은 언어적 패턴들을 산출할 수 있다. 코퍼스 언어적 분석기(180)은 상기에 기술된 바와 같이, 기초적 언어적 분석을 텍스트 코퍼스(170)를 기초로 수행한다.
상기 내용들을 달성하기 위하여, 도1 내지 도3의 의미적 프로세서(100)은 예를 들어, 이러한 기능들을 코퍼스 언어적 분석기(180)처럼 또는 코퍼스 언어적 분석기(180)과 함께 수행한다. 라벨링된 텍스트 코퍼스 생성기(190)은 POS 태그들, 구문적 태그들 및 의미적 라벨들을 포함하는 문장들의 코퍼스를 텍스트 코퍼서(170)의 기초적 언어적 해석 동안 코퍼스 언어적 분석기(180) (또는 의미적 프로세서 100)의 출력을 기초로 생성한다.
관계 인식기(200)는 의미적 관계들(예를 들어, C-E 관계)의 몇몇 특별한 케이스들의 인식의 처리를 수행한다. 상기 특별한 케이스들은 상기 특별한 의미적 관계들을 포함하는 라벨링된 문장들의 목록에서 지시될 수 있다.
예를 들어, 전문가는 관심 있는 특정한 의미적 관계들을, 예를 들어, 컴퓨터 디스플레이를 통하여, 관심 있는 의미적 관계들을 포함하는 라벨링된 텍스트 코퍼스 생성기(190)에 의해 출력된 라벨링된 문장들을 지시함으로써 지시할 수 있다. 패턴 생성기(210)은, 더 일반적인 의미적 패턴들 또는 목표 의미적 관계 패턴들을 생성하기 위하여 라벨들을 사용하여, 의미적 관계들의 특별한 케이스들을 일반화한다. 이후, 패턴 검사기 220은 생성된 패턴들을 라벨링된 텍스트 코퍼스(190)의 사용으로 검사하고, 승인된 패턴들을 패턴 데이터베이스(230)에 배치한다.
관계 인식기(200)의 기능들은 전문가에 의해, 예를 들어, 라벨링된 텍스트 코퍼스(190)을 살펴보고, 목표 의미적 관계들을 포함하는 텍스트의 조각들을 찾을 수 있는 전문가에 의해 수동으로 수행될 수 있다. 또는 관계 인식기(200)의 기능들은 목표 의미적 관계들을 포함하는 텍스트의 조각들을 서치하도록 설정된 컴퓨터에 의해 자동으로 수행될 수 있다. 또는 상기 방법들의 조합이 사용될 수 있다.
사용자는, 예를 들어, 목표 의미적 관계에서 확실히 찾을 수 있는 몇몇의 개념들을 명확히 할 수 있다. 또한, 관계 인식기(200)는 라벨링된 텍스트 코퍼스(190)에서 이러한 개념들을 포함하는 텍스트의 조각들을 자동으로 검색할 수 있다.
예를 들어, 사용자가 전체-부분 의미적 관계에 관심이 있다면, 관계 인식기(200)는 라벨링된 텍스트 코퍼스(190)에서, 명확한 전체-부분 (예를 들어, car-engine) 의미적 관계를 포함하는 문장 "The engine is located inside the car.,"를 찾을 수 있다. 이러한 문장을 찾는 것을 기초로, 코퍼스 언어적 분석기(180)은 이러한 문장에 대해 POS 태깅, 파싱 및 의미적 분석을 수행하고, 상응하는 의미적 라벨들을 설정한다.
표 1은 상기 문장의 분석의 결과를 도시한다. 여기서, 짧은, 어휘적, 문법적 및 구문적 태그들은 명료성을 위해 생략된다.
주어
액션 locate
목적어 engine
전치사 inside
간접 목적어 car
형용사
부사적 어구
관계 인식기(200)은, 상기 예시 문장에 대하여, 다음과 같이 결정한다.
전체 = car
부분 = engine
패턴 생성기(210)은 패턴의 레벨로 전체-부분 관계 분석 및 일반화를 수행한다. 패턴 생성기(210)의 기능은 한 명 이상의 전문가에 의하여 수동으로 수행되거나, 적절히 구성된 컴퓨터에 의해 자동으로 수행될 수 있다.
전자의 경우에는, 전문가는 적절한 분석 및 일반화를 위한 자신의 경험, 지식뿐만 아니라 언어적 지식 기반의 지식을 고려할 수 있습니다.
이전의 예시 문장으로 돌아가면, 전문가는 본 예시에서 획득되는 전체-부분 역할 분배는 전치사 "inside"의 의미, 상기 전치사 "inside"와 유사한 의미를 갖는 전치사 "within" 및 적어도 동사 "situate | contain | position | dipose | fix | mount | house"가 동사 "locat"와 유사한 의미를 갖는 것을 도출한다는 결론에 도달한다.
주어 -
액션 POSITION
목적어 not empty 부분
전치사 INSIDE
간접 목적어 not empty 전체
형용사 -
부사적 어구 -
만일 액션 필드가 "POSITION"의 의미를 갖고, 액션 필드가 원본 문장의 동사가 수동태로 표현되고, 전치사 필드가 "INSIDE" 의미를 갖는 경우에, 이러한 패턴은 도출될 수 있다. 여기서, "POSITION" 액션의 의미는 적어도 "locate | situate | contain | position | dispose | fix | install | mount | house"를 포함하는 단어들 또는 어구들에 매칭되는 비종단 부호(non-terminal symbol)일 수 있다. 상기 "INSIDE" 전치사의 의미는 적어도 "inside | within"을 포함하는 단어들 또는 어구들에 매칭되는 비종단 부호(non-terminal symbol)일 수 있다.
자체적으로 언어적 패턴들의 일반화를 나타내는 비종단 부호(non-terminal sybol)의 값 검색은 eSAO 형식을 기초로 충분히 큰 라벨링된 텍스트 코퍼스(190)을 사용하여 자동화 모드로 수행될 수 있다. 이러한 코퍼스는 상기의 목적들을 위해 효율적인 배경 상황을 제공한다.
예를 들어, 패턴 생성기(210)는, 액션, 목적어 및 간접 목적어 필드의 값들만을 고정하고(표 1을 참조), 이후, 상응하는 필드의 상기 고정된 값과 일치하는 값을 갖는 eSAO들을 갖는 모든 문장의 라벨링된 텍스트 코퍼스(190)에 대한 자동화된 서치를 수행함으로써, 비종단 부호(non-terminal symbol) INSIDE의 모든 값을 검색할 수 있다.
하기 내용은 전체-부분 의미적 관계를 포함하는 문장의 다른 예이다. 상기 관계는 기술적인 프로세스를 설명하고, 그 결과로, 하기의 문장으로부터 결정된 eSAO의 세트로부터 상기 관계는 추출됩니다.
"When initially creating an extension, take the following steps: coordinate the use of extension with the vendor; write an extension specification.(초기 확장을 생성할 때, 다음과 같은 단계에 따르시오: 벤더와 확장의 사용을 조정함; 확장 상세 내용을 작성함."
상기 예시 문장을 언어적으로 분석기(180)으로 처리한 결과는 하기의 표 3과 같다.
eSAO -1 eSAO -2 eSAO -3 eSAO -4
주어 - - - -
액션 create Take coordinate write
목적어 extension following steps use of extension extension specification
전치사 - - With -
간접 목적어 - - Vendor -
형용사 - - - -
부사적 어구 initially - - -
상기 예시 문장에 대하여 관계 인식기(200)은 다음과 같이 결정한다.
전체=eSAO-1
부분={eSAO-3, eSAO-4}
상기 예시 문장을 기초로, 패턴 생성기(210)은 하기의 언어적 패턴들을, 상기 명세서의 내용에 따라, 생성할 수 있다.
만일, 적어도 "if | when" 위치의 조건절(If-clause)의 원본 문장에 포함된 액션 필드의 eSAO가 "PERFROM"의 의미 액션 필드를 갖는 eSAO의 뒤에 배치되고, ";" 또는 "," 또는 구두점 또는 접속사로 분리되는 하나 이상의 eSAO의 뒤에 배치되면, 첫 번째 eSAO은 전체 eSAO로 표시되고, 세 번째 eSAO부터 다른 eSAOs는 부분 eSAOs로 표시된다.
이러한 패턴에서, "PERFROM" 액션 의미는 적어도 "follow | complete | do | perform | take"의 단어들 또는 어구들과 매칭되는 비종단 부호(non-terminal symbol)일 수 있다.
텍스트 문서의 전체-부분 의미적 관계의 자동화 인식을 위한 언어적 패턴들의 상세한 설명은 미국 특허 출원 공개 번호 20070156393에 기재되어 있고, 상기 상세한 설명은 본 명세서에 원용되어 완전히 통합된다.
또 다른 문장은 "PREVENTION" 타입의 의미적 관계의 예시를 제공하며, 이는 " Aluminum should be isolated in order to prevent corrosion."와 같다. 전술한 실시예들에 따라 형성되는 관계의 인식을 위한 언어적 패턴은 인과 관계 타입의 의미적 라벨과도 동작할 수 있는 가능성을 포함한다.
패턴 생성기(210)에 의해 생성된 원형의 언어적 패턴들을 사용하여, 패턴 검사기(220)는 라벨링된 텍스트 코퍼스(190)에 관한 설명에서 기술된 의미적 관계의 예시들을 검색한다. 전문가는 가능한 몇몇 수정들과 함께, 검색된 예시들을 분석하고, 패턴들을 승인할 수 있습니다. 컴퓨터는 이러한 작업을 수행하도록 구성되거나 프로그램될 수 있다. 어느 쪽이든, 이후에 패턴 검사기(220)는 상기 승인된 패턴을 패턴 데이터베이스(230)에 저장한다. 본 실시예에서, 상기 패턴 데이터베이스(230)은 언어적 지식 기반(60)의 일부분이다.
도 1에 도시된 라벨기(40)는, 언어적 분석기에 의해 입력 텍스트에 설정된 라벨들에 더하여, 추가적 의미 텍스트 라벨링 및/또는 목표 의미적 라벨링을 제공한다. 상기 추가적 의미 텍스트 라벨링 및/또는 목표 의미적 라벨링은, 패턴 생성기(21)에 의해 생성된 언어적 패턴들에 따르고, 패턴 검사기(220)에 의해 승인되고, 언어적 지식 기반(60)에 포함된다.
예를 들어, 도 1에 도시된 라벨기(40)에 의해 제공되는 라벨들은, 패턴 데이터베이스(230)(이는 언어적 지식 기반(60)에 포함될 수 있다.)의 패턴을 의미적으로 분석된 텍스트(16)에 적용하는 것에 의해, 결정된다. 라벨기(40)에 의해 제공되는 상기 라벨들은, 본 명세서에서 논의된 의미적 관계의 타입들 또는 다른 의미적 관계의 타입들, 가령, 인과관계 및/또는 전체-부분 의미적 관계들의 타입들을 지시할 수 있는 라벨들을 포함할 수 있다.
시스템 기능과 데이터베이스는 실제로 함께 위치하거나, 사용자 디바이스 및 데이터 소스들을 포함하고, 서로 함께 위치하거나 원격으로 위치하는 많은 시스템, 서브 시스템, 프로세서, 저장 장치들에 분산될 수 있다. 서로 원격으로 위치할 때, 다양한 시스템, 서브 시스템, 프로세서 및 저장 장치들 사이의 통신은 인터넷, 월드 와이드 웹, 로컬 에어리어 네트워크, 와이드 에어리어 네트워크, 가상 개인 네트워크 등를 포함하는 하나 이상의 네트워크 타입들을 갖는 유선 또는 무선 통신을 사용하여 수행될 수 있다. 이러한 네트워크들은 다양한 컴퓨터 시스템, 서버 및 데이터 저장 장치, 위성, 셀룰러 네트워크, 케이블 네트워크, 전화 네트워크 등을 포함할 수 있다. 마찬가지로, 기능 및 기타 관련 기관의 데이터는 다양한 저장 장치들 또는 시스템들 중 어느 하나에 상주하고 다양한 프로세서들 중 어느 하나에 의해 실행되거나 억세스되는 프로그램 코드로 구현될 수 있다.
예를 들어, 본 발명에 따른 실시예들은 도 8에 도시된 컴퓨터 시스템(800)과 같은 특별히 구성된 컴퓨터 시스템에서 시행될 수 있다. 상기 컴퓨터 시스템(800)은 적어도 하나의 프로세싱 엘리먼트(801), 디스플레이(803), 입력 디바이스들(805), 그리고 상기 서술된 의미적 라벨링을 완수하기 위해 필요한 정보를 제공하는 데이터베이스들(807) (또는 다른 컴퓨터로 읽을 수 있는 저장 매체)에 링크를 포함할 수 있다.
다양한 실시예들에서, 여기에서 서술된 어플리케이션들(applications), 기능적 모듈들, 및/또는 프로세서들은 하드웨어, 소프트웨어, 펌웨어(firmware), 또는 그것들의 결합을 포함할 수 있다. 기능들이 프로그램 코드에서 전체적으로 또는 부분적으로 실시되는 한, 그 기능들은 하나 이상의 특정 머신들로서 발명의 개념들의 특정 기능을 수행하기 위해 조정되는 하나 이상의 프로세서들에 의해 실행된다. 그리고, 소프트웨어 또는 컴퓨터 프로그램 코드 또는 지시들(때때로 "어플리케이션"으로 언급된)이 다양한 실시예들에서 사용되는 한, 그것은 다양한 비일시적 저장 디바이스들(non-transitory storage devices), 또는 매체들 상에서 또는 내에서 저장되고, 여기에서 서술된 시스템들 및 방법들의 분명한, 내포된, 그리고 내재하는 기능들을 달성하기 위해 하나 이상의 프로세서들, 마이크로프로세서들, 마이크로컨트롤러들, 도는 다른 프로세싱 디바이스들에 의해 실행된다. 예를 들어, 컴퓨터 프로그램 코드는 프로세싱 디바이스들 내 메모리에 상주하거나 또는 플로피 디스크들(floppy disks), 하드 디스크들(hard disks), 컴팩트 디스크들(compact disks), 디브이들(digital versatile disks), 롬(read only memory), 또는 다른 비일시적 저장 매체(non-transitory storage medium)에 의해 프로세싱 디바이스들에 제공될 수 있다. 이러한 저장 디바이스들 또는 매체들, 그리고 프로세서들은 논리적으로 또는 물리적으로 서로 서로 연접을 이루거나 떨어져 있을 수 있다. 이를테면, 본 발명의 개념에 따른 시스템은 하나 이상의 인터넷(and World Wide Web), 인트라넷(intranets), 엑스트라넷(extranets), 가상 사설 네트워크(virtual private networks), 또는 다른 네트워크와 같은 네트워크를 통해 하나의 이상의 다른 컴퓨터들, 데이터베이스 시스템들 등에 접속할 수 있다.
여기에서 사용된 바와 같이, 별도로 시사된 것이 없다면, 컴퓨터 알려진, 또는 이후로 개발된 적어도 하나의 프로세서 및 저장 매체를 포함하는 디바이스(device)의 종류를 취할 수 있다. 예를 들어, 도 9을 참조하면, 컴퓨터 또는 컴퓨터 시스템은 서버(server, 98), PDA(personal digital assistant, 91), 랩탑 컴퓨터(laptop computer, 92), 휴대용 음악 장치(portable music device, 93), 개인용 컴퓨터(personal computer, 94), 휴대폰(cell phone, 95), 워크 스테이션(workstation, 미도시), 메인프레임(mainframe, 미도시), 또는 그 밖에 유사한 것 등등, 또는 그것들의 결합을 포함할 수 있다. 이러한 디바이스들은, 예들로서, 하나 이상의, 키패드(keypad) 또는 키보드를 포함하는 입력 디바이스들(input devices), 마이크로폰(microphone), 비디오 카메라(video camera), 터치-스크린(touch-screen), 그리고 기타 같은 종류의 것을 포함할 수 있다. 이러한 디바이스들은 또한 하나 이상의 출력 디바이스들(output devices)을 포함하며, 이것은, 예들로서, 비디오 스크린(video screen; e.g., 컴퓨터, 휴대폰, 또는 PDA 스크린), 터치-스크린(touch-screen), 이미지 프로젝션 시스템(image projection system), 스피커(speaker), 프린터(printer), 그리고 기타 같은 종류의 것을 포함할 수 있다. 몇몇 실시예들에서, 다양한 사용자 디바이스들(user devices, 90)은 지식 검색(knowledge search) 및 컴퓨터(98)에 호스트된 매핑 시스템(mapping system, 10)과 상호 작용할 수 있으며, 그리고 이것은, 일례로서, 인터넷(Internet)을 경유하여 접속 가능할 수 있다.
여기에서 서술된 어떤 엘리먼트들이 서로 서로 떨어져 있는 한, 그것들은 알려진 또는 이 후로 개발된, 다양한 네트워크들(96)(e.g., LAN(local area networks), WAN(wide area networks), VPN(virtual private networks), 인트라넷(intranets), 컴퓨터 기반 소셜 네트워크(computer-based social networks), 케이블 네트워크(cable networks), 셀룰러 네트워크(cellular networks), 인터넷(Internet), 월드 와이드 웹(World Wide Web), 또는 이것들의 결합)을 통하여 정보를 통신 및/또는 교환할 수 있다.
앞서 말한 본보기의 상세한 설명 및 선호되는 실시예들은 도해의 목적을 위해 제공된다. 서술된 정밀한 형식들에 발명을 제한하거나 하나도 빠뜨리는 것 없이 완전하게 하려는 의도는 아니며, 오직 본 발명을 이해하도록 본 발명의 기술분야의 당업자에 특정 이용 또는 실행이 맞추어진 것이다. 여기에서, 수정과 변화의 가능성은 개시 내용을 이해하는 본 발명의 기술분야의 숙련된 기술자에게 명백할 것이다. 허용 오차, 특성 범위, 특정 작동 조건, 엔지니어링 명세, 또는 그 밖에 유사한 것을 포함하고, 실행 사이에 또는 기술 분야의 수준 변화로 달라지는 모범적인 실시예들의 개시 내용에 제한을 가하는 것은 아니며, 그리고 그것으로부터 제한을 의미하지는 않는다.
본 개시 내용은 현재의 기술 수준과 관련하여 만들어지며, 또한 미래에 채택되는 발전들을 고려한, 즉 현재의 기술 수준에 따른, 진보들을 예상한다. 기술된 청구항들과 적용되는 등가물들에 의해 정의되는 본 발명의 범위가 의도된다. 게다가, 본 개시 내용의 엘리먼트, 컴포넌트, 처리 단계는 상기 엘리먼트, 컴포넌트, 처리 단계가 청구항들에 명백하게 청구되어 있는 지와 상관 없이 공중에 바치도록 의도된 것은 아니다. 엘리먼트가 "~하는 수단"("means for . . . ")의 구를 이용하여 명확히 청구되는 한, 여기에서 청구항의 엘리먼트는 "결합 형식의 청구항의 엘리먼트가 구조, 재료 또는 작용을 언급합이 없이 특정 기능을 수행하는 수단 또는 단계로 표현되며, 청구항은 대응하는 명세서에 기재된 구조, 재료, 작용 및 그 균등물을 의미하는 것" (미국 특허법의 경우에는 35 U.S.C. Sec. 112, sixth paragraph의 조항)으로 해석되고, 그리고 단계, 또는 단계들이 "~하는 단계"("step(s) for . . . ")의 구를 이용하여 명확히 청구되는 한, 여기에서 방법 또는 처리 단계도 특정 기능을 수행하는 단계로 표현되어, 청구항은 대응하는 명세서에 기재된 구조, 재료, 작용 및 그 균등물을 의미하는 것으로 해석된다.
그러므로, 여기에서 서술된 것들은, 다양한 변경들이 이루어질 수 있고, 그리고 발명 또는 발명들이 다양한 유형들 및 실시예들에서 실행될 수 있고, 그리고 그것들은 많은 어플리케이션들에 적용될 수 있다. 각 청구항의 범위 안으로 들어오는 모든 수정 및 변경을 포함하여, 문자 그대로 서술된 청구항 및 모든 등가물들은 다음의 청구항들에 의해 청구된 것이다.

Claims (24)

  1. 자연 언어 텍스트의 자동화 라벨링 방법에 있어서, 상기 방법은,
    적어도 하나의 저장 매체와 연결된 적어도 하나의 컴퓨터 프로세서를 제공하는 단계를 포함하며, 상기 적어도 하나의 컴퓨터 프로세서가 상기 방법을 실행하되,
    상기 방법은 전자적 포맷의 적어도 하나의 자연 언어 문서로부터 텍스트를 수신하는 단계;
    상기 텍스트의 기초적 언어적 분석을 수행하는 단계;
    상기 언어적으로 분석된 텍스트와 저장된 목표 의미적 관계 패턴들을 매칭하는 단계;
    상기 언어적으로 분석된 텍스트 및 상기 언어적으로 분석된 텍스트와 목표 의미적 관계 패턴들을 매칭한 결과를 기초로 의미적 관계 라벨들을 생성함으로써, 의미적으로 라벨링된 텍스트를 생성하는 단계; 및
    상기 의미적으로 라벨링된 텍스트를 데이터 베이스에 저장하는 단계를 포함하는 방법을 수행하되,
    상기 의미적 관계 라벨은 상기 텍스트의 문장들의 단어들 또는 어구들과 관련되고, 상기 의미적 관계 라벨은 의미적 관계들의 소정의 타입들의 컴포넌트들을 지시하는 자연 언어 텍스트의 자동화 라벨링 방법.
  2. 제1 항에 있어서,
    상기 텍스트의 태깅된 일부분을 생성하기 위하여, POS 태그들(parts-of-speech tages)을 상기 텍스트의 적어도 일부분에 적용하는 단계;
    상기 텍스트의 파싱되고 태깅된 일부분을 생성하기 위하여, 상기 텍스트의 상기 태깅된 일부분을 파싱하는 단계; 및
    상기 텍스트의 의미적으로 분석되고, 파싱되고, 태깅된 일부분을 생성하기 위하여, 상기 텍스트의 상기 파싱되고 태깅된 일부분을 의미적으로 분석하는 단계를 더 포함하는 자연 언어 텍스트의 자동화 라벨링 방법.
  3. 제 2항에 있어서,
    상기 POS 태그들(parts of speech tags)을 적용하는 단계는 상기 텍스트의 미리 포맷된 일부분 상에서 실행되고,
    상기 텍스트의 미리 포맷된 일부분은 비자연 언어 부호들이 제거된 텍스트를 포함하는 자연 언어 텍스트의 자동화 라벨링 방법.
  4. 제 2항에 있어서,
    상기 텍스트의 상기 파싱되고 태깅된 일부분을 의미적 분석하는 단계는,
    상기 텍스트에서 하나 이상의 eSAO(expanded Subject-Action-Object) 세트의 형식으로 하나 이상의 사실들(facts)을 인식하는 단계; 및
    적어도 하나 이상의 외부 영역 및 지식 영역의 규칙성들을 적어도 인과 관계의 형식으로, 하나 이상의 eSAO(expanded Subject-Action-Object) 세트에서, 반영하는 규칙들의 세트를 인식하는 단계를 포함하되,
    상기 각 eSAO 세트는 적어도 하나의 eSAO 컴포넌트(component)들을 포함하고,
    상기 적어도 하나의 인과 관계는 원인 eSAO(cause eSAO) 및 결과eSAO(effect eSAO)를 포함하는 자연 언어 텍스트의 자동화 라벨링 방법.
  5. 제4 항에 있어서,
    상기 하나 이상의 eSAO 컴포넌트(component)들은 주어들, 목적어들, 액션들, 형용사들, 전치사들, 간접 목적어들, 부사들을 구성하는 한 그룹에서 선택되는 하나 이상의 엘리먼트(element)들과 관련된 텍스트를 포함하는 자연 언어 텍스트의 자동화 라벨링 방법.
  6. 제 4항에 있어서,
    상기 텍스트 문서에서 하나 이상의 eSAO 세트들을 인식하는 단계는,
    상기 텍스트의 적어도 하나의 문장에서 하나 이상의 주어들, 목적어들, 액션들, 형용사들, 전치사들, 간접 목적어들, 및 부사들을 인식하는 단계를 포함하는 자연 언어 텍스트의 자동화 라벨링 방법.
  7. 제 4항에 있어서,
    상기 텍스트에서 상기 하나 이상의 eSAO 세트들 및 인과 관계들을 인식하는 단계는,
    eSAO 및 인과 컴포넌트들을 정의하는 패턴들의 데이터베이스를 구비하는 언어적 지식 기반을 접속하는 단계를 포함하는 자연 언어 텍스트의 자동화 라벨링 방법.
  8. 제 4항에 있어서,
    상기 원인 eSAO는 적어도 하나의 eSAO 세트들의 적어도 하나의 eSAO 컴포넌트를 포함하고,
    상기 결과 eSAO는 적어도 하나의 eSAO 세트들의 적어도 하나의 다른 eSAO 컴포넌트들을 포함하는 자연 언어 텍스트의 자동화 라벨링 방법.
  9. 제 8항에 있어서,
    상기 인과 관계들은 어휘적 의미들, 문법적 의미들, 및/또는 의미적 언어 의미들로 상기 결과 eSAO의 상기 다른 eSAO 컴포넌트에 상기 원인 eSAO의 상기 eSAO 컴포넌트를 관련시키는 순차 연산자를 포함하는 자연 언어 텍스트의 자동화 라벨링 방법.
  10. 제 1항에 있어서,
    상기 언어적으로 분석된 텍스트와 저장된 목표 의미적 관계 패턴들을 매칭하는 단계는,
    언어적 지식 기반의 일부인 패턴 데이터베이스에 접속하는 단계를 더 포함하되,
    상기 패턴 데이터베이스는,
    텍스트 문서의 코퍼스(corpus)의 기초적 언어 분석을 수행하는 단계;
    언어적으로 분석된 코퍼스(corpus)에서, 목표 의미적 관계들의 특별한 케이스들을 인식하는 단계;
    상기 목표 의미적 관계들의 특별한 케이스를, 상기 인식된 목표 의미적 관계들의 특별한 케이스들로부터, 어휘적 언어 유닛들 및 의미적 분류들, POS 태그들 및 구문적 태그들, eSAO 및 인과 라벨들을 사용하는 언어적 패턴으로 일반화하는 단계; 및
    상기 언어적 패턴들을 저장하는 단계에 의해 생성된 자연 언어 텍스트의 자동화 라벨링 방법.
  11. 제10 항에 있어서,
    상기 목표 의미적 관계들의 특별한 케이스들을 언어적 패턴들로 일반화하는 단계는 문맥(context)으로 eSAO 형식을 사용하고,
    상기 목표 의미적 관계들의 특별한 케이스들을 언어적 패턴들로 생성하는 단계는,
    택스트 문서의 언어적으로 분석된 코퍼스를 상기 컴포넌트들을 위해 상기 기초적 언어적 분석으로부터 획득된 어휘적 라벨, 문법적 라벨, 구문적 라벨, eSAO 라벨 및 인과 라벨을 사용하여, 목표 의미적 관계의 특별한 케이스들을 구성하는 컴포넌트들을 생성하는 단계를 포함하는 자연 언어 텍스트의 자동화 라벨링 방법.
  12. 제1 항에 있어서,
    상기 언어적으로 분석된 텍스트와 상기 목표 의미적 관계 패턴들을 매칭하는 단계는 단어들, POS 태그들, 구문적 태그들, eSAO 및 인과 세트들을 매칭하는 단계를 포함하고,
    상기 의미적 관계 라벨들을 생성하는 단계는 eSAO 및 인과 라벨들을 생성하는 단계를 포함하는 자연 언어 텍스트의 자동화 라벨링 방법.
  13. 실행 시에, 적어도 하나의 프로세서에 의하여 자연 언어 텍스트의 의미적 라벨링 방법을 수행하는 컴퓨터로 실행 가능한 지시들을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함하는 컴퓨터 프로그램 제품에 있어서,
    상기 방법은,
    적어도 하나의 자연 언어 문서로부터 텍스트를 수신하는 단계;
    상기 텍스트의 기초적 언어적 분석을 수행하는 단계;
    상기 언어적으로 분석된 텍스트와 저장된 목표 의미적 관계 패턴들을 매칭하는 단계;
    상기 언어적으로 분석된 텍스트 및 상기 언어적으로 분석된 텍스트와 목표 의미적 관계 패턴들을 매칭한 결과를 기초로 의미적 관계 라벨들을 생성함으로써, 의미적으로 라벨링된 텍스트를 생성하는 단계; 및
    상기 의미적으로 라벨링된 텍스트를 데이터 베이스에 저장하는 단계를 포함하는 방법을 수행하되,
    상기 의미적 관계 라벨은 상기 텍스트의 문장들의 단어들 또는 어구들과 관련되고, 상기 의미적 관계 라벨은 의미적 관계들의 소정의 타입들의 컴포넌트들을 지시하는 컴퓨터 프로그램 제품.
  14. 전자적 또는 디지털 형식의 자연 언어 텍스트의 자동 의미적 라벨링을 위한 의미적 프로세서에 있어서, 상기 의미적 프로세서는,
    수신된 전자적 텍스트를 미리 포맷팅하는 프리포맷터;
    미리 포맷된 텍스트의 기초적 언어적 분석을 수행하는 언어적 분석기;
    상기 언어적으로 분석된 텍스트와 저장된 목표 의미적 관계 패턴들을, 의미적으로 라벨링된 텍스트를 생산하기 위하여, 매칭하는 라벨기를 포함하되,
    상기 의미적으로 라벨링된 텍스트는 상기 텍스트의 문장들의 단어들 또는 어구들과 관련된 의미적 관계 레벨들을 포함하고,
    상기 의미적 관계 라벨들은 의미적 관계들의 소정의 타입들의 컴포넌트들을 지시하는 의미적 프로세서.
  15. 제14 항에 있어서,
    상기 언어적 분석기는 의미적으로 분석된 텍스트 생산하되,
    상기 언어적 분석기는,
    상기 텍스트의 eSAO 세트를 인식하는 eSAO 인식기; 및
    인과 관계를 인식하는 C-E 인식기를 포함하고,
    상기 eSAO 및 C-E 인식은 언어적 언어적 지식 기반에 저장된 언어적 패턴들을 기초로 하는 의미적 프로세서.
  16. 제15 항에 있어서,
    상기 라벨기에 의해 생성된 상기 의미적 관계 라벨들은 eSAO 라벨들 및 인과 라벨들을 포함하는 의미적 프로세서.
  17. 제15 항에 있어서,
    상기 eSAO 인과 관계는 원인 eSAO(Cause eSAO), 결과(Effect eSAO), 그리고 상기 결과 eSAO에 상기 원인 eSAO를 결부시키는 적어도 하나의 순차 연산자(sequential operator )를 포함하는 의미적 프로세서.
  18. 제17 항에 있어서,
    상기 eSAO 세트들의 각각은 eSAO 컴포넌트(components)들을 포함하며, 상기 원인 eSAO는 적어도 하나의 eSAO 컴포넌트들을 포함하고, 상기 결과 eSAO는 상기 원인 eSAO의 상기 적어도 하나의 eSAO 컴포넌트들과 다른 적어도 하나의 eSAO 컴포넌트들을 포함하는 의미적 프로세서.
  19. 제 14항에 있어서, 상기 eSAO 컴포넌트들은 주어들, 목적어들, 액션들, 형용사들, 전치사들, 간접 목적어들, 그리고 부사들로 구성된 그룹으로부터 선택되는 하나 이상의 엘리먼트(element)들과 관련된 텍스트를 포함하는 의미적 프로세서.
  20. 제15 항에 있어서,
    상기 언어적 분석기는,
    미리 포맷된 텍스트를 수신하고 POS(part-of-speech) 태깅된 텍스트를 생산하는POS 태거(part-of-speech tagger); 및
    상기 POS 태거에 의해 태깅된 텍스트를 수신하고, 파싱된 텍스트를 생성하고, 파싱된 텍스트를 의미적 분석기에 제공하는 파서를 포함하되,
    상기 POS 태거 및 상기 파서는 상기 언어적 지식 기반에 저장되는 데이터로 동작하는 의미적 프로세서.
  21. 제14 항에 있어서,
    상기 프리포맷기는,
    자연어 텍스트의 부분을 형성하지 않는 텍스트 문서들의 디지털 또는 전자 표현 에서 심볼들의 제거 기능, 텍스트 문서들에서 미스매치들(mismatches) 또는 오류들(mistakes)의 검출 및 보정 기능, 또는 상기 텍스트를 문장들 및 단어들의 구조로 분할하는 기능 중 적어도 하나의 기능을 수행하는 의미적 프로세서.
  22. 제14 항에 있어서,
    상기 목표 의미적 관계 패턴들은 패턴 생성기에 의해 생성되되,
    상기 패턴 생성기는,
    텍스트 문서의 코퍼스의 기초적 언어적 분석을 수행하는 코퍼스 언어적 분석기;
    POS 태그들, 구문적 태그들, eSAO 라벨들 및 인과 라벨들을 포함하는 라벨링된 텍스트 코퍼스를 생성하는 라벨링된 텍스트 코퍼스 생성기;
    상기 라벨링된 텍스트 코퍼스에서 목표 의미적 관계들의 특별한 케이스를 인식하는 관계 생성기;
    상기 의미적 관계의 라벨들을 더 일반화된 언어적 패턴들을 생성하기 위해 사용함으로써, 상기 의미적 관계들의 특별한 케이스를 일반화하되, 상기 라벨들은 어휘적 언어 유닛, 의미적 뷴류들, POS및 구문적 태그들 및 eSAO 및 인과 라벨들을 포함하는 패턴 생성기; 및
    상기 패턴 생성기에 의해 인반화된 언어적 패턴들을 검사하기 위한 패턴 검사기를 포함하는 의미적 프로세서.
  23. 제22항에 있어서,
    상기 목표 의미적 관계들의 특별한 케이스들을 언어적 패턴들로 일반화할 때, 상기 패턴 생성기는, 상기 목표 의미적 관계들의 특별한 케이스들을 언어적 패턴들로 일반화할 때 문맥(context)으로 eSAO 형식을, 상기 컴포넌트들을 위해 상기 기초적 언어 분석에서 획득된 POS 라벨들, 구문적 라벨들, eSAO 라벨들 및 인과 라벨들을 사용하여, 언어적으로 분석된 코퍼스에서 검색된 결과로서 컴포넌트을 일반화하기 위하여 사용하는 의미적 프로세서.
  24. 제14 항에 있어서,
    상기 라벨기는 언어적으로 분석된 텍스트를, 단어들 태그, POS 태그, eSAO 및 인과 세트들을 매칭함으로써, 목표 언어적 관계 패턴들에 매칭하는 의미적 프로세서.
KR1020117023813A 2009-03-13 2010-03-12 자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법 KR20120009446A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US15997209P 2009-03-13 2009-03-13
US15995909P 2009-03-13 2009-03-13
US61/159,959 2009-03-13
US61/159,972 2009-03-13

Publications (1)

Publication Number Publication Date
KR20120009446A true KR20120009446A (ko) 2012-01-31

Family

ID=42729147

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020117023697A KR20110134909A (ko) 2009-03-13 2010-03-12 텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법
KR1020117023813A KR20120009446A (ko) 2009-03-13 2010-03-12 자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020117023697A KR20110134909A (ko) 2009-03-13 2010-03-12 텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법

Country Status (6)

Country Link
US (2) US8666730B2 (ko)
EP (2) EP2406731A4 (ko)
JP (2) JP2012520527A (ko)
KR (2) KR20110134909A (ko)
CN (2) CN102439595A (ko)
WO (2) WO2010105216A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220114146A (ko) * 2021-02-08 2022-08-17 서울대학교산학협력단 입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법

Families Citing this family (177)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US8190422B2 (en) * 2007-05-20 2012-05-29 George Mason Intellectual Properties, Inc. Semantic cognitive map
CN101963965B (zh) * 2009-07-23 2013-03-20 阿里巴巴集团控股有限公司 基于搜索引擎的文档索引方法、数据查询方法及服务器
US20110307252A1 (en) * 2010-06-15 2011-12-15 Microsoft Corporation Using Utterance Classification in Telephony and Speech Recognition Applications
US8620890B2 (en) * 2010-06-18 2013-12-31 Accelerated Vision Group Llc System and method of semantic based searching
US8515736B1 (en) * 2010-09-30 2013-08-20 Nuance Communications, Inc. Training call routing applications by reusing semantically-labeled data collected for prior applications
US20130204614A1 (en) * 2010-10-06 2013-08-08 Nec Corporation Request acquisition support system in system development, request acquisition support method and recording medium
CN102004794B (zh) * 2010-12-09 2013-05-08 百度在线网络技术(北京)有限公司 搜索引擎***及其实现方法
US9064004B2 (en) * 2011-03-04 2015-06-23 Microsoft Technology Licensing, Llc Extensible surface for consuming information extraction services
US9015031B2 (en) * 2011-08-04 2015-04-21 International Business Machines Corporation Predicting lexical answer types in open domain question and answering (QA) systems
US9536517B2 (en) * 2011-11-18 2017-01-03 At&T Intellectual Property I, L.P. System and method for crowd-sourced data labeling
US9082403B2 (en) 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
US9037452B2 (en) * 2012-03-16 2015-05-19 Afrl/Rij Relation topic construction and its application in semantic relation extraction
US8935277B2 (en) * 2012-03-30 2015-01-13 Sap Se Context-aware question answering system
US9684648B2 (en) 2012-05-31 2017-06-20 International Business Machines Corporation Disambiguating words within a text segment
US9280520B2 (en) 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
US9195647B1 (en) * 2012-08-11 2015-11-24 Guangsheng Zhang System, methods, and data structure for machine-learning of contextualized symbolic associations
US9460069B2 (en) 2012-10-19 2016-10-04 International Business Machines Corporation Generation of test data using text analytics
US9152623B2 (en) 2012-11-02 2015-10-06 Fido Labs, Inc. Natural language processing system and method
US9535899B2 (en) * 2013-02-20 2017-01-03 International Business Machines Corporation Automatic semantic rating and abstraction of literature
US9875237B2 (en) * 2013-03-14 2018-01-23 Microsfot Technology Licensing, Llc Using human perception in building language understanding models
US20140278362A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Entity Recognition in Natural Language Processing Systems
US9311294B2 (en) * 2013-03-15 2016-04-12 International Business Machines Corporation Enhanced answers in DeepQA system according to user preferences
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析***和方法
US9448992B2 (en) * 2013-06-04 2016-09-20 Google Inc. Natural language search results for intent queries
CN104216913B (zh) 2013-06-04 2019-01-04 Sap欧洲公司 问题回答方法、***和计算机可读介质
JP6206840B2 (ja) * 2013-06-19 2017-10-04 国立研究開発法人情報通信研究機構 テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム
US9436681B1 (en) * 2013-07-16 2016-09-06 Amazon Technologies, Inc. Natural language translation techniques
US9292490B2 (en) 2013-08-16 2016-03-22 International Business Machines Corporation Unsupervised learning of deep patterns for semantic parsing
US9483519B2 (en) * 2013-08-28 2016-11-01 International Business Machines Corporation Authorship enhanced corpus ingestion for natural language processing
US20150066963A1 (en) * 2013-08-29 2015-03-05 Honeywell International Inc. Structured event log data entry from operator reviewed proposed text patterns
US10867597B2 (en) 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
US9959307B2 (en) 2013-09-24 2018-05-01 Empire Technology Development Llc Automatic question sorting
US9898554B2 (en) 2013-11-18 2018-02-20 Google Inc. Implicit question query identification
US20150142826A1 (en) * 2013-11-21 2015-05-21 Moxbi, LLC Systems and Methods for Management and Improvement of Romantically Linked Relationships
US10073835B2 (en) * 2013-12-03 2018-09-11 International Business Machines Corporation Detecting literary elements in literature and their importance through semantic analysis and literary correlation
US9298802B2 (en) 2013-12-03 2016-03-29 International Business Machines Corporation Recommendation engine using inferred deep similarities for works of literature
US9396235B1 (en) * 2013-12-13 2016-07-19 Google Inc. Search ranking based on natural language query patterns
JP5904559B2 (ja) * 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム
US9778817B2 (en) * 2013-12-31 2017-10-03 Findo, Inc. Tagging of images based on social network tags or comments
CN103678281B (zh) * 2013-12-31 2016-10-19 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
KR101787062B1 (ko) 2014-01-07 2017-10-19 한국전자통신연구원 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법
US9626961B2 (en) * 2014-01-31 2017-04-18 Vivint, Inc. Systems and methods for personifying communications
US9411878B2 (en) 2014-02-19 2016-08-09 International Business Machines Corporation NLP duration and duration range comparison methodology using similarity weighting
CN103902672B (zh) * 2014-03-19 2018-05-22 微梦创科网络科技(中国)有限公司 问答***及其问答处理方法
RU2544739C1 (ru) * 2014-03-25 2015-03-20 Игорь Петрович Рогачев Способ преобразования структурированного массива данных
US10515138B2 (en) 2014-04-25 2019-12-24 Mayo Foundation For Medical Education And Research Enhancing reading accuracy, efficiency and retention
US10127901B2 (en) * 2014-06-13 2018-11-13 Microsoft Technology Licensing, Llc Hyper-structure recurrent neural networks for text-to-speech
US10049102B2 (en) 2014-06-26 2018-08-14 Hcl Technologies Limited Method and system for providing semantics based technical support
US20160098645A1 (en) * 2014-10-02 2016-04-07 Microsoft Corporation High-precision limited supervision relationship extractor
CN104317890B (zh) * 2014-10-23 2018-05-01 苏州大学 一种文本连接词的识别方法及装置
US11100557B2 (en) 2014-11-04 2021-08-24 International Business Machines Corporation Travel itinerary recommendation engine using inferred interests and sentiments
US9946763B2 (en) 2014-11-05 2018-04-17 International Business Machines Corporation Evaluating passages in a question answering computer system
US9892362B2 (en) 2014-11-18 2018-02-13 International Business Machines Corporation Intelligence gathering and analysis using a question answering system
US11204929B2 (en) 2014-11-18 2021-12-21 International Business Machines Corporation Evidence aggregation across heterogeneous links for intelligence gathering using a question answering system
US10318870B2 (en) 2014-11-19 2019-06-11 International Business Machines Corporation Grading sources and managing evidence for intelligence analysis
US9472115B2 (en) 2014-11-19 2016-10-18 International Business Machines Corporation Grading ontological links based on certainty of evidential statements
US11244113B2 (en) 2014-11-19 2022-02-08 International Business Machines Corporation Evaluating evidential links based on corroboration for intelligence analysis
US9727642B2 (en) 2014-11-21 2017-08-08 International Business Machines Corporation Question pruning for evaluating a hypothetical ontological link
US11836211B2 (en) 2014-11-21 2023-12-05 International Business Machines Corporation Generating additional lines of questioning based on evaluation of a hypothetical link between concept entities in evidential data
US9764477B2 (en) * 2014-12-01 2017-09-19 At&T Intellectual Property I, L.P. System and method for semantic processing of natural language commands
US9940370B2 (en) 2015-01-02 2018-04-10 International Business Machines Corporation Corpus augmentation system
US10496749B2 (en) * 2015-06-12 2019-12-03 Satyanarayana Krishnamurthy Unified semantics-focused language processing and zero base knowledge building system
US10503786B2 (en) 2015-06-16 2019-12-10 International Business Machines Corporation Defining dynamic topic structures for topic oriented question answer systems
CN106326303B (zh) * 2015-06-30 2019-09-13 芋头科技(杭州)有限公司 一种口语语义解析***及方法
US9760564B2 (en) 2015-07-09 2017-09-12 International Business Machines Corporation Extracting veiled meaning in natural language content
US10216802B2 (en) 2015-09-28 2019-02-26 International Business Machines Corporation Presenting answers from concept-based representation of a topic oriented pipeline
US10380257B2 (en) 2015-09-28 2019-08-13 International Business Machines Corporation Generating answers from concept-based representation of a topic oriented pipeline
CN105279274B (zh) * 2015-10-30 2018-11-02 北京京东尚科信息技术有限公司 基于自然语义问答***的答案合成与匹配的方法和***
US10585984B2 (en) * 2015-11-10 2020-03-10 International Business Machines Corporation Techniques for improving input text processing in a data processing system that answers questions
US9959504B2 (en) 2015-12-02 2018-05-01 International Business Machines Corporation Significance of relationships discovered in a corpus
CN109063075A (zh) * 2015-12-31 2018-12-21 上海智臻智能网络科技股份有限公司 优化抽象语义库的方法、装置及存储介质
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
US10073834B2 (en) * 2016-02-09 2018-09-11 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
WO2017139575A1 (en) * 2016-02-11 2017-08-17 Ebay Inc. Semantic category classification
US9836454B2 (en) * 2016-03-31 2017-12-05 International Business Machines Corporation System, method, and recording medium for regular rule learning
US10282411B2 (en) * 2016-03-31 2019-05-07 International Business Machines Corporation System, method, and recording medium for natural language learning
RU2628436C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Классификация текстов на естественном языке на основе семантических признаков
US10796230B2 (en) * 2016-04-15 2020-10-06 Pearson Education, Inc. Content based remote data packet intervention
CN105930452A (zh) * 2016-04-21 2016-09-07 北京紫平方信息技术股份有限公司 一种识别自然语言的智能应答方法
CN105955963A (zh) * 2016-05-25 2016-09-21 北京谛听机器人科技有限公司 一种机器人问答交互开放平台及交互方法
US10607153B2 (en) 2016-06-28 2020-03-31 International Business Machines Corporation LAT based answer generation using anchor entities and proximity
CN107578769B (zh) * 2016-07-04 2021-03-23 科大讯飞股份有限公司 语音数据标注方法和装置
CN106294323B (zh) * 2016-08-10 2020-03-06 上海交通大学 对短文本进行常识性因果推理的方法
US10354009B2 (en) 2016-08-24 2019-07-16 Microsoft Technology Licensing, Llc Characteristic-pattern analysis of text
US10762297B2 (en) 2016-08-25 2020-09-01 International Business Machines Corporation Semantic hierarchical grouping of text fragments
US10606893B2 (en) 2016-09-15 2020-03-31 International Business Machines Corporation Expanding knowledge graphs based on candidate missing edges to optimize hypothesis set adjudication
US20180121545A1 (en) * 2016-09-17 2018-05-03 Cogilex R&D inc. Methods and system for improving the relevance, usefulness, and efficiency of search engine technology
US10303683B2 (en) 2016-10-05 2019-05-28 International Business Machines Corporation Translation of natural language questions and requests to a structured query format
JP6721179B2 (ja) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム
US10754886B2 (en) 2016-10-05 2020-08-25 International Business Machines Corporation Using multiple natural language classifier to associate a generic query with a structured question type
US11704551B2 (en) 2016-10-12 2023-07-18 Microsoft Technology Licensing, Llc Iterative query-based analysis of text
CN108073628A (zh) * 2016-11-16 2018-05-25 中兴通讯股份有限公司 一种基于智能问答的交互***与方法
US10977247B2 (en) 2016-11-21 2021-04-13 International Business Machines Corporation Cognitive online meeting assistant facility
US20180204106A1 (en) * 2017-01-16 2018-07-19 International Business Machines Corporation System and method for personalized deep text analysis
US10740373B2 (en) 2017-02-08 2020-08-11 International Business Machines Corporation Dialog mechanism responsive to query context
US20180276301A1 (en) * 2017-03-23 2018-09-27 International Business Machines Corporation System and method for type-specific answer filtering for numeric questions
CN107193872B (zh) * 2017-04-14 2021-04-23 深圳前海微众银行股份有限公司 问答数据处理方法及装置
US10339180B2 (en) 2017-04-14 2019-07-02 International Business Machines Corporation Preventing biased queries by using a dictionary of cause and effect terms
CN108959240A (zh) * 2017-05-26 2018-12-07 上海醇聚信息科技有限公司 一种专有本体自动生成***及方法
US10713519B2 (en) * 2017-06-22 2020-07-14 Adobe Inc. Automated workflows for identification of reading order from text segments using probabilistic language models
US10489502B2 (en) * 2017-06-30 2019-11-26 Accenture Global Solutions Limited Document processing
US11017037B2 (en) 2017-07-03 2021-05-25 Google Llc Obtaining responsive information from multiple corpora
US11157829B2 (en) 2017-07-18 2021-10-26 International Business Machines Corporation Method to leverage similarity and hierarchy of documents in NN training
US20190095444A1 (en) * 2017-09-22 2019-03-28 Amazon Technologies, Inc. Voice driven analytics
US11526518B2 (en) 2017-09-22 2022-12-13 Amazon Technologies, Inc. Data reporting system and method
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
US10558689B2 (en) 2017-11-15 2020-02-11 International Business Machines Corporation Leveraging contextual information in topic coherent question sequences
CN108053023A (zh) * 2017-12-01 2018-05-18 北京物灵智能科技有限公司 一种自动式意图分类方法及装置
CN110019983B (zh) * 2017-12-14 2021-06-04 北京三快在线科技有限公司 标签结构的扩展方法、装置及电子设备
CN108197102A (zh) * 2017-12-26 2018-06-22 百度在线网络技术(北京)有限公司 一种文本数据统计方法、装置和服务器
CN108256056A (zh) * 2018-01-12 2018-07-06 广州杰赛科技股份有限公司 智能问答方法与***
CN108376151B (zh) * 2018-01-31 2020-08-04 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN108319720A (zh) * 2018-02-13 2018-07-24 北京百度网讯科技有限公司 基于人工智能的人机交互方法、装置及计算机设备
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
US10838996B2 (en) * 2018-03-15 2020-11-17 International Business Machines Corporation Document revision change summarization
US11023684B1 (en) * 2018-03-19 2021-06-01 Educational Testing Service Systems and methods for automatic generation of questions from text
CN108683491B (zh) * 2018-03-19 2021-02-05 中山大学 一种基于加密和自然语言生成的信息隐藏方法
RU2691836C1 (ru) * 2018-06-07 2019-06-18 Игорь Петрович Рогачев Способ преобразования структурированного массива данных, содержащего основные лингво-логические объекты
US11120059B2 (en) * 2018-06-27 2021-09-14 Adobe Inc. Conversational query answering system
CN109002498B (zh) * 2018-06-29 2020-05-05 北京百度网讯科技有限公司 人机对话方法、装置、设备及存储介质
CN110659354B (zh) 2018-06-29 2023-07-14 阿里巴巴(中国)有限公司 问答***的建立方法、装置、存储介质及电子设备
CN108986191B (zh) * 2018-07-03 2023-06-27 百度在线网络技术(北京)有限公司 人物动作的生成方法、装置及终端设备
US11698921B2 (en) 2018-09-17 2023-07-11 Ebay Inc. Search system for providing search results using query understanding and semantic binary signatures
WO2020063347A1 (zh) * 2018-09-26 2020-04-02 杭州大拿科技股份有限公司 针对口算题的题目批改方法、装置、电子设备和存储介质
CN110019749B (zh) 2018-09-28 2021-06-15 北京百度网讯科技有限公司 生成vqa训练数据的方法、装置、设备和计算机可读介质
US11822588B2 (en) * 2018-10-24 2023-11-21 International Business Machines Corporation Supporting passage ranking in question answering (QA) system
CN109388700A (zh) * 2018-10-26 2019-02-26 广东小天才科技有限公司 一种意图识别方法及***
US10853398B2 (en) * 2018-11-13 2020-12-01 Adobe Inc. Generating three-dimensional digital content from natural language requests
CN109657013A (zh) * 2018-11-30 2019-04-19 杭州数澜科技有限公司 一种***化生成标签的方法和***
CN109871428B (zh) 2019-01-30 2022-02-18 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质
US10885045B2 (en) 2019-03-07 2021-01-05 Wipro Limited Method and system for providing context-based response for a user query
CN109977370B (zh) * 2019-03-19 2023-06-16 河海大学常州校区 一种基于文档结构树的问答对自动构建方法
CN109947921B (zh) * 2019-03-19 2022-09-02 河海大学常州校区 一种基于自然语言处理的智能问答***
CN110008322B (zh) * 2019-03-25 2023-04-07 创新先进技术有限公司 多轮对话场景下的话术推荐方法和装置
CN110134771B (zh) * 2019-04-09 2022-03-04 广东工业大学 一种基于多注意力机制融合网络问答***的实现方法
US11501233B2 (en) 2019-05-21 2022-11-15 Hcl Technologies Limited System and method to perform control testing to mitigate risks in an organization
CN112069791B (zh) * 2019-05-22 2024-04-26 谷松 以语用为核心的自然语言文本辅助知识库书写和检测***与方法
CN110516061A (zh) * 2019-07-24 2019-11-29 视联动力信息技术股份有限公司 一种数据处理方法、装置和计算机可读存储介质
CN112307769B (zh) * 2019-07-29 2024-03-15 武汉Tcl集团工业研究院有限公司 一种自然语言模型的生成方法和计算机设备
WO2021021012A1 (en) * 2019-07-29 2021-02-04 Ai Robotics Limited Stickering method and system for linking contextual text elements to actions
CN110647627B (zh) * 2019-08-06 2022-05-27 北京百度网讯科技有限公司 答案生成方法及装置、计算机设备与可读介质
CN110517688A (zh) * 2019-08-20 2019-11-29 合肥凌极西雅电子科技有限公司 一种语音关联提示***
CN110765778B (zh) * 2019-10-23 2023-08-29 北京锐安科技有限公司 一种标签实体处理方法、装置、计算机设备和存储介质
JP7362424B2 (ja) * 2019-10-29 2023-10-17 株式会社東芝 情報処理装置、情報処理方法、および情報処理システム
US10853580B1 (en) * 2019-10-30 2020-12-01 SparkCognition, Inc. Generation of text classifier training data
WO2021091432A1 (ru) * 2019-11-10 2021-05-14 Игорь Петрович РОГАЧЕВ Способ преобразования структурированного массива данных
RU2722461C1 (ru) * 2019-11-19 2020-06-01 Общество с ограниченной ответственностью "Уралинновация" Голосовая роботизированная вопросно-ответная система и способ ее автоматического взаимодействия с электронным устройством пользователя
RU2724600C1 (ru) * 2019-11-19 2020-06-25 Общество с ограниченной ответственностью "Уралинновация" Голосовая роботизированная вопросно-ответная система и способ ее автоматического взаимодействия с электронным устройством пользователя
CN111177369A (zh) * 2019-11-19 2020-05-19 厦门二五八网络科技集团股份有限公司 一种文章自动标签分类的方法及装置
US11651250B2 (en) 2019-11-20 2023-05-16 International Business Machines Corporation Automatically generated conversation output
US20210157881A1 (en) * 2019-11-22 2021-05-27 International Business Machines Corporation Object oriented self-discovered cognitive chatbot
EP3828730A1 (en) 2019-11-28 2021-06-02 42 Maru Inc. A method and apparatus for question-answering using similarity measures for question vectors
CN111159408A (zh) * 2019-12-31 2020-05-15 湖南星汉数智科技有限公司 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质
US11443211B2 (en) * 2020-01-08 2022-09-13 International Business Machines Corporation Extracting important sentences from documents to answer hypothesis that include causes and consequences
CN111488438B (zh) * 2020-02-21 2022-07-29 天津大学 一种问答匹配注意力处理方法、计算机设备及存储介质
US11630869B2 (en) 2020-03-02 2023-04-18 International Business Machines Corporation Identification of changes between document versions
CN111459131B (zh) * 2020-03-04 2023-01-24 辽宁工程技术大学 一种故障过程因果关系文本转化为符号序列的方法
US11074402B1 (en) * 2020-04-07 2021-07-27 International Business Machines Corporation Linguistically consistent document annotation
CN111428514A (zh) * 2020-06-12 2020-07-17 北京百度网讯科技有限公司 语义匹配方法、装置、设备以及存储介质
KR102457985B1 (ko) 2020-09-17 2022-10-31 주식회사 포티투마루 페러프레이저 모델을 이용한 질의 응답 검색 방법 및 검색 장치
KR20220037060A (ko) 2020-09-17 2022-03-24 주식회사 포티투마루 질의 벡터로 구성된 데이터베이스를 이용한 검색 방법 및 검색 장치
CN112307337B (zh) * 2020-10-30 2024-04-12 中国平安人寿保险股份有限公司 基于标签知识图谱的关联推荐方法、装置及计算机设备
US20220147896A1 (en) * 2020-11-06 2022-05-12 International Business Machines Corporation Strategic planning using deep learning
US20220156298A1 (en) * 2020-11-16 2022-05-19 Cisco Technology, Inc. Providing agent-assist, context-aware recommendations
CN112507124B (zh) * 2020-12-04 2024-03-19 武汉大学 一种基于图模型的篇章级别事件因果关系抽取方法
CN112686039A (zh) * 2020-12-29 2021-04-20 东莞理工学院 一种基于机器学习的文本特征提取方法
CN112800848A (zh) * 2020-12-31 2021-05-14 中电金信软件有限公司 票据识别后信息结构化提取方法、装置和设备
CN113010642B (zh) * 2021-03-17 2023-12-15 腾讯科技(深圳)有限公司 语义关系的识别方法、装置、电子设备及可读存储介质
CN113496124A (zh) * 2021-07-08 2021-10-12 上海信医科技有限公司 医疗文书的语义分析方法、装置、电子设备及存储介质
US12008322B2 (en) * 2021-07-26 2024-06-11 Atlassian Pty Ltd Machine learning techniques for semantic processing of structured natural language documents to detect action items
KR20230091322A (ko) * 2021-12-16 2023-06-23 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령어 추천 방법
CN114333760B (zh) * 2021-12-31 2023-06-02 科大讯飞股份有限公司 一种信息预测模块的构建方法、信息预测方法及相关设备
CN114979723B (zh) * 2022-02-14 2023-08-29 杭州脸脸会网络技术有限公司 虚拟智能客服方法、装置、电子装置和存储介质
EP4250133A1 (en) * 2022-03-22 2023-09-27 Tata Consultancy Services Limited Systems and methods for similarity analysis in incident reports using event timeline representations
CN114861653B (zh) * 2022-05-17 2023-08-22 马上消费金融股份有限公司 用于虚拟交互的语言生成方法、装置、设备及存储介质

Family Cites Families (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4270182A (en) * 1974-12-30 1981-05-26 Asija Satya P Automated information input, storage, and retrieval system
US4829423A (en) 1983-01-28 1989-05-09 Texas Instruments Incorporated Menu-based natural language understanding system
US5696916A (en) 1985-03-27 1997-12-09 Hitachi, Ltd. Information storage and retrieval system and display method therefor
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US4864502A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer
US5146405A (en) 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
NL8900247A (nl) 1989-02-01 1990-09-03 Bso Buro Voor Systeemontwikkel Werkwijze en stelsel voor het weergeven van meervoudige analyses in een afhankelijkheidsgrammatica, alsmede ontleed-inrichting voor het genereren van een dergelijke weergave.
JP3266246B2 (ja) 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US5404295A (en) 1990-08-16 1995-04-04 Katz; Boris Method and apparatus for utilizing annotations to facilitate computer retrieval of database material
US5559940A (en) * 1990-12-14 1996-09-24 Hutson; William H. Method and system for real-time information analysis of textual material
JP2804403B2 (ja) * 1991-05-16 1998-09-24 インターナショナル・ビジネス・マシーンズ・コーポレイション 質問回答システム
US5418889A (en) * 1991-12-02 1995-05-23 Ricoh Company, Ltd. System for generating knowledge base in which sets of common causal relation knowledge are generated
US5377103A (en) 1992-05-15 1994-12-27 International Business Machines Corporation Constrained natural language interface for a computer that employs a browse function
US5369575A (en) * 1992-05-15 1994-11-29 International Business Machines Corporation Constrained natural language interface for a computer system
JP2821840B2 (ja) 1993-04-28 1998-11-05 日本アイ・ビー・エム株式会社 機械翻訳装置
US5638543A (en) 1993-06-03 1997-06-10 Xerox Corporation Method and apparatus for automatic document summarization
US5519608A (en) * 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
US5331556A (en) 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5774845A (en) * 1993-09-17 1998-06-30 Nec Corporation Information extraction processor
US5523945A (en) * 1993-09-17 1996-06-04 Nec Corporation Related information presentation method in document processing system
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
JPH07160684A (ja) 1993-12-03 1995-06-23 Matsushita Electric Ind Co Ltd 文書圧縮装置および文書圧縮方法
US5485372A (en) 1994-06-01 1996-01-16 Mitsubishi Electric Research Laboratories, Inc. System for underlying spelling recovery
DE69530816T2 (de) * 1994-06-21 2004-04-08 Canon K.K. Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
US5748973A (en) 1994-07-15 1998-05-05 George Mason University Advanced integrated requirements engineering system for CE-based requirements assessment
US5799268A (en) 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5715468A (en) 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
JP3571408B2 (ja) * 1995-03-31 2004-09-29 株式会社日立製作所 文書加工方法および装置
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5631466A (en) * 1995-06-16 1997-05-20 Hughes Electronics Apparatus and methods of closed loop calibration of infrared focal plane arrays
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
AU6849196A (en) 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6026388A (en) 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US5867164A (en) 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US5966686A (en) 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
US5878385A (en) 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
US6202043B1 (en) 1996-11-12 2001-03-13 Invention Machine Corporation Computer based system for imaging and analyzing a process system and indicating values of specific design changes
US6056428A (en) 1996-11-12 2000-05-02 Invention Machine Corporation Computer based system for imaging and analyzing an engineering object system and indicating values of specific design changes
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
EP0968478A1 (de) 1997-03-18 2000-01-05 Siemens Aktiengesellschaft Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner
JP3001047B2 (ja) 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6055528A (en) * 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
US6128634A (en) 1998-01-06 2000-10-03 Fuji Xerox Co., Ltd. Method and apparatus for facilitating skimming of text
JP3614648B2 (ja) 1998-03-13 2005-01-26 富士通株式会社 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6778970B2 (en) * 1998-05-28 2004-08-17 Lawrence Au Topological methods to organize semantic network data flows for conversational applications
EP0962873A1 (en) 1998-06-02 1999-12-08 International Business Machines Corporation Processing of textual information and automated apprehension of information
US6167370A (en) 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6789230B2 (en) * 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length
US6459949B1 (en) * 1998-10-21 2002-10-01 Advanced Micro Devices, Inc. System and method for corrective action tracking in semiconductor processing
US6442566B1 (en) * 1998-12-15 2002-08-27 Board Of Trustees Of The Leland Stanford Junior University Frame-based knowledge representation system and methods
US6381598B1 (en) 1998-12-22 2002-04-30 Xerox Corporation System for providing cross-lingual information retrieval
US6317708B1 (en) * 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
US6584464B1 (en) * 1999-03-19 2003-06-24 Ask Jeeves, Inc. Grammar template query system
CN1176432C (zh) 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和***
US6242362B1 (en) * 1999-08-04 2001-06-05 Taiwan Semiconductor Manufacturing Company Etch process for fabricating a vertical hard mask/conductive pattern profile to improve T-shaped profile for a silicon oxynitride hard mask
US6665666B1 (en) * 1999-10-26 2003-12-16 International Business Machines Corporation System, method and program product for answering questions using a search engine
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6823325B1 (en) 1999-11-23 2004-11-23 Trevor B. Davies Methods and apparatus for storing and retrieving knowledge
AU2001245447A1 (en) 2000-03-06 2001-09-17 Kanisa Inc. A system and method for providing an intelligent multi-step dialog with a user
US20010021934A1 (en) 2000-03-08 2001-09-13 Takeshi Yokoi Processing device for searching information in one language using search query in another language, and recording medium and method thereof
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US6701345B1 (en) 2000-04-13 2004-03-02 Accenture Llp Providing a notification when a plurality of users are altering similar data in a health care solution environment
US7962326B2 (en) * 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US20020010574A1 (en) * 2000-04-20 2002-01-24 Valery Tsourikov Natural language processing and query driven information retrieval
US20040117352A1 (en) * 2000-04-28 2004-06-17 Global Information Research And Technologies Llc System for answering natural language questions
US20040006560A1 (en) 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
US20020042707A1 (en) * 2000-06-19 2002-04-11 Gang Zhao Grammar-packaged parsing
US8396859B2 (en) * 2000-06-26 2013-03-12 Oracle International Corporation Subject matter context search engine
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7092928B1 (en) * 2000-07-31 2006-08-15 Quantum Leap Research, Inc. Intelligent portal engine
US20020103793A1 (en) * 2000-08-02 2002-08-01 Daphne Koller Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models
US6823331B1 (en) * 2000-08-28 2004-11-23 Entrust Limited Concept identification system and method for use in reducing and/or representing text content of an electronic document
US6557011B1 (en) * 2000-10-31 2003-04-29 International Business Machines Corporation Methods for analyzing dynamic program behavior using user-defined classifications of an execution trace
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
SE0101127D0 (sv) * 2001-03-30 2001-03-30 Hapax Information Systems Ab Method of finding answers to questions
DE10122756A1 (de) 2001-05-10 2002-11-21 Daimler Chrysler Ag Verfahren zur Generierung von Daten für die semantische Sprachanalyse
US20030004706A1 (en) * 2001-06-27 2003-01-02 Yale Thomas W. Natural language processing system and method for knowledge management
US8799776B2 (en) 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US9009590B2 (en) 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US7251781B2 (en) * 2001-07-31 2007-07-31 Invention Machine Corporation Computer based summarization of natural language documents
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US7146358B1 (en) 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US6754654B1 (en) * 2001-10-01 2004-06-22 Trilogy Development Group, Inc. System and method for extracting knowledge from documents
US7035877B2 (en) * 2001-12-28 2006-04-25 Kimberly-Clark Worldwide, Inc. Quality management and intelligent manufacturing with labels and smart tags in event-based product manufacturing
US7260570B2 (en) 2002-02-01 2007-08-21 International Business Machines Corporation Retrieving matching documents by queries in any national language
JP2003288360A (ja) 2002-03-28 2003-10-10 Toshiba Corp 言語横断情報検索装置及び方法
US7403890B2 (en) * 2002-05-13 2008-07-22 Roushar Joseph C Multi-dimensional method and apparatus for automated language interpretation
US20040001099A1 (en) * 2002-06-27 2004-01-01 Microsoft Corporation Method and system for associating actions with semantic labels in electronic documents
US7454393B2 (en) * 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
US7552149B2 (en) * 2003-09-06 2009-06-23 Oracle International Corporation Querying past versions of data in a distributed database
JP3882048B2 (ja) * 2003-10-17 2007-02-14 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
JP3981734B2 (ja) * 2003-11-21 2007-09-26 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
US7536368B2 (en) 2003-11-26 2009-05-19 Invention Machine Corporation Method for problem formulation and for obtaining solutions from a database
US20050131874A1 (en) * 2003-12-15 2005-06-16 Mikhail Verbitsky Method and system for obtaining solutions to contradictional problems from a semantically indexed database
US20060053000A1 (en) * 2004-05-11 2006-03-09 Moldovan Dan I Natural language question answering system and method utilizing multi-modal logic
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US7953720B1 (en) * 2005-03-31 2011-05-31 Google Inc. Selecting the best answer to a fact query from among a set of potential answers
JP4654745B2 (ja) * 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
EP1715419A1 (en) * 2005-04-22 2006-10-25 Ubs Ag A technique for platform-independent service modeling
US7805496B2 (en) 2005-05-10 2010-09-28 International Business Machines Corporation Automatic generation of hybrid performance models
US7668825B2 (en) * 2005-08-26 2010-02-23 Convera Corporation Search system and method
US7672831B2 (en) 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US8832064B2 (en) 2005-11-30 2014-09-09 At&T Intellectual Property Ii, L.P. Answer determination for natural language questioning
CN1794233A (zh) 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其***
US8131756B2 (en) * 2006-06-21 2012-03-06 Carus Alwin B Apparatus, system and method for developing tools to process natural language text
US7958104B2 (en) * 2007-03-08 2011-06-07 O'donnell Shawn C Context based data searching
US8527262B2 (en) * 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
US7970766B1 (en) * 2007-07-23 2011-06-28 Google Inc. Entity type assignment
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US20090070103A1 (en) * 2007-09-07 2009-03-12 Enhanced Medical Decisions, Inc. Management and Processing of Information
US20100100546A1 (en) * 2008-02-08 2010-04-22 Steven Forrest Kohler Context-aware semantic virtual community for communication, information and knowledge management
US7966316B2 (en) * 2008-04-15 2011-06-21 Microsoft Corporation Question type-sensitive answer summarization
US8275803B2 (en) * 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8478581B2 (en) * 2010-01-25 2013-07-02 Chung-ching Chen Interlingua, interlingua engine, and interlingua machine translation system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220114146A (ko) * 2021-02-08 2022-08-17 서울대학교산학협력단 입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법

Also Published As

Publication number Publication date
EP2406738A2 (en) 2012-01-18
US20100235164A1 (en) 2010-09-16
WO2010105216A3 (en) 2011-01-13
US20100235165A1 (en) 2010-09-16
WO2010105214A3 (en) 2011-01-13
EP2406738A4 (en) 2012-08-15
KR20110134909A (ko) 2011-12-15
WO2010105216A2 (en) 2010-09-16
WO2010105214A2 (en) 2010-09-16
US8583422B2 (en) 2013-11-12
EP2406731A4 (en) 2012-08-22
EP2406731A2 (en) 2012-01-18
JP2012520528A (ja) 2012-09-06
US8666730B2 (en) 2014-03-04
CN102439590A (zh) 2012-05-02
CN102439595A (zh) 2012-05-02
JP2012520527A (ja) 2012-09-06

Similar Documents

Publication Publication Date Title
KR20120009446A (ko) 자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법
US11397762B2 (en) Automatically generating natural language responses to users' questions
US9672206B2 (en) Apparatus, system and method for application-specific and customizable semantic similarity measurement
KR101139903B1 (ko) 자연어 문서들에서 전체 부분 관계들을 인식하는 시만틱 프로세서
US20180341871A1 (en) Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains
US9390087B1 (en) System and method for response generation using linguistic information
US20140120513A1 (en) Question and Answer System Providing Indications of Information Gaps
US20100332217A1 (en) Method for text improvement via linguistic abstractions
US20220245353A1 (en) System and method for entity labeling in a natural language understanding (nlu) framework
JP2023507286A (ja) 自然言語クエリを構造化クエリ言語に変換するためのスキーマ注釈ファイルの自動作成
Sánchez-Vega et al. Paraphrase plagiarism identification with character-level features
US20220245361A1 (en) System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework
Díez Platas et al. Medieval Spanish (12th–15th centuries) named entity recognition and attribute annotation system based on contextual information
US20220237383A1 (en) Concept system for a natural language understanding (nlu) framework
US20220238103A1 (en) Domain-aware vector encoding (dave) system for a natural language understanding (nlu) framework
Specia et al. A hybrid approach for extracting semantic relations from texts
Nguyen et al. Vietnamese treebank construction and entropy-based error detection
RU2563148C2 (ru) Система и метод семантического поиска
Selvaretnam et al. A linguistically driven framework for query expansion via grammatical constituent highlighting and role-based concept weighting
Kaiser et al. Information extraction
US20220229986A1 (en) System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework
US20220229990A1 (en) System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework
US20220229998A1 (en) Lookup source framework for a natural language understanding (nlu) framework
US20220229987A1 (en) System and method for repository-aware natural language understanding (nlu) using a lookup source framework
US20220245352A1 (en) Ensemble scoring system for a natural language understanding (nlu) framework

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application