KR20190075067A

KR20190075067A - 의미 정보의 시각화 및 생명 과학 엔티티들 사이의 현저한 연관을 나타내는 임시 신호의 추론을 위한 시스템, 방법 및 컴퓨터 판독 가능 매체

Info

Publication number: KR20190075067A
Application number: KR1020197011495A
Authority: KR
Inventors: 무랄리 아라바무단; 벤카타라마난 사운다라라잔; 아지트 라자세카란; 프라샨스 엘리나; 아르준 푸라닉; 아슈윈 무랄리; 윌리엄 깁슨; 엔리크 가르시아-리베라; 칼틱 무루가도스
Original assignee: 엔퍼런스, 인크.
Priority date: 2016-09-22
Filing date: 2017-09-22
Publication date: 2019-06-28
Also published as: JP2019536178A; US20190354883A1; US20220138599A1; EP3516566A1; CN109964224A; US20180082197A1; JP2022133385A; WO2018057945A1; JP7106077B2; JP7229495B2; US11062218B2; US10360507B2; US11900274B2

Abstract

개시된 시스템, 방법 및 컴퓨터 판독 가능 매체는 의미론적 엔티티들 사이의 연관을 검출하고 엔티티들 사이의 의미론적 정보를 생성할 수 있다. 예를 들어, 지식 베이스에 존재하는 의미론적 엔티티 및 연관된 의미론적 컬렉션이 식별될 수 있다. 시간 주기를 결정하고 시간 슬라이스들로 나눌 수 있다. 각 시간 슬라이스에 대해, 식별된 의미론적 엔티티에 대한 단어 임베딩이 생성될 수 있고; 제1 의미론적 엔티티 입력과 제2 의미론적 엔티티 입력 사이의 제1 의미론적 연관 강도가 결정될 수 있고; 그리고 제1 의미론적 엔티티 입력과 제2 의미론적 엔티티와 연관된 의미론적 컬렉션과 관련된 의미론적 엔티티 사이의 제2 의미 연관 강도가 결정될 수 있다. 출력은 제1 및 제2 의미론적 연관 강도에 기초하여 제공될 수 있다.

Description

의미 정보의 시각화 및 생명 과학 엔티티들 사이의 현저한 연관을 나타내는 임시 신호의 추론을 위한 시스템, 방법 및 컴퓨터 판독 가능 매체

관련 출원들

본 출원은 35U.S.C.§119(e) 하에 2016년 9월 22일자로 출원된, "의미 정보의 시각화를 위한 시스템 및 방법" 명칭의 미국 가 출원 제62/398,386호, 그리고 2017년 6월 2일자로 출원된, "생명 과학 엔티티들 사이의 현저한 연관을 나타내는 시간적 신호의 추론을 위한 방법 및 시스템" 명칭의 미국 가 출원 제62/514,697호의 이익을 주장하며, 이들은 본 명세서에서 참조로서 완전히 통합된다.

기술 분야

본 개시의 실시 예들은 데이터의 근본적인 관계를 분석하기 위한 시스템, 방법 및 컴퓨터 판독 가능 매체에 관한 것이다.

데이터 시각화의 정교함(sophistication)은-특히 대비에서 2 차원 및 3 차원 레이아웃을 선형에 활용하는-데이터가 다차원 또는 실시간인지 관계 없이 데이터 및 근본적인 관계의 이해를 용이하게 하면서 빠르게 발전하였다. 그러나 이러한 시각화 방법은 정보가 구조화되지 않으며 구조화된 정보를 추출하는 데 의미론적 추론이 필요한 데이터 소스를 렌더링(rendering)하는데 덜 효과적이다.

특정 데이터 소스는 비구조화된 정보와 반-구조화된 정보가 풍부하며, 일반적으로 제약 산업의 상이한 구성 요소들을 통해 구별되는 사일로(silo)에서 액세스된다. 예를 들어, clinicaltrials.gov 웹 사이트는 일반적으로 중계 의학(translational medicine) 및 임상 개발 팀에 의해 액세스된다; 연방 유해 사례보고 시스템(Federal adverse event reporting system, FAERS)은 보통 약물 감시 연구 및 개발(R&D) 과학자와 시장 조사를 수행하는 상업 데이터 과학자 등에 의해 액세스된다.

현재, 사용자 질의에 대한 시놉시스/요약 응답을 생성하는데 많은 어려움이 존재하며, 특히 응답에서 서로 다른 소스들의 구조화된 정보와 비구조화된 정보를 사용하여 의미론적 합성이 필요한 경우 그러하다. 예를 들어, 현재 시스템에서, 일치하는 결과를 사용자 쿼리로 추출하는 것 이상의 졸업을 시도하는 "시놉시스-스타일 응답"은 본질적으로(예를 들어, 단일 소스, 생성된 응답에서 의미론적 깊이가 부족한 간단한 요약) 단순한 자동화를 허용한다(예를 들어, 'nfl 플레이 오프' 또는 '2012 선거'와 같은 검색어에 대한 실시간 점수 또는 선거 상태 표).

따라서 의미 정보를 표현하기 위한 우수한 시각화 시스템이 필요하다.

종래 기술의 몇몇 방법은 두 엔티티 모두를 인용하는 문서의 시간 경과에 따른 성장을 연구함으로써 엔티티 쌍들 간의 정액 연관을 식별하는 것에 의존한다(즉, 엔티티 쌍들의 동시 발생(co-occurrence)을 갖는 문서). 이러한 방법은 특히 동시 발생하는 문서의 수가 여전히 매우 적은 경우에는 예측 가능성이 거의 없다(즉, 연관 지식은 초기 단계에 있다). 정의에 따르면, 이러한 방법은 공개 순간에 정액 연결만 캡처할 수 있으며 게시하기 전에 그렇게 할 수 없다. Citation Index와 같은 방법은 중대한 추론이 이루어지기 전에 오랜 모니터링 기간을 필요로 한다. 주어진 출판물에 대한 인용을 보면 정액 연관이 공개된 후 양의 신호가 현저하게 나타나지만 그러한 신호는 예측에 사용할 수 없다.

종래 기술(예를 들어, Google의 word2vec)의 다른 방법은 엔티티 연관들의 행동 분석에 대한 통찰력을 제공하지 않는다. 또한, 자연 언어 처리(Natural Language Processing, NLP)에 대한 선행 기술의 일반적인 방법은 언어의 산업별 사용에 기인한 비구조화된 소스로부터의 엔티티 인식(예를 들어, 약물, 유전자, 질병)의 본질적인 어려움으로 인해 특정 산업(예를 들어, 생명 과학)에 응용할 때 여러 가지 단점이 있다.

그러므로 초기와 잠재적으로 연관성을 밝히고 우월성을 추적할 수 있는 우수한 시스템을 필요로 한다.

개시된 주제에 따르면, 생명 과학 엔티티들 사이의 현저한 연관을 나타내는 시간적 신호의 추론 및 의미 정보의 시각화를 위한 시스템, 방법 및 컴퓨터 판독 가능 매체가 제공된다.

본 개시 내용과 일치하는 예시적인 실시 예를 상세하게 설명하기 전에, 본 개시는 그 적용에 있어서 구성의 세부 사항 및 다음의 설명에서 설명되거나 도면에 예시된 배치로 제한되지 않는다는 것을 이해해야 한다. 본 개시는 설명된 것에 추가된 실시 예가 가능하고 다양한 방법으로 실시되고 수행될 수 있다. 또한, 본 명세서에서 채택된 어구 및 용어는 설명의 목적을 위한 것이며, 제한적으로 간주되어서는 안 된다는 것을 이해해야 한다. 더욱이, 본 개시 내용의 논의는 생명 과학 분야에 초점을 맞추고 있지만, 개시된 시스템 및 방법의 어플리케이션은 이 분야에 국한되지 않는다.

본 개시의 일 실시 예에 따른 의미론적(semantic) 엔티티들 사이의 연관(association)을 검출하는 방법은 하나 이상의 지식 베이스들에 존재하는 의미론적 엔티티들 및 연관된 의미론적 컬렉션들을 식별하는 단계로서, 상기 의미론적 엔티티들은 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하고, 의미론적 컬렉션의 상기 의미론적 엔티티들은 엔티티 유형을 공유하는, 상기 식별하는 단계; 분석을 위한 시간 주기를 결정하는 단계; 상기 시간 주기를 하나 이상의 타임 슬라이스들로 분할하는 단계; 각각의 시간 슬라이스에 대해, 하나 이상의 코퍼스들(corpora)에 기초하여 상기 식별된 의미론적 엔티티들에 대한 단어 임베딩(embedding)들의 세트를 생성하는 단계; 각각의 시간 슬라이스에 대해, 제1 의미론적 엔티티 입력과 제2의 의미론적 엔티티 입력 사이의 제1 의미론적 연관 강도를 결정하는 단계; 각각의 시간 슬라이스에 대해, 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티와 연관된 의미론적 컬렉션의 복수의 의미론적 엔티티들 사이의 제2 의미론적 연관 강도를 결정하는 단계; 및 하나 이상의 시간 슬라이스들에 대한 상기 제1 및 제2 의미론적 연관 강도들에 기초한 출력을 제공하는 단계를 포함한다.

일부 실시 예들에 따르면, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 구조화되지 않은 데이터를 포함한다.

일부 실시 예들에 따르면, 상기 의미론적 엔티티들을 식별하는 단계는: (1) 의미론적 컬랙션들에 속하는 의미론적 엔티티들로서 하나 이상의 단일 단어들 또는 다중-단어 구문들을 식별하는 자동 방법 및 (2) 상기 하나 이상의 지식 베이스들로부터 하나 이상의 단일 단어들 또는 다중-단어 구분들을 강제로 선택하는 단계 중 하나 이상을 포함한다.

일부 실시 예들에 따르면, 상기 하나 이상의 단일 단어들 또는 다중-단어 구문들은 구조화된 데이터베이스로부터 컴파일링된 정보로부터 강제로 선택된다.

일부 실시 예들에 따르면, 의미론적 엔티티들을 식별하는 단계는 상기 시간 주기 동안 상기 하나 이상의 지식 베이스들의 모든 텍스트에 대해 수행된다.

일부 실시 예들에 따르면, 상기 단어 임베딩들은 Word2vec, AdaGram, fastText, 및 Doc2vec 중 하나 이상을 사용하여 생성된다.

일부 실시 예들에 따르면, 상기 단어 임베딩들은 다른 시간 슬라이스들에 대해 생성된 단어 임베딩들과 독립적으로 각각의 시간 슬라이스에 대해 생성된다.

일부 실시 예들에 따르면, 상기 시간 슬라이스에 대한 단어 임베딩들은 이전 시간 슬라이스로부터의 단어 임베딩들을 레버리징(leveraging)함으로써 생성된다.

일부 실시 예들에 따르면, 상기 제2 의미론적 엔티티와 연관된 상기 의미론적 컬랙션과 연관된 상기 복수의 의미론적 엔티티들은 상기 제2 의미론적 엔티티를 포함하지 않는다.

일부 실시 예들에 따르면, 상기 제2 의미론적 연관 강도는 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티와 연관된 의미론적 컬랙션과 연관된 상기 복수의 의미론적 엔티티들 사이의 의미론적 연관 강도들의 집합의 평균(mean), 중간(median) 또는 백분위(percentile)이다.

일부 실시 예들에 따르면, 상기 방법은 제2, 후속 시간 슬라이스의 상기 제1 의미론적 연관 강도와 관련하여 제1 시간 슬라이스의 상기 제1 의미론적 연관 강도의 증가를 검출하는 단계; 및 상기 제1 의미론적 연관 강도의 상기 증가가 상기 대응되는 제2 의미론적 연관과 관련하여 통계적으로 유의미한지 여부를 결정하는 단계를 더 포함한다.

일부 실시 예들에 따르면, 상기 증가의 통계적 유의미함(statistical significance)은 상기 대응되는 제2 의미론적 연관과 관련하여 상기 제1 의미론적 연관 강도의 통계적 유의미함의 측정으로서 p-값에 기초하여 결정된다.

일부 실시 예들에 따르면, 상기 방법은 상기 하나 이상의 지식 베이스들의 상기 제1 엔티티와 상기 제2 엔티티 사이의 공동 발생(co-occurrence) 레벨에 기초하여 상기 제1 엔티티 입력 및 상기 제2 엔티티 입력을 선택하는 단계를 더 포함할 수 있다.

일부 실시 예들에 따르면, 상기 제1 엔티티와 상기 제2 엔티티 사이의 공동 발생 레벨은 0이다.

일부 실시 예들에 따르면, 상기 방법은 사용자로부터 상기 제1 엔티티 입력 및 상기 제2 엔티티 입력을 수신하는 단계를 더 포함할 수 있다.

일부 실시 예들에 따르면, 상기 방법은 각각의 타임 슬라이스에 대해 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 상기 하나 이상의 코퍼스들에 존재하는 문서들의 카운트를 결정하는 단계; 및 (1) 제2, 후속 시간 슬라이스에 대한 상기 제1 의미론적 연관 강도에 대한 제1 시간 슬라이스에 대한 상기 제1 의미론적 연관 강도의 증가와 관련된 제1 날짜와 (2) 제4 시간 슬라이스에 대한 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 문서들의 카운트에 대한 제3 시간 슬라이스에 대한 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 문서들의 카운트의 증가와 관련된 제2 날짜 사이의 시간 차이를 결정하는 단계를 더 포함할 수 있다.

일부 실시 예들에 따르면, 상기 방법은 고정된 축에서의 커브의 기울기에 기초하여 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 문서들의 카운트의 증가를 검출하는 단계를 더 포함하고, 상기 커브는 상기 커브의 x-축 상의 상기 시간 주기 및 상기 커브의 y-축 상의 문서들의 카운트에 기초한다.

일부 실시 예들에 따르면, 상기 방법은 문서 카운트 임계 값에 기초하여 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 상기 문서들의 카운트의 제2 증가를 검출하는 단계를 더 포함할 수 있다.

일부 실시 예들에 따르면, 상기 제1 엔티티 및 상기 제2 엔티티 각각은, 생체-분자, 바이오-엔티티, 질병, 이상 반응(adverse event), 표현형(phenotype), 회사, 기관, 대학, 병원, 사람들, 약제, 의료 기기 또는 의료 절차와 같은 엔티티 유형들 중 하나 이상이다.

일부 실시 예들에 따르면, 상기 출력은 사용자 디바이스가 상기 시간 주기에 걸쳐 각각의 상기 시간 슬라이스들에 대한 제1 의미론적 연관 강도들의 각각을 플로팅(plotting)함으로써 생성된 그래프 라인을 디스플레이 할 수 있게 한다.

일부 실시 예들에 따르면, 상기 출력은 사용자 디바이스가 상기 시간 주기에 걸쳐 각각의 상기 시간 슬라이스들에 대한 평균 제2 의미론적 연관 강도들의 각각을 플로팅함으로써 생성된 그래프 라인을 디스플레이 할 수 있게 한다.

일부 실시 예들에 따르면, 상기 출력은 사용자 디바이스가 상기 시간 주기에 걸쳐 각각의 상기 타임 슬라이스들에 대한 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 상기 하나 이상의 코퍼스들에 존재하는 문서들의 카운트를 플로팅함으로써 생성된 그래프 라인을 디스플레이 할 수 있게 한다.

본 개시의 일 실시 예에 따른 엔티티들 사이의 의미 정보를 생성하는 방법은, 하나 이상의 코퍼스들에서 복수의 의미론적 엔티티들을 식별하는 단계로서, 상기 의미론적 엔티티들은 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하는, 상기 복수의 의미론적 엔티티들을 식별하는 단계; 상기 하나 이상의 코퍼스들에서 복수의 의미론적 엔티티 유형들을 식별하는 단계; 하나 이상의 의미론적 엔티티 유형들을 상기 복수의 의미론적 엔티티들의 상기 의미론적 엔티티들과 연관시키는 단계; 단어 임베딩에 기초하여 상기 복수의 의미론적 엔티티들로부터의 의미론적 엔티티들 사이의 하나 이상의 의미론적 연관 스코어들을 결정하는 단계; 질의 용어를 수신하는 단계; 상기 하나 이상의 의미론적 연관 스코어들을 기초로 상기 질의 용어와 연관된 결과적인 의미론적 엔티티들의 제1 리스트를 생성하는 단계; 상기 결과적읜 의미론적 엔티티들의 제1 리스트의 상기 의미론적 엔티티들과 연관된 상기 의미론적 엔티티 유형들을 기초로 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계로서, 상기 제2 리스트로부터의 각각의 의미론적 엔티티 컬랙션은 의미론적 엔티티 유형과 연관된, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계; 및 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 기초로 출력을 제공하는 단계를 포함한다.

일부 실시 예들에 따르면,, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 비구조화된 데이터를 포함한다.

일부 실시 예들에 따르면, 상기 복수의 의미론적 엔티티 유형들은 구조화된 데이터베이스, 엔티티 유형들의 커스텀 리스트, 신경망으로부터의 출력, 감독된 기계 학습으로부터의 출력 또는 비감독된 기계 학습으로부터의 출력 중 하나 이상을 기초로 식별된다.

일부 실시 예들에 따르면, 상기 신경망 아키텍처는 RNN(recurrent neural network) 또는 LSTM(Long Short Term Memory) 중 하나 이상이다.

일부 실시 예들에 따르면, 상기 단어 임베딩은 Word2vec, AdaGram, fastText 및 Doc2vec 중 하나 이상을 사용하여 생성된다.

일부 실시 예들에 따르면, 상기 결과적인 의미론적 엔티티들의 상기 제1 리스트의 상기 의미론적 엔티티와 연관된 상기 의미론적 엔티티 유형을 기초로 상기 의미론적 엔티티 컬랙션의 제2 리스트를 생성하는 단계는 다음 조건 중 하나 이상을 만족하는 결과적인 의미론적 엔티티에 대해서만 생성을 기반으로 하는 방법: 잠재적 의미론적 엔티티 유형과 관련된 결과적인 의미론적 엔티티의 최대 개수; 결과적인 의미론적 엔티티에 대한 최소 의미론적 연관 스코어; 상기 하나 이상의 코퍼스에서 상기 결과적인 의미론적 엔티티의 최소 발생 횟수; 상기 하나 이상의 코퍼스의 최소 수의 문서에서 발생하는 결과적인 의미론적 엔티티; 상기 질의 용어와 상기 결과적인 의미론적 엔티티의 최소 공동 발생 수; 상기 질의 용어와 상기 결과적인 의미론적 엔티티의 최대 공동 발생 수; 상기 질의 용어와 상기 결과적인 의미론적 엔티티가 공동 발생하는 상기 하나 이상의 코퍼스들의 최소 문서 수; 및 상기 질의 용어와 상기 결과적인 의미론적 엔티티가 공동 발생하는 상기 하나 이상의 코퍼스들의 최대 문서 수.

40일부 실시 예들에 따르면, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계는 상기 제2 리스트 내의 의미론적 엔티티 컬랙션들의 수를 최대 수로 제한하는 단계를 포함한다.

일부 실시 예들에 따르면, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계는 상기 제2 리스트의 각각의 상기 의미론적 엔티티 컬랙션들의 가장 작은 수의 의미론적 엔티티들을 요구하는 단계를 포함한다.

일부 실시 예들에 따르면, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계는 상기 제2 리스트의 각각의 상기 의미론적 엔티티 컬랙션들의 각각의 상기 의미론적 엔티티들에 대한 최소 의미론적 연관 스코어를 요구하는 단계를 포함한다.

일부 실시 예들에 따르면, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계는 선택된 의미론적 엔티티 컬랙션들과 연관된 상기 하나 이상의 결과적인 의미론적 엔티티들을 더 기초한다.

일부 실시 예들에 따르면, 상기 출력은 사용자 디바이스가 상기 제1 리스트로부터 상기 결과적인 의미론적 엔티티들의 하나 이상을 나열할 수 있게 하며, 상기 제2 리스트로부터 상기 의미론적 엔티티 컬랙션들의 하나 이상을 나열할 수 있게 한다.

본 개시의 일 실시 예에 따른 엔티티들 사이의 의미 정보를 생성하는 방법은 하나 이상의 코퍼스들에서 복수의 의미론적 엔티티들을 식별하는 단계로서, 상기 의미론적 엔티티들은 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하는, 상기 복수의 의미론적 엔티티들을 식별하는 단계; 상기 복수의 의미론적 엔티티들에 대해 단어 임베딩을 생성하는 단계로서, 상기 의미론적 엔티티들 중 적어도 하나는 복수의 의미를 갖고 복수의 단어 임베딩에 대응되는 다중-의미의 의미론적 엔티티이고, 각각의 의미는 대응되는 단어 임베딩에 연관되는, 상기 단어 임베딩을 생성하는 단계; 상기 워드 임베딩을 기초로 상기 복수의 의미론적 엔티티들로부터의 의미론적 엔티티들 사이의 하나 이상의 의미론적 연관 스코어들을 결정하는 단계; 질의 용어를 수신하는 단계; 상기 질의 용어가 복수의 임베딩들과 연관된 의미론적 엔티티에 대응되는지 여부를 결정하는 단계; 상기 질의 용어가 복수의 임베딩들과 연관된 의미론적 엔티티에 대응될 때, 리스트들의 세트를 생성하는 단계로서, 각각의 리스트는 상기 복수의 임베딩들의 각각의 임베딩에 대한 의미론적 엔티티들을 포함하고, 의미론적 엔티티는 상기 하나 이상의 의미론적 연관 스코어들의 비교를 기초로 하나 이상의 상기 리스트들에 포함되는, 상기 리스트들의 세트를 생성하는 단계; 및 상기 질의 용어가 복수의 임베딩들과 연관된 의미론적 엔티티에 대응될 때, 상기 리스트들의 세트를 기초로 출력을 제공하는 단계를 포함한다.

일부 실시 예에 따르면, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 비구조화된 데이터를 포함한다.

일부 실시 예에 따르면, 상기 방법은 상기 하나 이상의 코퍼스들의 상기 다중-의미의 의미론적 엔티티의 상기 복수의 의미들의 각각의 의미의 출현을 측정하는 측정들의 세트를 결정하는 단계를 더 포함할 수 있다.

일부 실시 예에 따르면, 상기 측정은, 상기 하나 이상의 코퍼스들의 하나 이상의 문서에서, 상기 복수의 의미론적 엔티티들 중 하나 이상의 의미론적 엔티티와 상기 다원-의미론적 엔티티의 특정 의미의 공동 발생 수의 카운트이다.

일부 실시 예들에 따르면, 상기 측정은 상기 다중-의미 의미론적 엔티티의 특정 의미가 상기 복수의 의미론적 엔티티들 중 하나 이상의 의미론적 엔티티와 공동 발생하는 상기 하나 이상의 코퍼스들의 문서들 카운트이다.

일부 실시 예들에 따르면, 상기 단어 임베딩은 AdaGram(Adaptive Skip- gram)을 사용하여 생성된다.

일부 실시 예들에 따르면, 상기 방법은 상기 리스트들의 세트의 각각의 리스트에 대해 백분율을 생성하는 단계를 더 포함하고, 각각의 리스트에 대한 상기 백분율은 대응되는 리스트의 의미론적 엔티티들의 수를 상기 세트의 모든 리스트들의 엔티티들의 총 수로 나눔으로써 계산된다.

일부 실시 예들에 따르면, 상기 방법은 상기 대응하는 리스트의 상기 의미론적 엔티티와 연관된 하나 이상의 의미론적 엔티티 유형을 분석함으로써 의미론적 엔티티 유형을 상기 리스트들의 세트의 하나 이상의 리스트와 연관시키는 단계를 더 포함할 수 있다.

일부 실시 예들에 따르면, 상기 대응하는 리스트의 상기 의미론적 엔티티와 연관된 상기 하나 이상의 의미론적 엔티티 유형을 분석하는 단계는 상기 대응하는 리스트의 의미론적 엔티티들과 가장 자주 연관되는 의미론적 엔티티 유형을 결정하는 단계를 포함한다.

일부 실시 예들에 따르면, 상기 출력은 사용자 디바이스가 상기 리스트들의 세트 및 상기 리스트들의 세트의 각각의 리스트의 상기 결과적인 의미론적 엔티티를 디스플레이 할 수 있게 한다.

본 개시의 일부 실시 예들에 따른 엔티티들 사이의 의미 정보를 생성하는 방법은 하나 이상의 코퍼스들에서 복수의 의미론적 엔티티들을 식별하는 단계로서, 상기 의미론적 엔티티는 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하는, 상기 복수의 의미론적 엔티티들을 식별하는 단계; 상기 하나 이상의 코퍼스들에서 복수의 의미론적 엔티티 유형을 식별하는 단계; 적어도 하나의 의미적 엔티티 유형을 상기 복수의 의미론적 엔티티의 의미론적 엔티티와 연관시키는 단계; 상기 복수의 의미론적 엔티티들에 대한 단어 임베딩을 생성하는 단계; 상기 복수의 의미론적 엔티티들로부터 의미론적 엔티티들 사이의 하나 이상의 의미론적 연관 스코어들을 결정하는 단계; 질의 용어 및 엔티티 유형 입력을 수신하는 단계; 상기 질의 용어와 연관된 질의 용어 엔티티 유형을 결정하는 단계; 상기 하나 이상의 의미론적 연관 스코어들에 기초하여 상기 질의 용어와 연관된 결과적인 의미론적 엔티티들의 제1 리스트를 생성하는 단계로서, 상기 제1리스트로부터 상기 결과적인 의미론적 엔티티들은 상기 질의 용어 엔티티 유형과 동일한 의미론적 엔티티 유형과 관련되는, 상기 제1 리스트를 생성하는 단계; 상기 하나 이상의 의미론적 연관 스코어에 기초하여 상기 질의 용어와 연관된 결과적인 의미론적 엔티티들의 제2 리스트를 생성하는 단계로서, 상기 제2 리스트로부터의 상기 결과적인 의미론적 엔티티들은 상기 엔티티 유형 입력과 관련되는, 상기 제2 리스트를 생성하는 단계; 의미론적 연관 스코어들의 제3 리스트를 생성하는 단계로서, 상기 제3 리스트는 상기 제1 리스트로부터의 상기 결과적인 의미론적 엔티티들 각각과 상기 제2리스트로부터의 상기 결과적인 의미론적 엔티티들 각각의 사이의 의미론적 연관 스코어들을 포함하는, 상기 제3 리스트를 생성하는 단계; 및 상기 제1 리스트, 상기 제2 리스트 및 상기 제3 리스트에 기초하여 출력을 제공하는 단계를 포함한다.

일부 실시 예들에 따르면, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 비구조화된 데이터를 포함한다.

일부 실시 예들에 따르면, 상기 제1 리스트를 생성하는 단계는 상기 결과적인 의미론적 엔티티들의 수를 최대 카운트로 제한하는 단계를 포함한다.

일부 실시 예들에 따르면, 상기 제1 리스트를 생성하는 단계는 상기 결과적인 의미론적 엔티티들 각각의 의미론적 연관 스코어가 최소 의미론적 연관 스코어보다 커지도록 요구하는 것에 더 기초한다.

일부 실시 예들에 따르면, 상기 제2 리스트를 생성하는 단계는 상기 결과적인 의미론적 엔티티들의 수를 최대 카운트로 제한하는 단계를 포함한다.

일부 실시 예들에 따르면, 상기 제2 리스트를 생성하는 단계는 상기 결과적인 의미론적 엔티티들 각각의 의미론적 연관 스코어가 최소 의미론적 연관 스코어보다 커지도록 요구하는 것에 더 기초한다.

일부 실시 예들에 따르면, 상기 출력은 사용자 디바이스로 하여금 y-축 상의 상기 제1 리스트로부터 상기 결과적인 의미론적 엔티티들, x-축 상의 상기 제2 리스트로부터 상기 결과적인 의미론적 엔티티들, 그리고 색상 또는 색상 음영으로 표현되는 제3 리스트로부터 상기 의미론적 연관 스코어들의 각각을 갖는 히트맵의 생성을 가능하게 하고 상기 색상 또는 상기 색상의 음영은 의미론적 연관 스코어에 매핑된다.

본 개시의 일부 실시 예들에 따른 방법은, 하나 이상의 지식 베이스에 존재하는 의미론적 엔티티 및 연관된 의미론적 컬렉션을 식별하는 단계로서, 상기 의미론적 엔티티는 단일 단어 또는 다중-단어 구문들 중 하나 이상을 포함하고, 의미론적 컬렉션의 상기 의미적 엔티티들은 엔티티 유형을 공유하는, 상기 의미론적 엔티티 및 연관된 의미론적 컬렉션을 식별하는 단계; 분석을 위한 시간 주기를 결정하는 단계; 상기 시간 주기를 하나 이상의 시간 슬라이스들로 분할하는 단계; 각각의 시간 슬라이스에 대해, 하나 이상의 코퍼스들에 기초하여 상기 식별된 의미론적 엔티티들에 대한 단어 임베딩의 세트를 생성하는 단계; 제1 의미론적 엔티티 입력과 제2 의미론적 엔티티 입력 사이의 시간적 의미론적 연관을: 각 시간 슬라이스에 대해, 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 제1 의미론적 연관 강도를 결정하는 단계; 각각의 시간 슬라이스에 대해, 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티와 연관된 의미론적 컬렉션과 관련된 복수의 의미론적 엔티티 사이의 제2 의미론적 연관 강도를 결정하는 단계; 각 시간 슬라이스에 대해, 상기 제1 의미론적 연관 강도와 상기 제2 의미론적 연관 강도를 관련시키는 확률 측정을 결정하는 단계; 각 시간 슬라이스에 시간 값을 할당하는 단계; 각 타임 슬라이스에 대해, 상기 시간 슬라이스에 대한 상기 할당된 시간 값을 상기 시간 슬라이스에 대한 측정과 연관시킴으로써 2-차원 포인트들의 시퀀스를 결정하는 단계로서, 상기 시퀀스는 시간 값들을 증가시킴으로써 정렬되는, 상기 2-차원 포인트들의 시퀀스를 결정하는 단계; 상기 정렬된 시퀀스에 커브를 피팅시키는 단계; 상기 커브 피팅 특성을 추출하는 단계로서, 상기 특성은: 상기 확률 측정의 통계적으로 중요한 크기 변화가 발생하는 상기 시간 값을 나타내는 시간 증가 값, 상기 확률 측정의 최대 값을 나타내는 확률 포화 값, 또는 커브 값 아래의 영역 중 하나 이상을 포함하는, 상기 커브 피팅 특성을 추출하는 단계; 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 상기 시간적 의미론적 연관을 특성화하는 것으로부터 상기 커브 피팅의 특성을 제공하는 단계를 수행함으로써 특징화하는 단계를 포함한다.

일부 실시 예들에 있어서, 상기 방법은 사용자로부터 상기 제1 의미론적 엔티티 입력을 수신하는 단계; 사용자로부터 적어도 두 개의 제2 의미론적 엔티티들의 세트로서 상기 제2 의미론적 엔티티 입력을 수신하는 단계; 상기 세트의 상기 제2 의미론적 엔티티 각각에 대해 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 상기 시간적 의미론적 연관을 특징화하는 단계를 수행하는 단계; 및 상기 제1 의미론적 엔티티 입력 및 상기 세트의 제2 의미론적 엔티티 입력들 중 적어도 두 개에 대한 상기 커브 피팅의 특성을 디스플레이 하는 단계를 더 포함할 수 있다.

일부 실시 예들에 있어서, 상기 커브 피팅의 특성을 디스플레이하는 단계는 상기 제1 의미론적 엔티티 입력 및 상기 제2 의미론적 엔티티 입력 각각에 대한 시간적 의미론적 연관을 버블 플롯으로서 상기 시간 증가 값, 확률 포화 값 및 상기 커브 값 아래의 영역을 디스플레이 하는 단계를 포함하고, 상기 버블 플롯의 x-축을 따른 버블 배치는 상기 시간 증가 값에 대응되고, 상기 버블 플롯의 y-축을 따른 버블 배치는 상기 포화 값의 확률에 대응되고, 상기 버블의 크기는 상기 커브 값 아래의 영역에 대응된다.

일부 실시 예들에 있어서, 상기 방법은 상기 버블에 근접한 버블과 관련된 상기 제1 의미론적 엔티티 입력의 아이덴티티 및 상기 제2 의미론적 엔티티 입력의 아이덴티티를 디스플레이 하는 단계를 더 포함할 수 있다.

일부 실시 예들에 있어서, 상기 커브 피팅의 특성을 디스플레이 하는 단계는 상기 확률 포화 값이 확률 임계 값을 만족하는 커브 피팅의 특성만을 디스플레이 하는 단계를 포함한다.

일부 실시 예들에 있어서, 상기 커브 피팅의 특성을 디스플레이 하는 단계는 공동 발생 임계 값을 만족하는 상기 하나 이상의 코퍼스의 문서에서 공동 발생의 카운트를 갖는 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 시간적 의미론적 연관에 대한 커브 피팅의 특성만을 디스플레이 하는 단계를 포함한다.

일부 실시 예들에 있어서, 상기 방법은 상기 제1 의미론적 엔티티 입력 및 하나 이상의 코퍼스들 및 상기 세트의 상기 제2 의미론적 엔티티 입력들의 적어도 2 개의 문서들에서의 공동 발생의 카운트를 결정하는 단계를 더 포함한다.

일부 실시 예들에 있어서, 상기 제1 의미론적 연관 강도와 상기 제2 의미론적 연관 강도를 관련시키는 확률 측정은 p-값의 음의 대수(negative logarithm)이고, 상대적으로 높은 확률 측정은 상기 제1 의미론적 연관 강도가 상기 제2 의미론적 연관 강도보다 통계적으로 유의하지 않음을 나타내는 상대적으로 낮은 확률 측정치와 비교할 때, 상기 제1 의미론적 연관 강도가 상기 제2 의미론적 연관 강도보다 통계적으로 유의하다는 것을 나타낸다.

일부 실시 예들에 있어서, 상기 커브를 상기 정렬된 시퀀스에 피팅시키는 단계는 S자 형상의 커브를 다음의 식에 따라 상기 정련된 시퀀스에 피팅시키는 단계를 포함한다:

여기서:

y 값은 상기 시퀀스의 확률 측정이고; 그리고

x 값은 상기 시퀀스의 시간 값이다.

일부 실시 예에 따르면, 여기에 개시된 임의의 단계 또는 동작은 서버에 의해 수행될 수 있다. 일부 실시 예에서, 서버는 모듈을 저장하는 메모리를 포함할 수 있다. 일부 실시 예에서, 서버는 프로세서가 여기에 개시된 임의의 단계 또는 동작을 수행하게 하도록 구성된 메모리에 저장된 모듈을 구동하도록 구성된 프로세서를 포함한다. 일부 실시 예에 따르면, 일시적이지 않은 컴퓨터 판독 가능 매체는 서버로 하여금 여기에 개시된 단계들 또는 동작들 중 임의의 것을 수행하게 하는 동작 가능 명령들을 가질 수 있다.

상기 실시 예들 또는 양태들은 본 명세서에 설명된 다른 실시 예들 및/또는 양상들과 결합될 수 있고 본 발명의 범위 내에 있다.

개시된 주제의 다양한 목적, 특징 및 이점은 동일한 참조 번호가 동일한 요소를 나타내는 다음의 도면과 관련하여 고려될 때 개시된 주제의 다음의 상세한 설명을 참조하여 보다 충분히 이해될 수 있다.
다수의 실시 예가 개시되었지만, 본 개시 물의 또 다른 실시 예는 본 개시 물의 예시적인 실시 예를 도시하고 설명하는 다음의 상세한 설명으로부터 당업자에게 명백해질 것이다. 따라서, 도면 및 상세한 설명은 본질적으로 예시적인 것이며 제한적이지 않은 것으로 간주되어야 한다.
도 1은 본 개시의 일부 실시 예들에 따른 시스템 아키텍처를 도시한다.
도 2a는 질의에 대해 의미론적 응답을 제공하는 한 방법을 도시한다.
도 2b는 본 개시의 일부 실시 예들에 따른 다수의 경로들로부터의 데이터를 합성함으로써 가능한 인터페이스의 표현을 도시한다.
도 3a는 질의에 대한 의미론적 응답을 제공하는 한 방법을 도시한다.
도 3b는 본 개시의 일부 실시 예들에 따른 다수의 경로들로부터 데이터를 합성함으로써 가능한 인터페이스의 표현을 도시한다.
도 4는 본 개시의 일부 실시 예들에 따른 응답 합성기(112)(도 1)에 의해 생성된 데이터의 2 차원 매트릭스를 도시한다.
도 5a 및 도 5b는 본 개시의 일부 실시 예들에 따른 사용자 제공 예시적인 질의의 "이웃"에 대해 강조된 바와 같이, 다양한 엔티티들에 관련된 지식 그래프를 도시한다.
도 6a 내지 도 6d는 본 개시의 일부 실시 예들에 따른 "유추"에 대해 강조된 바와 같이, 지식 그래프가 다양한 엔티티들을 어떻게 관련시키는지를 보여주는 예를 도시한다.
도 7은 본 개시의 일부 실시 예에 따른 "심볼릭(symbolic)" 시간적 위상의 방사상(radial) 표현일 수 있는 황소 아이 뷰(bull 's eye view) (대체 2D 뷰)를 도시한다.
도 8은 본 개시의 일부 실시 예들에 따른 응답 합성기(112)(도 1)에 의해 생성된 데이터의 2 차원 매트릭스를 도시한다.
도 9는 본 개시의 일부 실시 예들에 따른 엔티티 인식 기술의 적용에 뒤 따르는 예시적인 구 "미엘린초의 재생(Remyelination)"에 대해 질의된 생체 지식 그래프로부터의 출력을 도시한다.
도 10은 본 개시의 일부 실시 예들에 따른 사용자에 의해 제공된 임의의 실 세계 표현형 질의와 밀접하게 관련된 질병 표시를 식별할 수 있는 생체 지식 그래프로부터의 출력을 나타낸다.
도 11은 본 개시의 일부 실시 예들에 따른 이웃 노드들이 시간에 따라 변하는 검색 입력에 대한 엔티티 분포를 도시한다.
도 12는 본 개시의 일부 실시 예들에 따른 엔티티 클래스들을 가로 지르는 개념의 시간적 진행을 출력하는 예를 도시한다.
도 13은 본 개시의 일부 실시 예들에 따른 순간의 지식 그래프 서브 세트의 예의 생성을 도시한다.
도 14는 본 개시의 일부 실시 예들에 따른, 지식 그래프("KG")에서의 시간 경과에 따른 엔티티의 시간적인 진행 및 엔티티 분포의 캡처를 도시한다.
도 15는 본 개시의 일부 실시 예들에 따른 예시적인 엔티티 컬렉션을 도시한다.
도 16은 본 개시의 일부 실시 예들에 따른 코사인 거리 확률 밀도 함수(distance probability density function, PDF) 그래프를 도시한다.
도 17은 본 개시의 일부 실시 예들에 따른 시간적 분석을 위한 흐름도를 도시한다.
도 18은 본 개시의 일부 실시 예들에 따른 모든 질병 엔티티들에 대한 2 개의 유전자들에 대한 의미 연관 강도의 밀도 분포를 도시한다.
도 19는 본 개시의 일부 실시 예들에 따른 통계적 배경 모델을 평가하고 요약 통계를 사용자에게 제시하는 프로세스를 도시한다.
도 20은 본 개시의 일부 실시 예들에 따른 시간적인 분석으로 오버레이된 요약 통계의 예를 도시한다.
도 21은 본 개시의 일부 실시 예들에 따른 벡터의 랜덤 세트로부터 생성된 2 개의 히스토그램들을 도시한다.
도 22a 및 도 22b는 본 개시의 일부 실시 예들에 따른 선의의 생명 과학 엔티티 쌍의 시간적인 분석을 도시한다.
도 23은 본 개시의 일부 실시 예들에 따른 PTEN-KRAS 유전자-유전자 시간적 분석을 도시한다.
도 24는 본 개시의 일부 실시 예들에 따른 AML1(RUNX1)-FLT3 유전자-유전자 연관 시간적 분석을 도시한다.
도 25는 본 개시의 일부 실시 예들에 따른 비정형 용혈성 요독 증후군-CFH(질병-유전자) 시간적 분석을 도시한다.
도 26은 본 개시의 일부 실시 예들에 따른 PCSK9-LDLR(유전자 - 유전자) 시간적 분석을 나타낸 것이다.
도 27은 본 개시의 일부 실시 예들에 따른 PCSK9-LDLR(유전자 - 유전자) 시간적 분석을 도시한다.
도 28은 본 개시의 일부 실시 예들에 따른 OT 스코어와 코사인 거리(의미 연관 스코어) 사이의 관계를 도시한다.
도 29는 본 개시의 일부 실시 예들에 따른 중요하지 않은 유전자-질병 상호 작용에 대한 시간적인 통계적 추론의 음성 대조군 그래픽 표현을 도시한다.
도 30은 본 개시의 일부 실시 예들에 따른 중요한 유전자-질병 상호 작용에 대한 시간적 통계적 추론의 양성 대조군 그래프를 도시한다.
도 31은 본 개시의 일부 실시 예들에 따른 예시적인 인접 감지 인터페이스를 도시한다.
도 32는 본 개시의 일부 실시 예들에 따른 예시적인 인접 감지 인터페이스를 도시한다.
도 33은 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스를 도시한다.
도 34는 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스를 도시한다.
도 35는 본 개시의 일부 실시 예에 따른 예시적인 정보 박스를 도시한다.
도 36은 본 개시의 일부 실시 예들에 따른 예시적인 정보 박스를 도시한다.
도 37은 본 개시의 일부 실시 예들에 따른 예시적인 지식 다이어그램 인터페이스를 도시한다.
도 38은 본 개시의 일부 실시 예들에 따른 예시적인 지식 다이어그램 인터페이스를 도시한다.
도 39는 본 개시의 일부 실시 예들에 따른 예시적인 지식 다이어그램 인터페이스를 도시한다.
도 40은 본 개시의 일부 실시 예들에 따른 예시적인 지식 다이어그램 인터페이스를 도시한다.
도 41은 본 개시의 일부 실시 예들에 따른 예시적인 지식 다이어그램 인터페이스를 도시한다.
도 42는 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스를 도시한다.
도 43 및 도 44는 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스를 도시한다.
도 45는 본 개시의 일부 실시 예들에 따른 예시적인 지식 다이어그램 인터페이스를 도시한다.
도 46은 본 개시의 일부 실시 예들에 따른 예시적인 히트맵을 도시한다.
도 47은 본 개시의 일부 실시 예들에 따른 예시적인 히트맵을 도시한다.
도 48은 본 개시의 일부 실시 예들에 따른 예시적인 히트맵을 도시한다.
도 49는 본 개시의 일부 실시 예들에 따른 시간적 분석 그래프에 대한 예시적인 사용자 인터페이스를 도시한다.
도 50은 본 개시의 일부 실시 예들에 따른 시간적인 분석 그래프를 갖는 예시적인 지식 그래프 인터페이스를 도시한다.
도 51은 본 개시의 일부 실시 예들에 따른 시간적 분석 그래프를 갖는 예시적인 지식 그래프 인터페이스를 도시한다.
도 52 내지 도 56은 본 개시의 일부 실시 예들에 따른 5 개의 상이한 엔티티 유형들과 관련된 엔티티 "Rho"에 대한 근접 감지 다이어그램들을 도시한다.
도 57은 본 개시의 일부 실시 예들에 따른 데이터 흐름을 도시한다.
도 58은 본 개시의 일부 실시 예들에 따른 사용자가 근접 어플리케이션에 질의 요청을 할 때의 제어/데이터 흐름을 도시한다.
도 59는 본 개시의 일부 실시 예들에 따른 시간적인 분석 그래프를 갖는 예시적인 지식 그래프 인터페이스를 도시한다.

본 개시의 범위를 벗어나지 않고 설명된 예시적인 실시 예에 대해 다양한 다른 수정 및 추가가 이루어질 수 있다. 예를 들어, 전술한 실시 예들은 특정 특징 또는 특정 단계를 언급하지만, 본 개시의 범위는 또한 특징 또는 단계의 상이한 조합을 갖는 실시 예 및 상술한 모든 특징 또는 단계를 모두 포함하지 않는 실시 예를 포함한다.

본 개시는, 특히 응답들이 상이한 소스들로부터의 구조화된 정보 및 비구조화된 정보를 사용하여 의미론적 합성을 요구할 때, 사용자 질의에 대한 개요/요약 응답을 생성하는 많은 현재의 난제들을 극복하기 위한 시스템, 방법 및 컴퓨터 판독 가능 매체를 설명한다. 일부 실시 예들에서, 신경망 및/또는 언어 모델은 현재 사실상 스케일링(scaling)이 불가능한 다음의 과제를 해결하는데 사용될 수 있다: 선택적으로 데이터의 일부 또는 전체가 상이한 소소들로부터 실시 간으로 집계될 수 있는, 구조화된 및/또는 비구조화된 데이터로부터 추측되는 의미 정보의 시각화.

본 개시의 실시 예들은 다양한 산업 및 영역에 적용될 수 있다. 그러나, 설명의 목적으로, 본 개시는 건강/의료 영역에 초점을 맞춘다. 일부 실시 예들에서, 다음 용어들은 상호 교환적으로 사용될 수 있다: "엔티티(entity)" 및 "토큰(token)". 일부 실시 예들에서, 다음 용어들은 또한 상호 교환적으로 사용될 수 있다; "엔티티 등급(entity class)" 및 "엔티티 유형(entity type)". 또한, 일부 실시 예들에서, 다음의 용어들은 상호 교환적으로 사용될 수 있다: "임베딩(embedding)" 및 "벡터(vector)". 또한 "단어 임베딩(word embedding)"은 명시적으로 지정하지 않는 한 문자, 단어, 단락, 문장 및/또는 문서 임베딩을 총칭하는 데 사용된다. 일부 실시 예들에서, 다음 용어들은 상호 교환적으로 사용될 수 있다: "의미론적 연관 강도(semantic association strength)", "의미론적 연관 스코어(semantic association score)" 및 "코사인 거리(cosine distance)".

개시된 시스템 및 방법은 의미론적으로 관련된 엔티티들이 동시 발생하지 않을 때 코퍼스로부터 생성된 단어/문서/단락/문장 임베딩을 사용하여 의미론적으로 관련된 엔티티를 식별할 수 있고, 여기서 임베딩은 공지된 기술을 사용하여 생성될 수 있지만, 용어/구문은 엔티티 및 엔티티 클래스에 매핑된다. 비-공동 발생 엔티티와 매핑되는 엔티티 및 클래스 간의 매핑의 유사성(예를 들어, 사이의 거리)은 원래의 코퍼스에서 동시 발생 개념으로 존재하지 않는 의미론적으로 관련된 엔티티 검색을 가능하게 한다. 다른 말로, 제1 맵핑과 제2 맵핑의 유사성은 제1 엔티티 맵핑이 제1 엔티티를 엔티티 및 클래스의 제1 세트와 관련시키는 관련 엔티티의 발견을 가능하게 하고, 제2 매핑은 제2 엔티티를 엔티티 및 클래스의 제2 세트와 관련시킨다.

신경망은 구조화된 집계를 만들기 위해 비 구조화된 데이터 소스에서 의미 정보를 추출하는 데 사용할 수 있다. 일부 실시 예에서, 상태 유지를 갖는 시퀀스 모델이 이 목적을 위해 신경망 내에서 사용될 수 있다. 일부 실시 예에서, 데이터의 공간 시각화에 전력을 공급할 수 있는 후보 데이터 세트는 최소한의 인간 검증으로 생성될 수 있다.

공개된 시스템 및 검색 질의를 위한 다차원 요약을 합성하는 방법은 라벨링된 엔티티 및 라벨링되지 않은 용어/구를 포함할 수 있다. 검색 입력은 하나 이상의 라벨링되지 않은 엔티티일 수 있다. 검색 질의는 용어/구 또는 용어/구를 포함할 수 있는 자연 언어 질의일 수 있다. 이 용어는 모호성 제거를 위한 대화 교환에서와 같이 일련의 질의에서 수집될 수 있다.

검색 입력의 이웃에 있는 라벨링된 엔티티는 합성된 요약의 직교 차원(예를 들어, 로우 및 컬럼)을 생성하는데 사용될 수 있다. 합성은 입력 용어/구문의 단어/문서/단락/문장 임베딩 인접 영역 내의 엔티티 분포를 검사하고 요약 생성을 위한 후보 엔티티를 선택하기 위해 그 분포를 사용함으로써 수행될 수 있다. 엔티티/이웃 관계를 캡처하는 엔티티 분포는 보편적인 코퍼스 또는 문맥이 암묵적으로 또는 명시적으로 유추되는 문맥 특정 분포에서 얻은 일반적인 배포가 될 수 있다.

기계 학습 모델에 대한 단어의 사실상 표현으로 단어 임베딩을 확립하기 위해-전통적인 엔-그램 모델 대신, 단어가 원자 엔티티인 경우-단어 벡터/임베딩(또는 단어 임베딩을 구성하는 문자 벡터)을 사용하는 언어 모델을 사용할 수 있다. 단순한 공동 발생을 넘어서 일반화된 벡터로서의 단어의 표현과 유사하게, 벡터로서의 개념들 간의 개념 및 관계의 표현은 추출된 공간에서 부호화된 명시적 관계를 넘어 일반화 될 수 있으며, 개념/관계 임베딩을 갖는 의미론적 지식 그래프의 구축을 촉진하여 데이터에 대한보다 폭 넓고 깊은 이해를 가능하게 한다.

하나 이상의 이종 데이터 소스는 일부 실시 예에 의해 예시적인 "코어 코퍼스(Core Corpus)"로 집합될 수 있다. 예를 들어 다음 표의 하나 이상의 데이터 소스를 사용할 수 있다:

일부 실시 예에 따르면, 집합은 실시간 또는 실질적으로 실시간으로부터(예를 들어, 피드를 통해) 실시간 또는 실질적으로 실시간이 아닌 임의의 시간 주기(예를 들어, 초, 분, 시, 일, 주, 월, 년)에 이르는 다양한 주파수에서 수행될 수 있다. 일부 실시 예에서, 이러한 빈도는 각 자원 사이트의 크롤링 빈도 정책에 기초할 수 있으며, 본 명세서의 실시 예들은 그러한 방침을 존중할 수 있다. 일부 실시 예에서, 빈도는 하나 이상의 이종 데이터 소스에 대해 다르게 설정될 수 있다. 일부 실시 예에서, 빈도는 정적 또는 동적으로 설정될 수 있다.

의료/제약 산업에서 각 제약 회사는 다양한 개발 단계에서 약품의 시놉시스를 가질 수 있다. 일부 실시 예에서, 약물 등급 및 질병 카테고리와 같은 정보를 여러 회사에 자동으로 집계할 수 있는 집계된 및/또는 합성된 의미론적 요약은 이 공간과 관련된 개체의 의미론적 이해뿐만 아니라 서로 다른 구조화 된 소스 및 구조화되지 않은 소스의 수집 된 정보를 요구한다(예를 들어, 구조화된 회사 사이트, 임상 실험과 같은 준 구조화 사이트, Pubmed와 같은 비 구조화된 소스). 일부 실시 예에서, 집계 및/또는 합성된 의미론적 요약을 생성하여 사용자가 신속하게 의사 결정을 내릴 수 있고 오랜 시간을 소비하지 않아도 되는 광범위한 의미론적 질의를 해결할 수 있는 확장성과 능력을 향상시킬 수 있다(예를 들어, 몇 주일이 아닌 몇 시간에 걸쳐). 서로 다른 구조화된 소스 및 비구조화된 소스로부터 이러한 합성을 생성할 수 있다.

본 개시의 실시 예는 또한 상이한 구조화된 소스 및 비구조화된 소스로부터 의미 정보를 추출하는 데 있어 다른 문제점을 해결할 수 있다. 이러한 과제의 예가 아래에 설명되어 있다.

먼저, 광범위한 사용자 검색에 대한 의미론적 응답을 생성하기 위해 인간 큐레이션된 온톨로지/정보 저장소에서 "엔티티 클래스(entity class)"의 부적절함이 있을 수 있다. 큐레이션된 온톨로지가 의료 산업에 풍부하지만 엔티티 또는 엔티티 클래스가 누락될 수 있으므로 어휘적으로 일치하는 사용자 입력 결과를 문서에 대한 축약적인 응답으로 만든다. 예를 들어, "미엘린초의 재생(remyelination)"과 같은 검색 용어는 큐레이션된 의미론적 결과가 입력에 대해 구성되지 않으면 어휘 검색 응답으로 변질될 수 있다. 이는 미엘린초의 재생이 적응증, 질병, 약물 등과 같은 전형적인 엔티티 유형에 속하는 엔티티가 될 가능성이 적기 때문이다. 단어를 포함하는 이웃의 응답이 사용되더라도 엔티티 이웃이 엔티티 유형의 혼합된 모음일 수 있기 때문에 이는 여전히 부적절 할 수 있다. 단어 임베딩 이웃의 응답을 사용하는 것이 어휘 응답에서 생성된 결과보다 약간 더 좋을 수 있지만, 사용자 의도에 가장 잘 부합하는 의미론적 합성을 사용하는 본 개시의 실시 예에 의해 생성된 결과에 여전히 근접하지는 않을 것이다.

둘째, 특정 용어에 대해 엔티티의 모호성 제거가 필요할 수 있다. 예를 들어, 어휘 검색은 "표피 성장 인자 수용체(Epidermal Growth Factor Receptor)" 또는 실험실 테스트 "추정 사구체 여과율(Estimated Glomerular Filtration Rate)" 유전자를 나타낼 수 있는 용어 "EGFR"에 대해 오도된 결과를 생성할 수 있다. 이 공통 사용자 질의는 순전히 어휘의 시스템에서 오류를 초래할 수 있다. 일부 실시 예에서, 이 문제는 의미론적 생체 지식 그래프를 사용하여 문맥이 존재할 때 암시적으로 모호성을 없애거나 문맥이 존재하지 않을 때 엔티티를 명확하게 함으로써 해결될 수 있다.

셋째, 비구조화된 소스에서 단일 단어 및 다중 단어(구문) 엔티티의 명확한 인식 및 분류를 극대화해야 할 필요가 있을 수 있다. 시퀀스 학습 신경망 모델을 사용하여 비구조화된 데이터로부터 명명된 엔티티 인식 성능이 부족할 수 있다(예를 들어, 독립적인 또는 CRF(Conditional Random Fields)와 조합된 재발성 신경망(RNN) 변형). 일부 실시 예들에서, 특히 의미론적으로 관련된 정보 소스들로부터, 단어 임베딩에 잠복하는 의미론적 유사성들에 대한 성능이 개선될 수 있다.

넷째, 구조화된 소스에 잠재된 특정 의미 정보를 추출할 필요가 있을 수 있다. 구조화된 저장소에 있는 데이터의 조직화는 구조화된 저장소의 필드와 키에서 의미 정보를 추출하는 데 도움이 되지 않을 수 있다. 예를 들어, FAERS(FDA 이상 반응보고 시스템)는 이상 반응 및 약물 복용 오류 보고서에 대한 구조화된 정보를 포함한다. 이 저장소에서 계산된 대중적인 측정 값은 데이터 구성으로 인한 통찰력 있는 잠재적 정보를 캡처하지 못한다.

약학적 생태계의 다양한 사일로에 의해 통상적으로 사용되고 본 개시의 실시 예에 의해 사용될 수 있는 데이터 소스의 예가 하기에 기술된다.

Drugs@FDA(www.accessdata.fda.gov/scripts/cder/drugsatfda/): Drugs@FDA에는 현재 FDA 승인 라벨, 구 라벨, 승인서, 리뷰(과학 분석) 및 환자 정보(1998- 현재)가 10 만 개가 넘는다. 이 구조화되지 않은 기술 자료에는 모든 처방전과 일반 의약품 및 미국에서 판매 승인된 치료 용 생물 의약품 및 모든 중단된 의약품 및 화학 유형 6 승인이 포함된다. 다음과 같은 치료학적 생물학적 제제가 포함된다: 단일 클론 항체, 사이토카인, 성장 인자, 효소, 면역 조절제, 혈전 용해제, 이들 제품의 재조합 버전을 포함하는(응고 인자를 제외하고) 동물 또는 미생물에서 추출한 치료 용 단백질, 및 비 백신 치료 면역 요법. Drugs@FDA의 정보는 FDA Orange Book(치료학적 동등성 평가가 승인된 의약품)과 INDs(investigational new drug applications), 신약 신청서(NDAs) 및 약식 NDA(ANDAs)를 유지 관리하는 Center-wide Oracle-based Management Information System(COMIS)에서 나온다. 본원의 일부 실시 예는 또한 투여 형태 및 약물 부류(https://dailymed.nlm.nih.gov/dailymed)와 같은 승인된 제품(www.fda.gov/ForIndustry/DataStandards/StructuredProductLabeling)에 대한 정보를 포함하는 FDA의 구조화된 제품 라벨링(SPL) 자원을 이용할 수 있다.

Federal Adverse Event Reporting System (https://open.fila.gov/data/faers/): FAERS(FDA Adverse Event Reporting System)은 FDA에 제출된 이상 반응 및 약물 남용에 대한 정보가 포함 된 610만 건이 넘는 보고서를 담은 데이터베이스이다. 이 데이터베이스는 의약품 및 치료 용 생물학적 제제에 대한 FDA의 시판 후 안전 감시 프로그램을 지원하도록 고안되었다. 크게 반-구조화되고 구조화된 FAERS 데이터베이스는 ICH E2B(International Conference on Harmonisation)에서 발표한 국제 안전보고 지침에 부합하며, 이상 반응 및 투약 오류는 규제 활동 의학 용어 사전(MedDRA) 용어의 용어로 코딩된다. FAERS에는 FDA 규정에 따라 의료 전문가(예를 들어, 의사, 약사, 간호사 및 기타), 소비자(환자, 가족, 변호사 등) 및 제품 제조업체의 이상 반응 보고서가 포함되어 있다.

Clinicaltrials.gov(https://ciinicaltrials.gov/): ClinicalTrials.gov는 미국 50 개 주와 192 개국에 걸쳐 실시, 완료 또는 해지된 22 만 건 이상의 임상 시험을 위한 방문 페이지를 제공하는 웹 기반 리소스이다. 이러한 대부분 구조화되지 않은 그리고 반 구조화된 자료에는 광범위한 질병 및 상태에 대한 공개 및 사적 지원 임상 연구에 대한 정보가 포함된다. 자료는 국립 보건원(NIH)의 국립 의학 도서관(NLM)에서 관리한다. 정보는 임상 시험의 후원자 또는 임상 시험의 PI(Principal Investors)가 제공하고 업데이트한다. 연구는 일반적으로 시작(등록)될 때 제출되며, 사이트의 정보는 연구 기간 동안 업데이트된다. 어떤 경우에는 연구가 끝난 후에도 결과가 구조화되지 않은 텍스트 및 반 구조화 테이블 형태로 포함된다. 각 ClinicalTrials.gov 레코드는 연구 프로토콜에 대한 요약 정보를 제공하며 다음을 포함한다: 질병 또는 상태; 개입 (예를 들어, 연구 대상 의약품, 행동 또는 절차); 연구의 제목, 설명 및 디자인; 참여 요건(자격 기준); 연구가 진행되는 곳; 연구 장소에 대한 연락처 정보; 환자 건강 정보를 위한 NLM의 MedlinePlus와 의학 분야의 학술 논문의 인용과 초록을 위한 PubMed 등과 같은 다른 건강 웹 사이트의 관련 정보에 대한 링크. 일부 기록에는 다음과 같은 연구 결과에 대한 정보도 포함된다: 연구 참여자에 대한 설명(연구를 시작하고 완료한 참가자 수 및 인구 통계 데이터); 연구의 결과; 및 연구 참여자가 경험한 이상 반응의 요약. 임상 시험 기록의 변경 사항에 대한 전체 기록은 ClinicalTrials.gov 아카이브(archive)를 통해 확인할 수 있다.

EDGAR-SEC SEC Filings(www.sec.gov/edgar/searchedgar/companysearch.html): EDGAR(Electronic Data Gathering, Analysis, and Retrieval) 시스템은 미국 증권 거래위원회(SEC)에서 요구하는 2,100 만 건의 서류를 제공한다. EDGAR는 회사 및 기타 단체에 의한 모든 제출물의 자동 수집, 검증, 색인 생성, 승인 및 전달을 수행한다. 주주에 대한 실제 연간 보고서(뮤추얼 펀드 회사 제외)는 EDGAR에 제출할 필요는 없지만 일부 회사는 자발적으로 그렇게 한다. 그러나 동일한 정보가 많은 Form 10-K 또는 Form 10-KSB에 대한 연례 보고서는 EDGAR에 제출해야 한다. EDGAR 데이터베이스에는 매일 3000 건이 넘는 서류가 있으며 대부분 구조화되지 않은 그리고 반 구조화된 형태로 이용 가능하다.

Wikipedia & DBpedia(www.wikipedia.org/ 및 http://wiki.dbpedia.org/): Wikipedia는 약 5 만여 개가 넘는 영어로된 기사가 약 70,000 명이 넘는 적극적인 기고가들에 의해 기고된 웹 기반 무료 컨텐츠이며 공개 편집 가능한 백과 사전이다. DBpedia는 Wikipedia에서 구조화된 정보를 추출하기 위한 커뮤니티 기반의 커뮤니티이다. DBpedia 기술 자료는 약 458,000 가지를 설명하며, 약 1,428,000 명, 약 735,000 개 장소, 약 411,000 개의 창작물, 약 241,000 개의 조직(약 58,000 개 기업 및 약 49,000 개 교육 기관 포함), 약 251,000 개의 종 및 약 6,000 개의 질병을 포함하여 422 만 개가 일관된 온톨로지로 분류된다.

Pubmed abstracts(www.nchi.nlm.nih.gov/pubmed): PubMed는 MEDLINE, 생명 과학 저널 및 온라인 서적의 생물 의학 문헌에 대한 2 천 6 백만 건의 인용을 포함한다. 인용문에는 PubMed Central 및 게시자 웹 사이트의 전체 텍스트 콘텐츠에 대한 링크가 포함될 수 있다. 여기에는 과학 연구용 EVIRAD 형식(소개, 방법, 결과 및 토론)과 무작위 통제 시험(RCT)을 위한 CONSORT(Consolidated Standards of Reporting Trials) 형식을 사용하는 구조화된 초록(www.nlm.nih.gov/bsd/policy/structured_abstracts.html)이 포함된다.

화합물 및 약물 엔티티: NCI-http://www.cancer.gov/; Clinicaltrials.gov-https://climcaltriais.gov/; Drugbank-http://www.drugbank.ca/; FDA- http://www.fda.gov/; Pubchem - http://pubchem.ncbi.nlm.nih.gov/.

회사: Crunchbase - https://www.crunchbase.com/; Linkedin - http://www.linkedin.com/; SBIR - https://www.sbir.gov/; Bloomberg - hitp://www. loomberg.com/.

인간 큐레이션 온톨로지: Hugo - http://www.genenames.org/; KEGG - http://www.gersome.jp/kegg/keggLhiml; MeSH - http://www.ncbi.rslm.mb.gov/mesh; OMPM - http://www.omim.org/.

일부 실시 예에서, 의미론적 검색 시스템은 약물 또는 치료적 엔티티의 "시간적 상태(temporal status)"에 관한 일련의 질의에 "요약 답변(summary answers)"을 제공할 수 있다. 시간적 상태는 약물 개발 단계(예를 들어, 전임상, 1 상, 2 상, 3 상 판매)를 나타낼 수 있습니다. 일부 실시 예에서, 시간적 상태는 의미론적 생물 지식 그래프에서 "엔티티" 및/또는 "하나 이상의 엔티티의 교차점"에 자동으로 매핑될 수 있다(예컨대, 도 8에 도시된 바와 같이). 엔티티의 비 제한적인 예는 다음을 포함 할 수 있다: 약물(예를 들어, Gleevec), 회사/조직(예를 들어, Roche, Dana Farber), 표시(예를 들어, 비소 세포 폐암), 표현형(예, 미엘린초의 재생, 혈관 신생), 유전자 돌연변이(예를 들어, 폐암 종의 EGFR T790M)를 포함하는 바이오 분자 특징, RNA 또는 단백질 발현(예를 들어, 암성 종양에서의 PD-L1 과발현; 드문 신경계 질환 PMD의 탈수 초성 PLP1), 신호 전달 경로(예를 들어, 혈액 암에서의 JAK/STAT 경로 및 류마티스 관절염과 같은자가 면역 질환), 유전자 융합(예를 들어, 백혈병의 BCR / ABL 융합 또는 필라델피아 염색체), 카피 번호 변경(Copy Number Alterations)(예를 들어, 유방암의 BRCA, 결장 직장암의 APC) 및 "치료 양식(therapeutic modality)"(예를 들어, 소분자, 항체, 면역 요법, 유전자 요법, 방사선 요법).

도 1은 본 개시의 일부 실시 예들에 따른 시스템 아키텍처(system architecture)를 도시한다. 본 개시의 실시 예들은 상이한 경로들(예를 들어, 101a 및 102a)로부터 키 데이터(key data)(예를 들어, 엔티티들, 그들의 속성들, 엔티티 유형들, 논리적 및 시간적 시퀀스 관계들) 전제 조건(prerequisite)들을 유리하게 추출할 수 있고 시스템 저장소(114)의 키 데이터 전제 조건들을 다른 것을 활용하는 경로들로 통합(consolidation)할 수 있다. 이러한 추출 및 통합 방법을 사용함으로써, 본 개시의 실시 예들은 합성 반응을 자동화할 수 있다.

정보는 일반적으로 구조화된 데이터와 비구조화된 데이터 모두에 분산되어 있다. 예를 들어, 제1 라인(line) 및 제2 라인 요법으로 투여되는 약물의 시간적 시퀀스는 임상 시험에서 문장에 포함되어 있다. 본 개시의 실시 예들은 시간적 시퀀스를 구성하기 위해 임상 실험에서 문장을 수동으로 읽어야 할 필요성을 제거할 수 있다.

시스템으로의 입력 데이터는 구조화된 데이터(101), 반-구조화된 데이터(116) 및/또는 비구조화된 데이터(102)일 수 있다. 일부 실시 예들에서, 구조화된 데이터(101)는 엔티티들의 집합(entity tuple)의 형태일 수 있다. 예를 들어 구조화된 데이터는 키(key)-값(value)의 집합을 포함할 수 있고, 여기서 키는 "질병(disease)"이고 값은 "암(cancer)"이다. 일부 실시 예들에서, 비구조화된 데이터(102)는 구문 또는 문장의 형태로 정보를 포함할 수 있다. 예를 들어, 비구조화된 데이터에는 "나는 파킨슨 병이 있고 약물 X를 복용했다"라는 문구가 포함될 수 있다. 일부 실시 예에서, 반-구조화된 데이터(117)는 구조화된 데이터 및 비구조화된 데이터 모두를 포함할 수 있다. 예를 들어, 반-구조화된 데이터는 키/값의 집합의 계층 구조/평면 구조가 될 수 있고, 일부 값은 비구조화된 것이다.

일부 실시 예들에서, 구조화된 데이터(101)는 101a을 통해 이용 가능한 문맥으로 명확하게 엔티티 유형 및 그 속성(엔티티)을 식별할 수 있는 구조화된 데이터 추출 분류기(103)에 전달될 수 있다. 예를 들어, 구조화된 데이터가 "질병=암"인 경우, 구조화된 데이터 추출 분류기(103)는 엔티티 유형이 "질병"이고 엔티티가 "암"임을 식별할 수 있다. 일부 실시 예들에서, 구조화된 데이터 분류기(103)는 지원 벡터 머신(Support Vector Machine, SVM)과 같은 감독된 학습 모델을 사용할 수 있다. 구조화된 데이터 추출 분류기(103)는 추출된 데이터를 시스템 저장소(114)에 저장할 수 있다(103a). 일부 실시 예들에서, 구조화된 데이터 추출 분류기(103)의 출력은 엔티티 유형, 엔티티들 및 다른 엔티티 유형들에 대한 엔티티 유형의 관계일 수 있다.

엔티티의 엔티티 유형은 다양한 다른 방법으로 식별될 수 있다. 일부 실시 예들에서, 엔티티의 엔티티 유형은 시퀀스 모델에 기초하여 식별될 수 있다. 예를 들어, LSTM을 사용할 수 있다. 시퀀스 모델은 특정 코퍼스에 대해 훈련되어 단어가 나오는 문맥(context)을 학습할 수 있다. 따라서, 시퀀스 모델은 현재 엔티티 유형과 연관되지 않은 엔티티가 발생하는 문맥을 밝힐 수 있다. 이는 엔티티 유형이 엔티티에 대해 탐색될 때 엔티티 유형이 엔티티와 연관될 수 있게 한다. 엔티티들이 발생하는 상황을 밝히기 위해 기계 학습을 위한 다른 적합한 모델을 사용할 수도 있다.

일부 실시 예들에서, 엔티티의 이웃(neighbor)은 이웃의 엔티티 유형에 기초하여 엔티티의 엔티티 유형을 식별하는데 사용될 수 있다. 일부 실시 예에서, 이웃은 엔티티에 밀접하게 관련된-그의 코사인 거리 관점에서-다른 엔티티로서 정의될 수 있다. 일부 실시 예들에서, 특정 수의 이웃들이 선택될 수 있고, 가중치가 선택된 이웃들 각각에 할당될 수 있다. 예를 들어, 엔티티 유형을 엔티티와 연관 시키기 위해, 엔티티의 이웃들을 엔티티로부터의 코사인 거리를 기준으로 순위를 매길 수 있으며 상위 500 개의 이웃들을 고려할 수 있다. 500 개의 이웃들 각각은 등급에 따라 달라질 수 있는 백분율 가중치와 같은 가중치를 할당 받을 수 있다. 예를 들어, 제1-등급 이웃에 1 %의 가중치가 할당되고 제2-등급 이웃에 0.9%의 가중치가 할당되고 제3-등급 이웃에 0.87%의 가중치가 할당될 수 있다. 일부 실시 예에서, 가중치의 감소율은 지수 감쇠 함수에 기초할 수 있다. 일부 실시 예들에서, 모든 이웃들은 임의의 제한 없이 고려될 수 있다. 일부 실시 예들에서, 가중치의 양은 코사인 거리의 값에 정비례할 수 있다. 일부 실시 예에서, 가중치의 양은 등급의 값에 정비례할 수 있다. 경우에 따라, 등급이 바닥으로 이동함에 따라 가중치가 지속적으로 감소하기 때문에 이러한 가중치 할당은 "연속 감퇴(continuous decay)"라고 할 수 있다. 가중치가 할당된 후에는, 이웃의 엔티티 유형들을 검사하고 동일한 엔티티 유형으로 그룹화할 수 있다. 각 엔티티 유형에 대해 해당 엔티티 유형에 대한 이웃의 백분율 가중치의 합이 계산되어 해당 엔티티 유형에 할당될 수 있다. 예를 들어, 엔티티 유형 X가 3 개의 백분율 가중치들(0.5 %, 0.3 % 및 0.1 %)을 갖는 3 개의 이웃들과 연관되어 있으면, X에 0.9 %의 백분율이 지정된다. 일부 실시 예에서, 이 백분율은 상기 엔티티 유형이 되는 상기 엔티티의 확률을 나타낼 수 있다. 일부 실시 예에서, 시스템은 그러한 백분율이 특정 임계 숫자를 초과하면 엔티티를 엔티티 유형과 연관시킬 수 있다. 일부 실시 예들에서, 시스템은 엔티티 유형과 엔티티를 가장 높은 백분율로 연관시킬 수 있다.

일부 실시 예들에서, 이웃들에 변화하는 가중치들을 할당하는 대신에, 각각의 이웃은 동일한 가중치를 할당 받을 수 있다. 예를 들어, 상위 100개의 이웃들을 선택할 수 있고, 각 이웃은 그 가중치로 1 %를 할당 받을 수 있다. 이 경우, 인접한 코사인 거리가 다른 경우에도, 가중치가 할당될 때 동일하게 취급된다.

일부 실시 예에서, 비구조화된 데이터(102)는 102a를 통해 비구조화된 데이터 추출 분류기(105)로 전달될 수 있다. 비구조화된 데이터 추출 분류기(105)의 출력은 추출된 데이터를 시스템 저장소(114)에 저장할 수 있다(105a). 일부 실시 예들에서, 비구조화된 데이터 추출 분류기(105)는 인공 신경망(artificial neural network, ANN)(예를 들어, 반복적인 신경망(recurrent neural network, RNN)) 및/또는 워드 임베딩(embedding) 생성기의 등급을 사용할 수 있다.

일부 실시 예에서, 구조화된 데이터(101)로부터 추출될 수 있는 잠재적인 정보가 있을 때, 특수 인코더(104)는 구조화된 데이터(101)로부터 비구조화된 데이터를 생성하는데 사용될 수 있다. 특수 인코더(104)는 생성된 비구조화된 데이터를 비구조화된 데이터 추출 분류기(105)로 전송할 수 있고(104a), 이는 차례로 비구조화된 데이터 추출 경로(105a)를 통해 출력을 전송할 수 있다. 일부 실시 예들에서, 생성된 비구조화된 데이터는 비구조화된 텍스트의 형태이다. 예를 들어, 구조화된 데이터가 "질병=암, 표시=체중 감소, 약물=메토트렉세이트, 부작용=현기증"인 경우, 특수 인코더(104)는 "질병 암 표시 체중 감소 약물 메토트렉세이트 부작용 현기증"의 형태로 비구조화된 데이터를 생성할 수 있다. 이 예에서, 구조화된 데이터의 잠재 정보는 암이 체중 감소 및 메토트렉세이트와 연관될 수 있으며 환자가 어지러움을 겪을 수 있다는 것이다.

따라서, 그러한 잠재적 정보는 전문 인코더(104)에 의해 처리된 구조화된 데이터(101) 상의 비구조화된 데이터 추출 분류기(105)를 사용함으로써 추출되고 레버리징(leveraging)될 수 있다. 일부 실시 예들에서, 구조화된 데이터(101)의 일부는 특수 인코더(104)를 사용하여 처리될 수 있다. 다른 실시 예들에서, 전체 구조화된 데이터(101)는 특수 인코더(104)를 사용하여 처리될 수 있다. 다른 예에서, 특수 인코더(104)는 엔티티 라벨을 사용하여 엔티티를 주어진 근접도로 위치시킴으로써 비구조화된 데이터를 생성할 수 있다. 예를 들어, 동일한 세트의 구조화된 데이터가 주어지면, 특수 인코더(104)는 "약물 질환 약물 표시 부작용"의 맵핑을 적용하여 "메토트렉세이트 암 메토트렉세이트 중량 손실 메토트렉세이트 현기증"의 비구조화된 텍스트를 생성할 수 있다.

일부 실시 예에서, 반-구조화된 데이터(117)의 구조화된 데이터 부분은 구조화된 데이터 추출 분류기(103)로 전달될 수 있다. 일부 실시 예에서, 반-구조화된 데이터(117)의 비구조화된 데이터 부분은 비구조화된 데이터 추출 분류기(105)로 전달될 수 있다. 일부 실시 예에서, 반-구조화된 데이터(117)의 구조화된 데이터 부분의 일부 또는 전체는 특수 인코더(104)로 전달될 수 있고, 이는 비구조화된 데이터 추출 분류기(105)로 출력을 전송할 수 있다.

일부 실시 예에서, 비구조화된 데이터 추출 분류기(105)의 출력은 엔티티 유형, 엔티티, 문서/문단/문장 임베딩, 시간적/논리적 시퀀스 관계를 포함하는 엔티티 관계 및 시퀀스 표현을 포함할 수 있다. 일부 실시 예에서, 엔티티는 라벨링되거나 라벨링되지 않을 수 있다. 엔티티를 설명하는 데 라벨을 사용할 수 있다. 예를 들어, 엔티티 "EGFR"은 "표피 성장 인자 수용체"를 나타낼 수 있으며, 이 경우 엔티티 "EGFR"은 유전자로 표시될 수 있다. 라벨이 없으면 엔티티가 참조할 수 있는 것에 모호한 부분이 있을 수 있다. 예를 들어, 엔티티 "EGFR"이 라벨링되지 않으면, "EGFR"이 "표피 성장 인자 수용체(Epidermal Growth Factor Receptor)" 유전자 또는 실험실 테스트 "추정 사구체 여과율(Estimated Glomerular Filtration Rate)"을 나타낼 수 있기 때문에 "EGFR"이 모호할 수 있다. 엔티티들은 다양한 기법을 사용하여 라벨링될 수 있다. 예를 들어, 검색(예를 들어, Google 사용)은 엔티티에 대한 라벨을 생성할 수 있다. 또 다른 예로, 코퍼스는 라벨을 제공할 수 있다. 예를 들어 Wikipedia는 많은 페이지에서 특정 엔티티에 대한 라벨을 제공할 수 있다. 비구조화된 데이터의 경우 엔티티를 둘러싼 문맥을 분석하여 라벨을 결정할 수 있다. 일부 실시 예에서, ANN의 등급(예를 들어, RNN)이 그러한 분석을 수행하는데 사용될 수 있다. 일부 실시 예들에서, ANN을 사용하여 수행된 분석은 도 8 및 9와 관련하여 후술되는 레버리징 시스템 및 방법에 의해 개선될 수 있다.

일부 실시 예들에서, 시스템 저장소(114)는 정보의 합성을 용이하게 하고 및/또는 상이한 경로들(예를 들어, 경로들(103a, 105a))을 통한 후속 정보 추출을 가능하게 하기 위해 상이한 형태의 2 개 이상의 소스 경로들(예를 들어, 103a 및 105a)로부터 추출된 정보를 캡처할 수 있다. 시스템 저장소(114)는 구조화된 의미론적 데이터베이스(106)(전통적인 데이터베이스일 수 있음)에 저장된 정보; 지식 그래프(들)(107)(라벨링된 엔티티들(경로들(101a 및 102a)로부터 추출된) 및/또는 라벨링되지 않은 엔티티들(경로(102a)로부터 추출된)의 지향된 그래프들일 수 있는); 단어 임베딩들(108)(단어(들) 및/또는 문장(들)을 포함할 수 있는); 문서/문단/문장 임베딩들(109); 및 비구조화된 데이터의 시퀀스 표현(110)을 포함할 수 있다. 일부 실시 예에서, 단어 임베딩의 예는 word2vec일 수 있다. 일부 실시 예에서, 문서/단락/문장 임베딩의 예는 doc2vec일 수 있다. 일부 실시 예에서, 시퀀스 표현(110)의 예는 메모리 신경망(MemNN)일 수 있다. 일부 실시 예에서, MemNN은 "질문 및 답변(Question and Answer)" 스타일 발견을 위해 사용될 수 있고, MemNN은 응답/후속 질문을 생성하기 위해 질문에 대해 교육될 수 있다. 일부 실시 예에서, 이러한 응답 및/또는 후속 질문은 모호한 경우에 사용될 수 있다. 예를 들어, 엔티티가 참조할 수 있는 것에 관해서 모호함이 있을 수 있다.

일부 실시 예에서, 단어 임베딩(108) 및/또는 문서/문단/ 문장 임베딩(109)은 넓은 등급의 도메인 특정 코퍼스에 대해 생성된 임베딩의 리포지터리(repository)일 수 있다. 일부 실시 예에서, 이들 임베딩은 그 도메인 내의 라벨링된 엔티티 및 라벨링되지 않은 엔티티의 하나 이상의 관계를 캡처할 수 있다. 일부 실시 예에서, 이들 임베딩은 그러한 관계의 강도를 표시 및/또는 순위 매기기 위해 사용될 수 있다.

임베딩은 하나 이상의 지식 그래프(107)를 구성하는데 사용될 수 있다. 지식 그래프(107)는 범용/도메인/문맥 고유의 가중치를 갖는 라벨링된 노드 및/또는 라벨링되지 않은 노드를 갖는 범용 그래프, 도메인 및/또는 문맥 고유의 그래프를 나타낼 수 있다. 코퍼스는 임베딩을 결정할 수 있으며 그래프에서 이웃 노드들을 결정할 수 있다. 시퀀스 표현(110)은 범용, 도메인 및/또는 문맥 고유 시퀀스의 리포지토리일 수 있으며, 다수의 문장들/질문들에 걸친 질문을 이해하고 응답하는데 사용될 수 있다.

시스템 저장소(114)는 응답을 합성하고 경로들(107a 및 108a) 모두를 통해 후속적인 정보 추출을 용이하게 하는 역할을 할 수 있다. 예를 들어, 단어 임베딩(108)은 구조화된 데이터에 존재할 수 있는 허위 정보를 제거하는데 사용될 수 있다. 일부 실시 예에서, 엔티티가 구조화된 레코드에서 발견되고, 워드 임베딩 이웃 메트릭을 통해 밝혀질 수 있는 것처럼, 엔티티가 레코드의 다른 엔티티들과 의미적으로 관련이 없는 경우, 그 정보는 구조화된 데이터 추출 분류기(103)로 전달될 수 있고(108a), 그 엔티티는 수동 검증을 위해 격리될 수 있다. 구조화된 데이터베이스 경로(107a)는 명명된(named) 엔티티 라벨링 스코어를 향상 시키는데 사용될 수 있다. 일부 실시 예에서, 명명된 엔티티 라벨링 스코어는 용어/구문을 라벨링하는 신뢰 스코어와 연관될 수 있다. 일부 실시 예에서, 구조화된 의미론적 데이터베이스(106)는 용어/구문의 엔티티 유형을 유효화 및/또는 확인하는데 사용될 수 있다; 이것은 명명된 엔티티 라벨링 스코어를 개선하는 데 도움이 될 수 있으며 용어/구문 라벨링의 신뢰도 스코어를 높일 수 있다.

시스템 저장소(114)는 식별 엔진(discrimination engine)(116)에 전력을 공급할 수 있고, 이는 대화/질의 분석기(1110)(주로 시퀀스 표현(110)에 의존할 수 있음), 응답 합성기(112) 및 응답 템플릿 생성기/선택기(115)를 포함한다. 응답 템플릿 생성기/선택기(115)는 116a를 통해 사용자 인터페이스(113)에 전력을 공급할 수 있다. 일부 실시 예에서, 대화/질의 분석기(1 11)는 검색 용어 및 필터 기준과 같은 사용자 입력을 분석할 수 있다. 예를 들어, 사용자가 인터페이스(예를 들어, 도 8의 인터페이스)에서 용어 "AML"을 검색하면, 대화/질의 분석기(1111)는 이 검색 용어를 수신하고 분석할 수 있고, 추가 처리를 위해 검색 용어를 응답 합성기(112)로 전달할 수 있다. 일부 실시 예에서, 대화/질의 분석기(111)는 분석 기능을 위해 114a를 통해 시스템 저장소(114)로부터 데이터를 수신할 수 있다. 응답 합성기(112)는 또한 114b를 통해 시스템 저장소(114)로부터 데이터를 수신 할 수 있고, 이 데이터를 사용하여 사용자의 검색 동작에 대한 결과를 생성하는 것과 관련된 응답을 합성할 수 있다.

응답 템플릿 생성기/선택기(115)는 검색 결과를 인터페이스를 통해 사용자에게 제시하기 위해 사용될 적절한 템플릿을 생성/선택할 수 있다. 도 7의 황소의 눈(bull 's eye) 생체 지식 그래프 및 도 8의 파이프 라인 생체 지식 그래프와 같은 상이한 유형의 생체 지식 그래프들을 생성하기 위해 상이한 유형의 템플릿들이 사용될 수 있다. 일부 실시 예에서, 응답 템플릿 생성기/선택기(115)는 인터페이스 상에 제시되고 있는 엔티티에 대한 라벨에 기초하여 템플릿을 생성할 수 있다. 이러한 엔티티는 그의 엔티티 분포를 기반으로 선택될 수 있다. 일부 실시 예에서, 응답 템플릿 생성기/선택기(115)는 하드-코딩된 템플릿들의 세트로부터 템플릿을 선택할 수 있다. 일부 실시 예에서, 하드-코딩된 템플릿은 트레이닝을 통해 생성될 수 있다(예를 들어, 시스템은 특정 유형의 엔티티 및 코퍼스로부터의 그들의 라벨을 학습함으로써 템플릿을 생성할 수 있다). 다른 실시 예에서, 하드 코딩된 템플릿이 수동으로 생성될 수 있다. 일부 실시 예에서, 사용자는 자동 선택/생성된 템플릿에서 뷰의 일부 또는 전부를 오버라이딩(overriding)할 수 있다. 예를 들어, 사용자는 필터를 사용하여 약제 정보를 표시 정보로 대체할 수 있다.

시스템(100)의 일부인 다양한 구성 요소들은 하드웨어, 소프트웨어, 또는 이들의 조합으로서 구현될 수 있다. 여기에 설명된 다양한 구성 요소들 및 블록들은 본 기술의 범위를 벗어나지 않고 모두 다르게 배열될 수 있다(예를 들어, 다른 시퀀스로 정렬되거나 다른 방식으로 분할/결합 됨).

일부 실시 예에 따르면, 도 1의 시스템에 의한 하나 이상의 계산은 클라우드 시스템의 하나 이상의 프로세서에 의해 수행될 수 있다. 일부 실시 예에서, 출력의 임의의 렌더링(예를 들어, 사용자 인터페이스의 렌더링)은 사용자 디바이스(예를 들어, 개인용 컴퓨터, 모바일 디바이스 등)에 의해 수행될 수 있다. 일부 실시 예에서, 도 1의 시스템으로의 임의의 입력은 하드웨어 및/또는 소프트웨어를 포함할 수 있는 입력 시스템에 의해 이루어질 수 있다(예를 들어, 키패드, 키보드, 마이크로폰, 음성 인식 소프트웨어 등). 일부 실시 예들에서, 도 1의 시스템에서 사용되는 데이터베이스(예를 들어, 구조화된 의미론적 데이터베이스(106))는 관계 데이터베이스, NoSQL DB, 플랫 파일 및/또는 임의의 다른 적합한 데이터베이스와 같은 임의의 소스로부터 제공될 수 있다. 일부 실시 예에서, 데이터베이스는 로컬 데이터베이스 및/또는 원격 데이터베이스일 수 있다. 도 2a는 질의에 의미론적 응답을 제공하는 한 방법을 도시한다. Google과 같은 검색 엔진을 사용하여 검색어 "ami"에 대한 정보를 찾을 수 있다.

도 2b는 본 개시의 일부 실시 예들에 따른 다수의 경로들로부터의 데이터를 합성함으로써 가능한 인터페이스의 표현을 도시한다. 일부 실시 예에서, 이들 경로들을 도 1의 경로들(101a 및 102a)일 수 있다.

도 3a는 질의에 의미론적 응답을 제공하는 한 방법을 도시한다. 도 3b는 본 개시의 일부 실시 예에 따른 다수의 경로들로부터 데이터를 합성함으로써 가능한 인터페이스의 표현을 도시한다. 도 3a에서, 사용자 인터페이스는 검색 입력 "AML"에 대한 속성의 정보 박스(302)를 갖는 문서(301)의 검색 인덱스에 의해 작동된다. 또한, 검색 용어와 의미론적으로 관련된 질의들의 세트가 인터페이스를 구동하는 백엔드(backend)에 있다. 대조적으로, 도 3b에서, 사용자 인터페이스는 풍부한 의미의 정보를 가질 수 있다. 예를 들어, 사용자 인터페이스의 검색 용어 "AML"이 결과의 아무 곳에도 없을 수 있다. 심지어 대충 한눈에 봤을 때도, 검색어 "AML"과 일치하는 결과가 없다는 것을 알 수 있다. 일부 실시 예에서, 인터페이스을 작동하는 합성된 데이터는 로우 및 컬럼의 매트릭스일 수 있으며, 여기서 제1 컬럼(303) 및 제2 컬럼(304)은 사용자 입력 "AML"과 관련될 수 있는 엔티티이다(이 예에서는, 제1 컬럼에는 약물 및 그 관련 회사 관련 정보가 포함되고; 및 제2 컬럼에는 경로와 관련된 정보가 포함된다). 후속 컬럼들은 시간 시퀀스를 형성할 수 있으며, 각 컬럼은 약물 개발의 다른 단계(phase)와 관련된다.

도 4는 본 개시의 일부 실시 예에 따른 응답 합성기(112)(도 1)에 의해 생성된 데이터의 예시적인 2-차원 매트릭스를 도시한다. 이 2-차원 데이터 매트릭스는 사용자 입력 "AML"에 대한 응답을 보여주며, 다음 항목이 표시된다: 엔티티(401)(약물 + 회사, 경로들), 엔티티들의 시간 시퀀스(403)(개발의 다양한 단계에서의 약물들), 요약(402) 및 의미론적 필터 및 데이터의 변환을 포함할 수 있는 매트릭스 변환 제어(404). 의도 결정은 응답 템플릿 선택기(115)(도 1)를 사용하여 응답의 합성을 초래할 수 있는 질의 분석기(111)(도 1)에 의해 수행될 수 있다. 일부 실시 예에서, 템플릿 선택기/생성기(115)는 엔티티 및 엔티티 시퀀스를 포함하는 적절한 응답 템플릿을 생성하기 위해 신경망(예를 들어, 컨벌루션/RNN 조합)에 의해 트레이닝 될 수 있다.

일부 실시 예에서, 감독된 학습 시스템인 구성 요소는 수동 오버라이드를 포함하는 사용자 샘플링 및 검증을 가질 수 있다. 템플릿 선택기/생성기(115)를 훈련시키는 라벨링된 데이터의 양이 초기에 낮으면(예를 들어, 특정 도메인에 대해 그리고 시스템이 암기할 수 있다), 이러한 시스템은 수작업으로 설계된 규칙 기반 템플릿 시스템보다 확장성이 좋으며, 더 많은 라벨링된 데이터(사용 사례)의 가용성으로 인해 시스템이 더 불안정해질 수 있다. 신경망에서, 네트워크의 파라미터들의 수가 많고 학습 데이터가 작으면, 시스템은 많은 수의 매개 변수가 주어지기 때문에 교육 데이터에 밀접하게 맞출 수 있다. 이를 오버 피팅(overfitting)이라고 한다. 오버 피팅은 훈련된 데이터를 암기하는 것과 같을 수 있다. 이것은 반드시 훈련 데이터 이상으로 일반화될 수 있음을 의미하지는 않는다. 도 4의 응답은 설명의 목적으로 2 차원 공간에 표시된다. 일부 실시 예에서, 본 개시의 실시 예는 단일 차수 및 2 이상의 차수를 포함하는 임의의 수의 차수를 갖는 인터페이스를 작동할 수 있다.

현재의 기술 상태에서, 사용자 인터페이스는 종종 데이터베이스 뷰에 의해 뒤에서 전원이 공급되는데, 뷰의 데이터는 선택된 라벨링 엔티티로 미리 선별되어 있다. 대조적으로, 도 4에 도시된 바와 같이, 본 개시의 실시 예들은, 입력 질의가 라벨링되지 않은 엔티티들을 포함하는 경우에도, 풍부한 의미론적 응답이 동적으로 자동 합성되도록 한다(예를 들어, 미엘린초의 재생(remyelination), "미엘린초의 재생의 상술(elaborate on remyelination)"). 일부 실시 예들에서, 풍부한 의미론적 응답은 (1) 질의의 문맥에 기초하여 입력 용어들 주위의 엔티티 분배를 검사하고, 여기서, 엔티티 분포는 코퍼스 내의 및/또는 다른 코퍼스들 사이의 용어 주위에서 다를 수 있고(예를 들어, 도 9는 "재 수초 형성(elaborate)"이라는 용어에 대한 엔티티 분포를 도시한다); (2) 응답을 구성하기 위한 후보 엔티티 및 엔티티 시퀀스를 식별하고; (3) 식별된 후보 엔티티 및 엔티티 시퀀스에 기초하여 요약을 생성하고; 그리고 (4) 선택된 후보 엔티티 및 엔티티 시퀀스에 적절한 변환을 선택함으로써 합성될 수 있다.

또한, 본 개시에서 설명된 시스템 구성 요소는 구조화된 데이터 및 비구조화된 데이터로부터 감독된, 감독되지 않은 또는 반 감독된 중 어느 하나를 학습할 수 있다.

본 개시의 실시 예에 따른 시스템 및 방법은 사용자 질의에 대한 의미론적 응답을 합성하는데 있어 다양한 문제점-그 예가 아래에서 직접 논의된다-을 해결할 수 있다.

예를 들어, 사용자가 라벨링된 엔티티 또는 엔티티 등급이 아닌 질의를 하는 경우(예를 들어, 재 수초 형성)가 문제가 될 수 있다. 이 경우 지식 그래프(라벨링된 엔티티와 라벨링되지 않은 엔티티 모두 포함하는)는 이웃을 스캔하여 사용자 입력과 관련된 라벨링된 엔티티를 쉽게 찾을 수 있다. 또한, 라벨링된 엔티티(예를 들어, 유전자, 약물, 표시, 회사 등)의 분류는 이 엔티티의 가장 관련 있는 의미론적 표현의 선택을 용이하게 하기 위해 엔티티 분포(예를 들어, 도 9)의 계산을 가능하게 할 수 있다. 이 접근법은 위에서 설명한 엔티티 등급 부적합 문제를 해결하고, 기술 시스템의 현재 상태는 어휘적으로 일치하는 결과 또는 라벨링이 없는 엔티티에 대한 단어 포함 이웃의 엔티티만 출력한다.

또 다른 예는 단어, 문서/단락/문장 임베딩이 의미론적으로 관련 있는 엔티티를 공동으로 발생시키지 않는다 하더라도 고유한 특성을 지녔지만 이 엔티티를 임베딩에서 발견하기 어렵다는 점입니다.

본 개시의 실시 예들은 의미론적 관계를 라벨링된 엔티티 및/또는 엔티티 등급과 조합함으로써 지식 그래프를 구성할 수 있다. 이를 통해 혁신적인 통찰력을 발굴할 수 있고, 이 통찰력은 기본 문학에서 공동 발생으로 묘사되지 않는다. 예를 들어, "riluzole"(ALS 약물)이라는 단어와 "vemurafenib"(흑색 종 약물)이라는 단어는 코사인 거리가 약 0.48로 표시될 때 서로 가깝다. 코사인 거리는 이 두 단어들이 암 치료의 문맥에서 발견됨에 따라 유의미한 것으로 밝혀지며, 따라서 이 단어들이 발견되는 문맥에는 중복이 있다. 그러나, "riluzole "과 "vemurafenib"이라는 단어의 근접한 결합은 소비된 모든 주요 문헌에서 발생하지 않는다. 예를 들어, Google 검색은 5 단어 창 근접 내에 이 두 단어를 포함하는 문서를 표시하지 않는다. 일부 실시 예에서, 새로운 통찰력은 "riluzole" 및 "vemurafenib"와 같은 단어 사이의 관계를 나타낼 수 있는 시스템으로부터 나타날 수 있다. 이러한 통찰력은 R & D 가설, 임상 시험 설계 및 상업적 결정의 효과적인 생성에 도움이 될 수 있다. 일부 실시 예에서, 이러한 관련 엔티티의 시각화는 이들 이웃 엔티티를 문서 내의 최초 용어에 대한 물리적 근접성 때문에만 나타나는 다른 것들과 구별하는 메커니즘을 포함할 수 있다. 예가 도 11에 나와 있다. 다시 말하면, 아래에서보다 상세히 설명하는 바와 같이, "riluzole"과 "vemurafenib"사이의 관계는 코퍼스에서의 근접성 때문에 발견되지 않는다. 오히려 숨겨진 관계를 밝혀내는 것은 전체 코퍼스를 분석한 결과에 기초하여 해당 엔티티의 특성화와 유사하다(예를 들어, 그들의 벡터들의 코사인 거리를 비교함으로써).

일부 실시 예에서, 비구조화된 소스와 구조화된 소스로 생성된 지식 그래프를 사용하여 엔티티 고유 중심(centroid)을 생성하고(예를 들어, 문맥과 관련된 엔티티들의 전부 또는 일부 사용) 합성된 중심을 사용하여 양방향 LSTM(Long short- term memory) RNN과 같은 시퀀스 학습 모델에 의해 생성된 엔티티의 라벨링을 검증할 수 있다. 의미론적 생물 지식 그래프는 특정 문서가 해석되어야 하는 문맥을 제한하는데 사용될 수 있다; 이는 일반 데이터베이스(예를 들어, 모든 HUGO 유전자의 데이터베이스를 고려)에서 많은 "노이즈(noise)"를 필터링하는 데 도움이 될 수 있다.

일부 실시 예에서, 구조화된 소스로부터의 키/값 필드는 구조화된 데이터에서 잠정적 의미론적 관계를 나타내는 단어 임베딩을 생성하기 위해 학습 모델에 공급될 수 있는 비구조화된 스트림을 생성할 수 있는 특수 인코더를 통해 처리된다.

일부 실시 예에서, 라벨링된 엔티티를 갖는 지식 그래프는 엔티티를 식별하고 응답을 생성하는데 직접 사용될 수 있다. 지식 그래프는 예시적인 "이웃"(도 5a-5b) 및 "유추"사례 연구(도 6a-6d)에 대해 강조 표시된 것처럼 다양한 엔티티를 관련시킬 수 있다. 일부 실시 예에서, 지식 그래프는 (1) 라벨링된 및 라벨링되지 않은 모든 엔티티를 수용하는 집합 컴퓨터 시스템, (2) 엔티티 특정 컴퓨터 시스템 및 (3) 엔티티로서 라벨링되지 않은 모든 용어 또는 구문을 수용하는 라벨링되지 않은 컴퓨터 시스템의 컬렉션을 포함할 수 있다.

도 5a 및 도 5b는 본 개시의 일부 실시 예에 따른 사용자 제공 예시적인 질의의 "이웃"에 대해 강조된 바와 같이, 다양한 엔티티와 관련된 지식 그래프를 도시한다. 사용자가 제공한 예시적인 질의는 각각 도 5a 및 도 5b의 경우 "Lacosamide" 및 "Certolizumab"이다. 이러한 지식 그래프는 시스템이 코퍼스(예를 들어 "코어 코퍼스")에서 작동할 수 있는 방법을 보여준다.

도 6a 내지 도 6d는 본 개시의 일부 실시 예에 따른 "유추(analogies)"에 대해 강조된 바와 같이, 지식 그래프가 다양한 개체를 어떻게 관련시키는지를 보여주는 예를 도시한다. 일부 실시 예에서, 지식 그래프는 라벨링된 엔티티(엔티티/할당된 엔티티 등급을 갖는 단어/문서/단락/문장 임베딩) 및 라벨링되지 않은 엔티티를 포함한다.

도 6a는 예 # 1을 도시하며, 여기서 "anti-EGFR:Erlotinib::infliximab:?" (A:B::C:?, 즉, A가 B이면 C는?의 잘 알려진 형식을 사용하는)가 존재하고 상위 히트는 인플릭시맙의 표적인 항-TNF를 포함한다. 도 6B는 예 # 2를 도시하며, "T315I:Ponatinib::CO-1686:?"가 존재하고 상위 히트는 CO-1686/Rociletinib의 유전자형인 T790M을 포함한다. 도 6c는 예 # 3을 도시하고, "Arthritis:Certolizumab:: Rotigotine:?"이 존재하고 상위 히트는 Rotigotine이 치료를 위해 FDA 승인을 받은 질병 표시인 파킨슨증이 포함된다. 도 6d는 예 # 4를 도시하며, "Zyrtec: Allergy ^Hypercholesterolemia:?"이 존재하고 상위 히트는 Hypercholesterolemia를 치료하기 위해 FDA 승인된 Rosuvastatin을 포함한다.

일부 실시 예에서, 드러난 의미론적 관계는 제약 분야의 중요한 상업적, 임상적 및 R&D 기능에 대한 워크 플로우를 자동화하는 것을 도울 수 있다. 예를 들어 고아(Orphan) + 희소(Rare) 질환 렌즈를 통해 복잡한 질병의 풍경에 대한 전략적 통찰력을 생성하여 사용자가 고 가치 투자 공간을 식별하도록 돕는 것이다. 관련 사용 케이스는 데이터 중심의 상업 및 임상 전략을 지원하기 위한 경쟁력 있는 임상 투자 환경에 대한 주문형의 강력한 비주얼 스냅 샷을 생성할 수 있다.

일부 실시 예에서, 하나의 예시적인 사용 사례는 고아/희소 질환 혁신 공백을 식별하기 위해 생체 지식 그래프를 사용할 수 있는 워크 플로우 자동화를 포함할 수 있다. 일부 실시 예에서, 다음과 같이 이 워크 플로우 자동화를 달성하기 위해 상이한 단계가 취해질 수 있다. 첫째, 의미론적 생체 지식 그래프에서 각 검색어의 근위에 있는 질병 표시 "엔티티"를 식별할 수 있다(예를 들어, "신경 퇴화(neurodegeneration)", "미엘린초의 재생(remyelination)", "혈관 신생(angiogenesis)" 등과 같은 "실 세계 표현형" 엔티티에 대해). 둘째, 식별된 각 질병 표시에 대해 시스템은 미국, 서유럽, 영국, 일본 및 신흥 시장과 같은 하나 이상의 지리적 영역에서 시장(들)을 결정할 수 있다(예를 들어, 상업 시장, 투자 시장). 생체 지식 그래프는 각 질병 및/또는 각 지리적 영역에 대한 임상적 경쟁 구도를 시각화하기 위해 사용자 인터페이스(UI)를 강화하는 데 사용될 수 있다.

도 7은 "기호적인" 시간적 위상의 방사상 표현일 수 있는 예시적인 황소 눈의 뷰(다른 2D 뷰)를 도시하며, 센터에 가까울수록 진보된/시판되는 약; 및 주변부에 가까울수록 덜 발달된/ 전임상적인 에셋). 이 시스템은 약물과 질병 사이의 코사인 거리 및 기타 요소(예를 들어, 검색 용어, 임상 시험과 같은 다른 관련 엔티티 유형)를 기반으로 각 질병과 관련된 약물을 찾고 배치할 수 있다. 검색 용어 "Neurodegeneration"에 대한 예시적인 황소 눈 비주얼은 PKAN, LHON 및 CLN2와 같은 희귀한 질병이 혁신 여백을 제공할 수 있음을 보여준다. 셋째, 생체 지식 그래프는 후속 사용자 질의를 지원할 수도 있다. 예를 들어, 사용 케이스에는, FAERS(Federal Adverse Event Reporting System)의 실패된/종료된 시험이나 신호를 포함하여, 다양한 유형의 정보를 기반으로 각 질병-약물 메커니즘 쌍에 대한 전략적 베팅과 관련된 추가 위험 요소를 식별하는 것이 포함될 수 있다. 일반적인 후속 검색어로는 인수 & 합병(M & A) 또는 라이센싱 전략에 도움이 되는 특정 자산(예를 들어, 약물, 디바이스)을 식별하는 것이 있다. 이 워크 플로우는 2 차원 렌더링 중 하나와 같이 생체 지식 그래프에서 생성된 시각적 효과로 활성화 할 수도 있다(황소 눈, 경쟁 파이프 라인 등). 일부 실시 예에서, 위험 인자는 하나 이상의 다양한 소스로부터 미리 계산될 수 있다(예를 들어, FAERS, 특정 약물 및 질병 표시 쌍을 포함하는 실패된/종결된 임상 시험 횟수).

도 7의 황소 시각은 또한 바이오-지식 그래프가 본 개시의 일부 실시 예에 따라 임의의 사용자 제공 질의(예를 들어, "신경 퇴행(neurodegeneration)")와 그 이웃에 있는 다른 엔티티(예를 들어, 8 개의 예시적인 질병 징후에 대해 여기에서 강조됨) 사이의 실시간 의미론적 관계를 자동으로 포착할 수 있는 방법을 설명한다. 예를 들어, 도 7에서, 사용자는 "신경 퇴행(neurodegeneration)"을 검색했다. 시스템은 생체 지식 그래프를 사용하여 검색 용어(예를 들어, 거리에 의해 측정된 "폐쇄(close)")와 관련된 최상위 라벨링된 항목을 식별한다. 그런 다음 시스템은 맨 위에 라벨링된 엔티티와 연관된 엔티티 유형(라벨로부터 취해진)을 사용하여 표시할 데이터의 특성을 결정한다. 이 예에서 엔티티 유형/라벨 "질병"은 검색 용어에 가장 가까운 엔티티와 연관된다.

따라서, 시스템은 황소 눈의 각 섹터를 검색 용어 " neurodegeneration"(예를 들어, ALS, 파킨슨 병, 알츠하이머 등)에 가까운 특정 질환인 엔티티와 연관시킨다. 그런 다음 엔티티 유형/라벨 "drug"이 검색어와 가깝다는 것을 발견한다. 따라서, 시스템은 이제 그래프의 각 개별 섹터에 특정 질병에 가까운 특정 약물을 채운다.

일부 실시 예에서, 디스플레이된 엔티티의 수는 고정될 수 있다(예를 들어, 상위 8 개의 질병 표시). 일부 실시 예에서, 표시된 엔티티의 수는 "필터" 기능을 사용함으로써 오버라이딩 될 수 있다(예를 들어, 숫자를 늘리거나 줄일 수 있으며 특정 엔티티를 추가하거나 제거 할 수 있음). 일부 실시 예에서, 시스템은 결과 내의 상이한 엔티티의 가용성 및 중요성에 기초하여 디스플레이 할 엔티티의 초기 수를 결정할 수 있다. 여기에 제시된 "황소 눈 비주얼 "의 예시는 다양한 임상 실험, 약품 이름 및/또는 기타 관련 정보로부터 정보를 수집할 수 있다(예를 들어, 회사 이름, 조치 메커니즘 등). 이는 코퍼스들의 전략과 경쟁력 있는 인텔리전스 기능이 시장을 잘못 이해하지 않도록 보장할 수 있다.

도 8은 약물과 그들의 경쟁 업체- 기업 및 행동 메커니즘(또는 신호 경로) 전반에 걸쳐-에 대한 정보를 신속하게 구성할 수 있는 생체 인식 그래프를 보여주며 이는 본 개시의 일부 실시 예에 따른 경쟁 시장 인텔리전스 워크 플로우의 중심에 있을 수 있다. 이 예에서 검색 용어 "AML"의 경우 시스템은 질병의 중심인 여러 가지 신호 전달 경로를 검색할 수 있으며 개발 단계에 따라 시장 전체에서 약물을 나타낼 수 있다(예를 들어, 여기에서는 임상 시험 단계 1, 2, 3 및 마케팅 자료가 표시됨). 또한, 상업적 결정 및 시장 규모에 영향을 미칠 수 있는 모든 시험의 속성을 카드 뷰에서 캡처할 수 있다(예를 들어, FLT3 양성과 같은 유전 표지자; 1 차 치료 정보 및 시타라빈 + 다우노루비신과 같은 병용 요법).

도 8에 도시된 예는 R&D, 임상 시험, 바이오 의학 지식베이스, 회사 보도 자료/투자자 보고서 및/또는 규제 기관의 다양한 사일로에서 정보를 통합하여 상업적으로 중요한 요소를 강조할 수 있는 경쟁 지능 워크 플로우 자동화를 수반하는 또 다른 예시적인 사용 사례를 도시한다(예를 들어, 1 차 처리, 생체 분자 구속, 병용 요법 등). 일부 실시 예에서, 이 워크 플로우 자동화를 달성하기 위해 상이한 단계가 취해질 수 있다. 먼저, 의미론적 생체 지식 그래프로부터, 상기 사용자에 의해 검색된 질병 표시 엔티티에 대해, "경로(pathway)" 엔티티와 행동 메커니즘(MOA) 관점에서 이러한 경로를 통해 구체적으로 작용하는 약물을 확인할 수 있다. 도 7에 대해 설명된 접근법과 유사하게, 경로 및 약물인 엔티티가 표시되며, 이는 이러한 엔티티 유형/라벨은 검색 입력 "AML"과 연관된 닫는 엔티티와 연관된 라벨에 대응되기 때문이다. 둘째로, 약물의 관련 엔티티들 약물 판매, 개발 단계(전임상, IND, 1 단계, 1 단계 1/2, 2 단계, 3 단계, 4 단계, NDA/ 예상 출시, 판매 등) "회사"와 같은)을 식별할 수 있다. 서로 가장 밀접한 일련의 임상 시험이 될 수 있는 "시험 그룹" 엔티티들(예를 들어, 1차 치료, 병합/단일 요법, 바이오 마커/표적 제약과 같은 유사한 임상 시험 파라미터)이 계산될 수 있다. 셋째로, 위의 모든 정보는 사용자 친화적인 관점에서 "경쟁력 있는 파이프 라인" 비주얼로 통합될 수 있다. 예를 들어 도 8과 같은 파이프 라인 뷰를 사용할 수 있다. 이 파이프 라인 뷰는 각 로우가 해당 "개발 단계"와 함께 특정 약물(그리고 제약 회사)을 식별하는 2 차원 공간 조직이다(x-축은 "상징적인" 시간적 위, y-축은 개별 약물임). 시각화의 한 가지 혁신은 공통된 주제를 공유하는 다른 회사의 약물의 "집합"일 수 있다(동일한 분자 표적 메커니즘과 같은). 시스템은 엔티티 분포를 검사하여 이러한 공통 주제를 식별할 수 있다. 각 임상 시험 그룹은 별개의 행으로 표시 될 수 있으며 그룹을 구성하는 개별 임상 시험 카드는 생물 지식 그래프가 함께 연결되어있는 상업적으로 중요한 정보를 강조 표시한다. 엔티티 분포는 엔티티 및 엔티티 시퀀스를 포함할 수 있는 후보 컬럼을 식별할 수 있다. 용어의 시퀀스는 템플릿 또는 렌더링할 엔티티 유형의 적절한 매트릭스를 생성하기 위해 모델을 훈련하여 결정할 수 있다. 넷째, 경쟁력 있는 파이프 라인 비주얼을 통해 다양한 개발 단계에 있는 약물의 총 수를 빠르게 요약할 수 있다(예를 들어, 전임상, IND, 1 단계, 1 단계 1/2, 2 단계, 3 단계, 4 단계, NDA/ 예상 출시, 판매 등). 일부 실시 예에서, 시스템은 각 로우의 특정 약물/경로와 생체 지식 그래프의 임상 시험 정보 간의 거리 관계에 기초하여 약물 개발의 다양한 단계를 결정할 수 있다. 일부 실시 양태에서, 이 비주얼은 가장 임상적으로 진보된 경로(시스템 생물학) 및/또는 작용 메커니즘의 신속한 동정을 제공할 수 있다(R & D 기업 전략 및 시장 정보에 대한 두드러진 관심). 경쟁력 있는 파이프 라인 비주얼은 세부적인 방식으로 연구할 수 있는 특정 관심사의 자산을 신속하게 식별할 수 있는 오버뷰를 제공한다. 다섯째, 여기 보이는 비주얼은 (1) 시스템이 시각적으로 포함된 정보를 마지막으로 자동 갱신한 날짜를 표시하기 위해; (2) 상기 비주얼에서 디스플레이되는 데이터를 구체적으로 검증하는 것과 관련된 SME을 디스플레이 하기 위해(각 SEM이 데이터를 수동으로 마지막으로 검증한 날짜 포함하는; 그리고 잠재적으로 SEM의 전문 웹사이트/Linkedin에 연결될 수도 있음); 그리고 (3) 사용자가 표시된 비주얼을 편집하고 워크 플로우/세션을 저장하며 이미지/파워 포인트 슬라이드로 직접 비주얼을 다운로드하여 사용자 생산성이 향상되도록 쉽게 확장될 수 있다. 확장은 추구하는 지식을 식별하는 단어와 답변 사이의 연관성을 기반으로 할 수 있다. 예를 들어, 사용자는 최상위 로우를 클릭하고 "전문가(experts)"라고 입력하고 약의 이름과 전문가의 이름 사이의 거리 때문에 주제 전문가에게 문의할 수 있다. 또 다른 예로서, 사용자가 "CAR T 세포 치료의 전문가"라고 입력하면 이 시스템은 키메라 항원 수용체 T 세포(CART) 치료 분야에서 현재의 모든 "키 의견 리더들(key opinion leaders)"를 검색할 수 있다.

도 9는 본 개시의 일부 실시 예들에 따라 예시적인 위상 "미엘린초의 재생(Remyelination)"에 뒤이어 엔티티 인식(Entity Recognition) 방법에 의해 별개의 엔티티 등급이 가시화될 수 있게 해달라는 질의를 받은 생체 지식 그래프를 도시한다. 이 예시적인 예에서, 패널(902) 내의 약물, 패널(904)에서의 질병 표시 및 패널(906)에서의 생체 분자 신호는 "미엘린초의 재생(Remyelination)"이라는 어구 이웃에서 인식되는 상이한 엔티티 유형을 나타낼 수 있다. 엔티티는 원래 쿼리 벡터 "미엘린초의 재생(Remyelination)"에 대한 코사인 거리에 따라 순위가 매길 수 있고, 1의 코사인 거리가 가능한 가장 높은 순위이고; 자기-벡터 "미엘린초의 재생 (Remyelination)"을 가리킨다.

일부 실시 예에서, 또 다른 예시적인 사용 사례는 "고아/희소 질환" 투자 경로를 식별하기 위해 관련성이 감소된 관련 엔티티를 시각화하기 위해 사용자가 "실제 세계 표현형"을 질의를 할 수 있게 하는 것을 포함할 수 있다. 현실 세계의 표현형 "미엘린초의 재생(Remyelination)"은 중추 신경계(CNS) 장애를 연구하는 제약 회사에게 두드러질 수 있다. 그러나 "단어" 미엘린초의 재생은 질병 징후만을 목록 화하는 인간 선별 질환/징후 물질(예를 들어, ICD10)에는 존재하지 않는다. 각 제약 회사의 개인이 "Real World Phenotype"의 고유한 세트를 소유하고 있기 때문에 경쟁 정보 및 코퍼스 테스팅 전략 기능 사용자는 "미엘린초의 재생(Remyelination)"과 같은 실제 세계 표현형을 가진 시스템을 질의할 가능성이 크다. 이러한 목적으로 기존 데이터베이스를 사용하면 상업, 임상 및 R & D 투자에 대한 잘못된 결정이 내려질 수 있다. 일부 실시 예에서, 바이오 지식 그래프는 "미엘린초의 재생"과 같은 수천 개의 실제 세계 표현형을 포함하여 수백만 개의 엔티티들을 포함한다. 생체 지식 그래프는 약물/화합물, 질병/징후, 유전자 등과 같은 다양한 엔티티들에 대한 "미엘린초의 재생 (Remyelination)"의 이웃을 정확하게 캡처할 수 있다(도 9 참조).

위의 예는 경쟁력 있는 파이프 라인 및 황소 눈과 같은 시각적 요소가 "미엘린초의 재생(Remyelination)"과 같은 고 가치 질의에 대해 다양한 중요 엔티티(예를 들어, 유전자, 약물, 질병)를 연결할 수 있는 독창적인 기능을 어떻게 갖추고 있는지 보여준다. 예를 들어, "미엘린초의 재생 (Remyelination)"결과는 PMD(Pelizaeus-Merzbacher Disease)와 인과 관계가 있는 PLP1 유전자(도 10 참조)를 식별할 수 있어 사용자 인터페이스(UI)에 대한 이러한 통찰력을 반영하여 시각적으로 "의미 상 정확하다." 이는 경쟁적 인텔리전스 및 기업 전략 기능을 위해 기존의 어휘 검색 및 검색 기능을 갖춘 강력한 사용자 인터페이스의 치명적인 결함을 극복할 수 있다. "미엘린초의 재생(Remyelination)" 결과는 도 10과 비슷한 생체 지식 그래프를 사용하여 다른 질병 표시(예를 들어, 패널(904)에서의 다른 질병 징후들 중 임의의 것)를 식별하고 인과 관계가 있는 유전자 및/또는 약물을 찾을 수 있다. 일부 실시 예들에서, 시스템 또는 사용자는 임의의 엔티티를 선택할 수 있고, 시스템은 도 10에 도시된 것과 유사한 생체 지식 그래프를 사용하여 선택된 엔티티에 기초하여 다른 인과 관계가 있는 엔티티를 결정할 수 있다. 일부 실시 양태에서, 시스템은 시스템에 의해 동정된 경로를 표적으로 하는 모든 공지된 저해제를 검색하기 위해 구조화된 지식 기반의 조합을 사용함으로써 경로 저해제(들)를 채울 수 있다. 일부 실시 예에서, 억제제의 "이웃"은 그 이웃에 있는 다른 모든 "억제제" 엔티티를 식별하는 데 사용될 수 있고, 그런 다음 각각의 "억제제" 이웃에서, 시스템은 "근접"이 "유전자" 또는 "경로"인 경우를 사례별로 결정할 수 있다.

도 10은 본 개시의 일부 실시 예에 따른 사용자에 의해 제공된 임의의 실세계 표현형 질의와 밀접하게 관련된 질병 표시를 식별할 수 있는 생체 지식 그래프를 도시한다. 여기에 제시된 예에서 " 미엘린초의 재생(Remyelination)"이라는 질의는 고아/희귀 질환 PMD(Pelizhus-Mazbacher Disease)를 식별할 수 있다. PMD의 이웃에 대한 분석은 PMD와 관련된 시퀀스대로, 특히 신경 세포의 손실, 축삭의 수송 및 신경 염증의 시퀀스로 여러 다른 실제 표현형을 나타낼 수 있다. 도 10의 숫자는 두 엔티티들 간의 코사인 거리를 나타낸다. 따라서 코사인 거리가 높을수록 두 엔티티들이 더 가까워진다. 이 예에서, 뉴런 손실, 축삭 수송 및 신경 염증은 "미엘린초의 재생(Remyelination)"보다 PMD에 덜 결합되어 있다. 이것은 단백질 응집이 뒤따를 수 있으며, 마지막으로 PMD에 가장 낮은 연결성을 갖는 표현형은 시냅스 전달, 노화, 조직 미세 구조, 당뇨병 및 식균 작용이다. 이 예에서, 유전자 PLP1(스플라이싱 변형 DM20 포함), PMP22, MPZ 및 GJB1은 모두 PMD 질환 벡터 근방에 있다. 추가 바이오 패널 스크리닝 실험 데이터 세트의 활용은 BRAF 및 MEK 경로 억제제가 PLP1, PMP22, MPZ 및 GJB1 유전자를 과다 발현하는 샘플에 특이적으로 민감하다는 것을 암시한다. 일부 실시 양태에서, 이러한 추가의 바이오 패널 스크리닝 실험 데이터 세트는 Broad Institute에서 발행한 CTRP(Cancer Therapeutics Response Portal) v2, Broad Institute에서 발행한 CCLE(Cancell Cell Line Encyclopedia), Sanger Institute의 COSMIC(Cancer In Somatic Mutations) 카탈로그 및 GDSC(Genomics of Drug Sensitivity in Cancer) 데이터베이스와 같은 하나 이상의 구조화된 데이터베이스로부터 유래된다. 일부 실시 예에서, 임의의 수의 외부 구조화된 데이터베이스 또는 지식베이스가 추가적인 통찰을 수집하는데 사용될 수 있다. 따라서, 개시된 발명은 미엘린초의 재생 시험에서 BRAF-MEK 억제제를 시험하는 것을 동기 부여한다.

이 예에서, 위와 같이 검색 용어 "PMD"와 관련하여 보여줄 엔티티 유형은 검색 용어에 가장 가까운 실제 엔티티의 유형(예를 들어 실제 표현형)에 의해 결정될 수 있다. 표시될 각각의 연속적인 유형의 엔티티(예를 들어, 유전자)는 검색 용어 "PMD" 및 최상위 엔티티 값 "미엘린초의 재생(Remyelination)"과 연관된 엔티티 유형에 의해 차례로 결정될 수 있다. 각 레벨에서, 선행 엔티티 값(예를 들어, 특정 유전자)과 관련된 최상위 엔티티 값으로부터 새로운 엔티티 유형(예를 들어, 약물)이 발견된다. 이런 식으로 여러 수준의 관계가 시스템에 의해 밝혀질 수 있다.

경우에 따라 동일한 엔티티가 둘 이상의 엔티티 유형을 참조할 수 있다. 예를 들어, 엔티티 "ICOS"는 유전자 유형(유도성 T-세포 동시 자극제), 회사 이름(Icos Corporation의 상표, 2007년 Eli Lilly and Company에 인수된 회사) 또는 다른 엔티티 유형을 나타낼 수 있다. 그러한 엔티티는 전통적인 시스템에 모호함을 야기할 수 있다. 예를 들어, 사용자가 검색어 "ICOS"를 기존 검색 엔진에 입력하면, 검색 엔진은 "ICOS"의 다른 의미를 설명하지 않는 결과를 산출한다. 일부 실시 예에 따르면, 개시된 시스템 및 방법은 주어진 엔티티에 대해 상이한 엔티티 타입을 인식할 수 있다. 이러한 서로 다른 엔티티 유형은 서로 다른 이웃 감각으로 표현될 수 있다. 각 이웃 감각에 대해, 주어진 엔티티와 관련된 관련 엔티티가 제공될 수 있다.

도 31은 본 개시의 일부 실시 예에 따른 예시적인 이웃 감지 인터페이스(3100)를 도시한다. 엔티티가 질의 용어(3101)로서 입력되고 엔티티가 둘 이상의 엔티티 유형과 연관될 때, 이웃 감지 인터페이스(3100)는 서로 다른 엔티티 유형 중 하나에 대응하는 이웃 감지를 제공한다. 각각의 이웃 감지는 질의 용어(3101) 및 이웃 감지에 대응하는 엔티티 유형과 연관된 엔티티와 관련된다. 예를 들어, 질의 용어 "icos"(3101)에 대해, 이웃 감지 인터페이스(3100)는 4 개의 상이한 이웃 감지(3102)(icos1, icos2, icos3 및 icos4)를 나타낼 수 있다. 일부 실시 예에서, 각각의 이웃 감지는 각각의 이웃 감지에 있는 질의 용어(3101)의 확률을 나타내는 백분율과 연관될 수 있다. 예를 들어, icos1 옆에 표시된 61.8 %의 값은 질의 용어 "icos"가 코퍼스에서 시간의 61.8 % 인 이웃 감지와 연관되어 있음을 나타낼 수 있다. 이웃 감지 "icos1"에서, 질의 용어 "icos"와 연관된 워드 또는 엔티티(3103)는 "icosl", "CO STIMULATOR", "pdcdl", "il2ra", "ICOS", "CD28" 및 "forkhead"를 포함할 수 있다-질의 용어 "icos"에 대한 의미 연관 강도의 내림차순으로 나열될 수 있다. 이웃 감지 icos1에서 이들 엔티티를 분석함으로써 시스템 또는 사용자는 이웃 감지에서 "icos"에 대한 엔티티 유형이 "유전자 유형"일 가능성이 있음을 인식할 수 있다. 이 예에서, 로우(3104)는 단어 "pdcdl"이 0.76의 세 번째 가장 높은 연관성 강도를 가지며 코퍼스의 문서 188 개 중 1,109번 발생 함을 보여준다. 주어진 질의 용어에 대해, 그것의 이웃 감지는 다양한 방법을 사용하여 결정될 수 있다. 예를 들어, 적응 스킵 그램(Adagram) 모델은 감독되지 않은 학습 모델로부터 생성된 워드 벡터를 캡처하도록 구현될 수 있다. 사용할 수 있는 다른 방법 및 모델은 Multisense Skip-gram(예를 들어, Neelakantan et al. (2014)) 및/또는 문맥(예를 들어, 생물학적 문맥)에서 단어의 다른 감지를 추론할 수 있는 다른 적합한 모델 또는 방법을 포함한다.

도 32는 본 개시의 일부 실시 예에 따른 예시적인 이웃 감지 인터페이스(3200)를 도시한다. 도 32는 이웃 감지가 icos2일 때 질의 용어 "icos"에 대한 결과를 보여준다. 도 32에서, 의미론적 연관성이 가장 높은 엔티티에는 "henneys", "pharmaceuticals", "xoma", "henney", "genentech", "companies"및 "therapeutics"가 포함된다. 이러한 엔티티들로부터, 시스템 또는 사용자는 이웃에 있는 "icos"에 대한 엔티티 유형이 "회사 이름"이 될 가능성이 있음을 인식할 수 있다.

도 33은 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스(3300)를 도시한다. 지식 다이어그램 인터페이스(3300)는 질의 용어(3301)와 관련된 서로 다른 이웃하는 감지들(3302)을 표시할 수 있다. 각각의 이웃 감지는 각각의 이웃 감지에 있는 질의 용어(3301) 및 이웃 감지와 관련된 엔티티의 리스트의 확률을 나타내는 상세 박스(3303)에 링크될 수 있다. 예를 들어, 질의 용어 "icos"(3301)에 대해, 지식 다이어그램 인터페이스(3300)는 네 개의 이웃 감지 요소들(3302)(직사각형의 4 개의 구획으로 표현됨)이 있음을 나타낸다. 첫 번째 이웃 감지에서 "icos"가 나타날 확률은 61.8 %이다. 첫 번째 이웃 감지는 "icosl", "co-simulator", "pdcdl", "il2ra", "icos", "cd28", "forkhead", "icosig", "foxp3"및 "klrgl"와 같은 엔티티들 포함한다. 일부 실시 예에서, 상세 박스(3303)는 원하는 이웃 감지에 대응하는 사각형(3302) 내의 분할을 클릭함으로써 액세스될 수 있다.

따라서, 일부 실시 예에서, 시스템 또는 사용자는 각각의 이웃 감지에 대한 결과 엔티티를 분석함으로써 원하는 엔티티 유형에 대응하는 이웃 감지를 결정할 수 있다.

도 34는 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스(3400)를 도시한다. 지식 다이어그램 인터페이스(3400)는 이제 상세 박스(3403)가 제2 이웃 감지에 대한 정보를 나타내는 것을 제외하면 지식 다이어그램(3300)(도 33)과 유사하다. 두 번째 이웃에 있는 "icos" 확률은 28.1 %이다. 두 번째 이웃 감지는 다음과 같은 토큰을 포함한다: "henneys", "pharmaceuticals", "xoma", "henney", "genentech", "companies", "therapeutics", "lilly", "boards" 및 "vaxgen".

도 35는 본 개시의 일부 실시 예에 따른 예시적인 정보 박스(3500)를 도시한다. 정보 박스 (3500)는 엔티티에 대한 집합 정보를 제공할 수 있다. 이는 엔티티 유형이 어느 엔티티 유형에 속하는지 모호한 경우 유용할 수 있다. 예를 들어, 엔티티 "icos"에 대한 정보 박스(3500)가 제1 이웃 감지를 위해 런칭될 때, 정보 박스(3500)는 "icos"가 "유도성 T-세포 동시-자극기(ICOS)"(3501)를 나타내고 유전자 "icos"에 관한 상세한 정보(3502)를 제공한다고 기술한다. 정보 박스(3500)는 그러한 상세한 정보가 검색되는 하나 이상의 자원(3503)을 더 제공할 수 있다. 예를 들어, 정보 박스(3500)는 다음의 리소스(3503)를 나열한다: HGNC, GeneCards, GTEx, NIH National Cancer Institute GDC Data Portal, cBioPortal FOR CANCER GENOMICS, UniProt, and Google. 일부 실시 예에서, 이들 리소스 각각은 그것의 각각의 리소스 웹 사이트 또는 데이터베이스에 링크될 수 있다.

도 36은 본 개시의 일부 실시 예에 따른 예시적인 정보 박스(3600)를 도시한다. 정보 박스(3600)는 엔티티 "icos"가 엔티티 유형 "회사 이름"을 참조할 때 엔티티 "icos"에 관한 정보를 제공할 수 있다. 이 문맥에서 정보 박스(3600)는 유전자 유형 "icos"에 대한 정보가 아니라 회사 "icos"에 대한 정보를 제공한다. 일부 실시 예에서, 회사 "icos"에 관한 정보를 제공하는 리소스 링크만이 디스플레이 될 수 있다. 예를 들어, 다른 모든 리소스가 회사 "icos"에 대한 정보를 제공하지 않으면 정보 박스(3600)에 Google에 대한 링크만 제공할 수 있다.

따라서, 일부 실시 예에서, 시스템 또는 사용자는 정보 박스 내의 정보를 분석함으로써 원하는 엔티티 유형에 대응하는 이웃 감지를 결정하고 선택할 수 있다.

도 52 내지 도 56은 본 개시의 일부 실시 예에 따라 5 개의 상이한 엔티티 유형과 관련된 엔티티 "Rho"에 대한 이웃 감지 다이어그램을 도시한다. 일부 실시 예에서, "Rho"는 5 개의 상이한 엔티티 유형과의 관련 각각에 대해 상이한 벡터로서 표현될 수 있다.

도 52에서 첫 번째 이웃 감지(Rho1)은 "pearson" 및 "spearman"과 같은 수학적 상관 관계와 관련된 단어와 관련되어 있다. 따라서 이 이웃 감자는 Spearman's Rank Correlation의 상징인 "Rho"(그리스 기호)의 사용을 캡처한 것으로 Spearman의 Rho라고도 한다.

도 53에서 두 번째 이웃 감지(Rho2)는 sigma, mu 및 pi를 비롯한 다른 그리스 기호와 관련된 단어와 관련되어 있다. 따라서 이 이웃 감지는 그리스 문자의 17 번째 문자로 "Rho"의 사용을 캡처한다는 결론을 얻을 수 있다.

도 54에서, 세 번째 이웃 감지(Rho3)는 "guanosine" 및 "RHOA"를 포함하는 다른 GTPase와 관련된 단어와 관련된다. 따라서, 이 이웃 감지는 신호 전달 캐스케이드에서 분자 스위치로 작용하는 작은 GTPase의 계열로서 "Rho"의 사용을 캡처한다는 결론을 내릴 수 있다.

도 55에서 네 번째 이웃 감지(Rho4)는 Rho Ventures(투자 기금)와 관련된 단어와 관련이 있으며, 이는 관리 파트너 "leschly"의 성, 관리 파트너 "kairouz"의 성, "ventures"라는 단어가 포함한다. 따라서 이 이웃 감지는 투자 자금으로 "Rho"의 사용을 캡처한다는 결론을 얻을 수 있다.

도 56에서 다섯 번째 이웃 감지(Rho5)는 "RHO A"(GTPase의 유전자 기호) 외에도 "GTPASES" 및 "GTPASE"라는 단어와 연관되어 있다. 따라서, 이 이웃 감지는 GTPase 단백질 군으로서 "Rho"의 사용을 캡처한다는 결론을 내릴 수 있다.

도 37은 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스(3700)를 도시한다. 일부 실시 예에서, 지식 다이어그램 인터페이스(3700)는 질의 박스(3701)를 제공할 수 있고, 여기서 사용자는 질의 용어와의 연관성이 있는 엔티티를 질의하는데 사용될 수 있는 질의 용어(단어 또는 구)를 입력할 수 있다. 지식 다이어그램 인터페이스(3700)는 질의에 대한 하나 이상의 필터를 제공할 수 있다. 일부 실시 예에서, 결과 엔티티에 대한 최소 발생 횟수(3702)가 설정될 수 있다. 예를 들어 사용자가 최소 발생 수(3702)를 "20"으로 설정하면, 질의 결과에는 코퍼스에서 적어도 20회 발생하는 엔티티만 포함될 수 있다.

일부 실시 예에서, 질의에 대한 결과의 수(3703)가 설정될 수 있다. 예를 들어, 사용자가 결과(3702)의 수를 "20"으로 설정하면, 단어 임베딩 및 관련 데이터의 코사인 분석의 결과를 표시하는 20 개의 결과만이 출력 박스(3708)에 디스플레이 된다. 결과의 수가 20보다 작은 경우, 출력 박스(3708)에 표시된 결과의 수는 20보다 작을 수 있다. 결과가 20보다 많으면, 상위 20 개의 결과(예를 들어, 의미 연관 강도가 가장 높은 20 개의 엔티티)만 표시할 수 있다. 다른 결과는 무시할 수 있다. 또는 함수는 사용자에게 다른 결과에 대한 다른 페이지로 이동하도록 제공할 수 있다.

일부 실시 예에서, 최소 의미론적 연관 강도(3704)가 설정될 수 있다. 예를 들어, 최소 의미론적 연관 강도가 "0.0"으로 설정되면, 모든 엔티티는 그들의 의미론적 연관성에 관계없이 질의를 위해 고려된다. 그러나, 최소 의미론적 연관 강도(3704)가 "0.3"으로 설정되면, 의미 연관 강도가 0.3 이상인 엔티티만 고려된다.

일부 실시 예에서, 코퍼스 선택 함수(3705)는 질의를 위해 고려될 코퍼스를 설정할 수 있다. 코어 코퍼스는 시스템에서 사용 가능한 모든 데이터 세트의 슈퍼세트를 나타낼 수 있다. 예를 들어, 코퍼스 선택 기능(3705)이 " Core Corpus"를 설정하면(이 예에서는 98.14k 문서 포함), 모든 사용 가능한 데이터 세트(Clinical Trials, FDA, SEC, Wikipedia, 및 Media Corpus 포함)가 조회를 위해 고려된다. 코퍼스(3705)에서 코어 코퍼스 이외의 옵션을 선택하여 하나 이상의 개별 데이터 세트를 선택할 수 있다.

일부 실시 예에서, 지식 다이어그램 인터페이스(3700)는 사용자가 관심을 가질 수 있는 하나 이상의 엔티티(3706)를 제안할 수 있다. 이러한 제안은 사용자의 검색어 및/또는 사용자 설정을 기반으로 할 수 있다. 이러한 제안은 시스템과의 사용자 상호 작용 및/또는 다른 사용자의 시스템과의 상호 작용을 기반으로 할 수도 있다. 일부 실시 예에서, 제안은 질의 용어와의 의미론적 연관성이 높은 엔티티일 수 있다. 일부 실시 예에서, 제안은 동의어 데이터베이스에 저장된 동의어로부터 올 수 있다. 일부 실시 예에서, FASText는 동의어를 결정하는데 사용될 수 있다.

일부 실시 예에서, 지식 합성 박스(3707)는 질의 용어(3701)에 대해 선택된 이웃 감지로 하나 이상의 토큰 컬랙션을 나열할 수 있다. 예를 들어, 질의 용어 "pcsk9"의 이웃과 관련된 토큰 컬랙션은 "Gene modifiers", "Genes", "All Genes", "Live Hepatocel...", "Rat Liver (SEQC)", "Pathogenic Alle... ", "Liver (GTEx)" 및 다른 이웃들("More... +15"로 도시된)을 포함할 수 있다. 일부 실시 예에서, 토큰 컬랙션은 동일한 엔티티 유형의 엔티티들의 컬랙션을 지칭할 수 있다. 일부 실시 예에서, 토큰 컬랙션은 기계-생성 및/또는 인간-큐레이팅될 수 있다.

일부 실시 예에서, 토큰 컬랙션들의 세트는 질의 용어(3701)와 연관된 하나 이상의 엔티티들에 기초하여 결정될 수 있다. 예를 들어(이하, "예시 A"라 함), 질의 용어 "El"이 다음 엔티티와 연관되어 있다고 가정한다: "Al", "A2", "A3", "A4", "A5" 및 "A6". "Al", "A2" 및 "A3"가 토큰 컬랙션 "ECl"에 속하고; "A4" 및 "A5"가 토큰 컬랙션 "EC2"에 속하고; 그리고 "A6"은 토큰 컬랙션 "EC3"에 속한다고 가정한다. 이 예에서 토큰 컬랙션들의 세트는 EC1, EC2 및 EC3을 포함하도록 결정될 수 있다. 이들 토큰 컬랙션은 지의 용어 "El"에 대한 지식 합성 박스(3707)에 디스플레이 될 수 있다. 일부 실시 예에서, 지식 합성 박스(3707)는 이들 토큰 컬랙션의 서브세트만을 디스플레이 할 수 있다. 예를 들어, 시스템은 엔티티 수가 가장 많은 상위 2 개 엔티티 컬랙션만을 표시하도록 선택할 수 있다. 예시 A에서는, EC1 및 EC2만 표시하도록 선택할 수 있고, 이는 EC1 및 EC2가 각각 EC3보다 많은 엔티티를 포함하기 때문이다. 일부 실시 예에서, 시스템은 다른 기준에 따라 토큰 컬랙션을 표시하도록 선택할 수 있다-예를 들어, 각 토큰 컬랙션에 포함된 엔티티의 가장 높은 평균 또는 의미론적 연관 강도를 갖는 2 개의 토큰 컬랙션을 디스플레이 하도록 선택하는 것.

일부 실시 예에서, 토큰 컬랙션의 세트는 질의 용어(3701)와 관련되고 특정 조건(들)을 만족시키는 하나 이상의 엔티티에 기초하여 결정될 수 있다. 예를 들어, 토큰 컬랙션의 세트에 포함되도록, 토큰 컬랙션은 토큰 컬랙션에 있는 특정 수의 엔티티보다 크거나, 작거나, 같아야 한다. 또 다른 예로서, 토큰 컬랙션의 세트에 포함되도록, 토큰 컬랙션은 의미론적 연관 강도의 특정 수보다 크거나, 작거나, 같은 평균 또는 평균 의미론적 연관 강도를 가져야 한다. 상기 예시 A에서, 토큰 컬랙션이 토큰 컬랙션들의 세트에 포함될 엔티티가 두 개 이상 있어야 하는 경우, EC1과 EC2만 토큰 컬랙션 세트에 포함된다. 그러나 또 다른 예에서 질의 용어(3701)와 연관된 모든 엔티티가 고려되는 것은 아니다. 다른 말로, 시스템은 토큰 컬랙션 세트를 결정하기 전에 특정 조건을 만족하지 않는 엔티티를 필터링할 수 있다. 상기 예시 A에서, 시스템이 적어도 0.7의 의미론적 연관성을 갖는 것으로 간주되는 모든 엔티티를 요구한다고 가정한다: A3, A4, A5 및 A6 각각은 의미론적 연관 강도가 0.7보다 크지만, A1과 A2는 그렇지 않다; 그리고 지식 합성 박스(3707)는 가장 많은 수의 토큰을 가진 하나의 토큰 컬랙션만을 디스플레이 한다. 이 경우, 지식 합성 박스(3707)는 EC2를 표시할 것이고, 이는 시스템이 이제 EC1이 A3만 가지고 있다고 결정할 것이기 때문에 EC2는 여전히 A4 및 A5를 가지며 EC3는 여전히 A6을 갖기 때문이다.

일부 실시 예에서, 각각의 토큰 컬랙션은 백분율과 연관될 수 있고, 여기서 백분율은 각 토큰 컬랙션의 토큰 수를 모든 토큰 컬랙션들의 토큰 총 수로 나눈 값을 나타낼 수 있다. 일부 경우에, 하나 이상의 토큰이 둘 이상의 토큰 컬랙션에 속할 수 있기 때문에 토큰 컬랙션 백분율의 합계가 100 %를 넘을 수 있다. 일부 실시 예에서, 지식 합성 박스(3707)는 백분율이 특정 임계 값보다 큰 토큰 컬랙션을 디스플레이 하도록 선택할 수 있다.

일부 실시 예들에서, 토큰 컬랙션들의 리스트를 생성하기 전, 도중 및/또는 후에 하나 이상의 필터가 적용될 수 있다. 일부 실시 예에서, 이웃들과 질의 용어 사이의 공동 발생 레벨이 특정 임계 값 위 또는 아래일 때, 질의 용어의 이웃들은 결과 또는 토큰 컬랙션으로부터 필터링될 수 있다. 예를 들어, 높은 공동 발생 레벨을 갖는 이웃만 선택할 수 있다. 다른 예에서, 제로의 공동 발생 레벨을 갖는 이웃들만이 선택될 수 있다. 필터를 사용하면 다음 유형의 결과 중 하나 이상을 갖도록 제어할 수 있다: (1) 높은 코사인 거리와 높은 공동 발생 레벨을 갖는 이웃; (2) 공동 발생 레벨이 낮거나 0이지만 다른 엔티티를 통해 관련된 이웃; (3) 높은 코사인 거리를 갖지만, 공동 발생 레벨이 낮거나 0인 이웃; (4) 전체적인 관심 코퍼스들과 높은 공동 발생 레벨 내에서 높은 발생을 가진 이웃; 및 (5) 관심 코퍼스들 내에 전반적으로 낮은 발생을 보이지만 높은 공동 발생 레벨을 갖는 이웃. 나중에 나타나기 시작하지만 아직 잘 알려지지 않거나 인식되지 않은 엔티티/토큰 간의 연관을 나타낼 수 있으므로 나중에 필터가 특히 중요할 수 있다. 이러한 유형의 결과는 비 제한적이며 반드시 상호 배타적인 것은 아니다.

일부 실시 예에서, 출력 박스(3708)는 질의 용어(3701)와 관련된 결과를 생성할 수 있다. 예를 들어, 출력 박스(3708)는 결과 엔티티들의 의미 연관 강도들의 감소하는 시퀀스로 결과를 제공할 수 있다. 출력 박스(3708)는 또한 결과의 각 엔티티와 연관된 크기, 발생 횟수 및 문서의 수를 디스플레이 할 수 있다. 일부 실시 예에서, 크기는 엔티티와 관련된 벡터의 크기를 지칭할 수 있으며, 크기는 L2-놈(norm)이다(즉, 벡터의 개별 치수의 제곱의 합계의 제곱근). 예를 들어, 엔티티 "circulating_pcsk9"의 의미 연관 강도는 0.81이다. 그것의 크기는 5.4이다. 선택한 코퍼스의 문서 237 개에서 494 회 발생한다. 또한 각 엔티티와 연결된 엔티티 컬렉션을 표시할 수 있다.

도 38은 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스(3800)를 도시한다. 지식 다이어그램 인터페이스(3800)는 선택된 코퍼스(3805)가 "펍메드(Pubmed)"된다는 점을 제외하고는 지식 다이어그램 인터페이스(3700)(도 37)와 유사하다. 따라서, 이 예에서, 질의는 펍메드 데이터베이스에 존재하는 문서로 제한되어 지식 합성 박스(3807) 및 출력 박스(3808)에서 상이한 결과가 생성되게 한다.

도 39는 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스(3900)를 도시한다. 지식 다이어그램 인터페이스(3900)는 선택된 코퍼스(3905)가 "SEC"라는 것을 제외하고는 지식 다이어그램 인터페이스(3700)(도 37)와 유사하다. 따라서, 이 예에서, 질의는 SEC 데이터베이스에 존재하는 문서들로 제한되며, 지식 합성 박스(3907) 및 출력 박스(3908)에서 상이한 결과들이 생성되게 한다.

도 40은 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스(4000)를 도시한다. 지식 다이어그램 인터페이스(4000)는 선택된 코퍼스(4005)가 " Media Corpus"라는 것을 제외하고는 지식 다이어그램 인터페이스(3700)(도 37)와 유사하다. 따라서, 이 예에서, 질의는 미디어 코퍼스 데이터베이스에 존재하는 문서로 제한되어, 지식 합성 박스(4007) 및 출력 박스(4008)에서 상이한 결과가 생성되게 한다.

도 41은 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스(4100)를 도시한다. 엔티티는 하나 이상의 동의어와 연관될 수 있다. 예를 들어, 엔티티 "pcsk9"는 다음과 같은 동의어를 가질 수 있다: "pcsk9s", "pcsk9_pcsk9", "pcsk9_ldlr", "ldlr_pcsk9" 및 "pcsk9_mediated". 일부 실시 예들에서, 동의어들은 상술한 바와 같이 제안들이 어떻게 생성될 수 있는지와 동일한 방식으로 생성될 수 있다. 공개된 시스템 및 방법은 질의의 결과가 동의어를 별도의 단어로 나열하지 않도록 엔티티의 동의어를 병합할 수 있다. 일부 실시 예에서, 지식 다이어그램 인터페이스(4100)는 동의어 병합 기능(4101)이 활성화 또는 비활성화되도록 허용할 수 있다. 동의어 병합 기능(4101)이 비활성화되면, 시스템은 엔티티 및 그 동의어를 다른 엔티티로서 취급한다. 예를 들어, 동의어 병합 기능이 불활성화되는 경우(4101), 상기 엔티티 "pcsk9" 및 상기 동의어 중 임의의 것이 다른 엔티티로서 취급된다.

도 42는 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스(4200)를 도시한다. 도 42에서, 동의어 병합 기능(4201)이 활성화되고, 엔티티 및 그 동의어가 단일 엔티티로서 취급된다. 예를 들어, 동의어 리스트(4202) 내의 동의어는 엔티티 "pcsk9"와 동일한 엔티티로서 취급되는 엔티티 "pcsk9"의 모든 동의어를 나타낸다.

도 43 및 도 44는 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스(4300, 4400)를 각각 도시한다. 지식 다이어그램 인터페이스들(4300, 4400)은 주어진 토큰 컬랙션 내의 토큰을 각각 나열하는 토큰 리스트(4301, 4401)를 도시한다. 예를 들어, 토큰 리스트(4301)는 Genes 토큰 컬랙션 내의 모든 토큰을 열거한다. 또 다른 예로서, 토큰 리스트(4401)는 Liver(GTEx) 토큰 컬랙션 내의 모든 토큰을 열거한다.

도 45는 본 개시의 일부 실시 예에 따른 예시적인 지식 다이어그램 인터페이스(4500)를 도시한다. 지식 다이어그램 인터페이스(4500)는 자동 완성 기능(4501)을 제공할 수 있다. 사용자가 질의 박스에서 엔티티를 입력하기 시작하면, 자동 완성 기능(4501)은 엔티티를 예측하고 하나 이상의 제안을 제공할 수 있다. 일부 실시 예들에서, 제안된 엔티티들 각각은 또한 선택된 코퍼스에서 각각의 제안된 엔티티가 발생하는 발생 횟수와 같은 추가 정보를 포함할 수 있다.

일부 실시 예에 따르면, 히트맵은 다수의 엔티티들 간의 연관성에 대한 2 차원 뷰를 제공하고 이들 간의 관계를 식별할 수 있다. 도 46은 본 개시의 일부 실시 예에 따른 예시적인 히트맵(4620)을 도시한다. 히트맵(4600)은 유전자(y-축에 나열)와 약물(x-축에 나열) 간의 연관성을 나타낼 수 있다. 이 예에서, 맨 위 줄은 유전자 "pd_l"을 위한 것이고 다른 줄들은 유전자 "pd l"과 관련된 다른 유전자들이다. 이 유전자들은 FDA 승인 의약품(약 6,500 개의 약품을 포함 할 수 있음)인 엔티티들의 집합체와 비교될 수 있다. 유전자 "pd_l"과 가장 높은 반 결합 강도를 갖는 이들 약물의 하위 집합을 선택하여 컬럼으로 표시할 수 있다. 히트맵의 각 셀은 해당 로우와 컬럼 엔티티 사이의 의미 연관 강도를 나타낼 수 있다. 일부 실시 예에서, 다양한 의미 연관 강도를 나타내기 위해 상이한 색상 및/또는 상이한 색상의 그라디언트가 사용될 수 있다. 색상 범례(4603)는 색상(또는 색상 그라디언트)를 의미 연관 강도로 매핑할 수 있다. 히트맵(4600)은 엔티티들 간의 다양한 관계를 밝힐 수 있다. 예를 들어, 첫 번째 로우에서, nivolumab과 pembrolizumab은 pdl에 결합하는 약물이고 "pd_l"은 다른 약물에 비해 이들 약물과 가장 밀접하게 관련되어 있음을 관찰할 수 있다. 일부 실시 예에서, 히트맵(4600)은 각 로우에 대한 의미론적 연관 강도의 평균(4601) 및/또는 표준 편차(4602)를 포함할 수 있다.

도 47은 본 개시의 일부 실시 예에 따른 예시적인 히트맵(4700)을 도시한다. 이 예에서 상단 로우는 약물 "rituximab"을 나타내고 다른 로우는 약물 "rituximab"과 관련된 다른 약물을 나타낸다. 이 약물들은 질병 엔티티(약 9,500 가지 질병을 포함 할 수 있음)의 컬랙션과 비교된다. 약물 "rituximab"과 가장 의미론적 연관성이 있는 이들 질병의 하위 집합을 선택하여 컬럼으로 표시할 수 있다. 히트맵(4600)과 유사하게, 모든 셀 값은 엔티티 쌍(즉, 그 셀에서 표현되는 약물 및 질병의 쌍 사이) 간의 의미론적 연관 강도를 나타낼 수 있다. 히트맵(4700)은 리툭시 맵이 현재 사용되는 적응증(즉, 다양한 림프종 아형)뿐만 아니라 루푸스신염(하이라이트된)을 비롯한 외관상으로 " off-label"인 적응증을 나타낼 수 있다.

도 48은 본 발명의 일부 실시 예에 따른 예시적인 히트맵(4800)을 도시한다. 히트맵(4800)은 분자 분석을 통합할 수 있다. 이 예제에서, 맨 위 로우는 유전자 "TRIM32"를 나타내고 다른 로우들은 유전자 "TRHVI32"와 연관된 다른 유전자를 나타낸다. 이 유전자들은 GTEx 데이터베이스에서 얻은 인간 뇌 조직에서 특이적으로 과 발현된 유전자를 나타내는 엔티티 컬랙션과 비교된다. 이는 인간의 뇌에서 유전자 발현과 관련된 지식 분석과 지식 합성을 결합한 독특한 비교를 나타낼 수 있다. 이 예에서 TRIM32는 뇌에서 특이적으로 발현되는 유전자와 매우 관련이 있다. 이는 TRIM32가 컬럼 전체에서 높은 평균 의미론적 연관 강도를 갖는 것을 볼 수 있다. 유전자 "TRIM2"는 또한 TRIM32에 매우 강하게 연결되며 TRIM2 자체는 뇌에서 높게 발현된다.

도 11은 이웃 노드가 시간에 따라 변하는 검색 입력에 대한 엔티티 분포를 도시한다. 도 11에서, 각각의 시간 슬롯(T1, T2, T3)은 그 시간 스텝에서 나타난 새로운 노드를 도시한다(예시를 위해). 변환 (1102)은 시간 범위 등을 변화 시키는데 사용될 수 있다. 매트릭스는 시간에 따라 엔티티 이웃 변화를 캡처할 수 있고, 또한 노드(1101)가 후속 시간 단계(1105 및 1106)에서 다른 노드들과 어떻게 연관되는지를 나타낼 수 있다. 예를 들어, " dropout"과 같은 용어에 대해, 기계 학습 모델에서 오버피팅을 피하기 위한 핵심 방법은 이 기법의 성공에 이어 많은 신경망 모델의 문맥에서 사용될 수 있으며 노드(1106)에서 설명한 것처럼 큰 팬 아웃이 발생한다. 지식 그래프를 구성하는 데 사용된 입력 코퍼스에서 실제 공동 생성으로 서로 관련되는 용어 외에도, 공동 발생되지 않은 이웃에 있지만, 의미적으로 관련된(1109 및 1110 검정) 엔티티도 이 프로세스로 식별할 수 있다. 이러한 의미론적으로 관련된 엔티티는 가긍정적 판단(false positives)을 가질 수 있지만, 이러한 엔티티는 시간 경과에 따른 이웃 세트의 안구 탐침으로 발견하기 어려울 가능성이 있는 잠재적 통찰력을 위한 후보 클래스를 생성한다.

도 12는 엔티티 등급을 통한 개념의 시간적 진행을 출력의 인스턴스로 보여준다. 이 예시에서, 엔티티 클래스 "통계(statistics)"의 이웃 엔티티는 엔티티 클래스 "신경망(neural networks)"과 비교될 수 있고, 필터/변환(1102)은 신경망에 대한 엔티티 클래스에 선행하는 시간에 엔티티 클래스 통계치를 비교하는데 사용될 수 있고, 엔티티 클래스는 엔티티 세트에 대한 라벨이다. 필터/변환(1102)은 엔티티의 이웃 변화를 시간과 비교하기 위해 날짜/시간 범위를 변경하는데 사용될 수 있다. 도 12는 "통계"의 공간에서 "신경망" 공간까지 같은 개념을 나타내는 개체의 진화를 보여준다. 생물학적 공간과 동등한 경우에는, 약물 cenicriviroc의 지식 그래프 영역에서의 개체 분포가 2014 년 전과 후에 바뀝니다. 2014 년 이전에 엔티티 분포는 주로 "ccr5 antagonists"라는 약물 클래스에 속하는 "항 바이러스 성(anti-viral)" 약물에 의해 지배된다. 그러나 2014년 이후에, 동일한 약물에 대한 지식 그래프 이웃의 엔티티 분포는 NASH(비 알콜성 스테로트 간염)와 같은 "간 관련 질병(liver related diseases)"의 출현을 보여준다.

도 13은 한 순간에 지식 그래프 하위 집합의 인스턴스 생성을 보여준다. 한 순간의 구조화된/비구조화된 데이터 스냅 샷(1301)은 단어, 문장 및 문서 임베딩(1302)을 생성하는데 사용될 수 있으며, 이는 라벨 엔티티(1303) 및 라벨의 컬랙션(1304)을 생성하는데 사용된다. 임베딩은 word2vec, doc2vec와 같은 감독되지 않은 방법으로 생성할 수 있으며 RNN과 같은 시퀀스 학습 모델을 사용하여 생성할 수도 있다. 이 프로세스로부터의 이들 용어/구는 엔티티 및 엔티티 클래스로서 라벨링될 수 있으며, 여기서 구조화된 의미론적 데이터베이스(1305) 또한 사용될 수 있다. 또한 이 프로세스는 선험적 지식으로 라벨링되지 않은 후보 엔티티 및 엔티티 클래스를 생성할 수도 있다. 이는 라베링되지 않은 엔티티의 엔티티 분포와 쌍의 엔티티 간의 인접성의 비대칭을 사용하여 수행할 수 있다. 예를 들어, 용어 l과 용어 2가 하나의 코사인 거리 측정 값을 갖더라도, 용어 l과 용어 2의 이웃 용어의 시퀀스는 비대칭이다. 이 비대칭 특성은 다른 엔티티 분포 및 다른 엔티티 순위를 산출할 수도 있다. 따라서 용어 l은 용어 2의 이웃으로 제공될 수 있지만 그 반대는 아니다. 또한 용어 2는 이웃으로 더 많은 엔티티 클래스를 가질 수 있다. 이러한 유형의 비대칭은 새로운 후보 엔티티와 엔티티 클래스를 식별하는 데 사용할 수 있다. 이 프로세스의 출력은 라벨링된 엔티티와 엔티티 클래스 및 라벨링되지 않은 엔티티의 지식 그래프가 될 수 있다. 지식 그래프 저장소(1307)는 단일 엔티티(라벨링되거나 라벨링되지 않은)가 상이한 엔티티 분포를 가질 수 있는 도메인 및 서브-도메인 지식 그래프와 같은 보편적인 저장소일 수 있다.

도 14는 엔티티의 시간적 진행을 캡처하고 지식 그래프 생성 프로세스(1402)에 의해 구조화된 및 비구조화된 데이터(1401)로부터, 시간 경과에 따라 발생하는 서브 세트 공간(KGSL.Sn)[1403]에 대한 지식 그래프 스냅 샷으로서 지식 그래프("KG")에서의 시간에 따른 엔티티 분포를 도시한다.

도 57은 본 개시의 일부 실시 예에 따른 데이터 흐름을 도시한다. 일부 실시 예에서, 구조화된 및/또는 비구조화된 데이터는 도 1에서 설명된 시스템에 의해 패치되고 처리될 수 있다(5701). 처리된 데이터는 단어/문장 임베딩 및/또는 지식 그래프를 생성하는데 사용될 수 있다(5702). 처리된 데이터를 사용하여 구조화된 데이터베이스를 채울 수도 있다(5701). 5701 및 5702의 서로 다른 자산은 서로 다른 어플리케이션(5703)을 처리하는 서로 다른 백엔드 서버/컴퓨터 시스템을 통해 제공될 수 있다. 예를 들어, 단어 임베딩은 단어 벡터 서버에 의해 호스팅되고(5703) 이웃 어플릴케이션과 같은 다운스트림 어플리케이션에 제공될 수 있고, 이는 이웃 감지 다이어그램(5704)을 생성할 수 있다. 감지 임베딩은 Adagram 서버/컴퓨터 시스템에 의해 호스팅될 수 있으며 임베딩 어플리케이션을 감지 할 수 있다(5704). 단어 임베딩은 히드 맵 어플리케이션에 대한 히트맵 데이터를 생성하는데 사용될 수 있다(5704). 또한, 단어 임베딩은 시간 분석 어플리케이션을 공급할 수 있다(5704). 이 데이터 흐름과 동시에 컬렉션을 만들고 백엔드 서버/컴퓨터 시스템에서 호스팅할 수 있다. 컬렉션의 큐레이션은 구조화된 데이터 및/또는 구조화되지 않은 데이터를 사용하여 로컬로 수행할 수 있다(5702). 컬렉션의 큐레이션은 또한 큐레이팅/자동으로 생성된 콜렉션을 통해 특정 관심 도메인을 풍부하게 하고자 하는 사람이 원격으로 수행 할 수 있다(5705). 그런 다음 이러한 컬렉션을 백엔드 서버에서 호스팅할 수 있다(5703). 또는 백엔드 서버는 원격으로 호스팅된 콜렉션에 대한 프록시일 수 있다.

도 58은 사용자가 본 개시의 일부 실시 예에 따라 이웃 어플리케이션에 대한 질의 요청을 할 때의 제어/데이터 흐름을 도시한다(5801). 이웃 어플리케이션은 사용자가 검색어를 입력할 수 있는 사용자 인터페이스를 제공할 수 있으며 이웃 어플리케이션은 질의 용어와 관련된 서로 다른 이웃 감지를 생성할 수 있다. 사용자 인터페이스는 도 31-32와 비슷하게 보인다. 일부 실시 예에서, 사용자 질의가 유전자인 경우, 그 페이지의 이웃(5802)은 유전자 엔티티 및 아마도 질병, 약물 등과 같은 다른 관련 엔티티를 포함할 가능성이 높다. 상황에 따라 질의 용어에 여러 의미가 있는 경우 이웃 페이지는 이러한 다른 의미와 의미론적으로 관련된 엔티티를 갖게 된다. 감지 임베딩은 감지를 어느 정도 분리하는 역할을 한다.(도 52-56 참조)

컬렉션과의 의미론적 매칭은 지식 합성(5803)을 통해 풍부한 표현을 생성할 수 있으며 단어 임베딩으로부터 의미론적 이웃을 넘어 폭 넓은/풍부한 시각을 제공할 수 있다. 예를 들어, 이웃이 그 유전자와 관련된 질병을 전혀 갖고 있지 않더라도, 개시된 시스템 및 방법은 질의 유전자와 관련된 질병 수집과 의미적으로 유전자를 매칭시키고 의미론적 이웃을 넘어선 풍부한 뷰를 보여줄 수 있다. 이웃과의 컬렉션 매칭은 단순 어휘 일치부터 다양한 추상화/분리 정도의 의미론적 매칭에 이르기까지 다양하다. (도 7-10 참조) 예를 들어, 유전자에 관한 질의는 유전자 컬랙션으로 풍부해질 수 있지만, 관련된 질병이나 그 유전자에 대한 연구를 하는 사람들을 포함하는 컬랙션에 의해서도 풍부해질 수 있다. 일부 실시 예에서, 후보 컬랙션을 선택하는 삼각 측량은 고정되어 있지 않으며, 상당히 넓고 다양하여(의미론적 매치에 대한 어휘의), 이웃 엔티티를 넘어서는 진정한 풍부한 경험을 질의에 제공한다. 일부 실시 예에서, 삼각 측량 프로세스는 이웃 결과를 수동으로 큐레이션 및/또는 머신 생성될 수 있는 엔티티 컬렉션으로 매핑하는 것을 지칭할 수 있다. 일부 실시 예에서, 어휘 매칭은 검색 용어를 토큰 컬랙션의 이름과 매칭하는 것을 지칭할 수 있다. 일부 실시 예들에서, 의미론적 매칭은 검색 용어의 이웃들 및 이웃들과 관련된 엔티티 유형들을 분석하는 것을 지칭할 수 있다. 일부 실시 예에서, 개시된 풍부화된 합성 박스는 정보 증가 결과가 단지 의미론적 결과의 클러스터이거나 시놉시스 결과인-비록 의미론적이라도-기존의 검색 시스템과 구별된다. 공개된 시스템 및 방법은 의미론적으로 이웃을 컬렉션과 매칭시킬뿐만 아니라 한 인터페이스의 사용자가 컬렉션 및 현재 페이지의 의미론적 매치 정보의 파노라마 뷰를 얻을 수 있게 함으로써 진정한 풍부함을 제공한다.

공개된 시스템, 방법 및 컴퓨터 판독 가능 매체는 지식 생성의 초기 단계에서 생명 과학 엔티티 간의 중요한 연관성을 식별할 수 있으며, 이는 정확한 인과 관계를 수립하는 독창적인 출판물에 선행하는 선견지적 연관을 포함한다. 일부 실시 예에서, 시스템은 또한 인간 큐레이션된 엔티티 컬렉션의 성장하는 레퍼토리의 매끄러운 결합을 제공할 수 있으며, 여기에는 생명 과학 코퍼스 전체의 서브세트, 수퍼세트 또는 전체적으로 새로운 개체 집합인 사용자 지정 엔티티 컬렉션이 포함된다. 일부 실시 예에서, 시스템은 다양한 해상도로 시간 슬라이스된 사전 생성 및/또는 정기적으로 업데이트된 코퍼스에 의존할 수 있어, 생명 과학 엔티티 쌍들 사이의 의미론적 연관 강도의 시간적 진화에 대한 회고적 및 거의 실시간 추적을 가능하게 한다. 일부 실시 예에서, 시스템은 가입된 엔티티 모음에 기초한 각각의 관계에 기인할 수 있는 특이성의 통계적 추론을 용이하게 할 수 있다.

개시된 시스템 및 방법은 새로운 생물학적 연관성의 발견이 주어진 엔티티 쌍(단어 또는 문구)의 의미론적 이웃(예를 들어, PubMed에서 발견된 모든 문헌에서)의 시간적 분석을 통해 달성될 수 있음을 확증한다. 이 쌍은 생명 과학 문헌(예를 들어, 유전자- 전자 또는 유전자-질병)에서 사용되는 모든 엔티티 유형으로 전략적 의사 결정에 중대한 영향을 미칠 수 있는 가설 생성을 유도할 수 있다. 생명 과학 엔티티(예를 들어, 질병, 유전자)를 구성하는 복잡한 문구는 종종 여러 단어로 구성되며 이러한 문구를 보존하면 생명 과학의 자연 언어 처리(Natural Language Processing, NLP) 가치를 극대화하는 데 핵심적인 역할을 한다.

구체 예에 따르면, 의미론적 연관성의 강도 또는 스코어에 대한 시간적 분석은 과학 문헌에 발표된 생물학적 발견과 일치하거나 일치하는 새로운 연관성의 확인을 가능하게 할 수 있다. 강한 의미론적 연관성 스코어 신호는 의미론적 출판물의 해(year) 또는 이러한 의미론적 출판물의 수년 전에 발생할 수 있다. 결론적으로, 여기에 기술된 의미론적 연관 스코어(코사인 거리)는 오늘날 생물 의학 문헌에 공개되지 않은 새로운 생물학적 연관성을 예측하는 데 사용될 수 있다.

개시된 시스템 및 방법은 초기 단계에서 생명 과학 엔티티(예를 들어, 유전자 EGFR은 생명 과학 엔티티) 간의 중요한 연관성을 확인하고 시각화 할 수 있다. 엔티티 세트는 엔티티 컬렉션으로 그룹화될 수 있으며, 다음을 포함하지만 이에 국한되지는 않는다: 생체 분자(예를 들어, 유전자, DNA 또는 RNA 폴리머, 단백질, 지질, 대사 산물, 코딩 및 비코딩 RNA, 펩타이드, 항원, 돌연변이 등), 바이오-엔티티(예를 들어, 세포, 기관 등), 질병(예를 들어, 비소 세포 폐암, 류마티스 관절염, 고 콜레스테롤 혈증, 다발성 경화증, 파킨슨 병, NASH, NAFLD, AIDS, 패혈증 등), 이상 반응, 미생물(예를 들어, H.pylori, 인플루엔자 H1N1 바이러스, C 형 간염 바이러스, 칸디다 알비칸스 등), 어세이(Assays)(예를 들어, 높은 스루풋 세포 스크리닝, 키노미 프로파일 링, 성장 억제, 질량 분광법 등), 회사/기관(예를 들어, 제약, 생명 공학, CRO, 진단/기기 제조업체, 병원, 클리닉, 대학 등), 사람(예를 들어, 연구원/과학자, 의사/내과 의사, 의사 이름, nhysicians의 NPI ID, 임원 등), 표현형(예를 들어, 시험관 내, 생체 내 관찰 가능/측정 가능/주관적 등), 약물(예를 들어, 화합물/저분자, 항체, 세포 등), 의료 기기, 의료 절차(예를 들어, 수술, 이식, 방사선 등) 및 다양한 생물 의학 코퍼스의 사용자가 편집할 수 있는 다른 엔티티 컬렉션(도 15 참조). 일부 실시 예에서, "지식베이스" 및 "엔티티 컬랙션"이라는 용어는 서로 바꿔 쓸 수 있다.

도 15는 본 개시의 일부 실시 예에 따른 예시적인 엔티티 컬렉션을 도시한다. 도 15는 본 개시의 일부 실시 예에 따라 다수의 다른 엔티티 컬렉션에 걸쳐 중첩하는 컬렉션뿐만 아니라 몇 개의 더 작은 하위 컬렉션을 포함하는 수퍼 컬렉션을 강조한다. 생명 과학 코퍼스 자체의 모든 컬렉션의 수퍼 세트는 "마스터 엔티티 컬렉션"(코퍼스의 모든 컬렉션 및 엔티티 컬렉션)으로 해석될 수 있다. 일부 실시 예에서, 시스템 사용자가 만들 사용자 지정 컬렉션은 또한 엔티티 컬랙션으로 라벨링될 수 있다. 본 명세서에서 시각화된 엔티티 컬랙션 도식에서, 다양한 엔티티 컬랙션이 예치될 수 있으며, 엔티티는 여러 엔티티 컬렉션에 속할 수 있으며 엔티티 컬렉션은 서로 중첩되거나 다른 엔티티 컬렉션간에 확장될 수 있다.

일부 실시 예에 따르면, "집합 콜렉션"의 진화 이력과 싱글톤 엔티티의 비교를 위한 기초를 제공하기 위해 일련의 산업 특정 엔티티 컬랙션이 생성될 수 있어, 예를 들어, 시간이 지남에 따라 다른 엔티티와의 단일 엔티티의 연관성의 중요성에 대해 통계적으로 강력한 추론이 이루어질 수 있다.

벡터 공간 모델은 "의미론적으로" 유사한 단어가 이웃한 포인트에 매핑되는 연속 벡터 공간에서 단어를 나타낸다(즉, 이러한 단어들은 합성 고차원 공간에서 서로 인접하게 임베딩 된다). 이러한 기술은 자연 언어 처리(NLP) 분야에서 오랫동안 풍부한 역사를 가지고 있으나, 모든 방법들은 분포 가설에 어떤식으로든 의존아며, 이는 동일한 문맥에 나타나는 단어가 의미론적 의미를 공유한다고 주장한다. 이 원리를 이용하는 다양한 접근법은 카운트 기반 방법(예를 들어, 잠재 의미론적 분석) 및 예측 방법(예를 들어, 신경 확률론적 언어 모델)의 두 가지 범주로 나눌 수 있다. 카운트 기반 방법은 어떤 단어가 큰 텍스트 코퍼스에서 이웃 단어와 얼마나 자주 공존하는지에 대한 통계를 계산한 다음 각각의 단어에 대해 이러한 카운트-통계를 작고, 밀도가 높은 벡터에 매핑한다. 예측 모델은 학습된 작고 밀도가 높은 임베딩 벡터(모델의 고려된 파라미터)의 측면에서 이웃으로부터 단어를 직접 예측하려고 한다. Word2vec는 원문에서 단어 임베딩을 학습하는 데 특히 효율적인 계산 모델이다.

그것은 두 가지 종류로 나뉜다: 연속적인 백-오프-단어 모델(Continuous Bag-of-Words model, CBOW)과 스킵 그램(Skip-Gram) 모델. (Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, 벡터 공간에서의 단어 표현의 효율적인 평가, ICLR 워크샵, 2013 (Mikolov 등) 참조). 알고리즘적으로, 이들 모델은, CBOW가 소스 문맥 단어(예를 들어, "고양이가 ~위에 앉아 있다")로부터 표적 단어(예를 들어, "매트")를 예측한다는 점을 제외하고는 유사한 반면, 스킵-그램은 역 변환을 수행하고 목표 단어에서 소스 문맥-단어를 예측한다. 이 반전은 임의적인 선택처럼 보일 수 있지만 통계적으로 볼 때 CBOW가 많은 분포 정보에 대해 매끄럽게 하는 효과가 있다(하나의 관찰로서 전체 문맥을 다룸으로써). 대부분 경우, 이는 작은 데이터 세트에 유용하다. 그러나 스킵-그램은 각 문맥-타겟 쌍을 새로운 관측치로 취급하며, 이는 아래의 표 1에 요약된 거대한 생명 과학 코퍼스와 같이 더 큰 데이터 세트의 경우 더 잘 수행된다.

일부 실시 예에 따르면, 바이오 메디컬 코퍼스는 다음 소스 중 하나 이상으로부터의 데이터를 포함할 수 있지만, 이에 한정되는 것은 아니다: 과학 문헌(예를 들어, PubMed, PubMed Central-PMC Open Access, NCBI Bookshelf 등의 기사), 임상 문헌(예를 들어, clinicaltrials.gov의 기록), 규제 문헌(예를 들어, FDA 문서) 및 상업 문헌(예를 들어, SEC 신고, 마약 마케팅 정보, 약물 처방 및 거래 데이터 세트 등). 바이오 메디컬 코퍼스의 대표 소스는 표 1에 열거되어 있다. 이 코퍼스는 여기에 소개된 방법을 사용하여 생명 과학 생태계 전반의 다양한 고객 제공 독점 문서 및/또는 공개 문서를 사용하여 확장하고 향상시킬 수 있다. 독점 데이터베이스의 예로는 전자 건강 기록(EHR), 의사 노트, 이상 반응 보고 등이 있다. 문서의 형식에는 과학자에 의해 준비되거나 검토된 슬라이드 데크(예를 들어, PowerPoint 또는 Keynote에서 만든 프레젠테이션), 분석된 데이터가 있는 텍스트 파일 또는 스프레드 시트(예를 들어, TXT, CSV, XLS 또는 XLSX 형식) 또는 과학적, 의학적, 임상적, 상업적 또는 규제적 통찰력을 담고 있는 문서(예를 들어, DOC, DOCX, PDF 또는 기타 적합한 형식)가 포함될 수 있지만 이에 국한되지는 않는다.

본 개시의 일부 실시 예에 따라 도 1에 도시된 바와 같이, 시스템 저장소(114)는 정보의 합성을 용이하게 하고 및/또는 상이한 경로(예를 들어, 경로(103a, 105a))를 통한 후속 정보 추출을 가능하게 하기 위해 상이한 형태로 2 개 이상의 소스 경로(예를 들어, 103a 및 105a))로부터 추출된 정보를 캡처할 수 있다. 일부 실시 예에서, 도 1은 본 개시의 일부 실시 예에 따라 단어를 벡터로 변환하고 그 결과 의미론적 생체 지식 그래프를 분석하는 데 사용할 수 있는 시스템 저장소(114)를 포함한다. 시스템 저장소(114)는 구조화된 의미론적 데이터베이스(106)(전통적인 데이터베이스 일 수 있음)에 저장된 정보; 지식 그래프(들)(107) (이것은 라벨링된 엔티티(경로(101a 및 102a)로부터 추출된) 및/또는 라벨링되지 않은 엔티티(102a 경로에서 추출된)의 지향된 그래프일 수 있는); 단어 임베딩(108)(단어(들) 및/또는 문장(들)을 포함할 수 있음); 문서/문단/문장 임베딩(109); 및 구조화되지 않은 데이터의 시퀀스 표현(110)을 포함할 수 있다. 일부 실시 예에서, 단어 임베딩의 예는 word2vec 일 수 있다. 일부 실시 예에서, 문서/단락/문장 임베딩의 예는 doc2vec일 수 있다. 일부 실시 예에서, 시퀀스 표현(110)의 예는 메모리 신경망(MemNN)일 수 있다.

일부 실시 예에 따르면, 도 1의 시스템은 입력으로서 구조화된 데이터(101)(예를 들어, 인간에 의해 큐레이터 됨), 비구조화된 데이터(102)(예를 들어, 로우 텍스트), 및/또는 반-구조화된 데이터(예를 들어, 구조화된 데이터와 비구조화된 데이터의 임의의 조합)를 취할 수 있다. 구조화된 데이터의 예는 이름-값 쌍의 테이블 또는 선별된 용어집의 온톨로지(ontology)이다. 구조화되지 않은 데이터는 텍스트일 수 있다(예를 들어, 이 바로 설명). 구조화된 및 반-구조화된 데이터는 기존의 구조화된 의미론적 데이터베이스(106)로 병합하는 정규화 및 분류 프로세스(103, 104)를 통해 101a로 갈 수 있다. 일부 실시 예에서, 정규화 프로세스는 RDF(Resource Description Framework) 트리플을 생성하는 것을 포함할 수 있다(노드 A, 노드 B, 속성 에지가 연결된 노드). 정규화/분류는 병합을 위해 기존의 구조화된 데이터(106) 및 임베딩(108)으로부터 107a, 108a를 활용할 수 있다. 비구조화된 데이터는 예를 들어 토큰 정리와 관련될 수 있는 토큰화/정규화를 통해 102a로 갈 수 있다. 일부 실시 예에서, 토큰은 기계 학습 모델에 대한 입력을 구성하는 단어 및/또는 구일 수 있다. 예를 들어 "the"라는 단어는 토큰이다. 또 다른 예로, "new york"라는 단어는 다음과 같이 특수 문자(예를 들어, "_")를 추가하여 하나의 토큰이 될 수 있는 2 단어 구문이다: "new_york". 일부 실시 예에서, 텍스트 입력은 텍스트를 하나 이상의 토큰으로 변환하는 입력 처리를 거칠 수 있다. 일부 실시 예에서, 프레이즈는 주어진 입력 외부의 사전 지식과 독립적으로 토큰으로서 생성될 수 있다. 예를 들어 "New York"이라는 단어가 입력에 자주 나오는 경우 "New York"을 "New York"이라는 토큰이 될 수 있는 구로 변환할 수 있다. 일부 실시 예에서, 복수의 단어는 입력에서 빈번하게 발생하지 않더라도, 구 및/또는 토큰이 될 수 있다. 예를 들어, "폐암(lung cancer)"이라는 단어가 입력에 자주 발생하지 않으면 강제로 문구 및/또는 토큰이 될 수 있다. 일부 실시 예에서, 알려진 기술(예를 들어, Word2Phrase)이 토큰화 프로세스에서 사용될 수 있다. 특수화된 인코더가 특정 데이터 소스(104a)의 파싱을 처리하기 위해 사용될 수 있다. 더욱이, 구문은 식별된 엔티티로 존재하는 구조화된 데이터베이스를 분석함으로써 인식/생성될 수 있다.

모든 처리된 데이터는 시스템 저장소(114)와 같은 저장소로 흐를 수 있다(103a, 105a). 이 데이터(107, 108, 109, 110)로부터 생성된 모델과 함께 이 데이터는 시스템 저장소(114)로서의 역할을 할 수 있다. 워드 및 문서 임베딩(108)은 Word2vec, Adagram, Fasttext, doc2vec 및/또는 임의의 다른 적합한 모델/툴과 같은 모델/툴을 사용하여 구조화된(특수 변환을 통해 텍스트 스트림으로 변환 됨) 데이터 및 비구조화된 데이터 모두로부터 생성된 임베딩을 포함할 수 있다. 임베딩의 증분 및 시간적 버전이 생성되어 시스템 저장소(114)에 저장될 수 있다. 시퀀스 임베딩은 신경망 모델의 반복적인 신경망(RNN) 패밀리(예를 들어, 양방향 LSTM(Long Short Term Memory) 네트워크)를 사용하여 생성될 수 있다. 임베딩 외에도 다른 모델을 이 저장소-지식 그래프(107) 및 상호 작용을 촉진하는 신경 망 모델(예를 들어, 반복적인 엔티티 네트워크)과 같은-에 저장할 수도 있다.

서브 시스템(116)은 서브 시스템(113)과의 상호 작용을 용이하게 하는 모듈(111, 112, 115)의 일 실시 예를 나타낸다. 데이터는 경로들(114a 및 114b)을 통해 시스템 저장소(114)로부터 서브 시스템(116)으로 흐를 수 있다. 데이터는 경로(116a)를 통해 서브 시스템(116)과 서브 시스템(113) 사이에서 흐를 수 있다. 도 1의 시스템은 정보 흐름의 관점에서 설명되었지만 일부 모델은 시스템 저장소의 데이터를 입력 및 라벨링된 데이터(라벨 데이터로 사용되는 구조화 된 데이터)로 사용하여 종단 간 교육을 받을 수 있다. 단어 종단 간(end-to-end)이라는 단어는 계산 흐름 그래프의 파라미터가 하나의 손실 함수로 끝에서 끝까지 훈련된다는 특별한 의미를 가질 수 있다. 예를 들어, 양방향 LSTM 인코더/디코더는 언어를 나타내는 단어 임베딩(108)과 함께 사용될 수 있고, 대화형 어플리케이션을 위한 다른 언어로 출력을 생성할 수 있다. 114 및 116의 모델은 다양한 발견 방법에 대한 감독되지 않은, 감독된 및/또는 강화 학습 방법에 의해 생성될 수 있다. GAN(Generative Model)을 사용하여 라벨링된 데이터가 희소한 작업에 대한 라벨링된 데이터를 만들 수도 있다.

도 1의 시스템은 입력된 단어 임베딩을 취하는 전통적인 그래프 기반 알고리즘을 활용하여 라벨링된 데이터(예를 들어, 엔티티 분포)의 부재를 보완할 수 있는 패턴을 찾을 수 있다. 이 시스템은 최첨단 모델을 활용하여 특정 작업에 적응하거나 기존 알고리즘과 결합/보완 할 수 있고, 하나의 예는 라벨링된 데이터의 부재를 보상하는 것이다. 이 모델은 인터페이스(113)을 통해 시스템과의 실시간 또는 오프라인 상호 작용을 제공할 수 있다.

도 1에 도시된 시스템은 시간적 및/또는 영구적 비-일시적인 메모리에 저장된 컴퓨터 실행 가능 명령어를 사용하여 본 명세서에서 설명된 기능을 구현하도록 구성된 프로세서(들)를 포함할 수 있다. 프로세서는 범용 프로세서일 수 있고 및/또는 ASIC(Application Specific Integrated Circuit), PLA(Programmable Logic Array), FPGA(Field Programmable Gate Array) 및/또는 임의의 다른 집적 회로를 사용하여 구현될 수 있다.

프로세서는 전형적인 Windows, Mac OS, Unix, Linux, VXWorks, Android, Blackberry OS, iOS, Symbian 또는 다른 OS와 같은 모든 버전 또는 유형과 같은 운영 체제를 포함하여 임의의 적절한 운영 체제(OS) 일 수 있는 운영 체제를 실행할 수 있다. 프로세서는 또한 웹 서버 관련 하드웨어 및/또는 소프트웨어로부터 임의의 명령을 실행할 수 있다.

도 16은 본 개시의 일부 실시 예에 따른 코사인 거리 확률 밀도 함수(PDF) 그래프를 도시한다. 그래프는 시스템 저장소(114)를 기반으로 하는 벡터 공간 모델과 같은 word2vec의 구현을 시각적으로 설명한다. 시스템 저장소(114)는 의미론적 연관 강도의 측정에 의해 결정된 벡터 및 에지 가중치로 표현되도록 선택된 단어/구를 나타내는 노드의 의미론적 생체 지식 그래프를 생성할 수 있다(예를 들어, 큰 차원 공간에서 벡터로 표현된 한 쌍의 단어 임베딩들 사이의 코사인 거리). 코사인 거리는 0(의미론적 연관성 없음)에서 1(가장 강한 연관성)을 나타낸다. 이러한 연관성의 측정 기준은 생물 의학 코퍼스에서 엔티티의 문맥 상 유사성을 반영할 수 있다.

도 17은 본 개시의 일부 실시 예에 따른 시간 분석을 위한 흐름도를 도시한다. 본 명세서의 일부 실시 예에 따라 기술된 바와 같이, 문서의 시간 슬라이스의 단어/구문 임베딩이 생성될 수 있다(단계 1701). 단어 임베딩은 여기에 설명된 방법으로 제한되지 않는 방법으로 생성될 수 있다.

일부 실시 예에서, 시간 슬라이스는 특정 기간(예를 들어, 월, 년, 5 년, 10 년, 세기 또는 임의의 다른 기간)을 나타낼 수 있다. 단어 임베딩은 각 시간 슬라이스마다 생성될 수 있다. 예를 들어 한 해에 출간된 모든 저널 기사는 한 번에 하나의 타임 슬라이스로 간주될 수 있다- 예를 들어 1996 년의 과학 기사는 하나의 타임 슬라이스에 속하며 1997 년의 과학 기사는 다른 타임 슬라이스에 속한다. 일부 실시 예에서, 용어 "단어 임베딩(word embedding)" 및 "단어 벡터(word vector)"는 상호 교환 가능하다.

일부 실시 예에서, 단어 벡터는 각 시간 슬라이스에 대해 개별적으로 또는 독립적으로 생성될 수 있다. 이 경우 엔티티에 대한 단어 벡터는 기계 학습의 학습 과정에서 각 시간 슬라이스마다 무작위로 독립적으로 초기화된다. 예를 들어, 1996 년과 1997 년 사이에 과학 기사에 실재물에 대한 단어 벡터를 만들 때, 1996 년 과학 기사의 타임 슬라이스는 1997 년 과학 기사의 타임 슬라이스에 관계없이 초기화될 수 있다. 따라서 1996 년에 존재하는 의미론적 연관성은 1997 년 단어 벡터의 생성에 사용된 단어 벡터가 없기 때문에 의미론적 연관성에 영향을 미치지 않는다. 이 접근법은 각 시간 슬라이스에 대한 의미론적 연관성을 독립적으로 분석하는 데 유용할 수 있다.

일부 실시 예에서, 단어 벡터는 하나 이상의 다른 타임 슬라이스(들)로부터 워드 벡터를 레버리징함으로써 각 타임 슬라이스에 대해 생성될 수 있다. 이 경우, 타임 슬라이스에 대한 엔티티에 대한 단어 벡터를 생성할 때, 다른 시간 슬라이스(들)의 단어 벡터는 기계 학습에서 훈련 과정을 시작하는 데 사용된다. 예를 들어, 1997 년 엔티티에 대한 단어 벡터를 만들 때, 1996 년에 만들어진 단어 벡터를 사용하여 교육 과정을 시작할 수 있다. 따라서 1996 년의 의미 벡터는 1997 년의 단어 벡터 생성에 사용되었기 때문에 1996 년의 의미론적 연관성은 1997 년의 의미론적 연관성에 영향을 줄 수 있다. 이 접근법은 다른 시간 슬라이스(들)로부터의 의미론적 연관을 고려하여 시간 슬라이스에 대한 의미론적 연관성을 분석하는데 유용할 수 있다.

일부 실시 예에서, 이들 다른 시간 슬라이스는 이전 시간 슬라이스로부터의 것일 수 있다. 일부 실시 예에서, 단어 벡터는 전체 코퍼스(corpus)로부터 생성될 수 있고, 여기서 이들 임베딩은 유니버스가 될 수 있다. 일부 실시 예에서, 단어 벡터가 생성된 후에, 개시된 시스템 및 방법은 용어의 의미적인 이웃이 시간에 따라 어떻게 변화 하는지를 분석할 수 있다.

타임 슬라이스의 임베딩이 생성되면, 용어 쌍은 자동적으로 또는 사용자에 의해 선택될 수 있다(단계 1702). 자동적인 경우에, 예를 들어, 후보 쌍은 유전자 x 유전자, 유전자 x 질병 또는 임의의 다른 적합한 엔티티 유형의 조합과 같은 엔티티 유형의 조합으로부터 선택될 수 있다. 일부 실시 예에서, 후보 세트는 드물게 발생하거나 시간 슬라이스에서 전혀 발생하지 않는 것들을 선택함으로써 추려질 수 있다. 이들 후보들은 고도로 공존하는 쌍들과 달리, 예측을 위한 잠재적 쌍이될 수 있다. 그 후, 이러한 쌍들은 시간 슬라이스에 걸쳐 분석될 수 있다(단계 1703). 일부 실시 예에서, 하나의 방법은 시간에 걸쳐 변화하는 신규성 측정치 및 두 용어 간의 코사인 거리를 포함한다. 이 분석은 시스템이 이러한 용어가 앞으로 더 강하게 연관될 것으로 예측할 수 있는 항목을 출력으로 산출할 수 있다(단계 1704). 신규성 측정은 드물게 발생하거나 전혀 발생하지 않는 앞부분에 위치한 용어 쌍을 가져올 수 있어, 이에 따라 시간 슬라이스에 걸쳐 강화될 수 있고 시간 이득 예측의 후보가 되는 용어 쌍 사이의 잠재적인 링크를 발견할 수 있다. 검사된 타임 슬라이스에서 높은 공동 발생을 갖는 용어 쌍에 대하여, 개시된 시스템 및 방법은 두 용어 사이의 인과 관계의 경로 연구를 수행할 수 있다.

개념의 진화를 정량적으로 연구하기 위해서는 의미론적 연관 강도 메트릭의 동작을 이해하는 것이 중요하다. 메트릭 및 메트릭의 통계적 속성은 공개된 시스템 및 방법으로 인해 발생하는 의미론적 연관 강도의 중요성에 대해보다 강력한 진술을 하기 위해 Null 가설에 설명되어 있다. 일부 실시 예들에서, 관리되지 않는 뉴럴 네트워크에 의해 생성된 워드 임베딩(고려중인 코퍼스에서 단어 또는 구의 d-차원 벡터 표현)은 내적(dot product)(또는 내부 제품)을 사용함으로써 다른 것으로 비교될 수 있다. 두 벡터 a와 b 사이의 내적은 다음과 같이 정의된다:

여기서 ||a|| 및 ||b|| 는 벡터의 각 크기 (L2 놈이라고도 함)이고, cos

는 -1에서 1까지의 값을 갖는 코사인 거리이다. 뉴럴 네트워크에 의해 사용되는 목적 함수는 로컬 슬라이딩 윈도우에서 함께 발생하는 단어를 모으는 방식으로 공식화된다. 즉, 이러한 단어 쌍 사이의 각도가 더 가까워지고 코사인 거리가 더 높다. 뉴럴 네트워크(Neural Network)가 보여준 행동 중 하나는 의미론적으로 가까운 단어를 묶는 것이다. 다양한 엔티티 집합(유전자, 질병, 회사, 약물, 사람 등의 단어의 "클래스")이 포함된 코퍼스에서, 동일한 엔티티 유형의 단어는 무작위로 선택된 단어 쌍에 비해 높은 코사인 거리를 갖는 경향이 있다. 따라서 단어 연관성을 조사하는 동안 반복적으로 나타나는 한 가지 질문은 한 쌍의 단어 벡터 사이에서 관찰된 특정 코사인 거리의 통계적 중요성이다. 통계적 유의미성을 평가하기 위해 먼저 균일하게 분산된 단어 벡터로 구성된 d-차원 공간에서 볼 수 있는 코사인 거리의 특성을 공식적으로 분석한다. 특정 단어 쌍 연관을 유의미하다고 선언하는 것은 그 쌍의 코사인 거리가 위의 무작위적 분포에 의해 생성된 것은 아닐 것이다.

d-차원 단위 구(R^d에있는 d-구)에서 벡터 v를 선택한다. 단위 구에서 임의로 선택된 다른 벡터가 v에서 코사인 거리 x를 가질 확률을 계산하려고 한다. 모든 벡터는 d-구에서 균일하게 분포한다고 가정할 수 있다. 임의의 변수, 즉 벡터 사이의 각도와 랜덤 변수 X = cos Θ, 임의로 선택한 w와 고정 벡터 v 사이의 각도 Θ의 코사인을 갖는다. 예를 들어, 3 차원 공간(d = 3)을 분석할 수 있다. 단위 구에서, 임의의 단위 벡터 v는 고정될 수 있다. v 에서 각도 Θ에있는 벡터는 모두 반경 sin Θ의 원주 위에 있다(이 원의 평면은 구의 중심으로부터 거리 Θ에 있다-도 15 참조). 벡터 w가 벡터 v에 대해 각도 Θ를 가질 확률을 계산하려면 w가 살면되는 구의 부분 면적을 알아야 한다. 3-차원 공간에서, 그러한 분수 영역은 특정 원(반경 sin Θ를 갖는)과 작은 차분

의 곱일 뿐이다. 그런 다음, 확률은

이다. d-차원 공간의 일반적인 경우, 이 벡터들은 반경 sin Θ의 (d-1)-구에서 살 것이다. Ad (r)을 d-sphere의 표면적이라 한다. 예시:

. 분수 영역은

이고 각도가 Θ이 확률은:

(식 1)

상기 식에서, 반경 r의 d-구가 r^d-2의 표면 영역 비율을 갖기 때문에, 확률은 고정된다. Θ로부터 x로 변하는 변수: x= cos Θ라고 하고 여기서

식 1로부터,

(식 2)

여기서

식 2는 선택된 거리 분포의 확률 밀도 함수를 제공한다.

도 16은 본 개시의 일부 실시 예에 따른 다양한 N-차원 공간에 대한 확률 밀도 함수(pdf)를 도시한다. 일부 실시 예에서, 신경망에 의해 사용되는 전형적인 차원은 300이다. 그래프에서 볼 수 있듯이, 분포는 0 점을 중심으로 한 대부분의 질량으로 매우 정점에 이른다-즉, 무작위로 선택된 벡터 쌍은 일반적으로 직각 또는 직각에 가깝다(각도는

에 가깝다). 다음의 표 2는 임의의 코사인 거리를 갖는 벡터 쌍 및 다양한 코사인 거리에 대한 예상되는 랜덤 벡터의 수를 관찰할 확률을 도시한다.

코사인 거리	p-값	코사인 거리 위의 랜덤 벡터의 예상된 수
0.90	5.538751e-111	1
0.85	2.302365e-86	1
0.80	1.939344e-69	1
0.75	9.426968e-57	1
0.70	9.109259e-47	1
0.65	1.152092e-38	1
0.60	5.855381e-32	1
0.55	1.389285e-21	1
0.50	2.457876e-21	1
0.45	1.493984e-17	1
0.40	3.933236e-14	1
0.35	3.061398e-11	1
0.30	8.135050e-09	1
0.25	8.253500e-07	1
0.20	3.493872e-05	40
0.15	6.638752e-04	31867
0.10	6.040020e-03	289921

예를 들어, 0.9의 코사인 거리(대략 26 °의 각도)에서, 확률은 5.5 x 10^-111로 매우 작다. 0.3의 큰 코사인 거리(대각 73 °)에서도 확률은 8.1 x 10^-9로 작다. 일부 실시 예에서, 개시된 시스템에서 마주치는 전형적인 코퍼스는 수백만 단어/구를 갖는 경향이 있다. 결과적으로, 랜덤 분포(예를 들어, 코사인 분포)를 사용한다는 기존의 믿음은 매우 좋은 p-값을 제공하여 통계적으로 유의미한 연관성을 너무 많이 나타낼 수 있다. 협회의 해석을 더 엄격하게 만드는 한 가지 방법은 관측 코사인 거리 이상의 예상된 랜덤 벡터 수를 코사인 거리 이상의 실제 벡터 수와 비교하는 것이다. 표 2의 세 번째 열은 다양한 코사인 거리에 대한 임의의 벡터의 예상 개수를 보여준다. 예를 들어 유전자, 질병, 약물 등과 같은 생명 과학 기관의 경우 4 천 8 백만 개의 벡터가 있는 코어 코퍼스에서 코사인 거리 0.3보다 큰 50K + 벡터를 사용한다. 이러한 경우, 통계적 유의성의 척도로서 관측된 실제 벡터에 대한 예상된 랜덤 벡터의 비율을 사용하는 것은 논리적인 근거가 될 수 있다. 밀접히 관련된 엔티티(유전자/유전자 또는 유전자/질병 협회와 같은)의 통계적 유의성을 평가할 때 신뢰도를 높이기 위해 더 높은 기준이 필요할 수 있다.

일부 실시 예에서, 한 쌍의 엔티티 사이의 연관 강도의 통계적 해석은 다수의 공변량을 포함하는데, 여기에는 제한되지는 않지만 문서의 수, 문서의 소스 및 한 쌍의 단어 임베딩을 포함하는 엔티티 모음이 포함된다. 결과 연관 메트릭은 시간이 지남에 따라 추적될 수 있으며, 두 생명 과학 엔티티들 사이의 관계에 대한 시간적 추론을 허용하고 그러한 관계의 통계적 중요성을 수립한다. 아래에 나열된 많은 사례는 높은 의미론적 연관성이 두 엔티티 간의 관계를 확고히 확립한 최종 세미 출판물에 선행했음을 보여준다. 이 개념은 "의미론적 신호(semantic signal)"(즉, 의미론적 연관성의 증가)의 출현과 주요 문헌에서의 연관성의 실제 발생 사이의 시간의 양(예를 들어, 년)을 나타낼 수 있는 "시간 이득(Time Gain)"으로 캡처할 수 있다(즉, 연관성을 보고하는 문서의 증가).

이 방법론은 통계적으로 중요한 엔티티 연결의 특정 쌍과 네트워크를 식별하는 데 사용할 수 있다. 의미론적 연관 강도를 시간에 따라 분석하면(즉, 시간 분석 수행) 생명 과학 코퍼스들과 같은 코퍼스들로부터의 초기 중대한 연관을 발견하고 추적할 수 있다. 시간적 분석은 생명 과학 엔티티와 같은 두 엔티티들을 시간 경과에 따른 의미론적 연관성을 추적하여 비교할 수 있다. 일부 실시 예에서, 3 개 이상의 엔티티가 비교될 수 있다. 예를 들어 엔티티 A, B, C 및 D가있는 경우 이러한 엔티티는 시퀀스대로- A-B, 그 후 B-C, 그 후 A-C, 그 후 A-D, 그 후 B-D, 그 후 C-D 등의-쌍별로 비교할 수 있다. 생명 과학 엔티티는 드물게 분류되거나 과학 문헌에서 발견된 기존의 분류 체계를 사용하여 정의될 수 있다. 후자의 경우 구조화된 데이터베이스를 활용하여 엔티티 클래스를 결정할 수 있다. 예를 들어, 유전자는 NCBFs Gene Records(https://www.ncbi.nlm.nih.gov/gene) 및/또는 HUGO Gene Nomenclature Committee(https://www.genenaiiies.org) 데이터 세트에서 파생될 수 있다. 유사하게 질병 명칭과 온톨로지는 MeSH(Medical Subject Headings) 컬랙션(https://meshb.nlm.mli.gov)에서 얻을 수 있다.

엔티티 유형이 결정되면 바이오메디컬 코퍼스의 연관성을 시간 경과에 따라 추적할 수 있다. 엔티티는 프레이즈 생성 프로세스에 의해 먼저 생성될 수 있으며, 후보 엔티티가 그것들을 구성하는 n-gram 단어의 발생/공동 발생의 표준 척도에 따라, 그 뿐만 아니라 구조화된 컬렉션에서 컴파일된 사전에서 얻은 후보를 강제 선택하여 선택된다. 표준 측정은 PMI(Pointwise Mutual Information) 측정일 수 있다. 이는 발생 카운트가 문구가 되기 위한 문턱 값을 만족시키지 않아도 문구가 생성되도록 보장할 수 있다. 이는 어휘가 충분히 크지 않을 수도 있고 중요한 어구를 구성하는 용어의 발생/공동 발생이 충분하지 않을 수도 있는 시간 슬라이스에서 특별한 가치가 있을 수 있다.

일부 실시 예에서, 프레이즈 생성 프로세스는 후속 타임 슬라이스의 보존된 워드리스트의 일부로서 임의의 타임 슬라이스에 대해 생성된 어휘를 사용할 수 있다. 이렇게 하면 문구를 구성하는 개별 용어의 수가 적을 때와 관계없이 해당 시점에서 시간 슬라이스에서 발생하는 용어를 추적할 수 있다. 계단식 연결의 첫 번째 단계는 모든 코퍼스 텍스트의 조합인 코퍼스 어휘를 사용할 수 있으므로 구문을 구성하는 개별 용어의 빈도가 적음에도 불구하고 중요한 부분이 타임 슬라이스 교육에서 보존될 가능성이 높아진다. 구문 생성 프로세스는 구문의 구성 용어 개수가 구문 개수 자체만큼 많도록 보장할 수 있다. 이를 통해 교육 과정에서 모든 구 및 구성 용어가 개별적으로 또는 복합적으로 교육 과정에 참여할 수 있다.

트레이닝 프로세스는 위에서 생성된 코퍼스를 반복하여 단어 벡터 임베딩을 생성할 수 있다. 단어 임베딩은 각 시간 슬라이스에 대해 생성될 수 있으며, 시간적 분석과 시간에 따른 엔티티의 비교에 사용된다.

트레이닝 프로세스는 두 가지 형태의 벡터 생성을 수행할 수 있다. 하나의 형태에서, 모든 슬라이스의 단어 벡터는 무작위로 초기화되고, 벡터 임베딩은 학습 중에 학습된다. 이러한 형태의 훈련은 특정 용어가 과거와 별개로 다른 용어와 어떻게 관련되어 진화되었는지를 파악하는 데 유용하다. 두 번째 형태의 훈련에서는 매번 시간 조각이 이전 인스턴스의 임베딩에 의해 훈련되기 전에 인스턴스화 된다. 시간이 지남에 따라 용어가 어떻게 진화했는지 확인하는 데 특히 유용할 수 있다.

타임 슬라이스에서 각 용어의 엔티티 유형은 해당 코퍼스로 제한된 엔티티 유형 분산 계산을 사용하여 해당 타임 슬라이스에 대해 평가 될 수 있다. 이렇게 하면 시간이 지남에 따라 용어의 의미론적 의미를 추적할 수 있다. 예를 들어, 용어의 이웃은 시간이 지남에 따라 변경될 수 있으므로 해당 엔티티 유형 분포가 시간에 따라 변경된다. 이 방법은 시간이 지남에 따라 엔티티 유형 분포 변화를 추적할 수 있다.

트레이닝 창에서 발생하는 단어를 추적하여 생성된 트레이닝 그래프를 검토하여 각 시간 슬라이스에 대해 두 용어가 결합된 원인 경로를 분석할 수 있다. 트레이닝된 코사인 거리 그래프에 중첩된 이 트레이닝 그래프는 서로 다른 수준의 간접 검색으로 함께 오는 단어에 대한 인과 관계 설명을 제공할 수 있다.

시간적 분석 플롯 내에서, 초기 연관과 관련된 특정 마커를 식별할 수 있다. 두 엔티티가 모두 포함된 문서의 증가에 앞서 중요한 연관 강도가 급격히 증가하면 시스템에서 정액 연관성이 문헌에 보고 되기 전에 이를 예측할 수 있다는 분명한 신호가 될 수 있다. 의미론적 연관성의 증가는 곡선의 2 차 미분의 최대 값으로 포착될 수 있으며, 문서 수의 증가는 고정된 축에서 곡선의 기울기를 보거나 사전 지정된 문서 수 임계 값을 넘어서 캡처할 수 있다. 반복된 시간 알려진 연관 관계에 대한 이득 사례는 공개된 시스템 및 방법이 예측 기능을 갖는 것으로 검증한다. 오늘날 의미론적 연관 강도가 높고 두 가지 문서가 전혀 없는 생명 과학 엔티티 쌍은 잠재적으로 새롭고 정교한 연관성으로 표시될 수 있다.

초기의 생명 과학 엔티티 연관은 다양한 독점적 및/또는 공용 데이터 세트에서 발견할 수 있는 기능을 특징으로 한다. 예를 들어, 유전자 엔티티의 경우 정상 인간 조직에서의 발현은 Broad Institute(https://gtexportal.org/home/)의 GTEx 데이터 세트와 같은 데이터 세트를 사용하여 결정할 수 있고, 그것을 의미론적 연관 스코어와 관련 짓는다. 유사하게, 유전자 및 질병 연관성은 OpenTargets 데이터베이스(htips: // w. targetva.lidation.org/)와 같은 데이터베이스에서 연관 스코어를 결정함으로써 신규성에 대해 스트레스 테스트를 받을 수 있으며, 이는 우리의 예상 생명 과학 엔티티 쌍에 대해서는 낮을 것으로 예상된다.

통계적 해석

여러 요소가 두 엔티티 간의 연관에 영향을 줄 수 있다. 두 엔티티를 비교할 때 각 엔티티가 속한 엔티티 컬랙션은 의미론적 연관 강도에 영향을 줄 수 있다. 또한, 각 엔티티는 주어진 엔티티 컬렉션과 비교될 때 의미론적 연관 강도의 다른 분포를 갖는다.

도 18은 본 개시의 일부 실시 예에 따라 모든 질병 엔티티에 대한 2 가지 유전자에 대한 의미론적 연관 강도의 밀도 분포를 도시한다. 의미론적 연관 강도(x 축 상의 코사인 거리 및 y 축 상의 확률 밀도 함수)는 ADAL 및 ADGRG1과 같은 유전자에 대해 일부 또는 모든 질병 엔티티에 대해 측정될 수 있다. 두 분포는 다를 수 있다. 예를 들어, 도 18은 ADAL과 ADGRG1의 분포가 다른 것을 보여준다. ADGRG1 유전자를 질병들의 엔티티 컬랙션의 모든 질병 용어와 비교할 때, 의미론적 연관 강도의 분포는 평균 0.34이고 표준 편차는 0.13이다. 한편, 유전자 ADAL을 질병 용어의 동일한 컬랙션과 비교할 때, 의미론적 연관 강도의 분포는 평균이 0.19이고 표준 편차는 0.067이다. 평균적으로, 유전자-질병 연관성의 대다수는 인과 관계를 나타내는 것이 라기보다는 노이즈일 것으로 예상할 수 있다. 일부 실시 예에서, 주어진 엔티티 클래스에 대한 의미론적 연관 강도의 분포는 질의되는 엔티티에 따라 다르므로, 이 효과는 통계적 추론을 그리는 시도에서 설명되어야 한다.

개시된 시스템 및 방법은 그들이 입력하는 유형의 질의에 대한 의미론적 연관 강도의 배경 모델의 척도를 제공함으로써 사용자가 그들의 질의를 해석하는 것을 돕는다. 도 19는 본 개시의 일부 실시 예에 따라 통계적 배경 모델을 평가하고 요약 통계를 사용자에게 제시하는 프로세스를 도시한다. 사용자는 비교를 위해 2 개의 엔티티 E1 및 E2를 입력할 수 있다(단계 1905, 1910, 1915). E1 및 E2가 속하는 적합한 엔티티 컬랙션(예를 들어, 가장 관련 있는 엔티티 컬랙션)은 디폴트로 계산될 수 있거나, 사용자는 질의 내의 각 엔티티에 사용될 엔티티 컬랙션을 지정할 수 있다(단계 1920, 1925). 선택된 두 엔티티 컬렉션은 각각 E1과 E2에 대해 EC1(길이 n₁)과 EC2(길이 n₂)로 정의할 수 있다(1930, 1935 단계). E1을 EC1에서 뺀 다음 EC1 '이라는 새 엔티티 컬렉션을 생성할 수 있다. (단계 1940). 동일한 동작이 EC2에 대해 수행되어 EC2 '를 생성할 수 있다(단계 1945). EC와 EC2'의 모든 구성원(n₂-1 구성원을 포함) 사이의 의미론적 연관 강도를 계산하여 길이 n₂-l의 벡터 D₂를 생성할 수 있다. 의미 연결 강도는 E2와 벡터 D1을 생성하기 위해 EC1'(n₁-1 구성원 포함)의 모든 구성원간에 계산될 수 있다(1950, 1955 단계).

벡터 D1 및 D2는 유형 E2 x EC1 및 E1 x EC2의 모든 질의에 대한 의미론적 연관성의 분포를 각각 나타낸다. 이러한 분포는 중요한 연관의 통계적 추론을 배경(null) 모델로 사용하기 위한 목적으로 유용할 수 있다. 이 통계적 추론을 돕기 위해, D1 및/또는 D2의 평균과 같은 요약 통계가 계산되어 사용자에게 제시될 수 있다(단계 1960, 1965). 이러한 요약 통계에는 평균, 중간 값, 백분위 수 및 p-값이 포함되지만 이에 국한되지는 않는다. 보다 복잡한 기능을 제시할 수도 있다. 그러한 함수 중 하나는 D1과 D2로부터 무작위 추출의 확률 분포 함수의 오른쪽 영역일 수 있다. 이 방정식에서, 사람은 D1과 D2에서 임의의 변수(d1과 d2)로 포인트를 본다. 이 랜덤 변수의 합은 새로운 랜덤 변수 h(식 1)로 정의된다. h의 확률 분포 함수는 D1과 D2의 컨볼루션(*)으로 계산할 수 있다. El x E2 (SAS_E1xE2)의 관찰 된 의미론적 연관 강도는 D1과 D2에서 추출되며, 따라서 장점의 통계(p_conv)는 SAS_E1xE2의 두 배를 초과하는 D1 및 D2의 무작위 추출의 비율이다.

도 20은 시간 분석으로 오버레이된 이러한 요약 통계의 표시 예제를 보여준다. 이 예에서 유전자 "EPX"는 질병 엔티티 "호산구수(eosinophil count)"에 대해 질의된다. 요약 통계는-유형 EPX 대 질병 엔티티와 관련된 모든 질의에 대한 의미론적 연관 강도의 평균(라인 2001), 25 백분위 수 및 75 백분위 수(박스 2002)를 포함하는-는 시간적 분석에서 제시된 해마다 발표된다. 요약 통계에는 평균, 중간 값, 백분위 수 및 p-값이 포함되지만 이에 국한되지는 않는다. 두 엔티티가 모두 포함된 문서 수는 매년 표시된다.

신규성 측정

뉴럴 네트워크에 의해 생성된 고 차원 벡터 공간의 흥미로운 특성 중 하나는 해당 벡터가 클러스터에서 동시에 발생하지 않은 특정 벡터의 클러스터링인 것이다. 이는 첫눈에 반 직관적이다: 신경망을 훈련 시키는데 사용되는 최적화 기준은 작은 로컬 슬라이딩 윈도우로 발생하는 단어의 확률을 최대화하는 것에 의존한다. 슬라이딩 윈도우 내의 단어들에 대응하는 벡터들은 일반적으로 역 전파 프로세스의 일부로서 결합된다-다시 말하면, 슬라이딩 윈도우에서 두 단어가 더 빈번하게 발생하면, 그 벡터 쌍 사이에 높은 코사인 거리를 예상하는 것이 자연스럽다. 그러나 트레이닝 프로세스 (네거티브 샘플링 또는 노이즈 대비 추정이라고도 함)에서 사용되는 한 가지 원칙은 자주 발생하는 단어(예를 들어, "the", "of", "to"등의 일반적인 영어 단어)와 슬라이딩 창에서 다른 단어 사이의 코사인 거리를 명시적으로 최소화한다. 위의 결과는 한 번조차도 발생하지 않은 두 단어가 높은 코사인 거리를 가질 수 있게 한다(또는 거의 동시 발생하지 않았다). 이러한 연관성은 기본 문헌에서 증거가 부족함에도 불구하고 그러한 단어 쌍 간의 연관성이 강하기 때문에(즉, 높은 코사인 거리) "신규 연관(Novel Association)"이라고 할 수 있다.

도 21은 본 개시의 일부 실시 예에 따른 벡터의 랜덤 세트(뉴럴 네트워크에 의해 생성된 벡터 공간에서)로부터 생성된 2 개의 히스토그램을 도시하며, 여기서 한 분포는 코사인 거리가 0.32보다 작은("강력하지 않은 연관"으로 간주 됨) 모든 벡터 쌍("DISTANCE <0.32"로 표시됨)을 나타내고 다른 분포는 코사인 거리가 0.32보다 큰("강한 연관"으로 간주 됨) 모든 벡터 쌍 ("DISTANCE> = 0.32"로 표시됨)을 나타낸다. 이는 매우 좋은 코사인 거리를 가지지만 코퍼스에서 한번도 공존하지 않는 단어 벡터 쌍을 찾는 현상이 얼마나 흔한지를 보여준다. 0 값에서 "DISTANCE>=0.32" 막대는 0.32("강한 연관")보다 큰 코사인 거리가 문서에서 한 번도 함께 발생하지 않은 벡터 쌍의 약 11 %를 의미한다. 또한 도면에서 "DISTANCE>=0.32" 분포의 질량이 예상보다 오른쪽으로 비뚤어 지지만(더 많은 공동 생성과 그러므로 놀랄 만큼 큰 코사인 거리들) "DISTANCE <0.32" 분포의 긴 테일이 있다(매우 높은 공동 발생이지만 작은 코사인 거리). 긴 테일은 부정적인 샘플링의 직접적인 결과이다-슬라이딩 윈도우에서 중요한 단어와 함께 자주 발생하는 공통 단어에 해당하는 벡터가 다른 단어의 벡터에서 멀리 이동한다.

일부 실시 예에 따르면, PMI(Pointwise Mutual Information)에 기초하여 신규성을 측정하기 위한 정량 메트릭이 제공될 수 있다. PMI는 다음과 같이 두 무작위 변수 X와 Y 사이의 연관성을 측정한다:

여기서 p(x)와 p(y)는 확률 변수 X와 Y의 확률이고, p(x, y)는 X와 Y의 조인트 확률이다.

단어 1과 단어 2의 발생 횟수를 각각 w₁과 w₂로한다. w_c는 크기 T의 코퍼스에서 단어 1과 2의 공동 생성 수이다.

우리는 logistic 함수 (sigmoid)를 사용하여 pmi 값을 0과 1 사이로 제한하고, 추가로 지수가 높은 감쇠를 사용하여 매우 큰 공동 생성 계수를 무시한다. 이론적으로는 공동 생성 카운트 w_c가 클수록 신경망이 벡터를 결합시키고 감쇠가 해당 인공물을 설명하는 데 도움이 될 것으로 기대한다.

종합하여, 다음과 같이 신규함(novelty)의 측정을 정의한다:

여기서 a는 감쇠 계수(예를 들어, 전형적으로 0.01로 설정 됨)이다. 1의 신규함(또는 100 %)은 w_c = 0임을 나타낸다. 신규함 측정치는 코사인 거리와 함께 신중하게 해석되어야 하며, 이는 신규함 스코어는 낮지만 코사인 거리는 약하기 때문에 가능하다. 일부 실시 예에서, 통상적인 실행은 신규성을 특정 임계 코사인 거리 이하로 0으로 해석하는 경향이 있는 경우이다(예를 들어, 약 0.3은 50M 단어 코퍼스의 300 차원 공간에서 좋은 선택을 하게 될 것인데, 그 이유는 그것보다 위에 하나의 랜덤 벡터가 있고 그 역시 아주 작은 확률을 갖는 거리를 나타내기 때문이다).

일부 실시 예에서, 시간적 분석은 생명 과학에서 이들이 기술된 주요 출판물이 발표되기 전에 정립 관계를 밝힐 수 있다. 도 22a 및 도 22b는 본 개시의 일부 실시 예에 따른 성실한 생명 과학 개체 쌍의 시간적 분석을 도시한다. 이 도면은 한 쌍의 생명 과학 엔티티 간의 의미 연관 강도(코사인 거리)가 문서 공동 인용 횟수(범례에서 "두 단어가 있는 문서"로 표시)와 함께 PubMed 코퍼스(범례에서 "의미론적 연관 강도"로 표시)의 시간(년)에 걸쳐 어떻게 표시되는지 보여준다. 앞에서 언급했듯이, 문서 공동 인용 곡선(범례에서 "두 단어가 있는 문서"로 표시)은 "예측적" 에지를 제공하지 않고 두 단어를 모두 설명하는 누적된 수의 기사를 순수하게 반영한다. 그러나 성실한 생물학적 연관성(pd-1:pd-11 || pd-1:종양 침윤성 임파선)은 이 유전자 주변의 지식이 초기에 있을 때에도 의미론적 연관성이 강하다. 특히, 이 쌍에 대한 의미론적 연관 스코어는 단어(pd-1:pd-11 || pd-1:종양 침윤 림프구)를 공동 인용한 논문이 아직 나타나지 않았던 1997 년에서 2001 년 사이에 급격하게 증가했다. 이 결과는 한 쌍의 생명 엔티티들 사이의 의미론적 연관 강도(코사인 거리)가 개념 연관의 시간적 진화를 매우 민감하게 캡처하는 이유를 보여준다(지식이 초기이고 단지 소수의 기사에 의해서 보고되었을 때).

일부 실시 예에 따르면, 여기에 설명된 방법이 두 생명 과학 엔티티 쌍에 대한 강력한 의미론적 연관 스코어를 제공할 때와 충분한 수의 문서가 한 쌍의 단어 또는 구를 함께 인용할 때 사이의 시간 간격은 시스템의 현저한 적용이다. 도 23은 본 개시의 일부 실시 예에 따른 예시적인 PTEN-KRAS 시간 분석을 제공한다. 도 23은 도 23의 그래프가 PTEN 및 KRAS 엔티티에 대한 것을 제외하고는 도 20, 22a-22b에 도시된 그래프와 유사한 그래프를 도시한다. 종양 유전자 PTEN과 KRAS는 2000 년(Ikeda, T.; Yoshinaga, K.; Suzuki, A.; Sakurada, A.; Ohm on, H.; Horii, A. Anticorresponding Mutations of the KRAS and PTEN Genes in Human Endometrial Cancer. Oncol. Rep. 2000, 7, 567-570)까지 PTEN과 KRAS 간의 의미 론적 연관성 점수가 의미 있는 수준으로 증가한 후 3 년 만에 서로 연관성이 있는 것으로 문서화되지 않았고, 충분한 기회 창을 제공한다. 연관 스코어의 유의한 증가가 감지되면 이를 관심 년으로 표시할 수 있다(도 23에서 "시간-연관 신호의 발생(Time - Emergence of Association Signal)"으로 표시됨). 신호가 진동하는 경우 연관의 안정화를 기다리는 것이 유리할 수 있고(즉, 연관 스코어의 시간-안정화), 이는 PTEN-KRAS 예제는 출현과 동시에 발생한다. 시간 이득은 연결 신호 발생과 공동 발생 문서 수가 크게 증가하는 시간 사이의 시간 간격으로 정의되고(도 23의 "시간-높은 공동 생성 문서 수의 출현(Time - Emergence of High co-occurrence Document Count)"으로 표시), 이것은 연관에 대한 과학계의 인식을 나타낸다.

일부 실시 예에서, 현재 관련이 없는 한 쌍의 질병 바이오 마커의 연관성을 예측할 수 있다면, 이는 질병의 분자 메커니즘에 대한 통찰력을 밝히는 데 사용될 수 있다. 이러한 통찰력은 제약 및 임상 연구 개발 노력의 속도를 획기적으로 가속화 할 수 있다. 개념의 증거로서, 우리는 의미론적 연관 스코어가 중요한 생물학적 발견 및 출판에 앞서 있었던 몇 가지 추가 회고 사례 연구를 문서화 하였다. 이러한 발견은 의미론적 연관 스코어(단어 또는 문구 쌍 간의 코사인 거리) 동역학을 사용하는 여기에 설명된 시스템의 유효성을 확인하고 그 정보를 아는 것이 해당 공간에서 벤처 기업에 엄청난 가치를 추가했을 구체적인 사례를 제공한다. 이들 추가적인 예시적인 예시는 도 24 내지 도 27에 개략적으로 도시되어 있으며, 이는 엔티티와 같은 상이한 입력 값을 제외하고도 20, 22a-22b 및 23에 도시된 그래프와 유사한 그래프를 도시한다.

도 24는 본 개시의 일부 실시 예에 따른 AML1(RUNX1)-FLT3 유전자-유전자 연관 시간적 분석을 예시한다. AML1(RUNX1)과 FLT3는 급성 골수성 백혈병과 밀접하게 관련된 두 유전자이며, 2002 년까지 명확한 연관성을 완전히 연구하지는 못했다 (de Guzman, C. G.; Warren, A. J.; Zhang, Z.; Gartland, L.; Erickson, P.; Drabkin, H.; Hiebert, S. W.; Klug, C. A. Hematopoietic Stem Cell Expansion and Distinct Myeloid Developmental Abnormalities in a Murine Model of the AML1-ETO Translocation. Mol. Cell. Biol. 2002, 22, 5506-5517). 이것은 공개된 시스템이 이 두 유전자 사이에 강한 의미론적 연관 스코어를 발견한 후 거의 10 년이 지난 것이다.

도 25는 본 개시의 일부 실시 양태에 따른 비정형 용혈성 요독 증후군-CFH(질환 유전자) 시간적 분석을 예시한다. 이 경우 보체 규제 유전자 인자 H(CFH)와 비정형 용혈성 요독 증후군 사이의 새로운 연관성을 설명하는 2005 년에 발표된 한 문서가 이 두 용어 사이의 의미론적 연관성을 극대화하는 데 기여했다 (Hageman, G. S.; Anderson, D. H.; Johnson, L. V.; Hancox, L. S.; Taiber, A. J.; Hardisty, L. I; Hageman, J. L.; Stockman, H. A.; Borchardt, J. D.; Gehrs, K. M.; et al. A Common Haplotype in the Complement Regulatory Gene Factor H (HFl/CFH) Predisposes Individuals to Age-Related Macular Degeneration. PNAS 2005, 102, 7227-7232). 기존의 가정은 이 연관을 탐구할 때 주의를 기울여야 하는 반면, 공개된 시스템의 스코어는 그것을 추구하는 것이 현명하다는 것을 암시한다.

도 26은 본 개시의 일부 실시 예에 따른 PCSK9-LDLR(유전자-유전자) 시간 분석을 도시한다. 이 경우, LDLR의 knockdown에 PCSK9의 표현에 상관 관계를 처음으로 관찰 2004 연구는 극적으로 후속 출판 된 연구의 숫자가 이 관계를 확인하기 전에 두 유전자 사이의 의미 협회 점수를 크게 증가 시켰습니다 (Maxwell, K. N.; Breslow, J. L. Adenoviral-Mediated Expression of Pcsk9 in Mice Results in a Low-Density Lipoprotein Receptor Knockout Phenotype. PNAS 2004, 101, 7100-7105).

도 27은 본 개시의 일부 실시 예에 따른 PCSK9-LDLR(유전자-유전자) 시간 분석을 도시한다. 의미론적 연관성 점수가 발표된 연구에 타당성을 부여하는 또 다른 사례는 2002 년에 종양 유전자 BRAF와 KRAS 사이의 연관성을 발견 한 것이다. (Rajagopalan, H.; Bardelli, A.; Lengauer, C; Kinzler, K. W.; Vogelstein, B.; Velculescu, V. E. Tumorigenesis: RAF/RAS Oncogenes and Mismatch-Repair Status. Nature 2002, 418, 934-934.) 그 단일 연구는 협회 점수를 상당히 증가 시켰고, 문서 수의 증가보다 앞선 것이다.

도 49는 본 개시의 일부 실시 예에 따른 시간 분석 그래프에 대한 예시적인 사용자 인터페이스(4900)를 도시한다. 사용자 인터페이스(4900)는 2 개의 엔티티에 대한 시간 분석을 수행하는데 사용될 수 있다. 일부 실시 예에서, 2 개의 엔티티는 제1 엔티티 박스(4901) 및 제2 엔티티 박스(4902)에 입력될 수 있다. 사용자는 비교 버튼(4903)을 클릭하여 두 엔티티들 사이에서 시간적 분석을 수행할 수 있다. 예를 들어, 사용자는 제1 엔티티 박스(4901)에 "egfr"를 입력하고 제 2 엔티티 박스(4902)에 "nsclc"를 입력할 수 있다. 사용자는 "비교(Compare)" 버튼(4903)을 클릭하여 시간 분석 그래프(4907)를 생성할 수 있다. 이 예에서 엔티티 "egfr"와 엔티티 "nsclc"는 1990 년과 2016 년 사이의 기간 동안 분석되었으며, 여기에는 27 번 슬라이스가 있다(1 년에 1 번 슬라이스).

일부 실시 예에서, 시간 분석 그래프(4907)는 2 개의 엔티티에 관한 정보를 제공하기 위해 하나 이상의 라인을 포함할 수 있다. 의미론적 강도 연관성 라인(4912)은 시간 기간에 걸쳐 엔티티 "egfr"과 엔티티 "nsclc"사이의 의미론적 연관 강도를 나타낼 수 있다. "두 토큰이 있는 문서(Documents with both tokens)" 라인(4913)은 해당 기간 동안 "egfr"과 "nsclc"를 모두 포함하는 문서 수를 보여줄 수 있다. 평균 라인(4910)은 "egfr" 대 모든 질의에 대한 의미론적 연관 강도의 평균 대 기간 동안의 질병 엔티티 유형의 엔티티를 나타낼 수 있다. 95 번째 백분위 라인(4911)은 기간 동안 질병 엔티티 유형의 엔티티 대 "egfr"의 모든 질의에 대한 의미 연관 강도의 95 백분위 수를 보여준다. 이 예에서 4910, 4911, 4912 및 4913 라인들은 27 개의 플롯된 포인트들을 기반으로 그려져 있다. 시간 그래프, 그래프의 포인트 수(타임 슬라이스 수를 기반으로 함), 백분위 수 및 이 그래프의 다른 모든 설정은 사용자 정의할 수 있다.

일부 실시 예에서, 평균 라인(4910)과 95 번째 백분위 라인(4911)은 "egfr"과 "nsclc"사이의 의미론적 강도가 특히 강한지를 알기 위해 의미론적 강도 연관 라인(4912)과 비교될 수 있다. 예를 들어, 95 번째 백분위 라인(4911)에 대한 의미론적 강도 연결 라인(4912)이 높을수록, "egfr"과 "nsclc"사이의 의미 강도가 특히 강할 가능성이 커진다.

일부 실시 예에서, 분석에 사용되는 코퍼스(4904)의 유니버스가 선택될 수 있다. 이 예에서, Pubmed 데이터베이스가 선택되고, 이 데이터베이스에 기초하여 시간적 분석 그래프(4907)가 생성된다. 일부 실시 예에서, 제어 컬렉션(4909)은 맞춤화 될 수 있다. 이 예에서 컨트롤 컬렉션은 "Disease"이며 시간적 분석 그래프(4907)가 이 엔티티 컬렉션을 기반으로 생성되었음을 나타낸다. 예를 들어, 평균 라인(4910)은 "egfr"을 대조군 컬렉션 "Disease"(즉, 질병 엔티티 유형)의 엔티티와 비교하는 것에 기초한다.

일부 실시 예에서, 백분위 수(4908)은 시간 분석 그래프(4907)에 대해 고객 맞춤 될 수 있다. 예를 들어, 백분위 수(4908)가 "95"로 설정되면, 95 번째 백분위 수 라인(4911)은 주어진 엔티티 유형의 엔티티 대 특정 엔티티의 모든 질의에 대한 의미론적 연관 강도의 95 백분위 수를 보여주기 위해 그려진다. 또 다른 예로서, 백분위 수(4908)가 "30"으로 설정된 경우, 주어진 엔티티 유형의 엔티티 대 특정 엔티티의 모든 질의에 대한 의미 연관 강도의 30 번째 백분위 수를 나타내는 30 번째 백분위 수선을 그릴 수 있다.

일부 실시 예들에서, 현재 의미 연관 강도(4905) 및 현재 새로운 연관(4906)이 디스플레이 될 수 있다. 이 예에서 "egfr"과 "nsclc"사이의 현재 의미 연관 강도는 "0.58"로 표시된다. 그들 사이의 새로운 연관성은 "0 %이고, 이는 두 엔티티 간의 연관성이 새로운 것임을 나타낼 수 있다. 일부 실시 예에서, 신규성 스코어는 두 토큰 모두를 갖는 문서의 총 수에 반비례할 수 있다.

도 50은 본 개시의 일부 실시 예에 따른 시간 분석 그래프를 갖는 예시적인 지식 그래프 인터페이스(5000)를 도시한다. 지식 그래프 인터페이스(5000)는 엔티티 유형(예를 들어, "모든 질병(All Diseases)")의 전부 또는 일부가 제어 컬렉션으로서 선택될 수 있음을 나타낼 수 있다(5001).

도 51은 본 개시의 일부 실시 예에 따른 시간적 시간 분석 그래프를 갖는 예시적인 지식 그래프 인터페이스(5100)를 도시한다. 지식 그래프 인터페이스 (5100)는 엔티티 "떨림(tremors)"에 관련된 엔티티 "파킨슨 병(parkinsons disease)"에 관한 정보를 나타낼 수 있다.

또한 OpenTargets 데이터베이스에 포함된 모든 생명 과학 연관과 관련 연관 스코어(이하 " OT 스코어(OT Score)"라고 함)를 주어진 의미론적 연관 강도 쌍과 비교하였다. OpenTargets 플랫폼은 텍스트 마이닝을 위한 대체 LP 방법을 포함하여 다양한 출처에서 덩어리로 만들어진 유전자 질환 쌍에 유전자 증거 쌍에 주석을 달기를 원한다. 전체적으로 우리는 도 28과 같이 연관 스코어 사이의 상관 관계가 낮은 것으로 나타났다.

도 28은 본 개시의 일부 실시 예에 따른 OT 스코어와 코사인 거리(의미론적 연관성 스코어) 사이의 관계를 도시한다. OpenTargets에서 발견된 모든 생명 과학 엔티티 쌍에 대한 코사인 거리(의미론적 연관 스코어)에 대한 OpenTargets 연관 스코어(OT Score)의 플롯이다. 분포 그래프(2801)(y-축의 오른쪽)은 OT 연관 스코어(1에 가까울수록 연관성이 높음)를 기반으로 하며, 분포 그래프(2802)(x-축의 상단)는 코사인 거리(수천 개의 유전자/질병 연관성의 분석에 기초 함)에 기초한다. 사각형 영역(x 축, y 축 및 분포 그래프 2801, 2802로 둘러싸여 있음)은 OT 연관 스코어와 코사인 거리를 나타낸다. 도 28에서는 이 매핑이 일대일 관계가 아니라는 것을 보여준다. 공개된 시스템과 방법은 OT 연관 스코어가 밝히는 것과 코사인 거리가 밝혀내는 것 사이에 차이가 있다는 것을 발견했다. 이러한 차이는 OT 연관 스코어의 오류 및/또는 결함으로 인한 것일 수 있다.

추가 검사 결과 OT 스코어는 모드를 둘 가진(bimodal)이라는 것이 밝혀졌고, 작은 하위 집합은 매우 높은 스코어를 가지고 나머지는 낮은 스코어를 갖는다. 이러한 높은 스코어는 잘 알려진 유전자-질병 연관성(예를 들어, BRAF-신 생물)에 기인하고, 이는 해당 의미론적 연관 스코어가 높다. 이것은 생물학적 발견에 대한 현재의 접근법이 단순히 문헌에서 이미 알려진 것을 반복하고 예측 능력을 거의 갖지 않는 이유를 예시한다.

도 29는 중요하지 않은 유전자-질병 상호 작용(즉, 음성 대조군)에 대한 시간적 통계적 추론을 나타내는 그래프이다. "c9orf72 vs kuru" 라인은 유전자와 질병 용어 사이의 코사인 거리를 나타낸다(각각 c9orf72 및 kuru). "c9orf72 대 모든 질병(25-75 % 타일)은 c9orf72와 모든 질병 사이의 코사인 거리에 대한 25-75 번째 백분위 수를 나타낸다. "-log(p-value)" 라인은 진실한 질병-유전자 관계 평균과 다른 질의된 유전자-질병 관계에 대한 p-값의 음의 로그를 나타낸다. 이 경우 유전자 c9orf72는 쿠루(Kuru)와 관련이 없다.

도 30은 유의미한 유전자-질병 상호 작용(즉, 양성 대조군)에 대한 시간 통계적 추론을 나타내는 그래프이다. "c9orf72 vs als ftd" 라인은 유전자와 질병 용어(C9orf72 및 근 위축성 측삭 경화증/전두엽 시간 치매(als ftd)) 사이의 코사인 거리를 나타낸다. "c9orf72 vs 모든 질병(25-75 % 타일)" 바는 c9orf72와 모든 질병 사이의 코사인 거리에 대한 25-75 번째 백분위 수를 나타낸다. "-log(p-value)" 라인은 진실한 질병-유전자 관계 평균과 다른 질의된 유전자-질병 관계에 대한 p-값의 음의 로그를 나타낸다. 이 경우 유전자 c9orf72의 반복은 근 위축성 측삭 경화증/전두엽 시기의 치매를 유발한다. 이것은 p-값의 음의 로그가 2010 년에서 12 월 사이에 크게 증가했을 때 명확하게 나타난다. c9orf72와 근 위축성 측삭 경화증 사이에 동시 발생하는 문서의 수가 크게 증가하는 이시기는 실질적으로 "시간 이득(Time Gain)"의 다른 사례를 나타낸다.

공개된 시스템 및 방법은 일정 기간 동안 두 엔티티 사이의 의미론적 연관의 진화를 캡처할 수 있다. 경우에 따라 의미 엔티티가 한 쌍의 엔티티에 대해 시간이 지남에 따라 발전함에 따라 사용자 또는 시스템은 통계적으로 중요하거나 그렇지 않을 수도 있는 의미론적 연관성의 증가를 감지할 수 있다. 일부 실시 예에서, 개시된 시스템 및 방법은 Sigmoid 곡선을 사용하는 방법을 포함하는 다양한 방법을 사용함으로써 한 쌍의 엔티티에 대해 통계적으로 유의미한 증가가 발생하는 시간을 검출할 수 있다. 일부 실시 예에서, 의미론적 연관 스코어는 제1 엔티티(제 1 엔티티 컬랙션과 연관될 수 있음)와 제2 엔티티(제2 엔티티 컬랙션과 연관될 수 있음) 사이에서 생성될 수 있다. 의미론적 연관 스코어는 또한 제1 엔티티와 제2 엔티티 컬랙션 내의 엔티티 사이에서 생성될 수 있다. 일부 실시 예들에서, 이러한 의미론적 연관 스코어들을 결정할 때, 제2 엔티티 자체는 계산으로부터 배제될 수 있다. 이러한 제1 및 제2 의미론적 연관 스코어를 계산하는 시스템 및 방법의 세부 사항은 본 개시의 다른 부분에서 설명되었다. (예를 들어, 도 19, 20, 22-27, 49-51 및 이 도면에 대한 설명 참조).

일부 실시 예에서, 제1 엔티티의 의미론적 연관 스코어와 제2 엔티티 컬랙션의 모든 엔티티를 비교할 때, p 값은 제1 엔티티 대 제2 엔티티의 의미론적 연관성 스코어가 통계적으로 유의한지를 평가할 때 가설 테스트에 대한 p-값 접근법에 의해 생성될 수 있다. 다시 말해서, p 값은 제1 엔티티 대 제2 엔티티 컬랙션의 모든 엔티티가 아닌 제1 엔티티 대 제2 엔티티의 통계적 유의성의 척도로서 이용될 수 있다. 일부 실시 예에서, 제1 엔티티의 의미론적 연관 스코어와 비교할 때, 제2 엔티티 컬랙션의 모든 엔티티들과 비교할 때 널(null) 가설은 제1 엔티티 대 제2 엔티티의 의미론적 연관성이 통계적으로 유의하지 않다는 것을 나타낼 수 있다. 낮은 p-값은 널 가설을 기각해야 함을 나타낸다. p-값이 낮으면 log(p-value)가 높기 때문에 높은 log(p-value)는 널 가설을 거부해야 한다. 따라서 제1 엔티티 대 제2 엔티티의 의미론적 연관성이 중요하다면 상대적으로 높은 log(p-vlaue)가 발생하며 날 가설을 거부할 수 있다.

일부 실시 예에서, 음의 로그 p 값 곡선은 x-축 상의 시간 주기 및 y-축 상의 음의 로그 p 값으로 도출될 수 있다(도 29 및 도 30 참조). 일부 실시 예에서, 시간 경과에 따른 제1 엔티티와 제2 엔티티 사이의 의미 연관 강도의 증가가 있을 때, 음의 로그 p-값은 S자 모양의(Sigmoid) 곡선이 음의 로그 p-값 곡선에 적합할 수 있는 방식으로 시간 주기 동안 증가한다. 일부 실시 예에서, S자 모양의 곡선이 피팅되기 전에, Savitzky-Golay 필터와 같은 필터를 사용하여 음의 logP-값을 평활화할 수 있다. 일부 실시 예에서, S자 모양의 곡선과 관련된 하나 이상의 피팅 파라미터는 속도 및 정확도를 위해 최적화될 수 있다.

일부 실시 예에서, 음의 로그 p-값 곡선이 S자 모양의 곡선에 맞추어진 후에, S자 모양의 곡선과 관련된 다음 수식을 사용하여 (1) 시간 증가(X_o인); (2) 채도 값 (X = ∞에서 K + c인); 및 (3) 곡선 하 면적(AUC)을 결정할 수 있다: S자 모양의 피팅 공식은 다음과 같다:

곡선 하 면적(AUC) 공식은:

일부 실시 예에서, 포화 값은 최종(예를 들어, 최대) 음의 로그 p-값을 근사화하는 데 사용될 수 있다.

일부 실시 예에서, 네거티브 로그 p-값들의 세트는 엔티티들의 다수 쌍들에 대해 계산될 수 있고, 여기서, 각 쌍에 대해, 쌍 내의 하나의 엔티티는 제1 엔티티 컬랙션으로부터의 것이고, 쌍 내의 다른 엔티티는 제2 엔티티 컬랙션으로부터의 것이다. 일부 실시 예에서, 2 개의 엔티티 컬랙션 간의 가능한 모든 엔티티 쌍이 사용되어 네거티브 로그 p-값의 세트를 계산할 수 있다. 일부 구체 예에서, 전술한 바와 같이, 음성 로그 p-값 곡선은 증가 시간, 포화 값 및/또는 AUC를 결정하기 위해 생성될 수 있다. 일부 실시 예에서, 이들 다중 쌍은 수동 및/또는 자동으로 비교될 수 있다. 일부 실시 예에서, 이들 다중 쌍은 사용자 인터페이스에 디스플레이될 수 있다.

도 59는 본 개시의 일부 실시 예에 따른 시간 분석 그래프를 갖는 예시적인 지식 그래프 인터페이스(5900)를 도시한다. 지식 그래프 인터페이스(5900)는 복수 쌍의 엔티티에 대한 의미 연관 강도 정보를 제공할 수 있다. 지식 그래프 인터페이스(5900)는 질의 용어 박스(5901), 제출 버튼(5902), 최소 동시 발생 필터(5903), 최대 동시 발생 필터(5904), 최소 음의 로그 P-값 필터(5905), 그래프 유형 선택(5906), 비교 의미론적 엔티티 컬랙션 탭(5907), 그래프 렌더링 섹션(5908), 엔티티 쌍 표시(5909) 및 엔티티 쌍 기술 박스(5910)를 포함한다.

사용자 사용 케이스는 사용자가 질의 용어로서 질의 용어 박스(5901)에 유전자 "aqp4"를 입력하고 제출 버튼(5902)을 클릭 할 때 시작된다. 비교 의미론적 엔티티 컬랙션 탭(5907)이 질병으로 선택 되었기 때문에 (이것은 수동 또는 자동으로 선택될 수 있음), 시스템은 "aqp4"와 질병 컬렉션 내의 하나 이상의 엔티티(예를 들어, 1, 2, 5, 모든 엔티티) 간의 시간 경과에 따른 일련의 음의 로그 p-값을 계산한다. 각각의 "버블(bubble)"(예를 들어, 버블(5909))은 엔티티 쌍을 나타낼 수 있으며, 시간에 따른 음의 로그 p-값이 계산된다. 일부 실시 예에서, 하나 이상의 엔티티 쌍은 하나 이상의 조건에 기초하여 음의 로그 p-값 시계열 계산이 수행되기 전, 도중 및/또는 후에 필터링될 수 있다. 예를 들어, 사용자는 (1) 쌍의 엔티티의 공동 발생 수가 최소 공동 발생 값보다 작은 엔티티 쌍을 필터링하거나(최소 동시-발생 필터(5903)에서 특정된 바와 같이), (2) 쌍 내의 엔티티의 공동 발생의 수가 최대 공동 발생 값보다 큰 엔티티 쌍을 필터링하거나(최대 동시-발생 필터(5904)에서 특정된 바와 같이) 및/또는 (3) 음의 로그 p-값이 최소 음의 로그 p-값보다 작은 엔티티 쌍을 필터링한다(최소 음의 로그 p -값 필터(5905)에 명시된 바와 같이). 일부 실시 예에서, 엔티티 쌍과 관련된 값에 대응하는 버블은 그래프 렌더링 섹션(5908)에 플롯된다. 특정 엔티티 쌍에 대한 버블은 곡선 피팅으로부터 결정된 증가 값의 시간 및 최종 -log(p-값)에 따라 x-축 및 y-축을 따라 배치된다. 일부 실시 예에서, 버블의 크기는 버블에 의해 표현되는 엔티티 쌍에 대해 계산된 AUC 값에 직접 비례할 수 있으며, 다시 커브 피팅에 의해 결정된다. 도시되지는 않았지만, 사용자가 그래프 유형 선택(5906) 제어에서 적절한 선택을 할 때, 버블의 크기는 분석중인 코퍼스에서 엔티티 쌍 사이의 공동 생성의 수에 비례하게 만들 수 있다. 일부 실시 예들에서, 상세한 정보가 각각의 버블에 제공될 수 있다. 예를 들어, 마우스 커서를 버블(5909)에 놓으면(또는 다른 적절한 트리거링 메커니즘을 사용하여) 엔티티 쌍 기술 박스(5910)가 디스플레이 될 수 있다. 엔티티 쌍 기술 박스(5910)는 엔티티 쌍(예를 들어, aqp4 및 neuromelelitis optica), 엔티티 쌍에 대한 의미ㄹ노적 연관 강도의 증가 일(예를 들어, 2006 년의 86번째 일), 음의 로그 p-값(예를 들어, 3.01), AUC 값(예를 들어, 35.76) 및/또는 공동 발생의 수(예를 들어, 1169)에 대한 정보를 디스플레이 할 수 있다. 일부 실시 예에서, 지식 그래프 인터페이스(5900)를 사용함으로써, 사용은 엔티티 간에 통계적으로 중요한 연관을 갖는 엔티티 쌍만을 생성 및/또는 표시할 수 있다. 일부 실시 예에서, 지식 그래프 인터페이스(5900)는 이들 엔티티의 공동 발생이 낮거나 존재하지 않더라도 통계적으로 강한 의미론적 연관 강도를 갖는 엔티티를 밝힐 수 있다.

일부 실시 예에서, 다음 공식을 사용하여 음의 로그 p-값과 제1 엔티티 대 제2 엔티티의 백분위 수 사이의 관계를 설명할 수 있고, 여기서 제1 엔티티와 제2의 의미론적 엔티티 컬랙션의 모든 엔티티 사이의 의미론적 연관 강도와 비교할 때 제1 엔티티 대 제2 엔티티의 백분위 수는 제1 엔티티와 제2 엔티티 사이의 의미론적 연관 강도의 백분위이다:

음의 log P-값 = -log₁₀(1-백분위 수/100)

예를 들어, 95 백분위 수는 약 1.3의 음의 log p-값을 제공한다. 일부 실시 예들에서, 다른 공식을 사용하여 음성 log p-값과 백분위 수 사이의 관계를 기술할 수 있다.

일부 실시 예들에서, 비록 위의 단계에서 "제2 엔티티 컬렉션의 모든 엔티티"를 사용하는 것으로 설명되어 있지만, 제1 엔티티와 제2 엔티티 컬랙션의 엔티티 사이의 의미론적 연관 강도를 계산할 때, 제2 의미론적 엔티티 컬랙션으로부터의 하나 이상의 의미론적 엔티티는 생략될 수 있다. 예를 들어, 이러한 의미론적 연관 강도는 제1 의미론적 엔티티 컬랙션과 제2 의미론적 엔티티 자체를 제외한 모든 엔티티 사이에서 계산될 수 있다.

개시된 시스템 및 방법은 생명 과학 이외의 산업에 사용되거나 및/또는 산업으로 확장될 수 있다. 다른 업계에서는 자체적으로 적용 가능한 코퍼스를 가질 수 있다. 예를 들어, 엔터테인먼트 산업에서 공개된 시스템 및 방법은 영화 리뷰를 코퍼스로 사용할 수 있다.

당업자는 여기에 기술된 명세서 및 도면의 다양한 예시가 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이 둘의 조합으로서 구현될 수 있다는 것을 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 교환 가능성을 설명하기 위해, 다양한 예시적인 블록, 모듈, 요소, 컴포넌트, 방법 및 알고리즘이 일반적으로 기능의 관점에서 상술되었다. 이러한 기능이 하드웨어, 소프트웨어 또는 조합으로 구현되는지 여부는 전체 시스템에 부과된 특정 어플리케이션 및 설계 제약 사항에 따라 달라진다. 당업자는 각각의 특정 어플리케이션에 대해 다양한 방식으로 기술된 기능을 구현할 수 있다. 다양한 구성 요소들 및 블록들은 본 기술의 범위를 벗어나지 않고 다르게 배열될 수 있다(예를 들어, 다른 시퀀스로 배열되거나, 다른 방식으로 분할 됨).

또한, 통신 프로토콜의 구현은 하나의 컴퓨터 시스템에서 중앙 집중식으로 또는 서로 다른 요소들이 몇몇 상호 연결된 컴퓨터 시스템들에 걸쳐 분산된 분산 방식으로 실현될 수 있다. 임의의 종류의 컴퓨터 시스템 또는 본 명세서에 설명된 방법을 수행하기 위해 적응 된 다른 장치는 여기에 설명된 기능을 수행하기에 적합하다.

하드웨어 및 소프트웨어의 전형적인 조합은 컴퓨터 프로그램을 갖는 범용 컴퓨터 시스템일 수 있으며, 프로그램은 로딩되고 실행될 때, 여기에 설명된 방법을 수행하도록 컴퓨터 시스템을 제어한다. 통신 프로토콜에 대한 방법은 또한 일시적이지 않은 컴퓨터 판독 가능 매체 또는 컴퓨터 프로그램 제품에 내장될 수 있으며, 이는 본 명세서에 설명된 방법의 구현을 가능하게 하는 모든 특징을 포함하고, 컴퓨터 시스템에 로딩될 때 이러한 방법을 수행할 수 있다. 개시된 시스템 및 방법의 임의의 부분에 대한 입력은 텍스트 입력 인터페이스에 제한되지 않는다. 예를 들어, 텍스트 및 음성을 포함한 사용자 입력 형식으로 작업할 수 있다.

현재의 문맥에서 컴퓨터 프로그램이나 어플리케이션은 직접 또는 a) 다른 언어, 코드 또는 표기법으로의 변환; b) 다른 자료 형식의 재생산 중 하나 또는 둘 모두를 수행 한 후 정보 처리 능력을 지닌 시스템이 특정 기능을 수행하게 하려고 의도된 명령의 집합의 어떤 언어, 코드 또는 표기법으로 표현된 것을 의미한다. 중요하게도, 이 통신 프로토콜은 그 정신 또는 본질적인 특성을 벗어나지 않고 다른 특정 형태로 구체화 될 수 있으며, 따라서 본 발명의 범위를 나타내는 것으로서 상기 명세서보다는 이하의 청구 범위를 참조하여야 한다.

통신 프로토콜은 이들 예시된 실시 예를 구체적으로 참조하여 상세히 설명되었다. 그러나, 전술한 명세서에 기재된 바와 같이 본 발명의 사상 및 범위 내에서 다양한 변형 및 변경이 이루어질 수 있으며, 이러한 변경 및 변화는 균등물 및 본 개시의 일부분으로 간주되어야 한다.

개시된 주제는 그 적용에 있어서 구성의 세부 사항 및 다음의 설명에서 예시되거나 도면에 도시된 구성 요소의 배열에 제한되지 않는다는 것을 이해해야 한다. 개시된 주제는 다른 실시 예가 가능하고 다양한 방법으로 실시 및 수행될 수 있다. 또한, 본 명세서에서 사용된 표현 및 용어는 설명의 목적을 위한 것이며 제한적으로 간주되어서는 안 된다는 것을 이해해야 한다.

이와 같이, 당업자는 본 개시가 기초로 한 개념이, 개시된 주제의 여러 목적을 수행하기 위한 다른 구조, 시스템, 방법 및 매체의 설계를 위한 기초로서 용이하게 이용될 수 있다는 것을 이해할 수 있다. 그러므로, 개시된 주제의 사상 및 범위를 벗어나지 않는 한, 청구 범위는 그러한 균등한 구성을 포함하는 것으로 간주되는 것이 중요하다.

개시된 주제가 전술한 예시적인 실시 예들에서 설명되고 예시되었지만, 본 개시는 단지 예시로서 만들어졌고 개시된 주제의 구현의 세부 사항에서의 다수의 변경이 개시된 주제의 취지 및 범위를 벗어나지 않고 이루어질 수 있다는 것을 이해할 수 있다.

Claims

의미론적(semantic) 엔티티들 사이의 연관(association)을 검출하는 방법에 있어서,
하나 이상의 지식 베이스들에 존재하는 의미론적 엔티티들 및 연관된 의미론적 컬렉션들을 식별하는 단계로서, 상기 의미론적 엔티티들은 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하고, 의미론적 컬렉션의 상기 의미론적 엔티티들은 엔티티 유형을 공유하는, 상기 식별하는 단계;
분석을 위한 시간 주기를 결정하는 단계;
상기 시간 주기를 하나 이상의 타임 슬라이스들로 분할하는 단계;
각각의 시간 슬라이스에 대해, 하나 이상의 코퍼스들(corpora)에 기초하여 상기 식별된 의미론적 엔티티들에 대한 단어 임베딩(embedding)들의 세트를 생성하는 단계;
각각의 시간 슬라이스에 대해, 제1 의미론적 엔티티 입력과 제2의 의미론적 엔티티 입력 사이의 제1 의미론적 연관 강도를 결정하는 단계;
각각의 시간 슬라이스에 대해, 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티와 연관된 의미론적 컬렉션의 복수의 의미론적 엔티티들 사이의 제2 의미론적 연관 강도를 결정하는 단계; 및
하나 이상의 시간 슬라이스들에 대한 상기 제1 및 제2 의미론적 연관 강도들에 기초한 출력을 제공하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 구조화되지 않은 데이터를 포함하는, 방법.
제1항에 있어서, 상기 의미론적 엔티티들을 식별하는 단계는: (1) 의미론적 컬랙션들에 속하는 의미론적 엔티티들로서 하나 이상의 단일 단어들 또는 다중-단어 구문들을 식별하는 자동 방법 및 (2) 상기 하나 이상의 지식 베이스들로부터 하나 이상의 단일 단어들 또는 다중-단어 구분들을 강제로 선택하는 단계 중 하나 이상을 포함하는, 방법.
제3항에 있어서, 상기 하나 이상의 단일 단어들 또는 다중-단어 구문들은 구조화된 데이터베이스로부터 컴파일링된 정보로부터 강제로 선택되는, 방법.
제1항에 있어서, 의미론적 엔티티들을 식별하는 단계는 상기 시간 주기 동안 상기 하나 이상의 지식 베이스들의 모든 텍스트에 대해 수행되는, 방법.
제1항에 있어서, 상기 단어 임베딩들은 Word2vec, AdaGram, fastText, 및 Doc2vec 중 하나 이상을 사용하여 생성되는, 방법.
제1항에 있어서, 상기 단어 임베딩들은 다른 시간 슬라이스들에 대해 생성된 단어 임베딩들과 독립적으로 각각의 시간 슬라이스에 대해 생성되는, 방법.
제1항에 있어서, 상기 시간 슬라이스에 대한 단어 임베딩들은 이전 시간 슬라이스로부터의 단어 임베딩들을 레버리징(leveraging)함으로써 생성되는, 방법.
제1항에 있어서, 상기 제2 의미론적 엔티티와 연관된 상기 의미론적 컬랙션과 연관된 상기 복수의 의미론적 엔티티들은 상기 제2 의미론적 엔티티를 포함하지 않는, 방법.
제1항에 있어서, 상기 제2 의미론적 연관 강도는 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티와 연관된 의미론적 컬랙션과 연관된 상기 복수의 의미론적 엔티티들 사이의 의미론적 연관 강도들의 집합의 평균(mean), 중간(median) 또는 백분위(percentile)인, 방법.
제1항에 있어서,
제2, 후속 시간 슬라이스의 상기 제1 의미론적 연관 강도와 관련하여 제1 시간 슬라이스의 상기 제1 의미론적 연관 강도의 증가를 검출하는 단계; 및
상기 제1 의미론적 연관 강도의 상기 증가가 상기 대응되는 제2 의미론적 연관과 관련하여 통계적으로 유의미한지 여부를 결정하는 단계를 더 포함하는, 방법.
제11항에 있어서, 상기 증가의 통계적 유의미함(statistical significance)은 상기 대응되는 제2 의미론적 연관과 관련하여 상기 제1 의미론적 연관 강도의 통계적 유의미함의 측정으로서 p-값에 기초하여 결정되는, 방법.
제1항에 있어서,
상기 하나 이상의 지식 베이스들의 상기 제1 엔티티와 상기 제2 엔티티 사이의 공동 발생(co-occurrence) 레벨에 기초하여 상기 제1 엔티티 입력 및 상기 제2 엔티티 입력을 선택하는 단계를 더 포함하는, 방법.
제13항에 있어서, 상기 제1 엔티티와 상기 제2 엔티티 사이의 공동 발생 레벨은 0인, 방법.
제1항에 있어서,
사용자로부터 상기 제1 엔티티 입력 및 상기 제2 엔티티 입력을 수신하는 단계를 더 포함하는, 방법.
제1항에 있어서,
각각의 타임 슬라이스에 대해 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 상기 하나 이상의 코퍼스들에 존재하는 문서들의 카운트를 결정하는 단계; 및
(1) 제2, 후속 시간 슬라이스에 대한 상기 제1 의미론적 연관 강도에 대한 제1 시간 슬라이스에 대한 상기 제1 의미론적 연관 강도의 증가와 관련된 제1 날짜와 (2) 제4 시간 슬라이스에 대한 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 문서들의 카운트에 대한 제3 시간 슬라이스에 대한 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 문서들의 카운트의 증가와 관련된 제2 날짜 사이의 시간 차이를 결정하는 단계를 더 포함하는, 방법.
제16항에 있어서,
고정된 축에서의 커브의 기울기에 기초하여 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 문서들의 카운트의 증가를 검출하는 단계를 더 포함하고, 상기 커브는 상기 커브의 x-축 상의 상기 시간 주기 및 상기 커브의 y-축 상의 문서들의 카운트에 기초하는, 방법.
제16항에 있어서,
문서 카운트 임계 값에 기초하여 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 상기 문서들의 카운트의 제2 증가를 검출하는 단계를 더 포함하는, 방법.
제1항에 있어서, 상기 제1 엔티티 및 상기 제2 엔티티 각각은, 생체-분자, 바이오-엔티티, 질병, 이상 반응(adverse event), 표현형(phenotype), 회사, 기관, 대학, 병원, 사람들, 약제, 의료 기기 또는 의료 절차와 같은 엔티티 유형들 중 하나 이상인, 방법.
제1항에 있어서, 상기 출력은 사용자 디바이스가 상기 시간 주기에 걸쳐 각각의 상기 시간 슬라이스들에 대한 제1 의미론적 연관 강도들의 각각을 플로팅(plotting)함으로써 생성된 그래프 라인을 디스플레이 할 수 있게 하는, 방법.
제1항에 있어서, 상기 출력은 사용자 디바이스가 상기 시간 주기에 걸쳐 각각의 상기 시간 슬라이스들에 대한 평균 제2 의미론적 연관 강도들의 각각을 플로팅함으로써 생성된 그래프 라인을 디스플레이 할 수 있게 하는, 방법.
제1항에 있어서, 상기 출력은 사용자 디바이스가 상기 시간 주기에 걸쳐 각각의 상기 타임 슬라이스들에 대한 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 상기 하나 이상의 코퍼스들에 존재하는 문서들의 카운트를 플로팅함으로써 생성된 그래프 라인을 디스플레이 할 수 있게 하는, 방법.
의미론적 엔티티들 사이의 연관을 검출하기 위한 시스템으로서,
모듈을 저장하는 메모리; 및
상기 메모리에 저장된 상기 모듈을 동작시키도록 구성된 프로세서를 포함하고, 상기 모듈은 상기 프로세서로 하여금:
하나 이상의 지식 베이스들에 존재하는 의미론적 엔티티들 및 연관된 의미론적 컬렉션들을 식별하게 하고;
분석을 위한 시간 주기를 결정하게 하고;
상기 시간 주기를 하나 이상의 타임 슬라이스들로 분할하게 하고;
각각의 시간 슬라이스에 대해, 하나 이상의 코퍼스들에 기초하여 상기 식별된 의미론적 엔티티들에 대한 단어 임베딩들의 세트를 생성하게 하고;
각각의 시간 슬라이스에 대해, 제1 의미론적 엔티티 입력과 제2의 의미론적 엔티티 입력 사이의 제1 의미론적 연관 강도를 결정하게 하고;
각각의 시간 슬라이스에 대해, 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티와 연관된 의미론적 컬렉션의 복수의 의미론적 엔티티들 사이의 제2 의미론적 연관 강도를 결정하게 하고; 및
하나 이상의 시간 슬라이스들에 대한 상기 제1 및 제2 의미론적 연관 강도들에 기초한 출력을 제공하게 하도록 구성되며,
상기 의미론적 엔티티들은 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하고, 의미론적 컬렉션의 상기 의미론적 엔티티들은 엔티티 유형을 공유하는, 시스템.
제23항에 있어서, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 구조화되지 않은 데이터를 포함하는, 시스템.
제23항에 있어서, 의미론적 엔티티들을 식별하는 단계는:
(1) 의미론적 컬랙션들에 속하는 의미론적 엔티티들로서 하나 이상의 단일 단어들 또는 다중-단어 구문들을 식별하는 자동 방법 및 (2) 상기 하나 이상의 지식 베이스들로부터 하나 이상의 단일 단어들 또는 다중-단어 구분들을 강제로 선택하는 것 중 하나 이상을 포함하는, 시스템.
제25항에 있어서, 상기 하나 이상의 단일 단어들 또는 다중-단어 구문들은 구조화된 데이터베이스로부터 컴파일링된 정보로부터 강제로 선택되는, 시스템.
제23항에 있어서, 의미론적 엔티티들을 식별하는 것은 상기 시간 주기 동안 상기 하나 이상의 지식 베이스들의 전체 텍스트에 대해 수행되는, 시스템.
제23항에 있어서, 상기 단어 임베딩들은 Word2vec, AdaGram, fastText, 및 Doc2vec 중 하나 이상을 사용하여 생성되는, 시스템.
제23항에 있어서,
상기 단어 임베딩들은 다른 시간 슬라이스들에 대해 생성된 단어 임베딩들과 독립적으로 각각의 시간 슬라이스에 대해 생성되는, 시스템.
제23항에 있어서, 상기 시간 슬라이스에 대한 단어 임베딩들은 이전 시간 슬라이스로부터의 단어 임베딩들을 레버리징(leveraging)함으로써 생성되는, 시스템.
제23항에 있어서, 상기 제2 의미론적 엔티티와 연관된 상기 의미론적 컬랙션과 연관된 상기 복수의 의미론적 엔티티들은 상기 제2 의미론적 엔티티를 포함하지 않는, 시스템.
제23항에 있어서,
상기 제2 의미론적 연관 강도는 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티와 연관된 의미론적 컬랙션과 연관된 상기 복수의 의미론적 엔티티들 사이의 의미론적 연관 강도들의 집합의 평균(mean), 중간(median) 또는 백분위(percentile)인, 시스템.
제23항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금,
제2, 후속 시간 슬라이스의 상기 제1 의미론적 연관 강도와 관련하여 제1 시간 슬라이스의 상기 제1 의미론적 연관 강도의 증가를 검출하게 하고; 그리고
상기 제1 의미론적 연관 강도의 상기 증가가 상기 대응되는 제2 의미론적 연관과 관련하여 통계적으로 유의미한지 여부를 결정하게 하도록 더 구성되는, 시스템.
제23항에 있어서, 상기 증가의 통계적 유의미함(statistical significance)은 상기 대응되는 제2 의미론적 연관과 관련하여 상기 제1 의미론적 연관 강도의 통계적 유의미함의 측정으로서 p-값에 기초하여 결정되는, 시스템.
제23항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금,
상기 하나 이상의 지식 베이스들의 상기 제1 엔티티와 상기 제2 엔티티 사이의 공동 발생 레벨에 기초하여 상기 제1 엔티티 입력 및 상기 제2 엔티티 입력을 선택하게 하도록 더 구성되는, 시스템.
제35항에 있어서, 상기 제1 엔티티와 상기 제2 엔티티 사이의 공동 발생 레벨은 0인, 시스템.
제23항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금,
사용자로부터 상기 제1 엔티티 입력 및 상기 제2 엔티티 입력을 수신하게 하도록 더 구성된, 시스템.
제23항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금,
각각의 타임 슬라이스에 대해 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 상기 하나 이상의 코퍼스들에 존재하는 문서들의 카운트를 결정하게 하고; 그리고
(1) 제2, 후속 시간 슬라이스에 대한 상기 제1 의미론적 연관 강도에 대한 제1 시간 슬라이스에 대한 상기 제1 의미론적 연관 강도의 증가와 관련된 제1 날짜와 (2) 제4 시간 슬라이스에 대한 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 문서들의 카운트에 대한 제3 시간 슬라이스에 대한 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 문서들의 카운트의 증가와 관련된 제2 날짜 사이의 시간 차이를 결정하게 하도록 더 구성된, 시스템.
제38항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금,
고정된 축에서의 커브의 기울기에 기초하여 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 문서들의 카운트의 증가를 검출하게 하도록 더 구성되고, 상기 커브는 상기 커브의 x-축 상의 상기 시간 주기 및 상기 커브의 y-축 상의 문서들의 카운트에 기초하는, 시스템.
제38항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금,
문서 카운트 임계 값에 기초하여 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 상기 문서들의 카운트의 제2 증가를 검출하게 하도록 더 구성된, 시스템.
제23항에 있어서, 상기 제1 엔티티 및 상기 제2 엔티티 각각은, 생체-분자, 바이오-엔티티, 질병, 이상 반응(adverse event), 표현형(phenotype), 회사, 기관, 대학, 병원, 사람들, 약제, 의료 기기 또는 의료 절차와 같은 엔티티 유형들 중 하나 이상인, 시스템.
제23항에 있어서, 상기 출력은 사용자 디바이스가 상기 시간 주기에 걸쳐 각각의 상기 시간 슬라이스들에 대한 제1 의미론적 연관 강도들의 각각을 플로팅(plotting)함으로써 생성된 그래프 라인을 디스플레이 할 수 있게 하는, 시스템.
제23항에 있어서, 상기 출력은 사용자 디바이스가 상기 시간 주기에 걸쳐 각각의 상기 시간 슬라이스들에 대한 평균 제2 의미론적 연관 강도들의 각각을 플로팅함으로써 생성된 그래프 라인을 디스플레이 할 수 있게 하는, 시스템.
제23항에 있어서, 상기 출력은 사용자 디바이스가 상기 시간 주기에 걸쳐 각각의 상기 타임 슬라이스들에 대한 상기 제1 엔티티 및 상기 제2 엔티티를 포함하는 상기 하나 이상의 코퍼스들에 존재하는 문서들의 카운트를 플로팅함으로써 생성된 그래프 라인을 디스플레이 할 수 있게 하는, 시스템.
엔티티들 사이의 의미 정보를 생성하는 방법에 있어서,
하나 이상의 코퍼스들에서 복수의 의미론적 엔티티들을 식별하는 단계로서, 상기 의미론적 엔티티들은 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하는, 상기 복수의 의미론적 엔티티들을 식별하는 단계;
상기 하나 이상의 코퍼스들에서 복수의 의미론적 엔티티 유형들을 식별하는 단계;
하나 이상의 의미론적 엔티티 유형들을 상기 복수의 의미론적 엔티티들의 상기 의미론적 엔티티들과 연관시키는 단계;
단어 임베딩에 기초하여 상기 복수의 의미론적 엔티티들로부터의 의미론적 엔티티들 사이의 하나 이상의 의미론적 연관 스코어들을 결정하는 단계;
질의 용어를 수신하는 단계;
상기 하나 이상의 의미론적 연관 스코어들을 기초로 상기 질의 용어와 연관된 결과적인 의미론적 엔티티들의 제1 리스트를 생성하는 단계;
상기 결과적읜 의미론적 엔티티들의 제1 리스트의 상기 의미론적 엔티티들과 연관된 상기 의미론적 엔티티 유형들을 기초로 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계로서, 상기 제2 리스트로부터의 각각의 의미론적 엔티티 컬랙션은 의미론적 엔티티 유형과 연관된, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계; 및
상기 의미론적 엔티티 컬랙션들의 제2 리스트를 기초로 출력을 제공하는 단계를 포함하는, 방법.
제45항에 있어서, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 비구조화된 데이터를 포함하는, 방법.
제45항에 있어서, 상기 복수의 의미론적 엔티티 유형들은 구조화된 데이터베이스, 엔티티 유형들의 커스텀 리스트, 신경망으로부터의 출력, 감독된 기계 학습으로부터의 출력 또는 비감독된 기계 학습으로부터의 출력 중 하나 이상을 기초로 식별되는, 방법.
제47항에 있어서, 상기 신경망 아키텍처는 RNN(recurrent neural network) 또는 LSTM(Long Short Term Memory) 중 하나 이상인, 방법.
제45항에 있어서, 상기 단어 임베딩은 Word2vec, AdaGram, fastText 및 Doc2vec 중 하나 이상을 사용하여 생성되는, 방법.
제45항에 있어서, 상기 결과적인 의미론적 엔티티들의 상기 제1 리스트의 상기 의미론적 엔티티와 연관된 상기 의미론적 엔티티 유형을 기초로 상기 의미론적 엔티티 컬랙션의 제2 리스트를 생성하는 단계는 다음 조건 중 하나 이상을 만족하는 결과적인 의미론적 엔티티에 대해서만 생성을 기반으로 하는 방법: 잠재적 의미론적 엔티티 유형과 관련된 결과적인 의미론적 엔티티의 최대 개수; 결과적인 의미론적 엔티티에 대한 최소 의미론적 연관 스코어; 상기 하나 이상의 코퍼스에서 상기 결과적인 의미론적 엔티티의 최소 발생 횟수; 상기 하나 이상의 코퍼스의 최소 수의 문서에서 발생하는 결과적인 의미론적 엔티티; 상기 질의 용어와 상기 결과적인 의미론적 엔티티의 최소 공동 발생 수; 상기 질의 용어와 상기 결과적인 의미론적 엔티티의 최대 공동 발생 수; 상기 질의 용어와 상기 결과적인 의미론적 엔티티가 공동 발생하는 상기 하나 이상의 코퍼스들의 최소 문서 수; 및 상기 질의 용어와 상기 결과적인 의미론적 엔티티가 공동 발생하는 상기 하나 이상의 코퍼스들의 최대 문서 수.
제45항에 있어서, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계는 상기 제2 리스트 내의 의미론적 엔티티 컬랙션들의 수를 최대 수로 제한하는 단계를 포함하는, 방법.
제45항에 있어서, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계는 상기 제2 리스트의 각각의 상기 의미론적 엔티티 컬랙션들의 가장 작은 수의 의미론적 엔티티들을 요구하는 단계를 포함하는, 방법.
제45항에 있어서, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계는 상기 제2 리스트의 각각의 상기 의미론적 엔티티 컬랙션들의 각각의 상기 의미론적 엔티티들에 대한 최소 의미론적 연관 스코어를 요구하는 단계를 포함하는, 방법.
제45항에 있어서, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 단계는 선택된 의미론적 엔티티 컬랙션들과 연관된 상기 하나 이상의 결과적인 의미론적 엔티티들을 더 기초한, 방법.
제45항에 있어서, 상기 출력은 사용자 디바이스가 상기 제1 리스트로부터 상기 결과적인 의미론적 엔티티들의 하나 이상을 나열할 수 있게 하며, 상기 제2 리스트로부터 상기 의미론적 엔티티 컬랙션들의 하나 이상을 나열할 수 있게 하는, 방법.
엔티티들 사이의 의미 정보를 생성하는 시스템에 있어서,
모듈을 저장하는 메모리; 및
상기 메모리에 저장된 상기 모듈을 동작시키도록 구성된 프로세서를 포함하고, 상기 모듈은 상기 프로세서로 하여금:
하나 이상의 코퍼스들에서 복수의 의미론적 엔티티들을 식별하고, 여기서 상기 의미론적 엔티티들은 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하고;
상기 하나 이상의 코퍼스들에서 복수의 의미론적 엔티티 유형들을 식별하게 하고;
하나 이상의 의미론적 엔티티 유형들을 상기 복수의 의미론적 엔티티들의 상기 의미론적 엔티티들과 연관시키게 하고;
단어 임베딩에 기초하여 상기 복수의 의미론적 엔티티들로부터의 의미론적 엔티티들 사이의 하나 이상의 의미론적 연관 스코어들을 결정하게 하고;
질의 용어를 수신하게 하고;
상기 하나 이상의 의미론적 연관 스코어들을 기초로 상기 질의 용어와 연관된 결과적인 의미론적 엔티티들의 제1 리스트를 생성하게 하고;
상기 결과적읜 의미론적 엔티티들의 제1 리스트의 상기 의미론적 엔티티들과 연관된 상기 의미론적 엔티티 유형들을 기초로 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하게 하고, 여기서 상기 제2 리스트로부터의 각각의 의미론적 엔티티 컬랙션은 의미론적 엔티티 유형과 연관되고; 그리고
상기 의미론적 엔티티 컬랙션들의 제2 리스트를 기초로 출력을 제공하게 하도록 구성된, 시스템.
제56항에 있어서, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 비구조화된 데이터를 포함하는, 시스템.
제56항에 있어서, 상기 복수의 의미론적 엔티티 유형들은 구조화된 데이터베이스, 엔티티 유형들의 커스텀 리스트, 신경망으로부터의 출력, 감독된 기계 학습으로부터의 출력 또는 비감독된 기계 학습으로부터의 출력 중 하나 이상을 기초로 식별되는, 시스템.
제58항에 있어서, 상기 신경망 아키텍처는 RNN(recurrent neural network) 또는 LSTM(Long Short Term Memory) 중 하나 이상인, 시스템.
제56항에 있어서, 상기 단어 임베딩은 Word2vec, AdaGram, fastText 및 Doc2vec 중 하나 이상을 사용하여 생성되는, 시스템.
제56항에 있어서, 상기 결과적인 의미론적 엔티티들의 상기 제1 리스트의 상기 의미론적 엔티티와 연관된 상기 의미론적 엔티티 유형을 기초로 상기 의미론적 엔티티 컬랙션의 제2 리스트를 생성하는 단계는 다음 조건 중 하나 이상을 만족하는 결과적인 의미론적 엔티티에 대해서만 생성을 기반으로 하는 시스템: 잠재적 의미론적 엔티티 유형과 관련된 결과적인 의미론적 엔티티의 최대 개수; 결과적인 의미론적 엔티티에 대한 최소 의미론적 연관 스코어; 상기 하나 이상의 코퍼스에서 상기 결과적인 의미론적 엔티티의 최소 발생 횟수; 상기 하나 이상의 코퍼스의 최소 수의 문서에서 발생하는 결과적인 의미론적 엔티티; 상기 질의 용어와 상기 결과적인 의미론적 엔티티의 최소 공동 발생 수; 상기 질의 용어와 상기 결과적인 의미론적 엔티티의 최대 공동 발생 수; 상기 질의 용어와 상기 결과적인 의미론적 엔티티가 공동 발생하는 상기 하나 이상의 코퍼스들의 최소 문서 수; 및 상기 질의 용어와 상기 결과적인 의미론적 엔티티가 공동 발생하는 상기 하나 이상의 코퍼스들의 최대 문서 수.
제56항에 있어서, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 것은 상기 제2 리스트 내의 의미론적 엔티티 컬랙션들의 수를 최대 수로 제한하는 것을 포함하는, 시스템.
제56항에 있어서, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 것은 상기 제2 리스트의 각각의 상기 의미론적 엔티티 컬랙션들의 가장 작은 수의 의미론적 엔티티들을 요구하는 것을 포함하는, 시스템.
제56항에 있어서, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 것은 상기 제2 리스트의 각각의 상기 의미론적 엔티티 컬랙션들의 각각의 상기 의미론적 엔티티들에 대한 최소 의미론적 연관 스코어를 요구하는 것을 포함하는, 시스템.
제56항에 있어서, 상기 의미론적 엔티티 컬랙션들의 제2 리스트를 생성하는 것은 선택된 의미론적 엔티티 컬랙션들과 연관된 상기 하나 이상의 결과적인 의미론적 엔티티들을 더 기초한, 시스템.
제56항에 있어서, 상기 출력은 사용자 디바이스가 상기 제1 리스트로부터 상기 결과적인 의미론적 엔티티들의 하나 이상을 나열할 수 있게 하며, 상기 제2 리스트로부터 상기 의미론적 엔티티 컬랙션들의 하나 이상을 나열할 수 있게 하는, 시스템.
엔티티들 사이의 의미 정보를 생성하는 방법에 있어서,
하나 이상의 코퍼스들에서 복수의 의미론적 엔티티들을 식별하는 단계로서, 상기 의미론적 엔티티들은 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하는, 상기 복수의 의미론적 엔티티들을 식별하는 단계;
상기 복수의 의미론적 엔티티들에 대해 단어 임베딩을 생성하는 단계로서, 상기 의미론적 엔티티들 중 적어도 하나는 복수의 의미를 갖고 복수의 단어 임베딩에 대응되는 다중-의미의 의미론적 엔티티이고, 각각의 의미는 대응되는 단어 임베딩에 연관되는, 상기 단어 임베딩을 생성하는 단계;
상기 워드 임베딩을 기초로 상기 복수의 의미론적 엔티티들로부터의 의미론적 엔티티들 사이의 하나 이상의 의미론적 연관 스코어들을 결정하는 단계;
질의 용어를 수신하는 단계;
상기 질의 용어가 복수의 임베딩들과 연관된 의미론적 엔티티에 대응되는지 여부를 결정하는 단계;
상기 질의 용어가 복수의 임베딩들과 연관된 의미론적 엔티티에 대응될 때, 리스트들의 세트를 생성하는 단계로서, 각각의 리스트는 상기 복수의 임베딩들의 각각의 임베딩에 대한 의미론적 엔티티들을 포함하고, 의미론적 엔티티는 상기 하나 이상의 의미론적 연관 스코어들의 비교를 기초로 하나 이상의 상기 리스트들에 포함되는, 상기 리스트들의 세트를 생성하는 단계; 및
상기 질의 용어가 복수의 임베딩들과 연관된 의미론적 엔티티에 대응될 때, 상기 리스트들의 세트를 기초로 출력을 제공하는 단계를 포함하는, 방법.
제67항에 있어서, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 비구조화된 데이터를 포함하는, 방법.
제67항에 있어서,
상기 하나 이상의 코퍼스들의 상기 다중-의미의 의미론적 엔티티의 상기 복수의 의미들의 각각의 의미의 출현을 측정하는 측정들의 세트를 결정하는 단계를 더 포함하는, 방법.
제69항에 있어서, 상기 측정은, 상기 하나 이상의 코퍼스들의 하나 이상의 문서에서, 상기 복수의 의미론적 엔티티들 중 하나 이상의 의미론적 엔티티와 상기 다원-의미론적 엔티티의 특정 의미의 공동 발생 수의 카운트인, 방법.
제69항에 있어서, 상기 측정은 상기 다중-의미 의미론적 엔티티의 특정 의미가 상기 복수의 의미론적 엔티티들 중 하나 이상의 의미론적 엔티티와 공동 발생하는 상기 하나 이상의 코퍼스들의 문서들 카운트인, 방법.
제67항에 있어서, 상기 단어 임베딩은 AdaGram(Adaptive Skip- gram)을 사용하여 생성되는, 방법.
제67항에 있어서,
상기 리스트들의 세트의 각각의 리스트에 대해 백분율을 생성하는 단계를 더 포함하고, 각각의 리스트에 대한 상기 백분율은 대응되는 리스트의 의미론적 엔티티들의 수를 상기 세트의 모든 리스트들의 엔티티들의 총 수로 나눔으로써 계산되는, 방법.
제67항에 있어서,
상기 대응하는 리스트의 상기 의미론적 엔티티와 연관된 하나 이상의 의미론적 엔티티 유형을 분석함으로써 의미론적 엔티티 유형을 상기 리스트들의 세트의 하나 이상의 리스트와 연관시키는 단계를 더 포함하는, 방법.
제74항에 있어서, 상기 대응하는 리스트의 상기 의미론적 엔티티와 연관된 상기 하나 이상의 의미론적 엔티티 유형을 분석하는 단계는 상기 대응하는 리스트의 의미론적 엔티티들과 가장 자주 연관되는 의미론적 엔티티 유형을 결정하는 단계를 포함하는, 방법.
제67항에 있어서, 상기 출력은 사용자 디바이스가 상기 리스트들의 세트 및 상기 리스트들의 세트의 각각의 리스트의 상기 결과적인 의미론적 엔티티를 디스플레이 할 수 있게 하는, 방법.
엔티티들 사이의 의미 정보를 생성하기 위한 시스템으로서,
모듈을 저장하는 메모리; 및
상기 메모리에 저장된 상기 모듈을 동작시키도록 구성된 프로세서를 포함하고, 상기 모듈은 상기 프로세서로 하여금:
하나 이상의 코퍼스들에서 복수의 의미론적 엔티티들을 식별하고, 여기서 상기 의미론적 엔티티들은 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하고;
상기 복수의 의미론적 엔티티들에 대해 단어 임베딩을 생성하게 하고, 여기서 상기 의미론적 엔티티들 중 적어도 하나는 복수의 의미를 갖고 복수의 단어 임베딩에 대응되는 다중-의미의 의미론적 엔티티이고, 각각의 의미는 대응되는 단어 임베딩에 연관되고;
상기 워드 임베딩을 기초로 상기 복수의 의미론적 엔티티들로부터의 의미론적 엔티티들 사이의 하나 이상의 의미론적 연관 스코어들을 결정하게 하고;
질의 용어를 수신하게 하고;
상기 질의 용어가 복수의 임베딩들과 연관된 의미론적 엔티티에 대응되는지 여부를 결정하게 하고;
상기 질의 용어가 복수의 임베딩들과 연관된 의미론적 엔티티에 대응될 때, 리스트들의 세트를 생성하게 하고, 여기서 각각의 리스트는 상기 복수의 임베딩들의 각각의 임베딩에 대한 의미론적 엔티티들을 포함하고, 의미론적 엔티티는 상기 하나 이상의 의미론적 연관 스코어들의 비교를 기초로 하나 이상의 상기 리스트들에 포함되며; 그리고
상기 질의 용어가 복수의 임베딩들과 연관된 의미론적 엔티티에 대응될 때, 상기 리스트들의 세트를 기초로 출력을 제공하게 하도록 구성된, 시스템.
제77항에 있어서, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 비구조화된 데이터를 포함하는, 시스템.
제77항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금:
상기 하나 이상의 코퍼스들의 상기 다중-의미의 의미론적 엔티티의 상기 복수의 의미들의 각각의 의미의 출현을 측정하는 측정들의 세트를 결정하게 하도록 더 구성된, 시스템.
제79항에 있어서, 상기 측정은, 상기 하나 이상의 코퍼스들의 하나 이상의 문서에서, 상기 복수의 의미론적 엔티티들 중 하나 이상의 의미론적 엔티티와 상기 다원-의미론적 엔티티의 특정 의미의 공동 발생 수의 카운트인, 시스템.
제79항에 있어서, 상기 측정은 상기 다중-의미 의미론적 엔티티의 특정 의미가 상기 복수의 의미론적 엔티티들 중 하나 이상의 의미론적 엔티티와 공동 발생하는 상기 하나 이상의 코퍼스들의 문서들 카운트인, 시스템.
제77항에 있어서, 상기 단어 임베딩은 AdaGram(Adaptive Skip- gram)을 사용하여 생성되는, 시스템.
제77항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금:
상기 리스트들의 세트의 각각의 리스트에 대해 백분율을 생성하게 하도록 더 구성되고, 각각의 리스트에 대한 상기 백분율은 대응되는 리스트의 의미론적 엔티티들의 수를 상기 세트의 모든 리스트들의 엔티티들의 총 수로 나눔으로써 계산되는, 시스템.
제77항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금:
상기 대응하는 리스트의 상기 의미론적 엔티티와 연관된 하나 이상의 의미론적 엔티티 유형을 분석함으로써 의미론적 엔티티 유형을 상기 리스트들의 세트의 하나 이상의 리스트와 연관시키게 하도록 더 구성된, 시스템.
제84항에 있어서, 상기 대응하는 리스트의 상기 의미론적 엔티티와 연관된 상기 하나 이상의 의미론적 엔티티 유형을 분석하는 것은 상기 대응하는 리스트의 의미론적 엔티티들과 가장 자주 연관되는 의미론적 엔티티 유형을 결정하는 것을 포함하는, 시스템.
제77항에 있어서, 상기 출력은 사용자 디바이스가 상기 리스트들의 세트 및 상기 리스트들의 세트의 각각의 리스트의 상기 결과적인 의미론적 엔티티를 디스플레이 할 수 있게 하는, 시스템.
엔티티들 사이의 의미 정보를 생성하는 방법에 있어서,
하나 이상의 코퍼스들에서 복수의 의미론적 엔티티들을 식별하는 단계로서, 상기 의미론적 엔티티는 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하는, 상기 복수의 의미론적 엔티티들을 식별하는 단계;
상기 하나 이상의 코퍼스들에서 복수의 의미론적 엔티티 유형을 식별하는 단계;
적어도 하나의 의미적 엔티티 유형을 상기 복수의 의미론적 엔티티의 의미론적 엔티티와 연관시키는 단계;
상기 복수의 의미론적 엔티티들에 대한 단어 임베딩을 생성하는 단계;
상기 복수의 의미론적 엔티티들로부터 의미론적 엔티티들 사이의 하나 이상의 의미론적 연관 스코어들을 결정하는 단계;
질의 용어 및 엔티티 유형 입력을 수신하는 단계;
상기 질의 용어와 연관된 질의 용어 엔티티 유형을 결정하는 단계;
상기 하나 이상의 의미론적 연관 스코어들에 기초하여 상기 질의 용어와 연관된 결과적인 의미론적 엔티티들의 제1 리스트를 생성하는 단계로서, 상기 제1리스트로부터 상기 결과적인 의미론적 엔티티들은 상기 질의 용어 엔티티 유형과 동일한 의미론적 엔티티 유형과 관련되는, 상기 제1 리스트를 생성하는 단계;
상기 하나 이상의 의미론적 연관 스코어에 기초하여 상기 질의 용어와 연관된 결과적인 의미론적 엔티티들의 제2 리스트를 생성하는 단계로서, 상기 제2 리스트로부터의 상기 결과적인 의미론적 엔티티들은 상기 엔티티 유형 입력과 관련되는, 상기 제2 리스트를 생성하는 단계;
의미론적 연관 스코어들의 제3 리스트를 생성하는 단계로서, 상기 제3 리스트는 상기 제1 리스트로부터의 상기 결과적인 의미론적 엔티티들 각각과 상기 제2리스트로부터의 상기 결과적인 의미론적 엔티티들 각각의 사이의 의미론적 연관 스코어들을 포함하는, 상기 제3 리스트를 생성하는 단계; 및
상기 제1 리스트, 상기 제2 리스트 및 상기 제3 리스트에 기초하여 출력을 제공하는 단계를 포함하는, 방법.
제87항에 있어서, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 비구조화된 데이터를 포함하는, 방법.
제87항에 있어서, 상기 복수의 의미론적 엔티티 유형들은 구조화된 데이터베이스, 엔티티 유형들의 커스텀 리스트, 신경망으로부터의 출력, 감독된 기계 학습으로부터의 출력 또는 비감독된 기계 학습으로부터의 출력 중 하나 이상을 기초로 식별되는, 방법.
제89항에 있어서, 상기 신경망 아키텍처는 RNN(recurrent neural network) 또는 LSTM(Long Short Term Memory) 중 하나 이상인, 방법.
제87항에 있어서, 상기 단어 임베딩은 Word2vec, AdaGram, fastText 및 Doc2vec 중 하나 이상을 사용하여 생성되는, 방법.
제87항에 있어서, 상기 제1 리스트를 생성하는 단계는 상기 결과적인 의미론적 엔티티들의 수를 최대 카운트로 제한하는 단계를 포함하는, 방법.
제87항에 있어서, 상기 제1 리스트를 생성하는 단계는 상기 결과적인 의미론적 엔티티들 각각의 의미론적 연관 스코어가 최소 의미론적 연관 스코어보다 커지도록 요구하는 것에 더 기초하는, 방법.
제87항에 있어서, 상기 제2 리스트를 생성하는 단계는 상기 결과적인 의미론적 엔티티들의 수를 최대 카운트로 제한하는 단계를 포함하는, 방법.
제87항에 있어서, 상기 제2 리스트를 생성하는 단계는 상기 결과적인 의미론적 엔티티들 각각의 의미론적 연관 스코어가 최소 의미론적 연관 스코어보다 커지도록 요구하는 것에 더 기초하는, 방법.
제87항에 있어서, 상기 출력은 사용자 디바이스로 하여금 y-축 상의 상기 제1 리스트로부터 상기 결과적인 의미론적 엔티티들, x-축 상의 상기 제2 리스트로부터 상기 결과적인 의미론적 엔티티들, 그리고 색상 또는 색상 음영으로 표현되는 제3 리스트로부터 상기 의미론적 연관 스코어들의 각각을 갖는 히트맵의 생성을 가능하게 하고 상기 색상 또는 상기 색상의 음영은 의미론적 연관 스코어에 매핑되는, 방법.
엔티티들 사이의 의미 정보를 생성하기 위한 시스템으로서,
모듈을 저장하는 메모리; 및
상기 메모리에 저장된 상기 모듈을 동작시키도록 구성된 프로세서를 포함하고, 상기 모듈은 상기 프로세서로 하여금:
하나 이상의 코퍼스들에서 복수의 의미론적 엔티티들을 식별하게 하고, 여기서 상기 의미론적 엔티티는 단일 단어 또는 다중-단어 구문 중 하나 이상을 포함하고;
상기 하나 이상의 코퍼스들에서 복수의 의미론적 엔티티 유형을 식별하게 하고;
적어도 하나의 의미적 엔티티 유형을 상기 복수의 의미론적 엔티티의 의미론적 엔티티와 연관시키게 하고;
상기 복수의 의미론적 엔티티들에 대한 단어 임베딩을 생성하게 하고;
상기 복수의 의미론적 엔티티들로부터 의미론적 엔티티들 사이의 하나 이상의 의미론적 연관 스코어들을 결정하게 하고;
질의 용어 및 엔티티 유형 입력을 수신하게 하고;
상기 질의 용어와 연관된 질의 용어 엔티티 유형을 결정하게 하고;
상기 하나 이상의 의미론적 연관 스코어들에 기초하여 상기 질의 용어와 연관된 결과적인 의미론적 엔티티들의 제1 리스트를 생성하게 하고, 여기서 상기 제1리스트로부터 상기 결과적인 의미론적 엔티티들은 상기 질의 용어 엔티티 유형과 동일한 의미론적 엔티티 유형과 관련되고;
상기 하나 이상의 의미론적 연관 스코어에 기초하여 상기 질의 용어와 연관된 결과적인 의미론적 엔티티들의 제2 리스트를 생성하게 하고, 여기서 상기 제2 리스트로부터의 상기 결과적인 의미론적 엔티티들은 상기 엔티티 유형 입력과 관련되고;
의미론적 연관 스코어들의 제3 리스트를 생성하게 하고, 상기 제3 리스트는 상기 제1 리스트로부터의 상기 결과적인 의미론적 엔티티들 각각과 상기 제2리스트로부터의 상기 결과적인 의미론적 엔티티들 각각의 사이의 의미론적 연관 스코어들을 포함하게 하고; 및
상기 제1 리스트, 상기 제2 리스트 및 상기 제3 리스트에 기초하여 출력을 제공하게 하도록 구성된, 시스템.
제97항에 있어서, 상기 하나 이상의 코퍼스들은 구조화된 데이터 및 비구조화된 데이터를 포함하는, 시스템.
제97항에 있어서, 상기 복수의 의미론적 엔티티 유형들은 구조화된 데이터베이스, 엔티티 유형들의 커스텀 리스트, 신경망으로부터의 출력, 감독된 기계 학습으로부터의 출력 또는 비감독된 기계 학습으로부터의 출력 중 하나 이상을 기초로 식별되는, 시스템.
제99항에 있어서, 상기 신경망 아키텍처는 RNN(recurrent neural network) 또는 LSTM(Long Short Term Memory) 중 하나 이상인, 시스템.
제97항에 있어서, 상기 단어 임베딩은 Word2vec, AdaGram, fastText 및 Doc2vec 중 하나 이상을 사용하여 생성되는, 시스템.
제97항에 있어서, 상기 제1 리스트를 생성하는 것은 상기 결과적인 의미론적 엔티티들의 수를 최대 카운트로 제한하는 것을 포함하는, 시스템.
제97항에 있어서, 상기 제1 리스트를 생성하는 것은 상기 결과적인 의미론적 엔티티들 각각의 의미론적 연관 스코어가 최소 의미론적 연관 스코어보다 커지도록 요구하는 것에 더 기초하는, 시스템.
제97항에 있어서, 상기 제2 리스트를 생성하는 것은 상기 결과적인 의미론적 엔티티들의 수를 최대 카운트로 제한하는 것을 포함하는, 시스템.
제97항에 있어서, 상기 제2 리스트를 생성하는 것은 상기 결과적인 의미론적 엔티티들 각각의 의미론적 연관 스코어가 최소 의미론적 연관 스코어보다 커지도록 요구하는 것에 더 기초하는, 시스템.
제97항에 있어서, 상기 출력은 사용자 디바이스로 하여금 y-축 상의 상기 제1 리스트로부터 상기 결과적인 의미론적 엔티티들, x-축 상의 상기 제2 리스트로부터 상기 결과적인 의미론적 엔티티들, 그리고 색상 또는 색상 음영으로 표현되는 제3 리스트로부터 상기 의미론적 연관 스코어들의 각각을 갖는 히트맵의 생성을 가능하게 하고 상기 색상 또는 상기 색상의 음영은 의미론적 연관 스코어에 매핑되는, 시스템.
방법에 있어서,
하나 이상의 지식 베이스에 존재하는 의미론적 엔티티 및 연관된 의미론적 컬렉션을 식별하는 단계로서, 상기 의미론적 엔티티는 단일 단어 또는 다중-단어 구문들 중 하나 이상을 포함하고, 의미론적 컬렉션의 상기 의미적 엔티티들은 엔티티 유형을 공유하는, 상기 의미론적 엔티티 및 연관된 의미론적 컬렉션을 식별하는 단계;
분석을 위한 시간 주기를 결정하는 단계;
상기 시간 주기를 하나 이상의 시간 슬라이스들로 분할하는 단계;
각각의 시간 슬라이스에 대해, 하나 이상의 코퍼스들에 기초하여 상기 식별된 의미론적 엔티티들에 대한 단어 임베딩의 세트를 생성하는 단계;
제1 의미론적 엔티티 입력과 제2 의미론적 엔티티 입력 사이의 시간적 의미론적 연관을:
각 시간 슬라이스에 대해, 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 제1 의미론적 연관 강도를 결정하는 단계;
각각의 시간 슬라이스에 대해, 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티와 연관된 의미론적 컬렉션과 관련된 복수의 의미론적 엔티티 사이의 제2 의미론적 연관 강도를 결정하는 단계;
각 시간 슬라이스에 대해, 상기 제1 의미론적 연관 강도와 상기 제2 의미론적 연관 강도를 관련시키는 확률 측정을 결정하는 단계;
각 시간 슬라이스에 시간 값을 할당하는 단계;
각 타임 슬라이스에 대해, 상기 시간 슬라이스에 대한 상기 할당된 시간 값을 상기 시간 슬라이스에 대한 측정과 연관시킴으로써 2-차원 포인트들의 시퀀스를 결정하는 단계로서, 상기 시퀀스는 시간 값들을 증가시킴으로써 정렬되는, 상기 2-차원 포인트들의 시퀀스를 결정하는 단계;
상기 정렬된 시퀀스에 커브를 피팅시키는 단계;
상기 커브 피팅 특성을 추출하는 단계로서, 상기 특성은:
상기 확률 측정의 통계적으로 중요한 크기 변화가 발생하는 상기 시간 값을 나타내는 시간 증가 값,
상기 확률 측정의 최대 값을 나타내는 확률 포화 값, 또는
커브 값 아래의 영역 중 하나 이상을 포함하는, 상기 커브 피팅 특성을 추출하는 단계;
상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 상기 시간적 의미론적 연관을 특성화하는 것으로부터 상기 커브 피팅의 특성을 제공하는 단계를 수행함으로써 특징화하는 단계를 포함하는, 방법.
제107항에 있어서,
사용자로부터 상기 제1 의미론적 엔티티 입력을 수신하는 단계;
사용자로부터 적어도 두 개의 제2 의미론적 엔티티들의 세트로서 상기 제2 의미론적 엔티티 입력을 수신하는 단계;
상기 세트의 상기 제2 의미론적 엔티티 각각에 대해 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 상기 시간적 의미론적 연관을 특징화하는 단계를 수행하는 단계; 및
상기 제1 의미론적 엔티티 입력 및 상기 세트의 제2 의미론적 엔티티 입력들 중 적어도 두 개에 대한 상기 커브 피팅의 특성을 디스플레이 하는 단계를 더 포함하는, 방법.
제108항에 있어서, 상기 커브 피팅의 특성을 디스플레이하는 단계는 상기 제1 의미론적 엔티티 입력 및 상기 제2 의미론적 엔티티 입력 각각에 대한 시간적 의미론적 연관을 버블 플롯으로서 상기 시간 증가 값, 확률 포화 값 및 상기 커브 값 아래의 영역을 디스플레이 하는 단계를 포함하고, 상기 버블 플롯의 x-축을 따른 버블 배치는 상기 시간 증가 값에 대응되고, 상기 버블 플롯의 y-축을 따른 버블 배치는 상기 포화 값의 확률에 대응되고, 상기 버블의 크기는 상기 커브 값 아래의 영역에 대응되는, 방법.
제109항에 있어서,
상기 버블에 근접한 버블과 관련된 상기 제1 의미론적 엔티티 입력의 아이덴티티 및 상기 제2 의미론적 엔티티 입력의 아이덴티티를 디스플레이 하는 단계를 더 포함하는, 방법.
제108항에 있어서, 상기 커브 피팅의 특성을 디스플레이 하는 단계는 상기 확률 포화 값이 확률 임계 값을 만족하는 커브 피팅의 특성만을 디스플레이 하는 단계를 포함하는, 방법.
제108항에 있어서, 상기 커브 피팅의 특성을 디스플레이 하는 단계는 공동 발생 임계 값을 만족하는 상기 하나 이상의 코퍼스의 문서에서 공동 발생의 카운트를 갖는 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 시간적 의미론적 연관에 대한 커브 피팅의 특성만을 디스플레이 하는 단계를 포함하는, 방법.
제108항에 있어서,
상기 제1 의미론적 엔티티 입력 및 하나 이상의 코퍼스들 및 상기 세트의 상기 제2 의미론적 엔티티 입력들의 적어도 2 개의 문서들에서의 공동 발생의 카운트를 결정하는 단계를 더 포함하는, 방법.
제113항에 있어서, 상기 커브 피팅의 특성을 디스플레이하는 단계는 상기 제1 의미론적 엔티티 입력 및 상기 제2 의미론적 엔티티 입력 각각에 대한 시간적 의미론적 연관을 버블 플롯으로서 상기 시간 증가 값, 확률 포화 값 및 상기 커브 값 아래의 영역을 디스플레이 하는 단계를 포함하고, 상기 버블 플롯의 x-축을 따른 버블 배치는 상기 시간 증가 값에 대응되고, 상기 버블 플롯의 y-축을 따른 버블 배치는 상기 포화 값의 확률에 대응되고, 상기 버블의 크기는 상기 커브 값 아래의 영역에 대응되는, 방법.
제107항에 있어서, 상기 제1 의미론적 연관 강도와 상기 제2 의미론적 연관 강도를 관련시키는 확률 측정은 p-값의 음의 대수(negative logarithm)이고, 상대적으로 높은 확률 측정은 상기 제1 의미론적 연관 강도가 상기 제2 의미론적 연관 강도보다 통계적으로 유의하지 않음을 나타내는 상대적으로 낮은 확률 측정치와 비교할 때, 상기 제1 의미론적 연관 강도가 상기 제2 의미론적 연관 강도보다 통계적으로 유의하다는 것을 나타내는, 방법.
제115항에 있어서, 상기 커브를 상기 정렬된 시퀀스에 피팅시키는 단계는 S자 형상의 커브를 다음의 식에 따라 상기 정련된 시퀀스에 피팅시키는 단계를 포함하는 방법:

여기서:
y 값은 상기 시퀀스의 확률 측정이고; 그리고
x 값은 상기 시퀀스의 시간 값이다.
시스템에 있어서,
모듈을 저장하는 메모리; 및
상기 메모리에 저장된 상기 모듈을 동작시키도록 구성된 프로세서를 포함하고, 상기 모듈은 상기 프로세서로 하여금:
하나 이상의 지식 베이스에 존재하는 의미론적 엔티티 및 연관된 의미론적 컬렉션을 식별하게 하고, 여기서 상기 의미론적 엔티티는 단일 단어 또는 다중-단어 구문들 중 하나 이상을 포함하고, 의미론적 컬렉션의 상기 의미적 엔티티들은 엔티티 유형을 공유하고;
분석을 위한 시간 주기를 결정하게 하고;
상기 시간 주기를 하나 이상의 시간 슬라이스들로 분할하게 하고;
각각의 시간 슬라이스에 대해, 하나 이상의 코퍼스들에 기초하여 상기 식별된 의미론적 엔티티들에 대한 단어 임베딩의 세트를 생성하게 하고;
제1 의미론적 엔티티 입력과 제2 의미론적 엔티티 입력 사이의 시간적 의미론적 연관을:
각 시간 슬라이스에 대해, 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 제1 의미론적 연관 강도를 결정하는 단계;
각각의 시간 슬라이스에 대해, 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티와 연관된 의미론적 컬렉션과 관련된 복수의 의미론적 엔티티 사이의 제2 의미론적 연관 강도를 결정하는 단계;
각 시간 슬라이스에 대해, 상기 제1 의미론적 연관 강도와 상기 제2 의미론적 연관 강도를 관련시키는 확률 측정을 결정하는 단계;
각 시간 슬라이스에 시간 값을 할당하는 단계;
각 타임 슬라이스에 대해, 상기 시간 슬라이스에 대한 상기 할당된 시간 값을 상기 시간 슬라이스에 대한 측정과 연관시킴으로써 2-차원 포인트들의 시퀀스를 결정하는 단계로서, 상기 시퀀스는 시간 값들을 증가시킴으로써 정렬되는, 상기 2-차원 포인트들의 시퀀스를 결정하는 단계;
상기 정렬된 시퀀스에 커브를 피팅시키는 단계;
상기 커브 피팅 특성을 추출하는 단계로서, 상기 특성은:
상기 확률 측정의 통계적으로 중요한 크기 변화가 발생하는 상기 시간 값을 나타내는 시간 증가 값,
상기 확률 측정의 최대 값을 나타내는 확률 포화 값, 또는
커브 값 아래의 영역 중 하나 이상을 포함하는, 상기 커브 피팅 특성을 추출하는 단계;
상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 상기 시간적 의미론적 연관을 특성화하는 것으로부터 상기 커브 피팅의 특성을 제공하는 단계를 수행함으로써 특징화 하게 하도록 구성된, 시스템.
제117항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금:
사용자로부터 상기 제1 의미론적 엔티티 입력을 수신하게 하고;
사용자로부터 적어도 두 개의 제2 의미론적 엔티티들의 세트로서 상기 제2 의미론적 엔티티 입력을 수신하게 하고;
상기 세트의 상기 제2 의미론적 엔티티 각각에 대해 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 상기 시간적 의미론적 연관을 특징화하는 단계를 수행하게 하고; 및
상기 제1 의미론적 엔티티 입력 및 상기 세트의 제2 의미론적 엔티티 입력들 중 적어도 두 개에 대한 상기 커브 피팅의 특성을 디스플레이 하게 하도록 더 구성된, 시스템.
제118항에 있어서, 상기 커브 피팅의 특성을 디스플레이하는 것은 상기 제1 의미론적 엔티티 입력 및 상기 제2 의미론적 엔티티 입력 각각에 대한 시간적 의미론적 연관을 버블 플롯으로서 상기 시간 증가 값, 확률 포화 값 및 상기 커브 값 아래의 영역을 디스플레이 하는 것을 포함하고, 상기 버블 플롯의 x-축을 따른 버블 배치는 상기 시간 증가 값에 대응되고, 상기 버블 플롯의 y-축을 따른 버블 배치는 상기 포화 값의 확률에 대응되고, 상기 버블의 크기는 상기 커브 값 아래의 영역에 대응되는, 시스템.
제119항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금:
상기 버블에 근접한 버블과 관련된 상기 제1 의미론적 엔티티 입력의 아이덴티티 및 상기 제2 의미론적 엔티티 입력의 아이덴티티를 디스플레이 하게 하도록 더 구성된, 시스템.
제118항에 있어서, 상기 커브 피팅의 특성을 디스플레이 하는 것은 상기 확률 포화 값이 확률 임계 값을 만족하는 커브 피팅의 특성만을 디스플레이 하는 것을 포함하는, 시스템.
제118항에 있어서, 상기 커브 피팅의 특성을 디스플레이 하는 것은 공동 발생 임계 값을 만족하는 상기 하나 이상의 코퍼스의 문서에서 공동 발생의 카운트를 갖는 상기 제1 의미론적 엔티티 입력과 상기 제2 의미론적 엔티티 입력 사이의 시간적 의미론적 연관에 대한 커브 피팅의 특성만을 디스플레이 하는 것을 포함하는, 시스템.
제118항에 있어서, 상기 메모리에 저장된 상기 모듈은 상기 프로세서로 하여금:
상기 제1 의미론적 엔티티 입력 및 하나 이상의 코퍼스들 및 상기 세트의 상기 제2 의미론적 엔티티 입력들의 적어도 2 개의 문서들에서의 공동 발생의 카운트를 결정하게 하도록 더 구성된, 시스템.
제123항에 있어서, 상기 커브 피팅의 특성을 디스플레이하는 것은 상기 제1 의미론적 엔티티 입력 및 상기 제2 의미론적 엔티티 입력 각각에 대한 시간적 의미론적 연관을 버블 플롯으로서 상기 시간 증가 값, 확률 포화 값 및 상기 커브 값 아래의 영역을 디스플레이 하는 것을 포함하고, 상기 버블 플롯의 x-축을 따른 버블 배치는 상기 시간 증가 값에 대응되고, 상기 버블 플롯의 y-축을 따른 버블 배치는 상기 포화 값의 확률에 대응되고, 상기 버블의 크기는 상기 커브 값 아래의 영역에 대응되는, 시스템.
제117항에 있어서, 상기 제1 의미론적 연관 강도와 상기 제2 의미론적 연관 강도를 관련시키는 확률 측정은 p-값의 음의 대수(negative logarithm)이고, 상대적으로 높은 확률 측정은 상기 제1 의미론적 연관 강도가 상기 제2 의미론적 연관 강도보다 통계적으로 유의하지 않음을 나타내는 상대적으로 낮은 확률 측정치와 비교할 때, 상기 제1 의미론적 연관 강도가 상기 제2 의미론적 연관 강도보다 통계적으로 유의하다는 것을 나타내는, 시스템.
제125항에 있어서, 상기 커브를 상기 정렬된 시퀀스에 피팅시키는 것은 S자 형상의 커브를 다음의 식에 따라 상기 정련된 시퀀스에 피팅시키는 것을 포함하는 시스템:

여기서:
y 값은 상기 시퀀스의 확률 측정이고; 그리고
x 값은 상기 시퀀스의 시간 값이다.