KR20220120545A

KR20220120545A - Ｐｏｉ 상태 정보를 획득하는 방법 및 장치

Info

Publication number: KR20220120545A
Application number: KR1020227011606A
Authority: KR
Inventors: 지저우 황; 이보 순; 하이펑 왕
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2021-02-22
Filing date: 2021-07-20
Publication date: 2022-08-30
Also published as: JP2023519049A; EP4075303A1; JP7362998B2; CN112925995A; US11977574B2; EP4075303A4; US20230409626A1; WO2022174552A1; CN112925995B

Abstract

본 발명은 인공지능 기술 분야의 빅 데이터 기술에 관한 POI 상태 정보를 획득하는 방법 및 장치를 개시한다. 구체적인 구현 방안은 인터넷으로부터 POI 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득하고, 사전 트레이닝된 POI 상태 인식 모델을 사용하여 텍스트를 인식하고, 텍스트 내의 2-튜플을 획득하고, POI 상태 인식 모델은 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하고, 텍스트의 시맨틱 의존 정보에 기반하여 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행한다. 본 발명의 기술 방안은 인건비를 절약하고, 시효성과 정확성을 향상시킬 수 있다.

Description

ＰＯＩ 상태 정보를 획득하는 방법 및 장치

본 발명은 컴퓨터 기술 분야에 관한 것으로, 특히, 인공지능 기술 분야에서의 빅 데이터 기술에 관한 것이다.

본 발명은 출원일이 2021년 2월 22이고, 출원 번호가 202110199748.9이며, 발명 명칭이 "ＰＯＩ 상태 정보를 획득하는 방법 및 장치(METHOD AND DEVICE FOR OBTAINING ＰＯＩ STATUS INFORMATION)"인 중국 특허 출원의 우선권을 주장한다.

ＰＯＩ(Point Of Interest)는 관심 포인트를 가리키고, 지리 정보 시스템의 용어로서 일반적으로 포인트로 추상할 수 있는 지리적 오브젝트를 가리키고, ＰＯＩ 는 집, 상점, 우체통, 버스정류소, 학교, 병원 등일 수 있다. ＰＯＩ의 주요 용도는 사물 또는 이벤트의 위치를 묘사함으로써, 사물 또는 이벤트의 위치 묘사 능력과 조회 능력을 향상시킨다.

인터넷 지도류의 애플리케이션에서, ＰＯＩ는 매주 중요한 역할을 한다. ＰＯＩ를 사용함으로써, 사용자는 지도에서 관심 있는 장소 및 상기 장소에 도착하는 노선을 쉽게 찾을 수 있다. 그러나, 도시 계획과 기타 요인의 영향으로, 시간이 지남에 따라, 신규된 ＰＯＩ, 이전된 ＰＯＩ, 이름 변경된 ＰＯＩ, 폐쇄된 ＰＯＩ 등과 같은, 일부 ＰＯＩ의 정보가 변화된다. ＰＯＩ 데이터베이스를 신속히 업데이트할 수 없을 경우, 사용자가 지도를 사용하여 검색할 때에 관심 있는 정보를 찾지 못하고, 사용자를 오도할 가능성이 있다. 예를 들어, 사용자가 백화점에 네비게이션한 후, 상기 백화점이 이미 이전하거나 휴업한 것을 발견하면, 분명히 사용자에게 매우 좋지 않은 체험을 가져다 준다.

현재, ＰＯＩ 상태 정보를 획득하는 것은, 주로 인력에 의존하고, 예를 들어, 직원이 현장에서 수집하거나, 사용자가 자발적으로 보고한다. 그러나 이러한 방식은 한편으로 인력 자원을 낭비하고, 비용이 많이 들며, 다른 한편으로, 인위적인 주동성에 크게 의존하여, 시효성(timeliness)과 정확성을 보장하기 어렵다.

본 발명은 인건비를 절약하고, 시효성과 정확성을 향상시키기 위한 ＰＯＩ 상태 정보를 획득하는 방법, 장치, 기기, 컴퓨터 기록 매체 및 컴퓨터 프로그램 제품을 제공한다.

본 발명의 제1 측면에 따르면, ＰＯＩ 상태 정보를 획득하는 방법을 제공하고,

인터넷으로부터 ＰＯＩ 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득하는 단계; 및

사전 트레이닝된 ＰＯＩ 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 상기 텍스트 내의 2-튜플을 획득하는 단계 - 상기 2-튜플은 ＰＯＩ 명칭 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태 정보를 포함함 -;를 포함하고,

상기 ＰＯＩ 상태 인식 모델은 상기 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하고, 상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하고, 상기 각 제1 시맨틱 유닛의 벡터 표현과 상기 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행한다.

본 발명의 제2 측면에 따르면, ＰＯＩ 상태 인식 모델을 구축하는 방법을 제공하고,

트레이닝 데이터를 획득하는 단계 - 상기 트레이닝 데이터는, 텍스트, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 포함함 -; 및

상기 텍스트를 ＰＯＩ 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 상기 ＰＯＩ 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 ＰＯＩ 상태 인식 모델을 트레이닝하는 단계;를 포함하고,

본 발명의 제3 측면에 따르면, ＰＯＩ 상태 정보를 획득하는 장치를 제공하고,

인터넷으로부터 ＰＯＩ 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득하기 위한 텍스트 획득 유닛; 및

사전 트레이닝된 ＰＯＩ 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 상기 텍스트 내의 2-튜플을 획득하기 위한 상태 인식 유닛 - 상기 2-튜플은 ＰＯＩ 명칭 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태 정보를 포함함 -;을 포함하고,

상기 ＰＯＩ 상태 인식 모델은

상기 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 표현 모듈;

상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 의존 표현 모듈;

상기 각 제1 시맨틱 유닛의 벡터 표현과 상기 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하기 위한 표현 융합 모듈; 및

각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행하기 위한 라벨 예측 모듈;을 포함한다.

본 발명의 제4 측면에 따르면, ＰＯＩ 상태 인식 모델을 구축하는 장치를 제공하고,

트레이닝 데이터를 획득하기 위한 획득 유닛 - 상기 트레이닝 데이터는, 텍스트, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 포함함 -; 및

상기 텍스트를 ＰＯＩ 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 상기 ＰＯＩ 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 ＰＯＩ 상태 인식 모델을 트레이닝하는 트레이닝 유닛;을 포함하고,

상기 ＰＯＩ 상태 인식 모델은

본 발명의 제5 측면에 따르면, 전자 기기를 제공하고, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 상술한 방법이 수행되도록 한다.

본 발명의 제6 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 상술한 방법을 수행하도록 한다.

본 발명의 제7 측면에 따르면, 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 상술한 방법을 구현한다.

상기 기술 방식으로부터 알 수 있는 것은, 본 발명은 ＰＯＩ 정보를 포함하는 인터넷 텍스트로부터 ＰＯＩ 명칭 및 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태 정보를 마이닝함으로써, ＰＯＩ 상태 변경 이벤트에 대한 인터넷의 신속한 반응을 충분히 이용하여, 상태 변경이 발생하는 ＰＯＩ 정보를 인공적으로 결정하는 방식에 비교하여, 인건비를 절약하고, 시효성과 정확성을 향상시킨다.

본 명세서에서 설명된 내용은 본 발명의 실시예의 키 또는 중요한 특징을 식별하려는 것이 아니고, 또한 본 발명의 범위를 제한하려는 것도 아닌 것을 이해하여야 한다. 본 발명의 다른 특징은 하기의 명세서를 통해 용이하게 이해할 수 있다.

상술한 선택가능한 방식이 가지는 기타 효과에 대해 하기는 구체적인 실시예를 결합하여 설명한다.

첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 발명의 실시예에 적용될 수 있는 방법 또는 장치의 예시적인 시스템 아키텍처를 도시한다.
도 2는 본 발명의 실시예에서 제공되는 ＰＯＩ 상태 인식 모델을 구축하는 방법의 흐름도이다.
도 3은 본 발명의 실시예에서 제공되는 트레이닝 데이터를 획득하는 방법의 흐름도이다.
도 4는 본 발명의 실시예에서 제공되는 ＰＯＩ 상태 인식 모델의 개략도이다.
도 5는 본 발명의 실시예에서 제공되는 ＰＯＩ 상태 정보를 획득하는 방법의 흐름도이다.
도 6은 본 발명의 실시예에서 제공되는 텍스트에 대해 라벨 예측을 수행하는 예시도이다.
도 7은 본 발명의 실시예에서 제공되는 ＰＯＩ 상태 인식 모델을 구축하는 장치의 구조도이다.
도 8은 본 발명의 실시예에서 제공되는 ＰＯＩ 상태 정보를 획득하는 장치의 구조도이다.
도 9는 본 발명의 실시예를 구현하기 위한 전자 기기의 블록도이다.

하기는 첨부된 도면을 결부하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통에서의 기술자는 본 발명의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.

도 1은 본 발명의 실시예에 적용될 수 있는 방법 또는 장치의 예시적인 시스템 아키텍처를 도시한다. 도 1에 도시된 바와 같이, 상기 시스템 아키텍처는 단말 디바이스(101, 102), 네트워크(103), 및 서버(104)를 포함할 수 있다. 네트워크(103)는 단말 디바이스(101, 102)와 서버(104) 사이의 통신 링크를 위한 매체를 제공한다. 네트워크(103)는 유선, 무선통신 링크, 또는 광섬유 케이블 등과 같은 다양한 접속 유형을 포함할 수 있다.

사용자는 단말 디바이스(101, 102)를 사용하여 네트워크(103)를 통해 서버(104)와 인터랙션을 수행할 수 있다. 단말 디바이스(101, 102)에는 지도류 애플리케이션, 웹 브라우저 애플리케이션, 통신류 애플리케이션 등과 같은 다양한 애플리케이션이 인스톨될 수 있다.

단말 디바이스(101, 102)는 지도류 애플리케이션을 수행할 수 있는 여러가지 전자 기기일 수 있다. 스마트폰, 태블릿, PC, 스마트 티비 등이 포함되지만, 이에 한정되지 않는다. 본 발명에서 제공되는 ＰＯＩ 상태 정보를 획득하는 장치와 ＰＯＩ 상태 인식 모델을 구축하는 장치는 상술한 서버(104)에 설치하여 수행할 수 있고, 서버(104)에서 독립한 기기에 수행할 수도 있다. 복수의 소프트웨어 또는 소프트웨어 모듈 (예를 들어, 분산 서비스를 제공한다)로 구현할 수 있고, 단일 소프트웨어 또는 소프트웨어 모듈로 구현할 수도 있고, 여기서 구체적으로 한정되지 않는다.

예를 들어, ＰＯＩ 상태 정보를 획득하는 장치는 상술한 서버(104)에 설치하여 수행하고, 서버(104)는 본 발명의 실시예에서 제공되는 방법을 사용하여 ＰＯＩ 의 상태 정보를 획득하고, 그 다음에, 획득된 ＰＯＩ 의 상태 정보를 사용하여 ＰＯＩ 데이터베이스(105)를 업데이트한다. 서버(104)는 단말 디바이스(101, 102)의 조회 요구에 응답하고, ＰＯＩ 데이터베이스(105)를 조회하고, 단말 디바이스(101, 102)에 조회된 ＰＯＩ 의 정보를 반환한다.

서버(104)는 단일 서버일 수 있고, 복수의 서버에 의해 구성되는 서버 그룹일 수 있다. 서버(104)는 서버 형식으로 존재하는 외에, 더 높은 컴퓨팅 성능을 가진 기타 컴퓨터 시스템 또는 프로세서일 수 있다. 이해해야 할 것은, 도 1의 단말 디바이스, 네트워크 및 서버의 수는 단순한 예시적인 것으로 이해할 수 있다. 구현 요구에 따라, 임의의 수의 단말 디바이스, 네트워크 및 서버일 수 있다.

본 발명은 인터넷 빅 데이터가 가지고 있는 풍부함과 실시간성에 기반하여, 인터넷 빅 데이터를 데이터 소스로 사용하고, 인터넷 텍스트로부터 ＰＯＩ 상태 정보를 마이닝 한다. 핵심 아이디어는 인터넷으로부터 ＰＯＩ 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득하고, 사전 트레이닝된 ＰＯＩ 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 텍스트 내의 2-튜플을 획득하고, 2-튜플은 ＰＯＩ 명칭 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태 정보를 포함한다. 본 발명의 전체적인 방안으로부터 보면, 2개 부분에 관련되고, 하나는 ＰＯＩ 상태 인식 모델을 구축하고, 다른 하나는 ＰＯＩ 상태 인식 모델을 사용하여 ＰＯＩ 상태 정보를 획득한다. 하기는 실시예를 결합하여 이 2개 부분을 상세히 설명한다.

도 2는 본 발명의 실시예에서 제공되는 ＰＯＩ 상태 인식 모델을 구축하는 방법의 흐름도이다. 도 2에 도시된 바와 같이, 상기 방법은 하기의 단계를 포함할 수 있다:

201에서, 트레이닝 데이터를 획득하고, 트레이닝 데이터는, 텍스트, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 포함한다.

202에서, 텍스트를 ＰＯＩ 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 ＰＯＩ 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 ＰＯＩ 상태 인식 모델을 트레이닝한다.

ＰＯＩ 상태 인식 모델은 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하고, 상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행한다.

하기는 실시예를 결합하여 상술한 단계 201, 즉 "트레이닝 데이터를 획득한다."를 상세히 설명한다.

트레이닝 데이터를 획득할 때, 인공적으로 라벨링하는 방식을 사용하여 일부 ＰＯＩ 명칭 및 ＰＯＩ 상태를 포함하는 텍스트에 대해 라벨링하여 트레이닝 데이터로 할 수 있다. 그러나 이러한 방식은 인력의 제한으로 인해 소량의 데이터밖에 생성할 수 없고, 모델 트레이닝의 정확성에 일정한 제약을 줄 수 있다. 여기서, 바람직한 실시방식으로서, 도 3에 도시된 방식을 사용하여 트레이닝 데이터를 획득할 수 있고, 구체적으로, 하기의 단계를 포함하고,

301에서, 사전 트레이닝된 ＰＯＩ 인식기를 사용하여 인터넷으로부터 ＰＯＩ 명칭을 포함하는 텍스트를 획득한다.

웹페이지로부터 인터넷 텍스트를 크롤링하고, 텍스트에 포함되는 ＰＯＩ 정보를 확보하기 위해, 하나의 ＰＯＩ 인식기를 트레이닝하고, ＰＯＩ 인식기에 의해 ＰＯＩ 정보를 포함하는 텍스트가 인식되어 유지할 수 있다.

ＰＯＩ 인식기를 사전 트레이닝하는 과정은 ＰＯＩ 데이터베이스로부터 ＰＯＩ 정보를 추출하고, 추출된 ＰＯＩ 정보는 인기 있는 ＰＯＩ 정보일 수 있고, 즉 검색 인기가 일정한 정도를 넘는 ＰＯＩ 정보일 수 있고, 예를 들어, 설정된 기간 내의 검색 횟수가 미리 설정된 횟수의 역치를 넘는 ＰＯＩ 정보일 수 있고, 그 다음에, 추출된 ＰＯＩ 정보를 사용하여 인터넷에서 검색하고, 검색된 텍스트 및 대응하는 ＰＯＩ 정보를 사용하여 라벨 예측 모델을 트레이닝하여, ＰＯＩ 인식기를 획득한다. ＰＯＩ 인식기가 텍스트를 입력한 후, 상기 텍스트에 포함되는 ＰＯＩ 정보를 출력할 수 있다. 그 중, ＰＯＩ 정보는 ＰＯＩ 명칭을 포함할 수 있다. 설명해야 하는 바로는, 본 발명에서 ＰＯＩ 명칭은 중국어 명칭, 영문 명칭, 명칭 약어 등과 같은, 하나의 ＰＯＩ 를 표기 및 구분할 수 있는 정보를 가리킨다.

ＰＯＩ 인식기를 트레이닝하는 과정에서 사용되는 라벨 예측 모델은 쌍방향 STM(Long Short-Term Memory, 장단기저장 네트워크) 및 CRF(conditional random field, 조건부 랜덤 필드)로 구성되는 구조이다. 물론, 다른 유형의 구조를 사용할 수도 있고, 여기서는 일일이 열거하고 상세하게 묘사하지 않는다.

302에서, 미리 구축된 사전을 사용하여 ＰＯＩ 명칭을 포함하는 텍스트로부터 ＰＯＩ 상태 변화 정보를 포함하지 않는 텍스트를 필터링하여, 시드 텍스트를 획득한다.

사전은 ＰＯＩ 상태 변화 정보를 포함하는 단어를 포함한다. 텍스트에 ＰＯＩ 상태 변화를 설명하는 정보가 포함되도록 확보하기 위해, 하나의 사전을 미리 구축하고, 이 사전에서의 단어의 시맨틱은 ＰＯＩ 상태 변화에 관련된다. ＰＯＩ 상태 변화는 신규, 이전, 이름 변경 및 폐쇄 등을 포함할 수 있다.

상술한 301 및 302의 처리를 거친 후, 획득된 시드 텍스트에는 모두 ＰＯＩ 명칭 및 ＰＯＩ 상태 변화 정보가 포함된다. 상술한 301 및 302은, 시드 텍스트를 획득하는 바람직한 실시방식이며, 상술한 방식 이외에, 텍스트를 인공적으로 구축하는 방식을 간단히 사용하여 시드 텍스트를 획득할 수도 있다.

303에서, 시드 텍스트에 포함되는 ＰＯＩ 명칭 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태의 라벨 라벨링 결과를 획득한다.

본 단계에서 획득된 시드 텍스트의 수량이 많지 않으면, 인공적으로 라벨링하는 방식을 사용할 수 있다. 그러나 수량이 많지 않은 시드 텍스트를 트레이닝 데이터로 사용하여 ＰＯＩ 상태 인식 모델을 트레이닝할 경우, ＰＯＩ 상태 인식 모델의 정확성이 충분히 높지 않을 가능성이 있다. 트레이닝 효과를 더 향상시키기 위해서, 이를 바탕으로 ＰＯＩ 데이터베이스를 사용하여 시드 텍스트에 대해 데이터 강화를 수행할 수 있다. 즉, 304에서, ＰＯＩ 데이터베이스에서의 시드 텍스트에 포함되는 ＰＯＩ 명칭과 같은 유형인 ＰＯＩ 명칭을 사용하여, 시드 텍스트 내의 ＰＯＩ 명칭을 교체하여, 확장 텍스트를 획득한다.

구체적으로, 분류 모델을 사용하여 시드 텍스트에 포함되는 ＰＯＩ 명칭과 ＰＯＩ 데이터베이스 내의 ＰＯＩ 명칭을 각각 분류할 수 있다. 분류에 의해 획득된 카테고리는 레스토랑류, 회사류, 주택류 등과 같은 ＰＯＩ 의 특성을 구분하는데 사용된다.

예를 들어, 하나의 시드 텍스트가 "A 회사는 이미 이전하고, 이전 기간 동안은 업무를 일시 정지한다."이며, 시드 텍스트에 포함되는 ＰＯＩ 명칭 "A 회사"가 회사류일 경우, ＰＯＩ 데이터베이스로부터 같은 유형의 ＰＯＩ 명칭 "B 회사", "C 회사" 등을 찾을 수 있고, 이러한 명칭을 각각 사용하여 시드 텍스트 내의 "A" 회사를 교체한 후, 확장 텍스트: "B 회사는 이미 이전하고, 이전 기간 동안은 업무를 일시정지한다", 및 "C 회사는 이미 이전하고, 이전 기간 동안은 업무를 일시 정지한다." 등을 획득할 수 있다.

분류 모델은, ＰＯＩ 데이터베이스 내의 대량의 (ＰＯＩ 명칭, 유형 라벨) 페어를 미리 사용하여 트레이닝을 수행할 수 있고, 분류 모델의 구조는 예를 들어, 쌍방향 LSTM과 softmax를 사용하여 구성되는 구조일 수 있다.

305에서, 시드 텍스트와 확장 텍스트로부터 트레이닝 데이터를 획득한다.

시드 텍스트에 대해 확장한 후, 대량의 확장 텍스트를 획득하고, 그 다음에, 이러한 시드 텍스트와 확장 텍스트로 트레이닝 데이터를 공통으로 구성할 수 있다. 이러한 트레이닝 데이터는 텍스트, 텍스트에 포함되는 ＰＯＩ 명칭, 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태의 라벨 라벨링 결과를 포함한다.

하기는 실시예를 결합하여 상술한 단계 202, 즉 "텍스트를 ＰＯＩ 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 ＰＯＩ 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 ＰＯＩ 상태 인식 모델을 트레이닝한다"를 상세히 설명한다.

본 발명에 관한 ＰＯＩ 상태 인식 모델에서, 도 4에 도시된 바와 같이, 주로 4개 부분: 시맨틱 표현 모듈, 시맨틱 의존 표현 모듈, 표현 융합 모듈 및 라벨 예측 모듈을 포함한다.

시맨틱 표현 모듈은, 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다. 본 발명에서, 제1 시맨틱 유닛은 문자일 수 있고, 문자는 중국어에서 흔히 볼 수 있다. 영어에서 제1 시맨틱 유닛은 하나의 단어(word)일 수 있고, 더 세밀한 입도일 수 있으며, 예를 들어, 복합어 중의 각각의 "문자"일 수 있다. 예를 들어, "yellowstone"를 하나의 제1 시맨틱 유닛으로 할 수 있고, "yellow" 및 "stone"를 각각 제1 시맨틱 유닛으로 할 수도 있다.

종래의 word2vec 모델, glove 모델 등을 사용하여 텍스트 내의 각 문자에 대해 시맨틱 특징 추출을 구현할 수 있다. 그러나 ＰＯＩ 명칭은 일반적으로 롱테일 워드를 사용하므로, 종래의 모델을 사용하면 각 문자의 시맨틱을 잘 표현할 수 없다. 따라서, 본 발명에서 바람직한 실시방식을 사용하여, ERNIE(Enhanced Representation from kNowledge IntEgration, 지식 증강 시맨틱 표현), BERT(Bidirectional Encoder Representations from Transformers, Transformer의 쌍방향 인코더 표현)등과 같은 사전 트레이닝 언어 모델로부터 텍스트에 대응하는 단어 시퀀스에 대해 시맨틱 특징의 추출을 수행한다. ERNIE 모델은 subword 전략을 사용하고, 즉 BPE(Byte-Pair Encoding, 2바이트 인코딩) 알고리즘을 사용하여 ＰＯＩ 명칭을 더 세밀한 입도의 문자로 분해하므로, 롱테일 워드의 문제를 효율적으로 해결한다.

트레이닝 데이터 내의 어느 한 텍스트

에 대응하는 워드 시퀀스를

로 나타내고, 그 중,

은

중의 문자 수라고 가정한다.

을 ERNIE 모델의 입력으로 사용하고, ERNIE 모델은 시맨틱 특징을 추출한 후에 은닉층 벡터 시퀀스

를 출력한다. 그 중,

은 문자

에 대응하는 벡터 표현이다.

시맨틱 의존 표현 모듈은 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다.

구체적으로, 텍스트에 대해 구문 분석을 수행하여 텍스트의 시맨틱 의존 트리를 획득하고, 그 다음에, 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 방향성 그래프 내의 각 노드는 각 제2 시맨틱 유닛이며, RGCN(Relational Graph Convolutional Network, 관계형 그래프 컨벌루션 신경망)을 사용하여 방향성 그래프 내의 각 노드의 벡터 표현을 획득할 수 있다.

의존 구문 분석기를 사용하여 텍스트를 분석하여 텍스트의 시맨틱 의존 트리를 획득할 수 있다. 의존 구문 분석은 자연 언어 처리의 핵심 기술 중의 하나이며, 문장 내의 단어 사이의 의존 관계를 분석함으로써 문장의 구문 구조를 결정하는 것을 목적으로 한다. 일반적으로, 텍스트에 대해 단어 세그멘테이션, 품사 라벨링, 네이밍 엔티티 인식, 문법 분석 등의 처리를 수행하는 것을 포함한다. 의존 구문 분석기는 현재 비교적으로 성숙한 툴이며, 본 발명에서 이러한 툴을 직접 사용하여 구현할 수 있다.

본 발명의 제2 시맨틱 유닛은 단어일 수 있다. 그 이외에도, 프레이즈, 단어 조합 등일 수 있다. 여기서는 단어를 예로 한다.

시맨틱 의존 트리에서, 노드는 텍스트 내의 단어이며, 에지는 단어 사이의 시맨틱 관계이다. 시맨틱 의존 트리를 방향성 그래프로 변환할 수 있다. 방향성 그래프 내의 노드는 텍스트 내의 단어이며, 에지는 단어 사이의 시맨틱 관계를 반영한다.

그 다음에, 방향성 그래프를 RGCN의 입력으로 사용하고, RGCN으로부터 방향성 그래프 내의 각 노드의 벡터 표현을 출력한다.

시맨틱 의존 표현 모듈에 있어서,

에 대응하는 단어 시퀀스는

로 표시하고, 그 중,

은

중의 단어 수이다. 시맨틱 의존 표현 모듈을 거친 후, 각 단어에 대응하는 벡터 표현을

로 각각 획득한다.

표현 융합 모듈은 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는데 사용된다.

표현 융합 모듈은 이하의 두 가지 방식을 사용할 수 있지만, 이에 한정되지 않는다.

제1 방식: 제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현 및 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에, 상기 제1 시맨틱 유닛의 융합 벡터를 획득한다.

제1 시맨틱 유닛이 문자이며, 제2 시맨틱 유닛이 워드인 것을 예로 들어, 워드 A가 문자 A1과 문자 A2로 구성된다고 가정하면, 문자 A1의 벡터 표현과 워드 A의 벡터 표현을 스플라이싱한 후에 문자 A1의 융합 벡터 표현을 획득하고, A2의 벡터 표현과 워드 A의 벡터 표현을 스플라이싱한 후에 문자 A2의 융합 벡터 표현을 획득한다.

제2 방식: 각 제2 시맨틱 유닛의 벡터 표현이 제1 시맨틱 유닛에 대해 주의력 처리를 할 경우, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득한다.

제1 시맨틱 유닛이 문자이며, 제2 시맨틱 유닛이 워드인 것을 예로 들어, 획득된 모든 워드의 벡터 표현을 문자 A1의 벡터 표현에 대해 Attention(주의력) 처리를 수행한다. 제2 시맨틱 유닛은 방향성 그래프로부터 획득되므로, 실제로, 방향성 그래프 전체를 사용하여 문자 A1에 대해 Attention을 수행하여, 방향성 그래프 전체가 상기 문자 A1에 대한 벡터 표현을 획득하는 것과 같다. 즉, 문자의 벡터 표현을 query로 사용하고, 각 워드의 벡터 표현을 각각 key로 사용하여, Attention을 수행할 수 있다.

라벨 예측 모듈은 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행하는데 사용된다.

여기서, 예를 들어, CRF(조건부 랜덤 필드) 등의 시퀀스 예측 모델을 사용하여 라벨 예측을 수행할 수 있다.

개의 문자를 포함하는 문서

에 대해, 상술한 표현 융합 모듈의 융합을 거친 후, 각 문자의 융합 벡터 표현, 즉 시퀀스

를 획득한다. 문서 내의 각 문자

에 있어서, 라벨 예측 모듈의 태스크는 라벨

을 예측하는 것이고, 그 중,

이다. 라벨 예측을 수행할 때, 문자

의 라벨에 대해 상기 문자

가 ＰＯＩ 명칭 및 ＰＯＩ 상태인지 여부를 가리키고, 다시 말하면, 하나의 라벨은 ＰＯＩ 명칭 및 ＰＯＩ 상태 정보를 동시에 가리킨다. 예를 들어, 라벨 집합은 이하를 사용할 수 있다.

={B-NEW,I-NEW,B-RELOCATE,I-RELOCATE,B-RENAME,I-RENAME,B-CLOSE,I-CLOSE,B-NONE,I-NONE,O}

그 중, B, I, 및 O는 상기 문자가 ＰＯＩ 명칭의 시작, 중간, 및 비 ＰＯＩ 명칭인 것을 가리킨다.

NEW, RELOCATE, RENAME, CLOSE, 및 NONE는 각각 ＰＯＩ 상태가 신규, 이름 변경, 이전, 폐쇄, 및 ＰＯＩ 미인식 상태인 것을 가리킨다.

따라서, 라벨 B-NEW는 상기 문자가 ＰＯＩ 명칭의 시작이며, 동시에 ＰＯＩ 상태가 신규인 것을 가리키고, 라벨 I-NEW는 상기 문자가 ＰＯＩ 명칭의 중간이며, 동시에 ＰＯＩ 상태가 신규인 것을 가리키고, 기타 라벨은 유사한다.

상기 모델에 의해 출력되는 예측 시퀀스가

일 경우, 이 시퀀스의 스코어를 획득할 수 있다.

그 중,

이며,

는 가중치 파라미터이며, 모델 파라미터 중의 하나이다.

이며, 그 중,

은 실수 도메인을 나타내고, d는

의 차원이며, c는 모델 출력 라벨의 수이다.

는

으로부터

까지의 변이 확률 행렬을 나타낸다.

최종적으로, softmax 층을 사용하여 각 예측 시퀀스의 확률을 획득할 수 있다.

그 중,

은 모든 예측 시퀀스로 구성된 집합이다.

트레이닝 단계에서 사용되는 손실 함수는

이다.

트레이닝 과정에서, 트레이닝 종료 조건에 도달할 때까지, 손실 함수의 값을 사용하여, 시맨틱 표현 모듈, 시맨틱 의존 표현 모듈, 표현 융합 모듈 및 라벨 예측 모듈의 파라미터 값을 포함하는 모델 파라미터를 업데이트한다. 트레이닝 종료 조건은 손실 함수의 값이 미리 설정된 손실 함수의 역치 이하인 것, 및 반복 회수가 미리 설정된 회수의 역치에 도달한 것 등을 포함할 수 있다.

최종으로 트레이닝된 ＰＯＩ 상태 인식 모델은 입력된 텍스트를 인식하고, 텍스트 내의 2-튜플을 획득할 수 있고, 상기 2-튜플은 ＰＯＩ 명칭 및 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태 정보를 포함하고, (ＰＯＩ 명칭, 상태 정보)로 나타낸다.

도 5는 본 발명의 실시예에서 제공되는 ＰＯＩ 상태 정보를 획득하는 방법의 흐름도이다. 상기 방법은, 도 2에 도시된 플로우에 기반하여 구축한 ＰＯＩ 상태 인식 모델이다. 도 5에 도시된 바와 같이, 상기 방법은 하기의 단계를 포함할 수 있다:

501에서, 인터넷으로부터 ＰＯＩ 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득한다.

ＰＯＩ 상태 정보의 실시간성을 확보하기 위해, 인터넷으로부터 최근의 일정 기간의 텍스트를 크롤링하고, 그 다음에, 사전 트레이닝된 ＰＯＩ 인식기를 사용하여 획득된 텍스트에 대해 ＰＯＩ 정보 인식을 수행하여, ＰＯＩ 정보를 포함하는 텍스트를 유지할 수 있다.

ＰＯＩ 인식기의 관련되는 설명에 대해, 상술한 실시예의 단계 301의 관련되는 설명을 참조할 수 있고, 여기서 설명을 생략한다.

502에서, 사전 트레이닝된 ＰＯＩ 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 상기 텍스트 내의 2-튜플, 즉 (ＰＯＩ 명칭, 상태 정보)을 획득한다.

ＰＯＩ 상태 인식 모델은 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하고, 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행한다.

단계 502에서, 도 4에 도시된 ＰＯＩ 상태 인식 모델을 사용하여 텍스트를 인식할 수 있다.

시맨틱 표현 모듈은 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다. 본 발명에서, 제1 시맨틱 유닛은 문자일 수 있고, 문자는 중국어에서 흔히 볼 수 있다. 영어에서, 제1 시맨틱 유닛은 하나의 단어(word)일 수 있고, 더 세밀한 입도일 수 있으며, 예를 들어, 복합어 중의 각각의 "문자"일 수 있다.

종래의 word2vec 모델, glove 모델 등을 사용하여 텍스트 내의 각 문자에 대해 시맨틱 특징 추출을 구현할 수 있다. 그러나 ＰＯＩ 명칭은 일반적으로 롱테일 워드를 사용하므로, 종래의 모델을 사용하면 각 문자의 시맨틱을 잘 표현할 수 없다. 따라서, 본 발명에서 바람직한 실시방식을 사용하여, ERNIE, BERT 등과 같은 사전 트레이닝 언어 모델로 텍스트에 대응하는 단어 시퀀스에 대해 시맨틱 특징의 추출을 수행한다. ERNIE 모델은 subword 전략을 사용하고, 즉 BPE 알고리즘을 사용하여 ＰＯＩ 명칭을 더 세밀한 입도의 문자로 분해하므로, 롱테일 워드의 문제를 효율적으로 해결한다.

구체적으로, 텍스트에 대해 구문 분석을 수행하여 텍스트의 시맨틱 의존 트리를 획득하고, 그 다음에, 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 방향성 그래프 내의 각 노드는 각 제2 시맨틱 유닛이며, RGCN을 사용하여 방향성 그래프 내의 각 노드의 벡터 표현을 획득할 수 있다.

제1 방식: 제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에, 상기 제1 시맨틱 유닛의 융합 벡터를 획득한다.

라벨 예측 모듈은 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행하는데 사용된다. 여기서, 예를 들어, CRF(조건부 랜덤 필드 ) 등과 같은 시퀀스 예측 모델을 사용하여 라벨 예측을 수행할 수 있다. 예측된 라벨은 ＰＯＩ 명칭 및 ＰＯＩ 상태 정보를 동시에 가리킨다.

상술한 ＰＯＩ 상태 인식 모델에서의 각 모듈이 구체적인 구현 방식은 도 2에 도시된 실시예의 관련되는 설명을 참조할 수 있고, 여기서는 상세히 설명하지 않는다.

예를 들어:

텍스트

"

(평산 도서관의 개관에 이어, 평산 예술박물관도 3월30일에 정식으로 개관한다.)" 을 입력한다고 가정한다.

ＰＯＩ 상태 인식 모델을 예측한 후, 매겨진 라벨은 도 6에 도시된다. 2-튜플(평산 도서관, 신규) 및 (평산 예술박물관, 신규)을 결정할 수 있다.

인터넷 텍스트에 대해 일련의 2-튜플을 마이닝한 후, 마이닝된 2-튜플, ＰＯＩ 데이터베이스에 기록된 ＰＯＩ 명칭 및 이에 대응하는 ＰＯＩ 상태 정보를 비교할 수 있고, 일치하지 않을 경우, 마이닝된 2-튜플을 사용하여 ＰＯＩ 데이터베이스에 기록된 ＰＯＩ 명칭 및 이에 대응하는 ＰＯＩ 상태 정보를 업데이트할 수 있다.

업데이트할 때, 마이닝된 2-튜플의 출현 회수에 기반하여 2-튜플의 정확성을 측정할 수 있고, 예를 들어, 출현 회수가 미리 설정된 횟수의 역치보다 큰 2-튜플이 정확한 것으로 간주하고, 정확한 2-튜플을 사용하여 ＰＯＩ 데이터베이스를 업데이트할 수 있다.

이상은 본 발명에서 제공되는 방법의 상세한 설명이며, 하기는 실시예를 결합하여 본 발명에서 제공되는 장치에 대해 상세히 설명한다.

도 7은 본 발명의 실시예에서 제공되는 ＰＯＩ 상태 인식 모델을 구축하는 장치의 구조도이다. 도 7에 도시된 바와 같이, 상기 장치는 획득 유닛(01)과 트레이닝 유닛(02)을 포함할 수 있고, 각 구성 유닛의 주요 기능은 하기와 같다:

획득 유닛(01)은, 트레이닝 데이터를 획득하는데 사용되고, 트레이닝 데이터는, 텍스트, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 포함한다.

획득 유닛(01)은, 시드 텍스트, 시드 텍스트에 포함되는 ＰＯＩ 명칭 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태의 라벨 라벨링 결과를 획득하고, ＰＯＩ 데이터베이스에서의 시드 텍스트에 포함되는 ＰＯＩ 명칭과 같은 유형인 ＰＯＩ 명칭을 사용하여, 시드 텍스트 내의 ＰＯＩ 명칭을 교체하여, 확장 텍스트를 획득하고, 시드 텍스트와 확장 텍스트로부터 트레이닝 데이터를 획득할 수 있다.

획득 유닛(01)은, 시드 텍스트를 획득할 경우, 인터넷으로부터 ＰＯＩ 명칭을 포함하는 텍스트를 획득하고, 미리 구축된 사전을 사용하여 상기 ＰＯＩ 명칭을 포함하는 텍스트로부터 ＰＯＩ 상태 변화 정보를 포함하지 않는 텍스트를 필터링하여, 상기 시드 텍스트를 획득할 수 있고, 상기 사전은 ＰＯＩ 상태 변화 정보를 나타내는 단어를 포함한다.

트레이닝 유닛(02)은, 텍스트를 ＰＯＩ 상태 인식 모델의 입력으로 사용하고, 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 ＰＯＩ 상태 인식 모델의 타겟 예측 결과로 사용하여, ＰＯＩ 상태 인식 모델을 트레이닝하는데 사용된다.

ＰＯＩ 상태 인식 모델은 도 4에 도시된 바와 같이, 이하를 포함할 수 있다:

시맨틱 표현 모듈은, 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다.

구체적으로, 시맨틱 표현 모듈은, 예를 들어, ERNIE, BERT 등과 같은 사전 트레이닝 언어 모델을 사용하여 텍스트 내의 각 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각 제1 시맨틱 유닛의 벡터 표현을 획득할 수 있다.

시맨틱 의존 표현 모듈은, 텍스트의 시맨틱 의존 정보에 기반하여 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다.

바람직한 실시방식으로서, 시맨틱 의존 표현 모듈은 텍스트에 대해 구문 분석을 수행하여 텍스트의 시맨틱 의존 트리를 획득하고, 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 방향성 그래프 내의 각 노드는 각 제2 시맨틱 유닛이며, RGCN을 사용하여 방향성 그래프 내의 각 노드의 벡터 표현을 획득할 수 있다.

표현 융합 모듈은, 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는데 사용된다.

표현 융합 모듈은, 이하의 두 가지 방식을 사용할 수 있지만, 이에 한정되지 않는다.

제1 방식: 제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득한다.

제2 방식: 각 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득한다.

라벨 예측 모듈은, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행하는데 사용된다.

바람직한 실시방식으로서, 라벨 예측 모듈은 CRF 모델을 사용하여 각 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각 제1 시맨틱 유닛의 라벨을 획득할 수 있고, 라벨은 ＰＯＩ 명칭 및 ＰＯＩ 상태인지 여부를 가리킨다.

도 8은 본 발명의 실시예에서 제공되는 ＰＯＩ 상태 정보를 획득하는 장치의 구조도이다. 도 8에 도시된 바와 같이, 상기 장치는, 텍스트 획득 유닛(11)과 상태 인식 유닛(12)을 포함할 수 있고, 업데이트 유닛(13)을 더 포함할 수도 있다. 각 구성 유닛의 주요 기능은 하기와 같다:

텍스트 획득 유닛(11)은, 인터넷으로부터 ＰＯＩ 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득하는데 사용된다.

그 중의 하나의 구현 방식으로서, 텍스트 획득 유닛(11)은 인터넷으로부터 미리 설정된 기간 내의 텍스트를 획득하고, 사전 트레이닝된 ＰＯＩ 인식기를 사용하여 획득된 텍스트에 대해 ＰＯＩ 정보 인식을 수행하여, ＰＯＩ 정보를 포함하는 텍스트를 유지할 수 있다.

상태 인식 유닛(12)은, 사전 트레이닝된 ＰＯＩ 상태 인식 모델을 사용하여 텍스트를 인식하고, 텍스트 내의 2-튜플을 획득하는데 사용되고, 2-튜플은 ＰＯＩ 명칭 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태 정보를 포함한다.

ＰＯＩ 상태 인식 모델은 도 4에 도시된 바와 같이, 시맨틱 표현 모듈, 시맨틱 의존 표현 모듈, 표현 융합 모듈 및 라벨 예측 모듈을 포함할 수 있다:

구체적으로, 시맨틱 표현 모듈은 예를 들어, ERNIE, BERT 등과 같은 사전 트레이닝 언어 모델을 사용하여 텍스트 내의 각 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각 제1 시맨틱 유닛의 벡터 표현을 획득할 수 있다.

바람직한 실시방식으로서, 라벨 예측 모듈은, CRF 모델을 사용하여 각 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각 제1 시맨틱 유닛의 라벨을 획득할 수 있고, 라벨은 ＰＯＩ 명칭 및 ＰＯＩ 상태인지 여부를 가리킨다.

업데이트 유닛(13)은, 이용 획득된 2-튜플을 사용하여 ＰＯＩ 데이터베이스를 업데이트하는데 사용된다.

인터넷 텍스트에 대해 일련의 2-튜플을 마이닝한 후, 업데이트 유닛(13)은 마이닝된 2-튜플, ＰＯＩ 데이터베이스에 기록된 ＰＯＩ 명칭 및 이에 대응하는 ＰＯＩ 상태 정보를 비교할 수 있고, 일치하지 않을 경우, 마이닝된 2-튜플을 사용하여 ＰＯＩ 데이터베이스에 기록된 ＰＯＩ 명칭 및 이에 대응하는 ＰＯＩ 상태 정보를 업데이트할 수 있다.

업데이트 유닛(13)은 업데이트할 때, 마이닝된 2-튜플의 출현 회수에 기반하여 2-튜플의 정확성을 측정할 수 있고, 예를 들어, 출현 회수가 미리 설정된 횟수의 역치보다 큰 2-튜플이 정확한 것으로 간주하고, 정확한 2-튜플을 사용하여 ＰＯＩ 데이터베이스를 업데이트할 수 있다.

하기는 구체적인 응용 예를 들면:

인터넷으로부터 최근 한 달 동안의 ＰＯＩ 정보를 포함하는 텍스트를 획득하고, 이러한 텍스트는, 수량이 많을 수 있고, 일부의 몇 가지 예를 들면:

인터넷 텍스트 1: 상해 대학 과학기술 단지와 상해 왕원 기업발전 유한회사는 보산구 뤄선바오 비즈니스 센터에 상다왕원 과학기술원을 설립하였다.

인터넷 텍스트 2: 그전에 화암 대협곡은 풍경구를 신고할 때, 이미 오룡산 대협곡으로 이름을 변경하였다.

인터넷 텍스트 3: 숭명현 부동산 등록센터는 2019년6월28일에 수숭가 66호로 이사하여 업무를 처리하고 이사하는 동안 업무를 일시 중지한다.

인터넷 텍스트 4: 삼강원의 자연 생태 환경을 보호하기 위해 녠바오위쩌 풍경구는 이미 전면적으로 폐쇄되었다.

획득된 ＰＯＩ 정보를 포함하는 인터넷 텍스트를 ＰＯＩ 상태 인식 모델에 각각 입력하고, 상기 ＰＯＩ 상태 인식 모델은 텍스트에서의 단어의 시맨틱 의존 관계에 기반하여, 그 중에 2-튜플을 따라 정확하게 인식한다. 인식 결과는, 이하인 것 같다:

인터넷 텍스트 1에 대응하는 2-튜플: (상다왕원 과학기술원, 신규);

인터넷 텍스트 2에 대응하는 2-튜플: (화암 대협곡, 이름 변경);

인터넷 텍스트 3에 대응하는 2-튜플: (숭명현 부동산 등록센터, 이전);

인터넷 텍스트 4에 대응하는 2-튜플: (녠바오위쩌 풍경구, 폐쇄).

획득된 대량 2-튜플에 대해, 출현 회수의 방식을 사용하여 그의 정확성을 결정할 수 있는, 예를 들어, 특정 2-튜플이 인식된 횟수가 미리 설정된 역치를 넘을 경우, 정확하다고 간주하고, 이를 사용하여 ＰＯＩ 데이터베이스를 업데이트할 수 있다. 인공적으로 검증하는 방식으로, 획득된 2-튜플로 그의 정확성을 검증할 수도 있다.

상술한 과정에서, 인터넷 문서로부터, 신규, 이름 변경, 이전 및 폐쇄 등의 변화가 발생한 ＰＯＩ 상태 정보를 자동적으로 신속히 마이닝 할 수 있고, ＰＯＩ 데이터베이스를 신속히 업데이트하고, ＰＯＩ 데이터베이스를 사용하여 제공되는 서비스가 정확한 ＰＯＩ 정보에 기반하므로, 사용자 체험을 향상시킨다.

상기의 실시예로부터 알 수 있는 것은, 본 발명은 하기의 이점을 구비할 수 있고,

1) 본 발명에서 ＰＯＩ 정보를 포함하는 인터넷 텍스트로부터 ＰＯＩ 명칭 및 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태 정보를 마이닝함으로써, ＰＯＩ 상태 변경 이벤트에 대한 인터넷의 신속한 반응을 충분히 이용하여, 상태 변경이 발생하는 ＰＯＩ 정보를 인공적으로 결정하는 방식에 비교하여, 인건비를 절약하고, 시효성과 정확성을 향상시킨다.

2) 본 발명에서 인터넷 텍스트에 포함되는 종료 ＰＯＩ 상태 변화 정보를 인식할 뿐만 아니라, ＰＯＩ 명칭에 변화가 발생한 구체적인 ＰＯＩ 상태 정보를 인식할 수도 있다.

3) 본 발명에서 구축된 ＰＯＩ 상태 인식 모델에 시맨틱 의존 정보를 융합하여, 모델은 이러한 텍스트 내의 ＰＯＩ 명칭을 따라 정확하게 인식하고, 각 ＰＯＩ 의 상태를 이해하고, 인식 정확성을 향상시키는 것을 지원한다.

4) 본 발명에서 ＰＯＩ 상태 인식 모델을 트레이닝할 때, ＰＯＩ 데이터베이스를 사용하여 시드 텍스트에 대해 데이터 확장을 수행하여 트레이닝 데이터를 획득하고, 트레이닝 텍스트의 수를 확대하여, ＰＯＩ 상태 인식 모델의 정확성을 향상시킨다.

5) 본 발명의 ＰＯＩ 상태 인식 모델에서, ERNIE 모델을 사용하여 입력된 텍스트에 대응하는 단어 시퀀스에 대해 시맨틱 특징의 추출을 수행하여, ＰＯＩ 명칭에서의 롱테일 워드의 문제를 효율적으로 해결한다.

6) 본 발명에서 마이닝에 의해 획득된 2-튜플을 사용하여 ＰＯＩ 데이터베이스를 업데이트하고, 후속의 ＰＯＩ 데이터베이스에 기반하여 제공되는 서비스가 보다 정확하므로, 사용자 체험을 향상한다.

본 발명의 실시예에 따르면, 본 발명은 또한, 전자 기기, 판독 가능 기록 매체 및 컴퓨터 프로그램 제품을 제공한다.

도 9에 도시된 바와 같이, 본 발명의 실시예에 따른 ＰＯＩ 상태 정보를 획득하는 방법 또는 ＰＯＩ 상태 인식 모델을 구축하는 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 디지털 비서, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 계산 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.

도 9에 도시된 바와 같이, 기기(900)는 컴퓨팅 유닛(901)을 포함하고, 컴퓨팅 유닛(901)은 판독 전용 메모리(ROM)(902)에 저장되어 있는 컴퓨터 프로그램 또는 저장 유닛(908)으로부터 랜덤 액세스 메모리(RAM) (903)에 로드된 컴퓨터 프로그램에 따라, 다양한 적절한 동작과 처리를 실행할 수 있다. RAM(903)에는 기기(900)가 동작하는데 필요한 여러가지 프로그램과 데이터도 저장할 수 있다. 컴퓨팅 유닛(901), ROM(902) 및 RAM(903)는 버스(904)를 통해 서로 연결된다. 입력/출력 (I/O) 인터페이스(905)도 버스(904)에 연결된다.

기기(900) 중의 복수 컴포넌트는 I/O 인터페이스(905)에 연결되고, 키보드, 마우스 등과 같은 입력 유닛(906); 여러가지 타입의 디스플레이, 스피커 등과 같은 출력 유닛(907); 디스크, 광디스크 등과 같은 저장 유닛(908) 및 네트워크 카드, 모뎀, 무선통신 트랜시버 등과 같은 통신 유닛(909)을 포함한다. 통신 유닛(909)은 기기(900)가 인터넷 등과 같은 컴퓨터 네트워크 및 여러가지 통신 네트워크 중의 적어도 하나를 통해 다른 기기와 정보/데이터를 교환할 수 있다.

컴퓨팅 유닛(901)은 여러가지 처리와 계산 능력을 갖춘 범용 처리 컴포넌트 및 전용 처리 컴포넌트 중의 적어도 하나일 수 있다. 컴퓨팅 유닛(901)의 일부 예는, 중앙 처리 유닛 (CPU), 그래픽스 처리 유닛(GPU), 다양한 전용 인공지능(AI)계산 팁, 다양한 기계학습 모델 알고리즘을 실행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 한정되지 않는다. 컴퓨팅 유닛(901)은 ＰＯＩ 상태 정보를 획득하는 방법 또는 ＰＯＩ 상태 인식 모델을 구축하는 방법 등과 같은 상기의 다양한 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, ＰＯＩ 상태 정보를 획득하는 방법 또는 ＰＯＩ 상태 인식 모델을 구축하는 방법은 저장 유닛(908) 등과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현할 수 있다.

일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(902) 및 통신 유닛(909) 중의 적어도 하나를 통해 기기(900)에 로드 및/또는 인스톨될 수 있다. 컴퓨터 프로그램이 RAM(903)에 로드되어 컴퓨팅 유닛(901)에 의해 실행될 경우, 상기의 ＰＯＩ 상태 정보를 획득하는 방법 또는 ＰＯＩ 상태 인식 모델을 구축하는 방법의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(901)은 다른 임의의 적절한 방식(예를 들면, 펌웨어에 의해)을 통해 ＰＯＩ 상태 정보를 획득하는 방법 또는 ＰＯＩ 상태 인식 모델을 구축하는 방법을 실행하도록 구성될 수 있다.

설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래밍 가능한 게이트 어레이(FPGA), 특정 용도 대상 집적 회로(ASIC), 특정 용도 대상 표준제품(ASSP), 시스템 온 칩 시스템(SOC), 부하 프로그래밍 가능 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 결합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 결합을 사용하여 작성할 수 있다. 이러한 프로그램 코드는 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및 블록도 중의 적어도 하나에 규정된 기능/동작이 실행되도록, 대형 기계(슈퍼 컴퓨터), 전용 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립된 소프트웨어 패키지로서 부분적으로 기계에서 실행되고, 부분적으로 리모트 기계에서 실행되거나 또는 완전히 리모트 기계 또는 서버에서 실행될 수 있다.

본 발명의 문맥에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기의 사용, 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형적인 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 기록 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 결합을 포함하지만, 이에 한정되지 않는다. 기계 판독 가능 기록 매체의 더 구체적인 예는 하나 또는 복수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 포터블 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상술한 내용의 임의의 적절한 결합을 포함한다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 계산 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 계산 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 계산 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 결합을 포함하는 계산 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.

위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.

상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 결합, 서브 결합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

ＰＯＩ 상태 정보를 획득하는 방법에 있어서,
인터넷으로부터 미리 설정된 기간 내에 ＰＯＩ 정보를 포함하는 텍스트를 획득하는 단계; 및
사전 트레이닝된 ＰＯＩ 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 상기 텍스트 내의 2-튜플을 획득하는 단계 - 상기 2-튜플은 ＰＯＩ 명칭 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태 정보를 포함함 -;를 포함하고,
상기 ＰＯＩ 상태 인식 모델은 상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하고, 상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하고; 상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고; 각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행하는,
ＰＯＩ 상태 정보를 획득하는 방법.
제1항에 있어서,
상기 인터넷으로부터 미리 설정된 기간 내에 ＰＯＩ 정보를 포함하는 텍스트를 획득하는 단계는,
인터넷으로부터 미리 설정된 기간 내의 텍스트를 획득하는 단계;
사전 트레이닝된 ＰＯＩ 인식기를 사용하여 획득된 텍스트에 대해 ＰＯＩ 정보 인식을 수행하는 단계; 및
ＰＯＩ 정보를 포함하는 텍스트를 유지하는 단계;를 포함하는,
ＰＯＩ 상태 정보를 획득하는 방법.
제2항에 있어서,
상기 ＰＯＩ 인식기는, 하기 방식들을 사용하여 트레이닝하여 획득하는,
ＰＯＩ 상태 정보를 획득하는 방법:
ＰＯＩ 데이터베이스로부터 ＰＯＩ 정보를 추출하는 방식,
추출된 ＰＯＩ 정보를 사용하여 인터넷에서 검색하는 방식, 및
검색된 텍스트 및 대응하는 ＰＯＩ 정보를 사용하여 라벨 예측 모델을 트레이닝하여, 상기 ＰＯＩ 인식기를 획득하는 방식.
제1항에 있어서,
상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는 단계는,
사전 트레이닝 언어 모델을 사용하여 상기 텍스트 내의 각각의 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는 단계를 포함하는,
ＰＯＩ 상태 정보를 획득하는 방법.
제1항에 있어서,
상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하는 단계는,
상기 텍스트에 대해 구문 분석을 수행하여 상기 텍스트의 시맨틱 의존 트리를 획득하는 단계;
상기 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하는 단계 - 상기 방향성 그래프 내의 각각의 노드는 상기 각각의 제2 시맨틱 유닛임 -; 및
관계형 그래프 컨벌루션 신경망(RGCN)을 사용하여 상기 방향성 그래프 내의 각각의 노드의 벡터 표현을 획득하는 단계;를 포함하는,
ＰＯＩ 상태 정보를 획득하는 방법.
제1항에 있어서,
상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계는,
제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계; 또는,
각각의 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계;를 포함하는,
ＰＯＩ 상태 정보를 획득하는 방법.
제1항에 있어서,
상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행하는 단계는,
조건부 랜덤 필드(CRF) 모델을 사용하여 각각의 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각각의 제1 시맨틱 유닛의 라벨을 획득하는 단계를 포함하고, 상기 라벨은 대응하는 제1 시맨틱 유닛이 ＰＯＩ 명칭 및 ＰＯＩ 상태인지 여부를 가리키는,
ＰＯＩ 상태 정보를 획득하는 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 제1 시맨틱 유닛은 문자이며, 상기 제2 시맨틱 유닛은 단어인,
ＰＯＩ 상태 정보를 획득하는 방법.
ＰＯＩ 상태 인식 모델을 구축하는 방법에 있어서,
트레이닝 데이터를 획득하는 단계 - 상기 트레이닝 데이터는: 텍스트, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 포함함 -; 및
상기 텍스트를 ＰＯＩ 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 상기 ＰＯＩ 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 ＰＯＩ 상태 인식 모델을 트레이닝하는 단계;를 포함하고,
상기 ＰＯＩ 상태 인식 모델은 상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하고, 상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하고; 상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고; 각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행하는,
ＰＯＩ 상태 인식 모델을 구축하는 방법.
제9항에 있어서,
상기 트레이닝 데이터를 획득하는 단계는,
시드 텍스트, 상기 시드 텍스트에 포함되는 ＰＯＩ 명칭 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태의 라벨 라벨링 결과를 획득하는 단계;
ＰＯＩ 데이터베이스에서의 상기 시드 텍스트에 포함되는 ＰＯＩ 명칭과 같은 유형인 ＰＯＩ 명칭을 사용하여, 상기 시드 텍스트 내의 ＰＯＩ 명칭을 교체하여, 확장 텍스트를 획득하는 단계; 및
상기 시드 텍스트와 상기 확장 텍스트로부터 상기 트레이닝 데이터를 획득하는 단계;를 포함하는,
ＰＯＩ 상태 인식 모델을 구축하는 방법.
제10항에 있어서,
상기 시드 텍스트를 획득하는 단계는,
인터넷으로부터 ＰＯＩ 명칭을 포함하는 텍스트를 획득하는 단계; 및
미리 구축된 사전을 사용하여 상기 ＰＯＩ 명칭을 포함하는 텍스트로부터 ＰＯＩ 상태 변화 정보를 포함하지 않는 텍스트를 필터링하여, 상기 시드 텍스트를 획득하는 단계;를 포함하고, 상기 사전은 ＰＯＩ 상태 변화 정보를 나타내는 단어를 포함하는,
ＰＯＩ 상태 인식 모델을 구축하는 방법.
제9항에 있어서,
상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는 단계는,
사전 트레이닝 언어 모델을 사용하여 상기 텍스트 내의 각각의 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는 단계를 포함하는,
ＰＯＩ 상태 인식 모델을 구축하는 방법.
제9항에 있어서,
상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하는 단계는,
상기 텍스트에 대해 구문 분석을 수행하여 상기 텍스트의 시맨틱 의존 트리를 획득하는 단계;
상기 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하는 단계 - 상기 방향성 그래프 내의 각각의 노드는 상기 각각의 제2 시맨틱 유닛임 -; 및
관계형 그래프 컨벌루션 신경망(RGCN)을 사용하여 상기 방향성 그래프 내의 각각의 노드의 벡터 표현을 획득하는 단계;를 포함하는,
ＰＯＩ 상태 인식 모델을 구축하는 방법.
제9항에 있어서,
상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계는,
제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계; 또는,
각각의 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계;를 포함하는,
ＰＯＩ 상태 인식 모델을 구축하는 방법.
제9항에 있어서,
상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행하는 단계는,
조건부 랜덤 필드(CRF) 모델을 사용하여 각각의 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각각의 제1 시맨틱 유닛의 라벨을 획득하는 단계를 포함하고, 상기 라벨은 ＰＯＩ 명칭 및 ＰＯＩ 상태인지 여부를 가리키는,
ＰＯＩ 상태 인식 모델을 구축하는 방법.
ＰＯＩ 상태 정보를 획득하는 장치에 있어서,
인터넷으로부터 미리 설정된 기간 내에 ＰＯＩ 정보를 포함하는 텍스트를 획득하기 위한 텍스트 획득 유닛; 및
사전 트레이닝된 ＰＯＩ 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 상기 텍스트 내의 2-튜플을 획득하기 위한 상태 인식 유닛 - 상기 2-튜플은 ＰＯＩ 명칭 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태 정보를 포함함 -;을 포함하고,
상기 ＰＯＩ 상태 인식 모델은,
상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 표현 모듈;
상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 의존 표현 모듈;
상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하기 위한 표현 융합 모듈; 및
각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행하기 위한 라벨 예측 모듈;을 포함하는,
ＰＯＩ 상태 정보를 획득하는 장치.
제16항에 있어서,
상기 텍스트 획득 유닛은 구체적으로, 인터넷으로부터 미리 설정된 기간 내의 텍스트를 획득하고, 사전 트레이닝된 ＰＯＩ 인식기를 사용하여 획득된 텍스트에 대해 ＰＯＩ 정보 인식을 수행하여, ＰＯＩ 정보를 포함하는 텍스트를 유지하는데 사용되는,
ＰＯＩ 상태 정보를 획득하는 장치.
제16항에 있어서,
상기 시맨틱 표현 모듈은 구체적으로, 사전 트레이닝 언어 모델을 사용하여 상기 텍스트 내의 각각의 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용되는,
ＰＯＩ 상태 정보를 획득하는 장치.
제16항에 있어서,
상기 시맨틱 의존 표현 모듈은 구체적으로, 상기 텍스트에 대해 구문 분석을 수행하여 상기 텍스트의 시맨틱 의존 트리를 획득하고, 상기 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 상기 방향성 그래프 내의 각각의 노드는 상기 각각의 제2 시맨틱 유닛이며, 관계형 그래프 컨벌루션 신경망(RGCN)을 사용하여 상기 방향성 그래프 내의 각 노드의 벡터 표현을 획득하는데 사용되는,
ＰＯＩ 상태 정보를 획득하는 장치.
제16항에 있어서,
상기 표현 융합 모듈은 구체적으로,
제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하거나,
또는,
각각의 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는데 사용되는,
ＰＯＩ 상태 정보를 획득하는 장치.
제16항에 있어서,
상기 라벨 예측 모듈은 구체적으로, 조건부 랜덤 필드(CRF) 모델을 사용하여 각각의 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각각의 제1 시맨틱 유닛의 라벨을 획득하는데 사용되고, 상기 라벨은 대응하는 제1 시맨틱 유닛이 ＰＯＩ 명칭 및 ＰＯＩ 상태인지 여부를 가리키는,
ＰＯＩ 상태 정보를 획득하는 장치.
제16항 내지 제21항 중 어느 한 항에 있어서,
상기 제1 시맨틱 유닛은 문자이며, 상기 제2 시맨틱 유닛은 단어인,
ＰＯＩ 상태 정보를 획득하는 장치.
ＰＯＩ 상태 인식 모델을 구축하는 장치에 있어서,
트레이닝 데이터를 획득하기 위한 획득 유닛 - 상기 트레이닝 데이터는: 텍스트, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 포함함 -; 및
상기 텍스트를 ＰＯＩ 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 라벨링 결과를 상기 ＰＯＩ 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 ＰＯＩ 상태 인식 모델을 트레이닝하는 트레이닝 유닛;을 포함하고,
상기 ＰＯＩ 상태 인식 모델은,
상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 표현 모듈;
상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 의존 표현 모듈;
상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하기 위한 표현 융합 모듈; 및
각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 ＰＯＩ 명칭 및 ＰＯＩ 상태의 라벨 예측을 수행하기 위한 라벨 예측 모듈;을 포함하는,
ＰＯＩ 상태 인식 모델을 구축하는 장치.
제23항에 있어서,
상기 획득 유닛은 구체적으로, 시드 텍스트, 상기 시드 텍스트에 포함되는 ＰＯＩ 명칭 및 상기 ＰＯＩ 명칭에 대응하는 ＰＯＩ 상태의 라벨 라벨링 결과를 획득하고, ＰＯＩ 데이터베이스에서의 상기 시드 텍스트에 포함되는 ＰＯＩ 명칭과 같은 유형인 ＰＯＩ 명칭을 사용하여, 상기 시드 텍스트 내의 ＰＯＩ 명칭을 교체하여, 확장 텍스트를 획득하고, 상기 시드 텍스트와 상기 확장 텍스트로부터 상기 트레이닝 데이터를 획득하는데 사용되는,
ＰＯＩ 상태 인식 모델을 구축하는 장치.
제23항에 있어서,
상기 시맨틱 표현 모듈은 구체적으로, 사전 트레이닝 언어 모델을 사용하여 상기 텍스트 내의 각각의 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용되는,
ＰＯＩ 상태 인식 모델을 구축하는 장치.
제23항에 있어서,
상기 시맨틱 의존 표현 모듈은 구체적으로, 상기 텍스트에 대해 구문 분석을 수행하여 상기 텍스트의 시맨틱 의존 트리를 획득하고, 상기 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 상기 방향성 그래프 내의 각각의 노드는 상기 각각의 제2 시맨틱 유닛이며, 관계형 그래프 컨벌루션 신경망(RGCN)을 사용하여 상기 방향성 그래프 내의 각각의 노드의 벡터 표현을 획득하는데 사용되는,
ＰＯＩ 상태 인식 모델을 구축하는 장치.
제23항에 있어서,
상기 표현 융합 모듈은 구체적으로,
제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하거나,
또는,
각각의 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는데 사용되는,
ＰＯＩ 상태 인식 모델을 구축하는 장치.
제23항에 있어서,
상기 라벨 예측 모듈은 구체적으로, 조건부 랜덤 필드(CRF) 모델을 사용하여 각각의 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각각의 제1 시맨틱 유닛의 라벨을 획득하는데 사용되고, 상기 라벨은 ＰＯＩ 명칭 및 ＰＯＩ 상태인지 여부를 가리키는,
ＰＯＩ 상태 인식 모델을 구축하는 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제15항 중 어느 한 항의 방법이 수행되도록 하는,
전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제15항 중 어느 한 항의 방법을 수행하도록 하는,
비일시적 컴퓨터 판독 가능 기록 매체.
컴퓨터 프로그램 제품에 있어서,
컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 제1항 내지 제15항 중 어느 한 항의 방법을 구현하는,
컴퓨터 프로그램 제품.