KR20220120545A - Poi 상태 정보를 획득하는 방법 및 장치 - Google Patents

Poi 상태 정보를 획득하는 방법 및 장치 Download PDF

Info

Publication number
KR20220120545A
KR20220120545A KR1020227011606A KR20227011606A KR20220120545A KR 20220120545 A KR20220120545 A KR 20220120545A KR 1020227011606 A KR1020227011606 A KR 1020227011606A KR 20227011606 A KR20227011606 A KR 20227011606A KR 20220120545 A KR20220120545 A KR 20220120545A
Authority
KR
South Korea
Prior art keywords
pio
text
semantic
semantic unit
vector representation
Prior art date
Application number
KR1020227011606A
Other languages
English (en)
Inventor
지저우 황
이보 순
하이펑 왕
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20220120545A publication Critical patent/KR20220120545A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 인공지능 기술 분야의 빅 데이터 기술에 관한 POI 상태 정보를 획득하는 방법 및 장치를 개시한다. 구체적인 구현 방안은 인터넷으로부터 POI 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득하고, 사전 트레이닝된 POI 상태 인식 모델을 사용하여 텍스트를 인식하고, 텍스트 내의 2-튜플을 획득하고, POI 상태 인식 모델은 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하고, 텍스트의 시맨틱 의존 정보에 기반하여 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행한다. 본 발명의 기술 방안은 인건비를 절약하고, 시효성과 정확성을 향상시킬 수 있다.

Description

POI 상태 정보를 획득하는 방법 및 장치
본 발명은 컴퓨터 기술 분야에 관한 것으로, 특히, 인공지능 기술 분야에서의 빅 데이터 기술에 관한 것이다.
본 발명은 출원일이 2021년 2월 22이고, 출원 번호가 202110199748.9이며, 발명 명칭이 "POI 상태 정보를 획득하는 방법 및 장치(METHOD AND DEVICE FOR OBTAINING POI STATUS INFORMATION)"인 중국 특허 출원의 우선권을 주장한다.
POI(Point Of Interest)는 관심 포인트를 가리키고, 지리 정보 시스템의 용어로서 일반적으로 포인트로 추상할 수 있는 지리적 오브젝트를 가리키고, POI 는 집, 상점, 우체통, 버스정류소, 학교, 병원 등일 수 있다. POI의 주요 용도는 사물 또는 이벤트의 위치를 묘사함으로써, 사물 또는 이벤트의 위치 묘사 능력과 조회 능력을 향상시킨다.
인터넷 지도류의 애플리케이션에서, POI는 매주 중요한 역할을 한다. POI를 사용함으로써, 사용자는 지도에서 관심 있는 장소 및 상기 장소에 도착하는 노선을 쉽게 찾을 수 있다. 그러나, 도시 계획과 기타 요인의 영향으로, 시간이 지남에 따라, 신규된 POI, 이전된 POI, 이름 변경된 POI, 폐쇄된 POI 등과 같은, 일부 POI의 정보가 변화된다. POI 데이터베이스를 신속히 업데이트할 수 없을 경우, 사용자가 지도를 사용하여 검색할 때에 관심 있는 정보를 찾지 못하고, 사용자를 오도할 가능성이 있다. 예를 들어, 사용자가 백화점에 네비게이션한 후, 상기 백화점이 이미 이전하거나 휴업한 것을 발견하면, 분명히 사용자에게 매우 좋지 않은 체험을 가져다 준다.
현재, POI 상태 정보를 획득하는 것은, 주로 인력에 의존하고, 예를 들어, 직원이 현장에서 수집하거나, 사용자가 자발적으로 보고한다. 그러나 이러한 방식은 한편으로 인력 자원을 낭비하고, 비용이 많이 들며, 다른 한편으로, 인위적인 주동성에 크게 의존하여, 시효성(timeliness)과 정확성을 보장하기 어렵다.
본 발명은 인건비를 절약하고, 시효성과 정확성을 향상시키기 위한 POI 상태 정보를 획득하는 방법, 장치, 기기, 컴퓨터 기록 매체 및 컴퓨터 프로그램 제품을 제공한다.
본 발명의 제1 측면에 따르면, POI 상태 정보를 획득하는 방법을 제공하고,
인터넷으로부터 POI 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득하는 단계; 및
사전 트레이닝된 POI 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 상기 텍스트 내의 2-튜플을 획득하는 단계 - 상기 2-튜플은 POI 명칭 및 상기 POI 명칭에 대응하는 POI 상태 정보를 포함함 -;를 포함하고,
상기 POI 상태 인식 모델은 상기 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하고, 상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하고, 상기 각 제1 시맨틱 유닛의 벡터 표현과 상기 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행한다.
본 발명의 제2 측면에 따르면, POI 상태 인식 모델을 구축하는 방법을 제공하고,
트레이닝 데이터를 획득하는 단계 - 상기 트레이닝 데이터는, 텍스트, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 포함함 -; 및
상기 텍스트를 POI 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 상기 POI 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 POI 상태 인식 모델을 트레이닝하는 단계;를 포함하고,
상기 POI 상태 인식 모델은 상기 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하고, 상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하고, 상기 각 제1 시맨틱 유닛의 벡터 표현과 상기 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행한다.
본 발명의 제3 측면에 따르면, POI 상태 정보를 획득하는 장치를 제공하고,
인터넷으로부터 POI 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득하기 위한 텍스트 획득 유닛; 및
사전 트레이닝된 POI 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 상기 텍스트 내의 2-튜플을 획득하기 위한 상태 인식 유닛 - 상기 2-튜플은 POI 명칭 및 상기 POI 명칭에 대응하는 POI 상태 정보를 포함함 -;을 포함하고,
상기 POI 상태 인식 모델은
상기 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 표현 모듈;
상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 의존 표현 모듈;
상기 각 제1 시맨틱 유닛의 벡터 표현과 상기 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하기 위한 표현 융합 모듈; 및
각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하기 위한 라벨 예측 모듈;을 포함한다.
본 발명의 제4 측면에 따르면, POI 상태 인식 모델을 구축하는 장치를 제공하고,
트레이닝 데이터를 획득하기 위한 획득 유닛 - 상기 트레이닝 데이터는, 텍스트, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 포함함 -; 및
상기 텍스트를 POI 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 상기 POI 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 POI 상태 인식 모델을 트레이닝하는 트레이닝 유닛;을 포함하고,
상기 POI 상태 인식 모델은
상기 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 표현 모듈;
상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 의존 표현 모듈;
상기 각 제1 시맨틱 유닛의 벡터 표현과 상기 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하기 위한 표현 융합 모듈; 및
각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하기 위한 라벨 예측 모듈;을 포함한다.
본 발명의 제5 측면에 따르면, 전자 기기를 제공하고, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 상술한 방법이 수행되도록 한다.
본 발명의 제6 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 상술한 방법을 수행하도록 한다.
본 발명의 제7 측면에 따르면, 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 상술한 방법을 구현한다.
상기 기술 방식으로부터 알 수 있는 것은, 본 발명은 POI 정보를 포함하는 인터넷 텍스트로부터 POI 명칭 및 POI 명칭에 대응하는 POI 상태 정보를 마이닝함으로써, POI 상태 변경 이벤트에 대한 인터넷의 신속한 반응을 충분히 이용하여, 상태 변경이 발생하는 POI 정보를 인공적으로 결정하는 방식에 비교하여, 인건비를 절약하고, 시효성과 정확성을 향상시킨다.
본 명세서에서 설명된 내용은 본 발명의 실시예의 키 또는 중요한 특징을 식별하려는 것이 아니고, 또한 본 발명의 범위를 제한하려는 것도 아닌 것을 이해하여야 한다. 본 발명의 다른 특징은 하기의 명세서를 통해 용이하게 이해할 수 있다.
상술한 선택가능한 방식이 가지는 기타 효과에 대해 하기는 구체적인 실시예를 결합하여 설명한다.
첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 발명의 실시예에 적용될 수 있는 방법 또는 장치의 예시적인 시스템 아키텍처를 도시한다.
도 2는 본 발명의 실시예에서 제공되는 POI 상태 인식 모델을 구축하는 방법의 흐름도이다.
도 3은 본 발명의 실시예에서 제공되는 트레이닝 데이터를 획득하는 방법의 흐름도이다.
도 4는 본 발명의 실시예에서 제공되는 POI 상태 인식 모델의 개략도이다.
도 5는 본 발명의 실시예에서 제공되는 POI 상태 정보를 획득하는 방법의 흐름도이다.
도 6은 본 발명의 실시예에서 제공되는 텍스트에 대해 라벨 예측을 수행하는 예시도이다.
도 7은 본 발명의 실시예에서 제공되는 POI 상태 인식 모델을 구축하는 장치의 구조도이다.
도 8은 본 발명의 실시예에서 제공되는 POI 상태 정보를 획득하는 장치의 구조도이다.
도 9는 본 발명의 실시예를 구현하기 위한 전자 기기의 블록도이다.
하기는 첨부된 도면을 결부하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통에서의 기술자는 본 발명의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
도 1은 본 발명의 실시예에 적용될 수 있는 방법 또는 장치의 예시적인 시스템 아키텍처를 도시한다. 도 1에 도시된 바와 같이, 상기 시스템 아키텍처는 단말 디바이스(101, 102), 네트워크(103), 및 서버(104)를 포함할 수 있다. 네트워크(103)는 단말 디바이스(101, 102)와 서버(104) 사이의 통신 링크를 위한 매체를 제공한다. 네트워크(103)는 유선, 무선통신 링크, 또는 광섬유 케이블 등과 같은 다양한 접속 유형을 포함할 수 있다.
사용자는 단말 디바이스(101, 102)를 사용하여 네트워크(103)를 통해 서버(104)와 인터랙션을 수행할 수 있다. 단말 디바이스(101, 102)에는 지도류 애플리케이션, 웹 브라우저 애플리케이션, 통신류 애플리케이션 등과 같은 다양한 애플리케이션이 인스톨될 수 있다.
단말 디바이스(101, 102)는 지도류 애플리케이션을 수행할 수 있는 여러가지 전자 기기일 수 있다. 스마트폰, 태블릿, PC, 스마트 티비 등이 포함되지만, 이에 한정되지 않는다. 본 발명에서 제공되는 POI 상태 정보를 획득하는 장치와 POI 상태 인식 모델을 구축하는 장치는 상술한 서버(104)에 설치하여 수행할 수 있고, 서버(104)에서 독립한 기기에 수행할 수도 있다. 복수의 소프트웨어 또는 소프트웨어 모듈 (예를 들어, 분산 서비스를 제공한다)로 구현할 수 있고, 단일 소프트웨어 또는 소프트웨어 모듈로 구현할 수도 있고, 여기서 구체적으로 한정되지 않는다.
예를 들어, POI 상태 정보를 획득하는 장치는 상술한 서버(104)에 설치하여 수행하고, 서버(104)는 본 발명의 실시예에서 제공되는 방법을 사용하여 POI 의 상태 정보를 획득하고, 그 다음에, 획득된 POI 의 상태 정보를 사용하여 POI 데이터베이스(105)를 업데이트한다. 서버(104)는 단말 디바이스(101, 102)의 조회 요구에 응답하고, POI 데이터베이스(105)를 조회하고, 단말 디바이스(101, 102)에 조회된 POI 의 정보를 반환한다.
서버(104)는 단일 서버일 수 있고, 복수의 서버에 의해 구성되는 서버 그룹일 수 있다. 서버(104)는 서버 형식으로 존재하는 외에, 더 높은 컴퓨팅 성능을 가진 기타 컴퓨터 시스템 또는 프로세서일 수 있다. 이해해야 할 것은, 도 1의 단말 디바이스, 네트워크 및 서버의 수는 단순한 예시적인 것으로 이해할 수 있다. 구현 요구에 따라, 임의의 수의 단말 디바이스, 네트워크 및 서버일 수 있다.
본 발명은 인터넷 빅 데이터가 가지고 있는 풍부함과 실시간성에 기반하여, 인터넷 빅 데이터를 데이터 소스로 사용하고, 인터넷 텍스트로부터 POI 상태 정보를 마이닝 한다. 핵심 아이디어는 인터넷으로부터 POI 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득하고, 사전 트레이닝된 POI 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 텍스트 내의 2-튜플을 획득하고, 2-튜플은 POI 명칭 및 상기 POI 명칭에 대응하는 POI 상태 정보를 포함한다. 본 발명의 전체적인 방안으로부터 보면, 2개 부분에 관련되고, 하나는 POI 상태 인식 모델을 구축하고, 다른 하나는 POI 상태 인식 모델을 사용하여 POI 상태 정보를 획득한다. 하기는 실시예를 결합하여 이 2개 부분을 상세히 설명한다.
도 2는 본 발명의 실시예에서 제공되는 POI 상태 인식 모델을 구축하는 방법의 흐름도이다. 도 2에 도시된 바와 같이, 상기 방법은 하기의 단계를 포함할 수 있다:
201에서, 트레이닝 데이터를 획득하고, 트레이닝 데이터는, 텍스트, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 포함한다.
202에서, 텍스트를 POI 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 POI 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 POI 상태 인식 모델을 트레이닝한다.
POI 상태 인식 모델은 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하고, 상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행한다.
하기는 실시예를 결합하여 상술한 단계 201, 즉 "트레이닝 데이터를 획득한다."를 상세히 설명한다.
트레이닝 데이터를 획득할 때, 인공적으로 라벨링하는 방식을 사용하여 일부 POI 명칭 및 POI 상태를 포함하는 텍스트에 대해 라벨링하여 트레이닝 데이터로 할 수 있다. 그러나 이러한 방식은 인력의 제한으로 인해 소량의 데이터밖에 생성할 수 없고, 모델 트레이닝의 정확성에 일정한 제약을 줄 수 있다. 여기서, 바람직한 실시방식으로서, 도 3에 도시된 방식을 사용하여 트레이닝 데이터를 획득할 수 있고, 구체적으로, 하기의 단계를 포함하고,
301에서, 사전 트레이닝된 POI 인식기를 사용하여 인터넷으로부터 POI 명칭을 포함하는 텍스트를 획득한다.
웹페이지로부터 인터넷 텍스트를 크롤링하고, 텍스트에 포함되는 POI 정보를 확보하기 위해, 하나의 POI 인식기를 트레이닝하고, POI 인식기에 의해 POI 정보를 포함하는 텍스트가 인식되어 유지할 수 있다.
POI 인식기를 사전 트레이닝하는 과정은 POI 데이터베이스로부터 POI 정보를 추출하고, 추출된 POI 정보는 인기 있는 POI 정보일 수 있고, 즉 검색 인기가 일정한 정도를 넘는 POI 정보일 수 있고, 예를 들어, 설정된 기간 내의 검색 횟수가 미리 설정된 횟수의 역치를 넘는 POI 정보일 수 있고, 그 다음에, 추출된 POI 정보를 사용하여 인터넷에서 검색하고, 검색된 텍스트 및 대응하는 POI 정보를 사용하여 라벨 예측 모델을 트레이닝하여, POI 인식기를 획득한다. POI 인식기가 텍스트를 입력한 후, 상기 텍스트에 포함되는 POI 정보를 출력할 수 있다. 그 중, POI 정보는 POI 명칭을 포함할 수 있다. 설명해야 하는 바로는, 본 발명에서 POI 명칭은 중국어 명칭, 영문 명칭, 명칭 약어 등과 같은, 하나의 POI 를 표기 및 구분할 수 있는 정보를 가리킨다.
POI 인식기를 트레이닝하는 과정에서 사용되는 라벨 예측 모델은 쌍방향 STM(Long Short-Term Memory, 장단기저장 네트워크) 및 CRF(conditional random field, 조건부 랜덤 필드)로 구성되는 구조이다. 물론, 다른 유형의 구조를 사용할 수도 있고, 여기서는 일일이 열거하고 상세하게 묘사하지 않는다.
302에서, 미리 구축된 사전을 사용하여 POI 명칭을 포함하는 텍스트로부터 POI 상태 변화 정보를 포함하지 않는 텍스트를 필터링하여, 시드 텍스트를 획득한다.
사전은 POI 상태 변화 정보를 포함하는 단어를 포함한다. 텍스트에 POI 상태 변화를 설명하는 정보가 포함되도록 확보하기 위해, 하나의 사전을 미리 구축하고, 이 사전에서의 단어의 시맨틱은 POI 상태 변화에 관련된다. POI 상태 변화는 신규, 이전, 이름 변경 및 폐쇄 등을 포함할 수 있다.
상술한 301 및 302의 처리를 거친 후, 획득된 시드 텍스트에는 모두 POI 명칭 및 POI 상태 변화 정보가 포함된다. 상술한 301 및 302은, 시드 텍스트를 획득하는 바람직한 실시방식이며, 상술한 방식 이외에, 텍스트를 인공적으로 구축하는 방식을 간단히 사용하여 시드 텍스트를 획득할 수도 있다.
303에서, 시드 텍스트에 포함되는 POI 명칭 및 상기 POI 명칭에 대응하는 POI 상태의 라벨 라벨링 결과를 획득한다.
본 단계에서 획득된 시드 텍스트의 수량이 많지 않으면, 인공적으로 라벨링하는 방식을 사용할 수 있다. 그러나 수량이 많지 않은 시드 텍스트를 트레이닝 데이터로 사용하여 POI 상태 인식 모델을 트레이닝할 경우, POI 상태 인식 모델의 정확성이 충분히 높지 않을 가능성이 있다. 트레이닝 효과를 더 향상시키기 위해서, 이를 바탕으로 POI 데이터베이스를 사용하여 시드 텍스트에 대해 데이터 강화를 수행할 수 있다. 즉, 304에서, POI 데이터베이스에서의 시드 텍스트에 포함되는 POI 명칭과 같은 유형인 POI 명칭을 사용하여, 시드 텍스트 내의 POI 명칭을 교체하여, 확장 텍스트를 획득한다.
구체적으로, 분류 모델을 사용하여 시드 텍스트에 포함되는 POI 명칭과 POI 데이터베이스 내의 POI 명칭을 각각 분류할 수 있다. 분류에 의해 획득된 카테고리는 레스토랑류, 회사류, 주택류 등과 같은 POI 의 특성을 구분하는데 사용된다.
예를 들어, 하나의 시드 텍스트가 "A 회사는 이미 이전하고, 이전 기간 동안은 업무를 일시 정지한다."이며, 시드 텍스트에 포함되는 POI 명칭 "A 회사"가 회사류일 경우, POI 데이터베이스로부터 같은 유형의 POI 명칭 "B 회사", "C 회사" 등을 찾을 수 있고, 이러한 명칭을 각각 사용하여 시드 텍스트 내의 "A" 회사를 교체한 후, 확장 텍스트: "B 회사는 이미 이전하고, 이전 기간 동안은 업무를 일시정지한다", 및 "C 회사는 이미 이전하고, 이전 기간 동안은 업무를 일시 정지한다." 등을 획득할 수 있다.
분류 모델은, POI 데이터베이스 내의 대량의 (POI 명칭, 유형 라벨) 페어를 미리 사용하여 트레이닝을 수행할 수 있고, 분류 모델의 구조는 예를 들어, 쌍방향 LSTM과 softmax를 사용하여 구성되는 구조일 수 있다.
305에서, 시드 텍스트와 확장 텍스트로부터 트레이닝 데이터를 획득한다.
시드 텍스트에 대해 확장한 후, 대량의 확장 텍스트를 획득하고, 그 다음에, 이러한 시드 텍스트와 확장 텍스트로 트레이닝 데이터를 공통으로 구성할 수 있다. 이러한 트레이닝 데이터는 텍스트, 텍스트에 포함되는 POI 명칭, 및 상기 POI 명칭에 대응하는 POI 상태의 라벨 라벨링 결과를 포함한다.
하기는 실시예를 결합하여 상술한 단계 202, 즉 "텍스트를 POI 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 POI 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 POI 상태 인식 모델을 트레이닝한다"를 상세히 설명한다.
본 발명에 관한 POI 상태 인식 모델에서, 도 4에 도시된 바와 같이, 주로 4개 부분: 시맨틱 표현 모듈, 시맨틱 의존 표현 모듈, 표현 융합 모듈 및 라벨 예측 모듈을 포함한다.
시맨틱 표현 모듈은, 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다. 본 발명에서, 제1 시맨틱 유닛은 문자일 수 있고, 문자는 중국어에서 흔히 볼 수 있다. 영어에서 제1 시맨틱 유닛은 하나의 단어(word)일 수 있고, 더 세밀한 입도일 수 있으며, 예를 들어, 복합어 중의 각각의 "문자"일 수 있다. 예를 들어, "yellowstone"를 하나의 제1 시맨틱 유닛으로 할 수 있고, "yellow" 및 "stone"를 각각 제1 시맨틱 유닛으로 할 수도 있다.
종래의 word2vec 모델, glove 모델 등을 사용하여 텍스트 내의 각 문자에 대해 시맨틱 특징 추출을 구현할 수 있다. 그러나 POI 명칭은 일반적으로 롱테일 워드를 사용하므로, 종래의 모델을 사용하면 각 문자의 시맨틱을 잘 표현할 수 없다. 따라서, 본 발명에서 바람직한 실시방식을 사용하여, ERNIE(Enhanced Representation from kNowledge IntEgration, 지식 증강 시맨틱 표현), BERT(Bidirectional Encoder Representations from Transformers, Transformer의 쌍방향 인코더 표현)등과 같은 사전 트레이닝 언어 모델로부터 텍스트에 대응하는 단어 시퀀스에 대해 시맨틱 특징의 추출을 수행한다. ERNIE 모델은 subword 전략을 사용하고, 즉 BPE(Byte-Pair Encoding, 2바이트 인코딩) 알고리즘을 사용하여 POI 명칭을 더 세밀한 입도의 문자로 분해하므로, 롱테일 워드의 문제를 효율적으로 해결한다.
트레이닝 데이터 내의 어느 한 텍스트
Figure pct00001
에 대응하는 워드 시퀀스를
Figure pct00002
로 나타내고, 그 중,
Figure pct00003
Figure pct00004
중의 문자 수라고 가정한다.
Figure pct00005
을 ERNIE 모델의 입력으로 사용하고, ERNIE 모델은 시맨틱 특징을 추출한 후에 은닉층 벡터 시퀀스
Figure pct00006
를 출력한다. 그 중,
Figure pct00007
은 문자
Figure pct00008
에 대응하는 벡터 표현이다.
시맨틱 의존 표현 모듈은 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다.
구체적으로, 텍스트에 대해 구문 분석을 수행하여 텍스트의 시맨틱 의존 트리를 획득하고, 그 다음에, 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 방향성 그래프 내의 각 노드는 각 제2 시맨틱 유닛이며, RGCN(Relational Graph Convolutional Network, 관계형 그래프 컨벌루션 신경망)을 사용하여 방향성 그래프 내의 각 노드의 벡터 표현을 획득할 수 있다.
의존 구문 분석기를 사용하여 텍스트를 분석하여 텍스트의 시맨틱 의존 트리를 획득할 수 있다. 의존 구문 분석은 자연 언어 처리의 핵심 기술 중의 하나이며, 문장 내의 단어 사이의 의존 관계를 분석함으로써 문장의 구문 구조를 결정하는 것을 목적으로 한다. 일반적으로, 텍스트에 대해 단어 세그멘테이션, 품사 라벨링, 네이밍 엔티티 인식, 문법 분석 등의 처리를 수행하는 것을 포함한다. 의존 구문 분석기는 현재 비교적으로 성숙한 툴이며, 본 발명에서 이러한 툴을 직접 사용하여 구현할 수 있다.
본 발명의 제2 시맨틱 유닛은 단어일 수 있다. 그 이외에도, 프레이즈, 단어 조합 등일 수 있다. 여기서는 단어를 예로 한다.
시맨틱 의존 트리에서, 노드는 텍스트 내의 단어이며, 에지는 단어 사이의 시맨틱 관계이다. 시맨틱 의존 트리를 방향성 그래프로 변환할 수 있다. 방향성 그래프 내의 노드는 텍스트 내의 단어이며, 에지는 단어 사이의 시맨틱 관계를 반영한다.
그 다음에, 방향성 그래프를 RGCN의 입력으로 사용하고, RGCN으로부터 방향성 그래프 내의 각 노드의 벡터 표현을 출력한다.
시맨틱 의존 표현 모듈에 있어서,
Figure pct00009
에 대응하는 단어 시퀀스는
Figure pct00010
로 표시하고, 그 중,
Figure pct00011
Figure pct00012
중의 단어 수이다. 시맨틱 의존 표현 모듈을 거친 후, 각 단어에 대응하는 벡터 표현을
Figure pct00013
로 각각 획득한다.
표현 융합 모듈은 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는데 사용된다.
표현 융합 모듈은 이하의 두 가지 방식을 사용할 수 있지만, 이에 한정되지 않는다.
제1 방식: 제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현 및 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에, 상기 제1 시맨틱 유닛의 융합 벡터를 획득한다.
제1 시맨틱 유닛이 문자이며, 제2 시맨틱 유닛이 워드인 것을 예로 들어, 워드 A가 문자 A1과 문자 A2로 구성된다고 가정하면, 문자 A1의 벡터 표현과 워드 A의 벡터 표현을 스플라이싱한 후에 문자 A1의 융합 벡터 표현을 획득하고, A2의 벡터 표현과 워드 A의 벡터 표현을 스플라이싱한 후에 문자 A2의 융합 벡터 표현을 획득한다.
제2 방식: 각 제2 시맨틱 유닛의 벡터 표현이 제1 시맨틱 유닛에 대해 주의력 처리를 할 경우, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득한다.
제1 시맨틱 유닛이 문자이며, 제2 시맨틱 유닛이 워드인 것을 예로 들어, 획득된 모든 워드의 벡터 표현을 문자 A1의 벡터 표현에 대해 Attention(주의력) 처리를 수행한다. 제2 시맨틱 유닛은 방향성 그래프로부터 획득되므로, 실제로, 방향성 그래프 전체를 사용하여 문자 A1에 대해 Attention을 수행하여, 방향성 그래프 전체가 상기 문자 A1에 대한 벡터 표현을 획득하는 것과 같다. 즉, 문자의 벡터 표현을 query로 사용하고, 각 워드의 벡터 표현을 각각 key로 사용하여, Attention을 수행할 수 있다.
라벨 예측 모듈은 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하는데 사용된다.
여기서, 예를 들어, CRF(조건부 랜덤 필드) 등의 시퀀스 예측 모델을 사용하여 라벨 예측을 수행할 수 있다.
Figure pct00014
개의 문자를 포함하는 문서
Figure pct00015
에 대해, 상술한 표현 융합 모듈의 융합을 거친 후, 각 문자의 융합 벡터 표현, 즉 시퀀스
Figure pct00016
를 획득한다. 문서 내의 각 문자
Figure pct00017
에 있어서, 라벨 예측 모듈의 태스크는 라벨
Figure pct00018
을 예측하는 것이고, 그 중,
Figure pct00019
이다. 라벨 예측을 수행할 때, 문자
Figure pct00020
의 라벨에 대해 상기 문자
Figure pct00021
가 POI 명칭 및 POI 상태인지 여부를 가리키고, 다시 말하면, 하나의 라벨은 POI 명칭 및 POI 상태 정보를 동시에 가리킨다. 예를 들어, 라벨 집합은 이하를 사용할 수 있다.
Figure pct00022
={B-NEW,I-NEW,B-RELOCATE,I-RELOCATE,B-RENAME,I-RENAME,B-CLOSE,I-CLOSE,B-NONE,I-NONE,O}
그 중, B, I, 및 O는 상기 문자가 POI 명칭의 시작, 중간, 및 비 POI 명칭인 것을 가리킨다.
NEW, RELOCATE, RENAME, CLOSE, 및 NONE는 각각 POI 상태가 신규, 이름 변경, 이전, 폐쇄, 및 POI 미인식 상태인 것을 가리킨다.
따라서, 라벨 B-NEW는 상기 문자가 POI 명칭의 시작이며, 동시에 POI 상태가 신규인 것을 가리키고, 라벨 I-NEW는 상기 문자가 POI 명칭의 중간이며, 동시에 POI 상태가 신규인 것을 가리키고, 기타 라벨은 유사한다.
상기 모델에 의해 출력되는 예측 시퀀스가
Figure pct00023
일 경우, 이 시퀀스의 스코어를 획득할 수 있다.
Figure pct00024
그 중,
Figure pct00025
이며,
Figure pct00026
는 가중치 파라미터이며, 모델 파라미터 중의 하나이다.
Figure pct00027
이며, 그 중,
Figure pct00028
은 실수 도메인을 나타내고, d는
Figure pct00029
의 차원이며, c는 모델 출력 라벨의 수이다.
Figure pct00030
Figure pct00031
으로부터
Figure pct00032
까지의 변이 확률 행렬을 나타낸다.
최종적으로, softmax 층을 사용하여 각 예측 시퀀스의 확률을 획득할 수 있다.
Figure pct00033
그 중,
Figure pct00034
은 모든 예측 시퀀스로 구성된 집합이다.
트레이닝 단계에서 사용되는 손실 함수는
Figure pct00035
이다.
트레이닝 과정에서, 트레이닝 종료 조건에 도달할 때까지, 손실 함수의 값을 사용하여, 시맨틱 표현 모듈, 시맨틱 의존 표현 모듈, 표현 융합 모듈 및 라벨 예측 모듈의 파라미터 값을 포함하는 모델 파라미터를 업데이트한다. 트레이닝 종료 조건은 손실 함수의 값이 미리 설정된 손실 함수의 역치 이하인 것, 및 반복 회수가 미리 설정된 회수의 역치에 도달한 것 등을 포함할 수 있다.
최종으로 트레이닝된 POI 상태 인식 모델은 입력된 텍스트를 인식하고, 텍스트 내의 2-튜플을 획득할 수 있고, 상기 2-튜플은 POI 명칭 및 POI 명칭에 대응하는 POI 상태 정보를 포함하고, (POI 명칭, 상태 정보)로 나타낸다.
도 5는 본 발명의 실시예에서 제공되는 POI 상태 정보를 획득하는 방법의 흐름도이다. 상기 방법은, 도 2에 도시된 플로우에 기반하여 구축한 POI 상태 인식 모델이다. 도 5에 도시된 바와 같이, 상기 방법은 하기의 단계를 포함할 수 있다:
501에서, 인터넷으로부터 POI 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득한다.
POI 상태 정보의 실시간성을 확보하기 위해, 인터넷으로부터 최근의 일정 기간의 텍스트를 크롤링하고, 그 다음에, 사전 트레이닝된 POI 인식기를 사용하여 획득된 텍스트에 대해 POI 정보 인식을 수행하여, POI 정보를 포함하는 텍스트를 유지할 수 있다.
POI 인식기의 관련되는 설명에 대해, 상술한 실시예의 단계 301의 관련되는 설명을 참조할 수 있고, 여기서 설명을 생략한다.
502에서, 사전 트레이닝된 POI 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 상기 텍스트 내의 2-튜플, 즉 (POI 명칭, 상태 정보)을 획득한다.
POI 상태 인식 모델은 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하고, 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행한다.
단계 502에서, 도 4에 도시된 POI 상태 인식 모델을 사용하여 텍스트를 인식할 수 있다.
시맨틱 표현 모듈은 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다. 본 발명에서, 제1 시맨틱 유닛은 문자일 수 있고, 문자는 중국어에서 흔히 볼 수 있다. 영어에서, 제1 시맨틱 유닛은 하나의 단어(word)일 수 있고, 더 세밀한 입도일 수 있으며, 예를 들어, 복합어 중의 각각의 "문자"일 수 있다.
종래의 word2vec 모델, glove 모델 등을 사용하여 텍스트 내의 각 문자에 대해 시맨틱 특징 추출을 구현할 수 있다. 그러나 POI 명칭은 일반적으로 롱테일 워드를 사용하므로, 종래의 모델을 사용하면 각 문자의 시맨틱을 잘 표현할 수 없다. 따라서, 본 발명에서 바람직한 실시방식을 사용하여, ERNIE, BERT 등과 같은 사전 트레이닝 언어 모델로 텍스트에 대응하는 단어 시퀀스에 대해 시맨틱 특징의 추출을 수행한다. ERNIE 모델은 subword 전략을 사용하고, 즉 BPE 알고리즘을 사용하여 POI 명칭을 더 세밀한 입도의 문자로 분해하므로, 롱테일 워드의 문제를 효율적으로 해결한다.
시맨틱 의존 표현 모듈은 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다.
구체적으로, 텍스트에 대해 구문 분석을 수행하여 텍스트의 시맨틱 의존 트리를 획득하고, 그 다음에, 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 방향성 그래프 내의 각 노드는 각 제2 시맨틱 유닛이며, RGCN을 사용하여 방향성 그래프 내의 각 노드의 벡터 표현을 획득할 수 있다.
표현 융합 모듈은 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는데 사용된다.
표현 융합 모듈은 이하의 두 가지 방식을 사용할 수 있지만, 이에 한정되지 않는다.
제1 방식: 제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에, 상기 제1 시맨틱 유닛의 융합 벡터를 획득한다.
제2 방식: 각 제2 시맨틱 유닛의 벡터 표현이 제1 시맨틱 유닛에 대해 주의력 처리를 할 경우, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득한다.
라벨 예측 모듈은 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하는데 사용된다. 여기서, 예를 들어, CRF(조건부 랜덤 필드 ) 등과 같은 시퀀스 예측 모델을 사용하여 라벨 예측을 수행할 수 있다. 예측된 라벨은 POI 명칭 및 POI 상태 정보를 동시에 가리킨다.
상술한 POI 상태 인식 모델에서의 각 모듈이 구체적인 구현 방식은 도 2에 도시된 실시예의 관련되는 설명을 참조할 수 있고, 여기서는 상세히 설명하지 않는다.
예를 들어:
텍스트
"
Figure pct00036
(평산 도서관의 개관에 이어, 평산 예술박물관도 3월30일에 정식으로 개관한다.)" 을 입력한다고 가정한다.
POI 상태 인식 모델을 예측한 후, 매겨진 라벨은 도 6에 도시된다. 2-튜플(평산 도서관, 신규) 및 (평산 예술박물관, 신규)을 결정할 수 있다.
인터넷 텍스트에 대해 일련의 2-튜플을 마이닝한 후, 마이닝된 2-튜플, POI 데이터베이스에 기록된 POI 명칭 및 이에 대응하는 POI 상태 정보를 비교할 수 있고, 일치하지 않을 경우, 마이닝된 2-튜플을 사용하여 POI 데이터베이스에 기록된 POI 명칭 및 이에 대응하는 POI 상태 정보를 업데이트할 수 있다.
업데이트할 때, 마이닝된 2-튜플의 출현 회수에 기반하여 2-튜플의 정확성을 측정할 수 있고, 예를 들어, 출현 회수가 미리 설정된 횟수의 역치보다 큰 2-튜플이 정확한 것으로 간주하고, 정확한 2-튜플을 사용하여 POI 데이터베이스를 업데이트할 수 있다.
이상은 본 발명에서 제공되는 방법의 상세한 설명이며, 하기는 실시예를 결합하여 본 발명에서 제공되는 장치에 대해 상세히 설명한다.
도 7은 본 발명의 실시예에서 제공되는 POI 상태 인식 모델을 구축하는 장치의 구조도이다. 도 7에 도시된 바와 같이, 상기 장치는 획득 유닛(01)과 트레이닝 유닛(02)을 포함할 수 있고, 각 구성 유닛의 주요 기능은 하기와 같다:
획득 유닛(01)은, 트레이닝 데이터를 획득하는데 사용되고, 트레이닝 데이터는, 텍스트, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 포함한다.
획득 유닛(01)은, 시드 텍스트, 시드 텍스트에 포함되는 POI 명칭 및 상기 POI 명칭에 대응하는 POI 상태의 라벨 라벨링 결과를 획득하고, POI 데이터베이스에서의 시드 텍스트에 포함되는 POI 명칭과 같은 유형인 POI 명칭을 사용하여, 시드 텍스트 내의 POI 명칭을 교체하여, 확장 텍스트를 획득하고, 시드 텍스트와 확장 텍스트로부터 트레이닝 데이터를 획득할 수 있다.
획득 유닛(01)은, 시드 텍스트를 획득할 경우, 인터넷으로부터 POI 명칭을 포함하는 텍스트를 획득하고, 미리 구축된 사전을 사용하여 상기 POI 명칭을 포함하는 텍스트로부터 POI 상태 변화 정보를 포함하지 않는 텍스트를 필터링하여, 상기 시드 텍스트를 획득할 수 있고, 상기 사전은 POI 상태 변화 정보를 나타내는 단어를 포함한다.
트레이닝 유닛(02)은, 텍스트를 POI 상태 인식 모델의 입력으로 사용하고, 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 POI 상태 인식 모델의 타겟 예측 결과로 사용하여, POI 상태 인식 모델을 트레이닝하는데 사용된다.
POI 상태 인식 모델은 도 4에 도시된 바와 같이, 이하를 포함할 수 있다:
시맨틱 표현 모듈은, 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다.
구체적으로, 시맨틱 표현 모듈은, 예를 들어, ERNIE, BERT 등과 같은 사전 트레이닝 언어 모델을 사용하여 텍스트 내의 각 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각 제1 시맨틱 유닛의 벡터 표현을 획득할 수 있다.
시맨틱 의존 표현 모듈은, 텍스트의 시맨틱 의존 정보에 기반하여 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다.
바람직한 실시방식으로서, 시맨틱 의존 표현 모듈은 텍스트에 대해 구문 분석을 수행하여 텍스트의 시맨틱 의존 트리를 획득하고, 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 방향성 그래프 내의 각 노드는 각 제2 시맨틱 유닛이며, RGCN을 사용하여 방향성 그래프 내의 각 노드의 벡터 표현을 획득할 수 있다.
표현 융합 모듈은, 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는데 사용된다.
표현 융합 모듈은, 이하의 두 가지 방식을 사용할 수 있지만, 이에 한정되지 않는다.
제1 방식: 제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득한다.
제2 방식: 각 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득한다.
라벨 예측 모듈은, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하는데 사용된다.
바람직한 실시방식으로서, 라벨 예측 모듈은 CRF 모델을 사용하여 각 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각 제1 시맨틱 유닛의 라벨을 획득할 수 있고, 라벨은 POI 명칭 및 POI 상태인지 여부를 가리킨다.
도 8은 본 발명의 실시예에서 제공되는 POI 상태 정보를 획득하는 장치의 구조도이다. 도 8에 도시된 바와 같이, 상기 장치는, 텍스트 획득 유닛(11)과 상태 인식 유닛(12)을 포함할 수 있고, 업데이트 유닛(13)을 더 포함할 수도 있다. 각 구성 유닛의 주요 기능은 하기와 같다:
텍스트 획득 유닛(11)은, 인터넷으로부터 POI 정보를 포함하는 미리 설정된 기간 내의 텍스트를 획득하는데 사용된다.
그 중의 하나의 구현 방식으로서, 텍스트 획득 유닛(11)은 인터넷으로부터 미리 설정된 기간 내의 텍스트를 획득하고, 사전 트레이닝된 POI 인식기를 사용하여 획득된 텍스트에 대해 POI 정보 인식을 수행하여, POI 정보를 포함하는 텍스트를 유지할 수 있다.
상태 인식 유닛(12)은, 사전 트레이닝된 POI 상태 인식 모델을 사용하여 텍스트를 인식하고, 텍스트 내의 2-튜플을 획득하는데 사용되고, 2-튜플은 POI 명칭 및 상기 POI 명칭에 대응하는 POI 상태 정보를 포함한다.
POI 상태 인식 모델은 도 4에 도시된 바와 같이, 시맨틱 표현 모듈, 시맨틱 의존 표현 모듈, 표현 융합 모듈 및 라벨 예측 모듈을 포함할 수 있다:
시맨틱 표현 모듈은, 텍스트 내의 각 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다.
구체적으로, 시맨틱 표현 모듈은 예를 들어, ERNIE, BERT 등과 같은 사전 트레이닝 언어 모델을 사용하여 텍스트 내의 각 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각 제1 시맨틱 유닛의 벡터 표현을 획득할 수 있다.
시맨틱 의존 표현 모듈은, 텍스트의 시맨틱 의존 정보에 기반하여 텍스트 내의 각 제2 시맨틱 유닛의 벡터 표현을 획득하는데 사용된다.
바람직한 실시방식으로서, 시맨틱 의존 표현 모듈은 텍스트에 대해 구문 분석을 수행하여 텍스트의 시맨틱 의존 트리를 획득하고, 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 방향성 그래프 내의 각 노드는 각 제2 시맨틱 유닛이며, RGCN을 사용하여 방향성 그래프 내의 각 노드의 벡터 표현을 획득할 수 있다.
표현 융합 모듈은, 각 제1 시맨틱 유닛의 벡터 표현과 각 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 각 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는데 사용된다.
표현 융합 모듈은, 이하의 두 가지 방식을 사용할 수 있지만, 이에 한정되지 않는다.
제1 방식: 제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득한다.
제2 방식: 각 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득한다.
라벨 예측 모듈은, 각 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하는데 사용된다.
바람직한 실시방식으로서, 라벨 예측 모듈은, CRF 모델을 사용하여 각 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각 제1 시맨틱 유닛의 라벨을 획득할 수 있고, 라벨은 POI 명칭 및 POI 상태인지 여부를 가리킨다.
업데이트 유닛(13)은, 이용 획득된 2-튜플을 사용하여 POI 데이터베이스를 업데이트하는데 사용된다.
인터넷 텍스트에 대해 일련의 2-튜플을 마이닝한 후, 업데이트 유닛(13)은 마이닝된 2-튜플, POI 데이터베이스에 기록된 POI 명칭 및 이에 대응하는 POI 상태 정보를 비교할 수 있고, 일치하지 않을 경우, 마이닝된 2-튜플을 사용하여 POI 데이터베이스에 기록된 POI 명칭 및 이에 대응하는 POI 상태 정보를 업데이트할 수 있다.
업데이트 유닛(13)은 업데이트할 때, 마이닝된 2-튜플의 출현 회수에 기반하여 2-튜플의 정확성을 측정할 수 있고, 예를 들어, 출현 회수가 미리 설정된 횟수의 역치보다 큰 2-튜플이 정확한 것으로 간주하고, 정확한 2-튜플을 사용하여 POI 데이터베이스를 업데이트할 수 있다.
하기는 구체적인 응용 예를 들면:
인터넷으로부터 최근 한 달 동안의 POI 정보를 포함하는 텍스트를 획득하고, 이러한 텍스트는, 수량이 많을 수 있고, 일부의 몇 가지 예를 들면:
인터넷 텍스트 1: 상해 대학 과학기술 단지와 상해 왕원 기업발전 유한회사는 보산구 뤄선바오 비즈니스 센터에 상다왕원 과학기술원을 설립하였다.
인터넷 텍스트 2: 그전에 화암 대협곡은 풍경구를 신고할 때, 이미 오룡산 대협곡으로 이름을 변경하였다.
인터넷 텍스트 3: 숭명현 부동산 등록센터는 2019년6월28일에 수숭가 66호로 이사하여 업무를 처리하고 이사하는 동안 업무를 일시 중지한다.
인터넷 텍스트 4: 삼강원의 자연 생태 환경을 보호하기 위해 녠바오위쩌 풍경구는 이미 전면적으로 폐쇄되었다.
획득된 POI 정보를 포함하는 인터넷 텍스트를 POI 상태 인식 모델에 각각 입력하고, 상기 POI 상태 인식 모델은 텍스트에서의 단어의 시맨틱 의존 관계에 기반하여, 그 중에 2-튜플을 따라 정확하게 인식한다. 인식 결과는, 이하인 것 같다:
인터넷 텍스트 1에 대응하는 2-튜플: (상다왕원 과학기술원, 신규);
인터넷 텍스트 2에 대응하는 2-튜플: (화암 대협곡, 이름 변경);
인터넷 텍스트 3에 대응하는 2-튜플: (숭명현 부동산 등록센터, 이전);
인터넷 텍스트 4에 대응하는 2-튜플: (녠바오위쩌 풍경구, 폐쇄).
획득된 대량 2-튜플에 대해, 출현 회수의 방식을 사용하여 그의 정확성을 결정할 수 있는, 예를 들어, 특정 2-튜플이 인식된 횟수가 미리 설정된 역치를 넘을 경우, 정확하다고 간주하고, 이를 사용하여 POI 데이터베이스를 업데이트할 수 있다. 인공적으로 검증하는 방식으로, 획득된 2-튜플로 그의 정확성을 검증할 수도 있다.
상술한 과정에서, 인터넷 문서로부터, 신규, 이름 변경, 이전 및 폐쇄 등의 변화가 발생한 POI 상태 정보를 자동적으로 신속히 마이닝 할 수 있고, POI 데이터베이스를 신속히 업데이트하고, POI 데이터베이스를 사용하여 제공되는 서비스가 정확한 POI 정보에 기반하므로, 사용자 체험을 향상시킨다.
상기의 실시예로부터 알 수 있는 것은, 본 발명은 하기의 이점을 구비할 수 있고,
1) 본 발명에서 POI 정보를 포함하는 인터넷 텍스트로부터 POI 명칭 및 POI 명칭에 대응하는 POI 상태 정보를 마이닝함으로써, POI 상태 변경 이벤트에 대한 인터넷의 신속한 반응을 충분히 이용하여, 상태 변경이 발생하는 POI 정보를 인공적으로 결정하는 방식에 비교하여, 인건비를 절약하고, 시효성과 정확성을 향상시킨다.
2) 본 발명에서 인터넷 텍스트에 포함되는 종료 POI 상태 변화 정보를 인식할 뿐만 아니라, POI 명칭에 변화가 발생한 구체적인 POI 상태 정보를 인식할 수도 있다.
3) 본 발명에서 구축된 POI 상태 인식 모델에 시맨틱 의존 정보를 융합하여, 모델은 이러한 텍스트 내의 POI 명칭을 따라 정확하게 인식하고, 각 POI 의 상태를 이해하고, 인식 정확성을 향상시키는 것을 지원한다.
4) 본 발명에서 POI 상태 인식 모델을 트레이닝할 때, POI 데이터베이스를 사용하여 시드 텍스트에 대해 데이터 확장을 수행하여 트레이닝 데이터를 획득하고, 트레이닝 텍스트의 수를 확대하여, POI 상태 인식 모델의 정확성을 향상시킨다.
5) 본 발명의 POI 상태 인식 모델에서, ERNIE 모델을 사용하여 입력된 텍스트에 대응하는 단어 시퀀스에 대해 시맨틱 특징의 추출을 수행하여, POI 명칭에서의 롱테일 워드의 문제를 효율적으로 해결한다.
6) 본 발명에서 마이닝에 의해 획득된 2-튜플을 사용하여 POI 데이터베이스를 업데이트하고, 후속의 POI 데이터베이스에 기반하여 제공되는 서비스가 보다 정확하므로, 사용자 체험을 향상한다.
본 발명의 실시예에 따르면, 본 발명은 또한, 전자 기기, 판독 가능 기록 매체 및 컴퓨터 프로그램 제품을 제공한다.
도 9에 도시된 바와 같이, 본 발명의 실시예에 따른 POI 상태 정보를 획득하는 방법 또는 POI 상태 인식 모델을 구축하는 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 디지털 비서, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 계산 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 9에 도시된 바와 같이, 기기(900)는 컴퓨팅 유닛(901)을 포함하고, 컴퓨팅 유닛(901)은 판독 전용 메모리(ROM)(902)에 저장되어 있는 컴퓨터 프로그램 또는 저장 유닛(908)으로부터 랜덤 액세스 메모리(RAM) (903)에 로드된 컴퓨터 프로그램에 따라, 다양한 적절한 동작과 처리를 실행할 수 있다. RAM(903)에는 기기(900)가 동작하는데 필요한 여러가지 프로그램과 데이터도 저장할 수 있다. 컴퓨팅 유닛(901), ROM(902) 및 RAM(903)는 버스(904)를 통해 서로 연결된다. 입력/출력 (I/O) 인터페이스(905)도 버스(904)에 연결된다.
기기(900) 중의 복수 컴포넌트는 I/O 인터페이스(905)에 연결되고, 키보드, 마우스 등과 같은 입력 유닛(906); 여러가지 타입의 디스플레이, 스피커 등과 같은 출력 유닛(907); 디스크, 광디스크 등과 같은 저장 유닛(908) 및 네트워크 카드, 모뎀, 무선통신 트랜시버 등과 같은 통신 유닛(909)을 포함한다. 통신 유닛(909)은 기기(900)가 인터넷 등과 같은 컴퓨터 네트워크 및 여러가지 통신 네트워크 중의 적어도 하나를 통해 다른 기기와 정보/데이터를 교환할 수 있다.
컴퓨팅 유닛(901)은 여러가지 처리와 계산 능력을 갖춘 범용 처리 컴포넌트 및 전용 처리 컴포넌트 중의 적어도 하나일 수 있다. 컴퓨팅 유닛(901)의 일부 예는, 중앙 처리 유닛 (CPU), 그래픽스 처리 유닛(GPU), 다양한 전용 인공지능(AI)계산 팁, 다양한 기계학습 모델 알고리즘을 실행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 한정되지 않는다. 컴퓨팅 유닛(901)은 POI 상태 정보를 획득하는 방법 또는 POI 상태 인식 모델을 구축하는 방법 등과 같은 상기의 다양한 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, POI 상태 정보를 획득하는 방법 또는 POI 상태 인식 모델을 구축하는 방법은 저장 유닛(908) 등과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현할 수 있다.
일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(902) 및 통신 유닛(909) 중의 적어도 하나를 통해 기기(900)에 로드 및/또는 인스톨될 수 있다. 컴퓨터 프로그램이 RAM(903)에 로드되어 컴퓨팅 유닛(901)에 의해 실행될 경우, 상기의 POI 상태 정보를 획득하는 방법 또는 POI 상태 인식 모델을 구축하는 방법의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(901)은 다른 임의의 적절한 방식(예를 들면, 펌웨어에 의해)을 통해 POI 상태 정보를 획득하는 방법 또는 POI 상태 인식 모델을 구축하는 방법을 실행하도록 구성될 수 있다.
설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래밍 가능한 게이트 어레이(FPGA), 특정 용도 대상 집적 회로(ASIC), 특정 용도 대상 표준제품(ASSP), 시스템 온 칩 시스템(SOC), 부하 프로그래밍 가능 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 결합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 결합을 사용하여 작성할 수 있다. 이러한 프로그램 코드는 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및 블록도 중의 적어도 하나에 규정된 기능/동작이 실행되도록, 대형 기계(슈퍼 컴퓨터), 전용 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립된 소프트웨어 패키지로서 부분적으로 기계에서 실행되고, 부분적으로 리모트 기계에서 실행되거나 또는 완전히 리모트 기계 또는 서버에서 실행될 수 있다.
본 발명의 문맥에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기의 사용, 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형적인 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 기록 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 결합을 포함하지만, 이에 한정되지 않는다. 기계 판독 가능 기록 매체의 더 구체적인 예는 하나 또는 복수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 포터블 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상술한 내용의 임의의 적절한 결합을 포함한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 계산 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 계산 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 계산 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 결합을 포함하는 계산 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.
위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 결합, 서브 결합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (31)

  1. POI 상태 정보를 획득하는 방법에 있어서,
    인터넷으로부터 미리 설정된 기간 내에 POI 정보를 포함하는 텍스트를 획득하는 단계; 및
    사전 트레이닝된 POI 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 상기 텍스트 내의 2-튜플을 획득하는 단계 - 상기 2-튜플은 POI 명칭 및 상기 POI 명칭에 대응하는 POI 상태 정보를 포함함 -;를 포함하고,
    상기 POI 상태 인식 모델은 상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하고, 상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하고; 상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고; 각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하는,
    POI 상태 정보를 획득하는 방법.
  2. 제1항에 있어서,
    상기 인터넷으로부터 미리 설정된 기간 내에 POI 정보를 포함하는 텍스트를 획득하는 단계는,
    인터넷으로부터 미리 설정된 기간 내의 텍스트를 획득하는 단계;
    사전 트레이닝된 POI 인식기를 사용하여 획득된 텍스트에 대해 POI 정보 인식을 수행하는 단계; 및
    POI 정보를 포함하는 텍스트를 유지하는 단계;를 포함하는,
    POI 상태 정보를 획득하는 방법.
  3. 제2항에 있어서,
    상기 POI 인식기는, 하기 방식들을 사용하여 트레이닝하여 획득하는,
    POI 상태 정보를 획득하는 방법:
    POI 데이터베이스로부터 POI 정보를 추출하는 방식,
    추출된 POI 정보를 사용하여 인터넷에서 검색하는 방식, 및
    검색된 텍스트 및 대응하는 POI 정보를 사용하여 라벨 예측 모델을 트레이닝하여, 상기 POI 인식기를 획득하는 방식.
  4. 제1항에 있어서,
    상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는 단계는,
    사전 트레이닝 언어 모델을 사용하여 상기 텍스트 내의 각각의 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는 단계를 포함하는,
    POI 상태 정보를 획득하는 방법.
  5. 제1항에 있어서,
    상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하는 단계는,
    상기 텍스트에 대해 구문 분석을 수행하여 상기 텍스트의 시맨틱 의존 트리를 획득하는 단계;
    상기 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하는 단계 - 상기 방향성 그래프 내의 각각의 노드는 상기 각각의 제2 시맨틱 유닛임 -; 및
    관계형 그래프 컨벌루션 신경망(RGCN)을 사용하여 상기 방향성 그래프 내의 각각의 노드의 벡터 표현을 획득하는 단계;를 포함하는,
    POI 상태 정보를 획득하는 방법.
  6. 제1항에 있어서,
    상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계는,
    제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계; 또는,
    각각의 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계;를 포함하는,
    POI 상태 정보를 획득하는 방법.
  7. 제1항에 있어서,
    상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하는 단계는,
    조건부 랜덤 필드(CRF) 모델을 사용하여 각각의 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각각의 제1 시맨틱 유닛의 라벨을 획득하는 단계를 포함하고, 상기 라벨은 대응하는 제1 시맨틱 유닛이 POI 명칭 및 POI 상태인지 여부를 가리키는,
    POI 상태 정보를 획득하는 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 제1 시맨틱 유닛은 문자이며, 상기 제2 시맨틱 유닛은 단어인,
    POI 상태 정보를 획득하는 방법.
  9. POI 상태 인식 모델을 구축하는 방법에 있어서,
    트레이닝 데이터를 획득하는 단계 - 상기 트레이닝 데이터는: 텍스트, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 포함함 -; 및
    상기 텍스트를 POI 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 상기 POI 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 POI 상태 인식 모델을 트레이닝하는 단계;를 포함하고,
    상기 POI 상태 인식 모델은 상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하고, 상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하고; 상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하고; 각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하는,
    POI 상태 인식 모델을 구축하는 방법.
  10. 제9항에 있어서,
    상기 트레이닝 데이터를 획득하는 단계는,
    시드 텍스트, 상기 시드 텍스트에 포함되는 POI 명칭 및 상기 POI 명칭에 대응하는 POI 상태의 라벨 라벨링 결과를 획득하는 단계;
    POI 데이터베이스에서의 상기 시드 텍스트에 포함되는 POI 명칭과 같은 유형인 POI 명칭을 사용하여, 상기 시드 텍스트 내의 POI 명칭을 교체하여, 확장 텍스트를 획득하는 단계; 및
    상기 시드 텍스트와 상기 확장 텍스트로부터 상기 트레이닝 데이터를 획득하는 단계;를 포함하는,
    POI 상태 인식 모델을 구축하는 방법.
  11. 제10항에 있어서,
    상기 시드 텍스트를 획득하는 단계는,
    인터넷으로부터 POI 명칭을 포함하는 텍스트를 획득하는 단계; 및
    미리 구축된 사전을 사용하여 상기 POI 명칭을 포함하는 텍스트로부터 POI 상태 변화 정보를 포함하지 않는 텍스트를 필터링하여, 상기 시드 텍스트를 획득하는 단계;를 포함하고, 상기 사전은 POI 상태 변화 정보를 나타내는 단어를 포함하는,
    POI 상태 인식 모델을 구축하는 방법.
  12. 제9항에 있어서,
    상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는 단계는,
    사전 트레이닝 언어 모델을 사용하여 상기 텍스트 내의 각각의 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는 단계를 포함하는,
    POI 상태 인식 모델을 구축하는 방법.
  13. 제9항에 있어서,
    상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하는 단계는,
    상기 텍스트에 대해 구문 분석을 수행하여 상기 텍스트의 시맨틱 의존 트리를 획득하는 단계;
    상기 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하는 단계 - 상기 방향성 그래프 내의 각각의 노드는 상기 각각의 제2 시맨틱 유닛임 -; 및
    관계형 그래프 컨벌루션 신경망(RGCN)을 사용하여 상기 방향성 그래프 내의 각각의 노드의 벡터 표현을 획득하는 단계;를 포함하는,
    POI 상태 인식 모델을 구축하는 방법.
  14. 제9항에 있어서,
    상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계는,
    제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계; 또는,
    각각의 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는 단계;를 포함하는,
    POI 상태 인식 모델을 구축하는 방법.
  15. 제9항에 있어서,
    상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하는 단계는,
    조건부 랜덤 필드(CRF) 모델을 사용하여 각각의 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각각의 제1 시맨틱 유닛의 라벨을 획득하는 단계를 포함하고, 상기 라벨은 POI 명칭 및 POI 상태인지 여부를 가리키는,
    POI 상태 인식 모델을 구축하는 방법.
  16. POI 상태 정보를 획득하는 장치에 있어서,
    인터넷으로부터 미리 설정된 기간 내에 POI 정보를 포함하는 텍스트를 획득하기 위한 텍스트 획득 유닛; 및
    사전 트레이닝된 POI 상태 인식 모델을 사용하여 상기 텍스트를 인식하고, 상기 텍스트 내의 2-튜플을 획득하기 위한 상태 인식 유닛 - 상기 2-튜플은 POI 명칭 및 상기 POI 명칭에 대응하는 POI 상태 정보를 포함함 -;을 포함하고,
    상기 POI 상태 인식 모델은,
    상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 표현 모듈;
    상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 의존 표현 모듈;
    상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하기 위한 표현 융합 모듈; 및
    각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하기 위한 라벨 예측 모듈;을 포함하는,
    POI 상태 정보를 획득하는 장치.
  17. 제16항에 있어서,
    상기 텍스트 획득 유닛은 구체적으로, 인터넷으로부터 미리 설정된 기간 내의 텍스트를 획득하고, 사전 트레이닝된 POI 인식기를 사용하여 획득된 텍스트에 대해 POI 정보 인식을 수행하여, POI 정보를 포함하는 텍스트를 유지하는데 사용되는,
    POI 상태 정보를 획득하는 장치.
  18. 제16항에 있어서,
    상기 시맨틱 표현 모듈은 구체적으로, 사전 트레이닝 언어 모델을 사용하여 상기 텍스트 내의 각각의 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용되는,
    POI 상태 정보를 획득하는 장치.
  19. 제16항에 있어서,
    상기 시맨틱 의존 표현 모듈은 구체적으로, 상기 텍스트에 대해 구문 분석을 수행하여 상기 텍스트의 시맨틱 의존 트리를 획득하고, 상기 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 상기 방향성 그래프 내의 각각의 노드는 상기 각각의 제2 시맨틱 유닛이며, 관계형 그래프 컨벌루션 신경망(RGCN)을 사용하여 상기 방향성 그래프 내의 각 노드의 벡터 표현을 획득하는데 사용되는,
    POI 상태 정보를 획득하는 장치.
  20. 제16항에 있어서,
    상기 표현 융합 모듈은 구체적으로,
    제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하거나,
    또는,
    각각의 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는데 사용되는,
    POI 상태 정보를 획득하는 장치.
  21. 제16항에 있어서,
    상기 라벨 예측 모듈은 구체적으로, 조건부 랜덤 필드(CRF) 모델을 사용하여 각각의 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각각의 제1 시맨틱 유닛의 라벨을 획득하는데 사용되고, 상기 라벨은 대응하는 제1 시맨틱 유닛이 POI 명칭 및 POI 상태인지 여부를 가리키는,
    POI 상태 정보를 획득하는 장치.
  22. 제16항 내지 제21항 중 어느 한 항에 있어서,
    상기 제1 시맨틱 유닛은 문자이며, 상기 제2 시맨틱 유닛은 단어인,
    POI 상태 정보를 획득하는 장치.
  23. POI 상태 인식 모델을 구축하는 장치에 있어서,
    트레이닝 데이터를 획득하기 위한 획득 유닛 - 상기 트레이닝 데이터는: 텍스트, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 포함함 -; 및
    상기 텍스트를 POI 상태 인식 모델의 입력으로 사용하고, 상기 텍스트에 포함되는 POI 명칭 및 POI 상태의 라벨 라벨링 결과를 상기 POI 상태 인식 모델의 타겟 예측 결과로 사용하여, 상기 POI 상태 인식 모델을 트레이닝하는 트레이닝 유닛;을 포함하고,
    상기 POI 상태 인식 모델은,
    상기 텍스트 내의 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 표현 모듈;
    상기 텍스트의 시맨틱 의존 정보에 기반하여 상기 텍스트 내의 각각의 제2 시맨틱 유닛의 벡터 표현을 획득하기 위한 시맨틱 의존 표현 모듈;
    상기 각각의 제1 시맨틱 유닛의 벡터 표현과 상기 각각의 제2 시맨틱 유닛의 벡터 표현을 융합 처리하여, 상기 각각의 제1 시맨틱 유닛의 융합 벡터 표현을 획득하기 위한 표현 융합 모듈; 및
    각각의 제1 시맨틱 유닛의 융합 벡터 표현에 기반하여 POI 명칭 및 POI 상태의 라벨 예측을 수행하기 위한 라벨 예측 모듈;을 포함하는,
    POI 상태 인식 모델을 구축하는 장치.
  24. 제23항에 있어서,
    상기 획득 유닛은 구체적으로, 시드 텍스트, 상기 시드 텍스트에 포함되는 POI 명칭 및 상기 POI 명칭에 대응하는 POI 상태의 라벨 라벨링 결과를 획득하고, POI 데이터베이스에서의 상기 시드 텍스트에 포함되는 POI 명칭과 같은 유형인 POI 명칭을 사용하여, 상기 시드 텍스트 내의 POI 명칭을 교체하여, 확장 텍스트를 획득하고, 상기 시드 텍스트와 상기 확장 텍스트로부터 상기 트레이닝 데이터를 획득하는데 사용되는,
    POI 상태 인식 모델을 구축하는 장치.
  25. 제23항에 있어서,
    상기 시맨틱 표현 모듈은 구체적으로, 사전 트레이닝 언어 모델을 사용하여 상기 텍스트 내의 각각의 제1 시맨틱 유닛에 대해 시맨틱 특징을 추출하여, 각각의 제1 시맨틱 유닛의 벡터 표현을 획득하는데 사용되는,
    POI 상태 인식 모델을 구축하는 장치.
  26. 제23항에 있어서,
    상기 시맨틱 의존 표현 모듈은 구체적으로, 상기 텍스트에 대해 구문 분석을 수행하여 상기 텍스트의 시맨틱 의존 트리를 획득하고, 상기 시맨틱 의존 트리에 대응하는 방향성 그래프를 획득하고, 상기 방향성 그래프 내의 각각의 노드는 상기 각각의 제2 시맨틱 유닛이며, 관계형 그래프 컨벌루션 신경망(RGCN)을 사용하여 상기 방향성 그래프 내의 각각의 노드의 벡터 표현을 획득하는데 사용되는,
    POI 상태 인식 모델을 구축하는 장치.
  27. 제23항에 있어서,
    상기 표현 융합 모듈은 구체적으로,
    제2 시맨틱 유닛이 제1 시맨틱 유닛을 포함할 경우, 상기 제1 시맨틱 유닛의 벡터 표현과 상기 제2 시맨틱 유닛의 벡터 표현을 스플라이싱한 후에 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하거나,
    또는,
    각각의 제2 시맨틱 유닛의 벡터 표현을 제1 시맨틱 유닛에 대해 주의력 처리를 하여, 상기 제1 시맨틱 유닛의 융합 벡터 표현을 획득하는데 사용되는,
    POI 상태 인식 모델을 구축하는 장치.
  28. 제23항에 있어서,
    상기 라벨 예측 모듈은 구체적으로, 조건부 랜덤 필드(CRF) 모델을 사용하여 각각의 제1 시맨틱 유닛의 융합 벡터를 매핑하여, 각각의 제1 시맨틱 유닛의 라벨을 획득하는데 사용되고, 상기 라벨은 POI 명칭 및 POI 상태인지 여부를 가리키는,
    POI 상태 인식 모델을 구축하는 장치.
  29. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제15항 중 어느 한 항의 방법이 수행되도록 하는,
    전자 기기.
  30. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제15항 중 어느 한 항의 방법을 수행하도록 하는,
    비일시적 컴퓨터 판독 가능 기록 매체.
  31. 컴퓨터 프로그램 제품에 있어서,
    컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 제1항 내지 제15항 중 어느 한 항의 방법을 구현하는,
    컴퓨터 프로그램 제품.
KR1020227011606A 2021-02-22 2021-07-20 Poi 상태 정보를 획득하는 방법 및 장치 KR20220120545A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110199748.9A CN112925995B (zh) 2021-02-22 2021-02-22 获取poi状态信息的方法及装置
CN202110199748.9 2021-02-22
PCT/CN2021/107381 WO2022174552A1 (zh) 2021-02-22 2021-07-20 获取poi状态信息的方法及装置

Publications (1)

Publication Number Publication Date
KR20220120545A true KR20220120545A (ko) 2022-08-30

Family

ID=76170181

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227011606A KR20220120545A (ko) 2021-02-22 2021-07-20 Poi 상태 정보를 획득하는 방법 및 장치

Country Status (6)

Country Link
US (1) US11977574B2 (ko)
EP (1) EP4075303A4 (ko)
JP (1) JP7362998B2 (ko)
KR (1) KR20220120545A (ko)
CN (1) CN112925995B (ko)
WO (1) WO2022174552A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925995B (zh) * 2021-02-22 2022-01-28 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
CN113807102B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 建立语义表示模型的方法、装置、设备和计算机存储介质
CN113838461B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 智能语音交互方法、装置、设备和计算机存储介质
CN118016058A (zh) * 2022-11-10 2024-05-10 脸萌有限公司 语音识别方法、装置及电子设备
CN116595992B (zh) * 2023-07-19 2023-09-19 江西师范大学 一种术语及类型的二元组单步抽取方法及其模型
CN117093661B (zh) * 2023-10-16 2024-03-15 腾讯科技(深圳)有限公司 地图数据的处理方法、装置、电子设备以及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010008142A (ja) 2008-06-25 2010-01-14 Aisin Aw Co Ltd 車載ナビゲーション装置
US8892355B2 (en) * 2011-12-21 2014-11-18 Telenav, Inc. Navigation system with point of interest validation mechanism and method of operation thereof
WO2018223331A1 (en) * 2017-06-08 2018-12-13 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for text attribute determination using conditional random field model
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN110020224B (zh) * 2017-12-28 2021-07-23 ***通信集团辽宁有限公司 地图兴趣点数据的关联方法、装置、设备及介质
US10803253B2 (en) * 2018-06-30 2020-10-13 Wipro Limited Method and device for extracting point of interest from natural language sentences
CN109145315B (zh) * 2018-09-05 2022-03-18 腾讯科技(深圳)有限公司 文本翻译方法、装置、存储介质和计算机设备
CN109145219B (zh) 2018-09-10 2020-12-25 百度在线网络技术(北京)有限公司 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN111191107B (zh) * 2018-10-25 2023-06-30 北京嘀嘀无限科技发展有限公司 使用标注模型召回兴趣点的***和方法
JP6832322B2 (ja) * 2018-11-02 2021-02-24 株式会社トヨタマップマスター 探索装置、探索方法、探索プログラムおよび記録媒体
CN110276023B (zh) * 2019-06-20 2021-04-02 北京百度网讯科技有限公司 Poi变迁事件发现方法、装置、计算设备和介质
CN110851738B (zh) 2019-10-28 2021-03-19 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质
CN111339774B (zh) * 2020-02-07 2022-11-29 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法
US11774264B2 (en) * 2020-02-13 2023-10-03 Naver Corporation Method and system for providing information to a user relating to a point-of-interest
CN111444726B (zh) * 2020-03-27 2024-02-09 河海大学常州校区 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
US11297466B1 (en) * 2020-04-24 2022-04-05 Allstate Insurance Company Systems for predicting and classifying location data based on machine learning
US11983716B2 (en) * 2020-05-26 2024-05-14 Paypal, Inc. Evaluating user status via natural language processing and machine learning
CN111783416B (zh) 2020-06-08 2024-05-03 青岛科技大学 一种利用先验知识构建文档图像数据集的方法
US20210390392A1 (en) * 2020-06-15 2021-12-16 Naver Corporation System and method for processing point-of-interest data
CN111783461A (zh) * 2020-06-16 2020-10-16 北京工业大学 一种基于句法依存关系的命名实体识别方法
US11720346B2 (en) * 2020-10-02 2023-08-08 International Business Machines Corporation Semantic code retrieval using graph matching
CN112925995B (zh) * 2021-02-22 2022-01-28 北京百度网讯科技有限公司 获取poi状态信息的方法及装置

Also Published As

Publication number Publication date
JP2023519049A (ja) 2023-05-10
EP4075303A1 (en) 2022-10-19
JP7362998B2 (ja) 2023-10-18
CN112925995A (zh) 2021-06-08
US11977574B2 (en) 2024-05-07
EP4075303A4 (en) 2022-11-09
US20230409626A1 (en) 2023-12-21
WO2022174552A1 (zh) 2022-08-25
CN112925995B (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
US11347782B2 (en) Internet text mining-based method and apparatus for judging validity of point of interest
KR20220120545A (ko) Poi 상태 정보를 획득하는 방법 및 장치
JP7214949B2 (ja) Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
CN104615589A (zh) 训练命名实体识别模型的方法、命名实体识别方法及装置
JP2022097396A (ja) 対話理解モデルの訓練方法、装置、デバイス及び記憶媒体
CN112560496A (zh) 语义分析模型的训练方法、装置、电子设备及存储介质
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN112925883B (zh) 搜索请求处理方法、装置、电子设备及可读存储介质
CN111611452A (zh) 搜索文本的歧义识别方法、***、设备及存储介质
CN113836925A (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN114495143A (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN112528658A (zh) 层次化分类方法、装置、电子设备和存储介质
CN112948573B (zh) 文本标签的提取方法、装置、设备和计算机存储介质
CN114580383A (zh) 日志分析模型训练方法、装置、电子设备以及存储介质
CN114218951A (zh) 实体识别模型的训练方法、实体识别方法及装置
CN116830099A (zh) 基于网页的统一资源定位符推断关于网页的信息
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
Qiu et al. Integrating NLP and Ontology Matching into a Unified System for Automated Information Extraction from Geological Hazard Reports
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN114792091A (zh) 基于词汇增强的中文地址要素解析方法、设备及存储介质
CN116521827B (zh) 地理位置的场所类别确定方法、装置、电子设备和介质
CN115828915A (zh) 实体消歧方法、装置、电子设备和存储介质
CN118227807A (zh) 文档的生产时间确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
WITB Written withdrawal of application