CN107783973B - 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和*** - Google Patents
基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和*** Download PDFInfo
- Publication number
- CN107783973B CN107783973B CN201610716109.4A CN201610716109A CN107783973B CN 107783973 B CN107783973 B CN 107783973B CN 201610716109 A CN201610716109 A CN 201610716109A CN 107783973 B CN107783973 B CN 107783973B
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- industry
- entities
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种构建行业知识图谱数据库的方法,包括以下步骤:从数据源获取行业数据;对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系;基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库。本发明还提供了一种基于所构建的行业知识图谱数据库对与行业相关的特定媒体事件进行监测的方法,包括以下步骤:获取互联网媒体数据;基于所获取的互联网媒体数据进行事件检测、事件评价和筛选,以获取所述与行业相关的特定媒体事件;识别与所述特定媒体事件对应的直接相关实体;基于所述直接相关实体,访问所述行业知识图谱数据库,以确定与所述特定媒体事件对应的非直接相关实体;向所述直接相关实体和/或所述非直接相关实体发送预警消息。
Description
技术领域
本发明涉及互联网媒体监测领域,具体而言,涉及一种构建行业知识图谱数据库的技术以及一种基于所构建的行业知识图谱数据库对互联网媒体事件进行监测的技术。
背景技术
计算机、通信以及网络技术的迅速发展使包括PC、平板电脑、智能手机、网络电视等在内的终端设备的性能不断提高。相应地,互联网媒体,特别是互联网社交媒体,凭借其多元性、迅捷性、交互性、易复制性、多媒体化等特点,已逐渐成为大众获取新闻资讯的主要途径之一。
然而,互联网媒体信息在具有时效性强、获取方式灵活便捷等优势的同时,其信息源和传播方式的开放性特点也导致了以下问题的存在:在未经授权或证实的情况下,一些敏感消息(例如,商业秘密)甚至虚假消息在互联网媒体平台上被大量用户快速传播,从而演变为对相关的个人、企业/机构、行业乃至社会造成不良影响的媒体事件。因此,需要对互联网媒体中的媒体事件进行监测,并在监测到满足一定条件的媒体事件后采取相应的措施,以降低或消除其潜在的影响。
现有的互联网媒体监测技术则存在以下缺陷:1)使用兴趣匹配的方式为用户提供互联网媒体监测,用户需要自定义感兴趣的内容主题、相关实体等,因此在监测中仅能够识别与用户已定义的实体直接相关的事件,而无法识别用户未定义但是与用户所感兴趣的实体间接相关的事件;2)监测对象的属性单一,仅能够提供针对单一媒体类别和数据源(例如,特定的社交媒体、新闻媒体、论坛、博客等)、单一数据类型(一般为文本)、单一语言的监测。
发明内容
本发明的一个目的是提供一种构建行业知识图谱数据库的技术,将针对特定行业或领域的相关数据提取并保存在知识图谱数据库中,所构建的行业知识图谱数据库可以应用于互联网媒体监测中,以实现对相关互联网媒体事件的自动化、深层次监测。
本发明的另一个目的是提供一种基于所构建的行业知识图谱数据库对互联网媒体事件进行监测的技术,在监测中能够识别出与特定媒体事件对应的非直接相关实体,并且能够对多种类型的互联网媒体数据进行监测。
为了实现上述发明目的,本发明提供的具体技术方案如下。
本发明提供了一种构建行业知识图谱数据库的方法,包括以下步骤:从数据源获取行业数据;对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系;基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库。
优选地,所述获取行业数据的步骤通过以下方式实现:从第三方行业数据库获取结构化行业数据,所述结构化行业数据包括多个字段;所述对行业数据进行数据处理的步骤通过以下方式实现:对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理;所述构建行业知识图谱数据库的步骤通过以下方式实现:基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。
优选地,所述获取行业数据的步骤通过以下方式实现:利用网络爬虫技术,从互联网数据源获取与行业相关的数据,所述互联网数据源包括非结构化或半结构化数据源;所述对行业数据进行数据处理的步骤通过以下方式实现:利用自然语言处理中的信息抽取技术,对所述行业相关的数据进行实体识别和关系抽取,以提取所述实体、实体属性和/或实体关系;所述构建行业知识图谱数据库的步骤通过以下方式实现:基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。进一步优选地,上述步骤是以预定的周期定期执行的。
优选地,所述获取行业数据的步骤通过以下方式实现:利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据,所述互联网数据源包括开放式数据源;所述对行业数据进行数据处理的步骤通过以下方式实现:在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理;所述构建行业知识图谱数据库的步骤通过以下方式实现:基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。进一步优选地,上述步骤是以预定的周期定期执行的。
优选地,所述获取行业数据的步骤通过以下方式实现:利用应用程序接口(API)或网络爬虫技术,从互联网数据源获取与行业相关的互联网媒体数据;所述对行业数据进行数据处理的步骤通过以下方式实现:对所述互联网媒体数据进行事件检测、事件评价和筛选,以提取与所述行业相关的特定媒体事件,并从所述互联网媒体数据中识别对应的直接相关实体;所述构建行业知识图谱数据库的步骤通过以下方式实现:基于所述特定媒体事件以及对应的直接相关实体,对所述行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。进一步优选地,在所述对行业数据进行数据处理的步骤中通过以下方式中的至少一种识别与所述特定媒体事件对应的直接相关实体:基于自然语言处理中的实体识别从文本数据中识别实体;基于图像或视频识别处理从图像或视频数据中识别实体;或者,基于语音识别处理从音频或视频数据中识别实体。进一步优选地,所述特定媒体事件包括负面事件、突发事件、危机事件、***件、舆情事件或其它具有行业意义的事件。进一步优选地,上述步骤是实时不间断执行的。
优选地,所述构建行业知识图谱数据库的步骤包括:对所提取的实体进行语义消歧和实体链接。进一步优选地,所述对所提取的实体进行语义消歧和实体链接的步骤进一步通过以下方式中的至少一种实现:基于实体知识,对每个所提取的实体指代逐一独立地进行语义消歧和实体链接;基于主题一致性假设,利用候选实体在知识库中的关联,对所提取的实体指代一致性地进行语义消歧和实体链接。
本发明还提供了一种基于本发明中所构建的行业知识图谱数据库对与行业相关的特定媒体事件进行监测的方法,包括以下步骤:获取互联网媒体数据;基于所获取的互联网媒体数据进行事件检测、事件评价和筛选,以获取所述与行业相关的特定媒体事件;识别与所述特定媒体事件对应的直接相关实体;基于所述直接相关实体,访问所述行业知识图谱数据库,以确定与所述特定媒体事件对应的非直接相关实体;向所述直接相关实体和/或所述非直接相关实体发送预警消息。
优选地,所述进行事件检测、事件评价和筛选步骤中的事件检测包括以下步骤:对所获取的互联网媒体数据中的内容进行话题分类,以获得针对特定话题的内容;从所获得的内容中识别涉及的实体;对所获得的内容和所识别的实体进行情感分析,并且基于情感分析的结果对所获得的内容进行过滤;基于过滤后的内容进行事件发现,以对媒体事件进行聚类并发现新的媒体事件。进一步优选地,所述事件检测还包括以下步骤:基于媒体事件的属性对事件的真实性进行分析,并根据分析结果对媒体事件进行排序和/或过滤。
优选地,在所述识别与特定媒体事件对应的直接相关实体的步骤中通过以下方式中的至少一种识别与所述特定媒体事件对应的直接相关实体:基于自然语言处理中的实体识别从文本数据中识别实体;基于图像或视频识别处理从图像或视频数据中识别实体;或者,基于语音识别处理从音频或视频数据中识别实体。
优选地,所述访问行业知识图谱数据库的步骤通过以下方式实现:基于所述直接相关实体,在所述行业知识图谱数据库中查询,以确定所述非直接相关实体。
优选地,所述访问行业知识图谱数据库的步骤通过以下方式实现:基于所述直接相关实体,在所述行业知识图谱数据库中使用数据挖掘技术,以确定所述非直接相关实体。
本发明还提供了一种构建行业知识图谱数据库的装置,包括:数据获取模块,用于从数据源获取行业数据;数据处理模块,用于对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系;数据库构建模块,用于基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库。
优选地,所述数据获取模块通过以下方式获取行业数据:从第三方行业数据库获得结构化行业数据,所述结构化行业数据包括多个字段;所述数据处理模块通过以下方式进行数据处理:在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理;所述数据库构建模块通过以下方式构建行业知识图谱数据库:基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。
优选地,所述数据获取模块通过以下方式获取行业数据:利用网络爬虫技术,从互联网数据源获得与行业相关的数据,所述互联网数据源包括非结构化或半结构化数据源;所述数据处理模块通过以下方式进行数据处理:利用自然语言处理中的信息抽取技术,对所述行业相关的数据进行实体识别和关系抽取,以提取所述实体、实体属性和/或实体关系;所述数据库构建模块通过以下方式构建行业知识图谱数据库:基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
优选地,所述数据获取模块通过以下方式获取行业数据:利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据,所述互联网数据源包括开放式数据源;所述数据处理模块通过以下方式进行数据处理:在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理;所述数据库构建模块通过以下方式构建行业知识图谱数据库:基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
优选地,所述数据获取模块通过以下方式获取行业数据:用于利用应用程序接口(API)或网络爬虫技术,从互联网数据源获取与行业相关的互联网媒体数据;所述数据处理模块通过以下方式进行数据处理:对所述互联网媒体数据进行事件检测、事件评价和筛选,以提取与所述行业相关的特定媒体事件,并从所述互联网媒体数据中识别对应的直接相关实体;所述数据库构建模块通过以下方式构建行业知识图谱数据库:基于所述特定媒体事件以及对应的直接相关实体,对所述行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。
优选地,所述数据库构建模块进一步通过以下方式中的至少一种识别与所述特定媒体事件对应的直接相关实体:基于自然语言处理中的实体识别从文本数据中识别实体;基于图像或视频识别处理从图像或视频数据中识别实体;或者基于语音识别处理从音频或视频数据中识别实体。
优选地,所述数据库构建模块包括:用于对所提取的实体进行语义消歧和实体链接的模块。进一步优选地,所述用于对所提取的实体进行语义消歧和实体链接的模块进一步通过以下方式中的至少一种进行语义消歧和实体链接:基于实体知识,对每个所提取的实体指代逐一独立地进行语义消歧和实体链接;基于主题一致性假设,利用候选实体在知识库中的关联,对所提取的实体指代一致性地进行语义消歧和实体链接。
优选地,所述特定媒体事件包括负面事件、突发事件、危机事件、***件、舆情事件或其它具有行业意义的事件。
本发明还提供了一种对与行业相关的特定媒体事件进行监测的***,包括:数据获取单元,用于从数据源获得行业数据;数据处理单元,用于对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系;数据库构建单元,用于基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库;数据库存储单元:用于存储所构建的行业知识图谱数据库;媒体事件监测单元:用于获取互联网媒体数据,基于所获取的互联网媒体数据进行事件检测、事件评价和筛选以获得所述与行业相关的特定媒体事件,并且识别与所述特定媒体事件对应的直接相关实体;数据库访问单元:用于基于所述直接相关实体,访问所述行业知识图谱数据库,以确定与所述特定媒体事件对应的非直接相关实体;消息发送单元,用于向所述直接相关实体和/或所述非直接相关实体发送预警消息。
优选地,所述数据获取单元包括:结构化数据获取单元,用于从第三方行业数据库获得结构化行业数据,所述结构化行业数据包括多个字段;所述数据处理单元包括:结构化数据处理单元,用于在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理;所述数据库构建单元包括:数据库生成单元,用于基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。
优选地,所述数据获取单元包括:行业相关数据获取单元,用于利用网络爬虫技术,从互联网数据源获得与行业相关的数据,所述互联网数据源包括非结构化或半结构化数据源;所述数据处理单元包括:行业相关数据处理单元,用于利用自然语言处理中的信息抽取技术,对所述行业相关的数据进行实体识别和关系抽取,以提取所述实体、实体属性和/或实体关系;所述数据库构建单元包括:数据库补充/更新单元,用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
优选地,所述数据获取单元包括:行业相关数据获取单元,用于利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据,所述互联网数据源包括开放式数据源;所述数据处理单元包括:行业相关数据处理单元,用于在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理;所述数据库构建单元包括:数据库补充/更新单元,用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
优选地,所述数据获取单元包括:媒体数据获取单元,用于利用应用程序接口(API)或网络爬虫技术,从互联网数据源获取与行业相关的互联网媒体数据;所述数据处理单元包括:媒体数据处理单元,用于对所述互联网媒体数据进行事件检测、事件评价和筛选,以提取与所述行业相关的特定媒体事件,并从所述互联网媒体数据中识别对应的直接相关实体;所述数据库构建单元包括:数据库补充/更新单元,用于基于所述特定媒体事件以及对应的直接相关实体,对所述行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。
优选地,所述数据库补充/更新单元进一步用于:对所提取的实体进行语义消歧和实体链接。
优选地,所述媒体事件监测单元进一步用于:对所获取的互联网媒体数据中的内容进行话题分类,以获得针对特定话题的内容;从所获得的内容中识别涉及的实体;对所获得的内容和所识别的实体进行情感分析,并且基于情感分析的结果对所获得的内容进行过滤;基于过滤后的内容进行事件发现,以对媒体事件进行聚类并发现新的媒体事件。进一步优选地,所述媒体事件监测单元进一步用于:基于媒体事件的属性对事件的真实性进行分析,并根据分析结果对媒体事件进行排序和/或过滤。
优选地,所述数据库访问单元进一步用于:基于所述直接相关实体,在所述行业知识图谱数据库中查询,以确定所述非直接相关实体。
优选地,所述数据库访问单元进一步用于:基于所述直接相关实体,在所述行业知识图谱数据库中使用数据挖掘技术,以确定所述非直接相关实体。
优选地,所述特定媒体事件包括负面事件、突发事件、危机事件、***件、舆情事件或其它具有行业意义的事件。
通过实施本发明提供的技术方案可以获得以下技术效果:1)针对一个或多个目标领域或行业,实现了对相关互联网媒体事件的自动化、深层次监测,能够识别出与特定媒体事件对应的非直接相关实体;2)在监测中实现了对多个数据源、多种数据类型、多种语言的互联网媒体数据的自动化处理。
附图说明
图1是本发明提供的一种构建行业知识图谱数据库的方法的示例性流程图;
图2是本发明提供的示例性结构化行业数据;
图3是本发明提供的一种对媒体事件进行监测的方法的示例性流程图;
图4是本发明提供的另一种构建行业知识图谱数据库的方法的示例性流程图;
图5是本发明提供的另一种构建行业知识图谱数据库的方法的示例性流程图;
图6是本发明提供的一种对媒体事件进行监测的***的示例性框图。
具体实施方式
以下结合附图通过实施例的形式来描述本发明的具体实施方式,以便于本领域技术人员理解本发明的目的、技术方案和优点。本领域技术人员可以理解,以实施例的形式描述的具体实施方式仅仅是示例性的,而在不具备这些具体内容的情况下也能够实现本发明的构思。
本发明提供了一种构建行业知识图谱数据库的技术以及一种基于所构建的行业知识图谱数据库对互联网媒体事件进行监测的技术,以实现本发明的目的。
本发明涉及知识图谱(Knowledge Graph)数据库技术的应用。知识图谱数据库是用于知识管理的一种特殊的数据库,便于在相关领域中对知识进行采集、整理和提取。在知识图谱数据库中定义了实体、实体属性以及实体关系。其中,实体对应于现实世界中的事物(例如,一个公司A,一个人物X),每个实体可以用全局唯一的ID来标识。实体属性用于描述实体的内在特性(例如,公司A、人物X的中、英文名称)。实体关系用于连接实体,以描述实体之间的联系(例如,人物X与公司A的任职关系)。通过构建知识图谱数据库,可以更加高效、深入地利用由实体、实体属性、实体关系组成的知识,发现事物之间的复杂联系。
作为一种数据库,知识图谱数据库可以采用多种形式进行存储。举例而言,知识图谱数据库可以采用传统的关系型数据库,使用语义网络RDF(Resource DescriptionFramework)三元组的方式存储,也可以采用新型的非关系型数据库。优选地,知识图谱数据库可以采用图数据库进行存储,例如Neo4j、OrientDB、Titan-BerkeleyDB、HyperGraphDB等。
取决于知识图谱数据库的规模和用途,用于构建知识图谱数据库的数据来源可以是多种多样的。举例而言,数据来源可以是开放式的百科类数据源(例如,百度百科、***等),也可以是结构化的数据库(例如,维基数据、DBpedia、垂直网站或特定行业的专业数据库等),还可以是任何相关的第三方半结构化或非结构化数据源(例如,专业网站、在互联网媒体中发布的内容,包括新闻、公司年报、企业公告等)。
本领域技术人员应当理解,本发明中所构建的知识图谱数据库在构建过程中是以特定的领域或行业为导向的,但不局限于单个行业。所构建的知识图谱数据库实现了将与一个或多个行业相关的实体和事件、实体和事件的属性以及实体与实体、实体与事件、事件与事件之间的关系整合联接成为一个知识的图谱。
图1是本发明提供的一种构建行业知识图谱数据库的方法的示例性流程图,该方法可以包括步骤S11-S15。
在步骤S11中,从行业数据源获得行业数据,并从所述行业数据中提取实体以及对应的实体属性和实体关系,以生成所述行业知识图谱数据库。
行业数据源是针对一个或多个特定领域或行业的基本数据的来源,其中,这些领域或行业被作为监测的目标。在一个实施例中,行业数据源可以是结构化的行业数据库,以尽可能获得高质量的行业基本数据。可以通过应用程序接口(API)来访问结构化数据库,以查询方式(例如,通过查询命令)获得数据。
通过“抽取-转换-加载(Extraction-Transform-Load,ETL)”处理,可以对所获得的行业数据进行转换,然后从转换后的数据中提取实体、实体属性和实体关系并将其加载至本发明提出的行业知识图谱数据库中。ETL操作的具体执行步骤可以通过现有的数据整合手段来实现。举例而言,在基于本体的数据整合方法中,以预定的方式定义不同数据库中的各个字段与各种实体信息之间的映射关系,从而根据所述字段及其内容提取实体、实体属性及实体关系,完成构建基本行业知识图谱数据库。另外,由于行业数据库在结构上存在差异,并可能存在数据噪声、数据缺失或数据错误等问题,所以在对行业数据进行数据处理的过程中可能还需要对其进行数据清洗操作。可以采用本领域已知的技术手段,与ETL处理相结合来实现数据清洗操作。
作为一个实例,图2示出了示例性的结构化行业数据,如上文所述,该数据可以是从结构化的行业数据库获得的。在图2中,表1是上市公司结构化数据的示例,其包括公司A和公司B两个数据条目,每个数据条目又包括公司中英文名称、注册地址、股票代码、董事会***等多个字段。通过对该结构化数据进行ETL操作,可以提取其中的实体(即公司A、公司B、人物X、人物Y)、实体属性(即公司A和公司的B的具体信息)以及实体关系(即公司A与人物X以及公司B与人物Y的任职关系),从而生成了针对所属行业的知识图谱数据库。
在另一个实施例中,行业数据源也可以是来自互联网的半结构化或非机构化数据源,并且可以通过网络爬虫技术从数据源中抓取行业数据,并采用基于自然语言处理技术的信息抽取操作来提取实体、实体属性以及实体关系。
在步骤S12中,从互联网数据源获得与所述行业相关的数据,并从所述数据中提取与所述行业相关的实体以及对应的实体属性和实体关系。
在该步骤中,首先从互联网数据源中获得与上述特定领域或行业相关的数据。互联网数据源可以是结构化、半结构化或非结构化的数据源。因此,针对互联网数据源的不同结构特性,可以采用不同的方式获得与行业相关的数据。然后,从与行业相关的数据中提取实体以及对应的实体属性和实体关系。
对于结构化的互联网数据源,可以通过API查询对应的数据内容并获得实体、实体属性和实体关系。对于半结构化的数据源,则可以在抓取数据内容后,通过自然语言处理技术中的信息抽取操作对内容进行分析,从而提取出与行业相关的实体、实体属性和实体关系。半结构化的数据源即包含部分结构化、部分非结构化数据的数据源,因此可以分别按照处理结构化和非结构化数据的方式来处理半结构化数据中的对应部分。举例而言,HTML和XML文件是最常见的半结构化数据。在处理HTML和XML文件的过程中,一方面可以使用其中基于标记符的结构化信息,另一方面可以结合信息抽取技术与机器学习技术来提取所需的信息。
在一个实施例中,信息抽取操作包括实体识别操作和关系抽取操作。
实体识别操作可以采用现有自然语言处理工具(例如,词性标注或命名实体识别工具),或者以机器学习方法针对特定标注数据对实体识别模型进行训练。需要指出的是,一些自然语言处理任务和处理工具是与语言相关的(例如,中文数据需要进行分词处理,英文数据则不需要)。机器学习方法以数字化方式表示不同语言和格式的数据,然后采用通用的、与语言无关的算法(例如,条件随机场算法和隐马尔可夫模型)进行模型训练。
关系抽取操作可以通过多种现有统计学习或机器学习方法实现。例如,可以采用模板学习方法,以知识图谱数据库中符合某种关系的实体作为实例,在大量文本中抽取并统计现有实例在文本中出现的句式、语境等形成关系抽取模板,然后将所形成的模板应用在文本数据中以抽取新的实例。如果抽取到知识图谱数据库中尚不存在的实例,则可以将其补充到知识图谱数据库中。
在步骤S13中,基于所述与行业相关的实体以及对应的实体属性和实体关系,对所述行业知识图谱数据库进行补充或更新。
在提取与行业相关的实体以及对应的实体属性和实体关系之后,可以将其与知识图谱数据库中的对应信息进行关联和比对,并按需要将新的实体、实体属性和实体关系加入到知识图谱数据库中,并且可以对现有的实体属性和实体关系进行更新。
如上文所述,本发明所提出的行业知识图谱数据库可以采用传统的关系型数据库,RDF三元组数据库,也可以采用新型的非关系型数据库(例如,图数据库)。对应地,补充或更新知识图谱数据库的具体操作可以利用数据库查询语言以定制化的方式实现,例如,这些数据库查询语言包括针对关系数据库的SQL语言、RDF三元组查询语言SPARQL、用于Neo4j图数据库的Cypher语言等。
继续结合图2中的实例进行说明。假设通过API查询的方式从结构化的互联网数据源获得了表2的上市公司高管结构化数据,则可以对行业知识图谱数据库进行以下补充和更新:1)将人物Z、人物Z的实体属性以及人物Z与公司B的任职关系补充到知识图谱数据库中;2)补充人物X和人物Y的实体属性;3)更新人物Y和公司B的任职关系(即从“现任职”更新为“曾任职”)。
在一个实施例中,在补充或更新行业知识图谱数据库的过程中需要进行实体链接操作和语义消歧操作。
实体链接操作旨在将数据内容中出现的某个实体指代(或实体指称、entitymention)对应到知识图谱数据库中的相关实体概念。例如,在“乔布斯是苹果的创办人之一”以及“史蒂夫·乔布斯于1985年在美国创建NeXT”这两个句子中,“乔布斯”和“史蒂夫·乔布斯”这两个实体指代都应该对应到知识图谱数据库中的同一人物实体概念“史蒂夫·乔布斯(Steve Jobs,ex-CEO of Apple)”,因此需要通过实体链接操作将这个两个实体指代关联到同一个实体。语义消歧旨在对有歧义的实体指代进行消歧操作。例如,“苹果”这个实体指代可以对应多个有歧义的实体,例如“苹果(水果)”、“苹果公司(Apple Inc.)”、“苹果(电影)”等,而上述例子中第一个句子里的“苹果”应该对应到知识图谱数据库中的公司实体概念“苹果公司(Apple Inc.)”而不是“苹果(水果)”或“苹果(电影)”。实体链接和语义消歧通常都是一起进行的。因为语义消歧是实体链接的手段,而实体链接是语义消歧的目的;所以两者经常在不同场合互换使用或互相表示。
任何现有的实体链接和语义消歧技术均可用于本发明中。举例而言,其中一类方法基于实体知识对实体指代逐一独立地进行消歧与链接。实体知识包括但不局限于,实体的出现概率、实体的名字分布(全名、别名、缩写等)、实体的上下文语境(如词的共现信息、词分布等)以及实体在知识库中的类别信息(如公司实体、个人实体、地点实体等)等。可以使用基于概率的(如线性回归或逻辑回归等)或机器学习的(如支持向量机(SupportVector Machines)、随机森林(Random Forest)等)手段来学习并训练基于实体知识的语义消歧和实体链接模型。另一类方法基于主题一致性的假设(即文章中的实体通常与文本主题相关,所以这些实体之间也具有语义相关性),利用文本内容中所有实体指代的候选实体在知识库(如***或本发明构建的知识图谱)中的关联对一篇文章中的所有实体指代一致性地进行消歧与链接。这一类方法在计算过程中通常使用基于图数据结构的协同推理,即将文章内容中所有实体指代的候选实体,利用其在知识库中的关系构建成一个候选实体图,图的稠密分布反映了图中不同候选实体结点之间的语义关联程度。实体链接的过程就是:通过将证据(不同实体间可能的关联度)按照候选实体图的依存结构迭代传递以协同增强证据,直至收敛。上述两类方法也可以灵活地或有机地进行组合来提高消歧和链接的性能。
在步骤S14中,从互联网数据源获得与所述行业相关的互联网媒体数据,并从所述互联网媒体数据中提取与所述行业相关的特定媒体事件以及对应的直接相关实体。
可以通过多种方式从互联网数据源获取互联网媒体数据。例如,一些社交媒体网站(例如,新浪微博、Facebook、Twitter等)都开放了用于获取其数据的API。也可以利用网路爬虫技术和内容抽取技术来抓取新闻网站或行业媒体网站数据。
在本领域中已有多种对互联网媒体进行监测以获得特定媒体事件的技术实现方式。举例而言,在一种实现方式中,先对互联网媒体数据进行检测,以发现感兴趣的特定领域或行业中媒体事件的内容以及事件所涉及的实体,然后再对新发现的媒体事件按不同指标(例如,事件的负面性、重大性、突发性、传播速度与范围、可信度等)进行评价,以筛选出符合要求的媒体事件。
针对不同类型的互联网媒体数据,可以采用不同的处理技术识别与媒体事件对应的直接相关实体。例如,可以使用基于自然语言处理的实体识别技术从文本数据中识别实体,可以使用图像或视频识别处理技术从图像或视频数据中识别实体,并且可以使用语音识别处理技术从音频或视频数据中识别实体。本领域技术人员可以理解,本发明并不对互联网媒体数据的媒体类型以及语言种类做出限制。
在步骤S15中,基于所述特定媒体事件以及对应的直接相关实体,对所述行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。
在获得与行业相关的特定媒体事件以及对应的直接相关实体(例如,某上市公司***贪腐丑闻事件以及该事件中涉及的公司、人物、地点)之后,把该事件作为抽象实体补充到行业知识图谱数据库中,同时对事件所涉及的直接相关实体进行实体链接和语义消歧,即找出所述实体在行业知识图谱数据库中对应的实体,并将其与代表所述事件的抽象实体进行关联。如发现事件所涉及实体并不存在于行业知识图谱数据库中,则可以按上述步骤S13中说明的方式进行补充。在完成对行业知识图谱数据库的补充之后,即可基于所述事件的直接相关实体在知识图谱数据库中与其他实体之间的关系,找出代表媒体事件的抽象实体在行业知识图谱数据库中的其他非直接相关实体。
在通过以上方式构建行业知识图谱数据库之后,就可以基于所构建的信息对互联网媒体事件进行自动化、深层次的监测。优选地,在完成行业知识图谱数据库的首次构建后,为了保持信息的完整性和有效性,还可以对行业知识图谱数据库进行更新,例如,可以以预定的周期定期执行步骤S12和S13,还可以以实时不间断的方式执行步骤S14和S15。
另外,本领域技术人员可以理解,本发明中所涉及的行业数据、与行业相关的数据以及互联网媒体数据等各种数据的内容可以是多种语言的,也可以是多种类型的(例如,文本、图像、视频、语音等),本发明并不对此做出任何限制。
图3是本发明提供的一种对媒体事件进行监测的方法的示例性流程图,该方法可以基于本发明中所构建的行业知识图谱数据库对与行业相关的特定媒体事件进行监测。该方法可以包括步骤S31-S35。
在步骤S31中,获取互联网媒体数据。
如上文所述,可以通过多种方式从互联网数据源获取互联网媒体数据。例如,一些社交媒体网站(例如,新浪微博、Facebook、Twitter等)都开放了用于获取其数据的API。也可以利用网路爬虫技术和内容抽取技术来抓取新闻网站或行业媒体网站数据。
在步骤S32中,基于所获取的互联网媒体数据进行事件检测、事件评价和筛选,以获得所述与行业相关的特定媒体事件。
如上文所述,在本领域中已有多种对互联网媒体进行监测以获得特定媒体事件的技术实现方式。举例而言,在一种实现方式中,先对互联网媒体数据进行检测,以发现感兴趣的特定领域或行业中媒体事件的内容以及事件所涉及的实体,然后再对新发现的媒体事件按不同指标(例如,事件的负面性、重大性、突发性、传播速度与范围、可信度等)进行评价,以筛选出符合要求的媒体事件。
具体而言,在一个实施例中,事件检测涉及的技术实现步骤可以包括:话题分类、实体识别、情感分析和事件发现。
在话题分类的步骤中,对所获取的互联网媒体数据中的内容进行话题分类以获得针对特定话题的内容。话题分类的目的是从所获取的内容中筛选出属于某种感兴趣话题或与客户需求相关种类的文本。话题分类是一种文本挖掘技术,一般采用机器学习或深度学习方法在标注数据上训练分类模型,然后应用到文本上以判断其话题类别。任何现有分类模型(例如,朴素贝叶斯模型、决策树、支持向量机、人工神经网络等)都可用于本发明中。
在实体识别的步骤中,从所获得的内容中识别涉及的实体。实体抽取的目的是找出文章中涉及的实体作进一步分析。举例而言,实体识别可以包括以自然语言处理中的信息抽取技术从文本信息中抽取实体,以图像识别技术从图像(含视频)信息中识别实体,以及以语音识别技术从语音信息中识别实体,还可以对从文本、图像、与语音中识别的实体进行合并处理。
在情感分析的步骤中,对所获得的内容和所识别的实体进行情感分析,并且基于情感分析的结果对所获得的内容进行过滤。情感分析用于判断内容全文以及针对不同实体所表达的情感极性,以找出符合监测条件的内容。现有技术一般以文本分类方法(例如,将情感归类为正面、中性或负面)或回归分析方法(例如,将情感表示成-5到+5之间的分数)实现情感分析。判断内容中针对某一实体的情感则可利用实体在文本中的上下文信息,或者采用依存句法分析工具找出文本中跟该实体相关的文字部份以进行针对实体的情感分析。
在事件发现的步骤中,基于过滤后的内容进行事件发现以对媒体事件进行聚类并发现新的媒体事件。事件发现的目的是从不同文本提取出事件信息(例如,事件发生的时间、地点等),然后将相关的信息聚类、合并成为抽象“事件”,通过与现有事件进行比对以判断新出现的事件,并根据内容的相似性或相关性对事件进行聚类。
在一个实施例中,可选地,在事件检测的过程中,还可以基于媒体事件的属性(例如,事件发生的时间、地点,媒体事件发布者及其相关属性等)对事件的真实性进行分析,并根据分析结果对媒体事件进行排序和/或过滤。
本领域技术人员可以理解,在上述步骤中针对各项操作所列举的实现方式仅仅是示例性的,本领域现有的一些其他方式也可以实现这些操作,本发明并不对实现上述操作的具体方式做出任何限制。
在步骤S33中,识别与所述特定媒体事件对应的直接相关实体。
在一个实施例中,通过事件监测中的实体识别和事件发现操作就可以获得每个媒体事件中的各个直接相关实体。同时,如上文所述,可以通过实体链接和语义消歧处理将各个直接相关实体关联到行业知识图谱数据库中对应的实体概念或补充到行业知识图谱数据库中。
在步骤S34中,基于所述直接相关实体,访问所述行业知识图谱数据库,以确定与所述特定媒体事件对应的非直接相关实体。
在一个实施例中,可以通过预设的各种条件,在行业知识图谱数据库上直接查询与事件直接相关实体有关联关系的其它非直接相关实体。例如,预设的条件可以是:1)与事件直接相关实体在N层内有关联关系的实体(N可以为1,2,3…);2)与事件直接相关实体关联程度满足某种条件(如大于某个指定阈值)的其它实体;3)与事件直接相关实体具有某种特定关系(例如,供货关系、投资关系等)的实体;4)具有某种特定属性(例如,属于某个指定行业、位于某个地点、拥有某个职位等)的实体。这些预设的条件可以单独或随意组合使用。
在另一个实施例中,可以采用数据挖掘的方法,在行业知识图谱数据库的基础之上利用多种条件来挖掘事件的非直接相关实体。举例而言,具体实施方法可以采用针对图数据的链接预测技术(link prediction),即把检测某事件的非直接相关实体问题表示成“预测行业知识图谱数据库中代表该事件的节点与直接相关实体节点以外的其他实体节点之间是否存在连边”这一技术问题。可用于链接预测的条件包括但不局限于事件本身的特征(例如,事件的类型、时间与地点属性、负面性等)、该事件与历史事件的关系(包括关系种类与关系强度)、事件直接相关实体与其他实体之间的关系(包括关系种类和关系强度)以及实体类型和属性等所有可以在知识图谱数据库中挖掘到的知识,从而实现对特定媒体事件的非直接相关实体的综合判断。
在步骤S35中,向所述直接相关实体和/或所述非直接相关实体发送预警消息。
在识别出与特定媒体事件对应的直接和非直接相关实体后,可以利用多种途径(例如,电子邮件、手机短信、实时聊天工具、社交网络平台等)向对应的实体用户发送预警消息。预警消息可以包含对事件本身的文字描述、图片、传播相关统计信息、事件评估指标以及相关实体可能如何受到该事件影响的途径等等。
本领域技术人员可以理解,本发明中所述的特定媒体事件可以是符合用户所设定条件并且可以从互联网媒体中获得的各种类型的事件,例如,负面事件、突发事件、危机事件、***件或舆情事件等。本发明并不对此做出任何限制。
作为一个优选的实施例,图4示出了本发明提供的另一种构建行业知识图谱数据库的方法的示例性流程图。该方法可以包括步骤S41、S421/S422以及S43-S45。
在步骤S41中,从行业数据源获得行业数据,并从所述行业数据中提取实体以及对应的实体属性和实体关系,以生成行业知识图谱数据库。
在步骤S421中,基于结构化数据源,利用应用程序接口以查询方式获得与所述行业相关的实体、实体属性和实体关系。在一个实施例中,所述结构化数据源可以如维基数据、DBPedia这样的结构化开放数据平台,并且可以通过API从中获得与行业相关的数据。
在步骤S422中,基于半结构化或非结构化数据源,利用自然语言处理技术对数据进行实体识别和关系抽取,以提取与所述行业相关的实体、实体属性和实体关系。在一个实施例中,所述半结构化或非结构化数据源可以诸如***、百度百科这样的开放数据平台,也可以是任何相关的第三方数据源(例如,专业网站、在互联网媒体中发布的内容等),并且可以通过网络爬虫或内容抽取技术获得与行业相关的数据。
优选地,可以以预定的周期定期执行步骤S421和/或S422、S43。
在步骤S43中,基于所述与行业相关的实体以及对应的实体属性和实体关系,对行业知识图谱数据库进行补充或更新。
在步骤S44中,从互联网数据源获得互联网媒体数据,并从所述互联网媒体数据中提取与所述行业相关的特定媒体事件以及对应的直接相关实体。
在步骤S45中,基于所述特定媒体事件以及对应的直接相关实体,对行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。
优选地,可以以实时不间断的方式执行步骤S44和S45
图5是本发明提供的另一种构建行业知识图谱数据库的方法的示例性流程图。该方法可以包括步骤S51-S53:
在步骤S51中,从数据源获取行业数据;
在步骤S52中,对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系;
在步骤S53中,基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库。
如上文所述,行业知识图谱数据库的数据来源可以是多种多样的,包括但不限于开放式的百科类数据源、结构化的数据库以及任何相关的第三方半结构化或非结构化互联网数据源。同时,如上文所述,行业知识图谱数据库的数据来源还可以是互联网媒体数据源。
在一个实施例中,所述数据源可以是结构化的行业数据库,并且所述方法可以通过以下具体方式实现:在步骤S51(1)中,从第三方行业数据库获取包括多个字段的结构化行业数据;在步骤S52(1)中,在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理;在步骤S53(1)中,基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。
在另一个实施例中,所述数据源可以是非结构化或半结构化的互联网数据源,并且所述方法可以通过以下具体方式实现:在步骤S51(2)中,利用网络爬虫技术,从互联网数据源获取与行业相关的数据,所述互联网数据源包括非结构化或半结构化数据源;在步骤S52(2)中,利用自然语言处理中的信息抽取技术,对所述行业相关的数据进行实体识别和关系抽取,以提取所述实体、实体属性和/或实体关系;在步骤S53(2)中,基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
此外,所述步骤S51(2)-S53(2)可以是以预定的周期定期执行的。
在另一个实施例中,所述数据源可以是开放式的互联网数据源,并且所述方法可以通过以下具体方式实现:在步骤S51(3)中,利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据;在步骤S52(3)中,在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理;在步骤S53(3)中,基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
此外,所述步骤S51(3)-S53(3)可以是以预定的周期定期执行的。
在另一个实施例中,所述数据源可以是互联网媒体数据源,并且所述方法可以通过以下具体方式实现:在步骤S51(4)中,利用应用程序接口(API)或网络爬虫技术,从互联网数据源获取互联网媒体数据;在步骤S52(4)中,对所述互联网媒体数据进行事件检测、事件评价和筛选,以提取与所述行业相关的特定媒体事件,并从所述互联网媒体数据中识别对应的直接相关实体;在步骤S53(4)中,基于所述特定媒体事件以及对应的直接相关实体,对所述行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。
举例而言,在步骤S52(4)中可以通过以下方式中的至少一种识别与特定媒体事件对应的直接相关实体:基于自然语言处理中的实体识别从文本数据中识别实体;基于图像或视频识别处理从图像或视频数据中识别实体;或者,基于语音识别处理从音频或视频数据中识别实体。
举例而言,所述特定媒体事件可以包括负面事件、突发事件、危机事件、***件、舆情事件或其它具有行业意义的事件。
此外,所述步骤S51(4)-S53(4)可以是实时不间断执行的。
在另一个实施例中,上述步骤S53(2)、S53(3)、S53(4)中对所述行业知识图谱数据库进行补充或更新的步骤可以包括:对所提取的实体进行语义消歧和实体链接。举例而言,可以通过以下方式中的至少一种进行所述语义消歧和实体链接:基于实体知识,对每个所提取的实体指代逐一独立地进行语义消歧和实体链接;基于主题一致性假设,利用候选实体在知识库中的关联,对所提取的实体指代一致性地进行语义消歧和实体链接。
以上以实施例的方式描述了本发明提供的一种构建行业知识图谱数据库的方法。本领域技术人员可以理解,这些实施例的各种组合也包括在这种构建行业知识图谱数据库的方法的构思之内。
图6是本发明提供的一种对媒体事件进行监测的***的示例性框图。该***包括数据获取单元、数据获取单元、数据库构建单元、数据库存储单元、媒体事件监测单元、数据库访问单元以及消息发送单元。
数据获取单元,用于从数据源获得行业数据。
数据处理单元,用于对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系;
数据库构建单元,用于基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库;
数据库存储单元:用于存储所构建的行业知识图谱数据库;
媒体事件监测单元:用于获取互联网媒体数据,基于所获取的互联网媒体数据进行事件检测、事件评价和筛选以获得所述与行业相关的特定媒体事件,并且识别与所述特定媒体事件对应的直接相关实体;
数据库访问单元:用于基于所述直接相关实体,访问所述行业知识图谱数据库,以确定与所述特定媒体事件对应的非直接相关实体;
消息发送单元,用于向所述直接相关实体和/或所述非直接相关实体发送预警消息。
在一个实施例中,所述数据获取单元包括:结构化数据获取单元,用于从第三方行业数据库获得结构化数据,所述结构化数据包括多个字段;所述数据处理单元包括:结构化数据处理单元,用于对所述结构化数据进行数据清洗以及抽取-转换-加载(ETL)处理;所述数据库构建单元包括:数据库生成单元,用于基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。
在另一个实施例中,所述数据获取单元包括:行业相关数据获取单元,用于利用网络爬虫技术,从互联网数据源获得与行业相关的数据,所述互联网数据源包括非结构化或半结构化数据源;所述数据处理单元包括:行业相关数据处理单元,用于利用自然语言处理中的信息抽取技术,对所述行业相关的数据进行实体识别和关系抽取,以提取所述实体、实体属性和/或实体关系;所述数据库构建单元包括:数据库补充/更新单元,用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
在另一个实施例中,所述数据获取单元包括:行业相关数据获取单元,用于利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据,所述互联网数据源包括开放式数据源;所述数据处理单元包括:行业相关数据处理单元,用于在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理;所述数据库构建单元包括:数据库补充/更新单元,用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
在另一个实施例中,所述数据获取单元包括:媒体数据获取单元,用于利用应用程序接口(API)或网络爬虫技术,从互联网数据源获取与行业相关的互联网媒体数据;所述数据处理单元包括:媒体数据处理单元,用于对所述互联网媒体数据进行事件检测、事件评价和筛选,以提取与所述行业相关的特定媒体事件,并从所述互联网媒体数据中识别对应的直接相关实体;所述数据库构建单元包括:数据库补充/更新单元,用于基于所述特定媒体事件以及对应的直接相关实体,对所述行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。
在一个实施例中,所述数据库补充/更新单元进一步用于:对所提取的实体进行语义消歧和实体链接。
在一个实施例中,所述媒体事件监测单元进一步用于:对所获取的互联网媒体数据中的内容进行话题分类,以获得针对特定话题的内容;从所获得的内容中识别涉及的实体;对所获得的内容和所识别的实体进行情感分析,并且基于情感分析的结果对所获得的内容进行过滤;基于过滤后的内容进行事件发现,以对媒体事件进行聚类并发现新的媒体事件。在另一个实施例中,所述媒体事件监测单元进一步用于:基于媒体事件的属性对事件的真实性进行分析,并根据分析结果对媒体事件进行排序和/或过滤。
在一个实施例中,所述数据库访问单元进一步用于:基于所述直接相关实体,在所述行业知识图谱数据库中查询,以确定所述非直接相关实体。在另一个实施例中,所述数据库访问单元进一步用于:基于所述直接相关实体,在所述行业知识图谱数据库中使用数据挖掘技术,以确定所述非直接相关实体。
以上以实施例的方式描述了本发明提供的一种对媒体事件进行监测的***。本领域技术人员可以理解,上文结合附图1、3-5所描述的各种方法中的操作步骤可以应用在所述***的组成单元中,因此这里不再赘述。
本领域技术人员还应当理解,结合本发明公开的各个实施例所描述的各种示例性的方法步骤和单元均可以实现成电子硬件、计算机软件或二者的组合。为了清楚地表示硬件和软件的可交换性,上文中各种示例性的步骤和单元均围绕其功能进行了总体描述。至于这种功能是实现成硬件还是实现成软件,则取决于特定的应用和对整个***所施加的设计约束条件。本领域技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为引起与本公开内容的范围的偏离。
本发明说明书中使用的“示例/示例性”表示用作例子、例证或说明。说明书中被描述为“示例性”的任何技术方案不应被解释为比其它技术方案更优选或更具优势。
本发明提供了对所公开的技术内容的以上描述,以使本领域技术人员能够实现或使用本发明。对于本领域技术人员而言,对这些技术内容的很多修改和变形都是显而易见的,并且本发明所定义的总体原理也可以在不脱离本发明的精神或范围的基础上适用于其它实施例。因此,本发明并不限于上文所示的具体实施方式,而是应与符合本发明公开的发明构思的最广范围相一致。
Claims (38)
1.一种构建行业知识图谱数据库的方法,其特征在于,包括以下步骤:
步骤101,从数据源获取一个或多个特定行业的行业数据,所述行业数据包括互联网媒体数据;
步骤102,对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系,并且对所述互联网媒体数据进行事件检测、事件评价和筛选,以提取与所述行业相关的特定媒体事件,其中,事件检测包括:对所述互联网媒体数据进行话题分类,以获得针对特定话题的内容;从获得的内容中识别涉及的实体;对所获得的内容和所识别的实体进行情感分析,并且基于情感分析的结果对所获得的内容进行过滤;基于过滤后的内容进行事件发现,以对媒体事件进行聚类并发现新的媒体事件;
步骤103,对所提取的实体进行语义消歧和实体链接,基于所提取的所述特定媒体事件以及所述实体、实体属性和/或实体关系构建所述行业知识图谱数据库。
2.根据权利要求1所述的方法,其特征在于,
所述步骤101还包括:从第三方行业数据库获取结构化行业数据,所述结构化行业数据包括多个字段;
所述步骤102还包括:在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理;
所述步骤103还包括:基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。
3.根据权利要求1所述的方法,其特征在于,
所述步骤101还包括:利用网络爬虫技术,从互联网数据源获取与行业相关的数据,所述互联网数据源包括非结构化或半结构化数据源;
所述步骤102还包括:利用自然语言处理中的信息抽取技术,对所述与行业相关的数据进行实体识别和关系抽取,以提取所述实体、实体属性和/或实体关系;
所述步骤103还包括:基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
4.根据权利要求1所述的方法,其特征在于,
所述步骤101还包括:利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据,所述互联网数据源包括开放式数据源;
所述步骤102还包括:在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理;
所述步骤103还包括:基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
5.根据权利要求1所述的方法,其特征在于,
所述步骤101进一步包括:利用应用程序接口(API)或网络爬虫技术,从互联网数据源获取与行业相关的互联网媒体数据;
所述步骤102进一步包括:从所述互联网媒体数据中识别所述特定媒体事件对应的直接相关实体;
所述步骤103进一步包括:基于所述特定媒体事件以及对应的直接相关实体,对所述行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。
6.根据权利要求5所述的方法,其特征在于,在所述步骤102中进一步通过以下方式中的至少一种提取与所述特定媒体事件对应的直接相关实体:
基于自然语言处理中的实体识别从文本数据中识别实体;
基于图像或视频识别处理从图像或视频数据中识别实体;或者
基于语音识别处理从音频或视频数据中识别实体。
7.根据权利要求3-5中任一项所述的方法,其特征在于,所述步骤103包括:对所提取的实体进行语义消歧和实体链接,以识别所述实体在行业知识图谱数据库中的对应实体。
8.根据权利要求7所述的方法,其特征在于,所述对所提取的实体进行语义消歧和实体链接的步骤进一步通过以下方式中的至少一种实现:
基于实体知识,对每个所提取的实体指代逐一独立地进行语义消歧和实体链接;
基于主题一致性假设,利用候选实体在知识库中的关联,对所提取的实体指代进行一致性地语义消歧和实体链接。
9.根据权利要求1所述的方法,其特征在于,所述特定媒体事件包括负面事件、突发事件、危机事件、***件或舆情事件。
10.根据权利要求3或4所述的方法,其特征在于,所述步骤101-103是以预定的周期定期执行的。
11.根据权利要求5所述的方法,其特征在于,所述步骤101-103是实时不间断执行的。
12.一种基于权利要求1-11中任一项所述的方法构建的行业知识图谱数据库对与行业相关的特定媒体事件进行监测的方法,其特征在于,包括以下步骤:
步骤1201,获取互联网媒体数据;
步骤1202,基于所获取的互联网媒体数据进行事件检测、事件评价和筛选,以获取所述与行业相关的特定媒体事件;
步骤1203,提取与所述特定媒体事件对应的直接相关实体;
步骤1204,基于所述直接相关实体在所述行业知识图谱数据库中的关联关系,确定与所述特定媒体事件对应的非直接相关实体;
步骤1205,向所述直接相关实体和/或所述非直接相关实体发送预警消息。
13.根据权利要求12所述的方法,其特征在于,所述步骤1202中的事件检测包括以下步骤:
对所获取的互联网媒体数据中的内容进行话题分类,以获得针对特定话题的内容;
从所获得的内容中识别涉及的实体;
对所获得的内容和所识别的实体进行情感分析,并且基于情感分析的结果对所获得的内容进行过滤;
基于过滤后的内容进行事件发现,以对媒体事件进行聚类并发现新的媒体事件。
14.根据权利要求13所述的方法,其特征在于,所述步骤1202中的事件检测还包括以下步骤:
基于媒体事件的属性对事件的真实性进行分析,并根据分析结果对媒体事件进行排序和/或过滤。
15.根据权利要求12所述的方法,其特征在于,在所述步骤1203中通过以下方式中的至少一种提取与所述特定媒体事件对应的直接相关实体:
基于自然语言处理中的实体识别从文本数据中识别实体;
基于图像或视频识别处理从图像或视频数据中识别实体;或者
基于语音识别处理从音频或视频数据中识别实体。
16.根据权利要求12所述的方法,其特征在于,所述步骤1204通过以下方式实现:
对所述直接相关实体进行语义消歧和实体链接,以识别行业知识图谱数据库中的对应实体,并基于所述直接相关实体,以预设条件对所述行业知识图谱数据库中的其他实体和/或实体关系进行查询,以确定所述非直接相关实体。
17.根据权利要求12所述的方法,其特征在于,所述步骤1204通过以下方式实现:
对所述直接相关实体进行语义消歧和实体链接,以识别行业知识图谱数据库中的对应实体,并基于所述直接相关实体,对所述行业知识图谱数据库中的其他实体和/或实体关系使用数据挖掘技术,以确定所述非直接相关实体。
18.根据权利要求16-17中任何一项所述的方法,其特征在于,所述对直接相关实体进行语义消歧和实体链接的步骤进一步通过以下方式中的至少一种实现:
基于实体知识,对每个所提取的实体指代逐一独立地进行语义消歧和实体链接;
基于主题一致性假设,利用候选实体在知识库中的关联,对所提取的实体指代进行一致性地语义消歧和实体链接。
19.一种构建行业知识图谱数据库的装置,其特征在于,包括:
数据获取模块,用于从数据源获取一个或多个特定行业的行业数据,所述行业数据包括互联网媒体数据;
数据处理模块,用于对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系,并且对所述互联网媒体数据进行事件检测、事件评价和筛选,以提取与所述行业相关的特定媒体事件,其中,事件检测包括:对所述互联网媒体数据进行话题分类,以获得针对特定话题的内容;从获得的内容中识别涉及的实体;对所获得的内容和所识别的实体进行情感分析,并且基于情感分析的结果对所获得的内容进行过滤;基于过滤后的内容进行事件发现,以对媒体事件进行聚类并发现新的媒体事件;
数据库构建模块,用于对所提取的实体进行语义消歧和实体链接,基于所提取的所述特定媒体事件以及所述实体、实体属性和/或实体关系构建所述行业知识图谱数据库。
20.根据权利要求19所述的装置,其特征在于,
所述数据获取模块还用于:从第三方行业数据库获得结构化行业数据,所述结构化行业数据包括多个字段;
所述数据处理模块还用于:在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理;
所述数据库构建模块还用于:基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。
21.根据权利要求19所述的装置,其特征在于,
所述数据获取模块还用于:利用网络爬虫技术,从互联网数据源获得与行业相关的数据,所述互联网数据源包括非结构化或半结构化数据源;
所述数据处理模块还用于:利用自然语言处理中的信息抽取技术,对所述行业相关的数据进行实体识别和关系抽取,以提取所述实体、实体属性和/或实体关系;
所述数据库构建模块还用于:基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
22.根据权利要求19所述的装置,其特征在于,
所述数据获取模块还用于:利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据,所述互联网数据源包括开放式数据源;
所述数据处理模块还用于:在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理;
所述数据库构建模块还用于:基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
23.根据权利要求19所述的装置,其特征在于,
所述数据获取模块进一步用于:用于利用应用程序接口(API)或网络爬虫技术,从互联网数据源获取与行业相关的互联网媒体数据;
所述数据处理模块进一步用于:从所述互联网媒体数据中识别所述特定媒体事件对应的直接相关实体;
所述数据库构建模块进一步用于:基于所述特定媒体事件以及对应的直接相关实体,对所述行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。
24.根据权利要求23所述的装置,其特征在于,所述数据库构建模块进一步通过以下方式中的至少一种提取与所述特定媒体事件对应的直接相关实体:
基于自然语言处理中的实体识别从文本数据中识别实体;
基于图像或视频识别处理从图像或视频数据中识别实体;或者
基于语音识别处理从音频或视频数据中识别实体。
25.根据权利要求21-23中任一项所述的装置,其特征在于,所述数据库构建模块包括:用于对所提取的实体进行语义消歧和实体链接的模块,以识别所述实体在行业知识图谱数据库中的对应实体。
26.根据权利要求25所述的装置,其特征在于,所述用于对所提取的实体进行语义消歧和实体链接的模块进一步通过以下方式中的至少一种进行语义消歧和实体链接:
基于实体知识,对每个所提取的实体指代逐一独立地进行语义消歧和实体链接;
基于主题一致性假设,利用候选实体在知识库中的关联,对所提取的实体指代进行一致性地语义消歧和实体链接。
27.根据权利要求19所述的装置,其特征在于,所述特定媒体事件包括负面事件、突发事件、危机事件、***件或舆情事件。
28.一种对与行业相关的特定媒体事件进行监测的***,其特征在于,包括:
数据获取单元,用于从数据源获得一个或多个特定行业的行业数据;
数据处理单元,用于对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系;
数据库构建单元,对所提取的实体进行语义消歧和实体链接,用于基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库;
数据库存储单元:用于存储所构建的行业知识图谱数据库;
媒体事件监测单元:用于获取互联网媒体数据,基于所获取的互联网媒体数据进行事件检测、事件评价和筛选以获得所述与行业相关的特定媒体事件,并且识别与所述特定媒体事件对应的直接相关实体,其中,事件检测包括以下步骤:对所述互联网媒体数据进行话题分类,以获得针对特定话题的内容;从获得的内容中识别涉及的实体;对所获得的内容和所识别的实体进行情感分析,并且基于情感分析的结果对所获得的内容进行过滤;基于过滤后的内容进行事件发现,以对媒体事件进行聚类并发现新的媒体事件;
数据库访问单元:用于基于所述直接相关实体,访问所述行业知识图谱数据库,并基于所述直接相关实体在所述行业知识图谱数据库中的关联关系,以确定与所述特定媒体事件对应的非直接相关实体;
消息发送单元,用于向所述直接相关实体和/或所述非直接相关实体发送预警消息。
29.根据权利要求28所述的***,其特征在于,
所述数据获取单元包括:结构化数据获取单元,用于从第三方行业数据库获得结构化行业数据,所述结构化行业数据包括多个字段;
所述数据处理单元包括:结构化数据处理单元,用于在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理;
所述数据库构建单元包括:数据库生成单元,用于基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。
30.根据权利要求28所述的***,其特征在于,
所述数据获取单元包括:行业相关数据获取单元,用于利用网络爬虫技术,从互联网数据源获得与行业相关的数据,所述互联网数据源包括非结构化或半结构化数据源;
所述数据处理单元包括:行业相关数据处理单元,用于利用自然语言处理中的信息抽取技术,对所述行业相关的数据进行实体识别和关系抽取,以提取所述实体、实体属性和/或实体关系;
所述数据库构建单元包括:数据库补充/更新单元,用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
31.根据权利要求28所述的***,其特征在于,
所述数据获取单元包括:行业相关数据获取单元,用于利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据,所述互联网数据源包括开放式数据源;
所述数据处理单元包括:行业相关数据处理单元,用于在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理;
所述数据库构建单元包括:数据库补充/更新单元,用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
32.根据权利要求28所述的***,其特征在于,
所述数据获取单元包括:媒体数据获取单元,用于利用应用程序接口(API)或网络爬虫技术,从互联网数据源获取与行业相关的互联网媒体数据;
所述数据处理单元包括:媒体数据处理单元,用于对所述互联网媒体数据进行事件检测、事件评价和筛选,以提取与所述行业相关的特定媒体事件,并从所述互联网媒体数据中识别对应的直接相关实体;
所述数据库构建单元包括:数据库补充/更新单元,用于基于所述特定媒体事件以及对应的直接相关实体,对所述行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。
33.根据权利要求29-32中任一项所述的***,其特征在于,对所提取的实体进行语义消歧和实体链接,以识别所述实体在行业知识图谱数据库中的对应实体。
34.根据权利要求28所述的***,其特征在于,所述媒体事件监测单元进一步用于:
对所获取的互联网媒体数据中的内容进行话题分类,以获得针对特定话题的内容;
从所获得的内容中识别涉及的实体;
对所获得的内容和所识别的实体进行情感分析,并且基于情感分析的结果对所获得的内容进行过滤;
基于过滤后的内容进行事件发现,以对媒体事件进行聚类并发现新的媒体事件。
35.根据权利要求34所述的***,其特征在于,所述媒体事件监测单元进一步用于:
基于媒体事件的属性对事件的真实性进行分析,并根据分析结果对媒体事件进行排序和/或过滤。
36.根据权利要求28所述的***,其特征在于,所述数据库访问单元进一步用于:
基于所述直接相关实体,以预设条件对所述行业知识图谱数据库中的其他实体和/或实体关系进行查询,以确定所述非直接相关实体。
37.根据权利要求28所述的***,其特征在于,所述数据库访问单元进一步用于:
基于所述直接相关实体,对所述行业知识图谱数据库中的其他实体和/或实体关系使用数据挖掘技术,以确定所述非直接相关实体。
38.根据权利要求28所述的***,其特征在于,所述特定媒体事件包括负面事件、突发事件、危机事件、***件或舆情事件。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610716109.4A CN107783973B (zh) | 2016-08-24 | 2016-08-24 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和*** |
PCT/CN2017/087000 WO2018036239A1 (zh) | 2016-08-24 | 2017-06-02 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和*** |
TW106127958A TWI664539B (zh) | 2016-08-24 | 2017-08-17 | 基於行業知識圖譜資料庫對互聯網媒體事件進行監測的方法、裝置和系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610716109.4A CN107783973B (zh) | 2016-08-24 | 2016-08-24 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107783973A CN107783973A (zh) | 2018-03-09 |
CN107783973B true CN107783973B (zh) | 2022-02-25 |
Family
ID=61246067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610716109.4A Active CN107783973B (zh) | 2016-08-24 | 2016-08-24 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和*** |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN107783973B (zh) |
TW (1) | TWI664539B (zh) |
WO (1) | WO2018036239A1 (zh) |
Families Citing this family (114)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及*** |
CN108763333B (zh) * | 2018-05-11 | 2022-05-17 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108829858B (zh) * | 2018-06-22 | 2021-09-17 | 京东数字科技控股有限公司 | 数据查询方法、装置及计算机可读存储介质 |
CN109086316B (zh) * | 2018-06-27 | 2021-09-14 | 南京邮电大学 | 面向工业物联网资源的知识图谱自主构建*** |
CN108549731A (zh) * | 2018-07-11 | 2018-09-18 | 中国电子科技集团公司第二十八研究所 | 一种基于本体模型的知识图谱构建方法 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109614495B (zh) * | 2018-08-08 | 2023-11-28 | 深圳市宏骏大数据服务有限公司 | 一种结合知识图谱和文本信息的相关公司挖掘方法 |
CN108959270B (zh) * | 2018-08-10 | 2022-08-19 | 新华智云科技有限公司 | 一种基于深度学习的实体链接方法 |
CN109242548A (zh) * | 2018-08-20 | 2019-01-18 | 北京众标智能科技有限公司 | 一种基于知识图谱的销售线索识别方法及装置 |
CN109255035B (zh) * | 2018-08-31 | 2024-03-26 | 北京字节跳动网络技术有限公司 | 用于构建知识图谱的方法和装置 |
CN109255037B (zh) * | 2018-08-31 | 2022-03-08 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN110895568B (zh) * | 2018-09-13 | 2023-07-21 | 阿里巴巴集团控股有限公司 | 处理庭审记录的方法和*** |
CN109299362B (zh) * | 2018-09-21 | 2023-04-14 | 平安科技(深圳)有限公司 | 相似企业推荐方法、装置、计算机设备及存储介质 |
CN109597894B (zh) * | 2018-09-30 | 2023-10-03 | 创新先进技术有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN109522396B (zh) * | 2018-10-22 | 2020-12-25 | 中国船舶工业综合技术经济研究院 | 一种面向国防科技领域的知识处理方法及*** |
CN109508383A (zh) * | 2018-10-30 | 2019-03-22 | 北京国双科技有限公司 | 知识图谱的构建方法及装置 |
CN109376202B (zh) * | 2018-10-30 | 2021-08-03 | 青岛理工大学 | 一种基于nlp的企业供应关系自动抽取分析方法 |
CN109670048B (zh) * | 2018-11-19 | 2023-06-23 | 平安科技(深圳)有限公司 | 基于风控管理的图谱构建方法、装置和计算机设备 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及*** |
CN109308323A (zh) * | 2018-12-07 | 2019-02-05 | 中国科学院长春光学精密机械与物理研究所 | 一种因果关系知识库的构建方法、装置及设备 |
CN111291191B (zh) * | 2018-12-07 | 2024-05-03 | 国家新闻出版广电总局广播科学研究院 | 一种广电知识图谱构建方法及装置 |
CN109635298B (zh) * | 2018-12-11 | 2022-12-30 | 平安科技(深圳)有限公司 | 团体状态识别方法、装置、计算机设备及存储介质 |
CN109684313A (zh) * | 2018-12-14 | 2019-04-26 | 浪潮软件集团有限公司 | 一种数据清洗加工方法及*** |
CN109669994B (zh) * | 2018-12-21 | 2023-03-14 | 吉林大学 | 一种健康知识图谱的构建方法及*** |
CN111368145A (zh) * | 2018-12-26 | 2020-07-03 | 沈阳新松机器人自动化股份有限公司 | 一种知识图谱的创建方法、创建***及终端设备 |
CN111382277B (zh) * | 2018-12-28 | 2023-08-01 | 上海汽车集团股份有限公司 | 面向汽车领域的知识图谱构建方法及装置 |
CN109783484A (zh) * | 2018-12-29 | 2019-05-21 | 北京航天云路有限公司 | 基于知识图谱的数据服务平台的构建方法及*** |
CN109726819B (zh) * | 2018-12-29 | 2021-09-14 | 东软集团股份有限公司 | 一种实现事件推理的方法及装置 |
CN109828965B (zh) * | 2019-01-09 | 2021-06-15 | 千城数智(北京)网络科技有限公司 | 一种数据处理的方法及电子设备 |
CN109885698A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种知识图谱构建方法及装置、电子设备 |
CN109918452A (zh) * | 2019-02-14 | 2019-06-21 | 北京明略软件***有限公司 | 一种数据处理的方法、装置、计算机存储介质及终端 |
CN109947952B (zh) * | 2019-03-20 | 2021-03-02 | 武汉市软迅科技有限公司 | 基于英语知识图谱的检索方法、装置、设备及存储介质 |
CN109977291B (zh) * | 2019-03-20 | 2021-03-02 | 武汉市软迅科技有限公司 | 基于物理知识图谱的检索方法、装置、设备及存储介质 |
CN109979592A (zh) * | 2019-03-25 | 2019-07-05 | 广东邮电职业技术学院 | 心理健康预警方法、用户终端、服务器与*** |
CN110175239A (zh) * | 2019-04-23 | 2019-08-27 | 成都数联铭品科技有限公司 | 一种知识图谱的构建方法及*** |
CN111984737A (zh) * | 2019-05-23 | 2020-11-24 | 楼荣平 | 一种智能主体以及事务能力构建*** |
CN110347811A (zh) * | 2019-06-11 | 2019-10-18 | 福建奇点时空数字科技有限公司 | 一种基于人工智能的专业知识问答机器人*** |
CN110309234B (zh) * | 2019-06-14 | 2023-06-09 | 广发证券股份有限公司 | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 |
CN110245241A (zh) * | 2019-06-18 | 2019-09-17 | 卓尔智联(武汉)研究院有限公司 | 塑料知识图谱构建装置、方法及计算机可读存储介质 |
CN110287338B (zh) * | 2019-06-21 | 2022-04-29 | 北京百度网讯科技有限公司 | 行业热点确定方法、装置、设备和介质 |
CN110334220A (zh) * | 2019-07-15 | 2019-10-15 | 中国人民解放军战略支援部队航天工程大学 | 一种基于多数据源的知识图谱构建方法 |
CN110413784A (zh) * | 2019-07-23 | 2019-11-05 | 国家计算机网络与信息安全管理中心 | 基于知识图谱的舆情关联分析方法及*** |
CN110363449B (zh) * | 2019-07-25 | 2022-04-15 | 中国工商银行股份有限公司 | 一种风险识别方法、装置及*** |
CN110489565B (zh) * | 2019-08-15 | 2023-05-16 | 广州拓尔思大数据有限公司 | 基于领域知识图谱本体中的对象根类型设计方法及*** |
CN110781311B (zh) * | 2019-09-18 | 2024-02-27 | 上海合合信息科技股份有限公司 | 一种企业一致行动人运算***及方法 |
CN112561457A (zh) * | 2019-09-26 | 2021-03-26 | 鸿富锦精密电子(天津)有限公司 | 基于人脸识别的人才招募方法、终端服务器及存储介质 |
CN110781249A (zh) * | 2019-10-16 | 2020-02-11 | 华电国际电力股份有限公司技术服务分公司 | 基于知识图谱的火电厂多源数据融合方法与装置 |
CN111061883B (zh) * | 2019-10-25 | 2023-12-08 | 珠海格力电器股份有限公司 | 更新知识图谱的方法、装置、设备及存储介质 |
CN110866123B (zh) * | 2019-11-06 | 2023-10-27 | 浪潮软件集团有限公司 | 基于数据模型构建数据图谱的方法及构建数据图谱的*** |
CN110837566B (zh) * | 2019-11-15 | 2022-05-13 | 北京邮电大学 | 一种针对cnc机床故障诊断的知识图谱的动态构建方法 |
CN111538842B (zh) * | 2019-11-15 | 2023-10-03 | 国家电网有限公司 | 网络空间态势的智能感知和预测方法、装置和计算机设备 |
CN110866126A (zh) * | 2019-11-22 | 2020-03-06 | 福建工程学院 | 一种高校网络舆情风险评估方法 |
CN111046189A (zh) * | 2019-11-27 | 2020-04-21 | 广东电网有限责任公司 | 一种配电网知识图谱模型的建模方法 |
CN110928963B (zh) * | 2019-11-28 | 2023-10-24 | 西安理工大学 | 针对运维业务数据表的列级权限知识图谱构建方法 |
CN111339310B (zh) * | 2019-11-28 | 2023-05-16 | 哈尔滨工业大学(深圳) | 一种面向社交媒体的在线争辩生成方法、***及存储介质 |
CN111090683B (zh) * | 2019-11-29 | 2023-12-22 | 上海勘察设计研究院(集团)股份有限公司 | 一种工程领域知识图谱构建方法及其生成装置 |
CN110990748B (zh) * | 2019-12-18 | 2023-06-27 | 成都迪普曼林信息技术有限公司 | 一种国别舆情数据采集与发布*** |
CN111339311A (zh) * | 2019-12-30 | 2020-06-26 | 智慧神州(北京)科技有限公司 | 基于生成式网络抽取结构化事件的方法、装置与处理器 |
CN111177284A (zh) * | 2019-12-31 | 2020-05-19 | 清华大学 | 应急预案模型生成方法、装置及设备 |
CN111159411B (zh) * | 2019-12-31 | 2023-04-14 | 哈尔滨工业大学(深圳) | 一种融合知识图谱的文本立场分析方法、***及存储介质 |
CN111221978A (zh) * | 2019-12-31 | 2020-06-02 | 北京明略软件***有限公司 | 一种构建知识图谱的方法、装置、计算机存储介质及终端 |
CN111191046A (zh) * | 2019-12-31 | 2020-05-22 | 北京明略软件***有限公司 | 一种实现信息搜索的方法、装置、计算机存储介质及终端 |
CN111339214B (zh) * | 2020-02-18 | 2023-09-15 | 北京航空航天大学 | 一种知识库自动构建方法与*** |
TWI767192B (zh) * | 2020-02-26 | 2022-06-11 | 傑睿資訊服務股份有限公司 | 智慧分析系統之應用方法 |
CN113326381A (zh) * | 2020-02-28 | 2021-08-31 | 拓尔思天行网安信息技术有限责任公司 | 基于动态本体的语义和知识图谱分析方法、平台及设备 |
CN111475612A (zh) * | 2020-03-02 | 2020-07-31 | 深圳壹账通智能科技有限公司 | 预警事件图谱的构建方法、装置、设备及存储介质 |
CN111325355B (zh) * | 2020-03-19 | 2023-12-19 | 中国建设银行股份有限公司 | 企业实际控制人的确定方法、装置、计算机设备及介质 |
CN111309827A (zh) * | 2020-03-23 | 2020-06-19 | 平安医疗健康管理股份有限公司 | 知识图谱构建方法、装置、计算机***及可读存储介质 |
CN111582488A (zh) * | 2020-04-23 | 2020-08-25 | 傲林科技有限公司 | 一种事件推演方法及装置 |
CN113761971B (zh) * | 2020-06-02 | 2023-06-20 | 中国人民解放军战略支援部队信息工程大学 | 一种遥感影像目标知识图谱构建方法及装置 |
CN111737488B (zh) * | 2020-06-12 | 2021-02-02 | 南京中孚信息技术有限公司 | 基于领域实体提取和关联分析的信息溯源方法及装置 |
CN111930956B (zh) * | 2020-06-17 | 2023-05-30 | 西安交通大学 | 一种采用知识图谱的多创新方法推荐与流驱动的集成*** |
CN111899089A (zh) * | 2020-07-01 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 基于知识图谱的企业风险预警方法及*** |
CN111914096B (zh) * | 2020-07-06 | 2024-02-02 | 同济大学 | 基于舆情知识图谱的公共交通乘客满意度评价方法及*** |
CN111897914B (zh) * | 2020-07-20 | 2023-09-19 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN112035672B (zh) * | 2020-07-23 | 2023-05-09 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN111897947A (zh) * | 2020-07-30 | 2020-11-06 | 杭州橙鹰数据技术有限公司 | 一种基于开源信息的数据分析处理方法及装置 |
CN112131392A (zh) * | 2020-08-01 | 2020-12-25 | 赛飞特工程技术集团有限公司 | 基于知识图谱的公共卫生疫情预警方法及*** |
CN111967761B (zh) * | 2020-08-14 | 2024-04-02 | 国网数字科技控股有限公司 | 一种基于知识图谱的监控预警方法、装置及电子设备 |
CN112015908A (zh) * | 2020-08-19 | 2020-12-01 | 新华智云科技有限公司 | 知识图谱的构建方法及***、查询方法及*** |
CN111984931B (zh) * | 2020-08-20 | 2022-06-03 | 上海大学 | 一种社会事件网络文本的舆情计算与推演方法及*** |
CN112100324B (zh) * | 2020-08-28 | 2023-05-05 | 广州探迹科技有限公司 | 一种知识图谱的扩展方法、装置、存储介质和计算设备 |
CN111966836A (zh) * | 2020-08-29 | 2020-11-20 | 深圳呗佬智能有限公司 | 知识图谱向量表示方法、装置、计算机设备及存储介质 |
CN112182235A (zh) * | 2020-08-29 | 2021-01-05 | 深圳呗佬智能有限公司 | 一种构建知识图谱的方法、装置、计算机设备及存储介质 |
CN111768869B (zh) * | 2020-09-03 | 2020-12-11 | 成都索贝数码科技股份有限公司 | 面向智能问答***的医学指南图谱化构建搜索***及方法 |
CN112073415B (zh) * | 2020-09-08 | 2022-11-15 | 北京天融信网络安全技术有限公司 | 一种网络安全知识图谱的构建方法及装置 |
CN112100156B (zh) * | 2020-09-15 | 2024-02-20 | 北京百度网讯科技有限公司 | 基于用户行为构建知识库的方法、装置、介质、*** |
US11615150B2 (en) * | 2020-10-09 | 2023-03-28 | Cherre, Inc. | Neighborhood-based entity disambiguation system and method |
CN112328876B (zh) * | 2020-11-03 | 2023-08-11 | 平安科技(深圳)有限公司 | 基于知识图谱的电子卡片生成推送方法、装置 |
CN112633889A (zh) * | 2020-11-12 | 2021-04-09 | 中科金审(北京)科技有限公司 | 一种企业基因测序***及方法 |
CN112417456B (zh) * | 2020-11-16 | 2022-02-08 | 中国电子科技集团公司第三十研究所 | 一种基于大数据的结构化敏感数据还原检测的方法 |
CN112269885B (zh) * | 2020-11-16 | 2024-05-10 | 北京百度网讯科技有限公司 | 用于处理数据的方法、装置、设备以及存储介质 |
CN112711705B (zh) * | 2020-11-30 | 2023-05-09 | 泰康保险集团股份有限公司 | 舆情数据处理方法、设备及存储介质 |
CN112380298B (zh) * | 2020-12-03 | 2024-06-18 | 成都航天科工大数据研究院有限公司 | 一种油气管道缺陷修复的知识图谱构建方法及*** |
CN112507691A (zh) * | 2020-12-07 | 2021-03-16 | 数地科技(北京)有限公司 | 一种融合情感、产业链和事理逻辑的可解释性金融标的物生成方法和装置 |
CN112487208B (zh) * | 2020-12-14 | 2023-06-30 | 杭州安恒信息技术股份有限公司 | 一种网络安全数据关联分析方法、装置、设备及存储介质 |
CN112685405A (zh) * | 2020-12-21 | 2021-04-20 | 福建新大陆软件工程有限公司 | 一种基于知识图谱的数据管理方法、***、设备及介质 |
CN113204636B (zh) * | 2021-01-08 | 2023-12-05 | 北京欧拉认知智能科技有限公司 | 基于知识图谱的用户动态个性化画像方法 |
CN112765368B (zh) * | 2021-01-29 | 2023-08-22 | 索为技术股份有限公司 | 基于工业app的知识图谱建立方法、装置、设备及介质 |
CN113140134B (zh) * | 2021-03-12 | 2022-07-08 | 北京航空航天大学 | 一种面向智慧空管***的航班延误智能预测框架 |
CN113282703B (zh) * | 2021-04-01 | 2022-05-06 | 中科雨辰科技有限公司 | 新闻数据的事件关联图谱构建方法及装置 |
CN113342987B (zh) * | 2021-04-21 | 2024-05-14 | 国网浙江省电力有限公司杭州供电公司 | 配电dtu验收专用语料库的复合网络构建方法 |
CN113010696A (zh) * | 2021-04-21 | 2021-06-22 | 上海勘察设计研究院(集团)有限公司 | 基于元数据模型的工程领域知识图谱构建方法 |
CN113094516A (zh) * | 2021-04-27 | 2021-07-09 | 东南大学 | 一种基于多源数据融合的电网监控领域知识图谱构建方法 |
CN113468340B (zh) * | 2021-06-28 | 2024-05-07 | 北京众标智能科技有限公司 | 一种产业知识图谱的构建***及构建方法 |
CN113656590B (zh) * | 2021-07-16 | 2023-12-15 | 北京百度网讯科技有限公司 | 行业图谱的构建方法、装置、电子设备及存储介质 |
CN113610626A (zh) * | 2021-07-26 | 2021-11-05 | 建信金融科技有限责任公司 | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 |
CN113706002A (zh) * | 2021-08-20 | 2021-11-26 | 华中农业大学 | 一种基于食品安全知识库的监管平台、方法及存储介质 |
CN113868508B (zh) * | 2021-09-23 | 2022-09-27 | 北京百度网讯科技有限公司 | 写作素材查询方法、装置、电子设备和存储介质 |
CN113836293B (zh) * | 2021-09-23 | 2024-04-16 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
CN114090771A (zh) * | 2021-10-19 | 2022-02-25 | 广州数说故事信息科技有限公司 | 一种基于大数据的传播主张和消费者故事分析方法及*** |
CN113987210A (zh) * | 2021-11-09 | 2022-01-28 | 江苏科技大学 | 一种船舶产业知识图谱构建与分析方法 |
CN114417012A (zh) * | 2022-01-20 | 2022-04-29 | 上海弘玑信息技术有限公司 | 一种生成知识图谱的方法和电子设备 |
CN115907144A (zh) * | 2022-11-21 | 2023-04-04 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种事件的预测方法、装置、终端设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测***及其工作方法 |
CN105183869A (zh) * | 2015-09-16 | 2015-12-23 | 分众(中国)信息技术有限公司 | 楼宇知识图谱数据库及其构建方法 |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索*** |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201118619A (en) * | 2009-11-30 | 2011-06-01 | Inst Information Industry | An opinion term mining method and apparatus thereof |
US10075764B2 (en) * | 2012-07-09 | 2018-09-11 | Eturi Corp. | Data mining system for agreement compliance controlled information throttle |
CN102831220B (zh) * | 2012-08-23 | 2015-01-07 | 江苏物联网研究发展中心 | 一种面向主题定制的新闻情报提取*** |
CN103136352B (zh) * | 2013-02-27 | 2016-02-03 | 华中师范大学 | 基于双层语义分析的全文检索*** |
US10073840B2 (en) * | 2013-12-20 | 2018-09-11 | Microsoft Technology Licensing, Llc | Unsupervised relation detection model training |
CN103955505B (zh) * | 2014-04-24 | 2017-09-26 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及*** |
CN104091054B (zh) * | 2014-06-26 | 2017-12-05 | 中国科学院自动化研究所 | 面向短文本的***件预警方法和*** |
CN105468605B (zh) * | 2014-08-25 | 2019-04-12 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN104573016A (zh) * | 2015-01-12 | 2015-04-29 | 武汉泰迪智慧科技有限公司 | 一种基于行业的垂直舆情分析***及方法 |
CN105630901A (zh) * | 2015-12-21 | 2016-06-01 | 清华大学 | 一种知识图谱表示学习方法 |
-
2016
- 2016-08-24 CN CN201610716109.4A patent/CN107783973B/zh active Active
-
2017
- 2017-06-02 WO PCT/CN2017/087000 patent/WO2018036239A1/zh active Application Filing
- 2017-08-17 TW TW106127958A patent/TWI664539B/zh active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测***及其工作方法 |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索*** |
CN105183869A (zh) * | 2015-09-16 | 2015-12-23 | 分众(中国)信息技术有限公司 | 楼宇知识图谱数据库及其构建方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201807602A (zh) | 2018-03-01 |
WO2018036239A1 (zh) | 2018-03-01 |
TWI664539B (zh) | 2019-07-01 |
CN107783973A (zh) | 2018-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107783973B (zh) | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和*** | |
US11704342B2 (en) | Similarity sharding | |
US9626622B2 (en) | Training a question/answer system using answer keys based on forum content | |
US11521603B2 (en) | Automatically generating conference minutes | |
US10691770B2 (en) | Real-time classification of evolving dictionaries | |
US9720904B2 (en) | Generating training data for disambiguation | |
US20160203498A1 (en) | System and method for identifying and scoring leads from social media | |
KR20160121382A (ko) | 텍스트 마이닝 시스템 및 툴 | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施*** | |
US20170249388A1 (en) | Expert Detection in Social Networks | |
CN113095080B (zh) | 基于主题的语义识别方法、装置、电子设备和存储介质 | |
US20170109358A1 (en) | Method and system of determining enterprise content specific taxonomies and surrogate tags | |
KR20150096295A (ko) | 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 | |
EP3968185A1 (en) | Method and apparatus for pushing information, device and storage medium | |
US11436241B2 (en) | Entity resolution based on character string frequency analysis | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
US20110145285A1 (en) | System and method for intent mining | |
Krzywicki et al. | Data mining for building knowledge bases: techniques, architectures and applications | |
CN107480197B (zh) | 实体词识别方法及装置 | |
WO2023129339A1 (en) | Extracting and classifying entities from digital content items | |
KR20150041908A (ko) | 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템 | |
US11514258B2 (en) | Table header detection using global machine learning features from orthogonal rows and columns | |
SCALIA | Network-based content geolocation on social media for emergency management | |
KR102180329B1 (ko) | 가짜 뉴스 판단 시스템 | |
Alsulami et al. | Extracting attributes for twitter hashtag communities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1249598 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |