CN107783973B

CN107783973B - 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***

Info

Publication number: CN107783973B
Application number: CN201610716109.4A
Authority: CN
Inventors: 何超; 梁颖琪; 车慧诗
Original assignee: Wisers Information Ltd
Current assignee: Wisers Information Ltd
Priority date: 2016-08-24
Filing date: 2016-08-24
Publication date: 2022-02-25
Anticipated expiration: 2036-08-24
Also published as: TW201807602A; WO2018036239A1; TWI664539B; CN107783973A

Abstract

本发明提供了一种构建行业知识图谱数据库的方法，包括以下步骤：从数据源获取行业数据；对所述行业数据进行数据处理，以提取与所述行业相关的实体以及对应的实体属性和/或实体关系；基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库。本发明还提供了一种基于所构建的行业知识图谱数据库对与行业相关的特定媒体事件进行监测的方法，包括以下步骤：获取互联网媒体数据；基于所获取的互联网媒体数据进行事件检测、事件评价和筛选，以获取所述与行业相关的特定媒体事件；识别与所述特定媒体事件对应的直接相关实体；基于所述直接相关实体，访问所述行业知识图谱数据库，以确定与所述特定媒体事件对应的非直接相关实体；向所述直接相关实体和/或所述非直接相关实体发送预警消息。

Description

基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***

技术领域

本发明涉及互联网媒体监测领域，具体而言，涉及一种构建行业知识图谱数据库的技术以及一种基于所构建的行业知识图谱数据库对互联网媒体事件进行监测的技术。

背景技术

计算机、通信以及网络技术的迅速发展使包括PC、平板电脑、智能手机、网络电视等在内的终端设备的性能不断提高。相应地，互联网媒体，特别是互联网社交媒体，凭借其多元性、迅捷性、交互性、易复制性、多媒体化等特点，已逐渐成为大众获取新闻资讯的主要途径之一。

然而，互联网媒体信息在具有时效性强、获取方式灵活便捷等优势的同时，其信息源和传播方式的开放性特点也导致了以下问题的存在：在未经授权或证实的情况下，一些敏感消息(例如，商业秘密)甚至虚假消息在互联网媒体平台上被大量用户快速传播，从而演变为对相关的个人、企业/机构、行业乃至社会造成不良影响的媒体事件。因此，需要对互联网媒体中的媒体事件进行监测，并在监测到满足一定条件的媒体事件后采取相应的措施，以降低或消除其潜在的影响。

现有的互联网媒体监测技术则存在以下缺陷：1)使用兴趣匹配的方式为用户提供互联网媒体监测，用户需要自定义感兴趣的内容主题、相关实体等，因此在监测中仅能够识别与用户已定义的实体直接相关的事件，而无法识别用户未定义但是与用户所感兴趣的实体间接相关的事件；2)监测对象的属性单一，仅能够提供针对单一媒体类别和数据源(例如，特定的社交媒体、新闻媒体、论坛、博客等)、单一数据类型(一般为文本)、单一语言的监测。

发明内容

本发明的一个目的是提供一种构建行业知识图谱数据库的技术，将针对特定行业或领域的相关数据提取并保存在知识图谱数据库中，所构建的行业知识图谱数据库可以应用于互联网媒体监测中，以实现对相关互联网媒体事件的自动化、深层次监测。

本发明的另一个目的是提供一种基于所构建的行业知识图谱数据库对互联网媒体事件进行监测的技术，在监测中能够识别出与特定媒体事件对应的非直接相关实体，并且能够对多种类型的互联网媒体数据进行监测。

为了实现上述发明目的，本发明提供的具体技术方案如下。

本发明提供了一种构建行业知识图谱数据库的方法，包括以下步骤：从数据源获取行业数据；对所述行业数据进行数据处理，以提取与所述行业相关的实体以及对应的实体属性和/或实体关系；基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库。

优选地，所述获取行业数据的步骤通过以下方式实现：从第三方行业数据库获取结构化行业数据，所述结构化行业数据包括多个字段；所述对行业数据进行数据处理的步骤通过以下方式实现：对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理；所述构建行业知识图谱数据库的步骤通过以下方式实现：基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。

优选地，所述获取行业数据的步骤通过以下方式实现：利用网络爬虫技术，从互联网数据源获取与行业相关的数据，所述互联网数据源包括非结构化或半结构化数据源；所述对行业数据进行数据处理的步骤通过以下方式实现：利用自然语言处理中的信息抽取技术，对所述行业相关的数据进行实体识别和关系抽取，以提取所述实体、实体属性和/或实体关系；所述构建行业知识图谱数据库的步骤通过以下方式实现：基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。进一步优选地，上述步骤是以预定的周期定期执行的。

优选地，所述获取行业数据的步骤通过以下方式实现：利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据，所述互联网数据源包括开放式数据源；所述对行业数据进行数据处理的步骤通过以下方式实现：在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理；所述构建行业知识图谱数据库的步骤通过以下方式实现：基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。进一步优选地，上述步骤是以预定的周期定期执行的。

优选地，所述获取行业数据的步骤通过以下方式实现：利用应用程序接口(API)或网络爬虫技术，从互联网数据源获取与行业相关的互联网媒体数据；所述对行业数据进行数据处理的步骤通过以下方式实现：对所述互联网媒体数据进行事件检测、事件评价和筛选，以提取与所述行业相关的特定媒体事件，并从所述互联网媒体数据中识别对应的直接相关实体；所述构建行业知识图谱数据库的步骤通过以下方式实现：基于所述特定媒体事件以及对应的直接相关实体，对所述行业知识图谱数据库进行补充，其中，所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。进一步优选地，在所述对行业数据进行数据处理的步骤中通过以下方式中的至少一种识别与所述特定媒体事件对应的直接相关实体：基于自然语言处理中的实体识别从文本数据中识别实体；基于图像或视频识别处理从图像或视频数据中识别实体；或者，基于语音识别处理从音频或视频数据中识别实体。进一步优选地，所述特定媒体事件包括负面事件、突发事件、危机事件、***件、舆情事件或其它具有行业意义的事件。进一步优选地，上述步骤是实时不间断执行的。

优选地，所述构建行业知识图谱数据库的步骤包括：对所提取的实体进行语义消歧和实体链接。进一步优选地，所述对所提取的实体进行语义消歧和实体链接的步骤进一步通过以下方式中的至少一种实现：基于实体知识，对每个所提取的实体指代逐一独立地进行语义消歧和实体链接；基于主题一致性假设，利用候选实体在知识库中的关联，对所提取的实体指代一致性地进行语义消歧和实体链接。

本发明还提供了一种基于本发明中所构建的行业知识图谱数据库对与行业相关的特定媒体事件进行监测的方法，包括以下步骤：获取互联网媒体数据；基于所获取的互联网媒体数据进行事件检测、事件评价和筛选，以获取所述与行业相关的特定媒体事件；识别与所述特定媒体事件对应的直接相关实体；基于所述直接相关实体，访问所述行业知识图谱数据库，以确定与所述特定媒体事件对应的非直接相关实体；向所述直接相关实体和/或所述非直接相关实体发送预警消息。

优选地，所述进行事件检测、事件评价和筛选步骤中的事件检测包括以下步骤：对所获取的互联网媒体数据中的内容进行话题分类，以获得针对特定话题的内容；从所获得的内容中识别涉及的实体；对所获得的内容和所识别的实体进行情感分析，并且基于情感分析的结果对所获得的内容进行过滤；基于过滤后的内容进行事件发现，以对媒体事件进行聚类并发现新的媒体事件。进一步优选地，所述事件检测还包括以下步骤：基于媒体事件的属性对事件的真实性进行分析，并根据分析结果对媒体事件进行排序和/或过滤。

优选地，在所述识别与特定媒体事件对应的直接相关实体的步骤中通过以下方式中的至少一种识别与所述特定媒体事件对应的直接相关实体：基于自然语言处理中的实体识别从文本数据中识别实体；基于图像或视频识别处理从图像或视频数据中识别实体；或者，基于语音识别处理从音频或视频数据中识别实体。

优选地，所述访问行业知识图谱数据库的步骤通过以下方式实现：基于所述直接相关实体，在所述行业知识图谱数据库中查询，以确定所述非直接相关实体。

优选地，所述访问行业知识图谱数据库的步骤通过以下方式实现：基于所述直接相关实体，在所述行业知识图谱数据库中使用数据挖掘技术，以确定所述非直接相关实体。

本发明还提供了一种构建行业知识图谱数据库的装置，包括：数据获取模块，用于从数据源获取行业数据；数据处理模块，用于对所述行业数据进行数据处理，以提取与所述行业相关的实体以及对应的实体属性和/或实体关系；数据库构建模块，用于基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库。

优选地，所述数据获取模块通过以下方式获取行业数据：从第三方行业数据库获得结构化行业数据，所述结构化行业数据包括多个字段；所述数据处理模块通过以下方式进行数据处理：在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理；所述数据库构建模块通过以下方式构建行业知识图谱数据库：基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。

优选地，所述数据获取模块通过以下方式获取行业数据：利用网络爬虫技术，从互联网数据源获得与行业相关的数据，所述互联网数据源包括非结构化或半结构化数据源；所述数据处理模块通过以下方式进行数据处理：利用自然语言处理中的信息抽取技术，对所述行业相关的数据进行实体识别和关系抽取，以提取所述实体、实体属性和/或实体关系；所述数据库构建模块通过以下方式构建行业知识图谱数据库：基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

优选地，所述数据获取模块通过以下方式获取行业数据：利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据，所述互联网数据源包括开放式数据源；所述数据处理模块通过以下方式进行数据处理：在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理；所述数据库构建模块通过以下方式构建行业知识图谱数据库：基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

优选地，所述数据获取模块通过以下方式获取行业数据：用于利用应用程序接口(API)或网络爬虫技术，从互联网数据源获取与行业相关的互联网媒体数据；所述数据处理模块通过以下方式进行数据处理：对所述互联网媒体数据进行事件检测、事件评价和筛选，以提取与所述行业相关的特定媒体事件，并从所述互联网媒体数据中识别对应的直接相关实体；所述数据库构建模块通过以下方式构建行业知识图谱数据库：基于所述特定媒体事件以及对应的直接相关实体，对所述行业知识图谱数据库进行补充，其中，所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。

优选地，所述数据库构建模块进一步通过以下方式中的至少一种识别与所述特定媒体事件对应的直接相关实体：基于自然语言处理中的实体识别从文本数据中识别实体；基于图像或视频识别处理从图像或视频数据中识别实体；或者基于语音识别处理从音频或视频数据中识别实体。

优选地，所述数据库构建模块包括：用于对所提取的实体进行语义消歧和实体链接的模块。进一步优选地，所述用于对所提取的实体进行语义消歧和实体链接的模块进一步通过以下方式中的至少一种进行语义消歧和实体链接：基于实体知识，对每个所提取的实体指代逐一独立地进行语义消歧和实体链接；基于主题一致性假设，利用候选实体在知识库中的关联，对所提取的实体指代一致性地进行语义消歧和实体链接。

优选地，所述特定媒体事件包括负面事件、突发事件、危机事件、***件、舆情事件或其它具有行业意义的事件。

本发明还提供了一种对与行业相关的特定媒体事件进行监测的***，包括：数据获取单元，用于从数据源获得行业数据；数据处理单元，用于对所述行业数据进行数据处理，以提取与所述行业相关的实体以及对应的实体属性和/或实体关系；数据库构建单元，用于基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库；数据库存储单元：用于存储所构建的行业知识图谱数据库；媒体事件监测单元：用于获取互联网媒体数据，基于所获取的互联网媒体数据进行事件检测、事件评价和筛选以获得所述与行业相关的特定媒体事件，并且识别与所述特定媒体事件对应的直接相关实体；数据库访问单元：用于基于所述直接相关实体，访问所述行业知识图谱数据库，以确定与所述特定媒体事件对应的非直接相关实体；消息发送单元，用于向所述直接相关实体和/或所述非直接相关实体发送预警消息。

优选地，所述数据获取单元包括：结构化数据获取单元，用于从第三方行业数据库获得结构化行业数据，所述结构化行业数据包括多个字段；所述数据处理单元包括：结构化数据处理单元，用于在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理；所述数据库构建单元包括：数据库生成单元，用于基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。

优选地，所述数据获取单元包括：行业相关数据获取单元，用于利用网络爬虫技术，从互联网数据源获得与行业相关的数据，所述互联网数据源包括非结构化或半结构化数据源；所述数据处理单元包括：行业相关数据处理单元，用于利用自然语言处理中的信息抽取技术，对所述行业相关的数据进行实体识别和关系抽取，以提取所述实体、实体属性和/或实体关系；所述数据库构建单元包括：数据库补充/更新单元，用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

优选地，所述数据获取单元包括：行业相关数据获取单元，用于利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据，所述互联网数据源包括开放式数据源；所述数据处理单元包括：行业相关数据处理单元，用于在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理；所述数据库构建单元包括：数据库补充/更新单元，用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

优选地，所述数据获取单元包括：媒体数据获取单元，用于利用应用程序接口(API)或网络爬虫技术，从互联网数据源获取与行业相关的互联网媒体数据；所述数据处理单元包括：媒体数据处理单元，用于对所述互联网媒体数据进行事件检测、事件评价和筛选，以提取与所述行业相关的特定媒体事件，并从所述互联网媒体数据中识别对应的直接相关实体；所述数据库构建单元包括：数据库补充/更新单元，用于基于所述特定媒体事件以及对应的直接相关实体，对所述行业知识图谱数据库进行补充，其中，所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。

优选地，所述数据库补充/更新单元进一步用于：对所提取的实体进行语义消歧和实体链接。

优选地，所述媒体事件监测单元进一步用于：对所获取的互联网媒体数据中的内容进行话题分类，以获得针对特定话题的内容；从所获得的内容中识别涉及的实体；对所获得的内容和所识别的实体进行情感分析，并且基于情感分析的结果对所获得的内容进行过滤；基于过滤后的内容进行事件发现，以对媒体事件进行聚类并发现新的媒体事件。进一步优选地，所述媒体事件监测单元进一步用于：基于媒体事件的属性对事件的真实性进行分析，并根据分析结果对媒体事件进行排序和/或过滤。

优选地，所述数据库访问单元进一步用于：基于所述直接相关实体，在所述行业知识图谱数据库中查询，以确定所述非直接相关实体。

优选地，所述数据库访问单元进一步用于：基于所述直接相关实体，在所述行业知识图谱数据库中使用数据挖掘技术，以确定所述非直接相关实体。

通过实施本发明提供的技术方案可以获得以下技术效果：1)针对一个或多个目标领域或行业，实现了对相关互联网媒体事件的自动化、深层次监测，能够识别出与特定媒体事件对应的非直接相关实体；2)在监测中实现了对多个数据源、多种数据类型、多种语言的互联网媒体数据的自动化处理。

附图说明

图1是本发明提供的一种构建行业知识图谱数据库的方法的示例性流程图；

图2是本发明提供的示例性结构化行业数据；

图3是本发明提供的一种对媒体事件进行监测的方法的示例性流程图；

图4是本发明提供的另一种构建行业知识图谱数据库的方法的示例性流程图；

图5是本发明提供的另一种构建行业知识图谱数据库的方法的示例性流程图；

图6是本发明提供的一种对媒体事件进行监测的***的示例性框图。

具体实施方式

以下结合附图通过实施例的形式来描述本发明的具体实施方式，以便于本领域技术人员理解本发明的目的、技术方案和优点。本领域技术人员可以理解，以实施例的形式描述的具体实施方式仅仅是示例性的，而在不具备这些具体内容的情况下也能够实现本发明的构思。

本发明提供了一种构建行业知识图谱数据库的技术以及一种基于所构建的行业知识图谱数据库对互联网媒体事件进行监测的技术，以实现本发明的目的。

本发明涉及知识图谱(Knowledge Graph)数据库技术的应用。知识图谱数据库是用于知识管理的一种特殊的数据库，便于在相关领域中对知识进行采集、整理和提取。在知识图谱数据库中定义了实体、实体属性以及实体关系。其中，实体对应于现实世界中的事物(例如，一个公司A，一个人物X)，每个实体可以用全局唯一的ID来标识。实体属性用于描述实体的内在特性(例如，公司A、人物X的中、英文名称)。实体关系用于连接实体，以描述实体之间的联系(例如，人物X与公司A的任职关系)。通过构建知识图谱数据库，可以更加高效、深入地利用由实体、实体属性、实体关系组成的知识，发现事物之间的复杂联系。

作为一种数据库，知识图谱数据库可以采用多种形式进行存储。举例而言，知识图谱数据库可以采用传统的关系型数据库，使用语义网络RDF(Resource DescriptionFramework)三元组的方式存储，也可以采用新型的非关系型数据库。优选地，知识图谱数据库可以采用图数据库进行存储，例如Neo4j、OrientDB、Titan-BerkeleyDB、HyperGraphDB等。

取决于知识图谱数据库的规模和用途，用于构建知识图谱数据库的数据来源可以是多种多样的。举例而言，数据来源可以是开放式的百科类数据源(例如，百度百科、***等)，也可以是结构化的数据库(例如，维基数据、DBpedia、垂直网站或特定行业的专业数据库等)，还可以是任何相关的第三方半结构化或非结构化数据源(例如，专业网站、在互联网媒体中发布的内容，包括新闻、公司年报、企业公告等)。

本领域技术人员应当理解，本发明中所构建的知识图谱数据库在构建过程中是以特定的领域或行业为导向的，但不局限于单个行业。所构建的知识图谱数据库实现了将与一个或多个行业相关的实体和事件、实体和事件的属性以及实体与实体、实体与事件、事件与事件之间的关系整合联接成为一个知识的图谱。

图1是本发明提供的一种构建行业知识图谱数据库的方法的示例性流程图，该方法可以包括步骤S11-S15。

在步骤S11中，从行业数据源获得行业数据，并从所述行业数据中提取实体以及对应的实体属性和实体关系，以生成所述行业知识图谱数据库。

行业数据源是针对一个或多个特定领域或行业的基本数据的来源，其中，这些领域或行业被作为监测的目标。在一个实施例中，行业数据源可以是结构化的行业数据库，以尽可能获得高质量的行业基本数据。可以通过应用程序接口(API)来访问结构化数据库，以查询方式(例如，通过查询命令)获得数据。

通过“抽取-转换-加载(Extraction-Transform-Load，ETL)”处理，可以对所获得的行业数据进行转换，然后从转换后的数据中提取实体、实体属性和实体关系并将其加载至本发明提出的行业知识图谱数据库中。ETL操作的具体执行步骤可以通过现有的数据整合手段来实现。举例而言，在基于本体的数据整合方法中，以预定的方式定义不同数据库中的各个字段与各种实体信息之间的映射关系，从而根据所述字段及其内容提取实体、实体属性及实体关系，完成构建基本行业知识图谱数据库。另外，由于行业数据库在结构上存在差异，并可能存在数据噪声、数据缺失或数据错误等问题，所以在对行业数据进行数据处理的过程中可能还需要对其进行数据清洗操作。可以采用本领域已知的技术手段，与ETL处理相结合来实现数据清洗操作。

作为一个实例，图2示出了示例性的结构化行业数据，如上文所述，该数据可以是从结构化的行业数据库获得的。在图2中，表1是上市公司结构化数据的示例，其包括公司A和公司B两个数据条目，每个数据条目又包括公司中英文名称、注册地址、股票代码、董事会***等多个字段。通过对该结构化数据进行ETL操作，可以提取其中的实体(即公司A、公司B、人物X、人物Y)、实体属性(即公司A和公司的B的具体信息)以及实体关系(即公司A与人物X以及公司B与人物Y的任职关系)，从而生成了针对所属行业的知识图谱数据库。

在另一个实施例中，行业数据源也可以是来自互联网的半结构化或非机构化数据源，并且可以通过网络爬虫技术从数据源中抓取行业数据，并采用基于自然语言处理技术的信息抽取操作来提取实体、实体属性以及实体关系。

在步骤S12中，从互联网数据源获得与所述行业相关的数据，并从所述数据中提取与所述行业相关的实体以及对应的实体属性和实体关系。

在该步骤中，首先从互联网数据源中获得与上述特定领域或行业相关的数据。互联网数据源可以是结构化、半结构化或非结构化的数据源。因此，针对互联网数据源的不同结构特性，可以采用不同的方式获得与行业相关的数据。然后，从与行业相关的数据中提取实体以及对应的实体属性和实体关系。

对于结构化的互联网数据源，可以通过API查询对应的数据内容并获得实体、实体属性和实体关系。对于半结构化的数据源，则可以在抓取数据内容后，通过自然语言处理技术中的信息抽取操作对内容进行分析，从而提取出与行业相关的实体、实体属性和实体关系。半结构化的数据源即包含部分结构化、部分非结构化数据的数据源，因此可以分别按照处理结构化和非结构化数据的方式来处理半结构化数据中的对应部分。举例而言，HTML和XML文件是最常见的半结构化数据。在处理HTML和XML文件的过程中，一方面可以使用其中基于标记符的结构化信息，另一方面可以结合信息抽取技术与机器学习技术来提取所需的信息。

在一个实施例中，信息抽取操作包括实体识别操作和关系抽取操作。

实体识别操作可以采用现有自然语言处理工具(例如，词性标注或命名实体识别工具)，或者以机器学习方法针对特定标注数据对实体识别模型进行训练。需要指出的是，一些自然语言处理任务和处理工具是与语言相关的(例如，中文数据需要进行分词处理，英文数据则不需要)。机器学习方法以数字化方式表示不同语言和格式的数据，然后采用通用的、与语言无关的算法(例如，条件随机场算法和隐马尔可夫模型)进行模型训练。

关系抽取操作可以通过多种现有统计学习或机器学习方法实现。例如，可以采用模板学习方法，以知识图谱数据库中符合某种关系的实体作为实例，在大量文本中抽取并统计现有实例在文本中出现的句式、语境等形成关系抽取模板，然后将所形成的模板应用在文本数据中以抽取新的实例。如果抽取到知识图谱数据库中尚不存在的实例，则可以将其补充到知识图谱数据库中。

在步骤S13中，基于所述与行业相关的实体以及对应的实体属性和实体关系，对所述行业知识图谱数据库进行补充或更新。

在提取与行业相关的实体以及对应的实体属性和实体关系之后，可以将其与知识图谱数据库中的对应信息进行关联和比对，并按需要将新的实体、实体属性和实体关系加入到知识图谱数据库中，并且可以对现有的实体属性和实体关系进行更新。

如上文所述，本发明所提出的行业知识图谱数据库可以采用传统的关系型数据库，RDF三元组数据库，也可以采用新型的非关系型数据库(例如，图数据库)。对应地，补充或更新知识图谱数据库的具体操作可以利用数据库查询语言以定制化的方式实现，例如，这些数据库查询语言包括针对关系数据库的SQL语言、RDF三元组查询语言SPARQL、用于Neo4j图数据库的Cypher语言等。

继续结合图2中的实例进行说明。假设通过API查询的方式从结构化的互联网数据源获得了表2的上市公司高管结构化数据，则可以对行业知识图谱数据库进行以下补充和更新：1)将人物Z、人物Z的实体属性以及人物Z与公司B的任职关系补充到知识图谱数据库中；2)补充人物X和人物Y的实体属性；3)更新人物Y和公司B的任职关系(即从“现任职”更新为“曾任职”)。

在一个实施例中，在补充或更新行业知识图谱数据库的过程中需要进行实体链接操作和语义消歧操作。

实体链接操作旨在将数据内容中出现的某个实体指代(或实体指称、entitymention)对应到知识图谱数据库中的相关实体概念。例如，在“乔布斯是苹果的创办人之一”以及“史蒂夫·乔布斯于1985年在美国创建NeXT”这两个句子中，“乔布斯”和“史蒂夫·乔布斯”这两个实体指代都应该对应到知识图谱数据库中的同一人物实体概念“史蒂夫·乔布斯(Steve Jobs,ex-CEO of Apple)”，因此需要通过实体链接操作将这个两个实体指代关联到同一个实体。语义消歧旨在对有歧义的实体指代进行消歧操作。例如，“苹果”这个实体指代可以对应多个有歧义的实体，例如“苹果(水果)”、“苹果公司(Apple Inc.)”、“苹果(电影)”等，而上述例子中第一个句子里的“苹果”应该对应到知识图谱数据库中的公司实体概念“苹果公司(Apple Inc.)”而不是“苹果(水果)”或“苹果(电影)”。实体链接和语义消歧通常都是一起进行的。因为语义消歧是实体链接的手段，而实体链接是语义消歧的目的；所以两者经常在不同场合互换使用或互相表示。

任何现有的实体链接和语义消歧技术均可用于本发明中。举例而言，其中一类方法基于实体知识对实体指代逐一独立地进行消歧与链接。实体知识包括但不局限于，实体的出现概率、实体的名字分布(全名、别名、缩写等)、实体的上下文语境(如词的共现信息、词分布等)以及实体在知识库中的类别信息(如公司实体、个人实体、地点实体等)等。可以使用基于概率的(如线性回归或逻辑回归等)或机器学习的(如支持向量机(SupportVector Machines)、随机森林(Random Forest)等)手段来学习并训练基于实体知识的语义消歧和实体链接模型。另一类方法基于主题一致性的假设(即文章中的实体通常与文本主题相关，所以这些实体之间也具有语义相关性)，利用文本内容中所有实体指代的候选实体在知识库(如***或本发明构建的知识图谱)中的关联对一篇文章中的所有实体指代一致性地进行消歧与链接。这一类方法在计算过程中通常使用基于图数据结构的协同推理，即将文章内容中所有实体指代的候选实体，利用其在知识库中的关系构建成一个候选实体图，图的稠密分布反映了图中不同候选实体结点之间的语义关联程度。实体链接的过程就是：通过将证据(不同实体间可能的关联度)按照候选实体图的依存结构迭代传递以协同增强证据，直至收敛。上述两类方法也可以灵活地或有机地进行组合来提高消歧和链接的性能。

在步骤S14中，从互联网数据源获得与所述行业相关的互联网媒体数据，并从所述互联网媒体数据中提取与所述行业相关的特定媒体事件以及对应的直接相关实体。

可以通过多种方式从互联网数据源获取互联网媒体数据。例如，一些社交媒体网站(例如，新浪微博、Facebook、Twitter等)都开放了用于获取其数据的API。也可以利用网路爬虫技术和内容抽取技术来抓取新闻网站或行业媒体网站数据。

在本领域中已有多种对互联网媒体进行监测以获得特定媒体事件的技术实现方式。举例而言，在一种实现方式中，先对互联网媒体数据进行检测，以发现感兴趣的特定领域或行业中媒体事件的内容以及事件所涉及的实体，然后再对新发现的媒体事件按不同指标(例如，事件的负面性、重大性、突发性、传播速度与范围、可信度等)进行评价，以筛选出符合要求的媒体事件。

针对不同类型的互联网媒体数据，可以采用不同的处理技术识别与媒体事件对应的直接相关实体。例如，可以使用基于自然语言处理的实体识别技术从文本数据中识别实体，可以使用图像或视频识别处理技术从图像或视频数据中识别实体，并且可以使用语音识别处理技术从音频或视频数据中识别实体。本领域技术人员可以理解，本发明并不对互联网媒体数据的媒体类型以及语言种类做出限制。

在步骤S15中，基于所述特定媒体事件以及对应的直接相关实体，对所述行业知识图谱数据库进行补充，其中，所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。

在获得与行业相关的特定媒体事件以及对应的直接相关实体(例如，某上市公司***贪腐丑闻事件以及该事件中涉及的公司、人物、地点)之后，把该事件作为抽象实体补充到行业知识图谱数据库中，同时对事件所涉及的直接相关实体进行实体链接和语义消歧，即找出所述实体在行业知识图谱数据库中对应的实体，并将其与代表所述事件的抽象实体进行关联。如发现事件所涉及实体并不存在于行业知识图谱数据库中，则可以按上述步骤S13中说明的方式进行补充。在完成对行业知识图谱数据库的补充之后，即可基于所述事件的直接相关实体在知识图谱数据库中与其他实体之间的关系，找出代表媒体事件的抽象实体在行业知识图谱数据库中的其他非直接相关实体。

在通过以上方式构建行业知识图谱数据库之后，就可以基于所构建的信息对互联网媒体事件进行自动化、深层次的监测。优选地，在完成行业知识图谱数据库的首次构建后，为了保持信息的完整性和有效性，还可以对行业知识图谱数据库进行更新，例如，可以以预定的周期定期执行步骤S12和S13，还可以以实时不间断的方式执行步骤S14和S15。

另外，本领域技术人员可以理解，本发明中所涉及的行业数据、与行业相关的数据以及互联网媒体数据等各种数据的内容可以是多种语言的，也可以是多种类型的(例如，文本、图像、视频、语音等)，本发明并不对此做出任何限制。

图3是本发明提供的一种对媒体事件进行监测的方法的示例性流程图，该方法可以基于本发明中所构建的行业知识图谱数据库对与行业相关的特定媒体事件进行监测。该方法可以包括步骤S31-S35。

在步骤S31中，获取互联网媒体数据。

如上文所述，可以通过多种方式从互联网数据源获取互联网媒体数据。例如，一些社交媒体网站(例如，新浪微博、Facebook、Twitter等)都开放了用于获取其数据的API。也可以利用网路爬虫技术和内容抽取技术来抓取新闻网站或行业媒体网站数据。

在步骤S32中，基于所获取的互联网媒体数据进行事件检测、事件评价和筛选，以获得所述与行业相关的特定媒体事件。

如上文所述，在本领域中已有多种对互联网媒体进行监测以获得特定媒体事件的技术实现方式。举例而言，在一种实现方式中，先对互联网媒体数据进行检测，以发现感兴趣的特定领域或行业中媒体事件的内容以及事件所涉及的实体，然后再对新发现的媒体事件按不同指标(例如，事件的负面性、重大性、突发性、传播速度与范围、可信度等)进行评价，以筛选出符合要求的媒体事件。

具体而言，在一个实施例中，事件检测涉及的技术实现步骤可以包括：话题分类、实体识别、情感分析和事件发现。

在话题分类的步骤中，对所获取的互联网媒体数据中的内容进行话题分类以获得针对特定话题的内容。话题分类的目的是从所获取的内容中筛选出属于某种感兴趣话题或与客户需求相关种类的文本。话题分类是一种文本挖掘技术，一般采用机器学习或深度学习方法在标注数据上训练分类模型，然后应用到文本上以判断其话题类别。任何现有分类模型(例如，朴素贝叶斯模型、决策树、支持向量机、人工神经网络等)都可用于本发明中。

在实体识别的步骤中，从所获得的内容中识别涉及的实体。实体抽取的目的是找出文章中涉及的实体作进一步分析。举例而言，实体识别可以包括以自然语言处理中的信息抽取技术从文本信息中抽取实体，以图像识别技术从图像(含视频)信息中识别实体，以及以语音识别技术从语音信息中识别实体，还可以对从文本、图像、与语音中识别的实体进行合并处理。

在情感分析的步骤中，对所获得的内容和所识别的实体进行情感分析，并且基于情感分析的结果对所获得的内容进行过滤。情感分析用于判断内容全文以及针对不同实体所表达的情感极性，以找出符合监测条件的内容。现有技术一般以文本分类方法(例如，将情感归类为正面、中性或负面)或回归分析方法(例如，将情感表示成-5到+5之间的分数)实现情感分析。判断内容中针对某一实体的情感则可利用实体在文本中的上下文信息，或者采用依存句法分析工具找出文本中跟该实体相关的文字部份以进行针对实体的情感分析。

在事件发现的步骤中，基于过滤后的内容进行事件发现以对媒体事件进行聚类并发现新的媒体事件。事件发现的目的是从不同文本提取出事件信息(例如，事件发生的时间、地点等)，然后将相关的信息聚类、合并成为抽象“事件”，通过与现有事件进行比对以判断新出现的事件，并根据内容的相似性或相关性对事件进行聚类。

在一个实施例中，可选地，在事件检测的过程中，还可以基于媒体事件的属性(例如，事件发生的时间、地点，媒体事件发布者及其相关属性等)对事件的真实性进行分析，并根据分析结果对媒体事件进行排序和/或过滤。

本领域技术人员可以理解，在上述步骤中针对各项操作所列举的实现方式仅仅是示例性的，本领域现有的一些其他方式也可以实现这些操作，本发明并不对实现上述操作的具体方式做出任何限制。

在步骤S33中，识别与所述特定媒体事件对应的直接相关实体。

在一个实施例中，通过事件监测中的实体识别和事件发现操作就可以获得每个媒体事件中的各个直接相关实体。同时，如上文所述，可以通过实体链接和语义消歧处理将各个直接相关实体关联到行业知识图谱数据库中对应的实体概念或补充到行业知识图谱数据库中。

在步骤S34中，基于所述直接相关实体，访问所述行业知识图谱数据库，以确定与所述特定媒体事件对应的非直接相关实体。

在一个实施例中，可以通过预设的各种条件，在行业知识图谱数据库上直接查询与事件直接相关实体有关联关系的其它非直接相关实体。例如，预设的条件可以是：1)与事件直接相关实体在N层内有关联关系的实体(N可以为1，2，3…)；2)与事件直接相关实体关联程度满足某种条件(如大于某个指定阈值)的其它实体；3)与事件直接相关实体具有某种特定关系(例如，供货关系、投资关系等)的实体；4)具有某种特定属性(例如，属于某个指定行业、位于某个地点、拥有某个职位等)的实体。这些预设的条件可以单独或随意组合使用。

在另一个实施例中，可以采用数据挖掘的方法，在行业知识图谱数据库的基础之上利用多种条件来挖掘事件的非直接相关实体。举例而言，具体实施方法可以采用针对图数据的链接预测技术(link prediction)，即把检测某事件的非直接相关实体问题表示成“预测行业知识图谱数据库中代表该事件的节点与直接相关实体节点以外的其他实体节点之间是否存在连边”这一技术问题。可用于链接预测的条件包括但不局限于事件本身的特征(例如，事件的类型、时间与地点属性、负面性等)、该事件与历史事件的关系(包括关系种类与关系强度)、事件直接相关实体与其他实体之间的关系(包括关系种类和关系强度)以及实体类型和属性等所有可以在知识图谱数据库中挖掘到的知识，从而实现对特定媒体事件的非直接相关实体的综合判断。

在步骤S35中，向所述直接相关实体和/或所述非直接相关实体发送预警消息。

在识别出与特定媒体事件对应的直接和非直接相关实体后，可以利用多种途径(例如，电子邮件、手机短信、实时聊天工具、社交网络平台等)向对应的实体用户发送预警消息。预警消息可以包含对事件本身的文字描述、图片、传播相关统计信息、事件评估指标以及相关实体可能如何受到该事件影响的途径等等。

本领域技术人员可以理解，本发明中所述的特定媒体事件可以是符合用户所设定条件并且可以从互联网媒体中获得的各种类型的事件，例如，负面事件、突发事件、危机事件、***件或舆情事件等。本发明并不对此做出任何限制。

作为一个优选的实施例，图4示出了本发明提供的另一种构建行业知识图谱数据库的方法的示例性流程图。该方法可以包括步骤S41、S421/S422以及S43-S45。

在步骤S41中，从行业数据源获得行业数据，并从所述行业数据中提取实体以及对应的实体属性和实体关系，以生成行业知识图谱数据库。

在步骤S421中，基于结构化数据源，利用应用程序接口以查询方式获得与所述行业相关的实体、实体属性和实体关系。在一个实施例中，所述结构化数据源可以如维基数据、DBPedia这样的结构化开放数据平台，并且可以通过API从中获得与行业相关的数据。

在步骤S422中，基于半结构化或非结构化数据源，利用自然语言处理技术对数据进行实体识别和关系抽取，以提取与所述行业相关的实体、实体属性和实体关系。在一个实施例中，所述半结构化或非结构化数据源可以诸如***、百度百科这样的开放数据平台，也可以是任何相关的第三方数据源(例如，专业网站、在互联网媒体中发布的内容等)，并且可以通过网络爬虫或内容抽取技术获得与行业相关的数据。

优选地，可以以预定的周期定期执行步骤S421和/或S422、S43。

在步骤S43中，基于所述与行业相关的实体以及对应的实体属性和实体关系，对行业知识图谱数据库进行补充或更新。

在步骤S44中，从互联网数据源获得互联网媒体数据，并从所述互联网媒体数据中提取与所述行业相关的特定媒体事件以及对应的直接相关实体。

在步骤S45中，基于所述特定媒体事件以及对应的直接相关实体，对行业知识图谱数据库进行补充，其中，所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。

优选地，可以以实时不间断的方式执行步骤S44和S45

图5是本发明提供的另一种构建行业知识图谱数据库的方法的示例性流程图。该方法可以包括步骤S51-S53：

在步骤S51中，从数据源获取行业数据；

在步骤S52中，对所述行业数据进行数据处理，以提取与所述行业相关的实体以及对应的实体属性和/或实体关系；

在步骤S53中，基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库。

如上文所述，行业知识图谱数据库的数据来源可以是多种多样的，包括但不限于开放式的百科类数据源、结构化的数据库以及任何相关的第三方半结构化或非结构化互联网数据源。同时，如上文所述，行业知识图谱数据库的数据来源还可以是互联网媒体数据源。

在一个实施例中，所述数据源可以是结构化的行业数据库，并且所述方法可以通过以下具体方式实现：在步骤S51(1)中，从第三方行业数据库获取包括多个字段的结构化行业数据；在步骤S52(1)中，在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理；在步骤S53(1)中，基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。

在另一个实施例中，所述数据源可以是非结构化或半结构化的互联网数据源，并且所述方法可以通过以下具体方式实现：在步骤S51(2)中，利用网络爬虫技术，从互联网数据源获取与行业相关的数据，所述互联网数据源包括非结构化或半结构化数据源；在步骤S52(2)中，利用自然语言处理中的信息抽取技术，对所述行业相关的数据进行实体识别和关系抽取，以提取所述实体、实体属性和/或实体关系；在步骤S53(2)中，基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

此外，所述步骤S51(2)-S53(2)可以是以预定的周期定期执行的。

在另一个实施例中，所述数据源可以是开放式的互联网数据源，并且所述方法可以通过以下具体方式实现：在步骤S51(3)中，利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据；在步骤S52(3)中，在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理；在步骤S53(3)中，基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

此外，所述步骤S51(3)-S53(3)可以是以预定的周期定期执行的。

在另一个实施例中，所述数据源可以是互联网媒体数据源，并且所述方法可以通过以下具体方式实现：在步骤S51(4)中，利用应用程序接口(API)或网络爬虫技术，从互联网数据源获取互联网媒体数据；在步骤S52(4)中，对所述互联网媒体数据进行事件检测、事件评价和筛选，以提取与所述行业相关的特定媒体事件，并从所述互联网媒体数据中识别对应的直接相关实体；在步骤S53(4)中，基于所述特定媒体事件以及对应的直接相关实体，对所述行业知识图谱数据库进行补充，其中，所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。

举例而言，在步骤S52(4)中可以通过以下方式中的至少一种识别与特定媒体事件对应的直接相关实体：基于自然语言处理中的实体识别从文本数据中识别实体；基于图像或视频识别处理从图像或视频数据中识别实体；或者，基于语音识别处理从音频或视频数据中识别实体。

举例而言，所述特定媒体事件可以包括负面事件、突发事件、危机事件、***件、舆情事件或其它具有行业意义的事件。

此外，所述步骤S51(4)-S53(4)可以是实时不间断执行的。

在另一个实施例中，上述步骤S53(2)、S53(3)、S53(4)中对所述行业知识图谱数据库进行补充或更新的步骤可以包括：对所提取的实体进行语义消歧和实体链接。举例而言，可以通过以下方式中的至少一种进行所述语义消歧和实体链接：基于实体知识，对每个所提取的实体指代逐一独立地进行语义消歧和实体链接；基于主题一致性假设，利用候选实体在知识库中的关联，对所提取的实体指代一致性地进行语义消歧和实体链接。

以上以实施例的方式描述了本发明提供的一种构建行业知识图谱数据库的方法。本领域技术人员可以理解，这些实施例的各种组合也包括在这种构建行业知识图谱数据库的方法的构思之内。

图6是本发明提供的一种对媒体事件进行监测的***的示例性框图。该***包括数据获取单元、数据获取单元、数据库构建单元、数据库存储单元、媒体事件监测单元、数据库访问单元以及消息发送单元。

数据获取单元，用于从数据源获得行业数据。

数据处理单元，用于对所述行业数据进行数据处理，以提取与所述行业相关的实体以及对应的实体属性和/或实体关系；

数据库构建单元，用于基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库；

数据库存储单元：用于存储所构建的行业知识图谱数据库；

媒体事件监测单元：用于获取互联网媒体数据，基于所获取的互联网媒体数据进行事件检测、事件评价和筛选以获得所述与行业相关的特定媒体事件，并且识别与所述特定媒体事件对应的直接相关实体；

数据库访问单元：用于基于所述直接相关实体，访问所述行业知识图谱数据库，以确定与所述特定媒体事件对应的非直接相关实体；

消息发送单元，用于向所述直接相关实体和/或所述非直接相关实体发送预警消息。

在一个实施例中，所述数据获取单元包括：结构化数据获取单元，用于从第三方行业数据库获得结构化数据，所述结构化数据包括多个字段；所述数据处理单元包括：结构化数据处理单元，用于对所述结构化数据进行数据清洗以及抽取-转换-加载(ETL)处理；所述数据库构建单元包括：数据库生成单元，用于基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。

在另一个实施例中，所述数据获取单元包括：行业相关数据获取单元，用于利用网络爬虫技术，从互联网数据源获得与行业相关的数据，所述互联网数据源包括非结构化或半结构化数据源；所述数据处理单元包括：行业相关数据处理单元，用于利用自然语言处理中的信息抽取技术，对所述行业相关的数据进行实体识别和关系抽取，以提取所述实体、实体属性和/或实体关系；所述数据库构建单元包括：数据库补充/更新单元，用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

在另一个实施例中，所述数据获取单元包括：行业相关数据获取单元，用于利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据，所述互联网数据源包括开放式数据源；所述数据处理单元包括：行业相关数据处理单元，用于在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理；所述数据库构建单元包括：数据库补充/更新单元，用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

在另一个实施例中，所述数据获取单元包括：媒体数据获取单元，用于利用应用程序接口(API)或网络爬虫技术，从互联网数据源获取与行业相关的互联网媒体数据；所述数据处理单元包括：媒体数据处理单元，用于对所述互联网媒体数据进行事件检测、事件评价和筛选，以提取与所述行业相关的特定媒体事件，并从所述互联网媒体数据中识别对应的直接相关实体；所述数据库构建单元包括：数据库补充/更新单元，用于基于所述特定媒体事件以及对应的直接相关实体，对所述行业知识图谱数据库进行补充，其中，所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。

在一个实施例中，所述数据库补充/更新单元进一步用于：对所提取的实体进行语义消歧和实体链接。

在一个实施例中，所述媒体事件监测单元进一步用于：对所获取的互联网媒体数据中的内容进行话题分类，以获得针对特定话题的内容；从所获得的内容中识别涉及的实体；对所获得的内容和所识别的实体进行情感分析，并且基于情感分析的结果对所获得的内容进行过滤；基于过滤后的内容进行事件发现，以对媒体事件进行聚类并发现新的媒体事件。在另一个实施例中，所述媒体事件监测单元进一步用于：基于媒体事件的属性对事件的真实性进行分析，并根据分析结果对媒体事件进行排序和/或过滤。

在一个实施例中，所述数据库访问单元进一步用于：基于所述直接相关实体，在所述行业知识图谱数据库中查询，以确定所述非直接相关实体。在另一个实施例中，所述数据库访问单元进一步用于：基于所述直接相关实体，在所述行业知识图谱数据库中使用数据挖掘技术，以确定所述非直接相关实体。

以上以实施例的方式描述了本发明提供的一种对媒体事件进行监测的***。本领域技术人员可以理解，上文结合附图1、3-5所描述的各种方法中的操作步骤可以应用在所述***的组成单元中，因此这里不再赘述。

本领域技术人员还应当理解，结合本发明公开的各个实施例所描述的各种示例性的方法步骤和单元均可以实现成电子硬件、计算机软件或二者的组合。为了清楚地表示硬件和软件的可交换性，上文中各种示例性的步骤和单元均围绕其功能进行了总体描述。至于这种功能是实现成硬件还是实现成软件，则取决于特定的应用和对整个***所施加的设计约束条件。本领域技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为引起与本公开内容的范围的偏离。

本发明说明书中使用的“示例/示例性”表示用作例子、例证或说明。说明书中被描述为“示例性”的任何技术方案不应被解释为比其它技术方案更优选或更具优势。

本发明提供了对所公开的技术内容的以上描述，以使本领域技术人员能够实现或使用本发明。对于本领域技术人员而言，对这些技术内容的很多修改和变形都是显而易见的，并且本发明所定义的总体原理也可以在不脱离本发明的精神或范围的基础上适用于其它实施例。因此，本发明并不限于上文所示的具体实施方式，而是应与符合本发明公开的发明构思的最广范围相一致。

Claims

1.一种构建行业知识图谱数据库的方法，其特征在于，包括以下步骤：

步骤101，从数据源获取一个或多个特定行业的行业数据，所述行业数据包括互联网媒体数据；

步骤102，对所述行业数据进行数据处理，以提取与所述行业相关的实体以及对应的实体属性和/或实体关系，并且对所述互联网媒体数据进行事件检测、事件评价和筛选，以提取与所述行业相关的特定媒体事件，其中，事件检测包括：对所述互联网媒体数据进行话题分类，以获得针对特定话题的内容；从获得的内容中识别涉及的实体；对所获得的内容和所识别的实体进行情感分析，并且基于情感分析的结果对所获得的内容进行过滤；基于过滤后的内容进行事件发现，以对媒体事件进行聚类并发现新的媒体事件；

步骤103，对所提取的实体进行语义消歧和实体链接，基于所提取的所述特定媒体事件以及所述实体、实体属性和/或实体关系构建所述行业知识图谱数据库。

2.根据权利要求1所述的方法，其特征在于，

所述步骤101还包括：从第三方行业数据库获取结构化行业数据，所述结构化行业数据包括多个字段；

所述步骤102还包括：在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理；

所述步骤103还包括：基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。

3.根据权利要求1所述的方法，其特征在于，

所述步骤101还包括：利用网络爬虫技术，从互联网数据源获取与行业相关的数据，所述互联网数据源包括非结构化或半结构化数据源；

所述步骤102还包括：利用自然语言处理中的信息抽取技术，对所述与行业相关的数据进行实体识别和关系抽取，以提取所述实体、实体属性和/或实体关系；

所述步骤103还包括：基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

4.根据权利要求1所述的方法，其特征在于，

所述步骤101还包括：利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据，所述互联网数据源包括开放式数据源；

所述步骤102还包括：在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理；

5.根据权利要求1所述的方法，其特征在于，

所述步骤101进一步包括：利用应用程序接口(API)或网络爬虫技术，从互联网数据源获取与行业相关的互联网媒体数据；

所述步骤102进一步包括：从所述互联网媒体数据中识别所述特定媒体事件对应的直接相关实体；

所述步骤103进一步包括：基于所述特定媒体事件以及对应的直接相关实体，对所述行业知识图谱数据库进行补充，其中，所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。

6.根据权利要求5所述的方法，其特征在于，在所述步骤102中进一步通过以下方式中的至少一种提取与所述特定媒体事件对应的直接相关实体：

基于自然语言处理中的实体识别从文本数据中识别实体；

基于图像或视频识别处理从图像或视频数据中识别实体；或者

基于语音识别处理从音频或视频数据中识别实体。

7.根据权利要求3-5中任一项所述的方法，其特征在于，所述步骤103包括：对所提取的实体进行语义消歧和实体链接，以识别所述实体在行业知识图谱数据库中的对应实体。

8.根据权利要求7所述的方法，其特征在于，所述对所提取的实体进行语义消歧和实体链接的步骤进一步通过以下方式中的至少一种实现：

基于实体知识，对每个所提取的实体指代逐一独立地进行语义消歧和实体链接；

基于主题一致性假设，利用候选实体在知识库中的关联，对所提取的实体指代进行一致性地语义消歧和实体链接。

9.根据权利要求1所述的方法，其特征在于，所述特定媒体事件包括负面事件、突发事件、危机事件、***件或舆情事件。

10.根据权利要求3或4所述的方法，其特征在于，所述步骤101-103是以预定的周期定期执行的。

11.根据权利要求5所述的方法，其特征在于，所述步骤101-103是实时不间断执行的。

12.一种基于权利要求1-11中任一项所述的方法构建的行业知识图谱数据库对与行业相关的特定媒体事件进行监测的方法，其特征在于，包括以下步骤：

步骤1201，获取互联网媒体数据；

步骤1202，基于所获取的互联网媒体数据进行事件检测、事件评价和筛选，以获取所述与行业相关的特定媒体事件；

步骤1203，提取与所述特定媒体事件对应的直接相关实体；

步骤1204，基于所述直接相关实体在所述行业知识图谱数据库中的关联关系，确定与所述特定媒体事件对应的非直接相关实体；

步骤1205，向所述直接相关实体和/或所述非直接相关实体发送预警消息。

13.根据权利要求12所述的方法，其特征在于，所述步骤1202中的事件检测包括以下步骤：

对所获取的互联网媒体数据中的内容进行话题分类，以获得针对特定话题的内容；

从所获得的内容中识别涉及的实体；

对所获得的内容和所识别的实体进行情感分析，并且基于情感分析的结果对所获得的内容进行过滤；

基于过滤后的内容进行事件发现，以对媒体事件进行聚类并发现新的媒体事件。

14.根据权利要求13所述的方法，其特征在于，所述步骤1202中的事件检测还包括以下步骤：

基于媒体事件的属性对事件的真实性进行分析，并根据分析结果对媒体事件进行排序和/或过滤。

15.根据权利要求12所述的方法，其特征在于，在所述步骤1203中通过以下方式中的至少一种提取与所述特定媒体事件对应的直接相关实体：

基于自然语言处理中的实体识别从文本数据中识别实体；

基于语音识别处理从音频或视频数据中识别实体。

16.根据权利要求12所述的方法，其特征在于，所述步骤1204通过以下方式实现：

对所述直接相关实体进行语义消歧和实体链接，以识别行业知识图谱数据库中的对应实体，并基于所述直接相关实体，以预设条件对所述行业知识图谱数据库中的其他实体和/或实体关系进行查询，以确定所述非直接相关实体。

17.根据权利要求12所述的方法，其特征在于，所述步骤1204通过以下方式实现：

对所述直接相关实体进行语义消歧和实体链接，以识别行业知识图谱数据库中的对应实体，并基于所述直接相关实体，对所述行业知识图谱数据库中的其他实体和/或实体关系使用数据挖掘技术，以确定所述非直接相关实体。

18.根据权利要求16-17中任何一项所述的方法，其特征在于，所述对直接相关实体进行语义消歧和实体链接的步骤进一步通过以下方式中的至少一种实现：

19.一种构建行业知识图谱数据库的装置，其特征在于，包括：

数据获取模块，用于从数据源获取一个或多个特定行业的行业数据，所述行业数据包括互联网媒体数据；

数据处理模块，用于对所述行业数据进行数据处理，以提取与所述行业相关的实体以及对应的实体属性和/或实体关系，并且对所述互联网媒体数据进行事件检测、事件评价和筛选，以提取与所述行业相关的特定媒体事件，其中，事件检测包括：对所述互联网媒体数据进行话题分类，以获得针对特定话题的内容；从获得的内容中识别涉及的实体；对所获得的内容和所识别的实体进行情感分析，并且基于情感分析的结果对所获得的内容进行过滤；基于过滤后的内容进行事件发现，以对媒体事件进行聚类并发现新的媒体事件；

数据库构建模块，用于对所提取的实体进行语义消歧和实体链接，基于所提取的所述特定媒体事件以及所述实体、实体属性和/或实体关系构建所述行业知识图谱数据库。

20.根据权利要求19所述的装置，其特征在于，

所述数据获取模块还用于：从第三方行业数据库获得结构化行业数据，所述结构化行业数据包括多个字段；

所述数据处理模块还用于：在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理；

所述数据库构建模块还用于：基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。

21.根据权利要求19所述的装置，其特征在于，

所述数据获取模块还用于：利用网络爬虫技术，从互联网数据源获得与行业相关的数据，所述互联网数据源包括非结构化或半结构化数据源；

所述数据处理模块还用于：利用自然语言处理中的信息抽取技术，对所述行业相关的数据进行实体识别和关系抽取，以提取所述实体、实体属性和/或实体关系；

所述数据库构建模块还用于：基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

22.根据权利要求19所述的装置，其特征在于，

所述数据获取模块还用于：利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据，所述互联网数据源包括开放式数据源；

所述数据处理模块还用于：在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理；

23.根据权利要求19所述的装置，其特征在于，

所述数据获取模块进一步用于：用于利用应用程序接口(API)或网络爬虫技术，从互联网数据源获取与行业相关的互联网媒体数据；

所述数据处理模块进一步用于：从所述互联网媒体数据中识别所述特定媒体事件对应的直接相关实体；

所述数据库构建模块进一步用于：基于所述特定媒体事件以及对应的直接相关实体，对所述行业知识图谱数据库进行补充，其中，所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。

24.根据权利要求23所述的装置，其特征在于，所述数据库构建模块进一步通过以下方式中的至少一种提取与所述特定媒体事件对应的直接相关实体：

基于自然语言处理中的实体识别从文本数据中识别实体；

基于语音识别处理从音频或视频数据中识别实体。

25.根据权利要求21-23中任一项所述的装置，其特征在于，所述数据库构建模块包括：用于对所提取的实体进行语义消歧和实体链接的模块，以识别所述实体在行业知识图谱数据库中的对应实体。

26.根据权利要求25所述的装置，其特征在于，所述用于对所提取的实体进行语义消歧和实体链接的模块进一步通过以下方式中的至少一种进行语义消歧和实体链接：

27.根据权利要求19所述的装置，其特征在于，所述特定媒体事件包括负面事件、突发事件、危机事件、***件或舆情事件。

28.一种对与行业相关的特定媒体事件进行监测的***，其特征在于，包括：

数据获取单元，用于从数据源获得一个或多个特定行业的行业数据；

数据库构建单元，对所提取的实体进行语义消歧和实体链接，用于基于所提取的实体、实体属性和/或实体关系构建所述行业知识图谱数据库；

数据库存储单元：用于存储所构建的行业知识图谱数据库；

媒体事件监测单元：用于获取互联网媒体数据，基于所获取的互联网媒体数据进行事件检测、事件评价和筛选以获得所述与行业相关的特定媒体事件，并且识别与所述特定媒体事件对应的直接相关实体，其中，事件检测包括以下步骤：对所述互联网媒体数据进行话题分类，以获得针对特定话题的内容；从获得的内容中识别涉及的实体；对所获得的内容和所识别的实体进行情感分析，并且基于情感分析的结果对所获得的内容进行过滤；基于过滤后的内容进行事件发现，以对媒体事件进行聚类并发现新的媒体事件；

数据库访问单元：用于基于所述直接相关实体，访问所述行业知识图谱数据库，并基于所述直接相关实体在所述行业知识图谱数据库中的关联关系，以确定与所述特定媒体事件对应的非直接相关实体；

29.根据权利要求28所述的***，其特征在于，

所述数据获取单元包括：结构化数据获取单元，用于从第三方行业数据库获得结构化行业数据，所述结构化行业数据包括多个字段；

所述数据处理单元包括：结构化数据处理单元，用于在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理；

所述数据库构建单元包括：数据库生成单元，用于基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。

30.根据权利要求28所述的***，其特征在于，

所述数据获取单元包括：行业相关数据获取单元，用于利用网络爬虫技术，从互联网数据源获得与行业相关的数据，所述互联网数据源包括非结构化或半结构化数据源；

所述数据处理单元包括：行业相关数据处理单元，用于利用自然语言处理中的信息抽取技术，对所述行业相关的数据进行实体识别和关系抽取，以提取所述实体、实体属性和/或实体关系；

所述数据库构建单元包括：数据库补充/更新单元，用于基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。

31.根据权利要求28所述的***，其特征在于，

所述数据获取单元包括：行业相关数据获取单元，用于利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据，所述互联网数据源包括开放式数据源；

所述数据处理单元包括：行业相关数据处理单元，用于在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前，对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理；

32.根据权利要求28所述的***，其特征在于，

所述数据获取单元包括：媒体数据获取单元，用于利用应用程序接口(API)或网络爬虫技术，从互联网数据源获取与行业相关的互联网媒体数据；

所述数据处理单元包括：媒体数据处理单元，用于对所述互联网媒体数据进行事件检测、事件评价和筛选，以提取与所述行业相关的特定媒体事件，并从所述互联网媒体数据中识别对应的直接相关实体；

所述数据库构建单元包括：数据库补充/更新单元，用于基于所述特定媒体事件以及对应的直接相关实体，对所述行业知识图谱数据库进行补充，其中，所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。

33.根据权利要求29-32中任一项所述的***，其特征在于，对所提取的实体进行语义消歧和实体链接，以识别所述实体在行业知识图谱数据库中的对应实体。

34.根据权利要求28所述的***，其特征在于，所述媒体事件监测单元进一步用于：

从所获得的内容中识别涉及的实体；

35.根据权利要求34所述的***，其特征在于，所述媒体事件监测单元进一步用于：

36.根据权利要求28所述的***，其特征在于，所述数据库访问单元进一步用于：

基于所述直接相关实体，以预设条件对所述行业知识图谱数据库中的其他实体和/或实体关系进行查询，以确定所述非直接相关实体。

37.根据权利要求28所述的***，其特征在于，所述数据库访问单元进一步用于：

基于所述直接相关实体，对所述行业知识图谱数据库中的其他实体和/或实体关系使用数据挖掘技术，以确定所述非直接相关实体。

38.根据权利要求28所述的***，其特征在于，所述特定媒体事件包括负面事件、突发事件、危机事件、***件或舆情事件。