CN110489395A

CN110489395A - 自动获取多源异构数据知识的方法

Info

Publication number: CN110489395A
Application number: CN201910685511.4A
Authority: CN
Inventors: 黄细凤; 廖泓舟; 代翔; 彭易锦; 杨露
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2019-07-27
Filing date: 2019-07-27
Publication date: 2019-11-22
Anticipated expiration: 2039-07-27
Also published as: CN110489395B

Abstract

本发明公开的一种自动获取多源异构数据知识的方法，旨在提供一种更加具有完整性、通用性和便捷性，有利于知识的传递的获取的方法。本发明通过下述技术方案予以实现：采取自顶向下或自底向上的方式定义概念‑实体‑属性‑关系‑标签，得到实体对象的知识模型，然后通过数据直接保存和爬虫软件、OCR等识别软件获取数据，得到知识数据，完成异构数据源到异构知识源的转换；通过结构化知识生成方法得到已知知识模式下的实体‑属性‑关系的三元组实例化；再使用长短期记忆网络模型(LSTM模型)与发布者‑完成者协作模式进行知识和知识模型的更新，得到扩展补充新知识的工作流，利用知识建模形成的知识模型，得到包含概念、实体、关系、属性值实例化三元组的数据流。

Description

自动获取多源异构数据知识的方法

技术领域

本发明是关于知识工程、知识表达、自然语言理解、信息检索、信息集成和知识管理等诸多信息处理领域的知识获取技术，特别是涉及多源异构数据获取技术。

背景技术

近年来，随着计算机与网络技术的飞速发展，信息呈现***式增长。分析人员在海量信息面前，经常面临着“饿汉吃自助餐不知如何选择”的窘境。在企业信息化建设过程中，由于各业务***建设和实施数据管理***的阶段性、技术性以及其它经济和人为因素等因素影响，导致企业在发展过程中积累了大量采用不同存储方式的业务数据，包括采用的数据管理***也大不相同，从简单的文件数据库到复杂的网络数据库，它们构成了企业的异构数据源。由于传统大数据平台在多源异构数据处理时，面临数据采集处理能力不足、数据结构难以统一，数据运维困难，为企业探索数据价值带来了层层阻碍。物联网由于其广阔的应用前景得到快速发展，感知设备的种类也越来越丰富.并且很多应用中均通过部署多个相互独立的异构数据源对监测对象的多维属性进行度量，由此得到异构多源多模态感知数据.但由于硬件设备固有的限制以及环境噪声等因素的影响，感知设备不可避免地存在漏读、多读、错读等现象，导致感知数据的数据质量降低.而数据是信息的载体，其能否准确反映物理世界的真实信息是决定其在上层应用中发挥效用的关键。传统的数据集成方法在一定程度上可以解决各数据源结构上存在的异构问题，但忽略了数据的语义信息，在进行数据共享和互操作时存在很多不足，检索得到的共享数据冗余多，无效信息多，已经不能适应企业获取信息、使用信息需求。在异构数据源中，异构就是不同结构，包括：不同的数据库；不同的操作***；不同的硬件；不同的网络；不同的应用软件等。只要不是同一个***都称异构***。信息技术革命与经济社会活动的交融催生了大数据。大数据是以容量大、类型多、存取速度快、应用价值高、价值密度低为主要特征的数据集合，常规技术无法满足对这些纷繁复杂的海量信息进行采集、处理、分析与使用的需求。因此，大数据的采集、分析和存储技术不断更新，大数据处理平台得到了广泛应用。

随着大数据与人工智能技术的应用普及，海量多源异构数据急剧增加，信息在来源、时间、空间和内容维度上都呈现出广域分布式的特点。在大数据、人工智能等技术的推动下，需要利用高性能计算、云计算、大数据可视分析、知识图谱等技术体系，实现对多源异构时空数据的分析与挖掘，从数据到知识的转变，为虚拟知识环境的智能化提供服务。在大数据时代，数据来源不仅包括资料、书籍等传统纸质数据，还包括百科、网页新闻、多媒体等互联网数据；其中除了开源数据，还包含许多电磁、雷达、通信等专业领域数据。数据类型包括数据库、文本、声音、图像、视频等多种类型；数据内容包括社会、政治、外交、安全、科技等诸多方面。多源异构数据呈现一种结构化、半结构化、非结构化格式交叉并存的现象。结构化数据与非结构化数据的混杂，导致知识挖掘与存储存在相应的难点；此外，数据时效性的变化也给新旧知识的应用带来了挑战。由于数据纷繁复杂、多样与海量的特点，给大数据集成的效率、质量带来了很大困难，最终造成数据接入效率低下、数据质量不高、数据整合率、利用率低等问题，并且传统的信息处理模式存在易受分析人员主观判断影响、难以应对海量数据、不易挖掘深层次知识、主题领域专业知识欠缺和成果展示方式单一等缺陷，无法满足海量数据实时处理、不同来源语义信息的快速识别的需要。

知识是人们在实践中获得的认识和经验的总结，它没有一个明确的界定，而造就它的关键技术在于知识的表示、获取、管理及其应用。1977年美国斯坦福大学计算机科学家费根鲍姆教授在第五届国际人工智能会议上提出知识工程的概念。它认为，知识工程是人工智能的原理和方法，对那些需要专家知识才能解决的应用难题提供求解的手段。恰当运用专家知识的获取、表示和推理过程的构成与解释，通过形式化地描述知识领域的概念、实体、属性及其相互关系，使得概念、实体间相互联结，构成网状知识结构。知识可采用资源描述框架(resource deion framework，RDF)表示为s(主语)，p(谓语)，o(宾语)三元组形式，形成由“点—边”组成的大规模有向图。知识图谱核心是构建相关领域的语义知识网络，知识的获取来源于数据，它是设计基于知识的***的重要技术问题。针对不同来源的异构数据，如何对其进行统一集成和知识获取是值得深入考虑和研究的问题。虚拟知识环境作为新一代的知识语言，改变了传统的科学知识的表达与获取方式，加速了数据、信息到知识的转换，是协助人类认识世界和解决知识问题的新型知识分析工具。知识分析工具需要通过对多源异构时空数据的分析与挖掘，构建虚拟环境知识工程，实现“数据—信息—知识—智慧”的转化，促进智能虚拟知识环境***中知识的快速转换和融合，实现知识信息的知识化，从而为虚拟知识环境中知识信息的智能化处理、知识的智慧化服务提供支撑，提高虚拟知识环境***的智能化服务水平。

目前国内外已有学者对知识获取进行综述研究，这些研究大多针对某一主题或应用研究领域，如Jiang Hua介绍了主要的知识获取技术，比较了其差异，总结了应用知识获取技术获取知识的基本步骤，最后描述了知识获取技术的最新发展状况；袁国铭等从知识工程的基本概念入手，对知识获取、知识表示及知识运用进行综述研究，并指出知识管理对知识工程应用的作用；尹婵娟等从基础理论、影响因素、框架模型和方法4个方面来分析了我国知识获取的研究现状。由于行业知识图谱构建过程中文本信息抽取的任务非常多，实体识别、概念抽取、关系抽取以及事件抽取。知识图谱中的知识融合是一件非常复杂的工作，包括数据模式层(概念、概念的上下位关系、概念的属性)的融合与数据层的融合。行业知识图谱的数据模式通常采用自顶向下和自底向上结合的方式，基本都经过人工的校验来保证可靠性；基于本体的知识推理应用也非常的多，比如在实际场景中的冲突检测。因为不管是手动构建，还是自动构建知识图谱，都会碰到这样一个问题：或者数据来源不同，或者构建的人员不同、方法不同，这就会不可避免的导致一些冲突，这些冲突自身很难直观的去。信息抽取的方法主要有CloseIE和OpenIE两类，OpenIE的典型代表工具有ReVerb、TextRunner。由于OpenIE工具准确率比较低，会增加知识融合的难度，因此在行业知识图谱构建中实用性不高。通常被用于做第一轮的信息抽取探索，从它的结果中发现新的关系，然后在此基础上应用其它的信息抽取方法。CloseIE的典型工具为DeepDive。DeepDive使用机器学习算法训练***来减少各种形式的噪音和不确定性，并为每一个决断进行复杂的可能性计算，允许用户使用简单的规则来影响学习过程以提升结果的质量，也会根据用户反馈来提高预测的准确度；Deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取***。它通过弱监督学习，从非结构化的文本中抽取结构化的关系数据，核心关键点是能够在更短的时间内提供更高质量的数据。DeepDive主要针对关系抽取，在指定的关系抽取中效果比较理想，在实体确定后可以很好地进行关系抽取，同时也支持中文关系抽取，仅需要引入中文相关的基础处理工具即可。不足之处在于未提供专门的针对概念、实体和事件抽取的支持，同时需要大量的标注语料支持，并通过人工设置标注规则。对于文本信息抽取的方法，目前还没有统一的实现各类信息抽取的现成工具。

目前现有的文献还未有针对多源异构数据的统一集成和知识获取研究。同时，对多源异构数据源的知识获取方法研究也没有形成完善的体系，很多时候依旧依靠独立算法的“东拼西凑”。一般的知识获取方式往往是数据的简单堆积，其综合程度、便捷程度、智能程度远远不够。堆积如山的数据在没有经过处理之前对于知识的传递非常低，只有通过一套完整的知识获取体系来进行知识自动获取并在线更新，才能让知识的传递性变得随手可得精准实现，国内的***工程才有足够的能力在有限的条件下去支撑复杂***的设计。

发明内容

为进一步提高获取知识的质量，本发明针对现有技术存在的不足之处，提供一种更加具有完整性、通用性和便捷性，有利于知识的传递以及后续复杂***设计的自动获取多源异构数据知识的方法。

为达到上述的目的，本发明提供的一种自动获取多源异构数据知识的方法，其特征在于包括如下步骤：将采集的多源异构数据源和多源异构数据集成与抽取平台作为框架的数据源和平台支撑，分三个步骤获取多源异构数据知识，一是将多源异构数据源转换成多源异构知识源，二是基于异构知识源进行结构化知识生成，三是进行知识及知识模型的在线更新；在多源异构数据源转换成多源异构知识源中，根据数据源提供的开源数据和领域数据，采取自顶向下或自底向上的方式定义本体层次的概念-实体-属性-关系-标签，基于本体层次进行知识建模，得到实体对象的知识模型，然后通过直接保存的方式和利用爬虫软件、OCR识别软件获取数据，得到知识数据，完成异构数据源到异构知识源的转换；在基于异构知识源进行结构化知识生成中，分别采取D2R映射、Wrapper解析、信息抽取三种方法对异构知识源进行知识自动抽取，实现数据统一集成与抽取，得到已知知识模式下的实体-属性-关系的三元组实例化；在进行知识及知识模型的在线更新中，使用长短期记忆网络模型(LSTM模型)与发布者-完成者协作模式进行全面的知识更新及相互印证，实现知识以及知识模型的在线更新，完成知识的扩展补充，形成扩展补充新知识的工作流，利用知识建模形成的知识模型，获取的知识数据，得到包含概念、实体、关系、属性值实例化三元组的数据流。

本发明相比于现有技术具有如下显著优点：

具有完整性。本发明针对异构知识源中结构化信息、半结构化信息、非结构化信息交叉并存的问题，采取自顶向下或自底向上的方式定义本体层次的概念-实体-属性-关系-标签，基于本体层次进行知识建模，得到实体对象模型并构建多源异构数据集成与知识抽取平台；然后，采取开源软件D2R映射、Wrapper解析、信息抽取等方法进行数据统一集成和知识自动抽取，得到已知知识模式下的实例化三元组；最后，通过渐进式与大众参与的众包式知识获取方法进行知识更新，完成知识模型和三元组的在线更新。知识获取的完整流程是使用知识图谱相关技术对行业知识和数据进行建模：以实体为主体目标，实现对不同来源的数据进行映射与合并(实体抽取与合并)；利用属性来表示不同数据源中针对实体的描述，形成对实体的全方位描述(属性映射与归并)；利用关系来描述各类抽象建模成实体的数据之间的关联关系，从而支持关联分析(关系抽取)。通过实体链接技术，实现围绕实体的多种类型数据的关联存储(实体链接；使用事件机制描述客观世界中动态发展，体现事件与实体间的关联；并利用时序描述事件的发展状况(动态事件描述)，相比现有技术更加具有完整性。为从众多分散、异构的数据源中挖掘出隐含的、有价值的和尚未被发现的信息和知识提供了非常有效的手段和方法。

具有通用性。本发明针对不同类型数据源，采取不同的方法进行内容获取，资料、书籍等纸质文本通过OCR方法进行内容提取，百科、新闻网页等互联网数据通过爬虫方法进行内容抽取，数据库、声音、图像、视频等进行直接获取，完成异构数据源到异构知识源的转换；通过集名片识别，文档识别，证件识别，车牌识别多项专有技术于一体的OCR文字识别软件工具图像处理算法,提高扫描文档显示质量,更好地识别拍摄文本,对于pdf和jpg图像格式文件识别率大大提升,可达成99％的精准识别。利用构建知识模型和多源异构数据集成与知识抽取平台，并采用D2R等方法进行结构化知识生成，完成已知知识模式下的三元组实例化；采用渐进式和众包式相结合的方法对知识和知识模型进行在线更新，扩展补充新知识，有利于知识的传递以及后续复杂***的设计。相比现有技术具有通用性。

具有便捷性。本发明针对不同类型的开源数据和领域数据，利用如资料、书籍等纸质文本，通过OCR方法进行内容提取，百科、新闻网页、等互联网数据通过爬虫方法进行内容抽取，数据库、声音、图像、视频等开源数据和电磁、雷达、通信、地理空间等领域数据进行直接保存获取，多策略融合完成异构数据源到异构知识源的转换；利用采集的多源异构数据源和构建的多源异构数据集成和抽取平台作为框架的数据和平台支撑，通过本体层次建模、多策略融合数据获取、结构化知识生成和知识更新进行知识获取。分三个步骤解决多源异构数据知识获取，一是将多源异构数据源转换成多源异构知识源，二是基于异构知识源进行结构化知识生成，三是进行知识及知识模型的在线更新。构建知识模型和多源异构数据集成与知识抽取平台，对多源异构数据源知识获取完整处理流程进行理论支撑与指导。通过多源异构数据集成与知识抽取平台直接指导知识获取处理流程的创建。相比现有技术更加具有便捷性。

本发明针对不同种类的数据，异构知识源中结构化信息、半结构化信息、非结构化信息交叉并存的问题，构建知识模型和多源异构数据集成与知识抽取平台，分别采取D2R映射、包装器Wrapper解析、信息抽取三种方法对异构知识元进行知识自动抽取，实现数据统一集成与抽取，利用包装器Wrapper从半结构化数据中获取知识，利用信息抽取方法从非结构化文本中获取知识，完成已知知识模式下的三元组实例化。例如从数据库中的“企业信息表”中把记录映射成概念“企业”下的实体，同时通过设置合并条件，把D2R的结果与知识图谱中的已有知识进行融合；最后，经过D2R映射的数据直接存储成为知识图谱中的知识，通过渐进式与大众参与的众包式知识获取方法对知识进行全面的更新及相互印证，实现知识以及知识模型的在线更新，完成知识的扩展补充，提升了数据质量，为数据平台更好地使用数据、分析数据、挖掘知识提供了很好的数据基础。

附图说明

为了更清楚地理解本发明，以下结合附图及实施例，对本发明进行进一步详细说明，同时参照附图，来描述本发明，其中：

图1是本发明自动获取多源异构数据知识的流程示意图。

图2是多源异构数据源转换成知识源的示意图。

图3是单行文本行内容OCR流程图。

图4是本发明图片内容OCR流程图。

图5是本发明百科-新闻类爬虫模块示意图。

图6是本发明多源异构数据集成与知识抽取平台示意图。

图7是本发明多策略融合的异构数据知识获取示意图。

图8是本发明非结构化数据信息抽取过程示意图。

图9是本发明知识更新方法示意图。

具体实施方式

参阅图1。根据本发明，首先确定异构数据源，并将不同的数据源通过OCR识别软件、爬虫、直接获取等方法转换成异构知识源；然后，针对异构知识源中结构化信息、半结构化信息、非结构化信息交叉并存的问题，进行知识建模分析，构建知识模型和多源异构数据集成与知识抽取平台。将采集的多源异构数据源和多源异构数据集成与抽取平台作为框架的数据源和平台支撑，分三个步骤获取多源异构数据知识，一是将多源异构数据源转换成多源异构知识源，二是基于异构知识源进行结构化知识生成，三是进行知识及知识模型的在线更新；在多源异构数据源转换成多源异构知识源中，根据数据源提供的开源数据和领域数据，采取自顶向下或自底向上的方式定义本体层次的概念-实体-属性-关系-标签，基于本体层次进行知识建模，得到实体对象的知识模型，然后通过直接保存的方式和利用爬虫软件、OCR识别软件获取数据，得到知识数据，完成异构数据源到异构知识源的转换；在基于异构知识源进行结构化知识生成中，分别采取D2R映射、Wrapper解析、信息抽取三种方法对异构知识源进行知识自动抽取，实现数据统一集成与抽取，得到已知知识模式下的实体-属性-关系的三元组实例化；在进行知识及知识模型的在线更新中，使用长短期记忆网络模型(LSTM模型)与发布者-完成者协作模式进行全面的知识更新及相互印证，实现知识以及知识模型的在线更新，完成知识的扩展补充，形成扩展补充新知识的工作流，利用知识建模形成的知识模型，获取的知识数据，得到包含概念、实体、关系、属性值实例化三元组的数据流。

参阅图2。数据源包括开源数据和领域数据，其中，开源数据包含了通过OCR方法进行内容提取的资料书本、书籍纸质文本和直接获取保存的声音、图像、视频等等多媒体数据和业务数据库等结构化数据；通过爬虫方法进行内容抽取的百科、新闻网页等互联网数据构成的数据库；领域数据包含了进行直接获取保存电磁、雷达、通信、地理空间等领域。多策略融合完成异构数据源到异构知识源的转换，得到文本、声音、图像、视频等多媒体数据、结构化数据和领域数据形成的多源异构知识源。平台支撑主要包括由数据集成总线、数据抽取引擎、数据适配引擎和数据存储引擎构成的多源异构数据集成与抽取平台。

针对结构化知识源，如关系型数据库，使用D2R工具生成虚拟RDF文件，将关系型数据库转换成资源描述框架RDF格式；针对半结构化知识源，如列表，采取包装器Wrapper解析实现结构化知识抽取；针对非结构化知识源，如文本，采取信息抽取方法生成结构化知识，多策略融合完成已知知识模式下的三元组实例化。

参阅图3、图4。针对资料、书籍等纸质材料，建立OCR提取流程，将资料、书籍等纸质资料内容分为文本行和图像两种格式，采用不同的方式对其进行内容提取。若内容为文本行格式，首先按照300dpi的标准进行图像尺寸归一化，即将不同分辨率的扫描图像缩放到同一尺度大小，其次进行单一文本行行内文本图像的倾斜矫正；然后对扫描图像进行分帧滑窗处理，提取计算机可以通过各类分类方案进行分类学习的单行文本行连续特征，通过卷积神经网络CNN、循环神经网络RNN等深度学习模型进行字符的统计识别模型训练；使用深度模型与隐马尔科夫模型相结合的方法，基于维特比解码原理的连续识别解码算法，完成单行文本内容识别转写，将纸质材料转化成知识源。若内容为图片格式，首先对文档图像进行降噪、倾斜纠正等图像预处理，去除由于拍摄可能造成的外界噪声和干扰，并且将原始的彩色图片进行灰度图转换处理或二值化处理；然后对文档图像采用边缘检测方法进行连通分支分析和版面分隔与分析，综合采用自上而下切分策略将整幅图像切分为多个候选区域子块，并进行版面理解与图文识别，形成包含文字字符部分、独立公式部分、内嵌公式部分的文字区域、图片区域和表格区域；最后对文档图像数据进行深层次语义理解与分析，采用CNN进行识别模型训练，完成文本字符、文本公式中的字符和符号以及图片和表格中字符识别，使用训练好的模型对上步中获得的切分结果进行图文信息识别解码，同时将识别结果转换为结构化的、可编辑的重构文本信息，重构后的结构化文本信息经文本输出模块进行文本输出。

参阅图5。根据本发明，用户首先编写一个自定义类，即爬虫，空闲爬虫向任务队列管理器发送任务请求，任务队列管理器接受空闲爬虫的任务请求，反馈给爬虫引擎，并将相关任务进行分配，监测各爬虫的运行状态，动态进行任务分配；爬虫引擎根据百科-新闻类数据将任务发送给爬虫下载器；爬虫下载器接受爬虫引擎发送的任务，从互联网中下载对应的网页，并将已下载的网页递交给爬虫引擎，由爬虫引擎将此内容发送给其它爬虫。其中，若为百科类数据，首先通过任务队列管理器获取任务，通过适配器判断出相关词条和URL，然后爬虫以广度优先的方式并动态更新词条来爬取百科网站，获取百科网站相应词条的摘要、词条目录、正文、文章引用资料以及词条发布事件等信息。若为新闻类数据，以百科爬虫为基础，并在其基础之上改变百科类爬虫引擎，增加根据关键词搜索新闻的操作，即利用搜索引擎只抓新闻种子URL，再对种子URL进行抓取、解析和存储。

参阅图6。多源异构数据集成与知识抽取平台构建了包含数据存储、数据适配引擎、数据提取引擎和数据集成总线的多源异构数据知识获取支撑平台，其中数据存储包含了关系型数据库、图数据库和非关系型的数据库NoSQL；数据适配引擎包含了属性图模型PGM、资源描述框架RDF、扩展标记语言XML；数据提取引擎包含了结构化提取器(数据源包括列式文件、关系型数据库等)、半结构化提取器(数据源包括网页等)、非结构化提取器(包括文本、图像、语言、视频等)；数据集成总线包含了数据源识别器、分布式调度器和数据提取向导。多源异构数据集成与知识抽取平台指导知识获取流程构建，数据集成总线中的数据源识别器自动识别数据源识别器的格式和数据规模，使用数据提取向导进行处理并判断是否使用分布式调度器进行分布式计算或并行计算；数据提取引擎提取抽象接口图谱数据；数据适配器引擎定义数据结构模型，数据存储根据选择的数据适配器选择相应地数据存储方式构建关系型数据库、图数据库和NoSQL。

参阅图7。在多策略融合的异构数据知识获取中，基于构建的知识模型从多源异构知识源中获取知识，得到实例化三元组并进行在线更新。本发明首先采取自顶向下和自底向上相结合的方式进行知识建模，定义概念-实体-属性-关系-标签，得到人物、组织、事件等实体对象模型；针对数据库等结构化数据，使用D2R工具将关系型数据库转换成RDF格式，即三元组；针对网站、列表等半结构化数据，采用包装器Wrapper进行解析，直接进行知识获取，并得到实例化三元组；针对文本、语音、图像、视频等非结构化数据，分别采用文本信息抽取、语音信息抽取、图像信息抽取、视频信息抽取方法获得文本特征，并进行文本结构化抽取获得三元组。最后，使用长短期记忆网络模型(LSTM模型)与发布者-完成者协作模式进行知识和知识模型的更新，补充新知识并进一步完善模型。

参阅图8。在非结构化数据信息抽取过程中，针对语音数据，首先进行数据采集与处理、音轨视频轨分离、场景分隔、基于场景的降噪、提取等预处理操作，增强语音特征的可分性和稳定性，提高信噪比，然后进行全差异空间方法的语种识别、基于全差异空间建模方法的声纹识别、基于FSMN-HMM声学模型的语音转写操作，获得语音数据文本化描述，如名称、关键词、实体等，和其它特征，如获取时间、持续时间等。

针对图像数据，首先使用AlexNet深度卷积神经网络提取图像中物体语义信息，构建具有较强表达能力的图像特征，同时提取有效的隐藏信息；然后采用编码器-解码器模型进行图像文本化特征提取，具体步骤如下所示：首先，在编码器部分使用LSTM递归神经网络编码句子，使用深度卷积网络(CNN)编码图像特征，构建联合多模态空间用来排列图像和描述，然后，在解码器部分使用基于深度神经网络的语言模型从编码器构建的多模态共享空间中产生新颖的文本化描述，获得图像数据文本化描述。

针对视频数据，首先采用双路CNN与LSTM相结合的视频特征提取方法进行视频特征提取，具体实现过程如下：LSTM把每个连续帧的双路CNN最后一层卷积特征作为输入，从左向右推进时间，从下到上通过LSTM，最后衔接一个softmax层，在每个时间点给出分类结果，不同时间上的同一层网络进行参数共享，训练时，视频的分类结果在每帧都进行反向传播，同时，在网络架构中加入光流特征，作为每秒一帧的采样导致帧间所隐含的运动信息丢失的补偿；然后，使用编码器-解码器，即encoder-decoder结构，进行视频文本化描述实现，得到视频数据的文本化描述，文本化描述具体实现过程如下：将有用的视频信息使用CNN转化成特征并使用LSTM对CNN特征进行时序建模，然后供解码器使用，解码器使用LSTM。本实施例使用分层LSTM将对增加的长距离依赖性有帮助，但同时会增加模型复杂度和训练时间，效果好坏因不同的情景将会有所不同。对文本以及语音、视频、图像等非结构化信息的文本化描述进行结构化提取，获得实例化三元组。其中，文本结构化提取中首先使用层次类型约束方法进行主题实体识别，即利用实体类型之间的父子关系层次结构来解决zero-shot问题，其次使用深度学习技术建立一个层次类型约束主题实体识别神经网络模型(Hierarchical Type constrained Topic Entity Detection,HTTED)，利用问题上下文、实体类型、实体关系的语义，来计算候选实体与问题上下文的相似度，选取最相似的实体，来解决NER问题；最后，使用基于异源监督的关系抽取方法进行关系抽取，即基于异种信息源的标注开展关系抽取模型训练，训练过程中使用表示学习方法为关系抽取提供异源监督，经过上述实体识别和关系抽取等文本结构化抽取操作，得到实例化三元组。

参阅图9。在采用渐进式和众包式相结合的方法实现知识更新中，将时序知识图谱中已有知识作为输入，首先对其进行TransR向量化，获得三元组向量，然后将三元组向量不断送入LSTM，充分挖掘三元组序列之间的依赖信息，进行新知识和旧知识的动态更新和关联；同时，结合任务发布者-完成者协作的众包方式进行知识更新及相互佐证。本实施例首先任务发布者设计众包任务，如知识图谱关系挖掘任务，知识模型更新任务，任务发布者在公共平台发布任务，如领域知识应用平台，并准备接收答案，然后任务完成者接收任务，进行任务解答，任务完成者在公共平台提交答案，最后任务发布者接收各完成者提交的答案并对答案进行整合，发布者获得任务结果，完成知识的在线更新及相互佐证，同时实现知识模型的在线更新。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种自动获取多源异构数据知识的方法，其特征在于包括如下步骤：将采集的多源异构数据源和多源异构数据集成构建的抽取平台作为框架的数据源和平台支撑，分将多源异构数据源转换成多源异构知识源基于异构知识源进行结构化知识生成和是进行知识及知识模型的在线更新三个步骤获取多源异构数据知识；在多源异构数据源转换成多源异构知识源中，根据数据源提供的开源数据和领域数据，采取自顶向下或自底向上的方式定义本体层次的概念-实体-属性-关系-标签，基于本体层次进行知识建模，得到实体对象的知识模型，然后通过直接保存的方式和利用爬虫软件、OCR识别软件获取数据，得到知识数据，完成异构数据源到异构知识源的转换；在基于异构知识源进行结构化知识生成中，分别采取D2R映射、Wrapper解析、信息抽取三种方法对异构知识源进行知识自动抽取，实现数据统一集成与抽取，得到已知知识模式下的实体-属性-关系的三元组实例化；在进行知识及知识模型的在线更新中，使用长短期记忆网络模型LSTM与发布者-完成者协作模式进行全面的知识更新及相互印证，实现知识以及知识模型的在线更新，完成知识的扩展补充，形成扩展补充新知识的工作流，利用知识建模形成的知识模型，获取的知识数据，得到包含概念、实体、关系、属性值实例化三元组的数据流。

2.如权利要求1所述的自动获取多源异构数据知识的方法，其特征在于：数据源包括：开源数据和领域数据，其中，开源数据包含了通过OCR方法进行内容提取的资料书本、书籍纸质文本和直接获取保存的多媒体数据和业务数据库结构化数据；通过爬虫方法进行内容抽取的联网数据构成的数据库；领域数据包含了进行直接获取保存电磁、雷达、通信、地理空间领域数据；多策略融合完成异构数据源到异构知识源的转换，得到文本、声音、图像、视频多媒体数据、结构化数据和领域数据形成的多源异构知识源。

3.如权利要求1所述的自动获取多源异构数据知识的方法，其特征在于：针对结构化知识源，使用D2R工具生成关系型数据库的虚拟RDF文件，将关系型数据库转换成资源描述框架RDF格式；针对半结构化知识源，采取包装器Wrapper解析实现结构化知识抽取；针对非结构化知识源，采取信息抽取方法生成结构化知识，多策略融合完成已知知识模式下的三元组实例化。

4.如权利要求1所述的自动获取多源异构数据知识的方法，其特征在于：针对资料、书籍纸质材料，建立OCR提取流程，将资料、书籍纸质资料内容分为文本行和图像两种格式，采用不同的方式对其进行内容提取；若内容为文本行格式，首先按照300dpi的标准进行图像尺寸归一化，即将不同分辨率的扫描图像缩放到同一尺度大小，其次进行单一文本行行内文本图像的倾斜矫正；然后对扫描图像进行分帧滑窗处理，提取计算机通过各类分类方案进行分类学习的单行文本行连续特征，通过卷积神经网络CNN、循环神经网络RNN的深度学习模型进行字符的统计识别模型训练；使用深度模型与隐马尔科夫模型相结合的方法，基于维特比解码原理的连续识别解码算法，完成单行文本内容识别转写，将纸质材料转化成知识源。

5.如权利要求1所述的自动获取多源异构数据知识的方法，其特征在于：对于内容为图片格式，首先对文档图像进行降噪、倾斜纠正图像预处理，去除由于拍摄可能造成的外界噪声和干扰，并且将原始的彩色图片进行灰度图转换处理或二值化处理；然后对文档图像采用边缘检测方法进行连通分支分析和版面分隔与分析，综合采用自上而下切分策略将整幅图像切分为多个候选区域子块，并进行版面理解与图文识别，形成包含文字字符部分、独立公式部分、内嵌公式部分的文字区域、图片区域和表格区域；最后对文档图像数据进行深层次语义理解与分析，采用CNN进行识别模型训练，完成文本字符、文本公式中的字符和符号以及图片和表格中字符识别，使用训练好的模型对获得的切分结果进行图文信息识别解码，同时将识别结果转换为结构化的、可编辑的重构文本信息，重构后的结构化文本信息经文本输出模块进行文本输出。

6.如权利要求1所述的自动获取多源异构数据知识的方法，其特征在于：多源异构数据集成与知识抽取平台构建了包含数据存储、数据适配引擎、数据提取引擎和数据集成总线的多源异构数据知识获取支撑平台，其中数据存储包含了关系型数据库、图数据库和非关系型的数据库NoSQL；数据适配引擎包含了属性图模型PGM、资源描述框架RDF、扩展标记语言XML；数据提取引擎包含了结构化提取器、半结构化提取器、非结构化提取器；数据集成总线包含了数据源识别器、分布式调度器和数据提取向导。

7.如权利要求1的自动获取多源异构数据知识的方法，其特征在于：，数据存储根据选择的数据适配器选择相应地数据存储方式构建关系型数据库、图数据库和NoSQL；数据集成总线中的数据源识别器自动识别数据源识别器的格式和数据规模，使用数据提取向导进行处理以及是否使用分布式调度器进行分布式计算或并行计算。

8.如权利要求1所述的自动获取多源异构数据知识的方法，其特征在于：在非结构化数据信息抽取过程中，针对语音数据，首先进行数据采集与处理、音轨视频轨分离、场景分隔、基于场景的降噪、提取预处理操作，然后进行全差异空间方法的语种识别、基于全差异空间建模方法的声纹识别、基于FSMN-HMM声学模型的语音转写操作，获得语音数据文本化描述。

9.如权利要求1所述的自动获取多源异构数据知识的方法，其特征在于：针对图像数据，首先使用AlexNet深度卷积神经网络提取图像中物体语义信息，构建图像特征，同时提取有效的隐藏信息；然后采用编码器-解码器模型进行图像文本化特征提取，具体步骤为：首先，在编码器部分使用LSTM递归神经网络编码句子，使用深度卷积网络(CNN)编码图像特征，构建联合多模态空间用来排列图像和描述，然后，在解码器部分使用基于深度神经网络的语言模型从编码器构建的多模态共享空间中产生新颖的文本化描述，获得图像数据文本化描述。

10.如权利要求1所述的自动获取多源异构数据知识的方法，其特征在于：针对视频数据，首先采用双路CNN与LSTM相结合的视频特征提取方法进行视频特征提取，具体实现过程如下：LSTM把每个连续帧的双路CNN最后一层卷积特征作为输入，从左向右推进时间，从下到上通过LSTM，最后衔接一个softmax层，在每个时间点给出分类结果，不同时间上的同一层网络进行参数共享，训练时，视频的分类结果在每帧都进行反向传播，同时，在网络架构中加入光流特征，作为每秒一帧的采样导致帧间所隐含的运动信息丢失的补偿；然后，使用编码器-解码器结构，即encoder-decoder结构，进行视频文本化描述，得到视频数据的文本化描述，然后将得到的文本化描述中有用的视频信息，用CNN转化成特征并使用LSTM对CNN特征进行时序建模，然后供解码器使用，解码器使用LSTM。