CN115757689A - 一种信息查询***、方法及设备 - Google Patents
一种信息查询***、方法及设备 Download PDFInfo
- Publication number
- CN115757689A CN115757689A CN202211153838.5A CN202211153838A CN115757689A CN 115757689 A CN115757689 A CN 115757689A CN 202211153838 A CN202211153838 A CN 202211153838A CN 115757689 A CN115757689 A CN 115757689A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- layer
- module
- organization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种信息查询***、方法及设备,本发明涉及互联网技术领域,用于解决现有技术中以往只有研究报告、查询信息不全面、不准确的问题。信息查询***至少包括:数据采集层、数据处理层、数据服务层、应用层以及展示层,数据采集层从多个数据源采集机构相关数据;数据处理层对机构相关数据进行处理,得到处理后的数据;数据服务层用于对处理后的数据进行数据服务处理;应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;展示层为用户与平台之间的交互入口,基于用户的信息查询请求,为用户显示目标信息以及与目标信息关联度满足预设条件的关联信息。能够提高信息的查询效率以及查询准确性。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种信息查询***、方法及设备。
背景技术
随着移动智能终端的广泛普及,以及通信技术、移动互联网技术的持续、高速发展,基于位置的信息查询服务在人们的日常生活中扮演了必不可少的角色。针对科研机构,例如:国防、能源、航天、医学等领域,互联网技术的应用起着至关重要的作用。以科研机构为例,分析研究国家实验室以及国防领域国家实验室的科研项目、建设管理等情况,对于目前正在开展的国防领域国家实验室建设论证工作具有重要的借鉴作用和参考价值。
国防领域科研机构及其相关信息涉及内容多,来源多,很多内容分散分布在不同军种、不同平台,以不同形式呈现,有些内容甚至不独立存在,需要从一些文献或其他形式研究成果中分析挖掘,非常不便于开发利用。以国防领域主要科研机构科研试验信息为研究对象,进行分析、关联、挖掘,构建主要科研机构领域知识库,面向装备科研试验管理和一线科研人员提供服务,既有助于用户及时掌握目标对象的主要科研机构整体科研的情况,又有利于对具体型号装备的科研攻关组织和实施提供借鉴,对后续开展有关工作具有十分重要的指导意义。
因此,亟需提供一种更为可靠的信息查询架构。
发明内容
本发明的目的在于提供一种信息查询***、方法及设备,用于解决现有技术中以往只有研究报告、查询信息不全面、不准确的问题。
为了实现上述目的,本发明提供如下技术方案:
第一方面,本发明提供一种信息查询***,信息查询***至少包括:
数据采集层、数据处理层、数据服务层、应用层以及展示层;
所述数据采集层从多个数据源采集机构相关数据;
所述数据处理层对所述机构相关数据进行数据处理,得到处理后的数据;所述数据处理包括数据抽取、数据清洗、数据转换和/或数据集成;
所述数据服务层用于对处理后的数据进行数据服务处理;所述数据服务层至少包括模型训练模块、全文检索模块、语义分析模块以及关联分析模块中的一种或多种;
所述应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;
所述展示层为用户与平台之间的交互入口,所述展示层基于所述用户输入的信息查询请求,为用户显示所述信息查询请求对应的目标信息以及所述目标信息的关联信息;所述目标信息与所述关联信息之间的关联度满足预设条件。
第二方面,本发明提供一种信息查询方法,信息查询方法应用于信息查询***,信息查询***至少包括:数据采集层、数据处理层、数据服务层、应用层以及展示层;所述数据采集层从多个数据源采集机构相关数据;所述数据处理层对所述机构相关数据进行数据处理,得到处理后的数据;所述数据处理包括数据抽取、数据清洗、数据转换和/或数据集成;所述数据服务层用于对处理后的数据进行数据服务处理;所述数据服务层至少包括模型训练模块、全文检索模块、语义分析模块以及关联分析模块中的一种或多种;所述应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;所述展示层为用户与平台之间的交互入口;
信息查询方法包括:
获取用户通过所述展示层输入的信息查询请求;
基于所述信息查询请求,从所述信息查询***中查找与所述信息查询请求匹配的目标信息以及所述目标信息的关联信息;所述目标信息与所述关联信息之间的关联度满足预设条件;
将所述目标信息以及所述目标信息的关联信息通过展示层进行展示。
第三方面,本发明提供一种信息查询设备,信息查询设备应用于信息查询***,信息查询***至少包括:数据采集层、数据处理层、数据服务层、应用层以及展示层;所述数据采集层从多个数据源采集机构相关数据;所述数据处理层对所述机构相关数据进行数据处理,得到处理后的数据;所述数据处理包括数据抽取、数据清洗、数据转换和/或数据集成;所述数据服务层用于对处理后的数据进行数据服务处理;所述数据服务层至少包括模型训练模块、全文检索模块、语义分析模块以及关联分析模块中的一种或多种;所述应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;所述展示层为用户与平台之间的交互入口;设备包括:
通信单元/通信接口,用于获取用户通过所述展示层输入的信息查询请求;
处理单元/处理器,用于基于所述信息查询请求,从所述信息查询***中查找与所述信息查询请求匹配的目标信息以及所述目标信息的关联信息;所述目标信息与所述关联信息之间的关联度满足预设条件;
将所述目标信息以及所述目标信息的关联信息通过展示层进行展示。
与现有技术相比,本发明提供一种信息查询***、方法及设备,信息查询***至少包括:数据采集层、数据处理层、数据服务层、应用层以及展示层,数据采集层从多个数据源采集机构相关数据;数据处理层对机构相关数据进行数据抽取、数据清洗、数据转换和/或数据集成,得到处理后的数据;数据服务层用于对处理后的数据进行数据服务处理;数据服务层至少包括模型训练模块、全文检索模块、语义分析模块以及关联分析模块中的一种或多种;应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;展示层为用户与平台之间的交互入口,展示层基于用户输入的信息查询请求,为用户显示信息查询请求对应的目标信息以及与目标信息关联度满足预设条件的关联信息。采集目标机构的相关数据,数据源多维度,可以全面覆盖目标机构对应的相关数据;选择有价值信息进行分析整编,采用多种处理方式进行处理,满足多种查询检索方式的查询需求;处理后的数据分类型维度进行知识库的存储,能够提高信息的查询效率以及查询准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明提供的信息查询***架构示意图;
图2为本发明提供的信息查询方法流程示意图;
图3为本发明提供的信息查询设备结构示意图。
具体实施方式
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一阈值和第二阈值仅仅是为了区分不同的阈值,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本发明中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本发明中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,a和b的结合,a和c的结合,b和c的结合,或a、b和c的结合,其中a,b,c可以是单个,也可以是多个。
接下来,结合附图对本说明书实施例提供的方案进行说明:
实施例1
图1为本发明提供的信息查询***架构示意图,信息查询***至少包括:
数据采集层(在附图1中简称采集层)、数据处理层、存储层、数据服务层、应用层以及展示层;所述数据采集层从多个数据源采集机构相关数据;
所述数据处理层对所述机构相关数据进行数据处理,得到处理后的数据;所述数据处理包括数据抽取、数据清洗、数据转换和/或数据集成;
所述数据服务层用于对处理后的数据进行数据服务处理;所述数据服务层至少包括模型训练模块、全文检索模块、语义分析模块以及关联分析模块中的一种或多种;
所述应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;
所述展示层为用户与平台之间的交互入口,所述展示层基于所述用户输入的信息查询请求,为用户显示所述信息查询请求对应的目标信息以及所述目标信息的关联信息;所述目标信息与所述关联信息之间的关联度满足预设条件。
关联度满足预设条件可以是与目标信息具有一层关联度、两层关联度或者多层关联度,关联度的层数可以基于知识图谱进行判断,知识图谱中的点表示各个实体,知识图谱中的边表示关联关系,例如:A-B-C-D,ABCD为四个点,中间的“-”表示边,那么“A-B-C-D”中,A和D之间可以认为存在三层关联度。
图1中的信息查询***,采集目标机构的相关数据,数据源多维度,可以全面覆盖目标机构对应的相关数据;选择有价值信息进行分析整编,采用多种处理方式进行处理,满足多种查询检索方式的查询需求;处理后的数据分类型维度进行知识库的存储,能够提高信息的查询效率以及查询准确性。
本方案中,机构可以是科研机构、医疗机构、国防机构、能源机构、航天机构等等。在本说明书中,可以以科研机构为例进行说明,可以全面跟踪搜集、整理目标对象的国防领域主要科研机构,特别是国防领域国家实验室、研究实验室和国家靶场发布的研究计划、研究项目、研究重点等方面情况,利用先进成熟的信息技术,结合其研究数据特点,研究构建架构科学的信息查询***,采集目标对象的国防领域主要科研机构发布的研究计划、科研实验项目、管理政策、经费投量投向数据,选择有价值信息进行分析整编,对不同来源的数据进行数据融合,建立信息查询***,改变以往只有研究报告、动态的服务模式,为相关用户,例如:科研机构的首长、机关、一线科研人员提供服务。
如图1所示,底层为数据源,包括采集的各类结构化数据、半结构化数据、非结构化数据,具体为科研机构官网、新闻网站、采办数据(即科研项目数据)、简历数据、百科数据、搜索引擎。数据采集层,可以对境内外开源信息进行网站爬取,采集的信息结合人工处理,并通过接口实现调用。数据处理层进行自动化的数据处理,包括数据抽取、数据清洗、数据转换、数据集成。这部分和上一部分都是对采集数据的初始处理;存储层存储各种数据资源,定义数据存储的格式和结构。包括机构基本信息、研究成果、发展历程、新闻动态、科研项目、人物简历、规划计划、政策法规等等数据。数据服务层在数据库基础上,提供数据服务功能,包括模型训练、全文检索、语义分析、关联分析等。应用层可以建设多个应用服务模块,包括加工融合、机构分类知识库、知识搜索、可视化和***管理。上层为展示层,是用户与平台之间的交互入口,通过展示层面向终端提供知识服务门户。
图1中的信息查询***,根据业务需求进行划分,可以分为6个一级功能模块,25个二级功能模块,此外,还包括5个三级功能模块,其中,6个一级功能模块分别为:数据采集模块、数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块。
25个二级功能模块,分别为:数据采集模块包含的信源拆分及配置模块、数据采集与抽取模块、采集任务调度模块、失效检测模块以及日志统计模块;
数据加工融合模块包含的多元异构数据融合抽取标注模块、文件导入模块、人工标注加工模块、多维数据管理模块以及数据分类发布模块;
机构分类知识库包含的机构画像模块、机构文献模块以及知识关联模块;
知识搜索模块包含的全库及分库搜索模块、中英文检索模块、组合检索模块、相关度排序模块、结果统计模块以及格式化文献检索模块;
可视化模块包含的数据统计模块以及数据可视化模块;
***管理模块包含的用户管理授权模块、数据维护管理模块、日志管理模块以及数据导入导出模块。
5个三级功能模块分别为:
知识关联模块包含的产品关联模块、项目关联模块以及人物关联模块;
数据统计模块包含的业务数据统计模块以及用户行为统计模块。
可选的,多数据源可以包括可信机构官网、社交媒体、新闻网站、采办数据表、简历数据库、百科数据和/或搜索引擎;其中,可信机构可以是科研机构。
所述机构相关数据可以包括各个机构的机构数据、项目数据以及人员数据;所述机构数据可以包括机构基本信息、机构组织架构、机构研究成果、机构发展历程、机构新闻动态、机构科研项目以及机构技术专家数据;所述数据采集层从多个数据源采集机构相关数据,具体可以包括:
所述数据采集层通过选择对应的数据采集方式从多个数据源采集得到各个结构的机构数据、项目数据以及人员数据;所述采集方式包括:规避反爬取技术、防止流量监测、分布式采集技术、自动采集技术、增量采集技术、自动编码处理技术、多格式采集技术以及自动过滤采集技术。
以科研机构为例,在采集数据时,采集范围可以是以国防领域国家实验室、研究实验室、国家靶场为重点,全面采集机构、项目、人员等方面数据。机构采集数据包括机构基本信息、组织架构、研究成果、发展历程、新闻动态、科研项目、技术专家等数据,目采集数据包括项目名称、项目简介、项目时间、项目金额等信息。人员采集信息包括人员基本信息、新闻动态、社交媒体等数据。
可选的,所述数据服务层用于对处理后的数据进行数据服务处理之后,还可以包括:
获取机构ID;
基于机构ID关联所述机构相关数据,生成关联数据表;
设定各个所述关联数据表的存储结构、字段属性以及字段描述,并将处理后的数据按照多个不同的数据类型维度分别存储到机构数据库、研究成果库、新闻动态库、科研项目库、人物简介库以及政策法规库中,实现描述元数据、管理元数据、数字对象以及数据关联;所述元数据包括标题、内容、关键词、发布时间、来源以及链接。
以科研机构为例,针对科研机构的数据源,研究不同来源数据特点,结合知识库建设需求,研究制定数据规范。规定存储各类型资源(机构信息、研究成果、新闻动态、科研项目、人物简历)一般属性描述所需要的数据元素集合,实现各类型资源的描述、揭示、管理、保存和互操作。围绕机构进行关联,设计机构ID为核心的各种关联数据表,设定各个数据表的存储结构、字段属性、字段描述,从而实现描述元数据、管理元数据、数字对象以及数据关联。
其中,机构知识库内容可以包括科研机构、高校、军工企业机构信息的英文名称、中文名称、机构类型、成立时间,机构简介以及组织架构图等数据。机构数据库主数据库结构设计如表1所示。
表1.机构数据库主数据库结构表
研究成果库为权威机构的科研机构、科研管理机构、高校、军工企业的主要研究成果,内容包括机构名称、成果名称、成果类型、成果简介、成果图片、关键词、成果来源等,该数据库与机构数据库可关联使用。研究成果主数据库结构设计如表2所示。
表2.研究成果库主数据库结构表
名称 | 标识 | 数据类型 | 数据长度 | 备注 |
成果ID | Id | 字符 | 50 | 主键 |
机构编码 | org_code | 字符 | 50 | 成果关联机构(多对一关系) |
机构名称 | org_name | 字符 | 200 | |
成果名称 | Name | 字符 | 200 | |
成果类型 | type | 字符 | 50 | |
成果图片 | picture | 字符 | 500 | |
关键词 | keyword | 字符 | 200 | |
成果简介 | Profile | 文本 | ||
数据来源 | Source | 字符 | 200 |
新闻动态库为互联网上科研机构、科研管理机构、高校、军工企业的相关新闻信息,内容包括新闻标题、新闻内容、关键词、新闻来源等内容,并标注机构ID,从而实现与机构的关联。新闻动态库数据库结构设计如表3所示。
表3.新闻动态库主数据库结构表
名称 | 标识 | 数据类型 | 数据长度 | 备注 |
新闻ID | Id | 字符 | 50 | 主键 |
机构编码 | org_code | 字符 | 50 | 关联机构表(多对一关系) |
新闻标题 | org_name | 字符 | 200 | |
新闻内容 | content | 文本 | ||
发布日期 | Publish_date | 日期 | 20 | |
关键词 | keyword | 字符 | 200 | 分号分割 |
数据来源 | Source | 字符 | 200 |
科研项目库为机构发起或机构完成的相关项目信息,主要内容包括发起机构、完成机构、项目名称、项目简介、关键词、立项时间、项目经费等。其中,通过发起机构和完成机构与机构数据库关联。科研项目库数据库结构设计如表3所示。
表3.科研项目库主数据库结构表
名称 | 标识 | 数据类型 | 数据长度 | 备注 |
项目ID | ID | 字符 | 50 | 主键 |
甲方编码 | Part_a_code | 字符 | 50 | 关联机构表(多对一关系) |
甲方名称 | Part_a_name | 字符 | 200 | |
乙方编码 | Part_b_code | 字符 | 50 | 关联机构表(多对一关系) |
乙方名称 | Part_b_name | 字符 | 200 | |
项目名称 | title | 字符 | 300 | |
项目简介 | description | 文本 | ||
立项时间 | establishment_date | 日期 | 20 | |
项目经费 | funds | 数字 | 20,4 | |
数据来源 | Source | 字符 | 200 |
人物简历库为机构内管理人员和技术专家等人物的相关信息,包括人物姓名、曾用名、人物简介、照片、教育经历、工作经历等。通过机构ID实现与机构数据库的关联。人物简历库的主数据库结构设计如表4所示。
表4.人物简历库主数据库结构表
本发明中,以科研机构为例,数据来自于互联网开源数据,可以通过网络爬虫、人工搜集等手段进行采集。在多数据源的数据基础上,需要根据渠道情况进行研判,使数据尽可能更新至最新,确保数据的权威性、准确性、时效性。
按照来源,采集的信息源可以包括:重点科研机构的官方网站数据、社交媒体、新闻网站数据,可提取机构的近期动态、活动等数据;国防部科研项目数据;人物简历数据,可提取人物基本信息;百科数据、百度百科、***等;针对上述信息源,可配置多个采集器进行虚拟化部署,具体的采集配置项包括:标题、内容、关键词、发布时间、来源、链接等各种元数据。在进行采集的过程中,维护人员可以对采集参数进行配置,主要包括:采集地址、代理、扫描规则、限制、流量控制、高级选项等,从而优化采集任务。在数据采集时,数据采集工具可以按照列出各个来源的URL进行甄别,加入采集工具,进行定期的监测采集工作。通过先进的采集技术,全面、持续的采集目标信息源的数据,提供经过清洗、过滤、索引过的原始信息资源库。在采集过程中,自动分析页面中的相关链接,然后继续抓取相关的页面,把需要的内容抓取过来,无用的信息排除掉。同时要进行多任务处理,从而提高采集效率。对于不方便使用采集工具进行采集的数据,可通过人工方式进行采集。授权用户登录***,采用浏览器方式在***中进行数据录入,具有直观性、易用性的特点。在采集过程中,可以采用多种采集技术,保证持续稳定地采集,支持境外网络数据持续获取,具体技术包括:
1)规避反爬取技术:很多境外专业网站自身设置了防爬机制,无法通过常规网站抓取方式进行抓取,需要通过研究其网站和网页结构,实现规避反爬机制的手段和措施。
2)防止流量监测:为了防止境外网站流量检测屏蔽,考虑IP漂移等技术,调低被跟踪风险。
3)分布式采集技术:采用分布式采集技术进行大量信息来源的采集,可采用多台虚拟机部署,未来在采集源增加时按需扩展。
4)自动采集:采集配置后自动运行,自由设定采集开始时间和采集间隔时间,同时监控数据源变化,采集后,自动更新数据库数据。
5)增量采集:第一次采集全部内容,之后定期进行增量采集,只采集从上一个监测点后增加、修改、删除的数据。
6)自动编码处理技术:境外网站存在多种字符集的情况,如果不进行识别,将呈现乱码状态。因此,采集过程中要对多种字符集编码进行识别,再进行编码的统一转换,将不同编码内容转换为Unicode进行存储。
7)多格式采集:对文字、图片、音视频、文件附件进行统一采集和存储,对图片、音视频、文件附件可存储在磁盘目录上,在***中需要有关联。
8)自动过滤采集:针对网页文件,利用网页结构分析,自动提取网页上的有用数据,过滤掉不需要的网页或文件,如广告、无用链接、Logo等。
针对重要字段,如标题,采用单条数据自动翻译或随时调用的方式,实现机器自动翻译和人工校对结合,从而给授权工作人员提供便携、友好的使用体验。针对不同的采集目标,配置不同的采集策略。例如:采集网站的优先级设置:设定采集目标分组,将重点监测的网站集中在一起,可以设定该组的采集周期和采集更新间隔,实现优先采集。多线程采集:调整采集的工作线程数目和采集时间间隔。采集自动运行:采集配置后可实现自动运行,自由设定采集开始时间和采集间隔时间。多地部署:可以将数据采集部署在多个不同地点的物理机或虚拟机上,每台机器配置不同的采集组,采集的数据集中存储。网页结构分析:采用网页结构分析的方法确定链接,实现准确抓取,不多抓与少抓,减少因网页改版而重配模板的维护工作。多格式采集:进行图片、表格、附件、音视频的全面采集。并且可以根据用户选择的数据格式来确定应该采集哪些数据。采集更新采用第一次全部更新,第二次开始进行增量更新的方式。第一次全部更新即对数据进行全部采集和更新,要求技术和装备采集主流重点数据,机构采集当前数据,技术文献和项目采集近10年左右的数据。后期增量更新根据数据的不同情况分别设定策略,如新闻动态需要更新量较大,项目可以在项目公开后迅速更新等等。数据更新采用DVD光盘刻录的方式同步到内网。
采集更新采用第一次全部更新,第二次开始进行增量更新的方式。例如:第一次全部更新即对数据进行全部采集和更新,要求技术和装备采集主流重点数据,机构采集当前数据,技术文献和项目采集近10年左右的数据。后期增量更新根据数据的不同情况分别设定策略,如新闻动态需要更新量较大,项目可以在项目公开后迅速更新等等。数据更新可以采用DVD光盘刻录的方式同步到内网。在每次采集开始阶段,都先对采集列表进行扫描,扫描网址是否能正常采集,然后再进入正式采集阶段。由于网址变更、网站改版,或者其他因素,可能会导致不能正常进行采集,此时,对采集网址进行标记,并将其记入采集日志,给出提示,以便在后续阶段,对其进行处理。网址失效后首先可进行参数调整,如参数调整仍不能进行采集,可能需要重新定制采集模板,需要技术人员进行实施和部署。
***记录采集日志,包括正常采集日志和采集失败日志,在***中存储日志文件,可以随时进行查看。在日志文件中记录了不能正常采集的网站,记录内容包括时间、错误情况。通过采集日志,对采集情况分类进行统计,如采集成功网站数量、失败数量、采集有效信息数量,并对总体日志情况进行记录。
通过上述方法,本发明中,在进行数据采集时,从多数据源进行采集,针对不同数据源设置不同的采集方式以及配置参数,以实现快速且准确地采集数据。
所述数据服务层至少包括模型训练模块、全文检索模块、语音分析模块以及关联分析模块;所述数据服务层用于对处理后的数据进行数据服务处理,具体可以包括:所述模型训练模块基于历史数据训练信息查询模型,所述信息查询模型用于对用户输入的查询信息进行特征提取,并输出查询结果;所述全文检索模块用于基于用户输入的查询请求进行全文检索;所述语音分析模块用于基于用户输入的语音信息进行分析,提取关键词,从而为用户匹配对应的查询结果;所述关联分析模块用于基于用户输入的信息查询请求,确定与所述信息查询请求匹配的查询结果之间的关联度满足预设条件的全部查询结果。
通过上述方法,在数据服务层提供多种数据服务,对数据基于多维度需求进行处理,以满足不同的查询需求。关联度的分析,还可以在为用户推荐目标信息的基础之上,为用户推荐与目标信息相关联的其他信息,以为用户再提供需求信息的基础之上推荐更多有用的信息。
可选的,所述数据加工融合模块用于对采集的原始数据进行导入和初步加工;所述数据加工融合模块包括多源异构数据融合加工单元、文件导入单元、人工加工单元、多维数据管理单元以及数据分类发布单元,其中,所述多维数据管理单元采用自动关联算法,多级关联图的方式,自动计算展现信息的层次关系,从而实现多维数据管理。
针对不同来源的机构数据和知识文献,实现将异构信息统一处理,并导入到规范的结构化数据库中;采用计算机自动与人工处理结合实现数据的加工、整理融合,支持多维数据内容的维护和管理,以便构建数据关联线索,从而支持多维关联分析;采用动态发布技术,支持数据分类发布。
其中,多源异构数据融合抽取标注可以采用自然语言处理机制,从海量文本数据中提取多种实体内容,例如时间、地点、技术、装备、机构、项目等各种实体,然后自动化构建各个实体之间的关系,方便工作人员从大文本中迅速获得文本内容的主题信息。针对采集的网页、数据库、文件等多源异构数据,统一进行清洗和融合,对其中的标题、时间、正文、文件名称等内容进行标注,将其转化为结构化数据库,同时对其创建索引。对于其中的文献类和项目类数据,采用信息智能抽取技术,通过自然语言处理机制,从海量文本数据中提取多种实体内容,进行知识抽取。主要抽取装备类知识和机构类知识,例如装备领域、装备名称、装备型号、机构名称、机构电话、机构地址等,通过知识抽取形成知识类别信息。信息智能抽取技术摆脱了传统采集***只能基于非结构化数据和关键词方式的相关搜索,真正实现对数据的清洗,生成条理清晰的结构化数据库。
信息智能抽取技术摆脱了传统采集***只能基于非结构化数据和关键词方式的相关搜索,真正实现对数据的清洗,生成条理清晰的结构化数据库。
智能抽取采用基于词典的、基于规则的实体提取技术,自动从非结构化数据中抽取有价值实体信息。通过字典,提取资料中已知的时间、地点、技术、装备、机构、项目等,通过规则,抽取资料中未知的时间、地点、技术、装备、机构、项目等,使计算机具有一定的人类思维性,让机器可以模拟人类思维,智能地抽取有价值信息。信息抽取出来之后,再利用数学统计算法,比如词频、词位、词组关系、同时出现概率、确定性的概率、不确定性的概率、远端概率、近端概率,计算数据之间的相关性和关联性,形成专业数据库,供专家研判使用。
文件导入除了通过采集工具进行数据采集外,针对不同格式的文档(主要指Office系列的文件,以及PDF文件),将其统一存储到某个文件夹下,然后由***自动扫描并进行批量采集。采集过程中进行格式去除、内容提取,并提取文件属性。对于计算机自动采集融合的数据可以采用人工方式进一步编辑加工。经过授权的工作人员可以在***后台进行数据录入和修改。提供可视化标注功能,用于人工对文献属性和机构实体对象数据的标注,知识文献属性标注包括机构名称、成果名称、成果类型、成果简介;机构实体对象数据标注包括机构主要研究领域、组织架构、创始人、单位介绍等。人工标注加工包括新建、修改、删除功能。多维数据管理:***建立的多维模型的数据维度主要包括以下方面:机构、成果、项目、人员、发展历程和大事记等。
***采用采用自动关联算法,多级关联图的方式,自动计算,展现信息的层次关系,从而实现多维数据管理。通过上述维度的数据关联叠加,从而进行目标分析。目标分析的核心是建设多维数据模型,即:在数据挖掘的过程中,通过抽象、建模具体业务领域的元数据、数据关联规则来从整体标识一个具体应用领域。通过***自学***台处理数据的效率和准确度,获得更符合业务要求的分析成果。
数据分类发布:***采用动态发布技术,当数据库进行数据更新后,在前台实现自动展现。分类数据采用树状组织结构实现发布管理,可对树的各级节点进行维护。展现组织机构分类数据和其他数据之间的各种关联关系,包括机构画像、机构文献、知识关联,知识关联又分为产品关联、项目关联、人物关联。其中,机构画像可以采用可视化技术,展现以机构为核心的各类属性特征,实现对机构的多个维度综合展示和分析,从而为机构提供一份描绘全部信息的整体“画像”。机构画像应用的底层支撑数据为结构化数据库,主要包括科研机构的基本情况、组织架构、研究成果、发展历程、新闻动态、科研项目、技术专家等。基本信息可以包括机构中文名称、英文名称、创始人/最高领导人、公司类型、成立日期、电话、网站、地址、主要经营领域、企业介绍,采用地图的展现形式展现机构地理位置。组织架构可以使用图形化方式展现机构的整体架构,清晰展现机构职能划分。研究成果可以以图文并茂的方式展示机构研发的产品、拥有的技术。可以显示该机构的全部产品,或者按领域进行显示。发展历程可以用于记录企业的重大事记、企业的并购和剥离等变更信息。发展历程包括大事记、剥离、并购三个板块。历程数据使用时间轴展示。新闻动态可以展示该机构的相关新闻信息,可以对新闻进行搜索。科研项目可以展示该机构相关的科研项目信息。包括项目中英文名称、项目发起机构、项目金额、项目开始和结束的时间、数据来源。还可以列出该机构的主要技术专家。包括头像和人物名称,以及人物详细介绍等等。机构文献可以是机构发布的技术研究报告、战略文献、政策文件、文献出版物等文献类数据。机构文献发布的内容主要是各种格式化文档,内容以PDF、PPT等格式的文献原文为主,包括规划计划、经费投向、管理政策、科研报告、论文期刊等分类,内容为文献原文、文献日期、文献标题等信息。
所述机构分类知识库包括机构画像、机构文献以及知识关联,所述知识关联包括产品关联、项目关联以及人物关联;
机构分类知识库的建立,具体可以包括:
基于处理后的数据,建立实体模型,所述实体模型至少包括机构模型;所述机构模型中的实体至少包括机构、组织架构、机构人员、研究领域以及机构项目,各个所述实体通过实体属性信息进行关联;
结合实体对齐和指代消除技术,实现知识融合,将不同来源的数据的相同实体、实体属性、实体关系的不同表达形式合并,形成机构分类知识库。
具体操作过程中,可采用人工标注结合自动关联算法,多级关联图的方式,首先对图谱实体进行定义、实体关系定义及实体属性定义,根据定义信息的关键技术词汇自动完成实体、关系以及属性的创建,用户可以根据实际业务需求扩展机构实体、装备实体相关的属性及关联关系。从结构化数据、非结构化数据、半结构化数据中获取数据中的实体、关系和时间等信息,采用不同的获取方式,利用机器处理结合人工等多种方式。
对已有的结构化数据进行数据的抽取、转换和加载(ETL)作业,通过可视化的基础工具,以可拖拽的方式快速实现ETL作业的开发和部署,以实现对数据分析处理的支持。利用关键词或逻辑表达式,设定分类,从而对数据进行动态筛选和过滤,可以在***中设定分类树,聚焦相关信息。采用自然语言处理机制,从海量文本数据中提取多种实体内容,例如时间、地点、技术、装备、机构、项目等各种实体,然后自动化构建各个实体之间的关系,方便工作人员从大文本中迅速获得文本内容的主题信息。信息智能抽取技术摆脱了传统采集***只能基于非结构化数据和关键词方式的相关搜索,真正实现对数据的清洗,生成条理清晰的结构化数据库。结合实体对齐和指代消除技术,实现知识融合,从而将不同来源的数据的相同实体、实体属性、实体关系的不同表达形式合并。
实体对齐判断两个或者多个不同信息来源的实体是否为指向真实世界中同一对象。如果多个实体代表同一个对象,则在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐。此外,也可以利用相关领域知识进行对齐。指代消除是将代表同一实体的不同指称划分到一个等价集合的过程。能够有效解决文本当中的指代不明问题,是NLP领域的一项基础性研究,在机器阅读理解、信息抽取中起到重要作用。
指代消除主要利用上下文照应语和先行语的关系进行判断和消解。
图数据库是传统关系型数据库的拓展,其支持的图结构更加灵活,在基于图的数据增加、删除、查询、修改等方面,采用基于顶点的视角,在支持对顶点/边的查询与更新时更加高效。neo4j图数据库是目前开源的主流图数据库,其主要考虑了Java应用程序的实际需求,性能优异。***可以支持neo4j图数据库存储知识图谱相关的数据,通过接口规范进行数据存取。
在***中,机构、项目、人员、产品、装备、合同、以及相关的文档是相互关联的,用户可在组织机构数据列表中,通过关联的下拉菜单,找到与该机构相关的科研人员或者关联项目,也可以查看机构下的产品、装备、合同、以及相关的文档。
知识搜索支持对互联网采集下来的原始数据进行知识搜索,支持全部搜索及分库搜索,展示原始数据来源、标题等信息,支持使用中英文同时进行知识检索,支持各种组合方式检索,对检索结果进行相关性和结果统计,支持文献格式化文件的直接检索。搜索的结果不仅可以采用列表的方式,或者相关信息(如相关项目、相关机构、相关文献)的方式展示,而且可以采用关联图谱的方式进行关联性展示。全库搜索及分库搜索:***在创建索引时,针多个专题库建立了统一的索引数据,因此能够支持异构资源的跨库搜索,从而实现单库、多库可选择的搜索方式,实现联合搜索功能,提供对字、词、段落的检索功能。
中英文检索:匹配不依赖任何语言的语法结构,将字看成是意义的抽象符号,通过字出现时的上下文环境而不是通过严格的语法定义来形成对该字的理解,俚语和其他变化均不会影响***结果。语种识别、分析、搜索基于概率论和信息论的数学模型,可以处理所有的有字符表现形式的语言文字。
组合检索:***采用智能的搜索引擎,完全支持关键词,布尔逻辑表达式以及精确搜索和模糊搜索功能,例如:关键词逻辑表达式组合:包括AND、OR、NOT、NEAR、DNEAR、SOUNDEX、FUZZY、RANGE等等;***提供检索条件设置界面,用户可对各种检索条件进行设置,包括检索字段(关键字、布尔逻辑表达式(逻辑关系)搜索、检索范围(数据类型、时间范围、信息格式、语言种类)、结果排序方式、过滤条件、结果展现形式等。
相关度排序:用户可以快速的搜索文档,提供按搜索结果相关性排序功能,可以按按任意字段或多个字段进行检索结果排序,同时用户也可以根据文档相关属性对搜索结果进行相应的排序。结果统计:知识搜索支持对搜索的结果数据进行归类和导航,在结果页面直接显示相关的统计分析图表,例如对命中结果分布、比例、数据量进行汇总统计的图表,通过图表,进行直观的导航展示,并可以点击图表,进入列表数据。格式化检索:针对各种文献(如战略性文件、智库文献等)中的格式化文件,不需要人工处理,支持对文件全文内容的直接搜索,按照目录形式或者列表形式对文档进行分类组织,分类层次可以任意定制;对目录下文档进行自动扫描,并将目录作为文档分类标引项自动提取;对于一些标准格式文档,可以提取一些特征值,如标题、作者、单位、摘要等作为元数据标引项;实现对于文档标引项的自动入库,文档原文链接的自动生成。支持HTML、XML、Office(Word、PowerPoint、Excel)、PDF等文件格式的检索。
采用轻量级可视化技术实现可视化展示,该方式基于统计数据,实现多维数据的统计分析,分析结果支持时间轴、鱼骨图、饼图等多角度可视化呈现方式,支持实时多角度切换可视化呈现。功能包括数据统计和数据可视化两部分,数据统计又分为业务数据统计和用户行为统计。***实现轻量级数据可视化统计图表,可以按照实际业务需要进行可视化图表的定制,通过图表对各类数据进行组织和统计,实现对***各类数据的多维度统计分析。数据可视化图表不仅显示当前的统计结果,还可以直接点击相关图的部份,进入与其对应的数据列表,实现信息追溯。***管理是对用户、授权、数据的统一监测和管理,包括用户管理授权、数据维护管理、日志管理、数据导入导出四部分。用户管理:管理单个用户,支持增、删、改、查,包括用户名、密码、登陆***的情况日志。角色管理:分组对用户进行管理,支持增、删、改、查。针对数据浏览、搜索,通过设定用户角色,从而进行权限分配和组合。角色管理支持建立管理员角色、普通用户角色,普通用户角色只具有浏览和查询数据的权限的业务。依照业务需要,登录***的用户在***中并不是什么功能都可以操作,***支持按照数据类别进行授权的机制。数据类别的授权管理,即可以对全部内容授权,也可以针对某个数据库进行授权,从而有效控制用户在***中的操作。授权内容包括创建、查看、修改、删除,可以为常用角色设定相对固定的权限,将人员加入角色,从而获得该权限。
实施例1中建立的信息查询***,可以实现以下技术效果:
1)提高了信息查询效率以及查询准确度,该信息查询***既可以基于用户的查询请求为用户显示目标查询信息以及相关联的信息,也可以基于用户的历史操作行为主动为用户推动相关联的信息。
2)在为用户显示查询结果时,显示多个维度的查询结果,并且额外为用户显示与目标查询信息存在多个关联度的相关信息,为用户决策提供更好的辅助。
3)能够满足用户的多种查询方式,例如:关键词查询、句子查询、语音查询等方式,基于各种查询方式为用户推荐更全面、更准确的查询结果。
4)通过计算机替代大量机械化、重复化人工劳动,通过智能分析技术实现多渠道信息的初始融合和加工,从而在最大程度上,降低人工劳动,易用性强。设计开放和标准化设计原则,可以同其他关联***进行数据交互,具有开放性和标准化。
5)建立多层次安全防护体系,采用权限管理和控制,根据服务对象、用户类型、数据类型等要求,进行分类授权发布防止非法越级操作,安全性高。
6)平台易于管理与维护,操作简单,易学易用,便于进行***配置,并能够很好的监控运行状态、安全性、性能等方面内容,可管理性强。
7)***具有良好的结构,各个部分有明确和完整的定义,使得局部的修改不影响全局和其他部分的结构和运行;各模块间耦合度小,适应业务发展,便于***继承和扩展。
实施例2
如图2所示,图2为本发明提供的信息查询方法流程示意图。需要说明的是,实施例2中的方法是基于实施例1中建立的信息查询***实现的,采用实施例1中建立的信息查询***实现信息查询。因此,信息查询方法应用于信息查询***,信息查询***至少包括:数据采集层、数据处理层、数据服务层、应用层以及展示层;所述数据采集层从多个数据源采集机构相关数据;所述数据处理层对所述机构相关数据进行数据处理,得到处理后的数据;所述数据处理包括数据抽取、数据清洗、数据转换和/或数据集成;所述数据服务层用于对处理后的数据进行数据服务处理;所述数据服务层至少包括模型训练模块、全文检索模块、语义分析模块以及关联分析模块中的一种或多种;所述应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;所述展示层为用户与平台之间的交互入口;该流程可以包括以下步骤:
步骤210:获取用户通过所述展示层输入的信息查询请求。
步骤220:基于所述信息查询请求,从所述信息查询***中查找与所述信息查询请求匹配的目标信息以及所述目标信息的关联信息;所述目标信息与所述关联信息之间的关联度满足预设条件。
步骤230:将所述目标信息以及所述目标信息的关联信息通过展示层进行展示。
图2中的方法,由于是基于图1中的***来实现的,因此,其技术效果与实施例1的技术效果相同,此处不再赘述。
基于同样的思路,本说明书实施例还提供了一种信息查询设备。图3为本发明提供的信息查询设备结构示意图。信息查询设备应用于信息查询***,信息查询***至少包括:数据采集层、数据处理层、数据服务层、应用层以及展示层;所述数据采集层从多个数据源采集机构相关数据;所述数据处理层对所述机构相关数据进行数据处理,得到处理后的数据;所述数据处理包括数据抽取、数据清洗、数据转换和/或数据集成;所述数据服务层用于对处理后的数据进行数据服务处理;所述数据服务层至少包括模型训练模块、全文检索模块、语义分析模块以及关联分析模块中的一种或多种;所述应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;所述展示层为用户与平台之间的交互入口;设备包括:
通信单元/通信接口,用于获取用户通过所述展示层输入的信息查询请求;
处理单元/处理器,用于基于所述信息查询请求,从所述信息查询***中查找与所述信息查询请求匹配的目标信息以及所述目标信息的关联信息;所述目标信息与所述关联信息之间的关联度满足预设条件;
将所述目标信息以及所述目标信息的关联信息通过展示层进行展示。
如图3所示,上述终端设备还可以包括通信线路。通信线路可包括一通路,在上述组件之间传送信息。
可选的,如图3所示,该终端设备还可以包括存储器。存储器用于存储执行本发明方案的计算机执行指令,并由处理器来控制执行。处理器用于执行存储器中存储的计算机执行指令,从而实现本发明实施例提供的方法。
可选的,本发明实施例中的计算机执行指令也可以称之为应用程序代码,本发明实施例对此不作具体限定。
在具体实现中,作为一种实施例,如图3所示,处理器可以包括一个或多个CPU,如图3中的CPU0和CPU1。
在具体实现中,作为一种实施例,如图3所示,终端设备可以包括多个处理器,如图3中的处理器。这些处理器中的每一个可以是一个单核处理器,也可以是一个多核处理器。
上述主要从各个模块之间交互的角度对本发明实施例提供的方案进行了介绍。可以理解的是,各个模块为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件单元。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例可以根据上述方法示例进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本说明书中的处理器还可以具有存储器的功能。存储器用于存储执行本发明方案的计算机执行指令,并由处理器来控制执行。处理器用于执行存储器中存储的计算机执行指令,从而实现本发明实施例提供的方法。
存储器可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信线路与处理器相连接。存储器也可以和处理器集成在一起。
可选的,本发明实施例中的计算机执行指令也可以称之为应用程序代码,本发明实施例对此不作具体限定。
上述本发明实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processing,DSP)、ASIC、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
一种可能的实现方式中,提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令被运行时,用于实现上述实施例中的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。
尽管结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (10)
1.一种信息查询***,其特征在于,信息查询***至少包括:
数据采集层、数据处理层、数据服务层、应用层以及展示层;
所述数据采集层从多个数据源采集机构相关数据;
所述数据处理层对所述机构相关数据进行数据处理,得到处理后的数据;所述数据处理包括数据抽取、数据清洗、数据转换和/或数据集成;
所述数据服务层用于对处理后的数据进行数据服务处理;所述数据服务层至少包括模型训练模块、全文检索模块、语义分析模块以及关联分析模块中的一种或多种;
所述应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;
所述展示层为用户与平台之间的交互入口,所述展示层基于用户输入的信息查询请求,为用户显示所述信息查询请求对应的目标信息以及所述目标信息的关联信息;所述目标信息与所述关联信息之间的关联度满足预设条件。
2.根据权利要求1所述的***,其特征在于,多个数据源包括可信机构官网、社交媒体、新闻网站、采办数据表、简历数据库、百科数据和/或搜索引擎;
所述机构相关数据包括各个机构的机构数据、项目数据以及人员数据;
所述机构数据包括机构基本信息、机构组织架构、机构研究成果、机构发展历程、机构新闻动态、机构科研项目以及机构技术专家数据;
所述数据采集层从多个数据源采集机构相关数据,具体包括:
所述数据采集层通过选择对应的数据采集方式从多个数据源采集得到各个结构的机构数据、项目数据以及人员数据;所述数据采集方式包括:规避反爬取技术、防止流量监测、分布式采集技术、自动采集技术、增量采集技术、自动编码处理技术、多格式采集技术以及自动过滤采集技术。
3.根据权利要求1所述的***,其特征在于,所述数据服务层用于对处理后的数据进行数据服务处理之后,还包括:
获取机构ID;
基于机构ID关联所述机构相关数据,生成关联数据表;
设定各个所述关联数据表的存储结构、字段属性以及字段描述,并将处理后的数据按照多个不同的数据类型维度分别存储到机构数据库、研究成果库、新闻动态库、科研项目库、人物简介库以及政策法规库中,实现描述元数据、管理元数据、数字对象以及数据关联;所述元数据包括标题、内容、关键词、发布时间、来源以及链接。
4.根据权利要求1所述的***,其特征在于,所述数据服务层至少包括模型训练模块、全文检索模块、语音分析模块以及关联分析模块;
所述数据服务层用于对处理后的数据进行数据服务处理,具体包括:
所述模型训练模块基于历史数据训练信息查询模型,所述信息查询模型用于对用户输入的查询信息进行特征提取,并输出查询结果;
所述全文检索模块用于基于用户输入的查询请求进行全文检索;
所述语音分析模块用于基于用户输入的语音信息进行分析,提取关键词,从而为用户匹配对应的查询结果;
所述关联分析模块用于基于用户输入的信息查询请求,确定与所述信息查询请求匹配的查询结果之间的关联度满足预设条件的全部查询结果。
5.根据权利要求2所述的***,其特征在于,所述数据采集层从多个数据源采集机构相关数据时,基于数据采集任务,对所述数据采集方式设置优先级;并设置采集的工作线程数目和采集时间间隔;采集更新时,第一次全部更新,后续开始进行增量更新。
6.根据权利要求1所述的***,其特征在于,所述数据加工融合模块用于对采集的原始数据进行导入和初步加工;所述数据加工融合模块包括多源异构数据融合加工单元、文件导入单元、人工加工单元、多维数据管理单元以及数据分类发布单元,其中,所述多维数据管理单元采用自动关联算法,多级关联图的方式,自动计算展现信息的层次关系,从而实现多维数据管理。
7.根据权利要求1所述的***,其特征在于,所述机构分类知识库包括机构画像、机构文献以及知识关联,所述知识关联包括产品关联、项目关联以及人物关联;
机构分类知识库的建立,具体包括:
基于处理后的数据,建立实体模型,所述实体模型至少包括机构模型;所述机构模型中的实体至少包括机构、组织架构、机构人员、研究领域以及机构项目,各个所述实体通过实体属性信息进行关联;
结合实体对齐和指代消除技术,实现知识融合,将不同来源的数据的相同实体、实体属性、实体关系的不同表达形式合并,形成机构分类知识库。
8.根据权利要求1所述的***,其特征在于,所述知识搜索模块包括:全库搜索及分库搜索单元、中英文检索单元、组合检索单元、相关度排序单元、结果统计单元以及格式化文献检索单元;
所述可视化模块用于基于统计数据,实现多维数据的统计分析,分析结果支持时间轴、鱼骨图、饼图可视化显示,支持多角度切换可视化显示。
9.一种信息查询方法,其特征在于,信息查询方法应用于信息查询***,信息查询***至少包括:数据采集层、数据处理层、数据服务层、应用层以及展示层;所述数据采集层从多个数据源采集机构相关数据;所述数据处理层对所述机构相关数据进行数据处理,得到处理后的数据;所述数据处理包括数据抽取、数据清洗、数据转换和/或数据集成;所述数据服务层用于对处理后的数据进行数据服务处理;所述数据服务层至少包括模型训练模块、全文检索模块、语义分析模块以及关联分析模块中的一种或多种;所述应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;所述展示层为用户与平台之间的交互入口;
信息查询方法包括:
获取用户通过所述展示层输入的信息查询请求;
基于所述信息查询请求,从所述信息查询***中查找与所述信息查询请求匹配的目标信息以及所述目标信息的关联信息;所述目标信息与所述关联信息之间的关联度满足预设条件;
将所述目标信息以及所述目标信息的关联信息通过展示层进行展示。
10.一种信息查询设备,其特征在于,信息查询设备应用于信息查询***,信息查询***至少包括:数据采集层、数据处理层、数据服务层、应用层以及展示层;所述数据采集层从多个数据源采集机构相关数据;所述数据处理层对所述机构相关数据进行数据处理,得到处理后的数据;所述数据处理包括数据抽取、数据清洗、数据转换和/或数据集成;所述数据服务层用于对处理后的数据进行数据服务处理;所述数据服务层至少包括模型训练模块、全文检索模块、语义分析模块以及关联分析模块中的一种或多种;所述应用层包括数据加工融合模块、机构分类知识库、知识搜索模块、可视化模块以及***管理模块;所述展示层为用户与平台之间的交互入口;设备包括:
通信单元/通信接口,用于获取用户通过所述展示层输入的信息查询请求;
处理单元/处理器,用于基于所述信息查询请求,从所述信息查询***中查找与所述信息查询请求匹配的目标信息以及所述目标信息的关联信息;所述目标信息与所述关联信息之间的关联度满足预设条件;
将所述目标信息以及所述目标信息的关联信息通过展示层进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211153838.5A CN115757689A (zh) | 2022-09-21 | 2022-09-21 | 一种信息查询***、方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211153838.5A CN115757689A (zh) | 2022-09-21 | 2022-09-21 | 一种信息查询***、方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115757689A true CN115757689A (zh) | 2023-03-07 |
Family
ID=85351761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211153838.5A Pending CN115757689A (zh) | 2022-09-21 | 2022-09-21 | 一种信息查询***、方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757689A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258138A (zh) * | 2023-03-15 | 2023-06-13 | 北京百度网讯科技有限公司 | 知识库构建方法、实体链接方法、装置及设备 |
CN117009187A (zh) * | 2023-09-27 | 2023-11-07 | 西安热工研究院有限公司 | 上位机监控***cid文件增量式编译方法、***及设备 |
CN117453805A (zh) * | 2023-12-22 | 2024-01-26 | 石家庄学院 | 一种不确定性数据的可视化分析方法 |
-
2022
- 2022-09-21 CN CN202211153838.5A patent/CN115757689A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258138A (zh) * | 2023-03-15 | 2023-06-13 | 北京百度网讯科技有限公司 | 知识库构建方法、实体链接方法、装置及设备 |
CN116258138B (zh) * | 2023-03-15 | 2024-01-02 | 北京百度网讯科技有限公司 | 知识库构建方法、实体链接方法、装置及设备 |
CN117009187A (zh) * | 2023-09-27 | 2023-11-07 | 西安热工研究院有限公司 | 上位机监控***cid文件增量式编译方法、***及设备 |
CN117009187B (zh) * | 2023-09-27 | 2024-01-19 | 西安热工研究院有限公司 | 上位机监控***cid文件增量式编译方法、***及设备 |
CN117453805A (zh) * | 2023-12-22 | 2024-01-26 | 石家庄学院 | 一种不确定性数据的可视化分析方法 |
CN117453805B (zh) * | 2023-12-22 | 2024-03-15 | 石家庄学院 | 一种不确定性数据的可视化分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107819824B (zh) | 一种城市数据开放与信息服务***及服务方法 | |
US10261954B2 (en) | Optimizing search result snippet selection | |
US20190213407A1 (en) | Automated Analysis System and Method for Analyzing at Least One of Scientific, Technological and Business Information | |
CN110597981B (zh) | 一种采用多策略自动生成摘要的网络新闻概要*** | |
US10380144B2 (en) | Business intelligence (BI) query and answering using full text search and keyword semantics | |
US8935272B2 (en) | Curated answers community automatically populated through user query monitoring | |
CN109710851B (zh) | 基于互联网模式下多源数据分析的就业推荐方法及*** | |
KR20210040891A (ko) | 정보 추천 방법과 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 | |
CN115757689A (zh) | 一种信息查询***、方法及设备 | |
CN108984667A (zh) | 一种舆情监测*** | |
US10678820B2 (en) | System and method for computerized semantic indexing and searching | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
KR20110133909A (ko) | 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치 | |
WO2018020495A1 (en) | Computerized environment for human expert analysts | |
US9984108B2 (en) | Database joins using uncertain criteria | |
CN116226494B (zh) | 一种用于信息搜索的爬虫***及方法 | |
Salam et al. | Distributed framework for political event coding in real-time | |
KR20160120583A (ko) | 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법 | |
Blümel et al. | The quest for research information | |
Faraj et al. | Enriching Wikidata with cultural heritage data from the COURAGE project | |
Martínez-Castaño et al. | Polypus: a big data self-deployable architecture for microblogging text extraction and real-time sentiment analysis | |
El Haddadi et al. | Mining unstructured data for a competitive intelligence system XEW | |
Yu et al. | Web of conferences: a conference knowledge graph | |
CN116541503B (zh) | 一种燃气输配***应急处置辅助决策*** | |
KR102434880B1 (ko) | 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |