CN114860852A - 一种面向军事领域的知识图谱构建方法 - Google Patents
一种面向军事领域的知识图谱构建方法 Download PDFInfo
- Publication number
- CN114860852A CN114860852A CN202210404352.8A CN202210404352A CN114860852A CN 114860852 A CN114860852 A CN 114860852A CN 202210404352 A CN202210404352 A CN 202210404352A CN 114860852 A CN114860852 A CN 114860852A
- Authority
- CN
- China
- Prior art keywords
- military
- entity
- entities
- data
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/838—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向军事领域的知识图谱构建方法,属于知识图谱领域。本发明通过爬虫从互联网获取到军事相关新闻报道和百科类装备及机构等信息,对已有的数据进行补充;然后通过总结和前期经验,设置部分实体类型和实体关系类型,利用多种算法融合的方式进行军事实体、要素属性和实体间关系的抽取;对获得的实体、属性和关系进行融合校验,得到正确数据集合,进而进行知识图谱的可视化和推理、挖掘等其他应用。本发明可形成知识图谱,可以进行进一步应用和可视化展现。
Description
技术领域
本发明属于知识图谱领域,具体涉及一种面向军事领域的知识图谱构建方法。
背景技术
知识图谱在2012年由Google提出并应用于搜索业务中,其通过将海量、多元异构、零散碎片的知识,进行清洗、消歧和去冗余等操作后整理为结构化的三元组形式并加以存储和应用生成大规模的知识图谱,较为简洁的呈现了客观世界实体间的逻辑关系和层次结构。在划分上,知识图谱根据内容覆盖范围可以划分为通用的知识图谱和面向特定领域的知识图谱,也称为垂直领域的知识图谱。
现阶段,特定领域的知识图谱仍旧在研究和探索中。知识图谱具有强大的语义分析和互联能力,在知识应用可视化、搜索引擎、智能问答和决策支持等方面取得很多成果,在智慧医疗、电子商务、现代农业等诸多领域都获得应用,在军事领域应用较少。
军事领域的智能化和自动化进程对军事知识采集、存储、表示、查询等技术提出更高的要求,因此知识图谱在军事上将发会越来越重要的作用。将知识图谱应用于军事领域可以实现实体数据的集中存储、统一分发以及共建共享,在实体关系推理和发展,也起着重要作用。依托数据挖掘和关联分析等技术,从简单展示向实用性靠拢,可以从海量、多源、零散的军事数据中发现潜在信息,辅助进行态势判断和趋势分析。但是目前面向军事领域的知识图谱较少,缺乏领域特点和针对性,无法实现准确和高效构建。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种面向军事领域的知识图谱构建方法,以解决面向军事领域的知识图谱较少,缺乏领域特点和针对性,无法实现准确和高效构建的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种面向军事领域的知识图谱构建方法,该方法包括如下步骤:
S11、融合整理已有的结构化数据和半结构化军事数据;
S12、通过爬虫从互联网获取到军事相关新闻报道和百科知识,对已有的数据进行补充;
S13、对已经获取到的数据进行文本清洗,删除重复信息、纠正无效值和缺失值,包括不需要用的标点符号、停用词、标签和无关内容,并提供数据审查、校验和一致性检测,进而执行分词、词性标注和向量化工作;
S14、通过总结和前期经验设置部分实体类型和实体关系类型;
S15、利用规则匹配和实体向量算法融合的方式进行军事实体、属性和实体间关系的抽取;
S16、对获得的军事实体、属性和实体间关系进行融合校验,得到正确数据集合;
S17、进行知识图谱的可视化和推理。
进一步地,结构化数据包括物资装备字典、地点字典和同名词典。
进一步地,半结构化军事数据包括装备属性数据和作战文书。
进一步地,所述步骤S14中,实体类型包括军事装备、人员、机构和物资;实体关系类型包括应用、就职、部署、搭载、指挥和打击关系。
进一步地,所述步骤S15具体包括:
首先与已有的武器装备实体字典、同义词库进行匹配识别实体内容,进一步通过语义、语法规则识别模板进行实体识别,采用基于词向量的Bi-LSTM-CRF算法,并在其中添加注意力机制,增强军事实体关键特征的权重,抽取出军事实体、属性和实体间关系类型;
其中,借助实体字典和关联同义词库,通过迭代式同步更新实体字典和同义词库,从而在下次识别同义实体时,一定范围快速解决;
其中,针对新词,利用语义和语法规则匹配方式进行简单发现,进行归类和整理,而后进一步通过Bert-BiLSTM-CRF算法,并在其中添加注意力机制进行军事实体的新词发现和识别。
进一步地,所述实体识别具体包括:通过利用属性关系指示词、位置规律和共现规律的规则匹配对实体和实体属性进行识别,直接连接对应属性信息,通过关系触发字与位置特征发现新的实体关系。
进一步地,所述步骤S16具体包括:通过实体属性和实体上下文语义判断实体是否对齐,对多源的属性和关系进行纠错和择优以消除矛盾和歧义,最终实现对实体属性和关系的融合和消歧。
进一步地,所述步骤S17具体包括:进行抽取结果的可视化,在充分考虑数据量和数据关联性情况下,通过图数据库实现可视化;通过可视化界面建立战场焦点,关联相关实体和属性、关系,可以进行战场兵力和武器效能对比;通过图推理算法实现未知实体关系和属性的推理。
本发明还提供一种面向军事领域的知识图谱构建方法,该方法包括如下步骤:
S21、整合已有非结构化军事文本数据;
S22、通过从网络获取到国内外军事相关新闻报道和百科类装备及机构信息,对已有的数据进行补充;
S23、通过总结和前期经验设置部分实体类型和实体关系类型,形成装备类别、人员机构类别实体元数据;
S24、利用多种算法融合的方式进行军事实体、要素属性和实体间关系的抽取;
S25、对获得的实体、属性和关系进行融合校验,得到正确数据集合;
S26、进行知识图谱的可视化和推理。
本发明还提供一种面向军事领域的知识图谱构建***,该***包括如下模块:
数据获取模块,用于结构化数据和半结构化军事数据的获取;
数据预处理模块,用于非结构化数据的清洗,提供数据审查、校验和一致性检测,进而执行分词、词性标注和向量化工作;
预定义模块,用于实体、属性元数据预定义和实体关系类型预定义;
要素信息抽取模块,用于军事相关实体、属性及关系的抽取,并进行融合校验;
知识图谱可视化模块,用于知识图谱的可视化和定制化展现。
(三)有益效果
本发明提出一种面向军事领域的知识图谱构建方法,本发明在单一通过规则或者神经网络识别实体、属性和关系的通用方法下,提出多层次的混合方式。通过预先的基础实体字典库和同名库,实现基础的实体要素抽取,并在实施过程中进行增量化的迭代更新;进一步的,应用规则方式进行实体军事装备和机构等识别;在这些方法上进一步使用神经网络方式进行实体要素提取,实现高效出抽取。最终形成知识图谱,可以进行进一步应用和可视化展现。
附图说明
图1为本发明面向军事领域的知识图谱构建方法流程图;
图2为面向军事领域的知识图谱构建功能模块图;
图3为实体、属性和关系抽取流程图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明公开了一种基于军事领域的知识图谱构建方法,通过爬虫从互联网获取到军事相关新闻报道和百科类装备及机构等信息,对已有的数据进行补充;然后通过总结和前期经验,设置部分实体类型和实体关系类型,利用多种算法融合的方式进行军事实体、要素属性和实体间关系的抽取;对获得的实体、属性和关系进行融合校验,得到正确数据集合,进而进行知识图谱的可视化和推理、挖掘等其他应用。
本发明针对面向军事领域的知识图谱构建方法进行描述,其数据基础为军事文章及相关新闻报道及半结构化数据,但是不仅限于以上内容,包含军事实体的相关文档均应包括在内,通过融合字典和规则匹配、神经网络算法等多层次识别方法,进行知识图谱实体、属性和关系的抽取,进而进行可视化和各类应用。
为实现以上面向军事领域的知识图谱构建方法,所述方法包括:
S11、融合整理已有的结构化数据和半结构化军事数据,结构化数据例如为物资装备字典、地点字典和同名词典;半结构化军事数据例如为装备属性数据、作战文书等内容;
S12、通过爬虫从互联网获取到军事相关新闻报道和百科知识,对已有的数据进行补充;
S13、对已经获取到的数据进行文本清洗,删除重复信息、纠正无效值和缺失值,包括不需要用的标点符号、停用词、标签和无关内容,并提供数据审查、校验和一致性检测,进而执行分词、词性标注和向量化工作。
S14、通过总结和前期经验设置部分实体类型和实体关系类型;
S15、利用规则匹配和实体向量算法融合的方式进行军事实体、属性和实体间关系的抽取;
S16、对获得的军事实体、属性和实体间关系进行融合校验,得到正确数据集合;
S17、进行知识图谱的可视化和推理等其他应用。
可选的,获取军事原始数据,内容可以包括:融合整理已有结构化数据和非结构化军事数据。
通过爬虫从互联网获取到军事相关新闻报道和百科类装备及机构等信息,对已有的数据进行补充,进而形成相互印证校验。
可选的,该步骤S14具体包括:定义实体类型和实体关系类型,后期进行增量化的更新和修正:
实体类型主要集中在大类军事实体数据,包括军事装备、人员、机构和物资等;
实体关系类型主要包括应用、就职、部署、搭载、指挥和打击关系等类型。
可选的,步骤S15具体包括:利用多层次方法识别军事实体、属性和关系,主要包括:
首先与已有的武器装备等实体字典、同义词库进行匹配识别实体内容,进一步通过语义、语法规则识别模板进行实体识别,采用基于词向量的Bi-LSTM-CRF算法,并在其中添加注意力机制,增强军事实体关键特征的权重,抽取出军事实体、属性和实体间关系类型。
由于军事实体名称层出不穷且存在大量的简称和多名称同指问题,针对军事装备和机构等实体存在别称等问题,借助实体字典和关联同义词库,通过迭代式同步更新实体字典和同义词库,可在下次识别同义实体时,一定范围快速解决;
针对新词,利用语义和语法规则匹配方式进行简单发现,如常见的*型机可能是装备名称,**洼、**岗则可能为某地名,搭载、部署等可能连接装备和地名实体,诸如此类都进行了归类和整理,而后进一步通过Bert-BiLSTM-CRF算法,并在其中添加注意力机制进行军事实体的新词发现和识别;
通过分层次的多种算法模型进行军事实体、属性和关系的识别抽取,提高准确率和召回率。
可选的,步骤S16主要对获得的军事实体、属性和实体间关系三元组进行融合整理:
具体通过实体属性和实体上下文语义等信息判断实体是否对齐,对多源的属性和关系进行纠错和择优以消除矛盾和歧义,最终实现对实体属性和关系的融合和消歧。
可选的,步骤S17包括:进行抽取结果的可视化,在充分考虑数据量和数据关联性情况下,主要通过图数据库实现可视化:
通过可视化界面建立战场焦点,关联相关实体和属性、关系,可以进行战场兵力和武器效能对比;
通过图推理算法实现未知实体关系和属性等知识的推理。
实施例1:
一种面向军事领域的知识图谱构建方法,主要步骤包括:
S21、整合已有非结构化军事文本数据;
S22、通过从网络获取到国内外军事相关新闻报道和百科类装备及机构等信息,对已有的数据进行补充;
S23、通过总结和前期经验设置部分实体类型和实体关系类型,形成装备类别、人员机构类别等实体元数据;
S24、利用多种算法融合的方式进行军事实体、要素属性和实体间关系的抽取;
S25、对获得的实体、属性和关系进行融合校验,得到正确数据集合;
S26、进行知识图谱的可视化和推理、挖掘等其他应用。
S21和S22中获取军事原始数据,内容具体包括已有结构化数据和非结构化军事文本数据,包括物资装备字典和地点字典,同名词典;装备属性数据和作战文书等内容;
通过爬虫从互联网获取到军事相关新闻报道和百科类装备及机构等信息,对已有的数据进行补充,进而形成相互印证校验;
S22之后,S23之前还包括:对获取到的非结构化数据进行预处理,具体包括:
主要对已经获取到的数据进行文本清洗、分词、词性标注。对已经获取到的数据进行文本清洗,删除重复信息、纠正无效值和缺失值,包括不需要用的标点符号、停用词、标签和无关内容,需要针对军事装备和机构等特点进行特殊处理,比如装备中常存在“”,‘’和-,—等标点符号需要予以保留。最后提供数据审查和校验、一致性检测,进而分词、词性标注和向量化工作。
S23具体包括:定义实体类型和关系类型,后期进行增量化的更新和修正,具体包括:
主要集中在大类军事实体数据,包括军事地名、装备、人员、机构、物资等;每一类别的细分子类别同样在进一步细化,军事地名细分为海上岛屿、陆上山命,河流、湖泊和边境交界未定名等;装备细分为海上、陆上、空中和天基装备等;包括机构、物资也进行了子类的分类和细化。实体关系类型主要包括应用、就职、部署、搭载、指挥和打击关系等类型。
S24具体包括:利用融合规则匹配算法和基于词向量的卷积神经网络算法识别抽取军事实体、属性和实体间关系类型,具体包括:
由于军事实体名称层出不穷且存在大量的简称和多名称同指问题,针对军事装备和机构等实体存在别称等问题,借助实体字典和同名字典可在一定范围快速解决;针对新词,利用规则匹配方式进行简单发现,而后进一步通过基于词向量的卷积神经网络算法进行军事实体的新词发现和识别。通过分层次的多种算法模型进行军事实体、属性和关系的识别抽取。
通过利用属性关系指示词、位置规律和共现规律的规则匹配对实体和实体属性进行识别,如:研发单位、机炮、最大行程、全重、射程等关键词,诸如此类属性名后,一般直接连接对应属性信息。通过关系触发字与位置特征发现新的实体关系。
由于军事文本中实体关系的稀疏性,申请采用联合抽取方式进行实体和关系分类的抽取,通过Bert-BiLSTM-CRF算法,并在其中添加注意力机制进行实体及其关系的识别。
S25具体包括:抽取结果的融合整理,具体包括:
其中包括实体对齐、实体链接和知识合并等过程,对多源的属性和关系,通过冲突检测、真值发现等技术消解军事实体融合过程中的冲突,再对知识进行关联与合并,以消除矛盾和歧义,最终形成一个一致的结果。
S26具体包括:抽取结果的可视化,开展进一步的应用,具体包括:
通过进行抽取结果的可视化,在充分考虑数据量和数据关联性情况下,主要通过图数据库实现:通过可视化界面建立战场焦点,关联相关实体和属性、关系,可以进行战场兵力和武器效能对比;
知识推理利用已有的本体关系,依托图结构和统计规则挖掘完成实体之间关系的推理,产生实体间新的关联关系,实现知识图谱的补全和校验。
实施例2:
一种面向军事领域的知识图谱构建方法,所述方法包括:
融合整理已有非结构化军事文本数据;
通过爬虫从互联网获取到军事相关新闻报道和百科类装备及机构等信息,对已有的数据进行补充;
对已获得的数据进行清洗等预处理;
通过总结和前期经验设置部分实体类型和实体关系类型,形成装备类别、人员机构类别等实体元数据;
利用多种算法融合的方式进行军事实体、要素属性和实体间关系的抽取;
对获得的实体、属性和关系进行融合校验,得到正确数据集合;
进行知识图谱的可视化和推理、挖掘等其他应用。
进一步地,将获取到的互联网数据和已有的非结构化和半结构化数据进行清洗等预处理:
对已经获取到的数据进行文本清洗,删除重复信息、纠正无效值和缺失值,包括不需要用的标点符号、停用词、标签和无关内容,并提供数据审查和校验、一致性检测,进而分词、词性标注和向量化工作。
进一步地,定义实体类型和关系类型,后期进行增量化的更新和修正:
分析研究军事实体的组织结构,从顶层大类至底层概念开始构建并逐渐细化,定义实体类型主要集中在大类军事实体数据,包括军事地名、装备、人员、机构、国家地区等;实体关系类型主要包括应用、就职、部署、搭载、指挥和打击关系等类型。
进一步地,利用融合规则匹配算法和基于词向量的卷积神经网络算法识别抽取军事实体、属性和实体间关系类型,其特征在于:
由于军事实体名称层出不穷且存在大量的简称和多名同指问题;
针对军事装备和机构等实体存在别称等问题,借助实体字典和同名字典可在一定范围快速解决;
针对新词,利用规则匹配方式进行简单发现,而后进一步通过基于词向量的卷积神经网络算法进行军事实体的新词发现和识别。
通过分层次的多种算法模型进行军事实体、属性和关系的识别抽取,提高识别的准确率和召回率。
进一步地,将抽取结果进行融合整理,
主要负责对提取出的实体、属性和关系三元组进行整合,以消除矛盾和歧义,其中包括实体对齐、实体链接和知识合并等过程。
进一步地,将获取到的军事领域知识图谱实体、属性和关系存入非结构化图数据库,进行知识图谱要素的可视化;
通过新建关联战场和关联时间节点,拖拽式实现实体的聚集展现,相应实体属性和关系将同时展现,实现定制化焦点。
本发明还提供一种面向军事领域的知识图谱构建***,该***包括以下模块:
数据获取模块,用于结构化数据和半结构化军事数据的获取;
数据预处理模块,用于非结构化数据的清洗,提供数据审查、校验和一致性检测,进而执行分词、词性标注和向量化工作;
预定义模块,用于实体、属性元数据预定义和实体关系类型预定义;
要素信息抽取模块,用于军事相关实体、属性及关系的抽取,并进行融合校验;
知识图谱可视化模块,用于知识图谱的可视化和定制化展现。
以上公开的面向军事领域的知识图谱构建方法,在单一通过规则或者神经网络识别实体、属性和关系的通用方法下,提出多层次的混合方式。通过预先的基础实体字典库和同名库,实现基础的实体要素抽取,并在实施过程中进行增量化的迭代更新;进一步的,应用规则方式进行实体军事装备和机构等识别;在这些方法上进一步使用神经网络方式进行实体要素提取,实现高效出抽取。最终形成知识图谱,可以进行进一步应用和可视化展现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种面向军事领域的知识图谱构建方法,其特征在于,该方法包括如下步骤:
S11、融合整理已有的结构化数据和半结构化军事数据;
S12、通过爬虫从互联网获取到军事相关新闻报道和百科知识,对已有的数据进行补充;
S13、对已经获取到的数据进行文本清洗,删除重复信息、纠正无效值和缺失值,包括不需要用的标点符号、停用词、标签和无关内容,并提供数据审查、校验和一致性检测,进而执行分词、词性标注和向量化工作;
S14、通过总结和前期经验设置部分实体类型和实体关系类型;
S15、利用规则匹配和实体向量算法融合的方式进行军事实体、属性和实体间关系的抽取;
S16、对获得的军事实体、属性和实体间关系进行融合校验,得到正确数据集合;
S17、进行知识图谱的可视化和推理。
2.如权利要求1所述的面向军事领域的知识图谱构建方法,其特征在于,结构化数据包括物资装备字典、地点字典和同名词典。
3.如权利要求1所述的面向军事领域的知识图谱构建方法,其特征在于,半结构化军事数据包括装备属性数据和作战文书。
4.如权利要求1所述的面向军事领域的知识图谱构建方法,其特征在于,所述步骤S14中,实体类型包括军事装备、人员、机构和物资;实体关系类型包括应用、就职、部署、搭载、指挥和打击关系。
5.如权利要求1-4任一项所述的面向军事领域的知识图谱构建方法,其特征在于,所述步骤S15具体包括:
首先与已有的武器装备实体字典、同义词库进行匹配识别实体内容,进一步通过语义、语法规则识别模板进行实体识别,采用基于词向量的Bi-LSTM-CRF算法,并在其中添加注意力机制,增强军事实体关键特征的权重,抽取出军事实体、属性和实体间关系类型;
其中,借助实体字典和关联同义词库,通过迭代式同步更新实体字典和同义词库,从而在下次识别同义实体时,一定范围快速解决;
其中,针对新词,利用语义和语法规则匹配方式进行简单发现,进行归类和整理,而后进一步通过Bert-BiLSTM-CRF算法,并在其中添加注意力机制进行军事实体的新词发现和识别。
6.如权利要求5所述的面向军事领域的知识图谱构建方法,其特征在于,所述实体识别具体包括:通过利用属性关系指示词、位置规律和共现规律的规则匹配对实体和实体属性进行识别,直接连接对应属性信息,通过关系触发字与位置特征发现新的实体关系。
7.如权利要求5所述的面向军事领域的知识图谱构建方法,其特征在于,所述步骤S16具体包括:通过实体属性和实体上下文语义判断实体是否对齐,对多源的属性和关系进行纠错和择优以消除矛盾和歧义,最终实现对实体属性和关系的融合和消歧。
8.如权利要求7所述的面向军事领域的知识图谱构建方法,其特征在于,所述步骤S17具体包括:进行抽取结果的可视化,在充分考虑数据量和数据关联性情况下,通过图数据库实现可视化;通过可视化界面建立战场焦点,关联相关实体和属性、关系,可以进行战场兵力和武器效能对比;通过图推理算法实现未知实体关系和属性的推理。
9.一种面向军事领域的知识图谱构建方法,其特征在于,该方法包括如下步骤:
S21、整合已有非结构化军事文本数据;
S22、通过从网络获取到国内外军事相关新闻报道和百科类装备及机构信息,对已有的数据进行补充;
S23、通过总结和前期经验设置部分实体类型和实体关系类型,形成装备类别、人员机构类别实体元数据;
S24、利用多种算法融合的方式进行军事实体、要素属性和实体间关系的抽取;
S25、对获得的实体、属性和关系进行融合校验,得到正确数据集合;
S26、进行知识图谱的可视化和推理。
10.一种基于权利要求1-9任一项所述的方法的面向军事领域的知识图谱构建***,其特征在于,该***包括如下模块:
数据获取模块,用于结构化数据和半结构化军事数据的获取;
数据预处理模块,用于非结构化数据的清洗,提供数据审查、校验和一致性检测,进而执行分词、词性标注和向量化工作;
预定义模块,用于实体、属性元数据预定义和实体关系类型预定义;
要素信息抽取模块,用于军事相关实体、属性及关系的抽取,并进行融合校验;
知识图谱可视化模块,用于知识图谱的可视化和定制化展现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404352.8A CN114860852A (zh) | 2022-04-18 | 2022-04-18 | 一种面向军事领域的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404352.8A CN114860852A (zh) | 2022-04-18 | 2022-04-18 | 一种面向军事领域的知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114860852A true CN114860852A (zh) | 2022-08-05 |
Family
ID=82632167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210404352.8A Pending CN114860852A (zh) | 2022-04-18 | 2022-04-18 | 一种面向军事领域的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114860852A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520483A (zh) * | 2024-01-04 | 2024-02-06 | 北京奇虎科技有限公司 | 基于大模型的信息校验方法及装置 |
-
2022
- 2022-04-18 CN CN202210404352.8A patent/CN114860852A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520483A (zh) * | 2024-01-04 | 2024-02-06 | 北京奇虎科技有限公司 | 基于大模型的信息校验方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116628172B (zh) | 基于知识图谱的政务服务领域多策略融合的对话方法 | |
Tang et al. | Using Bayesian decision for ontology mapping | |
Ghosh et al. | A tutorial review on Text Mining Algorithms | |
US7827125B1 (en) | Learning based on feedback for contextual personalized information retrieval | |
CN110377747B (zh) | 一种面向百科网站的知识库融合方法 | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN104718542A (zh) | 利用索引串匹配的上下文盲数据转换 | |
CN110633366A (zh) | 一种短文本分类方法、装置和存储介质 | |
US20220180066A1 (en) | Machine learning processing pipeline optimization | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及*** | |
CN113742493A (zh) | 一种病理知识图谱的构建方法及装置 | |
CN113761208A (zh) | 一种基于知识图谱的科技创新资讯分类方法和存储设备 | |
Zhang et al. | OIM-SM: A method for ontology integration based on semantic mapping | |
Hossari et al. | TEST: A terminology extraction system for technology related terms | |
Ilyas et al. | Extracting syntactical patterns from databases | |
CN115309885A (zh) | 一种用于科技服务的知识图谱构建、检索和可视化方法及*** | |
Assi et al. | Data linking over RDF knowledge graphs: A survey | |
Omri et al. | Towards an efficient big data indexing approach under an uncertain environment | |
CN114860852A (zh) | 一种面向军事领域的知识图谱构建方法 | |
Maynard et al. | Change management for metadata evolution | |
CN113392189B (zh) | 基于自动分词的新闻文本处理方法 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
CN115828854A (zh) | 一种基于上下文消歧的高效表格实体链接方法 | |
Tang et al. | Toward detecting mapping strategies for ontology interoperability | |
Sbai et al. | Using Reverse Engineering for Building Ontologies with Deeper Taxonomies from Relational Databases. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |