CN110287302B - 一种国防科技领域开源信息置信度确定方法及*** - Google Patents

一种国防科技领域开源信息置信度确定方法及*** Download PDF

Info

Publication number
CN110287302B
CN110287302B CN201910572637.0A CN201910572637A CN110287302B CN 110287302 B CN110287302 B CN 110287302B CN 201910572637 A CN201910572637 A CN 201910572637A CN 110287302 B CN110287302 B CN 110287302B
Authority
CN
China
Prior art keywords
entity
attribute
corrected
confidence
named
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910572637.0A
Other languages
English (en)
Other versions
CN110287302A (zh
Inventor
姚晗
晏裕生
程洁丹
孙孟阳
董文轩
江洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Institute Of Marine Technology & Economy
Original Assignee
China Institute Of Marine Technology & Economy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Institute Of Marine Technology & Economy filed Critical China Institute Of Marine Technology & Economy
Priority to CN201910572637.0A priority Critical patent/CN110287302B/zh
Publication of CN110287302A publication Critical patent/CN110287302A/zh
Application granted granted Critical
Publication of CN110287302B publication Critical patent/CN110287302B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种国防科技领域开源信息置信度确定方法及***。所述方法通过对国防科技领域已有开源信息进行命名实体识别和属性抽取,提取出相应的命名实体和对应的属性;再通过实体统一和实体消歧技术对命名实体和对应属性做进一步的判别更正,提高实体和属性抽取的准确性。在实际使用时,通过对同一实体同一属性在不同资讯来源的相互印证,计算出该开源信息的置信度以及信息源的置信度,为国防科技领域用户提供更加准确的信息服务。

Description

一种国防科技领域开源信息置信度确定方法及***
技术领域
本发明涉及信息置信度评估分析技术领域,特别是涉及一种国防科技领域开源信息置信度确定方法及***。
背景技术
开源信息是指能够从公开或半公开渠道获得的信息,在对开源信息进行处理的过程中,可能某一个实体的属性在不同信息来源中会有不同的表现形式,例如某一文章(信息)中记载某型装备(实体)的长度(属性)为26米,而另一篇文章中记载该型装备的长度为20米,此种情况下用户无从判断这两篇文章中的哪篇文章提供的数据更加准确可靠。而国防科技领域是特别关注数据的准确性的,如果数据出现差错,会对相关工作造成严重的后果。
发明内容
本发明的目的是提供一种国防科技领域开源信息置信度确定方法及***,以解决用户在获取开源信息时无法判断开源信息可靠性的问题。
为实现上述目的,本发明提供了如下方案:
一种国防科技领域开源信息置信度确定方法,所述方法包括:
获取国防科技领域的开源信息;
采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息;所述属性信息包括属性和属性值;
对所述命名实体及所述命名实体对应的属性信息进行实体统一及实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息;
根据所述更正后实体及所述更正后实体对应的更正后属性信息确定所述开源信息的置信度。
可选的,所述采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息,具体包括:
采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体;
根据所述命名实体的上下文进行属性抽取,获得所述命名实体对应的属性信息。
可选的,所述对所述命名实体及所述命名实体对应的属性信息进行实体统一操作,形成更正后实体及所述更正后实体对应的更正后属性信息,具体包括:
采用空间向量模型计算名称不同的所述命名实体周边的词构成的实体特征向量;
利用余弦相似度比较名称不同的所述命名实体的实体特征向量,将所述实体特征向量相似但名称不同的命名实体归类为同一个更正后命名实体;
采用空间向量模型计算所述更正后命名实体对应的名称不同的属性周边的词构成的属性特征向量;
利用余弦相似度比较名称不同的所述属性的属性特征向量,将所述属性特征向量相似但名称不同的属性归类为同一个更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
可选的,所述对所述命名实体及所述命名实体对应的属性信息进行实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息,还包括:
采用空间向量模型计算名称相同的多个所述命名实体周边的词构成的实体特征向量;
利用余弦相似度比较名称相同的多个所述命名实体的实体特征向量,将名称相同但所述实体特征向量不相似的命名实体归类为不同的更正后命名实体;
采用空间向量模型计算所述更正后命名实体对应的名称相同的多个属性周边的词构成的属性特征向量;
利用余弦相似度比较名称相同的多个所述属性的属性特征向量,将名称相同但所述属性特征向量不相似的属性归类为不同的更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
一种国防科技领域开源信息置信度确定***,所述***包括:
开源信息获取模块,用于获取国防科技领域的开源信息;
命名实体识别及属性抽取模块,用于采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息;所述属性信息包括属性和属性值;
实体统一和实体消歧模块,用于对所述命名实体及所述命名实体对应的属性信息进行实体统一和实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息;
置信度计算模块,用于根据所述更正后实体及所述更正后实体对应的更正后属性信息确定所述开源信息的置信度。
可选的,所述命名实体识别及属性抽取模块,具体包括:
命名实体识别单元,用于采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体;
属性抽取单元,用于根据所述命名实体的上下文进行属性抽取,获得所述命名实体对应的属性信息。
可选的,所述实体统一和实体消歧模块,具体包括:
第一实体特征向量计算单元,用于采用空间向量模型计算名称不同的所述命名实体周边的词构成的实体特征向量;
第一实体特征向量比较单元,用于利用余弦相似度比较名称不同的所述命名实体的实体特征向量,将所述实体特征向量相似但名称不同的命名实体归类为同一个更正后命名实体;
第一属性特征向量计算单元,用于采用空间向量模型计算所述更正后命名实体对应的名称不同的属性周边的词构成的属性特征向量;
第一属性特征向量比较单元,用于利用余弦相似度比较名称不同的所述属性的属性特征向量,将所述属性特征向量相似但名称不同的属性归类为同一个更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
可选的,所述实体统一和实体消歧模块,还包括:
第二实体特征向量计算单元,用于采用空间向量模型计算名称相同的多个所述命名实体周边的词构成的实体特征向量;
第二实体特征向量比较单元,用于利用余弦相似度比较名称相同的多个所述命名实体的实体特征向量,将名称相同但所述实体特征向量不相似的命名实体归类为不同的更正后命名实体;
第二属性特征向量计算单元,用于采用空间向量模型计算所述更正后命名实体对应的名称相同的多个属性周边的词构成的属性特征向量;
第二属性特征向量比较单元,用于利用余弦相似度比较名称相同的多个所述属性的属性特征向量,将名称相同但所述属性特征向量不相似的属性归类为不同的更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种国防科技领域开源信息置信度确定方法及***,所述方法通过对国防科技领域已有开源信息进行命名实体识别和属性抽取,提取出相应的命名实体和对应的属性;再通过实体统一和实体消歧技术对命名实体和对应属性做进一步的判别更正,提高实体和属性抽取的准确性。在实际使用时,通过对同一实体同一属性在不同资讯来源的相互印证,计算出该开源信息的置信度以及信息源的置信度,为国防科技领域用户提供更加准确的信息服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据本发明提供的附图获得其他的附图。
图1为本发明提供的国防科技领域开源信息置信度确定方法的方法流程图;
图2为本发明提供的国防科技领域开源信息置信度确定方法的基本原理图;
图3为本发明提供的国防科技领域开源信息置信度确定***的***结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种国防科技领域开源信息置信度确定方法及***,通过同一个开源信息在不同信息源的相互印证,计算出该信息的置信度与信息源的置信度指标,以解决用户在获取开源信息时无法判断开源信息可靠性的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的国防科技领域开源信息置信度确定方法的方法流程图。图2为本发明提供的国防科技领域开源信息置信度确定方法的基本原理图。参见图1和图2,所述国防科技领域开源信息置信度确定方法包括:
步骤101:获取国防科技领域的开源信息。
开源信息(本发明简称信息)是指能够从公开或半公开渠道获得的信息,本发明中国防科技领域的开源信息主要指国防科技领域的数据资源,数据资源以文本数据为主,一般为新闻资讯、文献资料、研究报告等。
整理国防科技领域的数据资源,作为置信度计算的初始数据来源。
步骤102:采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息。
对步骤101形成的数据资源进行命名实体识别操作。命名实体识别是指从文本数据集中自动识别出命名实体,主要识别出文本中的人名、地名、装备名、机构名等专有名词和有意义的时间等实体信息。本发明采用基于CRF(Conditional Random Field,条件随机场)的命名实体识别方法识别出数据资源中的所有命名实体。
针对提取出来的命名实体(简称实体),通过实体上下文进行属性抽取。属性抽取的目标是获得特定实体的属性信息,所述属性信息包括属性和属性值。如某型装备为实体,则该型装备的长度、宽度、价格等为该实体对应的属性,而该型装备具体的长度值、宽度值和价格为属性对应的属性值。
命名实体及其对应的属性是针对于具体的文本而定的,如“X型轮船的长度是45m”,可提取出命名实体是“X型轮船”,属性名是“长度”,属性值是“45m”。在具体实施过程中无需预先设定命名实体和属性名,而是根据具体文本动态调整。
基于条件随机场的命名实体识别方法识别命名实体及属性信息的过程包括:
1.构造训练集,从备选数据集(开源信息)中随机选择一部分作为训练集,交由专业人士采用BIEM标注方式进行标注,B即Begin,表示实体的开始,I即Intermediate,表示实体的中间,E即End,表示实体的结束,O即Other,表示非实体的字。
2.通过CRF(Conditional Random Field,条件随机场)算法对训练集进行训练,形成命名实体识别模型。
3.采用命名实体识别模型识别出所述开源信息中的所有命名实体;
4.根据所述命名实体的上下文进行属性抽取,获得所述命名实体对应的属性信息。
进行属性抽取时还可以采用基于模板的属性抽取方法,根据训练样本编写对应的属性抽取模板,进行命名实体的属性抽取。
步骤103:对所述命名实体及所述命名实体对应的属性信息进行实体统一和实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息。
针对步骤102形成的命名实体和对应属性,进行实体统一和实体消歧操作。其中实体消歧是用来解决同名实体产生歧义问题的技术,实体统一技术是用来解决多个名称指代同一个实体的问题。本发明通过聚类的方法,采用空间向量模型,计算实体周边的词构成的特征向量,再利用余弦相似度进行比较,将描述相似的实体聚成一类,描述不相似的实体归为不同类别,从而解决同一实体的不同名称或同一名称指代不同实体的问题,对命名实体进行更正。实体的属性采用同样的方法进行更正。
具体的,采用实体统一技术解决多个名称指代同一个实体的问题,其过程包括:
采用空间向量模型计算名称不同的所述命名实体周边的词构成的实体特征向量;
利用余弦相似度比较名称不同的所述命名实体的实体特征向量,将所述实体特征向量相似但名称不同的命名实体归类为同一个更正后命名实体;
采用空间向量模型计算所述更正后命名实体对应的名称不同的属性周边的词构成的属性特征向量;
利用余弦相似度比较名称不同的所述属性的属性特征向量,将所述属性特征向量相似但名称不同的属性归类为同一个更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
例如“X型船只的长度是45m”和“X型轮船约长45m”,根据余弦相似度比较二者的实体特征向量相似,则可认为“X型船只”和“X型轮船”是同一属性;同理,根据余弦相似度比较二者的属性特征向量相似,则可认为“长度”和“长”是同一属性。
采用实体消歧技术解决同名实体产生歧义问题的过程包括:
采用空间向量模型计算名称相同的多个所述命名实体周边的词构成的实体特征向量;
利用余弦相似度比较名称相同的多个所述命名实体的实体特征向量,将名称相同但所述实体特征向量不相似的命名实体归类为不同的更正后命名实体;
采用空间向量模型计算所述更正后命名实体对应的名称相同的多个属性周边的词构成的属性特征向量;
利用余弦相似度比较名称相同的多个所述属性的属性特征向量,将名称相同但所述属性特征向量不相似的属性归类为不同的更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
步骤104:根据所述更正后实体及所述更正后实体对应的更正后属性信息确定所述开源信息的置信度。
对于步骤103实体统一和实体消歧后形成的更正后实体和对应的更正后属性,将相同更正后实体的同一更正后属性的多个属性值进行比对,判断多个属性值是否一致,如装备的战技指标,在不同的信息来源中采用不同的单位制式因此属性值不同,通过单位转换判断各属性值的误差是否在可接受范围之内。在国防装备领域,一般认为误差在0.1%以内的属性值为同一属性值。
如果所有数据来源的信息均一致,则提高该信息和信息源的置信度,如果存在不一致的情况,则降低该信息和信息来源的置信度。通常信息指的是一篇文章,信息源指的是发布这一篇文章的机构。通过一篇文章中的多个实体,计算该文章的置信度,通过一个机构发布的多篇文章,来计算该机构的置信度。置信度越高,则表示该结构、该文章或该实体对应属性的属性值的准确度越高。
本发明置信度计算采用5分制,开源信息置信度计算过程如下:
计算属性值置信度:属性值i的置信度公式如下式(1)所示,其中,VCi表示属性值i的置信度,VFi表示属性值i出现的次数,N表示属性值i所属的属性共有N类。
Figure BDA0002111289840000081
计算属性置信度:通过所述更正后实体对应的更正后属性的多个属性值的相同次数占总次数的百分比*5来计算更正后实体对应的更正后属性的属性置信度。
例如,若某更正后实体的更正后属性A共出现10次,其中8次该更正后属性A的属性值为A1,则可认为该更正后属性A的属性值为A1的置信度为4;若其余2次该更正后属性A的属性值相同,都为A2,则该更正后属性A的属性值为A2的置信度为1;若其余2次该更正后属性A的属性值不同,如一个为A3另一个为A4,则A3和A4的置信度均为0.5。
具体的,属性j的置信度公式如下式(2)所示,其中,ACj表示属性j的置信度,
Figure BDA0002111289840000082
表示属性j的第i类属性取值出现的次数,
Figure BDA0002111289840000083
表示属性j的第i类属性取值的置信度,N表示属性j的属性取值共有N类。
Figure BDA0002111289840000084
如表1所示为属性值和属性的置信度计算案例,属性的置信度是通过所有属性值的置信度计算得出的。
表1属性值和属性的置信度计算案例
类型 名称 出现次数 置信度
属性名 长度 10 3.4
属性值 500 8 4.0
属性值 480 1 0.5
属性值 530 1 0.5
计算实体置信度:以所述更正后实体对应的每个更正后属性的出现次数为权重,计算该更正后实体对应的所有更正后属性的加权平均数,作为该更正后实体的置信度。具体的,实体j的置信度公式如下式(3)所示,其中,ECj表示实体j的置信度,
Figure BDA0002111289840000091
表示实体j的第i类属性总共出现的次数,
Figure BDA0002111289840000092
表示实体j的第i类属性的置信度,N表示实体j共有N类属性。
Figure BDA0002111289840000093
如表2所示为实体的置信度计算案例,实体的置信度是通过所有属性的置信度计算得出的。
表2实体的置信度计算案例
类型 名称 出现次数 置信度
实体 XX舰 20 4.13
属性 长度 10 3.4
属性 宽度 4 4.8
属性 射程 6 4.9
计算信息的置信度:以每个更正后实体的出现次数为权重,计算该信息所有更正后实体的加权平均数,作为该开源信息的置信度。具体的,信息j的置信度公式如下式(4)所示,其中,ICj表示信息j的置信度,
Figure BDA0002111289840000094
表示信息j的第i类实体总共出现的次数,
Figure BDA0002111289840000095
表示信息j的第i类实体的置信度,N表示信息j共有N类实体。
Figure BDA0002111289840000096
如表3所示为信息的置信度计算案例,信息的置信度是通过所有实体值的置信度计算得出的。
表3信息的置信度计算案例
类型 名称 出现次数 置信度
信息 XX舰发展趋势 10 4.585
实体 XX舰-1 15 4.5
实体 XX舰-2 4 4.8
实体 XX舰-3 1 5.0
计算信息源的置信度:以每个信息的出现次数为权重,计算信息源所有信息的加权平均数,作为信息源的置信度。置信度越高,表示该信息源发布的数据可信度越高。具体的,信息源j的置信度公式如下式(5)所示,其中,SCj表示信息源j的置信度,
Figure BDA0002111289840000101
表示信息源j的第i类信息总共出现的次数,
Figure BDA0002111289840000102
表示信息源j的第i类信息的置信度,N表示信息源j共有N类信息。
Figure BDA0002111289840000103
如表4所示为信息源的置信度计算案例,信息源的置信度是通过所有信息的置信度计算得出的。
表4信息源的置信度计算案例
类型 名称 出现次数 置信度
信息源 XX媒体 10 4.53
信息 XX发展趋势 8 4.5
信息 XX研究现状 6 4.4
信息 XX技术研究 6 5.7
对外提供服务时,可以在信息和信息源的对应位置标注其置信度的数值,供用户参考,从而为国防科技领域用户提供更加准确的信息服务。同时对同一实体同一属性进行超链接标注,用户可通过该超链接快速查看该属性的其他资讯报道,全面掌握资讯内容。
当有新的数据资源(开源信息)更新时,通过本发明方法进行实体和对应属性的抽取,与现有实体和对应属性进行比对,调整该开源信息和相关信息源的置信度。
基于本发明提供的置信度确定方法,本发明还提供一种国防科技领域开源信息置信度确定***,如图3所示,所述***包括:
开源信息获取模块301,用于获取国防科技领域的开源信息;
命名实体识别及属性抽取模块302,用于采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息;所述属性信息包括属性和属性值;
实体统一和实体消歧模块303,用于对所述命名实体及所述命名实体对应的属性信息进行实体统一和实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息;
置信度计算模块304,用于根据所述更正后实体及所述更正后实体对应的更正后属性信息确定所述开源信息的置信度。
其中,所述命名实体识别及属性抽取模块302,具体包括:
命名实体识别单元,用于采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体;
属性抽取单元,用于根据所述命名实体的上下文进行属性抽取,获得所述命名实体对应的属性信息。
其中,所述实体统一和实体消歧模块303,具体包括:
第一实体特征向量计算单元,用于采用空间向量模型计算名称不同的所述命名实体周边的词构成的实体特征向量;
第一实体特征向量比较单元,用于利用余弦相似度比较名称不同的所述命名实体的实体特征向量,将所述实体特征向量相似但名称不同的命名实体归类为同一个更正后命名实体;
第一属性特征向量计算单元,用于采用空间向量模型计算所述更正后命名实体对应的名称不同的属性周边的词构成的属性特征向量;
第一属性特征向量比较单元,用于利用余弦相似度比较名称不同的所述属性的属性特征向量,将所述属性特征向量相似但名称不同的属性归类为同一个更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息;
第二实体特征向量计算单元,用于采用空间向量模型计算名称相同的多个所述命名实体周边的词构成的实体特征向量;
第二实体特征向量比较单元,用于利用余弦相似度比较名称相同的多个所述命名实体的实体特征向量,将名称相同但所述实体特征向量不相似的命名实体归类为不同的更正后命名实体;
第二属性特征向量计算单元,用于采用空间向量模型计算所述更正后命名实体对应的名称相同的多个属性周边的词构成的属性特征向量;
第二属性特征向量比较单元,用于利用余弦相似度比较名称相同的多个所述属性的属性特征向量,将名称相同但所述属性特征向量不相似的属性归类为不同的更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
本发明方法及***通过命名实体识别和属性抽取技术提取出数据资源中的实体和对应属性;通过实体统一和实体消歧技术对实体和属性做进一步的判别更正,提高实体和属性抽取的准确性;根据同一实体同一属性的不同资讯报道,印证该信息的置信度以及对应信息源的置信度,能够为国防科技领域用户在查询开源信息时提供更加准确的信息服务。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种国防科技领域开源信息置信度确定方法,其特征在于,所述方法包括:
获取国防科技领域的开源信息;
采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息;所述属性信息包括属性和属性值;
对所述命名实体及所述命名实体对应的属性信息进行实体统一及实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息;
根据所述更正后实体及所述更正后实体对应的更正后属性信息确定所述开源信息的置信度;
其中,所述开源信息的置信度的计算过程包括:
计算属性值的置信度;
计算属性的置信度;所述属性的置信度是通过所有属性值的置信度计算得出的;
计算实体的置信度;所述实体的置信度是通过所有属性的置信度计算得出的;
计算信息的置信度;所述信息的置信度是通过所有实体值的置信度计算得出的;
计算信息源的置信度;所述信息源的置信度是通过所有信息的置信度计算得出的。
2.根据权利要求1所述的国防科技领域开源信息置信度确定方法,其特征在于,所述采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息,具体包括:
采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体;
根据所述命名实体的上下文进行属性抽取,获得所述命名实体对应的属性信息。
3.根据权利要求2所述的国防科技领域开源信息置信度确定方法,其特征在于,所述对所述命名实体及所述命名实体对应的属性信息进行实体统一操作,形成更正后实体及所述更正后实体对应的更正后属性信息,具体包括:
采用空间向量模型计算名称不同的所述命名实体周边的词构成的实体特征向量;
利用余弦相似度比较名称不同的所述命名实体的实体特征向量,将所述实体特征向量相似但名称不同的命名实体归类为同一个更正后命名实体;
采用空间向量模型计算所述更正后命名实体对应的名称不同的属性周边的词构成的属性特征向量;
利用余弦相似度比较名称不同的所述属性的属性特征向量,将所述属性特征向量相似但名称不同的属性归类为同一个更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
4.根据权利要求3所述的国防科技领域开源信息置信度确定方法,其特征在于,所述对所述命名实体及所述命名实体对应的属性信息进行实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息,还包括:
采用空间向量模型计算名称相同的多个所述命名实体周边的词构成的实体特征向量;
利用余弦相似度比较名称相同的多个所述命名实体的实体特征向量,将名称相同但所述实体特征向量不相似的命名实体归类为不同的更正后命名实体;
采用空间向量模型计算所述更正后命名实体对应的名称相同的多个属性周边的词构成的属性特征向量;
利用余弦相似度比较名称相同的多个所述属性的属性特征向量,将名称相同但所述属性特征向量不相似的属性归类为不同的更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
5.一种国防科技领域开源信息置信度确定***,其特征在于,所述***包括:
开源信息获取模块,用于获取国防科技领域的开源信息;
命名实体识别及属性抽取模块,用于采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息;所述属性信息包括属性和属性值;
实体统一和实体消歧模块,用于对所述命名实体及所述命名实体对应的属性信息进行实体统一和实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息;
置信度计算模块,用于根据所述更正后实体及所述更正后实体对应的更正后属性信息确定所述开源信息的置信度;
其中,所述开源信息的置信度的计算过程包括:
计算属性值的置信度;
计算属性的置信度;所述属性的置信度是通过所有属性值的置信度计算得出的;
计算实体的置信度;所述实体的置信度是通过所有属性的置信度计算得出的;
计算信息的置信度;所述信息的置信度是通过所有实体值的置信度计算得出的;
计算信息源的置信度;所述信息源的置信度是通过所有信息的置信度计算得出的。
6.根据权利要求5所述的国防科技领域开源信息置信度确定***,其特征在于,所述命名实体识别及属性抽取模块,具体包括:
命名实体识别单元,用于采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体;
属性抽取单元,用于根据所述命名实体的上下文进行属性抽取,获得所述命名实体对应的属性信息。
7.根据权利要求6所述的国防科技领域开源信息置信度确定***,其特征在于,所述实体统一和实体消歧模块,具体包括:
第一实体特征向量计算单元,用于采用空间向量模型计算名称不同的所述命名实体周边的词构成的实体特征向量;
第一实体特征向量比较单元,用于利用余弦相似度比较名称不同的所述命名实体的实体特征向量,将所述实体特征向量相似但名称不同的命名实体归类为同一个更正后命名实体;
第一属性特征向量计算单元,用于采用空间向量模型计算所述更正后命名实体对应的名称不同的属性周边的词构成的属性特征向量;
第一属性特征向量比较单元,用于利用余弦相似度比较名称不同的所述属性的属性特征向量,将所述属性特征向量相似但名称不同的属性归类为同一个更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
8.根据权利要求7所述的国防科技领域开源信息置信度确定***,其特征在于,所述实体统一和实体消歧模块,还包括:
第二实体特征向量计算单元,用于采用空间向量模型计算名称相同的多个所述命名实体周边的词构成的实体特征向量;
第二实体特征向量比较单元,用于利用余弦相似度比较名称相同的多个所述命名实体的实体特征向量,将名称相同但所述实体特征向量不相似的命名实体归类为不同的更正后命名实体;
第二属性特征向量计算单元,用于采用空间向量模型计算所述更正后命名实体对应的名称相同的多个属性周边的词构成的属性特征向量;
第二属性特征向量比较单元,用于利用余弦相似度比较名称相同的多个所述属性的属性特征向量,将名称相同但所述属性特征向量不相似的属性归类为不同的更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。
CN201910572637.0A 2019-06-28 2019-06-28 一种国防科技领域开源信息置信度确定方法及*** Expired - Fee Related CN110287302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910572637.0A CN110287302B (zh) 2019-06-28 2019-06-28 一种国防科技领域开源信息置信度确定方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910572637.0A CN110287302B (zh) 2019-06-28 2019-06-28 一种国防科技领域开源信息置信度确定方法及***

Publications (2)

Publication Number Publication Date
CN110287302A CN110287302A (zh) 2019-09-27
CN110287302B true CN110287302B (zh) 2021-03-30

Family

ID=68020006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910572637.0A Expired - Fee Related CN110287302B (zh) 2019-06-28 2019-06-28 一种国防科技领域开源信息置信度确定方法及***

Country Status (1)

Country Link
CN (1) CN110287302B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件***有限公司 实体消歧方法、装置、可读存储介质及电子设备
CN111125438B (zh) * 2019-12-25 2023-06-27 北京百度网讯科技有限公司 实体信息提取方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN105989080A (zh) * 2015-02-11 2016-10-05 富士通株式会社 确定实体属性值的装置和方法
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN110580337A (zh) * 2019-06-11 2019-12-17 福建奇点时空数字科技有限公司 一种基于实体相似度计算的专业实体消歧实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106998264B (zh) * 2017-02-21 2019-11-26 中国科学院信息工程研究所 一种基于动态信任模型的ip定位数据库可信度评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN105989080A (zh) * 2015-02-11 2016-10-05 富士通株式会社 确定实体属性值的装置和方法
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN110580337A (zh) * 2019-06-11 2019-12-17 福建奇点时空数字科技有限公司 一种基于实体相似度计算的专业实体消歧实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
大数据背景下数据挖掘及处理分析;李继光等;《大数据背景下数据挖掘及处理分析》;中国海洋大学出版社;20190131;第180页 *
面向电商领域的智能问答***若干关键技术研究;杨燕;《中国博士学位论文全文数据库信息科技辑》;20160831;正文第18-21页 *

Also Published As

Publication number Publication date
CN110287302A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
US10977447B2 (en) Method and device for identifying a user interest, and computer-readable storage medium
US11093854B2 (en) Emoji recommendation method and device thereof
CN104915327B (zh) 一种文本信息的处理方法及装置
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN106940702A (zh) 连接短文本中实体提及与语义知识库中实体的方法和设备
CN110175851B (zh) 一种作弊行为检测方法及装置
CN102129470A (zh) 标签聚类方法和***
CN111611374A (zh) 语料扩充方法、装置、电子设备及存储介质
CN110287302B (zh) 一种国防科技领域开源信息置信度确定方法及***
CN113032584B (zh) 一种实体关联方法、装置、电子设备及存储介质
CN109933648B (zh) 一种真实用户评论的区分方法和区分装置
CN112214576B (zh) 舆情分析方法、装置、终端设备及计算机可读存储介质
CN113988061A (zh) 基于深度学习的敏感词检测方法、装置、设备及存储介质
CN108470065B (zh) 一种异常评论文本的确定方法及装置
CN112463966B (zh) 虚假评论检测模型训练方法、检测方法及装置
CN107908649B (zh) 一种文本分类的控制方法
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN104714977A (zh) 一种实体与知识库项的关联方法及装置
CN106528507B (zh) 一种中文文本相似度的检测方法及检测装置
CN108021595B (zh) 检验知识库三元组的方法及装置
CN116010700B (zh) 一种基于知识图谱的用户画像方法
CN111930885A (zh) 文本话题的抽取方法、装置及计算机设备
CN115099832B (zh) 异常用户检测方法及其装置、设备、介质、产品
CN110941638B (zh) 应用分类规则库构建方法、应用分类方法及装置
CN114817518B (zh) 基于大数据档案识别的证照办理方法、***及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210330

CF01 Termination of patent right due to non-payment of annual fee