CN111538813B - 一种分类检测方法、装置、设备及存储介质 - Google Patents

一种分类检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111538813B
CN111538813B CN202010338915.9A CN202010338915A CN111538813B CN 111538813 B CN111538813 B CN 111538813B CN 202010338915 A CN202010338915 A CN 202010338915A CN 111538813 B CN111538813 B CN 111538813B
Authority
CN
China
Prior art keywords
classification
target
attribute information
determining
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010338915.9A
Other languages
English (en)
Other versions
CN111538813A (zh
Inventor
刘红
谢永恒
张鹏毅
陈冬霞
王梅
崔样洋
汪金苗
王淑萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202010338915.9A priority Critical patent/CN111538813B/zh
Publication of CN111538813A publication Critical patent/CN111538813A/zh
Application granted granted Critical
Publication of CN111538813B publication Critical patent/CN111538813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分类检测方法、装置、设备及存储介质。该方法包括:获取与目标实体对应的目标数据和目标标签;所述目标数据包括所述目标实体的第一属性信息;所述目标标签为所述目标实体当前标记的标签;获取与所述第一属性信息关联的分类贡献值;所述分类贡献值用于衡量所述第一属性信息对所述目标实体分类的贡献程度;根据所述分类贡献值确定所述目标实体的分类结果;根据所述目标实体的分类结果和所述目标标签确定所述目标实体的分类是否正确。通过上述方法可以达到提高实体分类的准确性的有益效果,克服了现有技术中实体分类的错误率较高的问题。

Description

一种分类检测方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种分类检测方法、装置、设备及存储介质。
背景技术
知识库是对数据进行深度加工、抽象概括和分析推理后获得的事实、规律和概念的集合。随着数据量的快速增长,知识库的构建逐渐从依靠大量专家设计、制定规则,转变为利用机器学习进行自动化或半自动化的知识处理、加工、融合和应用。在机器学习等算法替代专家的过程中,如何保证知识质量是一个重要问题。知识质量就是指知识数据结构的完备性、数据的真实性和一致性。高质量的知识是进行深度分析、挖掘、推理的基础,决定了知识库是否能够真正满足人们的知识应用需求。目前知识库通常通过标签来对实体进行分类,以便更好地服务于基于知识库的命名实体识别、问答等应用。
相关技术中,通常通过人工标记或者将人工标记与文本处理算法综合起来实现对实体标签的分类标记。
但上述技术方案中,若知识库中的数据比较庞大,对实体标签的分类标记难免会出错,从而导致实体分类的错误率较高。
发明内容
本发明提供一种分类检测方法、装置、设备及存储介质,以克服现有技术中实体分类的错误率较高的问题。
第一方面,本发明实施例提供了一种分类检测方法,包括:
获取与目标实体对应的目标数据和目标标签;所述目标数据包括所述目标实体的第一属性信息;所述目标标签为所述目标实体当前标记的标签;
获取与所述第一属性信息关联的分类贡献值;所述分类贡献值用于衡量所述第一属性信息对所述目标实体分类的贡献程度;
根据所述分类贡献值确定所述目标实体的分类结果;
根据所述目标实体的分类结果和所述目标标签确定所述目标实体的分类是否正确。
第二方面,本发明实施例还提供了一种分类检测装置,该装置包括:
第一获取模块,用于获取与目标实体对应的目标数据和目标标签;所述目标数据包括所述目标实体的第一属性信息;所述目标标签为所述目标实体当前标记的标签;
第二获取模块,用于获取与所述第一属性信息关联的分类贡献值;所述分类贡献值用于衡量所述第一属性信息对所述目标实体分类的贡献程度;
第一确定模块,用于根据所述分类贡献值确定所述目标实体的分类结果;
第二确定模块,用于根据所述目标实体的分类结果和所述目标标签确定所述目标实体的分类是否正确。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明任意实施例所述的分类检测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的分类检测方法。
本发明提供一种分类检测方法、装置、设备及存储介质,根据目标实体获取对应的目标标签和包含第一属性信息的目标数据,并获取与第一属性信息关联的分类贡献值,再根据分类贡献值确定目标实体的分类结果,最终可以根据目标实体的分类结果和目标标签确定目标实体的分类是否正确。可知,本发明是以实体的属性信息对分类的贡献值为依据进行实体分类检测的,从而达到了提高实体分类的准确性的有益效果,克服了现有技术中实体分类的错误率较高的问题。
附图说明
图1是本发明实施例一中的一种分类检测方法的流程图;
图2是本发明实施例二中的一种分类检测方法的流程图;
图3是本发明实施例三中的一种分类检测装置的结构图;
图4是本发明实施例四中的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种分类检测方法的流程图,本实施例可适用于对知识库中实体标签分类进行检测的情况,该方法可以由本发明实施例提供的分类检测装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中,具体包括如下步骤:
步骤110、获取与目标实体对应的目标数据和目标标签。
其中,所述目标数据包括所述目标实体的第一属性信息;所述目标标签为所述目标实体当前标记的标签。
知识库是一种以三元组的形式结构化地存储知识的数据库,用于对某一领域或者某一行业中海量知识进行结构化地存储,例如,一个人物知识库可以存储每个人物的基本信息。三元组是知识库中用于表示知识的基础结构,例如,可以将知识表示为SPO(Subject-Predicate-Object,主语-谓语-宾语)三元组形式,即将每条知识表示为“主语-谓语-宾语”三元组,其中,主语为实体,谓语表示实体的属性关系,宾语为属性值或与实体有关的另一个实体,例如,三元组(张三-性别-男),其中,张三为实体,性别为张三的属性,男为性别的值;三元组(张三-配偶-李四),其中,张三为实体,李四为另一个实体,张三和李四的属性关系为配偶,且一个实体通常具备多个三元组来对实体进行描述。
示例的,获取与目标实体对应的目标数据为以SPO三元组表示的数据,假设目标实体为张三,则目标实体对应的目标数据可以为(张三-年龄-19岁),(张三-身高-160厘米),(张三-个高-160厘米),(张三-性别-男)等,目标实体对应的目标标签是对张三这个目标实体当前标记的标签,也就是说,目标标签表示了张三当前所属的分类,例如“人物”。
步骤120、获取与所述第一属性信息关联的分类贡献值。
其中,所述分类贡献值用于衡量所述第一属性信息对所述目标实体分类的贡献程度。
可选的,在预先建立的分类贡献值表中查找与所述第一属性信息关联的分类贡献值;所述分类贡献值表用于存储所述第一属性信息与所述分类贡献值的映射关系。
示例的,从目标数据中提取第一属性信息,然后根据分类贡献值表中预先存储的第一属性信息与分类贡献值的映射关系,可以获取到与第一属性信息关联的分类贡献值。
步骤130、根据所述分类贡献值确定所述目标实体的分类结果。
可选的,根据所述分类贡献值确定分类函数,并根据所述分类函数确定所述目标实体的分类结果。
示例的,在获取到第一属性信息关联的分类贡献值时,根据分类贡献值构建分类函数,该分类函数的输出结果即为目标实体的分类结果。
步骤140、根据所述目标实体的分类结果和所述目标标签确定所述目标实体的分类是否正确。
具体的,将目标实体的分类结果与目标标签的值进行比较,在确定目标实体的分类结果与目标标签的值相同时,则确定目标实体的分类正确;在确定目标实体的分类结果与目标标签的值不相同时,则确定目标实体的分类错误。
本实施例提供的一种分类检测方法,根据目标实体获取对应的目标标签和包含第一属性信息的目标数据,并获取与第一属性信息关联的分类贡献值,再根据分类贡献值确定目标实体的分类结果,最终可以根据目标实体的分类结果和目标标签确定目标实体的分类是否正确。可知,本发明是以实体的属性信息对分类的贡献值为依据进行实体分类检测的,从而达到了提高实体分类的准确性的有益效果,克服了现有技术中实体分类的错误率较高的问题。
实施例二
图2为本发明实施例二提供的一种分类检测方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化,具体主要包括如下步骤:
步骤210、获取与样本标签对应的样本实体和第一样本数据。
其中,所述样本标签为所述样本实体当前标记的标签。
步骤220、获取除所述样本标签之外的标签对应的样本实体和第二样本数据。
其中,所述第一样本数据和所述第二样本数据均包括样本实体的第二属性信息。
示例的,第一样本数据和第二样本数据均是以SPO三元组表示的数据,假设样本标签为人物,则需要获取的样本实体为将实体的标签标记为人物的所有实体,获取的第一样本数据为将实体的标签标记为人物的所有样本实体对应的所有SPO三元组,假设样本标签为人物的所有实体为张三、李四和小白,则获取的第一样本数据为包括实体张三、李四和小白对应的所有三元组,例如,具体第一样本数据可以为(张三-年龄-19岁),(张三-身高-160厘米),(张三-个高-160厘米),(李四-身高-160厘米),(李四-年龄-19岁),(小白-毛的颜色-黑色);再根据获取的第一样本数据的数量随机获取相同数量的第二样本数据,且第二样本数据为将实体的标签标记为不是人物的样本实体对应的SPO三元组,假设样本标签不为人物的所有实体为小花、小兔和小狗,则获取的第二样本数据为包括实体小花、小兔和小狗对应的所有三元组,例如,具体第二样本数据为(小花-年龄-2岁),(小花-腿-四条),(小兔-腿-四条),(小兔-毛的颜色-棕色),(小狗-毛的颜色-白色),(小狗-毛的颜色-黑色)。
需要说明的是,在实际应用中,第一样本数据中三元组的数量和第二样本数据中三元组的数量要保持一致,且第一样本数据和第二样本数据中均存在一定比例的错误标签,要求在两种样本数据中错误标签的实体数均少于正确标签的实体数。
步骤230、确定每个所述第二属性信息关联的分类贡献值。
可选的,对每个所述第二属性信息进行文本处理,得到与所述第二属性信息语义相关的至少一个第一属性词;将至少一个第一属性词进行相似度聚类;确定聚类后的每个第一属性词对应的分类贡献值。
示例的,首先从第一样本数据和第二样本数据中提取所有的第一属性信息,然后对每个第一属性信息进行分词,并记录分词后每个词语的词性,然后根据每个词语的词性去除与第一属性信息语义无关的词语,最终得到与第一属性信息语义相关的所有第一属性词。例如,第一属性信息为“所处时代”,则“所处时代”在分词后会得到“所”,“处”,“时代”这几个词语,其中,“所”的词性为连词,“处”的词性为动词,“时代”的词性为名词,可知“所”对“所处时代”的语义关联不大,从而可以将“所”去除,最终得到的第一属性词为“处”和“时代”。这样,针对每个第一属性信息,最终得到的第一属性词的个数大于等于1,若第一属性信息的个数为3,则最终得到的第一属性词的个数大于等于3。
再将每个第一属性词进行相似度聚类,具体聚类过程为:针对去除语义无关词的第一属性词,查找对应的词向量,将每个第一属性词按照对应的词向量的距离远近程度进行相似度聚类,将相似度大于预设值的第一属性词作为一个属性词进行处理,使得聚类后的每个第一属性词的语义均不同。例如,第一属性词包括身高和个高这两个词语,而身高和个高意思相同,都用来表示实体的高度,则身高和个高这两个词语为语义相近的第一属性词,进行相似度聚类后,将身高和个高这两个词语当做一个词语来处理;再例如,第一属性词包括本名、原名和真名,可知本名、原名和真名这三个词语所表达的意思相同,则将本名、原名和真名作为一个词语来处理。
其中,词向量是词语的向量化表示,词向量的特点是距离较近的词向量具有近似的语义,是通过语料库训练得到的,语料库的规模需要远大于知识库三元组的规模,以便得到更符合通用场景的词向量表示,本发明中将第二属性信息进行文本处理,并对得到的至少一个第一属性词进行相似度聚类,最终确定聚类后的每个第一属性词对应的分类贡献值,这样计算得到的分类贡献值的准确性较高,避免了将语义相近的属性词进行分类贡献值的单独计算。
可选的,在获取到至少一个第一属性词时,确定聚类后的每个第一属性词对应的分类贡献值具体包括如下步骤:
确定聚类后的每个第一属性词在所有所述第一样本数据的属性信息位置处出现的第一次数;确定聚类后的每个第一属性词在所有所述第二样本数据的属性信息位置处出现的第二次数;根据所述第一次数和所述第二次数确定聚类后的每个第一属性词对应的分类贡献值。
示例的,根据公式sw=(cw0-cw1)/(cw0+cw1)确定聚类后的每个第一属性词对应的分类贡献值。
其中,w表示聚类后的第一属性词,sw表示聚类后的第一属性词w的分类贡献值,cw0表示聚类后的第一属性词w在所有所述第一样本数据的属性信息位置处出现的第一次数,cw1表示聚类后的第一属性词w在所有所述第二样本数据的属性信息位置处出现的第二次数。
从上述公式可以看出,若某个第一属性词在第一样本数据和第二样本数据中出现的次数相同,则分类贡献值为0,说明该第一属性词对样本标签的分类没有贡献;若某个第一属性词在第一样本数据和第二样本数据中出现的次数差异越大,则分类贡献值越远离0,说明该第一属性词对样本标签的分类的贡献越大。
示例的,假设样本标签为人物,标签为人物的样本实体为张三、李四和小白,标签不为人物的样本实体为小花、小兔和小狗,获取的第一样本数据有(张三-年龄-19岁),(张三-身高-160厘米),(张三-个高-160厘米),(李四-身高-160厘米),(李四-年龄-19岁),(小白-毛的颜色-黑色),获取的第二样本数据有(小花-年龄-2岁),(小花-腿-四条),(小兔-腿-四条),(小兔-毛的颜色-棕色),(小狗-毛的颜色-白色),(小狗-毛的颜色-黑色),则第二属性信息包括年龄、身高、个高、毛的颜色、腿,则将这些第二属性信息进行文本处理后得到的第一属性词有年龄、身高、个高、毛、颜色、腿,再对这些第一属性词进行相似度聚类,得到聚类后的第一属性词有年龄、身高、毛、颜色、腿,然后分别计算每个第一属性词在第一样本数据中属性信息位置处出现的第一次数和在第二样本数据中属性信息位置处出现的第二次数。可知,年龄在第一样本数据中属性信息位置处出现的次数为2,年龄在第二样本数据中属性信息位置处出现的次数为1,则可以计算出年龄对人物的分类贡献值为1/3;身高在第一样本数据中属性信息位置处出现的次数为3,身高在第二样本数据中属性信息位置处出现的次数为0,则可以计算出身高对人物的分类贡献值为1;毛在第一样本数据中属性信息位置处出现的次数为1,毛在第二样本数据中属性信息位置处出现的次数为3,则可以计算出毛对人物的分类贡献值为-0.5;颜色在第一样本数据中属性信息位置处出现的次数为1,颜色在第二样本数据中属性信息位置处出现的次数为3,则可以计算出颜色对人物的分类贡献值为-0.5;腿在第一样本数据中属性信息位置处出现的次数为0,腿在第二样本数据中属性信息位置处出现的次数为2,则可以计算出腿对人物的分类贡献值为-1。
步骤240、根据所述样本标签、每个所述第二属性信息及对应的分类贡献值建立所述分类贡献值表。
示例的,在获取到聚类后的每个第一属性词对应的分类贡献值时,可将每个第一属性词、对应的样本标签和对应的分类贡献值进行一一对应存储,即将人物、年龄、分类贡献值为1/3对应存储,将人物、身高、分类贡献值为1对应存储,将人物、毛、分类贡献值为-0.5对应存储,将人物、颜色、分类贡献值为-0.5对应存储,将人物、腿、分类贡献值为-1对应存储,从而形成分类贡献值表。
步骤250、获取与目标实体对应的目标数据和目标标签。
其中,所述目标数据包括所述目标实体的第一属性信息;所述目标标签为所述目标实体当前标记的标签。
步骤260、在预先建立的分类贡献值表中查找与所述第一属性信息关联的分类贡献值。
可选的,对每个所述第一属性信息进行文本处理,得到与所述第一属性信息语义相关的至少一个第二属性词,将所述至少一个第二属性词进行相似度聚类,获取与聚类后的每个第二属性词对应的分类贡献值。
示例的,对每个第一属性信息进行分词,并记录分词后每个词语的词性,然后根据每个词语的词性去除与第一属性信息语义无关的词语,最终得到与第一属性信息语义相关的所有第二属性词,再将每个第二属性词的语义进行分析,针对语义相近的第二属性词,查找对应的词向量,再将每个第二属性词按照对应的词向量的距离远近程度进行相似度聚类,将相似度大于预设值的第二属性词作为一个属性词进行处理,使得聚类后的每个第二属性词的语义均不同。具体对第一属性信息进行文本处理和相似度聚类的方法与上述对第二属性信息进行文本处理和相似度聚类的方法相同,可参考上述对第二属性信息进行文本处理和相似度聚类的具体描述,本发明在此不再赘述。
另外,分类贡献值表中存储的第二属性信息与分类贡献值的映射关系具体是指存储聚类后的每个第一属性词与对应的分类贡献值的映射关系。
示例的,在获取到聚类后的每个第二属性词时,调用分类贡献值表,可在分类贡献值表中查找与聚类后的每个第二属性词对应的分类贡献值。
步骤270、根据所述分类贡献值确定所述目标实体的分类结果。
可选的,利用所述分类贡献值确定分类函数;根据所述分类函数确定所述目标实体的分类结果。
示例的,根据公式
Figure BDA0002467665480000111
确定所述分类函数。
其中,classe表示所述目标实体的分类结果,sign()为符号函数,e表示所述目标实体,K表示与所述目标实体e对应的聚类后的第二属性词的个数,wi表示第i个聚类后的第二属性词,
Figure BDA0002467665480000112
表示目标实体e对应的第i个聚类后的第二属性词wi的分类贡献值,α为正值或者负值,α为可调参数,可根据实际需求来选择,例如,α等于1或α等于2。
需要说明的是,本发明还可以根据分类贡献值构造其他形式的分类函数
Figure BDA0002467665480000121
其中,f()为分类函数,本发明对此不做限定。
步骤280、根据所述目标实体的分类结果和所述目标标签确定所述目标实体的分类是否正确。
具体的,该分类函数输出的目标实体的分类结果通过1或者-1来表示,当分类函数的值大于0时,则输出1;当分类函数的值小于或等于0时,则输出-1。假设目标标签的值为1,若目标实体的分类结果为1,则说明目标实体的标签分类正确;若目标实体的分类结果为-1,则说明目标实体的标签分类错误。进一步的,在确定目标实体的标签分类错误时,可以输出错误提示信息,便于用户对错误标签进行实时改正。
本实施例提供的一种分类检测方法,根据目标实体获取对应的目标标签和包含第一属性信息的目标数据,并获取与第一属性信息关联的分类贡献值,再根据分类贡献值确定目标实体的分类结果,最终可以根据目标实体的分类结果和目标标签确定目标实体的分类是否正确。可知,本发明是以实体的属性信息对分类的贡献值为依据进行实体分类检测的,从而达到了提高实体分类的准确性的有益效果,克服了现有技术中实体分类的错误率较高的问题;另外,本发明在分类贡献值表中存储了每个第一属性词对应的分类贡献值,提高了分类贡献值计算的准确性,进一步提高了实体分类检测的准确性。
实施例三
图3所示为本发明实施例三提供的一种分类检测装置的结构图,本实施例可适用于对知识库中实体标签分类进行检测的情况,该方法可以由本发明实施例提供的分类检测装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中,如图3所示,该分类检测装置具体包括第一获取模块310、第二获取模块320、第一确定模块330和第二确定模块340。
其中,第一获取模块310,用于获取与目标实体对应的目标数据和目标标签;所述目标数据包括所述目标实体的第一属性信息;所述目标标签为所述目标实体当前标记的标签。
第二获取模块320,用于获取与所述第一属性信息关联的分类贡献值;所述分类贡献值用于衡量所述第一属性信息对所述目标实体分类的贡献程度。
第一确定模块330,用于根据所述分类贡献值确定所述目标实体的分类结果。
第二确定模块340,用于根据所述目标实体的分类结果和所述目标标签确定所述目标实体的分类是否正确。
本发明提供的一种分类检测装置,根据目标实体获取对应的目标标签和包含第一属性信息的目标数据,并获取与第一属性信息关联的分类贡献值,再根据分类贡献值确定目标实体的分类结果,最终可以根据目标实体的分类结果和目标标签确定目标实体的分类是否正确。可知,本发明是以实体的属性信息对分类的贡献值为依据进行实体分类检测的,从而达到了提高实体分类的准确性的有益效果,克服了现有技术中实体分类的错误率较高的问题。
进一步的,第二获取模块320,包括:
查找单元,用于在预先建立的分类贡献值表中查找与所述第一属性信息关联的分类贡献值;所述分类贡献值表用于存储所述第一属性信息与所述分类贡献值的映射关系。
进一步的,该装置还包括:
第三获取模块,用于获取与样本标签对应的样本实体和第一样本数据;所述样本标签为所述样本实体当前标记的标签;
第四获取模块,用于获取除所述样本标签之外的标签对应的样本实体和第二样本数据;所述第一样本数据和所述第二样本数据均包括样本实体的第二属性信息;
第三确定模块,用于确定每个所述第二属性信息关联的分类贡献值;
建立模块,用于根据所述样本标签、每个所述第二属性信息及对应的所述分类贡献值建立所述分类贡献值表。
进一步的,第三确定模块,还包括:
第一处理单元,用于对每个所述第二属性信息进行文本处理,得到与所述第二属性信息语义相关的至少一个第一属性词;
第一聚类单元,用于将至少一个第一属性词进行相似度聚类;
第一确定单元,用于确定聚类后的每个第一属性词对应的分类贡献值。
进一步的,第一确定单元,还包括:
第一确定子单元,用于确定聚类后的每个第一属性词在所有所述第一样本数据的属性信息位置处出现的第一次数;
第二确定子单元,用于确定聚类后的每个第一属性词在所有所述第二样本数据的属性信息位置处出现的第二次数;
第三确定子单元,根据所述第一次数和所述第二次数确定聚类后的每个第一属性词对应的分类贡献值。
进一步的,第三确定子单元,具体用于根据公式sw=(cw0-cw1)/(cw0+cw1)确定聚类后的每个第一属性词对应的分类贡献值;
其中,w表示聚类后的第一属性词,sw表示聚类后的第一属性词w的分类贡献值,cw0表示聚类后的第一属性词w在所有所述第一样本数据的属性信息位置处出现的第一次数,cw1表示聚类后的第一属性词w在所有所述第二样本数据的属性信息位置处出现的第二次数。
进一步的,第二获取模块320,还包括:
第二处理单元,用于对每个所述第一属性信息进行文本处理,得到与所述第一属性信息语义相关的至少一个第二属性词;
第二聚类单元,用于将所述至少一个第二属性词进行相似度聚类;
获取单元,用于获取与聚类后的每个第二属性词对应的分类贡献值。
进一步的,第一确定模块330,还包括:
第二确定单元,用于利用所述分类贡献值确定分类函数;
第三确定单元,用于根据所述分类函数确定所述目标实体的分类结果。
进一步的,第二确定单元,还包括:
第四确定子单元,用于根据公式
Figure BDA0002467665480000151
确定所述分类函数;
其中,classe表示所述目标实体的分类结果,sign()为符号函数,e表示所述目标实体,K表示与所述目标实体e对应的聚类后的第二属性词的个数,wi表示第i个聚类后的第二属性词,
Figure BDA0002467665480000152
表示目标实体e对应的第i个聚类后的第二属性词wi的分类贡献值,α为正值或者负值。
本发明实施例所提供的分类检测装置可执行本发明任意实施例所提供的分类检测方法,具备执行分类检测方法相应的功能模块和有益效果。
实施例四
如图4所示,为本发明实施例四提供的一种计算机设备的结构示意图,如图4所示,该计算机设备包括:
一个或多个处理器410,图4中以一个处理器410为例;
存储器420;
所述计算机设备还可以包括:输入装置430和输出装置440。
所述计算机设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种分类检测方法对应的程序指令/模块(例如,分类检测装置中的第一获取模块301、第二获取模块302、第一确定模块303和第二确定模块304)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的一种分类检测方法。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种分类检测方法,该方法包括:
获取与目标实体对应的目标数据和目标标签;所述目标数据包括所述目标实体的第一属性信息;所述目标标签为所述目标实体当前标记的标签;
获取与所述第一属性信息关联的分类贡献值;所述分类贡献值用于衡量所述第一属性信息对所述目标实体分类的贡献程度;
根据所述分类贡献值确定所述目标实体的分类结果;
根据所述目标实体的分类结果和所述目标标签确定所述目标实体的分类是否正确。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种分类检测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述分类检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种分类检测方法,其特征在于,包括:
获取与目标实体对应的目标数据和目标标签;所述目标数据包括所述目标实体的第一属性信息;所述目标标签为所述目标实体当前标记的标签;
获取与所述第一属性信息关联的分类贡献值;所述分类贡献值用于衡量所述第一属性信息对所述目标实体分类的贡献程度;
根据所述分类贡献值确定所述目标实体的分类结果;
根据所述目标实体的分类结果和所述目标标签确定所述目标实体的分类是否正确;
所述根据所述分类贡献值确定所述目标实体的分类结果包括:
利用所述分类贡献值确定分类函数;
根据所述分类函数确定所述目标实体的分类结果;
所述根据所述分类贡献值确定分类函数包括:
根据公式
Figure FDA0004117127670000011
确定所述分类函数;
其中,classe表示所述目标实体的分类结果,sign()为符号函数,e表示所述目标实体,k表示与所述目标实体e对应的聚类后的第二属性词的个数,wi表示第i个聚类后的第二属性词,
Figure FDA0004117127670000012
表示目标实体e对应的第i个聚类后的第二属性词wi的分类贡献值,α为正值或者负值。
2.根据权利要求1所述的分类检测方法,其特征在于,所述获取与所述第一属性信息关联的分类贡献值包括:
在预先建立的分类贡献值表中查找与所述第一属性信息关联的分类贡献值;所述分类贡献值表用于存储所述第一属性信息与所述分类贡献值的映射关系。
3.根据权利要求2所述的分类检测方法,其特征在于,还包括:
获取与样本标签对应的样本实体和第一样本数据;所述样本标签为所述样本实体当前标记的标签;
获取除所述样本标签之外的标签对应的样本实体和第二样本数据;所述第一样本数据和所述第二样本数据均包括样本实体的第二属性信息;
确定每个所述第二属性信息关联的分类贡献值;
根据所述样本标签、每个所述第二属性信息及对应的所述分类贡献值建立所述分类贡献值表。
4.根据权利要求3所述的分类检测方法,其特征在于,所述确定每个所述第二属性信息关联的分类贡献值包括:
对每个所述第二属性信息进行文本处理,得到与所述第二属性信息语义相关的至少一个第一属性词;
将至少一个第一属性词进行相似度聚类;
确定聚类后的每个第一属性词对应的分类贡献值。
5.根据权利要求4所述的分类检测方法,其特征在于,所述确定聚类后的每个第一属性词对应的分类贡献值包括:
确定聚类后的每个第一属性词在所有所述第一样本数据的属性信息位置处出现的第一次数;
确定聚类后的每个第一属性词在所有所述第二样本数据的属性信息位置处出现的第二次数;
根据所述第一次数和所述第二次数确定聚类后的每个第一属性词对应的分类贡献值。
6.根据权利要求5所述的分类检测方法,其特征在于,所述根据所述第一次数和所述第二次数确定聚类后的每个第一属性词对应的分类贡献值包括:
根据公式sw=(cw0-cw1)/(cw0+cw1)确定聚类后的每个第一属性词对应的分类贡献值;
其中,w表示聚类后的第一属性词,sw表示聚类后的第一属性词w的分类贡献值,cw0表示聚类后的第一属性词w在所有所述第一样本数据的属性信息位置处出现的第一次数,cw1表示聚类后的第一属性词w在所有所述第二样本数据的属性信息位置处出现的第二次数。
7.根据权利要求4所述的分类检测方法,其特征在于,所述获取与所述第一属性信息关联的分类贡献值包括:
对每个所述第一属性信息进行文本处理,得到与所述第一属性信息语义相关的至少一个第二属性词;
将所述至少一个第二属性词进行相似度聚类;
获取与聚类后的每个第二属性词对应的分类贡献值。
8.一种分类检测装置,其特征在于,包括:
第一获取模块,用于获取与目标实体对应的目标数据和目标标签;所述目标数据包括所述目标实体的第一属性信息;所述目标标签为所述目标实体当前标记的标签;
第二获取模块,用于获取与所述第一属性信息关联的分类贡献值;所述分类贡献值用于衡量所述第一属性信息对所述目标实体分类的贡献程度;
第一确定模块,用于根据所述分类贡献值确定所述目标实体的分类结果;
第二确定模块,用于根据所述目标实体的分类结果和所述目标标签确定所述目标实体的分类是否正确;
第一确定模块,还包括:
第二确定单元,用于利用所述分类贡献值确定分类函数;
第三确定单元,用于根据所述分类函数确定所述目标实体的分类结果;
第二确定单元,还包括:
第四确定子单元,用于根据公式
Figure FDA0004117127670000041
确定所述分类函数;
其中,classe表示所述目标实体的分类结果,sign()为符号函数,e表示所述目标实体,K表示与所述目标实体e对应的聚类后的第二属性词的个数,wi表示第i个聚类后的第二属性词,
Figure FDA0004117127670000042
表示目标实体e对应的第i个聚类后的第二属性词wi的分类贡献值,α为正值或者负值。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202010338915.9A 2020-04-26 2020-04-26 一种分类检测方法、装置、设备及存储介质 Active CN111538813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010338915.9A CN111538813B (zh) 2020-04-26 2020-04-26 一种分类检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010338915.9A CN111538813B (zh) 2020-04-26 2020-04-26 一种分类检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111538813A CN111538813A (zh) 2020-08-14
CN111538813B true CN111538813B (zh) 2023-05-16

Family

ID=71975534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010338915.9A Active CN111538813B (zh) 2020-04-26 2020-04-26 一种分类检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111538813B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201142630A (en) * 2009-12-21 2011-12-01 Ibm Method for training and using a classification model with association rule models
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和***
CN108021595A (zh) * 2016-10-28 2018-05-11 北大方正集团有限公司 检验知识库三元组的方法及装置
CN110245259A (zh) * 2019-05-21 2019-09-17 北京百度网讯科技有限公司 基于知识图谱的视频打标签方法及装置、计算机可读介质
CN110462607A (zh) * 2017-04-07 2019-11-15 维萨国际服务协会 从梯度增强机识别原因代码

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436456B (zh) * 2010-09-29 2016-03-30 国际商业机器公司 用于对命名实体进行分类的方法和装置
US9892208B2 (en) * 2014-04-02 2018-02-13 Microsoft Technology Licensing, Llc Entity and attribute resolution in conversational applications

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201142630A (en) * 2009-12-21 2011-12-01 Ibm Method for training and using a classification model with association rule models
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和***
CN108021595A (zh) * 2016-10-28 2018-05-11 北大方正集团有限公司 检验知识库三元组的方法及装置
CN110462607A (zh) * 2017-04-07 2019-11-15 维萨国际服务协会 从梯度增强机识别原因代码
CN110245259A (zh) * 2019-05-21 2019-09-17 北京百度网讯科技有限公司 基于知识图谱的视频打标签方法及装置、计算机可读介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Jing Wan ; Lin Li ; Shaohua Wang ; Xiaofang Wang.An approach of entity alignment based on semantic features.2017 4th International Conference on Information, Cybernetics and Computational Social Systems (ICCSS).2017,全文. *
章成志 ; 李蕾.社会化标签质量自动评估研究.现代图书情报技术.2015,(第10期),全文. *
郝茂祥.面向中文百科知识图谱的实体细粒度分类技术的研究.中国优秀硕士学位论文全文数据库信息科技辑.2020,(第04期),全文. *

Also Published As

Publication number Publication date
CN111538813A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN109472033B (zh) 文本中的实体关系抽取方法及***、存储介质、电子设备
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN107818815A (zh) 电子病历的检索方法及***
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN110968663A (zh) 一种问答***的答案展示方法及装置
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
CN104615621A (zh) 搜索中的相关性处理方法和***
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN116049376B (zh) 一种信创知识检索回复的方法、装置和***
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN111538813B (zh) 一种分类检测方法、装置、设备及存储介质
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
US20210311985A1 (en) Method and apparatus for image processing, electronic device, and computer readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant