CN114154513B - 一种领域语义网自动构建方法及*** - Google Patents

一种领域语义网自动构建方法及*** Download PDF

Info

Publication number
CN114154513B
CN114154513B CN202210115578.6A CN202210115578A CN114154513B CN 114154513 B CN114154513 B CN 114154513B CN 202210115578 A CN202210115578 A CN 202210115578A CN 114154513 B CN114154513 B CN 114154513B
Authority
CN
China
Prior art keywords
data
domain
question
determining
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210115578.6A
Other languages
English (en)
Other versions
CN114154513A (zh
Inventor
嵇望
陈默
梁青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Yuanchuan Xinye Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yuanchuan Xinye Technology Co ltd filed Critical Hangzhou Yuanchuan Xinye Technology Co ltd
Priority to CN202210115578.6A priority Critical patent/CN114154513B/zh
Publication of CN114154513A publication Critical patent/CN114154513A/zh
Application granted granted Critical
Publication of CN114154513B publication Critical patent/CN114154513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种领域语义网自动构建方法及***,其中,方法包括:获取待构建的领域的问答数据;获取待构建的领域所对应的专业词典集;识别问答数据中的第一实体;基于第一实体和专业词典集,构建领域词语集;解析问答数据,确定标准问题和相似问题;基于标准问题和相似问题,从领域词语集中确定相似词语;基于相似词语,构建领域语义网。本发明的领域语义网自动构建方法,自动从问题中构建领域语义网可以降低人力成本,提升智能交互体验。

Description

一种领域语义网自动构建方法及***
技术领域
本发明涉及人工智能技术领域,特别涉及一种领域语义网自动构建方法及***。
背景技术
领域语义网 (domain ontology) 提供领域概念及概念之间关系的词汇、领域中活动的词汇和统领该领域的理论和基本原则的词汇,专业性强。领域语义网可用于表示领域知识、进行领域知识推理,实现人与人、人与计算机之间的知识共享。
呼叫中心或客服中心的人员一般流动性大,导致企业的培训成本较大。同时为了维护客户服务满意度,企业投入的运营成本大幅上升,因此智能客服越来越受重视。基于语义网的智能客服机器人可以有效解决意图识别不准确、意图模糊无法定位的问题;但语义网的构建需要投入大量人力成本。
发明内容
本发明目的之一在于提供了一种领域语义网自动构建方法,自动从问题中构建领域语义网可以降低人力成本,提升智能交互体验。
本发明实施例提供的一种领域语义网自动构建方法,包括:
获取待构建的领域的问答数据;
获取待构建的领域所对应的专业词典集;
识别问答数据中的第一实体;
基于第一实体和专业词典集,构建领域词语集;
解析问答数据,确定标准问题和相似问题;
基于标准问题和相似问题,从领域词语集中确定相似词语;
基于相似词语,构建领域语义网。
优选的,获取待构建的领域的问答数据,包括:
提取目标问答***的问答数据库;
对问答数据库中的问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果;
将问答数据库中的各个问答数据对应的知识领域判断结果进行合并去重,构建知识领域列表并输出第一问询;
接收用户对应第一问询输入的第一反馈;
解析第一反馈,确定目标领域;
基于目标领域和问答数据库内各个问答数据对应的知识领域判断结果,提取待构建的领域的问答数据。
优选的,识别问答数据中的第一实体之后,还包括:
确定问答数据中的第一实体个数;
当第一实体个数不为一时,确定问答数据中第一实体与第一实体之间的第一关联关系;
基于第一关联关系和问答数据中的第一实体,完善领域语义网。
优选的,领域语义网自动构建方法,还包括:
获取领域对应的预设的数据库内的更新数据;
解析更新数据,确定多个第二实体;
分别将第二实体与领域词语集中的词语进行一一匹配,确定领域词语集是否收录第二实体;
当未收录第二实体时,对更新数据的可靠性进行验证,当验证通过时,将第二实体添加进领域词语集并再次解析更新数据,确定第二实体与其他的已被收录在领域词语集内的第二实体之间的第二关联关系;
基于第二实体和第二关联关系,对领域语义网进行更新。
优选的,对更新数据的可靠性进行验证,包括:
确定被收录在领域词语集内的第二实体的第一数量;
确定未被收录在领域词语集内的第二实体的第二数量;
基于第一数量和第二数量,确定未被收录的第二实体的第一占比;
当第一占比大于预设的占比阈值时,验证不通过;
和/或,
获取更新数据的原始来源;
确定原始来源的第一权威值;
当第一权威值小于预设的第一权威阈值时,验证不通过;
和/或,
获取更新数据对应关联的公众认同采集数据;
解析公众认同采集数据,确定认同度和不认同度;
当认同度小于不认同度或认同度与不认同度的差值小于预设的差值阈值时,验证不通过。
优选的,对更新数据的可靠性进行验证,还包括:
确定领域词语集收录的第二实体在更新数据中的第二实体的第二占比;
基于预设的占比与第一评价值对应的第一评价表和第二占比,确定第一评价值;
基于第一权威值和预设的权威值与第二评价值对应的第二评价表,确定第二评价值;
基于认同度、不认同度和预设的第三评价表,确定第三评价值;第三评价表中认同度、不认同度与第三评价值对应关联;
基于第一评价值、第二评价值和第三评价值,确定评价度;
当评价度大于预设的验证阈值时,验证通过。
优选的,解析公众认同采集数据,确定认同度和不认同度,包括:
将公众认同采集数据逐条输入预设的神经网络模型中,进行分组判断,将数据分为认同数据集和不认同数据集;
获取认同数据集和不认同数据集的各个数据对应的用户的权威值集合;
确定更新数据对应的领域;
基于领域从权威值集合中提取用户在领域的第二权威值;
基于第二权威值的从大到小的顺序,对用户进行排序,形成排序表;
当最大的第二权威值大于预设的权威阈值时,提取排序表中的前预设个数的用户的第二权威值作为认同度和不认同度的计算数据并基于提取的第二权威值计算认同度和不认同度,计算公式如下:
Figure 369481DEST_PATH_IMAGE001
;
其中,
Figure 460934DEST_PATH_IMAGE002
表示认同度;
Figure 294898DEST_PATH_IMAGE003
表示不认同度;
Figure 714378DEST_PATH_IMAGE004
表示对更新数据为认同的第
Figure 957403DEST_PATH_IMAGE005
个用 户的第二权威值;
Figure 778728DEST_PATH_IMAGE006
表示对更新数据为不认同的第
Figure 518014DEST_PATH_IMAGE007
个用户的第二权威值;
Figure 549424DEST_PATH_IMAGE008
为认同的用 户的总数;
Figure 438883DEST_PATH_IMAGE009
为不认同的用户的总数。
优选的,领域语义网自动构建方法,还包括:
对领域语义网更新的数据进行使用追踪;
向各个使用更新的数据的使用人发送第二问询,并接收各个使用人对于更新的数据的准确性的第二反馈;
当接收到第二反馈的数量大于预设的数量阈值时,解析第二反馈,确定各个使用人的认定值;
获取各个使用人对应的第三权威值;
基于各个使用人的认定值和各个使用人对应的第三权威值,确定更新的数据的使用验证度;使用验证度的计算公式如下:
Figure 504928DEST_PATH_IMAGE010
;
当认定值小于预设的认定阈值和/或使用验证度小于预设的使用验证阈值时,基于更新的数据构建异常清单并输出。
本发明的一种领域语义网自动构建***,包括:
第一获取模块,用于获取待构建的领域的问答数据;
第二获取模块,用于获取待构建的领域所对应的专业词典集;
识别模块,用于识别问答数据中的第一实体;
第一构建模块,用于基于第一实体和专业词典集,构建领域词语集;
解析模块,用于解析问答数据,确定标准问题和相似问题;
确定模块,用于基于标准问题和相似问题,从领域词语集中确定相似词语;
第二构建模块,用于基于相似词语,构建领域语义网。
优选的,第一获取模块获取待构建的领域的问答数据,执行如下操作:
提取目标问答***的问答数据库;
对问答数据库中的问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果;
将问答数据库中的各个问答数据对应的知识领域判断结果进行合并去重,构建知识领域列表并输出第一问询;
接收用户对应第一问询输入的第一反馈;
解析第一反馈,确定目标领域;
基于目标领域和问答数据库内各个问答数据对应的知识领域判断结果,提取待构建的领域的问答数据。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种领域语义网自动构建方法的示意图;
图2为本发明实施例中一种领域语义网自动构建***的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种领域语义网自动构建方法,如图1所示,包括:
步骤S1:获取待构建的领域的问答数据;例如:直接从问答***的问答数据库中获取对应的待构建的领域的问答数据;
步骤S2:获取待构建的领域所对应的专业词典集;例如:可以通过大数据平台上搜索对应的专业词典集;
步骤S3:识别问答数据中的第一实体;
步骤S4:基于第一实体和专业词典集,构建领域词语集;
步骤S5:解析问答数据,确定标准问题和相似问题;
步骤S6:基于标准问题和相似问题,从领域词语集中确定相似词语;
步骤S7:基于相似词语,构建领域语义网。
上述技术方案的工作原理及有益效果为:
基于爬虫软件等工具收集实验领域语料,专业词典集,通过预先训练的实体识别模型,识别FAQ标问和相似问题中的实体进而丰富专业词典集,形成领域词语集。分析总结FAQ标问和相似问题中的功能词,及句式精简规则。对标问进行分词,词性标注,实体标注,句式精简,后总结标问标注规则。对相似问题进行分词,词性标注,功能词和实体标注,句式精简,后总结相似问题标注规则。利用标问和相似问题标注结构提炼相似词语,构建领域语义网。其中实体识别模型为神经网络模型,事先通过大量数据训练获得,功能为识别问答数据中的实体。
本发明的领域语义网自动构建方法,自动从问题中构建领域语义网可以降低人力成本,提升智能交互体验。
在一个实施例中,获取待构建的领域的问答数据,包括:
提取目标问答***的问答数据库;
对问答数据库中的问答数据进行关键词提取,获取多个关键词;例如:可以通过预设的关键词库进行关键词的提取;
分别对多个关键词进行量化,获取多个参数值;例如:通过关键词量化表进行量化处理,将关键词量化为数值;
基于多个参数值,构建表示参数集;可以采用直接排列的方式进行排列形成表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果;匹配可以通过计算表示参数集和判断参数集的相似度来实现;相似度计算公式如下:
Figure 352798DEST_PATH_IMAGE011
;
其中,
Figure 375898DEST_PATH_IMAGE012
为相似度;
Figure 69048DEST_PATH_IMAGE013
为表示参数集中第
Figure 927283DEST_PATH_IMAGE014
个数据值;
Figure 70688DEST_PATH_IMAGE015
为判断参数集中第
Figure 952056DEST_PATH_IMAGE016
个数据值;
Figure 776793DEST_PATH_IMAGE017
为表示参数集或判断参数集中的数据总数;
当相似度为知识领域判断库中最大时,表示参数集与判断参数集匹配;
将问答数据库中的各个问答数据对应的知识领域判断结果进行合并去重,构建知识领域列表并输出第一问询;知识领域列表中包括:知识领域名称以及对应的数据在问答数据总量的占比;
接收用户对应第一问询输入的第一反馈;
解析第一反馈,确定目标领域;第一反馈中包括:用户从第一问询的知识领域列表上选取的知识领域名称;
基于目标领域和问答数据库内各个问答数据对应的知识领域判断结果,提取待构建的领域的问答数据。
在一个实施例中,识别问答数据中的第一实体之后,还包括:
确定问答数据中的第一实体个数;
当第一实体个数不为一时,确定问答数据中第一实体与第一实体之间的第一关联关系;
基于第一关联关系和问答数据中的第一实体,完善领域语义网。
上述技术方案的工作原理及有益效果为:
通过问答数据的实体与实体之间的关联关系的确定,对领域语义网进行关系的完善,关联关系包括:差异、相反等;更进一步地,差异的描述等;
在一个实施例中,领域语义网自动构建方法,还包括:
获取领域对应的预设的数据库内的更新数据;用户通过设置需要监控的数据库,或者根据用户选取的领域,调取预设的监控对照表,确定要监控的数据库;例如:用户选取建筑工程领域,调取的预设监控对照表中,存储有建筑工程领域相应的网站,通过对网站上更新数据的获取对领域语义网进行更新,保证领域语义网的及时有效。
解析更新数据,确定多个第二实体;
分别将第二实体与领域词语集中的词语进行一一匹配,确定领域词语集是否收录第二实体;
当未收录第二实体时,对更新数据的可靠性进行验证,当验证通过时,将第二实体添加进领域词语集并再次解析更新数据,确定第二实体与其他的已被收录在领域词语集内的第二实体之间的第二关联关系;
基于第二实体和第二关联关系,对领域语义网进行更新。
其中,对更新数据的可靠性进行验证,包括:
确定被收录在领域词语集内的第二实体的第一数量;
确定未被收录在领域词语集内的第二实体的第二数量;
基于第一数量和第二数量,确定未被收录的第二实体的第一占比;
当第一占比大于预设的占比阈值(例如:20%)时,验证不通过;
和/或,
获取更新数据的原始来源;原始来源为上传更新数据的用户;
确定原始来源的第一权威值;第一权威值为用户的权威值集合内对应构建领域语义网的权威值;权威值集合中的各个权威值对应用户在各个不同领域的权威性;例如当用户为经济学教授或专家时,权威值为100,而在计算机方面的权威值为10;
当第一权威值小于预设的第一权威阈值(例如:80)时,验证不通过;
和/或,
获取更新数据对应关联的公众认同采集数据;公众认同采集数据为数据库内存储的对应更新数据发布的用户存储的其他用户的评价和留言等;还可以是通过***将更新数据发送至大数据平台上进行公众认同采集的数据;
解析公众认同采集数据,确定认同度和不认同度;
当认同度小于不认同度或认同度与不认同度的差值小于预设的差值阈值时,验证不通过。即只有认同度大于不认同度并且认同度与不认同度的差值大于预设的差值阈值(例如:0.9)时,验证通过,即保证更新数据得到绝大多数的人的认同,才可以作为更新领域语义网的数据基础;
其中,对更新数据的可靠性进行验证,还包括:
确定领域词语集收录的第二实体在更新数据中的第二实体的第二占比;
基于预设的占比与第一评价值对应的第一评价表和第二占比,确定第一评价值;
基于第一权威值和预设的权威值与第二评价值对应的第二评价表,确定第二评价值;
基于认同度、不认同度和预设的第三评价表,确定第三评价值;第三评价表中认同度、不认同度与第三评价值对应关联;
基于第一评价值、第二评价值和第三评价值,确定评价度;
当评价度大于预设的验证阈值时,验证通过。
上述技术方案的工作原理及有益效果为:
采用对应领域的数据库中的更新数据对领域语义网进行更新,保证领域语义网的活力;在更新之前需要对更新数据的准确有效性进行验证;验证从三个方面出发:第一方面为数据本身,即通过对更新数据中的实体进行识别,通过领域对应的领域词语集确定,更新数据中提及的实体是否被收录到领域词语集;当都被收录,无需对领域语义网进行更新,当存在未被收录的实体时,才需对领域语义网进行更新,通过设置占比阈值,保证更新数据属于领域语义网对应的领域,防止误采其他领域的数据;第二方面,从数据来源的用户的权威性出发;保证用于更新的数据的准确性;第三方面,从更新数据发布后的公众认同出发,进一步保证了更新数据的准确性。综合分析数据本身、数据来源以及公众认同,保证用于对领域语义网进行自动构建的更新数据的准确性、有效性。
在一个实施例中,解析公众认同采集数据,确定认同度和不认同度,包括:
将公众认同采集数据逐条输入预设的神经网络模型中,进行分组判断,将数据分为认同数据集和不认同数据集;神经网络模型为预先训练,用于对公众认同采集数据进行认同和不认同区分;
获取认同数据集和不认同数据集的各个数据对应的用户的权威值集合;
确定更新数据对应的领域;
基于领域从权威值集合中提取用户在领域的第二权威值;
基于第二权威值的从大到小的顺序,对用户进行排序,形成排序表;
当最大的第二权威值大于预设的权威阈值(例如:90)时,提取排序表中的前预设个数(例如:1000)的用户的第二权威值作为认同度和不认同度的计算数据并基于提取的第二权威值计算认同度和不认同度,计算公式如下:
Figure 53316DEST_PATH_IMAGE018
;
其中,
Figure 711830DEST_PATH_IMAGE019
表示认同度;
Figure 205128DEST_PATH_IMAGE020
表示不认同度;
Figure 505660DEST_PATH_IMAGE021
表示对更新数据为认同的第
Figure 400803DEST_PATH_IMAGE022
个 用户的第二权威值;
Figure 230219DEST_PATH_IMAGE023
表示对更新数据为不认同的第
Figure 414076DEST_PATH_IMAGE024
个用户的第二权威值;
Figure 875888DEST_PATH_IMAGE025
为认同的 用户的总数;
Figure 500904DEST_PATH_IMAGE026
为不认同的用户的总数。
Figure 891434DEST_PATH_IMAGE027
为预设个数,即1000。
在一个实施例中,领域语义网自动构建方法,还包括:
对领域语义网更新的数据进行使用追踪;当领域语义网中的更新的数据被调用且参与答案的生成时,可以确定更新的数据被使用;获得答案的用户被认为是使用人;
向各个使用更新的数据的使用人发送第二问询,并接收各个使用人对于更新的数据的准确性的第二反馈;
当接收到第二反馈的数量大于预设的数量阈值(例如:10)时,解析第二反馈,确定各个使用人的认定值;例如可以采用打分问询的形式直接获取各个使用人的认定值;认定值为使用人认为答案是否解决了用户提的问题所给出的评分值,取值可以在0至100之间;
获取各个使用人对应的第三权威值;从使用人对应的权威值集合中提取对应领域的权威值;
基于各个使用人的认定值和各个使用人对应的第三权威值,确定更新的数据的使用验证度;使用验证度的计算公式如下:
Figure 969112DEST_PATH_IMAGE028
;
当认定值小于预设的认定阈值(例如:60)和/或使用验证度小于预设的使用验证阈值(例如:1)时,基于更新的数据构建异常清单并输出。即当存在一个用户的认定值小于认定阈值或者通过所有使用人确定的使用验证度小于预设的使用验证阈值时,可以认为更新的数据并不理想,因此需要输出异常清单给管理员,管理员进行人工核实确定,以保证更新的准确有效。
本发明的一种领域语义网自动构建***,如图2所示,包括:
第一获取模块1,用于获取待构建的领域的问答数据;
第二获取模块2,用于获取待构建的领域所对应的专业词典集;
识别模块3,用于识别问答数据中的第一实体;
第一构建模块4,用于基于第一实体和专业词典集,构建领域词语集;
解析模块5,用于解析问答数据,确定标准问题和相似问题;
确定模块6,用于基于标准问题和相似问题,从领域词语集中确定相似词语;
第二构建模块7,用于基于相似词语,构建领域语义网。
在一个实施例中,第一获取模块1获取待构建的领域的问答数据,执行如下操作:
提取目标问答***的问答数据库;
对问答数据库中的问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果;
将问答数据库中的各个问答数据对应的知识领域判断结果进行合并去重,构建知识领域列表并输出第一问询;
接收用户对应第一问询输入的第一反馈;
解析第一反馈,确定目标领域;
基于目标领域和问答数据库内各个问答数据对应的知识领域判断结果,提取待构建的领域的问答数据。
在一个实施例中,领域语义网自动构建***还包括:完善模块;
完善模块在识别模块识别问答数据中的第一实体之后,执行如下操作:
确定问答数据中的第一实体个数;
当第一实体个数不为一时,确定问答数据中第一实体与第一实体之间的第一关联关系;
基于第一关联关系和问答数据中的第一实体,完善领域语义网。
在一个实施例中,领域语义网自动构建***还包括:更新模块;
更新模块执行如下操作:
获取领域对应的预设的数据库内的更新数据;
解析更新数据,确定多个第二实体;
分别将第二实体与领域词语集中的词语进行一一匹配,确定领域词语集是否收录第二实体;
当未收录第二实体时,对更新数据的可靠性进行验证,当验证通过时,将第二实体添加进领域词语集并再次解析更新数据,确定第二实体与其他的已被收录在领域词语集内的第二实体之间的第二关联关系;
基于第二实体和第二关联关系,对领域语义网进行更新。
其中,对更新数据的可靠性进行验证,包括:
确定被收录在领域词语集内的第二实体的第一数量;
确定未被收录在领域词语集内的第二实体的第二数量;
基于第一数量和第二数量,确定未被收录的第二实体的第一占比;
当第一占比大于预设的占比阈值时,验证不通过;
和/或,
获取更新数据的原始来源;
确定原始来源的第一权威值;
当第一权威值小于预设的第一权威阈值时,验证不通过;
和/或,
获取更新数据对应关联的公众认同采集数据;
解析公众认同采集数据,确定认同度和不认同度;
当认同度小于不认同度或认同度与不认同度的差值小于预设的差值阈值时,验证不通过。
其中,对更新数据的可靠性进行验证,还包括:
确定领域词语集收录的第二实体在更新数据中的第二实体的第二占比;
基于预设的占比与第一评价值对应的第一评价表和第二占比,确定第一评价值;
基于第一权威值和预设的权威值与第二评价值对应的第二评价表,确定第二评价值;
基于认同度、不认同度和预设的第三评价表,确定第三评价值;第三评价表中认同度、不认同度与第三评价值对应关联;
基于第一评价值、第二评价值和第三评价值,确定评价度;
当评价度大于预设的验证阈值时,验证通过。
其中,解析公众认同采集数据,确定认同度和不认同度,包括:
将公众认同采集数据逐条输入预设的神经网络模型中,进行分组判断,将数据分为认同数据集和不认同数据集;
获取认同数据集和不认同数据集的各个数据对应的用户的权威值集合;
确定更新数据对应的领域;
基于领域从权威值集合中提取用户在领域的第二权威值;
基于第二权威值的从大到小的顺序,对用户进行排序,形成排序表;
当最大的第二权威值大于预设的权威阈值时,提取排序表中的前预设个数的用户的第二权威值作为认同度和不认同度的计算数据并基于提取的第二权威值计算认同度和不认同度,计算公式如下:
Figure 939342DEST_PATH_IMAGE029
;
其中,
Figure 543498DEST_PATH_IMAGE030
表示认同度;
Figure 980296DEST_PATH_IMAGE031
表示不认同度;
Figure 436947DEST_PATH_IMAGE032
表示对更新数据为认同的第
Figure 945289DEST_PATH_IMAGE033
个 用户的第二权威值;
Figure 279318DEST_PATH_IMAGE034
表示对更新数据为不认同的第
Figure 11651DEST_PATH_IMAGE035
个用户的第二权威值;
Figure 329500DEST_PATH_IMAGE036
为认同的 用户的总数;
Figure 172691DEST_PATH_IMAGE037
为不认同的用户的总数。
在一个实施例中,领域语义网自动构建***还包括:追踪模块;
追踪模块执行如下操作:
对领域语义网更新的数据进行使用追踪;
向各个使用更新的数据的使用人发送第二问询,并接收各个使用人对于更新的数据的准确性的第二反馈;
当接收到第二反馈的数量大于预设的数量阈值时,解析第二反馈,确定各个使用人的认定值;
获取各个使用人对应的第三权威值;
基于各个使用人的认定值和各个使用人对应的第三权威值,确定更新的数据的使用验证度;使用验证度的计算公式如下:
Figure 470815DEST_PATH_IMAGE038
;
当认定值小于预设的认定阈值和/或使用验证度小于预设的使用验证阈值时,基于更新的数据构建异常清单并输出。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种领域语义网自动构建方法,其特征在于,包括:
获取待构建的领域的问答数据;
获取待构建的领域所对应的专业词典集;
识别所述问答数据中的第一实体;
基于所述第一实体和所述专业词典集,构建领域词语集;
解析所述问答数据,确定标准问题和相似问题;
基于所述标准问题和相似问题,从所述领域词语集中确定相似词语;
基于所述相似词语,构建领域语义网;
获取所述领域对应的预设的数据库内的更新数据;
解析所述更新数据,确定多个第二实体;
分别将所述第二实体与所述领域词语集中的词语进行一一匹配,确定所述领域词语集是否收录所述第二实体;
当未收录所述第二实体时,对所述更新数据的可靠性进行验证,当验证通过时,将所述第二实体添加进所述领域词语集并再次解析所述更新数据,确定所述第二实体与其他的已被收录在所述领域词语集内的所述第二实体之间的第二关联关系;
基于所述第二实体和所述第二关联关系,对所述领域语义网进行更新;
所述对所述更新数据的可靠性进行验证,包括:
确定被收录在所述领域词语集内的所述第二实体的第一数量;
确定未被收录在所述领域词语集内的所述第二实体的第二数量;
基于所述第一数量和所述第二数量,确定未被收录的第二实体的第一占比;
当所述第一占比大于预设的占比阈值时,验证不通过;
和/或,
获取所述更新数据的原始来源;
确定所述原始来源的第一权威值;
当所述第一权威值小于预设的第一权威阈值时,验证不通过;
和/或,
获取所述更新数据对应关联的公众认同采集数据;
解析所述公众认同采集数据,确定认同度和不认同度;
当所述认同度小于所述不认同度或所述认同度与所述不认同度的差值小于预设的差值阈值时,验证不通过;
对所述更新数据的可靠性进行验证,还包括:
确定所述领域词语集收录的所述第二实体在所述更新数据中的所述第二实体的第二占比;
基于预设的占比与第一评价值对应的第一评价表和所述第二占比,确定第一评价值;
基于所述第一权威值和预设的权威值与第二评价值对应的第二评价表,确定第二评价值;
基于所述认同度、所述不认同度和预设的第三评价表,确定第三评价值;所述第三评价表中所述认同度、所述不认同度与所述第三评价值对应关联;
基于所述第一评价值、所述第二评价值和所述第三评价值,确定评价度;
当所述评价度大于预设的验证阈值时,验证通过。
2.如权利要求1所述的领域语义网自动构建方法,其特征在于,所述获取待构建的领域的问答数据,包括:
提取目标问答***的问答数据库;
对所述问答数据库中的问答数据进行关键词提取,获取多个关键词;
分别对多个所述关键词进行量化,获取多个参数值;
基于多个所述参数值,构建表示参数集;
获取预设的知识领域判断库;所述知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将所述表示参数集与所述知识领域判断库中各个所述判断参数集进行匹配,获取匹配符合的所述判断参数集对应关联的所述知识领域判断结果;
将所述问答数据库中的各个问答数据对应的所述知识领域判断结果进行合并去重,构建知识领域列表并输出第一问询;
接收用户对应第一问询输入的第一反馈;
解析所述第一反馈,确定目标领域;
基于目标领域和所述问答数据库内各个问答数据对应的所述知识领域判断结果,提取待构建的领域的问答数据。
3.如权利要求1所述的领域语义网自动构建方法,其特征在于,所述识别所述问答数据中的第一实体之后,还包括:
确定问答数据中的第一实体个数;
当所述第一实体个数不为一时,确定所述问答数据中第一实体与第一实体之间的第一关联关系;
基于所述第一关联关系和所述问答数据中的所述第一实体,完善所述领域语义网。
4.如权利要求1所述的领域语义网自动构建方法,其特征在于,所述解析所述公众认同采集数据,确定认同度和不认同度,包括:
将所述公众认同采集数据逐条输入预设的神经网络模型中,进行分组判断,将数据分为认同数据集和不认同数据集;
获取所述认同数据集和所述不认同数据集的各个数据对应的用户的权威值集合;
确定所述更新数据对应的领域;
基于所述领域从所述权威值集合中提取所述用户在所述领域的第二权威值;
基于所述第二权威值的从大到小的顺序,对所述用户进行排序,形成排序表;
当最大的所述第二权威值大于预设的权威阈值时,提取所述排序表中的前预设个数的所述用户的所述第二权威值作为所述认同度和所述不认同度的计算数据并基于提取的所述第二权威值计算所述认同度和所述不认同度,计算公式如下:
Figure DEST_PATH_IMAGE002
;
其中,
Figure DEST_PATH_IMAGE004
表示所述认同度;
Figure DEST_PATH_IMAGE006
表示所述不认同度;
Figure DEST_PATH_IMAGE008
表示对所述更新数据为认同的第
Figure DEST_PATH_IMAGE010
个用户的第二权威值;
Figure DEST_PATH_IMAGE012
表示对所述更新数据为不认同的第
Figure DEST_PATH_IMAGE014
个用户的第二权威值;
Figure DEST_PATH_IMAGE016
为认同的用户的总数;
Figure DEST_PATH_IMAGE018
为不认同的用户的总数。
5.如权利要求1所述的领域语义网自动构建方法,其特征在于,还包括:
对所述领域语义网更新的数据进行使用追踪;
向各个使用更新的数据的使用人发送第二问询,并接收各个所述使用人对于更新的数据的准确性的第二反馈;
当接收到所述第二反馈的数量大于预设的数量阈值时,解析所述第二反馈,确定各个所述使用人的认定值;
获取各个所述使用人对应的第三权威值;
基于各个所述使用人的认定值和各个所述使用人对应的第三权威值,确定更新的数据的使用验证度;
当所述认定值小于预设的认定阈值和/或所述使用验证度小于预设的使用验证阈值时,基于更新的数据构建异常清单并输出。
6.一种领域语义网自动构建***,其特征在于,包括:
第一获取模块,用于获取待构建的领域的问答数据;
第二获取模块,用于获取待构建的领域所对应的专业词典集;
识别模块,用于识别所述问答数据中的第一实体;
第一构建模块,用于基于所述第一实体和所述专业词典集,构建领域词语集;
解析模块,用于解析所述问答数据,确定标准问题和相似问题;
确定模块,用于基于所述标准问题和相似问题,从所述领域词语集中确定相似词语;
第二构建模块,用于基于所述相似词语,构建领域语义网;
更新模块;
其中,所述更新模块执行如下操作:
获取领域对应的预设的数据库内的更新数据;
解析更新数据,确定多个第二实体;
分别将第二实体与领域词语集中的词语进行一一匹配,确定领域词语集是否收录第二实体;
当未收录第二实体时,对更新数据的可靠性进行验证,当验证通过时,将第二实体添加进领域词语集并再次解析更新数据,确定第二实体与其他的已被收录在领域词语集内的第二实体之间的第二关联关系;
基于第二实体和第二关联关系,对领域语义网进行更新;
所述对更新数据的可靠性进行验证,包括:
确定被收录在所述领域词语集内的所述第二实体的第一数量;
确定未被收录在所述领域词语集内的所述第二实体的第二数量;
基于所述第一数量和所述第二数量,确定未被收录的第二实体的第一占比;
当所述第一占比大于预设的占比阈值时,验证不通过;
和/或,
获取所述更新数据的原始来源;
确定所述原始来源的第一权威值;
当所述第一权威值小于预设的第一权威阈值时,验证不通过;
和/或,
获取所述更新数据对应关联的公众认同采集数据;
解析所述公众认同采集数据,确定认同度和不认同度;
当所述认同度小于所述不认同度或所述认同度与所述不认同度的差值小于预设的差值阈值时,验证不通过;
所述对更新数据的可靠性进行验证,还包括:
确定所述领域词语集收录的所述第二实体在所述更新数据中的所述第二实体的第二占比;
基于预设的占比与第一评价值对应的第一评价表和所述第二占比,确定第一评价值;
基于所述第一权威值和预设的权威值与第二评价值对应的第二评价表,确定第二评价值;
基于所述认同度、所述不认同度和预设的第三评价表,确定第三评价值;所述第三评价表中所述认同度、所述不认同度与所述第三评价值对应关联;
基于所述第一评价值、所述第二评价值和所述第三评价值,确定评价度;
当所述评价度大于预设的验证阈值时,验证通过。
7.如权利要求6所述的领域语义网自动构建***,其特征在于,所述第一获取模块获取待构建的领域的问答数据,执行如下操作:
提取目标问答***的问答数据库;
对所述问答数据库中的问答数据进行关键词提取,获取多个关键词;
分别对多个所述关键词进行量化,获取多个参数值;
基于多个所述参数值,构建表示参数集;
获取预设的知识领域判断库;所述知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将所述表示参数集与所述知识领域判断库中各个所述判断参数集进行匹配,获取匹配符合的所述判断参数集对应关联的所述知识领域判断结果;
将所述问答数据库中的各个问答数据对应的所述知识领域判断结果进行合并去重,构建知识领域列表并输出第一问询;
接收用户对应第一问询输入的第一反馈;
解析所述第一反馈,确定目标领域;
基于目标领域和所述问答数据库内各个问答数据对应的所述知识领域判断结果,提取待构建的领域的问答数据。
CN202210115578.6A 2022-02-07 2022-02-07 一种领域语义网自动构建方法及*** Active CN114154513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210115578.6A CN114154513B (zh) 2022-02-07 2022-02-07 一种领域语义网自动构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210115578.6A CN114154513B (zh) 2022-02-07 2022-02-07 一种领域语义网自动构建方法及***

Publications (2)

Publication Number Publication Date
CN114154513A CN114154513A (zh) 2022-03-08
CN114154513B true CN114154513B (zh) 2022-07-26

Family

ID=80449987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210115578.6A Active CN114154513B (zh) 2022-02-07 2022-02-07 一种领域语义网自动构建方法及***

Country Status (1)

Country Link
CN (1) CN114154513B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244498A (ja) * 2009-04-07 2010-10-28 Gengo Rikai Kenkyusho:Kk 自動応答文生成システム
CN112100344A (zh) * 2020-08-18 2020-12-18 淮阴工学院 一种基于知识图谱的金融领域知识问答方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建***
CN109062937B (zh) * 2018-06-15 2019-11-26 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN111914550B (zh) * 2020-07-16 2023-12-15 华中师范大学 一种面向限定领域的知识图谱更新方法及***
CN112163077B (zh) * 2020-09-28 2024-06-04 华南理工大学 一种面向领域问答的知识图谱构建方法
CN112749567A (zh) * 2021-03-01 2021-05-04 哈尔滨理工大学 一种基于现实信息环境知识图谱的问答***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244498A (ja) * 2009-04-07 2010-10-28 Gengo Rikai Kenkyusho:Kk 自動応答文生成システム
CN112100344A (zh) * 2020-08-18 2020-12-18 淮阴工学院 一种基于知识图谱的金融领域知识问答方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Tao Jiang ; Xin Wang ; Yong Yu."A formal definition of the structural semantics of Domain-Specific Modeling languages".《IEEE》.2011, *
基于XML的智能答疑***研究;王常亮等;《赤峰学院学报(自然科学版)》;20080925(第09期);全文 *
基于深度学习的领域情感词典自动构建――以金融领域为例;胡家珩等;《数据分析与知识发现》;20181025(第10期);全文 *

Also Published As

Publication number Publication date
CN114154513A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询***
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答***
CN112487140B (zh) 问答对话评测方法、装置、设备及存储介质
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN108717433A (zh) 一种面向程序设计领域问答***的知识库构建方法及装置
CN115470338B (zh) 一种基于多路召回的多场景智能问答方法和***
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN117056479A (zh) 基于语义解析引擎的智能问答交互***
CN117520522B (zh) 一种基于rpa和ai结合的智能对话方法、装置及电子设备
CN112069833B (zh) 日志分析方法、日志分析装置及电子设备
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题***
CN112988704A (zh) 一种基于ai咨询数据库集群搭建方法和***
CN114154513B (zh) 一种领域语义网自动构建方法及***
Thangarasu et al. Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN112668284B (zh) 一种法律文书分段方法及***
CN114862006A (zh) 一种基于人工智能的社会工作服务方案自动化生成方法和装置
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质
CN110502675B (zh) 基于数据分析的语音拨叫用户分类方法及相关设备
CN113553419A (zh) 民航知识图谱问答***
CN113886535A (zh) 基于知识图谱的问答方法、装置、存储介质及电子设备
CN112988972A (zh) 一种基于数据模型的行政处罚案卷评查方法及***
CN117332851B (zh) 一种基于私有知识库的llm问答平台搭建方法及***
CN112148983B (zh) 一种用于税务行业的内容更新推荐方法
CN117668166B (zh) 一种智慧作业学习知识库快速构建方法与***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 23011, Yuejiang commercial center, No. 857, Xincheng Road, Puyan street, Binjiang District, Hangzhou, Zhejiang 311611

Applicant after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 23 / F, World Trade Center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310051

Applicant before: Hangzhou Yuanchuan New Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and System for Automatic Construction of Domain Semantic Web

Effective date of registration: 20230509

Granted publication date: 20220726

Pledgee: China Everbright Bank Limited by Share Ltd. Hangzhou branch

Pledgor: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Registration number: Y2023980040155

PE01 Entry into force of the registration of the contract for pledge of patent right