CN111125379B - 知识库扩充方法、装置、电子设备和存储介质 - Google Patents

知识库扩充方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111125379B
CN111125379B CN201911368840.2A CN201911368840A CN111125379B CN 111125379 B CN111125379 B CN 111125379B CN 201911368840 A CN201911368840 A CN 201911368840A CN 111125379 B CN111125379 B CN 111125379B
Authority
CN
China
Prior art keywords
sentence pattern
accumulated
seed
similarity
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911368840.2A
Other languages
English (en)
Other versions
CN111125379A (zh
Inventor
夏有君
李莉
戴瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201911368840.2A priority Critical patent/CN111125379B/zh
Publication of CN111125379A publication Critical patent/CN111125379A/zh
Application granted granted Critical
Publication of CN111125379B publication Critical patent/CN111125379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种知识库扩充方法、装置、电子设备和存储介质,其中方法包括:确定知识库中任一知识点对应的种子句式,以及所述知识库对应领域的若干个累积句式;基于所述种子句式与每一累积句式的语义信息,和/或所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径,对所述任一知识点进行扩充。本发明实施例提供的方法、装置、电子设备和存储介质,基于种子句式与每一累积句式的语义信息和/或在对应领域的业务知识图谱中的路径,对知识库进行自动扩充,有效节约了人力成本和时间成本,且能够解绑不同意图的句式,避免标准问之间的歧义,提高扩充质量和扩充效果。

Description

知识库扩充方法、装置、电子设备和存储介质
技术领域
本发明涉及人机交互技术领域,尤其涉及一种知识库扩充方法、装置、电子设备和存储介质。
背景技术
随着人工智能技术的迅猛发展,人机交互***的广泛应用,智能客服应运而生。智能客服能够基于知识库回答用户问题,为用户提供全天候的服务。
当前,知识库的构建通常是通过人工完成的,需要工作人员对相关领域的知识点以及对应标准问进行整理归纳,并在此基础上对每个标准问进行扩充。上述方法需要耗费大量的人力和时间,且过于依赖工作人员的专业能力,由此得到的知识库的质量参差不齐。
发明内容
本发明实施例提供一种知识库扩充方法、装置、电子设备和存储介质,用以解决现有的知识库扩充方法需要耗费大量人力和时间的问题。
第一方面,本发明实施例提供一种知识库扩充方法,包括:
确定知识库中任一知识点对应的种子句式,以及所述知识库对应领域的若干个累积句式;
基于所述种子句式与每一累积句式的语义信息,和/或所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径,对所述任一知识点进行扩充。
优选地,所述基于所述种子句式与每一累积句式的语义信息,和所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径,对所述任一知识点进行扩充,具体包括:
基于所述种子句式与每一累积句式的语义信息,从所述若干个累积句式中选取若干个候选句式;
基于所述种子句式与每一候选句式在对应领域的业务知识图谱中的路径,以及所述种子句式与每一候选句式的业务类信息,对所述任一知识点进行扩充。
优选地,所述基于所述种子句式与每一累积句式的语义信息,从所述若干个累积句式中选取若干个候选句式,具体包括:
基于所述种子句式与任一累积句式的语义信息中的语义特征向量,确定所述种子句式与所述任一累积句式的语义特征向量相似度;
和/或,基于所述种子句式与所述任一累积句式的语义信息中的语义关键信息,确定所述种子句式与所述任一累积句式的语义关键信息相似度;
基于所述种子句式与每一累积句式的语义特征向量相似度和/或语义关键信息相似度,从所述若干个累积句式中选取若干个候选句式。
优选地,所述基于所述种子句式与所述任一累积句式的语义信息中的语义关键信息,确定所述种子句式与所述任一累积句式的语义关键信息相似度,具体包括:
基于所述种子句式与所述任一累积句式的语义关键信息中的操作类信息,确定所述种子句式与所述任一累积句式的操作类信息相似度;
基于所述种子句式与所述任一累积句式的语义关键信息中的业务类信息,确定所述种子句式与所述任一累积句式的业务类信息相似度;
基于所述种子句式与所述任一累积句式的操作类信息相似度和业务类信息相似度,确定所述种子句式与所述任一累积句式的语义关键信息相似度。
优选地,所述基于所述种子句式与每一累积句式的语义特征向量相似度和语义关键信息相似度,从所述若干个累积句式中选取若干个候选句式,具体包括:
若所述种子句式与任一累积句式的语义特征向量相似度处于预设向量相似度区间内,且所述种子句式与所述任一累积句式的语义关键信息相似度大于等于预设信息相似度阈值,则将所述任一累积句式作为所述候选句式。
优选地,所述基于所述种子句式与每一候选句式在对应领域的业务知识图谱中的路径,以及所述种子句式与每一候选句式的业务类信息,对所述任一知识点进行扩充,具体包括:
确定所述种子句式与任一候选句式在对应领域的业务知识图谱中的路径之间的路径相似度;
若所述路径相似度大于预设路径相似度阈值,且所述种子句式与所述任一候选句式中的操作类信息相同,则将所述任一候选句式中的业务类信息替换为所述种子句式中的业务类信息;
将替换后的所述任一候选句式添加至所述任一知识点。
优选地,所述确定所述种子句式与任一候选句式在对应领域的业务知识图谱中的路径之间的路径相似度,具体包括:
基于所述对应领域的业务知识图谱,以及所述种子句式的语义关键信息,确定所述种子句式在对应领域的业务知识图谱中的路径;
基于所述对应领域的业务知识图谱,以及任一候选句式的语义关键信息,确定所述任一候选句式在对应领域的业务知识图谱中的路径;
基于所述种子句式和所述任一候选句式在对应领域的业务知识图谱中的路径,确定所述路径相似度。
第二方面,本发明实施例提供一种知识库扩充装置,包括:
句式确定单元,用于确定知识库中任一知识点对应的种子句式,以及所述知识库对应领域的若干个累积句式;
句式扩充单元,用于基于所述种子句式与每一累积句式的语义信息,和/或所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径,对所述任一知识点进行扩充。
第三方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑命令,以执行如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种知识库扩充方法、装置、电子设备和存储介质,基于种子句式与每一累积句式的语义信息和/或在对应领域的业务知识图谱中的路径,对知识库进行自动扩充,有效节约了人力成本和时间成本,且能够解绑不同意图的句式,避免标准问之间的歧义,提高扩充质量和扩充效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的知识库扩充方法的流程示意图;
图2为本发明实施例提供的知识点扩充方法的流程示意图;
图3为本发明实施例提供的基于语义信息确定候选句式的方法的流程示意图;
图4为本发明实施例提供的基于业务知识图谱路径的知识点扩充方法的流程示意图;
图5为本发明实施例提供的业务知识图谱路径示意图;
图6为本发明另一实施例提供的知识库扩充方法的流程示意图;
图7为本发明实施例提供的知识库扩充装置的结构示意图;
图8为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着自然语言理解、大规模知识处理技术的发展,面向各行各业的智能客服技术由此兴起。不同行业不同厂商所对应的业务不尽相同,因此应用于不同行业不同厂商的智能客服所需的知识库也需要分别构建。而知识库的构建和扩充非常耗时耗力。
目前,在智能客服的各个领域,积累了大量的语料资源,通过资源复用的方式可以实现知识库的扩充。常规的资源复用通常通过基于知识库模板的复用方法或者基于知识点的映射复用方法实现。其中,基于知识库模板的复用方法,模板维护成本很高,不同意图的数据具有较高的缠绕型,例如“介绍XXX”、“XXX怎么办理”之类的模板,对应于上述模板的句式极多,但是其中的关键词XXX不同,实际使用过程中极易发生标准问之间的歧义。而基于知识点的映射复用方法,由于不同厂商的业务范围存在区别,大多数的知识点均不一致,仅凭知识点的映射关系进行扩充,可复用的知识点较少,扩充效果不理想。
对此,本发明实施例提供了一种知识库扩充方法,图1为本发明实施例提供的知识库扩充方法的流程示意图,如图1所示,该方法包括:
步骤110,确定知识库中任一知识点对应的种子句式,以及知识库对应领域的若干个累积句式。
此处,知识库即待扩充的知识库,知识库中包含有若干个知识点,每一知识点对应一个标准问和若干个扩展问。在针对知识库中的任一知识点进行扩充时,可以将该知识点对应的标准问和扩展问中的任意一个句式作为种子句式。
待扩充的知识库所对应的领域内,积累了大量的语料资源,其中累积句式即对应领域中预先累积的问题句式。累积句式可以是在对应领域的人人会话或者人机会话过程中得到的,累积句式可以是从会话文本中提取的,也可以是通过语音识别对语音会话进行转写后提取的,本发明实施例对此不作具体限定。
步骤120,基于种子句式与每一累积句式的语义信息,和/或种子句式和每一累积句式在对应领域的业务知识图谱中的路径,对该知识点进行扩充。
具体地,种子句式或任一累积句式的语义信息用于反映该句式的语义,可以表示为种子句式或任一累积句式的文本中每一分词的词向量,或者是文本中每一分词的上下文向量,又或者是文本中关键信息实体,还或者是文本中关键信息实体的词向量等。
基于种子句式与任一累积句式的语义信息,可以衡量种子句式与该累积句式的语义相似度,语义相似度越高,则该累积句式与种子句式对应于同一知识点的概率越高,将该累积句式用于扩充种子句式所对应的知识点的效果越佳。
对应领域的业务知识图谱是预先基于知识库所对应领域中积累的大量语料资源建立的,业务知识图谱中包含对应领域相关的关键信息实体,以及关键信息实体之间的关系,具体体现为业务知识图谱中的节点,以及节点之间的边。种子句式或任一累积句式在对应领域的业务知识图谱中的路径,用于反映该句式在业务知识图谱中的关键信息实体及其关系。
基于种子句式与任一累积句式在对应领域的业务知识图谱中的路径,可以衡量种子句式和该累积句式的路径相似度,路径相似度越高,种子句式和该累积句式的关键信息实体以及关系之间的相似度越高,该累积句式与种子句式对应于同一知识点的概率越高,将该累积句式用于扩充种子句式所对应的知识点的效果越佳。
通过应用种子句式与每一累积句式的语义信息,和/或种子句式和每一累积句式在对应领域的业务知识图谱中的路径,可以从所有累积句式中筛选出可用于实现对应知识点扩充的累积句式,进而实现该知识点的扩充。对知识库中每一需要进行扩充的知识点执行上述操作,即可复用知识库对应领域的累积句式,实现知识库的自动扩充。
本发明实施例提供的方法,基于种子句式与每一累积句式的语义信息和/或在对应领域的业务知识图谱中的路径,对知识库进行自动扩充,有效节约了人力成本和时间成本,且能够解绑不同意图的句式,避免标准问之间的歧义,提高扩充质量和扩充效果。
基于上述任一实施例,图2为本发明实施例提供的知识点扩充方法的流程示意图,如图2所示,步骤120具体包括:
步骤121,基于种子句式与每一累积句式的语义信息,从上述若干个累积句式中选取若干个候选句式。
具体地,针对任一累积句式,可以通过比较种子句式的语义信息和该累积句式的语义信息,判断是否将该累积句式作为候选句式应用于后续知识点的扩充。此处,判断是否将该累积句式作为候选句式的条件,可以是该累积句式与种子句式的语义相似度是否大于预先设定的最小语义相似度,或者该累积句式与种子句式的语义相似度是否为所有累积句式与种子句式的语义相似度的预设数量个最大语义相似度等,本发明实施例对此不作具体限定。
步骤122,基于种子句式和每一候选句式在对应领域的业务知识图谱中的路径,以及种子句式和每一候选句式的业务类信息,对该知识点进行扩充。
具体地,在通过语义信息对累积句式进行筛选,得到若干个候选句式后,可以基于种子句式和每一候选句式在对应领域的业务知识图谱中的路径,以及种子句式和每一候选句式的业务类信息,进行知识点扩充。例如,若种子句式和任一候选句式在对应领域的业务知识图谱中的路径的相似度大于预先设定的最小路径相似度,且种子句式和该候选句式的业务类信息相同,则可以直接将该候选句式作为该知识点的扩展问,若种子句式和任一候选句式在对应领域的业务知识图谱中的路径的相似度大于预先设定的最小路径相似度,且种子句式和该候选句式的业务类信息不同,则可以应用种子句式的业务类信息替换候选句式的业务类信息,并将替换后的候选句式作为该知识点的拓展问。
本发明实施例提供的方法,在基于语义信息对累积句式进行筛选的基础上,进一步通过对应领域的业务知识图谱中的路径,以及业务类信息进行知识库扩充,可以有效提高知识库扩充质量。
基于上述任一实施例,图3为本发明实施例提供的基于语义信息确定候选句式的方法的流程示意图,如图3所示,步骤121具体包括:
步骤1211,基于种子句式与任一累积句式的语义信息中的语义特征向量,确定种子句式与该累积句式的语义特征向量相似度。
和/或,步骤1212,基于种子句式与该累积句式的语义信息中的语义关键信息,确定种子句式与该累积句式的语义关键信息相似度。
具体地,语义信息包括语义特征向量和/或语义关键信息。其中,语义特征向量是表征句式语义的特征向量,具体可以是句式文本中每一分词的词向量,或者是文本中每一分词的上下文向量等,语义特征向量可以基于例如LSTM、Bert等具有语义度量作用的模型得到。
种子句式与任一累积句式的语义特征向量相似度即两者的语义特征向量的相似度,此处语义特征向量相似度可以通过余弦相似度、欧几里得距离等方法计算得到。
此外,语义关键信息用于表示句式文本中包含的关键信息实体,此处语义关键信息可以是操作类信息,或者业务类信息等,语义关键信息可以包含从句式文本中抽取的实体以及实体所述的信息类别。语义关键信息可以基于例如BERT-ATT、BERT-CRF等具有实体抽取作用的模型得到的。
种子句式与任一累积句式的语义关键信息相似度即两者的语义关键信息的相似度,此处语义关键信息相似度可以表示为两者的语义关键信息中相同关键信息实体的占比。
步骤1213,基于种子句式与每一累积句式的语义特征向量相似度和/或语义关键信息相似度,从上述若干个累积句式中选取若干个候选句式。
具体地,在仅执行步骤1211不执行步骤1212时,可以基于种子句式与每一累积句式的语义特征向量相似度,进行候选句式的选取;在仅执行步骤1212不执行步骤1211时,可以基于种子句式与每一累积句式的语义关键信息相似度,进行候选句式的选取;在既执行步骤1211又执行步骤1212时,可以基于种子句式与每一累积句式的语义特征向量相似度和语义关键信息相似度,进行候选句式的选取。
本发明实施例提供的方法,基于语义特征向量相似度和/或语义关键信息相似度选取候选句式,通过不同角度的语义筛选提高句式复用质量,从而保证后续知识库扩充质量。
基于上述任一实施例,步骤1211中,对于语义特征向量相似度的计算,可以通过如下方法实现:
假设种子句式为q1,任一累积句式为q2,种子句式q1和累积句式q2的语义特征向量分别为
Figure BDA0002339146040000091
其中
Figure BDA0002339146040000092
表示向量
Figure BDA0002339146040000093
的第一维,n为向量
Figure BDA0002339146040000094
的维度。
将语义特征向量相似度设定为向量
Figure BDA0002339146040000095
的点积与向量
Figure BDA0002339146040000096
两者的模的商,由此得到如下公式:
Figure BDA0002339146040000097
式中,(Sq1,q2)为语义特征向量相似度,
Figure BDA0002339146040000099
Figure BDA00023391460400000910
的点积,
Figure BDA00023391460400000911
Figure BDA00023391460400000912
的模,
Figure BDA00023391460400000913
Figure BDA00023391460400000914
的模。
基于上述任一实施例,步骤1212具体包括:基于种子句式与任一累积句式的语义关键信息中的操作类信息,确定种子句式与该累积句式的操作类信息相似度;基于种子句式与该累积句式的语义关键信息中的业务类信息,确定种子句式与该累积句式的业务类信息相似度;基于种子句式与该累积句式的操作类信息相似度和业务类信息相似度,确定种子句式和该累积句式的语义关键信息相似度。
具体地,语义关键信息包括操作类信息和业务类信息,其中操作类信息为句式文本中包含的操作类型的实体,业务类信息为句式文本中包含的业务类型的实体,例如“帮我看下我的***账单”对应的语义关键信息中,操作类信息包括“查询”,业务类信息包括“***”和“账单”。
针对于两个句式中不同类型的实体,需要分别计算各自的相似度:针对种子句式的操作类信息,以及累积句式的操作类信息,计算两者的相似度,得到操作类信息相似度;针对种子句式的业务类信息,以及累积句式的业务类信息,计算两者的相似度,得到业务类信息相似度。随后,综合操作类信息相似度和业务类信息相似度,确定语义关键信息相似度。例如,可以将操作类信息相似度和业务类信息相似度中较低的相似度作为语义关键信息相似度,或者根据预先设定的权重对操作类信息相似度和业务类信息相似度加权求和,得到语义关键信息相似度。
本发明实施例提供的方法,通过分别计算操作类信息相似度和业务类信息相似度,得到更加准确的语义关键信息相似度,以提高累积句式筛选的准确性。
基于上述任一实施例,步骤1212中,对于语义关键信息相似度的计算,可以通过如下方法实现:
假设种子句式为q1,任一累积句式为q2,种子句式q1和累积句式q2的语义关键信息分别K1={K11,K12}和K2={K21,K22},其中,K11和K12分别为种子句式q1的操作类信息和业务类信息,K21和K22分别为累积句式q2的操作类信息和业务类信息。
基于种子句式q1和累积句式q2的操作类信息K11和K21,可以得到操作类信息相似度M1如下式所示:
Figure BDA0002339146040000101
式中,Cover(K11,K21)表示种子句式q1和累积句式q2的操作类信息中重合的实体个数,Count(K11,K21)表示种子句式q1和累积句式q2中操作类信息的实体总数。
基于种子句式q1和累积句式q2的业务类信息K12和K22,得到业务类信息相似度M2如下式所示:
Figure BDA0002339146040000102
式中,over(K12,K22)表示种子句式q1和累积句式q2的业务类信息中重合的实体个数,Count(K12,K22)表示种子句式q1和累积句式q2中业务类信息的实体总数。
在得到操作类信息相似度M1和业务类信息相似度M2后,可以对操作类信息相似度M1和业务类信息相似度M2进行加权求和,得到语义关键信息相似度M(q1,q2)如下式所示:
M(q1,q2)=w*M1+(1-w)*M2
式中,w即M1对应的权重,(1-w)即M2对应的权重。
基于上述任一实施例,步骤1213具体包括:若种子句式与任一累积句式的语义特征向量相似度处于预设向量相似度区间内,且种子句式与该累积句式的语义关键信息相似度大于等于预设信息相似度阈值,则将该累积句式作为候选句式。
具体地,预设向量相似度区间是针对语义特征向量相似度设置的阈值区间,若语义特征向量相似度大于预设向量相似度区间的上限,则种子句式与该累积句式过于相似,将累积句式应用于该知识点的扩充,对于知识库质量的提升效果欠佳,若语义特征向量相似度小于预设向量相似度区间的下限,则种子句式与该累积句式的语义基本不相关,该累积句式显然不对应于该知识点的业务范围,仅在语义特征向量相似度处于预设向量相似度区间内,即语义特征向量相似度小于等于预设向量相似度区间的上限且大于等于预设向量相似度区间的下限时,累积句式既能够对应于该知识点的业务范围,也能够为知识库质量带来较佳的提升效果。
预设信息相似度阈值是针对语义关键信息相似度设置的阈值,若语义关键信息相似度大于等于预设信息相似度阈值,则累积句式与种子句式语义较为相似,否则确定累积句式与种子句式的语义基本不相关。
将语义特征向量相似度与语义关键信息相似度相结合,当语义特征向量相似度处于预设向量相似度区间内,且语义关键信息相似度大于等于预设信息相似度阈值时,确认累积句式作为候选句式。
需要说明的是,本发明实施例中的预设向量相似度区间与预设信息相似度阈值可以根据需要获取的候选句式的数量进行调整,例如当完成一次知识库扩充后,仍然存在部分知识点未得到相应的扩充,可以扩大这一部分知识点所对应的预设向量相似度区间,并减小这一部分知识点所对应的预设信息相似度阈值,以便于增加该部分知识点对应的候选句式的数量。
本发明实施例提供的方法,通过语义特征向量相似度与语义关键信息相似度进行累积句式筛选,能够有效保证后续用于知识库扩充的候选句式与种子句式的相关性,以及候选句式表达方式的多样性,从而提升知识库的扩充质量。
通常,句式积累是以领域为单位执行的。单一领域内一般包含了多个厂商,不同厂商的具体业务之间存在差异,由此导致一些句式本质意图相同,但是存在具体业务名词上的区别。如果直接将此类句式应用于知识库的扩充,可能会导致知识库内存在无效句式。基于上述任一实施例,图4为本发明实施例提供的基于业务知识图谱路径的知识点扩充方法的流程示意图,如图4所示,步骤122具体包括:
步骤1221,确定种子句式和任一候选句式在对应领域的业务知识图谱中的路径之间的路径相似度。
具体地,路径相似度用于衡量种子句式在对应领域的业务知识图谱中的路径与任一候选句式在同一领域的业务知识图谱中的路径的相似程度,路径相似度越高,则种子句式和该累积句式的关键信息实体以及关系之间的相似度越高,该累积句式与种子句式对应于同一知识点的概率越高。
步骤1222,若路径相似度大于预设路径相似度阈值,且种子句式和该候选句式中的操作类信息相同,则将该候选句式中的业务类信息替换为种子句式中的业务类信息。
此处,预设路径相似度阈值是针对路径相似度预先设定的阈值,若路径相似度大于预设路径相似度阈值,且确定两条路径的相似程度较高。在此条件下,如果种子句式和该候选句式中的操作类信息相同,而种子句式与该候选句式中的业务类信息不同时,可以直接将候选句式中的业务类信息替换为种子句式中的业务类信息,从而避免将业务类信息不属于当前知识库所对应的业务范围的候选句式直接添加至知识库,导致无效复用的问题。
步骤1223,将替换后的该候选句式添加至该知识点。
具体地,在完成业务类信息的替换后,将候选句式添加至种子句式对应的知识点,即可完成该候选句式的复用,以实现知识库的扩充。
本发明实施例提供的方法,通过业务类信息替换,确保添加至知识库的候选句式的业务类信息属于当前知识库所对应的业务范围,从而避免了无效复用的问题,增加了知识库的丰富度。
基于上述任一实施例,步骤1221具体包括:基于对应领域的业务知识图谱,以及种子句式的语义关键信息,确定种子句式在对应领域的业务知识图谱中的路径;基于对应领域的业务知识图谱,以及任一候选句式的语义关键信息,确定该候选句式在对应领域的业务知识图谱中的路径;基于种子句式和该候选句式在对应领域的业务知识图谱中的路径,确定路径相似度。
具体地,种子句式的语义关键信息和候选句式的语义关键信息,均可以通过对句式文本进行实体识别得到。在已知对应领域的业务知识图谱的基础上,可以将语义关键信息中的各个关键信息实体与业务知识图谱中的各个节点进行对应匹配,进而得到句式在业务知识图谱中的路径。
例如,种子句式q1为“我想查下我的***的消费记录”,候选句式q2为“帮我看下我银行卡的账单”,q1的语义关键信息K1={查询,***,账单},q2的语义关键信息K2={查询,银行卡,账单},结合对应领域的业务知识图谱,可以得到种子句式q1和候选句式q2分别在业务知识图谱中的路径。图5为本发明实施例提供的业务知识图谱路径示意图,图5中,虚线对应于q1的路径,点划线对应于q2的路径。参见图5可知,q1和q2的路径差别仅在于具体业务(q1对应***,q2对应银行卡),q1和q2的真实意图原则上都是查询账单。
在q1和q2的路径相似度大于预设路径相似度阈值,且q1和q2的操作类信息均相同的情况下,可以将q2中的“银行卡”替换为“***”,替换后的候选句式q2即为“帮我看下我***的账单”。至此实现了在进行挑选的语句当中替换了对应词后语句输出,大大降低了由于人工后期确认判断会出现不准确的现象发生。最终挑选的语句都将关键词A替换成了输入来决定的关键词B;例如将“帮我看下我银行卡的账单”替换成“帮我看下我***的账单”。从而避免将业务类信息不属于当前知识库所对应的业务范围的候选句式直接添加至知识库,导致无效复用的问题。
基于上述任一实施例,图6为本发明另一实施例提供的知识库扩充方法的流程示意图,如图6所示,该方法包括:
步骤610,确定种子句式和累积句式:
针对任一知识库,确定该知识库中需要进行扩充的知识点,并将该知识点的标准问和扩展问中的任一句式作为种子句式,将该知识库所对应的领域预先累积的问题句式作为累积句式。
步骤620,语义特征向量的计算和度量:
基于LSTM、Bert等语义度量模型,确定种子句式和任一累积句式的语义特征向量,并计算两者之间的相似度,作为语义特征向量相似度。
若种子句式与任一累积句式的语义特征向量相似度处于预设向量相似度区间内,则保留该累积句式,否则,删除该累积句式。
步骤630,语义关键信息的计算和度量:
基于BERT-ATT、BERT-CRF等实体抽取模型,确定种子句式和任一累积句式的语义关键信息,并计算两者之间的相似度,作为语义关键信息相似度。
若种子句式与任一累积句式的语义关键信息相似度大于等于预设信息相似度阈值,则将该累积句式作为候选句式,否则,删除该累积句式。
经过步骤620和步骤630的两轮筛选,有效保证了候选句式的语义相关性和表达方式的多样性。
步骤640,基于路径的业务类信息替换:
基于对应领域的业务知识图谱,以及种子句式和任一候选句式的语义关键信息,分别建立种子句式和该候选句式在对应领域的业务知识图谱中的路径。
随后,计算上述两个路径的路径相似度,如果路径相似度大于预设路径相似度阈值,且种子句式和该候选句式中的操作类信息相同,则将该候选句式中的业务类信息替换为种子句式中的业务类信息,从而避免将业务类信息不属于当前知识库所对应的业务范围的候选句式直接添加至知识库,导致无效复用的问题。
步骤650,知识点扩充:
将完成业务类信息替换的候选句式添加到该知识点,即可完成该候选句式的复用,实现知识库的扩充。
基于上述任一实施例,图7为本发明实施例提供的知识库扩充装置的结构示意图,如图7所示,该装置包括句式确定单元710和句式扩充单元720;
其中,句式确定单元710用于确定知识库中任一知识点对应的种子句式,以及所述知识库对应领域的若干个累积句式;
句式扩充单元720用于基于所述种子句式与每一累积句式的语义信息,和/或所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径,对所述任一知识点进行扩充。
本发明实施例提供的装置,基于种子句式与每一累积句式的语义信息和/或在对应领域的业务知识图谱中的路径,对知识库进行自动扩充,有效节约了人力成本和时间成本,且能够解绑不同意图的句式,避免标准问之间的歧义,提高扩充质量和扩充效果。
基于上述任一实施例,句式扩充单元720包括:
语义筛选单元,用于基于所述种子句式与每一累积句式的语义信息,从所述若干个累积句式中选取若干个候选句式;
路径扩充单元,用于基于所述种子句式与每一候选句式在对应领域的业务知识图谱中的路径,以及所述种子句式与每一候选句式的业务类信息,对所述任一知识点进行扩充。
基于上述任一实施例,语义筛选单元包括:
向量相似度确定子单元,用于基于所述种子句式与任一累积句式的语义信息中的语义特征向量,确定所述种子句式与所述任一累积句式的语义特征向量相似度;
和/或,信息相似度确定子单元,用于基于所述种子句式与所述任一累积句式的语义信息中的语义关键信息,确定所述种子句式与所述任一累积句式的语义关键信息相似度;
筛选子单元,用于基于所述种子句式与每一累积句式的语义特征向量相似度和/或语义关键信息相似度,从所述若干个累积句式中选取若干个候选句式。
基于上述任一实施例,信息相似度确定子单元包括:
操作类相似度模块,用于基于所述种子句式与所述任一累积句式的语义关键信息中的操作类信息,确定所述种子句式与所述任一累积句式的操作类信息相似度;
业务类相似度模块,用于基于所述种子句式与所述任一累积句式的语义关键信息中的业务类信息,确定所述种子句式与所述任一累积句式的业务类信息相似度;
语义相似度模块,用于基于所述种子句式与所述任一累积句式的操作类信息相似度和业务类信息相似度,确定所述种子句式与所述任一累积句式的语义关键信息相似度。
基于上述任一实施例,筛选子单元具体用于:
若所述种子句式与任一累积句式的语义特征向量相似度处于预设向量相似度区间内,且所述种子句式与所述任一累积句式的语义关键信息相似度大于等于预设信息相似度阈值,则将所述任一累积句式作为所述候选句式。
基于上述任一实施例,路径扩充单元包括:
路径相似度确定子单元,用于确定所述种子句式与任一候选句式在对应领域的业务知识图谱中的路径之间的路径相似度;
替换子单元,用于若所述路径相似度大于预设路径相似度阈值,且所述种子句式与所述任一候选句式中的操作类信息相同,则将所述任一候选句式中的业务类信息替换为所述种子句式中的业务类信息;
扩充子单元,用于将替换后的所述任一候选句式添加至所述任一知识点。
基于上述任一实施例,路径相似度确定子单元具体用于:
基于所述对应领域的业务知识图谱,以及所述种子句式的语义关键信息,确定所述种子句式在对应领域的业务知识图谱中的路径;
基于所述对应领域的业务知识图谱,以及任一候选句式的语义关键信息,确定所述任一候选句式在对应领域的业务知识图谱中的路径;
基于所述种子句式和所述任一候选句式在对应领域的业务知识图谱中的路径,确定所述路径相似度。
图8为本发明实施例提供的电子设备的结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑命令,以执行如下方法:确定知识库中任一知识点对应的种子句式,以及所述知识库对应领域的若干个累积句式;基于所述种子句式与每一累积句式的语义信息,和/或所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径,对所述任一知识点进行扩充。
此外,上述的存储器830中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:确定知识库中任一知识点对应的种子句式,以及所述知识库对应领域的若干个累积句式;基于所述种子句式与每一累积句式的语义信息,和/或所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径,对所述任一知识点进行扩充。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种知识库扩充方法,其特征在于,包括:
确定知识库中任一知识点对应的种子句式,以及所述知识库对应领域的若干个累积句式;
基于所述种子句式与每一累积句式的语义信息,和所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径之间的相似度,从所有累积句式中筛选出用于实现对应知识点扩充的累积句式,对所述任一知识点进行扩充,所述路径反映句式在所述业务知识图谱中的关键信息实体及其关系。
2.根据权利要求1所述的知识库扩充方法,其特征在于,所述基于所述种子句式与每一累积句式的语义信息,和所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径,对所述任一知识点进行扩充,具体包括:
基于所述种子句式与每一累积句式的语义信息,从所述若干个累积句式中选取若干个候选句式;
基于所述种子句式与每一候选句式在对应领域的业务知识图谱中的路径,以及所述种子句式与每一候选句式的业务类信息,对所述任一知识点进行扩充。
3.根据权利要求2所述的知识库扩充方法,其特征在于,所述基于所述种子句式与每一累积句式的语义信息,从所述若干个累积句式中选取若干个候选句式,具体包括:
基于所述种子句式与任一累积句式的语义信息中的语义特征向量,确定所述种子句式与所述任一累积句式的语义特征向量相似度;
和/或,基于所述种子句式与所述任一累积句式的语义信息中的语义关键信息,确定所述种子句式与所述任一累积句式的语义关键信息相似度,所述语义关键信息用于表示句式文本中包含的关键信息实体;
基于所述种子句式与每一累积句式的语义特征向量相似度和/或语义关键信息相似度,从所述若干个累积句式中选取若干个候选句式。
4.根据权利要求3所述的知识库扩充方法,其特征在于,所述基于所述种子句式与所述任一累积句式的语义信息中的语义关键信息,确定所述种子句式与所述任一累积句式的语义关键信息相似度,具体包括:
基于所述种子句式与所述任一累积句式的语义关键信息中的操作类信息,确定所述种子句式与所述任一累积句式的操作类信息相似度,所述操作类信息为句式文本中包含的操作类型的实体;
基于所述种子句式与所述任一累积句式的语义关键信息中的业务类信息,确定所述种子句式与所述任一累积句式的业务类信息相似度;
基于所述种子句式与所述任一累积句式的操作类信息相似度和业务类信息相似度,确定所述种子句式与所述任一累积句式的语义关键信息相似度。
5.根据权利要求3所述的知识库扩充方法,其特征在于,所述基于所述种子句式与每一累积句式的语义特征向量相似度和语义关键信息相似度,从所述若干个累积句式中选取若干个候选句式,具体包括:
若所述种子句式与任一累积句式的语义特征向量相似度处于预设向量相似度区间内,且所述种子句式与所述任一累积句式的语义关键信息相似度大于等于预设信息相似度阈值,则将所述任一累积句式作为所述候选句式。
6.根据权利要求2所述的知识库扩充方法,其特征在于,所述基于所述种子句式与每一候选句式在对应领域的业务知识图谱中的路径,以及所述种子句式与每一候选句式的业务类信息,对所述任一知识点进行扩充,具体包括:
确定所述种子句式与任一候选句式在对应领域的业务知识图谱中的路径之间的路径相似度;
若所述路径相似度大于预设路径相似度阈值,且所述种子句式与所述任一候选句式中的操作类信息相同,则将所述任一候选句式中的业务类信息替换为所述种子句式中的业务类信息,所述操作类信息为句式文本中包含的操作类型的实体;
将替换后的所述任一候选句式添加至所述任一知识点。
7.根据权利要求6所述的知识库扩充方法,其特征在于,所述确定所述种子句式与任一候选句式在对应领域的业务知识图谱中的路径之间的路径相似度,具体包括:
基于所述对应领域的业务知识图谱,以及所述种子句式的语义关键信息,确定所述种子句式在对应领域的业务知识图谱中的路径;
基于所述对应领域的业务知识图谱,以及任一候选句式的语义关键信息,确定所述任一候选句式在对应领域的业务知识图谱中的路径;
基于所述种子句式和所述任一候选句式在对应领域的业务知识图谱中的路径,确定所述路径相似度。
8.一种知识库扩充装置,其特征在于,包括:
句式确定单元,用于确定知识库中任一知识点对应的种子句式,以及所述知识库对应领域的若干个累积句式;
句式扩充单元,用于基于所述种子句式与每一累积句式的语义信息,和所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径之间的相似度,从所有累积句式中筛选出用于实现对应知识点扩充的累积句式,对所述任一知识点进行扩充,所述路径反映句式在所述业务知识图谱中的关键信息实体及其关系。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的知识库扩充方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的知识库扩充方法的步骤。
CN201911368840.2A 2019-12-26 2019-12-26 知识库扩充方法、装置、电子设备和存储介质 Active CN111125379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911368840.2A CN111125379B (zh) 2019-12-26 2019-12-26 知识库扩充方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911368840.2A CN111125379B (zh) 2019-12-26 2019-12-26 知识库扩充方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111125379A CN111125379A (zh) 2020-05-08
CN111125379B true CN111125379B (zh) 2022-12-06

Family

ID=70503369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911368840.2A Active CN111125379B (zh) 2019-12-26 2019-12-26 知识库扩充方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111125379B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158688B (zh) * 2021-05-11 2023-12-01 科大讯飞股份有限公司 一种领域知识库构建方法、装置、设备及存储介质
CN117743519A (zh) * 2022-09-13 2024-03-22 北京沃东天骏信息技术有限公司 问答知识库的优化方法及其装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295807A (zh) * 2016-08-23 2017-01-04 上海智臻智能网络科技股份有限公司 一种信息处理的方法及装置
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
WO2019024162A1 (zh) * 2017-08-04 2019-02-07 平安科技(深圳)有限公司 意图获取方法、电子装置及计算机可读存储介质
CN109800879A (zh) * 2018-12-21 2019-05-24 科大讯飞股份有限公司 知识库构建方法和装置
CN110309509A (zh) * 2019-06-28 2019-10-08 神思电子技术股份有限公司 一种语义知识库构建方法
CN110413755A (zh) * 2019-07-25 2019-11-05 腾讯科技(深圳)有限公司 一种问答库的扩充方法、装置及服务器、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229195B2 (en) * 2017-06-22 2019-03-12 International Business Machines Corporation Relation extraction using co-training with distant supervision

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295807A (zh) * 2016-08-23 2017-01-04 上海智臻智能网络科技股份有限公司 一种信息处理的方法及装置
CN108764480A (zh) * 2016-08-23 2018-11-06 上海智臻智能网络科技股份有限公司 一种信息处理的***
WO2019024162A1 (zh) * 2017-08-04 2019-02-07 平安科技(深圳)有限公司 意图获取方法、电子装置及计算机可读存储介质
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN109800879A (zh) * 2018-12-21 2019-05-24 科大讯飞股份有限公司 知识库构建方法和装置
CN110309509A (zh) * 2019-06-28 2019-10-08 神思电子技术股份有限公司 一种语义知识库构建方法
CN110413755A (zh) * 2019-07-25 2019-11-05 腾讯科技(深圳)有限公司 一种问答库的扩充方法、装置及服务器、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识图谱的联合作战态势知识表示方法;王保魁等;《***仿真学报》;20191130;第31卷(第11期);第2228-2237页 *

Also Published As

Publication number Publication date
CN111125379A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN106776544B (zh) 人物关系识别方法及装置和分词方法
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
CN106776936B (zh) 智能交互方法和***
CN106601237B (zh) 交互式语音应答***及其语音识别方法
CN111708869B (zh) 人机对话的处理方法及装置
WO2021031825A1 (zh) 网络欺诈识别方法、装置、计算机装置及存储介质
CN109241528A (zh) 一种量刑结果预测方法、装置、设备及存储介质
CN109241525B (zh) 关键词的提取方法、装置和***
CN111008272A (zh) 基于知识图谱的问答方法、装置、计算机设备及存储介质
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN111160041B (zh) 语义理解方法、装置、电子设备和存储介质
CN108959474B (zh) 实体关系提取方法
CN111125379B (zh) 知识库扩充方法、装置、电子设备和存储介质
CN110517698B (zh) 一种声纹模型的确定方法、装置、设备及存储介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN111339248A (zh) 数据属性填充方法、装置、设备及计算机可读存储介质
CN114328878A (zh) 一种信息回复方法、装置、介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
CN114239805A (zh) 跨模态检索神经网络及训练方法、装置、电子设备、介质
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN112562736A (zh) 一种语音数据集质量评估方法和装置
CN111581347A (zh) 语句相似度匹配方法及装置
CN116738956A (zh) 一种提示模板生成方法、装置、计算机设备及存储介质
CN113032251B (zh) 应用程序服务质量的确定方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant