CN110263180A - 意图知识图谱生成方法、意图识别方法及装置 - Google Patents

意图知识图谱生成方法、意图识别方法及装置 Download PDF

Info

Publication number
CN110263180A
CN110263180A CN201910511702.9A CN201910511702A CN110263180A CN 110263180 A CN110263180 A CN 110263180A CN 201910511702 A CN201910511702 A CN 201910511702A CN 110263180 A CN110263180 A CN 110263180A
Authority
CN
China
Prior art keywords
intention
term
mapping relations
entity
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910511702.9A
Other languages
English (en)
Other versions
CN110263180B (zh
Inventor
李然
卢佳俊
王灿
朱嘉琪
任可欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910511702.9A priority Critical patent/CN110263180B/zh
Publication of CN110263180A publication Critical patent/CN110263180A/zh
Application granted granted Critical
Publication of CN110263180B publication Critical patent/CN110263180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种意图知识图谱生成方法、意图识别方法及装置,根据用户历史检索信息,识别与检索词对应的实体和意图,建立检索词和实体之间的第一映射关系,以及检索词和意图之间的第二映射关系,将实体与预设的概念体系中底层的概念关联,并根据资源数据的内容信息和识别出的意图,建立所述资源数据与所述第二映射关系的链接,从而生成意图知识图谱。在进行意图识别时,对于用户输入的实体类检索词,先确定对应的实体,再确定该实体下所有的检索词,从中选择与用户输入的检索词最接近的检索词,并确定相应的第二映射关系,由此获取相关的资源数据。本公开还提供一种服务器和计算机可读介质。

Description

意图知识图谱生成方法、意图识别方法及装置
技术领域
本公开涉及知识图谱技术领域,具体涉及一种意图知识图谱 生成方法及装置、意图识别方法及装置、服务器和计算机可读介 质。
背景技术
在传统的搜索场景中,搜索引擎会根据用户输入的检索词 (query),为用户返回相关的检索结果。传统的搜索场景是基于 倒排索引和字符串匹配的逻辑为用户返回相关网页或信息,例如: 用户检索query=“茶杯犬多少钱一只”,即可根据上述方法,匹 配“茶杯犬”及“多少钱”相关的页面给用户。
但对于实体类检索(即用户的检索词只有一个实体词,而没有 前后缀的辅助信息),检索词可能不会包含用户的检索意图,例如 用户检索“茶杯犬”,这种场景下搜索引擎无法通过检索词字面 意图获得用户意图,即不知道用户具体想了解茶杯犬哪方面的信息,也就无法准确返回与用户潜在意图相关的结果。因此如何准 确识别用户实体类检索词的潜在检索意图,并将其最关注的信息 展现出来,是搜索产品在上述场景下满足用户需求的关键。
对用户搜索意图的识别,现有技术方案分如下两大类:
第一类:直接从检索词中解析出用户意图,主要包括如下两 种方案:
(1)利用规则模板,从在线或历史检索中解析用户意图,例 如query=北京的天气,可利用类似[city][weather]的模板来匹配 query,从而解析出其中的用户意图。这种方案一方面只适用于特 定场景的、描述比较规范的query;另一方面,一旦检索词的表达方式出现变化,就需要重新定义模板来适配。例如:对检索词为 “北京的天气”可以解析,而检索词为“天气北京”就需要新定 义模板,这样,模板的维护的管理复杂。
(2)利用机器学习模型或深度学习模型从检索词中训练模型 识别用户意图。该方案本质上仍然强依赖于检索词的表达,即检 索词越完整、越是包含用户意图,模型学习到的结果才能越好。 该方案一般用于对话场景,因为对话场景下用户的表达普遍比较 完整,而在搜索场景下用户的检索词普遍简单、所以该方案不适 用。
第二类:先构建意图词典,然后通过检索词与意图词典的匹 配度或相似度来识别意图。这类方案的关键在于词典本身的效果, 而意图词典的构建一般有以下几种方案:
(1)根据历史检索词集合,通过模型训练来得到不同类别组 成的意图词典;(2)同样根据历史检索词集合,进行聚类得到基 于类别的意图词典;(3)根据检索结果页中网页的点击来分类或 训练得到意图分类模型。
利用意图词典识别意图,获取到的意图是基于类别的,而不 是基于实体粒度的;而且获取到的意图是扁平化的,即没有形成 有语义的意图体系,也无法得知获取到的意图究竟是什么意思。
第三类:用知识图谱的方法来整合意图,建立意图知识图谱。
现有的意图知识图谱,同样是基于类别粒度的,比如:李白 和杜甫都是人物,目前只针对“人物”这一粒度来整合意图图谱, 而不会细化到李白或杜甫这一实体粒度来整理其意图,更不会细 化到针对李白的各种检索表达的层面(比如检索词为李太白、诗 仙等),但实际上有相当多的用户意图是与实体及不同的检索表 达而有所区别的。
发明内容
本公开针对现有技术中存在的上述不足,提供一种意图知识 图谱生成方法及装置、意图识别方法及装置、服务器和计算机可 读介质。
第一方面,本公开实施例提供一种意图知识图谱生成方法, 所述方法包括:
获取用户历史检索信息,并根据所述用户历史检索信息,识 别与检索词对应的实体和意图;
建立检索词和实体之间的第一映射关系,以及检索词和意图 之间的第二映射关系;
将所述实体与预设的概念体系中底层的概念关联,其中,所 述概念体系至少包括两层结构;
获取资源数据的内容信息,并根据所述内容信息和识别出的 意图,建立所述资源数据与所述第二映射关系的链接,以生成意 图知识图谱。
进一步的,在所述识别与检索词对应的意图之后,所述方法 还包括:
若相同的意图对应多种意图表达,则建立同一意图与相应的 各意图表达之间的第三映射关系。
优选的,所述根据所述内容信息和识别出的意图,建立所述 资源数据与所述第二映射关系的链接,具体包括:
将所述内容信息与识别出的意图相匹配,若匹配,则建立所 述资源数据与所述第二映射关系的链接;若不匹配,则根据所述 第三映射关系确定相应的意图表达,并将所述内容信息与所述意 图表达相匹配,若所述内容信息与至少一个所述意图表达匹配, 则建立所述资源数据与所述第二映射关系的链接;
所述在建立所述资源数据与所述第二映射关系的链接之后, 所述方法还包括:根据匹配程度为所述资源数据设置第一权重。
进一步的,在所述第一映射关系中,一个实体对应至少一个 检索词;所述方法还包括:
若一个实体对应多个检索词,则分别确定该实体的每个检索 词对应的意图;
根据所述用户历史检索信息确定所述意图的重要性,并根据 所述意图的重要性,为相应的第二映射关系设置第二权重。
进一步的,在生成意图知识图谱之后,所述方法还包括扩展 所述意图知识图谱的步骤,所述扩展所述意图知识图谱的步骤包 括:
判断属于最底层同一概念下的不同实体对应的检索词之间是 否存在非共有的意图;
若存在,则根据所述非共有的意图,在所述意图知识图谱中 分别补充所述属于最底层同一概念下的不同实体对应的意图;
建立已补充意图的实体下的检索词与补充的意图之间的第二 映射关系;
根据所建立的第二映射关系获取相应的资源数据,并建立获 取到的资源数据与所建立的第二映射关系的链接。
另一方面,本公开实施例提供一种意图识别方法,所述方法 包括:
所述方法应用于意图知识图谱,所述意图知识图谱包括:检 索词和实体之间的第一映射关系、检索词和意图之间的第二映射 关系、以及资源数据与第二映射关系的链接,所述方法包括:
判断用户输入的检索词是否为实体类检索词,若是,则根据 所述检索词和所述第一映射关系,确定相应的实体;
根据所述第一映射关系,确定所述实体对应的检索词,并从 中确定与所述用户输入的检索词最接近的检索词;
确定与所述用户输入的检索词最接近的检索词对应的第二映 射关系;
根据确定出的第二映射关系和所述资源数据与第二映射关系 的链接,获取并返回相应的资源数据。
进一步的,所述意图知识图谱中还包括资源数据的第一权重;
所述返回相应的资源数据,具体包括:根据所述意图知识图 谱中的第一权重,返回相应的资源数据。
优选的,所述第二映射关系具有第二权重;
所述根据确定出的第二映射关系和所述资源数据与第二映射 关系的链接,获取并返回相应的资源数据,具体包括:
若确定出的第二映射关系为多个,则获取各个第二映射关系 对应的第二权重;
根据所述各个第二映射关系对应的第二权重,获取并返回相 应的资源数据。
进一步的,所述意图识别方法还包括:
若无法确定与所述用户输入的检索词最接近的检索词对应的 第二映射关系,则确定其他检索词所对应的第二映射关系,所述 其他检索词为,确定出的所述实体对应的检索词中除与所述用户 输入的检索词最接近的检索词之外的检索词。
又一方面,本公开实施例提供一种意图知识图谱生成装置, 所述装置包括:包括:第一获取模块、识别模块、建立模块、关 联模块、第二获取模块和链接模块;
所述第一获取模块用于,获取用户历史检索信息;
所述识别模块用于,根据所述用户历史检索信息,识别与检 索词对应的实体和意图;
所述建立模块用于,建立检索词和实体之间的第一映射关系, 以及检索词和意图之间的第二映射关系;
所述关联模块用于,将所述实体与预设的概念体系中底层的 概念关联,其中,所述概念体系至少包括两层结构;
所述第二获取模块用于,获取资源数据的内容信息;
所述链接模块用于,根据所述内容信息和识别出的意图,建 立所述资源数据与所述第二映射关系的链接,以生成意图知识图 谱。
进一步的,所述建立模块还用于,在所述识别模块识别出与 检索词对应的意图之后,当相同的意图对应多种意图表达时,建 立同一意图与相应的各意图表达之间的第三映射关系。
优选的,所述链接模块具体用于,将所述内容信息与识别出 的意图相匹配,当所述内容信息与识别出的意图匹配时,建立所 述资源数据与所述第二映射关系的链接;当所述内容信息与识别 出的意图不匹配时,根据所述第三映射关系确定相应的意图表达, 并将所述内容信息与所述意图表达相匹配,当所述内容信息与至 少一个所述意图表达匹配时,建立所述资源数据与所述第二映射 关系的链接;
所述意图知识图谱生成装置还包括第一设置模块,所述第一 设置模块用于,当所述内容信息与识别出的意图匹配时,根据匹 配程度为所述资源数据设置第一权重。
优选的,在所述第一映射关系中,一个实体对应至少一个检 索词;所述意图知识图谱生成装置还包括第二设置模块,所述第 二设置模块包括第二确定单元、处理单元和设置单元;
所述第二确定单元用于,当一个实体对应多个检索词时,分 别确定该实体的每个检索词对应的意图;
所述处理单元用于,根据所述用户历史检索信息确定所述意 图的重要性;
所述设置单元用于,根据所述意图的重要性,为相应的第二 映射关系设置第二权重。
进一步的,所述意图知识图谱生成装置还包括扩展模块,所 述扩展模块包括第二判断单元、意图补充单元、第二映射关系补 充单元、资源获取单元和链接补充单元;
所述第二判断单元用于,判断属于最底层同一概念下的不同 实体对应的检索词之间是否存在非共有的意图;
所述意图补充单元用于,当所述第二判断单元判断出属于最 底层同一概念下的不同实体对应的检索词之间存在非共有的意图 时,根据所述非共有的意图,在所述意图知识图谱中分别补充所 述属于最底层同一概念下的不同实体对应的意图;
所述第二映射关系补充单元用于,建立已补充意图的实体下 的检索词与补充的意图之间的第二映射关系;
所述资源获取单元用于,根据所建立的第二映射关系获取相 应的资源数据;
所述链接补充单元用于,建立获取到的资源数据与所建立的 第二映射关系的链接。
再一方面,本公开实施例还提供一种意图识别装置,应用于 意图知识图谱,所述意图知识图谱包括:检索词和实体之间的第 一映射关系、检索词和意图之间的第二映射关系、资源数据与第 二映射关系的链接;所述意图识别装置包括:判断模块、确定模 块和资源获取模块;
所述判断模块用于,判断用户输入的检索词是否为实体类检 索词;
所述确定模块用于,当所述判断模块判断出用户输入的检索 词为实体类检索词时,根据所述检索词和所述第一映射关系,确 定相应的实体;根据所述第一映射关系,确定所述实体对应的检 索词,并从中确定与所述用户输入的检索词最接近的检索词;确 定与所述用户输入的检索词最接近的检索词对应的第二映射关 系;
所述资源获取模块用于,根据确定出的第二映射关系和所述 资源数据与第二映射关系的链接,获取并返回相应的资源数据。
进一步的,所述意图知识图谱中还包括资源数据的第一权重;
所述资源获取模块具体用于,根据所述意图知识图谱中的第 一权重,返回相应的资源数据。
优选的,所述第二映射关系具有第二权重;
所述资源获取模块具体用于,当确定出的第二映射关系为多 个时,获取各个第二映射关系对应的第二权重;根据所述各个第 二映射关系对应的第二权重,获取并返回相应的资源数据。
进一步的,所述确定模块还用于,当无法确定与所述用户输 入的检索词最接近的检索词对应的第二映射关系时,确定其他检 索词所对应的第二映射关系,所述其他检索词为,确定出的所述 实体对应的检索词中除与所述用户输入的检索词最接近的检索词 之外的检索词。
本公开又一实施例还提供一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使 得所述一个或多个处理器实现如前所述的意图知识图谱生成方法 或者意图识别方法。
本公开另一实施例还提供一种计算机可读介质,其上存储有 计算机程序,其中,所述程序被执行时实现如前所述的意图知识 图谱生成方法或者意图识别方法。
本公开的实施例,根据用户历史检索信息,识别与检索词对 应的实体和意图,建立检索词和实体之间的第一映射关系,以及 检索词和意图之间的第二映射关系,将实体与预设的概念体系中 底层的概念关联,并根据资源数据的内容信息和识别出的意图, 建立所述资源数据与所述第二映射关系的链接,从而生成意图知 识图谱。在进行意图识别时,对于用户输入的实体类检索词,先 确定对应的实体,再确定该实体下所有的检索词,从中选择与用 户输入的检索词最接近的检索词,并确定相应的第二映射关系, 由此获取相关的资源数据。
本公开不是直接从检索词中解析用户意图,也不是从意图词 典中匹配意图,而是通过用户检索的实体类的检索词,从实体粒 度的意图知识图谱中去获取用户对实体的意图。相对现有的意图 识别方法,本公开获取到的意图不是基于类别粒度的,而是可以 细化到实体粒度,因此意图的表达更加精确。相对现有的聚类等 方案,本公开从意图知识图谱中精确链接到实体,从而得到实体 的意图集合,与此同时,还能知道该意图和实体的其他意图、实 体上位概念、实体下位子意图的语义关系等,因此获取到的意图 集合是语义上可解释的,其意图识别和满足的效果也更准确。
附图说明
图1为本公开实施例的意图知识图谱的结构示意图;
图2为本公开实施例的意图知识图谱生成方法流程图之一;
图3为本公开实施例的意图知识图谱生成方法流程图之二;
图4为本公开实施例的建立资源数据与第二映射关系的链接的流 程图;
图5为本公开实施例的设置第二权重的流程图;
图6为本公开实施例的意图知识图谱的扩展流程图;
图7为本公开实施例的意图识别方法流程图;
图8为本公开施例的意图知识图谱生成装置的结构示意图之一;
图9为本公开实施例的图知识图谱生成装置的结构示意图之二;
图10为本公开实施例的第二设置模块的结构示意图;
图11为本公开施例的扩展模块的结构示意图;
图12为本公开施例的意图识别装置的结构示意图。
具体实施方式
在下文中将参考附图更充分地描述示例实施例,但是所述示 例实施例可以以不同形式来体现且不应当被解释为限于本文阐述 的实施例。反之,提供这些实施例的目的在于使本公开透彻和完 整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条 目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本 公开。如本文所使用的,单数形式“一个”和“该”也意欲包括 复数形式,除非上下文另外清楚指出。还将理解的是,当本说明 书中使用术语“包括”和/或“由……制成”时,指定存在所述特 征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一 个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和 /或截面图进行描述。因此,可根据制造技术和/或容限来修改示例 图示。因此,实施例不限于附图中所示的实施例,而是包括基于 制造工艺而形成的配置的修改。因此,附图中例示的区具有示意 性属性,并且图中所示区的形状例示了元件的区的具体形状,但 并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术 语)的含义与本领域普通技术人员通常理解的含义相同。还将理 解,诸如那些在常用字典中限定的那些术语应当被解释为具有与 其在相关技术以及本公开的背景下的含义一致的含义,且将不解 释为具有理想化或过度形式上的含义,除非本文明确如此限定。
本公开涉及的专有名词解释如下:
实体(或称概念),是指现实世界中存在或曾经存在的实际 物质体或抽象概念,例如人物、物品、结构、产品、建筑、地点、 国家、组织、事件、艺术作品、科学技术、科学定理等。
知识图谱,是表示不同实体间的关系以及实体的属性的数据 库。在知识图谱中,以实体为节点;实体与实体之间,以及实体 与其对应的属性的值(属性-值,key-value)之间通过边相连,从 而构成结构化的、网络状的数据库。其中,实体与实体间的连接 (边)表示实体间的关系,如实体张三(人物)为实体李四(人 物)的父亲;而实体与其对应的属性值之间的连接(边)表示实 体的某个属性为某个值,如实体张三(人物)的身高属性的值为172厘米。
意图知识图谱,是指包含与检索词对应的意图的知识图谱, 可以用来识别用户的意图表达。
如图1所示,本公开的意图知识图谱包括5个层次,分别是: 概念层、实体层、检索词层、意图层和资源层。
实体层用来表示检索词对应的实体是什么,实体层由多个实 体构成,每个实体在意图知识图谱中具有唯一的ID(Identity,标 识)。图1所示的实体层包括“英国短毛猫”实体和“暹罗猫” 实体。
检索词层用来表示实体层中每个实体可能对应的检索词集 合,比如:实体“李白”的检索词可能是“李白”、“李太白”、 “诗仙”等。检索词层中包括多个检索词集合,每个检索词集合 与实体层中一个实体相对应,即一个检索词集合中的各个检索词 对应一个实体,每个检索词在意图知识图谱中具有唯一的ID。在 本公开中,将检索词和实体之间的映射关系定义为第一映射关系。
需要说明的是,从通常意义来说,实体和检索词之间可能会 是多对多的关系,比如对于实体唐朝诗人李白,用户检索李白时 所用的检索词可能是:李白、李太白、诗仙、唐代诗人李白等。 而一个检索词也可能对应多个实体,比如检索词=李白,其可能指 唐朝诗人李白,也可能指歌手李白。但在实体检索场景下,我们 做如下规定:一个检索词只能对应一个实体。当然检索词-实体对 应规则可以有多重选择,比如可以按照大多数人的检索习惯和行 为设置检索词-实体对应规则,例如,按照大部分用户的检索习惯, 用户输入检索词=李白,其目的就是检索唐朝诗人李白的实体。
在本公开中,我们规定了一个检索词只能对应一个实体,而 对应规则是按照大多数人的检索习惯和行为来决定的,所以在意 图知识图谱中,检索词和实体之间的第一映射关系也是按照大多 数人的检索习惯和行为建立起来的。因此拿上面的例子来说,检 索词“李白”在意图知识图谱中对应的就是“唐朝诗人李白”这 个实体(即第一映射关系),第一映射关系可以通过子图关联技 术实现。
在意图知识图谱中,通过设置检索词和实体之间的第一映射 关系,将检索词层与实体层相关联的目的在于:
第一,解决检索词的主义项不明确的问题。在现有技术方案 中,若检索词=李白,则可能会把用户检索唐朝诗人李白的意图, 和检索歌手李白的意图混杂到一起,无法区分,这样,返回给用 户的资源中可能既有与唐朝诗人李白相关的资源,又有与歌手李 白相关的资源。但是,利用本公开的意图知识图谱,就可以根据 子图关联技术,先找到检索词“李白”对应的“唐朝诗人李白” 这个实体,再进一步获取其相应的意图。
第二,对相同实体的意图进行共享。例如,实体=唐朝诗人李 白,其对应的检索词可以是:李太白、诗仙。假设在意图知识图 谱中,检索词=诗仙,没有对应的意图信息;而检索词=李太白, 其对应有意图“李白为什么叫李太白”。那么当用户输入的检索 词=诗仙时,就可以根据诗仙和李太白都对应“李白”这个实体, 从而将“李白为什么叫李太白”的这个意图返回给用户,从而起 到实体粒度下检索词之间意图互相共享的效果。
概念层是实体层的上位泛化和聚合,可以根据概念体系 (System of Concept)形成,概念体系至少包括两层结构。概念体 系是指根据概念的不同抽象程度和概念之间的关系排列而成的概 念***,由垂直和水平两个维度构成。垂直维度排列了因对事物 的抽象程度不同而形成的不同层次的概念,分别称为总括层次、 基本层次、类属层次等。如动物、宠物、宠物猫是一个从高到低 的垂直维度的结构。一个概念体系是由一组相关的概念构成的。 每个概念在概念体系中都占据一个确切的位置。概念层由多个概 念构成,每个概念在意图知识图谱中具有唯一的ID。
意图层是用户检索意图的集合,用于表示用户检索词对应的 真实意图,每个意图在意图知识图谱中具有唯一的ID。例如,检 索词=李白,其对应的实体是“唐朝诗人李白”,其意图可能是“李 白的著名诗词”等。在意图知识图谱中,意图是与检索词挂接的, 即检索词和意图之间形成第二映射关系。需要说明的是,一个实 体的名称也是一个检索词,例如检索词=李白本身就是“唐朝诗人 李白”这个实体的一种检索表达。需要说明的是,意图层中的每 个意图都可以对应多种意图表达。例如,对于“购买”意图,可 以有“多少钱一只”、“价格”等多种意图表达。
资源层用于记录满足检索词和意图之间的第二映射关系的资 源链接。资源数据包括文档数据和/或多媒体数据,文档是指利用 WORD,EXCEL等文字编辑软件产生的文件。资源数据存储在数 据库中,可以是一条简单的信息、一篇复杂的文章或视频等。例 如,针对检索词“李白”与意图“著名诗词”之间的第二映射关 系,可能会有一篇名为“李白的十大著名诗词及其解析”的文章 与其匹配。需要说明的是,资源数据的索引是第二映射关系,用edgeID来唯一表示第二映射关系,每个edgeID下可以挂接多篇资 源,每个资源数据具有一个第一权重,第一权重表示该资源数据 与意图的匹配程度,匹配程度越高,则第一权重的值越大,在向 用户返回满足意图的资源数据时,优先返回第一权重值大的资源。
在意图知识图谱中,第二映射关系(即edgeID)具有第二权 重,第二权重表示相应的用户意图的重要性高低。例如,“英国 短毛猫”实体,其下面的“英国短毛猫”检索词与“和蓝猫的区 别”意图之间的一个第二映射关系(即edgeID2)的第二权重为 0.9;“英国短毛猫”检索词与“购买”意图之间的第二映射关系 (即edgeID6)的第二权重为0.8,则在获取满足用户意图的资源 时,会优先获取第二权重高的资源,即与“英国短毛猫和蓝猫的 区别”对应的资源。
以下结合图2对本公开的一个实施例提供的意图知识图谱生 成方法进行详细说明。如图2所示,所述意图知识图谱生成方法 包括以下步骤:
步骤11,获取用户历史检索信息。
优选的,用户历史检索信息至少包括以下其中之一:历史检 索日志、基于检索词的模糊匹配信息、相同用户会话的前后继信 息。获取用户历史检索信息的具体实现方式属于现有技术,在此 不再赘述。
需要说明的是,也可以在本步骤中获取概念体系信息,以便 后续将实体与概念体系中的概念关联。
步骤12,根据用户历史检索信息,识别与检索词对应的实体 和意图。
具体的,针对获取到的用户历史检索信息,通过分词、命名 实体识别、专名识别等技术,识别出历史检索词对应的用户检索 的目标实体和意图。
步骤13,建立检索词和实体之间的第一映射关系,以及检索 词和意图之间的第二映射关系。
结合图1所示,“英国短毛猫”、“异国短毛猫”“英短” 这3个检索词均对应“英国短毛猫”的实体,“暹罗猫”的检索 词对应“暹罗猫”这个实体。第二映射关系在图1中以箭头表示, 可以通过edgeID唯一标识第二映射关系。
步骤14,将实体与概念体系中底层的概念关联。
其中,概念体系至少包括两层结构,实体可以与底层的概念 关联。
步骤15,获取资源数据的内容信息。
优选的,资源数据可以包括文档数据和/或多媒体数据。文档 类数据包括结构化信息以及文章信息等,结构化信息是指信息经 过分析后可分解成多个互相关联的组成部分,各组成部分间有明 确的层次结构,其使用和维护通过数据库进行管理,并有一定的 操作规范。多媒体类数据包括如图片、视频类数据等。
所述获取资源数据的内容信息,具体包括:
判断资源数据的类型,若资源数据为文档数据,则确定文档 数据中包含的实体和/或关键词,优选通过切词、命名实体识别、 专名识别技术,或者文档主题模型等技术,从文档数据中识别出 实体及其内容关键词。
若资源数据为多媒体数据,则确定多媒体数据的主题内容标 签,优选通过内容标注、标签挖掘等技术,获得多媒体数据的主 题内容标签。
步骤16,根据内容信息和识别出的意图,建立资源数据与第 二映射关系的链接,以生成意图知识图谱。
具体的,建立资源数据与第二映射关系的链接的具体流程后 续结合附图4再详细说明。
通过步骤11-16可以看出,本公开根据用户历史检索信息, 识别与检索词对应的实体和意图,建立检索词和实体之间的第一 映射关系,以及检索词和意图之间的第二映射关系,将实体与预 设的概念体系中底层的概念关联,并根据资源数据的内容信息和 识别出的意图,建立所述资源数据与第二映射关系的链接,从而 生成意图知识图谱。在进行意图识别时,对于用户输入的实体类 检索词,先确定对应的实体,再确定该实体下所有的检索词,从 中选择与用户输入的检索词最接近的检索词,并确定相应的第二 映射关系,由此获取相关的资源数据。
本公开不是直接从检索词中解析用户意图,也不是从意图词 典中匹配意图,而是通过用户检索的实体类的检索词,从实体粒 度的意图知识图谱中去获取用户对实体的意图。相对现有的意图 识别方法,本公开获取到的意图不是基于类别粒度的,而是可以 细化到实体粒度,因此意图的表达更加精确。相对现有的聚类等 方案,本公开从意图知识图谱中精确链接到实体,从而得到实体 的意图集合,与此同时,还能知道该意图和实体的其他意图、实 体上位概念、实体下位子意图的语义关系等,因此获取到的意图 集合是语义上可解释的,其意图识别和满足的效果也更准确。
在本公开中,第二映射关系不是实体与意图之间的映射关系, 而是检索词与意图之间的映射关系,其原因在于:对于同一个实 体的不同检索词,用户潜在的检索意图也不一样,那么对应的满 足其的资源也不一样。例如,实体名是“刘禅”,对应的检索词 可能有“刘禅”、“阿斗”,其中“刘禅”对应的检索意图可能 是“刘禅乐不思蜀的典故”或者“刘禅为什么投降”。而“阿斗” 的检索意图可能是“阿斗为什么扶不起”。
进一步的,为了降低数据运算量,提高处理效率,在本公开 另一实施例提供的意图知识图谱生成方法中,在识别与检索词对 应的实体和意图(即步骤12)之后、建立检索词和实体之间的第 一映射关系,以及检索词和意图之间的第二映射关系(即步骤13) 之前,还可以包括数据清洗的步骤,即对识别出的实体和意图至 少进行以下一种操作:清洗去噪处理、消岐归一处理、择优处理。
进一步的,在本公开另一实施例提供的意图知识图谱生成方 法中,如图3所示,在建立资源数据与第二映射关系的链接(即 步骤16)之后,所述方法还包括:
步骤17,根据匹配程度为资源数据设置第一权重。
通过为资源数据设置第一权重,可以在向用户返回满足检索 意图的资源时,根据第一权重返回资源,优先将与检索意图匹配 程度越高的资源返回给用户,提升用户体验。
需要说明的是,在步骤12之后,若相同的意图对应多种意图 表达,则进一步建立同一意图与相应的各意图表达之间的第三映 射关系。
以下结合图4,对建立资源数据与第二映射关系的链接的流 程进行详细说明。如图4所示,所述根据内容信息和识别出的意 图,建立资源数据与第二映射关系的链接,具体包括以下步骤:
步骤41,将资源数据的内容信息与识别出的意图相匹配。
步骤42,判断内容信息与识别出的意图相是否匹配,若匹配, 则执行步骤16,否则,执行步骤43。
具体的,若资源数据的内容信息与识别出的意图匹配,则根 据内容信息和识别出的意图,建立资源数据与第二映射关系的链 接;若资源数据的内容信息与识别出的意图不匹配,则进一步确 定识别出的意图对应的其他的意图表达,并将资源数据的内容信 息与该意图的其他意图表达相匹配(即执行步骤43)。
步骤43,根据第三映射关系确定相应的意图表达,并将内容 信息与所述意图表达相匹配。
步骤44,判断内容信息是否与至少一个意图表达匹配,若是, 则执行步骤16;否则,结束流程。
具体的,若资源数据的内容信息与至少一个意图表达匹配, 说明该资源数据也是满足识别出的意图的,则根据内容信息和识 别出的意图,建立资源数据与第二映射关系的链接(即执行步骤 16);若资源数据的内容信息与各意图表达均不匹配,说明没有 满足该意图的资源,则结束流程。
通过步骤41-44可以看出,通过建立同一意图与相应的各意 图表达之间的第三映射关系,并在资源数据的内容信息无法满足 意图时,进一步将资源数据的内容信息与意图表达相匹配,这样, 在寻找满足意图的资源时,可以利用多种不同的意图表达,扩大 潜在满足需求的资源范围。
为了清楚说明上述技术方案,以下结合图1的意图知识图谱 的结构,通过一具体实例详细说明。例如,若想获取“暹罗猫” 和“购买”这个第二映射关系来查找对应的资源,假设有一篇文 章讲述了“暹罗猫”的价格,但文章中使用“暹罗猫多少钱一只” 的表述方式来讲述这个内容,由于在意图知识图谱中,“购买” 意图下面有“多少钱一只”这种意图表达方式,因此就可以确定 该文章满足“购买”意图,从而可以将该资源与该第二映射关系 进行链接。
进一步的,在本公开另一实施例提供的意图知识图谱生成方 法中,如图5所示,所述方法还包括以下步骤:
步骤51,若一个实体对应多个检索词,则分别确定该实体的 每个检索词对应的意图。
步骤52,根据用户历史检索信息确定各意图的重要性,并根 据各意图的重要性,为相应的第二映射关系设置第二权重。
通过步骤51-52可以看出,本公开通过为第二映射关系设置 第二权重,在获取满足用户意图的资源时,会优先获取并返回第 二权重高的资源,这样,在对返回给用户的资源数量有限制的情 况下,优先返回重要性高的资源信息,更加符合大部分用户的检 索习惯,提升用户体验。
进一步的,在本公开另一实施例提供的意图知识图谱生成方 法中,如图6所示,在生成意图知识图谱之后,所述方法还包括 扩展意图知识图谱的步骤,所述扩展意图知识图谱的步骤包括:
步骤61,判断属于最底层同一概念下的不同实体对应的检索 词之间是否存在非共有的意图,若存在,则执行步骤62;否则, 结束流程。
具体的,若最底层同一概念下的不同实体对应的检索词之间 存在非共有意图,则在意图知识图谱中为该不同实体补充意图(即 执行步骤62);若最底层同一概念下的不同实体对应的检索词之 间不存在非共有意图,即不同的实体对应的意图均相同,则无需 扩展意图知识图谱,结束本流程。
步骤62,根据非共有的意图,在意图知识图谱中分别补充属 于最底层同一概念下的不同实体对应的意图。
具体的,将非共有的意图补充在相应的实体下。
步骤63,建立已补充意图的实体下的检索词与补充的意图之 间的第二映射关系。
具体的,本步骤的具体实现方式与步骤13的具体实现方式相 同,在此不再赘述。
步骤64,根据所建立的第二映射关系获取相应的资源数据, 并建立获取到的资源数据与所建立的第二映射关系的链接。
具体的,本步骤的具体实现方式与步骤16的具体实现方式相 同,在此不再赘述。
通过步骤61-64可以看出,通过判断相同概念下不同实体间 是否具有共有意图,将非共有的意图补充在其他实体下,并以此 为依据获取相应的资源数据,可以在一定程度上共享同一概念下 不同实体的检索词对应的意图,从而扩展意图知识图谱。相比现 有的意图词典的方案,本公开可以对现有意图知识图谱进行意图 扩展,因此是针对开放域的意图识别和满足,意图识别和满足的 范围更大。通过对意图知识图谱中实体意图进行扩展,可以扩展 资源与意图挂接的范围,进一步完善意图知识图谱,以便在基于 意图知识图谱识别用户检索意图时,意图识别更为精准。
为了清楚说明上述技术方案,以下结合图1的意图知识图谱 的结构,通过一具体实例详细说明。例如,实体“英国短毛猫” 和“暹罗猫”都属于“宠物猫”这个概念,“英国短毛猫”实体 对应3个检索词:“英国短毛猫”、“异国短毛猫”、“英短”, “英国短毛猫”检索词对应的意图有“购买”和“与蓝猫的区别”, “异国短毛猫”和“英短”检索词对应的意图有“流泪的原因”; 暹罗猫”实体对应1个检索词“暹罗猫”,其意图为“耳螨病”。 “英国短毛猫”实体和“暹罗猫”实体对应的检索词之间存在非 共有的意图,对于“英国短毛猫”实体而言,需要补充“耳螨病” 的意图,因此,可以分别建立“英国短毛猫”实体的3个检索词 “英国短毛猫”、“异国短毛猫”、“英短”与“耳螨病”意图 之间的第二映射关系,并由此分别获取“英国短毛猫耳螨病”、 “异国短毛猫耳螨病”、“英短耳螨病”的资源数据,并分别建 立相应资源数据与相应第二映射关系的链接,从而实现意图知识 图谱的扩展。对于“暹罗猫”实体而言,同样可以扩展“流泪的 原因”、“购买”和“与蓝猫的区别”的意图及其资源,在此不 再详述。
本公开实施例还提供一种意图识别方法,如图7所示,所述 意图识别方法包括以下步骤:
步骤71,获取用户输入的检索词。
步骤72,判断用户输入的检索词是否为实体类检索词,若是, 则执行步骤73;否则,结束流程。
具体的,可以利用现有的实体判别模型判断检索词是否为实 体类检索词,其具体实现方式在此不再赘述。
步骤73,根据检索词和第一映射关系,确定相应的实体。
在本步骤中,确定出的实体是符合大部分用户检索习惯的, 即为大部分用户输入的检索词所指向的实体。
步骤74,根据第一映射关系,确定实体对应的检索词,并从 中确定与用户输入的检索词最接近的检索词。
步骤75,确定与用户输入的检索词最接近的检索词对应的第 二映射关系。
步骤76,根据确定出的第二映射关系和资源数据与第二映射 关系的链接,获取并返回相应的资源数据。
优选的,可以根据意图知识图谱中的第一权重,返回相应的 资源数据,从而优先返回与用户意图匹配度高的资源。
若确定出的第二映射关系为多个,则获取各个第二映射关系 对应的第二权重,并根据各个第二映射关系对应的第二权重,获 取并返回相应的资源数据,这样,可以优先返回重要性高的资源。
需要说明的是,也可以根据资源的类型,按照置信度由高到 低返回资源数据。
在获取到相关资源后,可以根据产品需求取全部或前n个资 源放置到产品端(实体卡片)进行使用。
实体卡片类产品由于产品空间限制,只能展示有限的内容, 因此,需要对返回的资源进行过滤和筛选,最终按照资源优先级 来进行展示。优选的,可以根据以下公式确定返回的资源的优先 级:
其中,Ipriority表示资源的优先级;λ1和λ2为系数;N表示某 种意图下所有资源的数量。
C表示意图的复杂程度,可以根据意图对应资源的数量、大 小(文章类统计字数、视频类统计视频时长)制定,可以计算并 记录在意图知识图谱中。
mi表示资源对实体的重要程度,可以根据实体的类型来确定, 比如人物类实体,结构化信息的重要程度更高;对于宠物和家养 植物类实体,文章、视频类资源重要程度更高。
si表示资源的质量,例如文章类资源的质量是基于作者发表 文章数量、文章长度、点赞数等计算得来,可以计算并记录在意 图知识图谱中。
通过步骤71-76可以看出,在进行意图识别时,对于用户输 入的实体类检索词,先确定对应的实体,再确定该实体下所有的 检索词,从中选择与用户输入的检索词最接近的检索词,并确定 相应的第二映射关系,由此获取相关的资源数据。本公开不是直 接从检索词中解析用户意图,也不是从意图词典中匹配意图,而 是通过用户检索的实体类的检索词,从实体粒度的意图知识图谱 中去获取用户对实体的意图。相对现有的意图识别方法,本公开 获取到的意图不是基于类别粒度的,而是可以细化到实体粒度, 因此意图的表达更加精确。相对现有的聚类等方案,本公开从意 图知识图谱中精确链接到实体,从而得到实体的意图集合,与此 同时,还能知道该意图和实体的其他意图、实体上位概念、实体 下位子意图的语义关系等,因此获取到的意图集合是语义上可解 释的,其意图识别和满足的效果也更准确。
为了清楚说明上述技术方案,以下结合图1的意图知识图谱 的结构,通过一具体实例详细说明。例如,获取用户输入的检索 词(如检索词=英短),根据现有的实体-检索词判别模型,判断 用户输入的检索词是否实体类检索词,如确认“英短”是实体类 检索词,则通过实体链接(entity-linking)技术(如字图案关联), 从意图知识图谱中找到该检索词对应的实体(此处即找到实体层 中的“英国短毛猫”这个实体)。根据“英国短毛猫”实体,寻找其下面的检索词,并根据字符串相似度,优先选择与所输入的 “英短”检索词一致的检索词。确定“英短”检索词对应的第二 映射关系为edgeId:4,获取edgeID=4对应的资源。根据edgeID=4, 从资源层获取对应的资源链接,如英国短毛猫为什么流泪resId:3 这个链接。如果此处有多个资源链接,则会按照多个资源的第一 权重高低来排序。如果检索词下有多个意图,则进一步尝试根据 第二映射关系(即edgeID)的第二权重高低来顺次获取相应的资 源。
需要说明的是,在步骤75中,若无法确定与所述用户输入的 检索词最接近的检索词对应的第二映射关系,则所述意图识别方 法还可以包括以下步骤:确定其他检索词所对应的第二映射关系, 其他检索词是指,确定出的实体对应的检索词中除与用户输入的 检索词最接近的检索词之外的检索词。通过该步骤,可以实现对 相同实体的意图进行共享。
为了清楚说明上述技术方案,以下通过一具体实例详细说明。 例如,实体=唐朝诗人李白,其对应的检索词可以是:李太白、诗 仙。假设在意图知识图谱中,检索词=诗仙,没有对应的意图信息; 而检索词=李太白,其对应有意图“李白为什么叫李太白”。那么 当用户输入的检索词=诗仙时,就可以根据诗仙和李太白都对应 “李白”这个实体,从而将“李白为什么叫李太白”的这个意图 返回给用户,从而起到了实体粒度下检索词之间意图互相共享的 效果。
本公开通过引入预置的意图知识图谱,对用户输入的检索词 进行实体级别的意图解析,并根据预先挂接到意图知识图谱的各 种资源对用户意图进行满足,最终在产品上展现。
其中,意图知识图谱的建立,是利用知识图谱相关技术实现 的实体图谱化,即根据用户历史检索信息、检索词模糊匹配、相 同会话下检索词的前后继以及概念库等信息,对用户意图进行清 洗、消岐、择优等操作,从而建设完整的用户意图知识图谱,同 时按照检索词+意图的意图对粒度,将对应的资源挂接到意图对 上。
意图的识别及满足,是利用意图知识图谱解析出用户检索词 所对应的实体及用户的检索意图,并从意图知识图谱中找到提取 出的资源链接,将相应的资源展现在实体卡片等产品上。
基于相同的技术构思,本公开实施例还提供一种意图知识图 谱生成装置,如图8所示,该意图知识图谱生成装置包括:第一 获取模块81、识别模块82、建立模块83、关联模块84、第二获 取模块85和链接模块86。
第一获取模块81用于,获取用户历史检索信息。
识别模块82用于,根据用户历史检索信息,识别与检索词对 应的实体和意图。
建立模块83用于,建立检索词和实体之间的第一映射关系, 以及检索词和意图之间的第二映射关系。
关联模块84用于,将所述实体与预设的概念体系中底层的概 念关联,其中,所述概念体系至少包括两层结构。
第二获取模块84用于,获取资源数据的内容信息。
链接模块85用于,根据所述内容信息和识别出的意图,建立 所述资源数据与所述第二映射关系的链接,以生成意图知识图谱。
进一步的,建立模块83还用于,在所述识别模块识别出与检 索词对应的意图之后,当相同的意图对应多种意图表达时,建立 同一意图与相应的各意图表达之间的第三映射关系。
优选的,链接模块85具体用于,将所述内容信息与识别出的 意图相匹配,当所述内容信息与识别出的意图匹配时,建立所述 资源数据与所述第二映射关系的链接;当所述内容信息与识别出 的意图不匹配时,根据所述第三映射关系确定相应的意图表达, 并将所述内容信息与所述意图表达相匹配,当所述内容信息与至 少一个所述意图表达匹配时,建立所述资源数据与所述第二映射 关系的链接。
进一步的,如图9所示,本公开另一实施例提供的意图知识 图谱生成装置还包括第一设置模块86,第一设置模块86用于,当 所述内容信息与识别出的意图匹配时,根据匹配程度为所述资源 数据设置第一权重。
优选的,在所述第一映射关系中,一个实体对应至少一个检 索词;
进一步的,本公开另一实施例提供的意图知识图谱生成装置 还包括第二设置模块,如图10所示,第二设置模块包括第二确定 单元871、处理单元872和设置单元873。
第二确定单元871用于,当一个实体对应多个检索词时,分 别确定该实体的每个检索词对应的意图。
处理单元872用于,根据所述用户历史检索信息确定所述意 图的重要性。
设置单元873用于,根据所述意图的重要性,为相应的第二 映射关系设置第二权重。
进一步的,本公开另一实施例提供的意图知识图谱生成装置 还包括扩展模块,如图11所示,所述扩展模块包括第二判断单元 881、意图补充单元882、第二映射关系补充单元883、资源获取 单元884和链接补充单元885。
第二判断单元881用于,判断属于最底层同一概念下的不同 实体对应的检索词之间是否存在非共有的意图。
意图补充单元882用于,当第二判断单元881判断出属于最 底层同一概念下的不同实体对应的检索词之间存在非共有的意图 时,根据所述非共有的意图,在所述意图知识图谱中分别补充所 述属于最底层同一概念下的不同实体对应的意图。
第二映射关系补充单元883用于,建立已补充意图的实体下 的检索词与补充的意图之间的第二映射关系。
资源获取单元884用于,根据所建立的第二映射关系获取相 应的资源数据。
链接补充单元885用于,建立获取到的资源数据与所建立的 第二映射关系的链接。
基于相同的技术构思,本公开实施例还提供一种意图识别装 置,应用于意图知识图谱,所述意图知识图谱包括:检索词和实 体之间的第一映射关系、检索词和意图之间的第二映射关系、资 源数据与第二映射关系的链接。
如图12所示,该意图识别装置包括:判断模块121、确定模 块122和资源获取模块123。
判断模块121用于,判断用户输入的检索词是否为实体类检 索词。
确定模块122用于,当判断模块121判断出用户输入的检索 词为实体类检索词时,根据所述检索词和所述第一映射关系,确 定相应的实体;根据所述第一映射关系,确定所述实体对应的检 索词,并从中确定与所述用户输入的检索词最接近的检索词;确 定与所述用户输入的检索词最接近的检索词对应的第二映射关 系。
资源获取模块123用于,根据确定出的第二映射关系和所述 资源数据与第二映射关系的链接,获取并返回相应的资源数据。
优选的,所述意图知识图谱中还包括资源数据的第一权重;
资源获取模块123具体用于,根据所述意图知识图谱中的第 一权重,返回相应的资源数据。
优选的,所述第二映射关系具有第二权重;
资源获取模块123具体用于,当确定出的第二映射关系为多 个时,获取各个第二映射关系对应的第二权重;根据所述各个第 二映射关系对应的第二权重,获取并返回相应的资源数据。
进一步的,确定模块122还用于,当无法确定与所述用户输 入的检索词最接近的检索词对应的第二映射关系时,确定其他检 索词所对应的第二映射关系,所述其他检索词为,确定出的所述 实体对应的检索词中除与所述用户输入的检索词最接近的检索词 之外的检索词。
本公开实施例还提供了一种服务器,该服务器包括:一个或 多个处理器以及存储装置;其中,存储装置上存储有一个或多个 程序,当上述一个或多个程序被上述一个或多个处理器执行时, 使得上述一个或多个处理器实现如前述各实施例所提供的意图知 识图谱生成方法或意图识别方法。
本公开实施例还提供了一种计算机可读介质,其上存储有计 算机程序,其中,该计算机程序被执行时实现如前述各实施例所 提供的意图知识图谱生成方法或意图识别方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部 或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、 硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的 功能模块/单元之间的划分不一定对应于物理组件的划分;例如, 一个物理组件可以具有多个功能,或者一个功能或步骤可以由若 干物理组件合作执行。某些物理组件或所有物理组件可以被实施 为由处理器,如中央处理器、数字信号处理器或微处理器执行的 软件,或者被实施为硬件,或者被实施为集成电路,如专用集成 电路。这样的软件可以分布在计算机可读介质上,计算机可读介 质可以包括计算机存储介质(或非暂时性介质)和通信介质(或 暂时性介质)。如本领域普通技术人员公知的,术语计算机存储 介质包括在用于存储信息(诸如计算机可读指令、数据结构、程 序模块或其他数据)的任何方法或技术中实施的易失性和非易失 性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、 ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功 能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁 存储装置、或者可以用于存储期望的信息并且可以被计算机访问 的任何其他的介质。此外,本领域普通技术人员公知的是,通信 介质通常包含计算机可读指令、数据结构、程序模块或者诸如载 波或其他传输机制之类的调制数据信号中的其他数据,并且可包 括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但 它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制 的目的。在一些实例中,对本领域技术人员显而易见的是,除非 另外明确指出,否则可单独使用与特定实施例相结合描述的特征、 特性和/或元素,或可与其他实施例相结合描述的特征、特性和/ 或元件组合使用。因此,本领域技术人员将理解,在不脱离由所 附的权利要求阐明的本发明的范围的情况下,可进行各种形式和 细节上的改变。

Claims (20)

1.一种意图知识图谱生成方法,其中,
获取用户历史检索信息,并根据所述用户历史检索信息,识别与检索词对应的实体和意图;
建立检索词和实体之间的第一映射关系,以及检索词和意图之间的第二映射关系;
将所述实体与预设的概念体系中底层的概念关联,其中,所述概念体系至少包括两层结构;
获取资源数据的内容信息,并根据所述内容信息和识别出的意图,建立所述资源数据与所述第二映射关系的链接,以生成意图知识图谱。
2.如权利要求1所述的方法,其中,在所述识别与检索词对应的意图之后,所述方法还包括:
若相同的意图对应多种意图表达,则建立同一意图与相应的各意图表达之间的第三映射关系。
3.如权利要求2所述的方法,其中,所述根据所述内容信息和识别出的意图,建立所述资源数据与所述第二映射关系的链接,具体包括:
将所述内容信息与识别出的意图相匹配,若匹配,则建立所述资源数据与所述第二映射关系的链接;若不匹配,则根据所述第三映射关系确定相应的意图表达,并将所述内容信息与所述意图表达相匹配,若所述内容信息与至少一个所述意图表达匹配,则建立所述资源数据与所述第二映射关系的链接;
所述在建立所述资源数据与所述第二映射关系的链接之后,所述方法还包括:根据匹配程度为所述资源数据设置第一权重。
4.如权利要求1所述的方法,其中,在所述第一映射关系中,一个实体对应至少一个检索词;所述方法还包括:
若一个实体对应多个检索词,则分别确定该实体的每个检索词对应的意图;
根据所述用户历史检索信息确定所述意图的重要性,并根据所述意图的重要性,为相应的第二映射关系设置第二权重。
5.如权利要求1所述的方法,其中,在生成意图知识图谱之后,所述方法还包括扩展所述意图知识图谱的步骤,所述扩展所述意图知识图谱的步骤包括:
判断属于最底层同一概念下的不同实体对应的检索词之间是否存在非共有的意图;
若存在,则根据所述非共有的意图,在所述意图知识图谱中分别补充所述属于最底层同一概念下的不同实体对应的意图;
建立已补充意图的实体下的检索词与补充的意图之间的第二映射关系;
根据所建立的第二映射关系获取相应的资源数据,并建立获取到的资源数据与所建立的第二映射关系的链接。
6.一种意图识别方法,其中,所述方法应用于意图知识图谱,所述意图知识图谱包括:检索词和实体之间的第一映射关系、检索词和意图之间的第二映射关系、以及资源数据与第二映射关系的链接,所述方法包括:
判断用户输入的检索词是否为实体类检索词,若是,则根据所述检索词和所述第一映射关系,确定相应的实体;
根据所述第一映射关系,确定所述实体对应的检索词,并从中确定与所述用户输入的检索词最接近的检索词;
确定与所述用户输入的检索词最接近的检索词对应的第二映射关系;
根据确定出的第二映射关系和所述资源数据与第二映射关系的链接,获取并返回相应的资源数据。
7.如权利要求6所述的方法,其中,所述意图知识图谱中还包括资源数据的第一权重;
所述返回相应的资源数据,具体包括:根据所述意图知识图谱中的第一权重,返回相应的资源数据。
8.如权利要求6所述的方法,其中,所述第二映射关系具有第二权重;
所述根据确定出的第二映射关系和所述资源数据与第二映射关系的链接,获取并返回相应的资源数据,具体包括:
若确定出的第二映射关系为多个,则获取各个第二映射关系对应的第二权重;
根据所述各个第二映射关系对应的第二权重,获取并返回相应的资源数据。
9.如权利要求6-8任一项所述的方法,其中,所述方法还包括:
若无法确定与所述用户输入的检索词最接近的检索词对应的第二映射关系,则确定其他检索词所对应的第二映射关系,所述其他检索词为,确定出的所述实体对应的检索词中除与所述用户输入的检索词最接近的检索词之外的检索词。
10.一种意图知识图谱生成装置,其中,包括:第一获取模块、识别模块、建立模块、关联模块、第二获取模块和链接模块;
所述第一获取模块用于,获取用户历史检索信息;
所述识别模块用于,根据所述用户历史检索信息,识别与检索词对应的实体和意图;
所述建立模块用于,建立检索词和实体之间的第一映射关系,以及检索词和意图之间的第二映射关系;
所述关联模块用于,将所述实体与预设的概念体系中底层的概念关联,其中,所述概念体系至少包括两层结构;
所述第二获取模块用于,获取资源数据的内容信息;
所述链接模块用于,根据所述内容信息和识别出的意图,建立所述资源数据与所述第二映射关系的链接,以生成意图知识图谱。
11.如权利要求10所述的意图知识图谱生成装置,其中,所述建立模块还用于,在所述识别模块识别出与检索词对应的意图之后,当相同的意图对应多种意图表达时,建立同一意图与相应的各意图表达之间的第三映射关系。
12.如权利要求11所述的意图知识图谱生成装置,其中,所述链接模块具体用于,将所述内容信息与识别出的意图相匹配,当所述内容信息与识别出的意图匹配时,建立所述资源数据与所述第二映射关系的链接;当所述内容信息与识别出的意图不匹配时,根据所述第三映射关系确定相应的意图表达,并将所述内容信息与所述意图表达相匹配,当所述内容信息与至少一个所述意图表达匹配时,建立所述资源数据与所述第二映射关系的链接;
所述意图知识图谱生成装置还包括第一设置模块,所述第一设置模块用于,当所述内容信息与识别出的意图匹配时,根据匹配程度为所述资源数据设置第一权重。
13.如权利要求10所述的意图知识图谱生成装置,其中,在所述第一映射关系中,一个实体对应至少一个检索词;所述意图知识图谱生成装置还包括第二设置模块,所述第二设置模块包括第二确定单元、处理单元和设置单元;
所述第二确定单元用于,当一个实体对应多个检索词时,分别确定该实体的每个检索词对应的意图;
所述处理单元用于,根据所述用户历史检索信息确定所述意图的重要性;
所述设置单元用于,根据所述意图的重要性,为相应的第二映射关系设置第二权重。
14.如权利要求10所述的意图知识图谱生成装置,其中,还包括扩展模块,所述扩展模块包括第二判断单元、意图补充单元、第二映射关系补充单元、资源获取单元和链接补充单元;
所述第二判断单元用于,判断属于最底层同一概念下的不同实体对应的检索词之间是否存在非共有的意图;
所述意图补充单元用于,当所述第二判断单元判断出属于最底层同一概念下的不同实体对应的检索词之间存在非共有的意图时,根据所述非共有的意图,在所述意图知识图谱中分别补充所述属于最底层同一概念下的不同实体对应的意图;
所述第二映射关系补充单元用于,建立已补充意图的实体下的检索词与补充的意图之间的第二映射关系;
所述资源获取单元用于,根据所建立的第二映射关系获取相应的资源数据;
所述链接补充单元用于,建立获取到的资源数据与所建立的第二映射关系的链接。
15.一种意图识别装置,其中,应用于意图知识图谱,所述意图知识图谱包括:检索词和实体之间的第一映射关系、检索词和意图之间的第二映射关系、资源数据与第二映射关系的链接;所述意图识别装置包括:判断模块、确定模块和资源获取模块;
所述判断模块用于,判断用户输入的检索词是否为实体类检索词;
所述确定模块用于,当所述判断模块判断出用户输入的检索词为实体类检索词时,根据所述检索词和所述第一映射关系,确定相应的实体;根据所述第一映射关系,确定所述实体对应的检索词,并从中确定与所述用户输入的检索词最接近的检索词;确定与所述用户输入的检索词最接近的检索词对应的第二映射关系;
所述资源获取模块用于,根据确定出的第二映射关系和所述资源数据与第二映射关系的链接,获取并返回相应的资源数据。
16.如权利要求15所述的意图识别装置,其中,所述意图知识图谱中还包括资源数据的第一权重;
所述资源获取模块具体用于,根据所述意图知识图谱中的第一权重,返回相应的资源数据。
17.如权利要求15所述的意图识别装置,其中,所述第二映射关系具有第二权重;
所述资源获取模块具体用于,当确定出的第二映射关系为多个时,获取各个第二映射关系对应的第二权重;根据所述各个第二映射关系对应的第二权重,获取并返回相应的资源数据。
18.如权利要求15-17任一项所述的意图识别装置,其中,所述确定模块还用于,当无法确定与所述用户输入的检索词最接近的检索词对应的第二映射关系时,确定其他检索词所对应的第二映射关系,所述其他检索词为,确定出的所述实体对应的检索词中除与所述用户输入的检索词最接近的检索词之外的检索词。
19.一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5任一项所述的意图知识图谱生成方法,或者,如权利要求6-9任一项所述的意图识别方法。
20.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如权利要求1-5任一项所述的意图知识图谱生成方法,或者,如权利要求6-9任一项所述的意图识别方法。
CN201910511702.9A 2019-06-13 2019-06-13 意图知识图谱生成方法、意图识别方法及装置 Active CN110263180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910511702.9A CN110263180B (zh) 2019-06-13 2019-06-13 意图知识图谱生成方法、意图识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910511702.9A CN110263180B (zh) 2019-06-13 2019-06-13 意图知识图谱生成方法、意图识别方法及装置

Publications (2)

Publication Number Publication Date
CN110263180A true CN110263180A (zh) 2019-09-20
CN110263180B CN110263180B (zh) 2021-06-04

Family

ID=67918157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910511702.9A Active CN110263180B (zh) 2019-06-13 2019-06-13 意图知识图谱生成方法、意图识别方法及装置

Country Status (1)

Country Link
CN (1) CN110263180B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990710A (zh) * 2019-12-24 2020-04-10 北京百度网讯科技有限公司 资源推荐方法及装置
CN111091006A (zh) * 2019-12-20 2020-05-01 北京百度网讯科技有限公司 一种实体意图体系的建立方法、装置、设备和介质
CN111104520A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于人物身份的人物实体链接方法
CN111597433A (zh) * 2020-04-10 2020-08-28 北京百度网讯科技有限公司 资源搜索方法、装置以及电子设备
CN111639234A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 用于挖掘核心实体关注点的方法和装置
CN111967263A (zh) * 2020-07-30 2020-11-20 北京明略软件***有限公司 一种基于实体话题关联度的领域命名实体去噪方法及***
CN112860813A (zh) * 2021-02-10 2021-05-28 北京百度网讯科技有限公司 检索信息的方法和装置
CN113360751A (zh) * 2020-03-06 2021-09-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备和介质
WO2021190668A1 (zh) * 2020-06-28 2021-09-30 上海松鼠课堂人工智能科技有限公司 智能学习***的知识图谱生成方法
CN113609827A (zh) * 2021-08-09 2021-11-05 海南大学 基于意图驱动的dikw的内容处理方法及***
CN113609281A (zh) * 2021-08-09 2021-11-05 海南大学 基于dikw图谱的意图识别方法及装置
CN113722505A (zh) * 2021-08-30 2021-11-30 海南大学 面向dikw资源的情感表达映射、度量与优化传输***
WO2024113665A1 (zh) * 2022-11-28 2024-06-06 腾讯科技(深圳)有限公司 媒体内容处理方法、装置、存储介质以及电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015079575A1 (ja) * 2013-11-29 2015-06-04 株式会社 東芝 対話支援システム、方法、及びプログラム
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN106649878A (zh) * 2017-01-07 2017-05-10 陈翔宇 基于人工智能的物联网实体搜索方法及***
CN107679186A (zh) * 2017-09-30 2018-02-09 北京奇虎科技有限公司 基于实体库进行实体搜索的方法及装置
CN107688614A (zh) * 2017-08-04 2018-02-13 平安科技(深圳)有限公司 意图获取方法、电子装置及计算机可读存储介质
CN107807957A (zh) * 2017-09-30 2018-03-16 北京奇虎科技有限公司 实体库生成方法及装置
CN108153901A (zh) * 2018-01-16 2018-06-12 北京百度网讯科技有限公司 基于知识图谱的信息推送方法和装置
CN109145153A (zh) * 2018-07-02 2019-01-04 北京奇艺世纪科技有限公司 意图类别的识别方法和装置
CN109145200A (zh) * 2018-07-13 2019-01-04 百度在线网络技术(北京)有限公司 推广展现的方法、装置、设备和计算机存储介质
CN109739964A (zh) * 2018-12-27 2019-05-10 北京拓尔思信息技术股份有限公司 知识数据提供方法、装置、电子设备和存储介质
CN109829039A (zh) * 2018-12-13 2019-05-31 平安科技(深圳)有限公司 智能聊天方法、装置、计算机设备及存储介质
CN109871543A (zh) * 2019-03-12 2019-06-11 广东小天才科技有限公司 一种意图获取方法及***
CN109871450A (zh) * 2019-01-11 2019-06-11 北京光年无限科技有限公司 基于绘本阅读的多模态交互方法及***

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015079575A1 (ja) * 2013-11-29 2015-06-04 株式会社 東芝 対話支援システム、方法、及びプログラム
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN106649878A (zh) * 2017-01-07 2017-05-10 陈翔宇 基于人工智能的物联网实体搜索方法及***
CN107688614A (zh) * 2017-08-04 2018-02-13 平安科技(深圳)有限公司 意图获取方法、电子装置及计算机可读存储介质
CN107679186A (zh) * 2017-09-30 2018-02-09 北京奇虎科技有限公司 基于实体库进行实体搜索的方法及装置
CN107807957A (zh) * 2017-09-30 2018-03-16 北京奇虎科技有限公司 实体库生成方法及装置
CN108153901A (zh) * 2018-01-16 2018-06-12 北京百度网讯科技有限公司 基于知识图谱的信息推送方法和装置
CN109145153A (zh) * 2018-07-02 2019-01-04 北京奇艺世纪科技有限公司 意图类别的识别方法和装置
CN109145200A (zh) * 2018-07-13 2019-01-04 百度在线网络技术(北京)有限公司 推广展现的方法、装置、设备和计算机存储介质
CN109829039A (zh) * 2018-12-13 2019-05-31 平安科技(深圳)有限公司 智能聊天方法、装置、计算机设备及存储介质
CN109739964A (zh) * 2018-12-27 2019-05-10 北京拓尔思信息技术股份有限公司 知识数据提供方法、装置、电子设备和存储介质
CN109871450A (zh) * 2019-01-11 2019-06-11 北京光年无限科技有限公司 基于绘本阅读的多模态交互方法及***
CN109871543A (zh) * 2019-03-12 2019-06-11 广东小天才科技有限公司 一种意图获取方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔婉秋 等: ""基于用户意图理解的社交网络跨媒体搜索与挖掘"", 《智能***学报》 *
石刚: ""一种基于知识图谱的用户搜索意图挖掘方法的研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104520A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于人物身份的人物实体链接方法
CN111091006A (zh) * 2019-12-20 2020-05-01 北京百度网讯科技有限公司 一种实体意图体系的建立方法、装置、设备和介质
CN111091006B (zh) * 2019-12-20 2023-08-29 北京百度网讯科技有限公司 一种实体意图体系的建立方法、装置、设备和介质
CN110990710B (zh) * 2019-12-24 2023-07-04 北京百度网讯科技有限公司 资源推荐方法及装置
CN110990710A (zh) * 2019-12-24 2020-04-10 北京百度网讯科技有限公司 资源推荐方法及装置
CN113360751A (zh) * 2020-03-06 2021-09-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备和介质
CN111597433A (zh) * 2020-04-10 2020-08-28 北京百度网讯科技有限公司 资源搜索方法、装置以及电子设备
CN111597433B (zh) * 2020-04-10 2023-08-01 北京百度网讯科技有限公司 资源搜索方法、装置以及电子设备
CN111639234A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 用于挖掘核心实体关注点的方法和装置
WO2021190668A1 (zh) * 2020-06-28 2021-09-30 上海松鼠课堂人工智能科技有限公司 智能学习***的知识图谱生成方法
CN111967263A (zh) * 2020-07-30 2020-11-20 北京明略软件***有限公司 一种基于实体话题关联度的领域命名实体去噪方法及***
CN112860813A (zh) * 2021-02-10 2021-05-28 北京百度网讯科技有限公司 检索信息的方法和装置
CN112860813B (zh) * 2021-02-10 2023-09-22 北京百度网讯科技有限公司 检索信息的方法和装置
CN113609281A (zh) * 2021-08-09 2021-11-05 海南大学 基于dikw图谱的意图识别方法及装置
CN113609827B (zh) * 2021-08-09 2023-05-26 海南大学 基于意图驱动的dikw的内容处理方法及***
CN113609827A (zh) * 2021-08-09 2021-11-05 海南大学 基于意图驱动的dikw的内容处理方法及***
CN113722505A (zh) * 2021-08-30 2021-11-30 海南大学 面向dikw资源的情感表达映射、度量与优化传输***
WO2023029178A1 (zh) * 2021-08-30 2023-03-09 海南大学 面向dikw资源的情感表达映射、度量与优化传输***
WO2024113665A1 (zh) * 2022-11-28 2024-06-06 腾讯科技(深圳)有限公司 媒体内容处理方法、装置、存储介质以及电子设备

Also Published As

Publication number Publication date
CN110263180B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN110263180A (zh) 意图知识图谱生成方法、意图识别方法及装置
CN105068661B (zh) 基于人工智能的人机交互方法和***
US11947588B2 (en) System and method for predictive curation, production infrastructure, and personal content assistant
CN112131472B (zh) 信息推荐方法、装置、电子设备和存储介质
CN105612514B (zh) 通过将语境线索与图像关联进行图像分类的***和方法
WO2017041370A1 (zh) 基于人工智能的人机聊天方法和装置
CN106294425B (zh) 商品相关网络文章之自动图文摘要方法及***
Rabbath et al. Automatic creation of photo books from stories in social media
CN107239203A (zh) 一种图像管理方法和装置
CN109189959A (zh) 一种构建图像数据库的方法及装置
CN1312615C (zh) 为媒体内容管理***索引数字信息信号的方法和设备
WO2013170587A1 (zh) 一种多媒体问答***及方法
CN102968419B (zh) 交互式互联网实体名称的消歧方法
CN109408821A (zh) 一种语料生成方法、装置、计算设备及存储介质
Bozzon et al. Modeling crowdsourcing scenarios in socially-enabled human computation applications
CN110083764A (zh) 一种协同过滤算法冷启动问题的解决方法
CN106528676A (zh) 基于人工智能的实体语义检索处理方法及装置
WO2021092934A1 (zh) 基于视频数据的消息推送方法、设备及计算机存储介质
JP2002259410A (ja) オブジェクト分類管理方法、オブジェクト分類管理システム、オブジェクト分類管理プログラム及び記録媒体
CN109325171A (zh) 基于领域知识的用户兴趣分析方法及***
WO2021092935A1 (zh) 基于图像数据的消息推送方法、设备及计算机存储介质
Li et al. A multi-level interactive lifelog search engine with user feedback
Larson et al. Using crowdsourcing to capture complexity in human interpretations of multimedia content
CN111223014B (zh) 一种从大量细分教学内容在线生成细分场景教学课程的方法和***
Goyal et al. A Review on Different Content Based Image Retrieval Techniques Using High Level Semantic Feature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant