CN109670033A - 内容的检索方法、装置、设备及存储介质 - Google Patents
内容的检索方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109670033A CN109670033A CN201910101810.9A CN201910101810A CN109670033A CN 109670033 A CN109670033 A CN 109670033A CN 201910101810 A CN201910101810 A CN 201910101810A CN 109670033 A CN109670033 A CN 109670033A
- Authority
- CN
- China
- Prior art keywords
- node
- attribute
- searching keyword
- semantic
- subtree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 33
- 238000002372 labelling Methods 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000005055 memory storage Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 16
- 241001489705 Aquarius Species 0.000 description 7
- 238000009434 installation Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的内容的检索方法、装置、设备及存储介质,该方法,包括:接收查询请求,所述查询请求包括用户输入的查询语句,对查询语句进行预处理,得到查询请求对应的词语属性列表,所述词语属性列表中包括查询语句中的至少一个查询关键词以及每个查询关键词对应的属性,并根据词语属性列表,构建语义树,所述语义树中的节点由所述词语属性列表中的查询关键词组成,根据语义树生成查询语言,根据查询语言查询获取查询请求对应的内容,实现了与不同搜索***的功能对接,完成对复杂的以及结构不清晰的查询语句的搜索查询,进而,提供准确的答复内容,提高用户体验。
Description
技术领域
本发明涉及智能交互技术领域,尤其涉及一种内容的检索方法、装置、设备及存储介质。
背景技术
随着智能终端设备的发展,用户使用手机、平板电脑、智能电视机等智能的终端设备进行内容的查询检索也逐渐普及。
目前常用的内容的检索方式中,用户通过在终端设备上进行操作,输入查询语句,搜索引擎根据输入的查询语句的文本内容进行匹配检索,需要从下游的搜索引擎以及知识库中查询获取文本内容对应的答复内容,然后将答复内容返回给终端设备进行显示。
然而,上述这种使用文本匹配检索的方案,在查询语句复杂或者结构不清晰时无法返回查询结果,并且该方案依赖于下游搜索引擎和知识库,不能灵活应用在各个查询***。
发明内容
本发明提供一种内容的检索方法、装置、设备及存储介质,用于实现复杂语句的匹配检索,可灵活应用于各个查询***。
本发明第一方面提供一种内容的检索方法,所述方法包括:
接收查询请求,所述查询请求包括用户输入的查询语句;
对所述查询语句进行预处理,得到所述查询请求对应的词语属性列表,所述词语属性列表中包括所述查询语句中的至少一个查询关键词以及每个查询关键词对应的属性;
根据所述词语属性列表,构建语义树,所述语义树中的节点由所述词语属性列表中的查询关键词组成;
根据所述语义树生成查询语言;
根据所述查询语言查询获取所述查询请求对应的内容。
在一种具体的实现方式中,所述对所述查询语句进行预处理,得到所述查询请求对应的词语属性列表,包括:
基于预设词库对所述查询语句进行分词处理和属性标注,得到所述查询语句对应的至少一个查询关键词,以及每个查询关键词的属性,所述预设词库中包含与场景相匹配的细粒度属性标注;
根据所述查询语句对应的至少一个查询关键词以及每个查询关键词的属性,生成所述词语属性列表。
在一种具体的实现方式中,所述根据所述词语属性列表,构建语义树,包括:
根据预设的节点类型,获取所述词语属性列表中的每个查询关键词所属的节点类型;
根据每个节点类型,构建对应的语义子树;
根据每个语义子树的修饰关系,确定语义子树之间的层级关系;
根据所述层级关系,对语义子树进行合并,构建语义树。
进一步地,所述根据每个节点类型,构建对应的语义子树,包括:
若第一节点类型包括至少一个查询关键词,则创建第一语义子树的根节点;
将所述第一节点类型对应的查询关键词添加到所述第一语义子树的根节点,作为所述第一语义子树的叶子节点。
进一步地,在所述创建第一语义子树的根节点之前,还包括:
若所述第一节点类型包括多属性节点,则根据所述多属性节点对应的查询关键词后和/或前的查询关键词所属的节点类型,确定所述多属性节点所属的第二节点类型,并将所述多属性节点确定为所述第二节点类型的属性节点;
其中,所述多属性节点对应的查询关键词属于至少两种节点类型。
在一种具体的实现方式中,若所述查询请求用于查询影片,则每个查询关键词的属性包括以下任一属性:人物实体词,影片名称,至少一个影片修饰属性,至少一个人物修饰属性;
所述节点类型包括人物节点、影片节点、人物属性节点、影片属性节点中的至少一个。
可选的,所述获取查询请求,包括:
接收用户输入的查询请求;
或者,
采集获取用户的语音,并对所述语音进行语音识别处理,得到所述查询请求。
进一步地,所述方法还包括:
推送所述查询请求对应的所述内容。
本发明第二方面提供一种内容的检索装置,所述装置包括:
接收模块,用于接收查询请求,所述查询请求包括用户输入的查询语句;
处理模块,用于:
对所述查询语句进行预处理,得到所述查询请求对应的词语属性列表,所述词语属性列表中包括所述查询语句中的至少一个查询关键词以及每个查询关键词对应的属性;
根据所述词语属性列表,构建语义树,所述语义树中的节点由所述词语属性列表中的查询关键词组成;
根据所述语义树生成查询语言;
根据所述查询语言查询获取所述查询请求对应的内容。
在一种具体的实现方式中,所述处理模块具体用于:
基于预设词库对所述查询语句进行分词处理和属性标注,得到所述查询语句对应的至少一个查询关键词,以及每个查询关键词的属性,所述预设词库中包含与场景相匹配的细粒度属性标注;
根据所述查询语句对应的至少一个查询关键词以及每个查询关键词的属性,生成所述词语属性列表。
在一种具体的实现方式中,所述处理模块具体用于:
根据预设的节点类型,获取所述词语属性列表中的每个查询关键词所属的节点类型;
根据每个节点类型,构建对应的语义子树;
根据每个语义子树的修饰关系,确定语义子树之间的层级关系;
根据所述层级关系,对语义子树进行合并,构建语义树。
进一步地,所述处理模块具体用于:
若第一节点类型包括至少一个查询关键词,则创建第一语义子树的根节点;
将所述第一节点类型对应的查询关键词添加到所述第一语义子树的根节点,作为所述第一语义子树的叶子节点。
进一步地,在所述创建第一语义子树的根节点之前,所述处理模块还用于:
若所述第一节点类型包括多属性节点,则根据所述多属性节点对应的查询关键词后和/或前的查询关键词所属的节点类型,确定所述多属性节点所属的第二节点类型,并将所述多属性节点确定为所述第二节点类型的属性节点;
其中,所述多属性节点对应的查询关键词属于至少两种节点类型。
在一种具体的实现方式中,若所述查询请求用于查询影片,则每个查询关键词的属性包括以下任一属性:人物实体词,影片名称,至少一个影片修饰属性,至少一个人物修饰属性;
所述节点类型包括人物节点、影片节点、人物属性节点、影片属性节点中的至少一个。
可选的,所述获取模块具体用于:
接收用户输入的查询请求;
或者,
采集获取用户的语音,并对所述语音进行语音识别处理,得到所述查询请求。
进一步地,所述装置还包括:
推送模块,用于推送所述查询请求对应的所述内容。
本发明第三方面提供一种终端设备,包括:
处理器、存储器、接收器和发送器;
存储器用于存储程序和数据,所述处理器调用存储器存储的程序,以执行第一方面任一项所述的内容的检索方法。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行第一方面任一项所述的内容的检索方法。
本发明实施例提供的一种内容的检索方法、装置、设备及存储介质,通过接收包括用户输入的查询语句的查询请求,对查询语句进行预处理,得到查询请求对应的词语属性列表,根据词语属性列表,构建语义树,该语义树中的节点由所述词语属性列表中的查询关键词组成,根据语义树生成查询语言,并根据查询语言查询获取查询请求对应的内容,实现了在查询语句复杂或者结构不清晰时,对查询语句进行查询并返回准确的查询结果,提高了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的内容的检索方法实施例一的流程示意图;
图2为本发明提供的内容的检索方法实施例二的流程示意图;
图3为本发明提供的内容的检索方法实施例三的流程示意图;
图4为本发明提供的内容的检索方法实施例四的流程示意图;
图5为本发明提供的内容的检索方法的语义树的结构示意图;
图6为本发明提供的内容的检索装置实施例一的结构示意图;
图7为本发明提供的内容的检索装置实施例二的结构示意图;
图8为本发明提供的终端设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的内容的检索方法的执行主体为一种终端设备,该终端设备包括手机、平板电脑、智能电视、智能可穿戴设备等,用户能够通过触摸屏,鼠标,语音采集装置(例如麦克风),等输入设备在界面上进行操作。
图1为本发明提供的内容的检索方法实施例一的流程示意图。如图1所示,该内容的检索方法包括以下步骤:
S101:接收查询请求。
终端设备接收查询请求,即接收用户输入的查询语句和/或查询启动指令。可选的,接收查询请求可以是接收用户输入的查询请求,或者采集用户的语音,并对该语音进行语音识别处理,得到查询请求。对应的,接收用户输入的查询语句可以是接收用户输入的查询语句,也可以是采集用户的语音,并对该语音进行语音识别处理,得到查询语句。
S102:对查询语句进行预处理,得到查询请求对应的词语属性列表。
对查询语句进行预处理包括:对查询语句进行分词、词识别、属性标注。本方案所采用的分词、词识别、属性标注的方法包括根据预设词库定义的细粒度的分词方法与属性标注,其中,预设词库为根据不同领域的应用场景设置的词库或者自定义词库。例如,当前应用场景中的终端设备具体为智能电视,查询对象的领域为影片相关领域,则将根据影片实体(videoEntity),也称作影片名称(videoTitle),人物实体词(characterEntity),至少一个影片修饰属性,包括:影片类别(videoCategory),影片主题(videoObject)、影片题材(videoMaterial)、导演(direct),以及至少一个人物修饰属性,包括:演员(actor)、星座(constellation)、性别(sex)、国家(country)等类别对查询语句进行分词、词识别和属性标注,得到查询关键词以及每个查询关键词对应的属性,并根据查询关键词和对应的属性,形成词语属性列表。
在一种具体的实现方式中,若用户输入的查询语句为“韩国水瓶座女演员的爱情片儿”,经过分词后的词语片段为[韩国,水瓶座,女,演员,的,爱情,片儿],进而经过词识别后得到的词语片段为[韩国,水瓶座,女,演员,的,爱情,电影],并将词识别后的词语片段分别进行属性标注,例如,韩国-country,水瓶座-constellation,女-sexFemale,演员-characterEntity,的-auxiliary,爱情-videoMaterial,电影-videoEntity。
并根据查询关键词和对应的属性,形成词语属性列表(wordSegmentLsit):
在一种具体的实现方式中,词语属性列表还包括查询关键词对应的索引位,该索引位为根据查询关键词在查询语句中的位置顺次标注的,具体的,以上述查询关键词为例,查询语句“韩国水瓶座女演员的爱情片儿”的查询关键词的索引位可分别标注为:韩国-0,水瓶座-1,女-2,演员-3,的-4,爱情-5,电影-6。
S103:根据词语属性列表,构建语义树。
在本步骤中,可以针对不同的应用场景或者查询领域,设置多个节点类型,并根据词语属性列表中的查询关键词对应的属性,按照预先定义的查询关键词的属性与节点类型的映射关系,将查询关键词分配到不同的节点下,由各个节点构建语义树,也可以理解为语义树中的节点由词语属性列表中的查询关键词组成。
在一种具体的实现方式中,若当前场景为针对影片的查询场景,可设置以下五种节点类型:人物节点(characterNode)、影片节点(videoNode)、人物属性节点(characterAttribute)、影片属性节点(videoAttribute)、影片或人物属性(bothAttrbute)节点。相应的,预先定义的查询关键词的属性与节点类型的映射关系包括:影片题材与影片属性节点对应,国家与影片或人物属性节点对应,星座与人物属性节点对应,女性与人物属性节点对应,人物实体与人物节点对应,影片实体与影片节点对应,例如,[<videoMaterial,videoAttribute>,<country,bothAttrbute>,<constellation,characterAttribute>,<sexFemale,characterAttribute>,<characterEntity,characterNode>,<videoEntity,videoNode>]。
具体的,语义树的每个节点的结构定义包括:查询关键词、查询关键词对应的属性、查询关键词对应的索引位、范围标识(例如包括above、below、none、range),最终,由多个节点构建语义树,也称作语义树列表。
例如,将语义树的每个节点结构定义为:
相应的,语义树列表为:
characterNodeList:
[{segWordStr:演员,
wordAttrs:characterEntity,
wordIndex:3,
rangeFlag:none,
nodeType:characterNode}]
videoNodeList:
[{segWordStr:电影,
wordAttrs:videoEntity,
wordIndex:6,
rangeFlag:none,
nodeType:videoAttribute}]
characterAttributeList:
[{segWordStr:水瓶座,
wordAttrs:constellation,
wordIndex:1,
rangeFlag:none,
nodeType:characterAttribute},
{segWordStr:女,
wordAttrs:sexFemale,
wordIndex:2,
rangeFlag:none,
nodeType:}]
videoAttributeList:
[{segWordStr:爱情,
wordAttrs:videoMaterial,
wordIndex:5,characterAttribute
rangeFlag:none,
nodeType:videoAttribute}]
:
[{segWordStr:韩国,
wordAttrs:country,
wordIndex:0,
rangeFlag:none,
nodeType:bothAttrbute}]
S104:根据语义树生成查询语言。
在本步骤中,通过解析语义树,构建自定义的查询过程,即根据对接的不同的搜索***解析语义树生成对应的查询语言。
优选地,本方案选取知识图谱为知识问答提供检索,包括,根据在影片的查询场景中构建的语义树,判断该语义树的深度,其深度可能值为1,2,3;如果语义树的深度为1,则搜索无效,进入推荐流程,例如,随机推荐5部不同类型的电影;如果语义树的深度大于1,则根据节点类型自下而上解析语义树生成查询语言。
S105:根据查询语言查询获取查询请求对应的内容。
在一种具体的实现方式中,图2为本发明提供的内容的检索方法实施例二的流程示意图,如图2所示,若查询语句为“韩国水瓶座女演员的爱情片儿”,则通过步骤S101至S104,根据查询语言以及生成的解析路径,得到该查询请求对应的内容为影片1和影片5。
本实施例提供的内容的检索方法,根据接收的包括查询语句的查询请求,对查询语句进行预处理,得到查询关键词以及查询关键词对应的属性,即得到查询请求对应的词语属性列表,并根据词语属性列表中查询关键词对应的属性将查询关键词归类于不同的节点下,以构建语义树,自下而上解析语义树的各节点,根据不同的搜索***生成对应的查询语言,并根据查询语言最终获取查询请求对应的内容,实现了与不同搜索***的功能对接,完成对复杂的以及结构不清晰的查询语句的搜索查询,进而,提供准确的答复内容,提高用户体验。
在图1和图2所示实施例的基础上,图3为本发明提供的内容的检索方法实施例三的流程示意图。如图3所示,该内容的检索方法中对于根据词语属性列表构建语义树,可以包括以下步骤:
首先,应理解,本方案针对用户输入的每一个查询请求生成一个语义树,也称作语义树列表,相应的,语义树中的节点也称作节点列表。
S201:根据预设的节点类型,获取词语属性列表中的每个查询关键词所属的节点类型。
根据词语属性列表中每个查询关键词对应的属性,按照预先定义的查询关键词的属性与节点类型的映射关系,获取词语属性列表中的每个查询关键词的节点类型。
在一种具体的实现方式中,若当前场景为针对影片的查询场景,可设置的节点类型包括:人物节点(characterNode)、影片节点(videoNode)、人物属性节点(characterAttribute)、影片属性(videoAttribute)节点、影片或人物属性(bothAttrbute)节点等。
S202:根据每个节点类型,构建对应的语义子树。
在本步骤中,对每个节点类型创建对应的语义子树,节点类型与语义子树为一一对应的关系。
在一种具体的实现方式中,本步骤包括:若第一节点类型包括至少一个查询关键词,则创建第一语义子树的根节点,并将所述第一节点类型对应的查询关键词添加到所述第一语义子树的根节点,作为所述第一语义子树的叶子节点。
进一步地,若当前应用场景中的终端设备具体为智能电视,查询对象的领域为影片相关领域,则节点类型包括:人物节点(characterNode)、影片节点(videoNode)、人物属性节点(characterAttribute)、影片属性(videoAttribute)节点、影片或人物属性(bothAttrbute)节点等,在本步骤中,假设第一节点为人物节点,若人物节点中包括至少一个查询关键词,则创建人物语义子树(即第一语义子树)的根节点,并将人物节点对应的每个查询关键词添加到该人物语义子树的根节点,作为人物语义子树的多个叶子节点,即完成人物语义子树的构建。
S203:根据每个语义子树的修饰关系,确定语义子树之间的层级关系。
确定每两个语义子树之间的修饰和被修饰关系,将用于修饰的语义子树确定为被修饰的语义子树的下一层级的语义子树。
在一种具体的实现方式中,本方案提供一种优选的方案实现根据每个语义子树的修饰关系,确定语义子树之间的层级关系:确定语义子树中每个节点对应的查询关键词的索引位的最大值(maxIndex),比较每个语义子树的maxIndex值的大小,maxIndex值大的为被修饰的语义子树,maxIndex值小的为用于修饰的语义子树。
S204:根据所述层级关系,对语义子树进行合并,构建语义树。
根据S203步骤中确定的每个语义子树之间的层级关系,将下一层级的语义子树添加到上一层级的语义子树的根节点下,完成多个语义子树的合并,即构建语义树。
本实施例提供的根据词语属性列表构建语义树的方法,包括:根据预设的节点类型,获取所述词语属性列表中的每个查询关键词所属的节点类型,根据每个节点类型,构建对应的语义子树,根据每个语义子树的修饰关系,确定语义子树之间的层级关系,并根据所述层级关系,对语义子树进行合并,构建语义树,可实现在不同的应用场景以及不同的领域,根据查询请求,构建不同的语义树,以便于进一步通过对语义树自下而上的解析,实现为查询请求提供准确的答复内容。
进一步地,在本发明提供的内容的检索方法中,节点类型还包括多属性节点,具体的,若某个查询关键词同时属于多个节点类型,则暂定该查询关键词为多属性节点,需要进一步确定该查询关键词所属的节点类型,以便于完成语义树的构建,因此,在创建第一语义子树的根节点之前,还包括:若第一节点类型包括多属性节点,则根据多属性节点对应的查询关键词后和/或前的查询关键词所属的节点类型,确定该多属性节点所属的第二节点类型,并将该多属性节点确定为第二节点类型的属性节点,应理解,第二节点类型可以是第一节点类型也可以是其他节点类型。
根据多属性节点对应的查询关键词后和/或前的查询关键词所属的节点类型,确定该多属性节点所属的第二节点类型,可选的,若确定多属性节点对应的查询关键词后的查询关键词属于第二节点类型,则该多属性节点属于第二节点类型,若多属性节点对应的查询关键词后的查询关键词的节点类型无法确定或者在多属性节点之后没有其他查询关键词,则确定多属性节点对应的查询关键词前的查询关键词所属的节点类型,并将该节点类型确定为多属性节点所属的第二节点类型。
在一种具体的实现方式中,图4为本发明提供的内容的检索方法实施例四的流程示意图,如图4所示,若当前应用场景中的终端设备具体为智能电视,查询对象的领域为影片相关领域,则构建语义树的主要流程如下:
1、若影片节点列表(videoNodeList)或者影片属性节点列表(videoAttributeList)不为空,则创建语义树的影片根节点(treeOfVideo)。
2、若人物节点列表(characterNodeList)或者人物属性节点列表(characterAttributeList)不为空,则创建语义树的人物根节点(treeOfCharacter)。
3、若影片属性节点列表不为空,则将影片属性节点列表中的所有查询关键词添加到影片根节点上作为叶子节点。
4、若人物属性节点列表不为空,则将人物属性节点列表中的所有查询关键词添加到人物根节点上作为叶子节点。
5、若影片或人物属性节点列表不为空,则对于影片或人物属性节点列表中的每个查询关键词:
a、获取当前节点中查询关键词对应的索引位(wordIndex),此处,应理解,查询关键词对应的索引位也为该查询关键词所属的节点的索引位。
b、对于当前节点之后的每个节点(即索引位以wordIndex+表示的节点),如果wordIndex+位置的节点对应的属性(nodeType)为影片节点(videoNode)或者影片属性节点(videoAttribute),则将当前节点添加到影片根节点上作为叶子节点;否则如果wordIndex+位置的节点属性(nodeType)为人物节点(characterNode)或者影片属性节点(characterAttribute),则将当前节点添加到人物根节点上作为叶子节点。
c、若节点没有挂到任何根节点,对于紧跟当前节点之前的每个节点(即用wordIndex-表示的节点),如果wordIndex-位置的节点属性(nodeType)为影片节点(videoNode),则将当前节点添加到影片根节点上作为叶子节点;否则如果wordInde-位置的节点属性(nodeType)为人物节点(characterNode),则将当前节点添加到人物根节点上作为叶子节点。
d、若节点没有挂到任何根节点,则将当前节点既添加到人物根节点上作为叶子节点,也添加到影片根节点上作为叶子节点。
6、若影片根节点为空,而任务根节点不为空,则返回人物根节点以及人物根节点上的叶子节点,作为构建语义树;
否则,若影片根节点不为空,而人物根节点为空,则返回影片根节点以及影片根节点上的叶子节点,作为构建语义树;
否则,若影片根节点不为空,人物根节点也不为空,则判断影片节点列表中最大的索引位(maxVideoIndex)的值与人物节点列表中最大的索引位(maxCharacterIndex)的值,比较两者的大小:若maxVideoIndex大于maxCharacterIndex,则将人物子树(treeOfCharacterIndex)作为影片子树(treeOfVideo)的子树挂到影片根节点下返回;否则,若maxVideoIndex小于maxCharacterIndex,则将影片子树作为人物子树的子树挂到人物根节点下返回。
7、为人物根节点添加询问属性。
a、如果人物子树深度为3或者人物属性节点列表中包含cast、direct等实体人物属性节点,则进入步骤b
b、如果用户输入的查询语句包含疑问词且疑问词的询问属性为人物修饰属性,则为人物根节点添加询问属性标识
具体的,根据上述示例性实施例提供根据词语属性列表构建语义树的方法构建的语义树结构如图5所示。
本实施例提供的内容的检索方法,根据预设的节点类型,获取词语属性列表中的每个查询关键词对应的节点类型,并根据每个查询关键词的节点类型,构建用于表达查询意图的层级关系的语义树,该语义树中的每个节点由该词语属性列表中的一个查询关键词组成,节点之间的上下级关系根据查询关键词之间的修饰关系确定,实现了语义树的构建,使本方案能够与多个搜索***对接,完成生成查询语言并最终获取查询请求对应的内容。
本方案提供的内容的检索方法还包括:推送查询请求对应的内容,可选的,推送的方式可以是通过终端设备的显示装置进行显示,可以是通过终端设备的语音装置进行语音播报;也可以是发送给其他外部设备进行显示或者语音播报;若查询请求对应的内容为影片,可直接进行影片播放。
图6为本发明提供的内容的检索装置实施例一的结构示意图,如图6所示,该装置10包括:
接收模块11:用于接收查询请求,所述查询请求包括用户输入的查询语句;
处理模块12:用于:
对所述查询语句进行预处理,得到所述查询请求对应的词语属性列表,所述词语属性列表中包括所述查询语句中的至少一个查询关键词以及每个查询关键词对应的属性;
根据所述词语属性列表,构建语义树,所述语义树中的节点由所述词语属性列表中的查询关键词组成;
根据所述语义树生成查询语言;
根据所述查询语言查询获取所述查询请求对应的内容。
本实施例提供的内容的检索装置,包括获取模块以及处理模块,用于根据获取的包括查询语句的查询请求,对查询语句进行预处理,得到查询请求对应的词语属性列表,并根据词语属性列表中查询关键词对应的属性将查询关键词归类于不同的节点下,以构建语义树,自下而上解析语义树的各节点,根据不同的搜索***生成对应的查询语言,并根据查询语言最终获取查询请求对应的内容,实现了与不同搜索***的功能对接,完成对复杂的以及结构不清晰的查询语句的搜索查询,进而,提供准确的答复内容,提高用户体验。
在一种具体的实现方式中,所述处理模块12具体用于:
基于预设词库对所述查询语句进行分词处理和属性标注,得到所述查询语句对应的至少一个查询关键词,以及每个查询关键词的属性,所述预设词库中包含与场景相匹配的细粒度属性标注;
根据所述查询语句对应的至少一个查询关键词以及每个查询关键词的属性,生成所述词语属性列表。
在一种具体的实现方式中,所述处理模块具体用于:
根据预设的节点类型,获取所述词语属性列表中的每个查询关键词所属的节点类型;
根据每个节点类型,构建对应的语义子树;
根据每个语义子树的修饰关系,确定语义子树之间的层级关系;
根据所述层级关系,对语义子树进行合并,构建语义树。
在一种具体的实现方式中,所述处理模块12具体用于:
若第一节点类型包括至少一个查询关键词,则创建第一语义子树的根节点;
将所述第一节点类型对应的查询关键词添加到所述第一语义子树的根节点,作为所述第一语义子树的叶子节点。
在一种具体的实现方式中,在所述创建第一语义子树的根节点之前,所述处理模块12还用于:
若所述第一节点类型包括多属性节点,则根据所述多属性节点对应的查询关键词后和/或前的查询关键词所属的节点类型,确定所述多属性节点所属的第二节点类型,并将所述多属性节点确定为所述第二节点类型的属性节点;
其中,所述多属性节点对应的查询关键词属于至少两种节点类型。
在一种具体的实现方式中,若所述查询请求用于查询影片,则每个查询关键词的属性包括以下任一属性:人物实体词,影片名称,至少一个影片修饰属性,至少一个人物修饰属性;
所述节点类型包括人物节点、影片节点、人物属性节点、影片属性节点中的至少一个。
在一种具体的实现方式中,所述获取模块具体用于:
接收用户输入的查询请求;
或者,
采集获取用户的语音,并对所述语音进行语音识别处理,得到所述查询请求。
在图6所示实施例的基础上,图7为本发明提供的内容的检索装置实施例二的结构示意图,如图7所示,该装置10还包括:
推送模块13:用于推送所述查询请求对应的所述内容。
本实施例提供的内容的检索装置用于执行前述任一方法实施例中涉及的技术方案,其实现原理和技术效果类似,在此不再赘述。
图8为本发明提供的终端设备的硬件结构示意图,如图8所示,该终端设备100,包括:
处理器111、存储器112、接收器113和发送器114;
存储器112用于存储程序和数据,所述处理器111调用存储器存储的程序,以执行前述任一方法实施例中任一项的技术方案。
在上述终端设备的实现中,存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令,包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。进一步地,上述存储器内的软件程序以及模块还可包括操作***,其可包括各种用于管理***任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于实现任一方法实施例中的内容的检索方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (18)
1.一种内容的检索方法,其特征在于,所述方法包括:
接收查询请求,所述查询请求包括用户输入的查询语句;
对所述查询语句进行预处理,得到所述查询请求对应的词语属性列表,所述词语属性列表中包括所述查询语句中的至少一个查询关键词以及每个查询关键词对应的属性;
根据所述词语属性列表,构建语义树,所述语义树中的节点由所述词语属性列表中的查询关键词组成;
根据所述语义树生成查询语言;
根据所述查询语言查询获取所述查询请求对应的内容。
2.根据权利要求1所述的方法,其特征在于,所述对所述查询语句进行预处理,得到所述查询请求对应的词语属性列表,包括:
基于预设词库对所述查询语句进行分词处理和属性标注,得到所述查询语句对应的至少一个查询关键词,以及每个查询关键词的属性,所述预设词库中包含与场景相匹配的细粒度属性标注;
根据所述查询语句对应的至少一个查询关键词以及每个查询关键词的属性,生成所述词语属性列表。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述词语属性列表,构建语义树,包括:
根据预设的节点类型,获取所述词语属性列表中的每个查询关键词所属的节点类型;
根据每个节点类型,构建对应的语义子树;
根据每个语义子树的修饰关系,确定语义子树之间的层级关系;
根据所述层级关系,对语义子树进行合并,构建语义树。
4.根据权利要求3所述的方法,其特征在于,所述根据每个节点类型,构建对应的语义子树,包括:
若第一节点类型包括至少一个查询关键词,则创建第一语义子树的根节点;
将所述第一节点类型对应的查询关键词添加到所述第一语义子树的根节点,作为所述第一语义子树的叶子节点。
5.根据权利要求4所述的方法,其特征在于,在所述创建第一语义子树的根节点之前,还包括:
若所述第一节点类型包括多属性节点,则根据所述多属性节点对应的查询关键词后和/或前的查询关键词所属的节点类型,确定所述多属性节点所属的第二节点类型,并将所述多属性节点确定为所述第二节点类型的属性节点;
其中,所述多属性节点对应的查询关键词属于至少两种节点类型。
6.根据权利要求5所述的方法,其特征在于,若所述查询请求用于查询影片,则每个查询关键词的属性包括以下任一属性:人物实体词,影片名称,至少一个影片修饰属性,至少一个人物修饰属性;
所述节点类型包括人物节点、影片节点、人物属性节点、影片属性节点中的至少一个。
7.根据权利要求1或2所述的方法,其特征在于,所述获取查询请求,包括:
接收用户输入的查询请求;
或者,
采集获取用户的语音,并对所述语音进行语音识别处理,得到所述查询请求。
8.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
推送所述查询请求对应的所述内容。
9.一种内容的检索装置,其特征在于,所述装置包括:
接收模块,用于接收查询请求,所述查询请求包括用户输入的查询语句;
处理模块,用于:
对所述查询语句进行预处理,得到所述查询请求对应的词语属性列表,所述词语属性列表中包括所述查询语句中的至少一个查询关键词以及每个查询关键词对应的属性;
根据所述词语属性列表,构建语义树,所述语义树中的节点由所述词语属性列表中的查询关键词组成;
根据所述语义树生成查询语言;
根据所述查询语言查询获取所述查询请求对应的内容。
10.根据权利要求9所述的装置,其特征在于,所述处理模块具体用于:
基于预设词库对所述查询语句进行分词处理和属性标注,得到所述查询语句对应的至少一个查询关键词,以及每个查询关键词的属性,所述预设词库中包含与场景相匹配的细粒度属性标注;
根据所述查询语句对应的至少一个查询关键词以及每个查询关键词的属性,生成所述词语属性列表。
11.根据权利要求9或10所述的装置,其特征在于,所述处理模块具体用于:
根据预设的节点类型,获取所述词语属性列表中的每个查询关键词所属的节点类型;
根据每个节点类型,构建对应的语义子树;
根据每个语义子树的修饰关系,确定语义子树之间的层级关系;
根据所述层级关系,对语义子树进行合并,构建语义树。
12.根据权利要求11所述的装置,其特征在于,所述处理模块具体用于:
若第一节点类型包括至少一个查询关键词,则创建第一语义子树的根节点;
将所述第一节点类型对应的查询关键词添加到所述第一语义子树的根节点,作为所述第一语义子树的叶子节点。
13.根据权利要求12所述的装置,其特征在于,在所述创建第一语义子树的根节点之前,所述处理模块还用于:
若所述第一节点类型包括多属性节点,则根据所述多属性节点对应的查询关键词后和/或前的查询关键词所属的节点类型,确定所述多属性节点所属的第二节点类型,并将所述多属性节点确定为所述第二节点类型的属性节点;
其中,所述多属性节点对应的查询关键词属于至少两种节点类型。
14.根据权利要求13所述的装置,其特征在于,若所述查询请求用于查询影片,则每个查询关键词的属性包括以下任一属性:人物实体词,影片名称,至少一个影片修饰属性,至少一个人物修饰属性;
所述节点类型包括人物节点、影片节点、人物属性节点、影片属性节点中的至少一个。
15.根据权利要求9或10所述的装置,其特征在于,所述获取模块具体用于:
接收用户输入的查询请求;
或者,
采集获取用户的语音,并对所述语音进行语音识别处理,得到所述查询请求。
16.根据权利要求9或10所述的装置,其特征在于,所述装置还包括:
推送模块,用于推送所述查询请求对应的所述内容。
17.一种终端设备,其特征在于,包括:
处理器、存储器、接收器和发送器;
存储器用于存储程序和数据,所述处理器调用存储器存储的程序,以执行权利要求1至8任一项所述的内容的检索方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行权利要求1至8任一项所述的内容的检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910101810.9A CN109670033B (zh) | 2019-02-01 | 2019-02-01 | 内容的检索方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910101810.9A CN109670033B (zh) | 2019-02-01 | 2019-02-01 | 内容的检索方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670033A true CN109670033A (zh) | 2019-04-23 |
CN109670033B CN109670033B (zh) | 2021-01-12 |
Family
ID=66150917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910101810.9A Active CN109670033B (zh) | 2019-02-01 | 2019-02-01 | 内容的检索方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670033B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209772A (zh) * | 2019-06-17 | 2019-09-06 | 科大讯飞股份有限公司 | 一种文本处理方法、装置、设备及可读存储介质 |
CN110321408A (zh) * | 2019-05-30 | 2019-10-11 | 重庆金融资产交易所有限责任公司 | 基于知识图谱的搜索方法、装置、计算机设备和存储介质 |
CN110659422A (zh) * | 2019-09-27 | 2020-01-07 | 百度在线网络技术(北京)有限公司 | 检索方法、装置、电子设备及存储介质 |
CN111797115A (zh) * | 2020-06-28 | 2020-10-20 | 中国工商银行股份有限公司 | 一种员工信息的搜索方法及装置 |
CN115934921A (zh) * | 2023-03-03 | 2023-04-07 | 北京远鉴信息技术有限公司 | 一种任务式回答的确定方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060031202A1 (en) * | 2004-08-06 | 2006-02-09 | Chang Kevin C | Method and system for extracting web query interfaces |
CN101770473A (zh) * | 2008-12-30 | 2010-07-07 | 华中科技大学 | 层次化语义脉络文档查询方法 |
CN105900081A (zh) * | 2013-02-19 | 2016-08-24 | 谷歌公司 | 基于自然语言处理的搜索 |
CN107451153A (zh) * | 2016-05-31 | 2017-12-08 | 北京京东尚科信息技术有限公司 | 输出结构化查询语句的方法和装置 |
CN108804521A (zh) * | 2018-04-27 | 2018-11-13 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答*** |
-
2019
- 2019-02-01 CN CN201910101810.9A patent/CN109670033B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060031202A1 (en) * | 2004-08-06 | 2006-02-09 | Chang Kevin C | Method and system for extracting web query interfaces |
CN101770473A (zh) * | 2008-12-30 | 2010-07-07 | 华中科技大学 | 层次化语义脉络文档查询方法 |
CN105900081A (zh) * | 2013-02-19 | 2016-08-24 | 谷歌公司 | 基于自然语言处理的搜索 |
CN107451153A (zh) * | 2016-05-31 | 2017-12-08 | 北京京东尚科信息技术有限公司 | 输出结构化查询语句的方法和装置 |
CN108804521A (zh) * | 2018-04-27 | 2018-11-13 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答*** |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321408A (zh) * | 2019-05-30 | 2019-10-11 | 重庆金融资产交易所有限责任公司 | 基于知识图谱的搜索方法、装置、计算机设备和存储介质 |
CN110209772A (zh) * | 2019-06-17 | 2019-09-06 | 科大讯飞股份有限公司 | 一种文本处理方法、装置、设备及可读存储介质 |
CN110209772B (zh) * | 2019-06-17 | 2021-10-08 | 科大讯飞股份有限公司 | 一种文本处理方法、装置、设备及可读存储介质 |
CN110659422A (zh) * | 2019-09-27 | 2020-01-07 | 百度在线网络技术(北京)有限公司 | 检索方法、装置、电子设备及存储介质 |
CN111797115A (zh) * | 2020-06-28 | 2020-10-20 | 中国工商银行股份有限公司 | 一种员工信息的搜索方法及装置 |
CN115934921A (zh) * | 2023-03-03 | 2023-04-07 | 北京远鉴信息技术有限公司 | 一种任务式回答的确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109670033B (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN109670033A (zh) | 内容的检索方法、装置、设备及存储介质 | |
US10726204B2 (en) | Training data expansion for natural language classification | |
CN111695345B (zh) | 文本中实体识别方法、以及装置 | |
US11934394B2 (en) | Data query method supporting natural language, open platform, and user terminal | |
US11966389B2 (en) | Natural language to structured query generation via paraphrasing | |
US11263208B2 (en) | Context-sensitive cross-lingual searches | |
CN104469029B (zh) | 通过语音进行查号的方法及装置 | |
WO2023024975A1 (zh) | 文本处理方法、装置和电子设备 | |
Smirnov et al. | Recommendation system for tourist attraction information service | |
CN111538818B (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN112650842A (zh) | 基于人机交互的客服机器人意图识别方法及相关设备 | |
CN116628328A (zh) | 一种基于功能语义和结构交互的Web API推荐方法及装置 | |
CN111538817B (zh) | 人机交互方法和装置 | |
CN116186197A (zh) | 话题推荐方法、装置、电子设备及存储介质 | |
CN110147223A (zh) | 组件库的生成方法、装置及设备 | |
CN112836057B (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
CN114880520B (zh) | 视频标题生成方法、装置、电子设备和介质 | |
KR101602342B1 (ko) | 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 | |
CN115730591A (zh) | 基于知识图谱的用户服务方法、装置、设备和存储介质 | |
CN115454554A (zh) | 文本描述的生成方法、装置、终端及存储介质 | |
CN114817447A (zh) | 文本处理方法、装置、存储介质、电子设备及*** | |
CN115062150A (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
CN111626059B (zh) | 一种信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 266555 Qingdao economic and Technological Development Zone, Shandong, Hong Kong Road, No. 218 Applicant after: Hisense Visual Technology Co., Ltd. Address before: 266555 Qingdao economic and Technological Development Zone, Shandong, Hong Kong Road, No. 218 Applicant before: QINGDAO HISENSE ELECTRONICS Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |