CN108052659B - 基于人工智能的搜索方法、装置和电子设备 - Google Patents
基于人工智能的搜索方法、装置和电子设备 Download PDFInfo
- Publication number
- CN108052659B CN108052659B CN201711464202.1A CN201711464202A CN108052659B CN 108052659 B CN108052659 B CN 108052659B CN 201711464202 A CN201711464202 A CN 201711464202A CN 108052659 B CN108052659 B CN 108052659B
- Authority
- CN
- China
- Prior art keywords
- text structure
- query
- result
- generate
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于人工智能的搜索方法、装置和电子设备,其中,基于人工智能的搜索方法包括:获取输入的查询语句;切分查询语句,得到多个分词组成的分词序列;对分词序列进行结构化分析,生成文本结构;基于文本结构,对分词序列进行知识化分析,生成语义分析结果;根据文本结构和语义分析结果,确定查询语句对应的理解结果。本发明实施例的基于人工智能的搜索方法、装置和电子设备,通过对查询语句进行结构化分析和知识化分析,得到文本结构和语义分析结果,从而确定查询语句对应的理解结果,降低搜索结果的误召回,提高准确率,满足用户需求。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于人工智能的搜索方法、装置和电子设备。
背景技术
传统的搜索引擎,对query(查询信息)的理解,主要还是将query切分为多个关键词来进行解析。具体地,可先对query进行分词,生成由多个关键词(keyword)组成的序列,并为每个关键词分配一定的权重(weight)。然后,对待检索内容(比如互联网网页)同样做分词,生成分词(term)序列,并分配一定的权重。计算两个序列中分词的重合程度(相似度),同时配合权重计算得分,得到一个纯文本相关度的排序结果。最后,基于用户对原始排序结果不断地点击行为的记录,动态调整排序结果,从而得到用户更愿意点击或停留的搜索结果。
但是,上述方法并没有对query进行更深层次地理解,依靠比较扁平化的关键词序列来召回排序结果,依靠用户的历史行为来优化排序结果,准确率并不高,无法满足用户的需求。
发明内容
本发明提供一种基于人工智能的搜索方法、装置和电子设备,以解决上述技术问题中的至少一个。
本发明实施例提供一种基于人工智能的搜索方法,包括:获取输入的查询语句;
切分所述查询语句,得到多个分词组成的分词序列;
对所述分词序列进行结构化分析,生成文本结构;
基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果;
根据所述文本结构和所述语义分析结果,确定所述查询语句对应的理解结果。
可选的,对所述分词序列进行结构化分析,生成文本结构,包括:
基于历史查询日志,对所述分词序列进行共现挖掘和同义挖掘,以获取多个扩展查询语句;
基于预设聚类算法,对所述多个扩展查询语句进行聚类;
对聚类后的所述多个扩展查询语句进行结构抽取,以生成所述文本结构。
可选的,在生成所述文本结构之后,还包括:
对所述文本结构进行泛化和等价归一。
可选的,基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果,包括:
对所述分词序列进行需求识别,以生成需求识别结果;
基于知识库,对所述需求识别结果进行概念识别,以生成概念识别结果;
基于所述知识库,对所述概念识别结果进行意图识别,以生成所述语义分析结果。
可选的,对聚类后的所述多个扩展查询语句进行结构抽取,以生成所述文本结构,包括:
基于所述多个扩展查询语句之间的重叠的频度和错位的长尾性,获取所述多个扩展查询语句之间的共性的序列区间和特异性的序列区间;
基于预设类型的槽位,替换所述多个扩展查询语句之间的特异性的序列区间;
基于所述共性的序列区间和所述预设类型的槽位,生成所述文本结构。
可选的,对所述文本结构进行泛化和等价归一,包括:
对所述文本结构和候选文本结构填充相同的多组语义成分,以生成所述文本结构对应的第一查询语句和所述候选文本结构对应的第二查询语句;
基于所述第一查询语句进行查询获取第一搜索结果;
基于所述第二查询语句进行查询获取第二搜索结果;
计算所述第一搜索结果和所述第二搜索结果的点击共现分数;
当所述点击共现分数大于预设分数时,确定所述候选文本结构与所述文本结构等价。
可选的,对所述分词序列进行需求识别,以生成需求识别结果,包括:
提取所述分词序列对应的查询语句特征;
获取与所述查询语句对应的搜索结果的特征;
根据所述查询语句特征和所述搜索结果的特征生成所述需求识别结果。
可选的,所述搜索结果的特征包括题目特征、摘要特征、位置特征、样式特征中的至少一种。
可选的,在根据所述查询语句特征和所述搜索结果的特征生成所述需求识别结果之后,还包括:
对所述需求识别结果进行需求消歧。
可选的,对所述需求识别结果进行需求消歧,包括:
获取与所述查询语句对应的搜索结果的语义片段;
利用预设模型获得所述语义片段中的实体标签;
基于所述实体标签对所述需求识别结果进行需求消歧。
本发明另一实施例提供一种基于人工智能的搜索装置,包括:获取模块,用于获取输入的查询语句;
切分模块,用于切分所述查询语句,得到多个分词组成的分词序列;
结构化分析模块,用于对所述分词序列进行结构化分析,生成文本结构;
知识化分析模块,用于基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果;
确定模块,用于根据所述文本结构和所述语义分析结果,确定所述查询语句对应的理解结果。
可选的,所述结构化分析模块,用于:
基于历史查询日志,对所述分词序列进行共现挖掘和同义挖掘,以获取多个扩展查询语句;
基于预设聚类算法,对所述多个扩展查询语句进行聚类;
对聚类后的所述多个扩展查询语句进行结构抽取,以生成所述文本结构。
可选的,还包括:
处理模块,用于在生成所述文本结构之后,对所述文本结构进行泛化和等价归一。
可选的,所述知识化分析模块,用于:
对所述分词序列进行需求识别,以生成需求识别结果;
基于知识库,对所述需求识别结果进行概念识别,以生成概念识别结果;
基于所述知识库,对所述概念识别结果进行意图识别,以生成所述语义分析结果。
可选的,所述结构化分析模块,具体用于:
基于所述多个扩展查询语句之间的重叠的频度和错位的长尾性,获取所述多个扩展查询语句之间的共性的序列区间和特异性的序列区间;
基于预设类型的槽位,替换所述多个扩展查询语句之间的特异性的序列区间;
基于所述共性的序列区间和所述预设类型的槽位,生成所述文本结构。
可选的,所述处理模块,用于:
对所述文本结构和候选文本结构填充相同的多组语义成分,以生成所述文本结构对应的第一查询语句和所述候选文本结构对应的第二查询语句;
基于所述第一查询语句进行查询获取第一搜索结果;
基于所述第二查询语句进行查询获取第二搜索结果;
计算所述第一搜索结果和所述第二搜索结果的点击共现分数;
当所述点击共现分数大于预设分数时,确定所述候选文本结构与所述文本结构等价。
可选的,所述知识化分析模块,具体用于:
提取所述分词序列对应的查询语句特征;
获取与所述查询语句对应的搜索结果的特征;
根据所述查询语句特征和所述搜索结果的特征生成所述需求识别结果。
可选的,所述搜索结果的特征包括题目特征、摘要特征、位置特征、样式特征中的至少一种。
可选的,所述知识化分析模块,还用于:
在根据所述查询语句特征和所述搜索结果的特征生成所述需求识别结果之后,对所述需求识别结果进行需求消歧。
可选的,所述知识化分析模块,具体用于:
获取与所述查询语句对应的搜索结果的语义片段;
利用预设模型获得所述语义片段中的实体标签;
基于所述实体标签对所述需求识别结果进行需求消歧。
本发明还一实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述的基于人工智能的搜索方法。
本发明又一实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于执行本发明第一方面实施例所述的基于人工智能的搜索方法。
本发明实施例提供的技术方案可以包括以下有益效果:
通过获取输入的查询语句,并切分所述查询语句,得到多个分词组成的分词序列,以及对所述分词序列进行结构化分析,生成文本结构,然后基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果,最后根据所述文本结构和所述语义分析结果,确定所述查询语句对应的理解结果,降低搜索结果的误召回,提高准确率,满足用户需求。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的基于人工智能的搜索方法的流程图;
图2是根据本发明一个实施例的生成文本结构的流程图;
图3是根据本发明另一个实施例的生成文本结构的流程图;
图4是根据本发明一个实施例的生成语义分析结果的流程图;
图5是根据本发明一个具体实施例的query理解过程的示意图;
图6是根据本发明一个具体实施例的获得pattern结构的示意图;
图7是根据本发明一个具体实施例的需求识别过程的示意图;
图8是根据本发明一个实施例的基于人工智能的搜索装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的搜索方法、装置和电子设备。
通用语义理解(query understanding),是对用户输入的查询信息query按照自然语言理解的方式,进行需求细化的技术,是搜索引擎进行信息或知识检索的必要前置环节。传统的搜索引擎,对query(查询信息)的理解,主要还是将query切分为多个关键词来进行解析。具体地,可先对query进行分词,生成由多个关键词(keyword)组成的序列,并为每个关键词分配一定的权重(weight)。然后,对待检索内容(比如互联网网页)同样做分词,生成分词(term)序列,并分配一定的权重。计算两个序列中分词的重合程度(相似度),同时配合权重计算得分,得到一个纯文本相关度的排序结果。最后,基于用户对原始排序结果不断地点击行为的记录,动态调整排序结果,从而得到用户更愿意点击或停留的搜索结果。但是,上述方法并没有对query进行更深层次地理解,依靠比较扁平化的关键词序列来召回排序结果,依靠用户的历史行为来优化排序结果,准确率并不高,无法满足用户的需求。由于只是分词匹配,传统搜索引擎对关键词本身也不具有等价和同义替换的扩招能力。如果把每个分词当作一种最简单的无差别词槽,把分词序列顺序当做一种最简单的语义结构(pattern),其对应的解析结果也不具备泛化能力,没有成形的描述体系,无法做到有结构的通用化。
经过多年发展和用户习惯迭代,搜索引擎已经从最初的关键词(keyword)型搜索,进化为自然语言(Natural Language)型搜索。同时移动端的多模输入技术(如语音输入、拍照识别图中文字等),对自然语言型搜索提出了更高的要求。
为此,本发明提出一种基于人工智能的搜索方法,来解决搜索引擎在自然语言型query(同时兼容关键词型query)下,对用户需求,包括限定、语义、意图等多种因素在内的结构化理解,为优化搜索引擎结果相关性、结果知识信息满足度,以及搜索场景下人工智能应用(比如问答技术)提供支持,进而优化召回的搜索结果,提高准确率,满足用户需求。
图1是根据本发明一个实施例的基于人工智能的搜索方法的流程图。
如图1所示,该基于人工智能的搜索方法包括:
S101,获取输入的查询语句。
在本发明的一个实施例中,可获取用户输入的查询语句。
S102,切分查询语句,得到多个分词组成的分词序列。
在获取查询语句后,可切分查询语句,得到多个分词组成的分词序列。
S103,对分词序列进行结构化分析,生成文本结构。
在本发明的一个实施例中,如图2所示,对分词序列进行结构化分析,生成文本结构,具体可分为以下步骤:
S1031,基于历史查询日志,对分词序列进行共现挖掘和同义挖掘,以获取多个扩展查询语句。
S1032,基于预设聚类算法,对多个扩展查询语句进行聚类。
S1033,对聚类后的多个扩展查询语句进行结构抽取,以生成文本结构。
具体地,首先可基于多个扩展查询语句之间的重叠的频度和错位的长尾性,获取多个扩展查询语句之间的共性的序列区间和特异性的序列区间。其次,再基于预设类型的槽位,替换多个扩展查询语句之间的特异性的序列区间。然后,基于共性的序列区间和预设类型的槽位,生成文本结构。
在本发明的另一个实施例中,如图3所示,在生成文本结构之后,还包括以下步骤:
S1034,对文本结构进行泛化和等价归一。
在本发明的一个实施例中,首先可对文本结构和候选文本结构填充相同的多组语义成分,以生成文本结构对应的第一查询语句和候选文本结构对应的第二查询语句。再基于第一查询语句进行查询获取第一搜索结果,然后基于第二查询语句进行查询获取第二搜索结果。在此之后,可计算第一搜索结果和第二搜索结果的点击共现分数。当点击共现分数大于预设分数时,确定候选文本结构与文本结构等价。
S104,基于文本结构,对分词序列进行知识化分析,生成语义分析结果。
在本发明的一个实施例中,如图4所示,基于文本结构,对分词序列进行知识化分析,生成语义分析结果,可包括以下步骤:
S1041,对分词序列进行需求识别,以生成需求识别结果。
具体地,首先可提取分词序列对应的查询语句特征,然后获取与查询语句对应的搜索结果的特征,再根据查询语句特征和搜索结果的特征生成需求识别结果。
其中,搜索结果的特征包括题目特征、摘要特征、位置特征、样式特征中的至少一种。
在根据查询语句特征和搜索结果的特征生成需求识别结果之后,还可对需求识别结果进行需求消歧。
具体地,可获取与查询语句对应的搜索结果的语义片段,再利用预设模型获得语义片段中的实体标签,然后基于实体标签对需求识别结果进行需求消歧。
S1042,基于知识库,对需求识别结果进行概念识别,以生成概念识别结果。
S1043,基于知识库,对概念识别结果进行意图识别,以生成语义分析结果。
其中,需求识别为识别对象,概念识别为做什么,意图识别则是对象要做什么。
S105,根据文本结构和语义分析结果,确定查询语句对应的理解结果。
下面以一个具体实例进行描述:
在本实施例中,将query理解的过程分为语义的结构化分析(形式化理解),和语义的知识化分析(知识理解)两个部分。其中,结构化分析是指解析出query的语义结构。不同于自然语言常见的主谓宾语法结构,本实施例所解析的是语义结构。也就是说,将query解析为一个形式化表达,即语义结构pattern。每个pattern代表了一类query,其代表了某一类query最通用的文本结构被形式化抽象后的结果。而知识化分析,则是对pattern中的每个填充变量(语义成分)进行语义分析。语义成分的知识化分析,是一个递进的层次体系,包括需求识别、概念识别、意图识别以及对需求的约束、对概念的约束和对意图的约束。如图5所示,在获取一个query之后,首先要做的就是对query进行文本分词,得到一个分词序列。同时,基于历史查询日志,进行共现挖掘和同义挖掘,挖掘出多个扩展query。然后结合分词序列,进入形式化理解过程。通过一定的聚类算法,对挖掘结果进行聚类。再进行形式化结构抽取得到pattern。然后对pattern进行泛化和等价归一。在此之后,将泛化和等价归一后的pattern结合分词序列,进行知识化分析,输出语义成分。具体地,基于知识库中,依次进行需求识别、概念识别、意图识别。其中,对需求的约束、对概念的约束和对意图的约束即分别为相应的约束条件。在识别出概念和意图之后,还可将概念加入至概念/实体知识体系,意图加入至意图表达体系,将这两个体系保存入知识库中,以更新知识库。最后一步,将pattern和语义成分结合,最终输入query理解结果。
其中,如图6所示,在形式化理解过程中,对query语义结构的形式化解析,不是一个单轮单向的过程,而是基于一定规模的query集合,提取它们中的共性,剥离特异性。具体地,将query1至queryN通过基本分词(或者基于已有知识库的高级分词),将文本转换为离散分词序列。通过计算多组语义基本等价的分词序列之间的位置重叠与错位关系,得到重叠的频度和错位的长尾性,确定分词序列共性的序列区间(pattern主干)。最后用一种带类型的槽位(Slot)替换特异性的序列区间,最终获得pattern结构。
通过聚类算法得到的pattern,主要针对的是具有强烈共性的query,会导致大量相对零散、共性特征不强烈的query被算法模型忽略,这会导致语义pattern的覆盖不足的问题。需要经过泛化,弥补这一部分损失的覆盖,同时对pattern体系进行同义等价关系的归一。具体地,算法策略如下:
1)将patternA和patternB填充相同的多组典型的slot值(语义成分)还原成原始的搜索query形态。
2)分别获得两组query在搜索引擎上得到搜索结果。
3)统计两组搜索结果,被用户有效且满意点击的相同结果的数量,即点击共现(除点击共现外,也可包括其他相关指标,本实施例不进行限定)。
4)重复上述步骤,计算patternA与其他pattern的点击共现。
5)根据多组点击共现的分布情况,统计得到patternA和其他pattern临近“等价”的阈值分数。高于此阈值分数的pattern,则确定为patternA的等价pattern。
本发明通过将搜索query理解延伸到语义和知识层面(需求/概念/意图),依靠知识库分别针对性地提高识别的准确率,降低搜索结果的误召回,提高首位搜索结果的相关性。同时,query的形式化理解和知识理解,均具有泛化和抽象能力,从广度上不限于单个垂类领域,从深度上不限于文本特征,有良好的通用性和可迁移性,提升召回能力,提高召回准确率。
另外,在知识化分析过程中,具体可包括需求识别。需求识别可分为需求分类和需求消歧两部分。需求分类侧重于获得query所处的垂类领域,比如娱乐人物、影视作品、物理常识、诗词古文等,反映用户搜索这个query的最粗略的分类。而需求消歧义,则是指用户输入的query的需求已经指向了其中一个领域下的一个具体的实体或概念时,在没有其他约束的情况下,且该实体或概念具有多个同名的可选集合时,通过需求消歧来确定用户潜在的需求到底指向哪一个具体的实体。实际应用场景,比如query为“天龙八部播出时间”,需要先识别需求是影视剧类目,还是小说类目,如果是影视剧,则当天龙八部存在多个版本时具体指哪一版本。
如图7所示,需求识别过程,可利用循环神经网络(RNN,Recurrent NeuralNetworks)模型得到query特征。另一方面,利用搜索引擎,召回排名前N名的搜索结果。对上述搜索结果进行页面分析,通过RNN模型和/或卷积神经网络CNN模型得到题目特征、摘要特征、位置特征、样式特征。将上述特征结合query特征,输入至深度神经网络DNN模型,得到query的需求分类。此外,通过对搜索结果的页面分析,还可得到语义片段。基于得到的语义片段经过CNN模型,再经过注意力attention模型,以及序列标注模型,得到对应的实体标签。再基于知识库,利用实体标签,对得到的需求分类进行需求消歧。
本发明实施例的基于人工智能的搜索方法,通过获取输入的查询语句,并切分查询语句,得到多个分词组成的分词序列,以及对分词序列进行结构化分析,生成文本结构,然后基于文本结构,对分词序列进行知识化分析,生成语义分析结果,最后根据文本结构和语义分析结果,确定查询语句对应的理解结果,降低搜索结果的误召回,提高准确率,满足用户需求。
为了实现上述实施例,本发明还提出了一种基于人工智能的搜索装置,图8是根据本发明一个实施例的基于人工智能的搜索装置的结构框图,如图8所示,该装置包括获取模块810、切分模块820、结构化分析模块830、知识化分析模块840以及确定模块850。
其中,获取模块810,用于获取输入的查询语句。
切分模块820,用于切分查询语句,得到多个分词组成的分词序列。
结构化分析模块830,用于对分词序列进行结构化分析,生成文本结构。
知识化分析模块840,用于基于文本结构,对分词序列进行知识化分析,生成语义分析结果。
确定模块850,用于根据文本结构和语义分析结果,确定查询语句对应的理解结果。
需要说明的是,前述对基于人工智能的搜索方法的解释说明,也适用于本发明实施例的基于人工智能的搜索装置,本发明实施例中未公布的细节,在此不再赘述。
本发明实施例的基于人工智能的搜索装置,通过获取输入的查询语句,并切分查询语句,得到多个分词组成的分词序列,以及对分词序列进行结构化分析,生成文本结构,然后基于文本结构,对分词序列进行知识化分析,生成语义分析结果,最后根据文本结构和语义分析结果,确定查询语句对应的理解结果,降低搜索结果的误召回,提高准确率,满足用户需求。
为了实现上述实施例,本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面实施例的基于人工智能的搜索方法。
为了实现上述实施例,本发明还提出了一种电子设备。
电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器用于执行本发明第一方面实施例的基于人工智能的搜索方法。
例如,计算机程序可被处理器执行以完成以下步骤的基于人工智能的搜索方法:
S101’,获取输入的查询语句。
S102’,切分查询语句,得到多个分词组成的分词序列。
S103’,对分词序列进行结构化分析,生成文本结构。
S104’,基于文本结构,对分词序列进行知识化分析,生成语义分析结果。
S105’,根据文本结构和语义分析结果,确定查询语句对应的理解结果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (22)
1.一种基于人工智能的搜索方法,其特征在于,包括:
获取输入的查询语句;
切分所述查询语句,得到多个分词组成的分词序列;
对所述分词序列进行结构化分析,生成文本结构;
基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果,所述知识化分析包括对语义结构中的每个语义成分进行语义分析;
根据所述文本结构和所述语义分析结果,确定所述查询语句对应的理解结果;
所述结构化分析包括:计算多组语义基本等价的所述分词序列之间的位置重叠与错位关系,计算重叠的频度和错位的长尾性,得到分词序列共性的序列区间和特异性的序列区间;基于带类型的槽位,替换所述特异性的序列区间生成所述文本结构。
2.如权利要求1所述的方法,其特征在于,对所述分词序列进行结构化分析,生成文本结构,包括:
基于历史查询日志,对所述分词序列进行共现挖掘和同义挖掘,以获取多个扩展查询语句;
基于预设聚类算法,对所述多个扩展查询语句进行聚类;
对聚类后的所述多个扩展查询语句进行结构抽取,以生成所述文本结构。
3.如权利要求2所述的方法,其特征在于,在生成所述文本结构之后,还包括:
对所述文本结构进行泛化和等价归一。
4.如权利要求1所述的方法,其特征在于,基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果,包括:
对所述分词序列进行需求识别,以生成需求识别结果;
基于知识库,对所述需求识别结果进行概念识别,以生成概念识别结果;
基于所述知识库,对所述概念识别结果进行意图识别,以生成所述语义分析结果。
5.如权利要求2所述的方法,其特征在于,对聚类后的所述多个扩展查询语句进行结构抽取,以生成所述文本结构,包括:
基于所述多个扩展查询语句之间的重叠的频度和错位的长尾性,获取所述多个扩展查询语句之间的共性的序列区间和特异性的序列区间;
基于预设类型的槽位,替换所述多个扩展查询语句之间的特异性的序列区间;
基于所述共性的序列区间和所述预设类型的槽位,生成所述文本结构。
6.如权利要求3所述的方法,其特征在于,对所述文本结构进行泛化和等价归一,包括:
对所述文本结构和候选文本结构填充相同的多组语义成分,以生成所述文本结构对应的第一查询语句和所述候选文本结构对应的第二查询语句;
基于所述第一查询语句进行查询获取第一搜索结果;
基于所述第二查询语句进行查询获取第二搜索结果;
计算所述第一搜索结果和所述第二搜索结果的点击共现分数;
当所述点击共现分数大于预设分数时,确定所述候选文本结构与所述文本结构等价。
7.如权利要求4所述的方法,其特征在于,对所述分词序列进行需求识别,以生成需求识别结果,包括:
提取所述分词序列对应的查询语句特征;
获取与所述查询语句对应的搜索结果的特征;
根据所述查询语句特征和所述搜索结果的特征生成所述需求识别结果。
8.如权利要求7所述的方法,其特征在于,所述搜索结果的特征包括题目特征、摘要特征、位置特征、样式特征中的至少一种。
9.如权利要求7所述的方法,其特征在于,在根据所述查询语句特征和所述搜索结果的特征生成所述需求识别结果之后,还包括:
对所述需求识别结果进行需求消歧。
10.如权利要求9所述的方法,其特征在于,对所述需求识别结果进行需求消歧,包括:
获取与所述查询语句对应的搜索结果的语义片段;
利用预设模型获得所述语义片段中的实体标签;
基于所述实体标签对所述需求识别结果进行需求消歧。
11.一种基于人工智能的搜索装置,其特征在于,包括:
获取模块,用于获取输入的查询语句;
切分模块,用于切分所述查询语句,得到多个分词组成的分词序列;
结构化分析模块,用于对所述分词序列进行结构化分析,生成文本结构;
知识化分析模块,用于基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果,所述知识化分析包括对语义结构中的每个语义成分进行语义分;
确定模块,用于根据所述文本结构和所述语义分析结果,确定所述查询语句对应的理解结果;
所述结构化分析包括:计算多组语义基本等价的所述分词序列之间的位置重叠与错位关系,计算重叠的频度和错位的长尾性,得到分词序列共性的序列区间和特异性的序列区间;基于带类型的槽位,替换所述特异性的序列区间生成所述文本结构。
12.如权利要求11所述的装置,其特征在于,所述结构化分析模块,用于:
基于历史查询日志,对所述分词序列进行共现挖掘和同义挖掘,以获取多个扩展查询语句;
基于预设聚类算法,对所述多个扩展查询语句进行聚类;
对聚类后的所述多个扩展查询语句进行结构抽取,以生成所述文本结构。
13.如权利要求12所述的装置,其特征在于,所述结构化分析模块,还用于:
在生成所述文本结构之后,对所述文本结构进行泛化和等价归一。
14.如权利要求11所述的装置,其特征在于,所述知识化分析模块,用于:
对所述分词序列进行需求识别,以生成需求识别结果;
基于知识库,对所述需求识别结果进行概念识别,以生成概念识别结果;
基于所述知识库,对所述概念识别结果进行意图识别,以生成所述语义分析结果。
15.如权利要求12所述的装置,其特征在于,所述结构化分析模块,具体用于:
基于所述多个扩展查询语句之间的重叠的频度和错位的长尾性,获取所述多个扩展查询语句之间的共性的序列区间和特异性的序列区间;
基于预设类型的槽位,替换所述多个扩展查询语句之间的特异性的序列区间;
基于所述共性的序列区间和所述预设类型的槽位,生成所述文本结构。
16.如权利要求13所述的装置,其特征在于,处理模块,用于:
对所述文本结构和候选文本结构填充相同的多组语义成分,以生成所述文本结构对应的第一查询语句和所述候选文本结构对应的第二查询语句;
基于所述第一查询语句进行查询获取第一搜索结果;
基于所述第二查询语句进行查询获取第二搜索结果;
计算所述第一搜索结果和所述第二搜索结果的点击共现分数;
当所述点击共现分数大于预设分数时,确定所述候选文本结构与所述文本结构等价。
17.如权利要求14所述的装置,其特征在于,所述知识化分析模块,具体用于:
提取所述分词序列对应的查询语句特征;
获取与所述查询语句对应的搜索结果的特征;
根据所述查询语句特征和所述搜索结果的特征生成所述需求识别结果。
18.如权利要求17所述的装置,其特征在于,所述搜索结果的特征包括题目特征、摘要特征、位置特征、样式特征中的至少一种。
19.如权利要求17所述的装置,其特征在于,所述知识化分析模块,还用于:
在根据所述查询语句特征和所述搜索结果的特征生成所述需求识别结果之后,对所述需求识别结果进行需求消歧。
20.如权利要求19所述的装置,其特征在于,所述知识化分析模块,具体用于:
获取与所述查询语句对应的搜索结果的语义片段;
利用预设模型获得所述语义片段中的实体标签;
基于所述实体标签对所述需求识别结果进行需求消歧。
21.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~10任一项所述的基于人工智能的搜索方法。
22.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~10任一项所述的基于人工智能的搜索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711464202.1A CN108052659B (zh) | 2017-12-28 | 2017-12-28 | 基于人工智能的搜索方法、装置和电子设备 |
US16/157,204 US11275898B2 (en) | 2017-12-28 | 2018-10-11 | Search method and device based on artificial intelligence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711464202.1A CN108052659B (zh) | 2017-12-28 | 2017-12-28 | 基于人工智能的搜索方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108052659A CN108052659A (zh) | 2018-05-18 |
CN108052659B true CN108052659B (zh) | 2022-03-11 |
Family
ID=62128214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711464202.1A Active CN108052659B (zh) | 2017-12-28 | 2017-12-28 | 基于人工智能的搜索方法、装置和电子设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11275898B2 (zh) |
CN (1) | CN108052659B (zh) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10997225B2 (en) | 2018-03-20 | 2021-05-04 | The Boeing Company | Predictive query processing for complex system lifecycle management |
CN108776677B (zh) * | 2018-05-28 | 2021-11-12 | 深圳前海微众银行股份有限公司 | 平行语句库的创建方法、设备及计算机可读存储介质 |
CN108959412B (zh) * | 2018-06-07 | 2021-09-14 | 出门问问信息科技有限公司 | 标注数据的生成方法、装置、设备及存储介质 |
CN108932326B (zh) * | 2018-06-29 | 2021-02-19 | 北京百度网讯科技有限公司 | 一种实例扩展方法、装置、设备和介质 |
CN109033075B (zh) * | 2018-06-29 | 2022-04-15 | 北京百度网讯科技有限公司 | 意图匹配的方法、装置、存储介质和终端设备 |
CN109033427B (zh) * | 2018-08-10 | 2021-01-01 | 北京字节跳动网络技术有限公司 | 股票的筛选方法及装置、计算机设备及可读存储介质 |
CN109241524B (zh) * | 2018-08-13 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
CN109145260B (zh) * | 2018-08-24 | 2020-04-24 | 北京科技大学 | 一种文本信息自动提取方法 |
CN109359178A (zh) * | 2018-09-14 | 2019-02-19 | 华南师范大学 | 一种检索方法、装置、存储介质及设备 |
CN111046271B (zh) * | 2018-10-15 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 用于搜索的挖掘方法、装置、存储介质及电子设备 |
CN109635157B (zh) * | 2018-10-30 | 2021-05-25 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频搜索方法、装置、终端及存储介质 |
CN109635197B (zh) * | 2018-12-17 | 2021-08-24 | 北京百度网讯科技有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN111400342A (zh) * | 2019-01-03 | 2020-07-10 | 百度在线网络技术(北京)有限公司 | 数据库更新方法、装置、设备及存储介质 |
CN109740161B (zh) * | 2019-01-08 | 2023-06-20 | 北京百度网讯科技有限公司 | 数据泛化方法、装置、设备和介质 |
CN109947902B (zh) * | 2019-03-06 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置和可读介质 |
US11475216B2 (en) | 2019-06-17 | 2022-10-18 | Microsoft Technology Licensing, Llc | Constructing answers to queries through use of a deep model |
US11966686B2 (en) * | 2019-06-17 | 2024-04-23 | The Boeing Company | Synthetic intelligent extraction of relevant solutions for lifecycle management of complex systems |
CN110245357B (zh) * | 2019-06-26 | 2023-05-02 | 北京百度网讯科技有限公司 | 主实体识别方法和装置 |
US11556711B2 (en) * | 2019-08-27 | 2023-01-17 | Bank Of America Corporation | Analyzing documents using machine learning |
US10839033B1 (en) * | 2019-11-26 | 2020-11-17 | Vui, Inc. | Referring expression generation |
CN111104480A (zh) * | 2019-11-30 | 2020-05-05 | 广东新瑞世纪科技有限公司 | 一种创新型ai智能文本处理*** |
CN111241124B (zh) * | 2020-01-07 | 2023-10-03 | 百度在线网络技术(北京)有限公司 | 一种需求模型构建方法、装置、电子设备和介质 |
CN111259107B (zh) * | 2020-01-10 | 2023-08-18 | 北京百度网讯科技有限公司 | 行列式文本的存储方法、装置以及电子设备 |
CN111400607B (zh) * | 2020-06-04 | 2020-11-10 | 浙江口碑网络技术有限公司 | 搜索内容输出方法、装置、计算机设备及可读存储介质 |
CN113821584A (zh) * | 2020-06-18 | 2021-12-21 | 微软技术许可有限责任公司 | 在知识库问答中的查询语义分析 |
CN111538894B (zh) * | 2020-06-19 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 查询反馈方法、装置、计算机设备及存储介质 |
CN112241631A (zh) * | 2020-10-23 | 2021-01-19 | 平安科技(深圳)有限公司 | 文本语义识别方法、装置、电子设备及存储介质 |
CN112417875B (zh) * | 2020-11-17 | 2023-08-15 | 深圳平安智汇企业信息管理有限公司 | 配置信息的更新方法、装置、计算机设备及介质 |
CN112434137B (zh) * | 2020-12-11 | 2023-04-11 | 乐山师范学院 | 一种基于人工智能的诗词检索方法及*** |
CN112463932A (zh) * | 2020-12-14 | 2021-03-09 | 北京明略软件***有限公司 | 用于信息查询的方法、装置及设备 |
CN112735475B (zh) * | 2020-12-25 | 2023-02-21 | 北京博瑞彤芸科技股份有限公司 | 一种通过语音搜索疾病知识的方法和*** |
CN112818167B (zh) * | 2021-01-28 | 2024-03-22 | 北京百度网讯科技有限公司 | 实体检索方法、装置、电子设备及计算机可读存储介质 |
CN112925883B (zh) * | 2021-02-19 | 2024-01-19 | 北京百度网讯科技有限公司 | 搜索请求处理方法、装置、电子设备及可读存储介质 |
CN113032677A (zh) * | 2021-04-01 | 2021-06-25 | 李旻达 | 一种基于人工智能的查询信息处理方法和装置 |
CN113590645B (zh) * | 2021-06-30 | 2022-05-10 | 北京百度网讯科技有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN113742447B (zh) * | 2021-07-19 | 2024-04-02 | 暨南大学 | 基于查询路径生成的知识图谱问答方法、介质和设备 |
CN113792136B (zh) * | 2021-08-25 | 2024-06-04 | 北京库睿科技有限公司 | 文本数据多样化推荐式搜索方法和*** |
CN114661910A (zh) * | 2022-03-25 | 2022-06-24 | 平安科技(深圳)有限公司 | 一种意图识别方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012900A (zh) * | 2009-09-04 | 2011-04-13 | 阿里巴巴集团控股有限公司 | 信息检索方法和*** |
CN102419778A (zh) * | 2012-01-09 | 2012-04-18 | 中国科学院软件研究所 | 一种挖掘查询语句子话题并聚类的信息搜索方法 |
CN102955857A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070271255A1 (en) * | 2006-05-17 | 2007-11-22 | Nicky Pappo | Reverse search-engine |
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
US8630860B1 (en) * | 2011-03-03 | 2014-01-14 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
US9009144B1 (en) * | 2012-02-23 | 2015-04-14 | Google Inc. | Dynamically identifying and removing potential stopwords from a local search query |
CN103176961B (zh) * | 2013-03-05 | 2017-02-08 | 哈尔滨工程大学 | 一种基于潜在语义分析的迁移学习方法 |
US8788263B1 (en) * | 2013-03-15 | 2014-07-22 | Steven E. Richfield | Natural language processing for analyzing internet content and finding solutions to needs expressed in text |
US20160140232A1 (en) * | 2014-11-18 | 2016-05-19 | Radialpoint Safecare Inc. | System and Method of Expanding a Search Query |
US10229210B2 (en) * | 2015-12-09 | 2019-03-12 | Oracle International Corporation | Search query task management for search system tuning |
US10146815B2 (en) * | 2015-12-30 | 2018-12-04 | Oath Inc. | Query-goal-mission structures |
US10120864B2 (en) * | 2016-03-29 | 2018-11-06 | Conduent Business Services Llc | Method and system for identifying user issues in forum posts based on discourse analysis |
US10762118B2 (en) * | 2017-03-30 | 2020-09-01 | Innoplexus Ag | Method and system of presenting information related to search |
-
2017
- 2017-12-28 CN CN201711464202.1A patent/CN108052659B/zh active Active
-
2018
- 2018-10-11 US US16/157,204 patent/US11275898B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012900A (zh) * | 2009-09-04 | 2011-04-13 | 阿里巴巴集团控股有限公司 | 信息检索方法和*** |
CN102419778A (zh) * | 2012-01-09 | 2012-04-18 | 中国科学院软件研究所 | 一种挖掘查询语句子话题并聚类的信息搜索方法 |
CN102955857A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108052659A (zh) | 2018-05-18 |
US11275898B2 (en) | 2022-03-15 |
US20190205384A1 (en) | 2019-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052659B (zh) | 基于人工智能的搜索方法、装置和电子设备 | |
CN108804521B (zh) | 一种基于知识图谱的问答方法及农业百科问答*** | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
CN107918604B (zh) | 一种中文的分词方法及装置 | |
US20110099133A1 (en) | Systems and methods for capturing and managing collective social intelligence information | |
CN109145110B (zh) | 标签查询方法和装置 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN107357830B (zh) | 基于人工智能的检索语句语义片段获取方法、装置及终端 | |
US9569525B2 (en) | Techniques for entity-level technology recommendation | |
CN109492081B (zh) | 文本信息搜索和信息交互方法、装置、设备及存储介质 | |
CN105302807B (zh) | 一种获取信息类别的方法和装置 | |
CN105653562A (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及*** | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN114021577A (zh) | 内容标签的生成方法、装置、电子设备及存储介质 | |
CN111190873B (zh) | 一种用于云原生***日志训练的日志模式提取方法及*** | |
CN108388556B (zh) | 同类实体的挖掘方法及*** | |
CN113868406B (zh) | 搜索方法、***、计算机可读存储介质 | |
CN111324705A (zh) | 自适应性调整关连搜索词的***及其方法 | |
CN106570116B (zh) | 基于人工智能的搜索结果的聚合方法及装置 | |
CN113705217B (zh) | 一种面向电力领域知识学习的文献推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |