CN112035599B - 基于垂直搜索的查询方法、装置、计算机设备及存储介质 - Google Patents

基于垂直搜索的查询方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112035599B
CN112035599B CN202011229548.5A CN202011229548A CN112035599B CN 112035599 B CN112035599 B CN 112035599B CN 202011229548 A CN202011229548 A CN 202011229548A CN 112035599 B CN112035599 B CN 112035599B
Authority
CN
China
Prior art keywords
query
statement
sentence
keyword
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011229548.5A
Other languages
English (en)
Other versions
CN112035599A (zh
Inventor
李加庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Sushang Bank Co ltd
Original Assignee
Nanjing Xingyun Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xingyun Digital Technology Co Ltd filed Critical Nanjing Xingyun Digital Technology Co Ltd
Priority to CN202011229548.5A priority Critical patent/CN112035599B/zh
Publication of CN112035599A publication Critical patent/CN112035599A/zh
Application granted granted Critical
Publication of CN112035599B publication Critical patent/CN112035599B/zh
Priority to CA3138556A priority patent/CA3138556A1/en
Priority to CA3177671A priority patent/CA3177671A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Low-Molecular Organic Synthesis Reactions Using Catalysts (AREA)

Abstract

本发明公开了一种基于垂直搜索的查询方法、装置、计算机设备及存储介质,该方法包括:对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别;对初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词;利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别;根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句;调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果,实现用于垂直搜索引擎的查询语句的搜索意图识别,提高查询的效率以及提升用户体验。

Description

基于垂直搜索的查询方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于垂直搜索的查询方法、装置、计算机设备及存储介质。
背景技术
目前搜索技术在各个领域均有比较广泛的应用,随着各类信息数据规模的不断增长,为了更高效率地使用内部数据资源,具备相应资源和能力的企业往往倾向于建立垂直搜索引擎,以针对特定应用场景,为内外部客户提供高质量的信息检索服务。
垂直搜索引擎接受用户输入的关键词,在倒排索引文档中进行查询,计算索引内容与输入关键词的相关度,按照相关度进行排序,最后按照相关度由高到低给出搜索结果。一方面,通常企业内部数据往往具备多维度的特征,而查询需求往往需要在多个维度中进行搜索,而且往往用户的输入同时包含了多个属性维度的关键词。另一方面,一个好的垂直搜索引擎不仅需要提供数据的查询功能,还要支持一个输入提供多个维度的数据查询检索能力,以提高查询结果的准确性。因此,这就需要该垂直搜索引擎能够智能地识别用户输入的查询关键词以及其所属的数据属性字段,从而可以为进一步优化搜索查询语句提供支撑,从而提高搜索结果准确性以及提升搜索体验。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于垂直搜索的查询方法、装置、计算机设备以及存储介质,支持垂直领域搜索引擎多字段搜索的意图识别,进而提升搜索结果的精准度以及搜索体验。
为解决上述一个或多个技术问题,本发明采用的技术方案是:
第一方面,提供了一种基于垂直搜索的查询方法,该方法包括如下步骤:
对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别;
对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词,利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别;
根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句;
调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
在一些实施例中,所述对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词包括:
对所述初始查询语句中不满足匹配规则的第二语句进行分词处理,获取分词结果;
根据所述分词结果以及预设规则确定所述第二语句的关键词。
在一些实施例中,对所述初始查询语句中不满足匹配规则的第二语句进行分词处理前,所述方法包括:
对所述第二语句进行去噪处理,去除所述第二语句中的噪声字符。
在一些实施例中,所述根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句包括:
基于所述第一语句以及对应的所述第一属性类别、所述关键词以及对应的所述第二属性类别分别生成数据对;
根据所述数据对以及预设的搜索引擎的索引规则生成目标查询语句。
在一些实施例中,所述方法还包括分类模型的训练过程,包括:
根据业务场景获取训练数据;
利用所述训练数据对预设的分类器进行训练,获取训练后的分类模型。
在一些实施例中,所述预设的分类器包括逻辑回归分类器或支持向量机分类器。
第二方面,提供了一种基于垂直搜索的查询装置,所述装置包括:
匹配模块,用于对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别;
获取模块,用于对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词;
分类模块,用于利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别;
生成模块,用于根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句;
查询模块,用于调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别;
对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词,利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别;
根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句;
调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:
对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别;
对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词,利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别;
根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句;
调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的基于垂直搜索的查询方法、装置、计算机设备及存储介质,通过对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别,对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词,利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别,根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句,调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果,实现用于垂直搜索引擎的查询语句的搜索意图识别,提高查询的效率以及提升用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的搜索意图识别***的设备组成图;
图2是根据一示例性实施例示出的文本模型训练的流程图;
图3是根据一示例性实施例示出的识别关键词的属性类别的流程图;
图4是根据一示例性实施例示出的基于垂直搜索的查询方法的流程图;
图5是根据一示例性实施例示出的基于垂直搜索的查询装置的结构示意图;
图6是根据一示例性实施例示出的计算机设备的内部结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如背景技术所述,在特定领域,比如垂直搜索引擎领域,通常我们需要将垂直领域的数据,比如结构化的业务数据,构建为一个垂直搜索引擎以更好的提供业务数据的查询搜索服务,其中不乏文本类型的数据。通过构建搜索引擎可以借助搜索引擎高效的索引技术,为业务提供业务数据的查询功能。往往一个好的垂直搜索引擎不仅需要提供数据的查询功能,还要支持一个输入提供多个维度的数据查询检索能力。这就需要该垂直搜索引擎能够智能地识别用户输入的查询关键词以及其所属的数据属性字段,从而可以为进一步优化搜索查询语句提供支撑。
为解决上述问题,本发明实施例中创造性的提出了一种基于垂直搜索的查询方法,该方法中包括用于垂直搜索引擎的文本识别方法,基于垂直领域的结构化和非结构化清洗后的业务场景数据,训练出可供用户搜索的字段属性的多类别文本分类模型,对于用户的输入关键词进行短文本的属性识别处理,以提供搜索引擎针对不同字段进行搜索。以企业信息搜索引擎为例,基于企业的信息,如企业名、法人名等文本信息,注册号、统一信用代码等字符串信息,注册资本等数值信息,以及一些其他信息。为了查询到某企业,垂直搜索引擎支持企业名或法人信息的文本信息搜索,也支持注册号、统一信用代码的字符串精准匹配。
图1是根据一示例性实施例示出的搜索意图识别***的架构图,参照图1所示,该***至少由存储器、***总线、处理器以及网络组成,其中存储器可由多个存储介质RAM组成,这里不对存储器的具体属性进行限制。
具体的,上述方案可通过如下步骤实现:
步骤一、基于业务场景数据构建用于垂直搜索引擎的多类别文本分类模型,具体的,本发明实施例中,该步骤包括如下过程:
(1)业务场景数据准备与抽取
具体的,首先需要结合垂直搜索引擎的业务场景需求,对需要构建垂直搜索引擎的业务数据进行分析,从相关数据库中做数据抽取,得到结构化的数据,为建立垂直搜索引擎索引数据作准备,同时也是为模型训练提供训练数据。
(2)确定搜索维度目标
确定垂直搜索引擎的搜索字段,即在创建垂直搜索引擎时,希望提供给用户搜索查询的字段。根据该搜索字段进行数据的标签处理,比如对于一套查询房产信息的搜索引擎***,需要提供关于房源小区名称信息、房源中介名称信息等多个字段的查询功能。根据从前述步骤获取的结构化数据,取出这些字段下所有数据,将对应的字段数据置上该字段的标签,形式多类别的标注数据。
(3)特征提取与模型训练等过程。
图2是根据一示例性实施例示出的文本模型训练的流程图,参照图2所示,根据以上数据形式,选取相应字段的特征。具体实施时,可以将相关文本内容字段按字或按词进行分词处理,提取其特征,生成对应的特征向量,作为模型训练的数据,如TF-IDF特征,生成TF-IDF特征向量。其中,分类模型的训练方式可以基于scikit-learn机器学习库选用分类器,比如逻辑回归分类器,或者支持向量机分类器,也可以构建其他分类器。
以构建企业名和人名的分类模型为例,该分类模型主要用于区分查询公司名称和自然人法人或实际控制人或公司高管等,用于不同的查询逻辑(如企业名搜索、法人搜索、高管搜索,或者组合搜索等)。在构建分类模型时,过程如下:
首先从业务数据库或者搜索引擎中抽取训练数据,数据为企业名称列表和人名列表,标签为“企业名”、“人名”,形式如下:
企业名:[
‘北京市**家具有限公司’,
‘深圳**软件有限公司’,
……,
‘河北**机械厂’
]
人名:[
‘任**’,
‘张**’,
‘陈**’,
……,
‘李**’
]
其次,构建数据集,示例如下:
(‘北京市**家具有限公司’, ‘企业名’)
(‘深圳**软件有限公司’, ‘企业名’)
……
(‘河北**机械厂’, ‘企业名’)
(‘任**’, ‘人名’)
(‘张**’, ‘人名’)
……
(‘李**’, ‘人名’)
然后对数据集进行按字分词处理,处理结果如下所示:
(‘北 京 市 * * 家 具 有 限 公 司’, ‘企业名’)
(‘深 圳 * * 软 件 有 限 公 司’, ‘企业名’)
……
(‘张 * *’, ‘人名’)
……
(‘李 * *’, ‘人名’)
接着,采用随机顺序切分数据集为训练集和测试集,如按照4:1的比例进行划分,并采用scikit-learn机器学习库进行TF-IDF文本向量提取,生成训练集的TF-IDF矩阵,并选择分类器(如朴素贝叶斯、逻辑回归、支持向量机等)进行模型训练,得到分类器;
最后,测试评估该分类器的预测能力,采用前述步骤生成的测试集对分类器进行模型评估,进而评估分类器的实用性。
步骤二、识别接收到的初始查询语句的搜索意图,生成目标查询语句。
具体的,图3是根据一示例性实施例示出的识别关键词的属性类别的流程图,参照图3所示,本发明实施例中,首先,对输入的初始查询语句先进行正则匹配,对于正则匹配到的结果进行支持关键词搜索,然后对未匹配到的结果,以文本形式为例,进行文本字符纯化处理,将文本中的噪声字符去除,如将无用字符及标点等去除,并进行中文分词处理,提取出初始查询语句包含的关键词列表。
其次,对于每个关键词调用上述步骤获取的分类模型进行分类处理,获取每个关键词的属性类别。输入关键词的维度(一个或多个)组合作为判断用户搜索意图的判断,根据搜索意图继续对搜索词进行纠错和联想等处理,输出(关键词,属性)数据对。
本发明实施例中,垂直搜索引擎接受任意形式的字符输入,因此需要对查询输入字符串(即初始查询语句)进行预处理,并对不同的输入进行判断,对输入字符串进行属性判断并输出。
示例如下:
步骤201:接收到初始查询语句后,对输入的初始查询语句进行正则匹配,判断是否符合注册码或者企业信用代码等代码格式,如果是,则标注该字符串为相应的代码属性,并输出。否则继续,进入步骤202。
例如:
(1)输入“91320000608950986L”,输出为“社会统一信用代码”
(2)输入“未来技术”,进入下一步处理。
步骤202:将预处理后的初始查询语句输入文本分类器,输出对应的预测属性类别。
例如:
输入“未来技术”,分类器输出为“企业名”
输入“张三”,分类器输出为“人名”等。
步骤三、构建目标查询语句,并调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
具体的, 基于前述步骤得到的关键词属性对,构建适配底层搜索引擎数据索引的查询语句(即目标查询语句),调用搜索引擎的统一接口,得到查询数据结果。
作为一种较优的实施方式,本发明实施例中,还可以预先基于搜索意图识别模块,构建用于对企业信息搜索的搜索意图识别***及装置,以便在企业信息搜索时支持多种属性的查询输入,并根据搜索意图识别模块返回的属性类别,适应不同属性信息的检索。
实施例二
图4是根据一示例性实施例示出的基于垂直搜索的查询方法的流程图,参照图4所示,该方法包括如下步骤:
S1: 对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别。
S2:对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词,利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别。
具体的,本发明实施例中,接受任意形式的字符输入,即不对初始查询语句进行限制,因此需要对查询输入字符串进行预处理,并对不同的输入进行判断,对输入字符串进行属性判断并输出。
具体的,为提高搜索查询的精准度以及查询效率,本发明实施例中,会先根据接收到的初始查询语句识别用户的搜索意图,具体实施时,可以先提取第二语句包含的关键词,然后利用预先训练的分类模型对每一关键词进行分类处理,获取每一关键词的属性类别。
S3:根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句。
具体的,基于上述步骤获取到的第一语句、第一属性类别、关键词及对应的第二属性类别,构建适配底层搜索引擎数据索引的查询语句。
S4:调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
作为一种较优的实施方式,本发明实施例中,所述对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词包括:
对所述初始查询语句中不满足匹配规则的第二语句进行分词处理,获取分词结果;
根据所述分词结果以及预设规则确定所述第二语句的关键词。
具体的,本发明实施例中,预先定义了关键词匹配规则,根据该关键词匹配规则对分词结果进行匹配,获取符合要求分词结果作为关键词。
作为一种较优的实施方式,本发明实施例中,对所述初始查询语句中不满足匹配规则的第二语句进行分词处理前,所述方法包括:
对所述第二语句进行去噪处理,去除所述第二语句中的噪声字符。
具体的,为了提高查询效率以及查询的精准度,本发明实施例中,还可以对初始查询语句中不满足匹配规则的第二语句进行去噪处理,去除第二语句中的噪声字符,如去除无用字符及标点等。
作为一种较优的实施方式,本发明实施例中,所述根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句包括:
基于所述第一语句以及对应的所述第一属性类别、所述关键词以及对应的所述第二属性类别分别生成数据对;
根据所述数据对以及预设的搜索引擎的索引规则生成目标查询语句。
作为一种较优的实施方式,本发明实施例中,所述方法还包括分类模型的训练过程,包括:
根据业务场景获取训练数据;
利用所述训练数据对预设的分类器进行训练,获取训练后的分类模型。
作为一种较优的实施方式,本发明实施例中,所述预设的分类器包括逻辑回归分类器或支持向量机分类器。
图5是根据一示例性实施例示出的基于垂直搜索的查询装置的结构示意图,该装置包括:
匹配模块,用于对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别;
获取模块,用于对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词;
分类模块,用于利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别;
生成模块,用于根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句;
查询模块,用于调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
作为一种较优的实施方式,本发明实施例中,所述获取模块包括:
分词单元,用于对所述初始查询语句中不满足匹配规则的第二语句进行分词处理,获取分词结果;
匹配单元,用于根据所述分词结果以及预设规则确定所述第二语句的关键词。
作为一种较优的实施方式,本发明实施例中,所述装置还包括:
去噪模块,用于对所述第二语句进行去噪处理,去除所述第二语句中的噪声字符。
作为一种较优的实施方式,本发明实施例中,所述生成模块具体用于:
基于所述第一语句以及对应的所述第一属性类别、所述关键词以及对应的所述第二属性类别分别生成数据对;
根据所述数据对以及预设的搜索引擎的索引规则生成目标查询语句。
作为一种较优的实施方式,本发明实施例中,所述装置还包括:
训练模块,用于根据业务场景获取训练数据;利用所述训练数据对预设的分类器进行训练,获取训练后的分类模型。
作为一种较优的实施方式,本发明实施例中,所述预设的分类器包括逻辑回归分类器或支持向量机分类器。
图6是根据一示例性实施例示出的计算机设备的内部结构示意图,参照图6所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种执行计划的优化方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
作为一种较优的实施方式,本发明实施例中,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别;
对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别;
根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句;
调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:
对所述初始查询语句中不满足匹配规则的第二语句进行分词处理,获取分词结果;
根据所述分词结果以及预设规则确定所述第二语句的关键词。
作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:
对所述第二语句进行去噪处理,去除所述第二语句中的噪声字符。
作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:
基于所述第一语句以及对应的所述第一属性类别、所述关键词以及对应的所述第二属性类别分别生成数据对;
根据所述数据对以及预设的搜索引擎的索引规则生成目标查询语句。
作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:
根据业务场景获取训练数据;
利用所述训练数据对预设的分类器进行训练,获取训练后的分类模型。
本发明实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:
对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别;
对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词,利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别;
根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句;
调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:
对所述初始查询语句中不满足匹配规则的第二语句进行分词处理,获取分词结果;
根据所述分词结果以及预设规则确定所述第二语句的关键词。
作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:
对所述第二语句进行去噪处理,去除所述第二语句中的噪声字符。
作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:
基于所述第一语句以及对应的所述第一属性类别、所述关键词以及对应的所述第二属性类别分别生成数据对;
根据所述数据对以及预设的搜索引擎的索引规则生成目标查询语句。
作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:
根据业务场景获取训练数据;
利用所述训练数据对预设的分类器进行训练,获取训练后的分类模型。
综上所述,本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的基于垂直搜索的查询方法、装置、计算机设备及存储介质,通过对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别,对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词,利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别,根据所述第一语句、所述第一属性类别、所述关键词以及所述第二属性类别生成目标查询语句,调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果,实现用于垂直搜索引擎的查询语句的搜索意图识别,提高查询的效率以及提升用户体验。
需要说明的是:上述实施例提供的基于垂直搜索的查询装置在触发查询业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于垂直搜索的查询装置与基于垂直搜索的查询方法实施例属于同一构思,即该装置是基于该基于垂直搜索的查询方法的,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于垂直搜索的查询方法,其特征在于,所述方法包括:
对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别;
对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词,利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别 ;
根据所述关键词以及对应的所述第二属性类别对所述初始查询语句进行纠错以及联想处理,获取处理结果,基于所述处理结果、所述第一语句以及对应的所述第一属性类别、所述关键词以及对应的所述第二属性类别分别生成数据对;
根据所述数据对以及预设的搜索引擎的索引规则生成目标查询语句;
调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
2.根据权利要求1所述的基于垂直搜索的查询方法,其特征在于,所述对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词包括:
对所述初始查询语句中不满足匹配规则的第二语句进行分词处理,获取分词结果;
根据所述分词结果以及预设规则确定所述第二语句的关键词。
3.根据权利要求2所述的基于垂直搜索的查询方法,其特征在于,对所述初始查询语句中不满足匹配规则的第二语句进行分词处理前,所述方法包括:
对所述第二语句进行去噪处理,去除所述第二语句中的噪声字符。
4.根据权利要求1至3任一所述的基于垂直搜索的查询方法,其特征在于,所述方法还包括分类模型的训练过程,包括:
根据业务场景获取训练数据;
利用所述训练数据对预设的分类器进行训练,获取训练后的分类模型。
5.根据权利要求4所述的基于垂直搜索的查询方法,其特征在于,所述预设的分类器包括逻辑回归分类器或支持向量机分类器。
6.一种基于垂直搜索的查询装置,其特征在于,所述装置包括:
匹配模块,用于对接收到的初始查询语句进行正则匹配,获取所述初始查询语句中满足匹配规则的第一语句,确定所述第一语句对应的第一属性类别;
获取模块,用于对所述初始查询语句中不满足匹配规则的第二语句进行预处理,获取所述第二语句对应的关键词;
分类模块,用于利用预先训练的分类模型对每一所述关键词进行分类处理,获取每一所述关键词的第二属性类别;
生成模块,用于根据所述关键词以及对应的所述第二属性类别对所述初始查询语句进行纠错以及联想处理,获取处理结果,基于所述处理结果、所述第一语句以及对应的所述第一属性类别、所述关键词以及对应的所述第二属性类别分别生成数据对;根据所述数据对以及预设的搜索引擎的索引规则生成目标查询语句;
查询模块,用于调用预设的搜索引擎接口,根据所述目标查询语句匹配出查询结果。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202011229548.5A 2020-11-06 2020-11-06 基于垂直搜索的查询方法、装置、计算机设备及存储介质 Active CN112035599B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011229548.5A CN112035599B (zh) 2020-11-06 2020-11-06 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CA3138556A CA3138556A1 (en) 2020-11-06 2021-11-08 Apparatuses, storage medium and method of querying data based on vertical search
CA3177671A CA3177671A1 (en) 2020-11-06 2021-11-08 Enquiring method and device based on vertical search, computer equipment and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011229548.5A CN112035599B (zh) 2020-11-06 2020-11-06 基于垂直搜索的查询方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112035599A CN112035599A (zh) 2020-12-04
CN112035599B true CN112035599B (zh) 2021-08-27

Family

ID=73572806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011229548.5A Active CN112035599B (zh) 2020-11-06 2020-11-06 基于垂直搜索的查询方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112035599B (zh)
CA (2) CA3138556A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818005B (zh) * 2021-02-03 2024-02-02 北京清科慧盈科技有限公司 结构化数据的搜索方法、装置、设备及存储介质
CN113254587B (zh) * 2021-05-31 2023-10-13 北京奇艺世纪科技有限公司 搜索文本的识别方法、装置、计算机设备及存储介质
CN113590919A (zh) * 2021-07-29 2021-11-02 小船出海教育科技(北京)有限公司 搜索请求处理方法、装置、电子设备及计算机可读介质
CN114943234B (zh) * 2022-06-27 2024-03-19 企查查科技股份有限公司 企业名称链接方法、装置、计算机设备、存储介质
CN115563167B (zh) * 2022-12-02 2023-03-31 浙江大华技术股份有限公司 数据查询方法、电子设备以及计算机可读存储介质
CN117763109B (zh) * 2023-12-21 2024-06-11 湖南领众档案管理有限公司 一种用于档案全文检索的数据核查方法
CN117519702B (zh) * 2023-12-29 2024-03-19 冠骋信息技术(苏州)有限公司 基于低代码配置化的搜索页面设计方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915380A (zh) * 2012-11-19 2013-02-06 北京奇虎科技有限公司 用于对数据进行搜索的方法和***
CN110020063B (zh) * 2017-07-18 2021-09-03 北京京东尚科信息技术有限公司 垂直搜索方法和***
CN107577755B (zh) * 2017-08-31 2020-06-19 江西博瑞彤芸科技有限公司 一种搜索方法
CN107958406A (zh) * 2017-11-30 2018-04-24 北京小度信息科技有限公司 查询数据的获取方法、装置及终端

Also Published As

Publication number Publication date
CA3138556A1 (en) 2022-05-06
CN112035599A (zh) 2020-12-04
CA3177671A1 (en) 2022-05-06

Similar Documents

Publication Publication Date Title
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN111222305B (zh) 一种信息结构化方法和装置
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN115470338B (zh) 一种基于多路召回的多场景智能问答方法和***
CN112257419A (zh) 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN108287848B (zh) 用于语义解析的方法和***
CN109885651B (zh) 一种问题推送方法和装置
CN110597844A (zh) 异构数据库数据统一访问方法及相关设备
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成***及生成方法
CN113064980A (zh) 一种智能问答方法、装置、计算机设备及存储介质
CN113157867A (zh) 一种问答方法、装置、电子设备及存储介质
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN116361428A (zh) 一种问答召回方法、装置和存储介质
CN111382265A (zh) 搜索方法、装置、设备和介质
CN115577080A (zh) 一种问题回复匹配方法、***、服务器及存储介质
CN112905752A (zh) 一种智能交互方法、装置、设备以及存储介质
CN111460088A (zh) 相似文本的检索方法、装置和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 834, Yingying building, No.99, Tuanjie Road, yanchuangyuan, Jiangbei new district, Nanjing, Jiangsu Province

Applicant after: Nanjing Xingyun Digital Technology Co.,Ltd.

Address before: Room 834, Yingying building, No.99, Tuanjie Road, yanchuangyuan, Jiangbei new district, Nanjing, Jiangsu Province

Applicant before: Suning financial technology (Nanjing) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240618

Address after: The 7th, 8th, 9th, 27th, 28th, and 29th floors of Building 4, No. 248 Lushan Road, Jianye District, Nanjing City, Jiangsu Province, 210000, and the 1st and 2nd floors of the podium of Building 4

Patentee after: Jiangsu Sushang Bank Co.,Ltd.

Country or region after: China

Address before: Room 834, Yingying building, No.99, Tuanjie Road, yanchuangyuan, Jiangbei new district, Nanjing, Jiangsu Province

Patentee before: Nanjing Xingyun Digital Technology Co.,Ltd.

Country or region before: China