CN111949697A - 基于搜索引擎的数据处理方法、装置、终端及介质 - Google Patents

基于搜索引擎的数据处理方法、装置、终端及介质 Download PDF

Info

Publication number
CN111949697A
CN111949697A CN202010656206.5A CN202010656206A CN111949697A CN 111949697 A CN111949697 A CN 111949697A CN 202010656206 A CN202010656206 A CN 202010656206A CN 111949697 A CN111949697 A CN 111949697A
Authority
CN
China
Prior art keywords
search
file
determining
files
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010656206.5A
Other languages
English (en)
Other versions
CN111949697B (zh
Inventor
陈方毅
吕金松
吕鸿鹏
曾睿明
黄益聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meishao Co ltd
Original Assignee
Xiamen Meishao Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meishao Co ltd filed Critical Xiamen Meishao Co ltd
Priority to CN202010656206.5A priority Critical patent/CN111949697B/zh
Publication of CN111949697A publication Critical patent/CN111949697A/zh
Application granted granted Critical
Publication of CN111949697B publication Critical patent/CN111949697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于搜索引擎的数据处理方法、装置、终端及介质。其中方法包括:获取待查询处理的搜索语句;确定搜索语句对应的搜索关键词和文件类目相关信息;基于预存储多种数据库,确定与文件类目相关信息对应的多个目标预存文件;确定多个目标预存文件分别与搜索关键词的相关性参数,以及多个目标预存文件分别对应的重要性参数,以得到多个目标预存文件分别对应的预测分数;依据多个目标预存文件分别对应的预测分数以及预定排序顺序。本申请通过设置多种数据库避免了因信息来源单一造成的信息范围狭窄,无法满足用户查询需求的问题,还通过预测分数来控制目标预存文件的曝光顺序,达到吸引用户注意力,提高用户留存率的目的。

Description

基于搜索引擎的数据处理方法、装置、终端及介质
技术领域
本申请涉及搜索引擎技术领域,具体涉及一种基于搜索引擎的数据处理方法、装置、终端及介质。
背景技术
搜索引擎是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门信息检索技术,主要应用的信息平台,向用户提供针对信息平台的内容搜索服务。通常信息平台的内容搜索的主要内容源为人工发布的文本内容,这些文本内容主要包括标题、内容、发布者的网名、人工标注的类别等字段,并通过设置文本内容的各个有效信息字段的权重,以在匹配检索时,结合权重计算,取得Doc的相关度结果,并通过人工配置的其他权重加权,与时间衰减因子,计算得到Doc的排序分值,得到最终的返回结果列表。
因此,相关的信息平台主要存在以下问题:一、数据来源单一,检索结果与用户查询需求关联性低;二、在文件内容数量庞大时,存在计算量大,检索速度慢的问题,从而导致用户满意度低,信息平台的用户留存率低的问题。
发明内容
为了解决上述至少一个技术问题,本申请提供一种基于搜索引擎的数据处理方法、装置、终端及介质。
根据本申请的第一方面,提供了一种基于搜索引擎的数据处理方法,该方法包括:
获取待查询处理的搜索语句;
确定搜索语句对应的搜索关键词和文件类目相关信息;
基于预存储多种数据库,确定与文件类目相关信息对应的多个目标预存文件,其中,任一种数据库包括多个预存文件,以及多个预存文件分别对应的文件类目相关信息;
确定多个目标预存文件分别与搜索关键词的相关性参数,以及多个目标预存文件分别对应的重要性参数;
基于多个目标预存文件分别与搜索关键词的相关性参数和多个目标预存文件分别对应的重要性参数,对多个目标预存文件分别进行预测,得到多个目标预存文件分别对应的预测分数;
依据多个目标预存文件分别对应的预测分数以及预定排序顺序,对多个目标预存文件进行输出处理,以完成对搜索语句的查询处理。
根据本申请的第二方面,提供了一种基于搜索引擎的数据处理装置,该装置包括:
搜索语句获取模块,用于获取待查询处理的搜索语句;
搜索语句处理模块,用于确定搜索语句对应的搜索关键词和文件类目相关信息;
目标预存文件确定模块,用于基于预存储多种数据库,确定与文件类目相关信息对应的多个目标预存文件,其中,任一种数据库包括多个预存文件,以及多个预存文件分别对应的文件类目相关信息;
文件分数确定模块,用于确定多个目标预存文件分别与搜索关键词的相关性参数,以及多个目标预存文件分别对应的重要性参数;
文件分数预测模块,用于基于多个目标预存文件分别与搜索关键词的相关性参数和多个目标预存文件分别对应的重要性参数,对多个目标预存文件分别进行预测,得到多个目标预存文件分别对应的预测分数;
文件排序处理模块,用于依据多个目标预存文件分别对应的预测分数以及预定排序顺序,对多个目标预存文件进行输出处理,以完成对搜索语句的查询处理。
根据本申请的第三方面,提供了一种终端,该终端包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时以实现上述基于搜索引擎的数据处理方法。
根据本申请的第四方面,提供了一种计算机可读存储介质,该介质存储有计算机可执行指令,该计算机可执行指令用于以执行上述基于搜索引擎的数据处理方法。
本申请实施例通过获取待查询处理的搜索语句,来确定搜索语句对应的搜索关键词和文件类目相关信息,从而在预存储的多种数据库中进行查询,得到多个目标预存文件,这种通过确定文件类目相关信息来查询多个目标预存文件的方式,不仅能够获取不同来源的文件,还起到了丰富信息资源的效果,避免了因信息来源单一造成的信息范围狭窄,无法满足用户查询需求的问题;另外,通过确定多目标预存文件分别与搜索关键词的相关性参数和重要性参数,为对多个目标预存文件进行预测提供了数据基础,从而得到多个目标预存文件分别对应的预测分数,进而根据预测分数来确定搜索语句的查询结果,实现了通过预测分数来控制目标预存文件的曝光顺序,达到吸引用户注意力,提高用户留存率的目的。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种基于搜索引擎的数据处理方法的流程示意图;
图2为本申请实施例提供的一种基于搜索引擎的数据处理方法中搜索语句的处理流程示意图;以及
图3为根据本申请实施例提供的一种基于搜索引擎的数据处理装置的框图结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
根据本申请的一个实施例,提供了一种基于搜索引擎的数据处理方法,如图1所示,该方法包括步骤S101至步骤S106。
步骤S101:获取待查询处理的搜索语句。
具体地,通过搜索引擎获取待查询处理的搜索语句。
具体地,搜索语句既可以是整句,也可以是关键词,还可以同时包括整句和关键词。例如,搜索语句为“10个月宝宝拉肚子怎么办”;再如,搜索语句为“宝宝”和“拉肚子”两个关键词。
步骤S102:确定搜索语句对应的搜索关键词和文件类目相关信息。
具体地,搜索引擎可以通过分词技术对搜索语句进行处理,从而确定搜索关键词。例如,依据预存储的分词词库对搜索语句进行分词,以确定搜索语句包括的分词词库中的分词。
具体地,搜索引擎可以通过语义模板来确定搜索语句对应的搜索关键词。
具体地,文件类目相关信息用于在数据库中进行查询,一般包括搜索语句的类目相关信息。更具体地,文件类目相关信息可以采用bert模型来确定。
步骤S103:基于预存储多种数据库,确定与文件类目相关信息对应的多个目标预存文件,其中,任一种数据库包括多个预存文件,以及多个预存文件分别对应的文件类目相关信息。
具体地,文件类目相关信息用于表征对文件进行分类的标准,该文件类目相关信息与数据库中文件的文件类目相关信息相同。
具体地,数据库的来源一般包括专业用户编辑或审核的文档、注册用户编辑的文档、来自第三方应用的文档等,即提供多种数据源内容。应用前,将来源于不同数据库的文件进行标记,确定出不同数据库中多种文件分类分别对应的多个文件,这样在执行该步骤时,能够实现从不同数据库均进行文件召回的目的,即得到不同数据库中分别回属于文件分类的文件,并所有将召回的文件作为目标预存文件。
步骤S104:确定多个目标预存文件分别与搜索关键词的相关性参数,以及多个目标预存文件分别对应的重要性参数。
在本申请实施例中,相关性参数用于表征目标预存文件与关键信息的关联性。
在本申请实施例中,重要性参数用于表征目标预存文件中关键信息的重要程度。具体地,多个目标预存文件分别对应的重要性参数一般是预设的,通过在数据库中的查询即可得到。
具体地,通过预设的相关性算法计算多个目标预存文件分别与关键信息的相关性参数。例如,ElasticSearch-相关性算法。
具体地,不同目标预存文件对应不同关键词,不同的关键词对应不同的重要性参数。
步骤S105:基于多个目标预存文件分别与搜索关键词的相关性参数和多个目标预存文件分别对应的重要性参数,对多个目标预存文件分别进行预测,得到多个目标预存文件分别对应的预测分数。
具体地,可以通过包括相关性参数和重要性参数两个变量的预测算法来进行计算,得到预测分数。
例如,假设预测算法为S=ax+by,其中,x表示相关性参数,y表示重要性参数,a和b分别表示相关性参数的权重、重要性参数的权重,将该步骤确定的相关性参数和重要性参数输入至该公式,即可得到输出的预测分数。
在本申请实施例中,预测分数用于表征用户的点击可能性、兴趣度等。
步骤S106:依据多个目标预存文件分别对应的预测分数以及预定排序顺序,对多个目标预存文件进行输出处理,以完成对搜索语句的查询处理。
具体地,可以是依据预测分数对多个目标预存文件进行降序排序,并依据降序排序的结果来确定查询结果,从而达到控制目标预存文件的曝光顺序的目的。
具体地,可以预设的单个页面最大显示量来对多个目标预存文件进行分批显示。例如,若搜索引擎提供的用户界面最大显示量为10个文件,那么可以在按照预测分数进行降序排序后,在该用户界面上每次显示排序前10的目标预存文件。
本申请实施例通过获取待查询处理的搜索语句,来确定搜索语句对应的搜索关键词和文件类目相关信息,从而在预存储的多种数据库中进行查询,得到多个目标预存文件,这种通过确定文件类目相关信息来查询多个目标预存文件的方式,不仅能够获取不同来源的文件,还起到了丰富信息资源的效果,避免了因信息来源单一造成的信息范围狭窄,无法满足用户查询需求的问题;另外,通过确定多目标预存文件分别与搜索关键词的相关性参数和重要性参数,为对多个目标预存文件进行预测提供了数据基础,从而得到多个目标预存文件分别对应的预测分数,进而根据预测分数来确定搜索语句的查询结果,实现了通过预测分数来控制目标预存文件的曝光顺序,达到吸引用户注意力,提高用户留存率的目的。
在一些实施例中,文件分类包括以下至少一项:文件类目、文件属性。
具体地,文件属性包括年龄、孕期时长、身份(如宝宝、幼儿等)等。
具体地,一般根据业务需要设置文件类目。例如,将文件类目设置为备孕、怀孕、育儿、购物等。
具体地,不同数据库可以通过不同级别的类目进行划分。更具体地,可以设置第一级类目和第二级类目,其中,第二级类目用于表征第一级类目下的子类目。例如,假设文件分类的第第一级类目包括备孕、怀孕、育儿、购物等,其中,育儿的第二级类目包括宝宝成长、护理保健、宝宝用品、常见疾病等。
在一些实施例中,如图2所示,步骤S102进一步包括:步骤S1021至步骤S1024。
步骤S1021:对搜索语句进行分词,得到搜索关键词。
具体地,可以依据预设的分词词库来对搜索语句进行分词处理,得到搜索关键词。其中,分词词库可以是自定义构建的,也可以采用第三方的分词词库。
具体地,可以通过预存储的分词表对搜索语句进行分词,得到一个或多个关键词。
步骤S1022:基于预配置的多种语义模板分别对应的属性,确定搜索语句对应的文件属性。
具体地,语义模板一般包括与年龄对应的模板、与数字对应的模板、与数字单位对应的模板、与身份对应的模板等。通过搜索语句与语义模板的命中情况来确定文件属性。例如,若搜索语句命中某一个或某几个模板,则将该某一个模板或某几个模板的属性确定为搜索语句的文件属性;若未命中,则将文件属性为空。
步骤S1023:基于预构建的文件分类模型和搜索语句,确定文件类目。
具体地,文件分类模型可以是通过bert算法构建的模型,通过该bert算法构建的模型来确定搜索语句的文件类目。
步骤S1024:依据文件属性和文件类目,确定文件类目相关信息。
本申请实施例通过文件属性和文件类目来确定文件类目相关信息,即将文件属性和文件类目来在多种数据库中进行查询,得到来自不同数据库的目标预存文件。
在一些实施例中,步骤S1023的步骤之前,进一步包括:
获取预定时间段内的多个历史搜索语句以及多个历史搜索语句分别对应的文件类目;
依据多个历史搜索语句以及多个历史搜索语句分别对应的文件类目,对预构建的神经网络模型进行训练,得到文件分类模型。
具体地,将多个历史搜索语句以及多个历史搜索语句分别对应的文件类目作为样本数据,将样本数据分成训练样本数据和验证样本数据,其中,训练样本数据对神经网络模型进行训练,验证样本数据则进行验证,以保证训练得到的文件分类模型的输出的准确性。
在一些实施例中,步骤S102的步骤之前,该方法还包括:
对搜索语句进行重写处理,得到重写语句。
具体地,搜索引擎提供的语法规则一般是指针对简体字的语法规则,因此,需要对获取到的搜索语句进行重新处理,即通过对搜索语句的扫描,并依据扫描结果来对搜索语句进行处理,以保证搜索语句符合该语法规则,以保证分词结果的准确性。例如,通过对搜索语句的扫描,查找搜索语句中是否包括的不符合搜索引擎的字、词或句等,并进行重写处理,使得搜索语句对重写后得到的重写语句进行准确处理。
在一些实施例中,对搜索语句进行重写处理,包括以下至少一个步骤:
若搜索语句包括繁体字,则对搜索语句进行繁体字至简体字的转换处理;
若搜索语句包括错别字,则对搜索语句进行纠错处理。
由于不同地区的用户使用的文字不同,伸着还可能出现输入错别字的问题,因此本申请实施例提供繁体字至简体字的转换处理机制和错别字的纠错处理机制,以防止对搜索语句进行分词时,因无法识别导致的分词错误问题。
在一些实施例中,步骤S103进一步包括:
确定多种数据库分别对应的多个预存文件各自针对搜索关键词的重要性参数;
将多个预存储文件各自针对搜索关键词的重要性参数与预设重要性参数阈值进行比较;
依据比较结果,确定多个目标预存文件。
具体地,多种数据库分别对应的多个预存文件,且各个预存文件均预先设置有各种搜索关键词分别对应的重要性参数,通过预先设置的各种搜索关键词分别对应的重要性参数,提供了查询搜索语句对应的搜索关键词的重要性参数提供了依据,从而在多种数据库分别对应的多个预存文件中选择出目标预存文件。
本申请的又一实施例提供了一种基于搜索引擎的数据处理装置,如图3所示,该装置30包括:搜索语句获取模块301、语句信息确定模块302、目标预存文件确定模块303、文件分数确定模块304、文件分数预测模块305以及文件排序处理模块306。
搜索语句获取模块301,用于获取待查询处理的搜索语句;
语句信息确定模块302,用于确定搜索语句对应的搜索关键词和文件类目相关信息;
目标预存文件确定模块303,用于基于预存储多种数据库,确定与文件类目相关信息对应的多个目标预存文件,其中,任一种数据库包括多个预存文件,以及多个预存文件分别对应的文件类目相关信息;
文件分数确定模块304,用于确定多个目标预存文件分别与搜索关键词的相关性参数,以及多个目标预存文件分别对应的重要性参数;
文件分数预测模块305,用于基于多个目标预存文件分别与搜索关键词的相关性参数和多个目标预存文件分别对应的重要性参数,对多个目标预存文件分别进行预测,得到多个目标预存文件分别对应的预测分数;
文件排序处理模块306,用于依据多个目标预存文件分别对应的预测分数以及预定排序顺序,对多个目标预存文件进行输出处理,以完成对搜索语句的查询处理。
本申请实施例通过获取待查询处理的搜索语句,来确定搜索语句对应的搜索关键词和文件类目相关信息,从而在预存储的多种数据库中进行查询,得到多个目标预存文件,这种通过确定文件类目相关信息来查询多个目标预存文件的方式,不仅能够获取不同来源的文件,还起到了丰富信息资源的效果,避免了因信息来源单一造成的信息范围狭窄,无法满足用户查询需求的问题;另外,通过确定多目标预存文件分别与搜索关键词的相关性参数和重要性参数,为对多个目标预存文件进行预测提供了数据基础,从而得到多个目标预存文件分别对应的预测分数,进而根据预测分数来确定搜索语句的查询结果,实现了通过预测分数来控制目标预存文件的曝光顺序,达到吸引用户注意力,提高用户留存率的目的。
进一步地,文件类目相关信息包括以下至少一项:文件类目和文件属性。
进一步地,语句信息确定模块包括:搜索关键词确定子模块、文件属性确定子模块、文件类目确定子模块和类目相关信息确定子模块(图中未示出)。
搜索关键词确定子模块,用于对搜索语句进行分词,得到搜索关键词;
文件属性确定子模块,用于基于预配置的多种语义模板分别对应的属性,确定搜索语句对应的文件属性;
文件类目确定子模块,用于基于预构建的文件分类模型和搜索语句,确定文件类目;
类目相关信息确定子模块,用于依据文件属性和文件类目,确定文件类目相关信息。
进一步地,基于预构建的文件分类模型和搜索语句,确定文件类目的步骤之前,文件类目确定子模块还包括:历史信息确定单元和模型训练单元(图中未示出),
历史信息确定单元,用于获取预定时间段内的多个历史搜索语句以及多个历史搜索语句分别对应的文件类目;
模型训练单元,用于依据多个历史搜索语句以及多个历史搜索语句分别对应的文件类目,对预构建的神经网络模型进行训练,得到文件分类模型。
进一步地,确定搜索语句对应的搜索关键词和文件类目相关信息的步骤之前,该装置还包括:
搜索语句重新模块,用于对搜索语句进行重写处理,得到重写语句。
进一步地,搜索语句重新模块包括以下至少一个子模块:第一重写子模块和第二重写子模块(图中未示出)。
第一重写子模块,用于若搜索语句包括繁体字,则对搜索语句进行繁体字至简体字的转换处理;
第二重写子模块,用于若搜索语句包括错别字,则对搜索语句进行纠错处理。
进一步地,目标预存文件确定模块包括:重要性参数确定子模块、重要性参数比较子模块和目标预存文件确定子模块(图中未示出),
重要性参数确定子模块,用于确定多种数据库分别对应的多个预存文件各自针对搜索关键词的重要性参数;
重要性参数比较子模块,用于将多个预存文件各自针对搜索关键词的重要性参数与预设重要性参数阈值进行比较;
目标预存文件确定子模块,用于依据比较结果,确定多个目标预存文件。
本实施例的基于搜索引擎的数据处理装置可执行本申请实施例提供的基于搜索引擎的数据处理方法,其实现原理相类似,此处不再赘述。
本申请又一实施例提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时以实现上述基于搜索引擎的数据处理方法。
具体地,处理器可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
具体地,处理器通过总线与存储器连接,总线可包括一通路,以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器用于存储执行本申请方案的计算机程序的代码,并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现图3所示实施例提供的基于搜索引擎的数据处理装置的动作。
本申请又一实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行上述图1或图2所示的基于搜索引擎的数据处理方法。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于搜索引擎的数据处理方法,其特征在于,包括:
获取待查询处理的搜索语句;
确定所述搜索语句对应的搜索关键词和文件类目相关信息;
基于预存储的多种数据库,确定与所述文件类目相关信息对应的多个目标预存文件,其中,任一种所述数据库包括多个预存文件,以及多个所述预存文件分别对应的文件类目相关信息;
确定多个所述目标预存文件分别与所述搜索关键词的相关性参数,以及多个所述目标预存文件分别对应的重要性参数;
基于多个所述目标预存文件分别与所述搜索关键词的所述相关性参数和多个所述目标预存文件分别对应的重要性参数,对多个所述目标预存文件分别进行预测,得到多个所述目标预存文件分别对应的预测分数;
依据多个所述目标预存文件分别对应的所述预测分数以及预定排序顺序,对多个所述目标预存文件进行输出处理,以完成对所述搜索语句的查询处理。
2.根据权利要求1所述的方法,其特征在于,所述文件类目相关信息包括以下至少一项:
文件类目和文件属性。
3.根据权利要求2所述的方法,其特征在于,所述确定所述搜索语句对应的搜索关键词和文件类目相关信息的步骤,包括:
对所述搜索语句进行分词,得到所述搜索关键词;
基于预配置的多种语义模板分别对应的属性,确定所述搜索语句对应的文件属性;
基于预构建的文件分类模型和所述搜索语句,确定所述文件类目;
依据所述文件属性和所述文件类目,确定所述文件类目相关信息。
4.根据权利要求3所述的方法,其特征在于,所述基于预构建的文件分类模型和所述搜索语句,确定所述文件类目的步骤之前,所述方法还包括:
获取预定时间段内的多个历史搜索语句以及多个所述历史搜索语句分别对应的文件类目;
依据多个所述历史搜索语句以及多个所述历史搜索语句分别对应的文件类目,对预构建的神经网络模型进行训练,得到所述文件分类模型。
5.根据权利要求3所述的方法,其特征在于,所述确定所述搜索语句对应的搜索关键词和文件类目相关信息的步骤之前,所述方法还包括:
对所述搜索语句进行重写处理,得到所述重写语句。
6.根据权利要求5所述的方法,其特征在于,所述对所述搜索语句进行重写处理,包括以下至少一个步骤:
若所述搜索语句包括繁体字,则对所述搜索语句进行繁体字至简体字的转换处理;
若所述搜索语句包括错别字,则对所述搜索语句进行纠错处理。
7.根据权利要求1所述的方法,其特征在于,所述基于预存储多种数据库,确定与所述文件类目相关信息对应的多个目标预存文件的步骤,包括:
确定多种数据库分别对应的多个预存文件各自针对所述搜索关键词的重要性参数;
将多个预存文件各自针对所述搜索关键词的重要性参数与预设重要性参数阈值进行比较;
依据比较结果,确定多个所述目标预存文件。
8.一种基于搜索引擎的数据处理装置,其特征在于,包括:
搜索语句获取模块,用于获取待查询处理的搜索语句;
搜索语句处理模块,用于确定所述搜索语句对应的搜索关键词和文件类目相关信息;
目标预存文件确定模块,用于基于预存储多种数据库,确定与所述文件类目相关信息对应的多个目标预存文件,其中,任一种所述数据库包括多个预存文件,以及多个所述预存文件分别对应的文件类目相关信息;
文件分数确定模块,用于确定多个所述目标预存文件分别与所述搜索关键词的相关性参数,以及多个所述目标预存文件分别对应的重要性参数;
文件分数预测模块,用于基于多个所述目标预存文件分别与所述搜索关键词的所述相关性参数和多个所述目标预存文件分别对应的重要性参数,对多个所述目标预存文件分别进行预测,得到多个所述目标预存文件分别对应的预测分数;
文件排序处理模块,用于依据多个所述目标预存文件分别对应的所述预测分数以及预定排序顺序,对多个所述目标预存文件进行输出处理,以完成对所述搜索语句的查询处理。
9.一种终端,包括:存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要1至7中任一项所述的方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至7中任一项所述的方法。
CN202010656206.5A 2020-07-09 2020-07-09 基于搜索引擎的数据处理方法、装置、终端及介质 Active CN111949697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010656206.5A CN111949697B (zh) 2020-07-09 2020-07-09 基于搜索引擎的数据处理方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010656206.5A CN111949697B (zh) 2020-07-09 2020-07-09 基于搜索引擎的数据处理方法、装置、终端及介质

Publications (2)

Publication Number Publication Date
CN111949697A true CN111949697A (zh) 2020-11-17
CN111949697B CN111949697B (zh) 2022-08-16

Family

ID=73341344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010656206.5A Active CN111949697B (zh) 2020-07-09 2020-07-09 基于搜索引擎的数据处理方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN111949697B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779305A (zh) * 2021-07-30 2021-12-10 北京达佳互联信息技术有限公司 信息检索方法、装置及电子设备
WO2023173821A1 (zh) * 2022-03-15 2023-09-21 华为云计算技术有限公司 一种集成开发环境搜索数据的方法和相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203891A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Providing and using search index enabling searching based on a targeted content of documents
CN103136237A (zh) * 2011-11-28 2013-06-05 深圳市腾讯计算机***有限公司 一种基于多数据源的信息搜索方法和***
CN104077327A (zh) * 2013-03-29 2014-10-01 阿里巴巴集团控股有限公司 核心词重要性识别方法和设备及搜索结果排序方法和设备
CN105243073A (zh) * 2014-07-11 2016-01-13 北京金山安全软件有限公司 一种书签访问方法、装置及终端
CN108363768A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种基于Lucene的文档搜索方法、存储介质和服务器
CN109753516A (zh) * 2019-01-31 2019-05-14 北京嘉和美康信息技术有限公司 一种病历搜索结果的排序方法和相关装置
US20190155948A1 (en) * 2014-03-31 2019-05-23 Google Inc. Re-ranking resources based on categorical quality
CN111368049A (zh) * 2020-02-26 2020-07-03 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203891A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Providing and using search index enabling searching based on a targeted content of documents
CN103136237A (zh) * 2011-11-28 2013-06-05 深圳市腾讯计算机***有限公司 一种基于多数据源的信息搜索方法和***
CN104077327A (zh) * 2013-03-29 2014-10-01 阿里巴巴集团控股有限公司 核心词重要性识别方法和设备及搜索结果排序方法和设备
US20190155948A1 (en) * 2014-03-31 2019-05-23 Google Inc. Re-ranking resources based on categorical quality
CN105243073A (zh) * 2014-07-11 2016-01-13 北京金山安全软件有限公司 一种书签访问方法、装置及终端
CN108363768A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种基于Lucene的文档搜索方法、存储介质和服务器
CN109753516A (zh) * 2019-01-31 2019-05-14 北京嘉和美康信息技术有限公司 一种病历搜索结果的排序方法和相关装置
CN111368049A (zh) * 2020-02-26 2020-07-03 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779305A (zh) * 2021-07-30 2021-12-10 北京达佳互联信息技术有限公司 信息检索方法、装置及电子设备
CN113779305B (zh) * 2021-07-30 2024-01-02 北京达佳互联信息技术有限公司 信息检索方法、装置及电子设备
WO2023173821A1 (zh) * 2022-03-15 2023-09-21 华为云计算技术有限公司 一种集成开发环境搜索数据的方法和相关设备

Also Published As

Publication number Publication date
CN111949697B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
US20190139551A1 (en) Methods and systems for transcription
US8290927B2 (en) Method and apparatus for rating user generated content in search results
US10997560B2 (en) Systems and methods to improve job posting structure and presentation
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
US20240029086A1 (en) Discovery of new business openings using web content analysis
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN109388634B (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
CN111949697B (zh) 基于搜索引擎的数据处理方法、装置、终端及介质
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN112559709A (zh) 基于知识图谱的问答方法、装置、终端以及存储介质
US20230185840A1 (en) Identifying content items in response to a text-based request
de Sá et al. Generalized BROOF-L2R: a general framework for learning to rank based on boosting and random forests
CN114996464A (zh) 一种利用有序信息的文本分级方法及装置
CN112487154B (zh) 一种基于自然语言的智能搜索方法
US20210248509A1 (en) Data-driven online score caching for machine learning
US11270357B2 (en) Method and system for initiating an interface concurrent with generation of a transitory sentiment community
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
US9223833B2 (en) Method for in-loop human validation of disambiguated features
CN110717008A (zh) 基于语意识别的搜索结果排序方法及相关装置
CN113486169B (zh) 基于bert模型的同义语句生成方法、装置、设备及存储介质
CN111897932A (zh) 一种文本大数据的查询处理方法及***
CN117972025B (zh) 一种基于语义分析的海量文本检索匹配方法
CN116340481B (zh) 自动回复提问的方法及装置、计算机可读存储介质、终端
CN116681042B (zh) 基于关键字提取的内容概要生成方法、***及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant