CN111782958A - 推荐词确定方法、装置、电子装置及存储介质 - Google Patents

推荐词确定方法、装置、电子装置及存储介质 Download PDF

Info

Publication number
CN111782958A
CN111782958A CN202010691285.3A CN202010691285A CN111782958A CN 111782958 A CN111782958 A CN 111782958A CN 202010691285 A CN202010691285 A CN 202010691285A CN 111782958 A CN111782958 A CN 111782958A
Authority
CN
China
Prior art keywords
query
data set
word
determining
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010691285.3A
Other languages
English (en)
Inventor
李俊良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd, Shenzhen Huantai Technology Co Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202010691285.3A priority Critical patent/CN111782958A/zh
Publication of CN111782958A publication Critical patent/CN111782958A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种推荐词确定方法、装置、电子装置及存储介质,方法包括:当检测到用户输入的查询指令时,获取查询指令中包含的查询词;获取数据源并确定数据源中与查询词相关的数据集合;根据数据集合生成查询数据集合;根据查询词与查询数据集合倒排确定推荐词。本申请提供的推荐词确定方法,无需依赖对用户的点击信号的收集即可确定较为准确的推荐词,提高了用户进行查询时推荐词推荐的效率。

Description

推荐词确定方法、装置、电子装置及存储介质
技术领域
本发明属于计算机技术领域,尤其涉及一种推荐词确定方法、装置、电子装置及存储介质。
背景技术
无论是在搜索引擎中进行搜索还是在各类应用软件中进行关键字搜索,当用户输入查询词时,搜索引擎或者各类应用软件都会根据用户输入的查询词确定推荐词或者推荐词列表,用户可以在这些推荐词列表中选择自己需要进行搜索的内容进而进入选定内容的显示界面。如此可以无需用户输入完整的搜索内容即可找到想要搜索的页面,为用户的搜索操作带来了便利。
然而,现有推荐词的确定一般都是通过对搜索查询词的历史点击情况进行挖掘,再配合用户输入的查询词的同义词、近义词的挖掘,确定排序相对较高的词语作为推荐词。该方法需要大量的数据积累及长时间的点击信号收集才能返回较为准确的推荐词。
发明内容
本申请提供一种推荐词确定方法、装置、电子装置及存储介质,用于解决当前推荐词确定方法需要大量的数据几类以及长时间的点击信号收集合才能返回较为准确的推荐词的技术问题。
本申请第一方面提供一种推荐词确定方法,所述方法包括:
当检测到用户输入的查询指令时,获取所述查询指令中包含的查询词;
获取数据源并确定所述数据源中与所述查询词相关的数据集合;
根据所述数据集合生成查询数据集合;
根据所述查询词与所述查询数据集合倒排确定推荐词。
本申请第二方面提供一种推荐词确定装置,所述装置包括:
第一获取模块,用于当检测到用户输入的查询指令时,获取所述查询指令中包含的查询词;
第二获取模块,用于获取数据源并确定所述数据源中与所述查询词相关的数据集合;
生成模块,用于根据所述数据集合生成查询数据集合;
确定模块,用于根据所述查询词与所述查询数据集合倒排确定推荐词。
本申请第三方面提供一种电子装置,包括存储器、处理器以及存储在所述存储器上可以被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现第一方面提供的推荐词确定方法中的步骤。
本申请第四方面提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面提供的推荐词确定方法中的步骤。
从上述本申请实施例可知,本申请提供的推荐词确定方法,方法包括:当检测到用户输入的查询指令时,获取查询指令中包含的查询词;获取数据源并确定数据源中与查询词相关的数据集合;根据数据集合生成查询数据集合;根据查询词与查询数据集合倒排确定推荐词。本申请提供的推荐词确定方法,无需依赖对用户的点击信号的收集即可确定较为准确的推荐词,提高了用户进行查询时推荐词推荐的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的终端的结构框图;
图2为本申请提供的推荐词确定方法的流程示意图;
图3为本申请提供的推荐词确定装置的结构示意图;
图4为本申请提供的电子装置的结构框图。
具体实施方式
为使得本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了一种终端的结构框图,本申请提供的推荐词确定方法可以应用于如图1所示的终端10中,该终端10可以但不限于:需要依靠电池维持正常运行,具有显示屏以及具有数据交互功能的智能手机、平板电脑、电话手表等。
如图1所示,终端10包括存储器101、存储控制器102、处理器103(可以是多个,图中仅示出一个)、数据输入组件104以及显示器105。这些组件通过一条或多条通讯总线/信号线106相互通讯。
可以理解,图1所示的结构仅为示意,其并不对终端10的结构造成限定,终端10还可以包括比图1所示更多或者更少的组件,或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或者其组合实现。
存储器101可用于存储软件程序以及模块,如本申请中的推荐词确定方法与装置对应的指令及模块,处理器103通过运行存储在存储器101内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述推荐词确定方法以及装置的运行。
存储器101可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器101可进一步包括相对于处理器103远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
数据输入组件104可以与显示器105一起由触控显示屏进行实现,也可以是单独的显示器105配合键盘输入或语音识别输入等实现。
基于上述终端10,为了解决在上述终端中的搜索引擎或者应用程序中进行搜索时需要大量的数据几类及长时间的点击信号收集才能返回较为准确的推荐词的情况,本申请提供一种推荐词确定方法,如图2所示,为本申请提供的推荐词确定方法的流程示意图,方法包括如下步骤:
步骤201,当检测到用户输入的查询指令时,获取查询指令中包含的查询词;
可以理解的是,当用户使用搜索引擎或者应用程序进行查找时,会输入需要查找的关键词。目前的搜索引擎或应用程序,在检测到用户输入的查询词后,均会产生对应的推荐词,用户可以在推荐词中选择符合自己查询需求的推荐词,进而可以加速查询过程。一般搜索引擎都设置有搜索指令或者图标,当用户点击搜索指令或图标时,可以据此判定用户输入了查询指令,并进一步为用户产生并显示推荐词;也可以是检测到用户在搜索栏中输入内容,即可判定用户输入了查询指令,无需用户再点击搜索指令或图标,直接根据用户在搜索栏中输入的查询词给用户生成并显示推荐词。用户在搜索引擎或应用程序的搜索栏中输入查询词,可以是通过各类输入法进行输入,也可以是根据搜索引擎或应用设置的语音识别组件对用户的语音进行识别并将用户的语音数据翻译成文字数据。用户输入的查询词可以是中文字段、可以是中文字的拼音、也可以是其他语言文字。
步骤202,获取数据源并确定数据源中与所述查询词相关的数据集合;
在本申请实施例中,当搜索引擎或应用程序处于离线状态时,数据源可以是存储于存储器中的历史数据源,历史数据源可以是搜索引擎或应用程序安装时及配置的基础数据,也可以是对用户历史输入并查找过的数据。当搜索引擎或应用程序处于在线状态时,该数据源还可以包括网络爬虫根据用户输入的查询词进行爬取的数据。在获取到这些数据后,由于数据源的数据量较为庞大,可以先行根据预设的排除方法排除去一些明确与输入的查询词不相关的数据。例如当输入的查询词为汉字时,可以删除去数据源中的外文数据,仅保留中文或中文拼音的数据。保留下的数据可以确定为与查询词相关的数据集合,这些数据都有可能成为用户输入的查询词对应的推荐词。
步骤203,根据数据集合生成查询数据集合;
在本申请实施例中,由于用户输入的查询词并非全部按照标准的输入方法进行输入的,例如用户想要查找“深圳”,其输入的查询词可能是“深”、“SZ”、“shenzhen”或者“shenzh”等,因此,在使用查询词进行匹配之前,需要对查询词相关的数据集合中的数据进行进一步处理,将数据集合中的数据的不同表现形式进行挖掘生成,从而生成查询数据集合。查询数据集合中包含与查询词相关的数据集合中每个数据的不同可能输入形式。
步骤204,根据查询词与查询数据集合倒排确定推荐词。
在本申请实施例中,当确定了查询数据集合后,根据查询词在查询数据集合中确定与查询词匹配的查询数据。继续以上述示例为例进行说明,当用户输入的查询词为“SZ”时,则在查询数据集合中进行查找,确定是否存在与该查询词匹配的查询数据,当确定存在于查询词“SZ”匹配的查询数据后,在根据该查询数据“SZ”进行倒排确认,从而确定推荐词“深圳”。
根据上述描述可知,本申请实施例提供的推荐词确定方法,方法包括:
当检测到用户输入的查询指令时,获取查询指令中包含的查询词;获取数据源并确定数据源中与查询词相关的数据集合;根据数据集合生成查询数据集合;根据查询词与查询数据集合倒排确定推荐词。本申请提供的推荐词确定方法,无需依赖对用户的点击信号的收集即可确定较为准确的推荐词,提高了用户进行查询时推荐词推荐的效率。
进一步地,根据与查询词相关的数据集合生成查询数据集合,包括:
对数据集合中的字段进行拼音转换,得到字段的首字母拼音与全拼;
对首字母拼音与全拼进行前缀化,得到第一查询数据集合;
对数据集合中的字段进行n-gram处理,得到第二查询数据集合,查询数据集合包括第一查询数据集合以及第二查询数据集合。
在本申请实施例中,在中文搜索引擎或应用程序中,一般推荐词均为中文字段。与查询词相关的数据集合也多为中文字段的数据集合。此处,以机票或火车票售卖的应用程序为例,该类应用程序中,搜索框一般用于对城市以及对飞机场、火车站等站点信息的搜索。在应用程序的数据库中也会预先设置比如全球各国各大城市的城市名的中文字段以及各机场站点、火车站站点的中文字段信息。当获取到这些预设的数据后,对这些字段进行拼音转换,得到字段的首字母拼音和全拼。例如城市字段“长沙”,拼音转换后可得到“CS”、“cs”首字母拼音以及“CHANGSHA”和“changsha”这样的全拼。然后,在对得到的首字母拼音与全拼进行前缀化处理,具体地,例如对“CS”数据进行前缀化处理得到“C”和“CS”,对“changsha”进行前缀化处理可以得到“c”、“ch”、“cha”、“chan”、“chang”、“changs”、“changsh”以及“changsha”等数据。如此,对与查询词相关的数据集合中的所有字段进行拼音转换以及前缀化后得到的数据确定为第一查询数据集合。
另外,再对城市字段进行n-gram处理。n-gram(有时也称为n元模型)是自然语言处理中一个非常重要的概念,通常在自然语言处理(Natural Language processing,NLP)中,N-Gram的一个作用是用来评估两个字符串之间的差异程度。下面介绍n-gram的具体处理步骤。例如对城市名字段“齐齐哈尔”进行n-gram处理,当n为1时,n-gram得到的结果为“齐”、“齐”、“哈”、“尔”;当n为2时,n-gram得到的结果为“齐齐”、“齐哈”、“哈尔”;当n为3时,n-gram得到的结果为“齐齐哈”和“齐哈尔”;当n为4时,n-gram得到的结果为“齐齐哈尔”。如此,对于查询词相关的数据集合中的所有字段进行n-gram处理后得到的数据为第二查询数据集合。第一查询数据集合与第二查询数据集合均为查询词用以匹配的查询数据集合。
进一步地,可以理解的是,在售卖机票或火车票的应用程序中,还有一类重要的字段,即站点字段,站点字段可能与城市名字段重合,也可能与城市名字段不重合。例如“深圳”站点名称与城市名字段重合,而“深圳北”站点名称字段与城市名称字段并不重合。因此,在本申请中,还需要对站点字段进行拼音转换,再对拼音转换得到的首字母拼音和全拼进行前缀化,得到第三查询数据集合。以及对站点字段进行n-gram处理,得到第四查询数据集合。此处拼音转换、前缀化以及n-gram处理的具体步骤与前述对城市名字段的处理步骤一致,不再予以赘述。得到的第三查询数据集合与第四查询数据集合均属于查询数据集合中。如此,提供了更多的可匹配的数据,使得与查询词的匹配结果更为准确。
进一步地,根据查询词与查询数据集合倒排确定推荐词,包括:
根据第一查询数据集合以及第二查询数据集合生成查找树;
根据查询词语查找树倒排确定推荐词。
查找树,即trie树,是一种哈希树的变种,可以用于统计、排序和保存大量的字符串,以及在搜索引擎***用于文本词频统计。在本申请实施例中,将查询数据集合中的数据按照一定的规则生成查找树,在查找树中查询数据间形成树状关系。再根据查询词与查找树进行比对,从而倒推确定推荐词。该方法可以利用字符串的公共前缀来减少查询时间,最大限度地减少武威的字符串比较,从而获得较高的查询效率。
进一步地,根据查询词语查询数据集合倒排确定推荐词,包括:
根据第一查询数据集合以及第二查询数据集合生成哈希表;
根据查询词与哈希表倒排确定推荐词。
哈希表,又称散列表,是根据关键码值而直接进行访问的数据结构,也就是通过将关键码值映射到表中的一个位置来访问记录,从而加快查找的速度。在本申请实施例中,将查询数据集合生成哈希表,当用户输入查询词时,根据查询词与映射函数确定在哈希表中对应的数据,从而完成快速的查找。进而可以倒排确定推荐词。
上述两种查找方式中,哈希表查询的算法复杂度低,查询速度快,但占用内存较大,可以使用定长哈希以及进一步节省内存空间。查找树查找可以方便与前缀查找,节省转换时间而且占用内存较少,但算法复杂度较高。基于上述优劣势,用户可根据需要自行确定查找方式。
进一步地,根据查询词与查询数据集合倒排确定推荐词之后,还包括:
对推荐词进行排序;
按照排序顺序对推荐词进行显示。
在本申请实施例中,确定的推荐词往往不止一个,例如用户输入“SZ”查询词时,输出的推荐词可能是“深圳”、“深圳北”等推荐词。可以按照一个设定的顺序对这些关键词进行排序,排序的原则可以用户根据自己的习惯进行设定,也可以是根据用户历史点击数据进行确定。还可以是根据推荐词与查询词的相关性进行确定。当按照设定的顺序对推荐词进行排序后,可以根据排序的顺序对推荐词进行显示,以便用户进行快速确定。
进一步地,获取数据源并确定数据源中与查询词相关的数据集合,包括:
对数据表中的数据进行备份;
对备份的数据按照预设的格式进行格式化;
确定格式化后的数据中处于预设区域的数据的集合为与查询词相关的数据集合。
在本申请实施例中,可以理解的是,数据表中的数据可以是搜索引擎或应用程序在装载时即自带的数据,也可以是用户输入或点击的历史数据,也可以是网络爬虫从网络上爬取的相关数据。对数据表中数据进行备份以及格式化的过程,可以是在用户输入查询词前就完成,也可以是响应于用户输入的查询指令之后完成。在用户输入查询指令前完成,可以更快地返回推荐词。对备份数据的格式化可以是将备份的数据表中的数据按照预设的格式进行对其,从而便于对某一同类属性的数据进行统一处理。例如在上述示例的售卖机票或火车票的应用程序中,将数据进行格式化对其处理后,可以将城市名称数据置于同一列,进而直接对该列数据进行统一处理即可实现对所有城市名称数据的处理。另外,当存在不对齐的数据时,可以额外添加字段以补齐。
进一步地,该方法还包括:
响应于用户对推荐词的点击操作,获取用户点击的推荐词;
将用户点击的推荐词与查询词匹配存储于存储器中。
在本申请实施例中,在确定了推荐词并将推荐词按照一定的顺序进行显示后。用户根据自己的需求对显示的推荐词进行点击,此时处理器可以获取用户的点击数据,并将该点击数据与获取的用户输入的查询词进行匹配,甚至进而生成用户搜索习惯数据。将该数据保存于存储器中,用于后续用户进行搜索时更快地对推荐词进行确定。
如图3所示,为本申请提供的推荐词确定装置的结构示意图,该装置包括:
第一获取模块301,用于当检测到用户输入的查询指令时,获取查询指令中包含的查询词;
第二获取模块302,用于获取数据源并确定数据源中与查询词相关的数据集合;
生成模块303,用于根据数据集合生成查询数据集合;
确定模块304,用于根据查询词与查询数据集合倒排确定推荐词。
可以理解的是,本申请实施例提供的推荐词确定装置的各模块的功能与图2实施例提供的推荐词确定方法中各步骤的内容相同,此处不再予以赘述。
本申请第三方面提供了一种电子装置,该电子装置可用于实现前述实施例中的推荐词确定方法。如图4所示,该电子装置主要包括:
存储器401、处理器402、总线403及存储在存储器401上并可在处理器402上运行的计算机程序,存储器401和处理器402通过总线403连接。处理器402执行该计算机程序时,实现前述实施例中的推荐词确定方法。其中,处理器的数量可以是一个或多个。
存储器401可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器401用于存储可执行程序代码,处理器402与存储器401耦合。
本申请第四方面提供了一种存储介质,该存储介质可以是存储器。该存储介质上存储有计算机程序,该程序被处理器执行时实现第一方面提供的推荐词确定方法中的各个步骤。进一步的,该计算机可读存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集合成到另一个***,或一些特征可以忽略,或不执行。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集合成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集合成在一个模块中。上述集合成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集合成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的推荐词确定方法、装置、存储介质及终端的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种推荐词确定方法,其特征在于,所述方法包括:
当检测到用户输入的查询指令时,获取所述查询指令中包含的查询词;
获取数据源并确定所述数据源中与所述查询词相关的数据集合;
根据所述数据集合生成查询数据集合;
根据所述查询词与所述查询数据集合倒排确定推荐词。
2.根据权利要求1所述的推荐词确定方法,其特征在于,所述根据所述数据集合生成查询数据集合,包括:
对所述数据集合中的字段进行拼音转换,得到所述字段的首字母拼音与全拼;
对所述首字母拼音与全拼进行前缀化,得到第一查询数据集合;
对所述字段进行n-gram处理,得到第二查询数据集合,查询数据集合包括所述第一查询数据集合以及所述第二查询数据集合。
3.根据权利要求2所述的推荐词确定方法,其特征在于,所述根据所述查询词与所述查询数据集合倒排确定推荐词,包括:
根据所述第一查询数据集合以及所述第二查询数据集合生成查找树;
根据所述查询词与所述查找树倒排确定推荐词。
4.根据权利要求2所述的推荐词确定方法,其特征在于,所述根据所述查询词与所述查询数据集合倒排确定推荐词,包括:
根据所述第一查询数据集合以及所述第二查询数集合流生成哈希表;
根据所述查询词与所述哈希表倒排确定推荐词。
5.根据权利要求1所述的推荐词确定方法,其特征在于,所述根据所述查询词与所述查询数据集合倒排确定推荐词之后,还包括:
对所述推荐词进行排序;
按照排序顺序对所述推荐词进行显示。
6.根据权利要求1所述的推荐词确定方法,其特征在于,所述获取数据源并确定所述数据源中与所述查询词相关的数据集合,包括:
对数据表中的数据进行备份;
对备份的数据按照预设的格式进行格式化;
确定格式化后的数据中处于预设区域的数据的集合为与所述查询词相关的数据集合。
7.根据权利要求6所述的推荐词确定方法,其特征在于,所述方法还包括:
响应于用户对所述推荐词的点击操作,获取用户点击的推荐词;
将所述用户点击的推荐词与所述查询词匹配存储于存储器中。
8.一种推荐词确定装置,其特征在于,所述装置包括:
第一获取模块,用于当检测到用户输入的查询指令时,获取所述查询指令中包含的查询词;
第二获取模块,用于获取数据源并确定所述数据源中与所述查询词相关的数据集合;
生成模块,用于根据所述数据集合生成查询数据集合;
确定模块,用于根据所述查询词与所述查询数据集合倒排确定推荐词。
9.一种电子装置,包括存储器、处理器以及存储在所述存储器上可以被所述处理器执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1~7中任意一项所述方法中的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1~7中任意一项所述方法中的步骤。
CN202010691285.3A 2020-07-17 2020-07-17 推荐词确定方法、装置、电子装置及存储介质 Pending CN111782958A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010691285.3A CN111782958A (zh) 2020-07-17 2020-07-17 推荐词确定方法、装置、电子装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010691285.3A CN111782958A (zh) 2020-07-17 2020-07-17 推荐词确定方法、装置、电子装置及存储介质

Publications (1)

Publication Number Publication Date
CN111782958A true CN111782958A (zh) 2020-10-16

Family

ID=72764549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010691285.3A Pending CN111782958A (zh) 2020-07-17 2020-07-17 推荐词确定方法、装置、电子装置及存储介质

Country Status (1)

Country Link
CN (1) CN111782958A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023024716A1 (zh) * 2021-08-26 2023-03-02 北京字跳网络技术有限公司 查询结果显示方法、装置、介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268176A (zh) * 2012-06-26 2015-01-07 北京奇虎科技有限公司 一种基于搜索关键词的推荐方法及***
CN106897317A (zh) * 2015-12-21 2017-06-27 北京奇虎科技有限公司 基于关键词进行搜索推荐的方法和装置
CN108227954A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种提供搜索输入联想词的方法、装置及电子设备
CN109543113A (zh) * 2018-12-21 2019-03-29 北京字节跳动网络技术有限公司 确定点击推荐词的方法、装置、存储介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268176A (zh) * 2012-06-26 2015-01-07 北京奇虎科技有限公司 一种基于搜索关键词的推荐方法及***
CN106897317A (zh) * 2015-12-21 2017-06-27 北京奇虎科技有限公司 基于关键词进行搜索推荐的方法和装置
CN108227954A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种提供搜索输入联想词的方法、装置及电子设备
CN109543113A (zh) * 2018-12-21 2019-03-29 北京字节跳动网络技术有限公司 确定点击推荐词的方法、装置、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023024716A1 (zh) * 2021-08-26 2023-03-02 北京字跳网络技术有限公司 查询结果显示方法、装置、介质和电子设备

Similar Documents

Publication Publication Date Title
CN108304444B (zh) 信息查询方法及装置
US20220138404A1 (en) Browsing images via mined hyperlinked text snippets
US8214361B1 (en) Organizing search results in a topic hierarchy
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
CN102722498B (zh) 搜索引擎及其实现方法
CN105069102A (zh) 信息推送方法和装置
CN110162522B (zh) 一种分布式数据搜索***及方法
WO2013101490A1 (en) Knowledge-based entity detection and disambiguation
CN102737021B (zh) 搜索引擎及其实现方法
WO2018022334A1 (en) Computer application query suggestions
CN103838756A (zh) 一种确定推送信息的方法及装置
EP3491542A1 (en) Platform support clusters from computer application metadata
CN110413738A (zh) 一种信息处理方法、装置、服务器及存储介质
CN102722501A (zh) 搜索引擎及其实现方法
CN104699841A (zh) 提供搜索结果的列表摘要信息的方法和装置
JP2012533819A (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
CN102722499A (zh) 搜索引擎及其实现方法
CN111400323A (zh) 数据检索方法、***、设备及存储介质
US8700624B1 (en) Collaborative search apps platform for web search
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
US10339148B2 (en) Cross-platform computer application query categories
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
CN111782958A (zh) 推荐词确定方法、装置、电子装置及存储介质
CN112527954A (zh) 非结构化数据全文搜索方法、***及计算机设备
KR20100068964A (ko) 연관 질의어 추천 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination