CN108182200B - 基于语义相似度的关键词拓展方法和装置 - Google Patents

基于语义相似度的关键词拓展方法和装置 Download PDF

Info

Publication number
CN108182200B
CN108182200B CN201711229082.7A CN201711229082A CN108182200B CN 108182200 B CN108182200 B CN 108182200B CN 201711229082 A CN201711229082 A CN 201711229082A CN 108182200 B CN108182200 B CN 108182200B
Authority
CN
China
Prior art keywords
keyword
candidate
keywords
app
semantic similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711229082.7A
Other languages
English (en)
Other versions
CN108182200A (zh
Inventor
翁永金
李百川
陈第
蔡锐涛
李展铿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmi Technology Co ltd
Original Assignee
Youmi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youmi Technology Co ltd filed Critical Youmi Technology Co ltd
Priority to CN201711229082.7A priority Critical patent/CN108182200B/zh
Publication of CN108182200A publication Critical patent/CN108182200A/zh
Application granted granted Critical
Publication of CN108182200B publication Critical patent/CN108182200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于语义相似度的关键词拓展方法和装置。所述方法包括:接收待拓展关键词,计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度;所述候选关键词集合中包含多个候选关键词;获取各个候选关键词在应用库平台中的搜索指数,根据所述语义相似度、预设的语义相似度权重以及各个候选关键词的搜索指数,计算各个候选关键词相对于所述待拓展关键词的相似度得分;按照相似度得分的高低顺序,从所述候选关键词集合中选取设定数量的候选关键词,得到所述待拓展关键词的拓展关键词。本发明能够自动筛选出相似性较高关键词,既实现量产,同时又可保证拓展质量。

Description

基于语义相似度的关键词拓展方法和装置
技术领域
本发明涉及信息检索技术领域,特别是涉及基于语义相似度的关键词拓展方法和装置。
背景技术
随着智能终端的迅速发展,带动了移动互联网软件行业的发展。越来越多用户在智能终端中的应用库平台(即应用商店)下载各种APP(application,应用),根据***数据显示,65%的用户通过应用商店搜索下载所需应用。所以APP开发者为提高自身APP在应用商店的搜索质量,需要做好应用商店的优化工作。其关键工作之一是做好APP关键词优化,而关键词的优化的核心内容是需要对APP的重点关键词进行拓展。
目前,基于智能终端应用商店的特定行业知识背景,关键词拓展较多依靠人工进行判断拓展,对于人工拓展,拓展质量受到人工主观认知水平的影响较大,存在关键词拓展结果的质量不稳定的缺陷。
发明内容
基于此,本发明提供了基于语义相似度的关键词拓展方法和装置,能够克服现有关键词拓展方式存在的质量不稳定的缺陷。
本发明实施例提供的方案包括:
一种基于语义相似度的关键词拓展方法,包括:
接收待拓展关键词,计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度;所述候选关键词集合中包含多个候选关键词;
获取各个候选关键词在应用库平台中的搜索指数,根据所述语义相似度、预设的语义相似度权重以及各个候选关键词的搜索指数,计算各个候选关键词相对于所述待拓展关键词的相似度得分;
按照相似度得分的高低顺序,从所述候选关键词集合中选取设定数量的候选关键词,得到所述待拓展关键词的拓展关键词。
在一实施例中,接收待拓展关键词,计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度之前,还包括:
获取应用库平台的历史搜索记录信息,根据所述历史搜索记录信息确定各关键词对应的第一映射关系;其中,所述历史搜索记录信息包括用于搜索的关键词信息以及各关键词的搜索结果信息;所述第一映射关系中包括关键词对应的候选APP集合,还包括候选APP集合中各个APP的出现频次信息;
根据所述历史搜索记录信息中多个关键词的所述第一映射关系,确定各APP对应的第二映射关系;所述第二映射关系中包括APP对应的关键词集合;
根据所述第一映射关系和第二映射关系得到所述应用库平台的候选关键词集合。
在一实施例中,根据所述历史搜索记录信息确定各关键词与覆盖APP的第一映射关系,包括:
根据所述历史搜索记录信息中同一个关键词在设定历史时段内的多次搜索结果,得到该关键词对应的多次搜索结果中的APP排序信息;
按照APP排序先后,从该关键词的每次搜索结果中选取设定数量的APP,得到所述关键词对应的候选APP集合;
统计候选APP集合中各个APP在所述多次搜索结果中的出现频次,得到所述关键词对应的特征向量;所述特征向量中的各个元素分别对应所述候选APP集合中各个APP的出现频次;
根据所述关键词对应的候选APP集合以及特征向量,得到该关键词对应的第一映射关系。
在一实施例中,根据所述第一映射关系和第二映射关系得到所述应用库平台的候选关键词集合,包括:
根据所述第一映射关系和第二映射关系得到一关键词矩阵,所述关键词矩阵的行数等于第一映射关系中关键词对应的候选APP集合中的APP个数,所述关键词矩阵的列数等于第二映射关系中APP对应的关键词集合中的关键词个数;
根据所述关键词矩阵中各个关键词的出现频次,从所述关键词矩阵中选取出现频次大于或等于设定频次的关键词,得到中间关键词集合;
获取所述中间关键词集合中各关键词的搜索指数,从所述中间关键词集合中选取搜索指数大于或等于设定搜索指数值的关键词,得到候选关键词集合。
在一实施例中,通过如下公式计算所述待拓展关键词与候选关键词集合中各个候选关键词的语义相似度:
Figure BDA0001487844110000031
其中,ki、kj分别表示第i个关键词和第j个关键词,V(ki)、V(kj)分别表示第i个关键词的特征向量、第j个关键词的特征向量,V(ki)·V(kj)表示两个向量的内积,||V(ki)||2表示向量V(ki)的2-范数,||V(ki)||2||V(kj)||2表示特征向量V(ki)与V(kj)的2-范数的乘积,sim(ki,kj)表示第i个关键词和第j个关键词的语义相似度。
在一实施例中,根据所述语义相似度、预设的语义相似度权重以及各个候选关键词的搜索指数,通过如下公式计算各个候选关键词相对于所述待拓展关键词的相似度得分:
Figure BDA0001487844110000041
其中,K′表示待拓展关键词,ki表示候选关键词集合中第i个候选关键词,Score(ki)表示候选第i个候选关键词相对于所述待拓展关键词的相似度得分;w表示设定的语义相似度权重,(1-w)表示搜索指数权重;sim(K′,ki)表示待拓展关键词与第i个候选关键词的语义相似度;pi表示第i个候选关键词的搜索指数,pmin表示候选关键词集合中所有候选关键词的最小搜索指数值,pmax则为最大搜索指数值,Scorei∈[0,100]。
在一实施例中,获取应用库平台的历史搜索记录信息,包括:
通过应用库平台的接口,获取应用库平台最近一周的历史搜索记录信息。
一种基于语义相似度的关键词拓展装置,包括:
语义相似度计算模块,用于接收待拓展关键词,计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度;所述候选关键词集合中包含多个候选关键词;
相似度得分计算模块,用于获取各个候选关键词在应用库平台中的搜索指数,根据所述语义相似度、预设的语义相似度权重以及各个候选关键词的搜索指数,计算各个候选关键词相对于所述待拓展关键词的相似度得分;
以及,拓展词选取模块,用于按照相似度得分的高低顺序,从所述候选关键词集合中选取设定数量的候选关键词,得到所述待拓展关键词的拓展关键词。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述方法的步骤。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。
实施上述实施例,在接收到待拓展关键词时,首先计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度;所述候选关键词集合中包含多个候选关键词;然后获取各个候选关键词在应用库平台中的搜索指数,根据所述语义相似度、预设的语义相似度权重以及各个候选关键词的搜索指数,计算各个候选关键词相对于所述待拓展关键词的相似度得分;最后按照相似度得分的高低顺序,从所述候选关键词集合中选取设定数量的候选关键词,得到所述待拓展关键词的拓展关键词.上述技术方案能够根据用户输入的关键词,基于语义分析自动筛选出相似性较高关键词同时给出其语义相似度评分,从而提高APP运营人员的效率;此外,通过上述实施例的关键词拓展方法,还便于批量导出相似关键词,实现效率也得到较大提升;既实现量产,同时又可保证拓展质量。
附图说明
图1为一实施例的基于语义相似度的关键词拓展方法的示意性流程图;
图2为另一实施例的基于语义相似度的关键词拓展方法的示意性流程图;
图3为一实施例的基于语义相似度的关键词拓展装置的示意性结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明各实施例中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。
图1为一实施例的基于语义相似度的关键词拓展方法的示意性流程图;如图1所示,本实施例中的基于语义相似度的关键词拓展方法包括步骤:
S11,接收待拓展关键词,计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度;所述候选关键词集合中包含多个候选关键词;
本发明实施例中的关键词包括所有可用于在应用库平台搜索APP的字符,例如汉字、英文单词或者字母、数字或者其他文字符号,还可以是几种字符的组合形式。
S12,获取各个候选关键词在应用库平台中的搜索指数,根据所述语义相似度、预设的语义相似度权重以及各个候选关键词的搜索指数,计算各个候选关键词相对于所述待拓展关键词的相似度得分;
S13,按照相似度得分的高低顺序,从所述候选关键词集合中选取设定数量的候选关键词,得到所述待拓展关键词的拓展关键词。
在一可选实施例中,接收待拓展关键词,计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度之前,还包括确定应用库平台对应的候选关键词集合的步骤。所述候选关键词集合中包含多个候选关键词,所述多个候选关键词均为应用库平台中被使用过的用于搜索APP的关键词,其形式包括汉字、英文单词或者字母、数字或者其他文字符号等。
所述候选关键词集合可基于所述应用库平台的历史搜索记录信息得到,例如基于最近一周在所述应用库平台发生的搜索记录信息,所述搜索记录信息包括用于搜索的关键词信息以及各关键词对应的搜索结果信息,还可包括各关键词的搜索指数信息,搜索指数是根据设定统计时间内采用该关键词在应用库平台进行APP搜索的累计次数(搜索量),同时考虑搜索量级等因素计算得到的,搜索指数与搜索量两者是呈现正向关系,从经验上大致估计:(1)搜索指数<4605的关键词,每天基本上搜索量不超过1次;(2)搜索指数>=4605且<8000的关键词,每天搜索量≈搜索指数-4604;(3)搜索指数大于8000的关键词,每天的搜索量≈(搜索指数-4604)*f(x),f(x)代表搜索指数与搜索量两者关系已非单纯的线性增长关系。
在一可选实施例中,确定应用库平台对应的候选关键词集合的步骤可包括:
首先,获取应用库平台的历史搜索记录信息,根据所述历史搜索记录信息确定各关键词对应的第一映射关系;其中,所述历史搜索记录信息包括用于搜索的关键词信息以及各关键词的搜索结果信息;所述第一映射关系中包括关键词对应的候选APP集合,还包括候选APP集合中各个APP的出现频次信息。
然后,根据获取到的历史搜索记录信息中多个候选关键词的所述第一映射关系,确定各APP与覆盖关键词的第二映射关系;所述第二映射关系中包括APP对应的关键词集合。进一步地,可根据所述第一映射关系和第二映射关系得到所述应用库平台的候选关键词集合。
在一可选实施例中,根据历史搜索记录信息确定各关键词与覆盖APP的第一映射关系的实现过程包括:根据所述历史搜索记录信息中同一个关键词在设定历史时段内的多次搜索结果,得到该关键词对应的多次搜索结果中的APP排序信息;按照APP排序先后,从该关键词的每次搜索结果中选取设定数量的APP,得到所述关键词对应的候选APP集合;统计候选APP集合中各个APP在所述多次搜索结果中的出现频次,得到所述关键词对应的特征向量;所述特征向量中的各个元素分别对应所述候选APP集合中各个APP的出现频次;根据所述关键词对应的候选APP集合以及特征向量,得到该关键词对应的第一映射关系。
在一可选实施例中,上述的根据所述第一映射关系和第二映射关系得到所述应用库平台的候选关键词集合的实现过程包括:
根据所述第一映射关系和第二映射关系得到一关键词矩阵,所述关键词矩阵的行数等于第一映射关系中关键词对应的候选APP集合中的APP个数,所述关键词矩阵的列数等于第二映射关系中APP对应的关键词集合中的关键词个数。根据所述关键词矩阵中各个关键词的出现频次,从所述关键词矩阵中选取出现频次大于或等于设定频次的关键词,得到中间关键词集合。获取所述中间关键词集合中各关键词的搜索指数,从所述中间关键词集合中选取搜索指数大于或等于设定搜索指数值的关键词,得到候选关键词集合。
下面结合图2所述的逻辑示意图,对本发明实施例的基于语义相似度的关键词拓展方法做进一步的说明。
首先,基于关键词在应用库平台中最近一周的搜索结果信息,例如,采用第i个关键词进行搜索结果覆盖的APP表示如下:
S(ki)=(appid1,appid2,…,appidn) (2-1)
式中,i,n∈Z,Z为正整数集合,ki表示第i个关键词,n表示通过第i个关键词搜索得到的n个按出现顺序排列的APP(可用APPid标识),对于不同的关键词其对应的n的大小可能不同。
进一步地,确定应用库平台中关键词与APP的正向映射关系:
由于同一个关键词在设定历史时段内(例如一周内)可能会被多次搜索,且搜素结果随着搜索时间的变化而变化。对搜索结果进行统计汇总,最终得到第i个关键词对应的APP集合A(ki)与其特征向量V(ki),
A(ki)=(appid1,appid2,…,appidn) (2-2)
V(ki)=(count1,count2,…,countn) (2-3)
其中i,n∈Z,ki表示第i个关键词,countn表示在设定历史时段内用该关键词搜索出现某个app的频次。
进一步地,确定关键词与APP的逆向映射关系,即APP对应的第二映射关系:
根据上述映射关系S(ki)建立倒排列表,可得第i个APP对应的关键词集合K(ai):
K(ai)=(keyword1,...,keywordn) (2-4)
其中i,n∈Z,ai表示第i个APP,同时不同APP对应不同的n,即不同APP对应的K(ai)的维度不同。
进一步地,确定候选关键词集合:
首先,根据式(2-2)、式(2-3)获取该关键词对应的APP集合,从所述APP集合中选取出现频次排名前m的APP,得到该关键词对应的候选APP集合Sapp
Sapp=(appid(1),…,appid(m)) (3-1)
其中m∈Z。
根据所述候选APP集合Sapp及其对应的特征向量,得到所述关键词对应的第一映射关系。
进一步地,根据式(2-4)对式(3-1)中的APP集合进行映射,得到一关键词矩阵,记为Mkw
Figure BDA0001487844110000091
其中m,n∈Z。
进一步地,对所述关键词矩阵进行筛选:
(1)对关键词矩阵Mkw进行归并统计其中各关键词的出现频次,选择出现频次排名前n的关键词,得到中间关键字集合;
(2)剔除所述中间关键字集合中的搜索指数低于β的关键词,得到候选关键词集合,记为,
Skw=(keyword1,keyword2,…,keywordn) (4-1)
其中n∈Z。
需要说明的是,上述候选关键词集合的确定过程可以是离线计算,并且定期更新,比如每周重新更新一遍候选关键词集合,以保证基于该候选关键词集合得到的拓展关键词的质量。
在一可选实施例中,可通过如下公式计算所述待拓展关键词与候选关键词集合中各个候选关键词的语义相似度:
Figure BDA0001487844110000101
其中,ki、kj分别表示第i个关键词和第j个关键词,V(ki)、V(kj)分别表示第i个关键词的特征向量、第j个关键词的特征向量,V(ki)·V(kj)表示两个向量的内积,||V(ki)||2表示向量V(ki)的2-范数,即元素绝对值的平方和再开方,||V(ki)||2||V(kj)||2表示特征向量V(ki)与V(kj)的2-范数的乘积,sim(ki,kj)表示第i个关键词和第j个关键词的语义相似度。
可以理解的,两个关键词之间语义相似度的计算方法,包括但不限于上述的基于余弦相似度计算语义相似度的算法,还可以采用其他用于计算语义相似度的算法。
在一可选实施例中,可通过如下公式计算各个候选关键词相对于所述待拓展关键词的相似度得分:
Figure BDA0001487844110000102
其中,K′表示待拓展关键词,ki表示候选关键词集合中第i个候选关键词,Score(ki)表示第i个候选关键词相对于所述待拓展关键词的相似度得分,w表示设定的语义相似度权重,(1-w)表示搜索指数权重;pi表示第i个候选关键词的搜索指数,pmin表示候选关键词集合中所有候选关键词的最小搜索指数值,pmax则为候选关键词集合中所有候选关键词的最大搜索指数值;其中,Scorei∈[0,100]。
可以理解的,上述相似度得分的计算方法包括但不限于上述基于百分制下的计算公式,还可以确定其他计算公式,只要能在一定程度上综合语义相似度、关键词的搜索指数以及两者的影响力即可。
通过上述过程,可对用户输入的待拓展的每个关键词实时自动拓展出基于语义相似的关键词列表;拓展质量好,且效率高。
结合上述实施例,下面以苹果应用商店(App store optimization,ASO)为例,对本发明的基于语义相似度的关键词拓展方法在ASO中的应用进行举例说明:
1)利用苹果开发者API获取苹果应用商店的APP历史搜索信息,例如最近一周的关键词搜索结果、APP信息(可包括APPID、APP名称等维度)、关键词信息(包括关键词ID、关键词、搜索指数、搜索结果等维度)
2)对步骤1)中的历史搜索信息进行预处理,整理以下映射关系,用hash表表示为表1所示。
表示1:
Figure BDA0001487844110000111
Figure BDA0001487844110000121
3)根据2)中所整理的映射关系,首先查询待拓展关键词的关键词ID,再基于该关键词ID查询其对应的APPID,选取其中排名前200(可基于实际情况设定)的APPID作为关键词对应候选APP集合,并确定与所述候选APP集合对应的特征向量。
4)遍历步骤3)中得到的特征向量,查询2)中所整理的映射关系得到每个APPID所覆盖的关键词ID,得到所述待拓展关键词对应的关键词矩阵。
5)对步骤4)中关键词矩阵进行归并统计各关键词的出现频次,选择其中出现频次排名前1000(可基于实际情况设定)的关键词,得到中间关键词矩阵;进一步对所述中间关键词矩阵进行筛选,剔除其中搜索指数低于4605(可基于实际情况设定)的关键词,得到所述待拓展关键词对应的候选关键词集合。
6)查询2)中得到的映射关系,得到5)中候选关键词集合中每个候选关键词对应的特征向量。
7)计算待拓展关键词与候选关键词集合中的每个候选关键词的余弦相似度,以此作为纯语义相似度。
8)设定语义相似度权重为0.9(可基于实际情况设定),则搜索指数权重为1-0.9=0.1,根据上述式(6-1)计算每个候选关键词相对于所述待拓展关键词的相似度评分,从高到低取前200个(可基于实际情况设定),得到所述待拓展关键词的拓展关键词列表。
在上述具体应用下,即将上述实施例的基于语义相似度的关键词拓展方法该应用在ASO拓词应用上,测试5个关键词的拓词效果。首先人工为每个关键词拓展了10个关键词,然后应用上述实施例的基于语义相似度的关键词拓展方法为每个关键词自动确定前50个相似关键词。对比结果发现,人工选出的关键词80%被自动选出的前50个关键词覆盖,证明了上述实施例的基于语义相似度的关键词拓展方法的有效性。并且,相比人工拓词,上述实施例的基于语义相似度的关键词拓展方法可在3秒之内提供前200个拓展关键词,速度大幅提升。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。此外,还可对上述实施例进行任意组合,得到其他的实施例。
基于与上述实施例中的基于语义相似度的关键词拓展方法相同的思想,本发明还提供基于语义相似度的关键词拓展装置,该装置可用于执行上述基于语义相似度的关键词拓展方法。为了便于说明,基于语义相似度的关键词拓展装置实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图3为本发明一实施例的基于语义相似度的关键词拓展装置的示意性结构图;如图3所示,本实施例的基于语义相似度的关键词拓展装置包括:
语义相似度计算模块310,用于接收待拓展关键词,计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度;所述候选关键词集合中包含多个候选关键词;
相似度得分计算模块320,用于获取各个候选关键词在应用库平台中的搜索指数,根据所述语义相似度、预设的语义相似度权重以及各个候选关键词的搜索指数,计算各个候选关键词相对于所述待拓展关键词的相似度得分;
以及,拓展词选取模块330,用于按照相似度得分的高低顺序,从所述候选关键词集合中选取设定数量的候选关键词,得到所述待拓展关键词的拓展关键词。
在一可选实施例中,所述基于语义相似度的关键词拓展装置还包括:
候选关键词集合确定模块,用于获取应用库平台的历史搜索记录信息,根据所述历史搜索记录信息确定各关键词对应的第一映射关系;其中,所述历史搜索记录信息包括用于搜索的关键词信息以及各关键词的搜索结果信息;所述第一映射关系中包括关键词对应的候选APP集合,还包括候选APP集合中各个APP的出现频次信息;根据所述历史搜索记录信息中多个关键词的所述第一映射关系,确定各APP对应的第二映射关系;所述第二映射关系中包括APP对应的关键词集合;根据所述第一映射关系和第二映射关系得到所述应用库平台的候选关键词集合。
在一可选实施例中,所述候选关键词集合确定模块包括:
候选APP确定子模块,用于根据所述历史搜索记录信息中同一个关键词在设定历史时段内的多次搜索结果,得到该关键词对应的多次搜索结果中的APP排序信息;按照APP排序先后,从该关键词的每次搜索结果中选取设定数量的APP,得到所述关键词对应的候选APP集合。
特征向量确定子模块,用于统计候选APP集合中各个APP在所述多次搜索结果中的出现频次,得到所述关键词对应的特征向量;所述特征向量中的各个元素分别对应所述候选APP集合中各个APP的出现频次;
以及,映射关系确定子模块,用于根据所述关键词对应的候选APP集合以及特征向量,得到该关键词对应的第一映射关系。
在一可选实施例中,所述候选关键词集合确定模块还包括:
集合确定子模块,用于根据所述第一映射关系和第二映射关系得到所述应用库平台的候选关键词集合;具体用于:根据所述第一映射关系和第二映射关系得到一关键词矩阵,所述关键词矩阵的行数等于第一映射关系中关键词对应的候选APP集合中的APP个数,所述关键词矩阵的列数等于第二映射关系中APP对应的关键词集合中的关键词个数;根据所述关键词矩阵中各个关键词的出现频次,从所述关键词矩阵中选取出现频次大于或等于设定频次的关键词,得到中间关键词集合;获取所述中间关键词集合中各关键词的搜索指数,从所述中间关键词集合中选取搜索指数大于或等于设定搜索指数值的关键词,得到候选关键词集合。
需要说明的是,上述示例的基于语义相似度的关键词拓展装置的实施方式中,各模块之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
此外,上述示例的基于语义相似度的关键词拓展装置的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于语义相似度的关键词拓展装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,作为独立的产品销售或使用。所述程序在执行时,可执行如上述各实施例的方法的全部或部分步骤。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
此外,所述存储介质还可设置与一种计算机设备中,所述计算机设备中还包括处理器,所述处理器执行所述存储介质中的程序时,能够实现上述各实施例的方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。可以理解,其中所使用的术语“第一”、“第二”等在本文中用于区分对象,但这些对象不受这些术语限制。
以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种基于语义相似度的关键词拓展方法,其特征在于,包括:
接收待拓展关键词,计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度;所述候选关键词集合中包含多个候选关键词;所述预先确定的候选关键词集合基于应用库平台的历史搜索记录信息得到;
获取各个候选关键词在应用库平台中的搜索指数;根据所述语义相似度、预设的语义相似度权重以及各个候选关键词的搜索指数,计算各个候选关键词相对于所述待拓展关键词的相似度得分;所述搜索指数根据设定统计时间内采用该关键词在应用库平台进行APP搜索的累计次数计算得到;
按照相似度得分的高低顺序,从所述候选关键词集合中选取设定数量的候选关键词,得到所述待拓展关键词的拓展关键词。
2.根据权利要求1所述的基于语义相似度的关键词拓展方法,其特征在于,接收待拓展关键词,计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度之前,还包括:
获取应用库平台的历史搜索记录信息,根据所述历史搜索记录信息确定各关键词对应的第一映射关系;其中,所述历史搜索记录信息包括用于搜索的关键词信息以及各关键词的搜索结果信息;所述第一映射关系中包括关键词对应的候选APP集合,还包括候选APP集合中各个APP的出现频次信息;
根据所述历史搜索记录信息中多个关键词的所述第一映射关系,确定各APP对应的第二映射关系;所述第二映射关系中包括APP对应的关键词集合;
根据所述第一映射关系和第二映射关系得到所述应用库平台的候选关键词集合。
3.根据权利要求2所述的基于语义相似度的关键词拓展方法,其特征在于,根据所述历史搜索记录信息确定各关键词对应的第一映射关系,包括:
根据所述历史搜索记录信息中同一个关键词在设定历史时段内的多次搜索结果,得到该关键词对应的多次搜索结果中的APP排序信息;
按照APP排序先后,从该关键词的每次搜索结果中选取设定数量的APP,得到所述关键词对应的候选APP集合;
统计候选APP集合中各个APP在所述多次搜索结果中的出现频次,得到所述关键词对应的特征向量;所述特征向量中的各个元素分别对应所述候选APP集合中各个APP的出现频次;
根据所述关键词对应的候选APP集合以及特征向量,得到该关键词对应的第一映射关系。
4.根据权利要求3所述的基于语义相似度的关键词拓展方法,其特征在于,根据所述第一映射关系和第二映射关系得到所述应用库平台的候选关键词集合,包括:
根据所述第一映射关系和第二映射关系得到一关键词矩阵,所述关键词矩阵的行数等于第一映射关系中关键词对应的候选APP集合中的APP个数,所述关键词矩阵的列数等于第二映射关系中APP对应的关键词集合中的关键词个数;
根据所述关键词矩阵中各个关键词的出现频次,从所述关键词矩阵中选取出现频次大于或等于设定频次的关键词,得到中间关键词集合;
获取所述中间关键词集合中各关键词的搜索指数,从所述中间关键词集合中选取搜索指数大于或等于设定搜索指数值的关键词,得到候选关键词集合。
5.根据权利要求3或4所述的基于语义相似度的关键词拓展方法,其特征在于,通过如下公式计算所述待拓展关键词与候选关键词集合中各个候选关键词的语义相似度:
Figure FDA0002523451150000021
其中,ki、kj分别表示第i个关键词和第j个关键词,V(ki)、V(kj)分别表示第i个关键词对应的特征向量、第j个关键词对应的特征向量,V(ki)·V(kj)表示两个向量的内积,||V(ki)||2表示向量V(ki)的2-范数,||V(ki)||2||V(kj)||2表示特征向量V(ki)的2-范数与V(kj)的2-范数的乘积,sim(ki,kj)表示第i个关键词和第j个关键词的语义相似度。
6.根据权利要求1至4任一所述的基于语义相似度的关键词拓展方法,其特征在于,根据所述语义相似度、预设的语义相似度权重以及各个候选关键词的搜索指数,通过如下公式计算各个候选关键词相对于所述待拓展关键词的相似度得分:
Figure FDA0002523451150000031
其中,K′表示待拓展关键词,ki表示候选关键词集合中第i个候选关键词,Score(ki)表示候选第i个候选关键词相对于所述待拓展关键词的相似度得分;w表示设定的语义相似度权重,(1-w)表示搜索指数权重;sim(K′,ki)表示待拓展关键词与第i个候选关键词的语义相似度;pi表示第i个候选关键词的搜索指数,pmin表示候选关键词集合中所有候选关键词的最小搜索指数值,pmax则为最大搜索指数值,所述相似度得分基于百分制计算。
7.根据权利要求2所述的基于语义相似度的关键词拓展方法,其特征在于,获取应用库平台的历史搜索记录信息,包括:
通过应用库平台的接口,获取应用库平台最近一周的历史搜索记录信息。
8.一种基于语义相似度的关键词拓展装置,其特征在于,包括:
语义相似度计算模块,用于接收待拓展关键词,计算待拓展关键词与预先确定的候选关键词集合中各个候选关键词的语义相似度;所述候选关键词集合中包含多个候选关键词;所述预先确定的候选关键词集合基于应用库平台的历史搜索记录信息得到;
相似度得分计算模块,用于获取各个候选关键词在应用库平台中的搜索指数,根据所述语义相似度、预设的语义相似度权重以及各个候选关键词的搜索指数,计算各个候选关键词相对于所述待拓展关键词的相似度得分;所述搜索指数根据设定统计时间内采用该关键词在应用库平台进行APP搜索的累计次数计算得到;
以及,拓展词选取模块,用于按照相似度得分的高低顺序,从所述候选关键词集合中选取设定数量的候选关键词,得到所述待拓展关键词的拓展关键词。
9.根据权利要求8所述的装置,其特征在于,还包括:
候选关键词集合确定模块,用于获取应用库平台的历史搜索记录信息,根据所述历史搜索记录信息确定各关键词对应的第一映射关系;其中,所述历史搜索记录信息包括用于搜索的关键词信息以及各关键词的搜索结果信息;所述第一映射关系中包括关键词对应的候选APP集合,还包括候选APP集合中各个APP的出现频次信息;根据所述历史搜索记录信息中多个关键词的所述第一映射关系,确定各APP对应的第二映射关系;所述第二映射关系中包括APP对应的关键词集合;根据所述第一映射关系和第二映射关系得到所述应用库平台的候选关键词集合。
10.根据权利要求9所述的装置,其特征在于,所述候选关键词集合确定模块,还包括:
候选APP确定子模块,用于根据所述历史搜索记录信息中同一个关键词在设定历史时段内的多次搜索结果,得到该关键词对应的多次搜索结果中的APP排序信息;按照APP排序先后,从该关键词的每次搜索结果中选取设定数量的APP,得到所述关键词对应的候选APP集合;
特征向量确定子模块,用于统计候选APP集合中各个APP在所述多次搜索结果中的出现频次,得到所述关键词对应的特征向量;所述特征向量中的各个元素分别对应所述候选APP集合中各个APP的出现频次;
以及,映射关系确定子模块,用于根据所述关键词对应的候选APP集合以及特征向量,得到该关键词对应的第一映射关系。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一所述方法的步骤。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一所述方法的步骤。
CN201711229082.7A 2017-11-29 2017-11-29 基于语义相似度的关键词拓展方法和装置 Active CN108182200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711229082.7A CN108182200B (zh) 2017-11-29 2017-11-29 基于语义相似度的关键词拓展方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711229082.7A CN108182200B (zh) 2017-11-29 2017-11-29 基于语义相似度的关键词拓展方法和装置

Publications (2)

Publication Number Publication Date
CN108182200A CN108182200A (zh) 2018-06-19
CN108182200B true CN108182200B (zh) 2020-10-23

Family

ID=62545546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711229082.7A Active CN108182200B (zh) 2017-11-29 2017-11-29 基于语义相似度的关键词拓展方法和装置

Country Status (1)

Country Link
CN (1) CN108182200B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117475B (zh) * 2018-07-02 2022-08-16 武汉斗鱼网络科技有限公司 一种文本改写的方法以及相关设备
CN110795534A (zh) * 2019-10-28 2020-02-14 维沃移动通信有限公司 信息搜索方法及移动终端
CN114238619B (zh) * 2022-02-23 2022-04-29 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及***及装置及介质
CN115630154B (zh) * 2022-12-19 2023-05-05 竞速信息技术(廊坊)有限公司 一种面向大数据环境的动态摘要信息构建方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853722A (zh) * 2012-11-29 2014-06-11 腾讯科技(深圳)有限公司 一种基于检索串的关键词扩展方法、装置和***
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853722A (zh) * 2012-11-29 2014-06-11 腾讯科技(深圳)有限公司 一种基于检索串的关键词扩展方法、装置和***
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置

Also Published As

Publication number Publication date
CN108182200A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
US20230297581A1 (en) Method and system for ranking search content
CN108182200B (zh) 基于语义相似度的关键词拓展方法和装置
US11580168B2 (en) Method and system for providing context based query suggestions
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
CN105302807B (zh) 一种获取信息类别的方法和装置
US11061948B2 (en) Method and system for next word prediction
AU2017268599B2 (en) Method, device, server and storage medium of searching a group based on social network
CN111639255B (zh) 搜索关键词的推荐方法、装置、存储介质及电子设备
JP6728178B2 (ja) 検索データを処理するための方法及び装置
CN112364014B (zh) 数据查询方法、装置、服务器及存储介质
JP6819420B2 (ja) 学習プログラム、学習方法および学習装置
CN110008396B (zh) 对象信息推送方法、装置、设备及计算机可读存储介质
CN111737608A (zh) 企业信息检索结果排序方法及装置
CN111160699A (zh) 一种专家推荐方法及***
JP2017219899A (ja) ナレッジ検索装置、ナレッジ検索方法、および、ナレッジ検索プログラム
CN111488434A (zh) 输入联想词的推荐方法、装置、存储介质及电子设备
CN108170664B (zh) 基于重点关键词的关键词拓展方法和装置
CN106844406B (zh) 检索方法和检索装置
CN108170665B (zh) 基于综合相似度的关键词拓展方法和装置
CN116597443A (zh) 素材标签处理方法、装置、电子设备及介质
CN114547286A (zh) 一种信息搜索方法、装置及电子设备
CN110059272B (zh) 一种页面特征识别方法和装置
CN112579912A (zh) 一种搜索方法、电子设备及计算机存储介质
CN108182201B (zh) 基于重点关键词的应用拓展方法和装置
CN108021641B (zh) 应用的关联关键词拓展的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant