CN106682169B - 一种应用标签挖掘方法、装置和应用搜索方法、服务器 - Google Patents

一种应用标签挖掘方法、装置和应用搜索方法、服务器 Download PDF

Info

Publication number
CN106682169B
CN106682169B CN201611229785.5A CN201611229785A CN106682169B CN 106682169 B CN106682169 B CN 106682169B CN 201611229785 A CN201611229785 A CN 201611229785A CN 106682169 B CN106682169 B CN 106682169B
Authority
CN
China
Prior art keywords
application
keyword
corpus
stage
label system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201611229785.5A
Other languages
English (en)
Other versions
CN106682169A (zh
Inventor
庞伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201611229785.5A priority Critical patent/CN106682169B/zh
Publication of CN106682169A publication Critical patent/CN106682169A/zh
Application granted granted Critical
Publication of CN106682169B publication Critical patent/CN106682169B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种应用标签挖掘方法、装置和应用搜索方法、服务器。该方法包括:获取各应用的摘要;从应用搜索日志中获取关于各应用的搜索词;根据各应用的摘要、搜索词以及预设策略,挖掘出各应用的标签体系。可见,本发明通过自动获取各应用的摘要,并从用户的历史应用搜索日志中实时获取各应用的搜索词,动态更新应用标签;同时通过预设策略,持续不断地提高应用标签的准确率和召回率,进而挖掘并创建应用的标签体系,解决了传统应用标签体系只能通过人工标注导致的人工工作量大、覆盖率低和作弊现象严重等问题,大大提高了应用搜索引擎的搜索质量,提升了用户搜索体验。

Description

一种应用标签挖掘方法、装置和应用搜索方法、服务器
技术领域
本发明涉及数据挖掘、搜索领域,具体涉及一种应用标签挖掘方法、装置和应用搜索方法、服务器。
背景技术
应用搜索引擎是一款移动端软件应用搜索引擎服务,提供手机上的应用搜索和下载,如360手机助手、腾讯应用宝、Quixey等。以360手机助手为例,应用的数量有数百万,自动挖掘并构建应用的标签体系是提高应用搜索引擎搜索质量的关键技术,也是实现功能搜索的核心技术。
传统的应用标签生成方法是人工标注,工作量大费时费力,覆盖率低;或由应用开发者提交标签,往往伴随作弊问题,开发者期望自己的应用有较高的展现机会,提交大量的与应用无关的标签信息。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种应用标签挖掘方法、装置和应用搜索方法、服务器。
依据本发明的一个方面,提供了一种应用标签挖掘方法,包括:
获取各应用的摘要;
从应用搜索日志中获取关于各应用的搜索词;
根据各应用的摘要、搜索词以及预设策略,挖掘出各应用的标签体系。
可选地,所述根据各应用的摘要、搜索词以及预设策略,挖掘出各应用的标签体系包括:
根据各应用的摘要和搜索词,获得训练语料集合;
将训练语料集合输入至LDA模型中进行训练,得到LDA模型输出的应用-主题概率分布结果以及主题-关键词概率分布结果;
根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系。
可选地,所述根据各应用的摘要和搜索词,获得训练语料集合包括:
对于每个应用,从该应用的摘要中提取首段文字或前预设数量个句子的文字;将提取出的文字与该应用的搜索词共同作为该应用的原始语料;
各应用的原始语料构成原始语料集合;对所述原始语料集合进行预处理,获得训练语料集合。
可选地,所述对所述原始语料集合进行预处理包括:
在所述原始语料集合中,
对于每个原始语料,对所述原始语料进行分词处理,得到包含多个词项的分词结果;查找由所述分词结果中的相邻词项构成的短语;保留所述短语、所述分词结果中属于名词的词项和属于动词的词项,作为该原始语料对应保留的关键词。
可选地,所述查找由所述分词结果中的相邻词项构成的短语包括:
计算分词结果中的每两个相邻词项的cPMId值,当两个相邻词项的cPMId值大于第一预设阈值时,确定这两个相邻词项构成短语。
可选地,所述对所述原始语料集合进行预处理还包括:
将每个应用的原始物料对应保留的关键词作为该应用的第一阶段训练语料;
各应用的第一阶段训练语料构成第一阶段训练语料集合;对所述第一阶段训练语料集合中的关键词进行数据清洗。
可选地,所述对所述第一阶段训练语料集合中的关键词进行数据清洗包括:
在所述第一阶段训练语料集合中,
对于每个第一阶段训练语料,计算所述第一阶段训练语料中的每个关键词的TF-IDF值;将TF-IDF值高于第二预设阈值和/或低于第三预设阈值的关键词删除。
可选地,所述对所述原始语料集合进行预处理还包括:
将每个应用的第一阶段训练语料经数据清洗后剩余的关键词作为该应用的第二阶段训练语料;
对于每个应用的第二阶段训练语料,当该应用的第二阶段训练语料中的一个关键词在该应用的名称中出现时,将该关键词在该应用的第二阶段训练语料中重复第四预设阈值次数,得到该应用的训练语料;
各应用的训练语料构成训练语料集合。
可选地,所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系包括:
根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到应用-关键词概率分布结果;
根据所述应用-关键词概率分布结果,对于每个应用,将关键词按照关于该应用的概率从大到小排序,选取前第五预设阈值数目的关键词。
可选地,所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到应用-关键词概率分布结果包括:
对于每个应用,根据所述应用-主题概率分布结果得到各主题关于该应用的概率;
对于每个主题,根据所述主题-关键词概率分布结果得到各关键词关于该主题的概率;
则对于每个关键词,将该关键词关于一个主题的概率与该主题关于一个应用的概率的乘积作为该关键词基于该主题的关于所述应用的概率;将该关键词基于各主题关于所述应用的概率之和作为该关键词关于所述应用的概率。
可选地,所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系还包括:
将每个应用对应选取的前第五预设阈值数目的关键词作为该应用的第一阶段标签体系;
对于每个应用的第一阶段标签体系,计算该应用的第一阶段标签体系中的每个关键词与该应用的摘要之间的语义关系值;对于每个关键词,将该关键词对应的语义关系值与该关键词关于该应用的概率的乘积作为该关键词关于该应用的修正概率;将该应用的第一阶段标签体系中的各关键词按照关于该应用的修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
可选地,计算该应用的第一阶段标签体系中的每个关键词与该应用的摘要之间的语义关系值包括:
计算该关键词的词向量,计算该应用的摘要的前预设数量个句子中的每个词项的词向量;
计算该关键词的词向量与每个词项的词向量之间的余弦相似度,将每个余弦相似度与相应词项所在句子的权重的乘积作为该关键词与相应词项的语义关系值;
将该关键词与各词项的语义关系值之和作为该关键词与该应用的摘要之间的语义关系值。
可选地,所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系还包括:
将每个应用对应选取的关键词作为该应用的第二阶段标签体系;
对于每个应用的第二阶段标签体系,从应用搜索日志中获取关于该应用的下载操作的搜索词集合,统计该应用的第二阶段标签体系中的每个关键词在所述搜索词集合中的DF值;对于每个关键词,在该关键词关于该应用的概率的基础上增加所述DF值的倍数得到该关键词关于该应用的二次修正概率;将该应用的第二阶段标签体系中的各关键词按照关于该应用的二次修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
可选地,所述选取前K个关键词构成该应用的标签体系包括:
从应用搜索日志中获取关于该应用的季度下载次数;
根据该应用的季度下载次数选取前K个关键词构成该应用的标签体系;其中K值作为该应用的季度下载次数的折线函数。
根据本发明的另一方面,提供了一种应用搜索方法,该方法包括:
接收客户端上传的搜索词;
根据所述搜索词在各应用的标签体系中进行匹配;
当所述搜索词与一个应用的标签体系中的关键词相匹配时,将该应用的相关信息返回至客户端进行展示;
所述各应用的标签体系是通过如上任一项所述的应用标签挖掘方法构建的。
根据本发明的另一方面,提供了一种应用标签挖掘装置,该装置包括:
信息获取单元,适于获取各应用的摘要;以及从应用搜索日志中获取关于各应用的搜索词;
标签体系构建单元,适于根据各应用的摘要、搜索词以及预设策略,挖掘出各应用的标签体系。
可选地,所述标签体系构建单元,适于根据各应用的摘要和搜索词,获得训练语料集合;将训练语料集合输入至LDA模型中进行训练,得到LDA模型输出的应用-主题概率分布结果以及主题-关键词概率分布结果;根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系。
可选地,所述标签体系构建单元,适于对于每个应用,从该应用的摘要中提取首段文字或前预设数量个句子的文字;将提取出的文字与该应用的搜索词共同作为该应用的原始语料;各应用的原始语料构成原始语料集合;对所述原始语料集合进行预处理,获得训练语料集合。
可选地,所述标签体系构建单元,适于在所述原始语料集合中,对于每个原始语料,对所述原始语料进行分词处理,得到包含多个词项的分词结果;查找由所述分词结果中的相邻词项构成的短语;保留所述短语、所述分词结果中属于名词的词项和属于动词的词项,作为该原始语料对应保留的关键词。
可选地,所述标签体系构建单元,适于计算分词结果中的每两个相邻词项的cPMId值,当两个相邻词项的cPMId值大于第一预设阈值时,确定这两个相邻词项构成短语。
可选地,所述标签体系构建单元,还适于将每个应用的原始物料对应保留的关键词作为该应用的第一阶段训练语料;各应用的第一阶段训练语料构成第一阶段训练语料集合;对所述第一阶段训练语料集合中的关键词进行数据清洗。
可选地,所述标签体系构建单元,适于在所述第一阶段训练语料集合中,对于每个第一阶段训练语料,计算所述第一阶段训练语料中的每个关键词的TF-IDF值;将TF-IDF值高于第二预设阈值和/或低于第三预设阈值的关键词删除。
可选地,所述标签体系构建单元,还适于将每个应用的第一阶段训练语料经数据清洗后剩余的关键词作为该应用的第二阶段训练语料;对于每个应用的第二阶段训练语料,当该应用的第二阶段训练语料中的一个关键词在该应用的名称中出现时,将该关键词在该应用的第二阶段训练语料中重复第四预设阈值次数,得到该应用的训练语料;各应用的训练语料构成训练语料集合。
可选地,所述标签体系构建单元,适于根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到应用-关键词概率分布结果;根据所述应用-关键词概率分布结果,对于每个应用,将关键词按照关于该应用的概率从大到小排序,选取前第五预设阈值数目的关键词。
可选地,所述标签体系构建单元,适于对于每个应用,根据所述应用-主题概率分布结果得到各主题关于该应用的概率;对于每个主题,根据所述主题-关键词概率分布结果得到各关键词关于该主题的概率;则对于每个关键词,将该关键词关于一个主题的概率与该主题关于一个应用的概率的乘积作为该关键词基于该主题的关于所述应用的概率;将该关键词基于各主题关于所述应用的概率之和作为该关键词关于所述应用的概率。
可选地,所述标签体系构建单元,还适于将每个应用对应选取的前第五预设阈值数目的关键词作为该应用的第一阶段标签体系;对于每个应用的第一阶段标签体系,计算该应用的第一阶段标签体系中的每个关键词与该应用的摘要之间的语义关系值;对于每个关键词,将该关键词对应的语义关系值与该关键词关于该应用的概率的乘积作为该关键词关于该应用的修正概率;将该应用的第一阶段标签体系中的各关键词按照关于该应用的修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
可选地,所述标签体系构建单元,适于计算该关键词的词向量,计算该应用的摘要的前预设数量个句子中的每个词项的词向量;计算该关键词的词向量与每个词项的词向量之间的余弦相似度,将每个余弦相似度与相应词项所在句子的权重的乘积作为该关键词与相应词项的语义关系值;将该关键词与各词项的语义关系值之和作为该关键词与该应用的摘要之间的语义关系值。
可选地,所述标签体系构建单元,还适于将每个应用对应选取的关键词作为该应用的第二阶段标签体系;对于每个应用的第二阶段标签体系,从应用搜索日志中获取关于该应用的下载操作的搜索词集合,统计该应用的第二阶段标签体系中的每个关键词在所述搜索词集合中的DF值;对于每个关键词,在该关键词关于该应用的概率的基础上增加所述DF值的倍数得到该关键词关于该应用的二次修正概率;将该应用的第二阶段标签体系中的各关键词按照关于该应用的二次修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
可选地,所述标签体系构建单元,适于从应用搜索日志中获取关于该应用的季度下载次数;根据该应用的季度下载次数选取前K个关键词构成该应用的标签体系;其中K值作为该应用的季度下载次数的折线函数。
根据本发明的另一方面,提供了一种应用搜索服务器,该服务器包括:
交互单元,适于接收客户端上传的搜索词;
搜索处理单元,适于根据所述搜索词在各应用的标签体系中进行匹配;
所述交互单元,还适于当所述搜索词与一个应用的标签体系中的关键词相匹配时,将该应用的相关信息返回至客户端进行展示;
其中,所述应用搜索服务器中还包括如上任一项所述的应用标签挖掘装置,所述各应用的标签体系是通过所述应用标签挖掘装置构建的。
本发明的技术方案,通过自动获取各应用的摘要,并从用户的历史应用搜索日志中实时获取各应用的搜索词,动态更新应用标签;同时通过预设策略,持续不断地提高应用标签的准确率和召回率,进而挖掘并创建应用的标签体系,解决了传统应用标签体系只能通过人工标注导致的人工工作量大、覆盖率低和作弊现象严重等问题,大大提高了应用搜索引擎的搜索质量,提升了用户搜索体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种应用标签挖掘方法的流程图;
图2示出了根据本发明一个实施例的一种应用搜索方法的流程图;
图3示出了根据本发明一个实施例的基于应用搜索方法进行搜索的界面示意图;
图4示出了根据本发明一个实施例的一种应用标签挖掘装置的示意图;
图5示出了根据本发明一个实施例的一种应用搜索服务器的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
1图1示出了根据本发明一个实施例的一种应用标签挖掘方法的流程图;参见图1,该方法包括:
步骤S110,获取各应用的摘要。
步骤S120,从应用搜索日志中获取关于各应用的搜索词。
步骤S130,根据各应用的摘要、搜索词以及预设策略,挖掘出各应用的标签体系。
通过图1所示的方法,通过自动获取各应用的摘要,并从用户的历史应用搜索日志中实时获取各应用的搜索词,动态更新应用标签;同时通过预设策略,持续不断地提高应用标签的准确率和召回率,进而挖掘并创建应用的标签体系,解决了传统应用标签体系只能通过人工标注导致的人工工作量大、覆盖率低和作弊现象严重等问题,大大提高了应用搜索引擎的搜索质量,提升了用户搜索体验。
在本发明的一个实施例中,上述步骤S130根据各应用的摘要、搜索词以及预设策略,挖掘出各应用的标签体系包括:
步骤S131,根据各应用的摘要和搜索词,获得训练语料集合。
步骤S132,将训练语料集合输入至LDA模型中进行训练,得到LDA模型输出的应用-主题概率分布结果以及主题-关键词概率分布结果。
步骤S133,根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系。
需要说明的是,LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,它是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。由于LDA模型在长文本中表现较好,用在短文本上效果差,但是应用摘要很短小,是一种典型的短文本,为了使LDA模型的应用效果达到最佳,引入应用与用户的交互历史(即所述搜索词,下文均称为搜索词)信息对应用摘要进行扩展,即将应用摘要的短文本扩展成适于LDA模型的长文本。其中,搜索词不仅包含引擎能检索到该应用的词项,还包括其他词项,这些词项恰好克服了应用摘要短文本长度过短带来的同义异形词频次过低等问题。
在本实施例中,LDA模型选用GibbsLDA++版。在移动终端应用的应用场景下需要修改一下GibbsLDA++源代码,将一个应用中同一个词项的主题初始化为同一个。在原来的代码中是每一个词项都随机初始化成一个主题,导致同一个重复词项会初始化为多个主题,因为在移动终端应用场景下,一个应用的标签往往都是明确的,鲜有歧义性,所以同一个词项初始化成同一个主题符合移动终端应用的应用场景,也能改善LDA模型的效果。
为了使本发明的方案更加清晰,在这里,对步骤S132中提到的LDA模型输出的应用-主题概率分布结果以及主题-关键词概率分布结果进行详细的举例说明。例如,LDA训练选择120个主题,迭代300轮,生成两个文件,其中,第一个文件是主题-关键词概率分布结果,如表1所示,示出了第四个主题分别与22个关键词之间的对应概率:
表1
Figure BDA0001194306520000081
Figure BDA0001194306520000091
第二个文件是应用-主题概率分布结果,如表2所示,示出了应用ID为5427的应用分别与6个主题(主题ID分别为134、189、139、126、14、18)之间的对应概率。
表2
Figure BDA0001194306520000092
为了使本发明的方案更加清楚,下面结合一个具体的例子进行说明。例如“微信”的摘要包括“微信(WeChat)是腾讯公司于2011年1月21日推出的一个为智能终端提供即时通讯服务的免费应用程序。微信支持跨通信运营商、跨操作***平台通过网络快速发送免费(需消耗少量网络流量)语音短信、视频、图片和文字”,微信的搜索词包括“微信、免费的即时通讯、腾讯、朋友圈、公众平台、消息推送、摇一摇、附近的人、扫二维码方式添加好友、多人通话”。
那么所述训练语料集合包括上述“微信”的所有摘要内容和“微信”的搜索词的所有内容;将所述的训练语料集合输入所述的LDA模型中进行训练,如果LDA模型针对“微信”的训练语料集合生成的主题包括社交,生成的关键字包括聊天、语音、电话、电话本、社交、交友、通讯、通讯录、朋友,那么得到LDA模型输出的该应用-主题概率分布结果包括P1.1(微信-社交);得到LDA模型输出的该主题-关键词分布结果为P2.1(微信-聊天)、P2.2(微信-语音)、P2.3(微信-电话)、P2.4(微信-电话本)、P2.5(微信-社交)、P2.6(微信-交友)、P2.7(微信-通讯)、P2.8(微信-通讯录)、P2.9(微信-朋友);根据所述的P1.1(微信-社交)和P2.1(微信-聊天)、P2.2(微信-语音)、P2.3(微信-电话)、P2.4(微信-电话本)、P2.5(微信-社交)、P2.6(微信-交友)、P2.7(微信-通讯)、P2.8(微信-通讯录)、P2.9(微信-朋友)计算得到微信的标签体系如表3所示。
表3
Figure BDA0001194306520000101
由此可知,根据各应用的摘要和搜索词,获得训练语料集合,然后通过LDA模型对获取的训练语料集合进行处理,并生成相应的应用-主题概率分布结果和主题-关键词概率分布结果,进而根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系,实现了对应用内容或者功能描述文本的比较全面、准确的表示。
由于在现有应用的实际推广中,应用的标签直接由开发者提交,在提交应用标签的过程中,应用的开发者为了让自己的应用得到广大客户的安装和使用,在应用的标签描述中提交了大量的与应用无关的内容,导致虚假信息标签现象长期存在,严重影响了应用搜索引擎的搜索质量,大大降低了用户搜索体验,为了解决这个问题,在本发明的一个实施例中,上述步骤S131根据各应用的摘要和搜索词,获得训练语料集合包括:对于每个应用,从该应用的摘要中提取首段文字或前预设数量个句子的文字;将提取出的文字与该应用的搜索词共同作为该应用的原始语料;各应用的原始语料构成原始语料集合;对所述原始语料集合进行预处理,获得训练语料集合。
例如,针对“微信”这个应用,获取“微信”的摘要包括:
“微信是一款社交软件。
微信提供公众平台、朋友圈、消息推送等功能,用户可以通过“摇一摇”、“搜索号码”、“附近的人”、扫二维码方式添加好友和关注公众平台,同时微信将内容分享给好友以及将用户看到的精彩内容分享到微信朋友圈。微信支持跨通信运营商、跨操作***平台通过网络快速发送免费(需消耗少量网络流量)语音短信、视频、图片和文字,同时,也可以使用通过共享流媒体内容的资料和基于位置的社交插件“摇一摇”、“漂流瓶”、“朋友圈”、“公众平台”、“语音记事本”等服务插件。
截止到2015年第一季度,微信已经覆盖中国90%以上的智能手机,月活跃用户达到5.49亿,用户覆盖200多个国家、超过20种语言。此外,各品牌的微信公众账号总数已经超过800万个,移动应用对接数量超过85000个,微信支付用户则达到了4亿左右。”
从上述的“微信”的摘要中提取前一句话包括“微信是一款社交软件”,同时获取“微信”的搜索词包括“聊天、语音、电话、电话本、社交、交友、通讯、通讯录、朋友”,将上述的“微信是一款社交软件”和“聊天、语音、电话、电话本、社交、交友、通讯、通讯录、朋友”作为“微信”的原始语料;通过获取“微信”原始语料的方式获取其他应用的原始预料,所有应用的原始语料构成原始语料集合;对所述原始语料集合进行预处理,获得训练语料集合。
具体地,所述对所述原始语料集合进行预处理包括:在所述原始语料集合中,对于每个原始语料,对所述原始语料进行分词处理,得到包含多个词项的分词结果;查找由所述分词结果中的相邻词项构成的短语;保留所述短语、所述分词结果中属于名词的词项和属于动词的词项,作为该原始语料对应保留的关键词。
例如,在所述原始语料集合中,“微信”的原始语料集合为“微信是一款社交软件、聊天、语音、打电话、电话本、社交、交友、通讯、通讯录、朋友”,对“微信”的原始语料进行分词处理,得到包含多个词项的分词结果包括“微信、是、一款、社交、软件、聊天、语音、打电话、电话本、社交、交友、通讯、通讯录、朋友”,查找由所述分词结果中的相邻词项构成的短语包括“微信、一款、社交、软件、聊天、语音、打电话、电话本、社交、交友、通讯、通讯录、朋友”,保留所述短语、所述分词结果中属于名词的词项和属于动词的词项,作为该原始语料对应保留的关键词,则“微信”的关键词包括“微信、社交、聊天、语音、打电话、电话本、社交、交友、通讯、通讯录、朋友”。
其中,为了判断是否构成一个短语,通过计算两个前后词项的紧密度来实现,在本发明的一个实施例中,所述查找由所述分词结果中的相邻词项构成的短语包括:计算分词结果中的每两个相邻词项的cPMId值,当两个相邻词项的cPMId值大于第一预设阈值时,确定这两个相邻词项构成短语。
例如,设定第一预设阈值为5,获取“百度地图”的分词结果为“省、流量、公交、换乘”,采用cPMId计算方式计算“省、流量”、“流量、公交”和“公交、换乘”的cPMId值,如果计算得到“省、流量”、“公交、换乘”的cPMId值大于5,那么确定“省、流量”、“公交、换乘”构成短语“省流量”、“公交换乘”,如果如果计算得到“流量、公交”cPMId值小于5,那么确定“流量、公交”不能构成短语。
需要说明的是,cPMId计算方式如公式1所示:
Figure BDA0001194306520000121
公式1中,δ=0.7,d(x,y)表示两个词项x、y的共现频数,d(x)表示词项x的出现频数,d(y)表示词项y的出现频数,D表示总的应用数量。
进一步地,在本发明的一个实施例中,所述对所述原始语料集合进行预处理还包括:将每个应用的原始物料对应保留的关键词作为该应用的第一阶段训练语料;各应用的第一阶段训练语料构成第一阶段训练语料集合;对所述第一阶段训练语料集合中的关键词进行数据清洗。
具体地,由于在百万量级的应用中,一个特高频出现的词项是标签的概率较小,同样一个低频出现的词项是标签的可能性也较小,因此我们的数据清洗过程可以是将特高频出现的关键词和特低频出现的关键词过滤掉。
例如,“微信”的原始物料对应保留的关键词关键词包括“微信、社交、聊天、语音、打电话、电话本、社交、交友、通讯、通讯录、朋友”,那么将“微信、社交、聊天、语音、打电话、电话本、社交、交友、通讯、通讯录、朋友”作为“微信”的第一阶段训练语料;那么所有应用的第一阶段训练语料就构成了第一阶段训练语料集合,并对所述第一阶段训练语料集合中的关键词进行数据清洗,过滤掉第一阶段训练语料集合中低频出现的词项,进而提高了应用搜索引擎的质量。
为了过滤掉第一阶段训练语料集合中特高频出现的关键词和特低频出现的关键词,在本发明的一个实施例中,所述对所述第一阶段训练语料集合中的关键词进行数据清洗包括:在所述第一阶段训练语料集合中,对于每个第一阶段训练语料,计算所述第一阶段训练语料中的每个关键词的TF-IDF值;将TF-IDF值高于第二预设阈值和/或低于第三预设阈值的关键词删除。
上述过程中,采用TF-IDF计算公式计算所述第一阶段训练语料中的每个关键词的TF-IDF值,实现对数据的进一步清洗。
例如,“微信”的第一阶段训练语料包括“微信、社交、聊天、语音、打电话、电话本、社交、交友、通讯、通讯录、朋友”,利用TF-IDF的计算公式,计算所述“微信”的第一阶段训练语料中计算每个词项、短语的TF-IDF值,得到TF-IDF(微信)、TF-IDF(社交)、TF-IDF(聊天)、TF-IDF(语音)、TF-IDF(打电话)、TF-IDF(电话本)、TF-IDF(社交)、TF-IDF(交友)、TF-IDF(通讯)、TF-IDF(通讯录)、TF-IDF(朋友);如果TF-IDF(通讯)、TF-IDF(通讯录)、TF-IDF(朋友)高于第二预设阈值和/或低于第三预设阈值,那么将“通讯、通讯录、朋友”删除。需要说明的是,所述的第二预设阈值和/或低于第三预设阈值与具体语料有关,此处不列出具体阀值。同时本发明之所以应用TF-IDF对数据进行清洗是因为TF-IDF可以很好地评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,完全满足了本发明数据清洗的需要。
TF-IDF的计算公式如下:
Figure BDA0001194306520000131
公式2中,count(w,app)是词项w在app中词频,count(w,Corpus)是w在语料中词频,nCorpus是总的app数量,app_count(w)是包含词项w的app数量
进一步地,在本发明的一个实施例中,所述对所述原始语料集合进行预处理还包括:将每个应用的第一阶段训练语料经数据清洗后剩余的关键词作为该应用的第二阶段训练语料;对于每个应用的第二阶段训练语料,当该应用的第二阶段训练语料中的一个关键词在该应用的名称中出现时,将该关键词在该应用的第二阶段训练语料中重复第四预设阈值次数,得到该应用的训练语料;各应用的训练语料构成训练语料集合。
例如,“微信”的第一阶段训练语料包括“微信、社交、聊天、语音、打电话、电话本、社交、交友、通讯、通讯录、朋友”,经数据清洗处理去除“通讯、通讯录、朋友”,那么剩余的关键词包括“微信、社交、聊天、语音、打电话、电话本、社交、交友”即为“微信”的第二阶段训练语料;
在分析第二阶段语料时发现,表达应用功能或类别的标签往往在名字中出现,如“嘀嘀打车”中的“打车”、“口碑外卖”中的“外卖”、“凹凸租车”中的”租车”、“百度地图”中的“地图”等,为了突出这一类重要标签,在每个应用的语料中,重复列举在应用名字中出现的词项三次,将cPMId值高于10.0的短语也同样重复三次,以提高这些潜在重要短语标签的出现频次,至此,LDA主题模型的训练语料集合构造完成,训练语料集合保存在文件app_corpus_seg_nouns_verb_phrase_filtered_repeat.txt中。
在本发明的一个实施例中,上述步骤S133根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系包括:
根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到应用-关键词概率分布结果;根据所述应用-关键词概率分布结果,对于每个应用,将关键词按照关于该应用的概率从大到小排序,选取前第五预设阈值数目的关键词。
例如,将第五预设阈值设定为8,LDA模型输出的是每个应用下的主题概率分布,以及每个主题下的词项概率分布。为了得到每个应用的标签,分别对主题概率分布、关键词概率分布按照概率从大到小逆序排序,选择每个应用下前50个主题,每个主题下选择前120个关键词,关键词的概率使用主题的概率进行加权排序,每个应用关键词都有一个权重,表示在该应用下的重要性,按照这个标签权重逆序排序,并选取前8个关键词,就得到了LDA产生的标签列表,含有不少噪音,标签的顺序也不准确,如表4所示。
表4
Figure BDA0001194306520000141
其中,所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到应用-关键词概率分布结果包括:
对于每个应用,根据所述应用-主题概率分布结果得到各主题关于该应用的概率;对于每个主题,根据所述主题-关键词概率分布结果得到各关键词关于该主题的概率;则对于每个关键词,将该关键词关于一个主题的概率与该主题关于一个应用的概率的乘积作为该关键词基于该主题的关于所述应用的概率;将该关键词基于各主题关于所述应用的概率之和作为该关键词关于所述应用的概率。
例如,一个应用C的关键词为A,该关键词A对应的主题包括B1、B2和B3,该关键词A关于一个主题B1的概率为P(A_B1),该主题B1关于一个应用C的概率为P(B1_C),那么P(A_B1)*P(B1_C)就是关键词A基于主题B1关于应用C的概率;那么P(A_B2)*P(B2_C)就是关键词A基于主题B2关于应用C的概率;P(A_B3)*P(B3_C)就是关键词A基于主题B2关于应用C的概率,那么该关键词A关于所述应用C的概率P(A_C)=P(A_B1)*P(B1_C)+P(A_B2)*P(B2_C)+P(A_B3)*P(B3_C)。
则在此基础上、进一步地在本发明的一个实施例中,所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系还包括:
将每个应用对应选取的前第五预设阈值数目的关键词作为该应用的第一阶段标签体系;对于每个应用的第一阶段标签体系,计算该应用的第一阶段标签体系中的每个关键词与该应用的摘要之间的语义关系值;对于每个关键词,将该关键词对应的语义关系值与该关键词关于该应用的概率的乘积作为该关键词关于该应用的修正概率;将该应用的第一阶段标签体系中的各关键词按照关于该应用的修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
例如,假设第五预设阈值为3,“百度地图”对应选取的前第五预设阈值数目的关键词包括“地图、搜索和导航”,那么将“地图、搜索和导航”作为“百度地图”的第一阶段标签体系;
对于“百度地图”的第一阶段标签体系,计算“百度地图”中第一阶段标签体系“地图、搜索和导航”中的每个关键词与“百度地图”的摘要之间的语义关系值分别为R1、R2和R3;计算“百度地图”中第一阶段标签体系“地图、搜索和导航”中的每个关键词与“百度地图”的概率为P1、P2和P3;那么将R1*P1、R2*P2和R3*P3作为“百度地图”的修正概率,如果R1*P1>R3*P3>R2*P2,那么“百度地图”的第一阶段标签体系中的各关键词的顺序为“地图、导航和搜索”,如果选取2个关键字构成该应用的标签体系,那么“百度地图”的标签体系包括“地图和导航”
其中具体地,计算该应用的第一阶段标签体系中的每个关键词与该应用的摘要之间的语义关系值包括:
计算该关键词的词向量,计算该应用的摘要的前预设数量个句子中的每个词项的词向量;计算该关键词的词向量与每个词项的词向量之间的余弦相似度,将每个余弦相似度与相应词项所在句子的权重的乘积作为该关键词与相应词项的语义关系值;将该关键词与各词项的语义关系值之和作为该关键词与该应用的摘要之间的语义关系值。
例如,首先从应用搜索引擎搜索日志中获取的搜索词集合,作为训练词向量的输入数据,训练得到一份300维词向量词典文件tag_query_w2v_300.dict。如果“百度地图”的关键词包括“地图、搜索和导航”,计算“地图”的词向量为M1;计算“百度地图”的摘要前3个句子中的每个词项的词向量分别为N1、N2和N3;计算“地图”的词向量与百度地图”的摘要前个句子中的每个词项的词向量的余弦相似度得到“cos M1*N1”、“cos M1*N2”和“cos M1*N3”;相应词项所在句子的权重为Q1和Q2;那么该关键词与相应词项的语义关系值分别为“Q1*cos M1*N1”和“Q2*cos M1*N2”;那么“Q1*cos M1*N1+Q2*cos M1*N2+Q3*cos M1*N3”作为“地图”与“百度地图”摘要之间的语义关系值。
进一步地,在本发明的一个实施例中,所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系还包括:
将每个应用对应选取的关键词作为该应用的第二阶段标签体系;对于每个应用的第二阶段标签体系,从应用搜索日志中获取关于该应用的下载操作的搜索词集合,统计该应用的第二阶段标签体系中的每个关键词在所述搜索词集合中的DF值;对于每个关键词,在该关键词关于该应用的概率的基础上增加所述DF值的倍数得到该关键词关于该应用的二次修正概率;将该应用的第二阶段标签体系中的各关键词按照关于该应用的二次修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
例如,挖掘到下载“百度地图”的历史搜索词集合包括“地图、搜索和导航”,计算得到关键词“地图”在“百度地图”的历史搜索词集合的DF值为DF1,计算关键词“搜索”在“百度地图”的历史搜索词集合的DF值为DF2,计算关键词“导航”在“百度地图”的历史搜索词集合的DF值为DF3;计算“地图”、“搜索”和“导航”关于“百度地图”的初始概率为P1、P2和P3;那么关键词“地图”关于“百度地图”的二次修正概率为P1*(1+DF1);关键词“搜索”关于“百度地图”的二次修正概率为P2*(1+DF2);关键词“导航”关于“百度地图”的二次修正概率为P3*(1+DF3)。
如果P3*(1+DF3)>P1*(1+DF1)>P2*(1+DF2),那么“百度地图”的关键词的顺序调整为“地图、导航和搜索”,如果选取前两个关键词构成“百度地图”的标签体系,那么“百度地图”的标签体系包括“地图、导航”
。经过上述方法的调整后“百度地图”的标签次序准确率大幅度提升。
如果对“口碑外卖”和“百度地图”进行一次修正的结果如表5所示,
表5
Figure BDA0001194306520000171
对“口碑外卖”和“百度地图”进行二次修正的结果如表6所示,
表6
Figure BDA0001194306520000172
通过表5和表6的对比,我们可以看出,经过二次修正后,应用的标签次序准确率大幅度提升。
在一个具体的例子中,所述选取前K个关键词构成该应用的标签体系包括:
从应用搜索日志中获取关于该应用的季度下载次数;
根据该应用的季度下载次数选取前K个关键词构成该应用的标签体系;其中K值作为该应用的季度下载次数的折线函数。
在实际应用中发现应用的标签列表,标签的@k准确率与应用是否热门有关,季度下载次数恰好反映是否热门,每个应用保留了三个到十五个不等的标签,准确率92%,召回率76%,数量与季度下载次数成正比。典型例子如表7所示。
表7
Figure BDA0001194306520000181
Figure BDA0001194306520000191
基于上述应用标签挖掘方案,本发明进一步提供了一种应用搜索方法:
图2示出了根据本发明一个实施例的一种应用搜索方法的流程图,如图2所示,该应用搜索方法200包括:
S210,接收客户端上传的搜索词;
S220,根据所述搜索词在各应用的标签体系中进行匹配;
S230,当所述搜索词与一个应用的标签体系中的关键词相匹配时,将该应用的相关信息返回至客户端进行展示;
S240,所述各应用的标签体系是所述任意一种应用标签挖掘的方法构建的。
由此可知,通过所述的任意一种应用标签挖掘方法构建所述各应用的标签体系,保证了应用引擎搜索的召回率,提高了应用引擎搜索的搜索质量;基于所述的应用标签挖掘方法,该应用搜索方法大幅度提升了应用引擎搜索的搜索质量,增强了用户体验。例如,用户搜索“滴滴”,应用引擎除了返回“滴滴出行”这个精准应用外,也同时展现与其有相似功能的应用,如“快的打车”、“Uber优步中国”等。
图3示出了根据本发明一个实施例的基于应用搜索方法进行搜索的界面示意图。为了使所述应用搜索方法的方案更加清楚,下面结合一个具体的例子进行说明。在一个具体的例子中,用户在“360手机助手”上搜索关键词“订餐”,“360手机助手”搜索引擎展现的结果如图3所示,从图3中,可以看出,当用户搜索“订餐”,“360手机助手”的搜索引擎除了返回所有具有订餐功能的应用,如“美团外卖”、“饿了么”、“百度糯米”、“大众点评”、“美团”等。由此可知,本发明构建的应用标签体系在检索排序中起到了主要作用,搜索质量大幅度改善,提升了用户搜索体验。
图4示出了根据本发明一个实施例的一种应用标签挖掘装置的示意图;如图4所示,该应用标签挖掘装置400包括:
信息获取单元410,适于获取各应用的摘要;以及从应用搜索日志中获取关于各应用的搜索词。
标签体系构建单元420,适于根据各应用的摘要、搜索词以及预设策略,挖掘出各应用的标签体系。
由此可知,本发明通过信息获取单元410自动获取各应用的摘要,并从用户的历史应用搜索日志中获取各应用的搜索词,动态更新应用标签;同时通过标签体系构建单元420,根据各应用的摘要、搜索词以及预设策略,持续不断地提高应用标签的准确率和召回率,进而挖掘并创建应用的标签体系,解决了传统应用标签体系只能通过人工标注导致的人工工作量大、覆盖率低和作弊现象严重等问题,大大提高了应用搜索引擎的搜索质量,提升了用户搜索体验。
在本发明的一个实施例中,所述标签体系构建单元420,适于根据各应用的摘要和搜索词,获得训练语料集合;将训练语料集合输入至LDA模型中进行训练,得到LDA模型输出的应用-主题概率分布结果以及主题-关键词概率分布结果;根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系。
其中,所述标签体系构建单元420,适于对于每个应用,从该应用的摘要中提取首段文字或前预设数量个句子的文字;将提取出的文字与该应用的搜索词共同作为该应用的原始语料;各应用的原始语料构成原始语料集合;对所述原始语料集合进行预处理,获得训练语料集合。
在一个实施例中,标签体系构建单元420对原始语料集合进行预处理的过程包括:所述标签体系构建单元420,适于在所述原始语料集合中,对于每个原始语料,对所述原始语料进行分词处理,得到包含多个词项的分词结果;查找由所述分词结果中的相邻词项构成的短语;保留所述短语、所述分词结果中属于名词的词项和属于动词的词项,作为该原始语料对应保留的关键词。
具体地,所述标签体系构建单元420,适于计算分词结果中的每两个相邻词项的cPMId值,当两个相邻词项的cPMId值大于第一预设阈值时,确定这两个相邻词项构成短语。
进一步地,所述标签体系构建单元420,还适于将每个应用的原始物料对应保留的关键词作为该应用的第一阶段训练语料;各应用的第一阶段训练语料构成第一阶段训练语料集合;对所述第一阶段训练语料集合中的关键词进行数据清洗。
具体地,所述标签体系构建单元420,适于在所述第一阶段训练语料集合中,对于每个第一阶段训练语料,计算所述第一阶段训练语料中的每个关键词的TF-IDF值;将TF-IDF值高于第二预设阈值和/或低于第三预设阈值的关键词删除。
进一步地,所述标签体系构建单元420,还适于将每个应用的第一阶段训练语料经数据清洗后剩余的关键词作为该应用的第二阶段训练语料;对于每个应用的第二阶段训练语料,当该应用的第二阶段训练语料中的一个关键词在该应用的名称中出现时,将该关键词在该应用的第二阶段训练语料中重复第四预设阈值次数,得到该应用的训练语料;各应用的训练语料构成训练语料集合。
在本发明的一个实施例中,所述标签体系构建单元420,适于根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到应用-关键词概率分布结果;根据所述应用-关键词概率分布结果,对于每个应用,将关键词按照关于该应用的概率从大到小排序,选取前第五预设阈值数目的关键词。
其中,所述标签体系构建单元420,适于对于每个应用,根据所述应用-主题概率分布结果得到各主题关于该应用的概率;对于每个主题,根据所述主题-关键词概率分布结果得到各关键词关于该主题的概率;则对于每个关键词,将该关键词关于一个主题的概率与该主题关于一个应用的概率的乘积作为该关键词基于该主题的关于所述应用的概率;将该关键词基于各主题关于所述应用的概率之和作为该关键词关于所述应用的概率。
进一步地,所述标签体系构建单元420,还适于将每个应用对应选取的前第五预设阈值数目的关键词作为该应用的第一阶段标签体系;对于每个应用的第一阶段标签体系,计算该应用的第一阶段标签体系中的每个关键词与该应用的摘要之间的语义关系值;对于每个关键词,将该关键词对应的语义关系值与该关键词关于该应用的概率的乘积作为该关键词关于该应用的修正概率;将该应用的第一阶段标签体系中的各关键词按照关于该应用的修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
具体地,所述标签体系构建单元420,适于计算该关键词的词向量,计算该应用的摘要的前预设数量个句子中的每个词项的词向量;计算该关键词的词向量与每个词项的词向量之间的余弦相似度,将每个余弦相似度与相应词项所在句子的权重的乘积作为该关键词与相应词项的语义关系值;将该关键词与各词项的语义关系值之和作为该关键词与该应用的摘要之间的语义关系值。
进一步地,所述标签体系构建单元420,还适于将每个应用对应选取的关键词作为该应用的第二阶段标签体系;对于每个应用的第二阶段标签体系,从应用搜索日志中获取关于该应用的下载操作的搜索词集合,统计该应用的第二阶段标签体系中的每个关键词在所述搜索词集合中的DF值;对于每个关键词,在该关键词关于该应用的概率的基础上增加所述DF值的倍数得到该关键词关于该应用的二次修正概率;将该应用的第二阶段标签体系中的各关键词按照关于该应用的二次修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
在本发明的一个实施例中,所述标签体系构建单元420,适于从应用搜索日志中获取关于该应用的季度下载次数;根据该应用的季度下载次数选取前K个关键词构成该应用的标签体系;其中K值作为该应用的季度下载次数的折线函数。
需要说明的是,本实施例中的这种应用标签挖掘装置的工作过程是和前述应用标签挖掘方法的实现步骤相对应的,因此,本实施例的应用标签挖掘装置的具体工作过程可以参见前述应用标签挖掘方法部分的相关说明,在此不在赘述。
图5示出了根据本发明一个实施例的一种应用搜索服务器的示意图。如图5所示,该应用搜索服务器500包括:
交互单元510,适于接收客户端上传的搜索词。
搜索处理单元520,适于根据所述搜索词在各应用的标签体系中进行匹配。
所述交互单元510,还适于当所述搜索词与一个应用的标签体系中的关键词相匹配时,将该应用的相关信息返回至客户端进行展示。
其中,所述应用搜索服务器500中还包括所述的应用标签挖掘装置530,所述各应用的标签体系是通过所述应用标签挖掘装置530构建的。
需要说明的是,本实施例中的应用标签挖掘装置530与实施例三图4中一种应用标签挖掘装置400具有对应相同的功能,图4所示的装置的工作过程与图1所示的方法的各实施例的实现步骤对应相同,相同的部分不再赘述。
由此可知,本实施例通过交互单元510,接收客户端上传的搜索词;并通过搜索处理单元520将所述搜索词在各应用的标签体系中进行匹配;同时通过所述交互单元510将该应用的相关信息返回至客户端进行展示,该应用搜索服务器500大幅度提升了应用引擎搜索的搜索质量,增强了用户体验。例如,用户搜索“滴滴”,引擎除了返回“滴滴出行”这个精准应用外,也同时展现与其有相似功能的应用,如“快的打车”、“Uber优步中国”等。
综上所述,通过自动获取各应用的摘要,并从用户的历史应用搜索日志中实时获取各应用的搜索词,以扩展应用短文本,并实现动态更新应用标签;同时通过有效训练无监督LDA学习模型制定预设策略,以起到持续不断地提高应用标签的准确率和召回率的作用,进而挖掘并创建应用的标签体系,对新产生的应用同样适用,解决了传统应用标签体系只能通过人工标注导致的人工工作量大、覆盖率低和作弊现象严重等问题,大大提高了应用搜索引擎的搜索质量,提升了用户搜索体验。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的应用标签挖掘方法、装置和应用搜索方法、服务器中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (26)

1.一种应用标签挖掘方法,其中,包括:
获取各应用的摘要;
从应用搜索日志中获取关于各应用的搜索词;
根据各应用的摘要、搜索词以及预设策略,挖掘出各应用的标签体系;
所述根据各应用的摘要、搜索词以及预设策略,挖掘出各应用的标签体系包括:
根据各应用的摘要和搜索词,获得训练语料集合;
将训练语料集合输入至LDA模型中进行训练,得到LDA模型输出的应用-主题概率分布结果以及主题-关键词概率分布结果;
根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系;
所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系还包括:
将每个应用对应选取的前第五预设阈值数目的关键词作为该应用的第一阶段标签体系;
对于每个应用的第一阶段标签体系,计算该应用的第一阶段标签体系中的每个关键词与该应用的摘要之间的语义关系值;对于每个关键词,将该关键词对应的语义关系值与该关键词关于该应用的概率的乘积作为该关键词关于该应用的修正概率;将该应用的第一阶段标签体系中的各关键词按照关于该应用的修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
2.如权利要求1所述的方法,其中,所述根据各应用的摘要和搜索词,获得训练语料集合包括:
对于每个应用,从该应用的摘要中提取首段文字或前预设数量个句子的文字;将提取出的文字与该应用的搜索词共同作为该应用的原始语料;
各应用的原始语料构成原始语料集合;对所述原始语料集合进行预处理,获得训练语料集合。
3.如权利要求2所述的方法,其中,所述对所述原始语料集合进行预处理包括:
在所述原始语料集合中,
对于每个原始语料,对所述原始语料进行分词处理,得到包含多个词项的分词结果;查找由所述分词结果中的相邻词项构成的短语;保留所述短语、所述分词结果中属于名词的词项和属于动词的词项,作为该原始语料对应保留的关键词。
4.如权利要求3所述的方法,其中,所述查找由所述分词结果中的相邻词项构成的短语包括:
计算分词结果中的每两个相邻词项的cPMId值,当两个相邻词项的cPMId值大于第一预设阈值时,确定这两个相邻词项构成短语。
5.如权利要求4所述的方法,其中,所述对所述原始语料集合进行预处理还包括:
将每个应用的原始物料对应保留的关键词作为该应用的第一阶段训练语料;
各应用的第一阶段训练语料构成第一阶段训练语料集合;对所述第一阶段训练语料集合中的关键词进行数据清洗。
6.如权利要求5所述的方法,其中,所述对所述第一阶段训练语料集合中的关键词进行数据清洗包括:
在所述第一阶段训练语料集合中,
对于每个第一阶段训练语料,计算所述第一阶段训练语料中的每个关键词的TF-IDF值;将TF-IDF值高于第二预设阈值和/或低于第三预设阈值的关键词删除。
7.如权利要求6所述的方法,其中,所述对所述原始语料集合进行预处理还包括:
将每个应用的第一阶段训练语料经数据清洗后剩余的关键词作为该应用的第二阶段训练语料;
对于每个应用的第二阶段训练语料,当该应用的第二阶段训练语料中的一个关键词在该应用的名称中出现时,将该关键词在该应用的第二阶段训练语料中重复第四预设阈值次数,得到该应用的训练语料;
各应用的训练语料构成训练语料集合。
8.如权利要求1-7中任一项所述的方法,其中,所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系包括:
根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到应用-关键词概率分布结果;
根据所述应用-关键词概率分布结果,对于每个应用,将关键词按照关于该应用的概率从大到小排序,选取前第五预设阈值数目的关键词。
9.如权利要求1-7中任一项所述的方法,其中,所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到应用-关键词概率分布结果包括:
对于每个应用,根据所述应用-主题概率分布结果得到各主题关于该应用的概率;
对于每个主题,根据所述主题-关键词概率分布结果得到各关键词关于该主题的概率;
则对于每个关键词,将该关键词关于一个主题的概率与该主题关于一个应用的概率的乘积作为该关键词基于该主题的关于所述应用的概率;将该关键词基于各主题关于所述应用的概率之和作为该关键词关于所述应用的概率。
10.如权利要求1所述的方法,其中,计算该应用的第一阶段标签体系中的每个关键词与该应用的摘要之间的语义关系值包括:
计算该关键词的词向量,计算该应用的摘要的前预设数量个句子中的每个词项的词向量;
计算该关键词的词向量与每个词项的词向量之间的余弦相似度,将每个余弦相似度与相应词项所在句子的权重的乘积作为该关键词与相应词项的语义关系值;
将该关键词与各词项的语义关系值之和作为该关键词与该应用的摘要之间的语义关系值。
11.如权利要求1-7中任一项所述的方法,其中,所述根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系还包括:
将每个应用对应选取的关键词作为该应用的第二阶段标签体系;
对于每个应用的第二阶段标签体系,从应用搜索日志中获取关于该应用的下载操作的搜索词集合,统计该应用的第二阶段标签体系中的每个关键词在所述搜索词集合中的DF值;对于每个关键词,在该关键词关于该应用的概率的基础上增加所述DF值的倍数得到该关键词关于该应用的二次修正概率;将该应用的第二阶段标签体系中的各关键词按照关于该应用的二次修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
12.如权利要求11所述的方法,其中,所述选取前K个关键词构成该应用的标签体系包括:
从应用搜索日志中获取关于该应用的季度下载次数;
根据该应用的季度下载次数选取前K个关键词构成该应用的标签体系;其中K值作为该应用的季度下载次数的折线函数。
13.一种应用搜索方法,其中,包括:
接收客户端上传的搜索词;
根据所述搜索词在各应用的标签体系中进行匹配;
当所述搜索词与一个应用的标签体系中的关键词相匹配时,将该应用的相关信息返回至客户端进行展示;
所述各应用的标签体系是通过如权利要求1-12中任一项所述的方法构建的。
14.一种应用标签挖掘装置,其中,包括:
信息获取单元,适于获取各应用的摘要;以及从应用搜索日志中获取关于各应用的搜索词;
标签体系构建单元,适于根据各应用的摘要、搜索词以及预设策略,挖掘出各应用的标签体系;
所述标签体系构建单元,适于根据各应用的摘要和搜索词,获得训练语料集合;将训练语料集合输入至LDA模型中进行训练,得到LDA模型输出的应用-主题概率分布结果以及主题-关键词概率分布结果;根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到各应用的标签体系;
所述标签体系构建单元,还适于将每个应用对应选取的前第五预设阈值数目的关键词作为该应用的第一阶段标签体系;对于每个应用的第一阶段标签体系,计算该应用的第一阶段标签体系中的每个关键词与该应用的摘要之间的语义关系值;对于每个关键词,将该关键词对应的语义关系值与该关键词关于该应用的概率的乘积作为该关键词关于该应用的修正概率;将该应用的第一阶段标签体系中的各关键词按照关于该应用的修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
15.如权利要求14所述的装置,其中,
所述标签体系构建单元,适于对于每个应用,从该应用的摘要中提取首段文字或前预设数量个句子的文字;将提取出的文字与该应用的搜索词共同作为该应用的原始语料;各应用的原始语料构成原始语料集合;对所述原始语料集合进行预处理,获得训练语料集合。
16.如权利要求15所述的装置,其中,
所述标签体系构建单元,适于在所述原始语料集合中,对于每个原始语料,对所述原始语料进行分词处理,得到包含多个词项的分词结果;查找由所述分词结果中的相邻词项构成的短语;保留所述短语、所述分词结果中属于名词的词项和属于动词的词项,作为该原始语料对应保留的关键词。
17.如权利要求16所述的装置,其中,
所述标签体系构建单元,适于计算分词结果中的每两个相邻词项的cPMId值,当两个相邻词项的cPMId值大于第一预设阈值时,确定这两个相邻词项构成短语。
18.如权利要求17所述的装置,其中,
所述标签体系构建单元,还适于将每个应用的原始物料对应保留的关键词作为该应用的第一阶段训练语料;各应用的第一阶段训练语料构成第一阶段训练语料集合;对所述第一阶段训练语料集合中的关键词进行数据清洗。
19.如权利要求18所述的装置,其中,
所述标签体系构建单元,适于在所述第一阶段训练语料集合中,对于每个第一阶段训练语料,计算所述第一阶段训练语料中的每个关键词的TF-IDF值;将TF-IDF值高于第二预设阈值和/或低于第三预设阈值的关键词删除。
20.如权利要求19所述的装置,其中,
所述标签体系构建单元,还适于将每个应用的第一阶段训练语料经数据清洗后剩余的关键词作为该应用的第二阶段训练语料;对于每个应用的第二阶段训练语料,当该应用的第二阶段训练语料中的一个关键词在该应用的名称中出现时,将该关键词在该应用的第二阶段训练语料中重复第四预设阈值次数,得到该应用的训练语料;各应用的训练语料构成训练语料集合。
21.如权利要求14-20中任一项所述的装置,其中,
所述标签体系构建单元,适于根据所述应用-主题概率分布结果和所述主题-关键词概率分布结果,计算得到应用-关键词概率分布结果;根据所述应用-关键词概率分布结果,对于每个应用,将关键词按照关于该应用的概率从大到小排序,选取前第五预设阈值数目的关键词。
22.如权利要求14-20中任一项所述的装置,其中,
所述标签体系构建单元,适于对于每个应用,根据所述应用-主题概率分布结果得到各主题关于该应用的概率;对于每个主题,根据所述主题-关键词概率分布结果得到各关键词关于该主题的概率;则对于每个关键词,将该关键词关于一个主题的概率与该主题关于一个应用的概率的乘积作为该关键词基于该主题的关于所述应用的概率;将该关键词基于各主题关于所述应用的概率之和作为该关键词关于所述应用的概率。
23.如权利要求14所述的装置,其中,
所述标签体系构建单元,适于计算该关键词的词向量,计算该应用的摘要的前预设数量个句子中的每个词项的词向量;计算该关键词的词向量与每个词项的词向量之间的余弦相似度,将每个余弦相似度与相应词项所在句子的权重的乘积作为该关键词与相应词项的语义关系值;将该关键词与各词项的语义关系值之和作为该关键词与该应用的摘要之间的语义关系值。
24.如权利要求14-20中任一项所述的装置,其中,
所述标签体系构建单元,还适于将每个应用对应选取的关键词作为该应用的第二阶段标签体系;对于每个应用的第二阶段标签体系,从应用搜索日志中获取关于该应用的下载操作的搜索词集合,统计该应用的第二阶段标签体系中的每个关键词在所述搜索词集合中的DF值;对于每个关键词,在该关键词关于该应用的概率的基础上增加所述DF值的倍数得到该关键词关于该应用的二次修正概率;将该应用的第二阶段标签体系中的各关键词按照关于该应用的二次修正概率从大到小排序,选取前K个关键词构成该应用的标签体系。
25.如权利要求24所述的装置,其中,
所述标签体系构建单元,适于从应用搜索日志中获取关于该应用的季度下载次数;根据该应用的季度下载次数选取前K个关键词构成该应用的标签体系;其中K值作为该应用的季度下载次数的折线函数。
26.一种应用搜索服务器,其中,包括:
交互单元,适于接收客户端上传的搜索词;
搜索处理单元,适于根据所述搜索词在各应用的标签体系中进行匹配;
所述交互单元,还适于当所述搜索词与一个应用的标签体系中的关键词相匹配时,将该应用的相关信息返回至客户端进行展示;
其中,所述应用搜索服务器中还包括如权利要求14-25中任一项所述的应用标签挖掘装置,所述各应用的标签体系是通过所述应用标签挖掘装置构建的。
CN201611229785.5A 2016-12-27 2016-12-27 一种应用标签挖掘方法、装置和应用搜索方法、服务器 Expired - Fee Related CN106682169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611229785.5A CN106682169B (zh) 2016-12-27 2016-12-27 一种应用标签挖掘方法、装置和应用搜索方法、服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611229785.5A CN106682169B (zh) 2016-12-27 2016-12-27 一种应用标签挖掘方法、装置和应用搜索方法、服务器

Publications (2)

Publication Number Publication Date
CN106682169A CN106682169A (zh) 2017-05-17
CN106682169B true CN106682169B (zh) 2020-09-18

Family

ID=58871712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611229785.5A Expired - Fee Related CN106682169B (zh) 2016-12-27 2016-12-27 一种应用标签挖掘方法、装置和应用搜索方法、服务器

Country Status (1)

Country Link
CN (1) CN106682169B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704572B (zh) * 2017-09-30 2021-07-13 北京奇虎科技有限公司 人物实体的创作角度挖掘方法及装置
CN110019068B (zh) * 2017-10-19 2023-04-28 阿里巴巴集团控股有限公司 一种日志文本处理方法和装置
CN107944946B (zh) * 2017-11-03 2020-10-16 清华大学 商品标签生成方法及装置
CN110147426B (zh) * 2017-12-01 2021-08-13 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN108304457A (zh) * 2017-12-22 2018-07-20 努比亚技术有限公司 一种应用标注方法、服务器及计算机可读存储介质
CN110209763A (zh) * 2018-02-12 2019-09-06 北京京东尚科信息技术有限公司 数据处理方法、装置以及计算机可读存储介质
CN108763194B (zh) * 2018-04-27 2022-09-27 阿里巴巴(中国)有限公司 应用标注标签方法、装置、存储介质及计算机设备
CN109961091B (zh) * 2019-03-01 2021-04-20 杭州叙简科技股份有限公司 一种自学习的事故文字标签与摘要生成***及其方法
CN110263153B (zh) * 2019-05-15 2021-04-30 北京邮电大学 面向多源信息的混合文本话题发现方法
CN112052330B (zh) * 2019-06-05 2021-11-26 上海游昆信息技术有限公司 一种应用程序关键词的分配方法及装置
CN110347977A (zh) * 2019-06-28 2019-10-18 太原理工大学 一种基于lda模型的新闻自动标签方法
CN110598070B (zh) * 2019-09-09 2022-01-25 腾讯科技(深圳)有限公司 应用类型识别方法及装置、服务器及存储介质
CN113625918A (zh) * 2020-05-08 2021-11-09 百度在线网络技术(北京)有限公司 屏幕的显示方法、装置、终端及存储介质
CN112527769B (zh) * 2020-12-09 2023-05-16 重庆大学 一种针对软件变更日志生成方法的自动化质量保证框架
CN113609380B (zh) * 2021-07-12 2024-03-26 北京达佳互联信息技术有限公司 标签体系更新方法、搜索方法、装置以及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760149A (zh) * 2012-04-05 2012-10-31 中国人民解放军国防科学技术大学 开源软件主题自动标注方法
CN104133877A (zh) * 2014-07-25 2014-11-05 百度在线网络技术(北京)有限公司 软件标签的生成方法和装置
CN105787053A (zh) * 2016-02-26 2016-07-20 维沃移动通信有限公司 应用的推送方法及终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760149A (zh) * 2012-04-05 2012-10-31 中国人民解放军国防科学技术大学 开源软件主题自动标注方法
CN104133877A (zh) * 2014-07-25 2014-11-05 百度在线网络技术(北京)有限公司 软件标签的生成方法和装置
CN105787053A (zh) * 2016-02-26 2016-07-20 维沃移动通信有限公司 应用的推送方法及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Appropriately Incorporating Statistical Significance in PMI;Om P. Damani等;《Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing》;20131021;全文 *
一种基于加权LDA模型和多粒度的文本特征选择方法;李湘东等;《现代图书情报技术》;20150525(第5期);第42-49页 *

Also Published As

Publication number Publication date
CN106682169A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN106682169B (zh) 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN106682170B (zh) 一种应用搜索方法和装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106709040B (zh) 一种应用搜索方法和服务器
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US8095547B2 (en) Method and apparatus for detecting spam user created content
US20180260385A1 (en) Symbol management
CN106960030B (zh) 基于人工智能的推送信息方法及装置
CN110543574A (zh) 一种知识图谱的构建方法、装置、设备及介质
CN105843962A (zh) 信息处理、显示方法及装置以及信息处理显示***
CN107657056B (zh) 基于人工智能展示评论信息的方法和装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
US20160125028A1 (en) Systems and methods for query rewriting
CN107729453B (zh) 一种提取中心产品词的方法和装置
CN104951435A (zh) 聊天过程中智能显示关键词的方法及装置
CN105550217B (zh) 场景音乐搜索方法及场景音乐搜索装置
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN107766398B (zh) 用于使图像与内容项目匹配的方法、装置和数据处理***
CN114881685A (zh) 广告投送方法、装置、电子装置及存储介质
CN106156262A (zh) 一种搜索信息处理方法及***
CN107665442B (zh) 获取目标用户的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200918