CN112241460A - 辅助推荐关键词的方法、装置、电子设备及存储介质 - Google Patents

辅助推荐关键词的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112241460A
CN112241460A CN202011164051.XA CN202011164051A CN112241460A CN 112241460 A CN112241460 A CN 112241460A CN 202011164051 A CN202011164051 A CN 202011164051A CN 112241460 A CN112241460 A CN 112241460A
Authority
CN
China
Prior art keywords
keywords
roots
knowledge graph
recommending
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011164051.XA
Other languages
English (en)
Inventor
徐凯波
陈嘉真
张琛
接钧靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202011164051.XA priority Critical patent/CN112241460A/zh
Publication of CN112241460A publication Critical patent/CN112241460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种辅助推荐关键词的方法、装置、电子设备及存储介质,其中,该方法包括以下步骤:接收并根据站内信息和站外信息提取对应的关键词和词根,构建知识图谱,站内信息包括往期关键词,站外信息包括外网舆情数据;根据知识图谱索引得到关键词或词根的多阶邻居节点属性和关系,并通过预处理得到关键词或词根的向量特征;根据关键词或词根随机组建预选关键词,通过向量特征预测对应预选关键词的表现,根据预选关键词的表现筛选得到新关键词并进行推荐。通过本申请,解决了现有知识图谱推荐关键词无法精确到特定维度和预测效果不好的问题,实现了多维度辅助推荐关键词,同时为下游的关键词预测或推荐模型提供了更加丰富精准的特征。

Description

辅助推荐关键词的方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网信息推荐技术领域,特别是涉及辅助推荐关键词的方法、装置、电子设备和存储介质。
背景技术
当前,知识图谱是非常流行的存储数据的结构,一个好的知识图谱不仅能存储大量的知识供企业做索引,而且可以为下游的算法提供更加丰富的结构和语义特征,为了实现在电商领域智能投放关键词,需要一种全新的针对电商领域的知识图谱。
现有技术中电商智能投放关键词具有以下的缺点:所推荐的关键词无法精确到产品维度,同时预测算法的效果也不好,经过分析,造成该缺点的原因是现有的知识图谱中每个关键词的特征维数太低,再加上投放的数据量本身就少,影响关键词指标预测准确性。
目前针对相关技术中所推荐的关键词无法精确到维度的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种辅助推荐关键词的方法、装置、***、电子设备和计算机可读存储介质,本申请提出一种包含多种语料的关键词和词根的知识图谱来辅助推荐关键词,以至少解决相关技术中所推荐的关键词无法精确到维度的问题。
第一方面,本申请实施例提供了一种辅助推荐关键词的方法,包括以下步骤:
构建知识图谱步骤,接收并根据站内信息和站外信息提取对应的关键词和词根,利用所述关键词、所述词根及两两之间的关系构建知识图谱,所述站内信息包括往期关键词,所述站外信息包括外网舆情数据;
获取向量特征步骤,根据所述知识图谱索引得到所述关键词或所述词根的多阶邻居节点属性和关系,并通过预处理得到所述关键词或所述词根的向量特征;
推荐新关键词步骤,根据所述关键词或所述词根随机组建预选关键词,通过所述向量特征预测对应所述预选关键词的表现,根据所述预选关键词的表现筛选得到新关键词并进行推荐。
在其中一些实施例中,所述构建知识图谱步骤具体包括以下步骤:
获取语料步骤,收集往期的关键词词库获取所述往期关键词,同时通过爬虫抓取外网用户评论数据获取所述外网舆情数据;
语料预处理步骤,对所述往期关键词和所述外网舆情数据进行语料清洗、分词、词性标注、去停用词操作,获得对应的关键词和词根,所述关键词和所述词根包括多个维度的信息;
获取知识图谱步骤,根据所述关键词和所述词根及两两之间的关系构建知识图谱。
在其中一些实施例中,所述获取向量特征步骤具体包括以下步骤:
根据所述知识图谱中的所述关键词、所述词根、对应所述关键词和所述词根之间的关系、对应所述关键词和所述关键词之间的关系以及对应所述词根和所述词根的关系索引得到某一个所述关键词或所述词根的N阶邻居节点属性及关系,利用one-hot embedding将所述N阶邻居节点及关系均表示为向量,将所述向量拼接并进行降维处理输出稠密向量特征。
在其中一些实施例中,所述推荐新关键词步骤中通过对所述关键词或所述词根的向量特征进行加权得到所述预选关键词的向量特征,根据所述向量特征预测所述预选关键词的表现。
第二方面,本申请实施例提供了一种辅助推荐关键词的装置,包括:
构建知识图谱模块接收并根据站内信息和站外信息提取对应的关键词和词根,利用所述关键词、所述词根及两两之间的关系构建知识图谱,所述站内信息包括往期关键词,所述站外信息包括外网舆情数据;
获取向量特征模块,接收并根据所述知识图谱索引得到所述关键词或所述词根的多阶邻居节点属性和关系,并通过预处理得到所述关键词或所述词根的向量特征;
推荐新关键词模块,接收并根据所述关键词或所述词根随机组建预选关键词,通过所述向量特征预测对应所述预选关键词的表现,根据所述预选关键词的表现筛选得到新关键词并进行推荐。
在其中一些实施例中,所述构建知识图谱模块包括获取语料模块、预处理模块和获取知识图谱模块,其中:
所述获取语料模块通过收集往期的关键词词库获取所述往期关键词,同时通过爬虫抓取外网用户评论数据获取所述外网舆情数据;
所述预处理模块对所述往期关键词和所述外网舆情数据进行语料清洗、分词、词性标注、去停用词操作,获得对应的关键词和词根,所述关键词和所述词根包括多个维度的信息;
所述获取知识图谱模块根据所述关键词和所述词根及两两之间的关系构建知识图谱。
在其中一些实施例中,所述获取向量特征模块接收并根据所述知识图谱中的所述关键词、所述词根、对应所述关键词和所述词根之间的关系、对应所述关键词和所述关键词之间的关系以及对应所述词根和所述词根的关系索引得到某一个所述关键词或所述词根的N阶邻居节点属性及关系,利用one-hot embedding将所述N阶邻居节点及关系表示为向量,将所述向量拼接并进行降维处理输出稠密向量特征。
在其中一些实施例中,所述获得新关键词模块中通过对所述关键词或所述词根的向量特征进行加权得到所述预选关键词的向量特征,根据所述向量特征预测所述预选关键词的表现。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的辅助推荐关键词的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的辅助推荐关键词的方法。
相比于相关技术,本申请实施例提供的辅助推荐关键词的方法,通过构建基于往期关键词和外网舆情信息的知识图谱,使得知识图谱的关键词或词根具有更多的向量特征,解决了现有知识图谱推荐关键词无法精确到特定维度和预测效果不好的问题,实现了多维度辅助推荐关键词,同时为下游的关键词预测或推荐模型提供了更加丰富精准的特征。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的辅助推荐关键词的方法的流程图;
图2是根据本申请实施例的构建知识图谱步骤的流程图;
图3为根据本申请实施例的辅助推荐关键词的装置的结构框图;
图4为根据本申请实施例的构建知识图谱模块的结构框图;
图5为根据本申请提出的实际应用条件下构建的基于电商的知识图谱的局部结构图;
图6为根据本申请实施例的电子设备的硬件结构示意图。
附图说明:
1、构建知识图谱模块;2、获取向量特征模块;3、推荐新关键词模块;
11、获取语料模块;12、预处理模块;13、获取知识图谱模块:
81、处理器;82、存储器;83、通信接口;80、总线。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
One-hot embedding是一种最普通常见的表示离散数据的表示,首先计算出需要表示的离散或类别变量的总个数N,然后对于每个变量,就可以用N-1个0和单个1组成的vector来表示每个类别。
考虑使用知识图谱来挖掘产品相关的新词语料、以及挖掘更多维度的特征来提高模型准确性。然而如何构建这样的知识图谱成为了一个较大难点。因此,我们需要一种方式去获取可用于构建关键词的热度词根,其次,也需要一种方式去评估词根,乃至关键词结构的质量。
然而现有的市场中的知识图谱多为广义上的知识图谱,并不包含电商领域知识,因此无法直接使用在项目中。
基于上述,本实施例提供了一种辅助推荐关键词的方法,图1是根据本申请实施例的辅助推荐关键词的方法的流程图,如图1所示,该流程包括以下步骤:
构建知识图谱步骤,接收并根据站内信息和站外信息提取对应的关键词和词根,利用关键词、词根及两两之间的关系构建知识图谱,站内信息包括往期关键词,站外信息包括外网舆情数据;
获取向量特征步骤,根据知识图谱索引得到关键词或词根的多阶邻居节点属性和关系,并通过预处理得到关键词或词根的向量特征;
推荐新关键词步骤,根据关键词或词根随机组建预选关键词,通过向量特征预测对应预选关键词的表现,根据预选关键词的表现筛选得到新关键词并进行推荐。
需要指出的是,本实施例中站外信息包括外网舆情数据,但本发明并不仅限于此,在其他的一些实施例中,站外信息还可以包括淘宝电商信息和其他适应性的语料库。
在具体的应用中,根据往期关键词、外网舆情数据和淘宝电商信息等语料库提取出关键词和词根,上述关键词和词根包括多个维度的信息,包括但不仅限于词频热度信息、产品信息、投放信息、品牌信息等。
由于本发明的知识图谱基于往期关键词和外网舆情数据,涉及到多个维度的关键词或词根,可以为关键词提供更多的特征去预测表现,评估词根以及关键词结构的质量,有利于更好的辅助推荐关键词。
相关技术无法精确地定位到产品维度,同时关键词指标预测的准确性也不高,通过分析造成这种现象的原因是,知识图谱中每个关键词的特征维度太低,加上投放的数据量本身就少。基于上述原因在构建知识图谱的过程中,增加了语料库的丰富程度,使得知识图谱中包含多个维度的关键词或词根;然后通过在索引知识图谱中对应要求的关键词或词根的多阶邻居节点属性和关系,获得对应的向量特征,通过预测关键词或词根的表现,给予关键词推荐。
同时,本发明构建的知识图谱可以给出更多的特征用于为下游的关键词预测或推荐模型提供更加丰富精准的特征。
在一些实施例中,图2是根据本申请实施例的构建知识图谱步骤的流程图,如图2所示,构建知识图谱步骤具体包括以下步骤:
获取语料步骤,收集往期的关键词词库获取往期关键词,同时通过爬虫抓取外网用户评论数据获取外网舆情数据;
语料预处理步骤,对往期关键词和外网舆情数据进行语料清洗、分词、词性标注、去停用词操作,获得对应的关键词和词根,关键词和词根包括多个维度的信息;
获取知识图谱步骤,根据关键词和词根及两两之间的关系构建知识图谱。
在一些实施例中,获取向量特征步骤具体包括以下步骤:
根据知识图谱中的关键词、词根、对应关键词和词根之间的关系、对应关键词和关键词之间的关系以及对应词根和词根的关系索引得到某一个关键词或词根的N阶邻居节点属性及关系,利用one-hot embedding将N阶邻居节点及关系均表示为向量,将向量拼接并进行降维处理输出稠密向量特征。
在一些实施例中,推荐新关键词步骤中通过对关键词或词根的向量特征进行加权得到预选关键词的向量特征,根据向量特征预测预选关键词的表现。需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种辅助推荐关键词的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的辅助推荐关键词的装置的结构框图,如图3所示,该装置包括:
构建知识图谱模块1,接收并根据站内信息和站外信息提取对应的关键词和词根,利用关键词、词根及两两之间的关系构建知识图谱,站内信息包括往期关键词,站外信息包括外网舆情数据;
获取向量特征模块2,接收并根据知识图谱索引得到关键词或词根的多阶邻居节点属性和关系,并通过预处理得到关键词或词根的向量特征;
推荐新关键词模块3,接收并根据关键词或词根随机组建预选关键词,通过向量特征预测对应预选关键词的表现,根据预选关键词的表现筛选得到新关键词并进行推荐。
在一些实施例中,图4是根据本申请实施例的构建知识图谱模块1的结构框图,如图4所示,构建知识图谱模块1包括获取语料模块11、预处理模块12和获取知识图谱模块13,其中:
获取语料模块11通过收集往期的关键词词库获取往期关键词,同时通过爬虫抓取外网用户评论数据获取外网舆情数据;
预处理模块12对往期关键词和外网舆情数据进行语料清洗、分词、词性标注、去停用词操作,获得对应的关键词和词根,关键词和词根包括多个维度的信息;
获取知识图谱模块13根据关键词和词根及两两之间的关系构建知识图谱。
在一些实施例中,获取向量特征模块2接收并根据知识图谱中的关键词、词根、对应关键词和词根之间的关系、对应关键词和关键词之间的关系以及对应词根和词根的关系索引得到某一个关键词或词根的N阶邻居节点属性及关系,利用one-hot embedding将N阶邻居节点及关系表示为向量,将向量拼接并进行降维处理输出稠密向量特征。
在一些实施例中,获得新关键词模块中通过对关键词或词根的向量特征进行加权得到预选关键词的向量特征,根据向量特征预测预选关键词的表现。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
下面通过优选实施例对本申请实施例进行描述和说明,主要围绕电商智能投放关键词的例子介绍。
在淘宝钻展,直通车等活动中,电商们会通过购买关键词来实现千人千面的客户引流。需要达到的目的有两个:一个是给电商的关键词投手们提供一些词根相关的舆情分析,即,可以组建关键词的一部分,如“洗衣液促销”里面的词根为“洗衣液”和“促销”,从而给投手一些比较直观的信息而利于他们去组建和购买合理的关键词,另一方面,根据词根去构建一些合理并且表现好的关键词推荐给投手。
首先基于阿里提供的生意参谋关键词库以及电商平台上爬到的外网用户评论数据,通过语料清洗、分词、词性标注、去停用词等操作,获取对应的关键词和词根,根据关键词、词根以及之间对应的关系构建基于电商的知识图谱,图5为根据本申请提出的实际应用条件下构建的基于电商的知识图谱的局部结构图;
根据知识图谱的结构索引得到每个实体相关的信息,并通过one-hot embedding和降维处理成向量特征。
根据基于电商的知识图谱中的关键词或词根随机组建成预选关键词,通过向量特征预测对应预选关键词的表现,根据预选关键词的表现筛选得到新关键词并进行推荐。
在此过程中,还可以通过对关键词或词根的向量特征进行加权得到预选关键词的向量特征,根据向量特征预测预选关键词的表现。
在实际的应用中,可以通过知识图谱得到大基数的词根库。这些词根因为和关键词信息以及淘宝电商信息等联系在一起,其包含了很多维度的信息,如词频热度信息,产品信息,投放信息等等。在实际使用中,我们可以通过知识图谱去索引得到在某个品牌、品类、产品等等条件下的热度词根,然后可以通过专家规则去构建一些合理的关键词作为新词备选。
同时,因该知识图谱中包含关键词或词根节点,通过知识图谱的索引功能得到一阶,二阶或更多阶的特征(或者可以通过更复杂的图挖掘算法如Graph Embedding等等),得到的丰富的特征作为输入提供给下游模型,从而提升其模型准确率。上述下游模型包括但不限于关键词指标预测模型。
为需要说明的是,图5仅为为说明提出的知识图谱简例,本发明并不以此为限。
另外,站内信息和站外信息不局限于知识图谱中的结构。如站内信息可以包含更多的投放的具体细节,如投放时间,投放的ROI和展现量等等。站外信息也不仅仅局限于淘宝评论,可以包含小红书,百度标题等等多元化数据。只要知识图谱的主结构包含关键词和词根以及需要索引的场景信息,并且以包含关系联系在一起就可以达到本项目的目的。
另外,结合图1描述的本申请实施例辅助推荐关键词的方法可以由电子设备来实现。图6为根据本申请实施例的电子设备的硬件结构示意图。
电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种辅助推荐关键词的方法。
在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图6所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、***组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的辅助推荐关键词的方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种辅助推荐关键词的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种辅助推荐关键词的方法,其特征在于,包括以下步骤:
构建知识图谱步骤,接收并根据站内信息和站外信息提取对应的关键词和词根,利用所述关键词、所述词根及两两之间的关系构建知识图谱,所述站内信息包括往期关键词,所述站外信息包括外网舆情数据;
获取向量特征步骤,根据所述知识图谱索引得到所述关键词或所述词根的多阶邻居节点属性和关系,并通过预处理得到所述关键词或所述词根的向量特征;
推荐新关键词步骤,根据所述关键词或所述词根随机组建预选关键词,通过所述向量特征预测对应所述预选关键词的表现,根据所述预选关键词的表现筛选得到新关键词并进行推荐。
2.根据权利要求1所述的辅助推荐关键词的方法,其特征在于,所述构建知识图谱步骤具体包括以下步骤:
获取语料步骤,收集往期的关键词词库获取所述往期关键词,同时通过爬虫抓取外网用户评论数据获取所述外网舆情数据;
语料预处理步骤,对所述往期关键词和所述外网舆情数据进行语料清洗、分词、词性标注、去停用词操作,获得对应的关键词和词根,所述关键词和所述词根包括多个维度的信息;
获取知识图谱步骤,根据所述关键词和所述词根及两两之间的关系构建知识图谱。
3.根据权利要求1所述的辅助推荐关键词的方法,其特征在于,所述获取向量特征步骤具体包括以下步骤:
根据所述知识图谱中的所述关键词、所述词根、对应所述关键词和所述词根之间的关系、对应所述关键词和所述关键词之间的关系以及对应所述词根和所述词根的关系索引得到某一个所述关键词或所述词根的N阶邻居节点属性及关系,利用one-hot embedding将所述N阶邻居节点及关系均表示为向量,将所述向量拼接并进行降维处理输出稠密向量特征。
4.根据权利要求1所述的辅助推荐关键词的方法,其特征在于,所述推荐新关键词步骤中通过对所述关键词或所述词根的向量特征进行加权得到所述预选关键词的向量特征,根据所述向量特征预测所述预选关键词的表现。
5.一种辅助推荐关键词的装置,其特征在于,包括:
构建知识图谱模块,接收并根据站内信息和站外信息提取对应的关键词和词根,利用所述关键词、所述词根及两两之间的关系构建知识图谱,所述站内信息包括往期关键词,所述站外信息包括外网舆情数据;
获取向量特征模块,接收并根据所述知识图谱索引得到所述关键词或所述词根的多阶邻居节点属性和关系,并通过预处理得到所述关键词或所述词根的向量特征;
推荐新关键词模块,接收并根据所述关键词或所述词根随机组建预选关键词,通过所述向量特征预测对应所述预选关键词的表现,根据所述预选关键词的表现筛选得到新关键词并进行推荐。
6.根据权利要求5所述的辅助推荐关键词的装置,其特征在于,所述构建知识图谱模块包括获取语料模块、预处理模块和获取知识图谱模块,其中:
所述获取语料模块通过收集往期的关键词词库获取所述往期关键词,同时通过爬虫抓取外网用户评论数据获取所述外网舆情数据;
所述预处理模块对所述往期关键词和所述外网舆情数据进行语料清洗、分词、词性标注、去停用词操作,获得对应的关键词和词根,所述关键词和所述词根包括多个维度的信息;
所述获取知识图谱模块根据所述关键词和所述词根及两两之间的关系构建知识图谱。
7.根据权利要求5所述的辅助推荐关键词的装置,其特征在于,所述获取向量特征模块接收并根据所述知识图谱中的所述关键词、所述词根、对应所述关键词和所述词根之间的关系、对应所述关键词和所述关键词之间的关系以及对应所述词根和所述词根的关系索引得到某一个所述关键词或所述词根的N阶邻居节点属性及关系,利用one-hot embedding将所述N阶邻居节点及关系表示为向量,将所述向量拼接并进行降维处理输出稠密向量特征。
8.根据权利要求5所述的辅助推荐关键词的装置,其特征在于,所述获得新关键词模块中通过对所述关键词或所述词根的向量特征进行加权得到所述预选关键词的向量特征,根据所述向量特征预测所述预选关键词的表现。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的辅助推荐关键词的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的辅助推荐关键词的方法。
CN202011164051.XA 2020-10-27 2020-10-27 辅助推荐关键词的方法、装置、电子设备及存储介质 Pending CN112241460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011164051.XA CN112241460A (zh) 2020-10-27 2020-10-27 辅助推荐关键词的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011164051.XA CN112241460A (zh) 2020-10-27 2020-10-27 辅助推荐关键词的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112241460A true CN112241460A (zh) 2021-01-19

Family

ID=74169714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011164051.XA Pending CN112241460A (zh) 2020-10-27 2020-10-27 辅助推荐关键词的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112241460A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222547A (zh) * 2021-05-17 2021-08-06 北京明略昭辉科技有限公司 一种项目跟进方法、***、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688606A (zh) * 2017-07-26 2018-02-13 北京三快在线科技有限公司 一种推荐信息的获取方法及装置,电子设备
CN109508391A (zh) * 2018-12-28 2019-03-22 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN109658208A (zh) * 2019-01-15 2019-04-19 京东方科技集团股份有限公司 药品的推荐方法、装置、介质和电子设备
CN111401928A (zh) * 2020-04-01 2020-07-10 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN111538906A (zh) * 2020-05-29 2020-08-14 支付宝(杭州)信息技术有限公司 基于隐私保护的信息推送方法及装置
CN111800493A (zh) * 2020-06-29 2020-10-20 百度在线网络技术(北京)有限公司 信息内容推送方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688606A (zh) * 2017-07-26 2018-02-13 北京三快在线科技有限公司 一种推荐信息的获取方法及装置,电子设备
CN109508391A (zh) * 2018-12-28 2019-03-22 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN109658208A (zh) * 2019-01-15 2019-04-19 京东方科技集团股份有限公司 药品的推荐方法、装置、介质和电子设备
CN111401928A (zh) * 2020-04-01 2020-07-10 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN111538906A (zh) * 2020-05-29 2020-08-14 支付宝(杭州)信息技术有限公司 基于隐私保护的信息推送方法及装置
CN111800493A (zh) * 2020-06-29 2020-10-20 百度在线网络技术(北京)有限公司 信息内容推送方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222547A (zh) * 2021-05-17 2021-08-06 北京明略昭辉科技有限公司 一种项目跟进方法、***、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107193987B (zh) 获取与页面相关的搜索词的方法、装置和***
CN108256044B (zh) 直播间推荐方法、装置及电子设备
CN109033075B (zh) 意图匹配的方法、装置、存储介质和终端设备
CN109684290B (zh) 日志存储方法、装置、设备及计算机可读存储介质
CN109189990A (zh) 一种搜索词的生成方法、装置及电子设备
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
CN113010778A (zh) 一种基于用户历史兴趣的知识图谱推荐方法和***
CN109729126A (zh) 文本资源的推送方法、装置、存储介质及处理器
CN110309410B (zh) 一种资讯推荐方法、平台及计算机可读存储介质
CN112819512A (zh) 一种文本处理方法、装置、设备及介质
CN112241460A (zh) 辅助推荐关键词的方法、装置、电子设备及存储介质
CN113033194B (zh) 语义表示图模型的训练方法、装置、设备和存储介质
CN107369066B (zh) 一种评论对象之间的特征比较方法及装置
CN111259225A (zh) 新媒体信息展示方法、装置、电子设备及计算机可读介质
CN106294765A (zh) 处理新闻数据的方法及装置
CN112541069A (zh) 一种结合关键词的文本匹配方法、***、终端及存储介质
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
CN112214663A (zh) 获取舆情声量的方法、***、装置、存储介质及移动终端
CN111242239A (zh) 一种训练样本选取方法、装置、以及计算机存储介质
CN110929123A (zh) 一种电商产品竞争分析方法及***
CN112765329B (zh) 一种社交网络关键节点发现方法及***
CN111625619A (zh) 查询省略方法、装置、计算机可读介质及电子设备
CN112069388B (zh) 实体推荐方法、***、计算机设备和计算机可读存储介质
JP6103766B2 (ja) 行動プロセス抽出方法及び行動プロセス抽出装置
CN108280198B (zh) 榜单生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination