CN115470322A - 一种基于人工智能的关键词生成***及方法 - Google Patents
一种基于人工智能的关键词生成***及方法 Download PDFInfo
- Publication number
- CN115470322A CN115470322A CN202211294577.9A CN202211294577A CN115470322A CN 115470322 A CN115470322 A CN 115470322A CN 202211294577 A CN202211294577 A CN 202211294577A CN 115470322 A CN115470322 A CN 115470322A
- Authority
- CN
- China
- Prior art keywords
- data
- similarity
- commodity
- value
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Finance (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于人工智能的关键词生成***及方法,方法包括:获取商品描述数据,并从所述商品描述数据中提取第一搜索词;根据所述第一搜索词获取商品的潜在竞品数据;利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据;从所述竞品数据中提取竞品标题数据;从所述竞品标题数据中提取核心商品词;结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词;根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词。通过本方案,能够自动智能地采集竞品数据、市场数据并自动编辑商品关键词,大量减少人工操作,提升生成商品文案的效率。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于人工智能的关键词生成***及方法。
背景技术
随着网络技术的快速发展,电子商务技术也得到极大发展,商家经常会使用电商平台来推广自己的商品,广告关键词是电商平台为商家提供的广告投放服务的核心参数,商家为自己的商品设置相关的广告关键词和投放策略,电商平台会以一定的策略将商品展示给搜索到此关键词的顾客。在广告投放过程中,商家期望能够生成针对性较强的广告关键词,使得顾客在通过该关键词检索时能够获得其对应匹配的商品,以提升广告的投放效果。
然而,目前商家确定广告关键词通用的方法是人工对相关产品的关键词进行标注,但是随着商品种类的增多,广告关键词的获取工作量增加,通过人工标注的方式会降低关键词的生成效率,同时仅是从商家商品的角度进行关键词的标注,无法匹配更多的投放场景,会使得关键词的精准度降低。
发明内容
本发明正是基于上述问题,提出了一种基于人工智能的关键词生成***及方法,通过本发明的方案,能够自动智能地采集竞品数据、市场数据并自动编辑商品关键词,大量减少人工操作,提升生成商品文案的效率。
有鉴于此,本发明的一方面提出了一种基于人工智能的关键词生成***,包括:提取模块、数据处理模块和生成模块;
所述提取模块被配置为:
获取商品描述数据,并从所述商品描述数据中提取第一搜索词;
根据所述第一搜索词获取商品的潜在竞品数据;
所述数据处理模块,被配置为:
利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据;
从所述竞品数据中提取竞品标题数据;
从所述竞品标题数据中提取核心商品词;
结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词;
所述生成模块被配置为:根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词。
可选地,在所述利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据的步骤中,所述数据处理模块具体被配置为:
输入所述潜在竞品数据,将相似度标识值I记为0;
利用第一相似度判断模型判断所述潜在竞品数据的第一相似值A1是否大于第一阈值;
若所述第一相似值A1大于所述第一阈值,则利用第二相似度判断模型判断所述潜在竞品数据的第二相似值A2是否小于第二阈值,以及利用第三相似度判断模型判断所述潜在竞品数据的第三相似值A3是否小于第三阈值;
若所述第二相似值A2小于所述第二阈值或者所述第三相似值A3小于所述第三阈值,则将所述相似度标识值I加1,并利用第一相似度计算方法计算第一相似度S1;
若所述第二相似值A2不小于所述第二阈值或者所述第三相似值A3不小于所述第三阈值,则利用所述第一相似度计算方法计算所述第一相似度S1;
所述第一相似度计算方法为:第一相似度S1=a1*第一相似值A1+a2*第二相似值A2+a3*第三相似值A3+b1*相似度标识值I,其中,a1、a2、a3、b1均为大于0的权重系数且a1+a2+a3+b1=1
若所述第一相似值A1不大于所述第一阈值,则利用图像处理算法对所述潜在竞品数据中的图像数据进行处理,得到潜在竞品图像数据;
利用第四相似度判断模型判断所述潜在竞品图像数据的第四相似值A4是否小于第四阈值,以及利用第五相似度判断模型判断所述潜在竞品图像数据的第五相似值A5是否小于第五阈值;
若所述第四相似值A4不小于所述第四阈值或者所述第五相似值A5不小于所述第五阈值,则将所述相似度标识值I加1,并利用第二相似度计算方法计算第二相似度S2;
若所述第四相似值A4小于所述第四阈值或者所述第五相似值A5小于所述第五阈值,则利用所述第二相似度计算方法计算所述第二相似度S1;
所述第二相似度计算方法为:第二相似度S2=a6*第一相似值A1+a4*第四相似值A4+a5*第五相似值A5+b2*相似度标识值I,其中,a4、a5、a6、b2均为大于0的权重系数且a4+a5+a6+b2=1;
判断所述第一相似度S1或所述第二相似度S2是否不小于所述预设阈值,若是,则将所述潜在竞品数据标记为相似,若否,则将所述潜在竞品数据标记为不相似;
将所述潜在竞品数据中所有被标记为相似的数据提取出来作为所述竞品数据。
可选地,在所述获取商品描述数据,并从所述商品描述数据中提取第一搜索词的步骤中,所述提取模块具体被配置为:
步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列;
步骤二:提取所述候选搜索词序列的特征数据,并对所述特征数据进行标注得到有标注样本集和无标注样本集;
步骤三:将所述标注样本集作为训练集合,利用神经网络训练搜索词分类模型;
步骤四:用训练好的所述搜索词分类模型对所述无标注样本集中的候选搜索词进行分类预测,并计算每个无标注样本的匹配度;
步骤五:选取所述匹配度超过预设匹配度值的对应的所述无标注样本加入所述训练集合,重新训练所述搜索词分类模型;
步骤六:重复步骤四至步骤五,直至所有所述每个无标注样本的匹配度中高于所述预设匹配度值的比例超过预设比例,得到最终的搜索词分类模型;
步骤七:所述商品描述数据的特征数据输入所述最终的搜索词分类模型处理,并从处理结果中提取所述第一搜索词。
可选地,所述步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列中,所述提取模块具体被配置为:
从所述商品描述数据中提取文本数据;
对所述文本数据中的所有语句进行统计和编号;
将所述语句分割成多个词语,记录所述词语在所述语句中的位置信息;
分析并标注所述词语的词性;
从所述词语中删除预设词性的第一词语,得到修改后的词语集;
对所述修改后的词语集进行去重操作,得到候选词集合;
将所述候选词集合按商品名称、商品属性进行分类;
对分类后的所述候选词集合进行文本预处理后生成所述候选搜索词序列。
可选地,所述步骤二中所述提取所述候选搜索词序列的特征数据的操作中,所述提取模块具体被配置为:
利用已训练好的词向量模型,生成第一词向量表;
根据所述第一词向量表,生成与所述候选搜索词序列对应的候选搜索词向量序列;
根据所述候选搜索词向量序列之间的距离,将所述候选搜索词向量序列划分成n个集群;
根据聚类算法生成所述n个集群的聚类中心向量;
根据距离公式对所述候选搜索词序列和所述聚类中心向量的关系进行量化,得到所述候选搜索词序列的语义特征;
从所述语义特征中提取语言特征、词频特征、长度特征和位置特征作为所述特征数据。
本发明的另一方面提供一种基于人工智能的关键词生成方法,所述基于人工智能的关键词生成方法包括:
获取商品描述数据,并从所述商品描述数据中提取第一搜索词;
根据所述第一搜索词获取商品的潜在竞品数据;
利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据;
从所述竞品数据中提取竞品标题数据;
从所述竞品标题数据中提取核心商品词;
结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词;
根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词。
可选地,所述利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据的步骤,包括:
输入所述潜在竞品数据,将相似度标识值I记为0;
利用第一相似度判断模型判断所述潜在竞品数据的第一相似值A1是否大于第一阈值;
若所述第一相似值A1大于所述第一阈值,则利用第二相似度判断模型判断所述潜在竞品数据的第二相似值A2是否小于第二阈值,以及利用第三相似度判断模型判断所述潜在竞品数据的第三相似值A3是否小于第三阈值;
若所述第二相似值A2小于所述第二阈值或者所述第三相似值A3小于所述第三阈值,则将所述相似度标识值I加1,并利用第一相似度计算方法计算第一相似度S1;
若所述第二相似值A2不小于所述第二阈值或者所述第三相似值A3不小于所述第三阈值,则利用所述第一相似度计算方法计算所述第一相似度S1;
所述第一相似度计算方法为:第一相似度S1=a1*第一相似值A1+a2*第二相似值A2+a3*第三相似值A3+b1*相似度标识值I,其中,a1、a2、a3、b1均为大于0的权重系数且a1+a2+a3+b1=1
若所述第一相似值A1不大于所述第一阈值,则利用图像处理算法对所述潜在竞品数据中的图像数据进行处理,得到潜在竞品图像数据;
利用第四相似度判断模型判断所述潜在竞品图像数据的第四相似值A4是否小于第四阈值,以及利用第五相似度判断模型判断所述潜在竞品图像数据的第五相似值A5是否小于第五阈值;
若所述第四相似值A4不小于所述第四阈值或者所述第五相似值A5不小于所述第五阈值,则将所述相似度标识值I加1,并利用第二相似度计算方法计算第二相似度S2;
若所述第四相似值A4小于所述第四阈值或者所述第五相似值A5小于所述第五阈值,则利用所述第二相似度计算方法计算所述第二相似度S2;
所述第二相似度计算方法为:第二相似度S2=a6*第一相似值A1+a4*第四相似值A4+a5*第五相似值A5+b2*相似度标识值I,其中,a4、a5、a6、b2均为大于0的权重系数且a4+a5+a6+b2=1;
判断所述第一相似度S1或所述第二相似度S2是否不小于所述预设阈值,若是,则将所述潜在竞品数据标记为相似,若否,则将所述潜在竞品数据标记为不相似;
将所述潜在竞品数据中所有被标记为相似的数据提取出来作为所述竞品数据。
可选地,所述获取商品描述数据,并从所述商品描述数据中提取第一搜索词的步骤,包括:
步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列;
步骤二:提取所述候选搜索词序列的特征数据,并对所述特征数据进行标注得到有标注样本集和无标注样本集;
步骤三:将所述标注样本集作为训练集合,利用神经网络训练搜索词分类模型;
步骤四:用训练好的所述搜索词分类模型对所述无标注样本集中的候选搜索词进行分类预测,并计算每个无标注样本的匹配度;
步骤五:选取所述匹配度超过预设匹配度值的对应的所述无标注样本加入所述训练集合,重新训练所述搜索词分类模型;
步骤六:重复步骤四至步骤五,直至所有所述每个无标注样本的匹配度中高于所述预设匹配度值的比例超过预设比例,得到最终的搜索词分类模型;
步骤七:所述商品描述数据的特征数据输入所述最终的搜索词分类模型处理,并从处理结果中提取所述第一搜索词。
可选地,所述步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列,包括:
从所述商品描述数据中提取文本数据;
对所述文本数据中的所有语句进行统计和编号;
将所述语句分割成多个词语,记录所述词语在所述语句中的位置信息;
分析并标注所述词语的词性;
从所述词语中删除预设词性的第一词语,得到修改后的词语集;
对所述修改后的词语集进行去重操作,得到候选词集合;
将所述候选词集合按商品名称、商品属性进行分类;
对分类后的所述候选词集合进行文本预处理后生成所述候选搜索词序列。
可选地,所述步骤二中所述提取所述候选搜索词序列的特征数据的操作,包括:
利用已训练好的词向量模型,生成第一词向量表;
根据所述第一词向量表,生成与所述候选搜索词序列对应的候选搜索词向量序列;
根据所述候选搜索词向量序列之间的距离,将所述候选搜索词向量序列划分成n个集群;
根据聚类算法生成所述n个集群的聚类中心向量;
根据距离公式对所述候选搜索词序列和所述聚类中心向量的关系进行量化,得到所述候选搜索词序列的语义特征;
从所述语义特征中提取语言特征、词频特征、长度特征和位置特征作为所述特征数据。
采用本发明的技术方案,方法包括获取商品描述数据,并从所述商品描述数据中提取第一搜索词;根据所述第一搜索词获取商品的潜在竞品数据;利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据;从所述竞品数据中提取竞品标题数据;从所述竞品标题数据中提取核心商品词;结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词;根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词。通过本方案,能够自动智能地采集竞品数据、市场数据并自动编辑商品关键词,大量减少人工操作,提升生成商品文案的效率。
附图说明
图1是本发明一个实施例提供的基于人工智能的关键词生成***的示意框图;
图2是本发明一个实施例提供的基于人工智能的关键词生成方法流程图;
图3是本发明另一个实施例提供的基于人工智能的关键词生成方法流程图;
图4是本发明另一个实施例提供的基于人工智能的关键词生成方法流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面参照图1至图4来描述根据本发明一些实施方式提供的一种基于人工智能的关键词生成***及方法。
如图1所示,本发明一个实施例提供一种基于人工智能的关键词生成***,包括:提取模块、数据处理模块和生成模块;
所述提取模块被配置为:
获取商品描述数据,并从所述商品描述数据中提取第一搜索词;
根据所述第一搜索词获取商品的潜在竞品数据;
所述数据处理模块,被配置为:
利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据;
从所述竞品数据中提取竞品标题数据;
从所述竞品标题数据中提取核心商品词;
结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词;
所述生成模块被配置为:根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词。
可以理解的是,在本实施例中,可以通过提取模块(如爬虫模块)从网络平台和/或电商平台和/或网络服务器上获取商品描述数据(如商品说明书、商品方案等介绍商品的内容),并从所述商品描述数据中提取第一搜索词或搜索语句或搜索文本等,如商品标识、商品名称、商品属性等。
接着,根据所述第一搜索词获取商品的潜在竞品数据,即通过文本信息在对应的网络平台和/或电商平台和/或者网络服务器和/或服务站点进行搜索,搜索尽可能多的同款商品或相似商品数据进入数据采集***中作为潜在竞品数据,并可以基于不同的维度,根据潜在竞品数据建立不同的词典库。
因根据第一搜索词获取到的竞品数据过多,需要进行过滤筛选,可以通过所述数据处理模块利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据。
接着,通过所述数据处理模块,结合预先建立的商品词库、属性词库等,可以从所述竞品数据中提取竞品标题数据,从所述竞品标题数据中提取核心商品词。所述商品词库数据有百万余条,主要是多元词;属性词库则包括商品的品牌、材质、外观、形状、颜色、适用等多个维度的词语数据。在获取电商平台后台提供的历史搜索词数据集后,保存至数据库,并建立倒排索引提高接口响应的效率。
然后,结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词。经过申请人研究并统计分析发现:商品名称一般而言是商品文案中词频最高那部分词且绝大多数出现在标题头部。对于商品的搜索词,适用人群和适用场景用词非常集中,采用建立固定词库(即搜索词数据集),匹配进行提取即可。这类词在标题中位置比较固定,且它们搭配的词比较集中,建立固定词库的方法可以是:先筛选一批初始种子词,迭代挖掘相关的适用人群和场景词,建立搜索词数据集。在迭代中可以加入人工干预,及时剔除不相关词。其中,适用人群和适用场景用词,在商品名称/标题中的上下文有明显区别,比如:玩具、礼物、服装、首饰类等商品名称/标题中经常出现适用人群,电子类产品更多的是适用场景词等,据此适用词向量及上下文词语辅助人工区分适用场景和适用人群词,完成词库的建设。
商品属性词一般是为了说明商品的卖点或者特色,包括比较重要的商品属性、各商品的特性说法等。特性词定义比较模糊,容错性强,可以结合各商品的属性表进行提取。
最后,所述生成模块根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词。
通过前一步提取的所述第一核心商品词,如核心关键词、特性词、品牌词、适用人群和适用场景等,再结合各电商平台的关键词/标题生成规则,在满足关键词/标题和平台差异性的条件下,生成对应商品的合适描述关键词/标题。
采用该实施例的技术方案,能够自动智能地采集竞品数据、市场数据并自动编辑商品关键词,大量减少人工操作,提升生成商品文案的效率。
应当知道的是,图1所示的基于人工智能的关键词生成***的框图仅作示意,其所示出的各模块的数量并不对本发明的保护范围进行限定。
在本发明一些可能的实施方式中,在所述利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据的步骤中,所述数据处理模块具体被配置为:
输入所述潜在竞品数据,将相似度标识值I记为0;
利用第一相似度判断模型判断所述潜在竞品数据的第一相似值A1是否大于第一阈值;
若所述第一相似值A1大于所述第一阈值,则利用第二相似度判断模型判断所述潜在竞品数据的第二相似值A2是否小于第二阈值,以及利用第三相似度判断模型判断所述潜在竞品数据的第三相似值A3是否小于第三阈值;
若所述第二相似值A2小于所述第二阈值或者所述第三相似值A3小于所述第三阈值,则将所述相似度标识值I加1,并利用第一相似度计算方法计算第一相似度S1;
若所述第二相似值A2不小于所述第二阈值或者所述第三相似值A3不小于所述第三阈值,则利用所述第一相似度计算方法计算所述第一相似度S1;
所述第一相似度计算方法为:第一相似度S1=a1*第一相似值A1+a2*第二相似值A2+a3*第三相似值A3+b1*相似度标识值I,其中,a1、a2、a3、b1均为大于0的权重系数且a1+a2+a3+b1=1
若所述第一相似值A1不大于所述第一阈值,则利用图像处理算法对所述潜在竞品数据中的图像数据进行处理,得到潜在竞品图像数据;
利用第四相似度判断模型判断所述潜在竞品图像数据的第四相似值A4是否小于第四阈值,以及利用第五相似度判断模型判断所述潜在竞品图像数据的第五相似值A5是否小于第五阈值;
若所述第四相似值A4不小于所述第四阈值或者所述第五相似值A5不小于所述第五阈值,则将所述相似度标识值I加1,并利用第二相似度计算方法计算第二相似度S2;
若所述第四相似值A4小于所述第四阈值或者所述第五相似值A5小于所述第五阈值,则利用所述第二相似度计算方法计算所述第二相似度S2;
所述第二相似度计算方法为:第二相似度S2=a6*第一相似值A1+a4*第四相似值A4+a5*第五相似值A5+b2*相似度标识值I,其中,a4、a5、a6、b2均为大于0的权重系数且a4+a5+a6+b2=1;
判断所述第一相似度S1或所述第二相似度S2是否不小于所述预设阈值,若是,则将所述潜在竞品数据标记为相似,若否,则将所述潜在竞品数据标记为不相似;
将所述潜在竞品数据中所有被标记为相似的数据提取出来作为所述竞品数据。
可以理解的是,可以从文本和图像两个维度出发,根据它们各自特征构建多个模型去计算相似度,最终对多个模型给出的结果进行加权求和来判断是否为真正相似的竞品。
在本实施例中,首先通过第一相似度判断模型进行初步判断(可为对文本数据进行的相似度判断),当得到第一相似值A1大于第一阈值(如80%)时,进一步从其他维度/精度或利用其他算法训练出的模型来进行二次判断,以提高准确性,例如利用第二相似度判断模型判断所述潜在竞品数据的第二相似值A2是否小于第二阈值,和/或利用第三相似度判断模型判断所述潜在竞品数据的第三相似值A3是否小于第三阈值。所述第二相似度判断模型和所述第三相似度判断模型可以为对文本数据进行相似度判断的模型(或者其他维度的模型);若所述第二相似值A2小于所述第二阈值或者所述第三相似值A3小于所述第三阈值,则将所述相似度标识值I加1,并利用第一相似度计算方法计算第一相似度S1,此处,对于文本比对相似度较高的潜在竞品数据,可以采用其他精度/维度的判断模型来进行进一步判断,当得到的第二相似值A2小于所述第二阈值(如60%)或第三相似值A3小于所述第三阈值(如50%)时,表明在初步判断时可能存在误判,则将所述相似度标识值I加1,以降低前面三个判断模型的权重,利用第一相似度计算方法计算第一相似度S1。若所述第二相似值A2不小于所述第二阈值或者所述第三相似值A3不小于所述第三阈值,则利用所述第一相似度计算方法计算所述第一相似度S1。在一些实施方式中,所述第二相似度判断模型和所述第三相似度判断模型可以为对图像数据进行相似度判断的模型,也可以是二者其中之一为对图像数据进行相似度判断的模型,其中之一为文本数据进行相似度判断的模型(或者其他模型)。
可以理解的是,若所述第一相似值A1不大于所述第一阈值,则利用图像处理算法对所述潜在竞品数据中的图像数据进行处理,得到潜在竞品图像数据,利用第四相似度判断模型判断所述潜在竞品图像数据的第四相似值A4是否小于第四阈值,以及利用第五相似度判断模型判断所述潜在竞品图像数据的第五相似值A5是否小于第五阈值;若所述第四相似值A4不小于所述第四阈值或者所述第五相似值A5不小于所述第五阈值,表明在初步判断时可能存在误判,则将所述相似度标识值I加1,以降低第一、第四、第五相似度判断模型的输出结果的权重,并利用第二相似度计算方法计算第二相似度S2;若所述第四相似值A4小于所述第四阈值或者所述第五相似值A5小于所述第五阈值,则利用所述第二相似度计算方法计算所述第二相似度S2。本实施例中通过两个不同精度(或不同算法训练出来的)对图像数据进行相似度判断的模型的加入,提高了判断准确度,可以避免因文本数据的比对结果较差而导致漏掉真实竞品数据的问题。
在本发明一些可能的实施方式中,在所述获取商品描述数据,并从所述商品描述数据中提取第一搜索词的步骤中,所述提取模块具体被配置为:
步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列;
步骤二:提取所述候选搜索词序列的特征数据,并对所述特征数据进行标注得到有标注样本集和无标注样本集;
步骤三:将所述标注样本集作为训练集合,利用神经网络训练搜索词分类模型;
步骤四:用训练好的所述搜索词分类模型对所述无标注样本集中的候选搜索词进行分类预测,并计算每个无标注样本的匹配度;
步骤五:选取所述匹配度超过预设匹配度值的对应的所述无标注样本加入所述训练集合,重新训练所述搜索词分类模型;
步骤六:重复步骤四至步骤五,直至所有所述每个无标注样本的匹配度中高于所述预设匹配度值的比例超过预设比例,得到最终的搜索词分类模型;
步骤七:所述商品描述数据的特征数据输入所述最终的搜索词分类模型处理,并从处理结果中提取所述第一搜索词。
可以理解的是,在本实施例中,在提取所述候选搜索词序列的特征数据后,对所述特征数据中的一部分进行标注得到有标注样本集,另一部分则为无标注样本集,利用有标签标注的样本集数据通过神经网络训练搜索词分类模型,然后再利用无标注的样本集数据来进一步训练搜索词分类模型,直至所有所述每个无标注样本的匹配度值集合中高于所述预设匹配度值的比例超过预设比例,从而达到提升搜索词分类模型性能的目的。
在本发明一些可能的实施方式中,所述步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列中,所述提取模块具体被配置为:
从所述商品描述数据中提取文本数据;
对所述文本数据中的所有语句进行统计和编号;
将所述语句分割成多个词语,记录所述词语在所述语句中的位置信息;
分析并标注所述词语的词性;
从所述词语中删除预设词性的第一词语,得到修改后的词语集;
对所述修改后的词语集进行去重操作,得到候选词集合;
将所述候选词集合按商品名称、商品属性进行分类;
对分类后的所述候选词集合进行文本预处理后生成所述候选搜索词序列。
可以理解的是,为了提高文本识别与判断的准确性,在本实施例中,在从所述商品描述数据中提取文本数据,并对所述文本数据中的所有语句进行统计和编号后,将所述语句分割成多个词语,记录所述词语在所述语句中的位置信息;分析并标注所述词语的词性;从所述词语中删除预设词性(如形容词、副词、代词、助词等)的、对于关键字生成无意义的第一词语,得到修改后的词语集;对所述修改后的词语集进行去重操作,得到候选词集合;将所述候选词集合按商品名称、商品属性进行分类;对分类后的所述候选词集合进行文本预处理后生成所述候选搜索词序列。
在本发明一些可能的实施方式中,所述步骤二中所述提取所述候选搜索词序列的特征数据的操作中,所述提取模块具体被配置为:
利用已训练好的词向量模型,生成第一词向量表;
根据所述第一词向量表,生成与所述候选搜索词序列对应的候选搜索词向量序列;
根据所述候选搜索词向量序列之间的距离,将所述候选搜索词向量序列划分成n个集群;
根据聚类算法生成所述n个集群的聚类中心向量;
根据距离公式对所述候选搜索词序列和所述聚类中心向量的关系进行量化,得到所述候选搜索词序列的语义特征;
从所述语义特征中提取语言特征、词频特征、长度特征和位置特征作为所述特征数据。
可以理解的是,在本实施例中,为了提高特征数据提取的效率和准确性,通过将所述候选搜索词序列的特征数据向量化进行向量运算,生成与所述候选搜索词序列对应的候选搜索词向量序列;根据所述候选搜索词向量序列之间的距离,将所述候选搜索词向量序列划分成n个集群;根据聚类算法生成所述n个集群的聚类中心向量再根据欧式距离公式对所述候选搜索词序列和所述聚类中心向量的关系进行量化,得到所述候选搜索词序列的语义特征;从所述语义特征中提取语言特征、词频特征、长度特征和位置特征作为所述特征数据。
请参见图2,本发明的另一实施例提供一种基于人工智能的关键词生成方法,所述基于人工智能的关键词生成方法包括:
获取商品描述数据,并从所述商品描述数据中提取第一搜索词;
根据所述第一搜索词获取商品的潜在竞品数据;
利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据;
从所述竞品数据中提取竞品标题数据;
从所述竞品标题数据中提取核心商品词;
结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词;
根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词。
可以理解的是,在本实施例中,可以通过提取模块(如爬虫模块)从网络平台和/或电商平台和/或网络服务器上获取商品描述数据(如商品说明书、商品方案等介绍商品的内容),并从所述商品描述数据中提取第一搜索词或搜索语句或搜索文本等,如商品标识、商品名称、商品属性等。
接着,根据所述第一搜索词获取商品的潜在竞品数据,即通过文本信息在对应的网络平台和/或电商平台和/或者网络服务器和/或服务站点进行搜索,搜索尽可能多的同款商品或相似商品数据进入数据采集***中作为潜在竞品数据,并可以基于不同的维度,根据潜在竞品数据建立不同的词典库。
因根据第一搜索词获取到的竞品数据过多,需要进行过滤筛选,可以利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据。
接着,通过结合预先建立的商品词库、属性词库等,可以从所述竞品数据中提取竞品标题数据,从所述竞品标题数据中提取核心商品词。所述商品词库数据有百万余条,主要是多元词;属性词库则包括商品的品牌、材质、外观、形状、颜色、适用等多个维度的词语数据。在获取电商平台后台提供的历史搜索词数据集后,保存至数据库,并建立倒排索引提高接口响应的效率。
然后,结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词。经过申请人研究并统计分析发现:商品名称一般而言是商品文案中词频最高那部分词且绝大多数出现在标题头部。对于商品的搜索词,适用人群和适用场景用词非常集中,采用建立固定词库(即搜索词数据集),匹配进行提取即可。这类词在标题中位置比较固定,且它们搭配的词比较集中,建立固定词库的方法可以是:先筛选一批初始种子词,迭代挖掘相关的适用人群和场景词,建立搜索词数据集。在迭代中可以加入人工干预,及时剔除不相关词。其中,适用人群和适用场景用词,在商品名称/标题中的上下文有明显区别,比如:玩具、礼物、服装、首饰类等商品名称/标题中经常出现适用人群,电子类产品更多的是适用场景词等,据此适用词向量及上下文词语辅助人工区分适用场景和适用人群词,完成词库的建设。
商品属性词一般是为了说明商品的卖点或者特色,包括比较重要的商品属性、各商品的特性说法等。特性词定义比较模糊,容错性强,可以结合各商品的属性表进行提取。
最后,根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词。
通过前一步提取的所述第一核心商品词,如核心关键词、特性词、品牌词、适用人群和适用场景等,再结合各电商平台的关键词/标题生成规则,在满足关键词/标题和平台差异性的条件下,生成对应商品的合适描述关键词/标题。
采用该实施例的技术方案,通过获取商品描述数据,并从所述商品描述数据中提取第一搜索词;根据所述第一搜索词获取商品的潜在竞品数据;利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据;从所述竞品数据中提取竞品标题数据;从所述竞品标题数据中提取核心商品词;结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词;根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词,能够自动智能地采集竞品数据、市场数据并自动编辑商品关键词,大量减少人工操作,提升生成商品文案的效率。
在本发明一些可能的实施方式中,所述利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据的步骤,包括:
输入所述潜在竞品数据,将相似度标识值I记为0;
利用第一相似度判断模型判断所述潜在竞品数据的第一相似值A1是否大于第一阈值;
若所述第一相似值A1大于所述第一阈值,则利用第二相似度判断模型判断所述潜在竞品数据的第二相似值A2是否小于第二阈值,以及利用第三相似度判断模型判断所述潜在竞品数据的第三相似值A3是否小于第三阈值;
若所述第二相似值A2小于所述第二阈值或者所述第三相似值A3小于所述第三阈值,则将所述相似度标识值I加1,并利用第一相似度计算方法计算第一相似度S1;
若所述第二相似值A2不小于所述第二阈值或者所述第三相似值A3不小于所述第三阈值,则利用所述第一相似度计算方法计算所述第一相似度S1;
所述第一相似度计算方法为:第一相似度S1=a1*第一相似值A1+a2*第二相似值A2+a3*第三相似值A3+b1*相似度标识值I,其中,a1、a2、a3、b1均为大于0的权重系数且a1+a2+a3+b1=1
若所述第一相似值A1不大于所述第一阈值,则利用图像处理算法对所述潜在竞品数据中的图像数据进行处理,得到潜在竞品图像数据;
利用第四相似度判断模型判断所述潜在竞品图像数据的第四相似值A4是否小于第四阈值,以及利用第五相似度判断模型判断所述潜在竞品图像数据的第五相似值A5是否小于第五阈值;
若所述第四相似值A4不小于所述第四阈值或者所述第五相似值A5不小于所述第五阈值,则将所述相似度标识值I加1,并利用第二相似度计算方法计算第二相似度S2;
若所述第四相似值A4小于所述第四阈值或者所述第五相似值A5小于所述第五阈值,则利用所述第二相似度计算方法计算所述第二相似度S2;
所述第二相似度计算方法为:第二相似度S2=a6*第一相似值A1+a4*第四相似值A4+a5*第五相似值A5+b2*相似度标识值I,其中,a4、a5、a6、b2均为大于0的权重系数且a4+a5+a6+b2=1;
判断所述第一相似度S1或所述第二相似度S2是否不小于所述预设阈值,若是,则将所述潜在竞品数据标记为相似,若否,则将所述潜在竞品数据标记为不相似;
将所述潜在竞品数据中所有被标记为相似的数据提取出来作为所述竞品数据。
可以理解的是,可以从文本和图像两个维度出发,根据它们各自特征构建多个模型去计算相似度,最终对多个模型给出的结果进行加权求和来判断是否为真正相似的竞品。
在本实施例中,首先通过第一相似度判断模型进行初步判断(可为对文本数据进行的相似度判断),当得到第一相似值A1大于第一阈值(如80%)时,进一步从其他维度/精度或利用其他算法训练出的模型来进行二次判断,以提高准确性,例如利用第二相似度判断模型判断所述潜在竞品数据的第二相似值A2是否小于第二阈值,和/或利用第三相似度判断模型判断所述潜在竞品数据的第三相似值A3是否小于第三阈值。所述第二相似度判断模型和所述第三相似度判断模型可以为对文本数据进行相似度判断的模型(或者其他维度的模型);若所述第二相似值A2小于所述第二阈值或者所述第三相似值A3小于所述第三阈值,则将所述相似度标识值I加1,并利用第一相似度计算方法计算第一相似度S1,此处,对于文本比对相似度较高的潜在竞品数据,可以采用其他精度/维度的判断模型来进行进一步判断,当得到的第二相似值A2小于所述第二阈值(如60%)或第三相似值A3小于所述第三阈值(如50%)时,表明在初步判断时可能存在误判,则将所述相似度标识值I加1,以降低前面三个判断模型的权重,利用第一相似度计算方法计算第一相似度S1。若所述第二相似值A2不小于所述第二阈值或者所述第三相似值A3不小于所述第三阈值,则利用所述第一相似度计算方法计算所述第一相似度S1。在一些实施方式中,所述第二相似度判断模型和所述第三相似度判断模型可以为对图像数据进行相似度判断的模型,也可以是二者其中之一为对图像数据进行相似度判断的模型,其中之一为文本数据进行相似度判断的模型(或者其他模型)。
可以理解的是,若所述第一相似值A1不大于所述第一阈值,则利用图像处理算法对所述潜在竞品数据中的图像数据进行处理,得到潜在竞品图像数据,利用第四相似度判断模型判断所述潜在竞品图像数据的第四相似值A4是否小于第四阈值,以及利用第五相似度判断模型判断所述潜在竞品图像数据的第五相似值A5是否小于第五阈值;若所述第四相似值A4不小于所述第四阈值或者所述第五相似值A5不小于所述第五阈值,表明在初步判断时可能存在误判,则将所述相似度标识值I加1,以降低第一、第四、第五相似度判断模型的输出结果的权重,并利用第二相似度计算方法计算第二相似度S2;若所述第四相似值A4小于所述第四阈值或者所述第五相似值A5小于所述第五阈值,则利用所述第二相似度计算方法计算所述第二相似度S2。本实施例中通过两个不同精度(或不同算法训练出来的)对图像数据进行相似度判断的模型的加入,提高了判断准确度,可以避免因文本数据的比对结果较差而导致漏掉真实竞品数据的问题。
请参见图3,在本发明一些可能的实施方式中,所述获取商品描述数据,并从所述商品描述数据中提取第一搜索词的步骤,包括:
步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列;
步骤二:提取所述候选搜索词序列的特征数据,并对所述特征数据进行标注得到有标注样本集和无标注样本集;
步骤三:将所述标注样本集作为训练集合,利用神经网络训练搜索词分类模型;
步骤四:用训练好的所述搜索词分类模型对所述无标注样本集中的候选搜索词进行分类预测,并计算每个无标注样本的匹配度;
步骤五:选取所述匹配度超过预设匹配度值的对应的所述无标注样本加入所述训练集合,重新训练所述搜索词分类模型;
步骤六:重复步骤四至步骤五,直至所有所述每个无标注样本的匹配度中高于所述预设匹配度值的比例超过预设比例,得到最终的搜索词分类模型;
步骤七:所述商品描述数据的特征数据输入所述最终的搜索词分类模型处理,并从处理结果中提取所述第一搜索词。
可以理解的是,在本实施例中,在提取所述候选搜索词序列的特征数据后,对所述特征数据中的一部分进行标注得到有标注样本集,另一部分则为无标注样本集,利用有标签标注的样本集数据通过神经网络训练搜索词分类模型,然后再利用无标注的样本集数据来进一步训练搜索词分类模型,直至所有所述每个无标注样本的匹配度值集合中高于所述预设匹配度值的比例超过预设比例,从而达到提升搜索词分类模型性能的目的。
请参见图4,在本发明一些可能的实施方式中,所述步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列,包括:
从所述商品描述数据中提取文本数据;
对所述文本数据中的所有语句进行统计和编号;
将所述语句分割成多个词语,记录所述词语在所述语句中的位置信息;
分析并标注所述词语的词性;
从所述词语中删除预设词性的第一词语,得到修改后的词语集;
对所述修改后的词语集进行去重操作,得到候选词集合;
将所述候选词集合按商品名称、商品属性进行分类;
对分类后的所述候选词集合进行文本预处理后生成所述候选搜索词序列。
可以理解的是,为了提高文本识别与判断的准确性,在本实施例中,在从所述商品描述数据中提取文本数据,并对所述文本数据中的所有语句进行统计和编号后,将所述语句分割成多个词语,记录所述词语在所述语句中的位置信息;分析并标注所述词语的词性;从所述词语中删除预设词性(如形容词、副词、代词、助词等)的、对于关键字生成无意义的第一词语,得到修改后的词语集;对所述修改后的词语集进行去重操作,得到候选词集合;将所述候选词集合按商品名称、商品属性进行分类;对分类后的所述候选词集合进行文本预处理后生成所述候选搜索词序列。
在本发明一些可能的实施方式中,所述步骤二中所述提取所述候选搜索词序列的特征数据的操作,包括:
利用已训练好的词向量模型,生成第一词向量表;
根据所述第一词向量表,生成与所述候选搜索词序列对应的候选搜索词向量序列;
根据所述候选搜索词向量序列之间的距离,将所述候选搜索词向量序列划分成n个集群;
根据聚类算法生成所述n个集群的聚类中心向量;
根据距离公式对所述候选搜索词序列和所述聚类中心向量的关系进行量化,得到所述候选搜索词序列的语义特征;
从所述语义特征中提取语言特征、词频特征、长度特征和位置特征作为所述特征数据。
可以理解的是,在本实施例中,为了提高特征数据提取的效率和准确性,通过将所述候选搜索词序列的特征数据向量化进行向量运算,生成与所述候选搜索词序列对应的候选搜索词向量序列;根据所述候选搜索词向量序列之间的距离,将所述候选搜索词向量序列划分成n个集群;根据聚类算法生成所述n个集群的聚类中心向量再根据欧式距离公式对所述候选搜索词序列和所述聚类中心向量的关系进行量化,得到所述候选搜索词序列的语义特征;从所述语义特征中提取语言特征、词频特征、长度特征和位置特征作为所述特征数据。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,可轻易想到变化或替换,均可作各种更动与修改,包含上述不同功能、实施步骤的组合,包含软件和硬件的实施方式,均在本发明的保护范围。
Claims (10)
1.一种基于人工智能的关键词生成***,其特征在于,包括:提取模块、数据处理模块和生成模块;
所述提取模块被配置为:
获取商品描述数据,并从所述商品描述数据中提取第一搜索词;
根据所述第一搜索词获取商品的潜在竞品数据;
所述数据处理模块,被配置为:
利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据;
从所述竞品数据中提取竞品标题数据;
从所述竞品标题数据中提取核心商品词;
结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词;
所述生成模块被配置为:根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词。
2.根据权利要求1所述的基于人工智能的关键词生成***,其特征在于,在所述利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据的步骤中,所述数据处理模块具体被配置为:
输入所述潜在竞品数据,将相似度标识值I记为0;
利用第一相似度判断模型判断所述潜在竞品数据的第一相似值A1是否大于第一阈值;
若所述第一相似值A1大于所述第一阈值,则利用第二相似度判断模型判断所述潜在竞品数据的第二相似值A2是否小于第二阈值,以及利用第三相似度判断模型判断所述潜在竞品数据的第三相似值A3是否小于第三阈值;
若所述第二相似值A2小于所述第二阈值或者所述第三相似值A3小于所述第三阈值,则将所述相似度标识值I加1,并利用第一相似度计算方法计算第一相似度S1;
若所述第二相似值A2不小于所述第二阈值或者所述第三相似值A3不小于所述第三阈值,则利用所述第一相似度计算方法计算所述第一相似度S1;
所述第一相似度计算方法为:第一相似度S1=a1*第一相似值A1+a2*第二相似值A2+a3*第三相似值A3+b1*相似度标识值I,其中,a1、a2、a3、b1均为大于0的权重系数且a1+a2+a3+b1=1
若所述第一相似值A1不大于所述第一阈值,则利用图像处理算法对所述潜在竞品数据中的图像数据进行处理,得到潜在竞品图像数据;
利用第四相似度判断模型判断所述潜在竞品图像数据的第四相似值A4是否小于第四阈值,以及利用第五相似度判断模型判断所述潜在竞品图像数据的第五相似值A5是否小于第五阈值;
若所述第四相似值A4不小于所述第四阈值或者所述第五相似值A5不小于所述第五阈值,则将所述相似度标识值I加1,并利用第二相似度计算方法计算第二相似度S2;
若所述第四相似值A4小于所述第四阈值或者所述第五相似值A5小于所述第五阈值,则利用所述第二相似度计算方法计算所述第二相似度S2;
所述第二相似度计算方法为:第二相似度S2=a6*第一相似值A1+a4*第四相似值A4+a5*第五相似值A5+b2*相似度标识值I,其中,a4、a5、a6、b2均为大于0的权重系数且a4+a5+a6+b2=1;
判断所述第一相似度S1或所述第二相似度S2是否不小于所述预设阈值,若是,则将所述潜在竞品数据标记为相似,若否,则将所述潜在竞品数据标记为不相似;
将所述潜在竞品数据中所有被标记为相似的数据提取出来作为所述竞品数据。
3.根据权利要求2所述的基于人工智能的关键词生成***,其特征在于,在所述获取商品描述数据,并从所述商品描述数据中提取第一搜索词的步骤中,所述提取模块具体被配置为:
步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列;
步骤二:提取所述候选搜索词序列的特征数据,并对所述特征数据进行标注得到有标注样本集和无标注样本集;
步骤三:将所述标注样本集作为训练集合,利用神经网络训练搜索词分类模型;
步骤四:用训练好的所述搜索词分类模型对所述无标注样本集中的候选搜索词进行分类预测,并计算每个无标注样本的匹配度;
步骤五:选取所述匹配度超过预设匹配度值的对应的所述无标注样本加入所述训练集合,重新训练所述搜索词分类模型;
步骤六:重复步骤四至步骤五,直至所有所述每个无标注样本的匹配度中高于所述预设匹配度值的比例超过预设比例,得到最终的搜索词分类模型;
步骤七:所述商品描述数据的特征数据输入所述最终的搜索词分类模型处理,并从处理结果中提取所述第一搜索词。
4.根据权利要求3所述的基于人工智能的关键词生成***,其特征在于,所述步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列中,所述提取模块具体被配置为:
从所述商品描述数据中提取文本数据;
对所述文本数据中的所有语句进行统计和编号;
将所述语句分割成多个词语,记录所述词语在所述语句中的位置信息;
分析并标注所述词语的词性;
从所述词语中删除预设词性的第一词语,得到修改后的词语集;
对所述修改后的词语集进行去重操作,得到候选词集合;
将所述候选词集合按商品名称、商品属性进行分类;
对分类后的所述候选词集合进行文本预处理后生成所述候选搜索词序列。
5.根据权利要求1-4所述的基于人工智能的关键词生成***,其特征在于,所述步骤二中所述提取所述候选搜索词序列的特征数据的操作中,所述提取模块具体被配置为:
利用已训练好的词向量模型,生成第一词向量表;
根据所述第一词向量表,生成与所述候选搜索词序列对应的候选搜索词向量序列;
根据所述候选搜索词向量序列之间的距离,将所述候选搜索词向量序列划分成n个集群;
根据聚类算法生成所述n个集群的聚类中心向量;
根据距离公式对所述候选搜索词序列和所述聚类中心向量的关系进行量化,得到所述候选搜索词序列的语义特征;
从所述语义特征中提取语言特征、词频特征、长度特征和位置特征作为所述特征数据。
6.一种基于人工智能的关键词生成方法,其特征在于,所述基于人工智能的关键词生成方法包括:
获取商品描述数据,并从所述商品描述数据中提取第一搜索词;
根据所述第一搜索词获取商品的潜在竞品数据;
利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据;
从所述竞品数据中提取竞品标题数据;
从所述竞品标题数据中提取核心商品词;
结合预置的搜索词数据集,从所述核心商品词中选择出频率高于预设频率值的第一核心商品词;
根据所述第一核心商品词,结合关键词生成规则,生成对应所述商品的关键词。
7.根据权利要求6所述的基于人工智能的关键词生成方法,其特征在于,所述利用图像处理算法对所述潜在竞品数据进行处理,并过滤掉相似度低于预设阈值的竞品的数据后得到竞品数据的步骤,包括:
输入所述潜在竞品数据,将相似度标识值I记为0;
利用第一相似度判断模型判断所述潜在竞品数据的第一相似值A1是否大于第一阈值;
若所述第一相似值A1大于所述第一阈值,则利用第二相似度判断模型判断所述潜在竞品数据的第二相似值A2是否小于第二阈值,以及利用第三相似度判断模型判断所述潜在竞品数据的第三相似值A3是否小于第三阈值;
若所述第二相似值A2小于所述第二阈值或者所述第三相似值A3小于所述第三阈值,则将所述相似度标识值I加1,并利用第一相似度计算方法计算第一相似度S1;
若所述第二相似值A2不小于所述第二阈值或者所述第三相似值A3不小于所述第三阈值,则利用所述第一相似度计算方法计算所述第一相似度S1;
所述第一相似度计算方法为:第一相似度S1=a1*第一相似值A1+a2*第二相似值A2+a3*第三相似值A3+b1*相似度标识值I,其中,a1、a2、a3、b1均为大于0的权重系数且a1+a2+a3+b1=1
若所述第一相似值A1不大于所述第一阈值,则利用图像处理算法对所述潜在竞品数据中的图像数据进行处理,得到潜在竞品图像数据;
利用第四相似度判断模型判断所述潜在竞品图像数据的第四相似值A4是否小于第四阈值,以及利用第五相似度判断模型判断所述潜在竞品图像数据的第五相似值A5是否小于第五阈值;
若所述第四相似值A4不小于所述第四阈值或者所述第五相似值A5不小于所述第五阈值,则将所述相似度标识值I加1,并利用第二相似度计算方法计算第二相似度S2;
若所述第四相似值A4小于所述第四阈值或者所述第五相似值A5小于所述第五阈值,则利用所述第二相似度计算方法计算所述第二相似度S2;
所述第二相似度计算方法为:第二相似度S2=a6*第一相似值A1+a4*第四相似值A4+a5*第五相似值A5+b2*相似度标识值I,其中,a4、a5、a6、b2均为大于0的权重系数且a4+a5+a6+b2=1;
判断所述第一相似度S1或所述第二相似度S2是否不小于所述预设阈值,若是,则将所述潜在竞品数据标记为相似,若否,则将所述潜在竞品数据标记为不相似;
将所述潜在竞品数据中所有被标记为相似的数据提取出来作为所述竞品数据。
8.根据权利要求7所述的基于人工智能的关键词生成方法,其特征在于,所述获取商品描述数据,并从所述商品描述数据中提取第一搜索词的步骤,包括:
步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列;
步骤二:提取所述候选搜索词序列的特征数据,并对所述特征数据进行标注得到有标注样本集和无标注样本集;
步骤三:将所述标注样本集作为训练集合,利用神经网络训练搜索词分类模型;
步骤四:用训练好的所述搜索词分类模型对所述无标注样本集中的候选搜索词进行分类预测,并计算每个无标注样本的匹配度;
步骤五:选取所述匹配度超过预设匹配度值的对应的所述无标注样本加入所述训练集合,重新训练所述搜索词分类模型;
步骤六:重复步骤四至步骤五,直至所有所述每个无标注样本的匹配度中高于所述预设匹配度值的比例超过预设比例,得到最终的搜索词分类模型;
步骤七:所述商品描述数据的特征数据输入所述最终的搜索词分类模型处理,并从处理结果中提取所述第一搜索词。
9.根据权利要求8所述的基于人工智能的关键词生成方法,其特征在于,所述步骤一:对所述商品描述数据按商品名称、商品属性进行分类,并对分类后的所述商品描述数据进行文本预处理后生成候选搜索词序列,包括:
从所述商品描述数据中提取文本数据;
对所述文本数据中的所有语句进行统计和编号;
将所述语句分割成多个词语,记录所述词语在所述语句中的位置信息;
分析并标注所述词语的词性;
从所述词语中删除预设词性的第一词语,得到修改后的词语集;
对所述修改后的词语集进行去重操作,得到候选词集合;
将所述候选词集合按商品名称、商品属性进行分类;
对分类后的所述候选词集合进行文本预处理后生成所述候选搜索词序列。
10.根据权利要求6-9所述的基于人工智能的关键词生成方法,其特征在于,所述步骤二中所述提取所述候选搜索词序列的特征数据的操作,包括:
利用已训练好的词向量模型,生成第一词向量表;
根据所述第一词向量表,生成与所述候选搜索词序列对应的候选搜索词向量序列;
根据所述候选搜索词向量序列之间的距离,将所述候选搜索词向量序列划分成n个集群;
根据聚类算法生成所述n个集群的聚类中心向量;
根据距离公式对所述候选搜索词序列和所述聚类中心向量的关系进行量化,得到所述候选搜索词序列的语义特征;
从所述语义特征中提取语言特征、词频特征、长度特征和位置特征作为所述特征数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211294577.9A CN115470322B (zh) | 2022-10-21 | 2022-10-21 | 一种基于人工智能的关键词生成***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211294577.9A CN115470322B (zh) | 2022-10-21 | 2022-10-21 | 一种基于人工智能的关键词生成***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115470322A true CN115470322A (zh) | 2022-12-13 |
CN115470322B CN115470322B (zh) | 2023-05-05 |
Family
ID=84336356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211294577.9A Active CN115470322B (zh) | 2022-10-21 | 2022-10-21 | 一种基于人工智能的关键词生成***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470322B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160260033A1 (en) * | 2014-05-09 | 2016-09-08 | Peter Keyngnaert | Systems and Methods for Similarity and Context Measures for Trademark and Service Mark Analysis and Repository Searchess |
CN108984554A (zh) * | 2017-06-01 | 2018-12-11 | 北京京东尚科信息技术有限公司 | 用于确定关键词的方法和装置 |
CN111191022A (zh) * | 2019-12-27 | 2020-05-22 | 苏宁云计算有限公司 | 商品短标题生成方法及装置 |
CN113343684A (zh) * | 2021-06-22 | 2021-09-03 | 广州华多网络科技有限公司 | 核心产品词识别方法、装置、计算机设备及存储介质 |
CN113468414A (zh) * | 2021-06-07 | 2021-10-01 | 广州华多网络科技有限公司 | 商品搜索方法、装置、计算机设备及存储介质 |
CN113570413A (zh) * | 2021-07-28 | 2021-10-29 | 杭州王道控股有限公司 | 广告关键词的生成方法、装置、存储介质及电子设备 |
CN114579896A (zh) * | 2022-03-04 | 2022-06-03 | 拉扎斯网络科技(上海)有限公司 | 推荐标签的生成方法、展示方法、相应的装置和电子设备 |
CN114663164A (zh) * | 2022-04-12 | 2022-06-24 | 广州欢聚时代信息科技有限公司 | 电商站点推广配置方法及其装置、设备、介质、产品 |
WO2022134759A1 (zh) * | 2020-12-21 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 关键词生成方法、装置、电子设备及计算机存储介质 |
-
2022
- 2022-10-21 CN CN202211294577.9A patent/CN115470322B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160260033A1 (en) * | 2014-05-09 | 2016-09-08 | Peter Keyngnaert | Systems and Methods for Similarity and Context Measures for Trademark and Service Mark Analysis and Repository Searchess |
CN108984554A (zh) * | 2017-06-01 | 2018-12-11 | 北京京东尚科信息技术有限公司 | 用于确定关键词的方法和装置 |
CN111191022A (zh) * | 2019-12-27 | 2020-05-22 | 苏宁云计算有限公司 | 商品短标题生成方法及装置 |
WO2022134759A1 (zh) * | 2020-12-21 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 关键词生成方法、装置、电子设备及计算机存储介质 |
CN113468414A (zh) * | 2021-06-07 | 2021-10-01 | 广州华多网络科技有限公司 | 商品搜索方法、装置、计算机设备及存储介质 |
CN113343684A (zh) * | 2021-06-22 | 2021-09-03 | 广州华多网络科技有限公司 | 核心产品词识别方法、装置、计算机设备及存储介质 |
CN113570413A (zh) * | 2021-07-28 | 2021-10-29 | 杭州王道控股有限公司 | 广告关键词的生成方法、装置、存储介质及电子设备 |
CN114579896A (zh) * | 2022-03-04 | 2022-06-03 | 拉扎斯网络科技(上海)有限公司 | 推荐标签的生成方法、展示方法、相应的装置和电子设备 |
CN114663164A (zh) * | 2022-04-12 | 2022-06-24 | 广州欢聚时代信息科技有限公司 | 电商站点推广配置方法及其装置、设备、介质、产品 |
Non-Patent Citations (1)
Title |
---|
刘加新: "数据驱动的用户画像构建研究与***设计" * |
Also Published As
Publication number | Publication date |
---|---|
CN115470322B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102855268B (zh) | 基于属性关系进行图像排序的方法和*** | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及*** | |
CN107944911B (zh) | 一种基于文本分析的推荐***的推荐方法 | |
CN110633373A (zh) | 一种基于知识图谱和深度学习的汽车舆情分析方法 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及*** | |
CN107833082B (zh) | 一种商品图片的推荐方法和装置 | |
JP2004038606A (ja) | 文書の特有性評価方法 | |
CA3166094A1 (en) | Commodity short title generation method and apparatus | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Homoceanu et al. | Will I like it? Providing product overviews based on opinion excerpts | |
Gandhi et al. | Scalable detection of offensive and non-compliant content/logo in product images | |
CN113177102B (zh) | 文本分类方法、装置、计算设备和计算机可读介质 | |
CN113570413A (zh) | 广告关键词的生成方法、装置、存储介质及电子设备 | |
CN112527958A (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和*** | |
CN116579351B (zh) | 一种用户评价信息的分析方法及装置 | |
CN114943285B (zh) | 互联网新闻内容数据智能审核*** | |
CN108717637B (zh) | 一种电商安全相关实体的自动挖掘方法及*** | |
CN115033799B (zh) | 一种商品搜索方法、***及存储介质 | |
CN114048294B (zh) | 相似人群扩展模型训练方法、相似人群扩展方法和装置 | |
CN115470322B (zh) | 一种基于人工智能的关键词生成***及方法 | |
CN115017264A (zh) | 模型效果验证方法及装置 | |
Hoiriyah et al. | Lexicon-Based and Naive Bayes Sentiment Analysis for Recommending the Best Marketplace Selection as a Marketing Strategy for MSMEs | |
CN114155057A (zh) | 一种用于电子商务平台的商品推荐*** | |
CN113763084A (zh) | 产品推荐的处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |