CN110223095A - 确定商品属性的方法、装置、设备和存储介质 - Google Patents

确定商品属性的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110223095A
CN110223095A CN201810175616.0A CN201810175616A CN110223095A CN 110223095 A CN110223095 A CN 110223095A CN 201810175616 A CN201810175616 A CN 201810175616A CN 110223095 A CN110223095 A CN 110223095A
Authority
CN
China
Prior art keywords
item property
commodity title
vocabulary
vectorization
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810175616.0A
Other languages
English (en)
Inventor
徐扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810175616.0A priority Critical patent/CN110223095A/zh
Publication of CN110223095A publication Critical patent/CN110223095A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种确定商品属性的方法、装置、设备和存储介质,其特征在于,包括:获取商品标题;对所述商品标题进行分字分词;向量化所述分字分字后的商品标题得到向量化的商品标题;将所述向量化的商品标题输入商品属性模型中,输出所述商品标题对应的商品属性。采用本发明实施例后,确定商品属性的准确率较高。

Description

确定商品属性的方法、装置、设备和存储介质
技术领域
本发明涉及计算机领域,尤其涉及一种确定商品属性的方法、装置、设备和计算机可读存储介质。
背景技术
目前电商平台确定商品属性主要有以下两种方式。一种方式是商品发布时,商家自行填写商品属性。另一个方式是通过商品交易信息,物流信息和商品标题文本等信息间接确定商品属性。
绝大多数商品属性是商家自行填写的,然而也会存在商家误填的情况和商家故意错填的情况。尤其故意错填商品属性的商家,往往是恶意商家,会对消费者权益造成侵害。其次,通过商品交易信息、物流信息和商品标题文本等信息间接确定商品属性的准确率较低。
综上,现有技术中存在以下技术问题:确定商品属性的准确率较低。
发明内容
本发明实施例提供了一种确定商品属性的方法、装置、设备和存储介质,确定商品属性的准确率校高。
一种确定商品属性的方法,包括:
获取商品标题;
对所述商品标题进行分字分词;
向量化所述分字分字后的商品标题得到向量化的商品标题;
将所述向量化的商品标题输入商品属性模型中,输出所述商品标题对应的商品属性。
所述对所述商品标题进行分字分词,包括:
结合高频词汇对所述商品标题进行分字分词。
所述结合高频词汇对所述商品标题进行分字分词,包括:
结合高频词汇对所述商品标题进行分词,然后将所述商品标题中除高频词汇以外字符进行分字。
所述结合高频词汇对所述商品标题进行分字分词之前,还包括:
对训练样本中的商品标题进行分词得到分词结果;
统计分词结果,获得所述高频词汇。
所述获得所述高频词汇之后,还包括:
在所述高频词汇中添加专业词汇,以更新所述高频词汇。
所述向量化所述分字分字后的商品标题得到向量化的商品标题,包括:
利用字向量表和词向量表,向量化所述分字分字后的商品标题得到向量化的商品标题。
所述字向量表是利用高频词汇分割后的训练样本中的商品标题训练字向量后得到的向量表;
所述词向量表是利用高频词汇分割后的训练样本中的商品标题训练词向量后得到的向量表。
所述字向量表是利用Skip-Gram模型或CBOW模型训练字向量得到的向量表;
所述词向量表是利用Skip-Gram模型或CBOW模型训练词向量得到的向量表。
所述将所述向量化的商品标题输入预设的商品属性模型之前,还包括:
通过所述字向量表和所述词向量表,向量化训练样本的商品标题,得到向量化的所述训练样本的商品标题;
依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,训练商品属性模型得到所述商品属性模型。
所述依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,训练商品属性模型得到所述商品属性模型,包括:
依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,基于分类器训练商品属性模型得到所述商品属性模型。
所述分类器包括决策树、逻辑回归、贝叶斯、神经网络、随机森林或支持向量机。
一种确定商品属性的方法,包括:
接收用户输入的词汇字符和用户输入的非词汇字符;
依据所述用户输入的词汇字符、所述用户输入的词汇字符的顺序、所述用户输入的非词汇字符和所述用户输入的非词汇字符的顺序,构建商品标题;
发送所述商品标题以确定商品属性。
所述接收用户输入的词汇字符和用户输入的非词汇字符,包括:
接收用户调用输入法输入的词汇字符,以及调用输入法输入的非词汇字符。
所述用户输入的词汇字符的顺序包括:所述用户输入的词汇字符的输入顺序和/或所述用户输入的词汇字符的随机顺序;
所述用户输入的非词汇字符的顺序包括:所述用户输入的非词汇字符的输入顺序和/或所述用户输入的非词汇字符的随机顺序。
所述商品标题的数目大于等于1。
一种确定商品属性的方法,包括:
通过字向量表和词向量表,向量化训练样本的商品标题,得到向量化的所述训练样本的商品标题;
依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,训练商品属性模型得到训练后的商品属性模型;
将向量化的商品标题输入所述训练后的商品属性模型中,输出所述向量化的商品标题对应的商品属性。
所述字向量表是利用Skip-Gram模型或CBOW模型训练字向量得到的向量表;
所述词向量表是利用Skip-Gram模型或CBOW模型训练词向量得到的向量表。
所述依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,训练商品属性模型得到所述商品属性模型,包括:
依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,基于分类器训练商品属性模型得到所述商品属性模型。
所述分类器包括决策树、逻辑回归、贝叶斯、神经网络、随机森林或支持向量机。
一种确定商品属性的装置,所述装置包括:
获取模块,用于获取商品标题;
处理模块,用于对所述商品标题进行分字分词;
向量模块,用于向量化所述分字分字后的商品标题得到向量化的商品标题;
输出模块,用于将所述向量化的商品标题输入商品属性模型中,输出所述商品标题对应的商品属性。
一种确定商品属性的设备,存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行上述确定商品属性的方法。
一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现上述确定商品属性的方法。
一种确定商品属性的装置,所述装置包括:
接收模块,用于接收用户输入的词汇字符和用户输入的非词汇字符;
构建模块,用于依据所述用户输入的词汇字符、所述用户输入的词汇字符的顺序、所述用户输入的非词汇字符和所述用户输入的非词汇字符的顺序,构建商品标题;
发送模块,用于发送所述商品标题以确定商品属性。
一种确定商品属性的设备,
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行上述确定商品属性的方法。
一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如上述述确定商品属性的方法。
一种确定商品属性的装置,所述装置包括:
标题模块,用于通过字向量表和词向量表,向量化训练样本的商品标题,得到向量化的所述训练样本的商品标题;
训练模块,用于依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,训练商品属性模型得到训练后的商品属性模型;
属性模块,用于将向量化的商品标题输入所述训练后的商品属性模型中,输出所述向量化的商品标题对应的商品属性。
一种确定商品属性的设备,
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如上述确定商品属性的方法。
一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如上述确定商品属性的方法。
从上述技术方案中可以看出,获取商品标题后,对商品标题进行分字分词,将商品标题分为字和词。然后利用字向量表和词向量表进行向量化得到向量化的商品标题,以输入预先训练得到的商品属性模型,从而输出该商品标题对应的商品属性。由于基于商品属性模块输出商品属性,因此确定商品属性的准确率校高。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
图1是本发明实施例中确定商品属性的场景示意图;
图2是本发明实施例中确定商品属性的方法流程示意图;
图3是本发明另一个实施例中确定商品属性的方法流程示意图;
图4是本发明又一个实施例中确定商品属性的方法流程示意图;
图5是本发明实施例中确定商品属性的装置结构示意图;
图6是本发明另一个实施例中确定商品属性的装置结构示意图;
图7是本发明又一个实施例中确定商品属性的装置结构示意图;
图8是本发明实施例的确定商品属性的方法和装置的计算设备的示例性硬件架构的结构图;
图9是本发明另一个实施例的确定商品属性的方法和装置的计算设备的示例性硬件架构的结构图;
图10是本发明又一个实施例的确定商品属性的方法和装置的计算设备的示例性硬件架构的结构图。
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
在电商平台中商品属性可以通过多种方式确定,考虑到购买者经常借助输入关键词,搜索商品标题中是否存在该关键词以确定是否浏览该商品的网页,因此可以采用通过商品标题确定商品的属性。
商品属性一般是指商品本身具体特征。作为一个示例,商品可以分为实体商品和虚拟商品。卖家为了吸引购买者浏览商品的网页,商品标题中包括多个关键词。作为一个示例,“视频会员网络会员优惠价格”,这个商品标题对应的是虚拟商品;“多色牛皮外贸出口原单高跟女鞋”,这个商品标识对应的是实体商品。
一般来说,用户通过客户端输入商品标题。客户端可以位于PC,还位于移动设备,作为一个示例,移动设备可以是手机或平板电脑。
商品标题是由多个字符组成,多个字符可以构成词汇,将构成词汇的字符称为词汇字符;相应的,将没有构成词汇的字符称为非词汇字符。其中,非词汇字符还包括标点符号等。
用户通过调用输入法输入商品标题。用户可以每次输入一个字符;也可每次输入一个词汇字符;当然,还可以多次输入词汇字符和非词汇字符。
作为一个示例:商品标题为:多色牛皮外贸出口原单高跟女鞋。
若每次输入一个字符,即:多/色/牛/皮/外/贸/出/口/原/单/高/跟/女/鞋,共计输入14个字符。
若每次输入一个词汇字符,即:多色/牛皮/外贸/出口/原单/高跟/女鞋,共计输入7个词汇字符。
然后,还可以输入词汇字符和非词汇字符,即:多色/牛/皮/外贸/出口/原/单/高跟/女鞋。
对于同一个商品标题,词汇字符的顺序以及非词汇字符的顺序也就造成商品标题的不同。作为一个示例,第一商品标题为:多色牛皮外贸出口原单高跟女鞋;第二商品标题为:牛皮多色外贸出口原单高跟女鞋,由于在第二标题中“牛皮”在“多色”之前,第二标题更强调“牛皮”的重要性。
因此,在本发明实施例中,词汇字符的顺序可以是用户输入词汇字符的输入顺序,也可以是用户输入的词汇字符的随机顺序,或是输入顺序和随机顺序的组合。这样,在确定商品属性时,就可以充分考虑每个输入词汇字符的重要性。
同样的,在本发明实施例中,用户输入的非词汇字符的顺序可以是用户输入的非词汇字符的输入顺序,也可以是用户输入的非词汇字符的随机顺序,或是输入顺序和随机顺序的组合。在确定商品属性时,就可以充分考虑每个输入非词汇字符的重要性。
在构建商品标题的过程中,不仅可以依据用户输入的词汇字符和用户输入的非词汇字符,还需要考虑用户输入的词汇字符的顺序和用户输入的非词汇字符的顺序。这样,商品标题的数目不止一个,会有多个。作为一个示例,用户输入的商品标题为:多色牛皮外贸出口原单高跟女鞋。考虑到用户输入的词汇字符的顺序,以及用户输入的非词汇字符的顺序,词汇字符和非词汇字符依序排列组合后,相同的词汇字符和相同的非词汇字符对应多个商品标题。
也就是说,用户在客户端输入一个商品标题,客户端可以向服务器发送多个商品标题。其中,多个商品标识与用户输入的一个商品标题是相关的。
服务器端获取用户通过客户端输入的商品标题。服务器端可以针对商品标题利用自然语言处理技术判断商品属性。
将自然语言交给机器学习中的算法来处理,通常需要首先将自然语言数学化,词向量就是用来将语言中的词汇进行数学化的一种方式。
最简单的词向量方式是one-hot representation,就是用一个很长的向量来表示一个词汇,向量的长度为词典的大小,向量的分量只有一个1,其他全为0。1的位置对应该词汇在词典中的位置。但这种词汇表示有两个缺点:(1)容易受维数灾难的困扰,尤其是将其用于深度学习的一些算法时。(2)不能很好地刻画词与词之间的相似性。
自然语言处理技术还包括最近被广泛采用的嵌入(embedding)技术,embedding具体包括word2vec,doc2vec和characters2vec等。word2vec是用于获取词向量(wordvector)的工具包。doc2vec是用于获取文章向量(doc vector)的工具包。characters2vec是用于获取字向量(characters vector)的工具包。
仅利用word2vec判断商品属性,会生成一个相对较大的词库。作为一个示例,对商品数量为2000多万的训练集进行分词,会得到一个60多万的词表。若词向量长度设定较长的话,这个word2vec词向量表占用的存储空间较大,词向量长度就是用来将语言中的词进行数学化表示后的长度。在确定商品属性的过程中需要调用模型和词向量表,对于在线模型而言,在线模型限于计算能力和网络条件的限制,难以调用存储量较大的词向量表。
中文字符相比英文字符有很大的优势,中文字符包含了更多信息在字符中,如果直接使用字向量取代之前的词向量,即采用字向量表确定商品属性,由于字向量表的存储量远小于词向量表的存储量,将大大减少编码表的规模,但确定商品属性的准确率较低。
那么可以将利用word2vec和characters2vec判断商品属性,即从词向量和字向量两个方面判断商品属性,从而提高确定商品属性的准确率。
同时,可以在训练样本时统计高频词汇,基于高频词汇训练词向量和字向量。具体而言,从电商平台的商品中挑选训练样本,训练样本中至少包括训练样本的商品标题和训练样本的商品属性。对训练样本中的所有商品标题进行分词,并对分词结果进行数据处理,数据处理可以包括去除停用词。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。
然后,基于分词结果获得针对训练样本的高频词汇,可以基于高频词汇训练词向量、字向量和商品属性模型。由于高频词汇的数量远小于分词结果中词汇的数量,因此基于高频词训练得到的词向量的存储量必然小于一般的词向量基于分词结果中词汇训练得到的词向量。那么,在利用高频词汇训练得到的词向量表确定商品属性,则可以同样保证准确率。
需要说明的是,高频词汇可以是分词结果后按照词汇出现的频率统计得到的大于预设阈值的词汇。也就是说,高频词汇出现的频率比一般词汇出现的频率较高。
此外,在实际应用中考虑到按照词汇出现的频率统计得到的高频词汇并不完全能够符合需求,作为一个示例,训练样本难以实时更新,网络中出现网络用语或代表特定含义的网络专有词。那么为了提高确定商品属性,则可以在按照词汇出现的频率统计得到的高频词汇的基础上,添加专业词汇作为更新后的高频词汇。这样,更新后的高频词汇能够充分体现实际应用中使用频率较高的词汇。其中,专业词汇可以包括专业技术领域的专有词汇、网络词汇、专家整理的词汇和自造词中的至少一种。专家整理的词汇是指行业专家从专业的角度整理得到的相关领域的词语。自造词是指依据实际的需求,由使用者自己创造的词汇。
首次分词的目的在于去除干扰数据,二次分词是可以依据高频词汇对商品标题重新分割。
可以先查看商品标题中是否存在高频词汇,如果存在高频词汇,则将高频词汇分别分割成单独的词,商品标题剩下的部分按照字符直接分割。
由于高频词汇数目较少,结合高频词汇对商品标题进行分词,显然可以保证分词的正确性,然后将商品标题中除高频词汇以外的字符进行分字。
作为一个示例,商品标题为“魔兽世界金币五区布兰卡德联盟代练10000金”,在商品标题中包括关键词:“魔兽世界;金币;联盟”,则该商品标题的分割结果应当为:魔兽世界/金币/五/区/布/兰/卡/德/联盟/1/0/0/0/0/0/金/=/2/3/./0/元,即由20个非词汇字符和3个词汇字符形成的组合。
可以基于高频词汇对商品标题重新分割获得分割结果,训练字向量以获得字向量表,基于上述分割结果,训练词向量以获得词向量表。基于高频词汇训练得到的词向量表的数据量小于正常的词向量表。训练词向量和字向量均采用的embedding技术。作为一个示例,可以是根据CBOW模型或Skip-Gram模型,基于分割结果分别获得字向量表和词向量表。
下面就CBOW模型以及Skip-Gram模型训练词向量进行说明。CBOW模型以及Skip-Gram模型训练字向量与训练词向量类似。
CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量。
作为一个示例,上下文大小取值为4,特定词也就是需要的输出词向量。上下文对应的词有8个,前后各4个,这8个词是模型的输入。由于CBOW使用的是词袋模型,因此这8个词都是平等的,也就是不考虑词之间的距离大小,只要在特定词的上下文之内即可。
Skip-Gram模型与CBOW模型的思路是相反的,即输入是特定词的词向量,而输出是特定词对应的上下文词向量。
作为一个示例,上下文大小取值为4,特定词是输入,而这8个上下文词是输出。
即,通过训练将一个词汇映射成一个固定长度的向量,将所有这些向量放在一起形成一个词向量表,而每一向量则为词向量表对应空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的相似性或相关性。词向量空间即词向量表。
也即,通过训练将一个字映射成一个固定长度的向量,将所有这些向量放在一起形成一个字向量表,而每一向量则为字向量表对应空间中的一个点,在这个空间上引入“距离”,则可以根据字之间的距离来判断它们之间的相似性或相关性。
通过字向量表和词向量表,将训练样本的商品标题向量化,得到向量化的训练样本的商品标题。也就是说,依据训练样本中,可以得到商品标题与向量化后商品标题的对应关系。由于训练样本商品标题对应的商品属性是已知的。因此,可以由向量化后商品标题和商品属性训练商品属性模型。
在现有分类器的基础上训练商品属性识别模型,将向量化的商品标题输入商品属性识别模型,商品属性识别模型的输出是商品属性。其中,经过大量的测试可知,分类器可以是决策树、逻辑回归、贝叶斯、神经网络、随机森林(Random Forests,RF)或支持向量机。
因此,在训练得到字向量表和词向量表后,在基于训练样本、字向量表和词向量表训练得到商品属性识别模型。
然后就可以基于训练得到的字向量表、词向量表和商品属性识别模型确定商品属性。
每次获得新的商品标题的时候,可以将商品标题输入到商品属性识别模型,即可获得该商品标题对应的商品属性。
具体来说,参见图1,图1是本发明实施例中确定商品属性的场景示意图。卖家通过客户端输入新商品的商品标题,然后将新商品通过服务器上线至电商平台时,获取其商品标题,并对商品标题进行分字分词,可以得到分字分词后的商品标题。
向量化分字分字后的商品标题得到向量化的商品标题。这样可以将由字符组成的商品标题,转为为数学符号的形式。
这样,商品属性模型可以识别向量化的商品标题,并基于输入的向量化的商品标题,输出商品标题对应的商品属性。
基于上述的过程,本发明实施例提供的确定商品属性的方法可以归纳为图2所示的步骤。图2是本发明实施例中确定商品属性的方法的流程示意图,可以包括:
S201、获取商品标题。
卖家将新商品通过服务器上线至电商平台时,服务器可以通过多种方式获取商品标题。若卖家通过客户端直接输入商品标题的文字信息,则可以直接获取商品标题。若卖家以其他的形式,如以图片的形式输入商品标题,则可以向进行图片识别,然后基于模板匹配或几何特征抽取获取商品标题。
S202、对商品标题进行分字分词。
分字分词是指分字和分词两个过程。对于商品标题而言,可以先对商品标题进行分字得到分字结果,然后再对分字结果进行分词,得到商品标题的分字分词结果。还可以先对商品标题进行分词得到分词结果,然后再对分词结果进行分字,得到商品标题的分字分词结果。
S203、向量化分字分字后的商品标题得到向量化的商品标题。
将包括字符的商品标题向量化为包括数学符号的商品标题,以便商品属性模型可以识别。
S204、将向量化的商品标题输入商品属性模型中,输出商品标题对应的商品属性。
商品属性模型接收到向量化的商品标题后,可以直接输入商品标题对应的属性。其中,商品属性模型可以是预先设置的模型,也可以是预先训练得到的模型。
在本发明实施例中,对商品标题进行分词和分字,可以减少数据处理量和存储量。利用商品属性模型,可以提高确定商品标题的商品属性的准确率。
在本发明的一个实施例中,可以结合高频词汇对商品标题进行分字分词。
高频词汇是商品标题中出现概率较大的词汇,结合高频词汇进行分字词可以有效减少词向量的数据存储量。
作为一个示例,可以结合高频词汇对商品标题进行分词,然后将商品标题中除高频词汇以外字符进行分字。即将高频词汇、词向量和字向量有效结合起来,一方面确保词向量的数据存储量在一定范围内,另一个确保分词的正确性。
在本发明的一个实施例中,可以对训练样本中的商品标题进行分词得到分词结果。统计分词结果,按照词汇出现的频率得到的大于预设阈值的词汇,将大于预设阈值的词汇作为高频词汇。
此外,考虑到按照词汇出现的频率统计得到的高频词汇并不完全能够符合需求,则可以在按照词汇出现的频率统计得到的高频词汇的基础上,添加专业词汇作为更新后的高频词汇。这样,更新后的高频词汇能够充分体现实际应用中使用频率较高的词汇。
在本发明的一个实施例中,可以利用字向量表和词向量表,向量化分字分字后的商品标题得到向量化的商品标题。
其中,字向量表是利用高频词汇分割后的训练样本中的商品标题训练字向量后得到的向量表。
词向量表是利用高频词汇分割后的训练样本中的商品标题训练词向量后得到的向量表。
作为一个示例,字向量表是利用Skip-Gram模型或CBOW模型训练字向量得到的向量表。词向量表是利用Skip-Gram模型或CBOW模型训练词向量得到的向量表。
参见图3,图3是本发明另一个实施例中确定商品属性的方法的流程示意图,通过图3中的技术方案可以训练得到商品属性模型。具体可以包括以下步骤:
S301、通过字向量表和词向量表,向量化训练样本的商品标题,得到向量化的训练样本的商品标题。
字向量表是预先设置的,词向量表也可以是预先设置的。作为一个示例,字向量表是利用Skip-Gram模型或CBOW模型训练字向量得到的向量表。词向量表是利用Skip-Gram模型或CBOW模型训练词向量得到的向量表。
通过字向量表和词向量表,可以向量化训练样本的商品标题,得到向量化的训练样本的商品标题。训练样本可以是根据随机获取的商品标题得到的。
S302、依据向量化的训练样本的商品标题和训练样本的商品属性,训练商品属性模型得到训练后的商品属性模型。
分类器是数据挖掘中对样本进行分类的方法的统称。在本发明实施例中,依据向量化的训练样本的商品标题和训练样本的商品属性,可以基于分类器训练商品属性模型得到训练后的商品属性模型。
分类器可以包括决策树、逻辑回归、贝叶斯、神经网络、随机森林或支持向量机。
S303、将向量化的商品标题输入训练后的商品属性模型中,输出向量化的商品标题对应的商品属性。
可以将向量化的商品标题输入训练后的商品属性模型中,从而直接输出向量化的商品标题对应的商品属性。
参见图4,图4是本发明又一个实施例中确定商品属性的方法的流程示意图,图4中的技术方案应用于用户端,具体包括:
S401、接收用户输入的词汇字符和用户输入的非词汇字符。
用户通过客户端输入商品标题。客户端可以位于PC,还位于移动设备,作为一个示例,移动设备可以是手机或平板电脑。
商品标题是由多个字符组成,多个字符可以构成词汇,将构成词汇的字符称为词汇字符;相应的,将没有构成词汇的字符称为非词汇字符。其中,非词汇字符还包括标点符号等。
作为一个示例,接收用户调用输入法输入的词汇字符,以及调用输入法输入的非词汇字符。
S402、依据用户输入的词汇字符、用户输入的词汇字符的顺序、用户输入的非词汇字符和用户输入的非词汇字符的顺序,构建商品标题。
商品标题的数目大于等于1。其中,用户输入的词汇字符的顺序包括:用户输入的词汇字符的输入顺序和/或用户输入的词汇字符的随机顺序。用户输入的非词汇字符的顺序包括:用户输入的非词汇字符的输入顺序和/或用户输入的非词汇字符的随机顺序。
S403、发送商品标题以确定商品属性。
客户端向服务器发送商品标题,从而确定商品标题对应的商品属性。
与上述的方法实施例相对应,本发明实施例还提供一种确定商品属性的装置,如图5所示。图5示出了本发明实施例中确定商品属性的装置结构示意图。可以包括:获取模块501、处理模块502、向量模块503和输出模块504。
获取模块501,用于获取商品标题。
处理模块502,用于对商品标题进行分字分词。
向量模块503,用于向量化分字分字后的商品标题得到向量化的商品标题。
输出模块504,用于将向量化的商品标题输入商品属性模块中,输出商品标题对应的商品属性。
在本发明实施例中,对商品标题进行分词和分字,减少数据处理量和存储量。利用商品属性模型,可以提高确定商品标题的商品属性的准确率。
与上述的方法实施例相对应,本发明实施例还提供一种确定商品属性的装置,如图6所示。图6示出了本发明另一个实施例中确定商品属性的装置结构示意图。可以包括:接收模块601、构建模块602和发送模块603。
接收模块601,用于接收用户输入的词汇字符和用户输入的非词汇字符。
构建模块602,用于依据用户输入的词汇字符、用户输入的词汇字符的顺序、用户输入的非词汇字符和用户输入的非词汇字符的顺序,构建商品标题。
发送模块603,用于发送商品标题以确定商品属性。
在本发明实施例中,依据用户输入的词汇字符、用户输入的词汇字符的顺序、用户输入的非词汇字符和用户输入的非词汇字符的顺序,构建商品标题,发送商品标题以确定商品属性,从而提高确定商品标题的商品属性的准确率。
与上述的方法实施例相对应,本发明实施例还提供一种确定商品属性的装置,如图7所示。图7示出了本发明又一个实施例中确定商品属性的装置结构示意图。可以包括:标题模块701、训练模块702和属性模块703。
标题模块701,用于通过字向量表和词向量表,向量化训练样本的商品标题,得到向量化的训练样本的商品标题。
训练模块702,用于依据向量化的训练样本的商品标题和训练样本的商品属性,训练商品属性模型得到训练后的商品属性模型;
属性模块703,用于将向量化的商品标题输入训练后的商品属性模型中,输出向量化的商品标题对应的商品属性。
图8是示出能够实现根据本发明实施例的确定商品属性的方法和装置的计算设备的示例性硬件架构的结构图。
如图8所示,计算设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备806。其中,输入接口802、中央处理器803、存储器804、以及输出接口805通过总线810相互连接,输入设备801和输出设备806分别通过输入接口802和输出接口805与总线810连接,进而与计算设备800的其他组件连接。
具体地,输入设备801接收来自外部的输入信息,并通过输入接口802将输入信息传送到中央处理器803;中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器804中,然后通过输出接口805将输出信息传送到输出设备806;输出设备806将输出信息输出到计算设备800的外部供用户使用。
也就是说,图8所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图2和图5描述的确定商品属性的方法和装置。
图9是示出能够实现根据本发明实施例的确定商品属性的方法和装置的计算设备的示例性硬件架构的结构图。
如图9所示,计算设备900包括输入设备901、输入接口902、中央处理器903、存储器904、输出接口905、以及输出设备906。其中,输入接口902、中央处理器903、存储器904、以及输出接口905通过总线910相互连接,输入设备901和输出设备906分别通过输入接口902和输出接口905与总线910连接,进而与计算设备900的其他组件连接。
具体地,输入设备901接收来自外部的输入信息,并通过输入接口902将输入信息传送到中央处理器903;中央处理器903基于存储器904中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器904中,然后通过输出接口905将输出信息传送到输出设备906;输出设备906将输出信息输出到计算设备900的外部供用户使用。
也就是说,图9所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图3和图6描述的确定商品属性的方法和装置。
图10是示出能够实现根据本发明实施例的确定商品属性的方法和装置的计算设备的示例性硬件架构的结构图。
如图10所示,计算设备1000包括输入设备1001、输入接口1002、中央处理器1003、存储器1004、输出接口1005、以及输出设备1006。其中,输入接口1002、中央处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接,输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接,进而与计算设备1000的其他组件连接。
具体地,输入设备1001接收来自外部的输入信息,并通过输入接口1002将输入信息传送到中央处理器1003;中央处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1004中,然后通过输出接口1005将输出信息传送到输出设备1006;输出设备1006将输出信息输出到计算设备1000的外部供用户使用。
也就是说,图10所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图4和图7描述的确定商品属性的方法和装置。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (28)

1.一种确定商品属性的方法,其特征在于,包括:
获取商品标题;
对所述商品标题进行分字分词;
向量化所述分字分字后的商品标题得到向量化的商品标题;
将所述向量化的商品标题输入商品属性模型中,输出所述商品标题对应的商品属性。
2.根据权利要求1所述确定商品属性的方法,其特征在于,所述对所述商品标题进行分字分词,包括:
结合高频词汇对所述商品标题进行分字分词。
3.根据权利要求2所述确定商品属性的方法,其特征在于,所述结合高频词汇对所述商品标题进行分字分词,包括:
结合高频词汇对所述商品标题进行分词,然后将所述商品标题中除高频词汇以外字符进行分字。
4.根据权利要求2所述确定商品属性的方法,其特征在于,所述结合高频词汇对所述商品标题进行分字分词之前,还包括:
对训练样本中的商品标题进行分词得到分词结果;
统计分词结果,获得所述高频词汇。
5.根据权利要求4所述确定商品属性的方法,其特征在于,所述获得所述高频词汇之后,还包括:
在所述高频词汇中添加专业词汇,以更新所述高频词汇。
6.根据权利要求1所述确定商品属性的方法,其特征在于,所述向量化所述分字分字后的商品标题得到向量化的商品标题,包括:
利用字向量表和词向量表,向量化所述分字分字后的商品标题得到向量化的商品标题。
7.根据权利要求6所述确定商品属性的方法,其特征在于,所述字向量表是利用高频词汇分割后的训练样本中的商品标题训练字向量后得到的向量表;
所述词向量表是利用高频词汇分割后的训练样本中的商品标题训练词向量后得到的向量表。
8.根据权利要求6所述确定商品属性的方法,其特征在于,所述字向量表是利用Skip-Gram模型或CBOW模型训练字向量得到的向量表;
所述词向量表是利用Skip-Gram模型或CBOW模型训练词向量得到的向量表。
9.根据权利要求6所述确定商品属性的方法,其特征在于,所述将所述向量化的商品标题输入预设的商品属性模型之前,还包括:
通过所述字向量表和所述词向量表,向量化训练样本的商品标题,得到向量化的所述训练样本的商品标题;
依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,训练商品属性模型得到所述商品属性模型。
10.根据权利要求9所述确定商品属性的方法,其特征在于,所述依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,训练商品属性模型得到所述商品属性模型,包括:
依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,基于分类器训练商品属性模型得到所述商品属性模型。
11.根据权利要求10所述确定商品属性的方法,其特征在于,所述分类器包括决策树、逻辑回归、贝叶斯、神经网络、随机森林或支持向量机。
12.一种确定商品属性的方法,其特征在于,包括:
接收用户输入的词汇字符和用户输入的非词汇字符;
依据所述用户输入的词汇字符、所述用户输入的词汇字符的顺序、所述用户输入的非词汇字符和所述用户输入的非词汇字符的顺序,构建商品标题;
发送所述商品标题以确定商品属性。
13.根据权利要求12所述确定商品属性的方法,其特征在于,所述接收用户输入的词汇字符和用户输入的非词汇字符,包括:
接收用户调用输入法输入的词汇字符,以及调用输入法输入的非词汇字符。
14.根据权利要求12所述确定商品属性的方法,其特征在于,所述用户输入的词汇字符的顺序包括:所述用户输入的词汇字符的输入顺序和/或所述用户输入的词汇字符的随机顺序;
所述用户输入的非词汇字符的顺序包括:所述用户输入的非词汇字符的输入顺序和/或所述用户输入的非词汇字符的随机顺序。
15.根据权利要求12所述确定商品属性的方法,其特征在于,所述商品标题的数目大于等于1。
16.一种确定商品属性的方法,其特征在于,包括:
通过字向量表和词向量表,向量化训练样本的商品标题,得到向量化的所述训练样本的商品标题;
依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,训练商品属性模型得到训练后的商品属性模型;
将向量化的商品标题输入所述训练后的商品属性模型中,输出所述向量化的商品标题对应的商品属性。
17.根据权利要求16所述确定商品属性的方法,其特征在于,所述字向量表是利用Skip-Gram模型或CBOW模型训练字向量得到的向量表;
所述词向量表是利用Skip-Gram模型或CBOW模型训练词向量得到的向量表。
18.根据权利要求16所述确定商品属性的方法,其特征在于,所述依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,训练商品属性模型得到所述商品属性模型,包括:
依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,基于分类器训练商品属性模型得到所述商品属性模型。
19.根据权利要求18所述确定商品属性的方法,其特征在于,所述分类器包括决策树、逻辑回归、贝叶斯、神经网络、随机森林或支持向量机。
20.一种确定商品属性的装置,其特征在于,所述装置包括:
获取模块,用于获取商品标题;
处理模块,用于对所述商品标题进行分字分词;
向量模块,用于向量化所述分字分字后的商品标题得到向量化的商品标题;
输出模块,用于将所述向量化的商品标题输入商品属性模型中,输出所述商品标题对应的商品属性。
21.一种确定商品属性的设备,其特征在于,
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求1-11任一权利要求所述确定商品属性的方法。
22.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如权利要求1-11任一所述确定商品属性的方法。
23.一种确定商品属性的装置,其特征在于,所述装置包括:
接收模块,用于接收用户输入的词汇字符和用户输入的非词汇字符;
构建模块,用于依据所述用户输入的词汇字符、所述用户输入的词汇字符的顺序、所述用户输入的非词汇字符和所述用户输入的非词汇字符的顺序,构建商品标题;
发送模块,用于发送所述商品标题以确定商品属性。
24.一种确定商品属性的设备,其特征在于,
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求12-15任一权利要求所述确定商品属性的方法。
25.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如权利要求12-15任一所述确定商品属性的方法。
26.一种确定商品属性的装置,其特征在于,所述装置包括:
标题模块,用于通过字向量表和词向量表,向量化训练样本的商品标题,得到向量化的所述训练样本的商品标题;
训练模块,用于依据所述向量化的所述训练样本的商品标题和所述训练样本的商品属性,训练商品属性模型得到训练后的商品属性模型;
属性模块,用于将向量化的商品标题输入所述训练后的商品属性模型中,输出所述向量化的商品标题对应的商品属性。
27.一种确定商品属性的设备,其特征在于,
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求16-19任一权利要求所述确定商品属性的方法。
28.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如权利要求16-19任一所述确定商品属性的方法。
CN201810175616.0A 2018-03-02 2018-03-02 确定商品属性的方法、装置、设备和存储介质 Pending CN110223095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810175616.0A CN110223095A (zh) 2018-03-02 2018-03-02 确定商品属性的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810175616.0A CN110223095A (zh) 2018-03-02 2018-03-02 确定商品属性的方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN110223095A true CN110223095A (zh) 2019-09-10

Family

ID=67821962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810175616.0A Pending CN110223095A (zh) 2018-03-02 2018-03-02 确定商品属性的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110223095A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256379A (zh) * 2021-05-24 2021-08-13 北京小米移动软件有限公司 一种为商品关联购物需求的方法
CN113570427A (zh) * 2021-07-22 2021-10-29 上海普洛斯普新数字科技有限公司 一种提取识别线上或***商品特征信息的***
CN113592512A (zh) * 2021-07-22 2021-11-02 上海普洛斯普新数字科技有限公司 一种线上商品身份唯一性识别确认***
CN114153979A (zh) * 2022-02-09 2022-03-08 北京泰迪熊移动科技有限公司 一种商品关键词的识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN107203548A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 属性获取方法和装置
US20170357896A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN107203548A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 属性获取方法和装置
US20170357896A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256379A (zh) * 2021-05-24 2021-08-13 北京小米移动软件有限公司 一种为商品关联购物需求的方法
CN113570427A (zh) * 2021-07-22 2021-10-29 上海普洛斯普新数字科技有限公司 一种提取识别线上或***商品特征信息的***
CN113592512A (zh) * 2021-07-22 2021-11-02 上海普洛斯普新数字科技有限公司 一种线上商品身份唯一性识别确认***
CN114153979A (zh) * 2022-02-09 2022-03-08 北京泰迪熊移动科技有限公司 一种商品关键词的识别方法、装置、电子设备及存储介质
CN114153979B (zh) * 2022-02-09 2022-05-13 北京泰迪熊移动科技有限公司 一种商品关键词的识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107330752B (zh) 识别品牌词的方法和装置
CN110223095A (zh) 确定商品属性的方法、装置、设备和存储介质
US20180053234A1 (en) Description information generation and presentation systems, methods, and devices
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN108256537A (zh) 一种用户性别预测方法和***
CN110503459A (zh) 基于大数据的用户信用度评估方法、装置及存储介质
CN112330455A (zh) 用于推送信息的方法、装置、设备以及存储介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN112733042A (zh) 推荐信息的生成方法、相关装置及计算机程序产品
CN107832338A (zh) 一种识别核心产品词的方法和***
CN110276065A (zh) 一种处理物品评论的方法和装置
CN110633398A (zh) 中心词的确认方法、搜索方法、装置和存储介质
CN114387061A (zh) 产品推送方法、装置、电子设备及可读存储介质
CN114240552A (zh) 基于深度聚类算法的产品推荐方法、装置、设备及介质
CN110110035A (zh) 数据处理方法和装置以及计算机可读存储介质
CN113761114A (zh) 短语生成方法、装置和计算机可读存储介质
CN109359198A (zh) 一种文本分类方法及装置
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN110363206A (zh) 数据对象的聚类、数据处理及数据识别方法
CN109993619A (zh) 数据处理方法
CN111428486B (zh) 物品信息数据处理方法、装置、介质及电子设备
CN104102662A (zh) 一种用户兴趣偏好相似度确定方法及装置
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN111988668B (zh) 一种视频推荐方法、装置、计算机设备及存储介质
CN111797622B (zh) 用于生成属性信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910