CN111723566A - 产品信息的重构方法和装置 - Google Patents
产品信息的重构方法和装置 Download PDFInfo
- Publication number
- CN111723566A CN111723566A CN201910219171.6A CN201910219171A CN111723566A CN 111723566 A CN111723566 A CN 111723566A CN 201910219171 A CN201910219171 A CN 201910219171A CN 111723566 A CN111723566 A CN 111723566A
- Authority
- CN
- China
- Prior art keywords
- key information
- product
- information
- words
- original content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 239000003607 modifier Substances 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 30
- 238000012163 sequencing technique Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 description 26
- 230000011218 segmentation Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 241000272525 Anas platyrhynchos Species 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- WCWKKSOQLQEJTE-UHFFFAOYSA-N praseodymium(3+) Chemical compound [Pr+3] WCWKKSOQLQEJTE-UHFFFAOYSA-N 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种产品信息的重构方法和装置。其中,该方法包括:获取产品信息在预设平台中的原始内容;从原始内容中识别出关键信息,其中,关键信息包括用于表征描述产品特征的至少一条词语;至少通过调整关键信息在原始内容中的顺序,得到重构后的产品信息。本发明解决了现有技术的购物网站中,产品的标题混乱,导致用户搜索产品时搜索效率低的技术问题。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种产品信息的重构方法和装置。
背景技术
在电商网站上,卖家们为了获取商品的曝光率和销量率,会在编辑商品标题时将产品词反复堆砌,加上与商品信息无关的营销词、或者将近似的产品描述词反复堆砌等,久而久之形成了特殊的“电商体”,例如图1中所示的例子,虚线框出的部分即为“电商体”的商品标题。
这种“电商体”的商品标题格式无规律,产品、属性信息、邮费信息冗余堆砌;对于显示空间有限的手机APP端用户来说,list页面标题最多显示60个字符,商品关键信息得不到曝光。这些现象会导致标题所呈现的有用信息量少、产品区分度低,从而导致用户搜索商品效率低;尤其是对于英文标题来说,平均句长更长,使得有限长度下所能展示的信息更少。例如图1所示的商品标题,在该标题中,“Freeshipping!!”等信息曝光在标题的前端,导致商品的关键信息“built-in…”无法完全显示。
针对现有技术的购物网站中,产品的标题混乱,导致用户搜索产品时搜索效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种产品信息的重构方法和装置,以至少解决现有技术的购物网站中,产品的标题混乱,导致用户搜索产品时搜索效率低的技术问题。
根据本发明实施例的一个方面,提供了一种产品信息的重构方法,包括:获取产品信息在预设平台中的原始内容;从所述原始内容中识别出关键信息,其中,所述关键信息包括用于表征描述产品特征的至少一条词语;至少通过调整所述关键信息在所述原始内容中的顺序,得到重构后的产品信息。
根据本发明实施例的另一方面,还提供了一种产品信息的重构方法,包括:显示用于描述产品的产品信息的原始内容;显示所述原始内容中标识出的关键信息,其中,所述关键信息包括用于表征描述产品特征的至少一条词句;显示重构后的产品信息,其中,所述重构后的产品信息为所述关键信息在所述原始内容中的显示顺序发生了调整。
根据本发明实施例的另一方面,还提供了一种产品信息的重构装置,包括:获取模块,用于获取产品信息在预设平台中的原始内容;识别模块,用于从所述原始内容中识别出关键信息,其中,所述关键信息包括用于表征描述产品特征的至少一条词语;调整模块,用于至少通过调整所述关键信息在所述原始内容中的顺序,得到重构后的产品信息。
在本发明实施例中,通过提取原始标题的关键信息,并调整关键信息在原始内容中的位置,从而提升标题展示的信息价值和可理解性,进而提升用户的搜索效率,给网站带来更高的收益。且相比于seq2seq方法有很大优势,新生成的标题是基于原始标题中的短语来重构,不会存在失真的问题。由此,本申请上述实施例解决了现有技术的购物网站中,产品的标题混乱,导致用户搜索产品时搜索效率低的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据现有技术的一种产品标题的示意图;
图2示出了一种用于实现产品信息的重构方法的计算机终端(或移动设备)的硬件结构框图;
图3是根据本发明实施例1的一种产品信息的重构方法的流程图;
图4是根据本申请实施例1的一种产品主题重构的示意图;
图5是根据本申请实施例1的一种产品标题重构示例的示意图;
图6是根据本申请实施例2的一种产品信息的重构装置的示意图;
图7是根据本申请实施例3的一种产品信息的重构方法的流程图;
图8是根据本申请实施例4的一种产品信息的重构装置的示意图;以及
图9是根据本发明实施例6的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
产品词:卖家所卖的商品的名称。
营销词:与商品的具体信息无关的词,例如“HOT SALE!”、“NEW ORIGINAL”、“热卖”、“爆款”等。
NER:Named Entity Recognition,命名实体识别技术,可以用于从一句话中识别出人名、地名,或从电商的搜索词中识别出商品名称,药物名称等。
Chunking:一种NLP(Neuro-Linguistic Programming,神经语言程序学)基础技术,用于将文本按照语义进行切割。
适用对象词:是指商品所适合的对象,例如phone case for Iphone6中的foriphone6,dress for 2-4year baby girl中的for 2-4year girl均为适用对象词。
CRF:Conditional Random Field,即条件随机场,一种基于特征模版的序列标注模型,常用于中文分词、词性标注、实体识别等任务。
Bi-LSTM-CRF:一种基于神经网络的序列标注模型,主要包含三层:lookup层、双向lstm层、crf层。
实施例1
根据本发明实施例,还提供了一种产品信息的重构方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图2示出了一种用于实现产品信息的重构方法的计算机终端(或移动设备)的硬件结构框图。如图2所示,计算机终端20(或移动设备20)可以包括一个或多个(图中采用202a、202b,……,202n来示出)处理器202(处理器202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器204、以及用于通信功能的传输模块206。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图2所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端20还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。
应当注意到的是上述一个或多个处理器202和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端20(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器204可用于存储应用软件的软件程序以及模块,如本发明实施例中的产品信息的重构方法对应的程序指令/数据存储装置,处理器202通过运行存储在存储器204内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的产品信息的重构方法。存储器204可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器204可进一步包括相对于处理器202远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端20。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端20的通信供应商提供的无线网络。在一个实例中,传输装置206包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置206可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端20(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图2所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图2仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图3所示的产品信息的重构方法。图3是根据本发明实施例1的一种产品信息的重构方法的流程图。
步骤S31,获取产品信息在预设平台中的原始内容。
具体的,上述预设平台可以是购物平台,产品信息可以包括产品的名称、型号、用途等属性,原始内容可以是在购物平台中所展示的产品的标题。此处的原始内容用于表示对产品的标题进行重构前的标题,可以是卖家预先为产品设置的标题。
在一种可选的实施例中,在产品上架前,商家可以为产品设置对应的标题,在用户使用购物平台搜索到该产品时,产品的标题即可与产品的图像信息对应展示在list页面中,以供用户查看。为了增加产品的曝光率,商家可能会将描述产品的词汇反复堆砌,例如,对于羽绒服,其标题可能是:新款超薄白鸭绒女士时尚加厚修身毛领可爱羽绒服100-130斤。该标题即为该产品对应的原始内容。
步骤S33,从原始内容中识别出关键信息,其中,关键信息包括用于表征描述产品特征的至少一条词语。
具体的,上述产品特征可以包括:产品名称、数量、规格、型号、适用对象等,关键信息即为表述上述产品特征的词语。
在一种可选的实施例中,可以首先获取产品对应的原始内容,即重构前的产品标题。通过命名实体识别技术,从原始内容中识别出用于描述产品特征的词语,即得到产品对应的关键信息。
步骤S35,至少通过调整关键信息在原始内容中的顺序,得到重构后的产品信息。
具体的,在确定关键信息其所表示的产品的特征后,可以根据关键信息所表征的产品的特征,调整其在原始内容中的顺序。
在上述方案中,调整关键信息在原始内容中的顺序,可以是按照预设的统一顺序进行调整,例如,预设的统一顺序为:数量词+规格词+产品词+产品修饰词+型号词+适用对象词+其他词。
对于原始内容:新款超薄白鸭绒女士时尚加厚修身毛领可爱羽绒服100-130斤,提取关键信息的结果是,无数量词;规格词为100-130斤;产品词为羽绒服;产品修饰词包括:新款、超薄、时尚、加厚、修身、可爱;无型号词;使用对象词为女士;其他词包括:白鸭绒、毛领。依据上述预设的统一顺序,可以得到重构后的产品信息:100-130斤羽绒服新款超薄时尚加厚修身可爱女士白鸭绒毛领。
但是对于不同领域的产品,不同特征的重要程度可能不同,例如:对于电子产品来说,其型号词更加重要;而对于家居用品来说,其适用对象词更加重要,因此,在一种可选的实施例中,还可以为不同领域的商品设置不同的排列顺序。
在上述实施例中,识别出产品的关键信息后,还需要确定产品所属领域,并根据产品所属领域查找该领域对应的顺序。然后根据其所在领域对应的顺序,调整关键信息在原始内容中的顺序,从而得到重构后的产品信息。
本申请上述实施例通过提取原始标题的关键信息,并调整关键信息在原始内容中的位置,从而提升标题展示的信息价值和可理解性,进而提升用户的搜索效率,给网站带来更高的收益。且相比于seq2seq方法有很大优势,新生成的标题是基于原始标题中的短语来重构,不会存在失真的问题。
由此,本申请上述实施例解决了现有技术的购物网站中,产品的标题混乱,导致用户搜索产品时搜索效率低的问题。
作为一种可选的实施例,至少通过调整关键信息在原始内容中的顺序,得到重构后的产品信息,包括:对关键信息进行分类,得到第一关键信息和除第一关键信息以外的第二关键信息,其中,第一关键信息包括用于描述产品唯一属性的词语和营销词;确定目标对象对第二关键信息的关注度参数;根据关注度参数对第二关键信息进行排序,得到局部排序结果;将局部排序结果与第一关键信息按照预设重构规则排列;确定排列结果为重构后的产品信息。
具体的,产品的唯一属性用于表示产品唯一的属性,例如,对于羽绒服来说,其颜色、材质、适用对象等信息即为其唯一属性,用于表示唯一属性的关键信息即为第一关键信息;而羽绒服的产品词和产品修饰词可以具有多种形容词语(例如:可爱、修身、通勤等),因此用于表示这些非唯一属性的关键信息即为第二关键信息。
在上述方案中,获取第二关键信息的关注度参数,并先根据第二关键信息的关注度参数确定第二关键信息对应的局部排序结果,再根据局部排序结果,与第一关键信息按照预设重构规则进行组合,从而得到最终重构后的产品标题。
在这一过程中,关注度参数可以用于表示用户对第二关键信息的关注程度。第二关键信息的关注度参数的计算,可以依据购物平台的历史数据来实现。在一种可选的实施例中,可以获取预设平台中,第二关键信息被搜索的次数或频率,并根据第二关键信息被搜索的次数或频率来确定第二关键词的关注度参数。在另一种可选的实施例中,还可以根据用户访问购物平台的历史数据构建关注度参数模型,并基于关注度参数模型来预测每个第二关键信息的关注度参数。
仍在上述过程中,可以按照关注度参数由高至低的顺序对第二关键信息进行排序,得到局部排序结果,再将局部排序结果作为一个整体,参与与第一关键信息的排序,得到最终重构后的产品标题。
作为一种可选的实施例,第一关键信息包括如下至少一项:品牌、型号词、数量词、规格词、营销词和适用对象词。
上述第一关键信息是无需参与关注度参数运算的关键信息。包括用于描述产品的唯一属性的关键信息。这一部分信息对于一个产品来说是唯一的,因此不参与关注度参数的计算。上述第一关键信息还包括营销词,营销词不仅没有实际意义,还会占用较大的空间,因此可以将营销词删除或放置在标题尾部,因此也无需参与关注度参数的计算。
作为一种可选的实施例,从原始内容中识别出关键信息,包括:按照产品的实体特征对原始内容进行命名实体识别,得到实体特征信息;根据语义对原始内容进行分割,得到语义信息;将实体特征信息和语义信息进行组合,得到组合信息;对组合信息进行至少一种预设处理,得到关键信息,预设处理包括:融合、校验和消岐处理。
具体的,上述命名实体识别可以为NER技术,通过NER技术对产品对应的原始内容进行识别,从而得到上述实体特征信息。原始内容的实体识别是通过序列标注的方法来实现的,可以采用的模型包括:基于特征模版的CRF模型或基于神经网络的Bi-LSTM-CRF模型。在一种可选的实施例中,可以设置好不同成份所使用的标记,训练数据可以采用人工标注的方式生产。
在获取产品的实体特征信息时,还可以获取购物平台中卖家录入的产品属性,并将卖家录入的产品属性也作为实体特征信息。
根据语义对原始内容进行分割,可以是在语义的维度上通过chunking模型将原始内容进行切分,得到语义信息。通过chunking模型识别出语义边界,解决了基于规则方法的标题不流利问题。在一种可选的实施例中,首先可以设置好切割时所使用的语义粒度,本实施例中可以按照名词性短语的粒度定义语义边缘。例如,对于原始内容Free ShippingCANCA 32inch multimedia HD LED LCD flat panel TV Display monitor Full HDHDMI/USB/AV/RF/VGAChunking;进行语义分割的结果为:Free Shipping|||CANCA|||32inch|||mult imedia HD LED LCD|||flat panel|||TV Display monitor|||Full HDHDMI/USB/AV/RF/VGA2.2。进行语义分割的模型可以采用CRF或者Bi-LSTM-CRF。
在上述方案中,由于命名实体识别的准确程度难以满足提取关键信息的需求,例如,对于一个手机壳产品原始内容中的适用对象词“适用于iphone8Plus”,NER技术可能识别得到的适用对象词为“适用于iphone8”,而并未识别出iphone8Plus这一整体。因此在对原始内容进行命名实体识别后,还根据语义对原始内容进行分割,并基于命名实体识别和语义分割的结果确定产品对应的关键信息。
需要说明的是,进行命名实体识别和进行语义分割对象均为产品对应的原始内容,因此实体特征信息和语义信息中会包括相同或相似的内容。因此在对实体特征信息和语义信息进行组合得到组合信息后,还需要对组合信息进行多种处理。
在一种可选的实施例中,可以根据对组合信息所需的处理,构建对应的处理规则,并将组合信息通过设置的处理规则,即可得到产品对应的关键信息。
具体的,融合可以是将组合信息中相同的实体特征信息和语义信息进行去冗余处理,仅保留一个,因此融合处理对应的规则可以是,如果检测到相同的实体特征信息和语义信息,则删除其一。
校验处理可以是对实体特征信息和语义信息的准确性进行校验,其对应的规则可以是,将实体特征信息和语义信息映射到对应的词表中,如果无法映射在词表中,则对实体特征信息和语义信息进行修正。
消岐处理可以是将组合信息中相似度高于预设值的实体特征信息和语义信息进行统一,从而去除识别错误或分割错误的词语,因此消岐处理对应的规则可以是,如果检测到相似度高于预设值的实体特征信息和语义信息,则分别获取实体特征信息和语义信息的置信度,并删除置信度较低的一个。例如,仍以适用对象词“适用于iphone8 Plus”为例,NER得到的结果为“适用于iphone8”,语义分割得到的结果为“适用于iphone8 Plus”,二者的相似度高于预设值,因此获取二者的置信度,其中,“适用于iphone8 Plus”具有更高的置信度,因此删除“适用于iphone8”,保留“适用于iphone8 Plus”。
本申请上述方案通过将命名实体识别的结果和语义分割的结果进行组合来得到关键词,即为通过语义分割的方式对命名实体识别的结果进行矫正,避免了命名实体识别可能出现的错识别或漏识别等现象,进行避免了产品对应的关键信息错误的问题,提高了产品标题重构的准确程度。
需要说明的是,商品标题改写的方法有两大类:基于规则和基于seq2seq模型。传统的基于规则的方法,主要通过统计的方法结合词表筛选出标题中的重要成份,对于非重要的成份删除。由于没有考虑到语义边界,所以该方法重构的标题在流利度上存在一定问题;此外对于用户关注度,其该方法使用词表匹配的方法来计算关注度权重,泛化能力有限,即对于历史中未出现的新搜索词权重计算不准确。而seq2seq模型的方法,输入是原始标题,输出是新构成的标题。该方法的缺陷有两个方面,一是需要大量的人工生产数据作为训练语料,成本高;二是seq2seq的方法能产出流利度较好的标题,在女装类目下有较好效果,但是在对于一些含有较多品牌、型号、系列、规格和属性的类目下(比如手机、电脑等3c类目下商品的尺寸、内存大小等关键属性),关键信息抽取准确度欠佳。
而本申请上述实施例提供的方法仅需要少量的人工生产数据训练NER模型和Chunking模型,相比seq2seq方法有很大优势,且新生成的标题是基于原始标题中的短语来重构,不会存在失真的问题。
作为一种可选的实施例,确定目标对象对第二关键信息的关注度参数,包括:获取关注度模型,其中,关注度模型基于目标对象的查询历史训练得到;基于关注度模型确定目标对象对第二关键信息的关注度参数。
具体的,上述目标对象可以是访问购物平台的用户,可以从目标对象在购物平台的查询历史中获取训练数据对关注度模型进行训练。
在一种可选的实施例中,可以选择最近一个月内的用户的查询记录中的词语,和词语对应的打分作为训练数据。在对词语进行打分时,可以基于这样的假设,如果对一个词语的查询结果中,用户直接进行了一次或多次购买操作,则说明用户对该词语的关注度较高;还可以基于这样的假设,如果用户在一个词语对应的查询结果中停留的时间越长,则说明用户对该词语的关注度越高。
在训练得到关注度模型后,可以将第二关键信息输入至关注度模型,从而得到关注度模型预测的第二关键信息的关注度参数。
上述方案通过历史日志训练买家关注度模型,巧妙地融合了用户习惯,使重构出的标题中买家关注的信息可以靠前曝光出来,提高了买家的搜索效率。
作为一种可选的实施例,关注度模型为语言模型,基于关注度模型确定目标对象对第二关键信息的关注度参数,包括:将第二关键信息输入至语言模型,得到语言模型对第二关键信息的打分;确定打分为第二关键信息的关注度参数。
具体的,语言模型是根据语言客观事实而进行的语言抽象数学建模。在一种可选的实施例中,关注度模型为语言模型。买家关注度的建模可以是通过获取所有买家历史Query,训练bi-gram语言模型得到的。对于一个待测的第二关键信息,买家关注度的计算可以通过语言模型打分得到。
作为一种可选的实施例,根据关注度参数对第二关键信息进行排序,得到局部排序结果,包括:按照关注度参数由高至低的顺序对第二关键信息进行排序,得到局部排序结果。
在上述方案中,按照关注度参数由高至低的顺序排列第二关键信息,从而使得关注度较高的第二关键信息排列较前,进而能够在最大程度保证产品在购物平台上的曝光率,最大程度吸引用户。
作为一种可选的实施例,第二关键信息包括多个产品词和多个产品修饰词,在按照关注度参数由高至低的顺序对第二关键信息进行排序,得到局部排序结果之前,上述方法还包括:保留多个产品词中关注度参数最大的产品词,删除其他产品词;或保留多个产品修饰词中关注度参数最大的产品修饰词,删除其他产品修饰词。
在实际的购物平台中,卖家为了增加产品的曝光率,通常会在产品的标题中堆砌很多产品词以及产品修饰词。
以原始内容“新款超薄白鸭绒女士时尚加厚修身毛领可爱羽绒服100-130斤”为例,新款、时尚、修身、可爱等均为产品修饰词。再以原始内容“连衣裙长裙淑女千鸟格夏日吊带裙”为例,连衣裙、长裙、吊带裙均为产品词。
这样的堆砌会使得产品本身有用的信息得不到曝光,从而影响用户对产品准确的判断,因此,上述方案在产品词和产品修饰词较多的情况下,选择关注度参数最高的一项,并将其他产品词或产品修饰词删除,以减少产品词和产品修饰词的无用堆砌。
作为一种可选的实施例,预设重构规则包括:按照第一顺序排列,第一顺序为:品牌词、型号词、数量词、规格词、产品词、产品修饰词、适用对象词和局部排序结果;或按照第二顺序排列,第二顺序为:数量词、规格词、产品词、产品修饰词、型号词、适用对象词和局部排序结果。
具体的,上述启发式标题重构规则,可以是通过语言学家的梳理得到,并经过线上实验对比来校验的重构规则。其中,第一顺序用于表示包括品牌词的重构规则,第二顺序用于表示不包括品牌词的重构规则。
作为一种可选的实施例,将局部排序结果与第一关键信息按照预设重构规则排列,包括:检测产品的关键信息中是否包括品牌信息;如果产品的关键信息中不包括品牌信息,则按照第二顺序对第一关键信息和局部排序结果进行排列。
在上述方案中,对于不同类型的产品使用不同的重构规则。关键信息中不包括品牌信息的产品,说明其品牌信息对产品来说重要性较低,对于该类别的关键信息,采用上述第二顺序排列作为预设重构规则对关键信息进行重新排列,以对原始内容进行重构。
作为一种可选的实施例,如果产品的关键信息中包括用于表示品牌信息的词语,上述方法还包括:获取用于品牌信息的置信度;如果置信度大于预设置信度阈值,则按照第一顺序对第一关键信息和局部排序结果进行排列;如果置信度小于或等于预设置信度阈值,则按照第二顺序对第一关键信息和局部排序结果进行排列。
而对于关键信息中包括品牌的产品,其品牌是否真实,成为为其选择重构规则的标准。对于真实的品牌,其品牌名称在销售过程中通常具有正面的作用,而对于一些虚假品牌,则可以在重构的标题中隐去其品牌。
因此在上述方案中,对于关键信息中包括品牌信息的产品,需要根据其品牌信息的置信度来确定所选择的重构规则。如果品牌信息的置信度大于预设置信度阈值,则采用包含品牌信息的第一顺序重构产品标题,如果品牌信息的置信度小于等于预设置信度遇着,则采用不包含品牌信息的第二顺序重构产品标题。
作为一种可选的实施例,在确定排列结果为重构后的产品信息之前,包括:删除排列结果中用于表示营销词的关键信息。
在上述方案中,在将第一关键信息和局部排序结果按照预设重构规则排列后,还需要删除排列结果中的营销词,营销词用于表示与产品本身无关的营销词汇,删除营销词可以减少营销词对用户购买的判断,使用户更关注产品本身的属性。
在一种可选的实施例中,可以预设营销词表,在得到排序结果后,将排序结果中的每个词语映射到营销词表中,映射成功的词语即被确定为营销词,因此可以从排序结果中查找出需要删除的营销词。在查找出排序结果中的营销词后,将营销词删除,即可得到重构后的产品的标题。
图4是根据本申请实施例1的一种产品主题重构的示意图,下面结合图4对上述实施例进行说明:
步骤S41,通过卖家录入的产品属性和对产品标题(原始内容)进行NER结果,获取产品标题的成份信息集合S(实体特征),包括:品牌、型号词、产品词、数量词、规格词、产品修饰词、适用对象词、其他词;
步骤S42,通过Chunking,将产品标题按照语义边界进行切分,获取切分后的有序短语集合C(语义信息);
步骤S43,将成份信息集合S和语义切分短语集合C两者进行融合、校验和消歧,进一步修复产品标题的成份信息,获取标题成份集合S1(关键信息),并基于标题成分集合S1进行标题成分分析;
步骤S44,通过用户的历史Query对买家用户行为进行建模,该模型M(关注度模型)用来计算买家的关注程度;
步骤S45,使用模型M,对标题成份集合S1中的成份进行买家关注度计算,其中,第一关键信息(品牌、型号词、数量词、规格词、营销词、适用对象词)不参与计算,按照买家关注度由高到低的顺序对产品成份集合S2(局部排序结果)进行排序,并筛选出多个产品词和多个产品修饰词中买家关注度最高的短语;
步骤S46,将S45得到的排序结果和不参与关注度计算的成分信息按照如下的启发式(重构规则)进行重构:
有品牌词:品牌词+型号词+数量词+规格词+产品词+产品修饰词+适用对象词+其他词;
无品牌词:数量词+规格词+产品词+产品修饰词+型号词+适用对象词+其他词;
步骤S47,基于预设的营销词表,删除重构标题中的营销词,形成新标题,用于List页面展示。
图5是根据本申请实施例1的一种产品标题重构示例的示意图,结合图5所示,在重构前,原始内容为Free Shipping CANCA 32inch multimedia HD LED LCD flat panel TVDisplay monitor Dull HD HDMI/USB/AV/RF/VGA。对原始内容进行NER之后的结果为freeOshippingO cancaB_B 32S_B inchS_E multimediaO hdO ledO lcdO flatOpanelO tvOdisplayP_M monitorP_C fullO hdO hdmiB_B/O usbO/O avO/O rfO/O vgaO,其中,“O”、“B_B”、“S_E”、“P_M”、“P_C”即为NER标记的结果。对原始内容进行Chunking的结果为FreeShipping|||CANCA|||32inch|||multimedia HD LED LCD|||flat panel|||TV Displaymonitor|||Dull HD HDMI/USB/AV/RF/VGA,其中,符号“|||”用于表示分割结果。
将NER结果和Chunking结果进行融合、校验和消岐后,提取出其中的第一关键信息和第二关键信息,第一关键信息包括:品牌词“CANCA”,型号词“32inch”,产品词“TVDisplay monitor”;第二关键信息包括:其他词“multimedia HD LED LCD”和“flatpanel”,产品修饰词“HD HDMI/USB/AV/RF/VGA”。根据买家历史Query所训练的bi-gram语言模型来计算其他词和产品修饰词的关注度参数,保留关注度最高的产品修饰词““HDHDMI”,并将关注度最高的产品修饰词和其他词按照关注度参数由高至低的顺序排序后,再与品牌词、型号词、产品词根据预设的启发式进行重构,从而得到重构后的标题为CANCA32inch TV Display monitor flat panel multimedia HD LED LCD HD HDMI。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述产品信息的重构方法的产品信息的重构装置,图6是根据本申请实施例2的一种产品信息的重构装置的示意图,如图6所示,该装置600包括:
获取模块602,用于获取产品信息在预设平台中的原始内容;
识别模块604,用于从原始内容中识别出关键信息,其中,关键信息包括用于表征描述产品特征的至少一条词语;
调整模块606,用于至少通过调整关键信息在原始内容中的顺序,得到重构后的产品信息。
此处需要说明的是,上述获取模块602、识别模块604和调整模块606对应于实施例1中的步骤S31至步骤S35,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
作为一种可选的实施例,调整模块包括:分类子模块,用于对关键信息进行分类,得到第一关键信息和除第一关键信息以外的第二关键信息,其中,第一关键信息包括用于描述产品唯一属性的词语和营销词;第一确定子模块,用于确定目标对象对第二关键信息的关注度参数;第一排序子模块,用户根据关注度参数对第二关键信息进行排序,得到局部排序结果;第二排序子模块,用于将局部排序结果与第一关键信息按照预设重构规则排列;第二确定子模块,用于确定排列结果为重构后的产品信息。
作为一种可选的实施例,第一关键信息包括如下至少一项:品牌、型号词、数量词、规格词、营销词和适用对象词。
作为一种可选的实施例,识别模块包括:识别子模块,用于按照产品的实体特征对原始内容进行命名实体识别,得到实体特征信息;分割子模块,用于根据语义对原始内容进行分割,得到语义信息;组合子模块,用于将实体特征信息和语义信息进行组合,得到组合信息;处理子模块,用于对组合信息进行至少一种预设处理,得到关键信息,预设处理包括:融合、校验和消岐处理。
作为一种可选的实施例,第一确定子模块包括:获取单元,用于获取关注度模型,其中,关注度模型基于目标对象的查询历史训练得到;确定单元,用于基于关注度模型确定目标对象对第二关键信息的关注度参数。
作为一种可选的实施例,关注度模型为语言模型,确定单元包括:打分子单元,用于将第二关键信息输入至语言模型,得到语言模型对第二关键信息的打分;确定子单元,用于确定打分为第二关键信息的关注度参数。
作为一种可选的实施例,第一排序子模块包括:排序单元,用于按照关注度参数由高至低的顺序对第二关键信息进行排序,得到局部排序结果。
作为一种可选的实施例,第二关键信息包括多个产品词和多个产品修饰词,第一排序子模块还包括:删除单元,用于在按照关注度参数由高至低的顺序对第二关键信息进行排序,得到局部排序结果之前,保留多个产品词中关注度参数最大的产品词,删除其他产品词;或保留多个产品修饰词中关注度参数最大的产品修饰词,删除其他产品修饰词。
作为一种可选的实施例,预设重构规则包括:按照第一顺序排列,第一顺序为:品牌词、型号词、数量词、规格词、产品词、产品修饰词、适用对象词和局部排序结果;或按照第二顺序排列,第二顺序为:数量词、规格词、产品词、产品修饰词、型号词、适用对象词和局部排序结果。
作为一种可选的实施例,第二排序子模块包括:检测单元,用于检测产品的关键信息中是否包括品牌信息;第一排序单元,用于如果产品的关键信息中不包括品牌信息,则按照第二顺序对第一关键信息和局部排序结果进行排列。
作为一种可选的实施例,第二排序子模块还包括:获取单元,用于如果产品的关键信息中包括品牌信息,获取用于品牌信息的置信度;第二排序单元,用于如果置信度大于预设置信度阈值,则按照第一顺序对第一关键信息和局部排序结果进行排列;第三排序单元,用于如果置信度小于或等于预设置信度阈值,则按照第二顺序对第一关键信息和局部排序结果进行排列。
作为一种可选的实施例,调整模块还包括:删除子模块,用于在确定排列结果为重构后的产品信息之前,删除排列结果中用于表示营销词的关键信息。
实施例3
根据本发明实施例,还提供了一种产品信息的重构方法,图7是根据本申请实施例3的一种产品信息的重构方法的流程图,如图7所示,该方法包括:
步骤S71,显示用于描述产品的产品信息的原始内容。
具体的,上述预设平台可以是购物平台,产品信息可以包括产品的名称、型号、用途等属性,原始内容可以是在购物平台中所展示的产品的标题。此处的原始内容用于表示对产品的标题进行重构前的标题,可以是卖家预先为产品设置的标题。
在一种可选的实施例中,在产品上架前,商家可以为产品设置对应的标题,在用户使用购物平台搜索到该产品时,即可在list页面中显示产品的标题以供用户查看。为了增加产品的曝光率,商家可能会将描述产品的词汇反复堆砌,例如,对于羽绒服,其标题可能是:新款超薄白鸭绒女士时尚加厚修身毛领可爱羽绒服100-130斤。该标题即为该产品对应的原始内容。
步骤S73,显示原始内容中标识出的关键信息,其中,关键信息包括用于表征描述产品特征的至少一条词句。
具体的,上述产品特征可以包括:产品名称、数量、规格、型号、适用对象等,关键信息即为表述上述产品特征的词语。
在一种可选的实施例中,可以首先获取产品对应的原始内容,即重构前的产品标题。通过命名实体识别技术,从原始内容中识别出用于描述产品特征的词语,即得到产品对应的关键信息。
步骤S75,显示重构后的产品信息,其中,重构后的产品信息为关键信息在原始内容中的显示顺序发生了调整。
具体的,在确定关键信息其所表示的产品的特征后,可以根据关键信息所表征的产品的特征,调整其在原始内容中的顺序。
在上述方案中,调整关键信息在原始内容中的顺序,可以是按照预设的统一顺序进行调整,例如,预设的统一顺序为:数量词+规格词+产品词+产品修饰词+型号词+适用对象词+其他词。
对于原始内容:新款超薄白鸭绒女士时尚加厚修身毛领可爱羽绒服100-130斤,提取关键信息的结果是,无数量词;规格词为100-130斤;产品词为羽绒服;产品修饰词包括:新款、超薄、时尚、加厚、修身、可爱;无型号词;使用对象词为女士;其他词包括:白鸭绒、毛领。依据上述预设的统一顺序,可以得到重构后的产品信息:100-130斤羽绒服新款超薄时尚加厚修身可爱女士白鸭绒毛领。
但是对于不同领域的产品,不同特征的重要程度可能不同,例如:对于电子产品来说,其型号词更加重要;而对于家居用品来说,其适用对象词更加重要,因此,在一种可选的实施例中,还可以为不同领域的商品设置不同的排列顺序。
在上述实施例中,识别出产品的关键信息后,还需要确定产品所属领域,并根据产品所属领域查找该领域对应的顺序。然后根据其所在领域对应的顺序,调整关键信息在原始内容中的顺序,从而得到重构后的产品信息。
本申请上述实施例通过提取原始标题的关键信息,并调整关键信息在原始内容中的位置,从而提升标题展示的信息价值和可理解性,进而提升用户的搜索效率,给网站带来更高的收益。且相比于seq2seq方法有很大优势,新生成的标题是基于原始标题中的短语来重构,不会存在失真的问题。
由此,本申请上述实施例解决了现有技术的购物网站中,产品的标题混乱,导致用户搜索产品时搜索效率低的问题。
作为一种可选的实施例,在显示重构后的产品信息之前,方法还包括:至少通过调整关键信息在原始内容中的顺序,得到重构后的产品信息,其中,至少通过调整关键信息在原始内容中的顺序,得到重构后的产品信息,包括:对关键信息进行分类,得到第一关键信息和除第一关键信息以外的第二关键信息,其中,第一关键信息包括用于描述产品唯一属性的词语和营销词;确定目标对象对第二关键信息的关注度参数;根据关注度参数对第二关键信息进行排序,得到局部排序结果;将局部排序结果与第一关键信息按照预设重构规则排列;确定排列结果为重构后的产品信息。
具体的,产品的唯一属性用于表示产品唯一的属性,例如,对于羽绒服来说,其颜色、材质、适用对象等信息即为其唯一属性,用于表示唯一属性的关键信息即为第一关键信息;而羽绒服的产品词和产品修饰词可以具有多种形容词语(例如:可爱、修身、通勤等),因此用于表示这些非唯一属性的关键信息即为第二关键信息。
在上述方案中,获取第二关键信息的关注度参数,并先根据第二关键信息的关注度参数确定第二关键信息对应的局部排序结果,再根据局部排序结果,与第一关键信息按照预设重构规则进行组合,从而得到最终重构后的产品标题。
在这一过程中,关注度参数可以用于表示用户对第二关键信息的关注程度。第二关键信息的关注度参数的计算,可以依据购物平台的历史数据来实现。在一种可选的实施例中,可以获取预设平台中,第二关键信息被搜索的次数或频率,并根据第二关键信息被搜索的次数或频率来确定第二关键词的关注度参数。在另一种可选的实施例中,还可以根据用户访问购物平台的历史数据构建关注度参数模型,并基于关注度参数模型来预测每个第二关键信息的关注度参数。
仍在上述过程中,可以按照关注度参数由高至低的顺序对第二关键信息进行排序,得到局部排序结果,再将局部排序结果作为一个整体,参与与第一关键信息的排序,得到最终重构后的产品标题。
实施例4
根据本发明实施例,还提供了一种用于实施实施例1中的产品信息的重构方法的产品信息的重构装置,图8是根据本申请实施例4的一种产品信息的重构装置的示意图,如图8所示,该装置800包括:
第一显示模块802,用于显示用于描述产品的产品信息的原始内容。
第二显示模块804,用于显示原始内容中标识出的关键信息,其中,关键信息包括用于表征描述产品特征的至少一条词句。
第三显示模块806,用于显示重构后的产品信息,其中,重构后的产品信息为关键信息在原始内容中的显示顺序发生了调整。
此处需要说明的是,上述第一显示模块802、第二显示模块804和第三显示模块806对应于实施例1中的步骤S71至步骤S75,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
作为一种可选的实施例,上述装置还包括:重构模块,用于在显示重构后的产品信息之前,至少通过调整关键信息在原始内容中的顺序,得到重构后的产品信息,其中,重构模块包括:分类子模块,用户对关键信息进行分类,得到第一关键信息和除第一关键信息以外的第二关键信息,其中,第一关键信息包括用于描述产品唯一属性的词语和营销词;第一确定子模块,用于确定目标对象对第二关键信息的关注度参数;排序子模块,用于根据关注度参数对第二关键信息进行排序,得到局部排序结果;排列子模块,用于将局部排序结果与第一关键信息按照预设重构规则排列;第二确定子模块,用于确定排列结果为重构后的所述产品信息。
实施例5
根据本发明实施例,还提供了一种产品信息的重构***,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取产品信息在预设平台中的原始内容;
从所述原始内容中识别出关键信息,其中,所述关键信息包括用于表征描述产品特征的至少一条词语;
至少通过调整所述关键信息在所述原始内容中的顺序,得到重构后的产品信息。
需要说明的是,上述存储器还用于为处理器提供处理实施例1中的其他步骤的指令,此处不在赘述。
实施例6
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行产品信息的重构方法中以下步骤的程序代码:获取产品信息在预设平台中的原始内容;从所述原始内容中识别出关键信息,其中,所述关键信息包括用于表征描述产品特征的至少一条词语;至少通过调整所述关键信息在所述原始内容中的顺序,得到重构后的产品信息。
可选地,图9是根据本发明实施例6的一种计算机终端的结构框图。如图9所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器902、存储器904、以及外设接口906。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的产品信息的重构方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的产品信息的重构方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取产品信息在预设平台中的原始内容;从所述原始内容中识别出关键信息,其中,所述关键信息包括用于表征描述产品特征的至少一条词语;至少通过调整所述关键信息在所述原始内容中的顺序,得到重构后的产品信息。
可选的,上述处理器还可以执行如下步骤的程序代码:对关键信息进行分类,得到第一关键信息和除第一关键信息以外的第二关键信息,其中,第一关键信息包括用于描述产品唯一属性的词语和营销词;确定目标对象对第二关键信息的关注度参数;根据关注度参数对第二关键信息进行排序,得到局部排序结果;将局部排序结果与第一关键信息按照预设重构规则排列;确定排列结果为重构后的产品信息。
可选的,第一关键信息包括如下至少一项:品牌、型号词、数量词、规格词、营销词和适用对象词。
可选的,上述处理器还可以执行如下步骤的程序代码:按照产品的实体特征对原始内容进行命名实体识别,得到实体特征信息;根据语义对原始内容进行分割,得到语义信息;将实体特征信息和语义信息进行组合,得到组合信息;对组合信息进行至少一种预设处理,得到关键信息,预设处理包括:融合、校验和消岐处理。
可选的,上述处理器还可以执行如下步骤的程序代码:获取关注度模型,其中,关注度模型基于目标对象的查询历史训练得到;基于关注度模型确定目标对象对第二关键信息的关注度参数。
可选的,上述处理器还可以执行如下步骤的程序代码:关注度模型为语言模型,将第二关键信息输入至语言模型,得到语言模型对第二关键信息的打分;确定打分为第二关键信息的关注度参数。
可选的,上述处理器还可以执行如下步骤的程序代码:按照关注度参数由高至低的顺序对第二关键信息进行排序,得到局部排序结果。
可选的,第二关键信息包括多个产品词和多个产品修饰词,上述处理器还可以执行如下步骤的程序代码:在按照关注度参数由高至低的顺序对第二关键信息进行排序,得到局部排序结果之前,保留多个产品词中关注度参数最大的产品词,删除其他产品词;或保留多个产品修饰词中关注度参数最大的产品修饰词,删除其他产品修饰词。
可选的,预设重构规则包括:按照第一顺序排列,第一顺序为:品牌词、型号词、数量词、规格词、产品词、产品修饰词、适用对象词和局部排序结果;或按照第二顺序排列,第二顺序为:数量词、规格词、产品词、产品修饰词、型号词、适用对象词和局部排序结果。
可选的,上述处理器还可以执行如下步骤的程序代码:检测产品的关键信息中是否包括品牌信息;如果产品的关键信息中不包括品牌信息,则按照第二顺序对第一关键信息和局部排序结果进行排列。
可选的,上述处理器还可以执行如下步骤的程序代码:获取用于品牌信息的置信度;如果置信度大于预设置信度阈值,则按照第一顺序对第一关键信息和局部排序结果进行排列;如果置信度小于或等于预设置信度阈值,则按照第二顺序对第一关键信息和局部排序结果进行排列。
可选的,上述处理器还可以执行如下步骤的程序代码:在确定排列结果为重构后的产品信息之前,删除排列结果中用于表示营销词的关键信息。
采用本发明实施例,提供了一种产品信息的重构方法的方案。通过提取原始标题的关键信息,并调整关键信息在原始内容中的位置,从而提升标题展示的信息价值和可理解性,进而提升用户的搜索效率,给网站带来更高的收益。且相比于seq2seq方法有很大优势,新生成的标题是基于原始标题中的短语来重构,不会存在失真的问题。由此,本申请上述实施例解决了现有技术的购物网站中,产品的标题混乱,导致用户搜索产品时搜索效率低的问题。
本领域普通技术人员可以理解,图9所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,计算机终端A还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例7
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的产品信息的重构方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取产品信息在预设平台中的原始内容;从原始内容中识别出关键信息,其中,关键信息包括用于表征描述产品特征的至少一条词语;至少通过调整关键信息在原始内容中的顺序,得到重构后的产品信息。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种产品信息的重构方法,其特征在于,包括:
获取产品信息在预设平台中的原始内容;
从所述原始内容中识别出关键信息,其中,所述关键信息包括用于表征描述产品特征的至少一条词语;
至少通过调整所述关键信息在所述原始内容中的顺序,得到重构后的产品信息。
2.根据权利要求1所述的方法,其特征在于,至少通过调整所述关键信息在所述原始内容中的顺序,得到重构后的产品信息,包括:
对所述关键信息进行分类,得到第一关键信息和除所述第一关键信息以外的第二关键信息,其中,所述第一关键信息包括用于描述产品唯一属性的词语和营销词;
确定目标对象对所述第二关键信息的关注度参数;
根据所述关注度参数对所述第二关键信息进行排序,得到局部排序结果;
将所述局部排序结果与所述第一关键信息按照预设重构规则排列;
确定排列结果为重构后的所述产品信息。
3.根据权利要求2所述的方法,其特征在于,所述第一关键信息包括如下至少一项:品牌、型号词、数量词、规格词、营销词和适用对象词。
4.根据权利要求1所述的方法,其特征在于,从所述原始内容中识别出关键信息,包括:
按照所述产品的实体特征对所述原始内容进行命名实体识别,得到实体特征信息;
根据语义对所述原始内容进行分割,得到语义信息;
将所述实体特征信息和所述语义信息进行组合,得到组合信息;
对所述组合信息进行至少一种预设处理,得到所述关键信息,所述预设处理包括:融合、校验和消岐处理。
5.根据权利要求2所述的方法,其特征在于,确定目标对象对所述第二关键信息的关注度参数,包括:
获取关注度模型,其中,所述关注度模型基于所述目标对象的查询历史训练得到;
基于所述关注度模型确定所述目标对象对所述第二关键信息的关注度参数。
6.根据权利要求5所述的方法,其特征在于,所述关注度模型为语言模型,基于所述关注度模型确定所述目标对象对所述第二关键信息的关注度参数,包括:
将所述第二关键信息输入至所述语言模型,得到所述语言模型对所述第二关键信息的打分;
确定所述打分为所述第二关键信息的关注度参数。
7.根据权利要求2所述的方法,其特征在于,根据所述关注度参数对所述第二关键信息进行排序,得到局部排序结果,包括:
按照所述关注度参数由高至低的顺序对所述第二关键信息进行排序,得到所述局部排序结果。
8.根据权利要求7所述的方法,其特征在于,所述第二关键信息包括多个产品词和多个产品修饰词,在按照所述关注度参数由高至低的顺序对所述第二关键信息进行排序,得到所述局部排序结果之前,所述方法还包括:
保留所述多个产品词中关注度参数最大的产品词,删除其他产品词;或
保留所述多个产品修饰词中关注度参数最大的产品修饰词,删除其他产品修饰词。
9.根据权利要求2所述的方法,其特征在于,所述预设重构规则包括:
按照第一顺序排列,所述第一顺序为:品牌词、型号词、数量词、规格词、产品词、产品修饰词、适用对象词和所述局部排序结果;或
按照第二顺序排列,所述第二顺序为:数量词、规格词、产品词、产品修饰词、型号词、适用对象词和所述局部排序结果。
10.根据权利要求9所述的方法,其特征在于,将所述局部排序结果与所述第一关键信息按照所述预设重构规则排列,包括:
检测所述产品的关键信息中是否包括品牌信息;
如果所述产品的关键信息中不包括品牌信息,则按照所述第二顺序对所述第一关键信息和所述局部排序结果进行排列。
11.根据权利要求10所述的方法,其特征在于,如果所述产品的关键信息中包括品牌信息,所述方法还包括:
获取用于所述品牌信息的置信度;
如果所述置信度大于预设置信度阈值,则按照所述第一顺序对所述第一关键信息和所述局部排序结果进行排列;
如果所述置信度小于或等于预设置信度阈值,则按照所述第二顺序对所述第一关键信息和所述局部排序结果进行排列。
12.根据权利要求2所述的方法,其特征在于,在确定排列结果为重构后的所述产品信息之前,包括:删除所述排列结果中用于表示营销词的关键信息。
13.一种产品信息的重构方法,其特征在于,包括:
显示用于描述产品的产品信息的原始内容;
显示所述原始内容中标识出的关键信息,其中,所述关键信息包括用于表征描述产品特征的至少一条词句;
显示重构后的产品信息,其中,所述重构后的产品信息为所述关键信息在所述原始内容中的显示顺序发生了调整。
14.根据权利要求13所述的方法,其特征在于,在显示重构后的产品信息之前,所述方法还包括:至少通过调整所述关键信息在所述原始内容中的顺序,得到重构后的产品信息,其中,至少通过调整所述关键信息在所述原始内容中的顺序,得到重构后的产品信息,包括:
对所述关键信息进行分类,得到第一关键信息和除所述第一关键信息以外的第二关键信息,其中,所述第一关键信息包括用于描述产品唯一属性的词语和营销词;
确定目标对象对所述第二关键信息的关注度参数;
根据所述关注度参数对所述第二关键信息进行排序,得到局部排序结果;
将所述局部排序结果与所述第一关键信息按照预设重构规则排列;
确定排列结果为重构后的所述产品信息。
15.一种产品信息的重构装置,其特征在于,包括:
获取模块,用于获取产品信息在预设平台中的原始内容;
识别模块,用于从所述原始内容中识别出关键信息,其中,所述关键信息包括用于表征描述产品特征的至少一条词语;
调整模块,用于至少通过调整所述关键信息在所述原始内容中的顺序,得到重构后的产品信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910219171.6A CN111723566B (zh) | 2019-03-21 | 2019-03-21 | 产品信息的重构方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910219171.6A CN111723566B (zh) | 2019-03-21 | 2019-03-21 | 产品信息的重构方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723566A true CN111723566A (zh) | 2020-09-29 |
CN111723566B CN111723566B (zh) | 2024-01-23 |
Family
ID=72562816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910219171.6A Active CN111723566B (zh) | 2019-03-21 | 2019-03-21 | 产品信息的重构方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723566B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033190A (zh) * | 2021-04-19 | 2021-06-25 | 北京有竹居网络技术有限公司 | 字幕生成方法、装置、介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074670A1 (en) * | 2004-09-27 | 2006-04-06 | Fuliang Weng | Method and system for interactive conversational dialogue for cognitively overloaded device users |
CN102193936A (zh) * | 2010-03-09 | 2011-09-21 | 阿里巴巴集团控股有限公司 | 一种数据分类的方法及装置 |
CN103310343A (zh) * | 2012-03-15 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 商品信息发布方法和装置 |
CN106708813A (zh) * | 2015-07-14 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种标题处理方法及设备 |
WO2018029852A1 (ja) * | 2016-08-12 | 2018-02-15 | 楽天株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
CN109190123A (zh) * | 2018-09-14 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
US20190079925A1 (en) * | 2017-09-12 | 2019-03-14 | Alibaba Group Holding Limited | Title reconstruction method and apparatus |
-
2019
- 2019-03-21 CN CN201910219171.6A patent/CN111723566B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074670A1 (en) * | 2004-09-27 | 2006-04-06 | Fuliang Weng | Method and system for interactive conversational dialogue for cognitively overloaded device users |
CN102193936A (zh) * | 2010-03-09 | 2011-09-21 | 阿里巴巴集团控股有限公司 | 一种数据分类的方法及装置 |
CN103310343A (zh) * | 2012-03-15 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 商品信息发布方法和装置 |
CN106708813A (zh) * | 2015-07-14 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种标题处理方法及设备 |
WO2018029852A1 (ja) * | 2016-08-12 | 2018-02-15 | 楽天株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
US20190079925A1 (en) * | 2017-09-12 | 2019-03-14 | Alibaba Group Holding Limited | Title reconstruction method and apparatus |
CN109190123A (zh) * | 2018-09-14 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
Non-Patent Citations (1)
Title |
---|
刘非凡;赵军;吕碧波;徐波;于浩;夏迎炬;: "面向商务信息抽取的产品命名实体识别研究", 中文信息学报, no. 01 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033190A (zh) * | 2021-04-19 | 2021-06-25 | 北京有竹居网络技术有限公司 | 字幕生成方法、装置、介质及电子设备 |
CN113033190B (zh) * | 2021-04-19 | 2024-05-17 | 北京有竹居网络技术有限公司 | 字幕生成方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111723566B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6379093B2 (ja) | 製品識別子のラベル付けおよび製品のナビゲーション | |
CN103914492B (zh) | 查询词融合方法、商品信息发布方法和搜索方法及*** | |
US9898773B2 (en) | Multilingual content based recommendation system | |
CN104239331B (zh) | 一种用于实现评论搜索引擎排序的方法和装置 | |
US20180053234A1 (en) | Description information generation and presentation systems, methods, and devices | |
CN111260437B (zh) | 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 | |
CN105607756A (zh) | 信息推荐方法和装置 | |
CN108829847B (zh) | 基于翻译的多模态建模方法及其在商品检索中的应用 | |
WO2014093433A1 (en) | Analyzing commodity evaluations | |
CN110325986A (zh) | 文章处理方法、装置、服务器及存储介质 | |
TW201905736A (zh) | 資訊推送方法及系統 | |
CN107833082A (zh) | 一种商品图片的推荐方法和装置 | |
CN107341173A (zh) | 一种信息处理方法及装置 | |
CN110909536A (zh) | 用于自动生成产品的文章的***和方法 | |
US11487803B2 (en) | Systems and methods for keyword categorization | |
CN109801119A (zh) | 界面展示、信息提供、用户行为内容信息处理方法及设备 | |
CN113570413A (zh) | 广告关键词的生成方法、装置、存储介质及电子设备 | |
CN110858353A (zh) | 获取案件裁判结果的方法和*** | |
CN114328798B (zh) | 搜索文本的处理方法、装置、设备、存储介质和程序产品 | |
CN111523315B (zh) | 数据处理方法、文本识别方法、装置及计算机设备 | |
CN111723566B (zh) | 产品信息的重构方法和装置 | |
CN113744019A (zh) | 一种商品推荐方法、装置、设备及存储介质 | |
CN117151826A (zh) | 多模态电商商品对齐方法、装置、电子设备及存储介质 | |
CN117112775A (zh) | 自动填写输入表单以生成列表的技术 | |
CN115618126A (zh) | 搜索处理方法、***、计算机可读存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |