CN102332137A - 商品匹配方法及*** - Google Patents

商品匹配方法及*** Download PDF

Info

Publication number
CN102332137A
CN102332137A CN201110288717A CN201110288717A CN102332137A CN 102332137 A CN102332137 A CN 102332137A CN 201110288717 A CN201110288717 A CN 201110288717A CN 201110288717 A CN201110288717 A CN 201110288717A CN 102332137 A CN102332137 A CN 102332137A
Authority
CN
China
Prior art keywords
key element
commodity
dictionary
keyword
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110288717A
Other languages
English (en)
Inventor
黄哲铿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Niuhai Information Technology (Shanghai) Co Ltd
Original Assignee
Niuhai Information Technology (Shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Niuhai Information Technology (Shanghai) Co Ltd filed Critical Niuhai Information Technology (Shanghai) Co Ltd
Priority to CN201110288717A priority Critical patent/CN102332137A/zh
Publication of CN102332137A publication Critical patent/CN102332137A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种商品匹配方法,包括:确定商品类别并调用与商品类别相应的词库;将商品描述分为至少两个要素并为每个要素分配要素权值;利用词库并按照每个要素将商品描述切词成至少一个要素关键词;针对每两件商品:为每个要素建立分组映射;计算每个分组映射的相似度;计算该两件商品的匹配分值,该匹配分值=
Figure DSA00000581633800011
;将该匹配分值与一阈值比较,若该匹配分值大于等于该阈值,则确定该两件商品为同一商品;若该匹配分值小于该阈值,则确定该两件商品为不同商品。本发明还公开了一种商品匹配***。本发明提供的商品匹配方法及***,消除了不同网站的同种商品在商品描述上的误差,得以自动识别不同网站的同种商品。

Description

商品匹配方法及***
技术领域
本发明涉及一种商品匹配方法及***,特别是涉及一种能自动识别不同网站的同种商品的商品匹配方法及***。
背景技术
在电子商务蓬勃发展的今天,商品信息的比较、分析显得尤为重要。然而,各个网站对同一个商品的描述往往是不统一的,比如:同样一只牙膏,A网站描述成“黑人牙膏洁白护齿家庭装500g”,B网站描述成“特价热销黑人牙膏全家装500克”,这给电脑识别和比较带来了困难,因为电脑是不了解语意的。由于商品描述不尽相同,用户在搜索某一商品时往往会无法搜全所要的商品,这从某种程度上给用户带来了一定的困扰。
因此,期望能找到一种能消除商品描述上的误差、让电脑通过一定的方法识别语意、并且能应用于自动识别不同网站的同种商品的商品匹配方法及***。
发明内容
本发明要解决的技术问题是为了克服现有技术中各个网站对同一个商品的描述往往是不统一的、相同商品不同表述会给用户带来困扰的缺陷,提供一种能消除商品描述上的误差、让电脑通过一定的方法识别语意、并且能应用于自动识别不同网站的同种商品的商品匹配方法及***。
本发明是通过下述技术方案来解决上述技术问题的:
一种商品匹配方法,其特点在于,其包括以下步骤:
先针对每件商品:
根据商品的商品描述确定商品类别,并根据商品类别调用与该商品类别相应的词库;
将商品描述分为至少两个要素并为每个要素分配要素权值,其中以Pi来表示第i个要素的要素权值,以n表示要素的个数,所有要素的要素权值之和为1;要素权值的分配,跟商品类别有关,例如:若商品是书籍类的,那么ISBN码(International Standard Book Number,国际标准书号)要素的要素权值是最高的,作者要素、出版社要素的要素权值就相对可以低一些;若商品是数码产品的,那么品牌要素、型号要素的要素权值比较高,颜色要素、产地要素等要素的要素权值可以低一些;
利用该词库并按照每个要素将商品描述切词成至少一个要素关键词,以及格式化该至少一个要素关键词以统一要素关键词的格式;
再针对每两件商品:
为每个要素建立分组映射,该分组映射为该两件商品的同一要素的要素关键词的集合;比如:切词后A商品的品牌要素是:“nokia、诺基亚”,B商品的品牌要素是“诺基亚”,那么“nokia、诺基亚”跟“诺基亚”就是该品牌要素的分组映射;
计算每个分组映射的相似度,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度;
计算该两件商品的匹配分值,
将该匹配分值与一阈值比较,若该匹配分值大于等于该阈值,则该两件商品相匹配,确定该两件商品为同一商品;若该匹配分值小于该阈值,则该两件商品不相匹配,确定该两件商品为不同商品。针对不同的商品类别,阈值是不一样的;有时即使是同一商品类别,当调用的词库变化后,阈值也可能随之变化。
优选地,当第i个要素的分组映射的相似度Fi为0时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。也就是说,该分组映射中的两件商品的所有要素关键词都不同,即该分组映射中不存在相同的要素关键词,这种情况下,该要素的要素权值将转移分配至其他要素的要素权值,例如按一定比例转移至其他要素的要素权值。
优选地,采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。例如,可以先构建一同义词库,该同义词词库包括:简称、术语、学名、全称、拼音、英文等都会收录到同义词库,之后利用该同义词词库统一要素关键词,将相同含义的要素关键词统一用语,方便后续的比较。对于一些用于表示商品型号、单位的外语字符、数字等,采用格式化的方式来减少以不同方式撰写的外语字符对之后要素关键词比较的影响,如:N908、n908、N九零八,会被格式化成n908,以方便后续的比较。
优选地,该词库为品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库中的一种或多种。
优选地,该利用该词库并按照每个要素将商品描述切词成至少一个要素关键词的步骤之前还包括以下步骤:采用常规词词库切除商品描述中的介词和/或助词。
优选地,该至少两个要素选自以下要素:品牌要素、商品通用名称要素、单位要素、属性要素和型号要素。
本发明还提供一种商品匹配***,其特点在于,其包括:
根据商品的商品描述确定商品类别的商品类别识别模块;
根据商品类别调用与该商品类别相应的词库的词库调用模块;
将商品描述分为至少两个要素并为每个要素分配要素权值的要素形成模块,其中以Pi来表示第i个要素的要素权值,以n表示要素的个数,所有要素的要素权值之和为1;要素权值的分配,跟商品类别有关,例如:若商品是书籍类的,那么ISBN码要素的要素权值是最高的,作者要素、出版社要素的要素权值就相对可以低一些;若商品是数码产品的,那么品牌要素、型号要素的要素权值比较高,颜色要素、产地要素等要素的要素权值可以低一些;
利用该词库并按照每个要素将商品描述切词成至少一个要素关键词、以及格式化该至少一个要素关键词以统一要素关键词的格式的切词模块;以及,
一针对每两件商品的子***,其中该子***还包括:
为每个要素建立分组映射的分组映射建立模块,该分组映射为该两件商品的同一要素的要素关键词的集合;比如:切词后A商品的品牌要素是:“nokia、诺基亚”,B商品的品牌要素是“诺基亚”,那么“nokia、诺基亚”跟“诺基亚”就是该品牌要素的分组映射;
计算每个分组映射的相似度的相似度计算模块,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度;
计算该两件商品的匹配分值的匹配分值计算模块,
将该匹配分值与一阈值比较的比较模块,其中,若该匹配分值大于等于该阈值,则该两件商品相匹配,确定该两件商品为同一商品;若该匹配分值小于该阈值,则该两件商品不相匹配,确定该两件商品为不同商品。
针对不同的商品类别,阈值是不一样的;有时即使是同一商品类别,当调用的词库变化后,阈值也可能随之变化。另外,该阈值可在***运行一段时间后,由***学习来自动设置。
优选地,该子***还包括一要素权值转移模块,用于当第i个要素的分组映射的相似度Fi为0时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。也就是说,该分组映射中的两件商品的所有要素关键词都不同,即该分组映射中不存在相同的要素关键词,这种情况下,该要素的要素权值将转移分配至其他要素的要素权值,例如按一定比例转移至其他要素的要素权值。
优选地,该切词模块还用于采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。例如,可以先构建一同义词库,该同义词词库包括:简称、术语、学名、全称、拼音、英文等都会收录到同义词库,之后利用该同义词词库统一要素关键词,将相同含义的要素关键词统一用语,方便后续的比较。对于一些用于表示商品型号、单位的外语字符、数字等,采用格式化的方式来减少以不同方式撰写的外语字符对之后要素关键词比较的影响,如:N908、n908、N九零八,会被格式化成n908,以方便后续的比较。
优选地,该词库为品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库中的一种或多种。
优选地,该切词模块还用于采用常规词词库切除商品描述中的介词和/或助词。
优选地,该至少两个要素选自以下要素:品牌要素、商品通用名称要素、单位要素、属性要素和型号要素。
本发明的积极进步效果在于:本发明提供的商品匹配方法及***,消除了不同网站的同种商品在商品描述上的误差,得以自动识别不同网站的同种商品,在用户浏览、搜索某一商品时为用户提供了极大的便利,有效提高了搜索的查全率。
附图说明
图1为本发明的一实施例的商品匹配方法的流程图。
图2为本发明的一实施例的商品匹配***的结构框图。
图3为本发明的一实施例的商品匹配方法中的切词匹配示意图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
参考图1,介绍本发明的一实施例的商品匹配方法。
步骤101,先针对每件商品而言:根据商品的商品描述确定商品类别,并根据商品类别调用与该商品类别相应的词库。例如品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库。
步骤102,将商品描述分为至少两个要素。例如品牌要素、商品通用名称要素、单位要素、属性要素和型号要素。
步骤103,为每个要素分配要素权值,其中以Pi来表示第i个要素的要素权值,以n表示要素的个数,所有要素的要素权值之和为1;
步骤104,利用该词库并按照每个要素将商品描述切词成至少一个要素关键词,以及格式化该至少一个要素关键词以统一要素关键词的格式。其中,在利用该词库并按照每个要素将商品描述切词成至少一个要素关键词之前可以先采用常规词词库切除商品描述中的介词和/或助词,这样有助于切词的准确性。
具体来说,采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。
步骤105,再针对每两件商品:为每个要素建立分组映射,该分组映射为该两件商品的同一要素的要素关键词的集合。
步骤106,计算每个分组映射的相似度,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度。特别地,当第i个要素的分组映射的相似度Fi为0时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。
步骤107,计算该两件商品的匹配分值,
Figure BSA00000581634100061
步骤108,将该匹配分值与一阈值比较,若该匹配分值大于等于该阈值,则进入步骤109;若该匹配分值小于该阈值,则进入步骤110。
步骤109,该两件商品相匹配,确定该两件商品为同一商品。
步骤110,该两件商品不相匹配,确定该两件商品为不同商品。
参考图2,介绍本发明的一实施例的商品匹配***。
如图2所示,该商品匹配***,包括:
根据商品的商品描述确定商品类别的商品类别识别模块1;
根据商品类别调用与该商品类别相应的词库的词库调用模块2,其中,该词库为品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库;
将商品描述分为至少两个要素并为每个要素分配要素权值的要素形成模块3,例如,品牌要素、商品通用名称要素、单位要素、属性要素和型号要素,其中以Pi来表示第i个要素的要素权值,以n表示要素的个数,所有要素的要素权值之和为1;
利用该词库并按照每个要素将商品描述切词成至少一个要素关键词、以及格式化该至少一个要素关键词以统一要素关键词的格式的切词模块4;
以及,一针对每两件商品的子***5,其中该子***5还包括:
为每个要素建立分组映射的分组映射建立模块51,该分组映射为该两件商品的同一要素的要素关键词的集合;
计算每个分组映射的相似度的相似度计算模块52,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度;
计算该两件商品的匹配分值的匹配分值计算模块53,
Figure BSA00000581634100071
Figure BSA00000581634100072
将该匹配分值与一阈值比较的比较模块54,其中,若该匹配分值大于等于该阈值,则该两件商品相匹配,确定该两件商品为同一商品;若该匹配分值小于该阈值,则该两件商品不相匹配,确定该两件商品为不同商品。
另外,该子***5还包括一要素权值转移模块55,用于当第i个要素的分组映射的相似度Fi为0时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。
其中,该切词模块4还用于采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。另外,该切词模块4还用于采用常规词词库切除商品描述中的介词和/或助词。
接下来,参考图3,举一应用实例,进一步介绍本发明的商品匹配方法。
如图3所示,以两件用不同商品描述的商品为例,简述商品匹配方法中切词和匹配的步骤,其中,两件商品的商品描述分别为:海尔洗衣机XQS50-Z9288FM超低价5公斤双动力洗衣机,以及海尔洗衣机XQS50-Z9288FM。
首先,进行切词的步骤:
将一个商品描述分成7个要素并切词成要素关键词(一般来说,品牌要素必须存在),这7个要素分别为:
要素1:品牌要素,如“诺基亚”“夏新”(按商品类别划分,比如大家电有大家电的商品品牌关键词集合,手机也有自己的品牌关键词集合);
要素2:商品通用名称要素,如“洗衣粉”“空调”这样的通用名称;
要素3:单位要素,如:“20ml”“30kg”;
要素4:表示不同商品类别的商品属性的属性要素:如:大家电有“立柜”、“挂壁式”、“冷暖”、“双开”(冰箱的属性词);(一般属性是按商品类别划分的)
要素5:表示商品通用属性的属性要素:如商品颜色“红色”“银黑”之类的;
要素6:型号要素,一般以字符和数字以及一些连接符组成的连续字符串表示;
要素7:剩下的用通用切词方法切词后得到的关键词。
切词需要词库,这里的词库是按照分组进行分类的:如大家电的品牌有:“夏新”“长虹”“飞利浦”等。
按要素进行切词的需要按照一定的顺序,如要素6的切词需要放在要素3和要素1之后,因为如果要素6在要素1和要素3之前进行切词,则会导致一部分的英文的品牌或者商品单位描述进入要素6,导致不同要素的切词混淆而导致最终匹配结果的不准确。同时,需要一个按商品类别和要素划分类别同义词表,如手机的品牌同义词有:“nokia”对应“诺基亚”,“联想”对应“Lenovo”。大家电的通用名同义词有:“冰柜”与“电冰柜”同义,“陈列柜”与“展示柜”同义。通用的单位关键词同义词有:单位:“毫升”与“ml”同义,这样能统一相同含义的要素关键词以利于后续的匹配。
接下来进行匹配的步骤:切词是匹配的基础,在切词之后会得到7个要素,并且为两件商品的每个要素的建立分组映射,每个分组映射包含两件商品的该要素的所有要素关键词,在判断两个商品描述是否匹配的过程中,计算每个分组映射的相似度Fi,即两件商品的该要素的相同的要素关键词占该分组映射所有要素关键词的比例。
计算匹配分值:F1*P1+F2*P2+F3*P3+F4*P4+F5*P5+F6*P6+F7*P7,将匹配分值与阈值比较以得出结果,这里要素总数n=7。
不同的商品类别,其要素的分组映射在匹配过程中的作用是不同的,所以需要根据不同的商品类别设置不同的要素的要素权值。前期主要靠人工设置这些要素权值,后期希望设计一套机器学习的方法自动地设置这些要素权值。
当然,并不是任何情况都是按照这样的匹配分值进行匹配率的计算的,比如对于某些商品分类,如果分组1的Fi为1的情况下(表示是品牌匹配),分组6的Fi值也为1,则不需要考虑其他分组的匹配情况,可以直接认为商品是匹配的。
最后,参考图3,参照上述的要素1-7,简述一下切词和建立分组映射的过程。
要素1的分组映射:“海尔”、“海尔”;
要素2的分组映射:“洗衣机”、“洗衣机”;
要素3的分组映射:“5公斤”、无;
要素6的分组映射:“XQS50-Z9288FM”、“XQS50-Z9288FM”;
要素7的分组映射:“超低价、双动力”、无。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (12)

1.一种商品匹配方法,其特征在于,其包括以下步骤:
先针对每件商品:
根据商品的商品描述确定商品类别,并根据商品类别调用与该商品类别相应的词库;
将商品描述分为至少两个要素并为每个要素分配要素权值,其中以Pi来表示第i个要素的要素权值,以n表示要素的个数,所有要素的要素权值之和为1;
利用该词库并按照每个要素将商品描述切词成至少一个要素关键词,以及格式化该至少一个要素关键词以统一要素关键词的格式;
再针对每两件商品:
为每个要素建立分组映射,该分组映射为该两件商品的同一要素的要素关键词的集合;
计算每个分组映射的相似度,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度;
计算该两件商品的匹配分值,
Figure FSA00000581634000011
将该匹配分值与一阈值比较,若该匹配分值大于等于该阈值,则该两件商品相匹配,确定该两件商品为同一商品;若该匹配分值小于该阈值,则该两件商品不相匹配,确定该两件商品为不同商品。
2.如权利要求1所述的商品匹配方法,其特征在于,当第i个要素的分组映射的相似度Fi为0时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。
3.如权利要求1所述的商品匹配方法,其特征在于,采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。
4.如权利要求1-3中任意一项所述的商品匹配方法,其特征在于,该词库为品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库中的一种或多种。
5.如权利要求4所述的商品匹配方法,其特征在于,该利用该词库并按照每个要素将商品描述切词成至少一个要素关键词的步骤之前还包括以下步骤:采用常规词词库切除商品描述中的介词和/或助词。
6.如权利要求4所述的商品匹配方法,其特征在于,该至少两个要素选自以下要素:品牌要素、商品通用名称要素、单位要素、属性要素和型号要素。
7.一种商品匹配***,其特征在于,其包括:
根据商品的商品描述确定商品类别的商品类别识别模块;
根据商品类别调用与该商品类别相应的词库的词库调用模块;
将商品描述分为至少两个要素并为每个要素分配要素权值的要素形成模块,其中以Pi来表示第i个要素的要素权值,以n表示要素的个数,所有要素的要素权值之和为1;
利用该词库并按照每个要素将商品描述切词成至少一个要素关键词、以及格式化该至少一个要素关键词以统一要素关键词的格式的切词模块;以及,
一针对每两件商品的子***,其中该子***还包括:
为每个要素建立分组映射的分组映射建立模块,该分组映射为该两件商品的同一要素的要素关键词的集合;
计算每个分组映射的相似度的相似度计算模块,该相似度表示该分组映射中相同的要素关键词占所有要素关键词的比例,其中以Fi来表示第i个要素的分组映射的相似度;
计算该两件商品的匹配分值的匹配分值计算模块,
将该匹配分值与一阈值比较的比较模块,其中,若该匹配分值大于等于该阈值,则该两件商品相匹配,确定该两件商品为同一商品;若该匹配分值小于该阈值,则该两件商品不相匹配,确定该两件商品为不同商品。
8.如权利要求7所述的商品匹配***,其特征在于,该子***还包括一要素权值转移模块,用于当第i个要素的分组映射的相似度Fi为0时,将该第i个要素的要素权值Pi转移至其他要素的要素权值上。
9.如权利要求7所述的商品匹配***,其特征在于,该切词模块还用于采用一同义词词库统一同义词的方式、采用统一大小写的方式和采用替换半全角字符的方式中的一种或多种来格式化该至少一个要素关键词以统一要素关键词的格式。
10.如权利要求7-9中任意一项所述的商品匹配***,其特征在于,该词库为品牌词库、商品通用名称词库、单位词库、属性词库、型号词库和常规词词库中的一种或多种。
11.如权利要求10所述的商品匹配***,其特征在于,该切词模块还用于采用常规词词库切除商品描述中的介词和/或助词。
12.如权利要求10所述的商品匹配***,其特征在于,该至少两个要素选自以下要素:品牌要素、商品通用名称要素、单位要素、属性要素和型号要素。
CN201110288717A 2011-09-23 2011-09-23 商品匹配方法及*** Pending CN102332137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110288717A CN102332137A (zh) 2011-09-23 2011-09-23 商品匹配方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110288717A CN102332137A (zh) 2011-09-23 2011-09-23 商品匹配方法及***

Publications (1)

Publication Number Publication Date
CN102332137A true CN102332137A (zh) 2012-01-25

Family

ID=45483902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110288717A Pending CN102332137A (zh) 2011-09-23 2011-09-23 商品匹配方法及***

Country Status (1)

Country Link
CN (1) CN102332137A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309886A (zh) * 2012-03-13 2013-09-18 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
WO2013170587A1 (zh) * 2012-05-14 2013-11-21 华为技术有限公司 一种多媒体问答***及方法
CN103810468A (zh) * 2012-11-05 2014-05-21 东芝泰格有限公司 商品识别装置及商品识别方法
CN103903249A (zh) * 2012-12-27 2014-07-02 纽海信息技术(上海)有限公司 图像匹配***及方法
CN104765858A (zh) * 2015-04-21 2015-07-08 北京航天长峰科技工业集团有限公司上海分公司 公安用同义词库的构建方法及获得的公安用同义词库
CN104978356A (zh) * 2014-04-10 2015-10-14 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
CN105005917A (zh) * 2015-07-07 2015-10-28 上海晶赞科技发展有限公司 一种通用的关联不同电商网站单品的方法
CN105354194A (zh) * 2014-08-19 2016-02-24 上海中怡通信息科技有限公司 商品智能归类方法和***
CN106096609A (zh) * 2016-06-16 2016-11-09 武汉大学 一种基于ocr的商品查询关键字自动生成方法
CN103235803B (zh) * 2013-04-17 2016-12-28 北京京东尚科信息技术有限公司 一种从文本中获取物品属性值的方法和装置
CN107133218A (zh) * 2017-05-26 2017-09-05 北京惠商之星网络科技有限公司 商品名称智能匹配方法、***及计算机可读存储介质
CN107220334A (zh) * 2017-05-25 2017-09-29 北京小度信息科技有限公司 商户名称的相似度计算方法、装置及设备
CN108960923A (zh) * 2018-07-09 2018-12-07 北京百悟科技有限公司 一种定价的方法、装置及计算机存储介质
CN110083678A (zh) * 2019-03-12 2019-08-02 平安科技(深圳)有限公司 一种电商平台商品匹配方法、装置及可读存储介质
CN110968685A (zh) * 2018-09-26 2020-04-07 阿里巴巴集团控股有限公司 商品名称的归集方法和装置
CN112199451A (zh) * 2020-09-30 2021-01-08 京东数字科技控股股份有限公司 商品识别方法、装置、计算机设备及存储介质
CN112784861A (zh) * 2019-11-07 2021-05-11 北京沃东天骏信息技术有限公司 相似度的确定方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932817A (zh) * 2006-09-15 2007-03-21 陈远 通用互联网内容关键词交互***
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932817A (zh) * 2006-09-15 2007-03-21 陈远 通用互联网内容关键词交互***
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309886B (zh) * 2012-03-13 2017-05-10 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
CN103309886A (zh) * 2012-03-13 2013-09-18 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
WO2013170587A1 (zh) * 2012-05-14 2013-11-21 华为技术有限公司 一种多媒体问答***及方法
CN103425640A (zh) * 2012-05-14 2013-12-04 华为技术有限公司 一种多媒体问答***及方法
CN103810468A (zh) * 2012-11-05 2014-05-21 东芝泰格有限公司 商品识别装置及商品识别方法
CN103903249A (zh) * 2012-12-27 2014-07-02 纽海信息技术(上海)有限公司 图像匹配***及方法
CN103903249B (zh) * 2012-12-27 2017-10-13 北京京东尚科信息技术有限公司 图像匹配***及方法
CN103235803B (zh) * 2013-04-17 2016-12-28 北京京东尚科信息技术有限公司 一种从文本中获取物品属性值的方法和装置
CN104978356A (zh) * 2014-04-10 2015-10-14 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
CN104978356B (zh) * 2014-04-10 2019-09-06 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
CN105354194A (zh) * 2014-08-19 2016-02-24 上海中怡通信息科技有限公司 商品智能归类方法和***
CN104765858A (zh) * 2015-04-21 2015-07-08 北京航天长峰科技工业集团有限公司上海分公司 公安用同义词库的构建方法及获得的公安用同义词库
CN105005917A (zh) * 2015-07-07 2015-10-28 上海晶赞科技发展有限公司 一种通用的关联不同电商网站单品的方法
CN106096609A (zh) * 2016-06-16 2016-11-09 武汉大学 一种基于ocr的商品查询关键字自动生成方法
CN106096609B (zh) * 2016-06-16 2019-03-19 武汉大学 一种基于ocr的商品查询关键字自动生成方法
CN107220334A (zh) * 2017-05-25 2017-09-29 北京小度信息科技有限公司 商户名称的相似度计算方法、装置及设备
CN107133218A (zh) * 2017-05-26 2017-09-05 北京惠商之星网络科技有限公司 商品名称智能匹配方法、***及计算机可读存储介质
CN108960923A (zh) * 2018-07-09 2018-12-07 北京百悟科技有限公司 一种定价的方法、装置及计算机存储介质
CN110968685A (zh) * 2018-09-26 2020-04-07 阿里巴巴集团控股有限公司 商品名称的归集方法和装置
CN110968685B (zh) * 2018-09-26 2023-06-20 阿里巴巴集团控股有限公司 商品名称的归集方法和装置
CN110083678A (zh) * 2019-03-12 2019-08-02 平安科技(深圳)有限公司 一种电商平台商品匹配方法、装置及可读存储介质
CN112784861A (zh) * 2019-11-07 2021-05-11 北京沃东天骏信息技术有限公司 相似度的确定方法、装置、电子设备和存储介质
CN112199451A (zh) * 2020-09-30 2021-01-08 京东数字科技控股股份有限公司 商品识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN102332137A (zh) 商品匹配方法及***
US10921956B2 (en) System and method for assessing content
CN101876981B (zh) 一种构建知识库的方法及装置
US8412517B2 (en) Dictionary word and phrase determination
KR101098703B1 (ko) 다수의 기입 시스템을 가진 언어들에 대한 관련 쿼리들을 식별하기 위한 시스템 및 방법
CN107038186B (zh) 生成标题、搜索结果展示、标题展示的方法及装置
CN102799591B (zh) 一种提供推荐词的方法及装置
US8010344B2 (en) Dictionary word and phrase determination
US9934293B2 (en) Generating search results
US10134076B2 (en) Method and system for attribute extraction from product titles using sequence labeling algorithms
US20120166429A1 (en) Using statistical language models for contextual lookup
CN105159998A (zh) 一种基于文档聚类关键词计算方法
US20030210249A1 (en) System and method of automatic data checking and correction
CN105404680A (zh) 一种搜索推荐方法及装置
CN105824833A (zh) 基于用户行为反馈的关键词推荐方法和***
CN109002432B (zh) 同义词的挖掘方法及装置、计算机可读介质、电子设备
CN102722498A (zh) 搜索引擎及其实现方法
CN104008186A (zh) 从目标文本中确定关键词的方法和装置
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN107609192A (zh) 一种搜索引擎的补充搜索方法和装置
CN105630813A (zh) 基于用户自定义模板的关键词推荐方法和***
EP2189917A1 (en) Facilitating display of an interactive and dynamic cloud with advertising and domain features
CN102982025A (zh) 一种搜索需求识别方法及装置
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
US20090077031A1 (en) System and method for creating full-text indexes of patent documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120125