CN113836916B - 物品品牌方的确定方法、装置及服务器 - Google Patents

物品品牌方的确定方法、装置及服务器 Download PDF

Info

Publication number
CN113836916B
CN113836916B CN202111140101.5A CN202111140101A CN113836916B CN 113836916 B CN113836916 B CN 113836916B CN 202111140101 A CN202111140101 A CN 202111140101A CN 113836916 B CN113836916 B CN 113836916B
Authority
CN
China
Prior art keywords
brand
party
target
candidate
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111140101.5A
Other languages
English (en)
Other versions
CN113836916A (zh
Inventor
李广
徐文斌安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Duodian Life Chengdu Technology Co ltd
Original Assignee
Duodian Life Chengdu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Duodian Life Chengdu Technology Co ltd filed Critical Duodian Life Chengdu Technology Co ltd
Priority to CN202111140101.5A priority Critical patent/CN113836916B/zh
Publication of CN113836916A publication Critical patent/CN113836916A/zh
Application granted granted Critical
Publication of CN113836916B publication Critical patent/CN113836916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种物品品牌方的确定方法、装置及服务器,包括:获取目标物品的物品描述数据;如果物品描述数据未包含目标关键词,对物品描述数据进行分词处理得到多个描述关键词;其中,目标关键词用于表征目标物品的目标品牌方;基于预先建立的打分模型和各个描述关键词,计算多个第一候选品牌方的总打分值;根据每个第一候选品牌方的打分值,确定目标物品的目标品牌方。本发明可以实现物品与品牌方的自动匹配,不仅显著降低确定物品品牌方的成本,而且有效提高确定物品品牌方的准确率。

Description

物品品牌方的确定方法、装置及服务器
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种物品品牌方的确定方法、装置及服务器。
背景技术
在新零售时代,本土商超都在积极进行数字化转型。而在零售中最重要的一环就是商品,无论是在传统ERP(Enterprise Resource Planning,企业资源计划)***还是数智化操作***,其商品信息的准确,才是整个业务流转的根本。在此之中,品牌是商品基础属性之一,当商超向用户展示商品数据,尤其是以品牌商的角度进行采购订货、毛利结算和数据分析时,商品所属品牌商的真实准确性为尤为重要。目前,确定商品所属品牌的主要方式为零售商的门店人员或运营人员在商品管理***中手动录入商品品牌,从而维护商品与品牌之间的关系,然而,手动录入的方式存在成本较高、准确率较低等问题。
发明内容
有鉴于此,本发明的目的在于提供一种物品品牌方的确定方法、装置及服务器,可以实现物品与品牌方的自动匹配,不仅显著降低确定物品品牌方的成本,而且有效提高确定物品品牌方的准确率。
第一方面,本发明实施例提供了一种物品品牌方的确定方法,包括:获取目标物品的物品描述数据;如果所述物品描述数据未包含目标关键词,对所述物品描述数据进行分词处理得到多个描述关键词;其中,所述目标关键词用于表征所述目标物品的目标品牌方;基于预先建立的打分模型和各个所述描述关键词,计算多个第一候选品牌方的总打分值;根据每个所述第一候选品牌方的所述总打分值,确定所述目标物品的目标品牌方。
在一种实施方式中,所述物品描述数据至少包括国条码和物品名称;所述如果所述物品描述数据未包含目标关键词,对所述物品描述数据进行分词处理得到多个描述关键词的步骤,包括:提取所述国条码中指定字段,确定所述目标物品的厂商识别码;在预先建立的归属数据库中查找与所述厂商识别码匹配的至少一个第二候选品牌方;其中,所述归属数据库至少包括历史识别码与品牌方集合之间的映射关系,所述品牌方集合包括至少一个历史品牌方;判断所述物品名称中是否包含与所述第二候选品牌方对应的目标关键词;如果否,对所述物品名称进行分词处理得到多个描述关键词。
在一种实施方式中,所述基于预先建立的打分模型和各个所述描述关键词,计算多个第一候选品牌方的总打分值的步骤,包括:在所述归属数据库中分别确定每个所述描述关键词对应的第一候选品牌方;其中,所述归属数据库还包括历史品牌方与关键词集合之间的映射关系,所述关键词集合包括至少一个历史关键词;对于每个第一候选品牌方,基于预先建立的打分模型确定各个所述描述关键词针对该第一候选品牌方的子打分值,将各个子打分值的和值作为该第一候选品牌方的总打分值。
在一种实施方式中,所述方法还包括:对于每个历史品牌方,对该历史品牌方对应的关键词集合中每个历史关键词进行统计处理,确定每个历史关键词针对该历史品牌方的第一频次和第二频次;其中,所述第一频次用于表征所述历史关键词在该历史品牌方对应的关键词集合中出现的次数,所述第二频次用于表征所述历史关键词在每个历史品牌方对应的关键词集合中出现的次数;每个历史关键词针对该历史品牌方的第一频次和第二频次,确定每个历史关键词针对该品牌方的子打分值。
在一种实施方式中,所述子打分值与所述第一频次呈正相关,所述子打分值与所述第二频次呈负相关。
在一种实施方式中,所述根据每个所述第一候选品牌方的所述总打分值,确定所述目标物品的目标品牌方的步骤,包括:基于每个所述第一候选品牌方的所述总打分值,从所述第一候选品牌方中确定第三候选品牌方;将打分值最高的第三候选品牌方,确定为所述目标物品的目标品牌方。
在一种实施方式中,所述基于每个所述第一候选品牌方的所述总打分值,从所述第一候选品牌方中确定第三候选品牌方的步骤,包括:对于每个所述第一候选品牌方,判断该第一候选品牌方的所述总打分值是否大于预设阈值;如果是,将该第一候选品牌方确定为第三候选品牌方。
第二方面,本发明实施例还提供一种物品品牌方的确定装置,包括:数据获取模块,用于获取目标物品的物品描述数据;分词模块,用于如果所述物品描述数据未包含目标关键词,对所述物品描述数据进行分词处理得到多个描述关键词;其中,所述目标关键词用于表征所述目标物品的目标品牌方;打分值计算模块,用于基于预先建立的打分模型和各个所述描述关键词,计算多个第一候选品牌方的总打分值;品牌方确定模块,用于根据每个所述第一候选品牌方的所述总打分值,确定所述目标物品的目标品牌方。
第三方面,本发明实施例还提供一种服务器,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现第一方面提供的任一项所述的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现第一方面提供的任一项所述的方法。
本发明实施例提供的一种物品品牌方的确定方法、装置及服务器,如果获取的目标物品的物品描述数据未包含用于表征目标物品所属目标品牌方的目标关键词,则对物品描述数据进行分词处理得到多个描述关键词,然后基于预先建立的打分模型和各个描述关键词,计算多个第一候选品牌方的总打分值,从而根据每个第一候选品牌方的总打分值,确定目标物品的目标品牌方。上述方法在物品描述数据中不包含目标关键词时,将利用打分模型和描述关键词对第一候选品牌方进行打分,从而基于每个第一候选品牌方的总打分值确定出目标品牌方,进而实现目标物品所属的目标品牌方的自动品牌方,相较于现有技术中采用手动录入物品所属品牌方的方式,本发明实施例不仅显著降低确定物品品牌方的成本,而且有效提高确定物品品牌方的准确率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种物品品牌方的确定方法的流程示意图;
图2为本发明实施例提供的一种商品管理***的架构图;
图3为本发明实施例提供的一种打分模型的示意图;
图4为本发明实施例提供的另一种物品品牌方的确定方法的流程示意图;
图5为本发明实施例提供的一种物品品牌方的确定装置的结构示意图;
图6为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,手动录入商品所属品牌方的方式存在以下问题:(1)1)电商平台商品呈百万级数量,人工维护成本过高;(2)人工维护极易产生人为操作错误,导致商品品牌信息录入的正确性较低。基于此,本发明实施提供了一种物品品牌方的确定方法、装置及服务器,可以实现物品与品牌方的自动匹配,不仅显著降低确定物品品牌方的成本,而且有效提高确定物品品牌方的准确率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种物品品牌方的确定方法进行详细介绍,参见图1所示的一种物品品牌方的确定方法的流程示意图,该方法主要包括以下步骤S102至步骤S108:
步骤S102,获取目标物品的物品描述数据。其中,目标物品也即待匹配品牌的商品,物品描述信息可以包括国条码和物品名称,还可以包括物品描述文本等。在一种实施方式中,可以为用户提供上传通道,以供用户通过该上传通道上传目标物品的物品描述数据,也可以通过扫码或图像识别等方式获取物品描述信息,例如,用户通过扫码设备扫描目标物品的国条码所在区域,即可自动读取目标物品的物品描述数据。
步骤S104,如果物品描述数据未包含目标关键词,对物品描述数据进行分词处理得到多个描述关键词。其中,目标关键词用于表征目标物品的目标品牌方,描述关键词可以用于保证目标物品的特征。在一种实施方式中,可以先基于国条码确定目标物品的品牌范围,再判断物品名称中是否包含属于该品牌范围的目标关键词,例如,基于国条码确定品牌范围包括“伊利”、“蒙牛”、“力士”,然后判断物品名称中是否包含“伊利”、“蒙牛”、“力士”等目标关键词,当不存在上述目标关键词时将对物品名称进行分词处理。可选的,可以直接将对物品名称进行分词处理得到的分词作为描述关键词,也可以进一步对分词进行筛选并将筛选后的分词作为描述关键词,从而提高确定目标物品所属目标归属方的整体效率。
步骤S106,基于预先建立的打分模型和各个描述关键词,计算多个第一候选品牌方的总打分值。其中,打分模型包括多个历史品牌方以及每个历史品牌方对应的历史关键词的子打分值。在一种实施方式中,可以基于描述关键词确定出目标物品的至少一个第一候选品牌方,然后基于打分模型确定出每个描述关键词针对各个第一候选品牌方的子打分值,通过计算每个描述关键词针对各个第一候选品牌方的子打分值的和值,即可得到各个第一候选品牌方的总打分值。
步骤S108,根据每个第一候选品牌方的总打分值,确定目标物品的目标品牌方。在一种实施方式中,可以将总打分值最高的第一候选品牌方确定为目标品牌方;在另一种实施方式中,考虑到存在每个第一候选品牌方的总打分值均较低的情况,因此为提高目标品牌方的准确性,可以先对第一候选品牌方的总打分值是否大与预设阈值进行判断,以从中筛选出可靠性较高的第三候选品牌方,从而再将总打分值最高的第三候选品牌方确定为目标品牌方,而在第一候选品牌方的总打分值均低于该预设阈值情况下,将不会从第一候选品牌方中确定目标品牌方。
本发明实施例提供的上述物品品牌方的确定方法,在物品描述数据中不包含目标关键词时,将利用打分模型和描述关键词对第一候选品牌方进行打分,从而基于每个第一候选品牌方的总打分值确定出目标品牌方,进而实现目标物品所属的目标品牌方的自动品牌方,相较于现有技术中采用手动录入物品所属品牌方的方式,本发明实施例不仅显著降低确定物品品牌方的成本,而且有效提高确定物品品牌方的准确率。
在一种实施方式中,服务器中部署有商品管理***,从而基于商品管理***执行上述物品品牌方的确定方法,其思路如下所示:从商品相关***中收集商品样本数据,从样本数据中抽取出商品核心关键词(也即,上述历史关键词)、历史厂商识别码(也即,上述历史识别码)等核心特征数据,并形成品牌分词语料库(也即,上述归属数据库)。然后利用该品牌分词语料库与核心特征数据,构建出规则匹配与TFIDF(term frequency–inversedocument frequency)模型组合模型,对于后续每个需要待匹配品牌的商品,从商品的商品描述数据中抽取出描述关键词和厂商识别码,并利用组合模型对商品所属的目标品牌方进行匹配。为便于理解,本发明实施例提供了如图2所示的一种商品管理***的架构图,该商品管理***包括商品语料预处理单元、规则匹配单元和模型预测单元,还包括商品数据集和业务数据库。
对于上述商品语料预处理单元,负责对收集的样本数据或商品描述数据进行样本筛选并进行结构化预处理,结构化预处理包括分词处理和识别码提取处理,分词处理指对每个商品的商品名称与商品描述文本进行分词处理,识别码提取处理指从国条码中提取出厂商识别码,可选的,提取国条码的指定字段即可得到厂商识别码,例如,国条码中前7个数字即为厂商识别码。此外,对于样本数据,还可以从分词中筛选出与对应品牌相关性较强的商品核心关键词,从而得到归属数据库,归属数据库可以包括历史识别码与品牌方集合之间的映射关系,还可以包括归属数据库还包括历史品牌方与关键词集合之间的映射关系,还可以包括商品SKU ID(Stock Keeping Unit-Identity document,库存量单位-唯一编码),品牌方集合包括至少一个历史品牌方,关键词集合包括至少一个历史关键词。归属数据库中存储的品牌分词语料如下表1所示:
表1
Figure BDA0003283509630000081
对于上述规则匹配单元,负责基于归属数据库,对待匹配商品(也即,上述目标物品)进行自定义规则匹配来确认该待匹配商品所属的目标品牌方,在一种实施方式中,上述匹配规则包括厂商识别码匹配和关键词匹配。其中,厂商识别码匹配用于寻找待匹配商品的所属品牌范围,关键词匹配用于在该品牌范围内确定待匹配商品所属的唯一品牌(也即,上述目标品牌方)。示例性的,匹配得到的商品数据结构如下表2所示:
表2
Figure BDA0003283509630000082
Figure BDA0003283509630000091
基于上述规则匹配单元,本发明实施例提供了一种步骤S104的实施方式,参见如下步骤a至步骤e:
步骤a,提取国条码中指定字段,确定目标物品的厂商识别码。例如,提取国条码“6907992104554”中的前7个数字“6907992”,该“6907992”即为厂商识别码。
步骤b,在预先建立的归属数据库中查找与厂商识别码匹配的至少一个第二候选品牌方。有上述表1可知,归属数据库中包含厂商识别码与匹配方之间的映射关系,因此可以在归属数据库中查找厂商识别码对应的第二候选品牌方,由于在实际应用中,一个厂商可能生产多家品牌的商品,因此第二候选品牌方的数量可能为一个或多个。例如,厂商识别码“6907992”对应的品牌范围包括“伊利”和“蒙牛”。
步骤c,判断物品名称中是否包含与第二候选品牌方对应的目标关键词。如果是,执行步骤d;如果否,执行步骤e。示例性的,如果物品名称中包含“伊利”,则直接将“伊利”确定为目标品牌方,如果物品名称不包含“伊利”和“蒙牛”,则对物品名称进行分词处理。
步骤d,如果否,对物品名称进行分词处理得到多个描述关键词。
步骤e,将目标关键词所表征的品牌方确定为目标品牌方。
本发明实施例基于厂商识别码,结合商品的描述关键词,提高了确定目标物品所属目标品牌方的正确率。
对于上述模型预测单元,负责使用TFIDF统计规则构建打分模型(也可称之为,TFIDF模型或品牌概率预测模型),从而通过打分模型对商品的目标品牌方进行预测。其特征数据来源于商品语料预处理单元中的商品分词结果。该模型主要包含模型构建与模型预测两部分。
对于模型构建部分,模型构建的主要目的是为每个品牌下出现的商品关键词打分,打分规则主要基于TFIDF统计规则,本发明实施例提供了如下步骤1至步骤2所示打分模型建立方法:
步骤1,对于每个历史品牌方,对该历史品牌方对应的关键词集合中每个历史关键词进行统计处理,确定每个历史关键词针对该历史品牌方的第一频次和第二频次。其中,第一频次用于表征历史关键词在该历史品牌方对应的关键词集合中出现的次数,第二频次用于表征历史关键词在每个历史品牌方对应的关键词集合中出现的次数。例如,对于品牌方“汰渍”,对应关键词集合1“汰渍、洗衣粉、洗衣液、全效、净白、熏香、薰衣草、高浓度、护衣、天然、洁净、洗衣皂、柠檬、除菌、衣领净”,以“洗衣粉”为例,确定“洗衣粉”在上述关键词集合1中出现的次数x(也即,第一频次),以及确定“洗衣粉”在品牌分词语料库所包含的所有语料中出现的次数y(也即,第二频次)。
步骤2,每个历史关键词针对该历史品牌方的第一频次和第二频次,确定每个历史关键词针对该品牌方的子打分值。在一种实施方式中,历史关键词在所属品牌方中出现频次越高,则子打分值越高,同时历史关键词在品牌分词语料库中出现频次越高,则子打分值越低,也即子打分值与第一频次呈正相关,子打分值与第二频次呈负相关。示例性的,参见图3所示的一种打分模型的示意图,打分模型定义了每个品牌方下每个关键词的子打分值,以品牌方“汰渍”为例,其中,关键词“汰渍”的子打分值为5.1、关键词“洗衣粉”的子打分值为2.1、关键词“洗衣液”的子打分值为1.9。
基于上述打分模型,在后续应用中,对待预测商品先使用商品语料预处理单元中的分词库进行分词,再对每一个关键词在某个品牌方的子打分值的和值作为评判标准,将总打分值最高的品牌方作为最终选定品牌(也即,目标品牌方)。本发明实施例还提供了一种基于预先建立的打分模型和各个描述关键词,计算多个第一候选品牌方的总打分值的实施方式,参见如下(1)至(2):
(1)在归属数据库中分别确定每个描述关键词对应的第一候选品牌方。例如,目标物品的物品名称为"天然精华洗衣液",对其分词后得到描述关键词[“天然”,“精华”,“洗衣液”],在归属数据库的每个品牌方对应的关键词集合中查找是否包含“天然”,“精华”,“洗衣液”关键字,假设“汰渍”和“飘柔”中包含上述关键字,将该“汰渍”和“飘柔”确定为第一候选品牌方。
(2)对于每个第一候选品牌方,基于预先建立的打分模型确定各个描述关键词针对该第一候选品牌方的子打分值,将各个子打分值的和值作为该第一候选品牌方的总打分值。请继续参见图3,图3示意出“天然”,“精华”,“洗衣液”针对“汰渍”和“飘柔”的子打分值,因此按照打分模型,其总打分值(用Score(n)表示)为分词结果在该品牌TFID模型下匹配词的得分总和,如下所示:
Score(汰渍)=天然:0.3+洗衣液:1.9=2.2;
Score(飘柔)=天然:0.2+精华:0.6=0.8。
本发明实施例对关键词构建打分模型,可以在商品无厂商识别码的情况下,准确输出目标物品所属目标品牌方。
本发明实施例还提供了一种根据每个第一候选品牌方的总打分值,确定目标物品的目标品牌方的实施方式,请参见如下(一)至(二):
(一)基于每个第一候选品牌方的总打分值,从第一候选品牌方中确定第三候选品牌方。在一种可选的实施方式中,对于每个第一候选品牌方,判断该第一候选品牌方的总打分值是否大于预设阈值;如果是,将该第一候选品牌方确定为第三候选品牌方。例如,预设阈值为0.7,由于Score(汰渍)和Score(飘柔)均大于0.7,因此,将“汰渍”和“飘柔”均确定为第三候选品牌方。
(二)将总打分值最高的第三候选品牌方,确定为目标物品的目标品牌方。例如,由于Score(汰渍)>Score(飘柔),因此,将“汰渍”确定为目标物品的目标品牌方。
为便于理解,本发明实施例提供了一种物品品牌方的确定方法的应用示例,参见图4所示的另一种物品品牌方的确定方法的流程示意图,该方法主要包括以下步骤S402至步骤S418:
步骤S402,加载待匹配商品的商品数据和厂商识别码数据,其中,商品数据包括上述商品名称和商品描述文本。例如,商品名称为“兰花长效洁顺水润750g洗发露优惠装”,厂商识别码数据为“6903148”。
步骤S404,判断待匹配商品的国条码是否可匹配厂商识别码。如果是,执行步骤S406;如果否,执行步骤S412。在一种实施方式中,在品牌分词语料库中查找厂商识别码“6903148”,如果查找到厂商识别码“6903148”,则执行步骤S406,如果未查找到厂商识别码“6903148”,则执行步骤S412。
步骤S406,获取厂商识别码对应的品牌范围。例如,在品牌分词语料库中查找到与厂商识别码“6903148”对应的品牌范围包括“力士、飘柔、潘婷”。
步骤S408,获取与匹配范围关联的历史关键词。在一种实施方式中,匹配范围包括多个第二候选品牌方,每个第二候选品牌方均对应有多个历史关键词,历史关键词可以包括用于表征所属品牌方的关键词。例如,与匹配范围关联的历史关键词包括“力士、飘柔、潘婷”。
步骤S410,判断商品名称是否存在目标关键词。如果是,执行步骤S418;如果否,执行步骤S412。假设商品名称为“兰花长效洁顺水润750g洗发露优惠装”,其中不包含与上述历史关键词匹配的词汇,因此执行步骤S412。假设商品名称为“飘柔兰花长效洁顺水润750g洗发露优惠装”,其中包含与上述历史关键词匹配的词汇“飘柔”,因此执行步骤S418。
步骤S412,将商品名称输入分词模型得到分词列表。其中,该分词模型用于对商品名称进行分词处理,分词列表也即通过列表形式展示上述描述关键词。
步骤S414,将分词列表通过TFIDF模型进行分数预测,输出商品名称对应的第一候选品牌方和第一候选品牌方的总分数值。
步骤S416,判断第一候选品牌方的总分数值是否大于预设阈值。如果是,则将总分数值最高的第一候选品牌方作为目标品牌方;如果否,结束。
步骤S418,写入待匹配商品和目标品牌方到业务数据库。
本发明实施例提供的上述物品品牌方的确定方法,品牌预测流程是针对待匹配商品,待匹配商品的物品描述数据经过规则匹配模块和模型预测模块后,从而得到待匹配商品所属目标品牌方的流程。整个流程是首先从商品相关***中加载待匹配商品的物品描述数据,然后确定厂商识别码和描述关键词,分别将国条码与厂商识别码进行匹配,以及商品名称与关键词进行匹配,若满足条件,则输出其准确的品牌关系。当不满足条件,可将商品名称进行分词处理,并通过TFIDF模型进行打分,获取达到阈值且得分最高的品牌关系。上述物品品牌方的确定方法至少具备以下特点:
(1)自动化商品品牌关系维护流程,能快速匹配商品品牌数据,降低了人工维护带来的人力成本开销。
(2)提高了商品品牌关系正确率,在提升数据准确性的同时,为后续商家品牌合作运营提供数据支撑。
(3)及时发现人工维护产生的错误数据,实现快速纠正。
对于前述实施例提供的物品品牌方的确定方法,本发明实施例提供了一种物品品牌方的确定装置,参见图5所示的一种物品品牌方的确定装置的结构示意图,该装置主要包括以下部分:
数据获取模块502,用于获取目标物品的物品描述数据;
分词模块504,用于如果物品描述数据未包含目标关键词,对物品描述数据进行分词处理得到多个描述关键词;其中,目标关键词用于表征目标物品的目标品牌方;
打分值计算模块506,用于基于预先建立的打分模型和各个描述关键词,计算多个第一候选品牌方的总打分值;
品牌方确定模块508,用于根据每个第一候选品牌方的总打分值,确定目标物品的目标品牌方。
本发明实施例提供的上述物品品牌方的确定装置,在物品描述数据中不包含目标关键词时,将利用打分模型和描述关键词对第一候选品牌方进行打分,从而基于每个第一候选品牌方的总打分值确定出目标品牌方,进而实现目标物品所属的目标品牌方的自动品牌方,相较于现有技术中采用手动录入物品所属品牌方的方式,本发明实施例不仅显著降低确定物品品牌方的成本,而且有效提高确定物品品牌方的准确率。
在一种实施方式中,物品描述数据至少包括国条码和物品名称;分词模块504还用于:提取国条码中指定字段,确定目标物品的厂商识别码;在预先建立的归属数据库中查找与厂商识别码匹配的至少一个第二候选品牌方;其中,归属数据库至少包括历史识别码与品牌方集合之间的映射关系,品牌方集合包括至少一个历史品牌方;判断物品名称中是否包含与第二候选品牌方对应的目标关键词;如果否,对物品名称进行分词处理得到多个描述关键词。
在一种实施方式中,打分值计算模块506还用于:在归属数据库中分别确定每个描述关键词对应的第一候选品牌方;其中,归属数据库还包括历史品牌方与关键词集合之间的映射关系,关键词集合包括至少一个历史关键词;对于每个第一候选品牌方,基于预先建立的打分模型确定各个描述关键词针对该第一候选品牌方的子打分值,将各个子打分值的和值作为该第一候选品牌方的总打分值。
在一种实施方式中,模型建立模块,用于:对于每个历史品牌方,对该历史品牌方对应的关键词集合中每个历史关键词进行统计处理,确定每个历史关键词针对该历史品牌方的第一频次和第二频次;其中,第一频次用于表征历史关键词在该历史品牌方对应的关键词集合中出现的次数,第二频次用于表征历史关键词在每个历史品牌方对应的关键词集合中出现的次数;每个历史关键词针对该历史品牌方的第一频次和第二频次,确定每个历史关键词针对该品牌方的子打分值。
在一种实施方式中,子打分值与第一频次呈正相关,子打分值与第二频次呈负相关。
在一种实施方式中,品牌方确定模块508还用于:基于每个第一候选品牌方的总打分值,从第一候选品牌方中确定第三候选品牌方;将打分值最高的第三候选品牌方,确定为目标物品的目标品牌方。
在一种实施方式中,品牌方确定模块508还用于:对于每个第一候选品牌方,判断该第一候选品牌方的总打分值是否大于预设阈值;如果是,将该第一候选品牌方确定为第三候选品牌方。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例提供了一种服务器,具体的,该服务器包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。
图6为本发明实施例提供的一种服务器的结构示意图,该服务器100包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种物品品牌方的确定方法,其特征在于,包括:
获取目标物品的物品描述数据;
如果所述物品描述数据未包含目标关键词,对所述物品描述数据进行分词处理得到多个描述关键词;其中,所述目标关键词用于表征所述目标物品的目标品牌方;
基于预先建立的打分模型和各个所述描述关键词,计算多个第一候选品牌方的总打分值;
根据每个所述第一候选品牌方的所述总打分值,确定所述目标物品的目标品牌方;
所述基于预先建立的打分模型和各个所述描述关键词,计算多个第一候选品牌方的总打分值的步骤,包括:
在归属数据库中分别确定每个所述描述关键词对应的第一候选品牌方;其中,所述归属数据库包括历史品牌方与关键词集合之间的映射关系,所述关键词集合包括至少一个历史关键词;
对于每个第一候选品牌方,基于预先建立的打分模型确定各个所述描述关键词针对该第一候选品牌方的子打分值,将各个子打分值的和值作为该第一候选品牌方的总打分值。
2.根据权利要求1所述的方法,其特征在于,所述物品描述数据至少包括国条码和物品名称;
所述如果所述物品描述数据未包含目标关键词,对所述物品描述数据进行分词处理得到多个描述关键词的步骤,包括:
提取所述国条码中指定字段,确定所述目标物品的厂商识别码;
在预先建立的归属数据库中查找与所述厂商识别码匹配的至少一个第二候选品牌方;其中,所述归属数据库至少包括历史识别码与品牌方集合之间的映射关系,所述品牌方集合包括至少一个历史品牌方;
判断所述物品名称中是否包含与所述第二候选品牌方对应的目标关键词;
如果否,对所述物品名称进行分词处理得到多个描述关键词。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对于每个历史品牌方,对该历史品牌方对应的关键词集合中每个历史关键词进行统计处理,确定每个历史关键词针对该历史品牌方的第一频次和第二频次;其中,所述第一频次用于表征所述历史关键词在该历史品牌方对应的关键词集合中出现的次数,所述第二频次用于表征所述历史关键词在每个历史品牌方对应的关键词集合中出现的次数;
每个历史关键词针对该历史品牌方的第一频次和第二频次,确定每个历史关键词针对该品牌方的子打分值。
4.根据权利要求3所述的方法,其特征在于,所述子打分值与所述第一频次呈正相关,所述子打分值与所述第二频次呈负相关。
5.根据权利要求1所述的方法,其特征在于,所述根据每个所述第一候选品牌方的所述总打分值,确定所述目标物品的目标品牌方的步骤,包括:
基于每个所述第一候选品牌方的所述总打分值,从所述第一候选品牌方中确定第三候选品牌方;
将打分值最高的第三候选品牌方,确定为所述目标物品的目标品牌方。
6.根据权利要求5所述的方法,其特征在于,所述基于每个所述第一候选品牌方的所述总打分值,从所述第一候选品牌方中确定第三候选品牌方的步骤,包括:
对于每个所述第一候选品牌方,判断该第一候选品牌方的所述总打分值是否大于预设阈值;
如果是,将该第一候选品牌方确定为第三候选品牌方。
7.一种物品品牌方的确定装置,其特征在于,包括:
数据获取模块,用于获取目标物品的物品描述数据;
分词模块,用于如果所述物品描述数据未包含目标关键词,对所述物品描述数据进行分词处理得到多个描述关键词;其中,所述目标关键词用于表征所述目标物品的目标品牌方;
打分值计算模块,用于基于预先建立的打分模型和各个所述描述关键词,计算多个第一候选品牌方的总打分值;
品牌方确定模块,用于根据每个所述第一候选品牌方的所述总打分值,确定所述目标物品的目标品牌方;
所述打分值计算模块还用于:
在归属数据库中分别确定每个所述描述关键词对应的第一候选品牌方;其中,所述归属数据库还包括历史品牌方与关键词集合之间的映射关系,所述关键词集合包括至少一个历史关键词;
对于每个第一候选品牌方,基于预先建立的打分模型确定各个所述描述关键词针对该第一候选品牌方的子打分值,将各个子打分值的和值作为该第一候选品牌方的总打分值。
8.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至6任一项所述的方法。
CN202111140101.5A 2021-09-28 2021-09-28 物品品牌方的确定方法、装置及服务器 Active CN113836916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111140101.5A CN113836916B (zh) 2021-09-28 2021-09-28 物品品牌方的确定方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111140101.5A CN113836916B (zh) 2021-09-28 2021-09-28 物品品牌方的确定方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN113836916A CN113836916A (zh) 2021-12-24
CN113836916B true CN113836916B (zh) 2023-06-20

Family

ID=78970784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111140101.5A Active CN113836916B (zh) 2021-09-28 2021-09-28 物品品牌方的确定方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN113836916B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521906B (zh) * 2023-04-28 2023-10-24 广州商研网络科技有限公司 元描述生成方法及其装置、设备、介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10387568B1 (en) * 2016-09-19 2019-08-20 Amazon Technologies, Inc. Extracting keywords from a document
CN110457568A (zh) * 2018-05-03 2019-11-15 北京京东尚科信息技术有限公司 品牌词的识别方法及***、对象推荐方法及***
CN110750985A (zh) * 2018-07-04 2020-02-04 阿里巴巴集团控股有限公司 品牌词识别方法、装置、设备及存储介质
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN111259660A (zh) * 2020-01-15 2020-06-09 中国平安人寿保险股份有限公司 基于文本对的关键词抽取方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10387568B1 (en) * 2016-09-19 2019-08-20 Amazon Technologies, Inc. Extracting keywords from a document
CN110457568A (zh) * 2018-05-03 2019-11-15 北京京东尚科信息技术有限公司 品牌词的识别方法及***、对象推荐方法及***
CN110750985A (zh) * 2018-07-04 2020-02-04 阿里巴巴集团控股有限公司 品牌词识别方法、装置、设备及存储介质
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN111259660A (zh) * 2020-01-15 2020-06-09 中国平安人寿保险股份有限公司 基于文本对的关键词抽取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113836916A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
KR101999471B1 (ko) 정보 추천 방법 및 장치
CN108346075B (zh) 信息推荐方法和装置
WO2017091825A1 (en) System and method for automatic validation
CN102609422A (zh) 类目错放识别方法和装置
CN109558541B (zh) 一种信息处理的方法、装置及计算机存储介质
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN105205188A (zh) 采购物料供应商的推荐方法及推荐装置
CN111291158B (zh) 一种信息查询方法、装置、电子设备及存储介质
WO2015190485A1 (ja) 知的財産権の評価の方法、システム、および、プログラム
CN112199451B (zh) 商品识别方法、装置、计算机设备及存储介质
US20230110941A1 (en) Data processing for enterprise application chatbot
CN113836916B (zh) 物品品牌方的确定方法、装置及服务器
US20170193608A1 (en) System and method for automatically generating reporting data based on electronic documents
CN112685635A (zh) 基于分类标签的项目推荐方法、装置、服务器和存储介质
CN112395881A (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN112818088A (zh) 商品搜索数据处理方法、装置、设备及存储介质
CN112199500A (zh) 针对评论的情感倾向识别方法、装置及电子设备
CN108595498B (zh) 问题反馈方法及装置
CN114328844A (zh) 一种文本数据集管理方法、装置、设备及存储介质
CN115331004A (zh) 一种基于有意义学习的零样本语义分割方法及装置
CN110956209B (zh) 模型训练和预测方法、装置、电子设备及存储介质
CN112598185A (zh) 农业舆情分析方法、装置、设备及存储介质
CN111695922A (zh) ***确定方法及装置、存储介质和电子设备
CN110807646A (zh) 数据分析方法、装置和计算机可读存储介质
US20240202604A1 (en) Machine learning techniques for validating and mutating outputs from predictive systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant