CN107766394A - 业务数据处理方法及其*** - Google Patents

业务数据处理方法及其*** Download PDF

Info

Publication number
CN107766394A
CN107766394A CN201610711264.7A CN201610711264A CN107766394A CN 107766394 A CN107766394 A CN 107766394A CN 201610711264 A CN201610711264 A CN 201610711264A CN 107766394 A CN107766394 A CN 107766394A
Authority
CN
China
Prior art keywords
business object
image
keyword
service
description information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610711264.7A
Other languages
English (en)
Other versions
CN107766394B (zh
Inventor
孙修宇
李�昊
华先胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610711264.7A priority Critical patent/CN107766394B/zh
Publication of CN107766394A publication Critical patent/CN107766394A/zh
Application granted granted Critical
Publication of CN107766394B publication Critical patent/CN107766394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种业务数据处理方法及其***,其中所述方法包括:提取多个业务对象对应的图像的图像描述特征;根据所述图像描述特征在所述多个业务对象中确定图像相关的业务对象;提取所述图像相关的业务对象的文字说明信息,根据所述文字说明信息确定所述图像相关的业务对象的关键词;根据所述图像相关的业务对象的关键词确定业务类型相关的业务对象;确定所述业务类型相关的业务对象的描述信息。通过本申请能够提高数据挖掘结果的精度和召回率。

Description

业务数据处理方法及其***
技术领域
本申请涉及计算机技术领域,尤其涉及一种业务数据处理方法及其***。
背景技术
目前,电子商务平台包含有大量的(上亿)商品,这些商品的信息大都是由卖家用户自行编辑添加的。由于没有统一的标准,卖家所填写的商品标题、商品属性、细节描述等文字信息的正确性参差不齐,因此直接使用卖家提供的信息所得到的效果会很差;同时尝试利用这些信息所建立的同类商品关系图的准确度也较低。
并且,由于现有的图像算法的局限,只使用图像信息所能构建出来的同类商品关系图的准确度高于基于文字建立的同类商品关系图,但是召回率也比较低。
综上所述,基于现有技术中存在的商品等业务对象对应的信息不准确的问题,因此有必要提出改进的技术手段解决上述问题。
发明内容
本申请的主要目的在于提供一种业务数据处理方法及其***,以解决现有技术中存在的上述的问题。
为了解决上述问题,根据本申请实施例提供一种业务数据处理方法,其包括:提取多个业务对象对应的图像的图像描述特征;根据所述图像描述特征在所述多个业务对象中确定图像相关的业务对象;提取所述图像相关的业务对象的文字说明信息,根据所述文字说明信息确定所述图像相关的业务对象的关键词;根据所述图像相关的业务对象的关键词确定业务类型相关的业务对象;确定所述业务类型相关的业务对象的描述信息。
其中,所述根据所述图像描述特征在所述多个业务对象中确定图像相关的业务对象的步骤,包括:根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的业务对象确定为图像相关的业务对象。
其中,所述根据所述文字说明信息确定所述图像相关的业务对象的关键词的步骤,包括:对所述文字说明信息进行分词处理,将分词处理得到的每个词分别与预设的关键词字典进行匹配得到关键词;统计关键词的出现频率,将出现频率大于预设阈值的关键词确定为所述图像相关的业务对象的关键词。
其中,所述根据所述图像相关的业务对象的关键词确定业务类型相关的业务对象的步骤,包括:比较多个图像相关的业务对象的关键词的相似度,将该相似度大于预设阈值的业务对象确定为业务类型相关的业务对象。
其中,所述业务对象的描述信息包括:文字描述信息;所述确定所述业务类型相关的业务对象的描述信息的步骤,包括:统计所述业务类型相关的业务对象的关键词的出现频率,将出现频率大于预设阈值的关键词确定为所述业务类型相关的业务对象的文字描述信息;
其中,所述业务对象的描述信息包括:图像描述信息;所述确定所述业务类型相关的业务对象的描述信息的步骤,包括:提取所述业务类型相关的业务对象对应的图像的图像描述特征;根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的图像确定为所述业务类型相关的业务对象的图像描述信息。
其中,所述图像描述特征包括:SIFT特征、CNN特征、SURF特征、颜色特征、纹理直方图特征。
根据本申请实施例还提供一种业务数据处理***,其包括:图像描述特征提取模块,用于提取多个业务对象对应的图像的图像描述特征;同图业务对象确定模块,用于根据所述图像描述特征在所述多个业务对象中确定图像相关的业务对象;关键词确定模块,用于提取所述图像相关的业务对象的文字说明信息,根据所述文字说明信息确定所述图像相关的业务对象的关键词;同类业务对象确定模块,用于根据所述图像相关的业务对象的关键词确定业务类型相关的业务对象;描述信息确定模块,用于确定所述业务类型相关的业务对象的描述信息。
其中,所述同图业务对象确定模块还用于,根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的业务对象确定为图像相关的业务对象。
其中,所述关键词确定模块还用于,对所述文字说明信息进行分词处理,将分词处理得到的每个词分别与预设的关键词字典进行匹配得到关键词;统计关键词的出现频率,将出现频率大于预设阈值的关键词确定为所述图像相关的业务对象的关键词。
其中,所述同类业务对象确定模块还用于,比较多个图像相关的业务对象的关键词的相似度,将该相似度大于预设阈值的业务对象确定为业务类型相关的业务对象。
其中,所述业务对象的描述信息包括:文字描述信息;所述描述信息确定模块包括:文字描述信息确定模块,用于统计所述业务类型相关的业务对象的关键词的出现频率,将出现频率大于预设阈值的关键词确定为所述业务类型相关的业务对象的文字描述信息;
其中,所述业务对象的描述信息包括:图像描述信息;所述描述信息确定模块包括:图像描述信息确定模块,用于提取所述业务类型相关的业务对象对应的图像的图像描述特征;根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的图像确定为所述业务类型相关的业务对象的图像描述信息。
其中,所述图像描述特征包括:SIFT特征、CNN特征、SURF特征、颜色特征、纹理直方图特征。
根据本申请的上述技术方案,通过利用图像信息构建同图业务,根据同图业务关系筛选置信度较高的文字关键字,利用确定的文字关键字建立基于文字的同类业务关系,根据所建立的同类业务关系通过统计方法挖掘置信度较高的描述信息,从而有效提高数据挖掘结果的精度和召回率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一个实施例的业务数据处理方法的流程图;
图2是根据本申请另一实施例的业务数据处理方法的流程图;
图3是根据本申请实施例的业务数据处理***的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是根据本申请实施例的业务数据处理方法的流程图,如图1所示,该方法包括:
步骤S102,提取多个业务对象对应的图像的图像描述特征。
在本申请实施例中,业务对象对应的图像可以是展示图像、晒图等所有对应的图像。其中,所述图像描述特征能够表示图像的本质特征,包括但不限于:SIFT特征、CNN特征、SURF特征、颜色特征、纹理直方图特征。
提取业务数据对应的图像的图像描述特征,根据所述图像描述特征创建同图业务关系。
步骤S104,根据所述图像描述特征在所述多个业务对象中确定图像相关的业务对象。
具体而言,根据业务对象的图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的业务对象确定为图像相关的业务对象。也就是说,将图像相似的业务对象聚合在一起,对这些业务对象建立同图业务关系。在本申请中,图像相关的业务对象也可称为同图业务对象。
步骤S106,提取所述图像相关的业务对象的文字说明信息,根据所述文字说明信息确定所述图像相关的业务对象的关键词。
首先,提取同图业务对象的文字说明信息,其包括业务对象的标题、属性信息、简介、选项等文字说明信息;接着,对提取的文字说明信息进行分词处理,将分词处理后得到的每个词分别与预设的关键词字典进行匹配处理,从所述文字说明信息中得到预选的关键词;然后,统计预选的关键词的出现频率,并将出现频率大于预设阈值的关键词作为同图业务对象的关键词。
步骤S108,根据所述图像相关的业务对象的关键词确定业务类型相关的业务对象。
在确定同图业务对象的关键词之后,比较同图业务对象的关键词的相似度,若相似度大于预设阈值则判断同图业务对象为业务类型相关的业务对象。在本申请中,业务类型相关的业务对象也可称为同类业务对象。
步骤S110,确定所述业务类型相关的业务对象的描述信息。
在本申请实施例中,同类业务对象的描述信息包括:文字描述信息和图像描述信息,下面分别描述。确定同类业务对象的文字描述信息包括:统计同类业务对象的关键词的出现频率,将出现频率大于预设阈值的关键词确定为同类业务对象的文字描述信息;确定同类业务对象的图像描述信息包括:提取所述业务类型相关的业务对象对应的图像的图像描述特征,根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的图像确定为所述业务类型相关的业务对象的图像描述信息。
下面结合图2详细描述上述处理的细节。图2是根据本申请另一实施例的业务数据处理方法的流程图,在本实施例中以电子商务网站的商品作为业务对象为例进行说明。如图2所示,所述方法包括以下步骤:
步骤S202,分别提取多个商品对应的图像的图像描述特征。
在本申请实施例中,业务对象对应的图像可以是电子商务网站的商品对应展示的图像、买家晒单图等所有商品对应的图像。其中,图像描述特征包括但不限于:CNN(Convolutional Neural Network,卷积神经网络)特征、SIFT(Scale-invariant featuretransform,尺度不变特征变换)、SURF(Speed-Up Robust Features,加速鲁棒)特征、颜色特征、纹理直方图特征。
步骤S204,根据图像描述特征确定同图商品。
在实际应用中,可以提取图像的一种或多种描述特征进行计算,下面以提取图像的CNN特征和SIFT特征为例说明。首先,计算不同图像之间基于CNN特征的相似度值和基于SIFT的图像相似度值;然后,加权CNN相似度值和SIFT相似度值的结果作为图像之间相似度的最终结果,并将图像相似度大于预设阈值的商品确定为同图商品。需要说明,本申请对加权系数不进行限定。
步骤S206,对确定的一组同图商品,提取其对应的文字说明信息,其中文字说明信息包括但不限于:标题、属性信息、简介、选项等文字说明信息。
步骤S208,根据同图商品的文字说明信息确定同图商品的关键字。
具体而言,对文字说明信息进行分词处理,然后将分词处理后得到的每个词与预设的关键词字典进行匹配,统计每个关键词出现的频率,将出现频率大于一定阈值的关键词认为是置信度较高的关键词,作为同图商品的关键词。其中,同图商品的关键词可以是一个或多个。
在实际应用中,在将分词处理后得到的每个词与关键词字典进行比较时,可以是比较二者的编辑距离或者word2vec编码后的余弦距离方式,还可以是将二者进行逐字比较,本申请对此不进行限定。
步骤S210,计算多个同图商品的关键词的相似度,将相似度大于一定阈值的商品确定为同类商品。
在实际应用中,对于确定的同图商品的关键词(置信度较高的关键词),可以使用预设的编码方式对关键词进行编码,判断获得的编码结果的相似度,将相似度大于一定阈值的商品确定为同类商品。
步骤S212,针对所确定的同类商品,统计步骤S208中所获得的所有关键词的出现频率并统计步骤S210中所有关键词的出现频率,将出现频率大于一定阈值的关键词作为最终高置信度的文字描述,即确定了同类商品的文字描述信息。
例如,步骤S210中关键词A的出现频率是A,步骤S212中关键词A的出现频率是B,最终的加权分数可以是C=a*A+b*B,其中,a和b值是人工选取的经验值,例如取0.5、0.5或者0.3、0.7等,本申请对此不进行限定。
步骤S216,针对所确定的同类商品,提取这些商品中所包含的所有图像(如展示图像、买家晒单图等和其他相关图像)的图像特征,计算同类商品中的图像之间的相似度,度量相似度结果,将图像相似度大于阈值的图像作为同类商品的高置信度的图片描述,即确定了同类商品的图像描述信息。
图3是根据本申请实施例的业务数据处理***的结构框图,如图3所示,该***包括:
图像描述特征提取模块310,用于提取多个业务对象对应的图像的图像描述特征。在本申请实施例中,业务对象对应的图像可以是展示图像、晒图等所有对应的图像。其中,所述图像描述特征能够表示图像的本质特征,包括但不限于:SIFT特征、CNN特征、SURF特征、颜色特征、纹理直方图特征。
同图业务对象确定模块320,用于根据所述图像描述特征在所述多个业务对象中确定图像相关的业务对象。具体地,所述同图业务对象确定模块320根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的业务对象确定为图像相关的业务对象。
关键词确定模块330,用于提取所述图像相关的业务对象的文字说明信息,根据所述文字说明信息确定所述图像相关的业务对象的关键词。具体地,所述关键词确定模块330对所述文字说明信息进行分词处理,将分词处理得到的每个词分别与预设的关键词字典进行匹配得到关键词;统计关键词的出现频率,将出现频率大于预设阈值的关键词确定为所述图像相关的业务对象的关键词。
同类业务对象确定模块340,用于根据所述图像相关的业务对象的关键词确定业务类型相关的业务对象。具体地,所述同类业务对象确定模块340比较多个图像相关的业务对象的关键词的相似度,将该相似度大于预设阈值的业务对象确定为业务类型相关的业务对象。
描述信息确定模块350,用于确定所述业务类型相关的业务对象的描述信息。其中,所述业务对象的描述信息包括:文字描述信息和图像描述信息,所述描述信息确定模块350包括:
文字描述信息确定模块(未示出),用于统计所述业务类型相关的业务对象的关键词的出现频率,将出现频率大于预设阈值的关键词确定为所述业务类型相关的业务对象的文字描述信息;所述业务对象的描述信息包括:图像描述信息;所述描述信息确定模块包括:
图像描述信息确定模块(未示出),用于提取所述业务类型相关的业务对象对应的图像的图像描述特征;根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的图像确定为所述业务类型相关的业务对象的图像描述信息。
本申请的方法的操作步骤与***的结构特征对应,可以相互参照,不再一一赘述。
综上所示,根据本申请的上述技术方案,过利用图像信息构建同图业务,根据同图业务关系筛选置信度较高的文字关键字,利用确定的文字关键字建立基于文字的同类业务关系,根据所建立的同类业务关系通过统计方法挖掘置信度较高的描述信息,从而有效提高数据挖掘结果的精度和召回率。并且,本申请从含有大量噪声的数据中挖掘出正确的标题,属性,文字描述和图像描述等信息可以大大提升最终检索推荐的效果。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种业务数据处理方法,其特征在于,包括:
提取多个业务对象对应的图像的图像描述特征;
根据所述图像描述特征在所述多个业务对象中确定图像相关的业务对象;
提取所述图像相关的业务对象的文字说明信息,根据所述文字说明信息确定所述图像相关的业务对象的关键词;
根据所述图像相关的业务对象的关键词确定业务类型相关的业务对象;
确定所述业务类型相关的业务对象的描述信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述图像描述特征在所述多个业务对象中确定图像相关的业务对象的步骤,包括:
根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的业务对象确定为图像相关的业务对象。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文字说明信息确定所述图像相关的业务对象的关键词的步骤,包括:
对所述文字说明信息进行分词处理,将分词处理得到的每个词分别与预设的关键词字典进行匹配得到关键词;
统计关键词的出现频率,将出现频率大于预设阈值的关键词确定为所述图像相关的业务对象的关键词。
4.根据权利要求1所述的方法,其特征在于,所述根据所述图像相关的业务对象的关键词确定业务类型相关的业务对象的步骤,包括:
比较多个图像相关的业务对象的关键词的相似度,将该相似度大于预设阈值的业务对象确定为业务类型相关的业务对象。
5.根据权利要求1所述的方法,其特征在于,所述业务对象的描述信息包括:文字描述信息;所述确定所述业务类型相关的业务对象的描述信息的步骤,包括:
统计所述业务类型相关的业务对象的关键词的出现频率,将出现频率大于预设阈值的关键词确定为所述业务类型相关的业务对象的文字描述信息。
6.根据权利要求1所述的方法,其特征在于,所述业务对象的描述信息包括:图像描述信息;所述确定所述业务类型相关的业务对象的描述信息的步骤,包括:
提取所述业务类型相关的业务对象对应的图像的图像描述特征;
根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的图像确定为所述业务类型相关的业务对象的图像描述信息。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述图像描述特征包括:SIFT特征、CNN特征、SURF特征、颜色特征、纹理直方图特征。
8.一种业务数据处理***,其特征在于,包括:
图像描述特征提取模块,用于提取多个业务对象对应的图像的图像描述特征;
同图业务对象确定模块,用于根据所述图像描述特征在所述多个业务对象中确定图像相关的业务对象;
关键词确定模块,用于提取所述图像相关的业务对象的文字说明信息,根据所述文字说明信息确定所述图像相关的业务对象的关键词;
同类业务对象确定模块,用于根据所述图像相关的业务对象的关键词确定业务类型相关的业务对象;
描述信息确定模块,用于确定所述业务类型相关的业务对象的描述信息。
9.根据权利要求8所述的***,其特征在于,所述同图业务对象确定模块还用于,根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的业务对象确定为图像相关的业务对象。
10.根据权利要求8所述的***,其特征在于,所述关键词确定模块还用于,对所述文字说明信息进行分词处理,将分词处理得到的每个词分别与预设的关键词字典进行匹配得到关键词;统计关键词的出现频率,将出现频率大于预设阈值的关键词确定为所述图像相关的业务对象的关键词。
11.根据权利要求8所述的***,其特征在于,所述同类业务对象确定模块还用于,比较多个图像相关的业务对象的关键词的相似度,将该相似度大于预设阈值的业务对象确定为业务类型相关的业务对象。
12.根据权利要求8所述的***,其特征在于,所述业务对象的描述信息包括:文字描述信息;所述描述信息确定模块包括:
文字描述信息确定模块,用于统计所述业务类型相关的业务对象的关键词的出现频率,将出现频率大于预设阈值的关键词确定为所述业务类型相关的业务对象的文字描述信息。
13.根据权利要求8所述的***,其特征在于,所述业务对象的描述信息包括:图像描述信息;所述描述信息确定模块包括:
图像描述信息确定模块,用于提取所述业务类型相关的业务对象对应的图像的图像描述特征;根据所述图像描述特征计算对应业务对象的图像相似度,将图像相似度大于预设阈值的图像确定为所述业务类型相关的业务对象的图像描述信息。
14.根据权利要求8至13中任一项所述的***,其特征在于,所述图像描述特征包括:SIFT特征、CNN特征、SURF特征、颜色特征、纹理直方图特征。
CN201610711264.7A 2016-08-23 2016-08-23 业务数据处理方法及其*** Active CN107766394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610711264.7A CN107766394B (zh) 2016-08-23 2016-08-23 业务数据处理方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610711264.7A CN107766394B (zh) 2016-08-23 2016-08-23 业务数据处理方法及其***

Publications (2)

Publication Number Publication Date
CN107766394A true CN107766394A (zh) 2018-03-06
CN107766394B CN107766394B (zh) 2021-12-21

Family

ID=61264791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610711264.7A Active CN107766394B (zh) 2016-08-23 2016-08-23 业务数据处理方法及其***

Country Status (1)

Country Link
CN (1) CN107766394B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334796A (zh) * 2008-02-29 2008-12-31 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法
CN101996191A (zh) * 2009-08-14 2011-03-30 北京大学 一种二维跨媒体元搜索方法和***
CN102034116A (zh) * 2010-05-07 2011-04-27 大连交通大学 基于互补特征和类描述的商品图像分类方法
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类***
CN102254043A (zh) * 2011-08-17 2011-11-23 电子科技大学 一种基于语义映射的服装图像检索方法
US20120203764A1 (en) * 2011-02-04 2012-08-09 Wood Mark D Identifying particular images from a collection
US8296188B2 (en) * 2008-07-31 2012-10-23 Fujifilm Corporation Image display system, server apparatus, and terminal apparatus
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN104021228A (zh) * 2014-06-25 2014-09-03 厦门大学 一种融合对象语义的商标图像匹配方法
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN104142946A (zh) * 2013-05-08 2014-11-12 阿里巴巴集团控股有限公司 一种同款业务对象聚合、搜索的方法和***
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN104199931A (zh) * 2014-09-04 2014-12-10 厦门大学 一种商标图像一致语义提取方法及商标检索方法
CN104317827A (zh) * 2014-10-09 2015-01-28 深圳码隆科技有限公司 一种商品的图片导航方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334796A (zh) * 2008-02-29 2008-12-31 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法
US8296188B2 (en) * 2008-07-31 2012-10-23 Fujifilm Corporation Image display system, server apparatus, and terminal apparatus
CN101996191A (zh) * 2009-08-14 2011-03-30 北京大学 一种二维跨媒体元搜索方法和***
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
CN102034116A (zh) * 2010-05-07 2011-04-27 大连交通大学 基于互补特征和类描述的商品图像分类方法
US20120203764A1 (en) * 2011-02-04 2012-08-09 Wood Mark D Identifying particular images from a collection
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类***
CN102254043A (zh) * 2011-08-17 2011-11-23 电子科技大学 一种基于语义映射的服装图像检索方法
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN104142946A (zh) * 2013-05-08 2014-11-12 阿里巴巴集团控股有限公司 一种同款业务对象聚合、搜索的方法和***
CN104021228A (zh) * 2014-06-25 2014-09-03 厦门大学 一种融合对象语义的商标图像匹配方法
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN104199931A (zh) * 2014-09-04 2014-12-10 厦门大学 一种商标图像一致语义提取方法及商标检索方法
CN104317827A (zh) * 2014-10-09 2015-01-28 深圳码隆科技有限公司 一种商品的图片导航方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张薷 等: "基于内容的图像检索技术在购物网站中的应用研究", 《情报科学》 *
贾世杰: "基于内容的商品图像分类方法研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Also Published As

Publication number Publication date
CN107766394B (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN103678702B (zh) 视频去重方法及装置
CN108509436B (zh) 一种确定推荐对象的方法、装置及计算机存储介质
CN105975459B (zh) 一种词项的权重标注方法和装置
CN110083741B (zh) 文本与图像联合建模的面向人物的视频摘要提取方法
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
US11232114B1 (en) System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search
Mi et al. Face recognition using sparse representation-based classification on k-nearest subspace
CN112329460A (zh) 文本的主题聚类方法、装置、设备及存储介质
CN115443490A (zh) 影像审核方法及装置、设备、存储介质
CN111767796A (zh) 一种视频关联方法、装置、服务器和可读存储介质
CN112632396A (zh) 一种文章推荐方法、装置、电子设备及可读存储介质
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN110046251A (zh) 社区内容风险评估方法及装置
CN106933878B (zh) 一种信息处理方法及装置
Thepade et al. Novel visual content summarization in videos using keyframe extraction with Thepade's Sorted Ternary Block truncation Coding and Assorted similarity measures
CN106598997B (zh) 一种计算文本主题归属度的方法及装置
Lee et al. Improved image retrieval and classification with combined invariant features and color descriptor
CN107133811A (zh) 一种目标用户的识别方法和装置
US20230138491A1 (en) Continuous learning for document processing and analysis
CN110147814A (zh) 一致性检测方法、装置、终端设备及计算机可读存储介质
CN113887191A (zh) 文章的相似性检测方法及装置
CN110826365B (zh) 一种视频指纹生成方法和装置
CN113297485B (zh) 一种生成跨模态的表示向量的方法以及跨模态推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant