CN111444372A - 用于图像处理的***和方法 - Google Patents
用于图像处理的***和方法 Download PDFInfo
- Publication number
- CN111444372A CN111444372A CN202010225538.8A CN202010225538A CN111444372A CN 111444372 A CN111444372 A CN 111444372A CN 202010225538 A CN202010225538 A CN 202010225538A CN 111444372 A CN111444372 A CN 111444372A
- Authority
- CN
- China
- Prior art keywords
- vector
- category
- target
- attribute
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 104
- 238000012545 processing Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 423
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 description 66
- 230000015654 memory Effects 0.000 description 15
- 230000004044 response Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于图像处理的***和方法。该方法包括:提供文本向量转换器;提供推理模型,并使用已标记服装条目来预训练该推理模型;提供未标记服装条目;将每个未标记服装条目分为目标图像和目标文本;使用文本向量转换器将目标文本转换为类别向量和属性向量;使用推理模型对目标图像进行处理,以获得处理后的目标图像和目标图像标签;将类别向量与目标图像标签进行比较;当类别向量与目标图像标签匹配时,基于类别向量和属性向量来更新目标图像标签,以获得更新后的标签;以及使用处理后的目标图像和更新后的标签来重新训练推理模型。
Description
相关申请的交叉引用
在本发明的描述中引用和讨论了一些参考文献,其可以包括专利、专利申请和各种出版物。提供这样的参考文献的引用和/或讨论仅为了阐明本发明的描述,而不是承认任何这样的参考文献是本文所描述的发明的“现有技术”。在本说明书中引用和讨论的所有参考文献均以引用的方式整体并入本文,并且在一定程度上如同每篇参考文献通过引用被单独地并入。
技术领域
本发明总体上涉及图像处理技术,并且更具体地涉及一种用于从服装图像中提取属性的***和方法。
背景技术
出于总体上呈现本发明的上下文的目的而在本文提供背景描述。既不明确地承认也不暗示地承认当前列名的发明人的在背景技术部分中描述的范围内的工作、以及在提交时可能不是作为现有技术的描述的各方面为与本发明相对的现有技术。
随着电子商务的日益普及,为消费者提供了大量产品,尤其是服装产品。显示那些产品的属性或特征对于消费者有效评估产品是至关重要的。然而,由于缺乏信息或信息的非标准化格式,准确而完整地标记产品的属性具有挑战性。
因此,在本领域中存在未解决的需求,以用于解决上述缺陷和不足。
发明内容
在某些方面,本发明涉及一种用于图像处理的方法。在某些实施例中,该方法包括:
提供文本向量转换器;
提供推理模型,并使用第一数量的已标记服装条目来预训练所述推理模型;
提供第二数量的服装条目,其中,所述服装条目未被标记;
将第二数量的服装条目中的每一个分为目标图像和目标文本;
使用所述文本向量转换器将所述目标文本转换为类别向量和属性向量,其中,所述类别向量包括与服装类别相对应的多个维度,并且所述属性向量包括与服装属性相对应的多个维度;
使用所述推理模型对所述目标图像进行处理,以获得处理后的目标图像和目标图像标签;
将所述类别向量与所述目标图像标签进行比较;
当所述类别向量与所述目标图像标签匹配时,基于所述类别向量和所述属性向量来更新所述目标图像标签,以获得更新后的标签;以及
使用所述处理后的目标图像和所述更新后的标签来重新训练所述推理模型。
在某些实施例中,将所述目标文本转换为所述类别向量和所述属性向量的步骤包括:
提供类别名称列表和属性名称列表,其中,所述类别名称列表包括服装类别的词表,并且所述属性名称列表包括服装属性的词表;
初始化所述类别向量和所述属性向量;
拆分所述目标文本以获得目标词;
将所述目标词中的每一个与所述类别名称列表和所述属性名称列表进行比较,以获得相似度得分;
当所述相似度得分大于阈值时,更新所述类别向量或所述属性向量。
在某些实施例中,初始化所述类别向量和所述属性向量的步骤是通过以下操作来执行的:
将所述类别向量的多个维度定义为所述类别名称列表中的多个类别;以及
将所述属性向量的多个维度定义为所述属性名称列表中的多个属性。
在某些实施例中,拆分所述目标文本以获得目标词的步骤包括:
将所述目标文本拆分为句子;
将所述句子中的每一个拆分为拆分词;以及
从所述拆分词中去除非服装词,以获得所述目标词。
在某些实施例中,将所述目标词中的每一个与所述类别名称列表和所述属性名称列表进行比较以获得所述相似度得分的步骤是通过以下操作执行的:
利用词向量模型将所述目标词中的每一个转换为目标向量;
使用所述词向量模型将所述类别名称列表和所述属性名称列表转换为参考向量;以及
在向量空间中将所述目标向量与所述参考向量进行比较,
其中,利用服装相关词来预训练所述词向量模型。
在某些实施例中,当所述目标向量与所述参考向量之一相同时,所述相似度得分被定义为1;当所述目标向量远离所有所述参考向量时,所述相似度得分被定义为0,并且所述阈值被设置为约0.8。
在某些实施例中,所述已标记服装条目中的每一个包括标签,其中,所述标签是与图像的服装特征有关的词。
在某些实施例中,该方法还包括:当所述类别向量中的每一个维度的值为0时,通过将所述目标图像标签定义为空来更新所述目标图像标签。
在某些实施例中,该方法还包括:当所述类别向量与所述目标图片标签不匹配时,提供用于更新所述目标图像标签的用户界面。
在某些实施例中,所述第一数量大约为或小于2000,并且所述第二数量大于100万。
在某些方面,本发明涉及用于图像处理的***。在某些实施例中,该***包括:
计算设备,包括处理器和存储计算机可执行代码的存储设备,其中,所述计算机可执行代码包括文本向量转换器、推理模型、第一数量的已标记服装条目和第二数量的未标记服装条目,并且所述计算机可执行代码当在所述处理器上执行时,被配置为:
使用所述第一数量的已标记服装条目来预训练所述推理模型;
将所述第二数量的服装条目中的每一个分为目标图像和目标文本;
使用所述文本向量转换器将所述目标文本转换为类别向量和属性向量,其中,所述类别向量包括与服装类别相对应的多个维度,并且所述属性向量包括与服装属性相对应的多个维度;
使用所述推理模型对所述目标图像进行处理,以获得处理后的目标图像和目标图像标签;
将所述类别向量与所述目标图像标签进行比较;
当所述类别向量与所述目标图像标签匹配时,基于所述类别向量和所述属性向量来更新所述目标图像标签,以获得更新后的标签;以及
使用所述处理后的目标图像和所述更新后的标签来重新训练所述推理模型。
在某些实施例中,该计算机可执行代码被配置为通过以下操作来将所述目标文本转换为所述类别向量和所述属性向量:
提供类别名称列表和属性名称列表,其中,所述类别名称列表包括服装类别的词表,并且所述属性名称列表包括服装属性的词表;
通过将所述类别向量的多个维度定义为所述类别名称列表中的多个类别,并将所述属性向量的多个维度定义为所述属性名称列表中的多个属性,来初始化所述类别向量和所述属性向量;
将所述目标文本拆分为句子,将所述句子中的每一个拆分为拆分词,并且从所述拆分词中去除非服装词,以获得目标词;
将所述目标词中的每一个与所述类别名称列表和所述属性名称列表进行比较,以获得相似度得分;
当所述相似度得分大于阈值时,更新所述类别向量或所述属性向量。
在某些实施例中,所述计算机可执行代码被配置为通过以下操作来获得所述相似度得分:
利用词向量模型将所述目标词中的每一个转换为目标向量;
使用所述词向量模型将所述类别名称列表和所述属性名称列表转换为参考向量;以及
在向量空间中将所述目标向量与所述参考向量进行比较,
其中,利用服装相关词来预训练所述词向量模型。
在某些实施例中,当所述目标向量与所述参考向量之一相同时,所述相似度得分被定义为1;当所述目标向量远离所有所述参考向量时,所述相似度得分被定义为0,并且所述阈值被设置为约0.8。
在某些实施例中,所述已标记服装条目中的每一个包括标签,其中,所述标签是与图像的服装特征有关的词。
在某些实施例中,所述计算机可执行代码还被配置为:当所述类别向量的每一个维度的值为0时,通过将所述目标图像标签定义为空来更新所述目标图像标签。
在某些实施例中,所述计算机可执行代码还被配置为:当所述类别向量与所述目标图像标签不匹配时,提供用于更新所述目标图像标签的用户界面。
在某些实施例中,所述第一数量大约为或小于2000,并且所述第二数量大于100万。
在某些方面,本发明涉及一种存储计算机可执行代码的非暂时性计算机可读介质。所述计算机可执行代码包括文本向量转换器、推理模型、第一数量的已标记服装条目和第二数量的未标记服装条目,并且所述计算机可执行代码在计算设备的处理器上执行时,被配置为:
使用所述第一数量的已标记服装条目来预训练所述推理模型;
将所述第二数量的服装条目中的每一个分为目标图像和目标文本;
使用所述文本向量转换器将所述目标文本转换为类别向量和属性向量,其中,所述类别向量包括与服装类别相对应的多个维度,并且所述属性向量包括与服装属性相对应的多个维度;
使用所述推理模型对所述目标图像进行处理,以获得处理后的目标图像和目标图像标签;
将所述类别向量与所述目标图像标签进行比较;
当所述类别向量与所述目标图像标签匹配时,基于所述类别向量和所述属性向量来更新所述目标图像标签,以获得更新后的标签;以及
使用所述处理后的目标图像和所述更新后的标签来重新训练所述推理模型。
在某些实施例中,所述计算机可执行代码还被配置为:
当所述类别向量的每一个维度的值为0时,通过将所述目标图像标签定义为空来更新所述目标图像标签;以及
当所述类别向量与所述目标图片标签不匹配时,提供用于更新所述目标图片标签的用户界面。
在某些方面,本公开涉及一种用于图像处理的方法。在某些实施例中,所述方法包括:
提供文本向量转换器;
提供推理模型,并使用第一数量的已标记条目来预训练所述推理模型,其中,标签是条目类别;
提供第二数量的条目,其中,所述条目未被标记;
将所述第二数量的条目中的每一个分为目标图像和目标文本;
使用所述文本向量转换器将所述目标文本转换为类别向量和属性向量,其中,所述类别向量包括与所述条目类别相对应的多个维度,并且所述属性向量包括与条目属性相对应的多个维度;
使用所述推理模型对所述目标图像进行处理,以获得处理后的目标图像和目标图像标签;
将所述类别向量与所述目标图像标签进行比较;
当所述类别向量与所述目标图像标签匹配时,基于所述类别向量和所述属性向量来更新所述目标图像标签,以获得更新后的标签。
在某些方面,本公开涉及一种存储计算机可执行代码的非暂时性计算机可读介质,其中,所述计算机可执行代码当在计算设备的处理器处执行时,被配置为执行如上所述的方法。
在某些方面,本公开涉及一种用于图像处理的***,包括计算机设备,所述计算机设备包括处理器和存储计算机可执行代码的存储设备,其中,所述计算机可执行代码当在所述处理器处执行时,被配置为执行如上所述的方法。
根据以下结合附图对优选实施例的详细描述,本发明的这些和其他方面将变得更加清楚,尽管可以在不脱离本发明新颖构思的精神和范围的情况下对本文进行多种改变和修改。
附图说明
附图示出了本发明的一个或多个实施例,并且与书面描述一起用于解释本发明的原理。在可能的情况下,在整个附图中使用相同的附图标记来指代实施例的相同或相似的元件。
图1描绘了根据本发明某些实施例的训练图像推理模型的流程图。
图2描绘了根据本发明某些实施例的处理服装产品的文本的流程图。
图3示意性地描绘了根据本发明某些实施例的示例性计算设备。
图4示意性地描绘了根据本发明某些实施例的处理服装产品的文本的示例性过程。
图5示意性地描绘了根据本发明某些实施例的处理服装产品的文本和图像的示例性过程。
具体实施方式
在以下示例中更具体地描述了本发明,因为本文中的许多修改和变化对于本领域技术人员而言是显而易见的,这些示例仅用于说明。现在详细描述本发明的各种实施例。参考附图,在所有附图中相同的附图标记表示相同的组件。如本说明书和随后的整个权利要求书中所使用的,除非上下文另外明确指出,否则“一个”,“一种”和“所述”的含义包括复数形式。而且,如本文的说明中和整个所附权利要求书中所使用的,除非上下文另有明确说明,否则“在......中”的含义包括“在......中”和“在......上”。此外,为了方便读者,可以在说明书中使用标题或副标题,这不会影响本发明的范围。另外,本说明书中使用的一些术语在下文更具体地定义。
本说明书中使用的术语在本发明的上下文内以及在使用每个术语的特定上下文中通常具有其在本领域中的通常含义。在下文或在说明书中的其他地方讨论了被用来描述本发明的某些术语,以向实施者提供关于本发明的描述的额外指导。应当理解,可以用不止一种方式来陈述同样的事物。因此,可以针对本文所讨论的术语中的任何一个或多个来使用替代语言和同义词,并且对术语是否在本文中被详细阐述或讨论也不施加任何特殊意义。提供了某些术语的同义词。一个或多个同义词的叙述不排除其他同义词的使用。本说明书中任何地方的示例(包括本文所讨论的任何术语的示例)的使用仅是说明性的,并且决不限制本发明或任何示例性术语的范围和含义。同样,本发明不限于在本说明书中给出的各种实施例。
将理解,当提及一个元件在另一元件“上”时,该元件可以直接在该另一元件上,或者可以存在介于其间的中间元件。相比之下,当一个元件被称作在另一个元件的“直接上面”时,不存在中间元件。如本文中所使用的术语“和/或”包括相关列出项目中的一个或多个的任何和所有组合。
将理解,虽然本文中可以使用术语“第一”、“第二”、“第三”等来描述各种元件、组件、区域、层和/或部分,但是这些元件、组件、区域、层和/或部分不应受这些术语限制。这些术语仅用于将一个元件、组件、区域、层或部分与另一元件、组件、区域、层或部分分开。因此,以下讨论的第一元件、组件、区域、层或部分可被称为第二元件、组件、区域、层或部分,而不脱离本方面的教导。
此外,在本文中可以使用诸如“下”或“底”和“上”或“顶”的相对术语来描述一个元件与图示另一元件的关系。将理解,除了附图中所示的取向之外,相对术语旨在涵盖设备的不同取向。例如,如果一幅图中的设备被翻转,则被描述为位于其它元件的“下”侧的元件将取向为在该其它元件的“上”侧。因此,示例性术语“下”可以包含“下”和“上”的定向,这取决于图的特定定向。类似地,如果一幅图中的设备被翻转,则被描述为位于其它元件的“下方”或“下侧”的元件将取向为在该其它元件的“上方”。因此,示例性术语“下方”或“下侧”可以涵盖上下取向两者。
除非另外定义,否则本文使用的所有术语(包括技术和科学术语)具有本发明所属领域的普通技术人员通常所理解的相同意义。还将理解的是,诸如在常用词典中定义的术语应被解释为其含义与在相关技术和本公开的上下文中的含义相同,而不应将其解释为理想的或过于正式的含义,除非本文明确如此定义。
如本文所用,“大约”、“约”、“基本上”或“近似”通常表示在给定值或范围的20%、优选10%、更优选5%之内。本文给出的数值是近似的,意味着如果没有明确说明,可以推断出术语“大约”、“约”、“基本上”或“近似”。
如本文所用,“多个”意指两个或更多个。
如本文所用,术语“包含”、“包括”、“携带”、“具有”、“含有”、“涉及”等应理解为开放式的,即意指包括但不限于。
如本文中所用,短语“A、B和C中的至少一个”应被解释为表示使用非排他性逻辑或的逻辑(A或B或C)。应当理解,方法中的一个或多个步骤可以以不同的顺序(或同时)执行而不改变本发明的原理。
如本文所使用的术语“模块”可以指代专用集成电路(ASIC)的一部分或包括专用集成电路(ASIC)。电子电路;组合逻辑电路、现场可编程门阵列(FPGA);执行代码的处理器(共享、专用或组);提供所述功能的其他合适的硬件组件;或者上述中的一些或全部的组合,例如以片上***的形式。术语“模块”可以包括存储由处理器执行的代码的存储器(共享、专用或组)。
如本文所用,术语“代码”可以包括软件、固件和/或微代码,并且可以指代程序、例程、功能、类和/或对象。如上所用,术语“共享”意指可以使用单个(共享)处理器来执行来自多个模块的一些或全部代码。另外,来自多个模块的一些或所有代码可以由单个(共享)存储器存储。如上所使用的术语“分组”意味着可以使用一组处理器来执行来自单个模块的一些或所有代码。另外,可以使用一组存储器来存储来自单个模块的一些或全部代码。
如本文所用,术语“接口”通常是指在组件之间的交互点处用于在组件之间执行数据通信的通信工具或装置。通常,接口可以适用于硬件和软件两者的级别,并且可以是单向或双向接口。物理硬件接口的示例可以包括:电连接器、总线、端口、电缆、终端和其他I/O设备或组件。与接口通信的组件可以是例如计算机***的多个组件或***设备。
如本文所使用的术语“Word2vect”通常是指用于产生词嵌入的一组相关模型。这些模型是浅的两层神经网络,该神经网络经过训练以重建词的语言环境。Word2vect将大型文本语料库作为其输入,并产生通常具有几百个维度的向量空间,其中该语料库中的每个唯一词都将在该空间中被分配对应的向量。将词向量定位在向量空间中,以使得在语料库中共享公共上下文的词在该空间中彼此紧邻。
本发明涉及计算机***。如附图中所示,计算机组件可以包括物理硬件组件(其被示为实线框)以及虚拟软件组件(其被示为虚线框)。除非另有说明,否则本领域普通技术人员将理解,这些计算机组件可以以软件、固件或硬件组件或其组合的形式来实现,但不限于上述形式。
本文描述的装置、***和方法可以由一个或多个处理器执行的一个或多个计算机程序来实现。计算机程序包括存储在非暂时性有形计算机可读介质上的处理器可执行指令。计算机程序还可以包括存储的数据。非暂时性有形计算机可读介质的非限制性示例是非易失性存储器、磁存储器和光存储器。
现在将在下文中参照附图更全面地描述本发明,在附图中,示出了本发明的实施例。然而,本发明可以按多种不同形式来实现,并且不应当被解释为受到本文阐述的实施例的限制;更确切地说,提供这些实施例使得本发明将全面和完整,并且将本发明的范围充分传达给本领域技术人员。
根据如在本文中体现和广泛描述的本发明的目的,在某些方面,本发明涉及一种用于图像处理的方法,该方法可以在最少的人工监督下从与服装相关图像中提取精细粒度的属性。在某些实施例中,该方法融合了图像信息和文本信息,利用来自两者的潜在约束建立可解释和可扩展的框架,使得图像推理模型可以从嘈杂的电商数据集中学习,而无需进行手动标签清理。
具体地,首先,为服装属性定义特定的目标特征向量,使用文本信息提取根据大量文章来聚类该目标特征向量:1)拆分文章和句子并过滤每个词;2)过滤后,使用Word2vect模型来计算拆分词与目标列表中的词之间的相似度得分:如果相似度得分大于阈值,则认为该文本包含对应的属性;以及3)完成对所有句子的分析,并输出类别向量和属性向量。
然后,实施半监督或非监督对象检测,该检测从小数据集开始,并且根据未标记数据迭代地更新数据库:1)第一步,从初始小规模训练数据(数据集的数量=2000)开始进行初始训练,并且完成全面训练(训练数据识别率达到95%或更高);2)第二步,用训练生成的模型来推断原始的未标记数据,并在生成的文本向量的监督下自动地过滤输出结果;3)第三步,将过滤后的数据放入训练数据中并重新训练该模型,重复进行直到所有数据都被标记。
最后,将文本和图像相组合:将词向量用作目标,并将图像转变为文本维度。通过文本向量提取和图像检测,获得类别向量/标签向量+多个对象区域。然后,将向量及其对应的对象区域重新匹配,并用作精细粒度的分类训练的训练输入。
通过本发明的上述实施例,该方法提供以下优点:1)该检测不需要大量的已标记数据集来进行训练;2)该模型使用文本和图像信息从嘈杂的未标记数据中学习,不仅将信息组合在一起以获得更好的结果,而且还进行反馈以优化两个模型;3)该工作可以动态地扩展,整个向量的长度和目标属性是通过关键指标(figure)和统计数据来计算的,并且无需被预定义。当添加新类别或新样式时,可以扩展向量长度和目标检测结果。4)目标向量是可解释的:向量中的每个值都具有对应的含义,可以是袖子形状、衣领形状或样式。
通过融合文本和图像信息,根据本发明某些实施例的方法可以从图像中提取精细粒度的属性和产品对象位置,而无需大量的已标记数据。
图1描绘了根据本发明某些实施例的训练图像推理模型的流程图。在某些实施例中,训练是由计算设备执行的,并且该计算设备包括处理器、存储器和存储设备,该存储设备存储文本向量转换器、图像推理模型、数据库以及用于训练图像推理模型的代码。应当特别注意的是,除非在本发明中另有说明,否则该方法的步骤可以以不同的顺序次序来布置,因此不限于图1所示的顺序次序。
如图1所示,在过程110处,计算设备提供或存储文本向量转换器。在某些实施例中,文本向量转换器获得文本中的词,过滤该词,将过滤后的词与名称表中的类别名称(词)和属性名称(词)进行比较,并基于比较结果来生成类别向量和属性向量。名称表具有类别名称列表和属性名称列表。类别名称列表包括服装类别的词,例如,牛仔裤、夹克、连衣裙、衬衫、毛衣、裤子、短裤;以及属性名称列表包括服装属性的词,例如,长袖、短袖、泡泡袖、无袖、V领、圆领/水手领、方领、开叉领、直筒、阔腿、A线、泡泡、圆形、迷你、破洞。在某些实施例中,名称表中列出了大约100个类别和30多个属性,这足以表征服装产品。同时,名称表易于扩展,因此可以包括更多类别和更多属性。
在过程120处,计算设备提供图像推理模型,或者即,推理模型或服装属性提取模型。在某些实施例中,图像推理模型是卷积神经网络(CNN)模型,其使用已标记数据库中的已标记数据来进行预训练。已标记数据库包括有限数量的数据。在一个示例中,已标记数据库具有大约2000个已标记图像,并且标签包括类别词并且可选地包括属性词。在一个示例中,标签具有以下信息:
当文本向量转换器和图像推理模型可用时,计算设备可以使用文本向量转换器和图像推理模型来处理服装条目。服装条目可以是卖方在电商平台中提供的产品、在商家网站上列出的产品、或广告。在过程130处,由计算设备提供或获取服装条目。该条目包括至少一个图像和文本。过程130还可以包括拆分服装条目的文本和图像,并且分别向文本向量转换器和图像推理模型发送该文本和图像。
在过程140处,文本向量转换器从服装条目中接收或获取文本,并处理文本以获得与该文本相对应的向量。在某些实施例中,向量包括类别向量和属性向量。
在过程150处,图像推理模型从条目中接收或获取图像,并对图像进行处理以获得图像特征。图像特征包括边框、边框的位置以及边框的标签或注释。边框的标签包括与边框中的图像部分相对应的服装类别。在某些实施例中,标签包括服装类别和服装属性。在某些实施例中,服装类别和属性是词。
然后,当文本向量和图像特征均可用时,计算设备基于文本向量和图像特征来确定条目的服装类别和属性。具体地,在过程160处,计算设备确定类别向量是否为0,或者换句话说,是否为空;以及在过程170中,当类别向量不为0时,计算机设备从类别向量中获取类别,并将获取的类别与图像特征的标签进行比较。
然后,可以在过程180处使用来自过程160和170的判断,在过程180中,计算设备更新条目并将该条目存储为已标记数据。具体地,在第一种情况下,在过程160处将类别向量确定为0,这意味着该条目不是服装产品,计算设备将把图像特征的标签设置为0或为空,并将该空标签存储为已标记数据,以便更新已标记数据(数据库)。在此,新存储为已标记数据的图像特征是否定数据集,因为该图像不包含服装特征或包含空服装特征。
在第二种情况下,来自文本的类别向量不为0,并且计算设备从类别向量中获取类别信息(或类别词),并将该类别信息与存储在图像特征的标签中的类别信息(或类别词)进行比较或匹配。如果来自类别向量的类别信息与来自图像标签的类别信息相匹配,即,来自条目的文本的类别信息与从图像中推断的类别信息相同或相似,则计算设备将标签设置为包括来自文本向量的类别信息和属性信息,并将更新后的标签存储到已标记数据库,以使更新后的标签包括类别信息和属性信息。换句话说,已标记数据库中的原始标签包括类别信息,但可能包括或可能不包括属性,而更新后的标签包括类别和属性两者。在某些实施例中,图像推理模型提供图像的多个边框和对应的标签,并且其中一个边框的标签与文本中的标签相匹配,则用于更新已标记数据库的存储信息可以为:整个图像和正确的标签,或对应的边框和正确的标签。
在第三种情况下,当来自类别向量的类别信息和来自图像特征的标签的类别信息不匹配时,计算设备可以丢弃该条目,或者备选地,通过用户接口向用户提供结果,以便用户可以输入或修改该条目的类别和属性,然后将该条目的类别和属性存储到已标记数据库中。
在将一定数量的条目以及对应的类别和属性存储到已标记数据库中之后,在过程190处,计算设备可以使用更新后的已标记数据库来重新训练图像推理模型。
图2描绘了根据本发明某些实施例的处理服装产品的文本的流程图。在某些实施例中,图2所示的过程对应于图1中的过程140。应当特别注意的是,除非在本发明中另有说明,否则该方法的过程可以以不同的顺序次序来布置,因此不限于图2所示的顺序次序。
在过程210处,提供服装条目的文本,并且初始化类别向量和属性向量。服装条目可以是由卖家在电商平台上提供的服装产品及其描述,或者在商家网站上列出的服装产品及其描述,或者是服装网站上的广告或与服装产品有关的服装杂志。服装条目包括文本和图像。在该步骤处,计算设备从服装条目中接收或获取文本。在接收文本之前或之后,初始化两个向量以表征服装条目的文本。该两个向量是类别向量Y_c和属性向量Y_a,其中,Y_c的格式为:Y_c=(C1,C2,C3,…,Cm),并且Y_a的格式为:Y_a=(A1,A2,A3,…,An)。C1、C2、C3、…、Cm中的每一个对应于服装产品的类别,例如,牛仔裤、夹克、连衣裙,并且A1、A2、A3、…、An中的每一个对应于服装产品的属性,例如,长袖、短袖、V领、圆领、破洞。两个向量中的列表数量m和n是基于预先生成的名称表或关键字表确定的,其中,名称表包括m个类别的列表和n个属性的列表。因此,当类别名称列表或属性名称列表被更新以包括更多项时,类别向量和属性向量被初始化以包括与列表中的词数相对应的更多维度。这样,很容易扩展不同类别和属性的数量,并相应地初始化类别向量和属性向量。因此,根据本发明某些实施例的文本向量转换器是可扩展的,并且与不可扩展的转换器相比具有优势。此时,Y_c和Y_a都被初始化为空,因为没有来自文本的输入。换句话说,Y_c=(0,0,0,…,0)且Y_a=(0,0,0,…,0),其中,Y_c的维数m各自的值为0,并且Y_a的维数n各自的值为0。
然后,在过程220处,计算设备将文本拆分成句子。该文本可以是文章或文本的多个段落。在某些实施例中,文本的拆分基于标点和每个拆分项的长度。用于拆分文本的标点包括句号、逗号、冒号、分号、感叹号、问号、多个连续空格、括号、破折号等。当拆分文本时,将进一步根据词长度来评估每个拆分部分。在某些实施例中,等于或大于五个词的拆分部分被视为句子,小于五个词的拆分部分不被视为句子并且将被丢弃。通过这种方法,通过去除少于五个词的琐碎的拆分部分(通常与服装无关),可以快速处理文本。在其他实施例中,该方法可以不包括根据长度来评估拆分部分,并且所有拆分部分都被视为句子,以广泛覆盖文本中的所有词。在某些实施例中,使用句子拆分器(例如,openNLP、NLTK)来拆分文本。
在将文本拆分成句子之后,在过程230处,计算设备还(例如,使用空格)将每个句子拆分成多个词。
因为许多高频词与服装产品的类别或属性无关,所以为了提高效率,在过程240处,计算设备将那些词过滤掉。被过滤的词可以包括:“该”、“是”、“一个”、“没有”、“我”、“他”、“她”、“那”、“它”、“到”、“为”、“具有”、“的”、“和”、“之中”、“之上”、“亲爱的”、“很棒”、“杰出”、“精彩”、“美丽”、“天气”等。通过这种过滤过程,待处理的词的数量少很多。
然后,在过程250处,计算设备通过将过滤后的词与名称表中的类别和属性进行比较来处理句子中的每个过滤后的词。对于每个词,计算设备使用预训练的词向量模型(Word2vect)将词转换为词向量。为了比较的目的,计算设备还使用Word2vect将名称表或关键字表中的类别和属性转换为参考类别向量和参考属性向量。然后,计算设备将词向量与参考类别向量和参考属性向量进行比较,并找到最接近的匹配。计算设备计算词向量与匹配的参考向量(参考类别向量或参考属性向量)之间的相似度得分。在某些实施例中,向量空间中的词向量与参考向量之间的完全匹配被定义为相似度得分为1,向量空间中的不匹配或远匹配(remote match)被定义为相似度为0,并且当相似度得分等于或大于阈值时,则确认匹配。在某些实施例中,阈值被设置在0.50.9的范围内。在某些实施例中,阈值被设置在0.75-0.85的范围内。在一个实施例中,阈值被设置为0.8。
在找到词向量的匹配之后,在过程260处,计算设备根据词向量与参考类别向量还是参考属性向量匹配来更新类别向量Y_c或属性向量Y_a。具体地,将类别向量Y_c或属性向量Y_a中与匹配的参考类别向量或参考属性向量相对应的一个维度设置为1。在当相似度等于或大于阈值时更新类别向量Y_c或属性向量Y_a之后,或者在相似度小于阈值时不更新类别向量Y_c或属性向量Y_a的情况下,计算设备继续处理句子中的下一个词。
在过程270处,计算设备针对每个句子重复过程230-260。即,计算设备处理一个句子中的所有词,并且在处理一个句子中的所有词之后,处理下一个句子。当所有句子被处理完时,获得最终类别向量和属性向量。例如,如果服装条目的文本包括与服装有关的“破洞牛仔裤”,则类别向量的第一维度对应于牛仔裤,并且属性向量的第三维度对应于破洞,则最终类别向量为Y_c=(1,0,0,…,0),而最终属性向量为Y_a=(0,0,1,…,0)。
请注意,处理文本的方法不限于图2所示的方法,还包括其他合理的变型。例如,计算设备可以将整个文本直接拆分成词,并处理这些词。可以考虑词的频率并将其用作比较时的权重,其中,词的高频率使相似度值略高。根据本发明某些实施例的文本处理方法将类别字符和属性字符分成两个向量。类别向量和属性向量中的每一个具有多个维度,并且类别向量的维度和属性向量的维度具有多对多关系。多对多关系使两个向量可以定义的可能性倍增。此外,名称表(或关键字表)包括类别名称列表和属性名称列表,并且可以基于类别名称列表和属性名称列表来确定类别向量的维度和属性向量的维度。因此,通过简单地更新类别名称列表和属性名称列表,可以自动地扩展类别向量的维度和属性向量的维度。这提供了可扩展的数据结构,该数据结构在普通的Word2vect方法中是不可用的。在某些实施例中,可以自动地添加属性,并且该过程如下:当确定文本中的新词不相同但在不同句子中重复多次(该词的出现次数大于阈值)时,可以相应地将该新词自动地添加到类别列表或属性列表中。
图3示意性地描绘了根据本发明某些实施例的示例性计算设备。在某些实施例中,计算设备可以用于实现图1和图2所示的方法。I在某些实施例中,图3所示的计算设备300可以是服务器计算机、集群、云计算机、通用计算机、无头端(headless)计算机或提供评估服装产品的服务的专用计算机。如图3所示,计算设备300可以包括但不限于处理器302、存储器304和存储设备306。在某些实施例中,计算设备300可以包括用于执行其对应任务的其他硬件组件和软件组件(未示出)。这些硬件和软件组件的示例可以包括但不限于:其他所需的存储器、接口、总线、输入/输出(I/O)模块或设备、网络接口和***设备。
处理器302可以是被配置为控制计算设备300的操作的中央处理单元(CPU)。处理器302可以执行操作***(OS)或计算设备300的其他应用。在一些实施例中,计算设备300可以具有多于一个CPU作为处理器,例如,两个CPU、四个CPU、八个CPU或任何适当数量的CPU。
存储器304可以是易失性存储器,例如随机存取存储器(RAM),用于在计算设备300的操作期间存储数据和信息。在某些实施例中,存储器304可以是易失性存储器阵列。在某些实施例中,计算设备300可以在多于一个存储器304上运行。
存储设备306是用于存储计算设备300的OS(未示出)和其他应用的非易失性数据存储介质。存储设备106的示例可以包括非易失性存储器,例如,闪存、存储卡、USB驱动器、硬盘驱动器、软盘、光盘驱动器或任何其他类型的数据存储设备。在某些实施例中,计算设备300可以具有多个存储设备306,其可以是相同的存储设备或不同类型的存储设备,并且计算设备300的应用可以存储在计算设备300的一个或多个存储设备306中。除其他外,存储设备306包括文本向量转换器310和推理模型训练模块330。文本向量转换器310包括类别/属性名称表312、Word2vect模型314、向量处理模块316、句子拆分器318、词拆分器320、词过滤器322和相似度计算器324。推理模型训练模块330包括已标记服装条目332、未标记服装条目334、图像推理模型336、条目拆分器338、服装评估模块340和条目更新模块342。在某些实施例中,存储设备306可以包括文本向量转换器310和推理模型训练模块330的操作所必需的其他应用或模块。应当注意,模块310、330及其子模块均由计算机可执行代码或指令,或者数据表或数据库来实现,其中计算机可执行代码或指令,或者数据表或数据库共同构成一个应用。在某些实施例中,每个模块还可以包括子模块。备选地,一些模块可以组合为一个堆叠。在其他实施例中,某些模块可以被实现为电路而不是可执行代码。
文本向量转换器310被配置为:响应于接收服装条目的文本(即,关于服装产品的信息),生成该文本的类别向量和属性向量。类别向量和属性向量中的每一个是向量、数组列表或链表(linked list)。在某些实施例中,类别向量表示为Y_c=(C1,C2,C3,…,Cm),其中,C1、C2、C3、…、Cm中的每一个表示向量Y_c的维度。每个维度对应于服装产品的类别之一,例如,牛仔裤、夹克、连衣裙等。类别向量Y_c的维数取决于定义了多少个类别,并且在某些实施例中,向量Y_c的维数约为100。在某些实施例中,通过运行文本向量转换器310,类别向量Y_c的维度可以自动地或手动地增加。在某些实施例中,Y_c的维度的值是0和1,其中,0表示目标文本中不存在对应的维度,而1表示目标文本中存在对应的维度。例如,如果C1对应于“牛仔裤”,并且Y_c=(1,0,0,…,0),则文本包括词“牛仔裤”或与牛仔裤具有高相似度的词。
类似地,在某些实施例中,属性向量被表示为Y_a=(A1,A2,A3,…,An),其中,A1、A2、A3、…、An中的每一个表示向量Y_a的维度。每个维度对应于服装产品的属性之一,例如,长袖、短袖、破洞等。属性向量Y_a的维数取决于定义了多少个属性,并且在某些实施例中,向量Y_a的维数约为30。在某些实施例中,通过运行文本向量转换器310,属性向量Y_a的维度可以自动地或手动地增加。在某些实施例中,Y_a的维度的值为0和1,其中,0表示目标文本中不存在对应的维度,而1表示目标文本中存在对应的维度。例如,如果A3对应于“破洞”,并且Y_a=(0,0,1,…,0),则文本包括词“破洞”或与“破洞”具有高相似度的词。结合Y_c和Y_a中的信息,假设Y_c=(1,0,0,…,0)并且Y_a=(0,0,1,…,0),我们知道该文本与破洞的牛仔裤有关。
文本向量转换器310通过类别/属性名称表312、Word2vect模型314、向量处理模块316、句子拆分器318、词拆分器320、词过滤器322和相似度计算器324执行其功能。
类别/属性名称表312包括服装产品的类别名称列表和属性名称列表,其中,类别名称列表包括服装产品的类别名称,例如,牛仔裤、夹克、连衣裙,并且属性名称列表包括服装产品的属性名称,例如,长袖、短袖、破洞等。在某些实施例中,类别/属性名称表312向向量处理模块316提供这些列表以初始化类别向量Y_c和属性向量Y_a,其中,初始化的向量Y_c和向量Y_a具有分别与类别名称列表和属性名称列表中的类别的数量和属性的数量相对应的维数。在某些实施例中,类别名称列表和属性名称列表可以自动地或手动地更新。例如,当确定文本中的新词与类别列表或属性列表中列出的旧词不相同但是相似时,可以相应地将该新词自动地添加到类别列表或属性列表中。在其他实施例中,可以提供用户界面以列出类别名称列表和属性名称列表,并且用户可以通过用户界面将新类别添加到类别名称列表或将新属性添加到属性名称列表。
Word2vect模型314被配置为接收有关服装的词,并且在向量空间中为该词生成一个向量。在某些实施例中,Word2vect模型是浅的两层神经网络,该神经网络经过训练以重建词的语言环境。Word2vect将大型文本语料库作为其输入,并产生通常具有几百个维度的向量空间,其中该语料库中的每个唯一词都将在该空间中被分配对应的向量。将词向量定位在向量空间中,以使得在语料库中共享公共上下文的词在该空间中彼此相邻。在某些实施例中,使用与服装产品相关的条目来对Word2vect模型314进行预训练,以使该模型在服装领域中提供词的有意义且准确的信息。在某些实施例中,可以从类别/属性名称表312输入词。Word2vect模型314可以使用类别名称表312中的类别名称列表和属性名称列表,对应地生成类别名称向量和属性名称向量,并且将生成的类别名称向量和属性名称向量保存在类别名称表312中。在这种情况下,每当类别名称列表或属性名称列表被更新时,Word2vect模型314可以再次运行上述过程以更新类别名称向量和属性名称向量。在某些实施例中,Word2vect模型314可以响应于从相似度计算器324接收用于比较的指令而使用类别名称表312中的类别名称列表和属性名称列表来生成类别名称向量和属性名称向量,并且向相似度计算器324提供所生成的类别名称向量和属性名称向量以用于进行比较。在某些实施例中,可以从相似度计算器324输入词,并且Word2vect模型314生成与该词相对应的对应词向量,并向相似度计算器324发送该词向量以用于进行比较。在某些实施例中,可以在增加类别名称列表和向量名称列表之后使用类别/属性名称表来重新训练Word2vect模型314。
向量处理模块316被配置为初始化文本的类别向量和属性向量,并响应于从相似度计算器324接收词的相似度得分来更新类别向量和属性向量,其中,该词包含在文本中。具体地,当文本向量转换器310接收到新文本时,类别向量Y_c和属性向量Y_a被初始化。对于初始化,向量处理模块316首先从类别/属性名称表312中获取类别的数量和属性的数量。类别的数量和属性的数量可以是存储在类别/属性名称表312中的参数。在某些实施例中,如果类别/属性名称表312中类别的数量和属性的数量不可用,则向量处理模块316还可以基于存储在类别/属性名称表312中的类别名称列表和属性名称列表对数量进行计数。在m个类别和n个属性可用的情况下,将类别向量Y_c初始化为m个维度,其中将每个维度的值设置为值0;并且将属相向量Y_a初始化为n个维度,其中将每个维度的值设置为值0。
向量处理模块316还被配置为更新初始化的类别向量Y_c和属性向量Y_a。当相似度计算器324处理词时,对应的词向量可能与任何类别名称向量或属性名称向量都不匹配,并且不需要更新。当词向量与第i个类别名称向量匹配时,相似度计算器324向向量处理模块316发送匹配信息。响应于接收第i个类别名称向量的匹配信息,向量处理模块316将类别向量Y_c的的第i个维度的值更新为1,即,Y_c[i]=1。当词向量与第j个属性名称向量匹配时,相似度计算器324向向量处理模块316发送匹配信息。响应于接收第j个属性名称向量的匹配信息,向量处理模块316将属性向量Y_a的第j个维度的值更新为1,即,Y_a[j]=1。在极少数情况下,词向量与类别名称向量和属性名称向量都匹配,向量处理模块316可以对应地更新类别向量Y_c和属性向量Y_a两者。
句子拆分器318被配置为将文本拆分成多个句子。在某些实施例中,如上所述,文本的拆分基于标点和每个拆分项的长度。标点包括句号、逗号、冒号、分号、感叹号、问号、多个连续空格、括号、破折号等。句子的长度可以被设置为例如不少于五个词。即,一个句子必须具有五个或更多个词。在某些实施例中,使用句子拆分器(例如,openNLP、NLTK)来拆分文本。然后,句子拆分器318例如将逐一地或成批地向词拆分器320发送拆分的句子。
词拆分器320被配置为:响应于从句子拆分器318接收到句子,将该句子拆分成词。在某些实施例中,词拆分器320使用句子中的空格来拆分句子。之后,词拆分器320被配置为向词过滤器322发送词。
词过滤器322被配置为:响应于接收到句子的词,对获得的词进行过滤以去除无意义的词。在这里,无意义的词是指与服装产品的特征无关的词。在某些实施例中,词过滤器322使用列表来过滤词,并且从进一步的处理中去除该列表中的词。在某些实施例中,用于过滤的词表包括:“该”、“是”、“一个”、“没有”、“我”、“他”、“她”、“那”、“它”、“到”、“为”、“具有”、“的”、“和”、“之中”、“之上”、“亲爱的”、“很棒”、“杰出”、“精彩”、“美丽”、“天气”等。词过滤器322被配置为向相似度计算器324发送过滤后的词。
相似度计算器324被配置为:响应于从词过滤器322接收到过滤后的词,将过滤后的词与存储在类别/属性名称表312中的类别名称列表和属性名称列表进行比较,以便获得比较的得分。在某些实施例中,在比较之前,相似度计算器324被配置为向word2vect模型314发送过滤后的词,以便从Word2vect模型314中获得与过滤后的词相对应的新的词向量。类别/属性名称表312具有参考类别向量和参考属性向量。相似度计算器324比较新的词向量与参考类别向量和参考属性向量之间的相似度,并在向量空间中找到向量的最佳匹配。新的词向量与匹配的参考向量(参考类别向量或参考属性向量)之间的相似度由0到1之间的得分定义,其中,0表示完全不匹配,而1表示两个向量的完全匹配。当新的词向量与其匹配的向量之间的得分等于或大于阈值时,这两个向量相匹配。在某些实施例中,阈值在0.3-1.0的范围内。在某些实施例中,阈值在0.5-0.9的范围内。在一个实施例中,阈值被设置为0.8。在获得得分之后,相似度计算器324被配置为:向向量处理模块316发送该得分和对应的过滤后的词,或新的词向量和匹配的词或匹配的参考向量,使得向量处理模块316可以使用该信息来更新与文本相对应的类别向量Y_c和属性向量Y_a中的至少一个。
推理模型训练模块330被配置为:使用已标记服装条目332来预训练图像推理模型336,使用图像推理模型336和文本向量转换器310来分析未标记服装条目334,并使用对未标记服装条目334的分析结果来重新训练图像推理模型336。
已标记服装条目332包括服装产品的图像和该图像的标签。标签包括图像中的服装产品的类别以及该服装产品的可选属性。在某些实施例中,图像可以包括服装产品和非服装对象,并且非服装对象用空标签来标记。空标签可以是“空格”、“0”、词“空”或“非服装”。在某些实施例中,已标记服装条目332中的图像由用户手动地标记或在用户的有限监督下半自动地标记。在某些实施例中,因为推理模型训练模块330的设计使其能够通过自学习来改善图像推理模型336,所以已标记服装条目332不需要在开始时包括大量的已标记条目。在某些实施例中,大约2000个条目的初始小规模训练数据对于图像推理模型336的初始训练是足够的。在某些实施例中,当对已标记服装条目的识别率超过95%时,初始训练满足要求。
未标记服装条目334包括用于处理的候选服装产品的条目。与已标记服装条目332中的条目不同,未标记服装条目334中的条目包括图像和文本两者,那些图像和文本可以是未标记的原始数据。例如,未标记服装条目334中的条目可以是广告,其包括服装产品的图像和描述该服装产品的文本。
图像推理模型336被配置为分析图像以从该图像中推断服装特征。在某些实施例中,图像推理模型336是CNN模型。可以使用来自已标记服装条目332的已标记图像来训练图像推理模型336,并且图像推理模型336可以用于分析来自未标记服装条目334的未标记条目的图像。在某些实施例中,图像推理模型336或CNN模型包括多个隐藏层以及一个输入层和输出层。隐藏层由卷积层、激活层、池化层、完全连接层和归一化层组成。图像RGB数据被输入到输入层,然后卷积层通过池化层和归一化层提取高级特征。最后,完全连接层将特征转移到目标类向量中。激活层根据类向量生成类别标签。
条目拆分器338被配置为从未标记服装条目334中获取或接收条目,并将该条目拆分为文本和图像。然后,条目拆分器338向文本向量转换器310发送文本,并向图像推理模型336发送图像。
如上所述,来自未标记服装条目334的条目包括图像和文本。条目拆分器338从未标记服装条目334中接收或获取条目,并将该条目拆分成图像和文本。条目拆分器338向图像推理模型336发送图像,使得图像推理模型336分析该图像以获得已标记图像,并向条目评估模块340发送该已标记图像。条目拆分器338还向文本向量转换器310发送文本,使得文本向量转换器310处理该文本以获得类别向量和属性向量,并向条目评估模块340发送该向量。
条目评估模块340被配置为:在从文本向量转换器310接收到类别向量和属性向量以及从图像推理模型336接收到已标记图像之后,对结果进行评估。首先,条目评估模块340通过确定类别向量Y_c和属性向量Y_a的值之和来确定文本是否与服装有关。当该值之和小于1或Y_c=(0,0,0,…,0)并且Y_a=(0,0,0,…,0)时,确定该条目与服装无关。因此,条目评估模块340将已标记图像的标签定义为空,并向条目更新模块342输出该图像和空标签。条目更新模块342因此用该图像和该空标签来更新已标记服装条目332。因为标签为空,所以该图像被用作否定条目。
其次,当类别向量Y_c和属性向量Y_a的值大于1时,条目评估模块340提取与该值相对应的特征。例如,如果Y_c的第一维度是“牛仔裤”,并且Y_c=(1,0,0,…,0),则从向量Y_c中提取特征“牛仔裤”。如果Y_a的第三维度是“破洞”,并且Y_a=(0,0,1,…,0),则从向量Y_c中提取特征“破洞”。然后,将所提取的特征“牛仔裤”(并且可选地为“破洞”)与从图像推理模型336获得的图像的标签进行匹配。当来自Y_c的类别特征“牛仔裤”与来自图像的标签的“牛仔裤”特征匹配时,服装评估模块340使用特征“牛仔裤”和特征“破洞”两者来定义该图像的标签,并向条目更新模块342发送图像和更新后的标签。条目更新模块342随后更新已标记服装条目332,其中,添加的条目包括图像以及“牛仔裤”和“破洞”的标签。标签被拆分为类别词和属性词。
第三,如果从文本中提取到的类别特征与图像推理模型336从图像中提取的标签不匹配,则服装评估模块340可以丢弃该条目或向用户呈现分析的结果,使得用户可以手动地定义该条目的类别(和可选的属性),向条目更新模块342发送所定义的标签和图像,使得条目更新模块342可以用该新条目来更新已标记服装条目332。新条目包括图像和手动地添加到该图像的标签。
通过上述文本向量转换器310和图像推理模型训练模型330的设计,本发明的某些实施例能够将来自文本的信息和条目的图像相组合以训练图像推理模型336,并自动地或在用户很少监督的情况下更新训练数据。因此,图像推理模型336的训练不需要大量的已标记条目。此外,训练过程能够将在初始化已标记服装条目332时不可用的属性添加到已标记服装条目332。因此,通过向已标记服装条目332添加新属性以及有时添加新类别,可以容易地扩展该过程。
一旦已标记服装条目332在特定时间段内被更新或用一定数量的新条目更新,则推理模型训练模块310可以使用更新的已标记服装条目332来重新训练图像推理模型336。
图4示意性地示出了根据本发明某些实施例的示例。该示例示意性地示出了如何处理文本以获得类别向量和属性向量。在某些实施例中,该示例由计算设备(例如,图3所示的计算设备300)执行。
当提供文本时,该过程如402所示地开始。当该过程开始时,如404所示,将类别向量Y_c和属性向量Y_a初始化为分别具有“C”个维数和“A”个维数。可以从类别/属性名称表422中计算“C”和“A”。具体地,类别/属性名称表422包括类别列表和属性列表。类别列表包括服装产品的类别名称,例如,“牛仔裤”、“夹克”、“连衣裙”,并且类别列表中的类别的数量为“C”。属性列表包括服装产品的属性,例如,“长袖”、“短袖”、“破洞”,并且属性列表中的属性的数量为“A”。因为类别/属性名称表是可扩展的,所以类别的数量和属性的数量可以在一次到另一次之间有所不同。因此,初始化可以基于类别/属性名称表中类别的当前数量和属性的当前数量来获得数字“C”和“A”。
当初始化Y_c和Y_a时,向句子拆分器406发送文本。句子拆分器406将文本(例如,杂志或网站中的文章或段落)拆分成句子或拆分部分。可以由计算设备使用例如某些标点、换行符和分页符来执行拆分。在某些实施例中,计算设备还通过对词的数量进行计数来评估拆分部分是否是真实句子。如果拆分部分中的词的数量少于五个词,则该拆分部分将不被视为句子,并将被丢弃。
然后,计算设备逐一地处理句子。函数408(即,sens=[])确定句子是否已经被完全处理。如果否,则向词拆分器410发送下一个句子(或在开始时发送第一个句子)。如果已经处理了所有句子,则计算设备在426处输出Y_c和Y_a,并在428处结束该过程。
词拆分器410在接收到句子之后,将该句子拆分成词。拆分可以基于句子中词之间的空格。
当句子被拆分成单独的词时,可以通过过滤器412对词进行过滤,以便去除无意义的词或与服装完全无关的词。
在过滤后,词逐一地由414、416、418以及可选的420逐一地处理。在414处,函数words=[]确定来自同一句子的所有过滤后的词是否已经被完全处理。如果是,则该过程进行到408以处理下一个句子。如果否,则w=words.next拾取下一个词(或在开始时拾取第一个词),并且在过程416处,计算设备计算所拾取的词“w”与对应的匹配词“w*”之间的相似度得分。为了计算该相似度得分,词“w”和词“w*”都被Word2vect模型424转换为向量。具体地,word2vect模型424将词“w”转换为向量作为目标向量,并且将属性/类别表422中的类别名称和属性名称转换为向量作为参考向量,并计算向量空间中该目标向量与该参考向量之间的相似度。假设最匹配的参考向量对应于词“w*”,则相似度被定义为向量“w”与向量“w*”之间的相似度。精确匹配被定义为1,而完全不匹配被定义为0,并且向量“w”和“w*”之间的相似度是0到1之间的得分或值。在某些实施例中,也可以在其他适当的范围内而不是在0和1之间指示该值。
预先确定得分阈值“t”,并且在过程418处将向量“w”与“w*”之间的相似度得分与阈值t进行比较。当相似度得分大于t时,在过程420处,当词“w*”对应于Y_c的第i个维度时,计算设备将向量Y_c的第i个维度定义为值1;或者当词“w*”对应于向量Y_a的第j个维度时,计算设备将向量Y_a的第j个维度定义为值1。然后,在过程414处,计算设备进行到函数words=[],以对下一个词重复该过程。
当相似度得分等于或小于阈值t时,计算设备不更新向量Y_c和Y_a,并在过程414处进行到函数words=[],以对下一个词重复该过程。
当句子之一中的所有词都已经在过程414-418和可选的420中得到处理时,计算设备将进行到过程408,以对下一个句子重复该过程。通过对句子和词重复该过程,类别向量Y_c和属性向量Y_a被更新。
在处理完所有句子之后,计算设备在过程426处输出类别向量Y_c和属性向量Y_a,并且在428处结束该过程。具体地,可以向图5所示的过程发送输出的Y_c和Y_a以进行进一步分析。
图5示意性地示出了根据本发明某些实施例的示例。该示例示意性地示出了如何使用图像信息和服装产品的条目的文本信息并考虑图像信息和文本信息之间的关系来训练图像推理模型。在某些实施例中,该示例由计算设备(例如,图3所示的计算设备300)执行。
如图5所示,当训练在502处开始时,首先,在过程506处,使用已标记数据504来训练图像推理模型。已标记数据504包括多个条目,每个条目包括图像和该图像的标签。图像和标签与服装有关。在某些实施例中,已标记数据504还包括与服装无关的否定条目。因为图5所示***的自学习能力,所以不需要具有大量的已标记数据。在某些实施例中,初始小规模训练数据的数量大约为2000。图像推理模型可以使用基于快速区域的卷积(Fast R-CNN)、只看一次(YOLO)或单发多盒检测器(SSD)训练模型。在一个示例中,使用快速R-CNN。当图像推理模型以95%或更高的速率识别训练数据时,模型训练506被视为完成。
当图像推理模型训练良好时,其可用于分析未标记数据。在某些实施例中,对于存储在未标记数据508中的条目,计算设备获取一个条目,并将该条目拆分成图像和文本。在步骤510处,向图像推理模型发送图像,以从该图像中推断出边框和标签,并且在步骤512处,向text2vect转换器发送文本,以生成类别向量和属性向量。在某些实施例中,类别向量和属性向量的生成如图4所示。在某些实施例中,对于图像,图像推理模型可以提供几个边框及其对应的标签,或者为整个图像提供一个标签。
然后,计算设备将对从图像推理模型获得的图像的分析结果与对从tect2vect转换器获得的文本的分析结果进行组合。首先,在步骤514处,计算设备判断文本是否是服装相关的。具体地,如果类别向量和属性向量之和等于或大于1,即,类别向量的至少一个维度或属性向量的至少一个维度为1,则将文本确定为是服装相关的,并且该过程进行到步骤516。如果Y_c和Y_a的所有维度均为0,则该条目是服装无关的,并且该过程进行到步骤518。在某些实施例中,为了确定条目是服装相关的,Y_c应该大于0。
当Y_c和Y_a之和为1或更大时,在步骤516处,提取Y_c和Y_a的值为1的维度,并且将从Y_c提取的维度与不同的区域进行匹配。然后,该过程进行到步骤518。在某些实施例中,我们首先得到Y_c中的值等于1的索引。然后,我们可以通过从具有相同索引位置的参考类别词表中得到值来得到类别标签词。例如,如果Y[1]=1(Y[0]=0),并且类别表列表为[“T恤”,“衬衫”…],则我们可以得到词“衬衫”。同时,推理模型还将给出每个边框的类别名称。因此,我们可以通过查看类别名称是否相同来进行匹配。
在步骤518处,计算设备基于在步骤510处获得的模型推理、在步骤514处获得的判断以及可选地所提取的类别和属性以及所提取的类别与边框标签的匹配,来自动地过滤检测结果。当在步骤514处的判断不是服装相关时,则计算设备将边框的标签定义为空,并且在过程520处,输出图像、边框、边框的位置和空标签。当在步骤514处的判断是服装相关并且所提取的Y_c中的肯定维度与来自图像推理模型的边框的标签匹配时,计算设备将边框的标签定义为包括Y_c中的肯定维度和Y_a中的肯定维度,并输出图像、边框、边框的位置和对应的标签。此处的标签包括类别信息,以及可选地包括属性信息(当Y_a中的肯定维度可用时)。当在步骤514处的判断是服装相关并且所提取的Y_c中的肯定维度与来自图像推理模型的边框的标签不匹配时,计算设备可以丢弃该信息,或者备选地如步骤524所示,提供用户界面以使用户手动地输入边框的标签,其中,该标签包括该条目中服装产品的类别信息并可选地包括属性信息。
一旦执行了步骤520、或522、或544,则在步骤526处,计算设备使用来自步骤520、522或524的结果来更新已标记数据。具体地,如果该结果如步骤520所示是具有边框和空标签的图像,则新条目将被用作否定条目。如果该结果是具有边框和标签的图像,该标签包括类别标签并可选地包括属性标签,如步骤522所示,则新条目将被用作肯定条目。如果该结果是具有边框和标签的图像,该标签可以是空标签或肯定标签(类别标签,以及可选地为属性标签),如步骤524所示,则新条目将被用作否定或肯定条目。在某些实施例中,该方法通过添加图像的一个边框及其对应的标签,或者通过添加整个图像和标签来更新已标记数据。
在分析来自未标记数据508的多个条目之后,或者在分析来自未标记数据508的条目的预定时间之后,已标记数据504中的条目的数量显著增加。然后,在步骤528处,可以使用具有更多条目的已标记数据504来重新训练图像推理模型。因为已标记数据504中的条目的数量增加,所以图像推理模型的训练更加有效,并且训练后的图像推理模型更加可靠。在某些实施例中,标记数据中的条目的数量可以是数千或数百万。因此,尽管已标记数据504中的初始已标记条目的数量很小并且不需要很多用户输入,但是可以使用大量的未标记数据来自动地训练最终的图像推理模型,以有效地提高图像推理模型的可靠性。
在某些方面,本发明涉及一种存储计算机可执行代码的非暂时性计算机可读介质。在某些实施例中,计算机可执行代码可以是存储在如上所述的存储设备306中的软件。计算机可执行代码当被执行时可以执行上述方法之一。在某些实施例中,非暂时性计算机可读介质可以包括但不限于如上所述的计算设备300的存储设备306,或计算设备300的任何其他存储介质。
在某些方面,本发明涉及在充分训练之后图像推理模型的使用,以便对从卖方、商家、文章等获得的服装条目进行标准化。在某些实施例中,在电商平台中向购买者示出标准化的服装条目,使得购买者可以基于标准化的特征容易地找到相关的服装产品。
此外,本发明的某些实施例具有以下有益优点。(1)服装产品的类别和属性由两个向量表示,并且类别和属性之间的多对多关系为扩展类别和属性提供了灵活性。当与定义类别进行比较并在某些类别下定义某些属性时,由本发明定义的***和方法更加容易和有效。(2)图像推理模型的训练利用来自图像的服装特征和来自文本的服装特征,这使图像推理模型能够精确地处理服装产品信息。(3)本发明提供的训练方法只需要小规模的已标记数据,而图像推理模型的完整训练可以使用大量的未标记服装数据。
在某些方面,本公开不限于服装条目,而是可以扩展到具有图像内容和文本内容的其他条目。训练条目可以由各种类别标记,并且具有人类不容易识别的属性。类别可以被定义为条目的粗略分类,而属性可以被定义为条目的细微特征。训练条目的开始标签是该训练条目的类别。如上所述,当在***中输入新条目时,该条目被拆分为图像和文本。该图像由推理模型处理,该模型给出条目的类别标签,而文本向量将该文本转换为类别向量和属性向量。当标签指示的类别和类别向量指示的类别匹配时,来自属性向量的类别和属性都将被添加为条目的标签。几轮训练之后,条目的标签不仅包括它们各自的类别信息,而且还包括新学习的属性信息。通过以上过程,本公开提供了一种可以向条目添加属性(即,精细特征)的无监督机制。
对本发明的示例性实施例的前述描述是为了说明和描述的目的而给出的,而非意在穷举或将本发明限制于所公开的具体形式。鉴于上述教导,许多修改和变化都是可能的。
选择和描述实施例以便解释本发明的原理及其实际应用,从而使得本领域的其他技术人员能够利用具有适合于预期特定用途的各种修改的本发明和各种实施例。在不脱离本发明的精神和范围的情况下,备选实施例对于本发明所属领域的技术人员来说将变得显而易见。因此,本发明的范围由所附的权利要求限定,而不是前面的描述和其中描述的示例性实施例。
参考文献:
1.Ren,Shaoqing等人,Faster R-CNN:Towards real-time object detectionwith region proposal networks(快速R-CNN:通过区域提议网络实现实时对象检测),Advances in neural information processing systems(神经信息处理***的进展),2015年。
2.Dong,Jianfeng、Xirong Li和Cees GM Snoek,Predicting Visual Featuresfrom Text for Image and Video Caption Retrieval(根据文本预测视觉特征以进行图像和视频字幕检索),arXiv:1709.01362,2018年。
3.Dong,Hao等人,I2T2I:Learning Text to Image Synthesis with TextualData Augmentation(通过文本数据增强学习文本到图像合成),arXiv:1703.06676,2017年。
Claims (16)
1.一种用于图像处理的方法,包括:
提供文本向量转换器;
提供推理模型,并使用第一数量的已标记服装条目来预训练所述推理模型;
提供第二数量的服装条目,其中,所述服装条目未被标记;
将所述第二数量的服装条目中的每一个分为目标图像和目标文本;
使用所述文本向量转换器将所述目标文本转换为类别向量和属性向量,其中,所述类别向量包括与服装类别相对应的多个维度,并且所述属性向量包括与服装属性相对应的多个维度;
使用所述推理模型对所述目标图像进行处理,以获得处理后的目标图像和目标图像标签;
将所述类别向量与所述目标图像标签进行比较;
当所述类别向量与所述目标图像标签匹配时,基于所述类别向量和所述属性向量来更新所述目标图像标签,以获得更新后的标签;以及
使用所述处理后的目标图像和所述更新后的标签来重新训练所述推理模型。
2.根据权利要求1所述的方法,其中,将所述目标文本转换为所述类别向量和所述属性向量的步骤包括:
提供类别名称列表和属性名称列表,其中,所述类别名称列表包括服装类别的词表,并且所述属性名称列表包括服装属性的词表;
初始化所述类别向量和所述属性向量;
拆分所述目标文本以获得目标词;
将所述目标词中的每一个与所述类别名称列表和所述属性名称列表进行比较,以获得相似度得分;
当所述相似度得分大于阈值时,更新所述类别向量或所述属性向量。
3.根据权利要求2所述的方法,其中,初始化所述类别向量和所述属性向量的步骤是通过以下操作来执行的:
将所述类别向量的多个维度定义为所述类别名称列表中的多个类别;以及
将所述属性向量的多个维度定义为所述属性名称列表中的多个属性。
4.根据权利要求2所述的方法,其中,拆分所述目标文本以获得目标词的步骤包括:
将所述目标文本拆分为句子;
将所述句子中的每一个拆分为拆分词;以及
从所述拆分词中去除非服装词,以获得所述目标词。
5.根据权利要求2所述的方法,其中,将所述目标词中的每一个与所述类别名称列表和所述属性名称列表进行比较以获得所述相似度得分的步骤是通过以下操作执行的:
利用词向量模型将所述目标词中的每一个转换为目标向量;
使用所述词向量模型将所述类别名称列表和所述属性名称列表转换为参考向量;以及
在向量空间中将所述目标向量与所述参考向量进行比较,
其中,利用服装相关词来预训练所述词向量模型。
6.根据权利要求5所述的方法,其中,当所述目标向量与所述参考向量之一相同时,所述相似度得分被定义为1;当所述目标向量远离所有所述参考向量时,所述相似度得分被定义为0,并且所述阈值被设置为约0.8。
7.根据权利要求1所述的方法,其中,所述已标记服装条目中的每一个包括标签,其中,所述标签是与图像的服装特征有关的词。
8.根据权利要求1所述的方法,还包括:当所述类别向量中的每一个维度的值为0时,通过将所述目标图像标签定义为空来更新所述目标图像标签。
9.根据权利要求1所述的方法,还包括:当所述类别向量与所述目标图像标签不匹配时,提供用于更新所述目标图像标签的用户界面。
10.一种用于图像处理的***,包括:
计算设备,包括处理器和存储计算机可执行代码的存储设备,其中,所述计算机可执行代码包括文本向量转换器、推理模型、第一数量的已标记服装条目和第二数量的未标记服装条目,并且所述计算机可执行代码当在所述处理器上执行时,被配置为:
使用所述第一数量的已标记服装条目来预训练所述推理模型;
将所述第二数量的服装条目中的每一个分为目标图像和目标文本;
使用所述文本向量转换器将所述目标文本转换为类别向量和属性向量,其中,所述类别向量包括与服装类别相对应的多个维度,并且所述属性向量包括与服装属性相对应的多个维度;
使用所述推理模型对所述目标图像进行处理,以获得处理后的目标图像和目标图像标签;
将所述类别向量与所述目标图像标签进行比较;
当所述类别向量与所述目标图像标签匹配时,基于所述类别向量和所述属性向量来更新所述目标图像标签,以获得更新后的标签;以及
使用所述处理后的目标图像和所述更新后的标签来重新训练所述推理模型。
11.根据权利要求10所述的***,其中,所述计算机可执行代码被配置为通过以下操作来将所述目标文本转换为所述类别向量和所述属性向量:
提供类别名称列表和属性名称列表,其中,所述类别名称列表包括服装类别的词表,并且所述属性名称列表包括服装属性的词表;
通过将所述类别向量的多个维度定义为所述类别名称列表中的多个类别,并将所述属性向量的多个维度定义为所述属性名称列表中的多个属性,来初始化所述类别向量和所述属性向量;
将所述目标文本拆分为句子,将所述句子中的每一个拆分为拆分词,并且从所述拆分词中去除非服装词,以获得目标词;
将所述目标词中的每一个与所述类别名称列表和所述属性名称列表进行比较,以获得相似度得分;
当所述相似度得分大于阈值时,更新所述类别向量或所述属性向量。
12.根据权利要求11所述的***,其中,所述计算机可执行代码被配置为通过以下操作来获得所述相似度得分:
利用词向量模型将所述目标词中的每一个转换为目标向量;
使用所述词向量模型将所述类别名称列表和所述属性名称列表转换为参考向量;以及
在向量空间中将所述目标向量与所述参考向量进行比较,
其中,利用服装相关词来预训练所述词向量模型。
13.根据权利要求12所述的***,其中,当所述目标向量与所述参考向量之一相同时,所述相似度得分被定义为1;当所述目标向量远离所有所述参考向量时,所述相似度得分被定义为0,并且所述阈值被设置为约0.8。
14.根据权利要求10所述的***,其中,所述已标记服装条目中的每一个包括标签,其中,所述标签是与图像的服装特征有关的词。
15.根据权利要求10所述的***,其中,所述计算机可执行代码还被配置为:当所述类别向量的每一个维度的值为0时,通过将所述目标图像标签定义为空来更新所述目标图像标签。
16.根据权利要求10所述的***,其中,所述计算机可执行代码还被配置为:当所述类别向量与所述目标图像标签不匹配时,提供用于更新所述目标图像标签的用户界面。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/375,308 US11704487B2 (en) | 2019-04-04 | 2019-04-04 | System and method for fashion attributes extraction |
US16/375,308 | 2019-04-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444372A true CN111444372A (zh) | 2020-07-24 |
CN111444372B CN111444372B (zh) | 2024-03-08 |
Family
ID=71648161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010225538.8A Active CN111444372B (zh) | 2019-04-04 | 2020-03-26 | 用于图像处理的***和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11704487B2 (zh) |
CN (1) | CN111444372B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312493A (zh) * | 2021-05-25 | 2021-08-27 | 珠海沃德尔软件科技有限公司 | 一种标签字典生成***及方法 |
CN113822347A (zh) * | 2020-09-11 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 用于自动生成知识驱动的内容规划的***和方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11455527B2 (en) * | 2019-06-14 | 2022-09-27 | International Business Machines Corporation | Classification of sparsely labeled text documents while preserving semantics |
US11645505B2 (en) * | 2020-01-17 | 2023-05-09 | Servicenow Canada Inc. | Method and system for generating a vector representation of an image |
US11314783B2 (en) * | 2020-06-05 | 2022-04-26 | Bank Of America Corporation | System for implementing cognitive self-healing in knowledge-based deep learning models |
US11874899B2 (en) * | 2020-12-15 | 2024-01-16 | International Business Machines Corporation | Automated multimodal adaptation of multimedia content |
CN114037868B (zh) * | 2021-11-04 | 2022-07-01 | 杭州医策科技有限公司 | 图像识别模型的生成方法及装置 |
CN115545009B (zh) * | 2022-12-01 | 2023-07-07 | 中科雨辰科技有限公司 | 一种获取目标文本的数据处理*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542014A (zh) * | 2011-12-16 | 2012-07-04 | 华中科技大学 | 基于内容的图像检索反馈方法 |
US8478052B1 (en) * | 2009-07-17 | 2013-07-02 | Google Inc. | Image classification |
DE102016013487A1 (de) * | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Semantischer Vektorraum mit natürlicher Sprache |
CN107391703A (zh) * | 2017-07-28 | 2017-11-24 | 北京理工大学 | 图像库的建立方法及***、图像库和图像分类方法 |
CN107679960A (zh) * | 2017-10-12 | 2018-02-09 | 东北大学 | 一种基于服装图像和标签文本双模态内容分析的个性化服装的推荐方法 |
CN108647705A (zh) * | 2018-04-23 | 2018-10-12 | 北京交通大学 | 基于图像和文本语义相似度的图像语义消歧方法和装置 |
CN109522942A (zh) * | 2018-10-29 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 一种图像分类方法、装置、终端设备和存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7457467B2 (en) * | 2004-01-30 | 2008-11-25 | Xerox Corporation | Method and apparatus for automatically combining a digital image with text data |
US8732025B2 (en) * | 2005-05-09 | 2014-05-20 | Google Inc. | System and method for enabling image recognition and searching of remote content on display |
US10331976B2 (en) * | 2013-06-21 | 2019-06-25 | Xerox Corporation | Label-embedding view of attribute-based recognition |
US9836671B2 (en) * | 2015-08-28 | 2017-12-05 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
US10026020B2 (en) * | 2016-01-15 | 2018-07-17 | Adobe Systems Incorporated | Embedding space for images with multiple text labels |
CN106202413B (zh) * | 2016-07-11 | 2018-11-20 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
US10282462B2 (en) * | 2016-10-31 | 2019-05-07 | Walmart Apollo, Llc | Systems, method, and non-transitory computer-readable storage media for multi-modal product classification |
US11037071B1 (en) * | 2017-03-06 | 2021-06-15 | Amazon Technologies, Inc. | Cross-category item associations using machine learning |
US10733744B2 (en) * | 2017-05-11 | 2020-08-04 | Kla-Tencor Corp. | Learning based approach for aligning images acquired with different modalities |
US11126653B2 (en) * | 2017-09-22 | 2021-09-21 | Pinterest, Inc. | Mixed type image based search results |
-
2019
- 2019-04-04 US US16/375,308 patent/US11704487B2/en active Active
-
2020
- 2020-03-26 CN CN202010225538.8A patent/CN111444372B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8478052B1 (en) * | 2009-07-17 | 2013-07-02 | Google Inc. | Image classification |
CN102542014A (zh) * | 2011-12-16 | 2012-07-04 | 华中科技大学 | 基于内容的图像检索反馈方法 |
DE102016013487A1 (de) * | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Semantischer Vektorraum mit natürlicher Sprache |
CN107391703A (zh) * | 2017-07-28 | 2017-11-24 | 北京理工大学 | 图像库的建立方法及***、图像库和图像分类方法 |
CN107679960A (zh) * | 2017-10-12 | 2018-02-09 | 东北大学 | 一种基于服装图像和标签文本双模态内容分析的个性化服装的推荐方法 |
CN108647705A (zh) * | 2018-04-23 | 2018-10-12 | 北京交通大学 | 基于图像和文本语义相似度的图像语义消歧方法和装置 |
CN109522942A (zh) * | 2018-10-29 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 一种图像分类方法、装置、终端设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822347A (zh) * | 2020-09-11 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 用于自动生成知识驱动的内容规划的***和方法 |
CN113312493A (zh) * | 2021-05-25 | 2021-08-27 | 珠海沃德尔软件科技有限公司 | 一种标签字典生成***及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200320348A1 (en) | 2020-10-08 |
US11704487B2 (en) | 2023-07-18 |
CN111444372B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444372B (zh) | 用于图像处理的***和方法 | |
Niu et al. | Multi-modal multi-scale deep learning for large-scale image annotation | |
Hasani et al. | Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields | |
US11809393B2 (en) | Image and text data hierarchical classifiers | |
EP3660733B1 (en) | Method and system for information extraction from document images using conversational interface and database querying | |
Tautkute et al. | Deepstyle: Multimodal search engine for fashion and interior design | |
Lin et al. | Rapid clothing retrieval via deep learning of binary codes and hierarchical search | |
Socher et al. | Connecting modalities: Semi-supervised segmentation and annotation of images using unaligned text corpora | |
CN107729513A (zh) | 基于语义对齐的离散监督跨模态哈希检索方法 | |
KR102190897B1 (ko) | 빅데이터기반 패션 트렌드 분석방법 및 장치 | |
CN107357793B (zh) | 信息推荐方法和装置 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN110909536A (zh) | 用于自动生成产品的文章的***和方法 | |
Al-Halah et al. | Smile, be happy:) emoji embedding for visual sentiment analysis | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
Li et al. | Publication date estimation for printed historical documents using convolutional neural networks | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN113704416A (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
Chen et al. | Deep net architectures for visual-based clothing image recognition on large database | |
CN112241493A (zh) | 商品检索方法、装置、计算机设备和存储介质 | |
Li et al. | A novel label-based multimodal topic model for social media analysis | |
CN113535949B (zh) | 基于图片和句子的多模态联合事件检测方法 | |
Lu et al. | Web multimedia object classification using cross-domain correlation knowledge | |
Hossen et al. | Hypergraph Regularized SVM and Its Application Emotion Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |