CN113841161A - 用于自动生成内容分发图像的可扩展体系架构 - Google Patents

用于自动生成内容分发图像的可扩展体系架构 Download PDF

Info

Publication number
CN113841161A
CN113841161A CN202080036891.XA CN202080036891A CN113841161A CN 113841161 A CN113841161 A CN 113841161A CN 202080036891 A CN202080036891 A CN 202080036891A CN 113841161 A CN113841161 A CN 113841161A
Authority
CN
China
Prior art keywords
images
image
keywords
content distribution
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080036891.XA
Other languages
English (en)
Inventor
A·班纳吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oracle International Corp
Original Assignee
Oracle International Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oracle International Corp filed Critical Oracle International Corp
Publication of CN113841161A publication Critical patent/CN113841161A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • H04N21/8153Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

公开了用于自动生成内容分发图像的方法和***,包括接收与内容分发操作对应的用户输入。可以解析用户输入以识别关键词。可以识别与关键词对应的图像数据。可以对图像数据执行图像处理操作。对处理后的图像数据执行生成对抗网络,其包括:对处理后的图像数据执行第一神经网络以生成与关键词对应的第一图像,该第一图像是基于第一图像中的每个图像不被检测为已经由第一神经网络生成的可能性而生成的。用户界面可以显示第一图像和第二图像,该第二图像包括先前是内容分发操作的一部分的图像或由实体指定为可用于内容分发操作的图像。

Description

用于自动生成内容分发图像的可扩展体系架构
相关应用的交叉引用
本申请要求于2020年9月10日提交的标题为“SCALABLE ARCHITECTURE FORAUTOMATIC GENERATION OF CONTENT DISTRIBUTION IMAGES”的美国非临时申请17/017,486的优先权,该申请要求于2019年9月13日提交的标题为“SCALABLE ARCHITECTURE FORAUTOMATIC GENERATION OF CONTENT DISTRIBUTION IMAGES”的美国临时申请62/900,40,40的权益,其全部内容出于所有目的通过引用并入本文。
技术领域
本发明一般而言涉及用于内容分发(content-distribution)操作的自动生成内容,并且更特别地涉及利用神经网络进行内容分发操作的可扩展体系架构。
背景技术
为内容分发操作生成内容可能是资源密集型和耗时的。通常,内容分发操作的目标是在特定的相关时间间隔内将特定内容分发到特定设备集合。企业可以雇佣摄影师、设计师、美术师等团队来获得操作的图像、基于一个或多个标准修改这些图像、将修改后的图像转换成适合传输或显示的格式、并且将格式化后的图像传输到该特定设备集合。公司会经常花费数周时间以相当大的资源支出来设计单一的内容分发。此外,在分发操作开始时,可能已经过去了足够的时间,以至于生成的内容可能不再与接收它们的该特定设备集合相关。因此,需要***和方法来减少内容分发操作的资源需求。
发明内容
公开了一种用于自动生成内容分发操作的图像的方法。该方法包括:接收与内容分发操作对应的用户输入;解析用户输入以识别与内容分发操作相关联的一个或多个关键词;从一个或多个数据库接收与和内容分发操作相关联的所述一个或多个关键词对应的图像数据;对图像数据执行一个或多个图像处理操作以导出处理后的图像数据,图像处理操作提供图像内与所述一个或多个关键词对应的特定位置的指示;对处理后的图像数据执行生成对抗网络以生成用于内容分发操作的一个或多个图像,其中执行生成对抗网络包括:对处理后的图像数据执行第一神经网络,第一神经网络生成与所述一个或多个关键词对应的第一组图像,其中第一组图像是至少部分地基于第一组图像中的每个图像不被检测为已经由第一神经网络生成的可能性而生成的;经由第一用户界面显示第一组图像和第二组图像,第二组图像包括先前是一个或多个内容分发操作的一部分的图像或由与内容分发操作相关联的实体指定为可用于内容分发操作的图像。
本公开的另一方面包括一种***,该***包括一个或多个处理器和非暂态计算机可读介质,该非暂态计算机可读介质包括当由一个或多个处理器执行时使该一个或多个处理器执行上述方法的指令。
本公开的其它方面包括一种非暂态计算机可读介质,该非暂态计算机可读介质包括当由一个或多个处理器执行时使该一个或多个处理器执行上述方法的指令。
根据下文提供的具体实施方式,本公开的进一步应用领域将变得显而易见。应该理解的是,具体实施方式和具体示例虽然指示了各种实施例,但仅用于说明的目的,并不一定旨在限制本公开的范围。
附图说明
结合附图来描述本公开:
图1是根据本公开的至少一个方面的用于生成内容分发图像的可伸缩体系架构的框图。
图2是图示根据本公开的至少一个方面的用于生成内容分发图像的过程流程的框图。
图3图示了根据本公开的至少一个方面的与生成内容分发图像相关联的图形用户界面的示例。
图4图示了根据本公开的至少一个方面的用于生成内容分发操作的流程图。
在附图中,相似的组件和/或特征可以具有相同的附图标记。此外,可以通过在附图标记后面加上破折号和区分相似组件的第二标记来区分相同类型的各种组件。如果说明书中仅使用第一附图标记,那么描述适用于具有相同第一附图标记的任何一个相似组件,而与第二附图标记无关。
具体实施方式
随后的描述仅提供(一个或多个)优选示例性实施例,并不旨在限制本公开的范围、适用性或配置。替代地,(一个或多个)优选示例性实施例的随后描述将为本领域技术人员提供用于实现优选示例性实施例的可行描述。应该理解的是,可以对元件的功能和布置进行各种改变,而不脱离所附权利要求中阐述的精神和范围。
可以定义可扩展体系架构以使用人工智能生成内容和内容分发操作。可以在运行时训练生成对抗网络以生成用于内容分发操作的特定图像。例如,可以解析用户输入以确定与内容分发操作的预期上下文对应的一个或多个关键词。一个或多个关键词可以表示例如内容的一个或多个主体(例如,诸如人)、主体的特点(诸如人的种族、性别、身高、体重等)、要在内容中表示的一个或多个对象、设置(例如,诸如位置)等。
在一些情况下,生成对抗网络可能不会被训练来生成每个可能的关键词或关键词组合的图像。在这些情况下,一个或多个关键词可以用于生成图像数据(例如,来自先前的内容分发操作和/或标记图像的数据库),该图像数据可以用于在运行时训练生成对抗网络的生成器神经网络。生成对抗网络然后可以按需生成与任何关键词或关键词组合对应的图像。
生成对抗网络的鉴别器神经网络可以在生成器神经网络之后进行训练。训练鉴别器神经网络可以包括使用生成器神经网络来生成图像并将它们与其它图像(诸如来自图像数据的图像)一起传递给鉴别器神经网络。鉴别器神经网络可以为每个图像生成指示该图像是否由生成器神经网络生成的预测。预测可以传递回生成器神经网络。生成器神经网络使用鉴别器神经网络的预测来改进图像生成,以生成更有可能被鉴别器神经网络标记为真实图像的图像。因此,生成器神经网络的目标是欺骗鉴别器神经网络预测假否定(例如,预测图像不是由生成器神经网络生成的,即使该图像实际上是由生成器神经网络生成的)。
在生成器神经网络和鉴别器神经网络被训练之后,可以使用一个或多个关键词来执行生成器神经网络以生成用于内容分发活动的图像。在一些情况下,鉴别器神经网络可以继续生成预测,这些预测可以由生成器神经网络使用来进一步细化图像生成。在这些情况下,预测也可以用于过滤由生成器神经网络生成的图像,该操作例如通过移除鉴别器正确预测为由生成器神经网络生成的那些图像(例如,图像没有作为真实图像出现)。生成的图像(或剩余的过滤后的图像)可以被传输到一个或多个客户端设备(例如,与请求生成图像的实体相关联的设备)、内容分发服务器(例如,诸如web主机(webhost)等),或作为内容分发活动的一部分的一个或多个用户设备(例如,与一个或多个客户端设备所针对的用户相关联的设备)。
在一些情况下,定义内容分发活动的用户输入可以包括自然语言文本、文本命令或预选择的选项。输入可以描述要分发的内容和/或分发的机制(例如,要接收内容的特定设备、要用于传输内容的通信协议、内容的格式等)。可以处理用户输入以确定一个或多个关键词。在一些情况下,可以使用规则***处理自然语言文本或文本命令。规则***可以包括规则的层次结构,该规则的层次结构在应用于文本时,将词或短语分配给类别。每个规则的应用可以生成将词或短语表征为对应于特定类别的类别标识符。
在一些情况下,类别可以是分层的,使得如果规则的应用将词表征为对应于两个或更多个类别,那么可以将更具体的类别或更高优先级的类别分配给该词。例如,第一规则可以识别指代第一类别“运输工具模式”的短语,第二规则可以识别指代第二类别“汽车”的短语,并且第三规则可以识别指代第三类型“轿车”的短语。虽然指代轿车的输入文本将触发所有三个规则的应用,但将应用最具体的第三规则。因此,关键词“轿车”将被选择作为该短语的关键词。
在一些情况下,可以使用机器学习模型来识别输入的关键词。机器学习模型可以使用从一组先前的内容分发操作、开源数据库、公共数据库和/或从制造数据(例如,为训练机器学习模型的目的而生成的数据)导出的训练数据进行训练。可以从训练数据中提取一组特征(例如,词或短语)。然后可以将这组特征作为输入传递给机器学习模型。可以使用无监督学习、半监督学习或监督学习来训练机器学习模型。一旦经过训练,机器学习模型就可以接收输入文本并输出一个或多个关键词。在一些情况下,机器学习模型还可以输出一个或多个关键词中的每个关键词的置信度,其指示关键词对应于输入文本的概率。
例如,可以使用该组先前内容分发操作来识别用于训练机器学习模型的一组输入文本。机器学习模型使用监督学习进行训练,每个输入文本都将与标记(例如,将通过分析输入文本产生的关键词)相关联。机器学习模型可以使用该组输入文本来确定哪些词和/或短语对应于特定类别。在监督学习期间,机器学习模型可以将由模型生成的输出(例如,预测的关键词)与输入文本相关联的标记进行比较,以调整机器学习模型的内部过程并提高后续预测的准确度。在无监督学习期间,机器学习模型可以从该组输入文本中的每个输入文本中提取特征。机器学习模型然后可以使用聚类分析,例如,基于提取特征来识别该组输入文本中的(例如,与相同的一个或多个关键词相关联的)相关输入文本之间的关系。一旦经过训练,机器学习模型就可以使用特定内容分发操作的输入来执行,以对输入的词和短语进行分类。
可以从分类的输入中提取一个或多个关键词。一个或多个关键词可以对应于输入内的可以表示内容分发操作的上下文的词或短语。替代地,一个或多个关键词可以对应于分配给词或短语的类别。在一些情况下,分配给每个输入文本的置信度值指示为输入文本正确选择关键词的可能性。阈值可以用于丢弃与低于阈值的置信度值相关联的关键词,以防止一个或多个关键词表示内容分发操作的不正确的上下文。
一个或多个关键词可以用于获得用于输入到生成对抗网络中的图像数据。可以使用一个或多个关键词来生成查询。可以执行查询以从一个或多个数据库和/或外部网络获得图像数据。图像数据可以与一个或多个关键词对应并与内容分发操作的上下文相关联。在一些情况下,可以执行一个或多个查询以在迭代过程中从一个或多个数据库和/或外部网络获得图像数据。例如,如果对第一数据库的第一查询没有返回与一个或多个关键词对应的图像数据,那么可以对另一个数据库生成并执行第二查询。该过程可以继续,其中在不同的数据库或外部网络上执行每个连续查询。如果没有任何数据库或网络返回与一个或多个关键词对应的图像数据,那么可以生成并执行最终查询以从开源数据库、公共数据库或互联网获得图像数据。
在一些情况下,图像数据可以在被输入到生成对抗网络之前被处理。例如,一个或多个第一关键词可以对应于汽车和卡车,并且一个或多个第二关键词可以指示汽车或卡车的背景是室内环境。检索到的图像数据可以包括各种室内和室外环境中的汽车和卡车的图像。如果与室内环境中的汽车和卡车对应的图像数据超过阈值(例如,特定数量的图像和/或特定数据量),那么与室外环境中的汽车或卡车对应的图像数据可能不被使用。
如果与室内环境中的汽车和卡车对应的图像数据没有超过阈值,那么与室外环境中的汽车或卡车对应的图像数据可以被处理以使得能够使用该数据同时符合一个或多个第一关键词和一个或多个第二关键词。例如,可以通过生成关于与一个或多个第一关键词和/或一个或多个第二关键词对应的每个图像的部分(或不与一个或多个第一关键词或一个或多个第二关键词对应的图像数据的部分)的指示(例如,诸如标记等)来处理图像数据。在一些情况下,与一个或多个第一关键词和一个或多个第二关键词的关键词对应的图像的部分可以从不与一个或多个第一关键词和一个或多个第二关键词的关键词对应的图像的部分中提取。通过生成关于图像相关部分(或不相关部分)的指示,可以正确地训练生成对抗网络。
图像处理可以包括可以应用于修改图像数据以更好地训练生成对抗网络的一个或多个操作。一个或多个操作可以以任何特定顺序执行。图像处理可以包括使用对象检测来标记图像的一个或多个对象(特别是与一个或多个关键词对应的一个或多个对象)的一部分。在一些情况下,对象检测/标记可以由神经网络执行,诸如卷积神经网络(CNN)、区域-CNN、快速-CNN、你只看一次(you-only-look-once,YOLO)等。一旦标记了图像的对象,就可以通过例如通过移除不与一个或多个关键词对应的图像部分来减小图像的尺寸来进一步处理图像。
修改后的图像数据可以作为输入传递到生成对抗网络的生成器网络中。生成器网络可以是神经网络(例如,卷积神经网络、反卷积神经网络等)。生成器网络经由一组层使用变换函数从输入图像数据导出第一组图像。第一组图像可以与一个或多个关键词(例如,内容分发活动的上下文)对应并且采用适于作为内容分发活动的一部分的分发的格式。可以将第一组图像传递给鉴别器网络以进行评估。
鉴别器网络可以为第一组图像中的每个图像生成预测,该预测指示图像是由生成器网络生成的还是由真实图像生成的。鉴别器网络可以将预测传输回生成器网络,以便于生成器网络的进一步训练(例如,反向传播学习)。在一些情况下,生成器网络生成的每个图像在被传递到鉴别器网络之前或之后都可能被用户接受或拒绝。例如,每个图像都可以被标记为接受或拒绝。在一些情况下,图像和对应的标记可以作为反向传播学习的第二层传递到生成器网络。在这些情况下,标记可以用于进一步细化图像生成。
分配给每个图像的预测可以用于确定哪些图像将被包括在内容分发活动中以及哪些图像可以被丢弃(或用于生成对抗网络的进一步训练)。例如,内容分发活动可以包括作为第一组图像的子集的第二组图像。第二组图像可以包括来自第一组图像的图像,这些图像已经被分配了来自鉴别器网络的预测,该预测指示图像不是由生成器网络生成的。然后可以根据内容分发活动向一个或多个客户端设备传输第二组图像。替代地或附加地,在一些情况下,内容分发操作可以包括第二组图像中的图像的物理表示。例如,图像可以被打印并经由邮寄或以其它方式分发给一个或多个接收者。
图1是根据本公开的至少一个方面的用于生成内容分发图像的***100的框图。***100包括一个或多个计算设备104-1、104-n,其可以用于自动生成内容分发操作的内容。每个计算设备104-1到104-n可以包括相同的硬件组件,诸如在104-1内描绘的那些硬件组件或不同的硬件组件。例如,计算设备104-1可以包括执行内容生成的特定方面(例如,文本分析、图像处理、内容生成、内容评估其组合等)的硬件组件。
计算设备104-1包括经由总线耦合到存储器112的一个或多个处理器(例如,CPU108)。用户界面116可以呈现在显示器120上用于与用户交互。用户可以操作输入/输出设备以在用户界面116内定义新的内容分发操作。输入可以包括表征新内容分发的一个或多个属性和文本。例如,文本可以是自然语言文本、字母数字串、字母数字命令等。
内容分发操作定义可以被传递到机器学习核心124。机器学习核心124可以是一个或多个人工智能模块,每个模块一起执行以生成符合内容分发操作定义的图像。该定义可以被传递到机器学习核心124内的解析器128。解析器128可以分解文本输入以确定定义的一个或多个关键词。一个或多个关键词可以对应于定义的上下文,诸如要分发的内容的主体、对象等。解析器124将文本转换成一组令牌(例如,基于解析器124的设置的每个字母数字字符、每个词和/或短语)。然后可以单独和组合标记该组令牌(例如,使用预设字符长度的滑动窗口)。标记可以基于将令牌与预定义关键词、规则层次结构或使用机器学习进行匹配。机器学习实现可以只输出可以与上下文相关联的那些令牌(例如,名词、动词、带有名词的形容词等),而忽略或丢弃特定令牌,诸如与文章相关联的令牌等(例如,几乎没有上下文价值的词)。
机器学习核心124可以使用一个或多个提取的关键词获得图像数据。在一些情况下,机器学习核心124可以从本地图像数据136检索与一个或多个关键词对应的图像数据。在其它情况下,机器学习核心124可以生成并执行对诸如计算设备104-n或图像数据152之类的外部数据存储库的查询。如果无法在网络内获取数据,那么机器学习核心124可以生成并执行查询以从互联网检索图像数据(例如,使用搜索引擎、web爬虫等)。图像数据可以包括描绘与一个或多个关键词中的一个或多个(即,上下文或其一部分)对应的主体/对象的一个或多个图像。例如,一个或多个关键词可以包括“赛道”和“轿车”,并且图像数据可以包括赛道的图像、轿车的图像和/或包括轿车和赛道两者的图像。
机器学习核心124可以将图像数据传递到图像处理器128以将图像处理成更适合于一个或多个神经网络(诸如生成对抗网络)的格式。图像处理可以包括修改图像和/或标记图像内容的一个或多个操作。图像处理可以包括应用一个或多个过滤器、信号或频率分析、边缘检测、朝向校正,诸如仿射或欧几里德变换、它们的组合等。
例如,边缘检测修改图像以强调图像内的对象(或主体)的边缘。边缘检测可以通过过滤技术发起,其中一个或多个过滤器可以应用于图像。过滤器可以通过模糊、锐化、变换(诸如但不限于一个或多个仿射变换、欧几里得变换等)等来修改图像。过滤器可以通过例如去除图像伪像和/或图像的不与一个或多个关键词对应的其它部分来减少图像噪声。
在一些情况下,图像可以具有一些部分,这些部分可以比图像的其它部分被更多地处理。例如,图像的一部分看起来模糊,而图像的另一部分可能是清晰的。不同的过滤器可以应用于图像的不同部分,此外,不同组的过滤器可以应用于图像的不同部分。不同的过滤器可以应用于图像的不同部分。例如,可以对图像的第一部分进行过滤以锐化第一部分,并且可以利用仿射变换过滤器和降噪来对图像的第二部分进行过滤。可以对图像和/或每个补片(patch)应用任何数量的不同过滤器。
一旦应用了过滤器,就可以识别跨越相邻像素的像素强度梯度的变化。相邻像素之间强度的大变化可以指示边缘的存在。例如,紧邻具有低强度值的像素的具有高强度值的第一像素可以提供第一像素是边缘的一部分的指示。在一些情况下,不属于边缘的部分的像素可以被抑制(例如,设置为预定的红色/绿色/蓝色值,诸如黑色,其中红色=0、蓝色=0和绿色=0,或任何预定的红色/绿色/蓝色值)。边缘检测算子诸如Roberts交叉算子、Prewitt算子、Sobel算子等可以用作像素强度梯度的标识的一部分。
非最大抑制过程可以用于抑制与边缘不强烈对应的像素。非最大值抑制过程为使用像素强度梯度识别为边缘的一部分的每个像素分配边缘强度值。对于识别为边缘的一部分的每个像素,可以将像素的边缘强度值与像素的八个周围像素的边缘强度值进行比较。如果像素的边缘强度值高于周围像素的边缘强度值(例如,局部最大值),那么周围像素被抑制。可以对整个图像中的每个像素重复非最大值抑制。
然后可以执行双阈值过程以去除通过应用在本文应用的先前图像处理技术而携带的噪声和/或虚假边缘像素。可以定义两个像素强度阈值,一个高,一个低。阈值可以用于将强度特性分配给每个像素作为强或弱。包括高于高阈值的强度值的像素可以被分配强的强度特性,其中包括在高阈值和低阈值之间的强度值的像素可以被分配弱的强度特性。可以(例如,以与上述相同的方式)抑制包括低于低阈值的强度值的像素。
然后可以执行滞后过程以去除具有弱的强度特性(即由于噪声、颜色变化等而弱)的像素。例如,可以对具有弱的强度特性的每个像素进行局部统计分析(例如,连通分量分析等)。没有被包括强的强度特性的像素包围的具有弱的强度特性的像素可以被抑制。滞后过程后的剩余像素(例如,未抑制的像素)仅包括作为边缘的部分的那些像素。虽然以特定顺序描述了以上五个处理过程,但是在不脱离本公开的精神或范围的情况下,每个过程可以被执行任意次数(例如,重复)和/或以任意顺序执行。在一些情况下,只需对图像执行五个过程的子集。例如,图像处理可以在不首先执行过滤过程的情况下执行像素强度梯度过程的识别。在一些情况下,可能接收到被部分处理(例如,已经执行上述过程中的一个或多个)的图像。在这些情况下,可以执行一个或多个附加过程来完成图像处理。
在一些情况下,可以对图像执行信号处理(例如,类似于射频信号)。可以将图像变换到频域(例如,使用Fourier变换等)来表示图像中存在特定像素特点(例如,像素强度、RGB值等)的频率。在频域中,可以将一个或多个过滤器(诸如,但不限于Butterworth过滤器、带通等)应用于图像(例如,在预处理、边缘检测期间或之后)以抑制或改变特定频率。抑制特定频率可以减少噪声、消除图像伪影、抑制非边缘像素、消除特定颜色或颜色梯度的像素、标准化颜色梯度等。高通过滤器可以揭示图像中的边缘(例如,相邻像素之间的颜色和/或强度的清晰对比),而低通过滤器可以混合边缘(例如,模糊)。可以在信号处理之前执行图像填充以改进信号处理技术。在一些情况下,图像的不同部分和/或补片可以被不同地处理,其中一些用高通过滤器处理,而另一些用低通过滤器处理。在一些情况下,可以(例如,基于图像处理一个或多个先前的图像、机器学习等)针对图像的不同部分修改阈值(例如,高通或低通过滤器的截止频率)。
信号处理还可以确定图像的识别像素之间的关系的其它特性,诸如相干性(例如,用于边缘检测、分割、模式分析等)。像素之间的关系可以用于进一步细化边缘检测和/或识别图像内所描绘内容的结构特性。例如,相干性可以用于从图像的不相关部分中识别图像的相关部分(例如,与关键词对应的同一对象的部分)。
在一些情况下,可以代替边缘检测、在边缘检测期间或在边缘检测之后执行图像分割操作。图像分割为图像的每个像素分配相干值(例如,如上所述)。图像分割可以使用在边缘检测或一个或多个其它操作(诸如Sobel模型、图分区等)期间识别出的相干值。相干值表示可以用于根据公共标记(例如,图像中描绘的对象)对像素进行分组的像素标记。相干值可以用于识别图像内对象的位置、朝向和形状,其可以经由查找表用于识别对象。如果使用相干性和图像特点无法识别对象,那么可以将处理后的图像(等待进一步的图像处理)传递给分类器。
分类器可以是预测机器学习模型,诸如但不限于,神经网络等。分类器可以被训练以标记与一个或多个关键词对应的对象/主体。可以使用本地图像数据136或根据从训练服务器148接收到的一个或多个训练数据集来训练分类器。可以使用监督或无监督学习来训练神经网络。例如,在监督学习中,可以将一组标记图像输入到神经网络中。神经网络可以定义特征集(例如,指示标记存在的一组图像特点)。当未标记的数据被输入到神经网络时,分类器可以使用特征集。在无监督学习中,图像可以作为输入被传递给带有标记的分类器。分类器可以通过对图像的分析来学习特征集。如果分类器的准确度低于阈值,那么可以使用训练数据集和/或任何附加标记或未标记图像,使用监督或无监督学习来重新训练分类器。
在一些情况下,在将图像数据作为输入传递之前,可以确定生成对抗网络是否被训练以生成与图像数据对应的图像。如果生成对抗网络还没有被训练,那么机器学习核心124可以基于可以作为输入传递的特定处理后的图像和/或标记的图像数据按需训练生成对抗网络。例如,如果图像数据对应于赛道和轿车,并且生成对抗网络没有使用赛道和/或轿车的图像进行训练,那么生成对抗网络可能无法生成看起来像真实图像的图像(例如,看起来不像是计算机生成的)。
机器学习核心124可以尝试在本地图像数据136中定位和构建训练数据集。如果找不到,机器学习核心124可以生成并执行对训练服务器148的查询。训练服务器148可以使用图像数据152或来自先前内容分发操作156的图像数据来获得图像以训练生成对抗网络。例如,如果公司之前执行过与赛道和轿车相关联的内容分发操作,那么机器学习核心124可以访问来自该内容分发活动的训练数据和/或生成的图像来训练生成对抗网络。
在一些情况下,可以提供多个生成对抗网络,其中每个生成对抗网络被训练以生成与特定的一个或多个关键词对应的图像。例如,图像数据(例如,输入数据)可以由分类器分类以确定要生成的图像的类型(例如,特定主体、对象、设置等)。可以基于特定生成对抗网络已经被训练来生成与分类器识别出的类别对应的图像来选择多个生成对抗网络中的特定生成对抗网络。多个生成对抗网络可以基于每个生成对抗网络在其上被训练的关键词的特异性以层次结构进行组织。
生成对抗网络包括生成器神经网络140和鉴别器神经网络144,它们在训练之后以前馈和反向传播学习模式进行操作。生成器网络140使用一层或多层变换/权重函数来识别与特定特点(例如,背景、前景、关键词、对象、主体等)对应的训练图像的特征。在监督学习期间,可以将特征与图像的标记进行比较,以确定生成器网络140的准确度。训练可以继续直到已经达到阈值准确度为止。如果准确度低于阈值,那么可以重新训练生成网络140。一旦经过训练,生成器网络140就可以用于生成与输入的一个或多个关键词对应的一系列图像。生成器网络140试图生成看起来与真实图像无法区分(或接近真实图像)的图像。
一旦生成器神经网络140被训练,鉴别器神经网络144就可以被训练。鉴别器网络144尝试预测图像是否由生成器神经网络140生成(例如,假图像)。在训练期间,由生成器神经网络140生成的一组训练图像和从一个或多个其它源接收的图像可以被输入到鉴别器网络144。训练数据可以被标记(对于监督学习)或未被标记(对于无监督学习)。鉴别器网络144可以使用作为输入传递的图像来提高后续预测的准确度。一旦经过训练,鉴别器网络144就可以开始预测由生成器网络140生成的图像。预测可以被传递回生成器神经网络140以改进生成的图像。该过程可以继续直到检测到预定的错误率为止。例如,错误率可以对应于由生成器神经网络140生成但由鉴别器神经网络144预测为真实的(例如,鉴别器神经网络144将图像预测为不是由生成器神经网络140生成的)图像的百分比。由于这两个网络同时以前馈和反向传播进行操作,因此模型不断获得由生成器网络140生成的更逼真的图像。
在一些情况下,除了预测之外,鉴别器网络144还可以输出图像的其它特点。例如,鉴别器网络144可以分配指示预测的置信水平的置信度值。鉴别器网络144还可以分配指示生成的图像与一个或多个关键词对应的接近程度的准确度值。例如,对于“赛道”和“轿车”这两个关键词,如果生成的图像描绘赛道而不是轿车,那么它可以被赋予比同时描绘赛道和轿车的生成的图像低的准确度值。可以根据准确度(和/或预测)对图像进行排名以确定哪些生成的图像应该被传输到客户端设备160-1、160-2、160-3、...160-n。
一旦生成器140生成欺骗鉴别器神经网络144的图像(例如,看起来足够逼真以至于鉴别器神经网络144将该图像预测为真实的),该图像就可以被进一步处理(例如,使用先前描述的图像处理操作中的一个或多个)和/或图像可以通过网络分发到一个或多个客户端设备160-1、160-2、160-3、...160-n。
图2是图示根据本公开的至少一个方面的用于生成内容分发图像的过程流程的框图。过程流程可以用用户界面204发起,该用户界面204使用户能够定义内容分发操作。用户界面包括用于内容分发操作的多个字段,包括标题字段208和文本字段212。文本字段212使得能够接收用户输入,诸如描述内容分发操作的字母数字串。一旦被接收,就可以选择上传按钮216以将在标题208和文本212中录入的字母数字串传输到一个或多个机器学习核心用于内容生成。在一些情况下,至少一个机器学习核心可以在与用户界面204相同的设备上本地执行。在其它情况下,用户界面204可以呈现在与机器学习核心不同的设备上。用户界面204可以包括允许用户指示内容分发操作的特定特性的一个或多个附加字段,包括但不限于接收设备(或用户)、一旦生成就传输内容的一种或多种通信协议、每个生成的图像的阈值准确度等。
文本(和任何其它特性)可以被传递到文本处理流水线228,其可以解析文本以确定与文本字段212相关联的一个或多个关键词。可以经由关键词查找表、机器学习模型或如上所述的任何其它操作来解析文本。在方框232处,在文本处理流水线228处从文本字段212识别出的一个或多个关键词可以用于识别与一个或多个关键词对应的图像数据。例如,方框232识别与一个或多个关键词中的每一个对应的图像或图像的一部分。在一些情况下,可以定义针对图像数据的预定义数量的图像。在这些情况下,方框232可以首先识别与一个或多个关键词中的每一个对应的第一组图像。如果第一组图像不等于或大于预定义阈值,那么可以将与除了一个或多个关键词中的一个之外的所有关键词对应的图像添加到第一组图像。如果第一组图像仍然不等于或大于预定义阈值,那么可以将与除了一个或多个关键词中的一个之外的所有关键词对应的图像添加到第一组图像,依此类推,直到针对图像数据获得预定义数量的图像为止。
在方框236处,可以对图像数据执行一种或多种图像处理技术和/或对象识别。例如,可以使用图像分割或边缘检测来修改图像数据,以将与至少一个关键词对应的图像部分与不与一个或多个关键词对应的图像部分区分开。每个图像的与至少一个关键词对应的部分可以用至少一个关键词进行标记。在一些情况下,可以执行进一步的图像处理以去除不与至少一个关键词对应的图像部分(或以其它方式标记这些部分)。
标记和处理后的图像数据可以被传递到方框240,方框240可以使用标记和处理后的图像数据来生成用于生成对抗网络252-256的训练数据集。例如,方框240可以确定生成对抗网络252-256是否被训练以生成与一个或多个关键词对应的图像。如果不是,那么可以生成与一个或多个关键词对应的训练数据集以动态训练生成对抗网络252-256。例如,训练数据集可以从训练服务器148获得,训练服务器148可以访问来自先前内容分发156和/或一个或多个远程网络(例如,外部网络、互联网等)的图像数据。
在一些情况下,来自标记和处理后的图像数据的图像可以被输出到用户界面204。例如,标记和处理后的图像数据中的一些或全部的表示可以被传输到用户界面204。用户然后可以审查来自标记和处理后的图像数据的图像。在一些情况下,用户可以从标记和处理后的图像数据中丢弃一个或多个图像(例如,没有通过用户审查的那些图像)。在一些情况下,用户可以通过例如将附加图像224上传到标记和处理后的图像数据中来补充标记和处理后的图像数据。
标记和处理后的图像数据可以作为输入传递到包括生成器网络252和鉴别器网络256的生成对抗网络。生成器网络252可以使用标记和处理后的图像数据来生成一组新的人工图像,该组新的人工图像可以由鉴别器网络256进行评估。鉴别器网络256可以生成指示生成的图像是真实的还是人工的预测。被预测为真实的图像可以被输出到方框260,其中图像被打包以传输到一个或多个远程客户端或客户端设备。被预测为人工的图像可以作为生成对抗网络中的反向传播传递回生成器网络252,以提高未来图像生成和后续标记的准确度。
图3图示了根据本公开的至少一个方面的与生成内容分发图像相关联的图形用户界面的示例。图形用户界面304包括一个或多个帧,每个帧向用户呈现不同的信息。例如,上部框架可以接收定义和/或修改内容分发操作的方面的用户输入。在定义内容分发操作的文本被解析为表示内容分发操作的上下文的一个或多个关键词之后,可以向用户呈现用户界面304以修改内容分发操作定义的方面。例如,用户可以切换操作符308以显示定义内容分发操作的文本。
用户可以切换操作符312以审查提供给生成图像的机器学习核心的参考图像中的一些或全部。参考图像包括用户提供的图像和/或来自机器学习核心识别出的图像数据的图像。检测到的关键词/令牌316可以包括从所提供的文本识别出的每个关键词和/或相关令牌的表示。用户可以选择或取消选择一个或多个关键词来生成新的图像数据或修改图像数据(如果已经生成)。关键词/令牌置信度过滤器320可以用于向用户指示哪些关键词可能与所提供的文本高度对应以及哪些关键词可能具有低的对应置信度。在一些情况下,关键词/令牌置信度过滤器320可以包括一个或多个阈值过滤器,该过滤器自动去除低于特定置信度值的关键词。
由生成对抗网络生成的图像可以经由用户界面304实时呈现(例如,当生成图像时)。用户界面304可以将每个生成的图像324表示为完整图像或缩略图,当接收到选择图像的输入时,缩略图可以被呈现为完整图像。在一些情况下,经由用户界面304呈现的图像可以是由生成对抗网络生成的所有图像。在其它情况下,经由用户界面304呈现的图像可以仅包括由鉴别器网络预测为不是由生成器网络生成的那些图像。每个图像324可以包括接受按钮328和拒绝按钮332。可以接收输入以接受234图像以分发给一个或多个客户端或客户端设备或拒绝324图像从而丢弃该图像。在一些情况下,可以将接受328或拒绝332的选择分配为图像324的标记。图像和分配的标记可以反向传播到生成对抗网络以添加附加的训练层,这可以进一步改进内容分发操作的图像生成。
图4图示了根据本公开的至少一个方面的用于生成内容分发操作的流程图。在方框404处,可以接收用户输入以生成用于与实体(例如,销售产品/服务的公司或提供内容分发服务的公司)相关联的内容分发(例如,营销)操作的内容。用户输入可以包括描述内容分发操作的一个或多个字母数字串。一个或多个字母数字串可以包括自然语言文本、以特定模式(诸如键/值对)的文本命令等。用户输入还可以包括内容分发操作的一个或多个特性,诸如要生成的图像的类型、图像的格式、接收图像的客户端或客户端设备、用于传输图像的通信协议、它们的组合等。
在方框408处,可以解析用户输入以识别与内容分发操作的上下文相关联的一个或多个关键词。解析用户输入可以包括一个关键词分析(例如,识别特定词并将它们与关键词查找表匹配)、自然语言机器学习模型(如上所述)等。一个或多个关键词中的每个关键词指示生成的图像中要描绘的部分内容。例如,关键词可以对应于对象、上下文、动作、主体、背景、前景、设置(例如,位置,诸如海滩或学校)、它们的组合等。
在方框412处,可以从一个或多个数据库(或诸如外部网络或互联网的网络)接收与一个或多个关键词中的至少一个对应的图像数据。在一些情况下,图像数据可以包括表征或表示与至少一个关键词相关联的图像的结构化或非结构化数据。在其它情况下,除了结构化或非结构化数据之外,图像数据还包括各自与至少一个关键词对应的一个或多个图像。在又一些情况下,图像数据可以仅包括一个或多个图像。
在方框416处,可以对图像数据执行一个或多个图像处理操作以导出处理后的图像数据。一个或多个图像处理操作包括可以修改或变换图像的操作(例如,仿射变换、边缘检测、图像分割等)。一个或多个图像处理操作还可以包括对象检测。对象检测可以使用经过训练的神经网络来识别图像中的一个或多个对象、主体、设置、动作、上下文、它们的组合等。例如,对于在赛道上比赛的轿车的图像,经过训练的神经网络可以标记图像中对应于对象(例如,轿车)的部分,对应于设置的图像部分(例如,赛道),可以标记上下文(例如,诸如白天/黑夜、天气等)。一个或多个图像处理操作还可以包括去除图像的不与至少一个关键词对应的部分。
一个或多个图像处理操作还可以包括标示图像数据的特定图像的一部分,该部分将保持不被生成与特定图像类似的图像的生成对抗网络修改。例如,对象可以被标示为保持不被修改,使得当输入到生成对抗网络中时,生成对抗网络可以生成包括相同对象的不同图像。生成对抗网络可以在具有不同的其它对象等的不同上下文(例如,不同的设置、位置、背景、前景、天气等)中生成对象的图像。
一个或多个图像处理操作还可以包括标示要由生成对抗网络修改的图像数据的特定图像的一部分。例如,对象可以被标示为不被修改,使得当输入到生成对抗网络中时,生成对抗网络可以生成唯一区别在于对象的不同图像。如果对象是被描绘在赛道上的轿车,那么以这种方式标示轿车可以使得生成对抗网络能够生成唯一区别在于对轿车的修改的图像。例如,生成对抗网络可以生成轿车为不同颜色或为不同品牌或型号的图像。轿车可以被替换为不同的对象,诸如卡车、自行车等。如果对象对应于人类,那么可以修改人类的人类特点,诸如但不限于,年龄、种族、性别、身高、体重、外貌(例如,眼睛颜色、头发颜色、衣服等)、它们的组合等。
在方框420处,可以对处理后的图像数据执行生成对抗网络,包括:
在方框424处,可以对图像数据执行第一神经网络以生成第一组新图像,每个新图像与一个或多个关键词中的至少一个关键词对应。在第一神经网络中,可以使用一个或多个关键词作为输入(其来自处理后的图像数据)或使用一个或多个图像来执行。第一组图像可以是完全由计算机生成的合成图像,但是被生成为看起来好像图像是真实的(例如,不是计算机生成的)。第一神经网络可以是作为生成对抗网络的一部分的生成神经网络。可以使用第二神经网络来训练生成器神经网络,使得可以基于第一组图像中的每个图像不被第二神经网络检测为已经由第一神经网络生成的可能性来生成第一组图像。
例如,第二神经网络可以为一组训练图像的每个祖先图像(例如,由第一神经网络先前生成的图像)生成预测。预测可以对应于祖先图像是否由第一神经网络生成的可能性。该组训练图像可以包括祖先图像和从一个或多个其它来源(例如,先前的内容分发操作、互联网、来自同一实体的图像等)接收到的图像。一个或多个其它来源可以包括图像数据、从本地或远程数据库、互联网等接收到的一个或多个图像。从一个或多个其它来源接收到的图像可以是真实图像(例如,未由计算机生成的图像、由计算机(诸如另一个生成对抗网络)生成的图像、或它们的组合。
第二神经网络可以是表示生成对抗网络的另一部分的鉴别器神经网络。生成对抗网络的目标可以是生成看起来是真实图像的图像,这诱使第二神经网络将生成的图像预测为“真实”图像而不是由生成器神经网络生成的图像。第二神经网络的目标是正确预测图像是否由第一神经网络生成,并将该预测传递回生成器神经网络(例如,反向传播学习)。在一些情况下,第二神经网络可以分配一系列值而不是布尔值(例如,真实的或由生成器神经网络生成的)。例如,该系列值可以指示由生成器神经网络生成图像的概率或置信度。在一些情况下,第一神经网络和第二神经网络可以是相同的神经网络,而在其它情况下,第一神经网络和第二神经网络可以是不同的神经网络。
可以使用第二神经网络的预测来更新第一神经网络。分配给由第一神经网络生成的图像的预测可以向第一神经网络提供关于图像如何好地欺骗第二神经网络将图像预测为是或不是由第一神经网络生成的指示。该信息可以用于修改第一神经网络的一个或多个层,使得第一神经网络可以产生第二神经网络更有可能预测为真实图像(例如,更有可能看起来像现实图像而不是计算机生成的图像)的图像。
一旦经过训练,第一神经网络就可以被执行以生成图像,每个图像与一个或多个关键词中的至少一个关键词对应。可以使用生成的图像来持续训练第一神经网络以持续改进随后生成的图像(例如,使得图像不太可能看起来像是由计算机生成的)。
在方框428处,用户界面可以显示第一组图像和第二组图像(例如,并排、在同一窗口内等)。第二组图像可以包括先前是一个或多个内容分发操作的一部分的图像或由实体(例如,公司、公司内的用户等)指定为与一个或多个关键词相关联的图像。在一些情况下,第一组图像可以被传输到客户端或客户端设备(例如,基于方框404的用户输入)。用户界面可以使用户能够审查第一组图像中的每个图像并将这些图像与第二组图像中的图像进行比较。在一些情况下,用户可以接受或拒绝第一组图像中的个体图像。在这些情况下,用户的接受或拒绝的选择可以作为标记被分配给图像。图像和对应的标记可以被传递到第一神经网络以进一步训练第一神经网络。在一些情况下,可以在进一步训练之前去除被标记为真实的图像。这可以使得能够进行生成对抗网络中的第二层的反向传播学习,其中第二神经网络和用户可以各自单独进一步更新或训练第一神经网络。
在不脱离本公开的精神或范围的情况下,图4的每个方框可以以任何特定顺序或以任何特定频率(诸如例如,按顺序、乱序、一次或多次(按顺序或乱序))执行。
在以上描述中给出了具体细节以提供对实施例的透彻理解。但是,应该理解的是,可以在没有这些具体细节的情况下实践实施例。例如,可以在框图中示出电路,以免以不必要的细节模糊实施例。在其它情况下,可以在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构和技术,以避免模糊实施例。
上述技术、方框、步骤和手段的实施方式可以以各种方式进行。例如,这些技术、方框、步骤和手段可以用硬件、软件或其组合实现。对于硬件实施方式,处理单元可以在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计用于执行上述功能的其他电子单元、和/或它们的组合内实现。
此外,应该注意的是,实施例可以被描述为被描绘为流程图(flowchart)、流图(flow diagram)、游泳图、数据流图、结构图或框图的过程。虽然描绘可能将操作描述为顺序过程,但许多操作可以并行或并发执行。此外,可以重新布置操作的顺序。过程在其操作完成时终止,但可能具有图中未包含的附加步骤。过程可以对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时,其终止对应于函数返回到调用函数或主函数。
此外,实施例可以通过硬件、软件、脚本语言、固件、中间件、微代码、硬件描述语言和/或它们的任何组合来实现。当用软件、固件、中间件、脚本语言和/或微代码实现时,用于执行必要任务的程序代码或代码段可以存储在诸如存储介质之类的机器可读介质中。代码段或机器可执行指令可以表示过程、函数、子程序、程序、例程、子例程、模块、软件包、脚本、类、或者指令、数据结构和/或程序语句的任何组合。代码段可以通过传递和/或接收信息、数据、自变量、参数和/或存储器内容而耦合到另一个代码段或硬件电路。信息、自变量、参数、数据等可以经由任何合适的手段(包括存储器共享、消息传递、令牌传递、网络传输等)传递、转发或传输。
对于固件和/或软件实现,方法可以用执行本文描述的功能的模块(例如,过程、函数等)来实现。有形地实施指令的任何机器可读介质都可以用于实现本文描述的方法。例如,软件代码可以存储在存储器中。存储器可以在处理器内或处理器外实现。如本文所使用的,术语“存储器”是指任何类型的长期、短期、易失性、非易失性或其它存储介质,并且不限于存储器的任何特定类型或存储器的数量,或在其上存储存储器的介质类型。
此外,如本文所公开的,术语“存储介质”可以表示用于存储数据的一个或多个存储器,包括只读存储器(ROM)、随机存取存储器(RAM)、磁RAM、核心存储器、磁盘存储介质、光学存储介质、闪存设备和/或用于存储信息的其它机器可读介质。术语“机器可读介质”包括但不限于便携式或固定存储设备、光学存储设备和/或能够存储包含或携带(一个或多个)指令和/或数据的各种其它存储介质。
虽然上面已经结合具体的装置和方法描述了本公开的原理,但是应当清楚地理解,该描述仅作为示例进行,而不是对本公开范围的限制。

Claims (20)

1.一种方法,包括:
接收与内容分发操作对应的用户输入;
解析用户输入以识别与内容分发操作相关联的一个或多个关键词;
从一个或多个数据库接收与和内容分发操作相关联的所述一个或多个关键词对应的图像数据;
对图像数据执行一个或多个图像处理操作以导出处理后的图像数据,图像处理操作提供图像内与所述一个或多个关键词对应的特定位置的指示;
对处理后的图像数据执行生成对抗网络以生成用于内容分发操作的一个或多个图像,其中执行生成对抗网络包括:
对处理后的图像数据执行第一神经网络,第一神经网络生成与所述一个或多个关键词对应的第一组图像,其中第一组图像是至少部分地基于第一组图像中的每个图像不被检测为已经由第一神经网络生成的可能性而生成的;以及
经由第一用户界面显示第一组图像和第二组图像,第二组图像包括先前是一个或多个内容分发操作的一部分的图像或由与内容分发操作相关联的实体指定为可用于内容分发操作的图像。
2.如权利要求1所述的方法,其中所述一个或多个图像处理操作包括图像分割。
3.如权利要求1所述的方法,其中基于所述一个或多个关键词在运行时训练所述生成对抗网络。
4.如权利要求1所述的方法,还包括:
基于所述一个或多个关键词确定所述生成对抗网络没有被训练为生成与所述一个或多个关键词中的至少一个关键词对应的新图像;
向一个或多个数据库传输对训练数据集的请求,所述训练数据集包括多个图像,其中所述多个图像中的每个图像的一部分与所述一个或多个关键词中的至少一个关键词对应;以及
使用所述训练数据集来训练所述生成对抗网络。
5.如权利要求1所述的方法,其中所述图像数据包括来自先前内容分发操作的一个或多个图像。
6.如权利要求1所述的方法,其中所述一个或多个图像处理操作包括标记与所述一个或多个关键词中的关键词对应的图像数据的每个图像的部分。
7.如权利要求1所述的方法,其中执行生成对抗网络还包括:
接收将接受或拒绝的标记分配给第一组图像中的每个图像的输入;
至少部分地基于所述标记来训练第一神经网络;以及
从第一组图像中去除被分配拒绝标记的每个图像。
8.一种***,包括:
一个或多个处理器;以及
包括指令的非暂态计算机可读介质,所述指令在由所述一个或多个处理器执行时,使所述一个或多个处理器执行包括以下各项的操作:
接收与内容分发操作对应的用户输入;
解析用户输入以识别与内容分发操作相关联的一个或多个关键词;
从一个或多个数据库接收与和内容分发操作相关联的所述一个或多个关键词对应的图像数据;
对图像数据执行一个或多个图像处理操作以导出处理后的图像数据,图像处理操作提供图像内与所述一个或多个关键词对应的特定位置的指示;
对处理后的图像数据执行生成对抗网络以生成用于内容分发操作的一个或多个图像,其中执行生成对抗网络包括:
对处理后的图像数据执行第一神经网络,第一神经网络生成与所述一个或多个关键词对应的第一组图像,其中第一组图像是至少部分地基于第一组图像中的每个图像不被检测为已经由第一神经网络生成的可能性而生成的;以及
经由第一用户界面显示第一组图像和第二组图像,第二组图像包括先前是一个或多个内容分发操作的一部分的图像或由与内容分发操作相关联的实体指定为可用于内容分发操作的图像。
9.如权利要求8所述的***,其中所述一个或多个图像处理操作包括图像分割。
10.如权利要求8所述的***,其中基于所述一个或多个关键词在运行时训练所述生成对抗网络。
11.如权利要求8所述的***,还包括:
基于所述一个或多个关键词确定所述生成对抗网络没有被训练为生成与所述一个或多个关键词中的至少一个关键词对应的新图像;
向一个或多个数据库传输对训练数据集的请求,所述训练数据集包括多个图像,其中所述多个图像中的每个图像的一部分与所述一个或多个关键词中的至少一个关键词对应;以及
使用所述训练数据集来训练所述生成对抗网络。
12.如权利要求8所述的***,其中所述图像数据包括来自先前内容分发操作的一个或多个图像。
13.如权利要求8所述的***,其中所述一个或多个图像处理操作包括标记与所述一个或多个关键词中的关键词对应的图像数据的每个图像的部分。
14.如权利要求8所述的***,其中执行生成对抗网络还包括:
接收将接受或拒绝的标记分配给第一组图像中的每个图像的输入;
至少部分地基于所述标记来训练第一神经网络;以及
从第一组图像中去除被分配拒绝标记的每个图像。
15.一种包括指令的非暂态计算机可读介质,所述指令在由一个或多个处理器执行时,使所述一个或多个处理器执行包括以下各项的操作:
接收与内容分发操作对应的用户输入;
解析用户输入以识别与内容分发操作相关联的一个或多个关键词;
从一个或多个数据库接收与和内容分发操作相关联的所述一个或多个关键词对应的图像数据;
对图像数据执行一个或多个图像处理操作以导出处理后的图像数据,图像处理操作提供图像内与所述一个或多个关键词对应的特定位置的指示;
对处理后的图像数据执行生成对抗网络以生成用于内容分发操作的一个或多个图像,其中执行生成对抗网络包括:
对处理后的图像数据执行第一神经网络,第一神经网络生成与所述一个或多个关键词对应的第一组图像,其中第一组图像是至少部分地基于第一组图像中的每个图像不被检测为已经由第一神经网络生成的可能性而生成的;以及
经由第一用户界面显示第一组图像和第二组图像,第二组图像包括先前是一个或多个内容分发操作的一部分的图像或由与内容分发操作相关联的实体指定为可用于内容分发操作的图像。
16.如权利要求15所述的非暂态计算机可读介质,其中所述一个或多个图像处理操作包括图像分割。
17.如权利要求15所述的非暂态计算机可读介质,其中基于所述一个或多个关键词在运行时训练所述生成对抗网络。
18.如权利要求15所述的非暂态计算机可读介质,还包括:
基于所述一个或多个关键词确定所述生成对抗网络没有被训练为生成与所述一个或多个关键词中的至少一个关键词对应的新图像;
向一个或多个数据库传输对训练数据集的请求,所述训练数据集包括多个图像,其中所述多个图像中的每个图像的一部分与所述一个或多个关键词中的至少一个关键词对应;以及
使用所述训练数据集来训练所述生成对抗网络。
19.如权利要求15所述的非暂态计算机可读介质,其中所述一个或多个图像处理操作包括标记与所述一个或多个关键词中的关键词对应的图像数据的每个图像的部分。
20.如权利要求15所述的非暂态计算机可读介质,其中执行生成对抗网络还包括:
接收将接受或拒绝的标记分配给第一组图像中的每个图像的输入;
至少部分地基于所述标记来训练第一神经网络;以及
从第一组图像中去除被分配拒绝标记的每个图像。
CN202080036891.XA 2019-09-13 2020-09-11 用于自动生成内容分发图像的可扩展体系架构 Pending CN113841161A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962900400P 2019-09-13 2019-09-13
US62/900,400 2019-09-13
US17/017,486 US11856276B2 (en) 2019-09-13 2020-09-10 Scalable architecture for automatic generation of content distribution images
US17/017,486 2020-09-10
PCT/US2020/050406 WO2021050874A1 (en) 2019-09-13 2020-09-11 Scalable architecture for automatic generation of content distribution images

Publications (1)

Publication Number Publication Date
CN113841161A true CN113841161A (zh) 2021-12-24

Family

ID=72659344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080036891.XA Pending CN113841161A (zh) 2019-09-13 2020-09-11 用于自动生成内容分发图像的可扩展体系架构

Country Status (5)

Country Link
US (2) US11856276B2 (zh)
EP (1) EP3932086A1 (zh)
JP (1) JP2022547248A (zh)
CN (1) CN113841161A (zh)
WO (1) WO2021050874A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902551B1 (en) * 2019-12-17 2021-01-26 X Development Llc True positive transplant
CN112001939B (zh) * 2020-08-10 2021-03-16 浙江大学 基于边缘知识转化的图像前景分割算法
WO2022040574A1 (en) * 2020-08-21 2022-02-24 Beam, Inc. Integrating overlaid digital content into displayed data via graphics processing circuitry
JP2024518416A (ja) * 2021-05-07 2024-05-01 オラクル・インターナショナル・コーポレイション 単純で効果的な敵対的攻撃方法としてのバリアント不一致攻撃(via)
US20230177250A1 (en) * 2021-12-06 2023-06-08 Salesforce.Com, Inc. Visual text summary generation
CN116579317B (zh) * 2023-07-13 2023-10-13 中信联合云科技有限责任公司 一种基于ai内容自动生成出版物的方法及***

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US10382804B2 (en) * 2015-08-31 2019-08-13 Orcam Technologies Ltd. Systems and methods for identifying exposure to a recognizable item
US10726308B2 (en) * 2017-07-07 2020-07-28 Accenture Global Solutions Limited Image content moderation
JP6962747B2 (ja) 2017-08-30 2021-11-05 株式会社日立製作所 データ合成装置および方法
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
US10719742B2 (en) 2018-02-15 2020-07-21 Adobe Inc. Image composites using a generative adversarial neural network
US10699161B2 (en) * 2018-02-28 2020-06-30 Fujitsu Limited Tunable generative adversarial networks
US10887640B2 (en) * 2018-07-11 2021-01-05 Adobe Inc. Utilizing artificial intelligence to generate enhanced digital content and improve digital content campaign design
US10943377B2 (en) * 2018-10-15 2021-03-09 Shutterstock, Inc. Creating images using image anchors and generative adversarial networks
US11151425B2 (en) * 2018-11-13 2021-10-19 Nielsen Consumer Llc Methods and apparatus to perform image analyses in a computing environment
US11183294B2 (en) * 2019-08-30 2021-11-23 International Business Machines Corporation Automatic detection and replacement of identifying information in images using machine learning

Also Published As

Publication number Publication date
EP3932086A1 (en) 2022-01-05
US20210081719A1 (en) 2021-03-18
WO2021050874A1 (en) 2021-03-18
US11856276B2 (en) 2023-12-26
US20240089564A1 (en) 2024-03-14
JP2022547248A (ja) 2022-11-11

Similar Documents

Publication Publication Date Title
CN113841161A (zh) 用于自动生成内容分发图像的可扩展体系架构
Xu et al. Reasoning-rcnn: Unifying adaptive global reasoning into large-scale object detection
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN105426356B (zh) 一种目标信息识别方法和装置
CN113095346A (zh) 数据标注的方法以及数据标注的装置
US20220180624A1 (en) Method and device for automatic identification of labels of an image
CN109472193A (zh) 人脸检测方法及装置
CN111212303A (zh) 视频推荐方法、服务器和计算机可读存储介质
CN113743426A (zh) 一种训练方法、装置、设备以及计算机可读存储介质
US11816181B2 (en) Blur classification and blur map estimation
WO2023185074A1 (zh) 一种基于互补时空信息建模的群体行为识别方法
CN116958615A (zh) 图片识别方法、装置、设备和介质
CN115546554A (zh) 敏感图像的识别方法、装置、设备和计算机可读存储介质
Song et al. Genetic programming for detecting target motions
CN112507912B (zh) 一种识别违规图片的方法及装置
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN110909797B (zh) 图像检测方法以及装置、设备、存储介质
CN109325521B (zh) 用于虚拟人物的检测方法及装置
CN112580750A (zh) 图像识别方法、装置、电子设备及存储介质
Das et al. Object Detection on Scene Images: A Novel Approach
Grega et al. Application of logistic regression for background substitution
CN117156078B (zh) 一种视频数据处理方法、装置、电子设备及存储介质
CN117011616B (zh) 一种图像内容审核方法、装置、存储介质和电子设备
CN113591893B (zh) 基于人工智能的图像处理方法、装置和计算机设备
CN116957950A (zh) 图像处理方法、装置、存储介质、电子设备及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination