CN112733779B - 一种基于人工智能的视频海报展示方法和*** - Google Patents

一种基于人工智能的视频海报展示方法和*** Download PDF

Info

Publication number
CN112733779B
CN112733779B CN202110067898.4A CN202110067898A CN112733779B CN 112733779 B CN112733779 B CN 112733779B CN 202110067898 A CN202110067898 A CN 202110067898A CN 112733779 B CN112733779 B CN 112733779B
Authority
CN
China
Prior art keywords
poster
module
image
main body
target video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110067898.4A
Other languages
English (en)
Other versions
CN112733779A (zh
Inventor
葛玲玲
申立明
唐兰林
葛莹
孙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN202110067898.4A priority Critical patent/CN112733779B/zh
Publication of CN112733779A publication Critical patent/CN112733779A/zh
Priority to US17/357,220 priority patent/US11544814B2/en
Priority to PCT/KR2021/010108 priority patent/WO2022158667A1/en
Application granted granted Critical
Publication of CN112733779B publication Critical patent/CN112733779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于人工智能的视频海报展示方法,包括:根据用户指令搜索得到目标视频和至少一个海报,计算所述至少一个海报的图像描述文本与所述目标视频的描述文本关键字的匹配度,按照匹配度从高到低的顺序对所述至少一个海报进行排序,得到排序后的海报序列;对所述海报序列中匹配度最高的海报进行元素分离,得到主体元素和背景元素;将所述主体元素、背景元素和所述目标视频的标题信息按照目标场景的需求进行处理,合成新的海报。本申请还公开了一种对应与上述方法的***。应用本申请公开的技术方案,能够提升海报的辨识度,智能设计并展示匹配度更高、场景展示扩展性更好的视频海报。

Description

一种基于人工智能的视频海报展示方法和***
技术领域
本申请涉及人工智能技术领域,特别涉及一种基于人工智能的视频海报展示方法和***。
背景技术
在智能电视越来越普及的当下,用户的观影行为已经从“被动型”(即:被动地接受频道轮播)变成了“主动型”(即:主动地搜索目标节目),因此,用户常常会需要在众多海报中选择出感兴趣的视频内容,需要通过更丰富的节目介绍去了解节目并做出选择。作为开发者,我们需要提高海报与海报之间的辨识度,以及开发更丰富、更清晰的内容展示方法,并通过人工智能的方法尽可能地节约人力成本。
电视中,当前的海报在大多数的实际应用场景中是不符合理想化要求的,需要通过人工智能技术重新生成符合要求的新海报。
虽然目前智能海报生成服务应用普遍,但大多应用在电商产品中的广告方面,主要生成方法都是基于海报模板填充或更换内容主体来满足多种海报的生成需求,服务目标对前期素材准备要求较高,所提供的海报灵活性和适应性都较弱,不具备应用到电视搜索结果页面的能力。
具体而言,现有的电视海报展示方法主要存在以下几方面的问题:
1)海报在影视陈列中出现可读性问题,展示效果不佳
当前很多海报的设计目的是宣传,因此,海报上会有很多小的文字信息,当把海报缩小在电视上使用的时候,那些小的文字信息将变得不可读,从而导致出现可读性问题。
图1为一原始海报的示意图,如图1所示:由于原始海报上的标题信息的可读性不可控,故现有海报生成方法在对原始海报进行缩图(thumbnail)设计时通常会加入固定的标题显示,这样便可能导致所加入的固定的标题显示与原始海报上已有的文字信息有所重叠,从而引发可读性问题。例如,图2所示为采用现有技术对图1所示原始海报进行处理后生成的海报示意图。
图2中,左侧图像示出若干用户可能感兴趣的视频的海报,当用户点击其中一个海报时,电视视频陈列页面的展示效果将如中间图像所示,可以发现,所加入的“VideoTitle”和“Genre CP”与原始海报上已有的文字信息产生了重叠,这将引发可读性问题。
2)影视图像资源匮乏,设计场景受限
在没有强大的运营条件的情况下,因受限于有限的资源,能真正开发落地的场景太少,而使得在本身拥有强大的资源的情况下也无法在表现层展示出与之匹配的视觉呈现。
例如:图3为一海报的理想效果示意图,图4为对应于图3所示海报的实际效果示意图。通过两者的对比可以发现:图3的理想效果主题突出、画面简洁,而图4所展示的实际效果的背景则稍显杂乱,图3的理想效果所展示的视觉呈现要明显优于图4所示实际效果。
又例如:图5为一海报的初始设计的理想效果示意图。以图5所示初始设计为参考,对其他海报进行处理,例如,对图6左侧所示海报进行处理,实际可能得到如图6右侧所示的变形设计,该变形设计只截取了原始海报的一部分内容,显然无法适配。
3)主体信息弱,影片辨识度低
有些海报设计,没有明确的、有影片特色的元素表达,难以快速通过图像辨认影片。
例如:图7为一主体信息弱的海报示意图,图8为一主体信息强的海报示意图。通过对比图7和图8可以发现,图8比图7的主体信息更强,从而辨识度更强。
由于上述几方面问题的存在,导致当前智能海报生成服务所提供的海报多样性和适应性都较弱,无法满足实际应用的需要。
发明内容
本申请提供了一种基于人工智能的视频海报展示方法和***,以提升视频海报的辨识度。
本申请公开了一种基于人工智能的视频海报展示方法,包括:
根据用户指令搜索得到目标视频和至少一个海报,计算所述至少一个海报的图像描述文本与所述目标视频的描述文本关键字的匹配度,按照匹配度从高到低的顺序对所述至少一个海报进行排序,得到排序后的海报序列;
对所述海报序列中匹配度最高的海报进行元素分离,得到主体元素和背景元素;
将所述主体元素、背景元素和所述目标视频的标题信息按照目标场景的需求进行处理,合成新的海报。
较佳的,计算所述至少一个海报的图像描述文本与所述目标视频的描述文本关键字的匹配度具体包括:
根据所述目标视频的描述信息得到所述目标视频的描述文本关键字;
对每一个海报,采用Image Captain技术获取其图像描述文本;
利用词向量计算每一个海报的图像描述文本与所述目标视频的描述文本关键字之间的匹配度。
较佳的,该方法还包括:
在搜索得到所述至少一个海报后,从中滤除不符合目标场景的物理尺寸需求的海报。
较佳的,对所述海报序列中匹配度最高的海报进行元素分离,得到主体元素和背景元素具体包括:对所述海报序列中匹配度最高的海报执行以下操作:
对所述海报进行实例识别,得到所述海报中的主体元素;
对所述海报进行光符识别,识别出所述海报中的文字;
从所述海报中抠出主体元素和文字,对空白部分进行环境填充后得到背景元素。
较佳的,将所述主体元素、背景元素和所述目标视频的标题信息按照目标场景的需求进行处理,合成新的海报具体包括:
按照所述目标场景预设的主***置放置所述主体元素;
按照所述目标场景的背景范围对所述背景元素进行拉伸和/或平铺;
将所述目标视频的标题信息进行统一的样式转换,并放置在所述目标场景的预设位置。
本申请还公开了一种基于人工智能的视频海报展示***,包括:搜索关键字获取模块、海报数据库、海报匹配模块、图像分割模块和海报重组模块,其中:
所述搜索关键字获取模块,用于根据用户指令对所述海报数据库进行搜索,得到目标视频和至少一个海报;
所述海报匹配模块,用于计算所述至少一个海报的图像描述文本与所述目标视频的描述文本关键字的匹配度,按照匹配度从高到低的顺序对所述至少一个海报进行排序,得到排序后的海报序列;
所述图像分割模块,用于对所述海报序列中匹配度最高的海报进行元素分离,得到主体元素和背景元素;
所述海报重组模块,用于将所述主体元素、背景元素和所述目标视频的标题信息按照目标场景的需求进行处理,合成新的海报。
较佳的,所述搜索关键字获取模块,还用于根据所述目标视频的描述信息得到所述目标视频的描述文本关键字;
所述海报匹配模块具体包括:图像自动描述模块和词向量排序模块,其中:
所述图像自动描述模块,用于对每一个海报采用Image Captain技术获取其图像描述文本;
所述词向量排序模块,利用词向量计算每一个海报的图像描述文本与所述目标视频的描述文本关键字之间的匹配度,并根据计算得到的匹配度按照从高到低的顺序对相应的海报进行排序。
较佳的,所述海报匹配模块还包括场景匹配模块,用于从搜索得到的所述至少一个海报中滤除不符合目标场景的物理尺寸需求的海报。
较佳的,所述图像分割模块具体包括:实例识别模块、光符识别模块和环境填充模块,具体用于对所述海报序列中匹配度最高的海报执行以下操作:
所述实例识别模块,用于对海报进行实例识别,得到所述海报中的主体元素;
所述光符识别模块,用于对海报进行光符识别,识别出所述海报中的文字;
所述环境填充模块,用于对抠出主体元素和文字后的海报的空白部分进行环境填充,得到背景元素。
较佳的,所述海报重组模块具体用于:
按照所述目标场景预设的主***置放置所述主体元素;
按照所述目标场景的背景范围对所述背景元素进行拉伸、平铺和/或环境填充;
将所述目标视频的标题信息进行统一的样式转换,并放置在所述目标场景的预设位置。
由上述技术方案可见,本申请公开了一种基于人工智能的视频海报展示方法和***,本申请首先使用Image Caption技术将海报中所包含的图像信息翻译成文字,即:图像描述文本,再根据图像描述文本与目标视频的描述文本关键字按词向量匹配度进行排序,匹配度越高的海报优先级越高,以此方法挑选最匹配的海报;再将选出的海报拆分成主体元素、背景元素和文本元素,将拆分内容进行处理后备用;并将目标视频的标题信息以统一样式进行转换,保存备用;最终按照目标场景的内容排布规范,使用处理过的主体元素、背景元素、标题信息等元素合成新的海报。
本申请上述技术方案在有限的设计资源下,基于人工智能技术,能够智能设计并展示匹配度更高、场景展示扩展性更好的视频海报。
本申请能够解决当前海报品控不一,在作为电视中的搜索结果进行展示时,辨识度较低、以及容易出现海报内容不可读的问题。此外,当前海报的应用场景比较有局限性,本申请所提供的技术方案能够优化比例不匹配或形状有拉伸的情况下出现的可用性问题,从而拓展海报的应用场景,并提升用户的使用体验。
本申请不仅能使用固定大小的海报组合,还能智能选取含义相同却条件不同的图片,应用到更广泛、更丰富的场景中去。
本申请可以根据需要匹配AI海报与节目的内容关联性,并以人工智能技术放大主体角色在画面中的比例,从而以突出角色的方式极大地提升影片的辨识度,令用户通过海报便可一眼辨别出影片内容。
附图说明
图1为一原始海报的示意图;
图2为采用现有技术对图1所示原始海报进行处理后生成的海报示意图;
图3为一海报的理想效果示意图;
图4为对应于图3所示海报的实际效果示意图;
图5为一海报的初始设计的理想效果示意图;
图6为一海报的变形设计的实际效果示意图;
图7为一主体信息弱的海报示意图;
图8为一主体信息强的海报示意图;
图9为本申请一较佳实施例中视频海报展示方法的阶段流程示意图;
图10为本申请一较佳实施例中海报匹配度排序阶段的处理流程示意图;
图11为本申请一较佳实施例中图像信息分割阶段的处理流程示意图;
图12为本申请一较佳实施例中海报重组阶段的处理流程示意图;
图13为本申请一较佳实施例中基于人工智能的视频海报展示***的组成结构示意图;
图14为本申请实施例一的实现流程示意图一;
图15为本申请实施例一的实现流程示意图二;
图16为本申请实施例一中原海报效果与采用本实施例优化后的海报效果示意图;
图17为本申请实施例二的实现流程示意图。
具体实施方式
为使本申请的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本申请作进一步详细说明。
为解决现有技术所存在的问题,本申请提出一种基于人工智能的视频海报展示方法,该方法包括以下步骤:
步骤S1:根据用户指令搜索得到目标视频和至少一个海报,计算所述至少一个海报的图像描述文本与所述目标视频的描述文本关键字的匹配度,按照匹配度从高到低的顺序对所述至少一个海报进行排序,得到排序后的海报序列。
本步骤中,具体的排序方法可以是:
首先,根据目标视频的描述信息得到目标视频的描述文本关键字;
然后,对每一个海报,采用Image Captain技术获取其图像描述文本;
再利用词向量计算每一个海报的图像描述文本与所述目标视频的描述文本关键字之间的匹配度,最后根据计算得到的匹配度按照从高到低的顺序对相应的海报进行排序。
此外,在搜索得到至少一个海报后,可以按照目标场景的需求从中滤除出不符合目标场景的需求的海报。
步骤S2:对所述海报序列中匹配度最高的海报进行元素分离,得到主体元素和背景元素。
本步骤的元素分离处理具体包括对海报序列中匹配度最高的海报执行以下操作:
对海报进行实例识别,得到该海报中的主体元素;
对海报进行光符识别,识别出该海报中的文字;
从海报中抠出主体元素和文字,对空白部分进行环境填充后得到背景元素。
得到主体元素和背景元素后,可以存储备用。
步骤S3:将所述主体元素、背景元素和所述目标视频的标题信息按照目标场景的需求进行处理,合成新的海报。
具体而言,本步骤的处理可以包括:
按照目标场景预设的主***置放置所述主体元素;
按照目标场景的背景范围对背景元素进行拉伸和/或平铺;
将目标视频的标题信息进行统一的样式转换,并放置在目标场景的预设位置。
在一个具体实施例中,本申请的视频海报展示方法可以分为如图9所示的三个阶段:海报匹配度排序阶段、图像信息分割阶段和海报重组阶段,其中:
在海报匹配度排序阶段,主要是根据用户输入的关键字匹配相应的节目,得到节目海报、视频内的角色截图以及其他节目相关信息;然后,将图像描述文本与节目描述文本相匹配,这里,具体利用图像自动描述与节目相关描述进行匹配;此外,还可以进行场景匹配,具体包括:海报形状、分辨率等方面的匹配。需要说明的是,本申请中影片、节目、视频所代表的含义相同,相应的,影片海报、节目海报、视频海报也指代相同的含义。
在图像信息分割阶段,主要通过实例识别出海报中的主体,通过光符识别(OCR)识别出海报中的文字,并将抠出主体和文字后的背景存储备用。这里,将主体定义为节目中的主角形象。
在海报重组阶段,主要包括:在目标场景的预设位置应用主体实例,将节目的标题文本使用统一样式,在统一的位置进行展示,按照目标场景的背景范围,对图片进行基础操作(包括平铺、拉伸等)或智能操作(对图像进行环境填充)。其中,环境填充操作也可以在分离出背景元素时执行。
下面结合图10至图12,对上述三个阶段进行进一步详细说明。
图10为本申请一较佳实施例中海报匹配度排序阶段的处理流程示意图。参见图10,海报匹配度排序阶段的处理主要包括:
首先,在根据用户指令搜索出相应的节目(如前所述,也可称为视频、影片等)后,在数据库中搜索相关的图像(也可称为图片、海报、海报图像等),数据库中原始素材的来源可以是:原始海报、视频截图、以及网络中的相关图片等。
然后,通过图像中是否有主体人物、用户输入关键字的匹配度、图像的图像描述文本与节目的描述文本关键字的匹配度、以及图像与目标场景的条件的匹配度来将相应节目最合适的海报按照匹配度进行优先级排序,得到已排序的图片序列,即:海报序列。
其中,图像自动描述是指采用Image Caption技术自动识别图像中的内容,翻译成图像描述文本;
节目的描述文本关键字是从节目相关的描述文本中提取的关于主要角色相关的行为动作组合成描述语句,例如:通过“人物”+“地点”+“行为”来组成节目描述文本关键字。
图11为本申请一较佳实施例中图像信息分割阶段的处理流程示意图。参见图11,图像信息分割阶段的处理主要包括:
按照优先级从高到低的顺序从海报序列中选择海报图像,将其作为元素分离的对象,分割成:主体元素、背景元素和文本,具体的:
对图像中的实例进行面部识别,得到主体元素;
对图像中的文本进行光符识别(OCR),识别出文字并删除;
从图像中抠出主体元素和文字,获取到背景元素,并对空白部分进行环境填充。
对于节目(即:视频、影片)本身,根据节目信息获取节目标题,并对标题进行统一的格式转换,存储备用。
图12为本申请一较佳实施例中海报重组阶段的处理流程示意图。参见图12,海报重组阶段的处理主要包括:
对于已获取到的主体元素,按照目标场景的需求进行必要的平移和/或拉伸后,按照目标场景预设的主***置放置该主体元素;
对于已获取到的背景元素,按照目标场景的背景范围对背景元素进行拉伸和/或平铺,并进行必要的环境填充;
对于已获取到的标题信息,对其进行统一的样式转换后,放置在目标场景的预设位置。
对应于本申请上述视频海报展示方法,本申请还提出了一种对应的基于人工智能的视频海报展示***,该***的组成结构示意图如图13所示,主要包括以下模块:搜索关键字获取模块、海报数据库、海报匹配模块(由图13中的图像自动描述模块、词向量排序模块和场景匹配模块组成,未示出)、图像分割模块、光符识别模块、实例识别模块、环境填充模块、海报重组模块,其中:
搜索关键字获取模块,用于根据用户指令获取用于搜索目标视频和海报的关键字,以该关键字进行搜索,得到目标视频和若干海报。
海报匹配模块,用于计算所述若干海报的图像描述文本与所述目标视频的描述文本关键字的匹配度,按照匹配度从高到低的顺序对所述若干海报进行排序,得到排序后的海报序列。如前所述,海报匹配模块具体由图像自动描述模块、词向量排序模块和场景匹配模块组成,其中:
图像自动描述模块,用于对每一个海报采用Image Caption技术进行处理,获取描述对应于海报内容的文本序列,该文本序列被称为该海报的图像描述文本,图像自动描述模块将海报的图像描述文本提供给词向量排序模块;
场景匹配模块用于获取目标场景对海报的要求,计算海报与目标场景的匹配程度,提供给词向量排序模块,其可用于从搜索得到的所述若干海报中滤除不符合目标场景的需求的海报;
词向量排序模块,利用词向量计算每一个海报的图像描述文本与目标视频的描述文本关键字之间的匹配度,并根据计算得到的匹配度按照从高到低的顺序对相应的海报进行排序,同时,词向量排序模块还依赖场景匹配模块所提供的海报与目标场景的匹配程度过滤不符合目标场景的海报。其中,目标视频的描述文本关键字可以是由搜索关键字获取模块根据目标视频的描述信息提取得到的。
图像分割模块具体包括:实例识别模块、光符识别模块和环境填充模块,具体用于对海报序列中匹配度最高的海报执行以下操作:
实例识别模块,用于对海报进行实例识别,得到海报中的主体元素;例如:实例识别模块可以识别海报的实例区域中的实例类型,如人、动物、物品等等,并通过人脸识别技术输出海报中的人物信息;
光符识别模块,用于对海报进行光符识别,识别出所述海报的文本区域中的文本信息;
环境填充模块,用于对抠出主体元素和文字后的海报的空白部分进行环境填充,得到背景元素。
图像在被去除实例区域中的主体元素或文字区域中的文本信息后会产生背景的空洞(即:导致背景中存在空白部分),图像在不同分辨率转换时也会产生原海报背景无法覆盖新分辨率下的部分区域的情况,环境填充模块用于对背景区域进行扩张和填充,使背景覆盖目标海报。
海报重组模块,以图像中的实例、背景、文字以及海报元素位置的约束条件为输入,进行处理,使得海报元素重新布局生成新的海报,具体包括:
按照目标场景预设的主***置放置主体元素;
按照目标场景的背景范围对背景元素进行拉伸、平铺和/或环境填充;
将目标视频的标题信息进行统一的样式转换,并放置在目标场景的预设位置。
下面通过两个较佳实施例对本申请技术方案的具体实施进行举例说明。
实施例一:
本实施例中,用户向智能电视发出搜索某影片的指令,应用了本申请技术方案的智能电视根据用户的指令搜索出若干相关的海报,然后对这些海报进行智能重组生成相应的海报展示给用户,以增加海报的可读性和影片的辨识度。
下面结合图14至图16对本实施例进行说明。其中,由于篇幅的原因,本实施例的实现流程图分为两个部分分别在两个附图中进行展示,具体为图14所示的实现流程示意图一和图15所示的实现流程示意图二。
参见图14,当用户表达“我想看《美国队长》”的指令时,智能电视进行影片搜索,假设搜索到的是《美国队长3》。下面以这一节目资源为例进行说明:
第1步:根据用户指令进行影片搜索,得到与用户需求相关的节目资源,在资源图像中选取带有主体的图像,如图14中《美国队长3》的原始海报所示。
第2步:采用Image Caption技术对搜索到的《美国队长3》的原始海报进行处理,得到其图像描述文本为:美国队长、钢铁侠、黑寡妇、鹰眼、绯红女巫、黑豹……,并且,判断出该原始海报有主体。
与此同时,对该影片的影片描述信息进行分析,得到该影片的描述关键文本为:美国队长和钢铁侠内战。描述关键文本也可称为描述文本关键字。
然后,利用词向量计算原始海报的图像描述文本与影片的描述关键文本之间的相似度,判断两者是否匹配,本实施例中,两者不匹配,即:该影片的原始海报的图像描述文本与该影片的描述信息并不匹配,故而需要执行第3步,搜索其他图像资源,从中挑选匹配度更高的带有主体的图像,并进行描述文本的重新匹配。
第3步:从其他图像资源(例如:海报、视频截图和其他图像,也可称为图像库)中进行搜索,从中选择图像中有主体元素的图像备用。如图14所示,假设搜索到3幅图像,其图像描述文本分别为:美国队长和钢铁侠打架,美国队长和钢铁侠,美国队长在大楼前站着。
基于搜索到的图像进行描述文本重新匹配,即:利用词向量计算这些图像的图像描述文本与影片的描述关键文本“美国队长和钢铁侠内战”之间的相似度,选择匹配度最高的图像。本实施例中,假设选择出的匹配度最高的图像是图像描述文本为“美国队长和钢铁侠打架”的图像。
第4步:将上述匹配度最高的图像进行元素分离,分离成主体、背景和文字,然后对图像元素进行处理,具体包括:
将主体从图像中抠出存储备用;
将文字从图像中抠出,以统一的格式进行转换,储存备用;
从原背景中抠出主体与文字的区域,按照目标场景裁剪大小,对空白位置进行环境色填充,生成新背景存储备用。
第5步:将处理好的主体、背景、文字按照准备好的模板样式标准重新组合,合成新的海报,如图15所示。
图16示出了原海报效果与采用本实施例优化后的海报效果示意,通过对比可以发现:本实施例优化后的海报主题辨识度更高。
实施例二:
为了应对不同的目标场景,需要选用不同的图像进行重组展示,本实施例以此为例进行说明。
图17为本申请实施例二的实现流程示意图。本实施例以《美国队长3》这一节目资源为例进行说明。
当前列表中海报主体的像素为300px*300px;
目标场景1对海报主体的像素需求为:900px*1080px,对主体描述文本的需求为:美国队长、剧照……;
目标场景2对海报主体的像素需求为:1400px*800px,对主体描述文本的需求为:美国队长、banner……。
节目展示有不同的场景需求,由上述需求可见,列表中的海报主体不符合目标场景1和目标场景2的像素需求,这种情况下,需要重新按照语义对照以及场景需求选择像素合适,且描述文本匹配的图像。
本实施例按照上述条件进行搜索后,从视频截图中搜索到了主体像素为900px*1080px,主体描述文本为美国队长和剧照的图像,符合目标场景1的需求,并从其他图片中搜索到了主体像素为1400px*800px,主体描述文本为美国队长和banner的图像,符合目标场景2的需求,如图17所示。
对上述搜索到的图像按照与实施例一类似的方式进行处理:将图像分离成为主体、背景以及文字,然后对图像元素进行处理,具体包括:
将主体从图像中抠出存储备用;
将文字从图像中抠出,以统一的格式进行转换,储存备用;
从原背景中抠出主体与文字的区域,按照目标场景裁剪大小,对空白位置进行环境色填充,生成新背景存储备用。
最后,按照目标场景的规范需求,将格式转换后的标题文字、主体和背景按照对应的位置进行合并,生成新的展示形式,应用到对应的目标场景中。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (8)

1.一种基于人工智能的视频海报展示方法,其特征在于,包括:
根据用户指令搜索得到目标视频和至少一个海报,计算所述至少一个海报的图像描述文本与所述目标视频的描述文本关键字的匹配度,按照匹配度从高到低的顺序对所述至少一个海报进行排序,得到排序后的海报序列;
对所述海报序列中匹配度最高的海报进行元素分离,得到主体元素和背景元素;
将所述主体元素、背景元素和所述目标视频的标题信息按照目标场景的需求进行处理,合成新的海报;
其中,对所述海报序列中匹配度最高的海报进行元素分离,得到主体元素和背景元素具体包括:对所述海报序列中匹配度最高的海报执行以下操作:
对所述海报进行实例识别,得到所述海报中的主体元素;
对所述海报进行光符识别,识别出所述海报中的文字;
从所述海报中抠出主体元素和文字,对空白部分进行环境填充后得到背景元素。
2.根据权利要求1所述的方法,其特征在于,计算所述至少一个海报的图像描述文本与所述目标视频的描述文本关键字的匹配度具体包括:
根据所述目标视频的描述信息得到所述目标视频的描述文本关键字;
对每一个海报,采用Image Captain技术获取其图像描述文本;
利用词向量计算每一个海报的图像描述文本与所述目标视频的描述文本关键字之间的匹配度。
3.根据权利要求1或2所述的方法,其特征在于,该方法还包括:
在搜索得到所述至少一个海报后,从中滤除不符合目标场景的物理尺寸需求的海报。
4.根据权利要求1或2所述的方法,其特征在于,将所述主体元素、背景元素和所述目标视频的标题信息按照目标场景的需求进行处理,合成新的海报具体包括:
按照所述目标场景预设的主***置放置所述主体元素;
按照所述目标场景的背景范围对所述背景元素进行拉伸和/或平铺;
将所述目标视频的标题信息进行统一的样式转换,并放置在所述目标场景的预设位置。
5.一种基于人工智能的视频海报展示***,其特征在于,包括:搜索关键字获取模块、海报数据库、海报匹配模块、图像分割模块和海报重组模块,其中:
所述搜索关键字获取模块,用于根据用户指令对所述海报数据库进行搜索,得到目标视频和至少一个海报;
所述海报匹配模块,用于计算所述至少一个海报的图像描述文本与所述目标视频的描述文本关键字的匹配度,按照匹配度从高到低的顺序对所述至少一个海报进行排序,得到排序后的海报序列;
所述图像分割模块,用于对所述海报序列中匹配度最高的海报进行元素分离,得到主体元素和背景元素;
所述海报重组模块,用于将所述主体元素、背景元素和所述目标视频的标题信息按照目标场景的需求进行处理,合成新的海报;
其中,所述图像分割模块具体包括:实例识别模块、光符识别模块和环境填充模块,具体用于对所述海报序列中匹配度最高的海报执行以下操作:
所述实例识别模块,用于对海报进行实例识别,得到所述海报中的主体元素;
所述光符识别模块,用于对海报进行光符识别,识别出所述海报中的文字;
所述环境填充模块,用于对抠出主体元素和文字后的海报的空白部分进行环境填充,得到背景元素。
6.根据权利要求5所述的***,其特征在于:
所述搜索关键字获取模块,还用于根据所述目标视频的描述信息得到所述目标视频的描述文本关键字;
所述海报匹配模块具体包括:图像自动描述模块和词向量排序模块,其中:
所述图像自动描述模块,用于对每一个海报采用Image Captain技术获取其图像描述文本;
所述词向量排序模块,利用词向量计算每一个海报的图像描述文本与所述目标视频的描述文本关键字之间的匹配度,并根据计算得到的匹配度按照从高到低的顺序对相应的海报进行排序。
7.根据权利要求6所述的***,其特征在于,所述海报匹配模块还包括场景匹配模块,用于从搜索得到的所述至少一个海报中滤除不符合目标场景的物理尺寸需求的海报。
8.根据权利要求5或6所述的***,其特征在于,所述海报重组模块具体用于:
按照所述目标场景预设的主***置放置所述主体元素;
按照所述目标场景的背景范围对所述背景元素进行拉伸、平铺和/或环境填充;
将所述目标视频的标题信息进行统一的样式转换,并放置在所述目标场景的预设位置。
CN202110067898.4A 2021-01-19 2021-01-19 一种基于人工智能的视频海报展示方法和*** Active CN112733779B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110067898.4A CN112733779B (zh) 2021-01-19 2021-01-19 一种基于人工智能的视频海报展示方法和***
US17/357,220 US11544814B2 (en) 2021-01-19 2021-06-24 Method and system for displaying a video poster based on artificial intelligence
PCT/KR2021/010108 WO2022158667A1 (en) 2021-01-19 2021-08-03 Method and system for displaying a video poster based on artificial intelligence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110067898.4A CN112733779B (zh) 2021-01-19 2021-01-19 一种基于人工智能的视频海报展示方法和***

Publications (2)

Publication Number Publication Date
CN112733779A CN112733779A (zh) 2021-04-30
CN112733779B true CN112733779B (zh) 2023-04-07

Family

ID=75592331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110067898.4A Active CN112733779B (zh) 2021-01-19 2021-01-19 一种基于人工智能的视频海报展示方法和***

Country Status (3)

Country Link
US (1) US11544814B2 (zh)
CN (1) CN112733779B (zh)
WO (1) WO2022158667A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990206B (zh) * 2021-05-14 2021-07-16 广州美术学院 一种图案设计方法、终端及计算机可读存储介质
CN115695899A (zh) * 2021-07-23 2023-02-03 花瓣云科技有限公司 视频的生成方法、电子设备及其介质
CN114237468B (zh) * 2021-12-08 2024-01-16 文思海辉智科科技有限公司 文字图片的翻译方法、装置、电子设备及可读存储介质
CN117689782B (zh) * 2024-02-02 2024-05-28 腾讯科技(深圳)有限公司 一种生成海报图像的方法、装置、设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060064716A1 (en) 2000-07-24 2006-03-23 Vivcom, Inc. Techniques for navigating multiple video streams
US9135277B2 (en) 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US20110047163A1 (en) 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
CN106598996B (zh) 2015-10-19 2021-01-01 广州酷狗计算机科技有限公司 多媒体海报生成方法及装置
US10432983B2 (en) 2016-04-04 2019-10-01 Twitter, Inc. Live video classification and preview selection
CN107528965B (zh) * 2016-09-29 2020-03-31 维沃移动通信有限公司 一种歌词海报生成方法及移动终端
US10628501B2 (en) 2017-06-07 2020-04-21 Centurylink Intellectual Property Llc Scene aware searching
CN109034950A (zh) 2018-06-29 2018-12-18 深圳春沐源控股有限公司 海报生成方法和海报生成***
KR102064292B1 (ko) 2018-08-03 2020-01-09 광운대학교 산학협력단 개인화된 소셜네트워크서비스 컨텐츠 추천 방법 및 장치
CN109241323B (zh) * 2018-09-13 2019-10-22 掌阅科技股份有限公司 基于电子书评论生成用户海报的方法及计算设备
KR102110604B1 (ko) 2018-10-16 2020-05-13 연철희 인공지능을 이용한 이미지 재구성 방법 및 서버
CN109905766A (zh) 2019-02-02 2019-06-18 天脉聚源(北京)科技有限公司 一种动态视频海报生成方法、***、装置及存储介质
CN110728119B (zh) 2019-12-17 2020-06-19 广东博智林机器人有限公司 一种海报生成方法及装置
CN112004164B (zh) * 2020-07-02 2023-02-21 中山大学 一种视频海报自动生成方法

Also Published As

Publication number Publication date
WO2022158667A1 (en) 2022-07-28
CN112733779A (zh) 2021-04-30
US11544814B2 (en) 2023-01-03
US20220230274A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
CN112733779B (zh) 一种基于人工智能的视频海报展示方法和***
US10979761B2 (en) Intelligent video interaction method
CN110740387B (zh) 一种弹幕编辑方法、智能终端及存储介质
CN106446135B (zh) 一种多媒体数据标签生成方法和装置
US9754166B2 (en) Method of identifying and replacing an object or area in a digital image with another object or area
US9271035B2 (en) Detecting key roles and their relationships from video
US9495592B2 (en) Image-based information providing device and method using object recognition
CN103052953B (zh) 信息处理设备、信息处理方法
US9100701B2 (en) Enhanced video systems and methods
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN109218629B (zh) 视频生成方法、存储介质和装置
CN107229741B (zh) 信息搜索方法、装置、设备以及存储介质
CN103069414A (zh) 信息处理设备、信息处理方法和程序
CN105792010A (zh) 基于图像内容解析及图片索引的电视购物的方法与装置
CN113824972B (zh) 直播视频的处理方法、装置、设备及计算机可读存储介质
KR102195642B1 (ko) 색상정보에 기반한 검색 정보 제공 단말, 장치 및 제공 방법
CN113010711B (zh) 一种基于深度学习的影视海报自动生成方法与***
KR20140044663A (ko) 방송 수신 장치 및 디스플레이 장치와 이를 이용한 검색 방법
CN113542833A (zh) 基于人脸识别的视频播放方法、装置、设备及存储介质
CN104866627A (zh) 一种照片信息的搜索***和搜索方法
CN112822539B (zh) 信息显示方法、装置、服务器及存储介质
US20100281046A1 (en) Method and web server of processing a dynamic picture for searching purpose
CN116957672A (zh) 一种可交互式广告设计***及方法
CN113709521B (zh) 一种根据视频内容自动匹配背景的***
CN113537127A (zh) 影片匹配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant