CN114840107A - 一种草图数据重用与场景草图辅助构建方法及*** - Google Patents
一种草图数据重用与场景草图辅助构建方法及*** Download PDFInfo
- Publication number
- CN114840107A CN114840107A CN202210237615.0A CN202210237615A CN114840107A CN 114840107 A CN114840107 A CN 114840107A CN 202210237615 A CN202210237615 A CN 202210237615A CN 114840107 A CN114840107 A CN 114840107A
- Authority
- CN
- China
- Prior art keywords
- sketch
- scene
- scene sketch
- panel
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种草图数据重用与场景草图辅助构建方法及***,属于计算机视觉领域,利用草图交互的高效信息表征的优势,基于草图修复以及基于草图的图像检索等草图智能处理技术,对已有的草图素材进行提取和重用;利用提取的草图素材以及数据库中存储的草图数据辅助用户进行场景草图构建,从而用于草图检索、视频定位等后续应用。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种草图数据重用与场景草图辅助构建方法及***。
背景技术
基于草图交互的可视媒体应用一直是人机交互、计算机视觉和多媒体领域的研究热点,如何优化草图数据的基础处理以及提高基于草图的可视媒体应用的效率是研究的重点问题。草图交互被广泛地应用于生活与工作中的各个方面,包括绘画、笔记速记、文档标注、互联网行业的网页用户界面(UI)和概念设计、电影动画行业的动画与影视制作等。近年来,草图交互相关研究和应用在工业界和学术界都引起了广泛关注,其中很重要的原因之一是触屏类硬件设备的蓬勃发展(例如微软公司Surface系列触控笔记本电脑、苹果公司的Apple pencil触控笔等)。人工智能时代下,一方面,用户对于草图数据的获取更加便捷;另一方面,基于深度学习技术的草图数据算法性能不断提高。基于草图交互的应用和任务也得到空前的普及。
在草图交互任务与草图数据处理方面,利用基于深度学习的草图数据处理技术取得了巨大的进步,例如草图识别(sketch recognition)、基于草图的图像检索(sketch-based image retrieval,SBIR)、基于草图的图像生成(sketch-based image generation,SBIG)、草图解析(sketch parsing)、基于草图的视频摘要(sketch-based videosummarization)等。一些新的草图交互任务也被提出,例如草图生成(sketchgeneration)、基于草图交互的模型生成、草图抽象化、基于草图的图像编辑、草图分割等。SketchGAN(参考文献:Liu,Fang,Xiaoming Deng,Yu-Kun Lai,Yong-Jin Liu,Cuixia Ma,and Hongan Wang."Sketchgan:Joint sketch completion and recognition withgenerative adversarial network."In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,pp.5830-5839.2019.)提出一种基于生成式对抗网络的草图补全与识别方法,对残缺草图数据进行有效的生成式补全与修复,同时利用补全后的草图数据进行草图识别,提高目前主流草图识别算法对残缺草图的识别准确率。
对于草图交互的研究,应对于实际应用的需求,向细粒度的方法发展。具体来说,相对于基于整体的任务(例如草图识别),近年来一些细粒度的草图交互任务得以被提出。目前大多数的基于草图的图像检索相关技术都建立在实例级、类别级检索的前提下,即:输入草图与待检索的图像对象均为单个物体;并且检索结果图像的物体与输入草图物体在类别上保持一致,即为正确的检索。Sketch Me that Shoe(参考文献:Yu,Qian,Feng Liu,Yi-Zhe Song,Tao Xiang,Timothy M.Hospedales,and Chen-Change Loy."Sketch me thatshoe."In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.799-807.2016.)等研究实例级(instance-level)的基于草图的图像检索,不仅要求检索出的图像物体与输入的查询草图在类别上保持一致,而且要求它们外形、动作、方向等细节信息也相似。
草图特有的高度抽象性、直观性和简洁性,使得草图在人机交互、计算机视觉、多媒体、计算机图像学等各个领域被广泛应用。从1960年代至今,随着数据处理技术的不断提高,草图相关研究和应用不断得到优化。在智能人机交互领域中,尽管已经有许多学者将草图应用于可视媒体(图像、视频、动画等)的研究中,但在应用过程中仍有许多草图数据的处理和在可视媒体领域实际应用的关键技术尚未得到有效解决。在基于草图交互的应用中,一个至关重要的问题是草图数据的获取。虽然有几个重要的草图数据库陆续被提出,但草图数据仍然相对稀少且难以大批量获取。对于非专业画手,绘制出他们脑海中所想的物体的准确轮廓及恰当细节不是一件容易的事情,且往往耗费大量的时间,这也在一定程度上对草图交互在实际生活中的大量应用带来了阻碍。
发明内容
为了克服现有基于草图交互的方法和应用对草图数据的重用率低、用户输入草图有难度等问题,本发明提出一种草图数据重用与场景草图辅助构建方法及***,利用草图交互的高效信息表征的优势,基于草图修复以及基于草图的图像检索等草图智能处理技术,对已有的草图素材进行提取和重用;利用提取的草图素材以及数据库中存储的草图数据辅助用户进行场景草图构建,从而用于草图检索、视频定位等后续应用。
本发明解决上述技术问题所采用的技术方案是:
一种草图数据重用与场景草图辅助构建方法,其步骤包括:
对用户在已有场景草图中选择的草图素材进行提取并保存到数据库中,并对其中残缺的草图素材进行自动修复;
利用数据库中已有草图素材或者临时绘制草图,来构建场景草图或场景草图序列;
基于构建的场景草图进行图像检索,找到与场景草图最相似的图像;
基于构建的场景草图序列进行视频定位,找到与场景草图序列最相似的视频片段。
进一步地,利用数据库中已有的草图素材通过拖拽、缩放和旋转中的一种或几种操作来构建场景草图。
进一步地,图像检索方法为基于SceneSketcher方法并去掉该方法中类别敏感的交并比损失部分所得到的方法。
进一步地,构建基于图像搜索方法的端对端的图像搜索模型,该图像搜索模型通过训练提高图像搜索精度。
进一步地,在基于构建的场景草图进行图像检索时,通过调整场景草图的姿态、大小、方向、位置中的一种或几种来找到与场景草图最相似的图像。
进一步地,进行视频定位的步骤包括:基于卷积神经网络提取场景草图视觉特征;基于光流法提取视频动作特征;基于C3D网络提取视频特征;根据所述场景草图视觉特征、视频动作特征和视频特征利用回归算法进行视频定位。
进一步地,在基于构建的场景草图序列进行视频定位时,通过调整场景草图的姿态、大小、方向、位置中的一种或几种来找到与场景草图序列最相似的视频片段。
一种草图数据重用与场景草图辅助构建***,包括顶层的交互界面和底层的数据处理算法模块,该交互界面包括草图数据提取页面、场景草图构建与图像检索页面和基于场景草图的视频定位页面,以及用于切换页面的页面切换按钮;
草图数据提取页面包括:场景草图浏览面板和草图数据提取面板;
场景草图构建与图像检索页面包括:场景草图构建画布、场景草图编辑工具面板、草图素材浏览和选择面板和图像检索结果显示面板;
基于场景草图的视频定位页面包括:场景草图构建画布、场景草图编辑工具面板、草图素材浏览和选择面板、草图序列显示面板和视频定位结果显示面板;
其中,场景草图浏览面板用于显示当前场景草图,框选草图对象元素和切合场景草图;草图数据提取面板用于提取框选的草图对象,并对残缺的草图素材进行自动修复;场景草图构建画布用于支持对构建场景草图的拖动、缩放和旋转操作;场景草图编辑工具面板用于提供对草图元素进行绘制和编辑的工具;草图素材浏览和选择面板用于展示***推荐的草图素材列表;图像检索结果显示面板用于展示图像检索结果;草图序列显示面板是用于显示草图序列;视频定位结果显示面板用于显示定位的视频片段;
数据处理算法模块用于实现上述交互界面中的所有交互和数据处理。
进一步地,场景草图编辑工具面板提供画笔、橡皮擦、撤销、删除、清除和检索工具。
进一步地,数据处理算法模块含有基于图像搜索方法的端对端的图像搜索模型,该图像搜索模型通过训练提高图像搜索精度;该图像检索方法为基于SceneSketcher方法并去掉该方法中类别敏感的交并比损失部分所得到的方法。
与现有技术相比,本发明的有益效果是:
1.本发明在首先对用户选择的草图物体进行修复,然后辅助用户绘制场景草图,并根据场景草图进行图像检索。
2.本发明支持个性化草图交互:1)用户可以通过重新选择草图素材、调整草图物体的姿态和位置获得更准确、更理想的检索结果。并且,***也提供Pen和Eraser等草图绘制工具来支持用户手动提取场景草图中的物体。2)用户可以利用个人收藏夹或者公共数据库中的草图素材进行场景草图构建,也可以使用创建的场景草图搜索图像。3)***允许用户重新选择草图素材、调整场景草图中的各物体优化当前场景草图来检索到更符合预期的图像或定位到更精准的视频片段。
附图说明
图1为本发明实施例1中的一种草图数据重用与场景草图辅助构建***交互界面图。
图2为本发明实施例2中的一种草图数据重用与场景草图辅助构建流程图。
图3为本发明实施例3中的基于草图序列的视频定位的交互界面图。
图4为基线***交互界面图。
图5为本发明***和基线***问卷调查中各指标的箱线图。
图6为本发明的实验中被试用户构建的草图示例。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
实施例1
本实施例提出一种草图数据重用与场景草图辅助构建***及方法,是针对草图数据重用与场景草图辅助构建问题所提出的常见草图素材的提取、草图数据的重用以及草图交互在图像检索和视频定位方面的技术方案。
本实施例提出的一种草图数据重用与场景草图辅助构建***包括顶层的交互界面和底层的数据处理模块,交互界面如图1所示(图中界面显示的牛、人、草等画面属于本实施例中的一个示例),其包括:草图数据提取页面、场景草图构建与图像检索页面和基于场景草图的视频定位页面,用户可以通过页面切换按钮在三个页面之间切换操作。图1中上方图为草图数据提取页面,其包括②场景草图浏览面板和③草图数据提取面板;下方图为场景草图构建与图像检索页面,其包括④场景草图构建画布、⑤场景草图编辑工具面板、⑥草图素材浏览和选择面板和⑦图像检索结果显示面板。底层的数据处理模块用于处理顶层的界面的相关数据交互操作和数据计算。
其中,①页面切换按钮:在页面直接进行切换操作;②场景草图浏览面板:显示当前场景草图,此时用户可以通过绘制矩形框的方式来框选感兴趣的草图对象元素,可以通过该面板上的左右箭头切换不同的场景草图(如图1中的中间图);③草图数据提取面板:当场景草图中的物体存在相互遮挡或重叠的现象时,***支持自动修复草图物体,并保存到用户的个人收藏夹中以便后续的素材重用;④场景草图构建画布:支持用户构建场景草图的相关操作(包括拖动、缩放、旋转等);⑤场景草图编辑工具面板:从左到右包含Pen(画笔)、Eraser(橡皮擦)、Undo(撤销)、Delete(删除,即删除单个物体)、Clear(清除,即清除所有物体)和Retrieval(检索)等按钮,支持对草图元素的绘制和编辑;用户可以通过点击Retrieval按钮来根据当前构建的场景草图检索图像;⑥草图素材浏览和选择面板:展示***推荐的草图素材列表;⑦图像检索结果显示面板:展示图像检索结果,其中在上方展示最匹配的图像大图,在下面列出与当前构建的场景草图相似的其它图像。本***基于网站架构,可以适应手机、笔记本电脑、数字白板等多种设备,同时支持使用鼠标与在触屏设备上使用手指或笔进行输入标。
本实施例提出的一种草图数据重用与场景草图辅助构建方法基于上述***,其包括以下步骤:
S1:从现有场景草图中提取对象:本***支持用户交互式的从场景草图中提取并保存其感兴趣的草图素材。用户从已有的场景草图中选择感兴趣的物体时,本***可以对残缺的素材进行修复。本***对草图交互方式进行以下优化:首先,当用户浏览场景草图(如草图画报或浏览故事板)时,场景草图浏览面板显示当前场景草图,用户可以框选出感兴趣的草图对象元素,由于场景草图中的元素普遍存在相互遮挡或重叠的现象,本***可以对草图进行自动修复并存储到用户的个人收藏夹(Favorits);当用户对自动修复的草图效果不满意时,可以通过本***提供的画笔(pen)、橡皮(eraser)等草图绘制工具来手动修改场景草图中的物体。其次,面对不具有专业绘画技能的普通用户,相比于要求用户徒手绘制脑海中完整的草图,本***提供一些绘画提示或建议,或者利用用户个人收藏夹及***公共数据库中已有的草图素材帮助用户快速构建新的草图。再次,除了通常的笔式交互界面提供的画笔和橡皮等草图输入工具以外,还可以提供更多的交互式编辑工具来辅助用户绘制草图。最后,本***可以支持更灵活的、多个对象的草图绘制,同时便于用户绘制更加细节的信息(如物体的方向、背景等)。
S2:场景草图构建:本***支持用户重用数据库中已有的草图素材,通过对草图素材的拖拽、缩放和旋转等操作,快速、高效地进行场景草图构建。
S3:基于场景草图的图像检索:本***提供基于用户构建的场景草图进行图像检索的功能,可以通过点击Retrieval按钮来根据当前构建的场景草图检索图像。用户可以在场景草图构建画布上通过拖动、缩放、旋转等操作,调整草图素材物体的姿态、大小、方向和位置,不断地调整当前构建的场景草图(如图1的中间图的各个场景草图),以及通过场景草图编辑工具面板的工具对草图元素进行绘制和编辑,以搜索到更符合预期的图像。本***所用的图像检索方法是基于SceneSketcher(参考文献:Liu,Fang,et al."Scenesketcher:Fine-grained image retrieval with scene sketches."European Conference onComputer Vision.Springer,Cham,2020.)去掉了原方法中的类别敏感的交并比损失(category-wise IoU loss)部分,在保证检索模型精度不大幅度下降的情况下,构建端对端的基于草图的图像检索模型,加快模型的训练速度。
S4:基于场景草图序列的视频定位:本发明提供基于用户构建的场景草图序列进行视频定位的功能;用户可以不断地调整当前构建的场景草图,具体地可以在场景草图构建画布上通过拖动、缩放、旋转等操作,调整草图素材物体的姿态、大小、方向和位置,以定位到更符合预期的视频片段。所用视频定位方法包括基于卷积神经网络提取场景草图视觉特征,基于光流法提取动作特征,以及基于C3D网络(参考文献:Tran,Du,et al."Learningspatiotemporal features with 3d convolutional networks."Proceedings of theIEEE international conference on computer vision.2015.)提取视频特征,最后利用回归算法进行视频定位。
实施例2
本实施例给出提供一个草图数据重用与场景草图辅助构建***及方法的具体应用实例,如图2所示,该方法包括以下步骤:
S1:当用户浏览场景草图时,用户框选出感兴趣的草图物体,***对其进行草图修复并存储到用户个人收藏夹(见图2的(1)),偶尔算法效果不佳时,***提供草图绘制工具来支持用户手动提取场景草图中的物体。
S2:用户利用个人收藏夹或者公共数据库中的草图素材进行场景草图构建(见图2的(2)),用户也可以使用创建的场景草图搜索图像(见图2的(3))。
S3:***允许用户重新选择草图素材、调整场景草图中的各物体优化当前场景草图(见图2的(4))来检索到更符合预期的图像(见图2的(5))。
实施例3
本实施例提出一种草图数据重用与场景草图辅助构建***及方法,是基于草图进行视频定位,要用到基于场景草图的视频定位页面,如图3所示,该页面包括:①场景草图构建画布;②场景草图编辑工具面板;③草图素材浏览和选择面板;④草图序列显示面板;⑤视频定位结果显示面板。其中①②③与实施例1中的相同,④草图序列显示面板是用于显示草图序列,⑤视频定位结果显示面板用于显示定位的视频片段。视频定位包括三个步骤:
S1:场景草图构建。用户根据视频定位的目标片段构建场景草图,本***允许用户通过拖拽、移动、缩放和旋转等操作重用现有的草图素材加速构建过程。
S2:草图序列生成。通过重复步骤S1合成草图序列,代表视频中需要定位的目标片段的关键帧,草图序列中元素的变化表示视频中相应对象的运动。
S3:视频定位。***根据用户创建的草图序列查找视频中最相似的片段。
以下对本发明提出的一种草图数据重用与场景草图辅助构建***进行实验测试:
现设计一种基线***作为对照***来对本发明***进行评估,该***采用场景草图构建任务、问卷调查和访谈的方法进行研究。相比于本发明***,基线***没有场景草图素材提取和重用功能。如前文所述,现有的主流草图交互应用***一般要求用户绘制完整的草图作为输入;类似地,在基线***中,用户需要徒手绘制场景中的草图物体,构建场景草图来检索目标图像。图4为基线***界面,包括:①场景草图构建画布;②场景草图编辑工具面板,从左到右同样包含Pen、Eraser、Undo、Delete、Clear和Retrieval;③图像检索结果显示面板。
(1)参与者
招募16名参与者,其中8名男性和8名女性。被试用户的平均年龄为26.313岁,方差为3.260(男性:平均年龄=27.250,方差=3.845;女性:平均年龄=25.375,方差=2.446)。在测试之前,本实验向被试用户详细地解释了实验目的和过程,并让参与者先熟悉***。每次实验历时大约半小时,所有参与者均不具备专业的草图绘画技能。
(2)实验任务和步骤
被试用户需要分别使用本发明***和基准***完成实验任务。在每次实验中,向被试用户随机展示一张彩色图像作为目标(展示时长为2秒),被试用户需要在展示时间内记住图像的关键特征,然后根据脑海中的印象,利用本发明***或基线***构建场景草图,***根据被试用户构建的场景草图从数据库中进行图像检索。基线***仅提供给被试用户Pen、Eraser工具来绘制草图;本发明***允许被试用户重用草图素材库中的草图物体来辅助构建过程。
每位被试用户进行6次实验(其中4次在给定目标图像的情况下构建场景草图,2次自由绘制);实验共收集了由16位被试用户绘制的96张场景草图。
(3)问卷调查
在被试用户使用本发明***和基准***完成测试时,对被试用户进行问卷调查,定量地评估被试的用户体验。问卷调查的量标题涵盖了***的可用性(用户体验的可用性度量标准,UMUX,参考文献:FINSTAD K.The usability metric for user experience[J].Interacting with Computers,2010,22(5):323-327.)、TAM技术接受模型(感知的实用性(PU)和感知的易用性(PEOU),参考文献:DAVIS F D,BAGOZZI R P,WARSHAW P R.Useracceptance of computer technology:a comparison of two theoretical models[J].Management science,1989,35(8):982-1003.)、以及AI界面问题。
UMUX包含四个指标:
有效性(Effectiveness):(当前***的)功能符合用户的要求;
满意度(Satisfaction):使用(当前***)是令人沮丧的体验;
总体(Overall):(当前***)易于使用;
效率(Efficiency):用户不得不花太多时间在(当前***)上进行更正。
TAM技术接受模型主要评估用户对技术的接受程度。本实验分别在用户场景草图构建阶段和图像检索阶段测试TAM指标,其中包含两个方面:感知有用性(PU)和感知易用性(PEOU)。
PEOU中有四个指标:
易于学习(Easy to learn):在(场景草图构建/图像检索)阶段,***的操作易于理解;
易于使用(Easy to use):在(场景草图构建/图像检索)阶段,***易于使用;
舒适度(Comfortable):在(场景草图构建/图像检索)阶段,不需要大量的认知负担即可使用***;
沟通性(Communicative):在(场景草图构建/图像检索)阶段,***知道用户想要什么。
PU中有三个指标:
有用性(Useful):在(场景草图构建/图像检索)阶段,***可以提供帮助;
省时(Time-saving):在(场景草图构建/图像检索)阶段,***节省了时间;
完成度(Fulfilling):在(场景草图构建/图像检索)阶段,***完成任务非常准确。
另外,本实验还引入了AI用户界面常用指标中常用的三个指标(参考文献:OH C,SONG J,CHOI J,et al.I lead,you help but only with enough details:Understanding user experience of co-creation with artificial intelligence[C]//Proceedings of the 2018CHI Conference on Human Factors in ComputingSystems.2018:1-13.):
可控性(Controllability);
创造力(Creativity);
自由度(Degree of Freedom)。
最后,本实验引入净推荐值(Net Promoter Score,NPS)指标,即调查用户是否愿意将***推荐给其他人。
在每位被试用户完成所有实验任务时,需要填写0-7分的李克特量表(Likertscale)进行打分;对于净推荐值,被试用户在0-10之间打分。
(4)访谈
为了更详细地了解本发明***中的用户体验,本实验对被试用户进行了半结构化访谈。在访谈中,本实验询问被试用户对两种不同***的想法,以及使用草图作为人机交互方式的体验。每次面试大约持续半小时。
(5)实验结果
本试验分别基于问卷调查中的数据和用户访谈对本发明***与基线***进行定量和定性的分析。
(5.1)定量分析
本实验应用配对t检验来检验本发明***和基线***的指标得分之间是否存在显着差异。本实验将显着性水平设置为0.05,即如果p<0.05则认为二者存在显著差异。图5为本发明***和基线***问卷调查中各指标的箱线图,可以看出,除Satisfaction、Easy toLearn,Controllability和Degree of Freedom四个指标外,本发明***和基线***的其他指标均存在显着差异。
用户体验的可用性度量:在effectiveness(t=3.60,p<.01)、efficiency(t=5.16,p<.01)、overall rating(t=-3.06,p<.01)三个指标上本发明***和基线***的得分均存在显著差异,且本发明***的指标得分均优于基线***。本发明***和基线***在satisfaction指标上的得分分别为(M=4.25,SD=1.48)和(M=3.50,SD=1.79),satisfaction指标无显著差异(t=1.44,p>.05)。
感知易用性(PEOU):本发明***和基线***在easy to learn(t=-0.22,p>.05)指标上不存在显著差异,即被试用户认为本发明***(M=6.00,SD=1.10)与基线***(M=6.06,SD=.68)都易于学习。本发明***在ease of use指标得分(t=3.88,p<.01)上发现了显著性:被试用户在易用性指标上对本发明***的打分(M=6.19,SD=.98)明显高于对基线***的打分(M=5.00,SD=1.32)。在comfortability(t=3.67,p<.01)指标上也存在显著性,本发明***的得分情况(M=5.75,SD=.77)优于基线***(M=4.38,SD=1.20)。另外,本发明***在communicative(t=4.58,p<.01)指标上的得分(M=5.81,SD=.98)也明显比基线***的得分(M=4.25,SD=1.06)高。
感知有用性(PU):对于usefulness指标(t=5.23,p<.01),本发明***的得分(t=5.23,p<.01)比基线***的得分(M=4.00,SD=1.21)高。同样,本发明***(M=6.13,SD=.89)比基线***(M=3.25,SD=1.13)更节省时间(time-saving(t=7.67,p<.01))。并且,两个***在fulfilling(t=5.57,p<.01)指标上的得分也存在显著差异,分别为本发明***(M=5.81,SD=.66)、基线***(M=3.75,SD=1.29)。
AI用户界面常用指标:本发明***与基线***在creativity(t=-4.14,p<.01)指标上的得分存在显著差异,本发明***的得分(M=5.13,SD=.89)比基线***得分低(M=6.13,SD=.89),这也在一定程度上表明,素材重用在为场景草图构建提供便利的同时,限制了用户的创造力。另外,两个***在controllability(t=1.86,p>.05)与degree offreedom(t=0.64,p>.05)两个指标上的得分相似,不存在显著性。
净推荐值(NPS):本发明***的净推荐值得分为93.75\%,意味着15名被试用户打分在9分以上;基线***的净推荐值得分为-37.5\%,意味着只有1名被试用户打分在9分以上,有8位用户打分为7分或者8分。
(5.2)定性分析
在定性分析中,本实验旨在了解用户在使用本发明***与基线***时的主观想法、评论和建议。图6中展示了用户实验中被试用户构建的部分场景草图示例以及对应的图像检索目标,可以看出,用户基于本发明***(SketchMaker)构建的草图质量更高。本试验对被试用户们在访谈中比较普遍和重要的观点进行了归纳:
本发明***用户界面易于使用;
本发明***用户界面更加友好且使用高效灵感和创造力;
在访谈中本实验发现,用户对***是否可以增强创造力的观点不一致,但用户更倾向于在检索复杂图像的时候使用本发明***。
虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换,均应涵盖于本发明的保护范围内,本发明的保护范围以权利要求所限定者为准。
Claims (10)
1.一种草图数据重用与场景草图辅助构建方法,其特征在于,包括以下步骤:
对用户在已有场景草图中选择的草图素材进行提取并保存到数据库中,并对其中残缺的草图素材进行自动修复;
利用数据库中已有草图素材或者临时绘制草图,来构建场景草图或场景草图序列;
基于构建的场景草图进行图像检索,找到与场景草图最相似的图像;
基于构建的场景草图序列进行视频定位,找到与场景草图序列最相似的视频片段。
2.如权利要求1所述的方法,其特征在于,利用数据库中已有的草图素材通过拖拽、缩放和旋转中的一种或几种操作来构建场景草图。
3.如权利要求1所述的方法,其特征在于,图像检索方法为基于SceneSketcher方法并去掉该方法中类别敏感的交并比损失部分所得到的方法。
4.如权利要求1所述的方法,其特征在于,构建基于图像搜索方法的端对端的图像搜索模型,该图像搜索模型通过训练提高图像搜索精度和速度。
5.如权利要求1所述的方法,其特征在于,在基于构建的场景草图进行图像检索时,通过调整场景草图的姿态、大小、方向、位置中的一种或几种来找到与场景草图最相似的图像。
6.如权利要求1所述的方法,其特征在于,进行视频定位的步骤包括:基于卷积神经网络提取场景草图视觉特征;基于光流法提取视频动作特征;基于C3D网络提取视频特征;根据所述场景草图视觉特征、视频动作特征和视频特征利用回归算法进行视频定位。
7.如权利要求1所述的方法,其特征在于,在基于构建的场景草图序列进行视频定位时,通过调整场景草图的姿态、大小、方向、位置中的一种或几种来找到与场景草图序列最相似的视频片段。
8.一种用于实现权利要求1-7任一项所述方法的草图数据重用与场景草图辅助构建***,其特征在于,包括顶层的交互界面和底层的数据处理算法模块,该交互界面包括草图数据提取页面、场景草图构建与图像检索页面和基于场景草图的视频定位页面,以及用于切换页面的页面切换按钮;
草图数据提取页面包括:场景草图浏览面板和草图数据提取面板;
场景草图构建与图像检索页面包括:场景草图构建画布、场景草图编辑工具面板、草图素材浏览和选择面板和图像检索结果显示面板;
基于场景草图的视频定位页面包括:场景草图构建画布、场景草图编辑工具面板、草图素材浏览和选择面板、草图序列显示面板和视频定位结果显示面板;
其中,场景草图浏览面板用于显示当前场景草图,框选草图对象元素和切合场景草图;草图数据提取面板用于提取框选的草图对象,并对残缺的草图素材进行自动修复;场景草图构建画布用于支持对构建场景草图的拖动、缩放和旋转操作;场景草图编辑工具面板用于提供对草图元素进行绘制和编辑的工具;草图素材浏览和选择面板用于展示***推荐的草图素材列表;图像检索结果显示面板用于展示图像检索结果;草图序列显示面板是用于显示草图序列;视频定位结果显示面板用于显示定位的视频片段;
数据处理算法模块用于实现上述交互界面中的所有交互和数据处理。
9.如权利要求8所述的***,其特征在于,场景草图编辑工具面板提供画笔、橡皮擦、撤销、删除、清除和检索工具。
10.如权利要求8所述的***,其特征在于,数据处理算法模块含有基于图像搜索方法的端对端的图像搜索模型,该图像搜索模型通过训练提高图像搜索精度和速度;该图像检索方法为基于SceneSketcher方法并去掉该方法中类别敏感的交并比损失部分所得到的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110468472X | 2021-04-28 | ||
CN202110468472 | 2021-04-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114840107A true CN114840107A (zh) | 2022-08-02 |
CN114840107B CN114840107B (zh) | 2023-08-01 |
Family
ID=82562797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210237615.0A Active CN114840107B (zh) | 2021-04-28 | 2022-03-11 | 一种草图数据重用与场景草图辅助构建方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114840107B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763439A (zh) * | 2010-03-05 | 2010-06-30 | 中国科学院软件研究所 | 一种基于草图的超视频构建方法 |
CN101807198A (zh) * | 2010-01-08 | 2010-08-18 | 中国科学院软件研究所 | 一种基于草图的视频摘要生成方法 |
CN102663429A (zh) * | 2012-04-11 | 2012-09-12 | 上海交通大学 | 运动目标的运动模式分类和动作识别的方法 |
CN104794429A (zh) * | 2015-03-23 | 2015-07-22 | 中国科学院软件研究所 | 一种面向监控视频的关联可视分析方法 |
EP2991037A1 (en) * | 2013-04-23 | 2016-03-02 | Tsinghua University | Method of generating three-dimensional scene model |
CN105468666A (zh) * | 2015-08-11 | 2016-04-06 | 中国科学院软件研究所 | 一种基于地图隐喻的视频内容可视分析方法 |
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN106599133A (zh) * | 2016-12-02 | 2017-04-26 | 中国科学院软件研究所 | 一种基于草图交互的监控视频可视分析方法 |
US20180189988A1 (en) * | 2016-12-30 | 2018-07-05 | Microsoft Technology Licensing, Llc | Chart-type agnostic scene graph for defining a chart |
US20190172166A1 (en) * | 2011-01-03 | 2019-06-06 | Curtis Evans | Systems methods and user interface for navigating media playback using scrollable text |
CN109977882A (zh) * | 2019-03-29 | 2019-07-05 | 广东石油化工学院 | 一种半耦合字典对学习的行人重识别方法及*** |
CN110147797A (zh) * | 2019-04-12 | 2019-08-20 | 中国科学院软件研究所 | 一种基于生成式对抗网络的草图补全与识别方法和装置 |
CN110933520A (zh) * | 2019-12-10 | 2020-03-27 | 中国科学院软件研究所 | 一种基于螺旋摘要的监控视频展示方法及存储介质 |
CN111291212A (zh) * | 2020-01-24 | 2020-06-16 | 复旦大学 | 基于图卷积神经网络的零样本草图图像检索方法和*** |
CN112069336A (zh) * | 2020-08-04 | 2020-12-11 | 中国科学院软件研究所 | 一种基于场景草图的细粒度图像检索方法及*** |
-
2022
- 2022-03-11 CN CN202210237615.0A patent/CN114840107B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101807198A (zh) * | 2010-01-08 | 2010-08-18 | 中国科学院软件研究所 | 一种基于草图的视频摘要生成方法 |
CN101763439A (zh) * | 2010-03-05 | 2010-06-30 | 中国科学院软件研究所 | 一种基于草图的超视频构建方法 |
US20190172166A1 (en) * | 2011-01-03 | 2019-06-06 | Curtis Evans | Systems methods and user interface for navigating media playback using scrollable text |
CN102663429A (zh) * | 2012-04-11 | 2012-09-12 | 上海交通大学 | 运动目标的运动模式分类和动作识别的方法 |
EP2991037A1 (en) * | 2013-04-23 | 2016-03-02 | Tsinghua University | Method of generating three-dimensional scene model |
CN104794429A (zh) * | 2015-03-23 | 2015-07-22 | 中国科学院软件研究所 | 一种面向监控视频的关联可视分析方法 |
CN105468666A (zh) * | 2015-08-11 | 2016-04-06 | 中国科学院软件研究所 | 一种基于地图隐喻的视频内容可视分析方法 |
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN106599133A (zh) * | 2016-12-02 | 2017-04-26 | 中国科学院软件研究所 | 一种基于草图交互的监控视频可视分析方法 |
US20180189988A1 (en) * | 2016-12-30 | 2018-07-05 | Microsoft Technology Licensing, Llc | Chart-type agnostic scene graph for defining a chart |
CN109977882A (zh) * | 2019-03-29 | 2019-07-05 | 广东石油化工学院 | 一种半耦合字典对学习的行人重识别方法及*** |
CN110147797A (zh) * | 2019-04-12 | 2019-08-20 | 中国科学院软件研究所 | 一种基于生成式对抗网络的草图补全与识别方法和装置 |
CN110933520A (zh) * | 2019-12-10 | 2020-03-27 | 中国科学院软件研究所 | 一种基于螺旋摘要的监控视频展示方法及存储介质 |
CN111291212A (zh) * | 2020-01-24 | 2020-06-16 | 复旦大学 | 基于图卷积神经网络的零样本草图图像检索方法和*** |
CN112069336A (zh) * | 2020-08-04 | 2020-12-11 | 中国科学院软件研究所 | 一种基于场景草图的细粒度图像检索方法及*** |
Non-Patent Citations (2)
Title |
---|
李智霞;李元臣;: "基于特征的图像视频信息检索研究", 情报杂志, no. 09, pages 117 - 119 * |
杨海燕;陈佳;马翠霞;何利力;滕东兴;戴国忠;王宏安;: "基于草图的超视频构造方法及关键技术研究", 计算机研究与发展, no. 02, pages 289 - 295 * |
Also Published As
Publication number | Publication date |
---|---|
CN114840107B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947915B (zh) | 一种基于知识管理***的人工智能专家***及其构建方法 | |
JP3671008B2 (ja) | コンテキスト・クラスタ発見および検証のための顧客セルフ・サービス・サブシステム | |
US11068493B2 (en) | Guided content discovery in visual search | |
CN102346633A (zh) | 用于交互式过滤的***和方法 | |
US10013781B1 (en) | Sewing machine-style polygon drawing method | |
US10649618B2 (en) | System and method for creating visual representation of data based on generated glyphs | |
CN106293341A (zh) | 一种应用程序的分屏显示方法及装置 | |
Shi et al. | Molder: an accessible design tool for tactile maps | |
US20240153395A1 (en) | Tracking concepts and presenting content in a learning system | |
CN109522490B (zh) | 一种互联网信息的地图可视化方法 | |
US10776415B2 (en) | System and method for visualizing and recommending media content based on sequential context | |
JPH08241342A (ja) | 設計プロセス記録方法及び設計プロセス記録装置 | |
Käster et al. | Combining speech and haptics for intuitive and efficient navigation through image databases | |
Klemmer et al. | Integrating physical and digital interactions on walls for fluid design collaboration | |
CN114840107A (zh) | 一种草图数据重用与场景草图辅助构建方法及*** | |
JP2013025745A (ja) | 教師データの作成方法、教師データの作成のためのプログラム、及び教師データ作成装置 | |
CN114245193A (zh) | 显示控制方法、装置和电子设备 | |
Weng et al. | Dualslide: global-to-local sketching interface for slide content and layout design | |
Ren et al. | Gazegrid: a novel interaction method based on gaze estimation | |
Liu et al. | An AI-empowered visual storyline generator | |
CN105808047A (zh) | 在移动设备上执行的多窗***互式教学方法 | |
Wang et al. | Interactive multi-scale structures for summarizing video content | |
Jiang et al. | Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces | |
Li et al. | Interactive drawing interface with 3D animal model retrieval | |
Osada | Browsing Unix directories with Dynamic Queries: An evaluation of three information display techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |