CN109960734A - 用于数据可视化的问题回答 - Google Patents

用于数据可视化的问题回答 Download PDF

Info

Publication number
CN109960734A
CN109960734A CN201811172058.9A CN201811172058A CN109960734A CN 109960734 A CN109960734 A CN 109960734A CN 201811172058 A CN201811172058 A CN 201811172058A CN 109960734 A CN109960734 A CN 109960734A
Authority
CN
China
Prior art keywords
answer
data
inquiry
data visualization
visualization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811172058.9A
Other languages
English (en)
Inventor
S·科恩
K·卡弗勒
B·普里塞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adobe Inc
Original Assignee
Adobe Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Adobe Systems Inc filed Critical Adobe Systems Inc
Publication of CN109960734A publication Critical patent/CN109960734A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的各实施例涉及用于数据可视化的问题回答。描述了使用诸如条形图的数据可视化来提供问题回答的***和技术。这样的数据可视化通常从收集的数据被生成,并且在图像文件内被提供,图像文件示出基础数据和数据元素之间的关系。所描述的技术分析查询和相关的数据可视化,并且标识数据可视化内的、在其中可以找到对查询的答案的一个或多个空间区域。

Description

用于数据可视化的问题回答
技术领域
本说明书涉及用于数据可视化的问题回答。
背景技术
通常期望使用诸如条形图、饼图和各种其他形式的可视化的数据可视化来表示信息。这样的数据可视化有利地能够以紧凑和方便的形式传送大量和各种类型的信息。此外,这样的数据可视化的通用性足以说明用于范围从小学生到几乎任何奋斗领域的高级专业用户的观众的信息。
尽管数据可视化被具体设计为以人类读者在视觉上可观察的方式传送大量基础数据,但是传统的计算机搜索技术通常在很大程度上或完全不能访问或利用基础数据。例如,文档文件通常包括数据可视化作为图像文件;例如,被嵌入在较大的文档文件内。存在很多用于在这样的文档文件内搜索文本的技术,但是这样的技术将忽略显示数据可视化的图像文件。
因此,例如,用户可以使用传统技术来提交针对期望的信息而要跨多个文档而被应用的查询,并且如果期望的信息被包括在被包含在一个或多个搜索的文档中的数据可视化中,则查询将不会被满足。类似地,如果期望的信息被包括在数据可视化内,则用户在单个文档内的搜索可能是不成功的。作为结果,在这些和类似的场景中,即使期望的信息被包括在(多个)可用文档中,这样的用户也可能无法从期望的信息受益。
发明内容
根据一个总体方面,一种计算机程序产品被有形地体现在非暂态计算机可读存储介质上并且包括指令。指令在由至少一个计算设备执行时,被配置为使得至少一个计算设备标识数据可视化(DV),以及生成表征数据可视化的DV特征图,包括维持数据可视化在DV特征图内的映射的特征与数据可视化的对应特征的空间关系的对应性(correpondence)。指令还被配置为使得至少一个计算设备标识针对被包括在数据可视化内的答案的查询,将查询编码为查询特征向量,基于DV特征图和查询特征向量来生成数据可视化内的至少一个答案位置的预测;以及从至少一个答案位置确定答案。
根据另一总体方面,一种计算机实现的方法包括接收针对数据可视化(DV)的查询,将查询编码为查询特征向量,以及生成表征数据可视化的至少一个空间区域的DV特征图。该计算机实现的方法还包括基于数据可视化的至少一个空间区域和查询特征向量的组合来生成至少一个空间区域内的至少一个答案位置的预测,以及从至少一个答案位置确定对查询的答案。
根据另一总体方面,一种***包括:包括指令的至少一个存储器;以及被可操作地耦合到至少一个存储器并且被布置和配置为执行指令的至少一个处理器。指令在被执行时,使得至少一个处理器:生成可视化训练数据集,可视化训练数据集包括多个训练数据可视化和可视化参数、以及用于多个训练数据可视化的查询/答案对,以及训练特征图生成器以生成训练数据可视化中的每个训练数据可视化的特征图。指令在被执行时,还被配置为训练查询特征向量生成器以生成查询/答案对中的查询中的每个查询的查询特征向量,以及训练答案位置生成器以基于经训练的特征图生成器的输出和经训练的查询特征向量来生成针对查询/答案对中的对应查询的答案的训练数据可视化中的每个训练数据可视化内的答案位置。指令在被执行时,还被配置为将新的数据可视化和新的查询输入到经训练的特征图生成器和经训练的查询特征向量以获取新的特征图和新的查询特征向量,以及基于新的特征图和新的查询要素向量来针对新的查询生成新的数据可视化内的新的答案位置。
在附图和以下描述中阐述了一个或多个实现方式的细节。根据说明书和附图以及根据权利要求,其他特征将是清楚的。
附图说明
图1是针对用于数据可视化的问题回答的***的框图;
图2是示出图1的***的示例操作的流程图;
图3是示出图1的***的更详细的示例实现方式的框图;
图4是示出图3的***的示例操作的流程图;
图5是示出图3的***的更详细的示例实现方式的框图;
图6示出了可以结合图1至图5的***的示例实现方式而被利用的第一示例数据可视化;
图7示出了可以结合图1至图5的***的示例实现方式而被利用的第二示例数据可视化,示出了应用的关注图的结果;
图8示出了可以结合图1至图5的***的示例实现方式而被利用的第三示例数据可视化;以及
图9是示出用于使用图1至图5的***重新捕获数据可视化的数据的技术的流程图和相关联的屏幕截图。
具体实施方式
本文档描述了使用数据可视化来提供问题回答的***和技术。这样的***和技术克服了先前***和技术的技术挑战,并且改进了执行相关自动化处理的(多个)过程。例如,从应用内,可以提交查询并且可以关于被包括在(多个)标识的文档内的数据可视化的内容来执行搜索,而不是仅在(多个)文档内或跨(多个)文档执行文本搜索(例如,文档术语与查询术语的基于字符串或语义的匹配)。与尝试搜索任何(多个)数据可视化的其他算法相比,所描述的数据可视化搜索技术使用更高效、更快速、更准确和更完整的(多个)算法。此外,数据可视化搜索技术提供新的计算机功能,例如,请求和查找被包含在数据可视化内(由数据可视化表示)的数据(即使数据可视化是仅包括对数据可视化的图像编码的像素值的图像文件)以及提供返回结合关于至少一个查询的数据可视化的处理而被标识的搜索结果。
***和技术在应用内提供用户界面以使得用户能够提交查询,包括人类用户在查看和解释数据可视化时通常考虑的各种类型的查询。例如,这样的查询可以包括与(多个)数据可视化的结构有关的结构问题(诸如条形图中包括多少个条)、值问题(诸如条形图内的具体条的具体值)、比较问题(诸如条形图内的哪个条最大或最小)和标签问题(诸如标识和读取条形图的具体条的标签或其他标识符的内容)。
例如,用户可以提供口头查询,例如,“哪个南美国家具有最高GDP?”。查询可以关于具体文档或关于文档的汇集(collection)或关于利用搜索通过定义的搜索空间而被分派任务的任何搜索引擎而被提供。查询不需要针对任何特定的数据可视化或数据可视化的类型,并且实际上,提交查询的用户可能不知道(相关的)数据可视化甚至存在于搜索空间内。尽管如此,可以向用户提供期望的答案,因为本技术使得能够查找、分析和解释隐含在数据可视化内但对当前搜索技术不可用的信息。作为结果,所描述的技术能够向用户提供否则可能由这些用户找到或对这些用户可用的信息。
示例用户界面因此可以可操作以独立于查询的数据可视化本身或与查询的数据可视化本身结合(例如,重叠)来生成并且可视地显示期望的答案。在其他示例中,所描述的***和技术可操作以捕获作为(多个)数据可视化的基础的数据,并且此后以可编辑的格式重新绘出(render)相同或不同的数据可视化。
如下面详细描述的,示例技术包括使用各种类型的机器学习以及相关联的算法和模型,其中针对要被搜索的数据可视化的类型生成合成数据集,包括合成查询和答案。合成数据集然后被用作训练数据集以训练多个模型和算法。
例如,可以训练诸如卷积神经网络的模型以生成数据可视化的特征图,并且可以使用长短期记忆(LSTM)网络来将查询编码为特征向量。然后,可以使用基于关注的模型和相关联的技术来组合特征图和查询特征向量,诸如通过从特征图生成可视化特征向量并且然后连结可视化特征向量和查询特征向量。
以这种方式,或者使用附加或备选技术,可以预测期望的答案在(多个)数据可视化的图像内的位置。然后,可以使用一种或多种技术来从预测或标识的答案位置确定答案。例如,可以使用光学字符识别(OCR)。在其他示例中,可以使用附加的机器学习模型和算法来提供端到端解决方案以从数据可视化(例如,逐字符)读取标识的答案。
在其他示例实现方式中,所描述的***和技术可以被用来检查数据可视化并且恢复被用来生成检查的数据可视化的所有数据或所有期望的数据,例如,数据可视化的基础源数据。例如,通过使用本文中描述的查询/答案技术,可以利用一组查询来***地标识源数据。然后,可以使用源数据以用于任何期望的目的,包括将源数据绘出为不同(类型)的数据可视化。例如,可以分析条形图以确定基础源数据,并且然后可以使用绘图软件以将源数据重新绘出为饼图或其他类型的数据可视化。
因此,例如,本文档中描述的***和技术有助于跨包含数据可视化的文档或其他文件的语料库进行搜索,以找到执行搜索的用户否则将丢失的信息。此外,可以提供智能的基于文档的软件,其可以提供用于查看、编辑和共享的文档,包括查找和解释(多个)文档的读者的信息,否则这些信息可能被这些读者遗漏或误解。
附加地,本文中描述的***和技术有利地改进了现有技术领域。例如,如上所述,例如通过提供对/针对数据可视化和被包括在其中的数据的基于计算机的搜索来改进基于计算机的搜索。此外,***和技术可以被用于更自动化且更高效和更快速的方式以解释数据可视化。
特别地,例如,所描述的技术并不依赖于对用于训练的数据可视化或被搜索的数据可视化的实际内容的分类。例如,所描述的技术不必将两个或更多个已知答案中的一个分类为预先指明的查询,例如,作为对诸如“蓝色条是条形图中的最大条?”问题的“是”或“否”答案。作为替代,所描述的技术能够在数据可视化本身的图像的(多个)空间位置内找到答案或确定答案所需要的信息,包括首先考虑正被考虑的数据可视化的整个区域。因此,所描述的技术可以回答新接收的查询,即使是在训练操作的上下文期间之前没有看到这样的查询(或相关联的答案)时。例如,尽管训练数据可以包括实际条形图(即,表示实际数据的“真实世界”条形图),或者如果需要则包括其他数据可视化,训练集也可以包括无意义的单词和/或随机内容。作为结果,生成期望的类型的训练数据集非常简单,而无需创建或编译现有的实际数据可视化。
图1是用于使用数据可视化的问题回答的***100的框图。***100包括具有至少一个存储器104、至少一个处理器106和至少一个应用108的计算设备102。计算设备102可以通过网络110与一个或多个其他计算设备通信。例如,计算设备102可以通过网络110与搜索服务器111通信。计算设备102可以被实现为服务器、台式计算机、膝上型计算机、诸如平板设备或移动电话设备的移动设备、以及其他类型的计算设备。尽管示出了单个计算设备102,但是计算设备102可以表示彼此通信的多个计算设备,诸如被用于通过网络执行各种功能的彼此通信的多个服务器。在以下示例中的很多示例中,计算设备102被描述为或可以被理解为表示服务器。
至少一个处理器106可以表示计算设备102上的并行执行并且利用使用至少一个存储器104而被存储的对应指令的两个或更多个处理器。至少一个存储器104表示至少一个非暂态计算机可读存储介质。因此,类似地,至少一个存储器104可以表示由计算设备102利用的一个或多个不同类型的存储器。除了存储允许至少一个处理器106实现应用108及其各种组件的指令之外,至少一个存储器104可以被用来存储数据。
网络110可以被实现为因特网,但是可以采用其他不同的配置。例如,网络110可以包括广域网(WAN)、局域网(LAN)、无线网络、内联网、这些网络的组合以及其他网络。当然,尽管网络110被示出为单个网络,但是网络110可以被实现为包括多个不同的网络。
应用108可以由计算设备102的用户在计算设备102处直接访问。在其他实现方式中,应用108可以在作为云网络的组件的计算设备102上运行,其中用户通过诸如网络110的网络从另一计算设备(例如,用户设备112)访问应用108。在一个实现方式中,应用108可以是文档创建或查看器应用。在其他实现方式中,应用108可以是被设计为与文档创建或查看器应用(例如,在用户设备112上运行)一起工作的独立应用。应用108还可以是被用来搜索由(多个)文档创建或查看器应用创建的多个文档的独立应用。在其他备选中,应用108可以是至少部分地在诸如浏览器应用的另一应用中运行的应用。当然,应用108也可以是上述示例中的任何示例的组合。
在图1的示例中,用户设备112被示出为包括其中绘出有文档116的显示器114。如上所述,文档116可以由文档读取器应用提供,文档读取器应用可以包括应用108的至少一部分或者可以利用应用108的能力来从本文中描述的各种可视化搜索技术受益。
具体而言,文档116被示出为包括查询栏118,用户可以在查询栏118中提交与一个或多个数据可视化(在图1的简化示例中由单个数据可视化120表示)相关的一个或多个查询。例如,在其中文档116是用户正在查看的单个可能大或冗长的文档的上下文中,可以提供查询栏118以使得用户可以提交关于文档116的内容的一个或多个问题、请求或其他查询。在这些和类似的示例中,这样的冗长文档可以包括潜在的大量数据可视化,并且用户可能不知道包含期望的信息的数据可视化120在较大文档116的上下文内的位置或存在。
因此,使用本文中描述的各种技术,用户尽管如此也可以通过查询栏118来提交对期望的信息的查询,并且可以被提供有数据可视化120的标识,包括期望的信息以及具体的所请求的信息。用于提供所请求的信息的各种技术在本文中被示出和描述,或者对于本领域技术人员来说将是清楚的。
此外,应当领会到,本文中描述的技术可以跨包括数据可视化的多个文档或其他类型的内容而被应用。例如,查询栏118可以被实现为被配置为跨多个文档或其他文件进行搜索的搜索应用内的标准搜索栏。在这样的上下文中,搜索应用的用户因此可以被提供有例如标识的文档和包括的数据可视化,诸如数据可视化120,以满足用户的搜索请求。
因此,应当领会到,作为非限制性术语,术语查询应当被理解为包括用来定位期望的答案、搜索结果、数据或其他信息的任何问题、请求、搜索或其他尝试,并且可以与它们可互换地被使用。任何这样的信息可以被包括在任何合适类型的数字内容中,包括如上所述的文档、文章、教科书、或能够包括和显示图像的任何其他类型的文本文件。当然,这样的数字内容还可以包括单个图像文件,单个图像文件包括诸如数据可视化120的一个或多个数据可视化的一个或多个图像。因此,这样的数字内容可以被包括在具有任何合适格式(诸如例如,.pdf、.doc、.xls、.gif或.jpeg文件格式)的单个文件中。此外,这样的数据可视化可以被包括在视频文件中,并且本文中描述的搜索技术可以针对包含诸如数据可视化120的数据可视化的这样的视频文件的各个框架而被应用。
在图1的示例中,数据可视化120被示出为简化的条形图,其中第一个条122具有标签“ABC”,而第二个条124具有标签“XYZ”。当然,再次,应当领会到,图1的简化的数据可视化120应当被理解为表示可以在图1的***100的上下文中被利用的很多不同类型的数据可视化的非限制性示例。
例如,可以利用很多不同类型的条形图,它们的一些示例在下面参考图6至图8而被说明。此外,可以使用其他类型的数据可视化,诸如饼图、散点图、网络、流图、树图、甘特图、热图和很多其他类型的数据的可视表示。因此,图1的数据可视化120和本文中描述的其他数据可视化通常应当被理解为表示使用点、线、条、分段、或者视觉元素和相关联数值的任何其他组合、连同用于元素和值的合适标签(它们一起以图解的原理图格式传送基础信息)来对数字数据编码的任何合适的技术。
如以上引用和本文中详细描述的,***100使得用户设备112的用户能够提交查询并且接收关于由数据可视化120表示的数据可视化的答案。例如,这样的查询可以包括结构查询(例如,包括多少个条?)、值查询(例如,XYZ的值是什么?)、或比较问题(例如,条形图中最大的条是什么?)。如从前面的示例可以观察到的,一些查询可以对于讨论中的数据可视化120的类型是相对具体的。然而,在其他示例中,***100可以被配置为提供对独立于正被检查的数据可视化的类型并且甚至可以关于包含期望的信息的任何具体数据可视化而被提交的自然语言查询的答案。例如,如果数据可视化120表示多个国家的国内生产总值(GDP)的图表,则用户可以提交自然语言查询,诸如“哪个国家具有最高GDP?”,并且由此接收与示例数据可视化120的条形图的具体条相关联的具体国家的标识。
为了提供这些和很多其他特征和益处,应用108包括可视化生成器126,可视化生成器126被配置为向模型训练器128提供足够的信息以最终训练数据可视化(DV)查询处置器(handler)130的元素。以这种方式,***100使得DV查询处置器130能够输入诸如数据可视化120的先前未知的数据可视化、以及一个或多个相关联的查询,并且此后提供已经从数据可视化120被提取的期望的答案。更具体地,如所示,可视化生成器126包括参数处置器132,并且可视化生成器126被配置为利用通过参数处置器132而被接收的参数来生成可视化训练数据集134。
例如,继续其中数据可视化120是条形图的示例,参数处置器132可以从应用108的用户接收与要被包括在可视化训练数据集134内的多个条形图的生成相关的参数。这样的参数因此实际上可以包括可以与训练目的相关的条形图的任何特性或约束。作为非限制性示例,这样的参数的范围可以包括将被包括的条数、针对要被生成的各种条形图的X、Y和/或Z轴的值、条形图的键/图例的特性、和各种其他方面。
所接收的参数还可以包括可以与训练目的相关的查询、查询的类型或查询特性。同样,这样的查询可以或多或少地特定于正被考虑的数据可视化的类型,或者可以简单地包括可以使用本文中描述的技术而被回答的自然语言问题或自然语言问题的类型。
使用所接收的参数,可视化生成器126可以生成可视化训练数据集134,其中可视化训练数据集134被理解为包括数据的完整汇集、从数据生成的数据可视化、可以针对数据和/或数据可视化而被应用的查询或查询类型、以及正确地响应于对应查询或查询类型的答案或答案类型。换言之,可视化训练数据集134提供内部一致的数据集,其中例如,每个查询与具体数据对应,其中数据利用任何对应数据可视化而被表示,并且对查询的答案与查询、数据和数据可视化中的每个相关。
换言之,可视化训练数据集134提供通过所生成的数据和对应的数据可视化而相关的已知的查询/答案对的“基础事实(ground truth)”。然而,如下面详细描述的,可视化训练数据集134不必包括或表示任何实际或正确的真实世界数据。实际上,可视化训练数据集134可以包括随机或无意义的单词和值,这些单词和值在某种意义上仅彼此相关,如所引用的,它们在内部关于结合其而被生成的数据可视化相一致。
例如,如果数据可视化120被使用并且被包括在可视化训练数据集134内,则可以观察到,条的标签“XYZ”与值3没有明显的潜在关系,除了条124在数据可视化120内具有值3的这一事实之外。如本文中详细描述的,DV查询处置器130可以被配置为在尝试回答具体查询之前分析数据可视化120的整体(至少一部分),并且由此标识和利用数据可视化120内的具***置,以便预测从何处以及如何提取期望的信息。因此,数据可视化训练数据集134内的标签、值或其他单词或数字的实际内容或含义对于在可视化训练数据集134的上下文中得出其期望的特性不是必需的。当然,如果需要,则可以考虑这样的内容,包括所包括的单词或图像的语义、语法和含义,包括在回答自然语言查询的上下文中。在任何情况中,至少从以上描述可以观察到,可视化生成器126、模型训练器128和DV查询处置器130的所描述的实现方式可以被配置为提供期望的查询答案,即使在讨论中的查询和答案都没有被包括在可视化训练数据集134中时。
可视化生成器126合成地生成可视化训练数据集134(而不必依赖)、创建或标识真实世界数据可视化的能力意味着,针对应用108的用户可能期望的任何各种类型的数据可视化和相关参数,可以快速且容易地获取非常大且全面的训练数据集。作为结果,可以向模型训练器128提供足够的训练数据以产生DV查询处置器130的可靠、准确和高效的操作,如下所述。
在以下描述中,模型训练器128被配置为使用可视化训练数据集134来针对一个或多个神经网络以及相关的模型或算法提供训练。在图1的示例中,提供了这样的神经网络的若干示例,每个示例被配置为提供关于DV查询处置器130的操作的具体功能。具体而言,如所示,模型训练器128可以被用于训练卷积神经网络(CNN)136、长/短期记忆(LSTM)编码器138和关注模型140。下面提供关于CNN136、LSTM编码器138和关注模型140的具体示例和细节,并且也可以利用附加或备选的神经网络。
通常,这样的神经网络提供在机器学习中被使用的、由被组织成层的节点组成计算模型。节点也可以被称为人工神经元,或者仅被称为神经元,并且对所提供的输入执行功能以产生某个输出值。这样的神经网络通常需要训练周期来学习被用来将输入映射到具体输出的参数(例如,权重)。如上所述,可视化训练数据集134提供包括由模型训练器128用来训练各种模型136、138、140的“基础事实”到训练示例。
对神经网络的输入可以按照一个或多个特征向量的形式而被构造。通常,特征向量是数字的数组,该数组具有一个或多个维度。这样的特征向量例如允许单词、图像或其他类型的信息或概念的数字或向量表示。通过以这种方式数字地表示概念,可以计算地处理否则抽象的概念。例如,当将单词表示为特征向量时,在由对应特征向量表示的多个单词的上下文中,可以定义向量空间,其中相似单词的向量在向量空间内自然地彼此接近地出现。以这种方式,例如,可以在数学上检测单词相似性。
使用这样的特征向量和上述神经网络的其他方面,模型训练器128可以使用可视化训练数据集134的训练示例继续执行训练,包括执行训练的一系列迭代轮次,其中确定被用来将输入值映射到输出值的一个或多个映射函数的最佳权重值。在确定最佳权重时,模型训练器128基本上基于可用数据进行预测,并且然后使用可用的基础事实结合可视化训练数据集134来测量误差和预测。被用来测量这样的误差水平的函数通常被称为损失函数,损失函数通常被设计为在相关训练示例之上求和,并且如果预测不正确则增加计算出的损失,或者如果预测是正确的则减少/最小化计算出的损失。以这种方式,可以在概念上将各种模型理解为被训练以从在预测的各种迭代期间所犯的错误进行学习,从而使得当被部署在DV查询处置器130的上下文中时,所引用的所得到的经训练的模型将是快速、高效和准确的。
在图1的示例中,模型训练器128包括卷积神经网络(CNN)136,CNN 136表示被特别地配置用于处理图像的特定类型的神经网络。也就是说,因为这样的卷积神经网络明确假定输入特征是图像,所以属性可以被编码到CNN 136中,这导致CNN 136比标准神经网络更高效,同时相对于标准神经网络减少了CNN 136所需要的参数的数目。
更详细地,CNN 136的参数可以包括一个或多个可学习的过滤器,其中每个过滤器具有宽度和高度的空间尺寸,同时延伸通过输入体积的整个深度。例如,如果对CNN 136的输入包括图像,则被应用于图像的过滤器可以具有5×5×3的示例大小,表示与可能包括的色彩通道对应的5个像素的宽度、5个像素的高度和3个深度尺寸。为了应用CNN 136,使一个或多个过滤器中的每个过滤器跨输入图像的过滤的像素的宽度和高度而被通过(换言之,被卷积)。当过滤器跨输入图像的宽度/高度和体积而被卷积时,可以在过滤器的条目与每个输入位置之间进行点积或其他适当的计算。
如上面关于神经网络所引用的,一个或多个过滤器的参数将随时间学习和被调整,以便响应于期望的类型的视觉特征(例如,图像边缘、图像取向、颜色、或正被训练的CNN136的某个其他图像方面)而被激活。因此,一旦CNN 136已经被成功训练,则结果将是例如对应的多个层中的一组参数化的过滤器,每个层产生单独的2D特征图,这组参数化的过滤器然后可以沿着深度维度被编译以产生总的输出特征图体积。
进一步关于模型训练器128,LSTM编码器138参考被设计为利用被包含在连续的相关信息内的信息的特定类型的递归神经网络(RNN)。也就是说,由于对序列的每个元素执行相同或类似的操作,递归神经网络被描述为递归的,其中每个输出取决于先前的计算。
例如,这样的序列可以包括被包括在可视化训练数据集134的每个查询内的句子或问题,因为典型的句子表示相关信息的序列,并且这样的序列/句子的后续部分可以通过考虑句子的早先部分而被更准确地推断。例如,可以通过考虑以下来理解这个概念:与尝试与其他文本隔离地推断单词德语相比,可以使用开始“来自德国的人……流利”的句子来更容易地确定单词“德语”。
因此,如通常可以被观察到的,这样的递归神经网络依赖于早先推导的信息,该信息因此必须随时间而被存储以便在该过程的稍后时间有用。实际上,可能发生以下情况:在当前单词与确定当前单词所必须的信息之间存在大的距离(例如,句子内的大量单词)。因此,与对于关于最佳地确定当前信息进行存储而言实际或有用的相比,递归神经网络可能需要存储更多的信息。
与此形成对照,LSTM 138被特别地设计为避免这种类型的长期依赖性问题,并且能够选择性地存储有用信息足够长的时间段以成功地确定当前考虑的信息。因此,在图1的示例中,可以使用来自可视化训练数据集134的被编码为特征向量的输入查询来训练LSTM编码器138,其相对于被包括在关于对应查询的可视化训练数据集134内的基础事实答案使损失函数最小化。作为结果,如下面详细描述的,DV查询处置器130可以被配置为接收关于新确定的数据可视化的新的查询,诸如关于数据可视化120而被接收的查询。DV查询处置器130因此被配置为将新接收的查询编码为特征向量,即使在所接收的查询的特定内容未必或未被明确地被包括在可视化训练数据集134内时。
最后,关于图1的模型训练器128,关注模型140表示用于产生取决于所有输入状态的加权组合而不是取决于特定输入状态(例如,而不是取决于最后输入状态)的输出的机制。换言之,所有输入状态的加权组合的权重表示应当针对每个输出考虑每个输入状态的程度。在实践中,权重可以被归一化以总和为值1,以表示输入状态之上的分布。换言之,关注模型140在确定每个输入状态是否应当被认为是重要的以及在多大程度上应当被认为是重要的之前,提供用于查看整个输入状态的技术。
在操作中,可以使用CNN 136和LSTM编码器138的输出来训练关注模型140。换言之,在训练期间对关注模型140的输入可以包括可视化训练数据集134的具体数据可视化的编码的特征图,而LSTM编码器138的输出包括从涉及CNN 136的相同数据可视化的对应查询编码的特征向量。如本文中描述的,可视化训练数据集134还包括关于所考虑的数据可视化的所考虑的查询的已知答案,从而使得可以判断权重/权重值的指派,并且可以最小化关注模型140的损失函数。
当然,模型训练器128的示例应当被理解为是非限制性的,因为可以利用各种或备选类型的神经网络。例如,可以利用多个卷积神经网络,每个卷积神经网络被训练为标识一个或多个输入图像的不同图像方面。模型训练器128的其他方面在下面作为示例被提供,例如,关于图3至图5,或者对于本领域技术人员来说将是清楚的。
一旦训练已被完成,就可以部署DV查询处置器130以接收新的数据可视化和相关联的查询。在操作中,例如,DV查询处置器130可以包括利用经训练的CNN 136来处理诸如数据可视化120的输入数据可视化的DV特征图生成器142。如上所述,DV特征图生成器142因此被配置为生成表示数据可视化120的特征向量的特征图。
同时,查询特征向量生成器144可以被配置为利用由模型训练器128训练的LSTM编码器138。换言之,所接收的查询可以由查询特征向量生成器144编码为对应查询特征向量。例如,可以接收诸如“XYZ的值是什么?”的查询。
然后,答案位置生成器146可以被配置为使用经训练的关注模型140来组合表示数据可视化120的DV特征图生成器142的特征图以及由查询特征向量生成器144生成的查询特征向量,以由此预测数据可视化120内最有可能找到对编码的查询特征向量的答案的一个或多个像素位置。更特别地,如下面更详细地描述的,例如,关于图3,关注图生成器148可以被配置为提供针对关注图生成器148而被提供的关注权重分布,用于与由DV特征图生成器142产生的特征图相乘,以由此使得特征权重生成器150能够关于所接收的查询、针对数据可视化120生成关注加权的特征图。然后可以处理所得到的关注加权的特征图,以确定用于数据可视化120的单个代表性特征向量,其中这一所得到的DV特征向量可以使用答案向量生成器152与查询特征向量生成器144的查询特征向量被组合,以由此生成对应答案向量。
作为结果,答案生成器154可以接收所生成的答案向量,并且可以继续利用一个或多个预测的答案位置,以由此输出期望的答案。具体而言,例如,答案生成器154可以包括边界生成器156,边界生成器156被配置为确定预测会发生答案的特定位置和数目的像素周围的边界。例如,在图1的示例中,标签XYZ周围的边界157可以由边界生成器156确定。
在一些示例中,边界157可以表示由***100在内部使用的、数据可视化120内的位置的隐式或背景标识。在其他示例实现方式中,答案生成器154的视图生成器158可以被配置为明确地示出在数据可视化120内的标签XYZ周围的视觉边界(例如,矩形框)。
类似地,视图生成器158可以被配置为绘制被覆盖在数据可视化120之上的各种其他类型的元素,以便传达期望的答案。例如,如所示,如果接收的查询是“哪个条具有值3?”,则边界生成器156和视图生成器158可以被配置为绘制并且绘出可见的矩形框作为边界157。在另一示例中,如果查询是“XYZ的值是什么?”,则边界生成器156和视图生成器158可以被配置为绘出虚线159,虚线159示出与标签XYZ对应的条124的水平等于值3。
当然,取决于***100的特定实现方式的上下文,向用户设备112的用户提供答案或潜在答案的方式可以显著地变化。例如,向搜索应用提交查询的用户可以接收到包含包括期望的答案的数据可视化的文档的链接,可能具有(多个)链接的文档内的各个数据可视化的一些标识。在其他示例实现方式中,诸如当用户在单个文档116内搜索时,所确定的答案可以简单地作为文本输出而被提供,例如,与在查询栏118附近被显示的答案栏相结合地被提供。用于提供答案的其他技术被提供作为下面描述的示例实现方式,或者对于本领域技术人员来说将是清楚的。
在下面更详细地描述(例如,关于图9)的答案生成器154的其他示例方面中,源数据生成器160可以被配置为捕获作为诸如数据可视化120的任何特定数据可视化的基础的数据的全部或指定部分。也就是说,如上所述,用于创作或创建特定数据可视化的正常过程是使用被配备为生成数据可视化的很多可用软件应用(诸如Excel、MatLab或很多其他电子表格或计算软件应用)之一来编译或收集数据,并且然后利用具体软件应用的特征来配置和绘出期望的数据可视化。如本文中描述的,这样的软件应用通常在图像文件的上下文中绘出所得到的数据可视化,从而使得原始源数据仅间接地可获取,例如通过对所生成的数据可视化的视觉观察。
使用***100,源数据生成器160可以针对数据可视化120应用查询的结构化集合,以由此递增地获取并且确定从其生成数据可视化120的源数据。一旦已经确定了这一源数据,就可以将源数据用于相关类型的数据的任何常规或未来使用,它的一些示例在下面被提供。例如,用户设备112的用户可以将数据可视化120从条形图格式转换为任何其他合适的或可用的类型或格式的数据可视化。例如,用户可以简单地选择或指明数据可视化120,并且然后请求将数据可视化120(条形图)重新绘出为饼图。
在各种实现方式中,应用108可以使用或利用可以在应用108内部或外部被实现的多个可用工具或资源。例如,在图1中,可以由答案生成器154利用光学字符识别(OCR)工具162来帮助生成所确定的答案。例如,如上所述,诸如“哪个条的值为3?”的查询可以在数据可视化120的示例中具有答案XYZ。答案生成器154被配置为使用由答案位置生成器146提供的答案向量并且可能结合边界生成器156来预测数据可视化120内发生答案XYZ的位置。
然而,在图1的示例中,如所描述的,答案位置包括数据可视化120的图像内的多个标识的像素,而不是标签的实际(例如,可编辑的)文本本身。因此,应当领会到,OCR工具162可以被用于在边界157内执行定向光学字符识别,以由此输出文本XYZ作为对它们的接收的查询的答案。
在***100的其他示例方面中,源数据查询的汇集164可以被预先存储在可用存储器中。以这种方式,源数据生成器160可以利用存储的源数据查询164中的所选择的/适当的源数据查询来分析具体的对应类型的数据可视化,并且由此输出针对所检查的数据可视化的结果源数据166。例如,应用108可以被配置为搜索多种类型的数据可视化,诸如条形图和饼图。因此,源数据查询164可以包括被专门设计用于恢复条形图的源数据的第一组源数据查询。源数据查询164还可以包括被专门设计用于恢复饼图类型的数据可视化的源数据的第二组源数据查询。
同样,在图1的示例中,类似于OCR工具162,可视化生成器168表示用于利用源数据166从其生成新的或经修改的数据可视化的合适的软件应用。例如,如在上面引用的实现方式中,数据可视化120最初可以被视为所示的条形图,并且响应于用户请求,源数据生成器160可以应用来自源数据查询164的一组合适的源数据查询,以由此在源数据166内恢复观察到的条形图的源数据。此后,诸如Excel、MatLab或其他合适的软件应用或它们的部分的可视化生成器168可以被配置为绘出来自源数据166的恢复的源数据作为饼图。
在图1的示例中,当接收数据可视化时,诸如在DV特征图生成器142处接收数据可视化120,OCR工具162(或类似的OCR工具)可以被用来预先确定数据可视化120内的所有文本(例如,文本的列表)、以及它们的相应的位置,包括但不限于条形标签、数字、轴标签、标题和图例中的信息。用于每个文本项的位置可以使用包含文本项的边界矩形而被定义,诸如本文中关于边界157而被描述的。
因此,对***100的(多个)神经网络或对作为整体的***100的输入可以包括从数据可视化中存在的这样的文本项的列表得出的输入。以这种方式,例如,通过更早地提供OCR输出,所得到的文本项可以被用来促进、增强或验证期望的答案。例如,当答案位置生成器146或答案生成器154操作以输出预测的答案位置和/或答案时,可以将结果与先前确定的文本项比较。此外,一旦预测了答案位置,先前标识的文本项的相关文本项就可以被标识和输出作为期望的答案。
图2是示出图1的***100的示例操作的流程图200。在图2的示例中,操作202至212被示出为分离的、顺序的操作。然而,应当领会到,在各种实现方式中,可以包括附加或备选的操作或子操作,和/或可以省略一个或多个操作或子操作。此外,可以发生以下情况:任何两个或更多个操作或子操作可以按照部分或完全重叠或并行方式被执行,或者以嵌套、迭代、循环或分支方式被执行。
在图2的示例中,数据可视化(DV)被标识(202)。例如,图1的DV特征图生成器142包可以标识数据可视化120。如所描述的,DV特征图生成器142可以响应于用户对其的选择而具体地标识数据可视化120,或者可以在搜索被包括在一个或多个文档或其他类型的内容文件内的多个数据可视化的上下文中标识数据可视化120。还如上所述,所标识的数据可视化可以被包括在单独的图像文件中,或者被包括在被嵌入在任何其他类型的文件(包括文本、图像或视频文件)内或被包括在其中的图像文件中。
可以生成表征数据可视化的DV特征图,包括维持数据可视化在DV特征图内的映射的特征与数据可视化的对应特征的空间关系的对应性(204)。例如,DV特征图生成器142可以执行经训练的CNN 136以生成所引用的特征图。如上所述,其可以被训练以在数据可视化120之上应用一组过滤器以获取一起形成用于数据可视化120的图像的特征图的特征向量的汇集。使用例如下面参考图3更详细地被描述的技术,经训练的CNN 136可以被配置为输出具有所包括的特征向量的特征图,这些特征向量具有与原始图像对应的空间位置和取向。
针对被包括在数据可视化内的答案的查询可以被标识(206)。例如,如本文中描述的,这样的查询可以通过结合文档116或结合被配置为跨多个文档进行搜索的搜索应用而被绘出的查询栏118而被接收。
查询可以被编码为查询特征向量(208)。例如,查询特征向量生成器144可以被配置为实现经训练的LSTM编码器138以输出所接收的查询的编码的版本作为所描述的查询特征向量。
数据可视化内的至少一个答案位置的预测可以基于DV特征图和查询特征向量而被生成(210)。例如,答案位置生成器146可以被配置为实现经训练的关注模型140,包括输入DV特征图生成器142和查询特征向量生成器144的输出。因此,通过结合DV特征图考虑查询特征向量,答案位置生成器146可以确定数据可视化120的原始图像内可以确定或推导出期望的答案的一个或多个像素位置。
因此,答案可以从至少一个答案位置而被确定(212)。例如,图1的答案生成器154可以输出或标识数据可视化120的图像内可以找到答案的一个或多个图像部分,包括在一些实现方式中,绘出与数据可视化120重叠的附加视觉元素(例如,边界157或值线159)。在其他示例中,答案生成器154可以可能使用OCR工具162输出从预测的答案位置内读取的答案文本,以便提供答案。
图3是示出图1的***100的更详细的示例实现方式的框图。如所示,数据可视化(例如,条形图)的输入图像302通过经训练的CNN 304以产生所得到的特征图306,如上所述。在图3的具体示例中,上述至少一个CNN过滤器可以在输入图像302之上被卷积,从而使得在14×14网格中的每个位置处标识特征向量,例如,512个维特征向量。换言之,在每个这样的位置处,获取图像302的编码,其捕获该位置处的图像的所包括的内容的相关方面。
在传统的CNN方式中,可以丢失或减少关于数字图像的不同图像区域的空间信息。在图3的示例中,仅使用VGG-16网络的卷积层对数字图像302进行编码。所得到的特征图306因此具有尺寸512×14×14,其对应于原始输入图像302的定义的尺寸,并且保留了来自原始输入图像302的空间信息,如下面更详细地描述的。例如,如由箭头308所示,输入图像302的右上部分直接对应于特征图306的右上部分。
更详细地,一些CNN包含丢失所有空间信息的完全连接层。在图3的示例中,使用卷积层和池化层,其中池化层通常是指在被用来减小表示的空间大小(例如,减少网络中所需要的参数/计算)的连续卷积层之间中被使用的层。这样的方式保持至少一部分空间信息(例如,一些空间信息可能减少)。在译码期间,解池化层可以被用来偏移或恢复在上述类型的过程期间被丢失的任何空间分辨率中的至少一些空间分辨率。
进一步在图3中,被示出为样本查询“哪个国家具有最高GDP?”的输入问题310可以被编码为问题特征化312的过程的一部分。例如,如上面关于图1而被描述的,可以使用经训练的LSTM模型来执行问题特征化312以对输入问题310编码。
随后,可以将特征图306和对输入问题310编码的查询特征向量输入到关注预测过程314。在概念上讲,关注预测314输出表示应当关注输入图像302内的何处以确定对输入问题310的答案的关注图316。也就是说,如图3中所示,关注图316包括关注图316的指定位置处的关注权重的分布。例如,如上所述,可以向关注权重分布的每个关注权重指派在0到1之间的值,以便获取跨这一值范围的标准化分布。同时,特征图306的每个位置表示对输入图像302的位置进行表示的特征向量。然后,通过在乘法过程318期间将关注图316与特征图306相乘,可以高效地将关注图316的关注加权的分布应用于特征图306的特征向量中的每个特征向量。
例如,参考由箭头308指定的输入图像302和特征图306的位置,可以发生以下情况:对应特征向量被指派关注权重值0,从而使得关注加权的特征的所得到的图320关于当前查询/答案对在该位置的值(重要性)为0。因此,预测在该位置找不到答案。另一方面,如果从关注图316的关注加权的分布向对特征向量的引用指派权重1,则图320内与其对应的关注加权的特征将非常可能包括与预测的答案有关的信息。
最后,关于图图3,可以生成图像322,其示出了原始输入图像302的各种图像区域关于输入问题310的相对重要性水平。例如,这样的图像可以被显式地绘出,如下面在图7的示例的上下文中所示。在其他示例中,不需要针对用户显式地生成和绘出图像322,而是可以由应用108简单地使用图像322来生成所请求的答案。
图4是示出图1和图3的***的更详细的示例实现方式的流程图400。在图4的示例中,合成数据集被生成(402)。例如,可视化生成器126可以接收例如经由参数处置器132而被接收的必要参数,并且此后可以生成可视化训练数据集134。如上所述,在参数处置器132处接收的必要参数可以取决于各种因素而变化。例如,如上所述,不同类型的数据可视化或不同类型的期望的查询可能需要不同的参数。参数可以被用来将期望的范围或值的生成参数化,包括随机数生成器和随机单词生成器。
然后,合成数据集(例如,可视化训练数据集134)可以被用来训练期望的神经网络模型,包括例如CNN、LSTM和关注模型(404)。例如,模型训练器128可以被用于训练模型136、138和140。
随后,数据可视化和查询可以被接收(406)。例如,可以直接从用户或者间接地通过搜索应用接收新的数据可视化。在一些实现方式中,搜索过程可以被配置为进行关于生成可视化训练数据集134的类型的数据可视化的存在或包括的初始确定。例如,这样的配置的搜索应用可以执行所搜索的文档的扫描,以便在诸如其中关于条形图来生成可视化训练数据集134的图1的场景中确定至少一个条形图的存在或包括。在这方面,可以使用各种技术。例如,文本搜索可以包括针对单词条形图、条形图等的搜索。在其他示例实现方式中,可以执行初始图像识别过程以标识相关类型的数据可视化的易于识别的特征,诸如可以被包括在条形图内的垂直轴。
随后,DV特征图可以从数据可视化而被生成,DV特征图包括DV特征向量的阵列(408)。例如,可以利用图1的DV特征图生成器142和/或图3的CNN 304中的卷积层,以便获取例如特征图306。
查询特征向量可以被生成(410)。例如,查询特征生成器144和/或问题特征化过程312可以被用于获取例如输入问题310的对应查询特征向量。
关注图然后可以从DV特征图和查询特征向量而被生成(412)。例如,关注图生成器148和/或关注预测过程314可以被用于生成关注图,诸如图3的关注图316。如上所述并且关于图3而被说明的,关注图316包括标准化关注权重的分布,每个关注权重被指派给关注图的特定位置。
因此,关注图可以被与DV特征图相乘以获取加权的DV特征向量(414)。例如,特征权重生成器150可以被用于执行图3的乘法过程318,以获取用于特征图306的特征向量的关注加权的特征向量的图320。
此外,在图4的示例中,加权的DV特征向量可以经历加权平均以获取复合DV特征向量(416)。通过针对特征向量的加权的分布生成这样的复合DV特征向量,将复合DV特征向量与原始查询特征向量连结变得直接,以由此获取被用于答案位置的预测的联合特征/查询表示(418)。
例如,在上面针对图3给出的示例中,其中特征图306具有尺寸512×14×14,尺寸512×14×14(可以被重写为196×512)的所得到的向量保留了空间信息,从而使得具有尺寸512的这196个向量中的每个向量来自图像的具体部分,并且因此保留了输入图像中的空间信息。为了如刚刚关于图4而被描述的那样创建单个向量,可以使用总和为1.0的196个不同的数字来预测针对196个区域中的每个区域的相对重要性。例如,如果对于给定的问题和图像,只有(假定的)区域10是重要的,则复合向量在该位置的值将为1.0,而在其他地方的值将为0。在这种情况中,所得到的单个向量只是早先的196*512维向量的第10个向量的副本。如果确定第九个位置是70%重要而第八个位置是30%重要,则所得到的单个向量将被计算为(0.7*第9个向量+0.3*第8个向量)。图5是图1和图3的***的备选实现方式的框图。在图1和图3的示例中,最终预测一个或多个答案位置。如关于图1而被描述的,答案生成器154可以被配置为利用预测的答案位置以从其提取期望的答案。例如,边界生成器156可以被配置为标识预测的答案位置周围的边界,于是OCR工具162可以被用来简单地从预测的位置读取期望的答案。
在图5的示例中,可以包括对这种类型的边界框预测的进一步细化步骤,以便针对条形图提供端到端的问题/答案过程,而不依赖于OCR工具162的可用性。例如,图5的***500可以被配置为堆预测的答案位置内的信息译码以提供期望的答案。例如,答案可以一次一个字符地被译码,或者,在诸如“是”或“否”等共同答案的情况中,答案可以被译码为单个标识的标记(token)。
此外,数据可视化502的输入图像被接收。在图5的示例中,***500还对输入问题504(被示出为随机样本问题“澳大利亚哪几个月最热?”)进行输入。
如已经被描述的,查询504可以作为问题编码器506处的问题编码过程的一部分而被处理,而输入图像502可以通过经训练的CNN 508的卷积层而被处理。以上关于图1至图4而被描述的关注预测510的各种类型和方面可以使用问题编码器506和经训练的CNN 508的输出而被实现,以便获取预测的粗略位置512。
换言之,粗略位置512表示在期望的答案位置处的相对较高级别或第一通过预测。随后,问题编码器506还可以将编码的问题(例如,查询特征向量)输出给细化层514,细化层514输出更精细的位置516。
在图5的示例中,假定用于文本识别的CNN 518已经由模型训练器128训练,作为利用可视化训练数据集134的训练过程的一部分。所得到的文本识别过程可以由RNN译码器520使用由问题编码器506提供的原始查询特征向量进一步细化。
在图5中,输出522表示RNN译码器520的输出。例如,对于特定标签(例如,“USA”),RNN将针对标签的可能位置在图像中的每个位置处进行预测。然而,这些位置可以彼此非常靠近地被隔开,从而使得例如几个位置可以在相同的字母上。因此,在该示例中,输出可以是多个“U”,然后是几个“S”,依此类推。输出522表示输出的返回,然后是转换为新的字母(由522中的(多个)短划线表示)。例如,输出可以是“UUU-SS-AAAA”,以传送“USA”,一般性地在图5中被示出为“xx-xx-xx-xxxx”。
进一步在图5中,元素524、526、528是示例损失函数,其可以在训练期间被用来确定答案是否已经被正确地预测。例如,524可以表示最小二乘(L2)损失,并且由此将粗略位置512与“基础事实”位置比较。也就是说,在图像中的每个像素处,粗略位置预测将针对匹配基础事实位置而被测试。对于526,将遵循类似的过程,但是使用精细的位置516。CTC损失528表示针对单词而被设计的损失,以查看单词中的字符是否正确,诸如来自输出522。在粗略位置、精细位置或RNN输出中发生的任何错误将揭示在相应的损失函数中,其然后可以被组合成单个损失530。单个损失530然后可以被用来纠正在神经网络中发生的任何错误。
图6是可以被生成并且被包括在可视化训练数据集134内的示例条形图。如所示,图6的示例条形图包括条602、条604、条606和条608。条602至608中的每个与对应的相应的标签610、612、614和616相关联。如上所述,并且如图6的示例中所示,各种标签610至616可以被随机地生成,并且不需要具体考虑所使用的术语的任何语义或上下文含义。
因此,标签610被示出为单词“elod”,标签612被示出为单词“roam”,标签614被示出为单词“yawl”,并且616被示出为单词“does”。在该示例中,结合所示出的示例查询,即,“最大的条是什么?”,以及正确的答案,即,“elod”的标签610,图6的条形图可以被包括在可视化训练数据集134中。如再次可被观察到的,图示的条形图、示例问题和对应答案都是内部一致的,并且由此基于图6的示例出于训练的目的而提供合适的基础事实答案,即使标签“elod”是无意义的单词。
此外,可以生成边界框618以预测正确答案作为训练过程的一部分,从而使得训练过程可以评估其适当的大小。例如,生成的边界框618必须足够大以确保捕获整个标签610,而不会大到包括其他文本或内容。
因此,图6示出了比较或推理类型的问题/答案的示例,诸如确定最大包括的条。当然,可以利用类似类型的比较/推理问题,诸如与找到最小的条相关的问题、或者单个条相对于另一单个条的比较(例如,第二个条是否大于或小于第四个条)。
在这些和类似的示例中,可以提供答案作为单独的标签中的一个或多个单独的标签(例如,标签610至616中的一个),或者可以关于诸如这样的条的标识来提供答案,诸如使用“第二个条”作为有效答案。更一般地,可以使用与所接收的查询的形式对应的任何合适的格式来回答问题。例如,在类似的上下文中,可以向刚刚引用的各种类型的查询提供是/否答案,诸如当查询被提出作为“第一个条是最高条?”时。
还可以考虑与辨别特定条形图的结构有关的结构问题。例如,这样的结构问题可能包括“那里有多少条?”或“每个标签包括多少个条?”(例如,在其中可以针对每个标签包括多个条的示例训练数据集中,如所示和以下关于图8而被描述的)。
如上面关于图1而被参考和说明的,可以回答具体的基于值的问题,诸如“最高条的值是什么?”,如图1中关于值线159所示,其示出了第二个条124的值等于3。在各种实现方式中,被用于训练的条形图可以包括用于值的预定范围的整数,从而使得用于标识这样的值的训练可以使用固定数目的答案类结合由模型训练器128训练以给出针对每个标签/值的概率的软最大分类器模型而被实现。
在附加或备选实现方式中,以及在很多现实世界应用中,条形图的值范围可以包括连续范围的值而不是一组离散的预定值。在这样的场景中,可以使用模型训练器128来训练模型,模型训练器128针对具体条的实际值直接回归,而不是依赖于一组预定的值答案。
图7示出了用于输入数据可视化图像的关注加权的特征向量的示例。在图7的简化示例中,条形图被示出为具有条702、条704和条706。如可以被观察到的,第二个条704是3个中最大的。因此,对于问题“第二个条大于第个三条?”,图示的关注加权的特征将导致区域708、710和712被标识。如可以被观察到的,所标识的答案位置708、712是相关的,因为它们标识针对在对应值范围处的条702、706的条值的缺失,而区域710是相关的用于标识条704确实包括与回答接收到的问题相关的值范围内的值。
尽管图7示出了关注图的一个非限制性示例,诸如当可能的答案位置被突出显示时。然而,应当领会到,可以使用其他技术来预测数据可视化内的答案位置。例如,可以直接得出答案位置,例如,作为xy坐标,而不显式地生成关注图。在其他示例中,可以使用(多/一)组矩形或其他适当形状来预测和说明答案位置。
图8提供了可以在可视化训练数据集134中被使用并且可以使用DV查询处置器130来回答其问题的另一示例条形图。如图8中所示,并且在上面关于图6而被参考的,图8的示例包括成组的条形802、804、806和808,从而使得每组条对应于单个标签。例如,每个组的每个条可以表示三个国家、公司或其他类型的实体中的一个,并且每个标签可以标识三个实体中的每个实体的特定特性。以这种方式,例如,关于诸如雇员的数目、年度总收入或其他特性的标签,可以相对于彼此来考虑三家公司。
所有以上描述都与图8的示例条形图的使用相关,其中图8进一步示出了可以利用很多不同类型的数据可视化,并且可以容易地生成很多不同类型的数据可视化以包括在可视化训练数据集内。例如,可以被观察到,对于图8的条形图的类型,可以包括诸如“每个标签有多少个组?”的问题,即使这样的问题关于其他类型的数据可视化可能毫无意义或无用。
图9示出了图1的源数据生成器160以及相关联的源数据查询164和源数据166的示例实现方式。如已经关于此而被描述的,图1的***100可以被配置为使用预先构造的源数据查询164来分析数据可视化901并且恢复它的基础数据(在图9中被示出为源数据902)。具体而言,如所示,所示出的数据可视化901包括其中条904、906、908分别与标签910、912和914相关联的条形图。响应于针对源数据902的请求,可以应用源数据查询164的查询。例如,源数据查询可以包括结构查询(916),诸如那里有多少条?。当然,如上所述,这样的结构问题可以基于其与正被考虑的数据可视化901的类型的不相关而被确定。例如,在饼图的上下文中的类似问题可以包括“包括多少个切片?”
随后,可以应用各种适当的值和标签问题。例如,已经确定作为操作916的结构化相关查询的结果而存在三个条,可以针对标识的条中的每个标识的条应用值和标签问题的配对。例如,可以向第一条应用值问题918“第一个条的值是什么?”,而可以应用标签问题920“第一个条的标签是什么?”。类似的值问题922和标签问题924可以被应用于第二个条,而最终的值问题926和标签问题928可以被应用于第三个条。因此,可以被观察到,源数据生成器160可以被配置为利用从一个或多个结构问题916确定的信息,以然后继续捕获必要的值和标签内容。
作为结果,在图9中,可以构造源数据902,包括构造其中各种标签910、912、914被包括在名称列930的对应行中的数据表。类似地,条904、906、908的值被包括在位于值列932内的相同的行中的适当的行中。因此,如上所述,所得到的源数据902因此可以被用于与格式化的数据表相关联的任何期望或合适的目的,包括例如执行数据分析、文本搜索以及任何具体数据可视化的生成。
因此,图1至图9的***和方法不需要用于利用输出答案来标识和分类视觉元素;例如,不需要用于在一组预定答案内对最高/最佳的“K”个答案分类。作为替代,图1至图9的***和方法被配置为解决不具有静态含义而是具有可能仅在特定数据可视化的上下文中有效的本地含义的标签的问题。使用所描述的技术,可以在正被检查的整个特定数据可视化的上下文中找到并且最终解释标签或其他答案的位置。这些和其他特征被获取,即使正被考虑的数据可视化的类型包含通常不能使用已知类型的自然图像处理而被检查的稀疏图像数据,这些已知类型的自然图像处理依赖于在照片中自然发生的统计上有意义的模式(例如,天空将包含太阳或月亮的可能性、或者汽车的图像很可能包括道路的图像但不太可能包含鲸鱼的图像的可能性)。
本文中描述的各种技术的实现方式可以在数字电子电路中被实现,或者在计算机硬件、固件、软件或它们的组合中被实现。实现方式可以被实现为计算机程序产品,即,被有形地体现在信息载体中的计算机程序,例如,在机器可读存储设备中,计算机程序产品用于由数据处理装置执行或控制数据处理装置的操作,数据处理装置例如为可编程处理器、计算机或多台计算机。诸如上述(多个)计算机程序的计算机程序可以按照任何形式的编程语言而被编写,包括编译或解释语言,并且可以按照任何形式而被部署,包括作为独立程序或作为模块、组件、子例程或适用于计算环境中的使用的其他单元。可以部署计算机程序以在一个计算机上被执行,或者在位于一个站点处或跨多个站点而被分布并且通过通信网络而被互连的多个计算机上倍执行。
方法步骤可以由执行计算机程序以通过对输入数据进行操作并且生成输出来执行功能的一个或多个可编程处理器执行。方法步骤也可以由专用逻辑电路执行,并且装置可以实现为专用逻辑电路,专用逻辑电路例如为FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
举例来说,适合于计算机程序的执行的处理器包括通用和专用微处理器、以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的元件可以包括用于执行指令的至少一个处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还可以包括用于存储数据的一个或多个大容量存储设备,或者被可操作地耦合以从用于存储数据的一个或多个大容量存储设备接收数据或向其传送数据,或者这两者,大容量存储设备例如为磁盘、磁光盘或光盘。适于体现计算机程序指令和数据的信息载体包括所有形式的非易失性存储器,包括例如半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如,内部硬盘或可移除磁盘;磁光盘;以及CD-ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或被并入专用逻辑电路中。
为了提供与用户的交互,实现方式可以在具有用于向用户显示信息的显示设备(例如,阴极射线管(CRT)或液晶显示器(LCD)监视器)以及用户可以通过其向计算机提供输入的键盘和指点设备(例如,鼠标或轨迹球)的计算机上被实现。其他种类的设备也可以被用来提供与用户的交互;例如,被提供给用户的反馈可以是任何形式的感觉反馈,例如视,觉反馈、听觉反馈或触觉反馈;并且来自用户的输入可以按照任何形式而被接收,包括声学、语音或触觉输入。
实现方式可以在包括后端组件(例如,作为数据服务器)或者包括中间件组件(例如,应用服务器)或者包括具有用户可以通过其与实现方式交互的图形用户界面或web浏览器的前端组件(例如,客户端计算机)或者这样的后端、中间件或前端组件的任何组合的计算***中被实现。组件可以通过任何形式或介质的数字数据通信(例如,通信网络)而被互连。通信网络的示例包括局域网(LAN)和广域网(WAN),例如,因特网。
虽然已经如本文所述示出了所描述的实现方式的某些特征,但是本领域技术人员现在将能够想到很多修改、替换、改变和等同物。因此,应当理解,所附权利要求旨在覆盖落入实施例的范围内的所有这样的修改和变化。

Claims (20)

1.一种计算机程序产品,所述计算机程序产品被有形地体现在非暂态计算机可读存储介质上并且包括指令,所述指令在由至少一个计算设备执行时,被配置为使得所述至少一个计算设备:
标识数据可视化(DV);
生成表征所述数据可视化的DV特征图,包括维持所述数据可视化在所述DV特征图内的映射的特征与所述数据可视化的对应特征的空间关系的对应性;
标识针对被包括在所述数据可视化内的答案的查询;
将所述查询编码为查询特征向量;
基于所述DV特征图和所述查询特征向量,来生成所述数据可视化内的至少一个答案位置的预测;以及
从所述至少一个答案位置确定所述答案。
2.根据权利要求1所述的计算机程序产品,其中所述指令在被执行时,还被配置为使得所述至少一个计算设备:
在具有至少一个嵌入式图像文件的至少一个文档的基于计算机的搜索期间标识被包括在图像文件内的所述数据可视化,所述至少一个嵌入式图像文件包括所述图像文件。
3.根据权利要求1所述的计算机程序产品,其中所述数据可视化包括被可视地布置为表示源数据并且从源数据生成的至少一个视觉元素以及相关联的值和标签。
4.根据权利要求1所述的计算机程序产品,其中所述指令在被执行以生成所述DV特征图时,还被配置为使得所述至少一个计算设备:
将包含所述数据可视化的图像文件输入到使用数据可视化和相关联的查询/答案对的数据集而被训练的卷积神经网络。
5.根据权利要求1所述的计算机程序产品,其中所述指令在被执行以对所述查询编码时,还被配置为使得所述至少一个计算设备:
将所述查询输入到使用查询/答案对的数据集而被训练的长短期记忆模型。
6.根据权利要求1所述的计算机程序产品,其中所述指令在被执行以生成所述预测时,还被配置为使得所述至少一个计算设备:
使用被分布在所述DV特征图之上的关注权重的关注权重分布来生成关注图,所述关注权重具有基于所述查询特征向量与每个关注权重的相关性和所述DV特征图的对应位置而被设置的权重值。
7.根据权利要求6所述的计算机程序产品,其中所述指令在被执行以生成所述关注图时,还被配置为使得所述至少一个计算设备:
生成关注加权的特征图,包括将所述关注权重分布的每个关注权重值与所述DV特征图的对应DV特征向量相乘,以获取加权的DV特征向量的阵列。
8.根据权利要求7所述的计算机程序产品,其中所述指令在被执行以生成所述关注图时,还被配置为使得所述至少一个计算设备:
从加权的DV特征向量的所述阵列生成复合DV特征向量;
将所述复合DV特征向量与所述查询特征向量连结,以获取联合查询/答案特征向量;以及
从所述联合查询/答案特征向量确定所述答案位置。
9.根据权利要求1所述的计算机程序产品,其中所述指令在被执行以确定所述答案时,还被配置为使得所述至少一个计算设备:
在所述至少一个答案位置内执行光学字符识别(OCR)以提供所述答案作为答案文本。
10.根据权利要求1所述的计算机程序产品,其中所述指令在被执行以确定所述答案时,还被配置为使得所述至少一个计算设备:
针对所述DV特征图应用一组源数据查询,所述一组源数据查询包括所述至少一个查询;以及
基于从所述源数据查询的所述应用获取的答案,来生成从其创建所述数据可视化的源数据。
11.根据权利要求10所述的计算机程序产品,其中所述指令在被执行以确定所述答案时,还被配置为使得所述至少一个计算设备:
基于生成的所述源数据,来生成新的数据可视化。
12.根据权利要求1所述的计算机程序产品,其中所述指令在被执行以确定所述答案时,还被配置为使得所述至少一个计算设备:
绘出在所述数据可视化的绘出内、并且被定位为在视觉上标识所述答案位置处的所述答案的重叠图像。
13.一种计算机实现的方法,所述方法包括:
接收针对数据可视化(DV)的查询;
将所述查询编码为查询特征向量;
生成表征所述数据可视化的至少一个空间区域的DV特征图;
基于所述数据可视化的所述至少一个空间区域和所述查询特征向量的组合,来生成所述至少一个空间区域内的至少一个答案位置的预测;以及
从所述至少一个答案位置确定对所述查询的答案。
14.根据权利要求13所述的方法,其中所述DV特征图包括与所述至少一个空间区域内的多个位置中的每个位置对应的DV特征向量的阵列,并且其中生成所述关注图包括:
向所述DV特征向量应用关注权重的加权的分布,其中对于每个DV特征向量,所述多个位置的中的对应位置与指示将所述***括在其中的相对可能性的权重相关联。
15.根据权利要求13所述的方法,包括:
将包含所述数据可视化的图像文件输入到使用数据可视化和相关联的查询/答案对的数据集而被训练的卷积神经网络;以及
将所述查询输入到使用查询/答案对的数据集而被训练的长短期记忆模型。
16.根据权利要求13所述的方法,包括:
在所述至少一个答案位置内执行光学字符识别(OCR)以提供所述答案作为答案文本。
17.一种***,包括:
至少一个存储器,其包括指令;以及
至少一个处理器,其被可操作地耦合到所述至少一个存储器并且被布置和配置为执行指令,所述指令在被执行时,使得所述至少一个处理器:
生成可视化训练数据集,所述可视化训练数据集包括多个训练数据可视化和可视化参数、以及用于所述多个训练数据可视化的查询/答案对;
训练特征图生成器以生成所述训练数据可视化中的每个训练数据可视化的特征图;
训练查询特征向量生成器以生成所述查询/答案对中的查询中的每个查询的查询特征向量;
训练答案位置生成器以基于经训练的所述特征图生成器的输出和经训练的所述查询特征向量来生成针对所述查询/答案对中的对应查询的答案的所述训练数据可视化中的每个训练数据可视化内的答案位置;
将新的数据可视化和新的查询输入到经训练的所述特征图生成器和经训练的所述查询特征向量中以获取新的特征图和新的查询特征向量;以及
基于所述新的特征图和所述新的查询特征向量,来针对所述新的查询生成所述新的数据可视化内的新的答案位置。
18.根据权利要求17所述的***,其中所述答案位置生成器包括关注图,所述关注图向所述训练数据可视化中的每个训练数据可视化的每个特征图指派多个关注权重,每个关注权重被指派给对应特征图的空间位置并且指示每个空间位置包括所述答案位置的相对可能性。
19.根据权利要求17所述的***,其中所述***还被配置为:
综合地生成所述可视化训练数据集。
20.根据权利要求17所述的***,其中所述***还被配置为:
针对所述新的特征图应用一组源数据查询,所述新的查询;以及基于从所述源数据查询的所述应用获取的答案,来生成从其创建所述数据可视化的源数据。
CN201811172058.9A 2017-12-22 2018-10-09 用于数据可视化的问题回答 Pending CN109960734A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/852,506 2017-12-22
US15/852,506 US10754851B2 (en) 2017-12-22 2017-12-22 Question answering for data visualizations

Publications (1)

Publication Number Publication Date
CN109960734A true CN109960734A (zh) 2019-07-02

Family

ID=64453668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811172058.9A Pending CN109960734A (zh) 2017-12-22 2018-10-09 用于数据可视化的问题回答

Country Status (5)

Country Link
US (1) US10754851B2 (zh)
CN (1) CN109960734A (zh)
AU (1) AU2018247340B2 (zh)
DE (1) DE102018007936A1 (zh)
GB (1) GB2569848B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543877A (zh) * 2019-09-04 2019-12-06 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置和电子***

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726252B2 (en) * 2017-05-17 2020-07-28 Tab2Ex Llc Method of digitizing and extracting meaning from graphic objects
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、***和存储介质
US11132180B2 (en) * 2018-01-05 2021-09-28 Microsoft Technology Licensing, Llc Neural-guided deductive search for program synthesis
US11157564B2 (en) * 2018-03-02 2021-10-26 Thoughtspot, Inc. Natural language question answering systems
US11017222B2 (en) 2018-03-05 2021-05-25 Shutterfly Llc Automated communication design construction system
US10503972B2 (en) 2018-03-05 2019-12-10 Shutterfly, Llc Automated communication design construction system
US11600194B2 (en) * 2018-05-18 2023-03-07 Salesforce.Com, Inc. Multitask learning as question answering
US11328203B2 (en) * 2018-07-30 2022-05-10 Salesforce.Com, Inc. Capturing organization specificities with embeddings in a model for a multi-tenant database system
CN111089388A (zh) * 2018-10-18 2020-05-01 珠海格力电器股份有限公司 控制空调的方法及***、空调器、家用电器
US20220019834A1 (en) * 2018-11-15 2022-01-20 Element Ai Inc. Automatically predicting text in images
US11030255B1 (en) * 2019-04-01 2021-06-08 Tableau Software, LLC Methods and systems for inferring intent and utilizing context for natural language expressions to generate data visualizations in a data visualization interface
CN110188176B (zh) * 2019-04-30 2022-12-23 深圳大学 深度学习神经网络及训练、预测方法、***、设备、介质
US11721335B2 (en) * 2019-07-01 2023-08-08 Koninklijke Philips N.V. Hierarchical self-attention for machine comprehension
US11288324B2 (en) * 2020-01-22 2022-03-29 Adobe Inc. Chart question answering
US11556573B2 (en) * 2020-05-29 2023-01-17 Adobe Inc. Semantic cluster formation in deep learning intelligent assistants
CN111782839B (zh) * 2020-06-30 2023-08-22 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
US11995111B2 (en) * 2020-11-13 2024-05-28 Tencent America LLC Efficient and compact text matching system for sentence pairs
CN112541335B (zh) * 2020-12-24 2023-09-01 北京百度网讯科技有限公司 生成解读文本的方法、装置、电子设备及存储介质
US11531664B2 (en) * 2021-01-06 2022-12-20 Google Llc Stand in tables
US11704312B2 (en) * 2021-08-19 2023-07-18 Microsoft Technology Licensing, Llc Conjunctive filtering with embedding models
US20230153531A1 (en) * 2021-11-17 2023-05-18 Adobe Inc. Enhanced document visual question answering system via hierarchical attention
CN114416914B (zh) * 2022-03-30 2022-07-08 中建电子商务有限责任公司 一种基于图片问答的处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063623A (zh) * 2010-12-28 2011-05-18 中南大学 一种结合自底向上和自顶向下的图像感兴趣区域提取方法
CN104471568A (zh) * 2012-07-02 2015-03-25 微软公司 对自然语言问题的基于学习的处理
CN106127749A (zh) * 2016-06-16 2016-11-16 华南理工大学 基于视觉注意机制的目标零件识别方法
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的***和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10445317B2 (en) * 2014-06-09 2019-10-15 Cognitive Scale, Inc. Graph query engine for use within a cognitive environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063623A (zh) * 2010-12-28 2011-05-18 中南大学 一种结合自底向上和自顶向下的图像感兴趣区域提取方法
CN104471568A (zh) * 2012-07-02 2015-03-25 微软公司 对自然语言问题的基于学习的处理
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的***和方法
CN106127749A (zh) * 2016-06-16 2016-11-16 华南理工大学 基于视觉注意机制的目标零件识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543877A (zh) * 2019-09-04 2019-12-06 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置和电子***

Also Published As

Publication number Publication date
GB2569848B (en) 2021-02-17
AU2018247340B2 (en) 2021-09-30
US10754851B2 (en) 2020-08-25
US20190197154A1 (en) 2019-06-27
GB201817169D0 (en) 2018-12-05
GB2569848A (en) 2019-07-03
AU2018247340A1 (en) 2019-07-11
DE102018007936A1 (de) 2019-06-27

Similar Documents

Publication Publication Date Title
CN109960734A (zh) 用于数据可视化的问题回答
US11875239B2 (en) Managing missing values in datasets for machine learning models
US11416672B2 (en) Object recognition and tagging based on fusion deep learning models
US20190294921A1 (en) Field identification in an image using artificial intelligence
CN109564575A (zh) 使用机器学习模型来对图像进行分类
CN113407694B (zh) 客服机器人知识库歧义检测方法、装置及相关设备
Saleh Machine Learning Fundamentals: Use Python and scikit-learn to get up and running with the hottest developments in machine learning
US20230144138A1 (en) Machine learning algorithm search with symbolic programming
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
Galea et al. Applied Deep Learning with Python: Use scikit-learn, TensorFlow, and Keras to create intelligent systems and machine learning solutions
CN112131475A (zh) 一种可解释、可交互的用户画像方法及装置
CN116861358A (zh) 基于bp神经网络与多源数据融合的计算思维评测方法
CN109740013A (zh) 图像数据处理方法及图像检索方法
CN111400413B (zh) 一种确定知识库中知识点类目的方法及***
CN111428724B (zh) 一种试卷手写统分方法、装置及存储介质
Galea Beginning Data Science with Python and Jupyter: Use powerful industry-standard tools within Jupyter and the Python ecosystem to unlock new, actionable insights from your data
CN113627522A (zh) 基于关系网络的图像分类方法、装置、设备及存储介质
Zong et al. Research on the Decision Model of Product Design Based on a Deep Residual Network
Ghosh et al. Understanding machine learning
Galea Applied Data Science with Python and Jupyter: Use powerful industry-standard tools to unlock new, actionable insights from your data
Kałuża et al. On Several New Dempster-Shafer-Inspired Uncertainty Measures Applicable for Active Learning
CN117391643B (zh) 一种基于知识图谱的医保单据审核方法及***
WO2019148040A1 (en) Autonomous hybrid analytics modeling platform
US20240193918A1 (en) Techniques for automated component classification
Arthur Time Series Classification with Multistage Modeling Using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination