CN110489449B - 一种图表推荐方法、装置和电子设备 - Google Patents

一种图表推荐方法、装置和电子设备 Download PDF

Info

Publication number
CN110489449B
CN110489449B CN201910693374.9A CN201910693374A CN110489449B CN 110489449 B CN110489449 B CN 110489449B CN 201910693374 A CN201910693374 A CN 201910693374A CN 110489449 B CN110489449 B CN 110489449B
Authority
CN
China
Prior art keywords
field
combined
aggregation
target
chart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910693374.9A
Other languages
English (en)
Other versions
CN110489449A (zh
Inventor
刘译璟
于帮付
代其锋
肖洋
徐林杰
赵丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Percent Technology Group Co ltd
Original Assignee
Beijing Percent Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Percent Technology Group Co ltd filed Critical Beijing Percent Technology Group Co ltd
Priority to CN201910693374.9A priority Critical patent/CN110489449B/zh
Publication of CN110489449A publication Critical patent/CN110489449A/zh
Application granted granted Critical
Publication of CN110489449B publication Critical patent/CN110489449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种图表推荐方法、装置和电子设备,该图表推荐方案主要包括:将基于维度字段和指标字段确定的组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;并基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,推荐所述图表。从而,使得推荐的图表中的维度和指标均具有意义,且以字向量的方式预测目标聚合函数,提升图表推荐的精准性、有效性。

Description

一种图表推荐方法、装置和电子设备
技术领域
本说明书涉及计算机软件技术领域,尤其涉及一种图表推荐方法、装置和电子设备。
背景技术
目前,为了对用户的工作表进行直观展示,一般会采用图表形式将工作表中的数据可视化。
然而,现有的图表推荐方案过于笼统,无法根据用户的工作表推荐精准有效的图表。
发明内容
本说明书实施例的目的是提供一种图表推荐方法、装置和电子设备,以提升图表推荐的精准有效性。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,提出了一种图表推荐方法,包括:
基于用户的工作表的数据字段的集合,确定至少一个组合字段,其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段;
将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;
基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;
推荐所述图表。
第二方面,提出了一种图表推荐装置,包括:
第一确定模块,基于用户的工作表的数据字段的集合,确定至少一个组合字段,其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段;
第二确定模块,用于将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;
生成模块,用于基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;
推荐模块,用于推荐所述图表。
第三方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于用户的工作表的数据字段的集合,确定至少一个组合字段,其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段;
将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;
基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;
推荐所述图表。
第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
基于用户的工作表的数据字段的集合,确定至少一个组合字段,其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段;
将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;
基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;
推荐所述图表。
由本说明书实施例提供的以上技术方案可见,将基于维度字段和指标字段确定的组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;并基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,推荐所述图表。从而,使得推荐的图表中的维度和指标均具有意义,且以字向量的方式预测目标聚合函数,提升图表推荐的精准性、有效性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书的一个实施例提供的图表推荐方法的步骤示意图之一。
图2是本说明书的一个实施例提供的使用预设聚合模型-LSTM模型预测目标聚合函数的原理示意图。
图3是本说明书的一个实施例提供的图表推荐方法的步骤示意图之二。
图4是本说明书的一个实施例提供的图表推荐装置的步骤示意图。
图5是本说明书的一个实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
参照图1所示,为本说明书实施例提供的一种图表推荐方法的步骤示意图,该图表推荐方法可以包括以下步骤:
步骤102:基于用户的工作表的数据字段的集合,确定至少一个组合字段;其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段。
在本说明书实施例中,可以利用数据分析管理模块,从用户的工作表中获取所有数据字段,确定为数据字段集合。这些数据字段可以包括字段名、字段类型、字段的枚举值、字段样例数据等。
考虑到图表一般可以包括维度和指标,其中,维度是指可指定不同值的对象的描述性属性或特征,主要用于描述数据。指标是指可以按照总数或比值等衡量的具体维度元素,主要用于衡量数据。例如,地理位置的维度可以包括:“品牌”、“部门”或“城市名称”;“城市名称”这一维度可以是“旧金山”、“柏林”或“新加坡”。再如,维度“城市”与“人口”类指标关联,“城市”维度的数据取值是“香港”,“人口”类指标的可以是“居民总数”或“女性居民总数”。再如,维度“城市名称”与指标“人口”是一对组合,那么,组合字段或者图表的内容可以是“香港”有“740万”人口;或者,“新加坡”有“560万”人口等。
从工作表中确定的数据字段集合所包含的数据字段中有的可以作为维度,有的可以作为指标。虽然维度和指标可以独立使用,但是,为了保证展示的数据具有意义以及丰富图表类型,可以将维度和指标组合使用,确定为组合字段。
可选地,步骤102在基于用户的工作表的数据字段的集合,确定至少一个组合字段时,可具体执行为:
第一步,将所述数据字段的集合中的数据字段分类为维度字段类和指标字段类;
第二步,将所述维度字段类中任一维度字段与所述指标字段类中任一指标字段组合得到至少一个组合字段。
举例说明,假设,数据字段集合中的数据字段包括:“省份”、“年份”、“利润”、“成本”。将这四个数据字段分类为维度字段类和指标字段类,其中,维度字段类中维度字段包括:“省份”、“年份”;指标字段类中指标字段包括:“利润”、“成本”。将任一维度字段与任一指标字段组合可以得到“省份-利润”、“省份-成本”、“年份-利润”、“年份-成本”。
其实,在对维度字段和指标字段进行组合时,可以参照上述方式进行穷举组合,以保证所有的维度和指标都可以被覆盖。
可选地,在本说明书实施例中,将所述数据字段集合中的数据字段分类为维度字段类和指标字段类,可以具体执行为:
按照字段类型,将所述数据字段集合中的数据字段分类为维度字段类和指标字段类;其中,所述维度字段类中维度字段包括文本字段和日期字段,所述指标字段类中指标字段包括数值字段和文本字段。
考虑到指标字段设置有预设聚合函数,而身份证、电话号码等数值字段无法做聚合处理,同时,维度字段中有些文本字段没有表征意义,因此,可以对这些数据字段进行过滤处理,具体地,可以采用支持向量机二分类方法,过滤所述维度字段类和/或所述指标字段类中不具备表征意义的数据字段。例如,可以采用SVM二分类法将指标字段中无法做聚合处理的数值字段剔除。
此外,还可以使用检查枚举值或样例数据的方式,查看维度字段中是否都是数值,例如,“编号”为文本字段,但是该字段不适合作为维度,不具备表征意义,因此,可以将其剔除。
应理解,针对指标字段是文本字段时,LSTM模型输出聚合函数为COUNT或OTHER;其中,OTHER表示这个组合字段不合适;例如,针对组合字段“城市-省份”,指标是文本字段,LSTM模型输出结果为OTHER,因为计算每个城市有几个省份是不合逻辑的,但每个省份有多少城市却是合理的,因此,可以将该组合字段“城市-省份”剔除。
步骤104:将所述组合字段以字向量方式输入至预设聚合模型,得到所述组合字段对应的目标聚合函数。
应理解,所述预设聚合模型可以是预先训练好的长短期记忆(Long Short-TermMemory,LSTM)模型。该LSTM模型是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
本说明书实施例所使用的LSTM模型结构是,输入很多字向量,输出一个聚合函数类型;具体参照图2说明,图中输入模型的是单个字的字向量,相比于现有技术中采用词向量进行学***均AVG函数,计数COUNT函数。字向量的维度可以是128维或是64维等,本说明书实施例并不对此进行限制。应理解,在本说明书实施例中,LSTM模型的具体内部结构可以参照图2中的A所示,而其内部结构的连接部件以及连接关系再次不做详述,可参照现有技术实现。
在LSTM模型训练过程中,使用历史输入预测聚合函数类型,每个聚合类型会有特定概率(如SUM是0.7,AVG是0.3),根据概率分布和真实结果(如SUM是0,AVG是1)计算交叉熵损失函数,然后使用梯度下降法优化该损失函数更新***参数,达到学习效果。应理解,该步骤中模型训练可以参照现有的训练方案执行,本申请并不对此进行限定,而组合字段应是以字向量方式输入。
由于训练所需的样本数据的个数有限,可能只有几百条,模型不足以学习到具备足够的能力精准预测聚合函数,本说明书实施例还尝试将数值字段和文本字段分开训练,预测效果提升显著,准确率从原来的70%提高的80%和90%。换言之,在使用样本数据进行训练时,数值字段独立训练得到一种聚合模型,而文本字段独立训练得到另一种聚合模型。
具体地,所述预设聚合模型包括基于数值字段训练得到的第一类聚合模型和基于文本字段训练得到的第二类聚合模型;步骤106在将所述组合字段以字向量方式输入至预设聚合模型,得到所述组合字段对应的目标聚合函数时,可以具体执行为:
判断所述组合字段中指标字段是否为数值类型;
若是,则将所述组合字段以字向量方式输入至第一类聚合模型,得到所述组合字段对应的目标聚合函数;
否则,将所述组合字段以字向量方式输入至第二类聚合模型,得到所述组合字段对应的目标聚合函数。
通过将数值字段和文本字段分开训练,得到两类聚合模型,并基于这两类聚合模型分别对数值字段和文本字段进行预测,从而,在训练阶段就将字段类型分开,且对不同字段类型使用不同的聚合模型,进一步提升聚合模型的预测精准性。
在利用预设聚合模型得到目标聚合函数时,输入组合字段后,可输出对应每个聚合函数的概率,具体可以选择概率值最大的聚合函数作为目标聚合函数。例如,输入组合字段“地区-利润”的字向量序列,预测为SUM的概率是0.8,预测为AVG的概率是0.2,那么可以选择概率最大聚合函数作为预测结果,即SUM。
可选地,在确定多个组合字段之后,所述方法还包括:
将具有相同维度字段且指标字段相似度大于阈值的多个组合字段再次组合;其中,再次组合得到的组合字段用于按照预设适配规则确定目标图表类型。
具体实现时,可以首先找到那些具有相同维度的组合字段,然后对每个组合字段中的指标寻找指标字段名称长度类似或一致的其它组合;应理解,这里的名称长度,针对中文而言是中文名称长度,而针对英文和法文而言是分词后的单词长度;举例说明,针对“省份-男性人口”,可以寻找指标字段名称长度一致的组合字段“省份-女性人口”、“省份-农村人口”,而不是“省份-人口”;接下来使用词向量计算不同指标字段的余弦相似性,取最相似的两个指标字段将两个组合字段重新组合,例如,将“省份-男性人口”和“省份-女性人口”这两个组合字段组合为一个组合字段“省份-(男性人口;女性人口)”。
步骤106:基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定。
在确定组合字段以及该组合字段对应的目标聚合函数之后,可以基于目标图表类型在显示界面渲染出相应的图表。其中,渲染出的图表个数可以基于目标图表类型的数目确定,其实,渲染出的图表个数还与组合字段的个数相关,组合字段个数多,相应渲染出的图表个数较多。
其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;所述预设适配规则可以是根据经验值或是依据用户喜好确定,或者可以是根据图表属性确定。例如,如果只有一个指标,可以使用指标卡;如果只有一个维度和一个指标,可以根据维度字段的枚举值数量选择性使用饼图、柱状图、水平柱状图、词云等;如果维度是时间字段,可以使用折线图;如果维度是省份,可以使用地图。
其中,所述图表类型可以包括:指标卡、饼图、柱状图、水平柱状图、词云、折线图、地图等。
步骤108:推荐图表。
在推荐图表给用户之后,用户可以从中选择图表,并使用工作表中的具体数据进一步渲染选择的图表,即使用选择的图表将工作表中的数据可视化展示出来。
可选地,在本说明书实施例中,步骤108在推荐图表时,可具体执行为:
首先,对生成的多个图表进行排序;然后,推荐排序序号大于N的图表,其中,所述N为正整数。其中,在本说明书实施例中,所述N可以取值为10或20等数值,具体可以根据用户的展示需求以及***设置需求。
具体地,对生成的多个图表进行排序,可以包括:
基于排序属性的取值,为每个图表的排序属性分配相应权重;
基于所述权重,计算每个图表的权重总和;
基于计算得到的权重总和对所述多个图表进行排序;
其中,所述排序属性至少包括以下一种或多种组合:
维度去重计数;维度样本长度;维度字段的词频;指标字段的词频;组合字段的困惑度;图表类型;与图表名称的相似度。
以组合字段的困惑度为例,根据语言模型判断组合字段是否常见,如“产品-利润”比“业务员-单价”更常见。这里的语言模型可以是二元语言模型,至少支持中英法三类语言。语言模型也是基于统计得出,二元语言模型统计的是当前词如“吃”后面跟某个词如“苹果”的概率,基于大量数据统计“吃苹果”出现的次数以及“吃”出现的次数,使用贝叶斯公式就可以算出“吃”后面接“苹果”的概率P(“苹果”|“吃”)。再如,针对“不同产品的利润”的概率P,可以将“不同产品的利润”分词为:“不同”、“不同产品”、“产品的”“的利润”等词语,使用贝叶斯公式可以得到“不同产品的利润”的概率P(“不同产品的利润”)=P(“不同”)*P(“产品”|“不同”)*P(“的”|产品)*P(“利润”|“的”)。根据组合字段的分词概率,概率越大,权重高,反之,权重低。
以指标字段的词频为例,词频是基于大数据统计出来的。比如同样都是指标的两个字段“利润”比“税费”出现的频率高,根据词频概率的高低分配权重,词频大,则权重高,反之,权重低。
以维度样本长度,例如维度字段的值的长度,太长不宜展示,降低图表可读性,进而分配权重会低。
其实,在排序时,还会考虑序列中连续相邻的几个图表为同一个图表类型,为了避免连续出现三次及以上,可以在排序时,考虑穿插不同图表类型的图表进行排序,举例说明,根据上述排序属性排序得到20张图表,其中排序序号为1-5的图表均为柱形图,排序6-8的图表均为折线图,其它图表排序较为均匀。那么,可以将前5个图表穿插在排序序号为6-20的多个图表之间,同理,排序6-8的折线图也进行类似处理,从而,将不同图表类型的图表均匀穿插于各个图表之间,使得不同图表类型的图表可以均匀分布在整个排序序列中,使得推荐给用户的图表更为丰富且避免图表类型单一。
需要说明的是,本说明书实施例中排序操作是无监督的,可以支持在线优化,排序的各个组件(例如,各个排序属性对应的实现模块,或其它参与排序的模块)都有人为设定的权重,用户在使用中如果保存了某个图表,就会对***有正反馈,***会相应的提高这类图表的权重。
可选地,在确定用户的工作表中数据字段集合之后,基于所述数据字段集合,确定至少一个组合字段之前,参照图3所示,所述方法还包括:
步骤110:对数据字段集合中的数据字段进行分词处理;
步骤112:基于分词得到的词字段所属语言类型的概率,预测图表推荐操作对应的语言模型。
其实,上述优选步骤可理解为语言识别操作,这是因为,考虑到用户的工作表的数据字段可能是英文而***语言是中文,因此在进行后续操作前可以判断数据字段的所属语言。判断方法可以是遍历所有数据字段,并对数据字段进行分词处理,如果数据字段出现中文,则中文得分加1,如果都是英文,则英文得分加1,法文同理;最后比较各语言的得分,得分最高的语言就是识别到的对应该工作表的语言。
应理解,本步骤识别出语言,后续操作可以基于识别出的语言进行一系列操作。
通过本说明书技术方案,将基于维度字段和指标字段确定的组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;并基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,推荐所述图表。从而,使得推荐的图表中的维度和指标均具有意义,且以字向量的方式预测目标聚合函数,提升图表推荐的精准性、有效性。
实施例二
图4为本说明书的一个实施例提供的图表推荐装置200的结构示意图。请参考图4,在一种软件实施方式中,图表推荐装装置200可包括:
第一确定模块202,用于基于用户的工作表的数据字段的集合,确定至少一个组合字段,其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段;
第二确定模块204,用于将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;
生成模块206,用于基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;
推荐模块208,用于推荐所述图表。
通过本说明书技术方案,将基于维度字段和指标字段确定的组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;并基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,推荐所述图表。从而,使得推荐的图表中的维度和指标均具有意义,且以字向量的方式预测目标聚合函数,提升图表推荐的精准性、有效性。
可选地,作为一个实施例,第一确定模块202,具体用于:
将所述数据字段集合中的数据字段分类为维度字段类和指标字段类;
将所述维度字段类中任一维度字段与所述指标字段类中任一指标字段组合得到至少一个组合字段。
在本说明书实施例的一种具体实现方式中,所述第一确定模块202在将所述数据字段集合中的数据字段分类为维度字段类和指标字段类时,可具体用于:
按照字段类型,将所述数据字段集合中的数据字段分类为维度字段类和指标字段类;其中,所述维度字段类中维度字段包括文本字段和日期字段,所述指标字段类中指标字段包括数值字段和文本字段。
在本说明书实施例的一种具体实现方式中,所述图表推荐装置200还包括:
过滤模块,用于采用支持向量机二分类方法,过滤所述维度字段类和/或所述指标字段类中不具备表征意义的数据字段。
在本说明书实施例的一种具体实现方式中,所述第一确定模块202在确定多个组合字段之后,还可以用于:
将具有相同维度字段且指标字段相似度大于阈值的多个组合字段再次组合;
其中,再次组合得到的组合字段用于按照预设适配规则确定目标图表类型。
在本说明书实施例的一种具体实现方式中,所述预设聚合模型包括基于数值字段训练得到的第一类聚合模型和基于文本字段训练得到的第二类聚合模型;所述第二确定模块204,具体用于:
判断所述组合字段中指标字段是否为数值类型;
若是,则将所述组合字段以字向量方式输入至第一类聚合模型,确定所述组合字段对应的目标聚合函数;
否则,将所述组合字段以字向量方式输入至第二类聚合模型,确定所述组合字段对应的目标聚合函数。
在本说明书实施例的一种具体实现方式中,所述推荐模块208,具体用于:
对生成的多个图表进行排序;
推荐排序序号大于N的图表,其中,所述N为正整数。
在本说明书实施例的一种具体实现方式中,所述推荐模块208在对生成的多个图表进行排序时,可具体用于:
基于排序属性的取值,为每个图表的排序属性分配相应权重;
基于所述权重计算每个图表的权重总和;
基于计算得到的权重总和对所述多个图表进行排序;
其中,所述排序属性至少包括以下一种或多种组合:维度去重计数;维度样本长度;维度字段的词频;指标字段的词频;组合字段的困惑度;图表类型;与图表名称的相似度。
在本说明书实施例的一种具体实现方式中,所述图表推荐装置200还包括:
语言识别模块,用于在所述第一确定模块202基于用户的工作表的数据字段的集合,确定至少一个组合字段之前,对数据字段集合中的数据字段进行分词处理;以及,基于分词得到的词字段所属语言类型的概率,预测图表推荐操作对应的语言模型。
应理解,本说明书实施例的图表推荐装置还可执行图1、图3中图表推荐装置(或设备)执行的方法,并实现图表推荐装置(或设备)在图1、图3所示实施例的功能,在此不再赘述。
实施例三
图5是本说明书的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成共享资源访问控制装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
基于用户的工作表的数据字段的集合,确定至少一个组合字段,其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段;
将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;
基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;
推荐所述图表。
通过本说明书技术方案,将基于维度字段和指标字段确定的组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;并基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,推荐所述图表。从而,使得推荐的图表中的维度和指标均具有意义,且以字向量的方式预测目标聚合函数,提升图表推荐的精准性、有效性。
上述如本说明书图1、图3所示实施例揭示的图表推荐装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现图表推荐装置在图1、图3所示实施例的功能,本说明书实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书实施例的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
实施例四
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下方法:
基于用户的工作表的数据字段的集合,确定至少一个组合字段,其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段;
将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;
基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;
推荐所述图表。
通过本说明书技术方案,将基于维度字段和指标字段确定的组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;并基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,推荐所述图表。从而,使得推荐的图表中的维度和指标均具有意义,且以字向量的方式预测目标聚合函数,提升图表推荐的精准性、有效性。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种图表推荐方法,其特征在于,包括:
基于用户的工作表的数据字段的集合,确定至少一个组合字段,其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段;
将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;
基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;在确定组合字段以及该组合字段对应的目标聚合函数之后,基于目标图表类型在显示界面渲染出相应的图表,渲染出的图表个数基于目标图表类型的数目确定,渲染出的图表个数还与组合字段的个数相关,组合字段个数多,相应渲染出的图表个数较多;
推荐所述图表;
将数值字段和文本字段分开训练,在使用样本数据进行训练时,数值字段独立训练得到一种聚合模型,而文本字段独立训练得到另一种聚合模型;所述预设聚合模型包括基于数值字段训练得到的第一类聚合模型和基于文本字段训练得到的第二类聚合模型;
将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数,具体包括:
判断所述组合字段中指标字段是否为数值类型;
若是,则将所述组合字段以字向量方式输入至第一类聚合模型,确定所述组合字段对应的目标聚合函数;
否则,将所述组合字段以字向量方式输入至第二类聚合模型,确定所述组合字段对应的目标聚合函数;
通过将数值字段和文本字段分开训练,得到两类聚合模型,并基于这两类聚合模型分别对数值字段和文本字段进行预测,从而,在训练阶段就将字段类型分开,且对不同字段类型使用不同的聚合模型;
在利用预设聚合模型得到目标聚合函数时,输入组合字段后,输出对应每个聚合函数的概率,选择概率值最大的聚合函数作为目标聚合函数。
2.如权利要求1所述的方法,其特征在于,基于用户的工作表的数据字段的集合,确定至少一个组合字段,具体包括:
确定用户的工作表的数据字段的集合;
将所述数据字段的集合中的数据字段分类为维度字段类和指标字段类;
将所述维度字段类中任一维度字段与所述指标字段类中任一指标字段组合得到至少一个组合字段。
3.如权利要求2所述的方法,其特征在于,将所述数据字段集合中的数据字段分类为维度字段类和指标字段类,具体包括:
按照字段类型,将所述数据字段集合中的数据字段分类为维度字段类和指标字段类;其中,所述维度字段类中维度字段包括文本字段和日期字段,所述指标字段类中指标字段包括数值字段和文本字段。
4.如权利要求3所述的方法,其特征在于,还包括:
采用支持向量机二分类方法,过滤所述维度字段类和/或所述指标字段类中不具备表征意义的数据字段。
5.如权利要求1所述的方法,其特征在于,在确定多个组合字段之后,所述方法还包括:
将具有相同维度字段且指标字段相似度大于阈值的多个组合字段再次组合;
其中,再次组合得到的组合字段用于按照预设适配规则确定目标图表类型。
6.如权利要求1所述的方法,其特征在于,推荐所述图表,具体包括:
对生成的多个图表进行排序;
推荐排序序号大于N的图表,其中,所述N为正整数。
7.如权利要求6所述的方法,其特征在于,对生成的多个图表进行排序,具体包括:
基于排序属性的取值,为每个图表的排序属性分配相应权重;
基于所述权重计算每个图表的权重总和;
基于计算得到的权重总和对所述多个图表进行排序;
其中,所述排序属性至少包括以下一种或多种组合:
维度去重计数;维度样本长度;维度字段的词频;指标字段的词频;组合字段的困惑度;图表类型;与图表名称的相似度。
8.如权利要求1-7任一项所述的方法,其特征在于,在确定用户的工作表中数据字段集合之后,基于所述数据字段集合,确定至少一个组合字段之前,所述方法还包括:
对数据字段集合中的数据字段进行分词处理;
基于分词得到的词字段所属语言类型的概率,预测图表推荐操作对应的语言模型。
9.一种图表推荐装置,其特征在于,包括:
第一确定模块,基于用户的工作表的数据字段的集合,确定至少一个组合字段,其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段;
第二确定模块,用于将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;
生成模块,用于基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;在确定组合字段以及该组合字段对应的目标聚合函数之后,基于目标图表类型在显示界面渲染出相应的图表,渲染出的图表个数基于目标图表类型的数目确定,渲染出的图表个数还与组合字段的个数相关,组合字段个数多,相应渲染出的图表个数较多;
推荐模块,用于推荐所述图表;
将数值字段和文本字段分开训练,在使用样本数据进行训练时,数值字段独立训练得到一种聚合模型,而文本字段独立训练得到另一种聚合模型;所述预设聚合模型包括基于数值字段训练得到的第一类聚合模型和基于文本字段训练得到的第二类聚合模型;所述第二确定模块,具体用于:
判断所述组合字段中指标字段是否为数值类型;
若是,则将所述组合字段以字向量方式输入至第一类聚合模型,确定所述组合字段对应的目标聚合函数;
否则,将所述组合字段以字向量方式输入至第二类聚合模型,确定所述组合字段对应的目标聚合函数;
通过将数值字段和文本字段分开训练,得到两类聚合模型,并基于这两类聚合模型分别对数值字段和文本字段进行预测,从而,在训练阶段就将字段类型分开,且对不同字段类型使用不同的聚合模型;
在利用预设聚合模型得到目标聚合函数时,输入组合字段后,输出对应每个聚合函数的概率,选择概率值最大的聚合函数作为目标聚合函数。
10.一种电子设备,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于用户的工作表的数据字段的集合,确定至少一个组合字段,其中,每个所述组合字段包括用于描述数据的维度字段以及用于衡量数据的指标字段;
将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数;
基于所述至少一个组合字段、所述组合字段对应的目标聚合函数以及目标图表类型生成至少一个图表,其中,所述目标图表类型基于所述数据字段集合按照预设适配规则确定;在确定组合字段以及该组合字段对应的目标聚合函数之后,基于目标图表类型在显示界面渲染出相应的图表,渲染出的图表个数基于目标图表类型的数目确定,渲染出的图表个数还与组合字段的个数相关,组合字段个数多,相应渲染出的图表个数较多;
推荐所述图表;
将数值字段和文本字段分开训练,在使用样本数据进行训练时,数值字段独立训练得到一种聚合模型,而文本字段独立训练得到另一种聚合模型;所述预设聚合模型包括基于数值字段训练得到的第一类聚合模型和基于文本字段训练得到的第二类聚合模型;
将所述组合字段以字向量方式输入至预设聚合模型,确定所述组合字段对应的目标聚合函数,具体包括:
判断所述组合字段中指标字段是否为数值类型;
若是,则将所述组合字段以字向量方式输入至第一类聚合模型,确定所述组合字段对应的目标聚合函数;
否则,将所述组合字段以字向量方式输入至第二类聚合模型,确定所述组合字段对应的目标聚合函数;
通过将数值字段和文本字段分开训练,得到两类聚合模型,并基于这两类聚合模型分别对数值字段和文本字段进行预测,从而,在训练阶段就将字段类型分开,且对不同字段类型使用不同的聚合模型;
在利用预设聚合模型得到目标聚合函数时,输入组合字段后,输出对应每个聚合函数的概率,选择概率值最大的聚合函数作为目标聚合函数。
CN201910693374.9A 2019-07-30 2019-07-30 一种图表推荐方法、装置和电子设备 Active CN110489449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910693374.9A CN110489449B (zh) 2019-07-30 2019-07-30 一种图表推荐方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910693374.9A CN110489449B (zh) 2019-07-30 2019-07-30 一种图表推荐方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN110489449A CN110489449A (zh) 2019-11-22
CN110489449B true CN110489449B (zh) 2022-02-22

Family

ID=68548618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910693374.9A Active CN110489449B (zh) 2019-07-30 2019-07-30 一种图表推荐方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110489449B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460102B (zh) * 2020-03-31 2022-09-09 成都数之联科技股份有限公司 一种基于自然语言处理的图表推荐***及方法
CN112015774B (zh) * 2020-09-25 2023-08-29 北京百度网讯科技有限公司 一种图表推荐方法、装置、电子设备及存储介质
CN112256789B (zh) * 2020-10-19 2022-06-17 杭州比智科技有限公司 数据智能可视化分析方法和装置
CN113763502B (zh) * 2020-11-13 2024-04-16 北京京东尚科信息技术有限公司 一种图表生成方法、装置、设备和存储介质
CN112434198B (zh) * 2020-11-24 2024-05-24 深圳市明源云科技有限公司 图表组件推荐方法及装置
CN112749224A (zh) * 2020-12-31 2021-05-04 清华大学 一种面向任务的可视化推荐方法及装置
CN116089474B (zh) * 2023-03-07 2023-08-04 深圳市明源云科技有限公司 自定义编辑模式下的数据缓存方法、装置、设备及介质
CN117350276B (zh) * 2023-12-05 2024-02-13 卓世未来(天津)科技有限公司 一种数据增强方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180117A (zh) * 2017-06-30 2017-09-19 东软集团股份有限公司 图表推荐方法、装置和计算机设备
CN108268435A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 图表匹配方法及装置
CN109101631A (zh) * 2018-08-14 2018-12-28 成都四方伟业软件股份有限公司 数据建模方法及装置
CN109145277A (zh) * 2018-08-24 2019-01-04 东软集团股份有限公司 图表生成方法、装置、存储介质和电子设备
CN109446221A (zh) * 2018-10-29 2019-03-08 北京百分点信息科技有限公司 一种基于语义分析的交互式数据探查方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117442B (zh) * 2015-08-12 2018-05-04 东北大学 一种基于概率的大数据查询方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268435A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 图表匹配方法及装置
CN107180117A (zh) * 2017-06-30 2017-09-19 东软集团股份有限公司 图表推荐方法、装置和计算机设备
CN109101631A (zh) * 2018-08-14 2018-12-28 成都四方伟业软件股份有限公司 数据建模方法及装置
CN109145277A (zh) * 2018-08-24 2019-01-04 东软集团股份有限公司 图表生成方法、装置、存储介质和电子设备
CN109446221A (zh) * 2018-10-29 2019-03-08 北京百分点信息科技有限公司 一种基于语义分析的交互式数据探查方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于大众信息源的城市管理商业智能***设计与实现";张璐;《万方》;20140917;论文正文第2-4章 *
"多维数据可视化在应用软件统计分析中的研究";陈维民;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;论文正文第2-4章 *

Also Published As

Publication number Publication date
CN110489449A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110489449B (zh) 一种图表推荐方法、装置和电子设备
CN108829808B (zh) 一种页面个性化排序方法、装置及电子设备
CN107391545B (zh) 一种对用户进行分类的方法、输入方法及装置
CN112380859A (zh) 舆情信息的推荐方法、装置、电子设备及计算机存储介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN111061979A (zh) 一种用户标签的推送方法、装置、电子设备和介质
US20230045330A1 (en) Multi-term query subsumption for document classification
US11487835B2 (en) Information processing system, information processing method, and program
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN105989066A (zh) 一种信息处理方法和装置
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN109783175B (zh) 应用程序图标管理方法、装置、可读存储介质及终端设备
CN110866000B (zh) 数据质量评价方法、装置、电子设备及存储介质
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN115203556A (zh) 一种评分预测模型训练方法、装置、电子设备及存储介质
CN111191049B (zh) 信息推送方法、装置、计算机设备和存储介质
CN112732891A (zh) 办公课程推荐方法、装置、电子设备及介质
CN112560433A (zh) 一种信息处理的方法及装置
CN110941714A (zh) 分类规则库构建方法、应用分类方法及装置
CN111159398B (zh) 一种识别商户类型的方法及装置
CN111259209B (zh) 基于人工智能的用户意图预测方法、电子装置及存储介质
CN109241404B (zh) 一种信息分享方法、计算机可读存储介质及终端设备
CN114443949A (zh) 基于用户协同过滤和聚合统计相结合的个性化推荐方法
CN117076733A (zh) 问题推荐的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100081 No.101, 1st floor, building 14, 27 Jiancai Chengzhong Road, Haidian District, Beijing

Applicant after: Beijing PERCENT Technology Group Co.,Ltd.

Address before: 100081 16 / F, block a, Beichen Century Center, building 2, courtyard 8, Beichen West Road, Chaoyang District, Beijing

Applicant before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant