CN111897884A - 数据关系信息显示方法、终端设备 - Google Patents
数据关系信息显示方法、终端设备 Download PDFInfo
- Publication number
- CN111897884A CN111897884A CN202010697320.2A CN202010697320A CN111897884A CN 111897884 A CN111897884 A CN 111897884A CN 202010697320 A CN202010697320 A CN 202010697320A CN 111897884 A CN111897884 A CN 111897884A
- Authority
- CN
- China
- Prior art keywords
- gate
- input
- row
- database
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000000284 extract Substances 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 36
- 238000000605 extraction Methods 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开的实施例公开了一种数据关系信息显示方法、终端设备。该方法的一具体实施方式包括:获取表格和预先确定的数据库;基于表格,查找标题行;响应于查找到标题行,将标题行与预先确定的数据库进行匹配,抽取目标数据关系集合;将目标数据关系集合发送至支持显示功能的设备,控制设备展示目标数据关系集合。该方法自动识别表格中的标题行,通过将标题行与数据库进行匹配,自动抽取数据关系集合并显示,为用户识别和使用数据关系信息提供依据。
Description
技术领域
本公开实施例涉及计算机技术领域,具体涉及数据关系信息显示方法、终端设备。
背景技术
互联网的飞速发展和不断增长的信息资源使得信息指数激增,同时,信息资源的来源多样、结构不同,针对不同类型的异构信息源的数据关系信息的提取、处理和集成具有非常重要的意义。数据关系信息提取和显示的目的是针对不同来源的异构信息源进行分析,从而找到异构信息源中包含的数据关系信息。这无论是对提高基于异构信息的处理、决策和应用能力,还是提高信息的再利用率,都具有直接的现实意义。
发明内容
本公开实施例提出了一种数据关系信息显示方法、终端设备。
第一方面,本公开实施例提供了一种数据关系信息显示方法,该方法包括:获取表格和预先确定的数据库;基于表格,查找标题行;响应于查找到标题行,将标题行与预先确定的数据库进行匹配,抽取目标数据关系集合;将目标数据关系集合发送至支持显示功能的设备,控制设备展示目标数据关系集合。
在一些实施例中,表格具有表格名称,表格包括第一数目个页,页是由行和列构成的网格,网格中的单元格存放数字或文本。
在一些实施例中,基于表格,查找标题行,包括:响应于第一数目等于1,逐行查找标题行;响应于第一数目大于1,逐页查找标题行。
在一些实施例中,该方法还包括:响应于未查找到标题行,将目标数据关系集合确定为空集。
在一些实施例中,将标题行与预先确定的数据库进行匹配,抽取目标数据关系集合,包括:基于数据库,确定匹配指标序列,其中,匹配指标序列包括第二数目个匹配指标;对于匹配指标序列中的每个匹配指标,在标题行中查找该匹配指标;响应于在标题行中查找到匹配指标序列中的匹配指标,将表格名称与所查找到的匹配指标组成的集合,确定为目标数据关系集合;响应于在标题行中未查找到匹配指标序列中的匹配指标,将目标数据关系集合确定为第一类数据关系集合。
在一些实施例中,该方法还包括:响应于预先确定的数据库包含的数据条数超过预先设定的阈值,将数据库切分成子数据库集合,其中,子数据库集合中包括第三数目个子数据库;对于子数据库集合中的每个子数据库,将该子数据库与标题行进行匹配,抽取该子数据库的子目标数据关系集合,得到目标数据关系集合。
在一些实施例中,该方法还包括:将表格输入预先确定的特征提取模型,生成表格的行特征向量集合;将预先确定的模板行输入预先确定的特征提取模型,生成模板行特征向量;对于行特征向量集合中的每个行特征向量,计算该行特征向量与模板行特性向量的相似度,得到相似度集合;基于相似度集合,确定标题行。
在一些实施例中,预先确定的特征提取模型由长短期记忆网络LSTM组成,LSTM由细胞状态、输入门、遗忘门、输出门组成;以及将预先确定的模板行输入预先确定的特征提取模型,生成模板行特征向量,包括:将预先确定的模板行输入预先确定的特征提取模型;利用下式更新LSTM中的网络结构信息:
f(t)=σ(Wfh·h(t-1)+Wfx·x(t)+bf),其中t表示时间计数,t-1为当前计数时刻的前一个时间,x为LSTM中的细胞单元,h为隐藏单元,b为偏置量,f为遗忘门的输出数值,σ表示遗忘门控制参数,W为权重,Wfh为遗忘门自环权重,Wfx为遗忘门输入权重,bf为遗忘门的偏置,x(t)为t时刻输入状态,h(t-1)表示t-1时刻的隐层信息,f(t)表示t时刻遗忘门的输出数值,·表示点乘处理;利用下式更新LSTM中的细胞状态s(t):其中,t表示时间计数,x为LSTM中的细胞单元,h为隐藏单元,b为偏置量,g为输入门的输出数值,W为权重,t-1为当前计数时刻的前一个时间,i表示输入门的状态,Wgh为输入门自环权重,Wgx为输入门输入权重,bg为输入门的偏置,Wih为状态输入自环权重,Wix为状态输入权重,bi为状态输入偏置,σ为输入门控制参数,x(t)为t时刻输入状态,h(t-1)表示t-1时刻的隐层信息,g(t)表示t时刻输入门的输出数值,i(t)表示t时刻输入门的状态,·表示点乘处理,f为遗忘门的输出数值,s为细胞状态,*表示矩阵相乘,s(t-1)为前一个计数时刻的细胞状态,s(t)为当前时刻的细胞状态,f(t)为当前时刻遗忘门的输出数值;利用下式确定LSTM的输出:其中,t表示时间计数,x为LSTM中的细胞单元,h为隐藏单元,b为偏置量,W为权重,t-1为当前计数时间时刻的前一个时间,o表示输出门的输出状态,s为细胞状态,σ为输出门控制参数,·表示点乘处理,*表示矩阵相乘,x(t)为t时刻输入状态,h(t-1)表示t-1时刻的隐层信息,s(t)为当前时刻的细胞状态,o(t)为当前时刻输出门的输出状态,h(t)表示t时刻的隐层信息,Woh为输出门的自环权重,Wox为输出门的输入权重,bo为输出门的偏置;将LSTM的输出确定为模板行特征向量。
第二方面,本公开实施例提供了一种数据关系抽取及显示装置,包括:接受单元,被配置成获取表格和预先确定的数据库;处理单元,被配置成基于表格,查找标题行;生成单元,被配置成响应于查找到标题行,将标题行与预先确定的数据库进行匹配,抽取目标数据关系集合。
第三方面,本公开实施例提供了一种终端设备,该终端设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。
本公开实施例提供一种数据关系抽取及显示方法,获取表格和预先确定的数据库;基于表格,查找标题行;响应于查找到标题行,将标题行与预先确定的数据库进行匹配,抽取目标数据关系集合;将目标数据关系集合发送至支持显示功能的设备,控制设备展示目标数据关系集合。
本公开的上述各个实施例中的一个实施例具有如下有益效果:在接收到的表格中自动查找到标题行,将标题行与预先确定的数据库进行匹配,自动抽取表格和数据库之间的目标数据关系集合以及显示。该方法自动识别表格中的标题行,通过将标题行与数据库进行匹配,自动抽取数据关系集合并显示,为用户识别和使用数据关系信息提供依据。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一些实施例可以应用于其中的示例性***的架构图;
图2是根据本公开的数据关系抽取及显示方法的一些实施例的流程图;
图3是根据本公开的数据关系抽取及显示装置的一些实施例的结构示意图;
图4是适于用来实现本公开的一些实施例的终端设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的数据关系抽取及显示方法的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文本处理应用、信息显示应用、问答***应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种终端设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的终端设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103输入的支付信息和第一候选信息列表进行处理,并提供信息显示功能服务器,或者是对终端设备101、102、103输入的信息进行处理,并提供信息显示功能服务器等。
需要说明的是,本公开实施例所提供的数据关系抽取及显示方法一般由服务器105执行,相应地,用于最终显示数据关系的装置一般设置于服务器105中。
需要指出的是,服务器105的本地也可以直接存储数据,服务器105可以直接提取本地的表格和数据库通过处理得到数据关系显示结果,此时,示例性***架构100可以不包括终端设备101、102、103和网络104。
还需要指出的是,终端设备101、102、103中也可以安装有数据关系显示类应用,此时,数据关系抽取及显示方法也可以由终端设备101、102、103执行。此时,示例性***架构100也可以不包括服务器105和网络104。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供数据关系显示服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的数据关系抽取及显示方法的一些实施例的流程200。该用于信息显示方法,包括以下步骤:
步骤201,获取表格和预先确定的数据库。
在一些实施例中,数据关系抽取及显示方法的执行主体(例如图1所示的服务器)获取表格和预先确定的数据库。其中,表格是一种二维的结构化的数据。表格具有表格名称。具体的,表格可以包括第一数目个页。页是由行和列构成的网格。网格由标题行和单元格组成。网格中的单元格存放数字或文本。网格中的标题行的内容可以是文本型的。每个单元格的坐标由垂直方向和水平方向两个维度的坐标组成,坐标表示单元格所在的行号和列号,行号和列号最小可以为1。相邻的单元格可以合并为一个单元格,合并单元格的坐标可以为其左上角的最小单元格坐标。多列单元格合并组成的单元格称为列合并单元格,多行单元格合并组成的单元格成为行合并单元格。
可选的,预先确定的数据库可以是按照数据结构来组织、存储和管理数据的仓库,是以一定方式储存在一起、能与多个用户共享的数据集合。具体的,预先确定的数据库可以是人员信息数据库,包括“姓名”、“员工账号”、“手机号”、“身份证号”、“工号”、“邮箱”等字段。数据库中的字段是指数据库中存储的一个专题的信息。字段可以是数据库中存储表的一列。每个字段描述数据库中所存储数据的一个特征,并具有唯一的供计算机识别的字段标识符。
步骤202,基于表格,查找标题行。
在一些实施例中,上述执行主体基于表格,查找标题行。响应于第一数目等于1,表格由一个页面组成。在该页面中执行如下逐行查找步骤一:
逐行查找步骤一。在该页面从行号为“1”的第一行起进行查找,在第四数目行中进行查找。具体的,可以查找该行中的单元格是否有“姓名”。第四数目可以是“30”。
响应于查找到“姓名”,将该行确定为标题行。
可选的,响应于所述第一数目大于1,表格由多个页面组成。从第一个页面开始查找标题行。对每个页面都执行上述逐行查找步骤一。响应于查找到“姓名”,将该行确定为标题行。
可选的,表格可以其它数据格式提供。具体的,表格可以存储为JSON(JavaScriptObject Notation,对象标记)格式数据。其中,JSON数据里包括标题行和单元格内容。可以直接在JSON格式数据中查找到标注为“标题行”的标题行。JSON是一种数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据。
使用基于字符匹配的方式进行标题行的查找,查找速度快,确定标题行的工作效率高。
在一些实施例的一些可选的实现方式中,对于表格中的每个行,上述执行主体可以将该行输入预先确定的特征提取模型,生成该行的行特征向量,以得到表格的行特征向量集合。具体的,可以将预先确定的包含“姓名”的行作为模板行。可以将模板行确定为查找标题行的匹配依据。模板行可以表示为“姓名”,模板行也可以表示为“员工姓名”。将模板行输入预先确定的特征提取模型,生成模板行特征向量。
可选的,预先训练的特征提取模型由LSTM(Long Short-Term Memory,长短期记忆网络)组成。LSTM可以由细胞状态、输入门、遗忘门、输出门组成。具体的,执行如下步骤二确定LSTM的网络结构和网络参数。
步骤二:确定LSTM的网络结构和网络参数。
第一步,更新网络结构信息x(t),其中t表示时间计数,x为LSTM中的细胞单元。选择要记忆以往的信息,通过遗忘门实现。状态单元是LSTM循环机制的关键,具备线性自环功能,即将早期信息直接传递到当前的状态计算中,但自环的权重由遗忘门控制,遗忘门中的sigmoid函数输出权重数值在0到1之间,遗忘门公式如下所示:
f(t)=σ(Wfh·h(t-1)+Wfx·x(t)+bf),
其中t表示时间计数,t-1为当前计数时刻的前一个时间。x为LSTM中的细胞单元,h为隐藏单元,b为偏置量,f为遗忘门的输出数值,σ表示遗忘门控制参数,W为权重。Wfh为遗忘门自环权重,Wfx为遗忘门输入权重,bf为遗忘门的偏置,x(t)为t时刻输入状态,h(t-1)表示t-1时刻的隐层信息,包含所有LSTM细胞的输出信息。·表示点乘处理,f(t)表示t时刻的遗忘门输出数值。
第二步,更新细胞状态s(t),其中t表示时间计数,s为LSTM中细胞单元的状态信息。计算当前的信息中有多少是有用信息,并将有用信息存储下来,称之为输入门。输入门决定了当前的输入信息中哪些信息将会被写入到细胞记忆中。输入门和状态输入的更新方式类似于遗忘门,但自身参数不同,更新公式如下:
其中,t表示时间计数,x为LSTM中的细胞单元,h为隐藏单元,b为偏置量,g为输入门的输出数值,W为权重,t-1为当前计数时刻的前一个时间,i表示输入门的状态。Wgh为输入门自环权重,Wgx为输入门输入权重,bg为输入门的偏置,Wih为状态输入自环权重,Wix为状态输入权重,bi为状态输入偏置,σ为输入门控制参数。x(t)为t时刻输入状态,h(t-1)表示t-1时刻的隐层信息。g(t)表示t时刻输入门的输出数值,i(t)表示t时刻输入门的状态。·表示点乘处理。
由遗忘门和输入门和状态的公式可知细胞状态更新如下:
s(t)=f(t)*s(t-1)+g(t)*i(t),
其中,t表示时间计数,t-1为当前计数时刻的前一个时间,i表示输入门的状态,g为输入门的输出数值,f为遗忘门的输出数值,s为细胞状态。*表示矩阵相乘。s(t-1)为前一个计数时刻的细胞状态,s(t)为当前时刻的细胞状态,f(t)为当前时刻遗忘门的输出数值,g(t)为当前时刻输入门的输出数值,i(t)为当前时刻输入门的状态。
第三步,当前细胞状态由遗忘门和输入门共同决定,通过输出门决定那些信息将被输出。首先,运行激活层控制细胞状态的输出信息比例。具体的,激活层可以使用Sigmoid函数。然后将输出状态通过函数处理,将数值规范化到-1和1之间,并将其乘以输出门的Sigmoid函数。最终,得到决定输出门的信息,计算公式如下所示:
其中,t表示时间计数,x为LSTM中的细胞单元,h为隐藏单元,b为偏置量,W为权重,t-1为当前计数时间时刻的前一个时间,o表示输出门的输出状态,s为细胞状态。σ为输出门控制参数。·表示点乘处理,*表示矩阵相乘。x(t)为t时刻输入状态,h(t-1)表示t-1时刻的隐层信息,s(t)为当前时刻的细胞状态,o(t)为当前时刻输出门的输出状态,h(t)表示t时刻的隐层信息。Woh为输出门的自环权重,Wox为输出门的输入权重,bo为输出门的偏置。
可选的,将预先确定的模板行输入预先确定的特征提取模型。预先确定的特征提取模型的输出确定为模板行特征向量。对于表格中的每个行,将该行输入预先确定的特征提取模型。预先确定的特征提取模型的输出确定为该行的行特征向量,以得到表格的行特征向量集合。
可选的,对于行特征向量集合中的每个行特征向量,计算该行特征向量与模板行特性向量的相似度,得到相似度集合。基于相似度集合,确定标题行。将行特征向量集合中的每个行特征向量与模板行特征向量比较。具体的,可以使用夹角余弦方法计算该行特征向量与模板行特征向量的相似度。夹角余弦方法可以计算为:令该行特征向量乘以模板行特征向量再除以该行特征向量的模和模板行特征向量的模的乘积。
对于相似度集合,响应于行特征向量集合中的行特征向量与模板行特征向量的相似度值小于预先确定的阈值,将该行特征向量对应的行确定为标题行。使用基于特征提取模型的方法查找标题行,能够实现对标题行中关键词的模糊匹配,从而查找到具有相关含义匹配项的标题行,提高匹配的准确度。
可选的,响应于未查找到标题行,将目标数据关系集合确定为空集。
步骤203,响应于查找到标题行,将标题行与预先确定的数据库进行匹配,抽取目标数据关系集合。
在一些实施例中,上述执行主体将标题行与预先确定的数据库进行匹配。具体的,通过进行标题行与预先确定的数据库中的字段进行字符匹配来完成匹配。
可选的,基于预先确定的数据库,确定匹配指标序列。其中,匹配指标序列包括第二数目个匹配指标。具体的,匹配指标序列可以是{“员工账号”、“手机号”、“身份证号”、“工号”、“邮箱”}。
可选的,对于匹配指标序列中的每个匹配指标,在标题行中查找该匹配指标。响应于在标题行中查找到匹配指标序列中的匹配指标,将表格名称与所查找到的匹配指标组成的集合,确定为目标数据关系集合。具体的目标数据关系集合可以是(“第一表格”,“员工帐号”),目标数据关系集合也可以是(“表格3”,“工号”),目标数据关系集合也可以是(“A表格”,“身份证号”)。
响应于在标题行中未查找到匹配指标序列中的匹配指标,将目标数据关系集合确定为第一类数据关系集合。具体的,第一类数据关系集合可以是(“A表格”,“”)。
可选的,响应于预先确定的数据库包含的数据条数超过预先设定的阈值,将数据库切分成子数据库集合。其中,子数据库集合中包括第三数目个子数据库。具体的,阈值可以是“100000”。对于子数据库集合中的每个子数据库,将该子数据库与标题行进行匹配,抽取该子数据库的子目标数据关系集合,得到目标数据关系集合。
可选的,上述执行主体将目标数据关系集合发送至支持显示功能的设备,控制设备展示目标数据关系集合。例如,目标数据关系集合中包含了表格与数据库中人员信息之间的对应关系,将该目标数据关系集合发送至支持显示的设备,设备展示该目标数据关系集合。该目标数据关系集合的显示有助于缩短用户判断表格和数据库之间关系的时间,提高了用户处理效率。本实现方式可用于工资条生成等领域,有利于提示用户判断异构数据之间的关系,提升用户的工作效率。
图2给出的一个实施例具有如下有益效果:在接收到的表格中自动查找到标题行,将标题行与预先确定的数据库进行匹配,自动抽取表格和数据库之间的目标数据关系集合以及显示。该方法自动识别表格中的标题行,通过将标题行与数据库进行匹配,自动抽取数据关系集合并显示,为用户识别和使用数据关系信息提供依据。
进一步参考图3,作为对上述各图所示方法的实现,本公开提供了一种数据关系信息显示装置的一些实施例,这些装置实施例与图2所示的数据关系信息显示方法的实施例相对应,该装置具体可以应用于各种终端设备中。
如图3所示,一些实施例的数据关系信息显示装置300包括:接收单元301、处理单元302、生成单元303。其中,接收单元301,被配置成获取表格和预先确定的数据库。处理单元302,被配置成基于表格,查找标题行。生成单元303,被配置成响应于查找到标题行,将标题行与预先确定的数据库进行匹配,抽取目标数据关系集合。整个处理过程无须人工干预,可自动查找到表格中的标题行,自动抽取表格与预先确定的数据库中的目标数据关系集合,提升了异构数据关系分析的自动化程度和便利性。
下面参考图4,其示出了适于用来实现本公开实施例的终端设备的计算机***400的结构示意图。图4示出的终端设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,计算机***400包括中央处理单元(CPU,Central Processing Unit)401,其可以根据存储在只读存储器(ROM,Read Only Memory)402中的程序或者从存储部分408加载到随机访问存储器(RAM,Random Access Memory)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有***400操作所需的各种程序和数据。CPU 401、ROM402以及RAM 403通过总线404彼此相连。输入/输出(I/O,Input/Output)接口405也连接至总线404。
以下部件连接至I/O接口405:包括硬盘等的存储部分406;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分407。通信部分407经由诸如因特网的网络执行通信处理。驱动器408也根据需要连接至I/O接口405。可拆卸介质409,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器408上,以便于从其上读出的计算机程序根据需要被安装入存储部分406。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分407从网络上被下载和安装,和/或从可拆卸介质409被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本公开的方法中限定的上述功能。需要说明的是,本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种数据关系信息显示方法,包括:
获取表格和预先确定的数据库;
基于所述表格,查找标题行;
响应于查找到所述标题行,将所述标题行与所述预先确定的数据库进行匹配,抽取目标数据关系集合;
将所述目标数据关系集合发送至支持显示功能的设备,控制所述设备展示目标数据关系集合。
2.根据权利要求1所述的方法,其中,所述表格具有表格名称,所述表格包括第一数目个页,所述页是由行和列构成的网格,所述网格中的单元格存放数字或文本。
3.根据权利要求2所述的方法,其中,所述基于所述表格,查找标题行,包括:
响应于所述第一数目等于1,逐行查找所述标题行;
响应于所述第一数目大于1,逐页查找所述标题行。
4.根据权利要求3所述的方法,其中,所述方法还包括:
响应于未查找到所述标题行,将所述目标数据关系集合确定为空集。
5.根据权利要求4所述的方法,其中,所述将所述标题行与所述预先确定的数据库进行匹配,抽取目标数据关系集合,包括:
基于所述数据库,确定匹配指标序列,其中,所述匹配指标序列包括第二数目个匹配指标;
对于所述匹配指标序列中的每个匹配指标,在所述标题行中查找该匹配指标;
响应于在所述标题行中查找到所述匹配指标序列中的匹配指标,将所述表格名称与所查找到的匹配指标组成的集合,确定为所述目标数据关系集合;
响应于在所述标题行中未查找到所述匹配指标序列中的匹配指标,将所述目标数据关系集合确定为第一类数据关系集合。
6.根据权利要求5所述的方法,其中,所述方法还包括:
响应于所述预先确定的数据库包含的数据条数超过预先设定的阈值,将所述数据库切分成子数据库集合,其中,所述子数据库集合中包括第三数目个子数据库;
对于所述子数据库集合中的每个子数据库,将该子数据库与所述标题行进行匹配,抽取该子数据库的子目标数据关系集合,得到目标数据关系集合。
7.根据权利要求6所述的方法,其中,所述方法还包括:
对于所述表格中的每个行,将该行输入预先确定的特征提取模型,生成该行的行特征向量,以得到所述表格的行特征向量集合;
将预先确定的模板行输入预先确定的特征提取模型,生成模板行特征向量;
对于所述行特征向量集合中的每个行特征向量,计算该行特征向量与所述模板行特性向量的相似度,得到相似度集合;
基于所述相似度集合,确定所述标题行。
8.根据权利要求7所述的方法,其中,所述预先确定的特征提取模型由长短期记忆网络LSTM组成,LSTM由细胞状态、输入门、遗忘门、输出门组成;以及
将预先确定的模板行输入预先确定的特征提取模型,生成模板行特征向量,包括:
将预先确定的模板行输入预先确定的特征提取模型;
利用下式更新LSTM中的网络结构信息:f(t)=σ(Wfh·h(t-1)+Wfx·x(t)+bf),其中t表示时间计数,t-1为当前计数时刻的前一个时间,x为LSTM中的细胞单元,h为隐藏单元,b为偏置量,f为遗忘门的输出数值,σ表示遗忘门控制参数,W为权重,Wfh为遗忘门自环权重,Wfx为遗忘门输入权重,bf为遗忘门的偏置,x(t)为t时刻输入状态,h(t-1)表示t-1时刻的隐层信息,f(t)表示t时刻遗忘门的输出数值,·表示点乘处理;
利用下式更新LSTM中的细胞状态s(t):其中,t表示时间计数,x为LSTM中的细胞单元,h为隐藏单元,b为偏置量,g为输入门的输出数值,W为权重,t-1为当前计数时刻的前一个时间,i表示输入门的状态,Wgh为输入门自环权重,Wgx为输入门输入权重,bg为输入门的偏置,Wih为状态输入自环权重,Wix为状态输入权重,bi为状态输入偏置,σ为输入门控制参数,x(t)为t时刻输入状态,h(t-1)表示t-1时刻的隐层信息,g(t)表示t时刻输入门的输出数值,i(t)表示t时刻输入门的状态,·表示点乘处理,f为遗忘门的输出数值,s为细胞状态,*表示矩阵相乘,s(t-1)为前一个计数时刻的细胞状态,s(t)为当前时刻的细胞状态,f(t)为当前时刻遗忘门的输出数值;
利用下式确定LSTM的输出:其中,t表示时间计数,x为LSTM中的细胞单元,h为隐藏单元,b为偏置量,W为权重,t-1为当前计数时间时刻的前一个时间,o表示输出门的输出状态,s为细胞状态,σ为输出门控制参数,·表示点乘处理,*表示矩阵相乘,x(t)为t时刻输入状态,h(t-1)表示t-1时刻的隐层信息,s(t)为当前时刻的细胞状态,o(t)为当前时刻输出门的输出状态,h(t)表示t时刻的隐层信息,Woh为输出门的自环权重,Wox为输出门的输入权重,bo为输出门的偏置;
将所述LSTM的输出确定为模板行特征向量。
9.一种数据关系抽取及显示装置,包括:
接受单元,被配置成获取表格和预先确定的数据库;
处理单元,被配置成基于所述表格,查找标题行;
生成单元,被配置成响应于查找到所述标题行,将所述标题行与所述预先确定的数据库进行匹配,抽取目标数据关系集合。
10.一种第一终端设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010697320.2A CN111897884B (zh) | 2020-07-20 | 2020-07-20 | 数据关系信息显示方法、终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010697320.2A CN111897884B (zh) | 2020-07-20 | 2020-07-20 | 数据关系信息显示方法、终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111897884A true CN111897884A (zh) | 2020-11-06 |
CN111897884B CN111897884B (zh) | 2024-02-23 |
Family
ID=73191068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010697320.2A Active CN111897884B (zh) | 2020-07-20 | 2020-07-20 | 数据关系信息显示方法、终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897884B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818937A (zh) * | 2021-03-02 | 2021-05-18 | 广联达科技股份有限公司 | Excel文件的识别方法、装置、电子设备及可读存储介质 |
CN112818937B (zh) * | 2021-03-02 | 2024-06-28 | 广联达科技股份有限公司 | Excel文件的识别方法、装置、电子设备及可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105518667A (zh) * | 2014-06-30 | 2016-04-20 | 微软技术许可有限责任公司 | 理解供搜索的表格 |
CN109740130A (zh) * | 2018-11-22 | 2019-05-10 | 厦门市美亚柏科信息股份有限公司 | 用于生成文件的方法和装置 |
CN110598194A (zh) * | 2019-08-09 | 2019-12-20 | 平安科技(深圳)有限公司 | 一种非满格表格内容提取方法、装置及终端设备 |
CN110704570A (zh) * | 2019-08-13 | 2020-01-17 | 北京众信博雅科技有限公司 | 一种连续页版式文档结构化信息提取方法 |
CN110795654A (zh) * | 2019-10-29 | 2020-02-14 | 深圳前海环融联易信息科技服务有限公司 | 网页数据展示方法、装置、计算机设备及存储介质 |
CN110795919A (zh) * | 2019-11-07 | 2020-02-14 | 达而观信息科技(上海)有限公司 | 一种pdf文档中的表格抽取方法、装置、设备及介质 |
CN111695330A (zh) * | 2020-06-30 | 2020-09-22 | 望海康信(北京)科技股份公司 | 生成表格的方法、装置、电子设备及计算机可读存储介质 |
-
2020
- 2020-07-20 CN CN202010697320.2A patent/CN111897884B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105518667A (zh) * | 2014-06-30 | 2016-04-20 | 微软技术许可有限责任公司 | 理解供搜索的表格 |
CN109740130A (zh) * | 2018-11-22 | 2019-05-10 | 厦门市美亚柏科信息股份有限公司 | 用于生成文件的方法和装置 |
CN110598194A (zh) * | 2019-08-09 | 2019-12-20 | 平安科技(深圳)有限公司 | 一种非满格表格内容提取方法、装置及终端设备 |
CN110704570A (zh) * | 2019-08-13 | 2020-01-17 | 北京众信博雅科技有限公司 | 一种连续页版式文档结构化信息提取方法 |
CN110795654A (zh) * | 2019-10-29 | 2020-02-14 | 深圳前海环融联易信息科技服务有限公司 | 网页数据展示方法、装置、计算机设备及存储介质 |
CN110795919A (zh) * | 2019-11-07 | 2020-02-14 | 达而观信息科技(上海)有限公司 | 一种pdf文档中的表格抽取方法、装置、设备及介质 |
CN111695330A (zh) * | 2020-06-30 | 2020-09-22 | 望海康信(北京)科技股份公司 | 生成表格的方法、装置、电子设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
余承健;: "基于表格语义的Web信息抽取方法的研究", 电脑知识与技术, no. 12 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818937A (zh) * | 2021-03-02 | 2021-05-18 | 广联达科技股份有限公司 | Excel文件的识别方法、装置、电子设备及可读存储介质 |
CN112818937B (zh) * | 2021-03-02 | 2024-06-28 | 广联达科技股份有限公司 | Excel文件的识别方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111897884B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN110069698B (zh) | 信息推送方法和装置 | |
US11238050B2 (en) | Method and apparatus for determining response for user input data, and medium | |
CN114861889A (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
CN110737824B (zh) | 内容查询方法和装置 | |
CN107766498B (zh) | 用于生成信息的方法和装置 | |
CN113435859A (zh) | 信访件处理方法、装置、电子设备和计算机可读介质 | |
CN110674300B (zh) | 用于生成信息的方法和装置 | |
CN110059172B (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
CN111339784A (zh) | 一种新话题的自动挖掘方法和*** | |
CN114398466A (zh) | 基于语义识别的投诉分析方法、装置、计算机设备及介质 | |
CN114153995A (zh) | 医学术语的处理方法、装置、计算机设备和存储介质 | |
EP4134885A2 (en) | Method and apparatus of recommending data, electronic device, and medium | |
US20220327147A1 (en) | Method for updating information of point of interest, electronic device and storage medium | |
CN111897884B (zh) | 数据关系信息显示方法、终端设备 | |
CN115238077A (zh) | 基于人工智能的文本分析方法、装置、设备及存储介质 | |
CN115470790A (zh) | 一种识别文件中的命名实体的方法和装置 | |
CN114691850A (zh) | 生成问答对的方法、神经网络模型的训练方法和装置 | |
CN114637831A (zh) | 基于语义分析的数据查询方法及其相关设备 | |
CN110472055B (zh) | 用于标注数据的方法和装置 | |
CN109885647B (zh) | 用户履历验证方法、装置、电子设备及存储介质 | |
CN113111897A (zh) | 基于支持向量机的接警警情类别确定方法和装置 | |
CN113190643B (zh) | 信息生成方法、终端设备和计算机可读介质 | |
CN117312535B (zh) | 基于人工智能的问题数据处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211117 Address after: 100094 4th floor, building 21, East District, UFIDA Industrial Park, Haidian District, Beijing Applicant after: Beijing UFIDA Digital Technology Co.,Ltd. Address before: 100094 4th floor, block C, building 8, Central District, UFIDA Industrial Park, Haidian District, Beijing Applicant before: BEIJING YONYOU XINFU SHEYUN TECHNOLOGY CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |