CN106649890B - 数据存储方法和装置 - Google Patents

数据存储方法和装置 Download PDF

Info

Publication number
CN106649890B
CN106649890B CN201710066733.9A CN201710066733A CN106649890B CN 106649890 B CN106649890 B CN 106649890B CN 201710066733 A CN201710066733 A CN 201710066733A CN 106649890 B CN106649890 B CN 106649890B
Authority
CN
China
Prior art keywords
data
vector
classification model
type
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710066733.9A
Other languages
English (en)
Other versions
CN106649890A (zh
Inventor
程力
王云
仇瑜
马超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuiyun Network Technology Service Co ltd
Original Assignee
Shuiyun Network Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuiyun Network Technology Service Co ltd filed Critical Shuiyun Network Technology Service Co ltd
Priority to CN201710066733.9A priority Critical patent/CN106649890B/zh
Publication of CN106649890A publication Critical patent/CN106649890A/zh
Application granted granted Critical
Publication of CN106649890B publication Critical patent/CN106649890B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了数据存储方法和装置。上述方法的一具体实施方式包括:获取待存储的数据的特征信息,上述特征信息包括以下至少一项:上述数据所属的数据表中的数据表项的名称、指示上述数据的统计特征的统计特征信息、关键词;将上述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量,上述数据分类模型基于预先利用训练样本以有监督方式进行训练而生成,上述训练样本包括:已存储数据的上述特征信息、经标注的上述已存储数据的类型;将上述数据存储在上述类型对应的存储区域。该方法在节省存储空间的同时可以快速的存储数据。

Description

数据存储方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及数据存储方法和装置。
背景技术
数据存储是对数据的采集、存储、检索、加工、变换和传输。在现有的数据存储中,尤其是在财务、税务领域的数据存储过程中,通常根据业务的需要,首先人工定义好数据特征以及与数据特征相对应的数据类型而进行存储,以便于后续的财务核算。
然而,现有的应用于财务、税务领域的数据存储***首先缺乏对非结构化数据进行分析处理能力,其次,由于不同的财务核算***之间存在较大的差异,根据不同的核算***,需要多次定义数据特征以及匹配规则来进行存储,增加数据存储的繁琐度的同时,占用了大量的存储空间,降低了数据的利用效率。
发明内容
本申请的目的在于提出一种改进的数据存储方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种数据存储方法,上述方法包括:获取待存储的数据的特征信息,上述特征信息包括以下至少一项:上述数据所属的数据表中的数据表项的名称、指示上述数据的统计特征的统计特征信息、关键词;将上述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量,上述数据分类模型基于预先利用训练样本以有监督方式进行训练而生成,上述训练样本包括:已存储数据的上述特征信息、经标注的上述已存储数据的类型;将上述数据存储在上述类型对应的存储区域。
在一些实施例中,上述数据分类模型为决策树模型。
在本实施例的一些可选的实现方式中,上述数据为数据表中的数据,上述特征信息包括:上述数据所属的数据表中的数据表项的名称、统计特征信息;以及将上述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量包括:生成特征信息对应的数据表特征向量,上述数据表特征向量包括:表示上述数据所属的数据表中的数据表项的名称的分量、表示统计特征信息的分量;生成依次包含上述数据表特征向量和零向量的数据分类模型的第一输入向量;将上述第一输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量。
在一些实施例中,上述统计特征信息包括:指示上述数据表项之间的关联关系的关联信息、上述数据的长度的平均值、上述数据的长度的最大值、上述数据的长度的最小值、上述数据中的字符的类型。
在本实施例的一些可选的实现方式中,上述数据为文本数据,上述特征信息为关键词;以及将上述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量包括:生成特征信息对应的关键词特征向量,其中,关键词特征向量中每一个关键词对应一个分量;生成依次包含零向量和上述关键词特征向量的数据分类模型的第二输入向量;
在一些实施例中,将上述第二输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量。
第二方面,本申请提供了一种数据存储装置,上述装置包括:获取单元,配置用于获取待存储的数据的特征信息,上述特征信息包括以下至少一项:上述数据所属的数据表中的数据表项的名称、指示上述数据的统计特征的统计特征信息、关键词;输入单元,配置用于将上述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量,上述数据分类模型基于预先利用训练样本以有监督方式进行训练而生成,上述训练样本包括:已存储数据的上述特征信息、经标注的上述已存储数据的类型;存储单元,配置用于将上述数据存储在上述类型对应的存储区域。
在一些实施例中,上述数据分类模型为决策树模型。
在一些实施例中,上述数据为数据表中的数据,上述特征信息包括:上述数据所属的数据表中的数据表项的名称、统计特征信息,以及上述输入单元包括:数据表特征向量生成子单元,配置用于生成特征信息对应的数据表特征向量,上述数据表特征向量包括:表示上述数据所属的数据表中的数据表项的名称的分量、表示统计特征信息的分量;第一输入向量生成子单元,配置用于生成依次包含上述数据表特征向量和零向量的数据分类模型的第一输入向量;输出向量生成子单元,配置用于将上述第一输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量。
在一些实施例中,上述统计特征信息包括:指示上述数据表项之间的关联关系的关联信息、上述数据的长度的平均值、上述数据的长度的最大值、上述数据的长度的最小值、上述数据中的字符的类型。
在一些实施例中,上述数据为文本数据,上述特征信息为关键词,以及上述输入单元包括:关键词特征向量生成子单元,配置用于生成特征信息对应的关键词特征向量,其中,关键词特征向量中每一个关键词对应一个分量;第二输入向量生成子单元,配置用于生成依次包含零向量和上述关键词特征向量的数据分类模型的第二输入向量;输出向量生成子单元,配置用于将上述第二输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量。
本申请提供的数据存储方法和装置,通过获取待存储的数据的特征信息,接着将特征信息转换成输入向量输入到有监督训练的数据分类模型中,并将从数据分类模型中输出的数据向量存储在与数据类型对应的存储区域,从而根据数据类型对数据进行有效的分类,节省了数据存储区域的存储空间。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的数据存储方法的一个实施例的流程图;
图3是根据本申请的数据存储方法的又一个实施例的流程图;
图4是根据本申请的数据存储装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的数据存储方法或数据存储装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如网页浏览器应用、数据核算类应用、财务报表类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上运行的应用提供数据支持的后台数据处理服务器,还可以是从各个数据源中采集数据的服务器。后台数据处理服务器可以对从数据源中获取到的数据进行分析处理,并将处理结果进行存储并反馈给终端设备。
需要说明的是,本申请实施例所提供的数据存储方法一般由服务器105执行,相应地,数据存储装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的数据存储方法的一个实施例的流程图200。所述的数据存储方法,包括以下步骤:
步骤201,获取待存储的数据的特征信息。
在本实施例中,数据存储方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式获取待存储数据的数据源信息,并根据数据源信息获取待存储的数据。这里,数据源是指提供所需数据的原始媒体或由存储器件所支持的数据库。数据源信息是指建立数据库连接所需的信息。在根据数据源信息获取待存储数据时,可以从网络、数据库或者与财务***有关的应用中获取待存储的数据。
在从数据库中获取待存储的数据时,上述电子设备可以通过向支持数据库的服务器提供正确的数据源名称,找到相应的数据库连接关系,进而从相应的数据源获取到待存储的数据。
在从企业的财务***中获取待存储的数据时,数据源信息可以包括财务内部信息以及外部信息,其中内部信息可以包括各种业务处理数据和各类文档数据,外部信息可以包括各类法律法规、市场信息等。
在本实施例中,当服务器从数据源中获取到待存储的数据后,可以进一步获取待存储的数据的特征信息,其中,待存储的数据的特征信息包括以下至少一项:上述待存储的数据所属的数据表中的数据表项的名称、指示数据的统计特征的统计特征信息以及关键词。在这里,上述数据表可以设置于上述数据库中,用于存放上述待存储的数据。其中,一个数据表可以设置一个名称,该名称例如可以为部门名称、经费、员工等。上述统计特征可以为数据的数量、数据的长度等。当上述待存储的数据为文本数据时,上述特征信息可以为用以指示该文本内容的关键词。例如,当上述文本数据为“A部门的科研经费”时,上述关键词可以为“A部门”、“科研经费”。
在本实施例的一些可选的实现方式中,上述统计特征信息包括指示上述数据表项之间的关联关系的关联信息、数据的长度的平均值、数据的长度的最大值、数据的长度的最小值、数据中的字符的类型。
作为示例,服务器首先从多个数据源中获取到待存储的数据。接着,服务器可进一步获取到待存储的数据在数据库中所属的数据表中的数据表项的名称,例如,其中一个待存储的数据在数据库中所属的数据表中的数据表项的名称为“部门工资”,另一个待存储的数据在数据库中所属的数据表中的数据表项的名称为“绩效工资”。服务器还可以获取上述待存储的数据的统计特征信息,例如,服务器可以获取“部门工资”这一数据的数据长度的平均值,也可以获取“绩效工资”这一数据的数据长度的最小值和最大值。
步骤202,将特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示数据的类型的输出向量。
在本实施例中,根据步骤201中获取到的待存储的数据的特征信息,服务器可以根据特征信息构建用于表示待存储的数据的多个特征的多维向量作为数据分类模型的输入向量。该输入向量包括表示数据表项的名称的分量、表示数据的统计特征的统计特征分量、表示关键词的特征分量。接着将输入向量输入到数据分类模型中,从而得到指示待存储的数据的类型的输出向量。输出向量可以包括各个预设数据的类型分量、待存储的数据与数据的类型之间的匹配度分量。相互对应的待存储的数据与数据的类型之间可以使用匹配度表示其对应关系的强弱。通常,匹配度越高,待存储的数据则属于该数据的类型的概率越大。
数据的类型可以包括用于表示各类事物的名称例如部门名称、文档名称的字符串数据类型,还可以包括用于表示数字例如整数、浮点、正数、负数的数据类型,还可以包括用于表示日期和时间的数据类型,还可以包括用于表示货币的数据类型等。
数据分类模型可以用于描述待存储的数据(例如数据表中的数据)和数据的类型(例如表示数字的数据类型)的对应关系。数据分类模型是将已存储数据的特征信息、与已存储数据的特征信息匹配的经标注的已存储数据的类型以及已存储数据的特征信息与已存储数据的类型之间的匹配度作为训练样本以有监督学习方式通过机器学习的方法进行训练而成。
其中,有监督学习方式可以通过如下步骤进行:
首先,将已存储数据作为训练样本,服务器获取已存储的数据的特征信息。例如,当已存储的数据为数据库中的数据时,由于数据库中存在多个数据表,服务器可以获取已存储数据的数据表项的名称、可以获取已存储数据的字符的类型等;当已存储的数据为文本数据时,服务器可以获取已存储数据的关键词作为特征信息。
接着,为已存储数据设置数据的类型标签,例如该标签可以为表示数字的数据类型、表示日期的数据类型、表示文本的数据类型等。
再次,基于已存储数据的数据类型标签与已存储数据的特征信息,建立已存储数据的数据的类型与已存储数据的特征信息之间的匹配度。由于一个已存储数据样本具有至少一个特征信息,而每一个已存储数据样本均对应一个数据的类型标签,服务器可以根据设定的算法计算出已存储数据的数据的类型与已存储数据的特征信息之间的匹配度。
最后,利用机器学习方法,基于已存储数据的特征信息、与已存储数据的特征信息匹配的经标注的已存储数据的类型以及已存储数据的特征信息与已存储数据的类型之间的匹配度进行数据分类模型训练。
上述机器学习的方法可以包括神经网络、遗传算法等方法。
以“部门名称”这一待存储的数据为例,对本步骤进行阐述。“部门名称”这个词在不同的应用场景中的名字均不相同,在有的***中可以叫“部门”,在另一***中可能会叫“department”,而在又一个***中会起名为“depart”,但他们的类别均为“部门名称”。因此,在一个***中,当待存储的数据为以上任意一种时,可以将步骤201中获取到的与以上名称有关的特征信息转换为数据分类模型的输入向量输入到数据分类模型中进行匹配,得到指示上述待存储的数据的类型的输出向量,服务器可以根据该输出向量确定上述待存储的数据类型为“部门名称”。
步骤203,将数据存储在输出向量所指示的数据的类型对应的存储区域。
在本实施例中,根据步骤202中得到的数据分类模型的输出向量,可以确定数据所属的类型,从而将数据存储在上述类型对应的存储区域中。在服务器或客户端中为了便于对数据进行统一有效的管理,通常根据不同的数据类型来设置存储区域,服务器根据输出向量确定待存储的数据类型后,可以首先查找预设的存储区域中是否设置有该数据类型,若有,可以将待存储数据直接存储在该类型对应的存储区域中,若无,则服务器可以重新建立一新的存储区域来进行存储。
本申请实施例提供的数据存储方法,通过获取带存储的数据的特征信息,接着将特征信息转换为预先训练而成的数据分类模型的输入向量输入到数据分类模型中,得到指示数据的类型的输出向量,最后将数据存储在数据分类模型所指示的数据类型对应的存储区域,从而邮箱的对待存储的数据进行分类,在提高数据的存储效率的同时节约了数据的存储空间。
进一步参考图3,其示出了数据存储方法的又一个实施例的流程300。该数据存储方法的流程300,包括以下步骤:
步骤301,获取待存储的数据的特征信息。
现有的数据可以分很多种类型,按照数据是否可用二维表结构来逻辑表达实现,可以将数据划分为结构化数据和非结构化数据。结构化数据也即行数据,可以用统一的结构加以表示,例如数字、符号以及传统数据模型;非结构化数据是指数据的字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据,非结构化数据包括视频、音频、文档、文本图片、各类报表、图像、办公文档等。在财务***中存在大量数据表中的数据,即结构化数据,其特征信息可通过数据长度值、数据中的字符串的类型等等来表示;还存在着大量的文本数据,其特征信息可以通过关键词来表示。
在本实施例中,数据存储方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式获取待存储的数据的特征信息。当上述待存储的数据为数据表中的数据时,其特征信息包括以下至少一项:数据所属的数据表中的数据表项的名称,指示数据的统计特征的统计特征信息,指示数据的统计特征的统计特征信息还包括指示数据表项之间的关联关系的关联信息、数据的长度的平均值、数据的长度的最大值、数据的长度的最小值、数据中的字符的类型。当上述待存储的数据为文本数据时,其特征信息包括关键词。
在本实施例中,当待存储的数据为文本数据时,可以利用自然语言处理方法或者循环神经网路模型对文本数据进行切词、分词,从而确定文本数据中的关键词。
步骤302,生成特征信息对应的数据表特征向量。
根据步骤301中获取到的数据表中的待存储的数据的特征信息,在本实施例中,服务器可以将待存储的数据的特征信息生成数据表特征向量,其中,数据表特征向量包括表示数据所属的数据表中的数据表项的名称的分量、表示统计特征信息的分量。作为示例,在一个***中,待存储的数据“B”为“员工信息”,“员工的信息”如“性别”、“年龄”等可以在“员工的基本信息”这个数据表中存储,也可以利用主外键关系建立与“部门信息”这个数据表的关系来进行存储。与待存储的数据“B”相对应的特征向量为指示“员工信息”这一数据所属的数据表的表项的名称的分量、指示与“部门信息”之间的关联关系的分量、指示员工信息的数据的平均长度值的分量。
步骤303,生成依次包含数据表特征向量和零向量的数据分类模型的第一输入向量。
数据分类模型的输入向量可以包括结构化数据的特征向量和非结构化数据的特征向量两个部分,归结到一般的财务***中,数据分类模型的输入向量主要包括数据表特征向量和关键词特征向量两部分,当待存储的数据为数据表数据,即结构化数据时,可以将关键词特征向量表示成零向量的形式,当待存储的数据为文本数据,即非结构化数据时,可以将数据表特征向量表示成零向量的形式。
在本实施例中,服务器根据步骤301中确定的待存储的数据为数据表中的数据,并根据步骤302中确定的数据表中的数据的特征向量,服务器可以进一步生成数据分类模型的第一输入向量,该第一输入向量中依次包括步骤302中确定的数据表特征向量和零向量。
步骤304,生成特征信息对应的关键词特征向量。在本实施例中,当待存储的数据为文本数据时,由于文本数据的特征信息为关键词,在本步骤中,可以将与文本数据对应的关键词信息生成关键词特征向量,其中,关键词特征向量中每一个关键词对应一个分量。在本实施例中,可以利用向量空间模型来生成关键词特征向量,向量空间模型为现有的公知技术,在此不再赘述。作为示例,在某一个***中,存在有大量的文档、合同等非结构化的文本数据。当待存储的数据为“C公司合同”时,服务器根据获取到的“C公司合同”的特征信息“C公司”、“合同”等关键词分别生成与关键词“C公司”对应的关键词分量和与“合同”对应的关键词分量。
步骤305,生成依次包含零向量和关键词特征向量的数据分类模型的第二输入向量。
在本实施例中,服务器根据步骤301中确定的待存储的数据为文本数据,并根据步骤305中确定的文本数据的关键词向量,服务器可以进一步生成数据分类模型的第二输入向量,该输入向量中依次包括步骤305中确定的零向量和关键词向量
步骤306,将输入向量输入到数据分类模型,得到指示数据的类型的的输出向量。
在本实施例中,根据步骤303和步骤305中确定的数据分类模型的第一输入向量和第二输入向量,服务器可以将上述第一输入向量和第二输入向量分别输入到数据分类模型中,得到指示数据的类型的输出向量。输出向量可以包括各个预设数据的类型分量、待存储的数据与数据的类型之间的匹配度分量。在这里,数据分类模型可以首先根据输入向量首先确定待存储的数据为数据表中的数据还是文本数据,接着数据分类模型可以对上述两种数据进行分开来处理,从而分别根据第一输入向量和第二输入向量生成输出向量。例如,当服务器将待存储的数据“X”生成的输入向量输入到数据分类模型中时,数据分类模型可以基于该输入向量的数据表特征分量以及零向量确定待存储的数据“X”为数据表中的数据,同时确定该数据的数据类型为“与数字有关的数据类型”,因此数据分类模型输出“与数字有关的数据类型”相对应的输出向量。再例如,当服务器将待存储的数据“Y”生成的输入向量输入到数据分类模型中时,数据分类模型可以基于该输入向量的零向量和关键词特征分量确定待存储的数据“Y”为文本数据,同时确定该数据的数据类型为“字符型”,因此数据分类模型输出与“字符型”相对应的输出分量。
在本实施例中,上述数据分类模型基于预先利用训练样本以有监督方式进行训练而成,可选地,上述数据分类模型为决策树模型,在这里需要说明的是,决策树模型的机器学习方法是目前广泛研究和应用的公知技术,在此不再赘述。
步骤307,将数据存储在输出向量所指示的数据的类型对应的存储区域。
在本实施例中,根据步骤306中得到的数据分类模型的输出向量,可以确定数据所属的类型,从而将数据存储在上述类型对应的存储区域中。
从图3中可以看出,与图2对应的实施例相比,本实施例中的数据存储方法的流程300将待存储的数据划分为结构化数据和非结构化数据,即数据表中的数据和文本数据,同时将该两种数据分布输入到数据分类模型中进行匹配,数据分类模型将上述两种数据进行分开来处理,分别得到指示数据表中的数据的类型的输出向量和指示文本数据的类型的输出向量,从而更加快速有效的将数据快速有效的分类,并加快数据存储的速度,减小存储数据的空间。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种数据存储装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例上述的数据存储装置400包括:获取单元401、输入单元402、以及存储单元403。其中,获取单元401配置用于获取待存储的数据的特征信息,上述特征信息包括以下至少一项:上述数据所属的数据表中的数据表项的名称、指示上述数据的统计特征的统计特征信息、关键词;输入单元402配置用于将上述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量,上述数据分类模型基于预先利用训练样本以有监督方式进行训练而生成,上述训练样本包括:已存储数据的上述特征信息、经标注的上述已存储数据的类型;存储单元403配置用于将上述数据存储在上述类型对应的存储区域。
在本实施例中,数据存储装置400的获取单元401、输入单元402、以及存储单元403的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202和步骤203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述数据为数据表中的数据,上述特征信息包括上述数据所属的数据表中的数据表项的名称、统计特征信息,以及上述输入单元402包括:数据表特征向量生成子单元4021配置用于生成特征信息对应的数据表特征向量,上述数据表特征向量包括:表示上述数据所属的数据表中的数据表项的名称的分量、表示统计特征信息的分量;第一输入向量生成子单元4022配置用于生成依次包含上述数据表特征向量和零向量的数据分类模型的输入向量;输出向量生成子单元4025配置用于将上述输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量。
在本实施例的一些可选的实现方式中,上述统计特征信息包括:指示上述数据表项之间的关联关系的关联信息、上述数据的长度的平均值、上述数据的长度的最大值、上述数据的长度的最小值、上述数据中的字符的类型。
在本实施例的一些可选的实现方式中,上述数据为文本数据,上述特征信息为关键词,以及上述输入单元402包括:关键词特征向量生成子单元4023配置用于生成特征信息对应的关键词特征向量,其中,关键词特征向量中每一个关键词对应一个分量;第二输入向量生成子单元4024配置用于生成依次包含零向量和上述关键词特征向量的数据分类模型的第二输入向量;输出向量确定子单元4025配置用于将上述第二输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量。
下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机***500的结构示意图。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、输入单元和存储单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待存储的数据的特征信息的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取待存储的数据的特征信息,上述特征信息包括以下至少一项:上述数据所属的数据表中的数据表项的名称、指示上述数据的统计特征的统计特征信息、关键词;将上述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示上述数据的类型的输出向量,上述数据分类模型基于预先利用训练样本以有监督方式进行训练而生成,上述训练样本包括:已存储数据的上述特征信息、经标注的上述已存储数据的类型;将上述数据存储在上述类型对应的存储区域。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种数据存储方法,其特征在于,所述方法包括:
获取待存储的数据的特征信息,所述特征信息包括以下至少一项:所述数据所属的数据表中的数据表项的名称、指示所述数据的统计特征的统计特征信息、关键词;
将所述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示所述数据的类型的输出向量,所述数据分类模型基于预先利用训练样本以有监督方式进行训练而生成,所述训练样本包括:已存储数据的所述特征信息、经标注的所述已存储数据的类型;
将所述数据存储在所述类型对应的存储区域;
其中,所述数据为数据表中的数据,所述特征信息包括:所述数据所属的数据表中的数据表项的名称、统计特征信息;以及
将所述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示所述数据的类型的输出向量包括:
生成特征信息对应的数据表特征向量,所述数据表特征向量包括:表示所述数据所属的数据表中的数据表项的名称的分量、表示统计特征信息的分量;
生成依次包含所述数据表特征向量和零向量的数据分类模型的第一输入向量;
将所述第一输入向量输入到数据分类模型,得到指示所述数据的类型的输出向量。
2.根据权利要求1所述的方法,其特征在于,所述数据分类模型为决策树模型。
3.根据权利要求1所述的方法,其特征在于,所述统计特征信息包括:指示所述数据表项之间的关联关系的关联信息、所述数据的长度的平均值、所述数据的长度的最大值、所述数据的长度的最小值、所述数据中的字符的类型。
4.根据权利要求2所述的方法,其特征在于,所述数据为文本数据,所述特征信息为关键词;以及
将所述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示所述数据的类型的输出向量包括:
生成特征信息对应的关键词特征向量,其中,关键词特征向量中每一个关键词对应一个分量;
生成依次包含零向量和所述关键词特征向量的数据分类模型的第二输入向量;
将所述第二输入向量输入到数据分类模型,得到指示所述数据的类型的输出向量。
5.一种数据存储装置,其特征在于,所述装置包括:
获取单元,配置用于获取待存储的数据的特征信息,所述特征信息包括以下至少一项:所述数据所属的数据表中的数据表项的名称、指示所述数据的统计特征的统计特征信息、关键词;
输入单元,配置用于将所述特征信息转换为数据分类模型的输入向量输入到数据分类模型,得到指示所述数据的类型的输出向量,所述数据分类模型基于预先利用训练样本以有监督方式进行训练而生成,所述训练样本包括:已存储数据的所述特征信息、经标注的所述已存储数据的类型;
存储单元,配置用于将所述数据存储在所述类型对应的存储区域;
其中,所述数据为数据表中的数据,所述特征信息包括:所述数据所属的数据表中的数据表项的名称、统计特征信息,以及所述输入单元包括:
数据表特征向量生成子单元,配置用于生成特征信息对应的数据表特征向量,所述数据表特征向量包括:表示所述数据所属的数据表中的数据表项的名称的分量、表示统计特征信息的分量;
第一输入向量生成子单元,配置用于生成依次包含所述数据表特征向量和零向量的数据分类模型的第一输入向量;
输出向量生成子单元,配置用于将所述第一输入向量输入到数据分类模型,得到指示所述数据的类型的输出向量。
6.根据权利要求5所述的装置,其特征在于,所述数据分类模型为决策树模型。
7.根据权利要求5所述的装置,其特征在于,所述统计特征信息包括:指示所述数据表项之间的关联关系的关联信息、所述数据的长度的平均值、所述数据的长度的最大值、所述数据的长度的最小值、所述数据中的字符的类型。
8.根据权利要求6所述的装置,其特征在于,所述数据为文本数据,所述特征信息为关键词,以及所述输入单元包括:
关键词特征向量生成子单元,配置用于生成特征信息对应的关键词特征向量,其中,关键词特征向量中每一个关键词对应一个分量;
第二输入向量生成子单元,配置用于生成依次包含零向量和所述关键词特征向量的数据分类模型的第二输入向量;
输出向量生成子单元,配置用于将所述第二输入向量输入到数据分类模型,得到指示所述数据的类型的输出向量。
CN201710066733.9A 2017-02-07 2017-02-07 数据存储方法和装置 Expired - Fee Related CN106649890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710066733.9A CN106649890B (zh) 2017-02-07 2017-02-07 数据存储方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710066733.9A CN106649890B (zh) 2017-02-07 2017-02-07 数据存储方法和装置

Publications (2)

Publication Number Publication Date
CN106649890A CN106649890A (zh) 2017-05-10
CN106649890B true CN106649890B (zh) 2020-07-14

Family

ID=58845975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710066733.9A Expired - Fee Related CN106649890B (zh) 2017-02-07 2017-02-07 数据存储方法和装置

Country Status (1)

Country Link
CN (1) CN106649890B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578014B (zh) * 2017-09-06 2020-11-03 上海寒武纪信息科技有限公司 信息处理装置及方法
CN107679544A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 数据自动匹配方法、电子设备及计算机可读存储介质
CN109951509A (zh) * 2017-12-21 2019-06-28 航天信息股份有限公司 一种云存储调度方法、装置、电子设备和存储介质
CN108427725B (zh) * 2018-02-11 2021-08-03 华为技术有限公司 数据处理方法、装置和***
CN108763277B (zh) * 2018-04-10 2023-04-18 平安科技(深圳)有限公司 一种数据分析方法、计算机可读存储介质及终端设备
CN108563783B (zh) * 2018-04-25 2022-04-12 张艳 一种基于大数据的财务分析管理***及方法
CN108763952B (zh) * 2018-05-03 2022-04-05 创新先进技术有限公司 一种数据分类方法、装置及电子设备
CN109144999B (zh) * 2018-08-02 2021-06-08 东软集团股份有限公司 一种数据定位方法、装置及存储介质、程序产品
CN112732601B (zh) * 2018-08-28 2024-06-18 中科寒武纪科技股份有限公司 数据预处理方法、装置、计算机设备和存储介质
CN109271356B (zh) * 2018-09-03 2024-05-24 中国平安人寿保险股份有限公司 日志文件格式处理方法、装置、计算机设备和存储介质
CN111611418A (zh) * 2019-02-25 2020-09-01 阿里巴巴集团控股有限公司 数据存储方法及数据查询方法
CN112988884B (zh) * 2019-12-17 2024-04-12 ***通信集团陕西有限公司 大数据平台数据存储方法及装置
CN111626057B (zh) * 2020-07-28 2020-10-30 南京中孚信息技术有限公司 一种基于命名实体的公文判定方法及判定***
CN111881869B (zh) * 2020-08-04 2023-04-18 浪潮云信息技术股份公司 一种基于手势数据的分级存储方法及***
CN112199694A (zh) * 2020-09-30 2021-01-08 杭州云链趣链数字科技有限公司 标准化票据的处理方法、装置、电子装置和存储介质
CN113515680A (zh) * 2021-04-20 2021-10-19 建信金融科技有限责任公司 金融监控数据处理方法及装置
CN116432238B (zh) * 2023-06-05 2023-09-08 全中半导体(深圳)有限公司 数据存储方法、装置以及存储芯片

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866333A (zh) * 2009-12-24 2010-10-20 金蝶软件(中国)有限公司 一种表单自定义方法和适配器引擎
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN102073704A (zh) * 2010-12-24 2011-05-25 华为终端有限公司 文本分类处理方法和***以及设备
US8903182B1 (en) * 2012-03-08 2014-12-02 Google Inc. Image classification
CN104881424A (zh) * 2015-03-13 2015-09-02 国家电网公司 一种基于正则表达式的电力大数据采集、存储及分析方法
CN106126502A (zh) * 2016-07-07 2016-11-16 四川长虹电器股份有限公司 一种基于支持向量机的情感分类***及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866333A (zh) * 2009-12-24 2010-10-20 金蝶软件(中国)有限公司 一种表单自定义方法和适配器引擎
CN102073704A (zh) * 2010-12-24 2011-05-25 华为终端有限公司 文本分类处理方法和***以及设备
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
US8903182B1 (en) * 2012-03-08 2014-12-02 Google Inc. Image classification
CN104881424A (zh) * 2015-03-13 2015-09-02 国家电网公司 一种基于正则表达式的电力大数据采集、存储及分析方法
CN106126502A (zh) * 2016-07-07 2016-11-16 四川长虹电器股份有限公司 一种基于支持向量机的情感分类***及方法

Also Published As

Publication number Publication date
CN106649890A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106649890B (zh) 数据存储方法和装置
US11599714B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
US11243990B2 (en) Dynamic document clustering and keyword extraction
CN109492772B (zh) 生成信息的方法和装置
CN107797982B (zh) 用于识别文本类型的方法、装置和设备
CN107145485B (zh) 用于压缩主题模型的方法和装置
US10606910B2 (en) Ranking search results using machine learning based models
CN106354856B (zh) 基于人工智能的深度神经网络强化搜索方法和装置
CN113434716B (zh) 一种跨模态信息检索方法和装置
US11436446B2 (en) Image analysis enhanced related item decision
US11100252B1 (en) Machine learning systems and methods for predicting personal information using file metadata
CN112395487A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
US20230214679A1 (en) Extracting and classifying entities from digital content items
CN109902152B (zh) 用于检索信息的方法和装置
CN111723180A (zh) 一种面试方法和装置
US20210349920A1 (en) Method and apparatus for outputting information
CN105159898A (zh) 一种搜索的方法和装置
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN113139558B (zh) 确定物品的多级分类标签的方法和装置
CN114691850A (zh) 生成问答对的方法、神经网络模型的训练方法和装置
KR20230059364A (ko) 언어 모델을 이용한 여론조사 시스템 및 운영 방법
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
Khan et al. Multimodal rule transfer into automatic knowledge based topic models
CN111274383B (zh) 一种应用于报价的分类对象方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200714

Termination date: 20220207