CN113642679B

CN113642679B - 多种类数据识别方法

Info

Publication number: CN113642679B
Application number: CN202111190736.6A
Authority: CN
Inventors: 冯含哲; 孙利利; 曹克霞; 段琳钰
Original assignee: Shandong Fenghehuang City Technology Co ltd
Current assignee: Shandong Fenghehuang City Technology Co ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2021-12-28
Anticipated expiration: 2041-10-13
Also published as: CN113642679A

Abstract

本发明涉及数据识别技术领域，具体涉及一种多种类数据识别方法，通过设置多个不同种类的数据类别池以及建立多个不同种类的数据识别器，来对数据进行判断和识别，以实现对多种类的数据混合组成的待识别数据的识别，相较于传统技术，其不通过单一的神经网络训练和识别模型来进行识别，而是基于多识别器的组合来进行识别，提升了识别的准确率，同时在识别过程中，有两个识别过程，粗识别首先找出数据中混合有多种类数据的部分，再使用组合的识别器进行细识别，保证了识别的效率，提升了识别的准确率。

Description

多种类数据识别方法

技术领域

本发明属于数据识别技术领域，具体涉及多种类数据识别方法。

背景技术

随着科技的进步和大数据时代的到来，人们可以访问获取的数据和信息资源呈现出***式的增长，互联网上每天都诞生海量的文字、图像、音视频等数据和信息。为了有效地组织、查询和浏览如此大规模的数据和信息，需要对这些数据和信息进行分类，进而进行管理。为此，数据识别技术应运而生。

数据识别技术的自动化已经通过神经网络模型实现。其中，在经过大量训练之后的处理器实现的神经网络模型，可提供在输入模式与输出模式之间直观的映射。产生这种映射的训练能力被称为神经网络的学习能力。由于通过专门训练，神经网络会具有泛化能力，该能力会使可能尚未被针对训练的输入模式生成相对准确的输出。然而，因为这样的操作或应用在执行时，是通过专门的计算架构、并且以在非计算机实现或非自动化方法中被执行方式不同的自动化方式来执行，所以也产生了问题或缺陷，所述问题或缺陷一般在实现自动化和构建专用计算架构方式中发生。

专利号为CN110799995A的专利公开了数据识别器训练方法、数据识别器训练装置、程序及训练方法，其实现了在GAN中的识别器的训练的稳定化学习。数据识别器训练方法训练数据识别器，该数据识别器具备识别正确答案数据和伪数据的神经网络模型，其中，具备如下步骤：将前述正确答案数据输入前述数据识别器，取得第一预测结果；将前述伪数据输入前述数据识别器，取得第二预测结果；基于取得的前述第一预测结果以及取得的前述第二预测结果算出误差；基于前述误差和前述神经网络模型的各层权重矩阵的奇异值更新前述权重矩阵。

其依然通神经网络训练数据识别器来进行数据识别，但由于该识别方法在进行多种类数据识别时，往往会由于本身的缺陷，导致数据识别准确率降低。同时，由于多种类数据识别过程中，使用单一的模型判断器，往往会产生针对某一种类数据无法识别的问题。

发明内容

有鉴于此，本发明的主要目的在于提供多种类数据识别方法，相较于传统技术，其不通过单一的神经网络训练和识别模型来进行识别，而是基于多识别器的组合来进行识别，提升了识别的准确率，同时在识别过程中，有两个识别过程，粗识别首先找出数据中混合有多种类数据的部分，再使用组合的识别器进行细识别，保证了识别的效率，提升了识别的准确率。

为达到上述目的，本发明的技术方案是这样实现的：

多种类数据识别方法，所述方法执行以下步骤：

步骤1：设置多个不同种类的数据类别池，所述数据类别池的数量与数据种类相等；建立多个不同种类的数据识别器，所述数据识别器的数量与数据种类相等；

步骤2：进行数据粗识别，具体包括：分别使用每个数据识别器对待识别数据进行数据识别，在识别过程中，将包含有与当前数据识别器所对应的种类相同的数据筛选出来，并填充进入所对应的相同种类的数据类别池中；当所有的数据识别器都完成数据识别后，将有数据填充的数据池进行池交叉对比；

步骤3：进行数据池交叉对比，具体包括：将所有有数据填充的数据池均分别视为一个集合，然后进行集合的交集运算，找到每个数据池中与其他数据池的交集部分；

步骤4：进行数据识别器的调整，具体包括：基于交集部分所对应的数据池的种类，将数据识别器进行组合或调整，以生成对交集部分进行数据识别的细数据识别器；

步骤5：进行数据细识别，完成数据细识别，具体包括：将数据池交叉对比后，将得到的所有的交集部分提取出来，再分别使用每个细数据识别器进行识别，将交集部分的数据划分为多个数据分组，每个数据分组中只包含一个种类的数据；

步骤6：进行数据重新组合，完成数据识别，具体包括：将数据细识别得到的多个数据分组分别与对应种类的数据进行数据重新组合，完成数据识别。

进一步的，所述数据类别池的种类至少包括：图像数据类别池、文字数据类别池和声音数据类别池；所述数据识别器的种类至少包括：图像数据识别器、文字数据识别器和声音数据识别器。

进一步的，所述图像数据识别器使用如下公式表示：

；其中，

为待识别数据的数据头标识，取值为1~3；

为待识别数据的个数；

为计算得到的图像数据识别值；

为待识别数据中某个数据出现的概率；

为待识别数据中某个数据的位数；

为待识别数据中某个数据对应的数据矩阵的某个点的纵坐标值；

为待识别数据中某个数据对应的数据矩阵的某个点的横坐标值；

为梯度函数；当计算得到的图像数据识别值在设定的图像识别阈值范围内时，则判断图像数据识别器识别的数据为图像数据。

进一步的，所述文字数据识别器使用如下公式表示：

；其中，

为调整系数，取值范围为：20~50；

为计算得到的文字数据识别值，当计算得到的文字数据识别值在设定的文字识别阈值范围内时，则判断文字数据识别器识别的数据为文字数据。

进一步的，所述声音数据识别器使用如下公式表示：

；其中，

为调整系数，取值范围为：1~5；

为计算得到的声音数据识别值，当计算得到的声音数据识别值在设定的声音识别阈值范围内时，则判断声音数据识别器识别的数据为声音数据。

进一步的，所述步骤4中基于交集部分所对应的数据池的种类，将数据识别器进行组合或调整，以生成对交集部分进行数据识别的细数据识别器的方法包括：当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时，则将所有的数据识别器进行组合，得到细数据识别器；当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时，则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合，得到细数据识别器，同时筛选出的数据识别器的种类与交集部分对应的数据池的种类一一对应。

进一步的，所述步骤6中进行数据重新组合，完成数据识别的方法包括：提取数据的数据头，在数据头中找到数据的时间标识，基于找到的时间标识，按照时间先后顺序，将数据进行组合。

进一步的，所述当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时，则将所有的数据识别器进行组合，得到细数据识别器的方法包括：将所有的数据识别器进行并联，在对数据进行识别时，所有的数据识别器并行工作。

进一步的，所述当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时，则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合，得到细数据识别器的方法包括：将筛选出的数据识别器进行并联，在对数据进行识别时，所有的数据识别器并行工作。

一种多种类数据识别装置。

本发明的多种类数据识别方法，相较于传统技术，其不通过单一的神经网络训练和识别模型来进行识别，而是基于多识别器的组合来进行识别，提升了识别的准确率，同时在识别过程中，有两个识别过程，粗识别首先找出数据中混合有多种类数据的部分，再使用组合的识别器进行细识别，保证了识别的效率，提升了识别的准确率。主要通过以下过程实现：

1.多种类数据的识别：本发明在对数据进行识别时，不仅能识别单一种类的数据，还能对多种类数据的混合数据进行识别，采用多个不同种类的数据识别器，实现了数据识别的多样化，提升了数据识别的适用广度；

2.粗识别以提升效率：本发明在进行数据识别时，先使用粗识别来找到混合数据中的混合部分，所谓混合部分即存在多种类数据的部分，这些部分的数据识别往往难度较大，相较于单一数据的部分，其识别所需要的资源也更多，因此单独筛选出来进行识别，可以减少***资源的浪费，因为如果对整个数据都使用多种类的数据识别器进行识别，势必降低数据识别的效率，而对整个数据都使用单一的数据识别器，又无法达到效果，倘若加入一个判断器，在识别过程中，一边识别一边判断是否使用多种类识别器，也需要耗费大量***资源，因此本发明加入粗识别过程，以提升识别的效率；

3.细识别以提升准确率：本发明在进行数据识别时，针对混合部分使用细识别方法，将建立的多个数据识别器组合后进行识别，这样可以提升识别的准确率；同时本发明在提升准确率方面还加入了数据识别器的针对性，对不同的数据使用不同的识别器，而使用的算法和现有技术都完全不同，这些算法都基于数据矩阵且加入了数据头的影响，相较于现有技术，虽然单一的数据识别器的准确率降低了，但本发明将多个数据识别器进行联用又避免了这个问题，进一步在提升效率的基础上，保证了准确率。

附图说明

图1为本发明实施例提供的多种类数据识别方法的方法流程示意图；

图2为本发明实施例提供的多种类数据识别方法的数据分解的原理示意图；

图3为本发明实施例提供的多种类数据识别方法的数据重新组合的原理示意图；

图4为本发明实施例提供的多种类数据识别方法的识别误差率随着实验次数变化的曲线示意图与现有技术的对比实验效果示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实施例1

如图1所示，多种类数据识别方法，所述方法执行以下步骤：

采用上述技术方案，相较于传统技术，其不通过单一的神经网络训练和识别模型来进行识别，而是基于多识别器的组合来进行识别，提升了识别的准确率，同时在识别过程中，有两个识别过程，粗识别首先找出数据中混合有多种类数据的部分，再使用组合的识别器进行细识别，保证了识别的效率，提升了识别的准确率。主要通过以下过程实现：

具体的，本发明中的数据识别器均使用基于深度学习的神经网络架构构建的数据识别器来实现。

更进一步的，在深度学习中，包括但不限于使用以下两种方法来训练神经网络。

深度信任网络模型，即贝叶斯概率生成模型，由多层随机隐变量组成，上面的两层具有无向对称连接，下面的层得到来自上一层的自顶向下的有向连接，最底层单元的状态为可见输入数据向量。由若2F结构单元堆栈组成，结构单元通常为RBM（RestIlctedBoltzmann Machine，受限玻尔兹曼机）。堆栈中每个RBM单元的可视层神经元数量等于前一RBM单元的隐层神经元数量。根据深度学习机制，采用输入样例训练第一层RBM单元，并利用其输出训练第二层RBM模型，将RBM模型进行堆栈通过增加层来改善模型性能。在无监督预训练过程中，DBN编码输入到顶层RBM后，解码顶层的状态到最底层的单元，实现输入的重构。RBM作为DBN的结构单元，与每一层DBN共享参数。

受视觉***的结构启发而产生的卷积神经网络模型。其基于神经元之间的局部连接和分层组织图像转换，将有相同参数的神经元应用于前一层神经网络的不同位置，得到一种平移不变神经网络结构形式。同时，用误差梯度设计并训练卷积神经网络，将能显著本发明的准确率。

同时，数据识别器在进行识别时，往往需要经过检测和识别两个阶段。在本发明中的检测阶段，使用现有技术中的目标检测算法可以实现，例如：SSD，YOLO V1，YOLO V2，YOLOV3，Fast RCNN，Faster RCNN，RCNN。

实施例2

在上一实施例的基础上，所述数据类别池的种类至少包括：图像数据类别池、文字数据类别池和声音数据类别池；所述数据识别器的种类至少包括：图像数据识别器、文字数据识别器和声音数据识别器。

具体的，数据分类调研分析的基础是数据，而数据的类型可以分为连续性的变量和分类变量。数据分类就是把具有某种共同属性或特征的数据归并在一起，通过其类别的属性或特征来对数据进行区别。换句话说，就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起，而把相异的和需要分别管理的信息区分开来，然后确定各个集合之间的关系，形成一个有条理的分类***。

为了实现数据共享和提高处理效率，必须遵循约定的分类原则和方法，按照信息的内涵、性质及管理的要求，将***内所有信息按一定的结构体系分为不同的集合，从而使得每个信息在相应的分类体系中都有一个对应位置。换句话说，就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起，而把相异的和需要分别管理的信息区分开来，然后确定各个集合之间的关系，形成一个有条理的分类***。

实施例3

在上一实施例的基础上，所述图像数据识别器使用如下公式表示：

；其中，

为待识别数据的数据头标识，取值为1 ~3；

为待识别数据的个数；

为计算得到的图像数据识别值；

为待识别数据中某个数据出现的概率；

为待识别数据中某个数据的位数；

具体的，图像数据（Image Data）是指用数值表示的各像素（pixel）的灰度值的集合。

对真实世界的图像一般由图像上每一点光的强弱和频谱（颜色）来表示，把图像信息转换成数据信息时，须将图像分解为很多小区域，这些小区域称为像素，可以用一个数值来表示它的灰度，对于彩色图像常用红、绿、蓝三原色（trichromatic）分量表示。顺序地抽取每一个像素的信息，就可以用一个离散的阵列来代表一幅连续的图像。在地理信息***中一般指栅格数据。

实施例4

在上一实施例的基础上，所述文字数据识别器使用如下公式表示：

；其中，

为调整系数，取值范围为：20~50；

实施例5

在上一实施例的基础上，所述声音数据识别器使用如下公式表示：

；其中，

为调整系数，取值范围为：1~5；

具体的，数字化的声音数据就是音频数据。

数字化声音的过程实际上就是以一定的频率对来自microphone等设备的连续的模拟音频信号进行模数转换(ADC)得到音频数据的过程；数字化声音的播放就是将音频数据进行数模转换(DAC)变成模拟音频信号输出。在数字化声音时有两个重要的指标，即采样频率(Sampling Rate)和采样大小(Sampling Size)。

采样频率即单位时间内的采样次数，采样频率越大采样点之间的间隔越小，数字化得到的声音就越逼真，但相应的数据量增大，处理起来就越困难；采样大小即记录每次样本值大小的数值的位数，它决定采样的动态变化范围，位数越多所能记录声音的变化程度就越细腻，所得的数据量也越大。

实施例6

在上一实施例的基础上，所述步骤4中基于交集部分所对应的数据池的种类，将数据识别器进行组合或调整，以生成对交集部分进行数据识别的细数据识别器的方法包括：当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时，则将所有的数据识别器进行组合，得到细数据识别器；当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时，则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合，得到细数据识别器，同时筛选出的数据识别器的种类与交集部分对应的数据池的种类一一对应。

实施例7

在上一实施例的基础上，所述步骤6中进行数据重新组合，完成数据识别的方法包括：提取数据的数据头，在数据头中找到数据的时间标识，基于找到的时间标识，按照时间先后顺序，将数据进行组合。

实施例8

在上一实施例的基础上，所述当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时，则将所有的数据识别器进行组合，得到细数据识别器的方法包括：将所有的数据识别器进行并联，在对数据进行识别时，所有的数据识别器并行工作。

具体的，相关技术中，人工对样本信息中的样本数据标注样本数据标识，从而获得样本信息模板，根据样本信息模板对目标信息中的数据进行识别。其中，样本数据标识是标识样本数据类别的标识。例如，样本信息“闲时流量合计500MB，已使用200MB，剩余300MB”，人工标注获得样本信息模板：“闲时流量合计<LEISURE_TOTAL>，已使用<LEISURE_USED>，剩余<LEISURE_REMAINED>”。但由于信息多样化，人工需要标注的模板比较多，耗费大量的人力资源，标注效率低。

实施例9

在上一实施例的基础上，所述当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时，则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合，得到细数据识别器的方法包括：将筛选出的数据识别器进行并联，在对数据进行识别时，所有的数据识别器并行工作。

术语“第一”、“另一部分”等是配置用于区别类似的对象，而不是配置用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者单元/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术标记作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非配置用于限定本发明的保护范围。

Claims

1.一种多种类数据识别方法，其特征在于，所述方法执行以下步骤：

步骤3：进行数据池交叉对比，具体包括：将所有数据填充的数据池均分别视为一个集合，然后进行集合的交集运算，找到每个数据池中与其他数据池的交集部分；

步骤6：进行数据重新组合，完成数据识别，具体包括：将数据细识别得到的多个数据分组分别与对应种类的数据进行数据重新组合，完成数据识别；

所述数据类别池的种类至少包括：图像数据类别池、文字数据类别池和声音数据类别池；所述数据识别器的种类至少包括：图像数据识别器、文字数据识别器和声音数据识别器；

所述图像数据识别器使用如下公式表示：

；其中，

为待识别数据的数据头标识，取值为1~3；

为待识别数据的个数；

为计算得到的图像数据识别值；

为待识别数据中某个数据出现的概率；

为待识别数据中某个数据的位数；

2.如权利要求1所述的多种类数据识别方法，其特征在于，所述文字数据识别器使用如下公式表示：

；其中，

为调整系数，取值范围为：20~50；

3.如权利要求2所述的多种类数据识别方法，其特征在于，所述声音数据识别器使用如下公式表示：

；其中，

为调整系数，取值范围为：1~5；

4.如权利要求1所述的多种类数据识别方法，其特征在于，所述步骤4中基于交集部分所对应的数据池的种类，将数据识别器进行组合或调整，以生成对交集部分进行数据识别的细数据识别器的方法包括：当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时，则将所有的数据识别器进行组合，得到细数据识别器；当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时，则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合，得到细数据识别器，同时筛选出的数据识别器的种类与交集部分对应的数据池的种类一一对应。

5.如权利要求4所述的多种类数据识别方法，其特征在于，所述步骤6中进行数据重新组合，完成数据识别的方法包括：提取数据的数据头，在数据头中找到数据的时间标识，基于找到的时间标识，按照时间先后顺序，将数据进行组合。

6.如权利要求5所述的多种类数据识别方法，其特征在于，所述当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时，则将所有的数据识别器进行组合，得到细数据识别器的方法包括：将所有的数据识别器进行并联，在对数据进行识别时，所有的数据识别器并行工作。

7.如权利要求6所述的多种类数据识别方法，其特征在于，所述当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时，则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合，得到细数据识别器的方法包括：将筛选出的数据识别器进行并联，在对数据进行识别时，所有的数据识别器并行工作。