CN114579046B - 一种云存储相似数据检测方法和*** - Google Patents

一种云存储相似数据检测方法和*** Download PDF

Info

Publication number
CN114579046B
CN114579046B CN202210070755.3A CN202210070755A CN114579046B CN 114579046 B CN114579046 B CN 114579046B CN 202210070755 A CN202210070755 A CN 202210070755A CN 114579046 B CN114579046 B CN 114579046B
Authority
CN
China
Prior art keywords
data
training
vector
cloud storage
semantics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210070755.3A
Other languages
English (en)
Other versions
CN114579046A (zh
Inventor
田纹龙
何婷婷
叶旭明
薛晓晔
李瑞轩
万亚平
欧阳纯萍
刘永彬
刘征海
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of South China
Original Assignee
University of South China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of South China filed Critical University of South China
Priority to CN202210070755.3A priority Critical patent/CN114579046B/zh
Publication of CN114579046A publication Critical patent/CN114579046A/zh
Application granted granted Critical
Publication of CN114579046B publication Critical patent/CN114579046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种云存储相似数据检测方法和***,方法包括:模型训练阶段,预处理训练数据,得到训练数据块;采用MinHash算法提取全部训练数据块的特征向量,得到未嵌入语义的第一向量并训练机器学习模型,训练后得到第一向量与嵌入上下文语义后的向量间的权重矩阵和训练后的模型;利用训练后的模型,以预处理训练数据相同的处理方法处理预测数据,得到预测数据块;并采用MinHash算法提取全部预测数据块的特征向量,得到预测数据的未嵌入语义的向量;将预测数据的未嵌入语义的向量与权重矩阵做矩阵乘法,得到训练数据的嵌入语义后的向量;通过Annoy算法找到最相似的数据块。本方法能够减少计算开销,解决特征值提取不稳定的问题,并提高检测精准度。

Description

一种云存储相似数据检测方法和***
技术领域
本发明涉及相似数据检测技术领域,具体涉及一种云存储相似数据检测方法和***。
背景技术
随着网络和存储技术的发展,云存储已经广泛地应用于日常生活中,由于云存储服务的可靠性和灵活性,人们更愿意通过云存储服务为他们的在线数据付费。然而,云存储服务充斥着大量的冗余数据。这些冗余数据不仅降低了云存储服务提供商的存储利用率,同时还增加了用户云存储服务的财政预算。为此,传统冗余数据重删技术成为目前云存储中广泛应用的重要技术之一。通过鉴别识别、消除冗余数据块,该技术能够有效提高云存储利用率,节约用户数据存储成本。但是,传统冗余数据重删技术只能够区分冗余与非冗余数据块,却无法识别、消除相似数据块之中的冗余数据部分。为此,已有的相似数据检测技术利用数据块的指纹值与分布情况,判断相似数据块之中的冗余数据部分。然而,已有的方法在相似数据检测并没有很好的鲁棒性,容易受到其他因素的干扰,导致特征提取不稳定的问题,如数据块内容的修改和删除、块长的改变的影响等等。
发明内容
针对上述问题,本发明提供一种云存储相似数据检测方法,特别是一种基于块级语义的云存储相似数据检测方法,所述云存储相似数据检测方法包括:
模型训练阶段,训练步骤为:
预处理训练数据,得到训练数据块;
采用MinHash算法提取全部训练数据块的特征向量,得到未嵌入语义的第一向量;
基于所述第一向量训练机器学习模型,得到所述第一向量与嵌入上下文语义后的向量间的权重矩阵和训练后的模型;
模型预测阶段,预测步骤为:
利用训练后的模型,以预处理训练数据相同的处理方法处理预测数据,得到预测数据块;
并采用MinHash算法提取全部预测数据块的特征向量,得到预测数据的未嵌入语义的向量;
将所述预测数据的未嵌入语义的向量与所述权重矩阵做矩阵乘法,得到训练数据的嵌入语义后的向量;
通过Annoy算法将训练数据的嵌入语义后的所有向量构造成二叉树,每个向量为二叉树的节点,判断距离当前数据块对应结点的最近的其他结点,从而找到与其最相似的数据块。
优选地,采用MinHash算法提取全部训练数据块的特征向量的步骤包括:
取预设数量的哈希函数,并扫描训练数据块的内容,计算得到每个哈希函数对应的哈希值,然后对计算得到的哈希值求和取平均,得到训练数据块的初始特征值;
利用滑动窗口扫描所述初始特征值,滑动窗口每移动一次,将处于该窗口内部的数据信息作为一个子特征值,根据子特征值和特征向量之间的映射函数,生成子特征值对应的特征向量,最后将所有子特征值对应的特征向量求和取平均,作为该数据块的特征向量。
优选地,预处理训练数据,得到训练数据块的步骤包括:
将输入的训练数据类型统一为比特流;
并将比特流划分为若干个训练数据块。
优选地,基于所述第一向量训练机器学习模型,得到所述第一向量与嵌入上下文语义后的向量间的权重矩阵,具体包括步骤:
将所述数据块的上下文对应的第一向量输入所述机器学习模型的输入层,将所述数据块对应的第一向量作为所述机器学习模型的输出层,将所述输入层和所述输出层的差值作为损失,不断更新权重矩阵,最后得到嵌入了上下文信息的权重矩阵。
优选地,所述权重矩阵具体包括输出层的权重矩阵和输入层的权重矩阵。
优选地,将所述预测数据的未嵌入语义的向量与所述权重矩阵做矩阵乘法,得到训练数据的嵌入语义后的向量还包括:
做矩阵乘法的权重矩阵为所述机器学习模型的输出层的权重矩阵。
优选地,找到最相似的数据块之后,还利用差分编码将相似数据块之间的冗余部分进行删除。
根据本发明的另一个方面,还公开一种云存储相似数据检测***,特别是一种基于块级语义的云存储相似数据检测***,所述云存储相似数据检测***包括存储器和处理器,所述存储器中存储有计算机程序;
所述处理器,用于在运行所述计算机程序时,执行如前任一项所述的一种云存储相似数据检测方法。
本发明充分考虑到数据块之间的上下文关系,即数据块之间的语义信息,提出基于块级语义的云存储相似数据检测技术,利用机器学习进行表征学习,突破依赖于哈希值提取的传统相似块识别技术的思维,结合数据块的上下文,将语义嵌入到数据块的特征集合中,减少计算开销,解决当前技术存在的特征值提取不稳定的问题,提高相似数据块检测的精准度,提高存储利用率与用户体验。
附图说明
本发明构成说明书的一部分附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
图1为本发明实施例中检测方法流程示意图。
具体实施方式
下面将结合附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
实施例一,下面结合附图1来详细介绍基于块级语义的相似数据检测方法的其中一个示例。
模型训练阶段,训练步骤包括:
1.预处理训练数据,得到训练数据块;
2.采用MinHash算法提取全部训练数据块的特征向量,得到未嵌入语义的向量作为初始向量(即第一向量);
3.基于第一向量训练机器学习模型,得到第一向量与嵌入上下文语义后的向量间的权重矩阵和训练后的模型;
模型预测阶段,预测步骤为:
1.利用训练后的模型,以预处理训练数据相同的处理方法处理预测数据,得到预测数据块;
2.并采用MinHash算法提取全部预测数据块的特征向量,得到预测数据的未嵌入语义的向量;
3.将预测数据的未嵌入语义的向量与权重矩阵做矩阵乘法,得到训练数据的嵌入语义后的向量;
通过Annoy算法将训练数据的嵌入语义后的所有向量构造成二叉树,每个向量为二叉树的节点,判断距离当前数据块对应结点的最近的其他结点,从而找到与其最相似的数据块。
在一些实施例中,模型训练阶段采用MinHash算法提取全部训练数据块的特征向量的步骤包括:
取n个哈希函数(n为80、400或其他可选数量等),并扫描训练数据块的内容,计算得到每个哈希函数对应的哈希值,然后对计算得到的哈希值求和取平均,得到训练数据块的初始特征值,从而降低因数据块中不同内容所导致的特征偏差;
利用滑动窗口扫描初始特征值,滑动窗口每移动一次,将处于该窗口内部的数据信息作为一个子特征值,根据子特征值和特征向量之间的映射函数,生成子特征值对应的特征向量,最后将所有子特征值对应的特征向量求和取平均,作为该数据块的特征向量。
在一些实施例中,预处理训练数据,得到训练数据块的步骤包括:
将输入的训练数据类型统一为比特流;
并将比特流划分为N个训练数据块。
在一些实施例中,基于第一向量训练机器学习模型,得到第一向量与嵌入上下文语义后的向量间的权重矩阵,具体包括步骤:
将数据块的上下文对应的第一向量输入机器学习模型的输入层,将数据块对应的第一向量作为机器学习模型的输出层,将输入层和输出层的差值作为损失,不断更新权重矩阵,最后得到嵌入了上下文信息的权重矩阵。
具体地,机器学习网络分别为输入层、中间层、输出层。其中中间层分别通过两个权重矩阵W、U分别和输入层、输出层相关联。在此,输入层为数据块的上下文向量,即当前数据块的前k个和后k个数据块的初始向量,输出层为当前数据块的初始向量,而中间层代表了嵌入语义的向量(初始值为0)。记输入层×W为hidden1,输出层×U-1为hidden2,二者都可以看作嵌入语义的向量。因此将hidden1和hidden2的差值作为损失,不断更新权重矩阵W和U,最后得到嵌入了上下文信息的权重矩阵W和U。通过权重矩阵U,可以仅输入数据块的初始特征向量,而不用输入其上下文信息,就能够得到嵌入语义后的特征向量。
在一些实施例中,在预测阶段将预测数据的未嵌入语义的向量与权重矩阵做矩阵乘法,得到训练数据的嵌入语义后的向量还包括:
做矩阵乘法的权重矩阵为机器学习模型的输出层的权重矩阵U,且通过训练过程得到的权重矩阵U可以重复使用,且可以追加训练(在此模型的基础上,通过其他数据再次进行),避免了重复计算,减少了数据去重的时间和计算开销。
在一些实施例中,在预测阶段找到最相似的数据块之后,还利用差分编码将相似数据块之间的冗余部分进行删除。
具体地,对数据进行压缩的步骤为:
(1)获取训练数据的数据块和与其对应的语义模型,并设定压缩阈值g。
(2)将所有数据块对应的语义模型中的参数提取出来,作为其的压缩特征矩阵。
(3)遍历所有的数据块进行如下的操作:
步骤一、获取当前数据块的压缩特征矩阵。
步骤二、遍历所有的基础块压缩特征矩阵,寻找与当前压缩特征矩阵距离最小的压缩特征矩阵所对应的基础块。
步骤三、如两个压缩特征矩阵的距离仍然大于设定的阈值g,则证明当前数据块不适合进行压缩,则将当前数据块原封不动的保存下来,并将当前数据块的压缩特征矩阵添加到基础块压缩特征矩阵中,即作为一个Base Chunk。
步骤四、如两个压缩特征矩阵的距离仍然小于设定的阈值g,则对当前数据块进行压缩,利用Delta Compression算法生成一个delta数据块,该delta数据块仅包含Base数据块和当前数据块中不同的部分,将找到的最相似的数据块的索引和delta数据块添加到Delta文件中。
(6)通过步骤(5)就把用户上传的数据压缩成为了一个Base文件和一个Delta文件,其中Base文件和Delta文件的体积和小于原来上传的数据文件的体积。最终实现利用差分编码将相似数据块之间的冗余部分进行删除的目的。
根据另一实施例,公开一种云存储相似数据检测***,特别是基于块级语义嵌入的云存储相似数据检测***,包括存储器和处理器,存储器中存储有计算机程序;
处理器,用于在运行计算机程序时,执行如前所述的任一实施例中的一种基于块级语义嵌入的云存储相似数据检测方法。
所述一种基于块级语义嵌入的云存储相似数据检测***可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述基于块级语义嵌入的云存储相似数据检测***,可运行的装置可包括,但不仅限于,处理器、存储器。
本领域技术人员可以理解,所述例子仅仅是基于块级语义嵌入的云存储相似数据检测***的示例,并不构成对基于块级语义嵌入的云存储相似数据检测***的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述基于块级语义嵌入的云存储相似数据检测***还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(Cent ral-Processing-Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital-Signal-Processor,DSP)、专用集成电路(Application-Specific-Integrated-Circuit,ASIC)、现场可编程门阵列(Field-Programmable-Gate-Arr ay,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于块级语义嵌入的云存储相似数据检测***的控制中心,利用各种接口和线路连接整个基于块级语义嵌入的云存储相似数据检测***可运行***的各个部分。所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于块级语义嵌入的云存储相似数据检测***的各种功能。所述存储器可主要包括存储程序区和存储数据区。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart-Media-Card,SMC),安全数字(Secure-Digital,SD)卡,闪存卡(Flash-Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

Claims (8)

1.一种云存储相似数据检测方法,特别是一种基于块级语义的云存储相似数据检测方法,其特征在于,所述云存储相似数据检测方法包括:
模型训练阶段,训练步骤为:
预处理训练数据,得到训练数据块;
采用MinHash算法提取全部训练数据块的特征向量,得到未嵌入语义的第一向量;
基于所述第一向量训练机器学习模型,得到所述第一向量与嵌入上下文语义后的向量间的权重矩阵和训练后的模型;
模型预测阶段,预测步骤为:
利用训练后的模型,以预处理训练数据相同的处理方法处理预测数据,得到预测数据块;
并采用MinHash算法提取全部预测数据块的特征向量,得到预测数据的未嵌入语义的向量;
将所述预测数据的未嵌入语义的向量与所述权重矩阵做矩阵乘法,得到训练数据的嵌入语义后的向量;
通过Annoy算法将训练数据的嵌入语义后的所有向量构造成二叉树,每个向量为二叉树的节点,判断距离当前数据块对应结点的最近的其他结点,从而找到与其最相似的数据块。
2.如权利要求1所述的一种云存储相似数据检测方法,其中,采用MinHash算法提取全部训练数据块的特征向量的步骤包括:
取预设数量的哈希函数,并扫描训练数据块的内容,计算得到每个哈希函数对应的哈希值,然后对计算得到的哈希值求和取平均,得到训练数据块的初始特征值;
利用滑动窗口扫描所述初始特征值,滑动窗口每移动一次,将处于该窗口内部的数据信息作为一个子特征值,根据子特征值和特征向量之间的映射函数,生成子特征值对应的特征向量,最后将所有子特征值对应的特征向量求和取平均,作为该数据块的特征向量。
3.如权利要求1所述的一种云存储相似数据检测方法,其中,预处理训练数据,得到训练数据块的步骤包括:
将输入的训练数据类型统一为比特流;
并将比特流划分为若干个训练数据块。
4.如权利要求1所述的一种云存储相似数据检测方法,其中,基于所述第一向量训练机器学习模型,得到所述第一向量与嵌入上下文语义后的向量间的权重矩阵,具体包括步骤:
将所述数据块的上下文对应的第一向量输入所述机器学习模型的输入层,将所述数据块对应的第一向量作为所述机器学习模型的输出层,将所述输入层和所述输出层的差值作为损失,不断更新权重矩阵,最后得到嵌入了上下文信息的权重矩阵。
5.如权利要求4所述的一种云存储相似数据检测方法,其中,所述权重矩阵具体包括输出层的权重矩阵和输入层的权重矩阵。
6.如权利要求5所述的一种云存储相似数据检测方法,其中,将所述预测数据的未嵌入语义的向量与所述权重矩阵做矩阵乘法,得到训练数据的嵌入语义后的向量还包括:
做矩阵乘法的权重矩阵为所述机器学习模型的输出层的权重矩阵。
7.如权利要求1所述的一种云存储相似数据检测方法,其中,找到最相似的数据块之后,还利用差分编码将相似数据块之间的冗余部分进行删除。
8.一种云存储相似数据检测***,特别是一种基于块级语义的云存储相似数据检测***,所述云存储相似数据检测***包括存储器和处理器,所述存储器中存储有计算机程序;
所述处理器,用于在运行所述计算机程序时,执行如权利要求1-7中任一项所述的一种云存储相似数据检测方法。
CN202210070755.3A 2022-01-21 2022-01-21 一种云存储相似数据检测方法和*** Active CN114579046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210070755.3A CN114579046B (zh) 2022-01-21 2022-01-21 一种云存储相似数据检测方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210070755.3A CN114579046B (zh) 2022-01-21 2022-01-21 一种云存储相似数据检测方法和***

Publications (2)

Publication Number Publication Date
CN114579046A CN114579046A (zh) 2022-06-03
CN114579046B true CN114579046B (zh) 2024-01-02

Family

ID=81771683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210070755.3A Active CN114579046B (zh) 2022-01-21 2022-01-21 一种云存储相似数据检测方法和***

Country Status (1)

Country Link
CN (1) CN114579046B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI20080534A0 (fi) * 2008-09-22 2008-09-22 Envault Corp Oy Turvallinen ja valikoidusti kiistettävissä oleva tiedostovarasto
CN102158557A (zh) * 2011-04-12 2011-08-17 华中科技大学 云存储环境下安全策略分解与验证***
CN105338027A (zh) * 2014-07-30 2016-02-17 杭州海康威视***技术有限公司 进行视频数据云存储的方法、***及装置
CN106776370A (zh) * 2016-12-05 2017-05-31 哈尔滨工业大学(威海) 基于对象关联性评估的云存储方法及装置
EP3176717A2 (en) * 2015-12-02 2017-06-07 Panasonic Intellectual Property Management Co., Ltd. Control method, processing apparatus, and non-transitory computer-readable recording medium
CN108287816A (zh) * 2017-01-10 2018-07-17 腾讯科技(深圳)有限公司 兴趣点在线检测、机器学习分类器训练方法和装置
CN110472045A (zh) * 2019-07-11 2019-11-19 中山大学 一种基于文档嵌入的短文本虚假问题分类预测方法及装置
CN111639197A (zh) * 2020-05-28 2020-09-08 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及***
CN112287662A (zh) * 2020-10-29 2021-01-29 平安科技(深圳)有限公司 基于多个机器学习模型的自然语言处理方法、装置和设备
CN112580507A (zh) * 2020-12-18 2021-03-30 合肥高维数据技术有限公司 一种基于图像矩矫正的深度学习文本字符检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI20080534A0 (fi) * 2008-09-22 2008-09-22 Envault Corp Oy Turvallinen ja valikoidusti kiistettävissä oleva tiedostovarasto
CN102158557A (zh) * 2011-04-12 2011-08-17 华中科技大学 云存储环境下安全策略分解与验证***
CN105338027A (zh) * 2014-07-30 2016-02-17 杭州海康威视***技术有限公司 进行视频数据云存储的方法、***及装置
EP3176717A2 (en) * 2015-12-02 2017-06-07 Panasonic Intellectual Property Management Co., Ltd. Control method, processing apparatus, and non-transitory computer-readable recording medium
CN106776370A (zh) * 2016-12-05 2017-05-31 哈尔滨工业大学(威海) 基于对象关联性评估的云存储方法及装置
CN108287816A (zh) * 2017-01-10 2018-07-17 腾讯科技(深圳)有限公司 兴趣点在线检测、机器学习分类器训练方法和装置
CN110472045A (zh) * 2019-07-11 2019-11-19 中山大学 一种基于文档嵌入的短文本虚假问题分类预测方法及装置
CN111639197A (zh) * 2020-05-28 2020-09-08 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及***
CN112287662A (zh) * 2020-10-29 2021-01-29 平安科技(深圳)有限公司 基于多个机器学习模型的自然语言处理方法、装置和设备
CN112580507A (zh) * 2020-12-18 2021-03-30 合肥高维数据技术有限公司 一种基于图像矩矫正的深度学习文本字符检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SURF与FLANN算法结合的图像匹配方法;周志伟;袁锋伟;张亢;吴智;;智能计算机与应用(06);全文 *
一种基于短文本相似度计算的知识子图融合方法;郑志蕴;吴建萍;李钝;刘允;米高扬;;小型微型计算机***(01);全文 *
一种融合动态预测的感知哈希目标跟踪算法;陈优良;肖钢;卞焕;胡敏;;测绘通报(02);全文 *
联合哈希特征和分类器学习的跨模态检索算法;刘昊鑫;吴小俊;庾骏;;模式识别与人工智能(02);全文 *

Also Published As

Publication number Publication date
CN114579046A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN111461637A (zh) 简历筛选方法、装置、计算机设备和存储介质
KR102432600B1 (ko) 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템
CN112328909B (zh) 信息推荐方法、装置、计算机设备及介质
CN111159413A (zh) 日志聚类方法、装置、设备及存储介质
CN113689285B (zh) 一种检测用户特征的方法、装置、设备及存储介质
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN110969172A (zh) 一种文本的分类方法以及相关设备
CN114245896A (zh) 向量查询方法、装置、电子设备及存储介质
CN111340075B (zh) 一种ics的网络数据检测方法及装置
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
WO2023029350A1 (zh) 基于点击行为预测的信息推送方法及装置
CN109885831B (zh) 关键术语抽取方法、装置、设备及计算机可读存储介质
CN107562853A (zh) 一种面向海量互联网文本数据的流式聚类及展现的方法
CN110390011B (zh) 数据分类的方法和装置
CN113496123A (zh) 谣言检测方法、装置、电子设备及存储介质
CN114579046B (zh) 一种云存储相似数据检测方法和***
CN116226681A (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
CN116703659A (zh) 一种应用于工程咨询的数据处理方法、装置及电子设备
CN116366603A (zh) 一种活跃IPv6地址的确定方法及装置
CN113947185B (zh) 任务处理网络生成、任务处理方法、装置、电子设备及存储介质
CN115292008A (zh) 用于分布式***的事务处理方法、装置、设备及介质
CN114625315B (zh) 一种基于元语义嵌入的云存储相似数据检测方法和***
CN112860626A (zh) 一种文档排序方法、装置及电子设备
CN113934842A (zh) 文本聚类方法、装置及可读存储介质
CN115686597A (zh) 一种数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant