CN109062996A - 一种云端文件的管理方法及*** - Google Patents

一种云端文件的管理方法及*** Download PDF

Info

Publication number
CN109062996A
CN109062996A CN201810729312.4A CN201810729312A CN109062996A CN 109062996 A CN109062996 A CN 109062996A CN 201810729312 A CN201810729312 A CN 201810729312A CN 109062996 A CN109062996 A CN 109062996A
Authority
CN
China
Prior art keywords
file
cloud
sample
output
management method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810729312.4A
Other languages
English (en)
Inventor
孙伟
吕云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Wei Ai Education Technology Co Ltd
Original Assignee
Guizhou Wei Ai Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Wei Ai Education Technology Co Ltd filed Critical Guizhou Wei Ai Education Technology Co Ltd
Priority to CN201810729312.4A priority Critical patent/CN109062996A/zh
Publication of CN109062996A publication Critical patent/CN109062996A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Power Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种云端文件的管理方法及***,涉及互联网的云端文件存储和管理领域,用以解决基于虚拟现实技术的现有云端文件管理方案不完善的问题。方法包括:上传文件到云端进行暂存;对上传的所述文件进行分类;对分类后的所述文件进行审核;云端存储审核后的所述文件。***包括:云端暂存器,用于暂存上传的文件;智能分类器,用于对上传的所述文件进行分类;智能审核器,用于对分类后的所述文件进行审核;云端存储器,用于存储审核后的所述文件。

Description

一种云端文件的管理方法及***
【技术领域】
本发明涉及互联网的云端文件存储和管理领域,尤其是一种云端文件的管理方法及***。
【背景技术】
虚拟现实技术是仿真技术的一个重要方向,是仿真技术与计算机图形学、人机接口技术、多媒体技术、传感技术、网络技术、等多种技术的集合。是一门富有挑战性的交叉技术前沿学科和研究领域。虚拟现实技术(VR)主要包括模拟环境、感知、自然技能和传感设备等方面。模拟环境是由计算机生成的、实时动态的三维立体逼真图像。感知是指理想的VR应该具有一切人所具有的感知。除计算机图形技术所生成的视觉感知外,还有听觉、触觉、力觉、运动等感知,甚至还包括嗅觉和味觉等,也称为多感知。自然技能是指人的头部转动,眼睛、手势、或其他人体行为动作,由计算机来处理与参与者的动作相适应的数据,并对用户的输入作出实时响应,并分别反馈到用户的五官。传感设备是指三维交互设备。
结合虚拟现实技术需要云端文件管理方案与之配套,但是目前基于虚拟现实技术的云端文件的管理方案还不完善。
【发明内容】
本发明提供了一种云端文件的管理方法及***,用以解决基于虚拟现实技术的现有云端文件管理方案不完善的问题。
本发明的一种云端文件的管理方法,包括下列步骤:S1、上传文件到云端进行暂存;S2、对上传的所述文件进行分类;S3、对分类后的所述文件进行审核;S4、云端存储审核后的所述文件。
进一步,步骤S1中包括下列子步骤:S11、基于SpringCloud微服务架构,采用OAuth2技术接入第三方账号***进行登录;S12、使用Webuploader技术进行所述文件的断点续传。
进一步,步骤S2包括下列子步骤:S21、判断所述文件是否具有基本信息,如有转入步骤S22,否则转入S23;S22、根据所述基本信息输出预判权值,并跳转至步骤S24;S23、将文件内容进行傅里叶变换,以转换到频率变化维度,并以变化频率的2倍对文件内容进行采样,作为特征值;S24、将步骤S22输出的预判权值与S23得到的特征值进行正则化归一处理;S25、采用SVM模型进行训练分类。
进一步,所述步骤S24中的正则化归一处理具体包括:设样本大小为n,第 i个样本的m维特征表示为X的均值、方差分别为μ、σ2,则归一化后的X′表示为:其中,
进一步,所述步骤S25中包括子步骤:S251、预测分类内容的合法性,并去除非法内容;S252、对合法内容进行训练分类,并输出样本类别,具体包括:通过一维卷积层提取输入的时序特征,以及通过最大池化层降维,并输出序列信息;通过循环神经网络学习上述的序列信息,并在序列的最后输出神经网络所有单元的输出;最后输出样本类别。
进一步,所述步骤S251中通过如下公式预测分类内容的合法性:设输入样本为x,当ωTf≥0时,预测分类内容为非法内容;其中ω是SVM训练的权值向量, f是x与各个训练样本的相似度向量;第i个相似度值fi计算如下:其中li是第i个训练样本,σ为训练的超参数。
进一步,所述步骤S252中所述的通过一维卷积层提取输入的时序特征,以及通过最大池化层降维,并输出序列信息具体包括:设时序特征y(t,d)的维度为 (Tx,D),即时间维度上样本特征长度为Tx,每个时间步都由D维特征表示;卷积核x(t,d)的维度为(size,D),步幅为stride,则互相关操作表示为:
其中τ∈N且floor为向下取整;通过一维最大池化层将特征减半并输出序列信息。
进一步,所述步骤S252中所述的通过循环神经网络学习序列信息,并在序列的最后输出神经网络所有单元的输出具体包括:K类分类任务使用交叉熵损失函数来计算,公式如下:其中tj和yj分别是第j类的真实结果和预测结果概率。
进一步,步骤S3包括下列子步骤:S31、采用残差网络堆砌多个残差构建块,每个残差构建块通过一个直接的捷径连接,实现了恒等映射;S32、通过对置信度加权打分来判定所述文件是否合法,如果大于阈值则认为是不合法的非法内容样本。
进一步,步骤S4中使用Deduplication技术存储审核后的所述文件。
进一步,步骤S4之后还包括:审核后的所述文件被分享时,将该文件映射成物理文件的不同的块,每一所述的块作为逻辑文件对象,以及向各用户分别分配不同的逻辑文件对象。
进一步,当某用户对其分配的所述逻辑文件对象进行修改时,通过增量方式存储历史版本并提供给该用户。
本发明的一种云端文件的管理***,包括:云端暂存器,用于暂存上传的文件;智能分类器,用于对上传的所述文件进行分类;智能审核器,用于对分类后的所述文件进行审核;云端存储器,用于存储审核后的所述文件。
进一步,所述云端暂存器基于SpringCloud微服务架构,采用OAuth2技术接入第三方账号***进行登录,并使用Webuploader技术进行所述文件的断点续传。
进一步,所述智能分类器内部的分类逻辑是判断所述文件是否具有基本信息,若有,则根据所述基本信息输出预判权值,若没有,则将文件内容进行傅里叶变换,以转换到频率变化维度,并以变化频率的2倍对文件内容进行采样,作为特征值;将上述输出的预判权值与上述得到的特征值进行正则化归一处理,并采用SVM模型进行训练分类。
如进一步,所述的正则化归一处理具体包括:设样本大小为n,第i个样本的m维特征表示为X的均值、方差分别为μ、σ2,则归一化后的X′表示为:其中,
进一步,所述的采用SVM模型进行训练分类具体是预测分类内容的合法性,并去除非法内容;对合法内容进行训练分类,并输出样本类别,具体包括:通过一维卷积层提取输入的时序特征,以及通过最大池化层降维,并输出序列信息;通过循环神经网络学习上述的序列信息,并在序列的最后输出神经网络所有单元的输出;最后输出样本类别。
进一步,通过如下公式预测分类内容的合法性:设输入样本为x,当ωTf≥0时,预测分类内容为非法内容;其中ω是SVM训练的权值向量,f是x与各个训练样本的相似度向量;第i个相似度值fi计算如下:其中li是第i个训练样本,σ为训练的超参数。
进一步,所述的通过一维卷积层提取输入的时序特征,以及通过最大池化层降维,并输出序列信息具体包括:设时序特征y(t,d)的维度为(Tx,D),即时间维度上样本特征长度为Tx,每个时间步都由D维特征表示;卷积核x(t,d)的维度为(size,D),步幅为stride,则互相关操作表示为:
其中τ∈N且floor为向下取整;通过一维最大池化层将特征减半并输出序列信息。
进一步,所述的通过循环神经网络学习序列信息,并在序列的最后输出神经网络所有单元的输出具体包括:K类分类任务使用交叉熵损失函数来计算,公式如下:其中tj和yj分别是第j类的真实结果和预测结果概率。
进一步,所述智能审核器采用残差网络堆砌多个残差构建块,每个残差构建块通过一个直接的捷径连接,实现了恒等映射;通过对置信度加权打分来判定所述文件是否合法,如果大于阈值则认为是不合法的非法内容样本。
进一步,所述云端存储器使用Deduplication技术存储审核后的所述文件。
进一步,还包括:分享模块,用于在审核后的所述文件被分享时,将该文件映射成物理文件的不同的块,每一所述的块作为逻辑文件对象,以及向各用户分别分配不同的逻辑文件对象。
进一步,还包括:增量模块,用于当某用户对其分配的所述逻辑文件对象进行修改时,通过增量方式存储历史版本并提供给该用户。
本发明的云端文件的管理方法及***,完善了基于虚拟现实技术的云端文件管理方案。
【附图说明】
图1是本发明实施例1的方法步骤流程图;
图2是本发明实施例1的流程图中步骤S102进一步细化;
图3是本发明实施例1的流程图中步骤S1025中的时序特征模型整体结构示意图;
图4是本发明实施例2的云端文件的管理***结构示意图。
【具体实施方式】
发明人经过研究提出了一种云端文件的管理方法及***,在具体实现中整套***是基于广域网的解决方案,融合多级全自动的审核子***来完成内容的上传,智能分类+智能审核+Dedup文件***,每个子***完成各自的职责并无缝的连接在一起,用户通过客户端软件(浏览器、课件编辑器)登录到内容云上,然后可以将本地的素材文件上传到云端存储或供其他用户下载使用。所有上传的文件自动按类型分类,只有通过审核的内容才能保存到云上的文件***,用户可以将自己的内容分享给指定用户,或公开给所有用户。该***集成了虚拟现实教学管理、教师个人教学资源管理、公共教学资源共享平台等多种功能,主要功能如下:(1)虚拟现实教学管理学校的教务管理人员可分配和管理教师账号,管理VR自主学习平台的资源内容,查看本学校的各种与虚拟现实教学相关的数据统计以及每位教师的统计数据,从而实现对于本学校虚拟现实教学的必要管理。(2)教师个人教学资源管理教师登录后,可以查看、检索、删除自己上传、制作和收藏的各种教学资源及基本教学素材,也包括这些这些素材经过虚拟现实内容制作工具组织制作而成的 VR课件,以及教师在上课过程中录制的VR慕课视频。(3)教师个人教学资源分享教师对于个人所拥有的上述各种教学资源,可以进行两种形式的分享:一种是教师可以将自己所拥有的各种教学资源快速分享给其他本学校的其他教师,从而实现学校范围内的教学资源共享和教师协同备课;另一种是教师还可以将上述教学资源导出成网页链接的形式分享至微信等社交工具中,其他人只需要打开分享链接就可在移动端网页上查看教学素材、观看录制的慕课视频,并且还支持旋转、缩放等简单操作。(4)公共教学资源库公共教学资源库连通各个学校,提供海量的虚拟现实教学资源供教师备课时选用,涵盖了各学科的展示型教学、实操型教学、慕课教学等各种教学需求。教师可以检索自己想要的资源,一键收藏至自己的个人教学资源库中或是分享给他人;同时也支持教师分享发布出自己制作的教学资源。注:素材是最小粒度的教学资源,包括:3D模型、场景、全景图片、全景视频、2D视频等。以下通过实施例具体描述。
实施例1、本实施例的云端文件的管理方法,参见图1所示,包括下列主要步骤:
S101、上传文件到云端进行暂存;
S102、对上传的所述文件进行分类;
S103、对分类后的所述文件进行审核;
S104、云端存储审核后的所述文件。
更为具体的,在上述步骤S101中,采用SpringCloud微服务架构支持应用服务器的高并发、高可用以及横向扩展部署,使用Spring Security对不同级别用户权限进行控制。采用OAuth2技术接入第三方账号***进行登录,例如微信,微博等。使用Webuploader技术进行断点续传,以保障各种大文件(如大型3D模型文件)可以完整的上传到服务器,可以在断线、超时、异常关机等各种情况下恢复上传,直至完全成功。
更为具体的,上述步骤S102进一步细化,参见图2所示,本步骤S102 包括下列子步骤:
S1021、判断所述文件是否具有基本信息,如有转入步骤S1022,否则转入 S1023;
具体的,用户上传的文件会经过智能分类进行自动分类,智能分类会结合规则+机器学***面的距离,根据向量的知识可以算出来:
然后对于所有的支持向量,使他们到超平面的距离最大,也就是
因为对于所有支持向量,他们的值都是一定的,我们假设恒等于1,那么上式变成了
且对于所有的样本点,满足yiTx+b)>=1的约束,因此,可以利用拉格朗日乘数法计算出它的极值,也就是求出这个超平面。
S1022、根据所述基本信息输出预判权值,并跳转至步骤S1024;
S1023、将文件内容进行傅里叶变换,以转换到频率变化维度,并以变化频率的2倍对文件内容进行采样,作为特征值;
具体的,经过以“文件扩展名”和“文件头”为特征的规则网络,会输出一个预判权值;同时将其余文件内容进行采样分析,根据采样定理:采样频率大于原始内容的频率2倍,就可以还原原始内容。将文件内容进行了傅里叶变换,转换到频率变化维度,并以变化频率的2倍对文件内容进行采样,作为特征值。傅里叶变换公式:
S1024、将步骤S1022输出的预判权值与S1023得到的特征值进行正则化归一处理;
具体的,设样本大小为n,第i个样本的m维特征可以表示为X的均值、方差分别为μ、σ2,则归一化后的X′表示为:
其中,
S1025、采用SVM模型进行训练分类。
本步骤中先预测分类内容的合法性并去除非法内容,具体设输入样本为 x,当ωTf≥0时,预测分类内容为非法内容。其中ω是SVM训练的权值向量,f是 x与各个训练样本的相似度向量。第i个相似度值fi计算如下:
其中li是第i个训练样本,σ为训练的超参数。
本步骤中再对合法内容进行训练分类并输出样本类别,具体的用于识别时序特征的模型整体结构,模型主要包含三大部分。第一大部分是卷积层,可使用一维卷积层来提取输入的时序特征,并通过最大池化层达到降维的目的。第二大部分是循环神经网络,使用GRU的任务是学习卷积层部分输出的序列信息,并在序列的最后输出GRU所有单元的输出。第三大部分是输出样本类别。具体参见图3所示,包括:输入的时序特征10250、一维卷积层10251、第一批规范化10252(Batch Normalization)、激活函数ReLU10253、 MaxPooling1D一维最大池化层10254、GRU(Gated Recurrent Unit)门限循环单元层10255、第二批规范化10256、Dropout层10257。卷积层可使用一维卷积层10251采用信号处理中的互相关(cross-correlation)操作进行特征提取。以音频为例,设音频时序特征y(t,d)的维度为(Tx,D),即时间维度上样本特征长度为Tx,每个时间步都由D维特征表示。卷积核x(t,d)的维度为(size,D),步幅为stride,则互相关操作可表示为:
其中τ∈N且floor为向下取整。第一批规范化 10252(Batch Normalization)来降低内部协变量位移(Internal Covariate Shift),提高网络的泛化性能。最后通过MaxPooling1D一维最大池化层10254将特征减半。卷积层部分的输出仍然带有很强的序列的特征,前面的输出与后面的输出有较强的关联性。GRU(GatedRecurrent Unit)门限循环单元层10255 作为循环神经网络的变种,可以克服长距离学习梯度消失带来的问题,同时结构又较为简单,因此采用GRU来学习卷积层部分的序列信息。同样,在 GRU10255输出序列的最后通过第二批规范化10256与Dropout层10257来降低网络的过拟合程度。通过循环神经网络学习序列信息,并在序列的最后输出神经网络所有单元的输出,需要考虑损失函数,K类分类任务使用交叉熵损失函数来计算,如下所示:
其中tj和yj分别是第j类的真实结果和预测结果概率。
整个训练好的模型***就可用于任意文件的分类。
更为具体的,在上述步骤S103中,使用深度学习RNN/CNN/LSTM训练的模型对上传的各种文件进行自动审核,控制非法内容的传播。分类后的不同文件类型使用了针对性训练的模型。本实施的审核模型采用深度学习中的 ResNet-50残差网络,结合人工标注,学习素材特征,识别其中的非法内容。 ResNet网络堆砌了多个残差构建块,每个残差构建块通过一个直接的捷径连接,实现了恒等映射,将原始所需要学的函数H(x)转换成F(x)+x。这两种表达虽然效果相同,但后者所需要优化的难度却大大降低,可以大大增加模型的训练速度、提高训练效果,并且当模型的层数加深时,这个简单的结构能够很好的解决退化问题。与此同时,受到目前标注数据量的影响,还采用了机器学习中经典的支持向量机(SVM)对相同内容同时进行识别。SVM是一种大间隔分类器,使用拉格朗日乘子法来最优化问题。
最后通过对置信度加权打分来决定文件是否合法,如果大于阈值则认为是不合法的非法内容样本。
更为具体的,在上述步骤S104中,服务器端接收到文件后,使用 Deduplication技术进行文件存储,以支持单用户的版本管理,和多用户的文件分片共享,极大节省了服务器的存储空间,同时自动为用户提供备份还原机制。文件分享时,多人共享同一个物理文件,由LogicShareManager模块负责向用户展现不同的逻辑文件对象LogicFileA1+LogicFileA2,由 PhysicalShareManager模块负责将逻辑文件映射成物理文件的不同的块。当某个用户对自己的文件进行修改时,LogicShareManager通知VersionManager 记录修改信息,VersionManager通过PhysicalShareManager提供的服务记录修改的newblock。这样,VersionManager为用户教师1提供了历史版本功能, LogicShareManager为不同的用户展现不同的逻辑文件内容;而 PhysicalShareManager管理实际的硬盘存储,增量仅为newblock的大小,其余文件分片仍然为多用户共享,无需占用2个整体文件的大小,从而尽最大可能节省磁盘空间。
实施例2、本实施例的云端文件的管理***可以采用上述实施例1的方法实施,参见图4所示,包括:云端暂存器201、智能分类器202、智能审核器203、云端存储器204、分享模块205、增量模块206。
云端暂存器201,用于暂存上传的文件,具体的云端暂存器201采用 SpringCloud微服务架构支持应用服务器的高并发、高可用以及横向扩展部署,使用Spring Security对不同级别用户权限进行控制。采用OAuth2技术接入第三方账号***进行登录,例如微信,微博等。使用Webuploader技术进行断点续传,以保障各种大文件(如大型3D模型文件)可以完整的上传到服务器,可以在断线、超时、异常关机等各种情况下恢复上传,直至完全成功。
智能分类器202,用于对上传的所述文件进行分类,具体的智能分类器202 内部的分类逻辑是判断所述文件是否具有基本信息,若有,则根据所述基本信息输出预判权值,若没有,则将文件内容进行傅里叶变换,以转换到频率变化维度,并以变化频率的2倍对文件内容进行采样,作为特征值;将上述输出的预判权值与上述得到的特征值进行正则化归一处理,并采用SVM模型进行训练分类。更为具体的,设样本大小为n,第i个样本的m维特征可以表示为X的均值、方差分别为μ、σ2,则归一化后的X′表示为:
其中,
预测分类内容的合法性并去除非法内容,具体设输入样本为x,当ωTf≥0 时,预测分类内容为非法内容。其中ω是SVM训练的权值向量,f是x与各个训练样本的相似度向量。第i个相似度值fi计算如下:
其中li是第i个训练样本,σ为训练的超参数。
对合法内容进行训练分类并输出样本类别,具体的用于识别时序特征的模型整体结构,模型主要包含三大部分。第一大部分是卷积层,可使用一维卷积层来提取输入的时序特征,并通过最大池化层达到降维的目的。第二大部分是循环神经网络,使用GRU的任务是学习卷积层部分输出的序列信息,并在序列的最后输出GRU所有单元的输出。第三大部分是输出样本类别。卷积层可使用一维卷积层采用信号处理中的互相关(cross-correlation)操作进行特征提取。以音频为例,设音频时序特征y(t,d)的维度为(Tx,D),即时间维度上样本特征长度为Tx,每个时间步都由D维特征表示。卷积核x(t,d)的维度为(size,D),步幅为stride,则互相关操作可表示为:
其中τ∈N且floor为向下取整。批规范化来降低内部协变量位移(Internal Covariate Shift),提高网络的泛化性能。最后通过 MaxPooling1D一维最大池化层将特征减半。卷积层部分的输出仍然带有很强的序列的特征,前面的输出与后面的输出有较强的关联性。GRU门限循环单元层作为循环神经网络的变种,可以克服长距离学习梯度消失带来的问题,同时结构又较为简单,因此采用GRU来学习卷积层部分的序列信息。同样,在GRU输出序列的最后通过批规范化与Dropout层来降低网络的过拟合程度。通过循环神经网络学习序列信息,并在序列的最后输出神经网络所有单元的输出,需要考虑损失函数,K类分类任务使用交叉熵损失函数来计算,如下所示:
其中tj和yj分别是第j类的真实结果和预测结果概率。
智能审核器203,用于对分类后的所述文件进行审核,具体的使用深度学习 RNN/CNN/LSTM训练的模型对上传的各种文件进行自动审核,控制非法内容的传播。分类后的不同文件类型使用了针对性训练的模型。本实施的审核模型采用深度学习中的ResNet-50残差网络,结合人工标注,学习素材特征,识别其中的非法内容。ResNet网络堆砌了多个残差构建块,每个残差构建块通过一个直接的捷径连接,实现了恒等映射,将原始所需要学的函数H(x)转换成F(x)+x。这两种表达虽然效果相同,但后者所需要优化的难度却大大降低,可以大大增加模型的训练速度、提高训练效果,并且当模型的层数加深时,这个简单的结构能够很好的解决退化问题。与此同时,受到目前标注数据量的影响,还采用了机器学习中经典的支持向量机(SVM)对相同内容同时进行识别。SVM是一种大间隔分类器,使用拉格朗日乘子法来最优化问题。
最后通过对置信度加权打分来决定文件是否合法,如果大于阈值则认为是不合法的非法内容样本。
云端存储器204,用于存储审核后的所述文件,具体的接收到文件后,使用Deduplication技术进行文件存储,以支持单用户的版本管理,和多用户的文件分片共享,极大节省了服务器的存储空间,同时自动为用户提供备份还原机制。
分享模块205,用于在审核后的所述文件被分享时,将该文件映射成物理文件的不同的块,每一所述的块作为逻辑文件对象,以及向各用户分别分配不同的逻辑文件对象。具体的文件分享时,多人共享同一个物理文件,由分享模块 205模块负责向用户展现不同的逻辑文件对象LogicFileA1+LogicFileA2,将逻辑文件映射成物理文件的不同的块。
增量模块206,用于当某用户对其分配的所述逻辑文件对象进行修改时,通过增量方式存储历史版本并提供给该用户。具体的当某个用户对自己的文件进行修改时,通知记录修改信息,通过提供的服务记录修改的newblock。这样为用户教师1提供了历史版本功能,为不同的用户展现不同的逻辑文件内容;增量模块206的增量仅为newblock的大小,其余文件分片仍然为多用户共享,无需占用2个整体文件的大小,从而尽最大可能节省磁盘空间
这里本发明的描述和应用都只是说明性和示意性的,并非是想要将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是完全可能的,对于那些本领域的普通技术人员来说,实施例的替换和等效的各种部件均是公知的。本领域技术人员还应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现,以及在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (24)

1.一种云端文件的管理方法,其特征在于,包括下列步骤:
S1、上传文件到云端进行暂存;
S2、对上传的所述文件进行分类;
S3、对分类后的所述文件进行审核;
S4、云端存储审核后的所述文件。
2.如权利要求1所述的云端文件的管理方法,其特征在于,步骤S1中包括下列子步骤:
S11、基于SpringCloud微服务架构,采用OAuth2技术接入第三方账号***进行登录;
S12、使用Webuploader技术进行所述文件的断点续传。
3.如权利要求1所述的云端文件的管理方法,其特征在于,步骤S2包括下列子步骤:
S21、判断所述文件是否具有基本信息,如有转入步骤S22,否则转入S23;
S22、根据所述基本信息输出预判权值,并跳转至步骤S24;
S23、将文件内容进行傅里叶变换,以转换到频率变化维度,并以变化频率的2倍对文件内容进行采样,作为特征值;
S24、将步骤S22输出的预判权值与S23得到的特征值进行正则化归一处理;
S25、采用SVM模型进行训练分类。
4.如权利要求3所述的云端文件的管理方法,其特征在于,所述步骤S24中的正则化归一处理具体包括:
设样本大小为n,第i个样本的m维特征表示为x的均值、方差分别为μ、σ2
则归一化后的x′表示为:
其中,
5.如权利要求3所述的云端文件的管理方法,其特征在于,所述步骤S25中包括子步骤:
S251、预测分类内容的合法性,并去除非法内容;
S252、对合法内容进行训练分类,并输出样本类别,具体包括:通过一维卷积层提取输入的时序特征,以及通过最大池化层降维,并输出序列信息;通过循环神经网络学习上述的序列信息,并在序列的最后输出神经网络所有单元的输出;最后输出样本类别。
6.如权利要求5所述的云端文件的管理方法,其特征在于,所述步骤S251中通过如下公式预测分类内容的合法性:
设输入样本为x,当ωTf≥0时,预测分类内容为非法内容;
其中ω是SVM训练的权值向量,f是x与各个训练样本的相似度向量;第i个相似度值fi计算如下:其中li是第i个训练样本,σ为训练的超参数。
7.如权利要求5所述的云端文件的管理方法,其特征在于,所述步骤S252中所述的通过一维卷积层提取输入的时序特征,以及通过最大池化层降维,并输出序列信息具体包括:
设时序特征y(t,d)的维度为(Tx,D),即时间维度上样本特征长度为Tx,每个时间步都由D维特征表示;卷积核x(t,d)的维度为(size,D),步幅为stride,则互相关操作表示为:
其中τ∈N且floor为向下取整;通过一维最大池化层将特征减半并输出序列信息。
8.如权利要求5所述的云端文件的管理方法,其特征在于,所述步骤S252 中所述的通过循环神经网络学习序列信息,并在序列的最后输出神经网络所有单元的输出具体包括:
K类分类任务使用交叉熵损失函数来计算,公式如下:
其中tj和yj分别是第j类的真实结果和预测结果概率。
9.如权利要求1所述的云端文件的管理方法,其特征在于,步骤S3包括下列子步骤:
S31、采用残差网络堆砌多个残差构建块,每个残差构建块通过一个直接的捷径连接,实现了恒等映射;
S32、通过对置信度加权打分来判定所述文件是否合法,如果大于阈值则认为是不合法的非法内容样本。
10.如权利要求1所述的云端文件的管理方法,其特征在于,步骤S4中使用Deduplication技术存储审核后的所述文件。
11.如权利要求1所述的云端文件的管理方法,其特征在于,步骤S4之后还包括:审核后的所述文件被分享时,将该文件映射成物理文件的不同的块,每一所述的块作为逻辑文件对象,以及向各用户分别分配不同的逻辑文件对象。
12.如权利要求11所述的云端文件的管理方法,其特征在于,当某用户对其分配的所述逻辑文件对象进行修改时,通过增量方式存储历史版本并提供给该用户。
13.一种云端文件的管理***,其特征在于,包括:
云端暂存器,用于暂存上传的文件;
智能分类器,用于对上传的所述文件进行分类;
智能审核器,用于对分类后的所述文件进行审核;
云端存储器,用于存储审核后的所述文件。
14.如权利要求13所述的云端文件的管理***,其特征在于,所述云端暂存器基于SpringCloud微服务架构,采用OAuth2技术接入第三方账号***进行登录,并使用Webuploader技术进行所述文件的断点续传。
15.如权利要求13所述的云端文件的管理***,其特征在于,所述智能分类器内部的分类逻辑是判断所述文件是否具有基本信息,若有,则根据所述基本信息输出预判权值,若没有,则将文件内容进行傅里叶变换,以转换到频率变化维度,并以变化频率的2倍对文件内容进行采样,作为特征值;将上述输出的预判权值与上述得到的特征值进行正则化归一处理,并采用SVM模型进行训练分类。
16.如权利要求15所述的云端文件的管理***,其特征在于,所述的正则化归一处理具体包括:
设样本大小为n,第i个样本的m维特征表示为x的均值、方差分别为μ、σ2
则归一化后的x′表示为:
其中,
17.如权利要求15所述的云端文件的管理***,其特征在于,所述的采用SVM模型进行训练分类具体是预测分类内容的合法性,并去除非法内容;对合法内容进行训练分类,并输出样本类别,具体包括:通过一维卷积层提取输入的时序特征,以及通过最大池化层降维,并输出序列信息;通过循环神经网络学习上述的序列信息,并在序列的最后输出神经网络所有单元的输出;最后输出样本类别。
18.如权利要求17所述的云端文件的管理***,其特征在于,通过如下公式预测分类内容的合法性:
设输入样本为x,当ωTf≥0时,预测分类内容为非法内容;
其中ω是SVM训练的权值向量,f是x与各个训练样本的相似度向量;第i个相似度值fi计算如下:其中li是第i个训练样本,σ为训练的超参数。
19.如权利要求17所述的云端文件的管理***,其特征在于,所述的通过一维卷积层提取输入的时序特征,以及通过最大池化层降维,并输出序列信息具体包括:
设时序特征y(t,d)的维度为(Tx,D),即时间维度上样本特征长度为Tx,每个时间步都由D维特征表示;卷积核x(t,d)的维度为(size,D),步幅为stride,则互相关操作表示为:
其中τ∈N且floor为向下取整;通过一维最大池化层将特征减半并输出序列信息。
20.如权利要求17所述的云端文件的管理***,其特征在于,所述的通过循环神经网络学习序列信息,并在序列的最后输出神经网络所有单元的输出具体包括:
K类分类任务使用交叉熵损失函数来计算,公式如下:
其中tj和yj分别是第j类的真实结果和预测结果概率。
21.如权利要求13所述的云端文件的管理***,其特征在于,所述智能审核器采用残差网络堆砌多个残差构建块,每个残差构建块通过一个直接的捷径连接,实现了恒等映射;通过对置信度加权打分来判定所述文件是否合法,如果大于阈值则认为是不合法的非法内容样本。
22.如权利要求13所述的云端文件的管理***,其特征在于,所述云端存储器使用Deduplication技术存储审核后的所述文件。
23.如权利要求13所述的云端文件的管理***,其特征在于,还包括:分享模块,用于在审核后的所述文件被分享时,将该文件映射成物理文件的不同的块,每一所述的块作为逻辑文件对象,以及向各用户分别分配不同的逻辑文件对象。
24.如权利要求23所述的云端文件的管理***,其特征在于,还包括:增量模块,用于当某用户对其分配的所述逻辑文件对象进行修改时,通过增量方式存储历史版本并提供给该用户。
CN201810729312.4A 2018-07-05 2018-07-05 一种云端文件的管理方法及*** Pending CN109062996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810729312.4A CN109062996A (zh) 2018-07-05 2018-07-05 一种云端文件的管理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810729312.4A CN109062996A (zh) 2018-07-05 2018-07-05 一种云端文件的管理方法及***

Publications (1)

Publication Number Publication Date
CN109062996A true CN109062996A (zh) 2018-12-21

Family

ID=64819247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810729312.4A Pending CN109062996A (zh) 2018-07-05 2018-07-05 一种云端文件的管理方法及***

Country Status (1)

Country Link
CN (1) CN109062996A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286868A (zh) * 2020-10-27 2021-01-29 冠群信息技术(南京)有限公司 一种基于电子文件和记录管理方法
CN112395369A (zh) * 2020-11-20 2021-02-23 深圳市银众信息技术有限公司 一种基于物联网的智能终端数据控制方法、装置及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537589A (zh) * 2014-12-19 2015-04-22 上海电机学院 一种教育云平台及其实现方法
CN106372182A (zh) * 2016-08-30 2017-02-01 浪潮(北京)电子信息产业有限公司 一种文件管理方法、***及云平台
US20170104736A1 (en) * 2015-10-12 2017-04-13 International Business Machines Corporation Secure data storage on a cloud environment
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537589A (zh) * 2014-12-19 2015-04-22 上海电机学院 一种教育云平台及其实现方法
US20170104736A1 (en) * 2015-10-12 2017-04-13 International Business Machines Corporation Secure data storage on a cloud environment
CN106372182A (zh) * 2016-08-30 2017-02-01 浪潮(北京)电子信息产业有限公司 一种文件管理方法、***及云平台
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286868A (zh) * 2020-10-27 2021-01-29 冠群信息技术(南京)有限公司 一种基于电子文件和记录管理方法
CN112395369A (zh) * 2020-11-20 2021-02-23 深圳市银众信息技术有限公司 一种基于物联网的智能终端数据控制方法、装置及***

Similar Documents

Publication Publication Date Title
CN111324774B (zh) 一种视频去重方法和装置
CN111382361A (zh) 信息推送方法、装置、存储介质和计算机设备
EP2973038A1 (en) Classifying resources using a deep network
CN112765480B (zh) 一种信息推送方法、装置及计算机可读存储介质
CN111310041B (zh) 图文发布的方法、模型的训练方法、装置及存储介质
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN110377789A (zh) 用于将文本概要与内容媒体关联的***和方法
CN114580663A (zh) 面向数据非独立同分布场景的联邦学习方法及***
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
EP3732592A1 (en) Intelligent routing services and systems
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN107911755B (zh) 一种基于稀疏自编码器的多视频摘要方法
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN112580352A (zh) 关键词提取方法、装置和设备及计算机存储介质
CN114299321A (zh) 视频分类方法、装置、设备及可读存储介质
Laramee et al. Challenges and unsolved problems
CN109062996A (zh) 一种云端文件的管理方法及***
Hiriyannaiah et al. Deep learning for multimedia data in IoT
Tabish et al. Activity recognition framework in sports videos
CN115114461A (zh) 多媒体数据的推荐方法、设备以及计算机可读存储介质
Zhang et al. Visual search reranking via adaptive particle swarm optimization
Matsuda et al. An empirical study of personalized federated learning
CN113657272A (zh) 一种基于缺失数据补全的微视频分类方法及***
Elhiber et al. Access patterns in web log data: a review
CN111768214A (zh) 产品属性的预测方法、***、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181221

WD01 Invention patent application deemed withdrawn after publication