CN112231497A

CN112231497A - 信息分类方法、装置、存储介质及电子设备

Info

Publication number: CN112231497A
Application number: CN202011118914.XA
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-15
Anticipated expiration: 2040-10-19
Also published as: CN112231497B

Abstract

本申请实施例公开了一种信息分类方法、装置、存储介质及电子设备，其中信息分类方法包括：获取待分类信息的多模态信息，多模态信息包括：待分类信息的本体内容、及对应关联的描述内容；分别对本体内容和描述内容进行特征提取；根据提取到的特征确定待分类信息属于指定类型信息的概率；当概率满足预设条件时，将待分类信息确定为指定类型信息。本方案通过对待分类信息的多模态信息结合评估来确定所属的分类，能够提高信息分类的准确性和信息处理效率。

Description

信息分类方法、装置、存储介质及电子设备

技术领域

本申请涉及信息处理技术领域，具体涉及一种信息分类方法、装置、存储介质及电子设备。

背景技术

随着互联网的兴起和移动通信网络的发展，自媒体平台也逐渐兴起，通过自媒体平台发布的各种信息内容的数量以指数级的速度增长，包括文章，图集和视频等。然而，由于这些多媒体内容来源渠道和质量都参差不齐，因此对多媒体内容质量的审核标准也是越来越高。

相关技术中，通常是对不适合的内容进行人工审核，但面对内容越来越多，需要审核的内容量非常大的情况，使得人工审核的效率低下。另外，对于通过机器学习算法对内容进行审核的方式，其针对特征不明显的涉及个人价值判断的内容(如龋齿、溃烂皮肤等不雅内容，密集昆虫、怪物等恐怖内容)识别效果不佳，导致信息分类准确性较差。

发明内容

本申请实施例提供一种信息分类方法、装置、存储介质及电子设备，通过多模态信息对待分类信息进行分类，可提高信息分类的准确性和信息处理效率。

本申请实施例提供了一种信息分类方法，包括：

获取待分类信息的多模态信息，所述多模态信息包括：所述待分类信息的本体内容、及对应关联的描述内容；

分别对所述本体内容和所述描述内容进行特征提取；

根据提取到的特征确定所述待分类信息属于指定类型信息的概率；

当所述概率满足预设条件时，将所述待分类信息确定为所述指定类型信息。

相应的，本申请实施例还提供了一种信息分类方法装置，包括：

获取单元，用于获取待分类信息的多模态信息，所述多模态信息包括：所述待分类信息的本体内容、及对应关联的描述内容；

提取单元，用于分别对所述本体内容和所述描述内容进行特征提取；

第一确定单元，用于根据提取到的特征确定所述待分类信息属于指定类型信息的概率；

第二确定单元，用于当所述概率满足预设条件时，将所述待分类信息确定为所述指定类型信息。

在一实施例中，所述描述内容包括：以文本形式对所述待分类信息进行描述的文本描述内容、及以图像形式对所述待分类信息进行描述的图像描述内容；所述提取单元用于：

分别对所述本体内容、所述文本描述内容和所述图像描述内容进行特征提取。

在一实施例中，所述第一确定单元包括：

构建子单元，用于根据提取到的特征，分别构建所述本体内容的第一向量表示、所述文本描述内容的第二向量表示、及所述图像描述内容的第三向量表示；

融合子单元，用于将所述第一向量表示、第二向量表示和所述第三向量表示进行融合，得到融合特征向量；

确定子单元，用于基于所述融合特征向量确定所述待分类信息属于指定类型信息的概率。

在一实施例中，所述本体内容包括：视频内容，所述提取到的特征至少包括：所述视频内容对应的每一视频帧的第一图像特征。在构建所述本体内容的第一向量表示时，所述构建子单元具体用于：

获取所述视频内容对应的视频帧序列；

根据所述第一图像特征对所述视频帧序列中每一视频帧进行场景识别，得到场景识别结果；

基于所述场景识别结果从所述视频帧序列中确定场景切换帧，其中，所述场景切换帧为场景识别结果不相同的相邻视频帧；

根据所述场景切换帧的第一图像特征构建所述第一向量表示。

在一实施例中，在根据所述场景切换帧的第一图像特征构建所述第一向量表示时，所述构建子单元进一步用于：

根据所述场景切换帧在所述视频帧序列中的位置，从所述视频帧序列中抽取目标数量的关键帧，其中，所述关键帧至少包括所述场景切换帧；

基于所述关键帧的第一图像特征构建所述第一向量表示。

在一实施例中，所述文本描述内容至少包括：所述本体内容的标题信息；所述提取到的特征至少包括：所述标题信息的文本特征。在构建所述文本描述内容的第二向量表示时，所述构建子单元具体用于：

基于所述标题信息的文本特征对所述标题进行语义分析，得到第一语义分析结果；

至少根据所述第一语义分析结果构建所述第二向量表示。

在一实施例中，所述文本描述内容还包括：所述本体内容关联的标签信息；所述提取到的特征还包括：所述标签信息的文本特征。在至少根据所述语义分析结果构建所述第二向量表示时，所述构建子单元进一步用于：

基于所述标签信息的文本特征对所述标签进行语义分析，得到第二语义分析结果；

根据所述第一语义分析结果和所述第二语义分析结果，构建所述第二向量表示。

在一实施例中，所述图像描述内容为所述本体内容的封面图像，所述提取到的特征至少包括：所述封面图像的第二图像特征。在构建所述图像描述内容的第三向量表示时，所述构建子单元具体用于：

基于所述封面图像的第二图像特征构建所述第三向量表示。

在一实施例中，所述信息分类装置还包括：

更新单元，用于在将所述待分类信息确定为所述指定类型信息之后，基于所述待分类信息对所述指定类型信息的样本数据库进行更新。

在一实施例中，所述本体内容包括：文本内容、图像内容、音频内容、视频内容中的一种或多种。

相应的，本申请实施例还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如上所述信息分类方法中的步骤。

相应的，本申请实施例还提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述信息分类方法的步骤。

本申请方案，通过获取待分类信息的多模态信息，该多模态信息包括：待分类信息的本体内容、及对应关联的描述内容；分别对本体内容和描述内容进行特征提取；根据提取到的特征确定待分类信息属于指定类型信息的概率；当概率满足预设条件时，将待分类信息确定为指定类型信息。本方案通过对待分类信息的多模态信息结合评估来确定所属的分类，能够提高信息分类的准确性和信息处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的信息分类方法的一流程示意图。

图2为本实施例提供的多模态模型的应用场景示意图。

图3为本实施例提供的多模态模型的结构示意图。

图4为本申请实施例提供的信息分类方法的***架构示意图。

图5是本申请实施例提供的信息分类方法装置的结构示意图。

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。使机器具有感知、推理与决策的功能。机器学习(Machine Learning,ML)是人工智能的核心，其专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。在本方案中，则是通过机器学习的方式使电子设备可基于多媒体内容的多模态信息对其进行分类，使电子设备具备可智能化地对信息进行分类的能力。

在本方案机器学习的过程中，可采用标记好分类的人工样本对预先构建的机器学习模型进行训练，在新的任务新的数据上进行微调，从而加快模型学习效率，使电子设备具备基于多媒体内容的多模态信息对其进行分类的能力，从而得到训练好的模型。具体实施时，可对待分类信息内容的标签、标题、封面图、以及自身信息内容等进行深度学习机器模型向量化，再进行模型融合，对识别结果进行概率的预测。同时结合线上用户实时的反馈内容，通过在线学习更新模型方式，实时响应和处理指定信息类型的样本。

基于上述问题，本申请实施例提供一种信息分类方法、装置、存储介质及电子设备，可基于多模态信息对待分类信息内容进行分类处理，提高信息分类的准确性和信息处理效率。以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。

在一实施例中，将以该第一信息分类方法装置集成在电子设备中的角度进行描述。请参阅图1，图1为本申请实施例提供的信息分类方法的一种流程示意图。该信息分类方法的具体流程可以如下：

101、获取待分类信息的多模态信息，多模态信息包括：待分类信息的本体内容、及对应关联的描述内容。

信息通常以不同的模态表现，每一种信息的来源或者形式都可以称为一种模态。例如，人有触觉、听觉、视觉、嗅觉；信息的媒介有语音、视频、文字等，以上的每一种都可以称为一种模态。其中，单模态的表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态表示学习是指通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。

在本实施例中，待分类信息可以是通过网络自媒体平台上传的待发布信息。该待分类信息的本体内容可以包括：文本内容、图像内容、音频内容、视频内容中的一种或多种。例如，该待分类信息可以是PGC(Professional Generated Content，专业生产内容)或UGC(User Generated Content，用户生产内容)用户通过网络平台主动上传的待发布视频；又例如，该待分类信息可以是自媒体通过建立的公众号主动编辑发布的文章。

而该关联的描述内容，则可以是用户在上传该待分类信息时，所编辑的用于描述该待分类信息本体内容的相关信息，具体可以是文本内容、图像内容、音频内容中的一种或多种。

102、分别对本体内容和描述内容进行特征提取。

在一些实施例中，描述内容可以包括：以文本形式对待分类信息进行描述的文本描述内容、及以图像形式对待分类信息进行描述的图像描述内容。则在对本体内容和描述内容进行特征提取时，具体可以分别对本体内容、文本描述内容和图像描述内容进行特征提取。

其中，对以上内容进行特征提取时，可根据各内容的实际表现形式选取相应的算法进行特征提取。例如，对于文本描述内容，可采用文本处理算法对其进行特征提取；对于图像描述内容，可采用图像处理算法对其进行特征提取。

以图像描述信息为例，可根据实际需求(指具体需要图像的哪些特征)采用相应的提取算法进行图像特征的提取。例如，可根据实际需求对图像提取图像哈希值(也称哈希指纹)、局部特征，以及生成视频帧对应的灰度图特征。

实际应用中，在提取图像哈希指纹时，可采用phash算法进行特征提取。另外，还可以采用avhash算法、dhash算法等方法进行特征提取。此外，为加特征快提取速度，还可以同时采用时多个哈希指纹提取算法提取多个哈希指纹。

在提取图像局部特征时，可采用orb算子图像中提取多个局部特征。另外，还可以采用surf算子、sift算子等方法进行图像局部特征的提取。此外，还可以同时采用上述多个局部特征提取算法提取多种局部特征。在本实施例中，对于单色图等局部特征数目较少的视频图像，可对其进行标记。

在生成灰度图特征时，可将图像转换为大小为N*M的压缩灰度图。其中，M、N的取值一般在1-256之间。转换后灰度图的长宽比例可保持与原图像的长宽比例相同。例如，480*270的原图像，可将其压缩调整为240*135的灰度图。当然，也可以选择M＝N，其值大小受后续计算灰度差特征时的速度影响，值越小则计算速度越快。

实际应用中，该描述内容还可以包括以语音形式对待分类信息进行描述的语音描述内容。

103、根据提取到的特征确定待分类信息属于指定类型信息的概率。

在本实施例中，将融合多模态信息，利用待分类内容在不同维度上的特征对其进行分类，以提高信息分类的准确性。也即，在一些实施例中，“根据提取到的特征确定待分类信息属于指定类型信息的概率”的步骤，可以包括以下流程：

(11)根据提取到的特征，分别构建本体内容的第一向量表示、文本描述内容的第二向量表示、及图像描述内容的第三向量表示；

(12)将第一向量表示、第二向量表示和第三向量表示进行融合，得到融合特征向量；

(13)基于融合特征向量确定待分类信息属于指定类型信息的概率。

具体的，可将提取到的特征分别输入到预先训练好的多模态模型中进行向量化，再将向量化后得到的本体内容的第一向量表示、文本描述内容的第二向量表示、及图像描述内容的第三向量表示做多模态融合，以得到该待分类信息的更好的向量表示。通过融合多个维度的特征来预测待分类信息属于指定类型信息的概率，以提升信息分类的整体准确率。其中，该融合特征向量可以为一维向量，实施时可以通过一个softmax激活函数对该一维向量进行归一化处理，以输出对应类别的概率。

实际应用中，该指定类型信息可以根据实际需求进行设定。例如，可将该指定类型设定为用户感官上认为不合适的内容，如不美观的内容、恐怖内容等不适合发布的内容(以下简称不适内容)。

参考图2，在一实施例中，本体内容可以包括：视频内容，提取到的特征至少包括：视频内容对应的每一视频帧的第一图像特征。具体实施时，为了减少设备运算负荷，在进构建向量表示时可降低视频帧的处理量。例如，可对该视频内容对应的视频帧序列进行抽帧处理，基于抽取到的视频帧的图像特征来构建第一向量表示。

本实施例中，对视频帧序列进行抽帧处理的方式可以包括多种，例如可以通过等时间间隔抽取视频帧、随机抽取指定数量视频帧；另外，还可从视频帧序列中筛选出满足要求的关键帧进行抽取，例如，可以根据视频画面所展示的具体内容进行视频帧的抽取。也即，在构建本体内容的第一向量表示时，可以包括以下流程：

(111a)获取视频内容对应的视频帧序列；

(112a)根据第一图像特征对视频帧序列中每一视频帧进行场景识别，得到场景识别结果；

(113a)基于场景识别结果从视频帧序列中确定场景切换帧，其中，场景切换帧为场景识别结果不相同的相邻视频帧；

(114a)根据场景切换帧的第一图像特征构建第一向量表示。

具体的，本实施例中将对视频帧序列中各视频帧进行场景识别，再筛选出场景识别结果不相同的相邻视频帧作为场景切换帧，用于第一向量表示的构建。

本实施例中，在场景识别分类时可以人物为重心作为场景分类的划分基准。当识别到人物为视频图像的画面主体时，可将该视频图像划分到人像场景，当识别到人物不为视频画面的画面主体时，可将该视频画面归类以其他主体为主的场景。

例如，可以对多帧视频图像进行人脸检测，当检测到人脸时确定人脸区域与所在视频图像的尺寸比例，至少基于该尺寸比例确定该人脸区域所在视频图像的图像场景。其中，该尺寸比例可以是人脸宽度与该视频图像的图像宽度的比值。当该比值大于指定值时，可以认为该视频图像所处的场景为人像场景。当该比值小于指定值时，可以认为该视频图像所处的场景为其他类型的场景。

在一些实施方式中，在还可以对人脸区域所在视频图像进行内容识别，随后，根据内容识别结果和该尺寸比例确定该人脸区域所在视频图像的图像场景。其中，该内容识别结果可以包含该视频图像中识别到的实体信息，如人像、物体、风光、食物等的具体分类标签。基于识别得到分类标签，结合获得的人脸区域比例，可对图像场景的类别进一步划分。

在一些实施方式中，为了避免遗漏重要特征，可针对该场景切换帧前后等间隔抽帧补齐一定数量的相关视频帧，并一同作为后续多模态的帧输入。也即，根据场景切换帧的第一图像特征构建第一向量表示时，可以根据所述场景切换帧在所述视频帧序列中的位置，从视频帧序列中抽取目标数量的关键帧，再基于抽取得到关键帧的第一图像特征构建第一向量表示。需要说明的是，该关键帧至少包括以上场景切换帧。

继续参考图2，在一实施例中，文本描述内容至少包括：本体内容的标题信息；提取到的特征至少包括：标题信息的文本特征。则在构建文本描述内容的第二向量表示时，可以包括以下流程：

(111b)基于标题信息的文本特征对标题进行语义分析，得到第一语义分析结果；

(112b)至少根据第一语义分析结果构建第二向量表示。

具体的，由于标题通常是短文本，甚至是一些关键词的拼接，有效信息少。因此，本实施例中将通过对标题做了一个语义的归纳和概括，生成更抽象的表达以备后续构建第二向量表示。

具体实施时，标题信息可采用Bert向量。Bert是使用大规模数据上训练出来的预训练模型，可将标题文本经过Bert模型提取出标题的语义特征(即将标题文本字符串转化成了一个文本向量)。本实施例中，将提取Bert模型中隐藏层的倒数第二层(即左右网络全连接层的前一层)的向量作为文本表示向量(如果提取最后一层，由于离目标太近可能在新的任务上有偏差，因此优选倒数第二层)。

继续参考图2，在一些实施例中，该文本描述内容还可包括：本体内容关联的标签信息；提取到的特征还包括：标签信息的文本特征。由于标签通常也是短文本，因此在根据所述语义分析结果构建第二向量表示时，可基于标签信息的文本特征对标签进行语义分析，得到第二语义分析结果，并根据第一语义分析结果和第二语义分析结果，构建第二向量表示。

其中，该标签信息可以是用户在上传该待分类信息时，针对该待分类信息实际包括的内容而设定的个性化文本描述信息。

实际应用中，不适内容通常都会有人工或者机器添加的标签，同时通过用户的举报和负反馈，能够得到用户举报负反馈内容集中的标签。本实施例中，可计算该标签信息的不适合程度：可预先由收集到的标签结合工人审核确定不适标签，实施时可计算该本体内容关联的标签信息与该不适标签之间的相关性得分，来评估不适合程度。也即，该方法还可以包括：

获取终端返回的反馈信息；

若所述反馈信息指示：属于指定类型信息的概率不满足预设条件的目标待分类信息为所述指定类型信息，则基于所述目标待分类信息对所述指定类型信息的样本数据库进行更新；

利用更新后的样本数据库对预设概率预测模型的模型参数进行调整，得到更新后的概率预测模型；

根据提取到的特征确定所述待分类信息属于指定类型信息的概率，包括：

根据提取到的特征，利用更新后的概率预测模型确定所述待分类信息属于指定类型信息的概率。

继续参考图2，在一些实施例中，该图像描述内容为可以为本体内容的封面图像，提取到的特征至少包括：封面图像的第二图像特征。则在构建图像描述内容的第三向量表示时，可基于封面图像的第二图像特征构建第三向量表示。其中，当该本体内容为视频内容时，该封面图像可以为从该视频内容中抽取得到。当然，也可以是由用户自主匹配的。

本实施例中，可预先使用ImageNet预训练好的模型，在数据集上用这个模型去初始化一个图像分类的任务，分类的标签是图像对应标题的高频抽象标签，比如内容的一级分类社会、体育、游戏、动漫等等。预训练模型使用Xception来初始化的图像分类模型，然后抽取出倒数第2层2048维向量作为图像的表征。

104、当概率满足预设条件时，将待分类信息确定为指定类型信息。

具体的，当预测得到的概率超过指定值时，可将待分类信息确定为指定类型信息。其中，该指定值可以由本领域技术人员进行设定。例如，该指定值可设定为0.5、0.7等。

在一些实施例中，在将待分类信息确定为所述指定类型信息之后，还可以基于待分类信息对指定类型信息的样本数据库进行更新。

具体的，由于不适内容问题由于占比低，类型长尾且随时间推移存在变化，难以一劳永逸彻底根除。因此，还可通过用户的举报和负反馈主动收集实际业务线上的样本，复核直接保存在不适内容的样本数据库当中。为了及时响应和处理后续类似的不适内容，将对加入该样本数据库的不适内容进行向量化表示，并对新增加内容优先通过向量化方式进行匹配，实时打击。

对于保存的种子库样本，需对反馈样本及时标注并模型自动化训练，按照更新频率为“天”更新模型，以解决因样本变化产生的线上效果退化问题。

本实施例提供的信息分类方法，通过获取待分类信息的多模态信息，该多模态信息包括：待分类信息的本体内容、及对应关联的描述内容；分别对本体内容和描述内容进行特征提取；根据提取到的特征确定待分类信息属于指定类型信息的概率；当概率满足预设条件时，将待分类信息确定为指定类型信息。本方案通过对待分类信息的多模态信息结合评估来确定所属的分类，能够提高信息分类的准确性和信息处理效率。

通过本方案，能够提升对不适内容的响应和处理速度，以及节省大量的审核人力。同时，构造的样本和业务密切相关，更有针对性，整体效果和效率能够得到大幅度提升。另外，利用负反馈响应机制复核用户负反馈不适内容，可自动通过相似向量召回相似内容对其直接过滤，并存入不适内容样本库用于后续定期的不适内容模型优化更新，优化了整体的网络架构。

参考图3和图4，图3为本实施例提供的多模态模型的结构示意图；图4为本申请实施例提供的信息分类方法的***架构示意图。下面，将对本申请中的信息分类方法进行详细描述。

参考图3，本申请将采用多模态信息来识别不适内容。

其中，多模态信息包括：图像Image向量(若待分类的为图文内容，则图像为是封面图向量；若待分类的为视频内容，则图像image向量包括封面图向量和视频内容的抽帧向量)、内容标题title向量、内容标签Tag向量。本实施例中，将以上述几个模态信息作为输入，来预测来得到不适内容的概率。

对于视频内容需要采用抽帧的方法，从视频当中抽取关键帧采样来得到视频内容的帧向量。具体向量化模型如下：

(1)封面图图像：Inception V3

(2)内容标题：Bert向量化，如果样本内容过多(千万级别内容)，可以采用FastBert来加速

(3)内容标签的不适分值：离散化的OneHot-Encoding。

其中，图像向量(包括视频抽帧向量)和多模态模型融合的方式有三种：第一种方式是把图像向量作为一个token拼接到文本输入里面，例如拼接到文本向量的首尾；第二种方式是设置图象向量作为编码器Encoder隐藏层初始化向量；第三种方式是将图像向量和Encoder的输出向量融合，然后作为译码器Decoder的初始向量。通过增加图向量信息，可以解决一部分因为标题导致的信息缺失的问题，模型效果也有提升。

由于内容标题是短文本，甚至是一些关键词的拼接，有效信息少。那么对于一些通用领域的短视频标题，语义理解就比较困难，因此需要模型对标题做了一个语义的归纳和概括，生成更抽象的表达。具体的，把标题文本向量提取出来之后，有三种方式来融入到多模态模型：第一种方式是和图像向量做拼接之后加入到Encoder输入；第二种方式是加到Encoder输出；第三种方式是加到Decoder的初始化向量。本申请优先采用第一种方式，通过这种方式把Bert加入到模型中，使得文本的语义理解能力得到强化。

通过多模态方法检测稀疏的不适内容，文本加封面图模型还是会造成语义信息丢失的问题。比如对于短视频，也即只有看了视频之后才能知道这个视频是什么内容。所以视频内容本身就有非常丰富的语义信息。因此，在将这个视频的内容加入到多模态模型时，需要抽取短视频的关键帧，通过Iception转化成视频帧向量。然后，分别把视频帧向量、封面图向量和文本向量(包括文本的Bert向量和内容的标签Tag信息，主要来自于用户反馈举报的Tag标签和人工定义的不适合Tag)做一个多模态的融合，通过融合多个结果来判断内容是否为不适内容。

实际应用中，输出结果可以是适合与不适，也可以通过一个softmax输出对应类别的概率，后续可以依据概率值的区间采用不同的应用策略。

对于图4提供的信息分类方法的***架构，将分为以下几个服务模块对其进行详细描述：

内容生产端和内容消费端

(1)PGC、UGC、MCN(Multi-Channel Network，多频道网络)或者PUGC(ProfessionalUser Generated Conten，专业用户生产内容)的内容生产者，通过移动端或者后端接口API(Application Programming Interface，应用程序接口)***提供本地或拍摄的视频内容、以及撰写的自媒体文章或图集等，作者可以选择主动上传对应内容的封面图，这些都是分发内容的主要内容来源；

(2)通过和上下行内容接口服务的通讯，先获取上传服务器接口地址，然后在上传本地文件，拍摄过程当中本地视频内容可以选择搭配的音乐、滤镜模板、视频的美化功能等等；

(3)作为消费者与内容分发出口服务器通讯，获取对应内容的索引信息。若为内容为视频，则与视频存储服务器通讯，下载对应的流媒体文件并通过本地播放器来播放观看；若为内容为图文，则直接与部署的CDN服务通讯；

(4)同时将上传和下载过程当中用户浏览的行为数据(如阅读速度、完成率、阅读时间、卡顿、加载时间、播放点击等)上报给服务器；

(5)消费端可通过Feeds(消息来源)流方式浏览消费数据，对于消费端不适内容提供直接举报和反馈的入口；另外，可直接和人工审核***对接，进行确认和复核。其中，复核的结果保存在不适内容样本库，作为后续训练模型的数据来源，同时作为直接打击不适内容的种子库。

上下行内容接口服务器

(1)和内容生产端直接通讯，从前端提交的内容(如内容的标题、发布者、摘要、封面图、发布时间、拍摄的视频等)直接通过该服务器进入服务端，把文件存入视频内容存储服务；

(2)将视频内容的元信息(如视频文件大小、封面图链接、码率、文件格式、标题、发布时间、作者等信息)写入内容数据库；

(3)将上传的文件和内容元信息提交给调度中心服务，进行后续的内容处理和流转。

内容数据库

(1)内容的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中。其中，元信息可以包括：文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、视频文件大小、视频格式、是否原创的标记或者首发，还可包括人工审核过程中对内容的分类(级别分类和标签信息)。例如，一篇讲解手机的文章，一级分科是科技、二级分类是智能手机、三级分类是国内手机、标签信息是品牌和型号；

(2)人工审核过程当中会读取内容数据库当中的信息，同时人工审核的结果和状态也会回传进入内容数据库；

(3)调度中心对内容处理主要包括机器处理和人工审核处理，机器处理实行各种质量判断，比如低质过滤，内容标签比如分类、标签信息，还有就是内容排重等；

(4)在抽取标签时从内容数据库读取内容的元信息，多模态预测不适内容获取的元信息也来自此数据库；

调度中心服务

(1)负责视频和图文内容流转的整个调度过程，通过上下行内容接口服务器接收入库的内容，然后从内容元信息数据库中获取内容的元信息；

(2)作为图文和视频链路运行的实际调度控制者，其按照内容的类型，对链路当中的图片内容调度多模态不适内容识别服务***来处理对应的内容，直接过滤和对内容打上对应的标记；

(3)调度人工审核***和机器处理***，控制调度的顺序和优先级；

(4)通过人工审核***内容被启用，然后通过内容出口分发服务(如推荐引擎、搜索引擎、运营等)直接展示页面提供给终端的内容消费者，即消费端获得的内容索引信息；

人工审核服务与举报投诉上报不适内容

(1)通常是一个WEB***，在链路上承接机器过滤的结果，对结果进行人工确认和复核，将复核的结果写入内容信息元数据库记录下来，同时可以通过这里人工复核的结果来在线评估机器打击和过滤模型的实际效果；

(2)上报人工审核过程领取任务的来源、审核结果、审核开始和结束时间等审核的详细流水到统计服务器；

(3)和用户消费端的投诉和内容举报的复核***对接，高优先级处理投诉和举报的不适内容。

内容存储服务

(1)其可以为分布式存储服务器，通过上下行内容接口服务器将内容生产者上传的视频和图片内容保存起来。终端消费者在获取内容索引信息后，可以直接访问视频内容存储服务器下载对应的内容。

(2)其除了作为对外服务的数据源以外，还可作为对内服务的数据源供下载文件***获取原始的视频数据进行相关的处理。其中，内外数据源的通路通常是分开部署的，避免相互影响。

不适内容库

从内容元信息及存储库中获取人工审核标记的内容作为建立不适内容的原型。

多模态不适内容特征和模型

(1)通过人工审核和举报数据的统计分析，在确定了不适内容问题的影响面和优先级之后，针对各类问题达成一致可理解的定义，定义不适内容的主要特征。抽离出问题最重要的抽象信息，让第一次看到这些信息的人也能迅速明白这类问题的主要表征是怎样的。然后，辅以大量的正例、负例，以帮助参与的人能够通过例证更好地对其理解、把握尺度；

(2)按照多模态不适内容模型的描述，通过浅层和深层想结合的方式构建对应的机器学习算法模型来实现对不适内容的预测和识别。

多模态不适内容识别服务

将构建的不适内容模型服务化，构建能够在链路上被调用的服务来实现对内容的打击、过滤、标记、及后面的降权分发等。

下载文件***

(1)其可以是由相关的任务调度和分发集群构成的并行服务器，可从内容存储服务器下载和获取原始的视频内容，以及控制下载的速度和进度；

(2)下载完成的文件调用抽帧服务从视频源文件当中获取必要的视频文件关键帧，作为后续构造视频指纹来服务。

抽帧服务

(1)按照上面描述的抽帧方法，下载文件***从视频内容存储服务上下载到的文件进行视频文件特征的初级处理视频抽帧(包括关键帧和均匀抽到的帧)；

(2)抽取明亮度变化明显的场景切换帧，前后等间隔抽帧补齐，作为后续多模态的帧输入。

统计服务器

(1)接收内容审核端和内容消费端的消费流水的上报；

(2)对上报的流水进行统计挖掘和分析，供机器算法模型过滤读取，同时提供调度效果对内容启用率和内容审核积压时间延迟的监控和分析；

(3)对用户举报和负反馈的不适内容进行分析，得到影响面和效果评估，为多模态不适内容识别***优先处理什么类型的内容提供基础。

由上可知，本方案能够提升不适内容的响应和处理速度、及节省大量的审核人力，同时构造的样本与业务密切相关、更具针对性，使得信息分类的整体效果和效率能够得到大幅度提升。另外，按照不同场景不适内容识别模型分别构建高准确率和高召回率的版本，在内容处理先验阶段采用高准确率方式，最大限度避免选出不适内容；高召回率模型直接对内容打上低质标记，限制曝光，减少了后续重复负反馈，有效控制了分发流量。此外，利用即时负反馈响应机制复核用户负反馈不适内容，通过相似向量召回相似内容直接过滤，提升了不适内容检测的覆盖范围。

为便于更好的实施本申请实施例提供的信息分类方法，本申请实施例还提供一种基于上述信息分类方法的装置。其中名词的含义与上述信息分类方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图5，图5为本申请实施例提供的一种信息分类方法装置的结构示意图。其中，该信息分类方法装置400可以集成在电子设备中。该信息分类方法装置400可以包括获取单元401、提取单元402、第一确定单元403及第二确定单元404，具体可以如下：

获取单元401，用于获取待分类信息的多模态信息，所述多模态信息包括：所述待分类信息的本体内容、及对应关联的描述内容；

提取单元402，用于分别对所述本体内容和所述描述内容进行特征提取；

第一确定单元403，用于根据提取到的特征确定所述待分类信息属于指定类型信息的概率；

第二确定单元404，用于当所述概率满足预设条件时，将所述待分类信息确定为所述指定类型信息。

在一实施例中，所述描述内容包括：以文本形式对所述待分类信息进行描述的文本描述内容、及以图像形式对所述待分类信息进行描述的图像描述内容；所述提取单元402用于：

在一实施例中，所述第一确定单元403包括：

获取所述视频内容对应的视频帧序列；

基于所述关键帧的第一图像特征构建所述第一向量表示。

至少根据所述第一语义分析结果构建所述第二向量表示。

基于所述封面图像的第二图像特征构建所述第三向量表示。

在一实施例中，所述信息分类装置还可以包括：

信息获取单元，用于获取终端返回的反馈信息；

所述更新单元，还用于若所述反馈信息指示：属于指定类型信息的概率不满足预设条件的目标待分类信息为所述指定类型信息，则基于所述目标待分类信息对所述指定类型信息的样本数据库进行更新；

调参单元，用于利用更新后的样本数据库对预设概率预测模型的模型参数进行调整，得到更新后的概率预测模型；

所述第一确定单元403，具体用于根据提取到的特征，利用更新后的概率预测模型确定所述待分类信息属于指定类型信息的概率。

本申请实施例提供的信息分类方法装置，可通过获取单元401获取待分类信息的多模态信息，多模态信息包括：待分类信息的本体内容、及对应关联的描述内容；提取单元402分别对本体内容和描述内容进行特征提取；第一确定单元403根据提取到的特征确定待分类信息属于指定类型信息的概率；第二确定单元404当概率满足预设条件时，将待分类信息确定为指定类型信息。本方案通过对待分类信息的多模态信息结合评估来确定所属的分类，能够提高信息分类的准确性和信息处理效率。

本申请实施例还提供一种电子设备。如图6所示，该电子设备可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，LowNoise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图6中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

电子设备还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板和或或背光。

音频电路606、扬声器，传声器可提供用户与电子设备之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如电子设备，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块607，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是电子设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和或或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

电子设备还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理***与处理器608逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

具体在本实施例中，电子设备中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

分别对所述本体内容和所述描述内容进行特征提取；

本申请方案提供的电子设备，通过对待分类信息的多模态信息结合评估来确定所属的分类，能够提高信息分类的准确性和信息处理效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种信息分类方法中的步骤。例如，该指令可以执行如下步骤：

分别对所述本体内容和所述描述内容进行特征提取；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种信息分类方法中的步骤，因此，可以实现本申请实施例所提供的任一种信息分类方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的信息分类方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信息分类方法，其特征在于，包括：

分别对所述本体内容和所述描述内容进行特征提取；

2.根据权利要求1所述的信息分类方法，其特征在于，所述描述内容包括：以文本形式对所述待分类信息进行描述的文本描述内容、及以图像形式对所述待分类信息进行描述的图像描述内容；

分别对所述本体内容和所述描述内容进行特征提取，包括：分别对所述本体内容、所述文本描述内容和所述图像描述内容进行特征提取。

3.根据权利要求2所述的信息分类方法，其特征在于，所述根据提取到的特征确定所述待分类信息属于指定类型信息的概率，包括：

根据提取到的特征，分别构建所述本体内容的第一向量表示、所述文本描述内容的第二向量表示、及所述图像描述内容的第三向量表示；

将所述第一向量表示、所述第二向量表示和所述第三向量表示进行融合，得到融合特征向量；

基于所述融合特征向量确定所述待分类信息属于指定类型信息的概率。

4.根据权利要求3所述的信息分类方法，其特征在于，所述本体内容包括：视频内容，所述提取到的特征至少包括：所述视频内容对应的每一视频帧的第一图像特征；

构建所述本体内容的第一向量表示，包括：

获取所述视频内容对应的视频帧序列；

5.根据权利要求4所述的信息分类方法，其特征在于，所述根据所述场景切换帧的第一图像特征构建所述第一向量表示，包括：

基于所述关键帧的第一图像特征构建所述第一向量表示。

6.根据权利要求3所述的信息处理方法，其特征在于，所述文本描述内容至少包括：所述本体内容的标题信息；所述提取到的特征至少包括：所述标题信息的文本特征；

构建所述文本描述内容的第二向量表示，包括：

至少根据所述第一语义分析结果构建所述第二向量表示。

7.根据权利要求6所述的信息处理方法，其特征在于，所述文本描述内容还包括：所述本体内容关联的标签信息；所述提取到的特征还包括：所述标签信息的文本特征；

至少根据所述语义分析结果构建所述第二向量表示，包括：

8.根据权利要求3所述的信息处理方法，其特征在于，所述图像描述内容为所述本体内容的封面图像，所述提取到的特征至少包括：所述封面图像的第二图像特征；

构建所述图像描述内容的第三向量表示，包括：

基于所述封面图像的第二图像特征构建所述第三向量表示。

9.根据权利要求1-8任一项所述的信息分类方法，其特征在于，在将所述待分类信息确定为所述指定类型信息之后，还包括：

基于所述待分类信息对所述指定类型信息的样本数据库进行更新。

10.根据权利要求1-8任一项所述的信息分类方法，其特征在于，还包括：

获取终端返回的反馈信息；

11.根据权利要求1-3任一项所述的信息分类方法，其特征在于，所述本体内容包括：文本内容、图像内容、音频内容、视频内容中的一种或多种。

12.一种信息分类方法装置，其特征在于，包括：

13.根据权利要求9所述的信息分类方法装置，其特征在于，所述描述内容包括：以文本形式对所述待分类信息进行描述的文本描述内容、及以图像形式对所述待分类信息进行描述的图像描述内容；所述提取单元用于：

14.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1-10任一项所述信息分类方法的步骤。

15.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-10任一项所述信息分类方法的步骤。