CN108536787A

CN108536787A - 内容识别方法及装置

Info

Publication number: CN108536787A
Application number: CN201810273709.7A
Authority: CN
Inventors: 陈建亮
Original assignee: Youku Network Technology Beijing Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2018-09-14

Abstract

本公开涉及一种内容识别方法及装置，所述方法包括：利用决策模型，确定针对多媒体资源的互动内容为目标内容的第一概率；将所述第一概率大于或等于概率阈值的互动内容确定为目标内容。根据本公开的实施例的内容识别方法，能够自动识别针对多媒体资源的互动内容的是否为目标内容，使该种互动内容易于受到关注或进行特殊处理。

Description

内容识别方法及装置

技术领域

本公开涉及多媒体领域，尤其涉及一种内容识别方法及装置。

背景技术

在多媒体内容播放过程中，一些相关知识缺乏可能会让用户在播放多媒体内容过程中产生困惑，而希望得到解答。但苦于寻找答案成本太高，需求不能被很好的满足。用户可能会退出播放界面去搜索相关知识，知识获取的过程比较繁琐，用户体验较差。

部分用户可能会在评论、留言或弹幕中提出相关知识的问题，但评论、留言或弹幕数量过多，其他用户难以回答每一个问题，因此，通过评论、留言或弹幕等方式获得回答的可能性较低。

一些多媒体内容设置有专门的问答专栏，由其他用户或视频后台的工作人员来回答用户的问题，但问答专栏中问题专栏中可能有大量的非问题信息，难以逐条进行筛选。

发明内容

有鉴于此，本公开提出了一种内容识别方法及装置。

根据本公开的一方面，提供了一种内容识别方法，所述方法包括：

利用决策模型，确定针对多媒体资源的互动内容为目标内容的第一概率；

将所述第一概率大于或等于概率阈值的互动内容确定为目标内容。

在一种可能的实现方式中，所述方法还包括：

控制终端对确定为目标内容的互动内容进行突出显示。

在一种可能的实现方式中，所述目标内容包括提问内容。

在一种可能的实现方式中，所述方法还包括：

对确定为提问内容的互动内容，确定与所述提问内容相匹配的答案。

在一种可能的实现方式中，所述决策模型包括决策节点，每个决策节点具有判断分支，每个决策节点对应于用于判断所述互动内容是否为目标内容的一个特征。

在一种可能的实现方式中，所述方法还包括：

确定对作为训练样本的历史互动内容进行分类而产生的信息熵，其中，所述分类是根据所述历史互动内容是否为所述目标内容而进行的；

以上一级决策节点的判断分支作为条件，分别确定所述历史互动内容的尚未作为决策节点的各特征的条件熵；

根据所述信息熵和所述各特征的条件熵，分别确定所述各特征的信息增益；

将所述信息增益最大的特征确定为作为条件的所述判断分支的下一级决策节点，并确定该下一级决策节点的各判断分支对应的第二概率，其中，所述第二概率是符合该下一级决策节点的各判断分支的历史互动内容为所述目标内容的概率；

在满足训练条件时，将所有决策节点组成的决策模型作为最终的决策模型。

在一种可能的实现方式中，利用决策模型，确定针对多媒体资源的互动内容为目标内容的第一概率，包括：

确定所述互动内容所满足的所述决策模型的各个判断分支；

确定所满足的各个所述判断分支对应的第二概率；

根据所述第二概率确定所述第一概率。

在一种可能的实现方式中，所述特征包括以下至少一种：

互动内容中是否包含疑问词和问号中的至少一个；

互动内容的长度；

发送互动内容的发送方的标识；

互动内容的语法是否正常；

互动内容中是否出现屏蔽词语。

在一种可能的实现方式中，所述方法还包括：

确定历史互动内容中的词语包含于被确定为目标内容的历史互动内容的第三概率，以及所述词语包含于被确定为非目标内容的历史互动内容的第四概率；

根据所述第三概率和所述第四概率，确定所述词语是否为屏蔽词语。

根据本公开的另一方面，提供了一种内容识别装置，所述装置包括：

第一概率确定模块，用于利用决策模型，确定针对多媒体资源的互动内容为目标内容的第一概率；

目标内容确定模块，用于将所述第一概率大于或等于概率阈值的互动内容确定为目标内容。

在一种可能的实现方式中，所述装置还包括：

突出显示模块，用于控制终端对确定为目标内容的互动内容进行突出显示。

在一种可能的实现方式中，所述目标内容包括提问内容。

在一种可能的实现方式中，所述装置还包括：

答案确定模块，用于对确定为提问内容的互动内容，确定与所述提问内容相匹配的答案。

在一种可能的实现方式中，所述装置还包括：

信息熵确定模块，用于确定对作为训练样本的历史互动内容进行分类而产生的信息熵，其中，所述分类是根据所述历史互动内容是否为所述目标内容而进行的；

条件熵确定模块，用于以上一级决策节点的判断分支作为条件，分别确定所述历史互动内容的尚未作为决策节点的各特征的条件熵；

信息增益确定模块，用于根据所述信息熵和所述各特征的条件熵，分别确定所述各特征的信息增益；

决策节点确定模块，用于将所述信息增益最大的特征确定为作为条件的所述判断分支的下一级决策节点，并确定该下一级决策节点的各判断分支对应的第二概率，其中，所述第二概率是符合该下一级决策节点的各判断分支的历史互动内容为所述目标内容的概率；

决策模型确定模块，用于在满足训练条件时，将所有决策节点组成的决策模型作为最终的决策模型。

在一种可能的实现方式中，所述第一概率确定模块包括：

判断分支确定子模块，用于确定所述互动内容所满足的所述决策模型的各个判断分支；

第二概率确定子模块，用于确定所满足的各个所述判断分支对应的第二概率；

第一概率确定子模块，用于根据所述第二概率确定所述第一概率。

在一种可能的实现方式中，所述特征包括以下至少一种：

互动内容中是否包含疑问词和问号中的至少一个；

互动内容的长度；

发送互动内容的发送方的标识；

互动内容的语法是否正常；

互动内容中是否出现屏蔽词语。

在一种可能的实现方式中，所述装置还包括：

屏蔽概率获取模块，确定历史互动内容中的词语包含于被确定为目标内容的历史互动内容的第三概率，以及所述词语包含于被确定为非目标内容的历史互动内容的第四概率；

屏蔽词语确定模块，根据所述第三概率和所述第四概率，确定所述词语是否为屏蔽词语。

根据本公开的另一方面，提供了一种内容识别装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行上述方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。

根据本公开的各方面的内容识别方法，能够自动识别针对多媒体资源的互动内容的是否为目标内容，使该种互动内容易于受到关注或进行特殊处理。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的内容识别方法的流程图；

图2示出根据本公开一实施例的内容识别方法的流程图；

图3示出根据本公开一实施例的决策模型的示意图；

图4示出根据本公开一实施例的内容识别方法中步骤S11的流程图；

图5示出根据本公开一实施例的内容识别方法的流程图；

图6示出根据本公开一实施例的内容识别方法的应用示意图；

图7示出根据本公开一实施例的内容识别装置的框图；

图8示出根据本公开一实施例的内容识别装置的框图；

图9示出根据本公开一实施例的内容识别装置的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的内容识别方法的流程图。如图1所示，所述方法可应用于服务器或终端。所述方法可包括：

S11，利用决策模型，确定针对多媒体资源的互动内容为目标内容的第一概率。

S12，将所述第一概率大于或等于概率阈值的互动内容确定为目标内容。

其中，概率阈值可根据需要任意设置。

根据本公开的各方面的内容识别方法，能够自动识别互动内容的是否为目标内容，使该种互动内容易于受到关注或进行特殊处理。

在一种可能的实现方式中，多媒体资源可以是视频、音频等任意形式的多媒体资源。互动内容可以是用户发表的与多媒体资源或观看多媒体资源的其他用户进行互动的任意内容，例如可以是弹幕、评论页中的评论、留言或帖子页中的帖子等互动内容，本公开对互动内容的种类不做限制。

所述目标内容可以包括提问内容或与剧情有关的内容等等需要关注的任意内容，例如可包括用户针对多媒体资源的提出的问题，例如，所述多媒体资源是视频资源，所述目标内容可以是针对视频的剧情、背景或人物等提出的问题。在示例中，决策模型可自动确定出互动内容是提问内容的第一概率。

对于确定为目标内容的互动内容，可控制终端对其进行突出显示，例如突出显示提问内容，以使提问内容受到关注，得到回答。突出显示可以是能够使的该互动内容容易被识别和发现的***示方式，例如包括被高亮显示、被进行标记、或者在视频播放界面上停留的时间被延长等。在示例中，如果决策模型判断出互动内容为用户提出的问题的第一概率大于或等于概率阈值，则使终端将该互动内容突出显示。对确定为提问内容的互动内容，也可确定与所述提问内容相匹配的答案，例如可以自动将提问内容输入搜索引擎，获得答案，或通过互联网抓取答案。可将答案推送至互动内容的发送方，实现自动应答。还可对确定为目标内容的互动内容进行标识，以便后续进行处理。对于确定为目标内容的互动内容的具体处理方式，本公开不做限制。

在一种可能的实现方式中，所述决策模型可以是用于确定互动内容为目标内容的概率的任意模型，例如包括决策树模型。所述决策模型可包括决策节点，每个决策节点具有判断分支，每个决策节点对应于用于判断所述互动内容是否为目标内容的一个特征。

所述特征可以是能够表征互动内容是否为目标内容的任意特征，本公开对特征的种类不做限制。

特征例如可包括以下至少一种：互动内容中是否包含疑问词和问号中的至少一个，疑问词例如包括“吗、为什么、什么是、如何……等”，该特征有助于判断互动内容是否为提问内容；互动内容的长度(例如互动内容的字数或字节数)，该特征有助于筛选掉过长或过短的互动内容；发送互动内容的发送方的标识(例如发送互动内容的用户的账户信息)，发送方的标识可用于判断发送方是否为优质用户(例如VIP用户)，有助于筛选出优质用户，提高目标内容识别的准确性；互动内容的语法是否正常(例如可通过文本数据挖掘等相关技术，确定互动内容中主语、谓语和宾语的完整程度，完整程度较高为语法正常)，该特征有助于筛选出语法正常的互动内容，以利于自动确定答案等后续处理；以及互动内容中是否出现屏蔽词语。屏蔽词语可以是在非目标内容中出现频率较高且目标内容中出现频率较低的词语，该特征有助于筛选掉属于目标内容的概率较小的互动内容，或与目标内容无关的互动内容。后文将给出确定屏蔽词语的示例。

所述决策模型可以以上述特征作为决策节点，以上述特征的多个判断分支(例如“是”或“否”)作为判断分支。

在示例中，多媒体资源可以是视频，互动内容可以是弹幕，如果经过决策模型的计算，该弹幕的内容是用户提出的问题的第一概率大于或等于概率阈值，例如，概率阈值为70％，决策模型确定出的第一概率为80％，则将该弹幕进行突出显示。在示例中，被突出显示的弹幕可以被高亮显示，或者在视频播放界面上停留的时间被延长等。被突出显示的弹幕可有效地引起其他用户的注意，从而提高问题被回答的概率。

在一种可能的实现方式中，可使用历史互动内容来训练所述决策模型。

图2示出根据本公开一实施例的内容识别方法的流程图。如图2所示，所述方法还可包括：

在步骤S21中，确定对作为训练样本的历史互动内容进行分类而产生的信息熵，其中，所述分类是根据所述历史互动内容是否为所述目标内容而进行的；

在步骤S22中，以上一级决策节点的判断分支作为条件，分别确定所述历史互动内容的尚未作为决策节点的各特征的条件熵；

在步骤S23中，根据所述信息熵和所述各特征的条件熵，分别确定所述各特征的信息增益；

在步骤S24中，将所述信息增益最大的特征确定为作为条件的所述判断分支的下一级决策节点，并确定该下一级决策节点的各判断分支对应的第二概率，其中，所述第二概率是符合该下一级决策节点的各判断分支的历史互动内容为所述目标内容的概率；

在步骤S25中，在满足训练条件时，将所有决策节点组成的决策模型作为最终的决策模型。

信息熵可用来度量随机变量的不确定性，条件熵是指随机变量在给定条件下的熵，而信息增益表示特征能够为决策模型带来多少信息，信息增益越大，表示该特征在判断中的作用越大。通过逐级选择信息增益最大特征作为决策节点，使得信息增益大的特征对应的决策节点在决策模型中层级尽量靠前，所形成决策模型可以较准确地判断互动内容是目标内容的可能性。

在一种可能的实现方式中，可选取多个历史互动内容，其中历史互动内容是否为目标内容是已知的，其中90％的历史互动内容可作为训练样本，10％的历史互动内容可作为验证样本，用于验证决策模型的准确性。

历史互动内容可以是多媒体资源在过去的播放过程中产生的互动内容。在示例中，历史互动内容中，是目标内容的部分可以被人工标记，从而将被确定为目标内容的历史互动内容和被确定为不是目标内容的历史互动内容区分开。

在示例中，历史互动内容可以是视频在过去的播放过程中，用户发出的弹幕，目标内容是用户提出的问题。被确定为用户提出的问题的弹幕可被人工标记，被确定为不是用户提出的问题的弹幕不做人工标记。

在一种可能的实现方式中，可按照历史互动内容是否为目标内容进行分类，并确定该分类的信息熵。

在一种可能的实现方式中，在步骤S21中，信息熵可根据以下公式(1)来确定：

其中，D表示进行分类的历史互动内容总数(例如作为训练样本的全部历史互动内容总数)，info(D)表示该分类的信息熵，m表示类别数，在示例中，类别数为2，即被确定为用户提出的问题的类别和被确定为不是用户提出的问题的类别，p_i表示每个类别的概率，在示例中，以弹幕作为历史互动内容，p₁表示被确定为用户提出的问题的弹幕占历史弹幕总数的比例，p₂表示被确定为不是用户提出的问题的弹幕占历史弹幕总数的比例。

在一种可能的实现方式中，在步骤S22中，所述特征可包括以下至少一种：互动内容中是否包含疑问词和问号中的至少一个(简称特征A1)，互动内容中是否出现屏蔽词语(简称特征A2)，互动内容的长度(简称特征A3)，发送互动内容的发送方的标识(简称特征A4)，互动内容的语法是否正常(简称特征A5)。本公开对特征的种类不做限制。

每个特征可对应多个判断分支，例如：

特征A1可对应两个判断分支：分支1：互动内容中包含疑问词或问号，分支2：互动内容中不包含疑问词或问号。

特征A2可对应两个判断分支：分支1：互动内容中出现屏蔽词语，分支2：互动内容中不出现屏蔽词语。

特征A3可对应5个判断分支，分支1：互动内容长度为1-8字节、分支2：互动内容长度为9-17字节、分支3：互动内容长度为18-25字节、分支4：互动内容长度为26-33字节和分支5：互动内容长度为34-40字节。

特征A4可对应两个判断分支：分支1：发送方为VIP用户、分支2：发送方为非VIP用户。

特征A5对应两个判断分支：分支1：互动内容的语法正常，分支2：互动内容的语法不正常。

满足每个判断分支的历史互动内容为目标内容的概率可以不同或相同。例如，在特征A3对应的上述五个判断分支中，历史互动内容为目标内容的概率可服从正态分布或卡方分布等统计分布。

在一种可能的实现方式中，可分别确定训练样本中每个历史互动内容满足上述特征的哪个判断分支。例如，根据历史互动内容确定：该历史互动内容包含疑问词或疑问号，该历史互动内容的长度为9-17字节，发送该历史互动内容的发送方的为VIP用户，该历史互动内容语法正常，该历史互动内容中未现屏蔽词语等。

图3示出根据本公开一实施例的决策模型的示意图。如图3所示，决策模型可包括多个决策节点，每个决策节点对应一个特征，并对应于多个判断分支，决策节点的确定过程可根据步骤S22-步骤S24来确定。

在一种可能的实现方式中，在步骤S22中，各特征的条件熵可根据以下公式(2)来确定：

其中，D_A表示满足特征A所处的判断分支(特征A的上一级决策节点的某个判断分支)的历史互动内容的总数，info_A(D_A)表示特征A的条件熵，A表示特征，例如上文中的特征A1-特征A5，D_j表示满足特征A中的一个判断分支j的历史互动内容的总数，info(D_j)表示该分支的信息熵，info(D_j)的计算方式可参照公式(1)。v表示特征的判断分支数。

示例中，如图3所示，决策模型的第一个决策节点为互动内容是否包含疑问词或问号(特征A1)，对于第一个决策节点，可视为不存在条件。在计算特征A1的条件熵的过程中，D_A1表示进行针对特征A1的判断的历史互动内容总数(例如作为训练样本的全部历史互动内容总数)，v的取值为2，该特征A1的判断分支包括历史互动内容包含疑问词或问号(分支1)以及历史互动内容不包含疑问词或问号(分支2)，D₁表示包含疑问词或问号的历史互动内容的数量，D₂表示不包含疑问词或问号的历史互动内容的数量。info(D₁)表示在包含疑问词或问号的历史互动内容中，按照历史互动内容是否为目标内容进行分类的信息熵，info(D₂)表示在不包含疑问词或问号的历史互动内容中，按照历史互动内容是否为目标内容进行分类的信息熵。

在示例中，如图3所示，在历史互动内容包含疑问词或问号(特征A1-分支1)的条件下，决策模型的下一级决策节点可以是历史互动内容是否包含屏蔽词语(特征A2)，在计算特征A2的条件熵的过程中，D_A2表示包含疑问词或问号的历史互动内容的总数，即满足特征A1-分支1，即将进行针对特征A2的判断的互动内容总数，D₁表示在包含疑问词或问号的历史互动内容中，包含屏蔽词语的历史互动内容的数量(特征A1-分支1，特征A2-分支1)，D₂表示在包含疑问词或问号的历史互动内容中，不包含屏蔽词语的历史互动内容的数量(特征A1-分支1，特征A2-分支2)。info(D₁)表示在包含疑问词或问号且包含屏蔽词语的历史互动内容中，按照历史互动内容是否为目标内容进行分类的信息熵，info(D₂)表示在包含疑问词或问号且不包含屏蔽词语的历史互动内容中，按照历史互动内容是否为目标内容进行分类的信息熵。

在步骤S23中，可根据以下等式(3)来确定信息增益：

gain(A)＝in fo(D)-in fo_A(D_A) (3)

其中，gain(A)表示特征A的信息增益。

在一种可能的实现方式中，在步骤S24中，可计算所有特征的信息增益，并将信息增益最大的特征确定为决策节点。

在示例中，如图3所示，在确定决策模型的第一个决策节点时，可通过步骤S21-S24，在视为不存在条件的情况下，分别计算所有特征(例如特征A1-特征A5)的信息增益，并将信息增益最大的特征确定为第一个决策节点。在示例中，历史互动内容是否包含疑问词或问号的特征的信息增益最大，因此将该特征A1作为第一个决策节点。

在一种可能的实现方式中，在第一个决策节点确定之后，可以以该第一个决策节点的各个判断分支为条件，计算在该决策节点的各判断分支的条件下，其他特征(除了第一个决策节点对应的特征之外的特征)的信息增益，并将信息增益最大的特征作为该判断分支的下一个决策节点。如图3所示，以特征A1的两个分支作为条件，利用步骤S21-S24，分别计算其他特征(例如特征A2-特征A5)的信息增益，在示例中，在历史互动内容包含疑问词或问号的条件下(特征A1-分支1)，历史互动内容是否包含屏蔽词语的特征信息增益最大，因此将该特征A2作为特征A1-分支1的下一决策节点。在历史互动内容不包含疑问词或问号的条件下(特征A1-分支2)，历史互动内容是否包含屏蔽词语的特征信息增益最大，因此将该特征A2作为特征A1-分支2的下一决策节点。在示例中，在历史互动内容包含疑问词或问号的条件下，在历史互动内容是否包含屏蔽词语的两个分支中，分别计算其他特征(例如特征A3-特征A5)的信息增益。在示例中，在不包含屏蔽词语的分支中(特征A2-分支2)，历史互动内容语法是否正常的特征信息增益最大，因此将该特征A5作为包含疑问词或问号且不包含屏蔽词语的分支中的下一个决策节点。在包含屏蔽词语的分支中(特征A2-分支1)，发送历史互动内容的发送方的标识的信息增益最大，因此将该特征A4作为包含疑问词或问号且包含屏蔽词的分支中的下一个决策节点。

在一种可能的实现方式中，在决策节点确定的过程中，可确定决策节点的各判断分支对应的第二概率。例如，如图3所示，可确定在包含疑问词或问号的历史互动内容中，被确定为目标内容的历史互动内容与包含疑问词或问号的历史互动内容总数的比例，这些比例即为特征A1-分支1对应的第二概率。所述第二概率可以是条件概率。例如，在包含疑问词或问号的历史互动内容中，被确定为目标内容的历史互动内容与包含疑问词或问号的历史互动内容总数的比例为0.9，则第二概率为0.9。在不包含疑问词或问号的历史互动内容中，第二概率为0.2。在包含疑问词或问号且不包含屏蔽词的历史互动内容中，第二概率为0.9(特征A1-分支1，特征A2-分支2对应的第二概率)。在包含疑问词或问号且包含屏蔽词的历史互动内容中(特征A1-分支1，特征A2-分支1对应的第二概率)，第二概率为0.1。

在一种可能的实现方式中，在步骤S25中，训练条件可包括所有特征均被作为决策节点，没有剩余的特征。训练条件还可包括在信息增益率小于增益率阈值时，不再增加决策节点。所述信息增益率即为信息增益与信息熵的比值。本公开对训练条件不做限制。

在一种可能的实现方式中，在决策模型的所有决策节点确定后，可对决策模型进行剪枝，例如使用前预剪枝方法或后剪枝方法对决策模型进行剪枝，以防止决策模型过拟合。本公开对剪枝的方法不做限制。

在一种可能的实现方式中，在步骤S11中，可利用经过上述训练方法确定的决策模型计算互动内容为目标内容的第一概率。

图4示出根据本公开一实施例的内容识别方法中步骤S11的流程图。如4所示，步骤S11可包括以下步骤：

在步骤S111中，确定所述互动内容所满足的所述决策模型的各个判断分支；

在步骤S112中，确定所满足的各个所述判断分支对应的第二概率；

在步骤S113中，根据所述第二概率确定所述第一概率。

在一种可能的实现方式中，在步骤S111中，可根据互动内容的内容，确定该互动内容所满足的各个决策节点的判断分支。

在示例中，互动内容是用户观看视频时发出的弹幕，可对弹幕的内容进行预处理，例如，对弹幕内容按照一定标准进行初步筛选，如果弹幕的内容仅包括标点符号或表情符号，则不对该弹幕进行处理，本公开对预处理的方法不做限制。按照决策模型节点的层级，从第一个决策节点开始，依次判断互动内容所满足的判断分支。以图3为例，首先判断弹幕内容中是否包含疑问词和问号中的至少一个，若是(分支1)，再判断弹幕内容是否包含屏蔽词，若否(分支2)，再判断弹幕内容的语法是否正常，以此类推，由此确定该弹幕所满足的各个判断分支。

在一种可能的实现方式中，在步骤S112中，可根据决策模型，确定各个所述判断分支对应的第二概率；如图3所示，在该弹幕包含疑问词或问号的判断分支中，第二概率为0.9，在该弹幕不包含屏蔽词语的判断分支中，第二概率为0.9，在该弹幕语法正常的判断分支中，第二概率为0.8，等等。

在一种可能的实现方式中，在步骤S113中，可将互动内容所满足的所有判断分支对应的第二概率相乘，即可获得第一概率。所述第二概率为条件概率，即决策节点中每个判断分支中的互动内容是目标内容的概率均为在上一层级的决策节点的判断分支的条件下的条件概率。例如，在包含疑问词或问号的互动内容中，互动内容为目标内容的第二概率，是以互动内容中包含疑问词或问号为条件，且互动内容为目标内容的概率。多个条件概率相乘的结果即为该互动内容为目标内容的概率，即第一概率。在示例中，上述第二概率均为条件概率，第一概率为所有第二概率的乘积。

图5示出根据本公开一实施例的内容识别方法的流程图。如图5所示，所述方法还可包括：

在步骤S51中，确定历史互动内容中的词语包含于被确定为目标内容的历史互动内容的第三概率，以及所述词语包含于被确定为非目标内容的历史互动内容的第四概率。

在步骤S52中，根据所述第三概率和所述第四概率，确定所述词语是否为所述屏蔽词语。

在一种可能的实现方式中，在步骤S51中，可在所有历史弹幕内容中确定出现次数大于或等于次数阈值的词语，并分别计算这些词语包含于被确定为目标内容的历史互动内容的第三概率，以及所述词语包含于被确定为非目标内容的历史互动内容的第四概率。

在示例中，可确定所有弹幕内容中出现频率较高的词语，并确定该词语在每条弹幕内容中是否出现，随后确定该词语在被确定为用户提出的问题的弹幕中出现的第三概率以及被确定该词语在被确定为不是用户提出的问题的弹幕中出现的第四概率。

在一种可能的实现方式中，在步骤S52中，可计算第三概率与所述第四概率的比值或差值，如果该比值或该差值小于或等于屏蔽阈值，则该词语可被确定为屏蔽词语。在另一种可能的实现方式中，也可直接比较第三概率和第四概率，在第三概率小于第四概率时，该词语可确定为屏蔽词语。

在示例中，屏蔽阈值可以是0.5，如果某个词语在被确定为用户提出的问题的弹幕中出现的第三概率与确定该词语在被确定为不是用户提出的问题的弹幕中出现的第四概率的比值小于0.5，即可将该词语确认为屏蔽词语。在判断弹幕是否为用户提出的问题的过程中，如果弹幕中出现该词语，则认为该弹幕时用户提出的问题的概率较低。

图6是示出根据本公开一实施例的内容识别方法的应用示意图。如图6所示，所述方法可应用于服务器62中。在示例中，当客户端61运行多媒体资源时，例如播放视频时，客户端61的用户可能发送弹幕，用户发送的弹幕可能是用户针对剧情或故事背景提出的问题。运行该视频的客户端可能有多个，发出的弹幕数量可能很多，服务器62可根据弹幕的内容确定该弹幕是否为用户提出的问题。

在用户利用客户端61发送弹幕63时，服务器62可获取该弹幕63，并通过决策模型，确定弹幕63所满足的判断分支，在示例中，可确定弹幕63的长度、弹幕63中是否包含疑问词和问号中的至少一个、发送弹幕63的发送方的标识，弹幕63的语法是否正常和弹幕63中是否出现屏蔽词语等。

如果通过决策树模型判断弹幕63是用户提出的问题的可能性比较大(第一概率大于或等于概率阈值)，则可对弹幕63进行突出显示。例如，服务器62可向客户端发送突出显示命令64，命令64可使弹幕63在视频播放界面中被高亮显示，并可在视频界面上停留一定时间段，是其他用户容易发现弹幕63的内容，并针对弹幕63的内容进行回答。发送弹幕63的用户可获得问题的答案，降低了寻找答案的成本。

根据本公开的实施例的内容识别方法，根据本公开的各方面的内容识别方法，能够自动识别互动内容的是否为目标内容，使该种互动内容易于受到关注。

决策模型可根据历史互动内容进行训练，充分提取历史互动内容的特征，提高决策模型对互动内容的判断准确率。

图7是示出根据本公开一实施例的内容识别装置的框图。如图7所示，所述装置包括：

第一概率确定模块71，用于利用决策模型，确定针对多媒体资源的互动内容为目标内容的第一概率。

目标内容确定模块72，用于将所述第一概率大于或等于概率阈值的互动内容确定为目标内容。

图8是示出根据本公开一实施例的内容识别装置的框图。如图8所示，所述装置还包括：

突出显示模块81，用于控制终端对确定为目标内容的互动内容进行突出显示。

其中，所述目标内容包括提问内容。

在一种可能的实现方式中，所述装置还包括：

答案确定模块82，用于对确定为提问内容的互动内容，确定与所述提问内容相匹配的答案。

在一种可能的实现方式中，所述装置还包括：

信息熵确定模块83，用于确定对作为训练样本的历史互动内容进行分类而产生的信息熵，其中，所述分类是根据所述历史互动内容是否为所述目标内容而进行的.

条件熵确定模块84，用于以上一级决策节点的判断分支作为条件，分别确定所述历史互动内容的尚未作为决策节点的各特征的条件熵。

信息增益确定模块85，用于根据所述信息熵和所述各特征的条件熵，分别确定所述各特征的信息增益。

决策节点确定模块86，用于将所述信息增益最大的特征确定为作为条件的所述判断分支的下一级决策节点，并确定该下一级决策节点的各判断分支对应的第二概率，其中，所述第二概率是符合该下一级决策节点的各判断分支的历史互动内容为所述目标内容的概率。

决策模型确定模块87，用于在满足训练条件时，将所有决策节点组成的决策模型作为最终的决策模型。

在一种可能的实现方式中，第一概率确定模块71包括：

判断分支确定子模块711，用于确定所述互动内容所满足的所述决策模型的各个判断分支.

第二概率确定子模块712，用于确定所满足的各个所述判断分支对应的第二概率。

第一概率确定子模块713，用于根据所述第二概率确定所述第一概率。

其中，所述特征包括以下至少一种：互动内容中是否包含疑问词和问号中的至少一个；互动内容的长度；发送互动内容的发送方的标识；互动内容的语法是否正常；互动内容中是否出现屏蔽词语。

在一种可能的实现方式中，所述装置还包括：

屏蔽概率获取模块88，确定历史互动内容中的词语包含于被确定为目标内容的历史互动内容的第三概率，以及所述词语包含于被确定为非目标内容的历史互动内容的第四概率.

屏蔽词语确定模块89，根据所述第三概率和所述第四概率，确定所述词语是否为屏蔽词语。

图9是根据一示例性实施例示出的一种内容识别装置1900的框图。例如，装置1900可以被提供为一服务器。参照图9，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作***，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。

本公开可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神时，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种内容识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

控制终端对确定为目标内容的互动内容进行突出显示。

3.根据权利要求1或2所述的方法，其特征在于，所述目标内容包括提问内容。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述决策模型包括决策节点，每个决策节点具有判断分支，每个决策节点对应于用于判断所述互动内容是否为目标内容的一个特征。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，基于所述特征，利用决策模型，确定针对多媒体资源的互动内容为目标内容的第一概率，包括：

确定所述互动内容所满足的所述决策模型的各个判断分支；

确定所满足的各个所述判断分支对应的第二概率；

根据所述第二概率确定所述第一概率。

8.根据权利要求5或6所述的方法，其特征在于，所述特征包括以下至少一种：

互动内容中是否包含疑问词和问号中的至少一个；

互动内容的长度；

发送互动内容的发送方的标识；

互动内容的语法是否正常；

互动内容中是否出现屏蔽词语。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种内容识别装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.根据权利要求10或11所述的装置，其特征在于，所述目标内容包括提问内容。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求10所述的装置，其特征在于，所述决策模型包括决策节点，每个决策节点具有判断分支，每个决策节点对应于用于判断所述互动内容是否为目标内容的一个特征。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

16.根据权利要求15所述的装置，其特征在于，所述第一概率确定模块包括：

17.根据权利要求14或15所述的装置，其特征在于，所述特征包括以下至少一种：

互动内容中是否包含疑问词和问号中的至少一个；

互动内容的长度；

发送互动内容的发送方的标识；

互动内容的语法是否正常；

互动内容中是否出现屏蔽词语。

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

19.一种内容识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1-9任意一项所述的方法。

20.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1-9中任意一项所述的方法。