CN109409529B

CN109409529B - 一种事件认知分析方法、***及存储介质

Info

Publication number: CN109409529B
Application number: CN201811069882.1A
Authority: CN
Inventors: 刘静; 王磊; 罗引; 曹家; 汪小东
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2020-12-08
Anticipated expiration: 2038-09-13
Also published as: CN109409529A

Abstract

本发明涉及一种事件认知分析方法、***及存储介质，分析方法包括：实时获取互联网数据，对互联网数据进行处理得到特征向量；建立多维分类标签库，基于多维分类标签库和机器学习算法训练得到数据标签模型；将特征向量输入数据标签模型得到分类标签；基于分类标签进行事件认知分析。本发明实施例通过对互联网数据进行处理得到互联网数据的特征向量，基于机器学习算法得到数据标签模型，通过数据标签模型对特征向量进行分析，得到相应的分类标签，通过对互联网数据进行智能处理，形成内容关系网络，通过机器学习算法实现事件认知分析。

Description

一种事件认知分析方法、***及存储介质

技术领域

本发明涉及信息分析技术领域，尤其涉及一种事件认知分析方法、***及存储介质。

背景技术

随着信息技术高速发展，互联网快速普及，全球数据呈现爆发增长、海量集聚的特点，信息的表现形式和发布渠道日趋多样化。

特别是媒体行业正在普遍进行数据中心的建设，一切以新闻数据为中心的运行模式已经接近于数据信息的工业化生产，新闻的制作已经是采写编辑在前、存储整理在中、分析挖掘在后的全新生产模式，但是，如何有效地组织和管理日益庞大的结构化、非结构化数据，充分地整合、挖掘并利用丰富的信息资源，拓展信息服务的新领域、新境界，成为当前信息处理领域中核心问题。

发明内容

为了解决现有技术存在的问题，本发明的至少一个实施例提供了一种事件认知分析方法、***及存储介质。

第一方面，本发明实施例提供了一种事件认知分析方法，所述分析方法包括：

实时获取互联网数据，对所述互联网数据进行处理得到特征向量；

建立多维分类标签库，基于所述多维分类标签库和机器学习算法训练得到数据标签模型；

将所述特征向量输入数据标签模型得到分类标签；基于所述分类标签进行事件认知分析。

结合第一方面，在第一方面的第一种实施例中，所述对所述互联网数据进行处理得到特征向量，具体包括：

对所述互联网数据进行结构化处理，并去噪，得到结构化数据；

通过自然语言处理技术对所述结构化数据进行处理得到标准数据；

对所述标准数据进行特征选择得到特征数据，并将所述特征数据向量化得到所述特征向量。

结合第一方面的第一种实施例，在第一方面的第二种实施例中，对所述标准数据进行特征选择得到特征数据，并将所述特征数据向量化得到所述特征向量；

获取所述标准数据中各个预备数据的出现次数；

获取预存储的特征对比数据中相应的预备数据的出现次数；

将所述标准数据中预备数据的出现次数减去所述特征比对数据中相应的预设数据的出现次数，得到所述预备数据的特征次数；

将特征次数大于预设阈值的所述预备数据作为所述特征数据；

将所有所述特征数据进行向量化处理，得到所述特征向量。

结合第一方面，在第一方面的第三种实施例中，所述建立多维分类标签库，基于所述多维分类标签库和机器学习算法训练得到数据标签模型，具体包括：

建立多维分类标签库；

获取预存储的模型数据，并基于所述多维分类标签库分别对每个模型数据添加分类标签；

分别对每个所述模型数据进行处理得到模型向量；

基于机器学习算法将所述模型数据的模型向量作为输入，将所述模型数据的分类标签作为输出，训练得到所述数据标签模型。

结合第一方面的第三种实施例，在第一方面的第四种实施例中，所述多维分类标签库包括：至少两层分类标签层；

每层分类标签层包括至少一个分类标签。

结合第一方面的第三种实施例，在第一方面的第五种实施例中，所述机器学习算法包括：向量机、朴素贝叶斯算法或卷积神经网络。

结合第一方面的第三种实施例，在第一方面的第六种实施例中，所述基于机器学习算法将所述模型数据的模型向量作为输入，将所述模型数据的分类标签作为输出，训练得到所述数据标签模型，具体包括：

将所述模型数据的模型向量输入卷积神经网络中，利用卷积神经网络的正向传播按预设权重进行迭代，得到预测标签；

利用卷积神经网络的反向传播计算所述预测标签与所述模型数据的分类标签的误差值；

将所述误差值与预设阈值进行比较，判断所述误差值是否小于预设阈值；

当所述误差值大于或等于预设阀值时，对所述预设权重进行调整，重新进行迭代得到预测标签，直至预测标签与分类标签的误差值小于预设阈值；

或者，当误差值小于预设阀值时，得到所述数据标签模型。

结合第一方面或第一方面的第一、第二、第三、第四、第五或第六种实施例中任意一种实施例，在第一方面的第六种实施例中，所述实时获取互联网数据，具体包括：

若互联网数据为文本数据；

通过语言识别将不同语言类型的互联网数据转换为预设语言类型的互联网数据；

对所述互联网数据进行处理，得到去停留词、分词的互联网数据。

第二方面，本发明实施例提供了一种事件认知分析***，所述事件认知分析***包括处理器、存储器；所述处理器用于执行所述存储器中存储的事件认知分析程序，以实现第一方面中任一实施例所述的事件认知分析方法。

第三方面，本发明实施例提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面中任一实施例所述的事件认知分析方法。

本发明的上述技术方案与现有技术相比具有如下优点：本发明实施例通过对互联网数据进行处理得到互联网数据的特征向量，基于机器学习算法得到数据标签模型，通过数据标签模型对特征向量进行分析，得到相应的分类标签，通过对互联网数据进行智能处理，形成内容关系网络，通过机器学习算法实现事件认知分析。

附图说明

图1是本发明实施例提供的一种事件认知分析方法流程示意图；

图2是本发明另一实施例提供的一种事件认知分析方法流程示意图；

图3是本发明又一实施例提供的一种事件认知分析方法流程示意图其一；

图4是本发明又一实施例提供的一种事件认知分析方法流程示意图其二；

图5是本发明又一实施例提供的一种事件认知分析方法流程示意图其三；

图6是本发明又一实施例提供的一种事件认知分析***结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种事件认知分析方法，分析方法包括：

S11、实时获取互联网数据，对互联网数据进行处理得到特征向量。

在本实施例中，互联网数据包括：文字、图片和多种不同类型的数据，在此不再赘述。文字、图片等不同类型的数据均可转化为相应的特征向量，用以表达该数据，方便用户进行处理。若互联网数据为图片，图片转化为特征向量可通过获取图片的灰度图，根据灰度图获取特征像素点，然后以特征性像素点构建特征向量。若互联网数据为文本数据，对互联网中的文本数据进行处理，得到对应文本数据的特征向量，可通过对文本数据进行特征提取，基于提取到的特征数据构建特征向量。其中特征提取算法包括：TF-IDF算法和卡方算法。TF-IDF(term frequency–inverse document frequency，词频-逆向文件频率)是一种统计方法，一种用于信息检索与数据挖掘的常用加权技术，通过对文本数据进行数据挖掘，得到可以作为特征数据的词语，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。卡方算法则是从类别角度量化特征词的权重，从实际的实验中也发现采用卡方作为特征选择过程中的算法往往能够获得较好的分类效果。

在本实施例中，由于互联网数据每种类型的数据的格式、大小都不会处于一致，所以在获取到互联网数据后，可以将互联网数据进行处理，使得不同类型的数据的格式一致，方便进行处理，所以，如图2所示，对互联网数据进行处理得到特征向量的方法包括：

S21、对互联网数据进行结构化处理，并去噪，得到结构化数据。

在本实施例中，将互联网数据进行结构化处理可以使后续对互联网数据的处理过程加快，提高工作效率，减少干扰项，结构化处理是指：将同一类互联网数据，按照预先设定的结构规则进行调整，使该类互联网数据具有统一的数据结构。比如，若互联网数据为文本数据，将文本的标题、发布时间、作者、正文依次分布，使得数据处理的过程可以快速准确的进行，若互联网数据为图片，则将互联网数据的分辨率调整为一致，方便进行图形识别，其他类型的互联网数据可以按其自身任意一项属性进行调整，使得互联网数据的结构具有一定的一致性，方便进行处理。

在本实施例中，在文本数据中，不同语言的文本数据在数据处理过程中容易造成数据丢失或者分析错误的情况，而且不同语言的文本数据在数据处理过程中的耗时也会更长，数据处理效率不高。

若互联网数据为文本数据；通过语言识别将不同语言类型的互联网数据转换为预设语言类型的互联网数据；语言识别技术比如各类翻译软件均可实现，将不同语言类型的文本数据转化为同一语言类型的文本数据。

对互联网数据进行处理，得到去停留词、进行分词的互联网数据，在文本数据中，停留词大部分起到连接上下文的作用，所以可以去除文本数据中的停留词。文本数据进行分词可将文本数据按词语进行切分，得到完成预处理的互联网数据。

S22、通过自然语言处理技术对结构化数据进行处理，得到标准数据。

在本实施例中，自然语言处理技术是涉及计算机科学领域与人工智能领域；通过自然语言处理技术对采集数据初步处理，进行标准化与知识化。

S23、对标准数据进行特征选择得到特征数据，并将特征数据向量化得到特征向量。

在本实施例中，若互联网数据为图片，图片转化为特征向量可通过获取图片的灰度图，根据灰度图获取特征像素点，然后以特征像素点构建特征向量。若互联网数据为文本数据，对互联网中的文本数据进行处理，得到对应文本数据的特征向量，具体可通过对文本数据进行特征提取，基于提取到的特征数据构建特征向量。

S12、建立多维分类标签库，基于多维分类标签库和机器学习算法训练得到数据标签模型。

在本实施例中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科；专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。在本步骤中，即归纳互联网数据与分类标签的内在关系，并生成相应的数据标签模型。

具体的，如图3所示，基于机器学习算法训练得到数据标签模型的方法包括：

S31、建立多维分类标签库。

在本实施例中，多维分类标签库包含五级，近八千个高维标签，结合了专业的新闻主题与领域学科知识；多维分类标签库可通过用户手动输入，或者用户根据过往经验来获取。多维分类标签库包括：至少两层分类标签层；每层分类标签层包括至少一个分类标签。前一层分类标签层中的分类标签为后一层分类标签层的上位分类标签，比如，第一层分类标签中包括食物，下一层分类标签可以包括主食、肉类、蔬菜等，再下一层分类标签可以具体到是何种肉类或者何种蔬菜，通过设置层次化的分类标签提高数据分析效率，基于国家标准，采用新闻主题与领域学科相结合的方法，科学合理的设置各级类目，使分类体系具有主体的直接性和领域学科的科学性，保证分类体系科学性、逻辑性的同时，把一些信息量大、社会广泛关注的内容跨越逻辑层次，作为一级类别列出，以适应实际应用的需求，各类层次的划分，力求简单明了。采用复分方法对共性内容进行抽取，采用仿分手段知名细分结构，以缩小类目表的篇幅。

S32、获取预存储的模型数据，并基于多维分类标签库分别对每个模型数据添加分类标签。

在本实施例中，获取预存储的模型数据，对模型数据分别添加分类模型，可以通过数据分析添加分类标签，也可以通过人为手动为每个模型数据添加分类标签。

S33、分别对每个模型数据进行处理得到模型向量。

在本实施例中，通过与上述互联网数据相同的方式对模型数据进行处理，由此根据模型数据得到模型向量。

S34、基于机器学习算法将模型数据的模型向量作为输入，将模型数据的分类标签作为输出，训练得到数据标签模型。

在本实施例中，归纳互联网数据与分类标签的内在关系，并生成相应的数据标签模型，为后续对互联网数据进行自动分析提供模型，实现快速分析对互联网数据添加标签。

具体的，如图4所示，步骤S34的实现方法包括：

S41、将模型数据的模型向量输入卷积神经网络中，利用卷积神经网络的正向传播按预设权重进行迭代，得到预测标签。

将模型向量作为卷积神经网络的输入，卷积神经网络通过链式传导进行迭代，将多个完整矩阵进行卷积，从而得到输出，相应的预测标签。

S42、利用卷积神经网络的反向传播计算预测标签与模型数据的分类标签的误差值。

根据分类标签作为输出，对卷积神经网络进行反向传播计算预测标签与分类标签的误差值。

S43、将误差值与预设阈值进行比较，判断误差值是否小于预设阈值，通过判断误差值是否小于预设阈值，判断卷积神经网络的处理是否稳定准确。

S44a、当误差值大于或等于预设阀值时，对预设权重进行调整，重新进行迭代得到预测标签，直至预测标签与分类标签的误差值小于预设阈值。

在本实施例中，根据误差值来对卷积神经网络中各传播节点的预设权重进行调整，并不断重复上述过程，不断的对卷积神经网络进行调整，提高数据识别的准确性。

S44b、或者，当误差值小于预设阀值时，得到数据标签模型。

在本实施例中，将模型向量作为卷积神经网络的输入，卷积神经网络通过链式传导进行迭代，将多个完整矩阵进行卷积，从而得到输出，相应的预测标签，并根据分类标签作为输出，对卷积神经网络进行反向传播计算预测标签与分类标签的误差值，并根据误差值来对卷积神经网络中各传播节点的预设权重进行调整，以多个模型向量和相应的分类标签经历上述过程，以实现训练卷积神经网络的过程。

S13、将特征向量输入数据标签模型得到分类标签；基于分类标签进行事件认知分析。

在本实施例中，基于上述数据标签模型对特征向量进行分析得到分类标签，对互联网数据添加分类标签，由于标签具有不同的层次，所以当互联网数据具有分类标签后，可以用于进行实体识别、关系抽取、情感分析、对比分析、时间抽取、观点分析等深度分析，实现时间的多维度认知分析，使得分析更加灵活、准确和高效。

在本实施例中，机器学习算法包括：向量机、朴素贝叶斯算法或卷积神经网络。

如图5所示，本发明实施例提供了一种事件认知分析方法，与图1所示分析方法相比，区别在于：

S51、获取标准数据中各个预备数据的出现次数。

在本实施例中，获取经过互联网数据处理过后的标准数据中各个预备数据的出现次数，比如文本数据中的任一词语，或者图片中的任一灰度值的像素点。

S52、获取预存储的特征对比数据中相应的预备数据的出现次数。

预存储的特征对比数据为任意类型的文本数据或图片，在本实施例中，获取在特征对比数据中相应词语的数据，或者相应像素点的数量。

S53、将标准数据中预备数据的出现次数减去特征比对数据中相应的预设数据的出现次数，得到预备数据的特征次数。

将标准数据中词语或像素点的数量减去词语或像素点在其他文本或图片中出现的次数，得到该预备数据的特征次数。

S54、将特征次数大于预设阈值的预备数据作为特征数据。

在本实施例中，将特征次数与预设阈值进行比较，若特征次数较大，则可得知，预备数据在标准数据中出现次数较高而在其他文本数据中出现次数较少，所以该类预备数据即可作为特征数据。

S55、将所有特征数据进行向量化处理，得到特征向量。

如图6所示，本发明实施例提供了一种事件认知分析***，事件认知分析***包括处理器、存储器；处理器用于执行存储器中存储的事件认知分析程序，以实现上述任一实施例的事件认知分析方法。

对上述实施例中的***或装置提供用于记录可以实现上述实施例的功能的软件程序的程序代码的存储介质，并通过***或装置的计算机(或CPU或MPU)读取并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读出的程序代码本身执行上述实施例的功能，而存储程序代码的存储介质构成本发明实施例。

作为用于提供程序代码的存储介质，例如软盘、硬盘、光盘、磁光盘、CD-ROM、CD-R、磁带、非易失存储卡、ROM、以及类似物都可以使用。

上述实施例的功能不仅可以通过由计算机执行读出的程序代码来实现，而且也可以通过在计算机上运行的OS(操作***)根据程序代码的指令执行的一些或全部的实际处理操作来实现。

此外，本发明实施例还包括这样一种情况，即在从存储介质读出的程序代码被写入被***计算机的功能扩展卡之后，或者被写入和计算机相连的功能扩展单元内提供的存储器之后，在功能扩展卡或功能扩展单元中包括的CPU或类似物按照程序代码的命令执行部分处理或全部处理，从而实现上述实施例的功能。

本发明实施例提供了一种存储介质，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现第一方面中任一实施例的事件认知分析方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种事件认知分析方法，其特征在于，所述分析方法包括：

实时获取互联网数据，对所述互联网数据进行处理得到特征向量；其中，所述互联网数据为文本数据；

将所述特征向量输入数据标签模型得到分类标签；基于所述分类标签进行事件认知分析；

其中，所述建立多维分类标签库，基于所述多维分类标签库和机器学习算法训练得到数据标签模型，具体包括：

建立多维分类标签库；

分别对每个所述模型数据进行处理得到模型向量；

基于机器学习算法将所述模型数据的模型向量作为输入，将所述模型数据的分类标签作为输出，训练得到所述数据标签模型；

其中，所述基于机器学习算法将所述模型数据的模型向量作为输入，将所述模型数据的分类标签作为输出，训练得到所述数据标签模型，具体包括：

或者，当误差值小于预设阀值时，得到所述数据标签模型。

2.根据权利要求1所述的事件认知分析方法，其特征在于，所述对所述互联网数据进行处理得到特征向量，具体包括：

3.根据权利要求2所述的事件认知分析方法，其特征在于，对所述标准数据进行特征选择得到特征数据，并将所述特征数据向量化得到所述特征向量；

获取所述标准数据中各个预备数据的出现次数；

获取预存储的特征对比数据中相应的预备数据的出现次数；

将所有所述特征数据进行向量化处理，得到所述特征向量。

4.根据权利要求1所述的事件认知分析方法，其特征在于，所述多维分类标签库包括：至少两层分类标签层；

每层分类标签层包括至少一个分类标签。

5.根据权利要求1所述的事件认知分析方法，其特征在于，所述机器学习算法包括：向量机、朴素贝叶斯算法或卷积神经网络。

6.根据权利要求1-5中任一所述的事件认知分析方法，其特征在于，所述实时获取互联网数据，具体包括：

若互联网数据为文本数据；

7.一种事件认知分析***，其特征在于，所述事件认知分析***包括处理器、存储器；所述处理器用于执行所述存储器中存储的事件认知分析程序，以实现权利要求1～6中任一所述的事件认知分析方法。

8.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～6中任一项所述的事件认知分析方法。