CN104376406B

CN104376406B - 一种基于大数据的企业创新资源管理与分析方法

Info

Publication number: CN104376406B
Application number: CN201410616636.9A
Authority: CN
Inventors: 郑树泉; 王倩; 宫艳雪; 阎梦天; 杨中山; 范仲敏
Original assignee: Shanghai Industrial Institute For Research And Technology; SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Current assignee: SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority date: 2014-11-05
Filing date: 2014-11-05
Publication date: 2019-04-16
Anticipated expiration: 2034-11-05
Also published as: CN104376406A

Abstract

一种基于大数据的企业创新资源管理与分析***,所述的大数据包括来自互联网资源的论文、专利文献和网页内容，所述***包括用以从互联网获取所需数据的数据采集模块、用以存储所获得数据的***存储模块、用以对获得数据进行分析的数据模块和用以产生分析报告的一体化报告模块。本发明实现了专利、论文、网页内容三种信息源的融合，扩展创新资源，实现全方位的资源搜索；本发明采用动态配置关键字，实时抓取，能更好的扩充数据资源，使得数据资源与当前网络资源同步；本发明采用一体化的结构模式，用户通过配置，可实现定时、定向的数据分析报告，便于用户一站式检索其所需信息，简化用户操作。

Description

一种基于大数据的企业创新资源管理与分析方法

技术领域

本发明属于大数据分析挖掘技术领域，特别涉及一种可处理多种信息类型的信息源的企业创新资源管理与分析***和方法。

背景技术

在大数据时代,数据逐渐成为企业及行业的最重要资产之一,发展决策与市场定位行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉。作为构筑在数据分析和信息处理基础上的竞争情报,它的发展将面临着全新的信息空间所带来的机遇和挑战。相关的数据整合在一起，能不断产生新的信息和知识，有助于提高生产率、降低经营成本。

技术创新数据是竞争情报的重要组成部分，而创新数据分析多为针对单一领域，要么是网页新闻、要么是专利、要么为科研论文，较少将三者有效融合，提供整合的分析结果，导致创新资源本身缺少全面性，不利于企业做全方位的分析，难以提升核心竞争能力，保持或获得行业领先地位。

发明内容

本发明的目的是提供一种基于大数据的企业创新资源管理与分析***和方法。

本发明的技术方案是，一种基于大数据的企业创新资源管理与分析***, 所述的大数据包括来自互联网资源的论文、专利文献和网页内容，所述***包括用以从互联网获取所需数据的数据采集模块、用以存储所获得数据的***存储模块、用以对获得数据进行分析的数据模块和用以产生分析报告的一体化报告模块，

所述的数据采集模块动态设定关键词，组建大数据URL种子，建立网站优先检索表，以深度优先的算法利用数据抓取器采集开放的互联网内容和封闭的数据库信息；

所述的***存储模块，将采集的信息资源分类，分别存储到专利数据库、论文数据库和网页内容数据库中，并依据采集是的相关关键字建立初步的数据索引表；

所述的数据分析模块，根据数据分析模块中的数据分析方式对采集到的信息依次进行热点追踪、信息分析、领域分析以及相关性的关系挖掘分析，并依据分析结果建立索引；

所述的一体化报告模块，根据用户设定的关键字，调用数据分析模块给出整体的分析报告。

一种基于大数据的企业创新资源管理与分析方法,所述的大数据包括来自互联网资源的论文、专利文献和网页内容，所述***包括用以从互联网获取所需数据的数据采集模块、用以存储所获得数据的***存储模块、用以对获得数据进行分析的数据模块和用以产生分析报告的一体化报告模块，包括以下步骤：

其中，第一阶段包括，

步骤一：***根据初始设定的关键字，组建优质URL种子，利用爬虫技术，采用关键字权重过滤算法，以优质网站优先深度搜索的方法，采集互联网关于专利、论文、网页新闻等相关信息资源；

步骤二：将采集的信息资源分类，分别存储到专利数据库、论文数据库、网页新闻数据库中，并依据采集是的相关关键字建立初步的数据索引表；

步骤三：根据数据分析模块中的数据分析方式对采集到的信息依次进行热点追踪、信息分析、领域分析以及其他相关性的关系挖掘分析，并依据分析结果建立索引；

步骤四：根据需要改变领域、关键字或/和分析方法，重复进行步骤一、二、三；

第二阶段包括，

步骤一：判断用户输入的关键字或领域是否在***前期的配置表中，若不在则将其加入到***的配置表中，进行第一阶段的实施步骤；

步骤二：针对用户的需求对所采集数据信息进行分析，并根据报告配置的模式，呈现分析结果，并可将报告结果导出或定时发送的用户邮箱或手机。

本发明的有益效果包括：

1、本发明实现了专利、论文、网页内容三种信息源的融合，扩展创新资源，实现全方位的资源搜索；

2、本发明采用动态配置关键字，实时抓取，能更好的扩充数据资源，使得数据资源与当前网络资源同步；

3、本发明采用一体化的结构模式，用户通过配置，可实现定时、定向的数据分析报告，便于用户一站式检索其所需信息，简化用户操作。

附图说明

图1为本发明实施例中企业创新资源管理与分析***结构示意图。

图2是本发明中数据采集模块的网页下载流程。

图3是本发明中数据采集模块的网页内容结构化提取流程图。

图4是本发明中***存储模块中使用的文本分类流程图。

具体实施方式

本发明所述企业创新资源管理与分析***结构示意图，如图1所示，***包括数据采集模块、数据分析模块、***存储模块、一体化报告模块。资源管理与分析包括两个部分:一为***根据前期配置领域(关键字)，和数据分析方向的设定，自动的数据采集和分析数据；二为***根据客户的设定需求，有具体针对性的数据采集与分析。其中第一个部分是不间断执行的部分，其中配置领域(关键字)和数据分析方式可动态的修改或扩充；第二部分是中的采集工作在用户设定后也为不间断执行的部分，但针对客户的分析，只有在客户有需求的时候才开始执行。其实施步骤如下：

第一部分实施步骤如下：

步骤三：根据数据分析模块中的数据分析方式对采集到的信息依次进行热点追踪、信息分析、领域分析以及其他相关性的关系挖掘分析，并依据分析结果建立索引。

步骤四：是否需更改(扩充)前期领域、关键字、分析方法，重复进行前述步骤一、二、三。

第二部分实施步骤如下：

步骤一：判断用户输入的关键字或领域是否在***前期的配置表中，若不在则将其加入到***的配置表中，进行第一部分的实施步骤；

在本发明中，关于网站数据信息的采数据集模块的实现还***包括两个子模块，分别是网页下载子模块和网页内容结构化提取子模块。其中，网页下载子模块专门负责下载网页，存储到原始网页数据库中。它把用户指定的网站作为目标网站，采用递归下载的方式不断从已经下载的网页中提取新的URL链接，在智能判断URL的合法性和去除后，把新发现的URL加到URL队列中继续下载，这样可以把目标网站全部网页遍历下载完，同时也就满足了用户对这些网站的历史数据的需求。具体流程如图2所示，包括以下步骤：

步骤1，根据已有的网站URL列表，下载网页并存储到原始网页数据库；

步骤2，在所述的已下载网页中提取URL，如果判断其不是目标网站，则删除该URL，

如果判断其是目标网站，则判断其内容是否以抓取，若未抓取，则将该URL 加入URL列表，并继续执行步骤1。

关于网页内容抓取，或者叫提取，可按用户需求，提取网页中包含的各类数据，即把网页数据结构化。我们研发的智能算法，能准确提取90％以上的网页内容，再对个别网站加以定制开发可以达到100％提取网页内容的需求。提取流程如图3所示，包括以下步骤：

步骤1，从原始网页数据库读取网页；

步骤2，判断该网页是否是具有内容的网页，如果具有内容，则解析该网页结构，提取正文文本块以及图形和图片，存入网页结构化内容数据库。

在本发明的数据分析模块中，会用到中文分词与词性标注模块。现代汉语的基本表达单元虽然为“词”，且以双字或者多字词居多，中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。

我们提供一个准确率很高的分词技术模块。我们的中文分词词库包括：

(1)基础词库：通过海量中文文本语料统计并人工校对得到20多万条中文常用词库。

(2)专业词库：包括各个行业的几百万专业词库。

(3)网络新词库：自动发现网络新词。

以上述词库为基础，结合独有的未登录词识别算法、歧义处理算法开发的分词算法，能够很好满足进一步语义分析的需求。

同样，在本发明的数据分析模块中还包括文本摘要模块。文摘是全面准确地反映某一文献中心内容地简单连贯的短文，是能够准确而且简单地让读者了解该文本的主要信息，让读者在很短的时间内判断出该文本对他来说是不是有价值的。

我们基于隐马尔科夫模型，结合文本的多种特征(比如，textrank，段首，段尾，标题等)开发了文本自动摘要模块，

在本发明的数据分析模块中包括的文本相似性检索模块用于对文本的相似性检索。相似性检索是指对给定的样本文献(例如新闻等)，在文献数据集合中查找出与之内容相似的文献的技术。

我们根据Google的Simhash算法结合中文分词算法，对每一篇文章计算一个数字指纹，建立指纹索引和高速比较算法，具体的Simhash过程如下：

(1)首先基于传统IR方法，将文章转换为一组加权的特征值构成的向量。

(2)初始化一个f维的向量V，其中每一个元素初始值为0。

(3)对于文章的特征向量集中的每一个特征，做如下计算：

利用传统的hash算法映射到一个f-bit的签名。对于这个f-bit的签名，如果签名的第i位上为1，则对向量V中第i维加上这个特征的权值，否则对向量的第i维减去该特征的权值。

(4)对整个特征向量集合迭代上述运算后，根据V中每一维向量的符号来确定生成的f-bit指纹的值，如果V的第i维为正数，则生成f-bit指纹的第i维为1，否则为0。

在本发明的数据存储模块中，包括文本分类过程。将互联网上的网页按照合理的分类体系进行存储与管理，不仅便于对网页数据进行管理，还可以在此基础上进行许多有意义的信息挖掘。

根据图4，建立文本分类模块，主要步骤如下：

(1)训练集整理

文本分类属于有监督的学习，所以需要整理样本文本语料库。根据业务需求，确定样本标签与数目，其中样本标签多为整数。

(2)特征选择

文本分类中最著名的特征提取方法就是向量空间模型(VSM)，即将样本转换为向量的形式。为了能实现这种转换，需要做两个工作：确定特征集和提取特征。

(2.1)确定特征集

特征集其实就是词典，而且还需要给每个词设定一个编号。

一般可以将所有样本的词都提取出来作为词典，而词典的编号可以随意设置，默认情况下，所有词的权重都是等同的。如何从样本中提取出一个个意义的词呢？最常用的方法就是使用分词工具。

(2.2)特征选择

根据不同的业务，文本分类中词典的规模在万级到千万级甚至亿级。而这么大的维度可能会带来维度灾难，因此就要想办法从大量的特征中选择一些有代表性的特征而又不影响分类的效果(而根据文献中的结果，特征选择可以在一定程度上提高分类的效果)。特征选择就是从特征集中选择一些代表性的词。而如何衡量词的代表性呢？一般的计算方法有词频、卡方公式、信息增益等。当前文献中一致认为比较好的方法是卡方公式。

(2.3)特征抽取

另外一种解决维度灾难的思路就是特征抽取。同样是降维，相比特征选择，特征抽取采用了一种高级的方法来进行。Topic Modeling是原理就是将利用映射将高纬度空间映射到低纬空间，从而达到降维的目的。

(3)计算特征权重

给定一个样本，计算特征权重的流程：

(3.1)首先，对样本进行分词，提取出所有的词。

(3.2)根据已经生成的词典，如果词典中的词出现，就在相应对应的位置填入该词的词频。

(3.3)对生成的向量进行归一化

上面的所示的方法是比较简单的一种，其中特征权重采用的为词频来表示，现在比较常用的特征权重的计算方式为TF*IDF，TF*RF。

(4)模型训练与预测

当把文本转换成向量的形式后，大部分的工作其实已经做完了。后面所要做的就是利用算法进行训练和预测了。现在文本分类的算法很多，常见的有Bayes，SVM，KNN，Logistic回归等。

通过以上流程，我们研发的文本分类模块能够很好满足项目需求：

在文本分类过程中，还有一个文本聚类处理模块。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，这样让在同一个子集中的成员对象都有相似的一些属性，从而可以为上层的推荐等模块服务。

文本聚类主要依据聚类假设：同类的文档相似度较大，非同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程、以及不需要预先对文档手工标注类别，因此具有较高的灵活性和自动化处理能力，成为对文本信息进行有效组织、摘要和导航的重要手段。文本聚类的具体过程如下所述：

(1)文本信息的预处理

文本聚类的首要问题是如何将文本内容表示成为数学上可分析处理的形式，即建立文本特征，以一定的特征项(如词条或描述)来代表目标文本信息。要建立文本信息的文本特征，常用的方法是：对文本信息进行预处理(词性标注、语义标注)，构建统计词典，对文本进行词条切分，完成文本信息的分词过程。

(2)文本信息特征的建立

文本信息的特征表示模型有多种，常用的有布尔逻辑型、向量空间型、概率型以及混合型等。其中，向量空间模型(Vector Space Model,VSM)是近几年来应用较多且效果较好的方法之一，它是文档表示的一个统计模型。该模型的主要思想是：将每一文档都映射为由一组规范化正交词条矢量张成的向量空间中的一个点。对于所有的文档类和未知文档，都可以用此空间中的词条向量 (T1,W 1,T 2,W2,…,Tn,Wn)来表示(其中，Ti为特征向量词条； Wi为Ti的权重)[5]。一般需要构造一个评价函数来表示词条权重，其计算的唯一准则就是要最大限度地区别不同文档。这种向量空间模型的表示方法最大的优点在于将非结构化和半结构化的文本表示为向量形式，使得各种数学处理成为可能。

(3)文本信息特征集的缩减

VSM将文本内容表示成数学上可分析处理的形式，但是存在的一个问题是文档特征向量具有惊人的维数。因此，在对文本进行聚类处理之前，应对文本信息特征集进行缩减。通常的方法是针对每个特征词条的权重排序，选取预定数目的最佳特征作为结果的特征子集。选取的数目以及采用的评价函数都要针对具体问题来分析决定。

降低文本特征向量维数的另一个方法是采用向量的稀疏表示方法。虽然文本信息特征集的向量维数非常大，但是对于单个文档，绝大多数向量元素都为零，这一特征也决定了单个文档的向量表示将是一个稀疏向量。为了节省内存占用空间，同时加快聚类处理速度，可以采用向量的稀疏表示方法。假设确定的特征向量词条的个数为n，传统的表示方法为而(T1,W 1,T 2,W2,…, Tn,Wn)稀疏表示方法为(D 1,W1,D2,W2,Dp,…,Wp,n)(Wi≠0)。其中，Di为权重不为零的特征向量词条；Wi为其相应权重；n为向量维度。这种表示方式大大减小了内存占用，提升了聚类效率，但是由于每个文本特征向量维数不一致，一定程度上增加了数学处理的难度。

(4)文本聚类

在将文本内容表示成数学上可分析处理的形式后，接下来的工作就是在此数学形式的基础上，对文本进行聚类处理。文本聚类主要有2种方法：基于概率和基于距离。基于概率的方法以贝叶斯概率理论为基础，用概率的分布方式描述聚类结果。基于距离的方法，就是以特征向量表示文档，将文档看成向量空间中的一个点，通过计算点之间的距离进行聚类。

Claims

1.一种基于大数据的企业创新资源管理与分析方法,所述的大数据包括来自互联网资源的论文、专利文献和网页内容，其 ***包括用以从互联网获取所需数据的数据采集模块、用以存储所获得数据的***存储模块、用以对获得数据进行分析的数据模块和用以产生分析报告的一体化报告模块，其特征在于，包括以下步骤：

其中，第一阶段包括，

步骤一：***根据***配置表中初始设定的关键字，组建优质URL种子，利用爬虫技术，采用关键字权重过滤算法，以优质网站优先深度搜索的方法，采集互联网关于专利、论文、网页新闻相关信息资源；

步骤四：根据需要改变领域、关键字或/和分析方法，重复进行前述步骤一、二、三；

第二阶段包括，

步骤一：判断用户输入的关键字或领域是否在***配置表中，若不在则将其加入到***配置表中，进行第一阶段的实施步骤；

步骤二：针对用户的需求对所采集数据信息进行分析，并根据报告配置的模式，呈现分析结果，并可将报告结果导出或定时发送的用户邮箱或手机，

其中，

互联网数据信息的采数据集模块的实现还***包括两个子模块，分别是网页下载子模块和网页内容结构化提取子模块，其中，

网页下载子模块专门负责下载网页，存储到原始网页数据库中，把用户指定的网站作为目标网站，采用递归下载的方式不断从已经下载的网页中提取新的URL链接，在智能判断URL的合法性后，把新发现的URL加到URL队列中继续下载，这样把目标网站全部网页遍历下载完，同时也就满足了用户对这些网站的历史数据的需求，具体包括以下步骤：

如果判断其是目标网站，则判断其内容是否已下载，若未下载，则将该URL加入URL列表，并继续执行步骤1，

对于目标网站网页内容抓取或者提取，可按用户需求，提取网页中包含的各类数据，即把网页数据结构化，提取流程包括以下步骤：

步骤1，从原始网页数据库读取网页；

步骤2，判断该网页是否是具有内容的网页，如果具有内容，则解析该网页结构，提取正文文本块以及图形和图片，存入网页结构化内容数据库，在数据分析模块中，采用中文分词与词性标注模块，中文分词词库包括：

(1)基础词库：通过海量中文文本语料统计并人工校对得到中文常用词库，

(2)专业词库：包括各个行业的专业词库，

(3)网络新词库：自动发现网络新词，

根据Google的Simhash算法结合中文分词算法，对每一篇文章进行如下处理：

(1)首先基于传统IR方法，将文章转换为一组加权的特征值构成的向量，

(2)初始化一个f维的向量V，其中每一个元素初始值为0，

(3)对于文章的特征向量集中的每一个特征，做如下计算：

利用传统的hash算法映射到一个f-bit的签名，对于这个f-bit的签名，如果签名的第i位上为1，则对向量V中第i维加上这个特征的权值，否则对向量的第i维减去该特征的权值，

(4)对整个特征向量集合迭代上述运算后，根据V中每一维向量的符号来确定生成的f-bit指纹的值，如果V的第i维为正数，则生成f-bit指纹的第i维为1，否则为0，

在数据存储模块中，包括文本分类过程，将互联网上的网页按照合理的分类体系进行存储与管理，步骤如下：

(1)训练集整理

文本分类属于有监督的学习，整理样本文本语料库，根据业务需求，确定样本标签与数目，其中样本标签多为整数，

(2)特征选择

文本分类中利用向量空间模型(VSM)的特征提取方法，将样本转换为向量的形式，

(3)计算特征权重

给定一个样本，计算特征权重的流程：

(3.1)首先，对样本进行分词，提取出所有的词，

(3.2)根据已经生成的词典，如果词典中的词出现，就在相应对应的位置填入该词的词频，

(3.3)对生成的向量进行归一化，

在文本分类过程中，还有一个文本聚类处理模块，

文本聚类的具体过程如下所述：

(1)文本信息的预处理，

(2)文本信息特征的建立，

(3)文本信息特征集的缩减，

(4)文本聚类。