CN108182523A

CN108182523A - 故障数据的处理方法和装置、计算机可读存储介质

Info

Publication number: CN108182523A
Application number: CN201711431807.0A
Authority: CN
Inventors: 宋明彦; 董兆宇; 马晓丽
Original assignee: Xinjiang Goldwind Science and Technology Co Ltd
Current assignee: Xinjiang Goldwind Science and Technology Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-19

Abstract

本发明实施例公开一种故障数据的处理方法和装置、计算机可读存储介质。该处理方法包括：获取风力发电机组的原始故障数据；对原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合；对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合。采用本发明实施例中的技术方案，能够实现对风力发电机组的历史故障处理信息的可靠性故障的自动分析。

Description

故障数据的处理方法和装置、计算机可读存储介质

技术领域

本发明涉及风力发电技术领域，尤其涉及一种风力发电机组故障数据的处理方法和装置、计算机可读存储介质。

背景技术

风能资源通常集中在环境较恶劣的寒冷地区或者高原地区，恶劣的环境使得风力发电机组在运行过程中不可避免地发生各种类型的故障。每次故障处理完成后，现场人员会记录相关的故障处理信息。为提高风力发电机组的故障排除效率及展开对风力发电机组的故障优化设计，研发人员需要对风力发电机组的历史故障处理信息做可靠性故障分析。现有技术中主要通过手工完成对风力发电机组的历史故障处理信息的可靠性故障分析。但是，由于风力发电机组的历史故障处理信息涉及的数据量相当大，通过手工完成对风力发电机组的历史故障处理信息的可靠性故障分析的方式会耗费研发人员大量的时间和精力。

发明内容

本发明实施例提供了一种风力发电机组故障的数据处理方法和装置、计算机可读存储介质，能够实现对风力发电机组的历史故障处理信息的可靠性故障的自动分析。

第一方面，本发明实施例提供了一种风力发电机组故障数据的处理方法，该方法包括：

获取风力发电机组的原始故障数据；

对原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合；

对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合。

在第一方面的一些实施例中，对原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合，包括：清洗每条原始故障数据；对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合。

在第一方面的一些实施例中，清洗每条原始故障数据，包括：剔除原始故障数据中的空字符；和/或，利用正则表达式，剔除原始故障数据中与风力发电机组故障无关的数字符；和/或，根据预定固定词库，剔除原始故障数据中与风力发电机组故障无关的固定词组。

在第一方面的一些实施例中，对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合，包括：利用结巴分词包对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合，其中，结巴分词包中的词库包括风力发电机组行业词库和/或停用词库。

在第一方面的一些实施例中，对与所有原始故障数据对应的关键词集合进行聚类，得到聚类后的多个故障类别和用于表征每个故障类别的特征词集合，包括：

从原始待聚类关键词集合组中选取第一关键词集合，原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合；

分别判断原始待聚类关键词集合组中除第一关键词集合外的、其他每组关键词集合是否能够与第一关键词集合聚为一类；

将所有能够与第一关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与第一关键词集合对应的故障类别的特征词集合，并将所有未能够与第一关键词集合聚为一类的关键词集合构成更新后的待聚类关键词集合组；

从更新后的待聚类关键词集合组中选取第二关键词集合；

分别判断更新后的待聚类关键词集合组中除第二关键词集合外的、其他每组关键词集合是否能够与第二关键词集合聚为一类；

将所有能够与第二关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与第二关键词集合对应的故障类别的特征词集合，直到更新后的待聚类关键词集合组中的关键词集合的数目下降至0。

在第一方面的一些实施例中，分别判断原始待聚类关键词集合组中除第一关键词集合外的、其他每组关键词集合是否能够与第一关键词集合聚为一类，包括：

从原始待聚类关键词集合组中除第一关键词集合外的、其他关键词集合中依次选取第三关键词集合；

分别获取第一关键词集合的关键词总数目和每组第三关键词集合的关键词总数目，将关键词总数目较大的关键词集合的关键词总数目作为第一总数目；

分别获取第一关键词集合和每组第三关键词集合之间的共有关键词的第二总数目；

分别计算每个第二总数目和对应的第一总数目的比值；

若第二总数目和对应的第一总数目的比值大于预定比值，则判断与第二总数目对应的第三关键词集合能够与第一关键词集合聚为一类。

计算原始待聚类关键词集合组中每两组关键词集合之间的第一相似度值，原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合；

将第一相似度值最大的两组关键词集合聚为一组新的关键词集合，并将新的关键词集合和原始待聚类关键词集合组中除第一相似度值最大的两组关键词集合外的、其他关键词集合构成更新后的待聚类关键词集合组；

计算更新后的待聚类关键词集合组中每两组关键词集合之间的第二相似度值，并将所述第二相似度值最大的两组关键词集合聚为一组新的关键词集合，直到所有第二相似度值中的最大第二相似度值大于预定阈值；或者，直到所述更新后的待聚类关键词集合组中的关键词集合的数目下降至预定数目。

在第一方面的一些实施例中，关键词集合为文本格式，计算每两组关键词集合之间的第一相似度值，包括：将关键词集合从文本格式转换为向量格式；计算与每两组关键词集合对应的两组向量之间的第一相似度值。

在第一方面的一些实施例中，在对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合之后，该方法还包括：为每个故障类别设置类别标签；根据类别标签索引与类别标签对应的特征词集合。

在第一方面的一些实施例中，在对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合之后，该方法还包括：获取与新的风力发电机组故障对应的一个或多个词组；根据一个或多个词组索引与新的风力发电机组故障相关的故障类别和特征词集合；或者，根据一个或多个词组检索与新的风力发电机组故障相关的原始故障数据。

第二方面，本发明实施例提供了一种风力发电机组故障数据的处理装置，该装置包括：

第一获取模块，用于获取风力发电机组的原始故障数据；

分词模块，用于对原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合；

聚类模块，用于对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合。

在第二方面的一些实施例中，分词模块具体包括：清洗单元，用于清洗每条原始故障数据；分词单元，用于对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合。

在第二方面的一些实施例中，聚类模块具体包括：

选取单元，用于从原始待聚类关键词集合组中选取第一关键词集合，原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合；

判断单元，用于分别判断原始待聚类关键词集合组中除第一关键词集合外的、其他每组关键词集合是否能够与第一关键词集合聚为一类；

第一聚类单元，用于将所有能够与第一关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与第一关键词集合对应的故障类别的特征词集合，并将所有未能够与第一关键词集合聚为一类的关键词集合构成更新后的待聚类关键词集合组；

选取单元，还用于从更新后的待聚类关键词集合组中选取第二关键词集合；

判断单元，还用于分别判断更新后的待聚类关键词集合组中除第二关键词集合外的、其他每组关键词集合是否能够与第二关键词集合聚为一类；

第一聚类单元，还用于将所有能够与第二关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与第二关键词集合对应的故障类别的特征词集合，直到更新后的待聚类关键词集合组中的关键词集合的数目下降至0。

在第二方面的一些实施例中，聚类模块还具体包括：

计算单元，用于计算原始待聚类关键词集合组中每两组关键词集合之间的第一相似度值，原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合；

第二聚类单元，用于将第一相似度值最大的两组关键词集合聚为一组新的关键词集合，并将新的关键词集合和原始待聚类关键词集合组中除第一相似度值最大的两组关键词集合外的、其他关键词集合构成更新后的待聚类关键词集合组；

计算单元，还用于计算更新后的待聚类关键词集合组中每两组关键词集合之间的第二相似度值，并将第二相似度值最大的两组关键词集合聚为一组新的关键词集合，直到所有第二相似度值中的最大第二相似度值大于预定阈值；或者，直到更新后的待聚类关键词集合组中的关键词集合的数目下降至预定数目。

第三方面，本发明实施例提供了一种风力发电机组故障数据的处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现如上所述的风力发电机组故障数据的处理方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有程序，程序被处理器执行时实现如上所述的风力发电机组故障数据的处理方法。

根据本发明的实施例，可以获取风力发电机组的原始故障数据，然后对原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合；然后对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合，从而实现自动对风力发电机组的历史故障处理信息的可靠性故障分析，不仅能够提高分析效率，而且能够节约人力资源。

此外，当有故障发生时，工作人员可以根据故障现象得到故障关键词，然后利用故障关键词与聚类得到的特征词集合进行匹配，得到故障所属的类别及相关的故障处理记录，就能够达到快速锁定故障模式，提高风力发电机组的故障处理效率的效果。

附图说明

从下面结合附图对本发明实施例的具体实施方式的描述中可以更好地理解本发明实施例其中，相同或相似的附图标记表示相同或相似的特征。

图1为本发明一实施例提供的风力发电机组故障数据的处理方法的流程示意图；

图2为本发明一实施例提供的词云图展示的示意图；

图3为本发明另一实施例提供的词云图展示的示意图；

图4为本发明另一实施例提供的风力发电机组故障数据的处理方法的流程示意图；

图5为本发明又一实施例提供的风力发电机组故障数据的处理方法的流程示意图；

图6为本发明一实施例提供的风力发电机组故障数据的处理装置的结构示意图；

图7为本发明另一实施例提供的风力发电机组故障数据的处理装置的结构示意图；

图8为本发明又一实施例提供的风力发电机组故障数据的处理装置的结构示意图；

图9为本发明再一实施例提供的风力发电机组故障数据的处理装置的结构示意图。

具体实施方式

下面将详细描述本发明实施例的各个方面的特征和示例性实施例。在下面的详细描述中，提出了许多具体细节，以便提供对本发明实施例的全面理解。

本发明实施例提供了一种风力发电机组故障数据的处理方法和装置，用于风力发电机组的故障分析领域。采用本发明实施例中的风力发电机组故障数据的处理方法，能够实现自动对风力发电机组的历史故障处理信息的可靠性故障分析。

图1为本发明一实施例提供的风力发电机组故障数据的处理方法的流程示意图。如图1所示，该处理方法包括步骤101至步骤103。

在步骤101中，获取风力发电机组的原始故障数据。其中，每次风力发电机组的故障可以对应生成一条原始故障数据。原始故障数据可以由多种格式。

在一个示例中，原始故障数据可以为文本格式的数据，原始故障数据主要包括对故障简要说明，故障发生的原因和故障处理情况等。

表1中示出了与多次风力发电机组故障对应的多条原始故障数据。其中，第一列为风力发电机组的故障编号，第二列至第四列分别为故障描述(即对故障的简要说明)、故障原因和故障处理情况。原始故障数据是将风力发电机组故障的故障描述、故障原因和现场处理情况拼接后的故障数据。

表1

在步骤102中，对原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合。

在一个示例中，可以先清洗每条原始故障数据，对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合，以提高后续计算的速度和准确性。

具体地，可以从以下几个方面清洗原始故障数据：

(1)剔除原始故障数据中的空字符；

(2)利用正则表达式，剔除原始故障数据中与风力发电机组故障无关的数字符；比如，可以认为长度大于5的数字串与风力发电机组相关的故障无关，比如电话或者网址，对于一串数字：XXXXX2390452XXXXXX，X表示中文汉字，由于数字的长度大于5，可以采用正则表达式剔除“2390452”对应的数字；也可以认为时间数据与风力发电机组相关的故障无关。示例性地，对于时间数据2016/09/19 15:44:45，可以采用正则表达式进行剔除。

(3)根据预定固定词库，剔除原始故障数据中与风力发电机组故障无关的固定词组。比如，可以将“现场信息：X”、“柜体编号：XX”和“机组运行时间：”等物品名类词汇添加到预定固定词库，也可以将“故障描述”和“故障处理”等标题类词汇添加到预定固定词库中，还可以将“华中事业部”等机构类词汇添加到预定固定词库中。

具体地，可以利用结巴分词包对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合。其中，结巴分词包中的词库包括风力发电机组行业词库和/或停用词库。

结合表1，风力发电机组行业词库包括：机组、主控柜、发电机轴承、小风、登机检查和变桨通信等等。

停用词库包括：电脑检索中的虚字和非检索用字。停用词一般可以分为可分两类：一类是使用十分广泛、甚至是过于频繁的一些单词，比如英文中的“i”、“is”和“what”等，或者中文中的“我”和“就”等；另一类是出现频率很高、但是实际意义不大的单词，这些单词通常自身并无明确意义，只有将其放入一个完整的句子中才有一定作用，主要包括语气助词、副词、介词和连词等，比如“的”、“在”、“和”和“接着”等。

本发明实施例还用到结巴分词中的"结巴"中文分词，"结巴"中文分词指的是Python中的文分词组件“Jieba”"，通过“Jieba”可以将句子精确地切开，将句子中所有可以成词的词语都扫描出来，并且能够对长词再次切分。

结巴分词的算法原理为：基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，然后采用动态规划查找最大概率路径，找出基于词频的最大切分组合。为将结巴分词更好地用在风力发电机组故障分析领域，本领域技术人员可以安装并熟悉掌握结巴分词工具。

以表1为例，对表1中的每条原始故障数据分别进行分词处理，可以得到表2中的数据。表2中的第一列为风力发电机组的故障编号，第二列为与每条原始故障数据对应的、用于表征风力发电机组故障的关键词集合。表2中的每组关键词集合是对表1中每条原始故障数据中的故障描述，故障原因和故障处理情况统一分词后的结果。

表2

在步骤103中，对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合。

其中，聚类指的是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程，由聚类所生成的簇是一组数据对象的集合且满足：同一个簇中，数据对象是相似的，不同簇之间的对象是不相似的。

由于本发明实施例中的原始故障数据为文本格式，因此可以采用文本聚类的方式，将一组文档按照某一种规则划分到不同的组(簇)中，同一组中尽可能包含类似的文件，并且尽可能分离不同的文件。

表3直观地示出了对表2中的多组关键词集合的聚类结果。其中，第一列示为聚类后的故障类别的编号，第二列为用于表征每个故障类别的特征词集合，第三列为聚类后的每个故障类别所包括的故障编号。

在表3示出的聚类结果中，将表1和表2中的1-4号故障聚类为表3中的第一故障类别，将表1和表2中的5-8号故障聚类为表3中的第二故障类别，将表1和表2中的故障(9、10….)聚类为表3中的第三故障类别。

表3

故障类别	特征词集合	序号
			一	变桨,通讯,复位,紧固,故障,DP	1、2、3、4…
二	攻关,机组,引起,紧固,技改,百日	5、6、7、8…
			三	检查,机组,阻值,损坏,恢复正常,更换	9、10…
…	…	…

如上所述，根据本发明的实施例，可以获取风力发电机组的原始故障数据，然后对原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合；然后对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合，从而实现自动对风力发电机组的历史故障处理信息的可靠性故障分析，不仅能够提高分析效率，而且能够节约人力资源。

根据本发明的实施例，在获取到同一个故障类别的特征词集合后，还可以结合业务理解给每一条数据添加类别标签，比如关键词，用于以后的快速查询。

具体地，快速查询的过程可以为：输入目标关键词，可以获取到符合关键词的所有类别，然后针对选定类别，可以找到此类别下的所有历史故障信息。

以表3中的特征词集合为例，可以将第二故障类别的类别标签设置为“百日攻关”，将第三故障类别的类别标签设置为“机组阻值”。

在一个示例中，可以通过词云图的形式显示检索到的特征词集合。当需要显示与第二故障类别对应的特征词集合时，可以选择“百日攻关”的词云图按钮，显示结果参阅图2，以更加直观地展示故障相关特征。

当需要显示与第三故障类别对应的特征词集合时，可以选择“机组阻值”的词云图按钮，显示结果参阅图3，以更加直观地展示故障相关特征。

在另一个示例中，可以获取历史上所有的故障类别标签，然后选择词云图按钮，用分页的方式对这些故障类别的词云图进行显示。

根据本发明的实施例，为快速锁定新发生故障的类别特征，还可以结合业务理解，获取与新的风力发电机组故障对应的一个或多个词组；然后根据一个或多个词组，检索到与新的风力发电机组故障相关的故障类别和特征词集合。

进一步地，还可以根据一个或多个词组检索与新的风力发电机组故障相关的原始故障数据，通过参考相关原始故障数据对应的故障处理方案，快速获取解决新故障的处理办法。

在一个示例中，还可以输入历史故障的相关词组，获取历史上所有包含此关键词的故障详细信息，及继续选择，以获取这些故障的处理办法。

在另一个示例中，多个故障相关词组可以以空格分割，搜索条件可以设定为包含这些词组的一个或多个，也可以设定为包含这些词组的全部。

在一些实施例中，当新的故障信息输入后，还可以自动执行分词和聚类，以对新的故障信息的归类和入库；也可以根据设定的分词或聚类选项执行分词和聚类，实现对新的故障信息的归类和入库。

需要说明的是，上述聚类过程可以是一定阶段内进行一次，分好类别后现场人员随时查询，类似百度关键词搜索，不需要每次都聚类，工作人员查询时提供关键词即可，也不一定每一次都分词。

下面对步骤103中的聚类过程进行详细说明。基于不同的聚类原理，本发明实施例提供了两种聚类方法，请分别参阅图4和图5。

图4为本发明另一实施例提供的风力发电机组故障数据的处理方法的流程示意图。图4与图1的不同之处在于，图1中的步骤103可细化为图4中的步骤1031和步骤1036，用于基于文本交集占比原理对本发明实施例中的故障数据进行聚类。在图4的示例中，与所有原始故障数据对应的关键词集合构成了原始待聚类关键词集合组。

在步骤1031中，从原始待聚类关键词集合组中选取第一关键词集合。

在步骤1032中，分别判断原始待聚类关键词集合组中除第一关键词集合外的、其他每组关键词集合是否能够与第一关键词集合聚为一类。

具体地，可以从原始待聚类关键词集合组中除第一关键词集合外的、其他关键词集合中依次选取第三关键词集合；分别获取第一关键词集合的关键词总数目和每组第三关键词集合的关键词总数目，将关键词总数目较大的关键词集合的关键词总数目作为第一总数目n；分别获取第一关键词集合和每组第三关键词集合之间的共有关键词的第二总数目m；分别计算每个第二总数目和对应的第一总数目的比值n/m；若第二总数目和对应的第一总数目的比值n/m大于预定比值，则判断与第二总数目m对应的第三关键词集合能够与第一关键词集合聚为一类。

在步骤1033中，将所有能够与第一关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与第一关键词集合对应的故障类别的特征词集合，并将所有未能够与第一关键词集合聚为一类的关键词集合构成更新后的待聚类关键词集合组(请参阅表3)。

在步骤1034中，从更新后的待聚类关键词集合组中选取第二关键词集合。

在步骤1035中，分别判断更新后的待聚类关键词集合组中除第二关键词集合外的、其他每组关键词集合是否能够与第二关键词集合聚为一类。

在步骤1036中，将所有能够与第二关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与第二关键词集合对应的故障类别的特征词集合(请参阅表3)，直到更新后的待聚类关键词集合组中的关键词集合的数目下降至0。

下面举例对图4中的基于文本交集占比原理的聚类方法进行详细说明，设共有100条故障文本，聚类方法如下：

(1)从100条故障文本选出文本1；

(2)依次取出剩余99个文本，将剩余99个文本分别和文本1进行交集占比计算；以文本1和文本2为例，交集占比计算方法如下：

(2-1)根据公式：len(交集(文本1中的词组数目，文本2中的词组数目))，计算文本1和文本2的共有词组的数目n；

(2-2)根据公式：max(文本1中的词组数目，文本2中的词组数目)，获取文本1和文本2中词组数目较大的文本对应的词组数目m；

(2-3)判断n和m的比值n/m是否大于设定的阈值，若n/m大于设定的阈值，则说明文本1和文本2的相似度较高，可以聚为一类。

接下来，对剩余的98个文本依次执行上述操作。若(2)的结果为：99个文本中共有10个文本可以和文本1聚为一类，则对剩余的89个文本重新执行上述操作，直到未成功聚类的文本的数量为0。

本发明实施例中的基于文本交集占比原理对本发明实施例中的故障数据进行聚类的方法涉及的计算工作量少，具有计算效率高的优点。

图5为本发明第五实施例提供的风力发电机组故障数据的处理方法的流程示意图。图5与图1的不同之处在于，图1中的步骤103还可细化为图5中的步骤1037至步骤1039，用于基于凝聚层次聚类原理对本发明实施例中的故障数据进行聚类。与所有原始故障数据对应的关键词集合构成了原始待聚类关键词集合组。

在步骤1037中，计算原始待聚类关键词集合组中每两组关键词集合之间的第一相似度值。

其中，为提高风力发电机组故障数据的聚类效果，可以先将关键词集合先从文本格式转换为向量格式后，再计算与每两组关键词集合对应的两组向量之间的第一相似度值。

假设共有三个关键词文本集合，其中，文本1为：问题,通讯,断开,复位,通讯,瞬时,DP；文本2为：无,变桨,通讯,检查,登机,紧固,柜,问题,故障,重新,为,异常,类,DP,头；文本3为：攻关,引起,技改,百日。为将文本1、文本2和文本3从文本格式转换为向量格式，

首先可以通过文本1、文本2和文本3获取总文本。比如：将文本1中词去重后复制到总文本中，然后将其他文本中的词依次复制到总文本中，若某个词总文本中已经存在，则不复制，获取到的总文本为：问题,通讯,断开,复位,瞬时,DP,无,变桨,检查,登机,紧固,柜,故障,重新,为,异常,类,头,攻关,引起,技改,百日。

然后依次获取文本1、文本2、文本3的向量表示。具体包括：分别将文本1、文本2、文本3中的词与总文本中的词进行比较，比如：如果总文本的位置i处的单词在文本1中出现过k次，则向量1位置i处记为k，如果没有出现，记为0。

经过上述两个步骤，可以得到上述文本1-文本3的向量映射后的结果为：

向量1＝[1,2,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]；

向量2＝[1,1,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0]；

向量3＝[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1]。

具体地，可以从余弦相似度和欧式距离两个方面来计算与每两组关键词集合对应的两组向量之间的第一相似度值。余弦相似度和欧式距离的计算公式参考相关数学参考书，此处不进行赘述。

在步骤1038中，将第一相似度值最大的两组关键词集合聚为一组新的关键词集合，并将新的关键词集合和原始待聚类关键词集合组中除第一相似度值最大的两组关键词集合外的、其他关键词集合构成更新后的待聚类关键词集合组。

在步骤1039中，计算所述更新后的待聚类关键词集合组中每两组关键词集合之间的第二相似度值，并将所述第二相似度值最大的两组关键词集合聚为一组新的关键词集合，直到所有第二相似度值中的最大第二相似度值大于预定阈值时循环结束。

根据本发明的实施例，循环结束也可以为直到所述更新后的待聚类关键词集合组中的关键词集合的数目下降至预定数目。本领域技术人员可以根据实际的测试效果选取任一循环终止条件，此处不进行限定。

以余弦相似度为例，可以先将所有文本转化为向量形式，然后计算两两文本之间的余弦相似度，最后比较所有两两文本之间的(1-余弦相似度)的最小值min(1-余弦相似度)和设定阈值的大小，直到min(1-余弦相似度)大于设定阈值时循环结束，聚类完成。

以欧氏距离为例，可以先将所有文本转化为向量形式；然后计算两两文本之间的欧式距离；最后比较所有两两文本之间的欧式距离的最小值min(欧式距离)与设定阈值的大小，直到min(欧式距离)大于设定阈值时循环结束，聚类完成。

本发明实施例中的基于凝聚层次聚类原理对本发明实施例中的故障数据进行聚类的方法可以由计算机执行，能够执行的运算量较大，从而能够使得聚类结果具有高的准确度。

如上所述，本发明实施例中故障数据处理方法非常适用于对日常工作的大量文档搜索，能够通过文本智能聚类完成风机故障数据的梳理，也能够方便研发人员进行数据分类和统计，比如风力发电机组的可靠性故障分析。

在实际应用中，可以基于本发明实施例中的故障数据处理方法，建立故障参考***，该故障参考***的主要功能可以包括故障数据智能分类、新故障数据归类、某故障模式对应的诊断及处理办法查询、某故障模式下历史故障详细描述信息查询等。

图6为本发明一实施例提供的风力发电机组故障数据的处理装置的结构示意图。图6中示出的风力发电机组故障数据的处理装置包括获取模块、分词模块和聚类模块。

其中，获取模块用于获取风力发电机组的原始故障数据。

分词模块用于对原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合。

聚类模块用于对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合。

图7为本发明另一实施例提供的风力发电机组故障数据的处理装置的结构示意图。图7与图6的不同之处在于，图6中的分词模块可细化为图7中的清洗单元和分词单元。

其中，清洗单元，用于清洗每条原始故障数据。

分词单元用于对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合。

图8为本发明又一实施例提供的风力发电机组故障数据的处理装置的结构示意图。图8与图6的不同之处在于，图6中的聚类模块可细化为图8中的选取单元、判断单元和第一聚类单元。

其中，选取单元用于从原始待聚类关键词集合组中选取第一关键词集合，原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合。

判断单元用于分别判断原始待聚类关键词集合组中除第一关键词集合外的、其他每组关键词集合是否能够与第一关键词集合聚为一类。

第一聚类单元用于将所有能够与第一关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与第一关键词集合对应的故障类别的特征词集合，并将所有未能够与第一关键词集合聚为一类的关键词集合构成更新后的待聚类关键词集合组。

选取单元还用于从更新后的待聚类关键词集合组中选取第二关键词集合。

判断单元还用于分别判断更新后的待聚类关键词集合组中除第二关键词集合外的、其他每组关键词集合是否能够与第二关键词集合聚为一类。

第一聚类单元还用于将所有能够与第二关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与第二关键词集合对应的故障类别的特征词集合，直到更新后的待聚类关键词集合组中的关键词集合的数目下降至0。

图9为本发明再一实施例提供的风力发电机组故障数据的处理装置的结构示意图。图9与图6的不同之处在于，图6中的聚类模块还可细化为图8中的计算单元和第二聚类单元。

其中，计算单元用于计算原始待聚类关键词集合组中每两组关键词集合之间的第一相似度值，原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合。

第二聚类单元用于将第一相似度值最大的两组关键词集合聚为一组新的关键词集合，并将新的关键词集合和原始待聚类关键词集合组中除第一相似度值最大的两组关键词集合外的、其他关键词集合构成更新后的待聚类关键词集合组。

计算单元还用于计算更新后的待聚类关键词集合组中每两组关键词集合之间的第二相似度值，并将第二相似度值最大的两组关键词集合聚为一组新的关键词集合，直到所有第二相似度值中的最大第二相似度值大于预定阈值；或者，直到更新后的待聚类关键词集合组中的关键词集合的数目下降至预定数目。

本发明实施例还提供一种风力发电机组故障数据的处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现如上所述的风力发电机组故障数据的处理方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，程序被处理器执行时实现如上所述的风力发电机组故障数据的处理方法。

需要明确的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例而言，相关之处可以参见方法实施例的说明部分。本发明实施例并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本发明实施例的精神之后作出各种改变、修改和添加，或者改变步骤之间的顺序。并且，为了简明起见，这里省略对已知方法技术的详细描述。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明实施例的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明实施例可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而***体系结构并不脱离本发明实施例的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明实施例的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明实施例的范围之中。

Claims

1.一种风力发电机组故障数据的处理方法，其特征在于，包括：

获取风力发电机组的原始故障数据；

对所述原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合；

2.根据权利要求1所述的方法，其特征在于，所述对所述原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合，包括：

清洗每条原始故障数据；

对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合。

3.根据权利要求2所述的方法，其特征在于，所述清洗每条原始故障数据，包括：

剔除所述原始故障数据中的空字符；和/或，

利用正则表达式，剔除所述原始故障数据中与所述风力发电机组故障无关的数字符；和/或，

根据预定固定词库，剔除所述原始故障数据中与所述风力发电机组故障无关的固定词组。

4.根据权利要求3所述的方法，其特征在于，所述对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合，包括：

利用结巴分词包对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合，其中，所述结巴分词包中的词库包括风力发电机组行业词库和/或停用词库。

5.根据权利要求1所述的方法，其特征在于，所述对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合，包括：

从原始待聚类关键词集合组中选取第一关键词集合，所述原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合；

分别判断所述原始待聚类关键词集合组中除所述第一关键词集合外的、其他每组关键词集合是否能够与所述第一关键词集合聚为一类；

将所有能够与所述第一关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与所述第一关键词集合对应的故障类别的特征词集合，并将所有未能够与所述第一关键词集合聚为一类的关键词集合构成更新后的待聚类关键词集合组；

从所述更新后的待聚类关键词集合组中选取第二关键词集合；

分别判断所述更新后的待聚类关键词集合组中除所述第二关键词集合外的、其他每组关键词集合是否能够与所述第二关键词集合聚为一类；

将所有能够与所述第二关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与所述第二关键词集合对应的故障类别的特征词集合，直到所述更新后的待聚类关键词集合组中的关键词集合的数目下降至0。

6.根据权利要求5所述的方法，其特征在于，所述分别判断所述原始待聚类关键词集合组中除所述第一关键词集合外的、其他每组关键词集合是否能够与所述第一关键词集合聚为一类，包括：

从所述原始待聚类关键词集合组中除所述第一关键词集合外的、其他关键词集合中依次选取第三关键词集合；

分别获取所述第一关键词集合的关键词总数目和每组所述第三关键词集合的关键词总数目，将所述关键词总数目较大的关键词集合的关键词总数目作为第一总数目；

分别获取所述第一关键词集合和每组所述第三关键词集合之间的共有关键词的第二总数目；

分别计算每个所述第二总数目和对应的第一总数目的比值；

若所述第二总数目和对应的第一总数目的比值大于预定比值，则判断与所述第二总数目对应的所述第三关键词集合能够与所述第一关键词集合聚为一类。

7.根据权利要求1所述的方法，其特征在于，所述对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合，包括：

计算所述原始待聚类关键词集合组中每两组关键词集合之间的第一相似度值，所述原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合；

将所述第一相似度值最大的两组关键词集合聚为一组新的关键词集合，并将所述新的关键词集合和所述原始待聚类关键词集合组中除所述第一相似度值最大的两组关键词集合外的、其他关键词集合构成更新后的待聚类关键词集合组；

计算所述更新后的待聚类关键词集合组中每两组关键词集合之间的第二相似度值，并将所述第二相似度值最大的两组关键词集合聚为一组新的关键词集合，直到所有第二相似度值中的最大第二相似度值大于预定阈值；或者，直到所述更新后的待聚类关键词集合组中的关键词集合的数目下降至预定数目。

8.根据权利要求7所述的方法，其特征在于，所述关键词集合为文本格式，所述计算每两组关键词集合之间的第一相似度值，包括：

将所述关键词集合从文本格式转换为向量格式；

计算与每两组关键词集合对应的两组向量之间的第一相似度值。

9.根据权利要求1所述的方法，其特征在于，在所述对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合之后，所述方法还包括：

为每个所述故障类别设置类别标签；

根据所述类别标签索引与所述类别标签对应的特征词集合。

10.根据权利要求1所述的方法，其特征在于，在所述对与所有原始故障数据对应的关键词集合进行聚类，得到多个故障类别和与每个故障类别对应的特征词集合之后，所述方法还包括：

获取与新的风力发电机组故障对应的一个或多个词组；

根据所述一个或多个词组索引与所述新的风力发电机组故障相关的故障类别和特征词集合；或者，

根据所述一个或多个词组检索与所述新的风力发电机组故障相关的原始故障数据。

11.一种风力发电机组故障数据的处理装置，其特征在于，包括：

获取模块，用于获取风力发电机组的原始故障数据；

分词模块，用于对所述原始故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合；

12.根据权利要求11所述的装置，其特征在于，所述分词模块具体包括：

清洗单元，用于清洗每条原始故障数据；

分词单元，用于对清洗后的故障数据进行分词处理，得到与每条原始故障数据对应的关键词集合。

13.根据权利要求11所述的装置，其特征在于，所述聚类模块具体包括：

选取单元，用于从所述原始待聚类关键词集合组中选取第一关键词集合，所述原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合；

判断单元，用于分别判断所述原始待聚类关键词集合组中除所述第一关键词集合外的、其他每组关键词集合是否能够与所述第一关键词集合聚为一类；

第一聚类单元，用于将所有能够与所述第一关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与所述第一关键词集合对应的故障类别的特征词集合，并将所有未能够与所述第一关键词集合聚为一类的关键词集合构成更新后的待聚类关键词集合组；

所述选取单元，还用于从所述更新后的待聚类关键词集合组中选取第二关键词集合；

所述判断单元，还用于分别判断所述更新后的待聚类关键词集合组中除所述第二关键词集合外的、其他每组关键词集合是否能够与所述第二关键词集合聚为一类；

所述第一聚类单元，还用于将所有能够与所述第二关键词集合聚为一类的关键词集合中的关键词的组合，作为用于表征与所述第二关键词集合对应的故障类别的特征词集合，直到所述更新后的待聚类关键词集合组中的关键词集合的数目下降至0。

14.根据权利要求11所述的装置，其特征在于，所述聚类模块还具体包括：

计算单元，用于计算所述原始待聚类关键词集合组中每两组关键词集合之间的第一相似度值，所述原始待聚类关键词集合组为与所有原始故障数据对应的关键词集合构成的组合；

第二聚类单元，用于将所述第一相似度值最大的两组关键词集合聚为一组新的关键词集合，并将所述新的关键词集合和所述原始待聚类关键词集合组中除所述第一相似度值最大的两组关键词集合外的、其他关键词集合构成更新后的待聚类关键词集合组；

所述计算单元，还用于计算所述更新后的待聚类关键词集合组中每两组关键词集合之间的第二相似度值，并将所述第二相似度值最大的两组关键词集合聚为一组新的关键词集合，直到所有第二相似度值中的最大第二相似度值大于预定阈值；或者，直到所述更新后的待聚类关键词集合组中的关键词集合的数目下降至预定数目。

15.一种风力发电机组故障数据的处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10任意一项所述的风力发电机组故障数据的处理方法。

16.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-10任意一项所述的风力发电机组故障数据的处理方法。