CN108280173A

CN108280173A - 一种非结构化文本的关键信息挖掘方法、介质及设备

Info

Publication number: CN108280173A
Application number: CN201810058925.XA
Authority: CN
Inventors: 刘若初; 郑则典; 罗伟东
Original assignee: Shenzhen Information Technology Co Ltd
Current assignee: Shenzhen Information Technology Co Ltd
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2018-07-13
Anticipated expiration: 2038-01-22
Also published as: CN108280173B

Abstract

本发明提供了一种非结构化文本的关键信息挖掘方法、介质及设备。所述方法，包括：获取非结构文本的文本信息；采用分词算法，将所述文本信息解析为多个词向量；根据所述词向量，提取所述文本信息的语言模板；将所述语言模板与所述文本信息进行匹配，获得所述文本信息的关键信息；将所述关键信息输出给用户。通过根据文本信息的词向量，提取文本信息的语言模板，再将语言模板与文本信息进行匹配，提取文本信息的关键信息，能够从非结构化的文本信息中提取出结构化的语言模板，从而提取文本信息的关键信息，使用户能够快速获取文本中的关键信息，提高工作效率。

Description

一种非结构化文本的关键信息挖掘方法、介质及设备

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种非结构化文本的关键信息挖掘方法、介质及设备。

背景技术

当今互联网世界中，信息以指数级的速度增长，其中占比最大的是文本非结构化数据。相对传统数据库存储的数据统一的结构，非结构化数据通常由人们的自然语言生成，不具备统一、清晰的数据结构，难以通过现有算法对这些数据进行统计分析或进行深入挖掘。

发明内容

针对现有技术中的缺陷，本发明提供一种非结构化文本的关键信息挖掘方法、介质及设备，能够从非结构化的文本信息中提取出结构化的语言模板，从而提取文本信息的关键信息，使用户能够快速获取文本中的关键信息，提高工作效率。

第一方面，本发明提供了一种非结构化文本的关键信息挖掘方法，包括：

获取非结构文本的文本信息；

采用分词算法，将所述文本信息解析为多个词向量；

根据所述词向量，提取所述文本信息的语言模板；

将所述语言模板与所述文本信息进行匹配，获得所述文本信息的关键信息；

将所述关键信息输出给用户。

可选的，所述根据所述词向量，提取所述文本信息的语言模板，包括：

采用tf-idf算法，计算所述词向量中各个词汇的权重；

根据各个词汇的所述权重，获得所述文本信息的权重向量；

根据所述权重向量和所述词向量，获得所述文本信息的词典；

根据所述词典和所述词向量，生成所述文本信息的语言模板。

可选的，所述根据所述权重向量和所述词向量，获得所述文本信息的词典，包括：

将所述权重向量中每个词汇的权重，按从大到小的顺序排列；

从权重最大值开始，选取预设数量的权重，作为高权重；

将选取的所述高权重与所述词向量中的词汇进行匹配，获得所述高权重对应的重要词汇；

利用所述重要词汇组成所述文本信息的词典。

可选的，根据所述词典和所述词向量，生成所述文本信息的语言模板，包括：

根据所述词典，采用dummy算法，对所述词向量进行数值转换，获得所述词向量对应的数值向量；

根据所述数值向量和所述词典，生成所述文本信息的语言模板。

可选的，根据所述数值向量和所述词典，生成所述文本信息的语言模板，包括：

采用聚类算法，计算所述数值向量的聚类中心；

将所述聚类中心与所述词典进行匹配，生成所述文本信息的语言模板。

可选的，所述聚类算法采用Kmeans聚类算法。

第二方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述一种非结构化文本的关键信息挖掘方法。

第三方面，本发明提供一种非结构化文本的关键信息挖掘设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种非结构化文本的关键信息挖掘方法。

本发明提供了一种非结构化文本的关键信息挖掘方法，包括：获取非结构文本的文本信息；采用分词算法，将所述文本信息解析为多个词向量；根据所述词向量，提取所述文本信息的语言模板；将所述语言模板与所述文本信息进行匹配，获得所述文本信息的关键信息；将所述关键信息输出给用户。通过根据文本信息的词向量，提取文本信息的语言模板，再将语言模板与文本信息进行匹配，提取文本信息的关键信息，能够从非结构化的文本信息中提取出结构化的语言模板，从而提取文本信息的关键信息，使用户能够快速获取文本中的关键信息，提高工作效率。

本发明提供的一种计算机可读存储介质和一种非结构化文本的关键信息挖掘设备，与上述非结构化文本的关键信息挖掘方法出于相同的发明构思，具有相同的有益效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明提供的一种非结构化文本的关键信息挖掘方法的流程图；

图2为本发明提供的一种非结构化文本的关键信息挖掘设备的结构示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

本发明提供了一种非结构化文本的关键信息挖掘方法、介质及设备。下面结合附图对本发明的实施例进行说明。

第一实施例：

请参考图1，图1为本发明具体实施例提供的一种非结构化文本的关键信息挖掘方法的流程图，本实施例提供的一种非结构化文本的关键信息挖掘方法，包括：

步骤S101：获取非结构文本的文本信息。

步骤S102：采用分词算法，将所述文本信息解析为多个词向量。

步骤S103：根据所述词向量，提取所述文本信息的语言模板。

步骤S104：将所述语言模板与所述文本信息进行匹配，获得所述文本信息的关键信息。

步骤S105：将所述关键信息输出给用户。

其中，非结构文本是指由自然语言形成的不具备统一、清晰的数据结构的文本。

其中，采用分词算法，将文本信息解析为多个词向量时，可以是将文本信息中每一个句子解析为一个词向量。

例如，文本信息为：“建筑业景气度明显提升，建筑业商务活动指数为61.4％，比上月上升2.9个百分点，升到60.0％以上的高位景气区间”。

解析后的词向量为：[建筑业,景气度,明显,提升,商务,活动，指数，上月，上升，百分点，高位景气区间]。

通过根据文本信息的词向量，提取文本信息的语言模板，再将语言模板与文本信息进行匹配，提取文本信息的关键信息，能够从非结构化的文本信息中提取出结构化的语言模板，从而提取文本信息的关键信息，使用户能够快速获取文本中的关键信息，提高工作效率。

在本发明提供的一个具体实施例中，所述根据所述词向量，提取所述文本信息的语言模板，包括：采用tf-idf算法，计算所述词向量中各个词汇的权重；根据各个词汇的所述权重，获得所述文本信息的权重向量；根据所述权重向量和所述词向量，获得所述文本信息的词典；根据所述词典和所述词向量，生成所述文本信息的语言模板。

在计算完文本信息的词向量后，可以采用tf-idf算法，计算各个词向量中每个词汇在整个文本信息中的权重，再根据各个词汇的权重，能够获得文本信息的权重向量。由于每句话的词向量中的词汇可能重复，因此，相应的权重也会重复，在根据词汇的权重，获得权重向量时，需要将重复的权重去掉，然后将去重后的权重重组，获得一个权重向量。其中，一个文本信息对应一个权重向量。

获得权重向量后，可以根据权重向量和词向量，获得词典，再根据词典和词向量，提取文本信息的语言模板。

在本发明提供的一个具体实施例中，所述根据所述权重向量和所述词向量，获得所述文本信息的词典，包括：将所述权重向量中每个词汇的权重，按从大到小的顺序排列；从权重最大值开始，选取预设数量的权重，作为高权重；将选取的所述高权重与所述词向量中的词汇进行匹配，获得所述高权重对应的重要词汇；利用所述重要词汇组成所述文本信息的词典。

在根据权重向量和词向量，获得词典时，可以将权重向量中每个词汇的权重，按从大到小的顺序排列，从权重最大值开始，选取权重最大的多个权重，作为高权重。其中，可以选取20、30、40等任意数量的权重。可以根据业务场景的需要，确定需要保留的高权重的数量。

例如，可以选择权重最大的前20个词汇的权重作为高权重。

然后，再将选取的高权重与词向量中对应的词汇进行匹配，获得高权重对应的词汇，将高权重对应的词汇作为重要词汇。这些重要词汇就可组成该文本信息的词典。

通过根据词汇权重计算文本信息的词典，能够提高词典的可靠性。

在本发明提供的一个具体实施例中，根据所述词典和所述词向量，生成所述文本信息的语言模板，包括：根据所述词典，采用dummy算法，对所述词向量进行数值转换，获得所述词向量对应的数值向量；根据所述数值向量和所述词典，生成所述文本信息的语言模板。

在根据词典和词向量生成语言模板时，首先，需要采用dummy算法，根据词典对词向量进行数值转换，在进行数值转换时，需要判断词向量中的词汇是否在词典中，若是，则该词汇的数值为1，若否，则该词汇的数值为0，依次判断完词向量中所有的词汇后，得到词向量对应的数值向量。

由于文本信息的一句话对应一个词向量，一个词向量对应一个数值向量，因此，文本信息的一句话对应一个数值向量。若文本信息中有n个句子，就对应有n个数值向量。

例如，词向量为：[建筑业,景气度,明显,提升,商务]，通过词典进行数值转化后，数值向量为：[1,0,0,0,1]。

在计算完数值向量后，可以根据数值向量和词典，生成语言模板。

具体过程为：

采用聚类算法，计算所述数值向量的聚类中心；将所述聚类中心与所述词典进行匹配，生成所述文本信息的语言模板。

由于不同的句子主题有相关性，因此，文本信息的数值向量在空间中分布时会有聚集现象。

可选的，可以采用聚类算法，计算数值向量的聚类中心。在计算时，可以采用Kmeans聚类算法，也可以采用其它聚类算法，这都在本发明保护的范围内。

优选的，采用Kmeans聚类算法计算聚类中心，在计算时，需要根据业务场景，设置聚类中心的个数参数，例如，设置8个中心点。设置完参数后，可以根据空间分布中的所有数值向量计算出8个中心点坐标，即聚类中心。

再将聚类中心与词典进行匹配，也就是说将聚类中心的中心点坐标与词典进行匹配，得到语言模板。在匹配时，每个中心点与词典匹配一次，得到一个语言模板，如果有8个聚类中心，则能够匹配得到8个语言模板。

在将聚类中心与词典进行匹配时，首先，需要判断中心点坐标的数值是否小于预设阈值，若不小于，则为1，若小于，则为0，得到中心点数值向量；再根据中心点数值向量与词典进行匹配。

例如，中心点坐标为：[0.1,0.3,0.5,0.2,0.6,0.9]，按中心点坐标中的数值是否小于0.3计算中心点数值向量，计算后的中心点数值向量为:[0,1,1,0,1,1]。相应的词典为：[网页,输入法,编辑,汉字,文档,按钮]，匹配后的语言模板为：[输入法,编辑,文档,按钮]。

最后，可以将语言模板与文本信息进行匹配，获得文本信息的关键信息。在匹配时，将文本信息中与语言模板对应的词汇提取出来，再提取出文本信息中的数值，根据文本信息中的数值和语言模板对应词汇以及两者之间的位置关系，整合出关键信息。其中，位置关系是指数值和语言模板中词汇的前后位置关系。

例如，语言模板为：[建筑业,明显,活动，指数]，数值为：61.4％，通过该语言模板和数值以及位置关系，能够得到关键信息为：建筑业明显活动指数为61.4％。

通过这种方式，能够快速得到数值的具体含义，进而提取出文本信息的关键信息。

本发明可以写成代码在集群上运行，集群中每个节点可以处理1万个文本，所有节点加起来可以处理百万个文本，处理效率高。

以上，为本发明提供的一种非结构化文本的关键信息挖掘方法。

第二实施例：

在上述的第一实施例中，提供了一种非结构化文本的关键信息挖掘方法，结合上述第一实施例，本发明第二实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一实施例提供的一种非结构化文本的关键信息挖掘方法。

第三实施例：

结合第一实施例提供的一种非结构化文本的关键信息挖掘方法，本发明还提供一种非结构化文本的关键信息挖掘设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一实施例提供的一种非结构化文本的关键信息挖掘方法。图2示出了本发明实施例提供的一种非结构化文本的关键信息挖掘设备的硬件结构示意图。

具体地，上述处理器201可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器202可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器202可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器202可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器202可在数据处理装置的内部或外部。在特定实施例中，存储器202是非易失性固态存储器。在特定实施例中，存储器202包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器201通过读取并执行存储器202中存储的计算机程序指令，以实现上述实施例中的任意一种非结构化文本的关键信息挖掘方法。

在一个示例中，非结构化文本的关键信息挖掘设备还可包括通信接口203和总线210。其中，如图2所示，处理器201、存储器202、通信接口203通过总线210连接并完成相互间的通信。

通信接口203，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线210包括硬件、软件或两者，将非结构化文本的关键信息挖掘设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线210可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种非结构化文本的关键信息挖掘方法，其特征在于，包括：

获取非结构文本的文本信息；

采用分词算法，将所述文本信息解析为多个词向量；

根据所述词向量，提取所述文本信息的语言模板；

将所述关键信息输出给用户。

2.根据权利要求1所述的方法，其特征在于，所述根据所述词向量，提取所述文本信息的语言模板，包括：

采用tf-idf算法，计算所述词向量中各个词汇的权重；

根据各个词汇的所述权重，获得所述文本信息的权重向量；

3.根据权利要求2所述的方法，其特征在于，所述根据所述权重向量和所述词向量，获得所述文本信息的词典，包括：

从权重最大值开始，选取预设数量的权重，作为高权重；

利用所述重要词汇组成所述文本信息的词典。

4.根据权利要求3所述的方法，其特征在于，根据所述词典和所述词向量，生成所述文本信息的语言模板，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述数值向量和所述词典，生成所述文本信息的语言模板，包括：

采用聚类算法，计算所述数值向量的聚类中心；

6.根据权利要求5所述的方法，其特征在于，所述聚类算法采用Kmeans聚类算法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6之一所述的方法。

8.一种非结构化文本的关键信息挖掘设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-6之一所述的方法。