CN111046135A

CN111046135A - 非结构文本处理方法、装置、计算机设备、存储介质

Info

Publication number: CN111046135A
Application number: CN201911065653.7A
Authority: CN
Inventors: 王海波; 李志保
Original assignee: Cognitive Computing Nanjing Information Technology Co ltd
Current assignee: Cognitive Computing Nanjing Information Technology Co ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-04-21

Abstract

本发明提供了一种非结构文本数据处理方法，包括：对待处理的文本文件进行格式和编码转换，所述待处理的文本文件中包含非结构文本数据；对进行了格式和编码转换后的文件的文本内容进行预处理，所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义；通过知识抽取器对预处理后的文本内容进行相应的知识抽取；对知识抽取获得的知识进行结构化转换，并生成可图谱化展示的结构化的数据结构，所述数据结构以预定义的序列化格式表征，所述序列化格式包含包含结构化后的知识对应的文件编号。本发明实施例可以实现对非结构化文本中提取知识并图谱化展现，从而实现提取文件中的关键情报要素、快速处理非结构化文本文件。

Description

非结构文本处理方法、装置、计算机设备、存储介质

技术领域

本发明涉及人工智能技术领域，尤指一种非结构文本数据处理方法、装置、计算机设备、存储介质。

背景技术

结构化数据为可以组织成行列结构、可识别的数据，即指数据在一个记录文件里面以固定格式存在的数据。结构化数据通常包括数据内容和数据模型。结构化数据的典型例子即各类关系型数据库。

而非结构化数据是指数据信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织，一般指文字型数据，并且非结构化数据可能有很多诸如时间、数字等的信息。相对于传统的在数据库中或者标记好的结构化数据文件，由于非结构化数据的非特征性和歧义性，导致非结构化数据会更难被理解识别。

发明内容

本发明实施例的目的是提供一种非结构化文本数据处理方法、装置及计算机设备，用以解决现有技术中非结构化数据不能被组织和理解的问题，从而为用户提供更好的信息获取和识别的技术方案。

为解决上述问题，第一方面，本发明实施例提供了一种非结构文本数据处理方法，所述方法包括：

对待处理的文本文件进行格式和编码转换，所述待处理的文本文件中包含非结构文本数据；

对进行了格式和编码转换后的文件的文本内容进行预处理，所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义；

通过知识抽取器对预处理后的文本内容进行相应的知识抽取；

对知识抽取获得的知识进行结构化转换，并生成可图谱化展示的结构化的数据结构，所述数据结构以预定义的序列化格式表征，所述序列化格式包含包含结构化后的知识对应的文件编号。

优选地，所述方法还包括：

将结构化转换的知识进行结果存储，所述存储按照预定义的序列化格式，将结构化转换后的知识的数据结构按照所述文件编号逐一进行保存。

优选地，所述所述知识抽取包括摘要抽取、关键词抽取、分词后词频统计、实体抽取、实体关系抽取。

优选地，所述图谱化展示包括：

将序列化格式存储的结构化的数据结构，按照图结构数据展示实体及其关系、或按照词云表征分词词性及词频。

优选地，所述序列化格式包括：<文件编号、原文件字符数、摘要字符数、摘要内容>；或<文件编号、关键词、词序>；或<文件编号、分词、词性、词频>；或<文件编号、实体的名称、实体的类型、实体的序号>；或<文件编号、关系类型、关系的方向、关联的实体>。

第二方面，本发明实施例还提供了一种非结构化文本数据处理装置，所述装置包括：

格式转换模块，用于对待处理的文本文件进行格式和编码转换，所述待处理的文本文件中包含非结构文本数据；

预处理模块，用于对进行了格式和编码转换后的文件的文本内容进行预处理，所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义；

知识抽取模块，用于通过知识抽取器对预处理后的文本内容进行相应的知识抽取；

结构化转换模块，用于对知识抽取获得的知识进行结构化转换，并生成可图谱化展示的结构化的数据结构，所述数据结构以预定义的序列化格式表征，所述序列化格式包含包含结构化后的知识对应的文件编号。

优选地，所述装置还包括：

存储模块，用于将结构化转换的知识进行结果存储，所述存储按照预定义的序列化格式，将结构化转换后的知识的数据结构按照所述文件编号逐一进行保存。

优选地，所述装置还包括：

结构化展示模块，用于将序列化格式存储的结构化的数据结构，按照图结构数据展示实体及其关系、或按照词云表征分词词性及词频。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或更多个处理器；

一个或更多个存储器；

一个或更多个模块，其被存在存储器中且能够由所述一个或更多个处理器中的至少一个处理器以执行如第一方面所述非结构化文本数据处理方法的步骤。

第四方面，本方面实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有非结构化文本数据处理方法的应用程序，所述应用程序实现如第一方面所述的非结构化文本数据处理方法的步骤。

本发明实施例通过一种从非结构化文本中抽取知识并进行图谱化展示的数据处理方法和装置即计算机设备，解决了现有技术仅能较好的对结构化数据进行展示的问题，本发明实施例可以实现对非结构化文本中提取知识，并图谱化展现，从而实现提取文件中的关键情报要素、快速处理非结构化文本文件。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对异步***的实现方法、计算机设备和存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明实施例中一种非结构文本数据处理方法的流程图；

图2是本发明实施例中对各类文本数据经过统一的格式和编码转换图；

图3是本发明实施例中非结构化文本结构化数据图；

图4是本发明实施例中一种非结构化文本数据处理装置的结构框图；

图5是本发明实施例一种智能问答库建立方法的计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

如图1所示，本发明实施例提供了本发明实施例提供了一种非结构文本数据处理方法，所述方法包括：

S100.对待处理的文本文件进行格式和编码转换，所述待处理的文本文件中包含非结构文本数据；

S200.对进行了格式和编码转换后的文件的文本内容进行预处理，所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义；

S300.通过知识抽取器对预处理后的文本内容进行相应的知识抽取；

S400.对知识抽取获得的知识进行结构化转换，并生成可图谱化展示的结构化的数据结构，所述数据结构以预定义的序列化格式表征，所述序列化格式包含包含结构化后的知识对应的文件编号。

如图2所示，本发明实施例对各类文本数据经过统一的格式和编码转换后，进行自然语言处理，比如进行分词，分词过程结合分词器中的通用词典、行业专有词库，以及停用词等。对格式化和编码转换后的文本进行预处理，包括分词及词性标注、停用词去除；多义词消歧义等。然后由知识抽取器对预处理后的文本数据进行相应的知识抽取，比如摘要抽取、关键词抽取、分词后词频统计、实体抽取、关系抽取；继而对抽取的知识进行结构化转换，完成将知识抽取器的输出转换成可图谱化显示的知识结构，即结构化的数据结构。

优选地，所述方法还包括：

本发明实施例还将结构化的知识进行结果存储，按照预定义的知识序列化格式，将抽取与结构化转换后的数据结构按预定义的格式保存，以保证下次打开相关数据时，原本非结构化的文本数据可以再次结构化展示。

如图3所示，具体实施如下：

首先，本发明支持不同格式的文本文件，即可支持导入的文本文件的格式有：*.txt，*.doc，*.docx，*.pdf，*.html，针对不同格式的文件分别实现对其进行文件格式的识别与内容读取。

将从文件中读取的内容，进行编码转换，比如由GB2312、GBK、Unicode 等格式，编码统一转换为UTF8。

本发明实施例对上述文件进行识别和内容读取等处理后，生成如下数据序列：文件的文件名、文件存放路径、文件格式类型、文件的字符编码格式、字符数以及文件内的数据内容。

优选地，本发明实施例还支持多文件管理，即将需要导入的多个文件，加入文件管理器中，并将文件名、文件路径等信息加入文件列表：可以在所述文件管理器中删除文件，支持将已导入的文件从文件列表中删除；并支持修改文件内的数据内容；可以对打开的多个文件，进行多文件切换。

同时对文件生成一个唯一的内部编码ID用于标识每个被处理的文件。其中，本发明实施例对文件的文本内容进行展示，即则将文件内的数据内容，以 UTF8字符串的方式，使用QT的QTextEdit控件加载并展示。

对格式化和编码转换后的文本进行预处理，包括分词及词性标注、停用词去除；多义词消歧义等。然后由知识抽取器对预处理后的文本数据进行相应的知识抽取，比如摘要抽取、关键词抽取、分词后词频统计、实体抽取、关系抽取；

完成知识抽取后，将进行结构化转换，主要是将知识抽取生成的摘要、关键词、分词和词频、实体、实体关系，以结构化的数据结构格式存储，并转换为可供UI展示层，如QT的QtextEdit控件加载显示的格式。结构化转换如下：

对于摘要，其结构化过程如下：

非结构化文本的数据内容，经过摘要抽取器抽取后，输出的结构为：文件编号、原文件字符数、摘要字符数、摘要内容。

经过摘要的结构化转换后，则可由摘要展示控件对应到具体所选择的文件编号，展示对该文件所抽取的摘要内容，并加载到显示界面的展示控件中。

对于非结构化文本的关键词，其结构化过程如下：

对文件内的数据内容进行分词后，抽取出其中的关键词。其输出结构为：文件编号、关键词、词序。

经过对关键词的结构化转换，则可通过关键词展示，对应具体的文件编号中去抽取的关键词，并按照每个关键词的词序展现。

对于文本内容的分词词频，其结构化过程如下：

对文件内的数据内容进行分词后，其输出结构为：文件编号、分词、词性、词频(该词出现的次数)。其中词性包括：名词、动词、副词、形容词、动名词等。

经过对分词后的结构化转换，则可通过词云展示与统计图展示，对应到具体的文件编号中去抽取分词词频，按照分词词频，由词云展示生成相应的词云图或者柱状统计图。

对于非结构化文本的实体的结构化，其过程如下：

非结构化文本的数据内容，经过实体抽取器抽取后，实体类型可以定义主要为人员、物品、时间、位置、机构等，本发明实施例并不限于以上实体类型，仅以举例为主。将其结构化为：文件编号、实体的名称、实体的类型、实体的序号。

对于非结构化文本的实体关系的结构化，其过程如下：

非结构化文本的数据内容，经过实体关系抽取器抽取后，得到如下关系结构，由于关系的类型定义较多，主要有人与人的关系、人与物的关系、人/物的位置关系、人/物与机构的关系等。人与人的关系又划分同事、同伙、同行、同住、夫妻、父子等，人与物的关系可划分为拥有(所属)、使用等。关系的结构为：文件编号、关系类型、关系的方向，关联的实体。

例如：从“被告人火某某身为国家工作人员，在担任甘肃省政府办公厅副主任、省政府副***兼省信息化办公室主任、省政府办公厅主任、武威市委书记期间”这句话中，提取关系为实体：“火某某”，实体：“甘肃省

其中，各个被结构化的数据的展示方式如下：

实体及关系图：

从非结构化文本中抽取出实体、关系后，利用图数据结构，将实体映射成图中的节点、关系映射成节点与节点间的连接线。通过关系图，即可清晰的查看非结构化文本文件中涉及到的要素信息，例如在什么时间、有哪些人，他们是什么关系，人有哪些属性，在什么地点，涉及到什么事情。

实体类型：

实体的类型会与非结构化文本经过分词后，并进行实体抽取后定义的实体图标类型进行逐一对应，可形象的区分不同的实体。

分词词频：

以词云展示图为例：

词云展示图实现原理为：预先定义词云的底图，词云出现的词的颜色，词应展示的大小，词与词之间的间隙。

在词云展示中，接收到分词和词频结构后，可将词性与词云展示中的颜色对应，词的大小与词频对应。词云的整体形状即底图，可以按底图图片中定义的元素边框来设定。

该词云展示图的意义为直接查看到文件中最为重要、高频出现的内容，从而迅速得知文本的主体内容。

而柱状统计图中的柱状图，则是根据分词与词频结构中的词频来进行排序的，可以直观以柱子高低来展示其对应的词频。

非结构化文本数据中，常常含有很多信息，但这些信息既无固定的组织格式，也无特定的数据结构，呈现零散的信息方式，增加了非结构性文本的读取和理解难度，尤其对于后续信息处理增加不确定性，那对这些信息进行理解，读取和信息抽取，需要从非结构化文本类数据中通过自然语言处理、语义识别等技术，抽取其中的实体、关系，关键词、生成文本的摘要等内容。例如，在公安情报分析领域，案件的侦破需要分析各种案件文本，这些文本的信息量很大，且无固定的信息组织和展示方式。对于这类文本，需要能够提取出案件类型、案件的时间、地点、人物、物品，原因等信息。本发明实施例通过将案件文本文档中，提取出案件的摘要信息、案件的关键词、高频词、实体、关系等信息，并对其信息进行结构化的数据进行表征，以图谱化的展示方式将非结构化的文本信息进行结构化展示，从而可快速将案件的文本进行分类，识别其中的关键内容，提高情报人员的办案效率。

如图4所示，本发明实施例还提供了一种非结构化文本数据处理装置，所述装置包括：

格式转换模块101，用于对待处理的文本文件进行格式和编码转换，所述待处理的文本文件中包含非结构文本数据；

首先，本发明实施例汇总的格式转换模块101支持不同格式的文本文件，即可支持导入的文本文件的格式有：*.txt，*.doc，*.docx，*.pdf，*.html，针对不同格式的文件分别实现对其进行文件格式的识别与内容读取。

格式转换模块101将从文件中读取的内容，进行编码转换，比如由GB2312、 GBK、Unicode等格式，编码统一转换为UTF8。

经过格式转换和编码转换后，生成如下数据序列：文件的文件名、文件存放路径、文件格式类型、文件的字符编码格式、字符数以及文件内的数据内容。

优选地，本发明实施例的格式转换模块101还支持多文件管理，即将需要导入的多个文件，加入文件管理器中，并将文件名、文件路径等信息加入文件列表：可以在所述文件管理器中删除文件，支持将已导入的文件从文件列表中删除；并支持修改文件内的数据内容；可以对打开的多个文件，进行多文件切换。

预处理模块102，用于对进行了格式和编码转换后的文件的文本内容进行预处理，所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义；

知识抽取模块103，用于通过知识抽取器对预处理后的文本内容进行相应的知识抽取；

预处理模块102对格式化和编码转换后的文本进行预处理，包括分词及词性标注、停用词去除；多义词消歧义等。然后由知识抽取模块103中的知识抽取器对预处理后的文本数据进行相应的知识抽取，比如摘要抽取、关键词抽取、分词后词频统计、实体抽取、实体关系抽取等；

结构化转换模块104，用于对知识抽取获得的知识进行结构化转换，并生成可图谱化展示的结构化的数据结构，所述数据结构以预定义的序列化格式表征，所述序列化格式包含包含结构化后的知识对应的文件编号。

完成知识抽取后，将由结构化转换模块104进行结构化转换，主要是将知识抽取生成的摘要、关键词、分词和词频、实体、实体关系，以结构化的数据结构格式存储，并转换为可供UI展示层，如QT的QtextEdit控件加载显示的格式。结构化转换模块对各知识的结构化转换如下：

对于摘要，其结构化过程如下：

对于非结构化文本的关键词，其结构化过程如下：

对于文本内容的分词词频，其结构化过程如下：

对于非结构化文本的实体的结构化，其过程如下：

对于非结构化文本的实体关系的结构化，其过程如下：

例如：从“被告人火某某身为国家工作人员，在担任甘肃省政府办公厅副主任、省政府副***兼省信息化办公室主任、省政府办公厅主任、武威市委书记期间”这句话中，提取关系为实体：“火某某”，实体：“甘肃省政府办公厅副主任”，关系为“任职”，方向为：从实体“火某某”到实体 “甘肃省政府办公厅副主任”。

优选地，所述装置还包括：

存储模块105，用于将结构化转换的知识进行结果存储，所述存储按照预定义的序列化格式，将结构化转换后的知识的数据结构按照所述文件编号逐一进行保存。

结构化的知识，将其进行数据结构化后，按照如下的序列化格式包括：< 文件编号、原文件字符数、摘要字符数、摘要内容>；或<文件编号、关键词、词序>；或<文件编号、分词、词性、词频>；或<文件编号、实体的名称、实体的类型、实体的序号>；或<文件编号、关系类型、关系的方向、关联的实体> 方式进行存储，每个知识都有其文件编号，且文件编号唯一。

这时，当非结构化文本数据需要被再次读取时，按照文件编号来进行读取，无需再次对非结构文本数据的识别和理解，增加了非结构文本数据的可读性，增加了文本信息的理解便利性。

优选地，所述装置还包括：

结构化展示模块106，用于将序列化格式存储的结构化的数据结构，按照图结构数据展示实体及其关系、或按照词云表征分词词性及词频。

其中，各个被结构化的数据的展示方式如下：

实体及关系图：

实体类型：

分词词频：

以词云展示图为例：

从以上本发明一些实施例可以看出，通过对非结构化、零散性、无固定组织形式的文本数据信息进行自然语言处理，以及结构化转换之后，可以得到固定的数据结构化的数据表示，最终通过各种可视化展示方式展示出来，特别地，对非结构化文本信息进行结构化处理之后，还可以得到较好的存储，同时提供数据调用接口出来，便于下次数据调用时使用，一方面提高了信息理解的便利性，同时数据结构化的数据的可重用性大大提高，方便了后续应用的扩展；再一方面，也提高了信息展示的可读性和阅读便利性。

图5为本发明实施例提供的计算机设备的实体结构示意图，所述计算机设备架设于第三方设备中，例如移动终端、便携式计算机、IPAD等，如图5所示，该服务器可以包括：一个或多个处理器(processor)610、通信接口 (Communications Interface)620、一个或多个存储器(memory)630和通信总线 640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行如下方法：对待处理的文本文件进行格式和编码转换，所述待处理的文本文件中包含非结构文本数据；对进行了格式和编码转换后的文件的文本内容进行预处理，所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义；通过知识抽取器对预处理后的文本内容进行相应的知识抽取；对知识抽取获得的知识进行结构化转换，并生成可图谱化展示的结构化的数据结构，所述数据结构以预定义的序列化格式表征，所述序列化格式包含包含结构化后的知识对应的文件编号。

通信总线640是连接所描述的元素的电路并且在这些元素之间实现传输。例如，处理器610通过通信总线640从其它元素接收到命令，解密接收到的命令，根据解密的命令执行计算或数据处理。存储器630可以包括程序模块，例如内核(kernel)，中间件(middleware)，应用程序程序编程接口(Application Programming Interface，API)和应用程序。该程序模块可以是有软件、固件或硬件、或其中的至少两种组成。通信接口620将该计算机设备与其它网络设备、客户端、移动设备、网络进行连接。例如，通信接口620可以通过有线或无线连接到网络以连接到外部其它的网络设备或用户设备。无线通信可以包括以下至少一种：无线保真(WiFi)，蓝牙(BT)，近距离无线通信技术(NFC)，全球卫星定位***(GPS)和蜂窝通信等等。有线通信可以包括以下至少一种：通用串行总线(USB)，高清晰度多媒体接口(HDMI)，异步传输标准接口(RS-232)等等。网络可以是电信网络和通信网络。通信网络可以为计算机网络、因特网、物联网、电话网络。计算机设备可以通过通信接口620连接网络，计算机设备和其它网络设备通信所用的协议可以被应用程序、应用程序程序编程接口(API)、中间件、内核和通信接口620至少一个支持。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：对待处理的文本文件进行格式和编码转换，所述待处理的文本文件中包含非结构文本数据；对进行了格式和编码转换后的文件的文本内容进行预处理，所述预处理包括分词、词性标注、停用词去除、和/ 或多义词消歧义；通过知识抽取器对预处理后的文本内容进行相应的知识抽取；对知识抽取获得的知识进行结构化转换，并生成可图谱化展示的结构化的数据结构，所述数据结构以预定义的序列化格式表征，所述序列化格式包含包含结构化后的知识对应的文件编号。

本领域普通技术人员可以理解：此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制，上述实施例均可根据需要自由组合；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种非结构文本数据处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的非结构化文本数据处理方法，其特征在于，所述方法还包括：

3.如权利要求2所述的非结构化文本数据处理方法，其特征在于，所述所述知识抽取包括摘要抽取、关键词抽取、分词后词频统计、实体抽取、实体关系抽取。

4.如权利要求3所述非结构化文本处理方法，其特征在于，所述图谱化展示包括：

5.如权利要求4所述的非结构化文本数据处理方法，其特征在于，所述序列化格式包括：<文件编号、原文件字符数、摘要字符数、摘要内容>；或<文件编号、关键词、词序>；或<文件编号、分词、词性、词频>；或<文件编号、实体的名称、实体的类型、实体的序号>；或<文件编号、关系类型、关系的方向、关联的实体>。

6.一种非结构化文本数据处理装置，其特征在于，所述装置包括：

7.如权利要求6所述的非结构化文本数据处理装置，其特征在于，所述装置还包括：

8.如权利要求6所述的非结构化文本数据处理装置，其特征在于，所述装置还包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或更多个处理器；

一个或更多个存储器；

一个或更多个模块，其被存在存储器中且能够由所述一个或更多个处理器中的至少一个处理器以执行如权利要求1至5任一所述非结构化文本数据处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有非结构化文本数据处理方法的应用程序，所述应用程序实现如权利要求1-5任意一项所述的非结构化文本数据处理方法的步骤。