CN113779983B - 文本数据处理方法以及装置、存储介质、电子装置 - Google Patents
文本数据处理方法以及装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN113779983B CN113779983B CN202110415808.6A CN202110415808A CN113779983B CN 113779983 B CN113779983 B CN 113779983B CN 202110415808 A CN202110415808 A CN 202110415808A CN 113779983 B CN113779983 B CN 113779983B
- Authority
- CN
- China
- Prior art keywords
- text
- data
- same event
- extracting
- data corresponding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000003058 natural language processing Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims description 50
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000004069 differentiation Effects 0.000 claims description 4
- 230000010365 information processing Effects 0.000 abstract description 6
- 230000008520 organization Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本数据处理方法以及装置、存储介质、电子装置。该方法包括确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。本申请解决了在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的问题。本申请适用于多种文本处理场景。
Description
技术领域
本申请涉及文本处理领域,具体而言,涉及一种文本数据处理方法以及装置、存储介质、电子装置。
背景技术
通过对文本数据进行相关的处理,能够获得关于同一个事件的关联信息。
而为了规范某些特定行为,提高文本数据处理质量,需要快速地找出关于同一个事件出现的差异化的文本信息。
针对相关技术中在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本数据处理方法以及装置、存储介质、电子装置,以解决在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文本数据处理方法。
根据本申请的文本数据处理方法包括:确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
进一步地,所述通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据包括:对所述同一个事件关联的多个文本信息进行至少包括如下之一的操作:对所述文本数据的文本种类识别、所述文本数据的文本定性识别、对所述文本数据的关键要素提取、对所述文本数据的实体提取、对所述文本数据的关系抽取;对于所述同一个事件关联的多个文本信息中的所包含所述文本种类识别的结果、所述文本定性识别的结果、所述关键要素提取的结果、所述实体提取的结果、所述关系抽取的结果,进行结构化处理并存储。
进一步地,所述文本数据的文本定性识别包括:对每种文本数据进行不同事件的定性识别,并进行事件属性标记。
进一步地,所述关键要素提取包括:基于知识图谱,对所述同一个事件关联的多个文本信息进行预设要素自动提取;所述实体提取包括:对所述同一个事件关联的多个文本信息进行实体提取,其中,所述实体包括具有可描述意义的单词或短语;所述关系抽取包括:将所述实体提取的结果以及与所述实体相关的句子语料进行组合整理,提取实体之间的语义关系。
进一步地,还包括:对所述同一个事件关联的多个文本信息进行数据清洗处理,其中,输数据清洗处理至少包括如下之一:正则提取、中文分词、词性标注、识别纠错,对数据清洗处理结果进行词语和/或句子级别的分析,提取得到有效的文本数据。
进一步地,所述比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中包括:将任一一种所述文本数据对应的文本特征数据的属性值集合,分别与另一种所述文本数据对应的文本特征的属性值集合并集比对得出差值并存储;将比对结果进行差异化展示并标记在所述目标文本中。
进一步地,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据,还包括:确定同一个事件关联的多种文本数据;对获取的多种文本数据进行文本种类识别,通过正则匹配技术区分所述多种文本数据并做文本种类属性标记。
为了实现上述目的,根据本申请的另一方面,提供了一种文本数据处理装置。
根据本申请的文本数据处理装置包括:确定模块,用于确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;特征提取模块,用于通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;比较标记模块,用于比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
根据本申请的又一个方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个方面,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
在本申请实施例中文本数据处理方法以及装置、存储介质、电子装置,采用确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;达到了比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中的目的。从而实现了依靠相关领域的知识图谱,通过自然语言技术对多种文本数据中的文本特征数据进行提取并智能对比之后找出差异化内容,进而解决了在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的文本数据处理方法的***结构示意图;
图2是根据本申请实施例的文本数据处理方法流程示意图;
图3是根据本申请实施例的文本数据处理装置结构示意图;
图4是根据本申请实施例的文本数据处理方法流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,***包括:服务器200以及文本输数据100。从所述文本数据100中获取得到多个目标文本(目标文本1、目标文本2、目标文本3、),并且在所述多个目标文本中获取对于同一个事件不同阶段的多个文本信息。所述服务器200通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据(关键要素),并且比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。多个文本信息可以为同一个事件在不同阶段或者不同场景。
如图2所示,该方法包括如下的步骤S201至步骤S203:
步骤S201,确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
步骤S202,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
步骤S203,比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
从以上的描述中,可以看出,本申请实现了如下技术效果:
采用确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;达到了比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中的目的。从而实现了依靠相关领域的知识图谱,通过自然语言技术对多种文本数据中的文本特征数据进行提取并智能对比之后找出差异化内容,进而解决了在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的技术问题。
在上述步骤S201中确定了目标案文本之后,可获取得到所述同一个事件可关联的多种文本数据。
在上述步骤S202中通过自然语言处理中的多种处理方式,对于所述同一个事件关联的多种文本数据提取得到每种文本数据对应的文本特征数据。
在一种具体实施方式中,所述文本特征数据包括如下之一:事件地点、事件人员、事件情况等。此外,文本特征通常还可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容。
作为一种较佳实施方式,采用现有技术中的实体识别与机器学习进行所述文本特征数据自动提取。
在上述步骤S203中比较所述每种文本数据对应的文本特征数据之间存在的差异之后,将这些差异标记在所述目标文本中。
在一种具体实施方式中,所述每种文本数据对应的文本特征数据之间的差异包括差异化的事件。
作为一种较佳实施方式,所述每种文本数据对应的文本特征数据之间的差异包括对事件的定性指标。
作为本实施例中的优选实施方式,所述通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据包括:对所述同一个事件关联的多个文本信息进行至少包括如下之一的操作:对所述文本数据的文本种类识别、所述文本数据的文本定性识别、对所述文本数据的关键要素提取、对所述文本数据的实体提取、对所述文本数据的关系抽取;对于所述同一个事件关联的多个文本信息中的所包含所述文本种类识别的结果、所述文本定性识别的结果、所述关键要素提取的结果、所述实体提取的结果、所述关系抽取的结果,进行结构化处理并存储。
具体实施时,所述对所述文本数据的文本种类识别、所述文本数据的文本定性识别、对所述文本数据的关键要素提取、对所述文本数据的实体提取、对所述文本数据的关系抽取可以并行执行同时如果已经有处理结果的可以直接使用。之后,对于所述同一个事件关联的多个文本信息中的所包含所述文本种类识别的结果、所述文本定性识别的结果、所述关键要素提取的结果、所述实体提取的结果、所述关系抽取的结果,进行结构化处理并存储。即对同一个事件不同种类文本数据所包含以上提取的文本种类、文本定性、关键要素、实体、关系根据不同种类的文本进行结构化并存储。
作为本实施例中的优选实施方式,所述文本数据的文本定性识别包括:对每种文本数据进行不同事件的定性识别,并进行事件属性标记。
作为本实施例中的优选实施方式,所述关键要素提取包括:基于知识图谱,对所述同一个事件关联的多个文本信息进行预设要素自动提取;所述实体提取包括:对所述同一个事件关联的多个文本信息进行实体提取,其中,所述实体包括具有可描述意义的单词或短语;所述关系抽取包括:将所述实体提取的结果以及与所述实体相关的句子语料进行组合整理,提取实体之间的语义关系。
具体实施时,以各事件的特定场景或者指定场景构成的知识图谱为基础,对不同类型的文本数据中的目标关键要素等利用实体识别与机器学习进行自动提取。
在一种具体实施方式中,实体提取是从清洗后的数据中对实体进行提取,实体是指具有可描述意义的单词或短语,通常可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容。
作为一种较佳实施方式,实体提取主要指对文书中的人名、地名、公司名、行业、产品、案例等进行提取。
在一种具体实施方式中,关系抽取是将所有的实体,以及与其相关的句子语料进行组合整理,提取实体之间的语义关系。
作为本实施例中的优选实施方式,还包括:对所述同一个事件关联的多个文本信息进行数据清洗处理,其中,输数据清洗处理至少包括如下之一:正则提取、中文分词、词性标注、识别纠错;对数据清洗处理结果进行词语和/或句子级别的分析,提取得到有效的文本数据。
具体实施时,数据清洗是对多种文本数据进行清洗处理,包括但不限于正则提取、中文分词、词性标注、识别纠错等技术工具,进行词语和/或句子级别的分析,提取有用数据,提高数据的可用性。
作为本实施例中的优选实施方式,所述比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中包括:将任一一种所述文本数据对应的文本特征数据的属性值集合,分别与另一种所述文本数据对应的文本特征的属性值集合并集比对得出差值并存储;将比对结果进行差异化展示并标记在所述目标文本中。
具体实施时,所述数据结构化是对同一个事件不同种类文本所包含以上提取的文本种类、文本定性、关键要素、实体、关系根据不同种类的文本进行结构化并存储。
在一种具体实施方式中,对每种文本数据,针对以上提取的多个属性值集合,分别与另两种文本对应的属性值并集比对得出差值并存储。接着,将比对结果进行差异化比对结果标记展示在目标文本中。
作为本实施例中的优选实施方式,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据,还包括:确定同一个事件关联的多种文本数据;对获取的多种文本数据进行文本种类识别,通过正则匹配技术区分所述多种文本数据并做文本种类属性标记。
具体实施时,所述文本数据获取指获取到同一个事件的多种文本数据,对获取的多种文本数据进行文本种类识别,通过正则匹配技术区分所述多种文本数据并做文本种类属性标记。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述方法的文本数据处理装置,如图3所示,该装置包括:
确定模块301,用于确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
特征提取模块302,用于通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
比较标记模块303,用于比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
所述确定模块301中确定了目标案文本之后,可获取得到所述同一个事件可关联的多种文本数据。
所述特征提取模块302中通过自然语言处理中的多种处理方式,对于所述同一个事件关联的多种文本数据提取得到每种文本数据对应的文本特征数据。
在一种具体实施方式中,所述文本特征数据包括如下之一:事件地点、事件人员、事件情况等。此外,文本特征通常还可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容。
作为一种较佳实施方式,采用现有技术中的实体识别与机器学习进行所述文本特征数据自动提取。
所述比较标记模块303中比较所述每种文本数据对应的文本特征数据之间存在的差异之后,将这些差异标记在所述目标文本中。
在一种具体实施方式中,所述每种文本数据对应的文本特征数据之间的差异包括差异化的事件。
作为一种较佳实施方式,所述每种文本数据对应的文本特征数据之间的差异包括对事件的定性指标。
为了更好的理解上述文本数据处理方法流程,以下结合优选实施例对上述技术方案进行解释说明,但不用于限定本发明实施例的技术方案。
本申请优选实施例的文本数据处理方法,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据,并且比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。多个文本信息可以为同一个事件在不同阶段或者不同场景。进而解决了在进行自然语言处理时无法针对向某些专业领域进行差异化的文本信息处理的技术问题。
如图4所示,是本申请实施例中文本数据处理方法的流程示意图,具体包括如下步骤:
步骤S401,文本数据获取。
针对同一个事件,获取所述同一个事件关联的多个文本信息作为目标文本,比如第一文本信息、第二文本信息以及第三文本信息,所述第一文本信息、所述第二文本信息、所述第三文本信息相互之间为不同的文本信息,且属于不同的阶段的同一个事件所产生的。
步骤S402,文书种类识别。
对获取的文本数据进行识别,主要通过正则匹配的方式区分所述属于同一个事件关联的多个文本信息,并对文本信息进行属性标记。步骤S403,数据清洗。
对同一个事件的多种文本信息进行清洗处理,包括正则提取、中文分词、词性标注、识别纠错等技术工具,进行词语/句子级别的分析,提取有用数据,提高数据的可用性。
步骤S404,NLP处理。
文书定性识别,对每一种文本信息做事件的定性识别,并进行事件属性标记。
关键要素提取,以各事件的特定场景或者指定场景构成的知识图谱为基础,对多个文本信息中的目标关键要素等利用实体识别与机器学习进行自动提取。
需要注意的是,目标关键要素为本领域技术人员根据实际情况进行配置,在本申请中并不进行具体限定。
实体提取,从清洗后的文本数据中对实体进行提取,实体是指具有可描述意义的单词或短语,通常可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容。实体提取主要指对文书中的人名、地名、公司名、行业、产品、案例等进行提取。
关系抽取,将所有的实体,以及与其相关的句子语料进行组合整理,提取实体之间的语义关系。如实体A和实体B之间的关联关系、多个实体C之间的数据关系等。
步骤S405,数据结构化。
对同一个事件关联的不同种类文本信息所包含以上提取出的文本内容定性识别结果、关键要素提取结果、实体提取结果、关系抽取结果,根据不同种类文本信息进行结构化处理并存储。
步骤S406,数据对比。
对于每种文本内容,针对以上提取的多个属性值集合,分别与另外的文本信息对应的属性值并集对比得出差值并存储。
步骤S407,数据差异化标记。
将比对结果进行差异化展示并标记在目标文本中。
本申请的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
S2,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
S3,比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:
S1,对所述同一个事件关联的多个文本信息进行至少包括如下之一的操作:对所述文本数据的文本种类识别、所述文本数据的文本定性识别、对所述文本数据的关键要素提取、对所述文本数据的实体提取、对所述文本数据的关系抽取;
S2,对于所述同一个事件关联的多个文本信息中的所包含所述文本种类识别的结果、所述文本定性识别的结果、所述关键要素提取的结果、所述实体提取的结果、所述关系抽取的结果,进行结构化处理并存储。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
S2,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
S3,比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本数据处理方法,其特征在于,包括:
确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
2.根据权利要求1所述的方法,其特征在于,所述通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据包括:
对所述同一个事件关联的多个文本信息进行至少包括如下之一的操作:对所述文本数据的文本种类识别、所述文本数据的文本定性识别、对所述文本数据的关键要素提取、对所述文本数据的实体提取、对所述文本数据的关系抽取;
对于所述同一个事件关联的多个文本信息通过进行所述操作得到的处理结果,进行结构化处理之后再存储。
3.根据权利要求2所述的方法,其特征在于,所述文本数据的文本定性识别包括:
对每种文本数据进行不同事件的定性识别,并进行事件属性标记。
4.根据权利要求3所述的方法,其特征在于:
所述关键要素提取包括:基于知识图谱,对所述同一个事件关联的多个文本信息进行预设要素自动提取;
所述实体提取包括:对所述同一个事件关联的多个文本信息进行实体提取,其中,所述实体包括具有可描述意义的单词或短语;
所述关系抽取包括:将所述实体提取的结果以及与所述实体相关的句子语料进行组合整理,提取实体之间的语义关系。
5.根据权利要求1所述的方法,其特征在于,所述通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据之前,还包括:
对所述同一个事件关联的多个文本信息进行数据清洗处理,其中,所述数据清洗处理至少包括如下之一:正则提取、中文分词、词性标注、识别纠错;
对数据清洗处理结果进行词语和/或句子级别的分析,提取得到有效的文本数据。
6.根据权利要求1所述的方法,其特征在于,所述比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中包括:
将任意一种所述文本数据对应的文本特征数据的属性值集合,分别与另一种所述文本数据对应的文本特征数据的属性值集合,进行并集并比对得出差值并存储;
将比对结果进行差异化展示并标记在所述目标文本中。
7.根据权利要求1所述的方法,其特征在于,通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据,还包括:
确定同一个事件关联的多种文本数据;
对获取的多种文本数据进行文本种类识别,通过正则匹配技术区分所述多种文本数据并做文本种类属性标记。
8.一种文本数据处理装置,其特征在于,包括:
确定模块,用于确定目标文本,其中,所述目标文本至少包括:同一个事件关联的多个文本信息;
特征提取模块,用于通过自然语言处理,对所述同一个事件关联的多个文本信息提取得到每种文本信息对应的文本特征数据;
比较标记模块,用于比较所述每种文本信息对应的文本特征数据之间的差异并标记在所述目标文本中。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110415808.6A CN113779983B (zh) | 2021-04-16 | 2021-04-16 | 文本数据处理方法以及装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110415808.6A CN113779983B (zh) | 2021-04-16 | 2021-04-16 | 文本数据处理方法以及装置、存储介质、电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779983A CN113779983A (zh) | 2021-12-10 |
CN113779983B true CN113779983B (zh) | 2022-10-04 |
Family
ID=78835665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110415808.6A Active CN113779983B (zh) | 2021-04-16 | 2021-04-16 | 文本数据处理方法以及装置、存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779983B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254616A (zh) * | 2021-12-16 | 2022-03-29 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本比对方法、电子设备、存储介质及程序产品 |
CN116028648B (zh) * | 2023-02-15 | 2023-06-09 | 熙牛医疗科技(浙江)有限公司 | 一种细粒度各场景通用的医疗文本结构化信息抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021351A (zh) * | 2016-05-10 | 2016-10-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
CN111966890A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 基于文本的事件推送方法、装置、电子设备和存储介质 |
CN112528660A (zh) * | 2020-12-04 | 2021-03-19 | 北京百度网讯科技有限公司 | 处理文本的方法、装置、设备、存储介质和程序产品 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2619193C1 (ru) * | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
CN109800431B (zh) * | 2019-01-23 | 2020-07-28 | 中国科学院自动化研究所 | 事件信息关键词提取、监控方法及***及存储和处理装置 |
CN110134688B (zh) * | 2019-05-14 | 2021-06-01 | 北京科技大学 | 一种在线社交网络中热点事件数据存储管理方法及*** |
CN112597772A (zh) * | 2020-12-31 | 2021-04-02 | 讯飞智元信息科技有限公司 | 一种热点信息确定方法、计算机设备以及装置 |
-
2021
- 2021-04-16 CN CN202110415808.6A patent/CN113779983B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021351A (zh) * | 2016-05-10 | 2016-10-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
CN111966890A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 基于文本的事件推送方法、装置、电子设备和存储介质 |
CN112528660A (zh) * | 2020-12-04 | 2021-03-19 | 北京百度网讯科技有限公司 | 处理文本的方法、装置、设备、存储介质和程序产品 |
Non-Patent Citations (1)
Title |
---|
基于本体的受限领域文本信息提取方法;孙剑等;《装甲兵工程学院学报》;20121215(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113779983A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9058308B2 (en) | System and method for identifying text in legal documents for preparation of headnotes | |
CN106649778B (zh) | 基于深度问答的交互方法和装置 | |
CN104503998B (zh) | 针对用户查询句的类型识别方法及装置 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及*** | |
US20060089924A1 (en) | Document categorisation system | |
CN108549723B (zh) | 一种文本概念分类方法、装置及服务器 | |
CN108305180B (zh) | 一种好友推荐方法及装置 | |
CN113779983B (zh) | 文本数据处理方法以及装置、存储介质、电子装置 | |
CN108363691B (zh) | 一种用于电力95598工单的领域术语识别***及方法 | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
CN110413998B (zh) | 一种面向电力行业的自适应中文分词方法及其***、介质 | |
CN110659352A (zh) | 试题考点识别方法及其*** | |
CN112699645A (zh) | 语料标注方法、装置及设备 | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
EP2544100A2 (en) | Method and system for making document modules | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
CN117420998A (zh) | 一种客户端ui交互组件生成方法、装置、终端及介质 | |
CN117009461A (zh) | 基于自然语言处理的短视频内容标签知识库快速检索方法 | |
CN111460119A (zh) | 经济知识智能问答方法、***及智能设备 | |
CN114462383B (zh) | 建筑图纸设计说明书获取方法、***、存储介质及设备 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
CN114880471A (zh) | 一种基于文本分类算法的电子病历质量评估方法及*** | |
CN111143559A (zh) | 基于三元组的词云展示方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240725 Granted publication date: 20221004 |