CN114239590A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN114239590A CN114239590A CN202111456715.4A CN202111456715A CN114239590A CN 114239590 A CN114239590 A CN 114239590A CN 202111456715 A CN202111456715 A CN 202111456715A CN 114239590 A CN114239590 A CN 114239590A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- text data
- characters
- sensitive word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000008451 emotion Effects 0.000 claims abstract description 41
- 238000013507 mapping Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 14
- 230000007935 neutral effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 238000013145 classification model Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种数据处理方法及装置,涉及数据增强技术领域,在增强数据样本规模的同时也确保了质量,继而避免了对原数据集造成污染。本发明的主要技术方案为:获取第一文本数据,其中,所述第一文本数据中包括敏感词;对所述第一文本数据的非敏感词数据***字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。本发明主要应用于对数量少的包含敏感词文本数据实现数据增强处理。
Description
技术领域
本发明涉及数据增强技术领域,尤其涉及一种数据处理方法及装置。
背景技术
鉴于一些场景的情况,数据样本偏少或者极少,对于机器学习方法等一些非预训练语言模型,仅靠这些微薄的数据量是不能训练好一个语义模型的,那么可以考虑采用数据增强的方法扩充数据样本规模,以期望得到数据样本规模越大、质量越高越好,使得训练的模型能够有更好的泛化能力。
目前,在自然语言处理(Natural Language Processing,NLP)中文本的数据增强方法大致分为两种:一种是,对文本表示注入噪声来扩充数据量;另一种是,在文本表示前,通过同义词替换、随机***、随机删除等方式改造原始文本以达到扩充数据量的目的。
但是,对于现有的这些数据增强方法,增强后数据样本语义是否被改变了,这是难以把握控制的,虽然增强后数据量会增大,但如果语义也被改变了,增强的数据样本质量是不高的,那么会对模型训练造成不可控的影响。
发明内容
有鉴于此,本发明提供一种数据处理方法及装置,主要目的在于利用增强处理得到更大规模的数据样本的同时,也最大限度地避免了增强数据的语义被改变,从而确保增强处理的质量,避免了对原数据集造成污染,这都是有助于对后续模型训练的带来良性影响的。
为了达到上述目的,本发明主要提供如下技术方案:
本申请第一方面提供了一种数据处理方法,该方法包括:
获取第一文本数据,其中,所述第一文本数据中包括敏感词;
对所述第一文本数据的非敏感词数据***字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;
若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。
本申请第二方面提供了一种数据处理装置,该装置包括:
获取单元,用于获取第一文本数据,其中,所述第一文本数据中包括敏感词;
处理单元,用于对所述第一文本数据的非敏感词数据***字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;
确定单元,用于若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。
本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法。
本申请第四方面提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的数据处理方法。
借由上述技术方案,本发明提供的技术方案至少具有下列优点:
本发明提供了一种数据处理方法及装置,本发明对于包括有敏感词的第一文本数据,以向第一文本数据的非敏感词数据***字符或者进行同义词替换的方式,实现增强处理得到第二文本数据,以及再进一步的如果判断第二文本数据和第一文本数据的情感极性相同,那么就将第二文本数据确定为第一文本数据的增强数据。相较于现有技术,本发明考虑到保留敏感词和文本数据情感极性不变的这两个方面执行数据增强处理,从而最大限度地避免了增强后文本数据语义被改变,解决了现有技术因增强后数据样本语义难以把握控制导致增强的数据样本质量难以保证的问题,本发明在增强数据样本规模的同时也确保了质量,继而避免了对原数据集造成污染,这都是有助于对后续模型训练的实现良性影响的。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种数据处理方法流程图;
图2为本发明实施例提供的另一种数据处理方法流程图;
图3为本发明实施例例举的数据增强处理的简易流程图;
图4为本发明实施例提供的一种数据处理装置的组成框图;
图5为本发明实施例提供的另一种数据处理装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种数据处理方法,如图1所示,该方法是利用增强处理得到更大规模的数据样本的同时,也最大限度地避免了增强数据的语义被改变,对此本发明实施例提供以下具体步骤:
101、获取第一文本数据,其中,第一文本数据中包括敏感词。
在本发明实施例中,第一文本数据是指待执行增强处理的文本数据,文本数据可以包含一个或多个文本,每个文本至少包含一个句子。本发明实施例中的对数据进行增强处理也可以理解为对数据进行增广处理,即对数据进行扩展。但优选方式为,本发明实施例执行数据增强的处理对象为包含字符较少的文本数据,类似这样的文本数据表达一个主题或围绕一个中心语义,即不是携带多样或复杂语义的文本数据,以便后续利用语义未改变这个因素实现对经数据增强处理后的文本数据进行筛选。
其中,敏感词是根据实际业务场景需求而预先定义的关键词,例如,对于一个客服应用场景,类似第一文本数据为:“先生,您已经逾期两个月了,请您尽快处理,否则这边会将您的资料发往户籍地”,词语“户籍地”为预先设定的敏感词。
需要说明的是,词语“第一”“第二”仅是用于区别指代不同的文本数据,即未经增强处理的文本数据,标识为第一文本数据,而经增强处理的文本数据,则标识为第二文本数据。
示例性的,例举第一文本数据,如果正负样本比例悬殊,即正样本数量远远大于负样本数量,会影响模型训练指标的,那么是需要对这样数据样本执行增强处理的,即:对于负样本,是有增强处理需求的。
例如,在客服应用场景中,文本数据“您好,请问您的户籍地是*****吗”,这样文本数据是正样本,不带有负向感情色彩,通常这样的文本数据是较多的,但是如文本数据“先生,您已经逾期两个月了,请您尽快处理,否则这边会将您的资料发往户籍地”,类似这样带有负向感情色彩的文本数据,作为负样本,在文本数据收集过程中,这样的数据样本是比较少的,需要进行数据增强以扩大数据规模。
102、对第一文本数据的非敏感词数据***字符或者对第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据。
在本发明实施例中,可以采用两种数据增强处理方式:一种方式是,对第一文本数据的非敏感词数据***字符实现的数据增强处理;另一种方式是,对第一文本数据的非敏感词数据进行同义词替换实现的数据增强处理。以上经数据增强处理得到的文本数据,标识为第二文本数据。
就以上两种数据增强处理方式而言,无论是***字符操作还是同义词替换操作,第一文本数据内的相邻文字字符的排序也是没有改变的,以及第一文本数据内的非敏感词数据是被保留的。
那么,在本发明实施例中,对于第一文本数据的数据增强处理,实际上是满足了两个约束规则的,即:一个约束规则为,按照第一文本数据内文字字符排序不变的约束规则;另一个约束规则为,保留敏感词不变的约束规则。
示例性的,对于文本数据“先生,您已经逾期两个月了,请您尽快处理,否则这边会将您的资料发往户籍地”,其中预先定义了敏感词为“户籍地”,那么无论怎样执行数据增强,都需要确保原文本数据内相邻两个文字字符的排序先后不能改变的,以及词语“户籍地”是需要被保留不可以被拆开的。
以上,尤其需要说明的是,保留敏感词不被拆开的目的是:尽最大限度地使得经增强处理后文本数据能够仍然保持围绕敏感词为语义核心的,避免被改变语义的。
103、若第二文本数据对应的情感极性和第一文本数据对应的情感极性相同,则将第二文本数据确定为第一文本数据的增强数据。
在本发明实施例中,步骤102给出的两个约束规则组成了一个方面的约束条件,除此之外,还需要另一个方面的约束条件,即:步骤103,需要第二文本数据和第一文本数据的情感极性相同。以上当符合两个方面的约束条件,才会将第二文本数据确定为第一文本数据的增强数据。
需要说明的是,两个方面的约束条件之间是组合递进关系,采用该组合递进约束条件执行的操作,能够替代利用自然语言处理的复杂语义分析去判断第一文本数据和第二文本数据是否语义相同的方法,而同样能够间接地衡量出与第一文本数据相比,第二文本数据的语义是否改变了。那么由于避免介入复杂语义分析操作,从而提高了获取语义未改变的第二文本数据的效率。
以上,本发明实施例提供了一种数据处理方法,本发明实施例对于包括有敏感词的第一文本数据,以向第一文本数据的非敏感词数据***字符或者进行同义词替换的方式,实现增强处理得到第二文本数据,以及再进一步的如果判断第二文本数据和第一文本数据的情感极性相同,那么就将第二文本数据确定为第一文本数据的增强数据。相较于现有技术,本发明实施例考虑到保留敏感词和文本数据情感极性不变的这两个方面执行数据增强处理,从而最大限度地避免了增强后文本数据语义被改变,解决了现有技术因增强后数据样本语义难以把握控制导致增强的数据样本质量难以保证的问题,本发明实施例在增强数据样本规模的同时也确保了质量,继而避免了对原数据集造成污染,这都是有助于对后续模型训练的实现良性影响的。
为了对上述实施例做出更加详细的说明,本发明实施例还提供了另一种数据处理方法,如图2所示,该方法是对上述实施例的细化陈述和补充陈述,对此本发明实施例提供以下具体步骤:
201、获取第一文本数据,其中,第一文本数据中包括敏感词。
在本发明实施例中,对本步骤解释说明,参见步骤101,此处不再赘述。
202、获取第一文本数据中所有文本的文字字符数量。
203a、若文字字符数量大于预设阈值,则将第一文本数据的文本长度确定为长文本。
203b、若文字字符数量不大于预设阈值,则将第一文本数据的文本长度确定为短文本。
在本发明实施例中,是根据第一文本数据的长短,而采用不同两类数据增强方法的,那么首先,如何衡量第一文本数据为长文本或短文本,可以根据文字字符数量和预设阈值比较而得到,具体的,包括:如果第一文本数据中所有文本的文字字符数量大于预设阈值,则确定为长文本,否则确定为短文本,该预设阈值是根据不同业务场景实际需求而预先设定的。
204a、若第一文本数据的文本长度为长文本,则对第一文本数据的非敏感词数据***字符,得到第二文本数据。
在本发明实施例中,如果第一文本数据的文本长度为长文本,则采用数据增强方法为:对第一文本数据的非敏感词数据***字符,敏感词之间不会被***字符。
示例方法1,对第一文本数据的非敏感词数据***字符的具体实施方法,可以包括:获取第一文本数据中文本的平均长度;根据预设的第一映射关系,确定文本的平均长度对应的第一字符的数量;根据第一字符的数量,对第一文本数据的非敏感词数据***字符得到第二文本数据。
其中,预设的第一映射关系是指预先设定的文本平均长度和所需***字符数量之间的映射关系,具体的,可以根据不同实际应用场景需求而预先设定。对于本发明实施例,根据***到文本内的字符,可以将原文本拆分成多个部分,所使用的字符,优选为标点符号的逗号或句号。
那么,不管第一文本数据中包含了几个文本,可以通过统计每个文本内文字字符数量,继而计算出这些文本包含的平均文字字符数量,即文本平均长度。那么再通过查询第一预设映射关系,就能够得到对具有这样平均长度的文本进行处理而所需***的字符数量(即标识为第一字符数量)。因此,具体的,根据第一字符数量,向第一文本数据内每个文本的非敏感数据内***第一字符,即确保敏感词内不会被***字符,保留了敏感词不会被拆开。
示例方法2,对第一文本数据的非敏感词数据***字符的具体实施方法,可以包括:获取第一文本数据中文本长度的中位数;根据预设的第二映射关系,确定文本长度的中位数对应的第二字符的数量;根据第二字符的数量,对第一文本数据的非敏感词数据***字符,得到第二文本数据。
其中,预设的第二映射关系是指预先设定的文本长度的中位数和所需***字符数量之间的映射关系,具体的,可以根据不同实际应用场景需求而预先设定。对于本发明实施例,根据***到文本内的字符,可以将原文本拆分成多个部分,所使用的字符,优选为标点符号的逗号或句号。
那么,不管第一文本数据中包含了几个文本,可以统计每个文本内文字字符数量,进一步确定了每个文本的文本长度和文本长度中位数。那么再通过查询第二预设映射关系,就能够得到对具有这样中位数的文本长度的文本进行处理而所需***的字符数量(即标识为第二字符数量)。因此,具体的,根据第二字符数量,向第一文本数据内每个文本的非敏感数据内***第二字符,即确保敏感词内不会被***字符,保留了敏感词不会被拆开。
需要说明的是,以上示例方法1和示例方法2,对于向文本内***字符的方式,可以是文本内非敏感词数据的随机位置***第一字符或第二字符,或者是,间隔固定个数的文字字符***第一字符或第二字符。例如,随机将逗号或句号***到第一文本数据内,但不***到敏感词中。
以及对于向文本中***字符操作,实际上所依据的约束规则仍然是:约束规则一,按照第一文本数据内文字字符排序不变的约束规则;约束规则二,保留敏感词不变的约束规则。
204b、若第一文本数据的文本长度为短文本,则对第一文本数据中的非敏感词数据进行同义词替换,得到第二文本数据。
在本发明实施例中,如果第一文本数据的文本长度为短文本,则采用数据增强方法为:对第一文本数据内包含的词语进行同义词替换,但替换对象不为敏感词。
示例方法3,对第一文本数据中的非敏感词数据进行同义词替换的具体实施方法,可以包括:获取第一文本数据中各文本的长度;根据预设的第三映射关系,确定与文本对应的同义词替换比例;根据同义词替换比例,对第一文本数据中的非敏感词数据进行同义词替换,得到第二文本数据。
其中,预设的第三映射关系是指预先设定的文本长度和同义词替换比例之间的映射关系,该同义词替换比例是指一个文本内需要被执行同义词替换的词语百分比(即需要执行同义词替换个数与文本内词语数量之间的百分比),具体的,可以根据不同实际应用场景需求而预先设定。
那么,不管第一文本数据中包含了几个文本,可以统计每个文本内文字字符数量,得到每个文本的文本长度,然后通过查询预设第三映射关系,得到每个文本对应的同义词替换比例。具体的,同义词替换方式,可以是随机替换文本内某个词语,或者是按照文字字符排序的首位至末位,遍历词语并执行同义词替换操作。
需要说明的是,以上示例方法3,该同义词替换处理实际上所依据的约束规则仍然是:约束规则一,按照第一文本数据内文字字符排序不变的约束规则;约束规则二,保留敏感词不变的约束规则。
例如,对于本发明实施例,所指同义词替换,是指将文本内词语替换为其他同义词,相应的同义词文字字符在文本内的占位仍然是原被替换的词语的位置,需要说明的是,敏感词不会被执行同义词替换处理。进一步的,如果替换的同义词包含文字字符和被替换词语包含的文字字符不相等,那么需要确保替换的同义词***到文本的位置为原被替换的词语位置即可。但需要注意,被替换词语不为敏感词。
205、若第二文本数据对应的情感极性和第一文本数据对应的情感极性相同,则将第二文本数据确定为第一文本数据的增强数据。
其中,情感极性包括:正向极性、中性极性或负向极性。
在本发明实施例中,可以预先训练一个预设文本情感分类模型,从而方便于对文本数据的情感极性进行判断。
例如,将第一文本数据输入预设文本情感分类模型,输出第一文本数据对应的情感极性;以及将第二文本数据输入预设文本情感分类模型,输出第二文本数据对应的情感极性。那么,如果判断第二文本数据和第一文本数据的情感极性相同,则保存第二文本数据并作为增强数据。
需要说明的是,对于第一文本数据和第二文本数据,在未输入到预设文本情感分类模型之前,比较可知,两者内存在的相同文字字符的排序是相同的,且两者内都存在相同的敏感词,据此相当于从保留文本数据内文本字符排序不变和保留敏感词的这个方面,去尽最大可能地确保第二文本数据的语义是未改变,如此输入到模型中进行判断的文本数据质量还是比较高的,以避免利用模型处理大量无价值的冗余数据,从而也是为了提高获取与第一文本数据情感极性未改变的第二文本数据的效率。
但是,如果判断第二文本数据和第一文本数据的情感极性不相同,则能够间接地判断出第二文本数据语义相较于第一文本数据是改变了的,为了确保数据增强的质量,这样的第二文本数据应该被舍弃。进一步的,就可以重新再执行本发明实施例步骤204a、204b和205,以重新对第一文本数据执行数据增强处理,据此利用重复处理,可以实现多轮数据增强处理任务。
进一步的,第二文本数据(即文本情感为负向和正向的增强样本)经人工审核后进行标注,可以加入到文本情感标注数据集中,进行预设文本情感分类模型的迭代优化。采用第二文本数据对预设文本情感分类模型进行迭代优化,一方面可以提升文本情感分类模型的识别准确率,进而提升増广数据的质量;另一方面,通过提高识别准确率,从而可以减少数据増广的循环轮数。
以及,进一步的,还可以设定数据增强处理任务轮数或者所需达到目标数据增强结果的数量,那么当任务轮数达到上限或者目标数据增强结果的数量达到上限,就停止重复执行数据增强处理操作,作为任务终止,以避免冗余操作或者处理资源浪费。
示例性的,本发明实施例还提供如图3所示的数据增强处理的简易流程图。如图3所示,对于一个第一文本数据,根据“场景句子长度分布”预先设定不同场景下衡量文本数据为长文本或短文本的标准。对于长文本,采用对第一文本数据的***字符方式实现数据增强处理的,以及进一步要求满足处理条件一(即***字符但保证文字字符排序不变和不向敏感词内***字符);对于短文本,采用同义词替换方式实现数据增强处理的,以及进一步要求满足处理条件二(即替换同义词对应放置为被替换原词语位置且保证敏感词不被替换);对于第一文本数据和第二本文数据需要预设文本情感分类模型辅助判断:第二文本数据情感极性是否改变,若未改变,则保留作为增强数据,否则,重新执行对第一文本数据的数据增强处理。
综上所述,本发明实施例提供了一种数据处理方法及装置,本发明实施例对于包括有敏感词的第一文本数据,首先是判断该第一文本数据是长文本还是短文本,如果是长文本,则以向第一文本数据的非敏感词数据***字符方式实现数据增强处理,以及如果是短文本,则以向第一文本数据的非敏感词数据进行同义词替换的方式实现数据增强处理,从而基于长文本和短文本实现了更加有针对性的数据增强处理,然后再进一步的如果判断第二文本数据和第一文本数据的情感极性相同,那么就将第二文本数据确定为第一文本数据的增强数据。相较于现有技术,本发明实施例利用两种方式的有针对性地数据增强处理和确保数据增强后第二文本数据情感极性不变的这两个方面,在实现扩大数据样本规模的同时,利用有针对性的增强处理和确保情感极性不变,也提高了数据增强处理的准确性,更加提高了数据增强处理的质量,解决了现有技术因增强后数据样本语义难以把握控制导致增强的数据样本质量难以保证的问题,本发明实施例给出更加优化地获取高质量增强数据的实施方法,避免了对原数据集造成污染,这都是有助于对后续模型训练的实现良性影响的。
进一步的,作为对上述图1、图2所示方法的实现,本发明实施例提供了一种数据处理装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于对数量少的包含敏感词文本数据实现数据增强处理,具体如图4所示,该装置包括:
获取单元31,用于获取第一文本数据,其中,所述第一文本数据中包括敏感词;
处理单元32,用于对所述第一文本数据的非敏感词数据***字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;
确定单元33,用于若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。
进一步的,如图5所示,所述处理单元32包括:
第一处理模块321,用于若所述第一文本数据的文本长度为长文本,则对所述第一文本数据的非敏感词数据***字符,得到所述第二文本数据;
第二处理模块322,用于若所述第一文本数据的文本长度为短文本,则对所述第一文本数据中的非敏感词数据进行同义词替换,得到所述第二文本数据。
进一步的,如图5所示,所述第一处理模块321包括;
获取子模块3211,用于获取所述第一文本数据中文本的平均长度;
确定子模块3212,用于根据预设的第一映射关系,确定所述文本的平均长度对应的第一字符的数量;
***子模块3213,用于根据所述第一字符的数量,对所述第一文本数据的非敏感词数据***字符得到所述第二文本数据。
进一步的,如图5所示,所述第一处理模块321包括:
所述获取子模块3211,还用于获取所述第一文本数据中文本长度的中位数;
所述确定子模块3212,还用于根据预设的第二映射关系,确定所述文本长度的中位数对应的第二字符的数量;
所述***子模块3213,还用于根据所述第二字符的数量,对所述第一文本数据的非敏感词数据***字符,得到所述第二文本数据。
进一步的,如图5所示,所述第二处理模块322包括:
获取子模块3221,用于获取所述第一文本数据中各非敏感词数据的长度;
确定子模块3222,用于根据预设的第三映射关系,确定与所述各非敏感词数据对应的同义词替换比例;
替换子模块3223,用于根据所述同义词替换比例,对所述第一文本数据中的非敏感词数据进行同义词替换,得到所述第二文本数据。
进一步的,如图5所示,所述装置还包括:
所述获取单元31,还用于获取所述第一文本数据中所有文本的文字字符数量;
所述确定单元33,还用于若所述文字字符数量大于预设阈值,则将所述第一文本数据的文本长度确定为长文本;
所述确定单元33,还用于若所述文字字符数量不大于所述预设阈值,则将所述第一文本数据的文本长度确定为短文本。
本实施例中,所述情感极性包括:正向极性、中性极性或负向极性。
所述数据处理装置包括处理器和存储器,上述获取单元、处理单元和确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来利用增强处理得到更大规模的数据样本的同时,也最大限度地避免了增强数据的语义被改变,从而确保增强处理的质量,避免了对原数据集造成污染,这都是有助于对后续模型训练的带来良性影响的。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法。
本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的数据处理方法。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同***、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一文本数据,其中,所述第一文本数据中包括敏感词;
对所述第一文本数据的非敏感词数据***字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;
若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一文本数据的非敏感词数据***字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据,包括:
若所述第一文本数据的文本长度为长文本,则对所述第一文本数据的非敏感词数据***字符,得到所述第二文本数据;
或者,若所述第一文本数据的文本长度为短文本,则对所述第一文本数据中的非敏感词数据进行同义词替换,得到所述第二文本数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一文本数据的非敏感词数据***字符,得到所述第二文本数据,包括;
获取所述第一文本数据中文本的平均长度;
根据预设的第一映射关系,确定所述文本的平均长度对应的第一字符的数量;
根据所述第一字符的数量,对所述第一文本数据的非敏感词数据***字符得到所述第二文本数据。
4.根据权利要求2所述的方法,其特征在于,所述对所述第一文本数据的非敏感词数据***字符,得到所述第二文本数据,包括:
获取所述第一文本数据中文本长度的中位数;
根据预设的第二映射关系,确定所述文本长度的中位数对应的第二字符的数量;
根据所述第二字符的数量,对所述第一文本数据的非敏感词数据***字符,得到所述第二文本数据。
5.根据权利要求2所述的方法,其特征在于,所述对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据,包括:
获取所述第一文本数据中各文本的长度;
根据预设的第三映射关系,确定与所述文本对应的同义词替换比例;
根据所述同义词替换比例,对所述第一文本数据中的非敏感词数据进行同义词替换,得到所述第二文本数据。
6.根据权利要求2-5中任一项所述的方法,其特征在于,所述方法还包括:
获取所述第一文本数据中所有文本的文字字符数量;
若所述文字字符数量大于预设阈值,则将所述第一文本数据的文本长度确定为长文本;
若所述文字字符数量不大于所述预设阈值,则将所述第一文本数据的文本长度确定为短文本。
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述情感极性包括:正向极性、中性极性或负向极性。
8.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取第一文本数据,其中,所述第一文本数据中包括敏感词;
处理单元,用于对所述第一文本数据的非敏感词数据***字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;
确定单元,用于若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的数据处理方法。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111456715.4A CN114239590B (zh) | 2021-12-01 | 2021-12-01 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111456715.4A CN114239590B (zh) | 2021-12-01 | 2021-12-01 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114239590A true CN114239590A (zh) | 2022-03-25 |
CN114239590B CN114239590B (zh) | 2023-09-19 |
Family
ID=80752650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111456715.4A Active CN114239590B (zh) | 2021-12-01 | 2021-12-01 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114239590B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2594073A1 (en) * | 1993-03-19 | 1994-09-20 | Nynex Science & Technology, Inc. | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US20120259637A1 (en) * | 2011-04-11 | 2012-10-11 | Samsung Electronics Co., Ltd. | Method and apparatus for receiving audio |
CN103955451A (zh) * | 2014-05-15 | 2014-07-30 | 北京优捷信达信息科技有限公司 | 一种判别短文本情感倾向性的方法 |
CN105574066A (zh) * | 2015-10-23 | 2016-05-11 | 青岛恒波仪器有限公司 | 网页正文提取比对方法及其*** |
CN106528583A (zh) * | 2015-11-14 | 2017-03-22 | 孙燕群 | 一种网页正文提取比对方法 |
CN107967337A (zh) * | 2017-12-05 | 2018-04-27 | 云南大学 | 一种基于情感极性增强语义的跨领域情感分析方法 |
CN108460015A (zh) * | 2018-02-08 | 2018-08-28 | 合肥工业大学 | 文本情感分类数据增强分析方法 |
CN111832283A (zh) * | 2020-06-19 | 2020-10-27 | 上海明略人工智能(集团)有限公司 | 一种文本的生成方法、存储介质和电子装置 |
CN112183074A (zh) * | 2020-09-27 | 2021-01-05 | 中国建设银行股份有限公司 | 一种数据增强方法、装置、设备及介质 |
CN112580337A (zh) * | 2020-12-29 | 2021-03-30 | 南京航空航天大学 | 基于数据增强的情感分类模型及情感分类方法 |
CN112580358A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 文本信息提取方法、装置、存储介质及设备 |
CN112784041A (zh) * | 2021-01-06 | 2021-05-11 | 河海大学 | 一种中文短文本情感倾向性分析方法 |
CN112860896A (zh) * | 2021-03-05 | 2021-05-28 | 三一重工股份有限公司 | 语料泛化方法及用于工业领域的人机对话情感分析方法 |
CN113255365A (zh) * | 2021-05-28 | 2021-08-13 | 湖北师范大学 | 文本数据增强方法、装置、设备及计算机可读存储介质 |
CN113297842A (zh) * | 2021-05-25 | 2021-08-24 | 湖北师范大学 | 文本数据增强方法 |
CN113505202A (zh) * | 2021-07-30 | 2021-10-15 | 中关村科学城城市大脑股份有限公司 | 一种基于情感分析的数据增强方法和*** |
-
2021
- 2021-12-01 CN CN202111456715.4A patent/CN114239590B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2594073A1 (en) * | 1993-03-19 | 1994-09-20 | Nynex Science & Technology, Inc. | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US20120259637A1 (en) * | 2011-04-11 | 2012-10-11 | Samsung Electronics Co., Ltd. | Method and apparatus for receiving audio |
CN103955451A (zh) * | 2014-05-15 | 2014-07-30 | 北京优捷信达信息科技有限公司 | 一种判别短文本情感倾向性的方法 |
CN105574066A (zh) * | 2015-10-23 | 2016-05-11 | 青岛恒波仪器有限公司 | 网页正文提取比对方法及其*** |
CN106528583A (zh) * | 2015-11-14 | 2017-03-22 | 孙燕群 | 一种网页正文提取比对方法 |
CN107967337A (zh) * | 2017-12-05 | 2018-04-27 | 云南大学 | 一种基于情感极性增强语义的跨领域情感分析方法 |
CN108460015A (zh) * | 2018-02-08 | 2018-08-28 | 合肥工业大学 | 文本情感分类数据增强分析方法 |
CN112580358A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 文本信息提取方法、装置、存储介质及设备 |
CN111832283A (zh) * | 2020-06-19 | 2020-10-27 | 上海明略人工智能(集团)有限公司 | 一种文本的生成方法、存储介质和电子装置 |
CN112183074A (zh) * | 2020-09-27 | 2021-01-05 | 中国建设银行股份有限公司 | 一种数据增强方法、装置、设备及介质 |
CN112580337A (zh) * | 2020-12-29 | 2021-03-30 | 南京航空航天大学 | 基于数据增强的情感分类模型及情感分类方法 |
CN112784041A (zh) * | 2021-01-06 | 2021-05-11 | 河海大学 | 一种中文短文本情感倾向性分析方法 |
CN112860896A (zh) * | 2021-03-05 | 2021-05-28 | 三一重工股份有限公司 | 语料泛化方法及用于工业领域的人机对话情感分析方法 |
CN113297842A (zh) * | 2021-05-25 | 2021-08-24 | 湖北师范大学 | 文本数据增强方法 |
CN113255365A (zh) * | 2021-05-28 | 2021-08-13 | 湖北师范大学 | 文本数据增强方法、装置、设备及计算机可读存储介质 |
CN113505202A (zh) * | 2021-07-30 | 2021-10-15 | 中关村科学城城市大脑股份有限公司 | 一种基于情感分析的数据增强方法和*** |
Non-Patent Citations (2)
Title |
---|
王庆林;李晗;庞良健;徐新胜;: "基于全局语义学习的文本情感增强方法研究", 科学技术与工程, no. 21, pages 259 - 265 * |
胡盛伟;李弼程;林孔杰;熊尧;: "MaskAE:基于无监督的短文本情感迁移方法", 中文信息学报, no. 02, pages 108 - 115 * |
Also Published As
Publication number | Publication date |
---|---|
CN114239590B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106610931B (zh) | 话题名称的提取方法及装置 | |
CN111143551A (zh) | 文本预处理方法、分类方法、装置及设备 | |
CN112083897A (zh) | 一种数字逻辑设计中信号声明***、方法、设备及介质 | |
CN113221555A (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN110489559A (zh) | 一种文本分类方法、装置及存储介质 | |
CN109753647A (zh) | 段落的划分方法及装置 | |
CN113535817A (zh) | 特征宽表生成及业务处理模型的训练方法和装置 | |
CN105989066A (zh) | 一种信息处理方法和装置 | |
CN115455166A (zh) | 一种智能对话***异常检测的方法、装置、介质及设备 | |
CN114359533B (zh) | 一种基于页面文本的页码识别方法和计算机设备 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN108804563B (zh) | 一种数据标注方法、装置以及设备 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
JP6508327B2 (ja) | テキスト可視化システム、テキスト可視化方法、及び、プログラム | |
CN114239590A (zh) | 一种数据处理方法及装置 | |
CN109558580B (zh) | 一种文本分析方法及装置 | |
CN110019295B (zh) | 数据库检索方法、装置、***以及存储介质 | |
CN111400484B (zh) | 一种关键词提取方法和*** | |
CN114118950A (zh) | 一种基于项目的咨询方案整理方法和装置 | |
US20210312223A1 (en) | Automated determination of textual overlap between classes for machine learning | |
CN110188330B (zh) | 确定相似文本信息的方法、装置、电子设备及存储介质 | |
CN111324732B (zh) | 模型训练方法、文本处理方法、装置及电子设备 | |
CN112579768A (zh) | 一种情感分类模型训练方法、文本情感分类方法及装置 | |
US20180052917A1 (en) | Computer-implemented methods and systems for categorization and analysis of documents and records | |
CN116758565B (zh) | 一种基于决策树的ocr文本还原方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |