CN109614492B - 基于人工智能的文本数据增强方法、装置、设备及存储介质 - Google Patents
基于人工智能的文本数据增强方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109614492B CN109614492B CN201811641967.2A CN201811641967A CN109614492B CN 109614492 B CN109614492 B CN 109614492B CN 201811641967 A CN201811641967 A CN 201811641967A CN 109614492 B CN109614492 B CN 109614492B
- Authority
- CN
- China
- Prior art keywords
- text
- fluency
- output
- generation model
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims description 51
- 230000002708 enhancing effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 5
- 238000012821 model calculation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 230000001965 increasing effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000630 rising effect Effects 0.000 description 4
- 241000220225 Malus Species 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请属于人工智能技术领域,涉及基于人工智能的文本数据增强方法、装置、设备及存储介质。该方法包括:将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;计算所述第一输出文本的语序流畅度;将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。其增加了文本生成模型训练的数据量。
Description
技术领域
本申请属于人工智能技术领域,涉及基于人工智能的文本数据增强方法、装置、设备及存储介质。
背景技术
目前,文本生成模型能够将一条或一条以上的输入文本转化成一条或一条以上的输出文本。为了让所述文本生成模型能够生成语病少、语义更准确的输出文本,需要给所述文本生成模型提供大量的输入文本,使得所述文本生成模型能够收敛。
现有的技术条件下,要获得符合要求的大量的输入文本是非常困难的,使得对于所述文本生成模型进行的训练很难达到理想的效果,也即所述文本生成模型不易实现收敛。此外,现有技术中难以对所述文本生成模型转化获得的输出文本进行语病检查,因此制约了所述文本生成模型的实际应用。
发明内容
本申请实施例公开了基于人工智能的文本数据增强方法、装置、设备及存储介质,旨在增加输入文本的数据量。
本申请的一些实施例公开了一种基于人工智能的文本数据增强方法。所述基于人工智能的文本数据增强方法包括:将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;计算所述第一输出文本的语序流畅度;将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,所述计算所述第一输出文本的语序流畅包括:
其中,/>
f(x)表示所述语序流畅度;P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。
在本申请的一些实施例中,所述语言模型概率通过语言模型计算获得,所述语言模型包括n-gram语言模型和神经概率语言模型。
在本申请的一些实施例中,所述将所述第一输出文本作为第二输入文本提供给所述文本生成模型的步骤包括:将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。
在本申请的一些实施例中,所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,所述文本生成模型包括RNN(Recurrent NeuralNetwork,神经网络)结构模型和seq2seq模型。
在本申请的一些实施例中,当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。
在本申请的一些实施例中,所述基于人工智能的文本数据增强方法还包括:当所述文本生成模型收敛时,停止给所述文本生成模型提供所述第一输入文本和所述第二输入文本。
本申请的一实施例公开了一种基于人工智能的文本数据增强装置。所述基于人工智能的文本数据增强装置包括:文本训练模块,用于将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;语序流畅度计算模块,用于计算所述第一输出文本的语序流畅度;语序流畅度比较模块,用于将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;输入文本增量模块,用于当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,所述语序流畅度计算模块通过以下公式计算所述第一输出文本的语序流畅度,以f(x)表示所述语序流畅度;
其中,/>
P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。
在本申请的一些实施例中,所述语序流畅度计算模块通过语言模型计算获得所述语言模型概率,所述语言模型包括n-gram语言模型和神经概率语言模型。
在本申请的一些实施例中,所述文本训练模块将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。
在本申请的一些实施例中,所述文本训练模块通过所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,输入文本增量模块还用于当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。
在本申请的一些实施例中,当所述文本生成模型收敛时,所述文本训练模块停止给所述文本生成模型提供所述第一输入文本和所述第二输入文本。
本申请的一些实施例公开了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一种基于人工智能的文本数据增强方法的步骤。
本申请的一些实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种基于人工智能的文本数据增强方法的步骤。
与现有技术相比,本申请公开的技术方案主要有以下有益效果:
在本申请的实施例中,通过将语序流畅度大于或者等于所述正确文本的所述第一输出文本作为所述第二输入文本提供给所述文本生成模型,并由所述文本生成模型将所述第二输入文本转化成至少一条所述第二输出文本。所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。通过以语序流畅度大于或者等于所述正确文本的所述第二输入文本输入所述文本生成模型,并由所述文本生成模型将所述第二输入文本转化成至少一条所述第二输出文本,因此进一步增加了用于给所述文本生成模型训练的数据量,有利于减少节省所述文本生成模型的训练时间,使得所述文本生成模型能够在更短的时间内实现收敛,有利于克服给所述文本生成模型训练的数据量不足的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请的一实施例中所述基于人工智能的文本数据增强方法的示意图;
图2为本申请的一实施例中所述基于人工智能的文本数据增强方法的另一示意图;
图3为本申请的一实施例中智能客服机器人的seq2seq模型进行文本生成训练的示意图;
图4为本申请的一实施例中智能客服机器人的seq2seq模型进行文本生成训练的另一示意图;
图5为本申请的一实施例中所述基于人工智能的文本数据增强装置的示意图;
图6为本申请的一实施例中计算机设备100基本结构框图。
附图标记说明:
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本申请的一实施例公开一种基于人工智能的文本数据增强方法。
参考图1和图2,其中图1为本申请的一实施例中所述基于人工智能的文本数据增强方法的示意图,图2为本申请的一实施例中所述基于人工智能的文本数据增强方法的另一示意图。
如图1中所示意的,所述基于人工智能的文本数据增强方法包括:
S1:将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本。
S2:计算所述第一输出文本的语序流畅度。
S3:将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较。
S4a:当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。所述预设条件包括所述文本生成模型实现收敛。
在本申请实施例的S4a中,将语序流畅度大于或者等于所述正确文本的所述第一输出文本作为所述第二输入文本提供给所述文本生成模型,并由所述文本生成模型将所述第二输入文本转化成至少一条所述第二输出文本。所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。所述“错误训练”可以理解成是将语序流畅度大于或者等于所述正确文本的所述第一输出文本作为所述第二输入文本提供给所述文本生成模型进行训练,得到语序流畅度小于所述正确文本的所述第二输出文本。
由于所述文本生成模型能够将所述第二输入文本的语素进行重新组合,通常不会组合出所述第二输入文本本身。因此如果是将语序流畅度大于或者等于所述正确文本的所述第二输入文本输入所述文本生成模型,则会组合得出语序流畅度小于所述正确文本的的至少一条所述第二输出文本。在本申请的实施例中,通过以语序流畅度大于或者等于所述正确文本的所述第二输入文本输入所述文本生成模型,并由所述文本生成模型将所述第二输入文本转化成至少一条所述第二输出文本,因此进一步增加了用于给所述文本生成模型训练的数据量,有利于减少节省所述文本生成模型的训练时间,使得所述文本生成模型能够在更短的时间内实现收敛。
S1、S2、S3、S4a可以反复进行,直至所述文本生成模型收敛时,停止给所述文本生成模型提供所述第二输入文本。
如图2中所示意的,为了进一步增加输入文本的数据量,在S3后所述基于人工智能的文本数据增强方法还包括:
S4b:当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。
在本申请的实施例中,通过将所述文本生成模型转化成的语序流畅度小于所述正确文本的的所述第一输出文本重新提供给所述文本生成模型,因此能够增加所述文本数据库数据量,有利于克服所述文本数据库的数据量不足的问题,降低了获取符合要求的所述第一输入文本的困难,提高了所述文本生成模型的训练效率。
S1、S2、S3以及S4b可以反复进行,直至所述文本生成模型收敛时,停止给所述文本生成模型提供所述第一输入文本。
需要说明的是,图1中示意的各步骤与图2中示意的各步骤可以同时执行。此外,S4a和S4b的执行顺序并无先后之分。
在本申请的一些实施例中,所述计算所述第一输出文本的语序流畅度包括:
其中,/>
f(x)表示所述语序流畅度;P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。
进一步地,在本申请的实施例中,所述语言模型概率通过语言模型计算获得,所述语言模型包括n-gram语言模型和神经概率语言模型。
在本申请的实施例中,所述“上文”和所述“下文”可以作如下的理解:
“上文”为所述第一输出文本的主语时,“下文”为所述第一输出文本的谓语。例如,所述第一输出文本为:我喜欢。其中,“我”为上文,则“喜欢”为下文。
“上文”为所述第一输出文本的主语和谓语时,“下文”为所述第一输出文本的宾语。例如,所述第一输出文本为:我喜欢苹果。其中,“我喜欢”为上文,则“苹果”为下文。
总而言之,所述“上文”可以理解成是已经给出的且确定的词句,所述“下文”可以理解成是在语言模型中出现在“上文”后面的词句。
“语言模型概率”指的是在给定上文时,某一种下文出现的概率。出现在同一上文后面的不同下文的语言模型概率是不一样的。在结合上文的基础上,通常语序流畅度大于或者等于所述正确文本的下文具有相对较大的语言模型概率。例如,给定上文“我喜欢”时,下文为“吃苹果”的语言模型概率要大于下文为“不喜欢”的语言模型概率。
在本申请的实施例中,H(x)可以理解成信息熵,所述信息熵越大表明下文出现某一词句的不确定性越大。
下面将举例说明所述第一输出文本的语序流畅度与对应的所述正确文本的语序流畅度比较。
假定所述正确文本的语序流畅度为1.6。所述第一输入文本输入所述文本生成模型后,所述文本生成模型转化出5条所述第一输出文本。5条所述第一输出文本的语序流畅度分别为0.7、0.9、1.2、1.8、1.4。假定认为语序流畅度为1.8的所述第一输出文本没有语病,而流程度为0.7、0.9、1.2、1.4的所述第一输出文本则认为有语病。将有语病的4条所述第一输出文本存入所述文本数据库中,然后提供给所述文本生成模型进行训练。而将没有语病的1条所述第一输出文本则直接提供所述文本生成模型进行错误训练,将所述文本生成模型进行错误训练获得的语序流畅度小于所述正确文本的所述第二输出文本提供给所述文本生成模型进行训练,增用于给所述文本生成模型训练的数据量。
在本申请的一些实施例中,所述将所述第一输出文本作为第二输入文本提供给所述文本生成模型的步骤包括:将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。所述第一输出文本对应唯一一条所述正确文本。
由于所述第一输出文本需要与对应的所述正确文本比较语序流畅度,因此将所述第一输出文本与对应的所述正确文本组成一个所述文本数据对有利于快速确定与所述第一输出文本进行语序流畅度比较的所述正确文本。
在本申请的一些实施例中,所述文本生成模型包括:RNN(Recurrent NeuralNetwork,神经网络)结构模型和seq2seq模型。将所述第一输入文本和所述第二输入文本提供给所述文本生成模型的目的在于使所述文本生成模型收敛,因此当所述文本生成模型收敛时,停止给所述文本生成模型提供所述第一输入文本和所述第二输入文本。
下面将以智能客服机器人的seq2seq模型进行文本生成训练为例进一步阐述上述实施例中文本数据增强的方法的具体应用。
参考图3,为本申请的一实施例中智能客服机器人的seq2seq模型进行文本生成训练的示意图。
如图3中所示意的,用于文本生成训练的所述第一输入文本和所述正确文本组成所述文本数据对并存储在所述文本数据库中。对所述智能客服机器人的seq2seq模型进行文本生成训练时,调取所述文本数据库中的所述文本数据对,并将所述文本数据对中的所述第一输出文本提供给所述seq2seq模型。
所述seq2seq模型将所述第一输出文本转化成多条所述第一输出文本。由所述seq2seq模型转化获得的所有所述第一输出文本组成输出文本集合。然后计算每一条所述第一输出文本的语序流畅度。将每一条所述第一输出文本的语序流畅度与对应的所述正确文本的语序流畅度比较。
判断所述seq2seq模型是否收敛。当所述seq2seq模型没有收敛时,将语序流畅度小于所述正确文本的所述第一输出文本与所述正确文本组成新的文本数据对,并存储至所述文本数据库中。
需要说明的是,判断所述seq2seq模型是否收敛的步骤并不限定图3中示意的位置。例如,在所述seq2seq模型将所述第一输入文本转化成多条所述第一输出文本后就可以判断所述seq2seq模型是否收敛。在判断得出所述seq2seq模型没有收敛时,计算每一条所述第一输出文本的语序流畅度,然后将每一条所述第一输出文本的语序流畅度与对应的所述正确文本的语序流畅度比较。
上述将语序流畅度小于所述正确文本的所述第一输出文本提供给所述seq2seq模型进行文本生成训练的过程循环进行,直至判断得出所述seq2seq模型收敛。在所述seq2seq模型收敛后将结束循环,停止给所述seq2seq模型提供所述第一输入文本。
参考图4,为本申请的一实施例中智能客服机器人的seq2seq模型进行文本生成训练的另一示意图。
如图4中所示意的,用于文本生成训练的所述第一输入文本和所述正确文本组成文本数据对并存储在文本数据库中。对所述智能客服机器人的seq2seq模型进行文本生成训练时,调取所述文本数据库中的文本数据对,并将文本数据对中的所述第一输出文本提供给seq2seq模型。
所述seq2seq模型将所述第一输入文本转化成多条所述第一输出文本。由所述seq2seq模型转化获得的所有所述第一输出文本组成输出文本集合。然后计算每一条所述第一输出文本的语序流畅度。将每一条所述第一输出文本的语序流畅度与对应的所述正确文本的语序流畅度比较。
判断所述seq2seq模型是否收敛。当所述seq2seq模型没有收敛时,将所述输出文本集合中语序流畅度大于或者等于所述正确文本的所述第一输出文本作为所述第二输入文本提供给所述seq2seq模型,然后由所述seq2seq模型将所述第二输入文本转化成多条语序流畅度小于所述正确文本的所述第二输出文本。所述多条语序流畅度小于所述正确文本的所述第二输出文本组成新的输出文本集合。将每一条所述第二输出文本与所述正确文本组成新的文本数据对,并存储至所述文本数据库中。将语序流畅度大于或者等于所述正确文本的所述第二输入文本转换成多条语序流畅度小于所述正确文本的所述第二输出文本,并提供给所述seq2seq模型进行文本生成训练的过程循环进行,直至判断得出所述seq2seq模型收敛。在所述seq2seq模型收敛后将结束循环,停止给所述seq2seq模型提供所述第二输入文本。
下面将列举出实例说明本申请实施例中的技术方案。
表格1
请参考表格1,在表格1中提供给所述智能客服机器人的seq2seq模型的第一输入文本为“升起从东边太阳”,对应的所述正确文本为“太阳从东边升起”。所述智能客服机器人的seq2seq模型将第一输入文本“升起从东边太阳”转化成多条第一输出文本。表格1中只是展示了若干可能的第一输出文本,并不是第一输入文本“升起从东边太阳”在经seq2seq模型转化后所有可能的第一输出文本。
假定所述正确文本“太阳从东边升起”的语序流畅度为1。表格1中所展示的各第一输出文本的语序流畅度都小于1,因此均存在一定的语病。表格1中所展示的各第一输出文本的语序流畅度小于1。将表格1中展示的所有第一输出文本分别与所述正确文本组成文本数据对,并存储在文本数据库中。此时,表格1中展示的所有第一输出文本转化成第一输入文本,并提供给所述智能客服机器人的seq2seq模型进行下一轮的文本生成训练。
当表格1中的输入文本一栏拥有更多的第一输入文本时,将会获得更多的第一输出文本。在所述智能客服机器人的seq2seq模型的下一轮的文本生成训练中,文本数据库将能够向所述智能客服机器人的seq2seq模型提供数倍的第一输入文本。因此所述智能客服机器人的seq2seq模型在训练过程中将能够自动增加第一输入文本,使得文本数据得到增强,有利于克服输入文本数据量不足的问题,降低了获取符合要求的第一输入文本的困难。
表格2
请参考表格2,在表格2中提供给所述智能客服机器人的seq2seq模型的第一输入文本为“国祖我你爱”,对应的所述正确文本为“祖国我爱你”。所述智能客服机器人的seq2seq模型将第一输入文本“国祖我你爱”转化成多条第一输出文本。表格2中只是展示了若干可能的第一输出文本,并不是第一输入文本“国祖我你爱”在经seq2seq模型转化后所有可能的第一输出文本。
假定所述正确文本“祖国我爱你”的语序流畅度为1。在表格2中部分的第一输出文本的语序流畅度小于1,说明这部分第一输出文本存在语病。此外在表格2中,第一输出文本“我爱你祖国”的语序流畅度大于1,因此该条第一输出文本不存在语病。将第一输出文本“我爱你祖国”作为所述第二输入文本提供给所述智能客服机器人的seq2seq模型。所述智能客服机器人的seq2seq模型将会对第二输入文本“我爱你祖国”进行错误训练,转化成若干条语序流畅度小于1的第二输出文本。然后将错误训练获得的若干条语序流畅度小于1的第二输出文本与所述正确文本组成文本数据对存入文本数据库中。在所述智能客服机器人的seq2seq模型的下一轮的文本生成训练中,从所述文本数据库中调取错误训练获得的若干条语序流畅度小于1的第二输出文本,并提供给所述智能客服机器人的seq2seq模型进行训练。上述对第二输入文本进行错误训练获得若干条语序流畅度小于1的第二输出文本的方法同样能够自动增加文本数据量,起到增强文本数据的作用,并且有利于进一步克服输入文本数据量不足的问题,降低了获取符合要求的第一输入文本的困难。
需要说明的是,虽然表格1和表格2中语序流畅度的值为正,但是在本申请的一些可能的实施例中,所述语序流畅度的值也可以是负值。
本申请的一实施例公开了一种基于人工智能的文本数据增强装置。
参考图5,为本申请的一实施例中所述基于人工智能的文本数据增强装置的示意图。
如图5中所示意的,所述基于人工智能的文本数据增强装置包括:
文本训练模块10,用于将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;
语序流畅度计算模块20,用于计算所述第一输出文本的语序流畅度;
语序流畅度比较模块30,用于将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;
输入文本增量模块40,用于当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,所述语序流畅度计算模块20通过以下公式计算所述第一输出文本的语序流畅度:
其中,/>
f(x)表示所述语序流畅度;P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。
在本申请的一些实施例中,所述语序流畅度计算模块20通过语言模型计算获得所述语言模型概率,所述语言模型包括n-gram语言模型和神经概率语言模型。
在本申请的一些实施例中,所述文本训练模块10将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。
在本申请的一些实施例中,所述文本训练模块10通过所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,所述输入文本增量模块40还用于当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。
在本申请的一些实施例中,当所述文本生成模型收敛时,所述文本训练模块10停止给所述文本生成模型提供所述第一输入文本和所述第二输入文本。
本申请的一实施例公开了一种计算机设备。具体请参考图6,为本申请的一实施例中计算机设备100基本结构框图。
如图6中所示意的,所述计算机设备100包括通过***总线相互通信连接存储器101、处理器102、网络接口103。需要指出的是,图6中仅示出了具有组件101-103的计算机设备100,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。本技术领域技术人员应当理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器101至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器101可以是所述计算机设备100的内部存储单元,例如该计算机设备100的硬盘或内存。在另一些实施例中,所述存储器101也可以是所述计算机设备100的外部存储设备,例如该计算机设备100上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器101还可以既包括所述计算机设备100的内部存储单元也包括其外部存储设备。本实施例中,所述存储器101通常用于存储安装于所述计算机设备100的操作***和各类应用软件,例如上述基于人工智能的文本数据增强方法的程序代码等。此外,所述存储器101还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器102在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器102通常用于控制所述计算机设备100的总体操作。本实施例中,所述处理器102用于运行所述存储器101中存储的程序代码或者处理数据,例如运行上述基于人工智能的文本数据增强方法的程序代码。
所述网络接口103可包括无线网络接口或有线网络接口,该网络接口103通常用于在所述计算机设备100与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有单据信息录入程序,所述单据信息录入程序可被至少一个处理器执行,以使所述至少一个处理器执行上述任意一种基于人工智能的文本数据增强方法的步骤。
最后应说明的是,显然以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (6)
1.一种基于人工智能的文本数据增强方法,其特征在于,包括:
将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;
计算所述第一输出文本的语序流畅度;
将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;
当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度,所述第二输出文本用于训练所述文本生成模型;所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度;
当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型,以训练所述文本生成模型;
计算所述第一输出文本的语序流畅度包括:;其中,/>;
表示所述语序流畅度;/>指的是给定所述第一输出文本的上文,所述第一输出文本的下文/>的语言模型概率,H(x)为信息熵;
所述将所述第一输出文本作为第二输入文本提供给所述文本生成模型的步骤包括:将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本作为所述第二输入文本提供给所述文本生成模型。
2.根据权利要求1所述基于人工智能的文本数据增强方法,其特征在于,所述语言模型概率通过语言模型计算获得,所述语言模型包括n-gram语言模型和神经概率语言模型。
3.根据权利要求1所述的基于人工智能的文本数据增强方法,其特征在于,所述文本生成模型包括RNN结构模型和seq2seq模型。
4.一种基于人工智能的文本数据增强装置,其特征在于,包括:
文本训练模块,用于将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;
语序流畅度计算模块,用于计算所述第一输出文本的语序流畅度;
语序流畅度比较模块,用于将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;
输入文本增量模块,用于当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度,所述第二输出文本用于训练所述文本生成模型;所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度;
所述输入文本增量模块还用于当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型,以训练所述文本生成模型;
计算所述第一输出文本的语序流畅度包括:;其中,/>;
表示所述语序流畅度;/>指的是给定所述第一输出文本的上文,所述第一输出文本的下文/>的语言模型概率,H(x)为信息熵;
所述输入文本增量模块还用于将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本作为所述第二输入文本提供给所述文本生成模型。
5.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述基于人工智能的文本数据增强方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项基于人工智能的文本数据增强方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811641967.2A CN109614492B (zh) | 2018-12-29 | 2018-12-29 | 基于人工智能的文本数据增强方法、装置、设备及存储介质 |
PCT/CN2019/103684 WO2020134154A1 (zh) | 2018-12-29 | 2019-08-30 | 基于人工智能的文本数据增强方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811641967.2A CN109614492B (zh) | 2018-12-29 | 2018-12-29 | 基于人工智能的文本数据增强方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614492A CN109614492A (zh) | 2019-04-12 |
CN109614492B true CN109614492B (zh) | 2024-06-18 |
Family
ID=66017355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811641967.2A Active CN109614492B (zh) | 2018-12-29 | 2018-12-29 | 基于人工智能的文本数据增强方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109614492B (zh) |
WO (1) | WO2020134154A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614492B (zh) * | 2018-12-29 | 2024-06-18 | 平安科技(深圳)有限公司 | 基于人工智能的文本数据增强方法、装置、设备及存储介质 |
CN110580290B (zh) | 2019-09-12 | 2022-12-13 | 北京小米智能科技有限公司 | 用于文本分类的训练集的优化方法及装置 |
CN112818082A (zh) * | 2019-11-15 | 2021-05-18 | 北京沃东天骏信息技术有限公司 | 评价文本推送方法和装置 |
CN113570046B (zh) * | 2021-09-22 | 2022-02-18 | 苏州浪潮智能科技有限公司 | 一种数据增强方法、***、装置及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810999A (zh) * | 2014-02-27 | 2014-05-21 | 清华大学 | 基于分布式神经网络的语言模型训练方法及其*** |
CN106484681A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
CN108647207A (zh) * | 2018-05-08 | 2018-10-12 | 上海携程国际旅行社有限公司 | 自然语言修正方法、***、设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG192884A1 (en) * | 2011-02-21 | 2013-09-30 | Univ Singapore | Apparatus, system, and method for annotation of media files with sensor data |
CN103678285A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 机器翻译方法和机器翻译*** |
US10540957B2 (en) * | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
CN107274903B (zh) * | 2017-05-26 | 2020-05-19 | 北京搜狗科技发展有限公司 | 文本处理方法和装置、用于文本处理的装置 |
CN107273503B (zh) * | 2017-06-19 | 2020-07-10 | 北京百度网讯科技有限公司 | 用于生成同语言平行文本的方法和装置 |
CN107832310A (zh) * | 2017-11-27 | 2018-03-23 | 首都师范大学 | 基于seq2seq模型的结构化论点生成方法及*** |
CN108427665A (zh) * | 2018-03-15 | 2018-08-21 | 广州大学 | 一种基于lstm型rnn模型的文本自动生成方法 |
CN109062937B (zh) * | 2018-06-15 | 2019-11-26 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
CN109614492B (zh) * | 2018-12-29 | 2024-06-18 | 平安科技(深圳)有限公司 | 基于人工智能的文本数据增强方法、装置、设备及存储介质 |
-
2018
- 2018-12-29 CN CN201811641967.2A patent/CN109614492B/zh active Active
-
2019
- 2019-08-30 WO PCT/CN2019/103684 patent/WO2020134154A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810999A (zh) * | 2014-02-27 | 2014-05-21 | 清华大学 | 基于分布式神经网络的语言模型训练方法及其*** |
CN106484681A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
CN108647207A (zh) * | 2018-05-08 | 2018-10-12 | 上海携程国际旅行社有限公司 | 自然语言修正方法、***、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020134154A1 (zh) | 2020-07-02 |
CN109614492A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614492B (zh) | 基于人工智能的文本数据增强方法、装置、设备及存储介质 | |
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
WO2020224219A1 (zh) | 中文分词方法、装置、电子设备及可读存储介质 | |
US20220083868A1 (en) | Neural network training method and apparatus, and electronic device | |
CN110298019A (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
WO2020244475A1 (zh) | 用于语言序列标注的方法、装置、存储介质及计算设备 | |
WO2022121178A1 (zh) | 文本纠错模型训练方法、识别方法、装置及计算机设备 | |
US11790174B2 (en) | Entity recognition method and apparatus | |
CN110619124B (zh) | 一种结合注意力机制与双向lstm的命名实体识别方法及*** | |
WO2022048174A1 (zh) | 文本匹配方法、装置、计算机设备及存储介质 | |
CN112084752B (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN113947095A (zh) | 多语种文本翻译方法、装置、计算机设备及存储介质 | |
CN115759254A (zh) | 基于知识增强生成式语言模型的问答方法、***及介质 | |
CN111191038B (zh) | 神经网络训练方法和装置及命名实体识别方法和装置 | |
CN113505595A (zh) | 文本短语抽取方法、装置、计算机设备及存储介质 | |
CN117971487A (zh) | 一种高性能算子生成方法、装置、设备及存储介质 | |
CN113299294A (zh) | 任务型对话机器人交互方法、装置、设备及存储介质 | |
CN116127925B (zh) | 基于对文本进行破坏处理的文本数据增强方法及装置 | |
CN115860003A (zh) | 一种语义角色分析方法、装置、电子设备及存储介质 | |
CN113420869B (zh) | 基于全方向注意力的翻译方法及其相关设备 | |
CN114417834A (zh) | 文本的处理方法、装置、电子设备及可读存储介质 | |
CN114020774A (zh) | 多轮问答语句的处理方法、装置、设备及存储介质 | |
CN110222693B (zh) | 构建字符识别模型与识别字符的方法和装置 | |
CN110134775B (zh) | 问答数据生成方法及装置、存储介质 | |
CN111414474A (zh) | 一种文本分类方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |