CN113807089A - 文本数据的处理方法、神经网络的训练方法以及相关设备 - Google Patents
文本数据的处理方法、神经网络的训练方法以及相关设备 Download PDFInfo
- Publication number
- CN113807089A CN113807089A CN202111088859.9A CN202111088859A CN113807089A CN 113807089 A CN113807089 A CN 113807089A CN 202111088859 A CN202111088859 A CN 202111088859A CN 113807089 A CN113807089 A CN 113807089A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- processed
- character
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 208
- 238000000034 method Methods 0.000 title claims abstract description 164
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 45
- 238000003672 processing method Methods 0.000 title abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 96
- 230000015654 memory Effects 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 37
- 238000003860 storage Methods 0.000 claims description 27
- 238000012986 modification Methods 0.000 claims description 20
- 230000004048 modification Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 31
- 238000013473 artificial intelligence Methods 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 12
- 238000013461 design Methods 0.000 description 11
- 230000009286 beneficial effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 238000013500 data storage Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000010813 municipal solid waste Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开一种文本数据的处理方法、神经网络的训练方法以及相关设备,该方法可用于人工智能领域的文本数据的处理领域中。方法包括:获取待处理文本,待处理文本包括多个字符;通过目标模型对待处理文本进行处理,得到预测结果,预测结果用于指示将待处理文本拆分为多个目标字符集合,预测结果还包括多个第一标签,一个第一标签用于指示一个目标字符集合的语义,多个第一标签用于确定待处理文本的意图。可以将叠字或语气助词拆分至另一个目标字符集合中,即使整个待处理文本中存在叠字或语气助词等,也能够实现对待处理文本的意图的理解,也即提供了一种更具有泛化能力的自然语言理解的方法。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种文本数据的处理方法、神经网络的训练方法以及相关设备。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
利用模型进行自然语言处理(natural language processing,NLP)是实现人工智能的重要手段之一,目前采用的自然语言理解的方法有基于模板匹配的方式,具体的,执行设备上可以配置有多个模板语句,以及每个模板语句所对应的意图,执行设备在获取到用户输入的待处理文本后,可以与多个模板语句进行匹配,若能够匹配到一致的语句,则能够获取到待处理文本的意图;若不能够匹配到一致的语句,则匹配失败。
但目前采取的模板匹配的方式比较死板,若用户输入的待处理文本是与模板语句近似的一种说法,例如比模板语句多一些叠字或语气助词等,都会导致匹配失败,继而无法获取到待处理文本的意图,因此,一种更具有泛化能力的自然语言理解的方法亟待推出。
发明内容
本申请实施例提供了一种文本数据的处理方法、神经网络的训练方法以及相关设备,在一个目标字符集合中可以不包括叠字或语气助词等,也即可以将叠字或语气助词拆分至另一个目标字符集合中,从而即使整个待处理文本中存在叠字或语气助词等,也能够实现对待处理文本的意图的理解,也即提供了一种更具有泛化能力的自然语言理解的方法。
为解决上述技术问题,本申请实施例提供以下技术方案:
第一方面,本申请实施例提供一种文本数据的处理方法,可用于人工智能领域的文本数据的处理领域中。执行设备获取待处理文本,待处理文本包括一个或多个字符;执行设备通过目标模型对待处理文本进行处理,得到目标模型生成的预测结果。其中,该预测结果可以为目标模型最终输出的结果,也可以为目标模型在处理过程中生成的中间结果;预测结果用于指示将待处理文本拆分为多个目标字符集合,每个目标字符集合包括至少一个字符,预测结果还包括一个或多个第一标签,前述至少一个第一标签中的一个第一标签用于指示一个目标字符集合的语义,预测结果中的所有第一标签用于确定待处理文本的意图。
本实现方式中,通过目标模型对待处理文本进行语义理解,得到目标模型输出的预测结果,预测结果用于指示将待处理文本拆分为多个目标字符集合,预测结果还包括与至少一个目标字符集合匹配的第一标签,以通过匹配到的所有第一标签来反映待处理文本的意图;由于本方案中是为待处理文本中的字符匹配标签,在一个目标字符集合中可以不包括叠字或语气助词等,也即可以将叠字或语气助词拆分至另一个目标字符集合中,从而即使整个待处理文本中存在叠字或语气助词等,也能够实现对待处理文本的意图的理解,也即提供了一种更具有泛化能力的自然语言理解的方法;且由于预测结果指示如何将整个待处理文本进行拆分,且还包括与待处理文本对应的至少一个标签,也即预测结果中携带了更为丰富的信息,有利于提高对待处理文本进行意图理解过程的准确率。
在第一方面的一种可能实现方式中,多个第一标签包括至少两级标签,至少两级标签包括父标签和子标签,父标签和子标签之间具有归属关系;预测结果还用于指示父标签和子标签之间的归属关系,也即预测结果还用于指示多个第一标签包括的至少两级标签所对应的级别数量、每个第一标签属于哪个级别以及不同标签之间的对应关系。
本实现方式中,多个第一标签包括至少两级标签,至少两级标签包括父标签和子标签,父标签和子标签之间具有归属关系;也即预测结果携带的信息更为丰富,有利于进一步提高对待处理文本进行意图理解过程的准确率。
在第一方面的一种可能实现方式中,与待处理文本对应有N种拆分方式,N为大于或等于1的整数,预测结果用于指示与待处理文本对应的一种目标拆分方式,目标拆分方式归属于N种拆分方式,预测结果基于多个目标字符集合与多个第一标签之间的匹配度得到。进一步地,预测结果基于与每个目标字符集合对应的第一评分得到,与目标字符集合对应的第一评分用于指示目标字符集合与第一标签之间的匹配度。与目标拆分方式对应的目标总评分值为与目标拆分方式对应的至少一个第一评分的总和,目标拆分方式可以为N种拆分方式中目标总评分值最高的一种拆分方式;或者,与目标拆分方式对应的目标总评分值大于或等于第一阈值。
本实现方式中,最终输出的预测结果用于指示与待处理文本对应的一种目标拆分方式,而该预测结果基于每个目标字符集合与第一标签之间的匹配度;目标字符集合与第一标签之间的匹配度越高,证明第一标签越能准确的反映目标字符集合的语义,通过前述方案,能够得到更能反映待处理文本的意图的至少一个第一标签。
在第一方面的一种可能实现方式中,执行设备通过目标模型对待处理文本进行处理,得到预测结果,包括:执行设备将每个目标字符集合与第一数据集合中的多个字符串进行匹配,以确定与每个目标字符集合匹配的目标字符串,并从第一数据集合中获取与目标字符串对应的至少一个第二标签,一个字符串包括至少一个字符。执行设备根据每个目标字符集合和至少一个第二标签,通过目标模型中的第一模型将每个目标字符集合与第一数据集合中的多个标签进行匹配,以得到与每个目标字符集合匹配的第一标签。进一步地,训练设备根据每个目标字符集合和至少一个第二标签,可以通过目标模型生成每个目标字符集合与第一数据集合中每个标签之间的匹配度,以得到与每个目标字符集合对应的多个第二评分,该多个第二评分中的一个第二评分用于指示每个目标字符集合与第一数据集合中的一个标签之间的匹配度;训练设备根据多个第二评分,通过目标模型确定与每个目标字符集合匹配的第一标签。
本申请实施例中,由于在生成目标字符集合所匹配的第一标签的过程中,是将目标字符集合与第一数据集合中的多个字符串进行匹配,以确定与目标字符集合匹配的至少一个目标字符串,进而获取与至少一个目标字符串对应的至少一个第二标签,并通过目标模型将目标字符集合与第一数据集合中的多个标签进行匹配,以得到与目标字符集合匹配的第一标签。也即当第一数据库中与第二标签匹配的字符串进行更新时,不需要对目标模型重新进行训练,避免了对目标模型进行重新训练时所产生的时间成本,且便于结合实际应用场景的变化,对第一数据集合中的字符串进行及时的修改,有利于提高对待处理文本的意图的理解的准确性。
在第一方面的一种可能实现方式中,在至少一个第二标签包括至少两个第二标签的情况下,执行设备从第一数据集合中获取与目标字符串对应的至少一个第二标签之后,方法还包括:执行设备根据待处理文本、目标字符集合和至少两个第二标签,通过目标模型中的第二模型生成目标指示信息,目标指示信息用于指示每个第二标签与目标字符集合匹配或不匹配;其中,第二模型具体可以表现为二分类模型,则当目标指示信息具体表现为第一值时,代表第二标签与目标字符集合匹配;当目标指示信息具体表现为第二值时,代表第二标签与目标字符集合不匹配。执行设备根据目标指示信息对至少两个第二标签进行筛选,得到至少一个筛选后的标签;其中,至少一个筛选后的标签可以包括至少一个第二标签,或者,若目标指示信息指示所有第二标签与目标字符集合均不匹配,则至少一个筛选后的标签可以包括一个空标签。执行设备根据目标字符集合和第二标签,通过目标模型将目标字符集合与第一数据集合中的多个标签进行匹配,包括:执行设备根据目标字符集合和至少一个筛选后的标签,通过目标模型将目标字符集合与第一数据集合中的多个标签进行匹配。
本实现方式中,在获取到与目标字符集合对应的至少一个第二标签后,还会根据整个待处理文本对该至少一个第二标签进行筛选,以保证至少一个筛选后的标签能够满足整个待处理文本的语境,以降低匹配到错误的第二标签的概率,有利于提高对待处理文本的意图的理解的准确性。
在第一方面的一种可能实现方式中,目标字符集合可以被拆分为第一字符和第二字符,执行设备可以分别获取第一字符所对应的第一标签和第二字符所对应的第一标签,根据第一字符所对应的第一标签、第二字符所对应的第一标签、目标字符集合和目标字符集合所匹配的至少一个第二标签,确定与目标字符集合匹配的第一标签。
在第一方面的一种可能实现方式中,执行设备在根据目标字符集合和至少一个第二标签,通过目标模型生成与目标字符集合对应的多个第二评分之后,可以获取与多个第二评分中取值最高的一个第二评分对应的一个第六标签,执行设备根据第一数据集合判断第六标签是否为第一字符所对应的第一标签的父标签,和/或,根据第一数据集合判断第六标签是否为第二字符所对应的第一标签的父标签,若判断结果为是,则将多个第二评分中取值最高的一个第二评分确定为第一评分,将第六标签确定为与目标字符集合对应的第一标签。若判断结果为否,则执行设备获取与多个第二评分中取值第二高的一个第二评分对应的一个第七标签,并继续对与多个第二评分中取值第二高的一个第二评分执行前述操作,直至得到与目标字符集合对应的第一标签。其中,与目标字符集合对应的第一标签为第一字符所对应的第一标签的父标签,和/或,与目标字符集合对应的第一标签为第二字符所对应的第一标签的父标签。
在第一方面的一种可能实现方式中,执行设备可以将第一字符所对应的第一标签、第二字符所对应的第一标签、目标字符集合和目标字符集合所匹配的至少一个第二标签,输入至目标模型的第一模型中,以通过目标模型中的第一模型生成目标字符集合与第一数据集合中每个标签之间的匹配度,以得到与目标字符集合对应的多个第二评分。执行设备可以将多个第二评分中取值最高的一个第二评分确定为第一评分,将与该取值最高的一个第二评分对应的一个第五标签确定为与目标字符集合对应的第一标签。
第二方面,本申请实施例提供了一种神经网络的训练方法,可用于人工智能领域的文本数据的处理领域中。方法可以包括:训练设备通过目标模型对待处理文本进行处理,得到预测结果,待处理文本包括一个或多个字符,预测结果用于指示将待处理文本拆分为多个第一字符集合,每个第一字符集合包括至少一个字符,预测结果还包括多个第一标签,一个第一标签用于指示一个目标字符集合的语义,多个第一标签用于确定待处理文本的预测意图;训练设备根据目标损失函数,对目标模型进行训练,得到训练后的目标模型。其中,目标损失函数用于指示预测结果和与待处理文本对应的期望结果之间的相似度,与待处理文本对应的期望结果用于指示将待处理文本拆分为多个第二字符集合,每个第二字符集合包括至少一个字符,与待处理文本对应的期望结果还包括多个期望标签,一个期望标签用于指示一个第二字符集合的语义,多个期望标签用于确定待处理文本的正确意图。
在第二方面的一种可能实现方式中,训练设备通过目标模型对待处理文本进行处理之前,方法还包括:训练设备获取目标数据子集合,目标数据子集合包括第一子集合和第二子集合,第一子集合包括第一字符串以及与第一字符串对应的第一期望标签,第二子集合包括第二字符串以及与第二字符串对应的第二期望标签。训练设备根据目标数据子集合,确定待处理文本和与待处理文本对应的期望结果,其中,待处理文本包括第一字符串和第二字符串,期望结果包括与第一字符串对应的第一期望标签和与第二字符串对应的第二期望标签。
本实现方式中,基于目标数据子集合逆向生成用于进行训练的待处理文本,以及待处理文本所对应的期望结果,从而保证了待处理文本的可拆分性,以及待处理文本所对应的期望结果的准确度,也即保证了用于进行训练的待处理文本符合目标模型的处理逻辑,有利于提高用于进行训练的待处理文本与目标模型之间的适配度,进而有利于提高训练后的目标模型的准确率。
在第二方面的一种可能实现方式中,与待处理文本对应的第三评分满足预设条件,第三评分用于指示待处理文本的质量。其中,预设条件可以为第三评分大于或等于第一预设阈值,预设条件也可以为第三评分小于或等于第二预设阈值,预设条件的具体表现形式可以结合第三评分的具体生成方式确定。用于评价待处理文本的质量的指标包括但不限于候选训练文本的通顺度或其他类型的评价指标等。
本实现方式中,由于在目标模型的实际应用过程中,用户输入至目标模型的都是比较通顺的文本,则与用于进行训练的待处理文本所对应的第三评分满足预设条件,从而保证用于进行训练的待处理文本均为高质量的文本,也即用于进行训练的待处理文本与用户的实际语言习惯较为相似,有利于提高训练数据的质量,也有利于提高训练后的目标模型的精度。
本申请实施例的第二方面提供的训练设备还可以执行第一方面的各个可能实现方式中执行设备执行的步骤,对于本申请实施例第二方面以及第二方面的各种可能实现方式中名词的含义、步骤的具体实现步骤以及每种可能实现方式所带来的有益效果,均可以参考第一方面中各种可能的实现方式中的描述,此处不再一一赘述。
第三方面,本申请实施例提供了一种文本数据的处理方法,可用于人工智能领域的文本数据的处理领域中。电子设备获取目标数据子集合,目标数据子集合包括第一子集合和第二子集合,第一子集合包括第一字符串以及与第一字符串对应的第一期望标签,第二子集合包括第二字符串以及与第二字符串对应的第二期望标签。电子设备根据目标数据子集合,确定与目标模型对应的第二数据集合,其中,目标模型用于对输入的待处理文本进行语义理解,第二数据集合包括多个目标数据子集合,第二数据集合用于目标模型的训练阶段和/或目标模型的推理阶段。目标数据子集合用于指示与待处理文本对应的期望结果,期望结果用于指示将待处理文本拆分成至少两组字符串,至少两组字符串中包括第一字符串和第二字符串,正确结果还包括与第一字符串对应的第一期望标签和与第二字符串对应的第二期望标签。
在第三方面的一种可能实现方式中,多个第一标签包括至少两级标签,至少两级标签包括父标签和子标签,父标签和子标签之间具有归属关系。方法还可以包括:电子设备通过显示界面获取与目标数据子集合对应的第一修改操作,第一修改操作包括如下任一种或多种操作:添加父标签、添加子标签、删除父标签、删除子标签、修改标签内容或其他操作等。
在第三方面的一种可能实现方式中,方法还可以包括:电子设备通过显示界面获取与目标数据子集合对应的第二修改操作,第二修改操作包括如下任一种或多种操作:删除目标数据子集合中的字符串、更新目标数据子集合中的字符串的内容或者在目标数据子集合中增加新的字符串。
本实现方式中,便于用户通过显示界面结合实际应用场景的变化,对目标数据子集合中的字符串进行及时的修改,有利于提高对待处理文本的意图的理解的准确性。
在第三方面的一种可能实现方式中,方法还包括:电子设备获取待处理文本,待处理文本包括多个字符;通过目标模型对待处理文本进行处理,得到预测结果,其中,预测结果用于指示将待处理文本拆分为多个目标字符集合,每个目标字符集合包括至少一个字符,预测结果还包括多个第一标签,一个第一标签用于指示一个目标字符集合的语义,多个第一标签用于确定待处理文本的意图。
本申请实施例的第三方面提供的电子设备还可以执行第一方面的各个可能实现方式中执行设备执行的步骤,对于本申请实施例第三方面以及第三方面的各种可能实现方式中名词的含义、步骤的具体实现步骤以及每种可能实现方式所带来的有益效果,均可以参考第一方面中各种可能的实现方式中的描述,此处不再一一赘述。
第四方面,本申请实施例提供了一种文本数据的处理装置,可用于人工智能领域的文本数据的处理领域中。文本数据的处理装置可以包括:获取模块,用于获取待处理文本,待处理文本包括多个字符;处理模块,用于通过目标模型对待处理文本进行处理,得到预测结果,其中,预测结果用于指示将待处理文本拆分为多个目标字符集合,每个目标字符集合包括至少一个字符,预测结果还包括多个第一标签,一个第一标签用于指示一个目标字符集合的语义,多个第一标签用于确定待处理文本的意图。
本申请实施例的第四方面提供的文本数据的处理装置还可以执行第一方面的各个可能实现方式中执行设备执行的步骤,对于本申请实施例第四方面以及第四方面的各种可能实现方式的具体实现步骤,以及每种可能实现方式所带来的有益效果,均可以参考第一方面中各种可能的实现方式中的描述,此处不再一一赘述。
第五方面,本申请实施例提供了一种神经网络的训练装置,可用于人工智能领域的文本数据的处理领域中。神经网络的训练装置可以包括:处理模块,用于通过目标模型对待处理文本进行处理,得到预测结果,待处理文本包括一个或多个字符,预测结果用于指示将待处理文本拆分为多个第一字符集合,每个第一字符集合包括至少一个字符,预测结果还包括多个第一标签,一个第一标签用于指示一个目标字符集合的语义,多个第一标签用于确定待处理文本的预测意图;训练模块,用于根据目标损失函数,对目标模型进行训练,得到训练后的目标模型。其中,目标损失函数用于指示预测结果和与待处理文本对应的期望结果之间的相似度,与待处理文本对应的期望结果用于指示将待处理文本拆分为多个第二字符集合,每个第二字符集合包括至少一个字符,与待处理文本对应的期望结果还包括多个期望标签,一个期望标签用于指示一个第二字符集合的语义,多个期望标签用于确定待处理文本的正确意图。
本申请实施例的第五方面提供的神经网络的训练装置还可以执行第二方面的各个可能实现方式中训练设备执行的步骤,对于本申请实施例第五方面以及第五方面的各种可能实现方式的具体实现步骤,以及每种可能实现方式所带来的有益效果,均可以参考第二方面中各种可能的实现方式中的描述,此处不再一一赘述。
第六方面,本申请实施例提供了一种文本数据的处理装置,可用于人工智能领域的文本数据的处理领域中。文本数据的处理装置可以包括:获取模块,用于获取目标数据子集合,目标数据子集合包括第一子集合和第二子集合,第一子集合包括第一字符串以及与第一字符串对应的第一期望标签,第二子集合包括第二字符串以及与第二字符串对应的第二期望标签;处理模块,用于根据目标数据子集合,确定与目标模型对应的第二数据集合,其中,目标模型用于对输入的待处理文本进行语义理解,第二数据集合包括多个目标数据子集合,第二数据集合用于目标模型的训练阶段和/或目标模型的推理阶段。目标数据子集合用于指示与待处理文本对应的期望结果,期望结果用于指示将待处理文本拆分成至少两组字符串,至少两组字符串中包括第一字符串和第二字符串,正确结果还包括与第一字符串对应的第一期望标签和与第二字符串对应的第二期望标签。
本申请实施例的第六方面提供的文本数据的处理装置还可以执行第三方面的各个可能实现方式中执行设备执行的步骤,对于本申请实施例第六方面以及第六方面的各种可能实现方式的具体实现步骤,以及每种可能实现方式所带来的有益效果,均可以参考第三方面中各种可能的实现方式中的描述,此处不再一一赘述。
第七方面,本申请实施例提供了一种计算机程序产品,当计算机程序在计算机上运行时,使得计算机执行上述第一方面或第三方面所述的文本数据的处理方法,或者,使得计算机执行上述第二方面所述的神经网络的训练方法。
第八方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述程序在计算机上运行时,使得计算机执行上述第一方面或第三方面所述的文本数据的处理方法,或者,使得计算机执行上述第二方面所述的神经网络的训练方法。
第九方面,本申请实施例提供了一种执行设备,可以包括处理器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时实现上述第一方面所述的文本数据的处理方法。
第十方面,本申请实施例提供了一种电子设备,可以包括处理器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时实现上述第二方面所述的神经网络的训练方法,或者,当存储器存储的程序指令被处理器执行时实现上述第三方面所述的文本数据的处理方法。
第十一方面,本申请实施例提供了一种电路***,所述电路***包括处理电路,所述处理电路配置为执行上述第一方面或第三方面所述的文本数据的处理方法,或者,所述处理电路配置为执行上述第二方面所述的神经网络的训练方法。
第十二方面,本申请实施例提供了一种芯片***,该芯片***包括处理器,用于实现上述各个方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,所述芯片***还包括存储器,所述存储器,用于保存服务器或通信设备必要的程序指令和数据。该芯片***,可以由芯片构成,也可以包括芯片和其他分立器件。
附图说明
图1为本申请实施例提供的人工智能主体框架的一种结构示意图;
图2为本申请实施例提供的文本数据的处理***的一种***架构图;
图3为本申请实施例提供的神经网络的训练方法的一种流程示意图;
图4为本申请实施例提供的神经网络的训练方法中获取目标数据子集合的一种界面示意图;
图5为本申请实施例提供的神经网络的训练方法中获取第一修改操作的一种界面示意图;
图6为本申请实施例提供的神经网络的训练方法中获取第二修改操作的一种界面示意图;
图7为本申请实施例提供的神经网络的训练方法中预测结果的一种示意图;
图8为本申请实施例提供的神经网络的训练方法中生成与第一字符集合对应的多个第二评分的一种流程示意图;
图9为本申请实施例提供的神经网络的训练方法的一种流程示意图;
图10为本申请实施例提供的文本数据的处理方法的一种流程示意图;
图11为本申请实施例提供的文本数据的处理方法的一种流程示意图;
图12为本申请实施例提供的文本数据的处理装置的一种结构示意图;
图13为本申请实施例提供的文本数据的处理装置的另一种结构示意图;
图14为本申请实施例提供的神经网络的训练装置的一种结构示意图;
图15为本申请实施例提供的神经网络的训练装置的另一种结构示意图;
图16为本申请实施例提供的文本数据的处理装置的一种结构示意图;
图17为本申请实施例提供的执行设备的一种结构示意图;
图18是本申请实施例提供的电子设备一种结构示意图;
图19为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
首先对人工智能***总体工作流程进行描述,请参见图1,图1示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到***的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能***提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片提供,该智能芯片具体可以采用中央处理器(central processing unit,CPU)、嵌入式神经网络处理器(neural-network processing unit,NPU)、图形处理器(graphics processing unit,GPU)、专用集成电路(application specific integrated circuit,ASIC)或现场可编程门阵列(fieldprogrammable gate array,FPGA)等硬件加速芯片;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算***中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有***的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能***中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用***,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能***在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、智慧城市等。
本申请实施例可以应用于人工智能领域的自然语言处理(natural languageprocessing,NLP)中,具体的,可以应用于各种需要进行自然语言理解(natural languageunderstanding,NLU)的应用场景中。作为示例,例如在智能终端领域,用户可以向手机输入“订一张今天下午的电影票”,从而手机需要对“订一张今天下午的电影票”这一待处理文本进行语义理解。作为另一示例,例如在智能家居领域,用户可以向智能冰箱输入“有没有推荐的晚餐菜谱”,则智能冰箱需要对“有没有推荐的晚餐菜谱”这一待处理文本进行语义理解。
作为另一示例,例如在自动驾驶领域,用户可以向自动驾驶车辆输入“查一下小明的电话号码的归属地”,则自动驾驶车辆需要对“查一下小明的电话号码的归属地”这一待处理文本进行语义理解等等,此处不对本申请实施例的应用场景进行穷举。在上述种种应用领域中,均需要利用人工智能技术进行自然语言理解,也即在上述种种应用领域中,均亟需一种更具有泛化能力的自然语言理解的方法。
在对本申请实施例提供的文本数据的处理方法进行详细介绍之前,先结合图2对本申请实施例提供的文本数据的处理***进行介绍。请先参阅图2,图2为本申请实施例提供的文本数据的处理***的一种***架构图,在图2中,文本数据的处理***200包括执行设备210、训练设备220、数据库230和数据存储***240,执行设备210中配置有计算模块211。
其中,数据库230中存储有训练数据集合,训练数据集合包括多个待处理文本,以及每个待处理文本所对应的期望结果,该期望结果用于指示将待处理文本拆分为至少一个第二字符集合,每个第二字符集合包括至少一个字符;该期望结果还包括与至少一个第二字符集合对应的至少一个期望标签,至少一个期望标签用于指示待处理文本的正确意图。
训练设备220生成目标模型/规则201,并利用数据库230中的训练数据集合对目标模型/规则201进行迭代训练,得到训练后的目标模型/规则201,训练后的目标模型/规则201也可以称为成熟的目标模型/规则201。进一步地,目标模型/规则201具体可以采用神经网络或非神经网络类型的模型来实现,本申请实施例中不进行限定。
训练设备220得到的训练后的目标模型/规则201可以应用不同的***或设备中,例如手机、平板、笔记本电脑、虚拟现实(virtual reality,VR)设备、智能机器人、自动驾驶车辆或其他类型的设备等等。其中,执行设备210可以调用数据存储***240中的数据、代码等,也可以将数据、指令等存入数据存储***240中。数据存储***240可以置于执行设备210中,也可以为数据存储***240相对执行设备210是外部存储器。
计算模块211可以通过目标模型/规则201对输入的待处理文本进行语义理解,得到目标模型/规则201输出的预测结果;其中,预测结果用于指示将待处理文本拆分为至少一个目标字符集合,每个目标字符集合包括至少一个字符,预测结果还包括与至少一个目标字符集合对应的至少一个第一标签,至少一个第一标签用于反映待处理文本的意图。
本申请实施例中,由于是为待处理文本中的字符匹配标签,在一个目标字符集合中可以不包括叠字或语气助词等,也即可以将叠字或语气助词拆分至另一个目标字符集合中,从而即使整个待处理文本中存在叠字或语气助词等,也能够实现对待处理文本的意图的理解,提供了一种更具有泛化能力的自然语言理解的方法;且由于预测结果指示如何将整个待处理文本进行拆分,且还包括与待处理文本对应的至少一个标签,也即预测结果中携带了更为丰富的信息,有利于提高对待处理文本进行意图理解过程的准确率。
本申请的一些实施例中,请参阅图2,“用户”可以直接与执行设备210交互,也即执行设备210可以直接将目标模型/规则201输出的预测结果展示给“用户”,值得注意的,图2仅是本发明实施例提供的文本数据的处理***的一种架构示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如,在本申请的另一些实施例中,执行设备210和客户设备也可以为分别独立的设备,执行设备210配置有输入/输出(in/out,I/O)接口,执行设备210通过I/O接口与客户设备进行数据交互。
结合上述描述可知,下面开始对本申请实施例提供的文本数据的处理方法的训练阶段和推理阶段的具体实现流程进行描述。
一、训练阶段
本申请实施例中,训练阶段描述的是训练设备220如何利用数据库230中的图像数据集合生成成熟的神经网络的过程,具体的,请参阅图3,图3为本申请实施例提供的神经网络的训练方法的一种流程示意图,本申请实施例提供的神经网络的训练方法可以包括:
301、训练设备获取目标数据子集合,目标数据子集合包括至少一级目标标签,目标数据子集合还包括与目标标签对应的第三字符串,目标标签用于指示第三字符串的语义。
本申请的一些实施例中,在训练设备对目标模型进行训练之前,可以获取多个目标数据子集合,每个目标数据子集合包括至少一级目标标签,目标数据子集合还包括与目标标签对应的第三字符串,目标标签用于指示第三字符串的语义。
其中,目标模型用于对输入的待处理文本进行语义理解,获取到的多个目标数据子集合可以用于目标模型的训练阶段和/或目标模型的推理阶段。进一步地,多个目标数据子集合可以理解为“获取到的多个目标数据子集合可以用于生成目标模型的训练数据”。
一个第三字符串包括至少一个字符,第三字符串具体可以表现为槽位词、连词、语气词或其他类型的词语等;第三字符串可以为中文、英文、俄文或其他语言等,具体应当结合实际应用场景灵活确定,此处不做限定。作为示例,例如第三字符串可以为“查询一下”、“查一下”或“看一下”等;作为另一示例,例如第三字符串可以为“的”、“与”或“和”等;作为另一示例,例如第三字符串可以为“啊”、“吧”或“啦”等;作为另一示例,例如第三字符串可以为“party”或“books”等,此处不做穷举。
进一步地,在一些情况中,一个目标数据子集合包括的至少一个目标标签均为同一级别,目标数据子集合还包括与每个目标标签对应的第三字符串。作为示例,例如一个目标数据子集合只包括{查询时间}这一个目标标签,与{查询时间}这一目标标签对应的第三字符串可以为“现在几点了?”、“几点了”、“查下时间”或其他字符串等等,应理解,此处举例仅为方便理解一个目标数据子集合中可以包括哪些数据,不用于限定本方案。
在另一些情况中,一个目标数据子集合包括至少两级标签,则目标数据子集合还需要指示不同级别的标签之间的归属关系;至少两级目标标签包括第三标签和第四标签,目标数据子集合还包括与第三标签对应的第三字符串,第三标签用于反映第三字符串的意图,第四标签为第三标签的父标签,也即第三标签为第四标签的子标签。
作为示例,例如一个目标数据子集合具体可以表现为如下内容:
IN_#{归属地查询}->#{查询号码}#{归属地}
#{查询号码}->#{查询}#{电话号码}
#{查询}->查询一下|查一下|问一下|看一下|…
#{电话号码}->电话号码|手机号码|手机号|号码|…
#{归属地}->什么地方|从哪里|哪里的|哪儿的|…
其中,“->”代表不同级别的标签之间的归属关系,“#{}”内代表的是标签名,上述举例中以一个目标数据子集合包括三级标签为例,“归属地查询”这一标签为“查询号码”和“归属地”这两个标签的父标签,“查询号码”这一标签为“查询”和“电话号码”这两个标签的父标签。第三标签指的是级别最低的标签,上述示例中示出的“查询一下”、“查一下”、…“电话号码”、“手机号码”…“哪里的”以及“哪儿的”等槽位词为目标数据子集合包括的多个第三字符串的示例;第三标签用于反映第三字符串的意图,例如“查询一下”、“查一下”、“问一下”和“看一下”这四个第三字符串的意图均为“查询”,也即目标数据子集合还用于指示不同级别的标签之间的归属关系,应理解,此处举例仅为方便理解一个目标数据子集合中可以包括哪些数据,不用于限定本方案。
可选地,若目标模型专门用于处理目标数据域的文本数据,则每个目标数据子集合包括的可以均为目标数据域的数据。作为示例,例如目标模型被配置于家教机器人中,也即目标模型用于对教育领域的文本进行语义理解,则目标数据域为教育领域的数据,应理解,此处举例仅为方便理解目标数据域的概念,不用于限定本方案。
训练设备还可以获取多个第一数据子集合,第一数据子集合与目标数据子集合的概念类似,区别在于目标数据子集合中包括的多个第三字符串均归属于目标数据域,第一数据子集合中包括的多个第三字符串均不是目标数据域中的数据。第一数据子集合中与第三字符串对应的第三标签可以为第三字符串的类型、第三字符串所在数据域的类型或其他类型的标签等等,作为示例,例如第一数据子集合中的第三标签可以为“名词”、“动词”或其他标签等,此处不做穷举。
针对“目标数据子集合”的获取方式。在一种实现方式中,训练设备可以接收其他通信设备发送的多个目标数据子集合,并将接收到的多个目标数据子集合存储至本地。
在另一种实现方式中,训练设备可以配置有显示界面,并通过该显示界面接收用户输入的至少一个目标数据子集合;也即用户可以通过该显示界面设定一个目标数据子集合中包括几个级别的标签和不同级别的标签之间的归属关系,还可以通过该显示界面输入每个标签的内容以及多个第三字符串的内容。
在另一种实现方式中,训练设备可以接收其他通信设备发送的多个目标数据子集合,以及通过显示界面接收用户输入的至少一个目标数据子集合。
可选地,训练设备还可以通过该显示界面接收用户对标签的类别的设置操作,标签的类别用于指示一个标签是必选标签还是可选标签。
可选地,训练设备还可以通过该显示界面接收用户对一个目标数据子集合的目标修改操作,目标修改操作可以包括对一个目标数据子集合中的第一修改操作,和/或,对一个第三字符串的第二修改操作。第一修改操作包括但不限于添加父标签、添加子标签、删除父标签、删除子标签、修改标签内容或其他操作等,第二修改操作包括但不限于添加、删除、修改第三字符串的内容或其他操作等,具体可以结合实际产品形态灵活设定。
本实现方式中,便于用户通过显示界面结合实际应用场景的变化,对目标数据子集合中的字符串进行及时的修改,有利于提高对待处理文本的意图的理解的准确性。
为更直观地理解本方案,请参阅图4至图6,图4为本申请实施例提供的神经网络的训练方法中获取目标数据子集合的一种界面示意图,先参阅图4,图4中展示的为用户输入的一个目标数据子集合在显示界面上所展示的信息,如图4所示,一个目标数据子集合包括三级标签,第一级标签为“归属地查询”;第二级标签为“查询号码”和“归属地”,“归属地查询”为“查询号码”和“归属地”的父标签;第三级标签为“查询”和“号码”,“查询号码”为“查询”和“号码”的父标签。
图4中还示出了“查询号码”、“查询”、“号码”和“归属地”这三个标签的类别为必选(也即图4中的“Y”),需要说明的是,用户可以通过修改图4中表格的内容来修改一个标签的类别,应理解,图4中的示例仅为方便理解本方案,不用于限定本方案。
继续参阅图5,图5为本申请实施例提供的神经网络的训练方法中获取第一修改操作的一种界面示意图,结合图4理解图5,用户可以通过每个标签旁边的删除图标(也即图5中的垃圾桶图标)输入对标签的删除操作,用户可以通过点击A1输入对第二级标签的添加操作;可以通过点击A2输入对第三级标签的添加操作;用户可以直接点击标签的文字,以触发对标签的内容的修改操作,应理解,图5中的示例仅为方便理解本方案,不用于限定本方案。
再参阅图6,图6为本申请实施例提供的神经网络的训练方法中获取第二修改操作的一种界面示意图,结合图4和图5理解图6,用户可以通过点击B1输入对第三字符串的添加操作;可以通过点击B2输入对第三字符串的删除操作;用户可以直接点击第三字符串的文字,以触发对第三字符串的内容的修改操作,应理解,图6中的示例仅为方便理解本方案,不用于限定本方案。
302、训练设备获取待处理文本和与待处理文本对应的期望结果,期望结果用于指示将待处理文本拆分为至少一个第二字符集合,每个第二字符集合包括至少一个字符,与待处理文本对应的期望结果还包括与至少一个第二字符集合对应的至少一个期望标签,至少一个期望标签用于指示待处理文本的正确意图。
本申请实施例中,训练设备在对目标模型进行训练之前,需要先获取待处理文本和与待处理文本对应的期望结果(也即获取训练数据)。
具体的,步骤301为可选步骤,在一种实现方式中,若执行步骤301,且步骤301中获取到的多个目标数据子集合用于生成目标模型的训练数据。则训练设备可以根据多个目标数据子集合中的任意一个目标数据子集合,生成至少一个待处理文本以及每个待处理文本所对应的期望结果。
更具体的,在一种实现方式中,与用于对目标模型进行训练的待处理文本对应的第三评分满足预设条件,第三评分用于指示待处理文本的质量。
其中,预设条件可以为第三评分大于或等于第一预设阈值,预设条件也可以为第三评分小于或等于第二预设阈值,预设条件的具体表现形式可以结合第三评分的具体生成方式确定。用于评价待处理文本的质量的指标包括但不限于候选训练文本的通顺度或其他类型的评价指标等。
也即训练设备在根据一个目标数据子集合,生成一个候选训练文本之后,还可以生成与候选训练文本对应的第三评分,第三评分用于指示候选训练文本的质量。训练设备判断候选训练文本所对应的第三评分是否满足预设条件,若判断结果为是,则将候选训练文本确定为用于对目标模型进行训练的待处理文本,并根据目标数据子集合,获取待处理文本所对应的期望结果;若判断结果为否,则可以删除该候选训练文本,并继续生成下一个候选训练文本。
进一步地,训练设备可以将候选训练文本输入第一模型中,以通过第一模型计算该候选训练文本所对应的困惑度损失(perplexity loss),得到第一模型输出的与候选训练文本对应的第三评分。作为示例,例如训练设备根据一个目标数据子集合,生成六个候选训练文本,并分别得到每个候选训练文本的第三评分,具体通过如下表格示出:
候选训练文本 | 第三评分 | 候选训练文本 | 第三评分 |
要和你讲绘本 | 4.321032165179162 | 要和讲个绘本 | 11.43761551051832 |
看下这本故事 | 2.440600608831472 | 要同的看书 | 14.794469739236522 |
要同俺看这本故事 | 6.343048812278409 | 要同看个绘本 | 7.786327851748459 |
表1
其中,表1中示出了与六个候选训练文本一一对应的六个第三评分,每个第三评分代表该候选训练文本所对应的困惑度损失,一个候选训练文本所对应的第三评分越小,代表该候选训练文本的质量越高,从而可以基于每个候选训练文本所对应的第三评分执行筛选操作,应理解,表1中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,由于在目标模型的实际应用过程中,用户输入至目标模型的都是比较通顺的文本,则与用于进行训练的待处理文本所对应的第三评分满足预设条件,从而保证用于进行训练的待处理文本均为高质量的文本,也即用于进行训练的待处理文本与用户的实际语言习惯较为相似,有利于提高训练数据的质量,也有利于提高训练后的目标模型的精度。
在另一种实现方式中,训练设备可以直接根据目标数据子集合,生成用于对模型进行训练的待处理文本,并获取待处理文本所对应的期望结果,也即将每个候选训练文本均确定为用于对模型进行训练的待处理文本,不再基于候选训练文本的通顺度执行筛选操作。
针对基于目标数据子集合生成一个待处理文本(或候选训练文本)的过程。参阅步骤301中的介绍,一个目标数据子集合可以包括至少一级目标标签,目标数据子集合还包括与目标标签对应的第三字符串,目标标签用于指示第三字符串的语义。
具体的,在一种情况下,目标数据子集合中有至少两个第三标签,该至少两个第三标签包括第一期望标签和第二期望标签;该目标数据子集合可以包括与至少两个第三标签一一对应的至少两个目标子集合,每个目标子集合中包括一个第三标签和该第三标签所对应的至少一个第三字符串。作为示例,例如一个目标子集合中可以包括一个第三标签“查询”,和与“查询”这个标签对应的多个第三字符串包括但不限于“查询一下”、“查一下”、“问一下”或“看一下”等,此处不做穷举。
至少两个目标子集合可以包括与第一期望标签对应的第一子集合和与第二期望标签对应的第二子集合,第一子集合包括第一字符串以及与第一字符串对应的第一期望标签,第二子集合包括第二字符串以及与第二字符串对应的第二期望标签。
则一个待处理文本(或候选训练文本)可以包括第一字符串和第二字符串,与前述待处理文本(或候选训练文本)对应的期望结果包括与第一字符串对应的第一期望标签和与第二字符串对应的第二期望标签。
作为示例,例如一个目标数据子集合中可以包括与三个第三标签对应的三个目标子集合,第一个子集合包括标签“查询”,还包括与“查询”这一标签对应的“查询一下”、“查一下”、“问一下”和“看一下”这四个字符串;第二个子集合包括标签“电话号码”,还包括与“电话号码”这一标签对应的“电话号码”、“手机号码”、“手机号”和“号码”这四个字符串;第三个子集合包括标签“归属地”,还包括与“归属地”这一标签对应的“什么地方”、“从哪里”、“哪里的”和“哪儿的”这四个字符串。
则基于上述目标子集合包括的一个待处理文本可以为“查询一下电话号码哪里的”、“查询一下电话号码哪儿的”、“问一下手机号码哪里的”或其他形式的待处理文本等,与该待处理文本对应的期望结果中包括的三个期望标签分别为“查询”、“电话号码”和“归属地”,应理解,此处举例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,基于目标数据子集合逆向生成用于进行训练的待处理文本,以及待处理文本所对应的期望结果,从而保证了待处理文本的可拆分性,以及待处理文本所对应的期望结果的准确度,也即保证了用于进行训练的待处理文本符合目标模型的处理逻辑,有利于提高用于进行训练的待处理文本与目标模型之间的适配度,进而有利于提高训练后的目标模型的准确率。
在另一种情况下,目标数据子集合中只有一个第三标签,训练设备可以从与该一个目标标签对应的一个或多个第三字符串中选取任意一个第三字符串作为待处理文本(或候选训练文本),将该一个目标标签作为与该待处理文本(或候选训练文本)对应的期望结果。
在另一种实现方式中,若不执行步骤301,或者,若执行步骤301,且步骤301中获取到的多个目标数据子集合不用于生成目标模型的训练数据。则训练设备上还可以预先存储有训练数据集合,训练数据集合中包括多个待处理文本和每个待处理文本所对应的期望结果,训练设备从训练数据集合中获取待处理文本和与待处理文本对应的期望结果。
303、训练设备通过目标模型对待处理文本进行语义理解,得到目标模型输出的预测结果,预测结果用于指示待处理文本被拆分为至少一个第一字符集合,每个第一字符集合包括至少一个字符,预测结果还包括与至少一个第一字符集合对应的至少一个第一标签,至少一个第一标签用于反映待处理文本的预测意图。
本申请实施例中,训练设备在获取到待处理文本后,通过目标模型对待处理文本进行语义理解,得到目标模型输出的预测结果。
其中,预测结果用于指示待处理文本被拆分为至少一个第一字符集合,每个第一字符集合包括至少一个字符,预测结果还包括与至少一个第一字符集合对应的至少一个第一标签,至少一个第一标签用于反映待处理文本的预测意图。
进一步地,至少一个第一标签可以只包括一级标签,也可以包括至少两级标签,当至少一个第一标签包括至少两级标签时,至少两级标签可以包括父标签和子标签,预测结果还用于指示父标签和子标签之间的归属关系,也即预测结果还用于指示该至少两级标签所对应的级别数量、每个第一标签属于哪个级别以及不同标签之间的对应关系。
为更直观地理解本方案,请参阅图7,图7为本申请实施例提供的神经网络的训练方法中预测结果的一种示意图,图7中以采用树结构的方式来展示待处理文本的预测结果为例,如图7所示,待处理文本为“查询一下手机号是哪儿的”,待处理文本的预测结果用于展示将待处理文本拆分为“查询一下”、“手机号”、“是”“哪儿的”这四个第一字符集合。如图7所示,待处理文本的预测结果还包括“归属地查询”、“查询号码”、“归属地”、“查询”和“电话号码”这五个第一标签,“归属地查询”这一标签代表整个待处理文本的语义,“查询号码”这一标签代表“查询一下手机号”的语义,“归属地”这一标签代表“哪儿的”的语义,“查询”这一标签代表“查询一下”的语义,“电话号码”这一标签代表“手机号”的语义,从而能够根据这五个第一标签理解整个待处理文本的意图,应理解,图7中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,预测结果可以包括至少两级标签,至少两级标签可以包括父标签和子标签,预测结果还用于指示父标签和子标签之间的归属关系;也即预测结果携带的信息更为丰富,有利于进一步提高对待处理文本进行意图理解过程的准确率。
与待处理文本对应有N种拆分方式,也即待处理文本可以有N种拆分方式,N为大于或等于1的整数,预测结果用于指示与待处理文本对应的一种目标拆分方式,目标拆分方式为N种拆分方式中的一种拆分方式,预测结果基于第一字符集合与第一标签之间的匹配度得到。进一步地,预测结果基于与每个第一字符集合对应的第一评分得到,与第一字符集合对应的第一评分用于指示第一字符集合与第一标签之间的匹配度。
进一步地,由于与每个第一字符集合对应有一个第一评分,则与待处理文本对应有至少一个第一评分,训练设备可以获取到与目标拆分方式对应的目标总评分值,与目标拆分方式对应的目标总评分值为与目标拆分方式对应的至少一个第一评分的总和,目标拆分方式可以为N种拆分方式中目标总评分值最高的一种拆分方式;或者,与目标拆分方式对应的目标总评分值大于或等于第一阈值。
作为示例,例如待处理文本为“给小明打电话”,则与待处理文本对应有一种拆分方式包括可以为拆分为“给小明”和“打电话”,另一种拆分方式可以为“给”、“小明”和“打电话”,另一种拆分方式可以为“给小明”、“打”和“电话”,另一种拆分方式可以为“给小明打”和“电话”等等,应理解,此处举例仅为方便理解对待处理文本进行拆分这一概念,不用于对待处理文本的所有拆分方式进行穷举。
本申请实施例中,最终输出的预测结果用于指示与待处理文本对应的一种目标拆分方式,而该预测结果基于与每个第一字符集合对应的第一评分得到,与第一字符集合对应的第一评分用于指示第一字符集合与第一标签之间的匹配度;第一字符集合与第一标签之间的匹配度越高,证明第一标签越能准确的反映第一字符集合的语义,通过前述方案,能够得到更能反映待处理文本的意图的至少一个第一标签。
具体的,由于待处理文本可能会被拆分成任何形式,则训练设备可以从待处理文本中获取目标字符串,生成与目标字符串匹配的第一标签,并获取目标字符串所匹配的第一标签的第一评分。其中,目标字符串为待处理文本中任意长度的一个字符串。训练设备可以重复执行前述操作,以对与待处理文本对应的所有目标字符串生成与之匹配的第一标签和第一评分,进而可以确定与待处理文本对应的预测结果。
作为示例,例如待处理文本为“小明的电话号码是多少”,则目标字符串可以为如下中的任意一种“小”、“明”、“的”、“电”、“话”、“号”、“码”、“是”、“多”、“少”、“小明”、“明的”、“的电”、“电话”、“话号”、“号码”、“码是”、“是多”、“多少”、“小明的”、“明的电”、“的电话”、“电话号”、“话号码”、“号码是”、“码是多”、“是多少”、“小明的电”、“明的电话”、“的电话号”、“电话号码”……“的电话号码是多少”、“小明的电话号码是多”、“明的电话号码是多少”或“小明的电话号码是多少”,对于省略部分,可参阅举例部分进行理解,此处不做穷举。
进一步地,针对与一个第一字符集合(也即目标字符串的一个示例)匹配的第一标签的获取过程。训练设备可以将第一字符集合与第一数据集合中的多个字符串进行匹配,以确定与第一字符集合匹配的至少一个目标字符串,一个字符串包括至少一个字符。训练设备从第一数据集合中获取与至少一个目标字符串对应的至少一个第二标签;或者,若第一数据集合中不存在与第一字符集合匹配的字符串,则训练设备可以获取与至少一个目标字符串对应的一个空标签。
训练设备根据第一字符集合和至少一个第二标签(或者一个空标签),可以通过目标模型将第一字符集合与第一数据集合中的多个标签进行匹配,以得到与第一字符集合匹配的第一标签。更具体的,训练设备根据第一字符集合和至少一个第二标签(或者一个空标签),可以通过目标模型的第一模型生成第一字符集合与第一数据集合中每个标签之间的匹配度,以得到与第一字符集合对应的多个第二评分,一个第二评分用于指示第一字符集合与第一数据集合中的一个标签之间的匹配度;训练设备通过目标模型根据多个第二评分,确定与第一字符集合匹配的第一标签,并获取第一字符集合所匹配的第一标签的第一评分。
本申请实施例中,由于在生成第一字符集合所匹配的第一标签的过程中,是将第一字符集合与第一数据集合中的多个字符串进行匹配,以确定与第一字符集合匹配的至少一个目标字符串,进而获取与至少一个目标字符串对应的至少一个第二标签,并通过目标模型将第一字符集合与第一数据集合中的多个标签进行匹配,以得到与第一字符集合匹配的第一标签。也即当第一数据库中与第二标签匹配的字符串进行更新时,不需要对目标模型重新进行训练,避免了对目标模型进行重新训练时所产生的时间成本,且便于结合实际应用场景的变化,对第一数据集合中的字符串进行及时的修改,有利于提高对待处理文本的意图的理解的准确性。
其中,第一数据集合可以包括多个目标数据子集合,也即目标数据子集合可以应用于目标模型的推理阶段,则“目标字符串”的含义与步骤301中“第三字符串”的含义相同,“第二标签”的含义与步骤301中“第三标签”的含义相同。
第一模型可以包括编码器和解码器,作为示例,该编码器可以采用转换器(transformer)结构,该解码器具体可以采用多层感知器(muti layer perception,MLP)。
具体的,训练设备可以将第一字符集合和至少一个第二标签(或者一个空标签)输入至编码器,以通过编码器进行特征提取,以生成与第一字符集合对应的向量表示;训练设备将与第一字符集合对应的向量表示输入至解码器中,以通过解码器生成多个第二评分。
可选地,在训练设备获取到与第一字符集合对应的至少一个第二标签的情况下,训练设备在从第一数据集合中获取与至少一个目标字符串对应的至少一个第二标签之后,还可以将待处理文本、第一字符集合和至少一个第二标签输入至目标模型中的第二模型,以通过目标模型中的第二模型生成目标指示信息,目标指示信息用于指示每个第二标签与第一字符集合匹配或不匹配,训练设备根据目标指示信息对至少一个第二标签进行筛选,得到至少一个筛选后的标签。
其中,至少一个筛选后的标签具体可以表现为空标签,第二模型具体可以表现为二分类模型,则当目标指示信息具体表现为第一值时,代表第二标签与第一字符集合匹配;当目标指示信息具体表现为第二值时,代表第二标签与第一字符集合不匹配。作为示例,例如第一值可以为true,第二值可以为false;作为另一示例,例如第一值可以为1,第二值可以为0等,此处不对第一值和第二值的具体表现形式进行穷举。
至少一个筛选后的标签可以包括至少一个第二标签,或者,若目标指示信息指示所有第二标签与第一字符集合均不匹配,则至少一个筛选后的标签可以包括一个空标签。
对应的,训练设备根据第一字符集合和至少一个第二标签,通过目标模型生成第一字符集合与第一数据集合中每个标签之间的匹配度,以得到与第一字符集合对应的多个第二评分,可以包括:训练设备根据第一字符集合和至少一个筛选后的标签,通过目标模型生成第一字符集合与第一数据集合中每个标签之间的匹配度,以得到与第一字符集合对应的多个第二评分。
为更直观地理解本方案,请参阅图8,图8为本申请实施例提供的神经网络的训练方法中生成与第一字符集合对应的多个第二评分的一种流程示意图。D1、训练设备将第一字符集合与第一数据集合中的多个字符串进行匹配,以确定与第一字符集合匹配的至少一个目标字符串,并从第一数据集合中获取与至少一个目标字符串对应的至少一个第二标签。D2、训练设备根据待处理文本、第一字符集合和至少两个第二标签,通过目标模型生成目标指示信息,目标指示信息用于指示每个第二标签与第一字符集合匹配或不匹配。D3、训练设备根据目标指示信息对至少两个第二标签进行筛选,得到至少一个筛选后的标签。D4、训练设备根据第一字符集合和至少一个筛选后的标签,通过目标模型生成与第一字符集合对应的多个第二评分。应理解,图8中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,在获取到与第一字符集合对应的至少一个第二标签后,还会根据整个待处理文本对该至少一个第二标签进行筛选,以保证至少一个筛选后的标签能够满足整个待处理文本的语境,以降低匹配到错误的第二标签的概率,有利于提高对待处理文本的意图的理解的准确性。
进一步地,第一字符集合可以被拆分为第一字符和第二字符,作为示例,例如待处理文本为“查询一下小明的电话号码是哪里的”,第一字符集合为“小明的电话号码”,则第一字符可以为“小明的”,第二字符可以为“电话号码”,应理解,此处举例仅为方便理解第一字符集合、第一字符和第二字符之间的关系,不用于限定本方案。
可选地,训练设备可以分别获取第一字符所对应的第一标签和第二字符所对应的第一标签,根据第一字符所对应的第一标签、第二字符所对应的第一标签、第一字符集合和第一字符集合所匹配的至少一个第二标签(或者一个空标签),确定与第一字符集合匹配的第一标签,并获取第一字符集合所匹配的第一标签的第一评分。需要说明的是,第一字符所对应的第一标签和第二字符所对应的第一标签均可以表现为空标签,也可以表现为具有语义含义的标签,具体情况应结合实际应用场景确定,此处不做限定。
具体的,在一种实现方式中,训练设备可以将第一字符所对应的第一标签、第二字符所对应的第一标签、第一字符集合和第一字符集合所匹配的至少一个第二标签(或者一个空标签),输入至目标模型的第一模型中,以通过目标模型中的第一模型生成第一字符集合与第一数据集合中每个标签之间的匹配度,以得到与第一字符集合对应的多个第二评分。训练设备可以将多个第二评分中取值最高的一个第二评分确定为第一评分,将与该取值最高的一个第二评分对应的一个第五标签确定为与第一字符集合对应的第一标签。
在另一种实现方式中,训练设备在根据第一字符集合和第二标签,通过目标模型生成与第一字符集合对应的多个第二评分之后,可以获取与多个第二评分中取值最高的一个第二评分对应的一个第六标签,训练设备根据第一数据集合判断第六标签是否为第一字符所对应的第一标签的父标签,和/或,根据第一数据集合判断第六标签是否为第二字符所对应的第一标签的父标签,若判断结果为是,则将多个第二评分中取值最高的一个第二评分确定为第一评分,将第六标签确定为与第一字符集合对应的第一标签。
若判断结果为否,则训练设备获取与多个第二评分中取值第二高的一个第二评分对应的一个第七标签,训练设备根据第一数据集合判断第七标签是否为第一字符所对应的第一标签的父标签,和/或,根据第一数据集合判断第七标签是否为第二字符所对应的第一标签的父标签,若判断结果为是,则将多个第二评分中取值最高的一个第二评分确定为第一评分,将第七标签确定为与第一字符集合对应的第一标签。
若判断结果为否,则训练设备继续对与多个第二评分中取值第三高的一个第二评分执行上述操作,直至得到与第一字符集合对应的第一标签。其中,与第一字符集合对应的第一标签为第一字符所对应的第一标签的父标签,和/或,与第一字符集合对应的第一标签为第二字符所对应的第一标签的父标签。
304、训练设备根据目标损失函数,对目标模型进行训练,目标损失函数用于指示预测结果和与待处理文本对应的期望结果之间的相似度。
本申请实施例中,训练设备在通过目标模型生成待处理文本所对应的预测结果后,可以根据该预测结果和待处理文本所对应的期望结果,生成目标损失函数的函数值,并基于目标损失函数的函数值反向更新目标模型的权重参数,以完成对目标模型的一次训练。训练设备重复执行步骤302至304,以完成对目标模型的迭代训练,从而得到训练后的目标模型,训练后的目标模型也可以称为成熟的目标模型。
其中,目标损失函数用于指示待处理文本所对应的预测结果和待处理文本所对应的期望结果之间的相似度,对于前述预测结果和期望结果的含义可参阅上述步骤302和303中的描述,此处不做赘述。作为示例,例如目标损失函数具体可以采用MLP损失函数、汉明损失函数(hamming loss)或其他类型的损失函数,此处不对目标损失函数的具体表现形式进行穷举。
进一步地,若目标模型包括第一模型和第二模型,则第二模型可以为执行过训练操作的模型,也即在对目标模型的一次训练中,训练设备可以基于目标损失函数的函数值反向更新目标模型中的第一模型的权重参数,不再更新目标模型中的第二模型的权重参数。
为更直观地理解本方案,请参阅图9,图9为本申请实施例提供的神经网络的训练方法的一种流程示意图。其中,在数据准备阶段,训练设备获取多个目标数据子集合,并根据多个目标数据子集合得到第一数据集合;训练设备根据每个目标数据子集合生成一个或多个候选训练文本;训练设备对一个或多个候选训练文本进行筛选,以得到至少一个待处理文本,还根据目标数据子集合生成前述待处理文本所对应的期望结果。在语义理解阶段,训练设备将从待处理文本中获取目标字符串,从第一数据集合中获取与目标字符串匹配的至少一个第二标签;训练设备根据目标字符串和至少一个第二标签,通过目标模型中的编码器生成目标字符串的向量表示;训练设备根据目标字符串的向量表示、第一数据集合中不同级别的标签之间的归属关系以及第一数据集合中所有的第三标签,通过解码器生成待处理文本所对应的预测结果,前述步骤的具体实现方式可以参阅上述步骤301至303中的描述,应理解,图9中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,提供了目标模型的训练方法,扩展了本方案的应用场景;通过训练后的目标模型对待处理文本进行语义理解,得到目标模型输出的预测结果,预测结果用于指示将待处理文本拆分为至少一个第一字符集合,预测结果还包括与至少一个第一字符集合匹配的第一标签,以通过匹配到的所有第一标签来反映待处理文本的意图;由于本方案中是为待处理文本中的字符匹配标签,在一个第一字符集合中可以不包括叠字或语气助词等,也即可以将叠字或语气助词拆分至另一个第一字符集合中,从而即使整个待处理文本中存在叠字或语气助词等,也能够实现对待处理文本的意图的理解,也即提供了一种更具有泛化能力的自然语言理解的方法;且由于预测结果指示如何将整个待处理文本进行拆分,且还包括与待处理文本对应的至少一个标签,也即预测结果中携带了更为丰富的信息,有利于提高对待处理文本进行意图理解过程的准确率。
二、推理阶段
本申请实施例中,推理阶段描述的是执行设备210如何利用目标模型/规则201进行语义理解以生成预测结果的过程,具体的,请参阅图10,图10为本申请实施例提供的文本数据的处理方法的一种流程示意图,本申请实施例提供的文本数据的处理方法可以包括:
1001、执行设备获取第一数据集合,第一数据集合包括多个目标数据子集合,目标数据子集合包括至少一级目标标签,目标数据子集合还包括与目标标签对应的第三字符串,目标标签用于指示第三字符串的语义。
本申请实施例中,执行设备可以接收训练设备发送的第一数据集合,并将该第一数据集合存储至本地,第一数据集合的含义可以参阅图3对应实施例中的描述,此处不做赘述。在执行设备通过目标模型进行语义理解的过程中,训练设备还可以更新执行设备中的第一数据集合,对应的,执行设备可以获取到更新后的第一数据集合。
1002、执行设备获取待处理文本。
本申请实施例中,执行设备可以接收用户输入的待处理文本,用户可以通过语音的形式输入待处理文本,也可以通过文字的形式输入待处理文本,具体待处理文本的获取形式需要结合执行设备的具体产品形态确定,此处不做限定。
1003、执行设备通过目标模型对待处理文本进行语义理解,得到目标模型输出的预测结果,预测结果用于指示将待处理文本拆分为至少一个目标字符集合,每个目标字符集合包括至少一个字符,预测结果还包括与至少一个目标字符集合对应的至少一个第一标签,至少一个第一标签用于反映待处理文本的意图。
本申请实施例中,执行设备执行步骤1003的具体实现方式可参阅图3对应实施例中对步骤303的描述,图10对应实施例中“目标字符集合”的含义,与图3对应实施例中“第一字符集合”的含义类似,可直接参阅上述描述进行理解,此处不做赘述。
本申请实施例中,通过目标模型对待处理文本进行语义理解,得到目标模型输出的预测结果,预测结果用于指示将待处理文本拆分为至少一个目标字符集合,预测结果还包括与至少一个目标字符集合匹配的第一标签,以通过匹配到的所有第一标签来反映待处理文本的意图;由于本方案中是为待处理文本中的字符匹配标签,在一个目标字符集合中可以不包括叠字或语气助词等,也即可以将叠字或语气助词拆分至另一个目标字符集合中,从而即使整个待处理文本中存在叠字或语气助词等,也能够实现对待处理文本的意图的理解,也即提供了一种更具有泛化能力的自然语言理解的方法;且由于预测结果指示如何将整个待处理文本进行拆分,且还包括与待处理文本对应的至少一个标签,也即预测结果中携带了更为丰富的信息,有利于提高对待处理文本进行意图理解过程的准确率。
本申请实施例还提供了一种文本数据的处理方法,请参阅图11,图11为本申请实施例提供的文本数据的处理方法的一种流程示意图,本申请实施例提供的文本数据的处理方法可以包括:
1101、电子设备获取目标数据子集合,目标数据子集合包括第一子集合和第二子集合,第一子集合包括第一字符串以及与第一字符串对应的第一期望标签,第二子集合包括第二字符串以及与第二字符串对应的第二期望标签。
本申请实施例中,目标数据子集合的概念以及电子设备执行步骤1101的具体实现方式可参阅图3对应实施例中对步骤301的描述,此处不做赘述。
1102、电子设备根据目标数据子集合,确定与目标模型对应的第二数据集合,其中,第二数据集合包括多个目标数据子集合,目标数据子集合用于指示与待处理文本所对应的正确结果,正确结果用于指示将待处理文本拆分成至少两组字符串,至少两组字符串中包括第一字符串和第二字符串,正确结果还包括与第一字符串对应的第一期望标签和与第二字符串对应的第二期望标签。
1103、电子设备根据目标数据子集合,获取待处理文本和与待处理文本对应的期望结果,期望结果用于指示将待处理文本拆分为至少一个第二字符集合,每个第二字符集合包括至少一个字符,与待处理文本对应的期望结果还包括与至少一个第二字符集合对应的至少一个期望标签,至少一个期望标签用于指示待处理文本的正确意图。
1104、电子设备通过目标模型对待处理文本进行语义理解,得到目标模型输出的预测结果,预测结果用于指示待处理文本被拆分为至少一个第一字符集合,每个第一字符集合包括至少一个字符,预测结果还包括与至少一个第一字符集合对应的至少一个第一标签,至少一个第一标签用于反映待处理文本的预测意图。
1105、电子设备根据目标损失函数,对目标模型进行训练,目标损失函数用于指示预测结果和与待处理文本对应的期望结果之间的相似度。
本申请实施例中,步骤1103至1105中各个名词的概念,以及电子设备执行步骤1103至1105的具体实现方式均可参阅图3对应实施例中的描述,此处不做赘述。
需要说明的是,步骤1103和1105为可选步骤,若电子设备为目标模型的执行设备,则可以不执行步骤1103和1105,若电子设备为目标模型的训练设备,则步骤1103和1105为必选步骤。
本申请实施例中,还提供了目标数据子集合的获取方式,进一步扩展了本方案的应用场景。
为了更直观地理解本申请实施例所带来的有益效果,以下结合实验数据对本申请实施例的有益效果进行说明,实验所采用的数据集为公开数据集Task-oriented ParsingDataset,参阅如下表2。
声音控制 | 社交对话 | |
模板匹配 | 39.8% | 81.3% |
本申请实施例 | 93.8% | 88.7% |
表2
其中,表2中分别示出了采用已有的“模板匹配”的方式来理解输入的待处理文本的意图时的准确率,和采用本申请实施例提供的目标模型来理解输入的待处理文本的意图时的准确率,“声音控制”这一列的意思是指输入的待处理文本用于控制声音大小,“社交对话”这一列的意思是指输入的待处理文本为社交用语,通过上述对比可知,本申请实施例提供的方法能够有较强的泛化能力,能够有效的提高意图识别过程的准确率。
在图1至图11所对应的实施例的基础上,为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关设备。具体参阅图12,图12为本申请实施例提供的文本数据的处理装置的一种结构示意图,文本数据的处理装置1200可以包括:获取模块1201,用于获取待处理文本,待处理文本包括多个字符;处理模块1202,用于通过目标模型对待处理文本进行处理,得到预测结果,其中,预测结果用于指示将待处理文本拆分为多个目标字符集合,每个目标字符集合包括至少一个字符,预测结果还包括多个第一标签,一个第一标签用于指示一个目标字符集合的语义,多个第一标签用于确定待处理文本的意图。
在一种可能的设计中,多个第一标签包括至少两级标签,至少两级标签包括父标签和子标签,父标签和子标签之间具有归属关系。
在一种可能的设计中,与待处理文本对应有N种拆分方式,N为大于或等于1的整数,预测结果用于指示与待处理文本对应的一种目标拆分方式,目标拆分方式归属于N种拆分方式,预测结果基于多个目标字符集合与多个第一标签之间的匹配度得到。
在一种可能的设计中,处理模块1202,具体用于将每个目标字符集合与第一数据集合中的多个字符串进行匹配,以确定与每个目标字符集合匹配的目标字符串,并从第一数据集合中获取与目标字符串对应的至少一个第二标签,一个字符串包括至少一个字符;根据每个目标字符集合和第二标签,通过目标模型将每个目标字符集合与第一数据集合中的多个标签进行匹配,以得到与每个目标字符集合匹配的第一标签。
在一种可能的设计中,请参阅图13,图13为本申请实施例提供的文本数据的处理装置的另一种结构示意图,文本数据的处理装置1200还包括:生成模块1203,用于根据待处理文本、目标字符集合和至少两个第二标签,通过目标模型生成目标指示信息,目标指示信息用于指示每个第二标签与目标字符集合匹配或不匹配;筛选模块1204,用于根据目标指示信息对至少两个第二标签进行筛选,得到至少一个筛选后的标签;处理模块1202,具体用于根据目标字符集合和至少一个筛选后的标签,通过目标模型将目标字符集合与第一数据集合中的多个标签进行匹配。
需要说明的是,文本数据的处理装置1200中各模块/单元之间的信息交互、执行过程等内容,与本申请中上述各个方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供一种神经网络的训练装置,请参阅图14,图14为本申请实施例提供的神经网络的训练装置的一种结构示意图,神经网络的训练装置1400包括:处理模块1401,用于通过目标模型对待处理文本进行处理,得到预测结果,待处理文本包括一个或多个字符,预测结果用于指示将待处理文本拆分为多个第一字符集合,每个第一字符集合包括至少一个字符,预测结果还包括多个第一标签,一个第一标签用于指示一个目标字符集合的语义,多个第一标签用于确定待处理文本的预测意图;训练模块1402,用于根据目标损失函数,对目标模型进行训练,得到训练后的目标模型;其中,目标损失函数用于指示预测结果和与待处理文本对应的期望结果之间的相似度,与待处理文本对应的期望结果用于指示将待处理文本拆分为多个第二字符集合,每个第二字符集合包括至少一个字符,与待处理文本对应的期望结果还包括多个期望标签,一个期望标签用于指示一个第二字符集合的语义,多个期望标签用于确定待处理文本的正确意图。
在一种可能的设计中,多个第一标签包括至少两级标签,至少两级标签包括父标签和子标签,父标签和子标签之间具有归属关系。
在一种可能的设计中,请参阅图15,图15为本申请实施例提供的神经网络的训练装置的另一种结构示意图,神经网络的训练装置1400还包括:获取模块1403,用于获取目标数据子集合,目标数据子集合包括第一子集合和第二子集合,第一子集合包括第一字符串以及与第一字符串对应的第一期望标签,第二子集合包括第二字符串以及与第二字符串对应的第二期望标签;确定模块1404,用于根据目标数据子集合,确定待处理文本和与待处理文本对应的期望结果,其中,待处理文本包括第一字符串和第二字符串,期望结果包括与第一字符串对应的第一期望标签和与第二字符串对应的第二期望标签。
在一种可能的设计中,与待处理文本对应的第三评分满足预设条件,第三评分用于指示待处理文本的质量。
需要说明的是,神经网络的训练装置1400中各模块/单元之间的信息交互、执行过程等内容,与本申请中上述各个方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供一种文本数据的处理装置,请参阅图16,图16为本申请实施例提供的文本数据的处理装置的一种结构示意图,文本数据的处理装置1600包括:获取模块1601,用于获取目标数据子集合,目标数据子集合包括第一子集合和第二子集合,第一子集合包括第一字符串以及与第一字符串对应的第一期望标签,第二子集合包括第二字符串以及与第二字符串对应的第二期望标签;处理模块1602,用于根据目标数据子集合,确定与目标模型对应的第二数据集合,其中,目标模型用于对输入的待处理文本进行语义理解,第二数据集合包括多个目标数据子集合,第二数据集合用于目标模型的训练阶段和/或目标模型的推理阶段。目标数据子集合用于指示与待处理文本对应的期望结果,期望结果用于指示将待处理文本拆分成至少两组字符串,至少两组字符串中包括第一字符串和第二字符串,正确结果还包括与第一字符串对应的第一期望标签和与第二字符串对应的第二期望标签。
在一种可能的设计中,获取模块1601,还用于通过显示界面获取与目标数据子集合对应的修改操作,修改操作包括如下任一种或多种操作:删除目标数据子集合中的字符串、更新目标数据子集合中的字符串的内容或者在目标数据子集合中增加新的字符串。
在一种可能的设计中,获取模块1601,还用于获取待处理文本,待处理文本包括多个字符;处理模块1602,还用于通过目标模型对待处理文本进行处理,得到预测结果,其中,预测结果用于指示将待处理文本拆分为多个目标字符集合,每个目标字符集合包括至少一个字符,预测结果还包括多个第一标签,一个第一标签用于指示一个目标字符集合的语义,多个第一标签用于确定待处理文本的意图。
需要说明的是,文本数据的处理装置1600中各模块/单元之间的信息交互、执行过程等内容,与本申请中上述各个方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
接下来介绍本申请实施例提供的一种执行设备,请参阅图17,图17为本申请实施例提供的执行设备的一种结构示意图,执行设备1700具体可以表现为虚拟现实VR设备、手机、平板、笔记本电脑、智能穿戴设备、监控数据处理设备或者雷达数据处理设备等,此处不做限定。具体的,执行设备1700包括:接收器1701、发射器1702、处理器1703和存储器1704(其中执行设备1700中的处理器1703的数量可以一个或多个,图17中以一个处理器为例),其中,处理器1703可以包括应用处理器17031和通信处理器17032。在本申请的一些实施例中,接收器1701、发射器1702、处理器1703和存储器1704可通过总线或其它方式连接。
存储器1704可以包括只读存储器和随机存取存储器,并向处理器1703提供指令和数据。存储器1704的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器1704存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器1703控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线***耦合在一起,其中总线***除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线***。
上述本申请实施例揭示的方法可以应用于处理器1703中,或者由处理器1703实现。处理器1703可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1703中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1703可以是通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器1703可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1704,处理器1703读取存储器1704中的信息,结合其硬件完成上述方法的步骤。
接收器1701可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器1702可用于通过第一接口输出数字或字符信息;发射器1702还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器1702还可以包括显示屏等显示设备。
本申请实施例中,处理器1703中的应用处理器17031,用于执行图10对应实施例中的执行设备执行的文本数据的处理方法。具体的,应用处理器17031用于执行如下步骤:
获取待处理文本,待处理文本包括多个字符;
通过目标模型对待处理文本进行处理,得到预测结果,其中,预测结果用于指示将待处理文本拆分为多个目标字符集合,每个目标字符集合包括至少一个字符,预测结果还包括多个第一标签,一个第一标签用于指示一个目标字符集合的语义,多个第一标签用于确定待处理文本的意图。
需要说明的是,应用处理器17031执行上述各个步骤的具体方式,与本申请中图10对应的各个方法实施例基于同一构思,其带来的技术效果与本申请中图10对应的各个方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供了一种电子设备,请参阅图18,图18是本申请实施例提供的电子设备一种结构示意图。具体的,电子设备1800由一个或多个服务器实现,电子设备1800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(centralprocessing units,CPU)1822(例如,一个或一个以上处理器)和存储器1832,一个或一个以上存储应用程序1842或数据1844的存储介质1830(例如一个或一个以上海量存储设备)。其中,存储器1832和存储介质1830可以是短暂存储或持久存储。存储在存储介质1830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器1822可以设置为与存储介质1830通信,在电子设备1800上执行存储介质1830中的一系列指令操作。
电子设备1800还可以包括一个或一个以上电源1826,一个或一个以上有线或无线网络接口1850,一个或一个以上输入输出接口1858,和/或,一个或一个以上操作***1841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中,在一种情况中,中央处理器1822,用于执行图3对应实施例中的训练设备执行的方法。具体的,中央处理器1822可以用于执行如下步骤:
通过目标模型对待处理文本进行处理,得到预测结果,待处理文本包括多个字符,预测结果用于指示将待处理文本拆分为多个第一字符集合,每个第一字符集合包括至少一个字符,预测结果还包括多个第一标签,一个第一标签用于指示一个目标字符集合的语义,多个第一标签用于确定待处理文本的预测意图;
根据目标损失函数,对目标模型进行训练,得到训练后的目标模型;
其中,目标损失函数用于指示预测结果和与待处理文本对应的期望结果之间的相似度,与待处理文本对应的期望结果用于指示将待处理文本拆分为多个第二字符集合,每个第二字符集合包括至少一个字符,与待处理文本对应的期望结果还包括多个期望标签,一个期望标签用于指示一个第二字符集合的语义,多个期望标签用于确定待处理文本的正确意图。
需要说明的是,中央处理器1822执行上述各个步骤的具体方式,与本申请中图3对应的各个方法实施例基于同一构思,其带来的技术效果与本申请中图3对应的各个方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
在一种情况中,中央处理器1822,用于执行图11对应实施例中的电子设备执行的方法。具体的,中央处理器1822可以用于执行如下步骤:
获取目标数据子集合,目标数据子集合包括第一子集合和第二子集合,第一子集合包括第一字符串以及与第一字符串对应的第一期望标签,第二子集合包括第二字符串以及与第二字符串对应的第二期望标签;
根据目标数据子集合,确定与目标模型对应的第二数据集合,其中,目标模型用于对输入的待处理文本进行语义理解,第二数据集合包括多个目标数据子集合,第二数据集合用于目标模型的训练阶段和/或目标模型的推理阶段;
目标数据子集合用于指示与待处理文本对应的期望结果,期望结果用于指示将待处理文本拆分成至少两组字符串,至少两组字符串中包括第一字符串和第二字符串,正确结果还包括与第一字符串对应的第一期望标签和与第二字符串对应的第二期望标签。
需要说明的是,中央处理器1822执行前述各个步骤的具体方式,与本申请中图11对应的各个方法实施例基于同一构思,其带来的技术效果与本申请中图11对应的各个方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例中还提供一种计算机程序产品,当计算机程序在计算机上运行时,使得计算机执行如前述图3所示实施例描述的方法中训练设备所执行的步骤,或者,使得计算机执行如前述图10所示实施例描述的方法中执行设备所执行的步骤,或者,使得计算机执行如前述图11所示实施例描述的方法中电子设备所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述图3所示实施例描述的方法中训练设备所执行的步骤,或者,使得计算机执行如前述图10所示实施例描述的方法中执行设备所执行的步骤,或者,使得计算机执行如前述图11所示实施例描述的方法中电子设备所执行的步骤。
本申请实施例提供的文本数据的处理装置、神经网络的训练装置、执行设备、电子设备以及训练设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使芯片执行上述图10或图11所示实施例描述的文本数据的处理方法,或者,以使芯片执行上述图3所示实施例描述的神经网络的训练方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccess memory,RAM)等。
具体的,请参阅图19,图19为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU190,NPU190作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1903,通过控制器1904控制运算电路1903提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1903内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1903是二维脉动阵列。运算电路1903还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1903是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1902中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1901中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1908中。
统一存储器1906用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)1905,DMAC被搬运到权重存储器1902中。输入数据也通过DMAC被搬运到统一存储器1906中。
BIU为Bus Interface Unit即,总线接口单元1910,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)1909的交互。
总线接口单元1910(Bus Interface Unit,简称BIU),用于取指存储器1909从外部存储器获取指令,还用于存储单元访问控制器1905从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1906或将权重数据搬运到权重存储器1902中或将输入数据数据搬运到输入存储器1901中。
向量计算单元1907包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元1907能将经处理的输出的向量存储到统一存储器1906。例如,向量计算单元1907可以将线性函数和/或非线性函数应用到运算电路1903的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1907生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1903的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1904连接的取指存储器(instruction fetch buffer)1909,用于存储控制器1904使用的指令;
统一存储器1906,输入存储器1901,权重存储器1902以及取指存储器1909均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,上述各个实施例示出的目标模型中各层的运算可以由运算电路1903或向量计算单元1907执行。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述第一方面方法的程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者电子设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (28)
1.一种文本数据的处理方法,其特征在于,所述方法包括:
获取待处理文本,所述待处理文本包括多个字符;
通过目标模型对所述待处理文本进行处理,得到预测结果,其中,所述预测结果用于指示将所述待处理文本拆分为多个目标字符集合,每个所述目标字符集合包括至少一个字符,所述预测结果还包括多个第一标签,一个所述第一标签用于指示一个所述目标字符集合的语义,所述多个第一标签用于确定所述待处理文本的意图。
2.根据权利要求1所述的方法,其特征在于,所述多个第一标签包括至少两级标签,所述至少两级标签包括父标签和子标签,所述父标签和所述子标签之间具有归属关系。
3.根据权利要求1或2所述的方法,其特征在于,与所述待处理文本对应有N种拆分方式,所述N为大于或等于1的整数,所述预测结果用于指示与所述待处理文本对应的一种目标拆分方式,所述目标拆分方式归属于所述N种拆分方式,所述预测结果基于所述多个目标字符集合与所述多个第一标签之间的匹配度得到。
4.根据权利要求3所述的方法,其特征在于,所述通过目标模型对所述待处理文本进行处理,得到预测结果,包括:
将所述每个目标字符集合与第一数据集合中的多个字符串进行匹配,以确定与所述每个目标字符集合匹配的目标字符串,并从所述第一数据集合中获取与所述目标字符串对应的至少一个第二标签,一个字符串包括至少一个字符;
根据所述每个目标字符集合和所述至少一个第二标签,通过所述目标模型将所述每个目标字符集合与所述第一数据集合中的多个标签进行匹配,以得到与所述每个目标字符集合匹配的所述第一标签。
5.根据权利要求4所述的方法,其特征在于,在所述至少一个第二标签包括至少两个第二标签的情况下,所述从所述第一数据集合中获取与所述目标字符串对应的至少一个第二标签之后,所述方法还包括:
根据所述待处理文本、所述目标字符集合和所述至少两个第二标签,通过所述目标模型生成目标指示信息,所述目标指示信息用于指示每个所述第二标签与所述目标字符集合匹配或不匹配;
根据所述目标指示信息对所述至少两个第二标签进行筛选,得到至少一个筛选后的标签;
所述根据所述目标字符集合和所述第二标签,通过所述目标模型将所述目标字符集合与所述第一数据集合中的多个标签进行匹配,包括:
根据所述目标字符集合和所述至少一个筛选后的标签,通过所述目标模型将所述目标字符集合与所述第一数据集合中的多个标签进行匹配。
6.一种神经网络的训练方法,其特征在于,所述方法包括:
通过目标模型对待处理文本进行处理,得到预测结果,所述待处理文本包括多个字符,所述预测结果用于指示将所述待处理文本拆分为多个第一字符集合,每个所述第一字符集合包括至少一个字符,所述预测结果还包括多个第一标签,一个所述第一标签用于指示一个所述目标字符集合的语义,所述多个第一标签用于确定所述待处理文本的预测意图;
根据目标损失函数,对所述目标模型进行训练,得到训练后的目标模型;
其中,所述目标损失函数用于指示所述预测结果和与所述待处理文本对应的期望结果之间的相似度,所述与所述待处理文本对应的期望结果用于指示将所述待处理文本拆分为多个第二字符集合,每个所述第二字符集合包括至少一个字符,所述与所述待处理文本对应的期望结果还包括多个期望标签,一个所述期望标签用于指示一个所述第二字符集合的语义,所述多个期望标签用于确定所述待处理文本的正确意图。
7.根据权利要求6所述的方法,其特征在于,所述多个第一标签包括至少两级标签,所述至少两级标签包括父标签和子标签,所述父标签和所述子标签之间具有归属关系。
8.根据权利要求6或7所述的方法,其特征在于,所述通过目标模型对待处理文本进行处理之前,所述方法还包括:
获取目标数据子集合,所述目标数据子集合包括第一子集合和第二子集合,所述第一子集合包括第一字符串以及与所述第一字符串对应的第一期望标签,所述第二子集合包括第二字符串以及与所述第二字符串对应的第二期望标签;
根据所述目标数据子集合,确定所述待处理文本和与所述待处理文本对应的所述期望结果,其中,所述待处理文本包括所述第一字符串和所述第二字符串,所述期望结果包括与所述第一字符串对应的所述第一期望标签和与所述第二字符串对应的所述第二期望标签。
9.根据权利要求8所述的方法,其特征在于,与所述待处理文本对应的第三评分满足预设条件,所述第三评分用于指示所述待处理文本的质量。
10.一种文本数据的处理方法,其特征在于,所述方法包括:
获取目标数据子集合,所述目标数据子集合包括第一子集合和第二子集合,所述第一子集合包括第一字符串以及与所述第一字符串对应的第一期望标签,所述第二子集合包括第二字符串以及与所述第二字符串对应的第二期望标签;
根据所述目标数据子集合,确定与目标模型对应的第二数据集合,其中,所述目标模型用于对输入的待处理文本进行语义理解,所述第二数据集合包括多个所述目标数据子集合,所述第二数据集合用于所述目标模型的训练阶段和/或所述目标模型的推理阶段;
所述目标数据子集合用于指示与所述待处理文本对应的期望结果,所述期望结果用于指示将所述待处理文本拆分成至少两组字符串,所述至少两组字符串中包括所述第一字符串和所述第二字符串,所述正确结果还包括与所述第一字符串对应的所述第一期望标签和与所述第二字符串对应的所述第二期望标签。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
通过显示界面获取与所述目标数据子集合对应的修改操作,所述修改操作包括如下任一种或多种操作:删除所述目标数据子集合中的字符串、更新所述目标数据子集合中的字符串的内容或者在所述目标数据子集合中增加新的字符串。
12.根据权利要求10或11所述的方法,其特征在于,所述方法还包括:
获取待处理文本,所述待处理文本包括多个字符;
通过目标模型对所述待处理文本进行处理,得到预测结果,其中,所述预测结果用于指示将所述待处理文本拆分为多个目标字符集合,每个所述目标字符集合包括至少一个字符,所述预测结果还包括多个第一标签,一个所述第一标签用于指示一个所述目标字符集合的语义,所述多个第一标签用于确定所述待处理文本的意图。
13.一种文本数据的处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理文本,所述待处理文本包括多个字符;
处理模块,用于通过目标模型对所述待处理文本进行处理,得到预测结果,其中,所述预测结果用于指示将所述待处理文本拆分为多个目标字符集合,每个所述目标字符集合包括至少一个字符,所述预测结果还包括多个第一标签,一个所述第一标签用于指示一个所述目标字符集合的语义,所述多个第一标签用于确定所述待处理文本的意图。
14.根据权利要求13所述的装置,其特征在于,所述多个第一标签包括至少两级标签,所述至少两级标签包括父标签和子标签,所述父标签和所述子标签之间具有归属关系。
15.根据权利要求13或14所述的装置,其特征在于,与所述待处理文本对应有N种拆分方式,所述N为大于或等于1的整数,所述预测结果用于指示与所述待处理文本对应的一种目标拆分方式,所述目标拆分方式归属于所述N种拆分方式,所述预测结果基于所述多个目标字符集合与所述多个第一标签之间的匹配度得到。
16.根据权利要求15所述的装置,其特征在于,所述处理模块,具体用于:
将所述每个目标字符集合与第一数据集合中的多个字符串进行匹配,以确定与所述每个目标字符集合匹配的目标字符串,并从所述第一数据集合中获取与所述每个目标字符串对应的至少一个第二标签,一个字符串包括至少一个字符;
根据所述每个目标字符集合和所述第二标签,通过所述目标模型将所述每个目标字符集合与所述第一数据集合中的多个标签进行匹配,以得到与所述每个目标字符集合匹配的所述第一标签。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括:
生成模块,用于根据所述待处理文本、所述目标字符集合和所述至少两个第二标签,通过所述目标模型生成目标指示信息,所述目标指示信息用于指示每个所述第二标签与所述目标字符集合匹配或不匹配;
筛选模块,用于根据所述目标指示信息对所述至少两个第二标签进行筛选,得到至少一个筛选后的标签;
所述处理模块,具体用于根据所述目标字符集合和所述至少一个筛选后的标签,通过所述目标模型将所述目标字符集合与所述第一数据集合中的多个标签进行匹配。
18.一种神经网络的训练装置,其特征在于,所述装置包括:
处理模块,用于通过目标模型对待处理文本进行处理,得到预测结果,所述待处理文本包括多个字符,所述预测结果用于指示将所述待处理文本拆分为多个第一字符集合,每个所述第一字符集合包括至少一个字符,所述预测结果还包括多个第一标签,一个所述第一标签用于指示一个所述目标字符集合的语义,所述多个第一标签用于确定所述待处理文本的预测意图;
训练模块,用于根据目标损失函数,对所述目标模型进行训练,得到训练后的目标模型;
其中,所述目标损失函数用于指示所述预测结果和与所述待处理文本对应的期望结果之间的相似度,所述与所述待处理文本对应的期望结果用于指示将所述待处理文本拆分为多个第二字符集合,每个所述第二字符集合包括至少一个字符,所述与所述待处理文本对应的期望结果还包括多个期望标签,一个所述期望标签用于指示一个所述第二字符集合的语义,所述多个期望标签用于确定所述待处理文本的正确意图。
19.根据权利要求18所述的装置,其特征在于,所述多个第一标签包括至少两级标签,所述至少两级标签包括父标签和子标签,所述父标签和所述子标签之间具有归属关系。
20.根据权利要求18或19所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取目标数据子集合,所述目标数据子集合包括第一子集合和第二子集合,所述第一子集合包括第一字符串以及与所述第一字符串对应的第一期望标签,所述第二子集合包括第二字符串以及与所述第二字符串对应的第二期望标签;
确定模块,用于根据所述目标数据子集合,确定所述待处理文本和与所述待处理文本对应的所述期望结果,其中,所述待处理文本包括所述第一字符串和所述第二字符串,所述期望结果包括与所述第一字符串对应的所述第一期望标签和与所述第二字符串对应的所述第二期望标签。
21.根据权利要求20所述的装置,其特征在于,与所述待处理文本对应的第三评分满足预设条件,所述第三评分用于指示所述待处理文本的质量。
22.一种文本数据的处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标数据子集合,所述目标数据子集合包括第一子集合和第二子集合,所述第一子集合包括第一字符串以及与所述第一字符串对应的第一期望标签,所述第二子集合包括第二字符串以及与所述第二字符串对应的第二期望标签;
处理模块,用于根据所述目标数据子集合,确定与目标模型对应的第二数据集合,其中,所述目标模型用于对输入的待处理文本进行语义理解,所述第二数据集合包括多个所述目标数据子集合,所述第二数据集合用于所述目标模型的训练阶段和/或所述目标模型的推理阶段;
所述目标数据子集合用于指示与所述待处理文本对应的期望结果,所述期望结果用于指示将所述待处理文本拆分成至少两组字符串,所述至少两组字符串中包括所述第一字符串和所述第二字符串,所述正确结果还包括与所述第一字符串对应的所述第一期望标签和与所述第二字符串对应的所述第二期望标签。
23.根据权利要求22所述的装置,其特征在于,
所述获取模块,还用于通过显示界面获取与所述目标数据子集合对应的修改操作,所述修改操作包括如下任一种或多种操作:删除所述目标数据子集合中的字符串、更新所述目标数据子集合中的字符串的内容或者在所述目标数据子集合中增加新的字符串。
24.根据权利要求22或23所述的装置,其特征在于,
所述获取模块,还用于获取待处理文本,所述待处理文本包括多个字符;
所述处理模块,还用于通过目标模型对所述待处理文本进行处理,得到预测结果,其中,所述预测结果用于指示将所述待处理文本拆分为多个目标字符集合,每个所述目标字符集合包括至少一个字符,所述预测结果还包括多个第一标签,一个所述第一标签用于指示一个所述目标字符集合的语义,所述多个第一标签用于确定所述待处理文本的意图。
25.一种计算机程序产品,其特征在于,当所述计算机程序在计算机上运行时,使得计算机执行如权利要求1至5中任意一项所述的方法,或者,使得计算机执行如权利要求6至9中任意一项所述的方法,或者,使得计算机执行如权利要求10至12中任意一项所述的方法。
26.一种计算机可读存储介质,其特征在于,包括程序,当所述程序在计算机上运行时,使得计算机执行如权利要求1至5中任意一项所述的方法,或者,使得计算机执行如权利要求6至9中任意一项所述的方法,或者,使得计算机执行如权利要求10至12中任意一项所述的方法。
27.一种执行设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器耦合,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述执行设备执行如权利要求1至5中任一项所述的方法。
28.一种电子设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器耦合,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述电子设备执行如权利要求6至9中任一项所述的方法,或者,使得所述电子设备执行如权利要求11至12中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111088859.9A CN113807089A (zh) | 2021-09-16 | 2021-09-16 | 文本数据的处理方法、神经网络的训练方法以及相关设备 |
EP22869111.9A EP4390753A1 (en) | 2021-09-16 | 2022-09-08 | Text data processing method, neural network training method, and related devices |
PCT/CN2022/117797 WO2023040742A1 (zh) | 2021-09-16 | 2022-09-08 | 文本数据的处理方法、神经网络的训练方法以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111088859.9A CN113807089A (zh) | 2021-09-16 | 2021-09-16 | 文本数据的处理方法、神经网络的训练方法以及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113807089A true CN113807089A (zh) | 2021-12-17 |
Family
ID=78941387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111088859.9A Pending CN113807089A (zh) | 2021-09-16 | 2021-09-16 | 文本数据的处理方法、神经网络的训练方法以及相关设备 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4390753A1 (zh) |
CN (1) | CN113807089A (zh) |
WO (1) | WO2023040742A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023040742A1 (zh) * | 2021-09-16 | 2023-03-23 | 华为技术有限公司 | 文本数据的处理方法、神经网络的训练方法以及相关设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591770B (zh) * | 2024-01-17 | 2024-05-07 | 浙江数洋科技有限公司 | 政策的推送方法、装置以及计算机设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120253792A1 (en) * | 2011-03-30 | 2012-10-04 | Nec Laboratories America, Inc. | Sentiment Classification Based on Supervised Latent N-Gram Analysis |
CN111737991B (zh) * | 2020-07-01 | 2023-12-12 | 携程计算机技术(上海)有限公司 | 文本断句位置的识别方法及***、电子设备及存储介质 |
CN113807089A (zh) * | 2021-09-16 | 2021-12-17 | 华为技术有限公司 | 文本数据的处理方法、神经网络的训练方法以及相关设备 |
-
2021
- 2021-09-16 CN CN202111088859.9A patent/CN113807089A/zh active Pending
-
2022
- 2022-09-08 WO PCT/CN2022/117797 patent/WO2023040742A1/zh active Application Filing
- 2022-09-08 EP EP22869111.9A patent/EP4390753A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023040742A1 (zh) * | 2021-09-16 | 2023-03-23 | 华为技术有限公司 | 文本数据的处理方法、神经网络的训练方法以及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2023040742A1 (zh) | 2023-03-23 |
EP4390753A1 (en) | 2024-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
US11657231B2 (en) | Capturing rich response relationships with small-data neural networks | |
US20180052928A1 (en) | Semantic forward search indexing of publication corpus | |
CN111898636B (zh) | 一种数据处理方法及装置 | |
CN112231569B (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN112288075A (zh) | 一种数据处理方法及相关设备 | |
WO2023040742A1 (zh) | 文本数据的处理方法、神经网络的训练方法以及相关设备 | |
WO2021129411A1 (zh) | 文本处理方法及装置 | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
US20230040412A1 (en) | Multi-language source code search engine | |
US20230114673A1 (en) | Method for recognizing token, electronic device and storage medium | |
CN111368555B (zh) | 一种数据识别方法、装置、存储介质和电子设备 | |
CN113656587A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN115757692A (zh) | 一种数据处理方法及其装置 | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
WO2021129410A1 (zh) | 文本处理方法及装置 | |
CN115238080A (zh) | 实体链接方法及相关设备 | |
CN115081615A (zh) | 一种神经网络的训练方法、数据的处理方法以及设备 | |
CN113159315A (zh) | 一种神经网络的训练方法、数据处理方法以及相关设备 | |
FADHLALLAH | A Deep Learning-based approach for Chatbot: medical assistance a case study | |
US20240220730A1 (en) | Text data processing method, neural-network training method, and related device | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN115714002B (zh) | 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备 | |
CN116453702B (zh) | 孤独症行为特征集的数据处理方法、设备、***及介质 | |
CN113095072B (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |