CN113360001A - 输入文本的处理方法、装置、电子设备和存储介质 - Google Patents
输入文本的处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113360001A CN113360001A CN202110580302.0A CN202110580302A CN113360001A CN 113360001 A CN113360001 A CN 113360001A CN 202110580302 A CN202110580302 A CN 202110580302A CN 113360001 A CN113360001 A CN 113360001A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- generation model
- training
- poem
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 116
- 238000012545 processing Methods 0.000 claims description 93
- 238000000034 method Methods 0.000 claims description 53
- 238000004590 computer program Methods 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/543—User-generated data transfer, e.g. clipboards, dynamic data exchange [DDE], object linking and embedding [OLE]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了输入文本的处理方法、装置、电子设备和存储介质,涉及计算机技术领域,尤其涉及自然语言处理、深度学习等人工智能领域。具体实现方案为:获取用户在输入界面输入的第一文本;将第一文本输入训练生成的文本生成模型,以获取第二文本;在输入界面显示第二文本。由此,当用户在输入界面上输入文本时,可将用户输入的文本输入训练生成的文本生成模型,利用训练生成的文本生成模型,生成新的文本,并在输入界面上展示,以供用户选择,从而可以提高用户输入内容的趣味性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及自然语言处理、深度学习等人工智能领域,具体涉及一种输入文本的处理方法、装置、电子设备和存储介质。
背景技术
随着计算机技术和互联网技术的发展,人们对方便快捷的生活、工作辅助工具越来越青睐,因而各式结合多种服务功能的各种社交软件、社交平台等相继出现。
因此,如何提高社交过程中用户输入内容的趣味性是亟待解决的问题。
发明内容
本申请提供了一种输入文本的处理方法、装置、电子设备和存储介质。
根据本申请的一方面,提供了一种输入文本的处理方法,包括:
获取用户在输入界面输入的第一文本;
将所述第一文本输入训练生成的文本生成模型,以获取第二文本;
在所述输入界面显示所述第二文本。
根据本申请的另一方面,提供了一种输入文本的处理装置,包括:
第一获取模块,用于获取用户在输入界面输入的第一文本;
第二获取模块,用于将所述第一文本输入训练生成的文本生成模型,以获取第二文本;
显示模块,用于在所述输入界面显示所述第二文本。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例所述的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述实施例所述的方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的一种输入文本的处理方法的流程示意图;
图2为本申请实施例提供的另一种输入文本的处理方法的流程示意图;
图3为本申请实施例提供的另一种输入文本的处理方法的流程示意图;
图4为本申请实施例提供的另一种输入文本的处理方法的流程示意图;
图5为本申请实施例提供的另一种输入文本的处理方法的流程示意图;
图6为本申请实施例提供的另一种输入文本的处理方法的流程示意图;
图7为本申请实施例提供的另一种输入文本的处理方法的流程示意图;
图8为本申请实施例提供的一种输入文本的处理装置的结构示意图;
图9是用来实现本申请实施例的输入文本的处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的输入文本的处理方法、装置、电子设备和存储介质。
人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术领域也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。
NLP(Natural Language Processing,自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向,NLP研究的内容包括但不限于如下分支领域:文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法等)、语音识别与合成等。
深度学习是机器学习领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
图1为本申请实施例提供的一种输入文本的处理方法的流程示意图。
本申请实施例的输入文本的处理方法,可由本申请实施例的输入文本的处理装置执行,该装置可配置于电子设备,以当用户在输入界面输入文本时,利用文本生成模型对输入文本进行改写,生成与用户输入文本对应的文本,并在输入界面上展示,以供用户选择,从而提高输入内容的趣味性。
如图1所示,该输入文本的处理方法包括:
步骤101,获取用户在输入界面输入的第一文本。
本申请中,当用户输入界面上输入文本时,可获取用户输入的文本,为了便于区分,可将用户输入的文本称为第一文本。这里的输入界面可以是社交软件中,输入待发送信息的输入界面,也可以是待发布内容的输入界面,也可以是评论内容的输入界面等等。
在实际应用中,第一文本可以是用户通过按键方式输入的,比如,通过输入法或者手写方式,也可以是通过粘贴操作输入的,或者也可以是通过对用户输入的语音进行识别得到的等。
比如,当用户利用输入法,在聊天界面的输入框中输入内容时,输入法应用程序可以根据用户输入的字符和选择操作,确定用户输入的内容,由此输入法应用程序可以获取用户在输入界面上输入的第一文本。
步骤102,将第一文本输入训练生成的文本生成模型,以获取第二文本。
本申请中,可预先根据需要训练得到文本生成模型,比如训练得到用于生成押韵文本的模型,或者训练得到用于生成藏头诗的模型,或者训练得到用于续写文本的模型等等。其中,文本生成模型可以是一个,也可以是多个,本申请对此不作限定。
在获取到用户输入的第一文本后,可将第一文本输入至文本生成模型,以利用文本生成模型对第一文本进行处理,以生成第二文本。
也就是说,当用户在输入界面上输入第一文本时,可利用文本生成模型,生成趣味性较高的文本,比如生成押韵文本,或者将第一文本中每个字分别作为每个语句的首字符以生成藏头诗、或者将第一文本中每个字分别作为每个语句的尾字符以生成藏尾诗等。
步骤103,在输入界面显示第二文本。
在生成第二文本之后,可在输入界面上显示第二文本,以供用户选择。其中,第二文本可以是一个,也可以是多个。
本申请中,若在显示第二文本的预设时长内,检测到用户的选择操作,可根据用户的选择操作,确定用户选择的第二文本,并将输入界面中用户输入的第一文本替换为第二本。由此,可以提高输入内容的趣味性,提高社交过程中的趣味性。
若生成多个第二文本,在显示时,可以按照随机顺序显示,也可以基于预设的规则进行显示,也可以按照权重的从高到低的顺序显示等。这里的第二文本的权重,可以是基于用户对各种类型的文本的历史行为数据确定的。
本申请的输入文本的处理方法,可以应用于输入界面所属的应用程序,也可应用于输入法。
以应用于输入界面所属的应用程序为例,当用户在输入界面上输入文本时,输入界面所属的应用程序可获取用户输入的文本,可将用户输入的文本输入文本生成模型,以生成新的文本,新的文本是基于用户输入的文本生成的。该应用程序在输入界面上显示新的文本,以供用户选择。
以应用于输入法为例,当用户利用输入法,在输入界面上输入内容时,输入法应用程序可以根据用户输入的字符和选择操作,获取用户输入的文本,可将用户输入的文本输入文本生成模型,以生成新的文本,新的文本是基于用户输入的文本生成的,并在输入法界面上显示新的文本,以供用户选择。
本申请实施例中,通过获取用户在输入界面输入的第一文本,并将第一文本输入训练生成的文本生成模型,以获取第二文本,在输入界面显示第二文本。由此,当用户在输入界面上输入文本时,可将用户输入的文本输入训练生成的文本生成模型,利用训练生成的文本生成模型,生成新的文本,并在输入界面上展示,以供用户选择,从而可以提高用户输入内容的趣味性。
为了使获取的第二文本更加符合用户需求,提高第二文本的精准性,在本申请的一个实施例中,若文本生成模型为多个,在获取第二文本时,可以基于第一文本的意图,确定相应的文本生成模型,以利用确定的文本生成模型,获取第二文本。下面结合图2进行说明,图2为本申请实施例提供的另一种输入文本的处理方法的流程示意图。
如图2所示,上述将第一文本输入训练生成的文本生成模型,以获取第二文本,包括:
步骤201,确定每个文本生成模型对应的应用场景。
本申请中,训练生成的文本生成模型可以有多个,比如,押韵文本生成模型、藏头诗生成模型、藏尾诗生成模型、现代诗生成模型等。
本申请中,可预先建立多个文本生成模型分别与应用场景之间的对应关系,根据该对应关系,可以确定每个文本生成模型对应的应用场景。
或者,可基于每个文本生成模型生成的文本,确定每个文本生成模型对应的应用场景。比如,押韵文本中各语句具有相同或相似的韵脚,基于此可确定押韵文本生成模型对应的应用场景,可以是日常聊天、发布内容、发表评论等场景;藏头诗可将所说之事分藏于诗句之首,那么可以确定藏头诗生成模型对应的应用场景,可以是聊天中比如表白等比较隐晦或文艺的表达等场景。
需要说明的是,一个文本生成模型可对应一个或多个应用场景。
步骤202,对第一文本进行意图识别,以获取第一文本对应的意图。
本申请中,可将第一文本输入至预先训练的意图识别模型,利用意图识别模型以识别第一文本的意图。或者,也可以利用预先建立的分词与意图之间的对应关系,确定第一文本对应的意图。
步骤203,根据意图分别与每个应用场景之间的匹配度,从多个文本生成模型中抽取目标文本生成模型。
在获取第一文本对应的意图后,可将第一文本对应的意图分别与各个文本生成模型的应用场景进行匹配,并根据第一文本对应的意图分别与每个应用场景之间的匹配度,从多个文本生成模型中抽取目标文本生成模型。比如,可将匹配度最大的文本生成模型作为目标文本生成模型,或者也可将匹配度最大的预设数量的文本生成模型作为目标文本生成模型。
其中,目标文本生成模型可以是一个,也可以是多个。比如,对于日常聊天场景,可以采用押韵文本生成模型和现代诗文本生成模型。
步骤204,将第一文本输入目标文本生成模型,以获取第二文本。
本申请中,步骤204与上述步骤103类似,故在此不再赘述。
本申请实施例中,若文本生成模型为多个,在获取第二文本时,可通过确定每个文本生成模型对应的应用场景,并对第一文本进行意图识别,以确定第一文本对应的意图,根据第一文本对应的意图分别与每个应用场景之间的匹配,从多个文本生成模型抽取目标文本生成模型,利用目标文本生成模型,获取第二文本。由此,从多个文本生成模型中抽取与第一文本的意图匹配的文本生成模型,利用抽取的文本生成模型,获取第二文本,从而使得获取的第二文本更加符合用户需求,提高第二文本的精准性。
上述实施例是根据第一文本的意图与每个文本生成模型的应用场景的匹配度,确定目标生成模型。在本申请的一个实施例中,输入界面可包括多个文本处理控件,在获取第二文本时,也可根据被选中的文本处理控件,从多个文本生成模型抽取目标文本生成模型,并利用目标文本生成模型,获取第二文本。下面结合图3进行说明,图3为本申请实施例提供的另一种输入文本的处理方法的流程示意图。
如图3所示,上述将第一文本输入训练生成的文本生成模型,以获取第二文本,包括:
步骤301,在任一文本处理控件被选中的情况下,根据被选中的任一文本处理控件对应的处理类型,确定目标文本类型。
本申请中,输入界面可包括多个文本处理控件。在任一文本处理控件被选中的情况下,可根据被选中的任一文本处理控件对应的处理类型,确定目标文本类型。
比如,输入界面包括押韵文本如说唱内容的按键、藏头诗文本的按键、现代诗文本的按键等,相应的处理类型可包括对第一文本处理得到押韵类型的文本(比如说唱内容)、对第一文本处理得到藏头诗类型的文本、对第一文本处理得到现代诗类型的文本等。当用户触发藏头诗的按键时,说明用户希望展示与输入文本对应的藏头诗文本,即目标文本类型为藏头诗类型。
步骤302,根据目标文本类型、及多个文本生成模型分别与文本类型之间的对应关系,从多个文本生成模型中抽取目标文本生成模型。
本申请中,不同的文本生成模型可生成不同文本类型的文本,那么,在确定待生成文本的文本类型即目标文本类型后,可根据多个文本生成模型分别与文本类型之间的对应关系,从多个文本生成模型中抽取与目标文本类型对应的文本生成模型,即目标文本生成模型。
比如,目标文本类型为藏头诗类型,可确定目标文本生成模型为藏头诗生成模型。
步骤303,将第一文本输入目标文本生成模型,以获取第二文本。
本申请中,步骤303与上述步骤103类似,故在此不再赘述。
本申请实施例中,输入界面可包括多个文本处理控件,在获取第二文本时,通过在任一文本处理控件被选中的情况下,根据被选中的任一文本处理控件对应的处理类型,确定目标文本类型,并根据目标文本类型、及多个文本生成模型分别与文本类型之间的对应关系,从多个文本生成模型中抽取目标文本生成模型,将第一文本输入目标文本生成模型,以获取第二文本。由此,用户可通过输入界面上的多个文本处理控件,根据需要选择文本处理控件,以选择待生成文本的文本类型,从而可以满足用户的个性化需求。
在本申请的一个实施例中,输入界面可包括多个文本处理控件,上述在第二获取文本时,也可根据用户对多个文本处理控件的历史操作数据,确定待生成文本的文本类型,进而通过相应的文本生成模型,获取第二文本。下面结合图4进行说明,图4为本申请实施例提供的另一种输入文本的处理方法的流程示意图。
如图4所示,上述将第一文本输入训练生成的文本生成模型,以获取第二文本,包括:
步骤401,获取用户对多个文本处理控件的历史操作数据。
本申请中,输入界面可包括多个文本处理控件。其中,每个文本处理控件具有对应的处理类型,处理类型具有对应的文本类型。当某一文本处理控件被选中时,可根据该文本处理控件对应的处理类型,确定待生成文本的文本类型。
本申请中,可获取用户对输入界面上每个文本处理控件的历史操作数据,比如每个文本处理控件在过去预设时长内被选中的次数、被选中的时间等。
步骤402,根据历史操作数据,从多个文本生成模型抽取目标文本生成模型。
在获取多个文本处理控件的历史操作数据后,可根据多个文本处理控件的历史操作数据,确定目标文本类型,并根据多个文本生成模型分别与文本类型之间的对应关系,从多个文本生成模型抽取与目标文本类型对应的文本生成模型,即目标文本生成模型。
在实际应用中,用户对某个文本处理控件的历史操作次数越多,可认为用户比较偏好生成相应类型的文本。因此,可将过去预设时长内被选中次数最多的文本处理控件对应的文本类型,作为目标文本类型,在获取目标文本类型后,可根据多个文本生成模型分别与文本类型之间的对应关系,从多个目标文本生成模型中抽取目标文本生成模型。
比如,输入界面可包括押韵文本如说唱内容的按键、藏头诗文本的按键、现代诗文本的按键等,用户经常选择说唱内容的按键,那么可将用于获取说唱内容的押韵文本生成模型,作为目标文本生成模型。
或者,也可以根据每个文本处理控件的历史使用时间,确定各时间段使用次数最多的文本处理控件,并将当前时间所属的时间段内使用次数最多的文本处理控件,作为目标文本处理控件,根据目标文本处理控件对应的处理类型,可确定目标文本类型。在确定目标文本类型后,可根据多个文本生成模型分别与文本类型之间的对应关系,确定目标文本类型对应的文本生成模型即目标文本生成模型。
步骤403,将第一文本输入目标文本生成模型,以获取第二文本。
本申请中,步骤403与上述步骤103类似,故在此不再赘述。
本申请实施例中,输入界面可包括多个文本处理控件,在获取第二文本时,可通过获取用户对多个文本处理控件的历史操作数据,并根据历史操作数据,从多个文本生成模型抽取目标文本生成模型,将第一文本输入目标文本生成模型,以获取第二文本。由此,通过根据用户对多个文本处理控件的历史操作数据,从多个文本生成模型中抽取目标文本生成模型,以用于获取第二文本,从而使得获取的第二文本符合用户习惯,提高了第二文本的精准性。
在本申请的一个实施例中,若文本生成模型为押韵文本生成模型,可通过图5的方式训练得到押韵文本生成模型。图5为本申请实施例提供的另一种输入文本的处理方法的流程示意图。
如图5所示,在将第一文本输入训练生成的文本生成模型,以获取第二文本之前,该输入文本的处理方法还包括:
步骤501,获取第一训练数据集,其中,第一训练数据集包括多个训练文本及每个训练文本的第一韵脚。
本申请中,可获取歌词、顺口溜、童谣等,并确定每个语句的韵脚,从而可以获得训练数据集,为了便于区分称为第一训练数据集。其中,第一训练数据集可包括多个训练文本及每个训练文本的第一韵脚。这里的每个训练文本可以是一个语句,也可以是多个语句,若是多个语句,则多个语句的第一韵脚的韵母相同或相似。
步骤502,将每个训练文本输入至初始押韵文本生成模型,以获取预测文本及第二韵脚。
本申请中,可将每个训练文本输入至初始押韵文本生成模型,利用初始押韵文本生成模型对训练文本进行处理,以获取第一预测文本及第二韵脚。其中,第一预测文本中可包含多个语句。
步骤503,在第二韵脚与对应的第一韵脚不匹配的情况下,根据第二韵脚与对应的第一韵脚间的差异,对初始押韵模型进行修正,直至第二韵脚与对应的第一韵脚匹配,以生成押韵文本生成模型。
由于押韵文本比如说唱内容,通常每个语句之间押韵,因此,在训练押韵文本生成模型时,若第一预测文本的第二韵脚与对应的第一韵脚不匹配,则可根据第二首字符与对应的第一首字符之间的差异,对初始押韵文本生成模型进行修正,以利用修正后的押韵文本生成模型对训练文本进行处理,直至第一预测文本的第二韵脚与对应的训练文本的第一韵脚匹配,以生成押韵文本生成模型。
上述第一预测文本的第二韵脚与对应的第一韵脚不匹配的情况,比如可以是第一预测文本的押韵位置与训练文本的押韵位置不同,也可以是第一预测文本的押韵韵母与训练文本的押韵韵母不相同或不相似,也可以是同时包含两种情况等。
由于押韵具有多种形式,比如单押、双押、三押等,其中,单押是指语句的最后一个字押韵,双押是指语句的最后两个字押韵,三押是指语句的最后三个字押韵等,可依次类推。以双押为例,第一预测文本的第二韵脚与对应的第一韵脚不匹配的情况,可以是第一预测文本与训练文本相应位置的押韵韵母不同,也可以是第一预测文本与训练文本的押韵方式不同,比如第一预测文本为单押,第二训练文本为双押等。
本申请中,押韵文本生成模型可以生成多种押韵形式的文本,押韵文本生成模型可以是采用深度学习方式训练得到的深度模型。
本申请实施例中,若用于获取第二文本的文本生成模型为押韵文本生成模型,在训练生成押韵文本生成模型时,通过获取包括多个训练文本及每个训练文本的第一韵脚的训练数据集,将每个训练文本输入至初始押韵文本生成模型,以获取第一文本预测文本和第二韵脚,并根据第二韵脚和对应的第一韵脚间的匹配情况,对初始押韵文本生成模型进行训练,从而得到押韵文本生成模型。
在本申请的一个实施例中,若文本生成模型为藏头诗生成模型,可通过图6的方式训练得到藏头诗生成模型。图6为本申请实施例提供的另一种输入文本的处理方法的流程示意图。
如图6示,在将第一文本输入训练生成的文本生成模型,以获取第二文本之前,该输入文本的处理方法还包括:
步骤601,获取第二训练数据集,其中,第二训练数据集包括多个诗歌文本。
本申请中,可以获取大量的诗歌比如古诗、现代诗等,以获取第二训练数据集,其中,第二训练数据集中包括多个诗歌文本。其中,每个诗歌文本可以是一首诗,也可以是一首诗中部分相邻的语句。
步骤602,获取每个诗歌文本中各语句的第一首字符。
本申请中,为了使得神经网络能够更好地学会藏头与生成文本之间的对应关系,可将每个诗歌文本中各语句的首字符提取出来。为了便于区分,称为第一首字符。
比如,诗歌文本为“白日依山尽;黄河入海流;欲穷千里目;更上一层楼”,可获取该诗歌文本各个语句的首字符“白”、“黄”、“欲”、“更”。
步骤603,将每个诗歌文本及各语句的第一首字符,输入至初始藏头诗生成模型,以获取第二预测文本。
本申请中,在将每个诗歌文本输入初始藏头诗生成模型时,可同时将诗歌文本的各语句的第一首字符输入至初始藏头诗生成模型,以获取第二预测文本。
作为一种实现方式,可将各语句的首字符作为诗歌文本的前缀输入至初始藏头诗生成模型。比如,将“白黄欲更_SEP_白日依山尽;黄河入海流;欲穷千里目;更上一层楼”作为输入,进行模型训练。其中,“_SEP_”表示特殊分隔符。
作为另一种实现方式,也可将各语句的首字符作为诗歌文本的后缀输入至初始藏头诗生成模型。
本申请中,将每个诗歌文本及各语句的第一首字符作为输入,模型可以学会在指定藏头控制的情况下生成对应的文本内容,从而提高了模型的准确性。
步骤604,在第二预测文本中的第二首字符与对应的诗歌文本中的第一首字符未匹配的情况下,根据第二首字符与对应的第一首字符之间的差异,对初始藏头诗生成模型进行修正,直至第二首字符与对应的第一首字符匹配,以生成藏头诗生成模型。
本申请中,获取第二预测文本中各语句的第二首字符,并将第二首字符与对应的第一首字符进行匹配。在第二预测文本中的第二首字符与对应的诗歌文本中的第一首字符未匹配的情况下,可利用第二首字符与对应的第一首字符之间的差异,对初始藏头诗生成模型进行修正,并利用修正后的模型继续训练,直至第二首字符与对应的第一首字符匹配,以生成藏头诗生成模型。
上述第二预测文本中的第二首字符与对应的诗歌文本中的第一首字符未匹配,可以是第二预测文本中某语句的首字符与诗歌文本中对应位置语句的首字符不相同,比如,第二预测文本中第二个语句的首字符与诗歌文本中第二个语句的首字符不相同。
由于藏头诗也是诗歌的一种,通常有押韵的需求,那么在训练藏头诗生成模型时,同时也可将第二预测文本的韵脚与诗歌文本的韵脚之间的差异作为初始藏头诗生成模型的修正依据,以使生成的藏头诗生成模型生成的文本中各语句的首字符为用户输入的内容、且各语句之间押韵。
本申请实施例中,若用于获取第二文本的文本生成模型为藏头诗生成模型,在训练藏头诗生成模型时,通过获取每个诗歌文本中各语句的第一首字符,并将每个诗歌文本及所述各语句的第一首字符,输入至初始藏头诗生成模型,以获取第二预测文本,在第二预测文本中的第二首字符与对应的诗歌文本中的第一首字符未匹配的情况下,根据第二首字符与对应的第一首字符之间的差异,对初始藏头诗生成模型训练,从而得到藏头诗生成模型。由此,通过将每个诗歌文本及各语句的第一首字符作为输入,使得模型可以学会在指定藏头控制的情况下生成对应的文本内容,从而提高了模型的准确性。
在本申请的一个实施例中,若文本生成模型为现代诗生成模型,可通过图7的方式训练得到现代诗生成模型。图7为本申请实施例提供的另一种输入文本的处理方法的流程示意图。
如图7,在将第一文本输入训练生成的文本生成模型,以获取第二文本之前,该输入文本的处理方法还包括:
步骤701,获取第三训练数据集,其中,第三训练数据集可包括多个普通文本及与每个普通文本语义匹配的现代诗文本。
本申请中,可获取多个普通文本,以及每个普通文本对应的现代诗文本,并将多个普通文本及每个普通文本对应的现代诗文本,作为现代诗生成模型的训练集。其中,普通文本与对应的现代诗文本间的语义匹配,也就是说,每个普通文本具有与其语义匹配的现代诗文本。
步骤702,将每个普通文本输入至初始现代诗生成模型,以获取第二预测文本.
本申请中,为了使得用户在输入一个普通文本的情况下,模型能够生成相应的现代诗,可将每个普通文本输入至初始现代诗生成模型,利用初始现代诗生成模型对普通文本进行处理,并输出第二预测文本。
步骤703,在第三预测文本与对应的现代诗文本间的语义相似度小于阈值的情况下,根据第三预测文本与对应的现代诗文本间的语义相似度,对初始现代诗生成模型进行修正,直至第三预测文本与对应的现代诗文本间的语义相似度等于或大于阈值,以生成现代诗生成模型。
本申请中,为了使得现代诗生成模型生成的文本与用户输入的文本语义一致,在第三预测文本与对应的现代诗文本间的语义相似度小于阈值的情况下,说明初始现代诗生成模型输出的文本与输入的普通文本间语义不匹配,则可根据第三预测文本与对应的现代诗文本间的语义相似度,对初始现代诗生成模型进行修正,并利用修正后的模型继续训练,直至第三预测文本与对应的现代诗文本间的语义相似度等于或大于阈值,以生成现代诗生成模型。
由于现代诗有时有押韵的需求,那么在训练现代诗生成模型时,同时也可将第三预测文本的韵脚与现代诗文本的韵脚之间的差异作为初始现代诗生成模型的修正依据,以使生成的现代诗生成模型生成的文本与用户输入的内容语义匹配的同时,且生成的文本中各语句之间押韵。
本申请实施例中,若用于获取第二文本的文本生成模型为现代诗生成模型,在训练现代诗生成模型时,可通过获取包括多个普通文本及与每个普通文本语义匹配的现代诗文本的第三训练数据集,并将每个普通文本输入至初始现代诗生成模型,以获取第三预测文本,在第三预测文本与对应的现代诗文本间的语义相似度小于阈值的情况下,利用第三预测文本与对应的现代诗文本间的语义相似度,对初始现代诗生成模型进行训练,直至第三预测文本与对应的现代诗文本间语义匹配,以生成现代诗生成模型。由此,通过根据预测文本与对应的现代诗文本间的语义相似度训练模型,从而可以使得现代诗生成模型生成的文本与用户输入的文本语义匹配。
在训练文本生成模型时,所用的初始模型可以是预训练模型。比如,可采用基于transformer(转换器)的网络结构,在大量中文预料上进行预训练。在训练时,可使用结构化片段预测自监督学习目标,得到结构简洁、效果更优的预训练模型。
为了解决训练数据不足的问题,可采用了多阶段训练的方法,来提升模型的生成效果。比如,可使用大量的预训练语料进行第一阶段训练,使得模型具有生成通顺文本的能力;第二阶段中,可采用大规模的文学语料(比如散文、作文等)继续训练,使得模型能够生成具有文学性的文本内容;第三阶段,可在具体的任务上进行模型训练,也就是基于前两个阶段训练完成的模型,可进一步在具体任务上进行训练,使得模型可以生成高质量的结果。在第三阶段训练过程中,可采用最大似然目标进行训练。
比如,对于第三阶段,可采用相应的训练数据集,训练得到押韵文本生成模型、藏头诗文本生成模型、现代诗文本生成模型等,具体训练过程可见上述实施例,在此不再赘述。
需要说明的是,上述文本生成模型仅是示例,还可根据需要,在预训练模型上训练得到其他文本生成模型,本申请对此不作限定。
为了实现上述实施例,本申请实施例还提出一种输入文本的处理装置。图8为本申请实施例提供的一种输入文本的处理装置的结构示意图。
如图8所示,该输入文本的处理装置800包括:
第一获取模块810,用于获取用户在输入界面输入的第一文本;
第二获取模块820,用于将所述第一文本输入训练生成的文本生成模型,以获取第二文本;
显示模块830,用于在所述输入界面显示所述第二文本。
在本申请实施例一种可能的实现方式中,所述文本生成模型为多个,所述第二获取模块820,用于:
确定每个文本生成模型对应的应用场景;
对所述第一文本进行意图识别,以获取所述第一文本对应的意图;
根据所述意图分别与每个所述应用场景之间的匹配度,从多个文本生成模型中抽取目标文本生成模型;
将所述第一文本输入所述目标文本生成模型,以获取所述第二文本。
在本申请实施例一种可能的实现方式中,所述输入界面包括多个文本处理控件,所述第二获取模块820,用于:
在任一文本处理控件被选中的情况下,根据被选中的所述任一文本处理控件对应的处理类型,确定目标文本类型;
根据所述目标文本类型、及多个文本生成模型分别与文本类型之间的对应关系,从所述多个文本生成模型中抽取目标文本生成模型;
将所述第一文本输入所述目标文本生成模型,以获取所述第二文本。
在本申请实施例一种可能的实现方式中,所述输入界面包括多个文本处理控件,所述第二获取模块820,用于:
获取所述用户对所述多个文本处理控件的历史操作数据;
根据所述历史操作数据,从多个文本生成模型抽取目标文本生成模型;
将所述第一文本输入所述目标文本生成模型,以获取所述第二文本。
在本申请实施例一种可能的实现方式中,所述文本生成模型为押韵文本生成模型,该装置还包括:
第三获取模块,用于获取第一训练数据集,其中,所述第一训练数据集包括多个训练文本及每个所述训练文本的第一韵脚;
第一训练模块,用于将每个所述训练文本输入至初始押韵文本生成模型,以获取第一预测文本及第二韵脚;在所述第二韵脚与对应的所述第一韵脚不匹配的情况下,根据所述第二韵脚与对应的所述第一韵脚间的差异,对所述初始押韵模型进行修正,直至所述第二韵脚与对应的所述第一韵脚匹配,以生成所述押韵文本生成模型。
在本申请实施例一种可能的实现方式中,所述文本生成模型为藏头诗生成模型,该装置还包括:
第四获取模块,用于获取第二训练数据集,其中,所述第二训练数据集包括多个诗歌文本;
第五获取模块,用于获取每个所述诗歌文本中各语句的第一首字符;
第二训练模块,用于将每个所述诗歌文本及所述各语句的第一首字符,输入至初始藏头诗生成模型,以获取第二预测文本;在所述第二预测文本中的第二首字符与对应的所述诗歌文本中的第一首字符未匹配的情况下,根据所述第二首字符与对应的所述第一首字符之间的差异,对所述初始藏头诗生成模型进行修正,直至所述第二首字符与对应的所述第一首字符匹配,以生成所述藏头诗生成模型。
在本申请实施例一种可能的实现方式中,所述文本生成模型为现代诗生成模型,所述装置还包括:
第六获取模块,用于获取第三训练数据集,其中,所述第三训练数据集中包括多个普通文本及与每个所述普通文本语义匹配的现代诗文本;
第三训练模块,用于将每个所述普通文本输入至初始现代诗生成模型,以获取第三预测文本;在所述第三预测文本与对应的所述现代诗文本间的语义相似度小于阈值的情况下,根据所述第三预测文本与对应的所述现代诗文本间的语义相似度,对所述初始现代诗生成模型进行修正,直至所述第三预测文本与对应的所述现代诗文本间的语义相似度等于或大于所述阈值,以生成所述现代诗生成模型。
需要说明的是,前述输入文本的处理方法实施例的解释说明,也适用于该实施例的输入文本的处理装置,故在此不再赘述。
本申请实施例中,通过获取用户在输入界面输入的第一文本,并将第一文本输入训练生成的文本生成模型,以获取第二文本,在输入界面显示第二文本。由此,当用户在输入界面上输入文本时,可将用户输入的文本输入训练生成的文本生成模型,利用训练生成的文本生成模型,生成新的文本,并在输入界面上展示,以供用户选择,从而可以提高用户输入内容的趣味性。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本申请的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)902中的计算机程序或者从存储单元908加载到RAM(Random AccessMemory,随机访问/存取存储器)903中的计算机程序,来执行各种适当的动作和处理。在RAM903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。I/O(Input/Output,输入/输出)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(GhicProcessing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital Signal Processor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如输入文本的处理方法。例如,在一些实施例中,输入文本的处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由计算单元901执行时,可以执行上文描述的输入文本的处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行输入文本的处理方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上***的***)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(VirtualPrivate Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
根据本申请的实施例,本申请还提供了一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行本申请上述实施例提出的输入文本的处理方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (17)
1.一种输入文本的处理方法,包括:
获取用户在输入界面输入的第一文本;
将所述第一文本输入训练生成的文本生成模型,以获取第二文本;
在所述输入界面显示所述第二文本。
2.如权利要求1所述的方法,其中,所述文本生成模型为多个,所述将所述第一文本输入训练生成的文本生成模型,以获取第二文本,包括:
确定每个文本生成模型对应的应用场景;
对所述第一文本进行意图识别,以获取所述第一文本对应的意图;
根据所述意图分别与每个所述应用场景之间的匹配度,从多个文本生成模型中抽取目标文本生成模型;
将所述第一文本输入所述目标文本生成模型,以获取所述第二文本。
3.如权利要求1所述的方法,其中,所述输入界面包括多个文本处理控件,所述将所述第一文本输入训练生成的文本生成模型,以获取第二文本,包括:
在任一文本处理控件被选中的情况下,根据被选中的所述任一文本处理控件对应的处理类型,确定目标文本类型;
根据所述目标文本类型、及多个文本生成模型分别与文本类型之间的对应关系,从所述多个文本生成模型中抽取目标文本生成模型;
将所述第一文本输入所述目标文本生成模型,以获取所述第二文本。
4.如权利要求1所述的方法,其中,所述输入界面包括多个文本处理控件,所述将所述第一文本输入训练生成的文本生成模型,以获取第二文本,包括:
获取所述用户对所述多个文本处理控件的历史操作数据;
根据所述历史操作数据,从多个文本生成模型抽取目标文本生成模型;
将所述第一文本输入所述目标文本生成模型,以获取所述第二文本。
5.如权利要求1所述的方法,其中,所述文本生成模型为押韵文本生成模型,在所述将所述第一文本输入训练生成的文本生成模型,以获取第二文本之前,还包括:
获取第一训练数据集,其中,所述第一训练数据集包括多个训练文本及每个所述训练文本的第一韵脚;
将每个所述训练文本输入至初始押韵文本生成模型,以获取第一预测文本及第二韵脚;
在所述第二韵脚与对应的所述第一韵脚不匹配的情况下,根据所述第二韵脚与对应的所述第一韵脚间的差异,对所述初始押韵模型进行修正,直至所述第二韵脚与对应的所述第一韵脚匹配,以生成所述押韵文本生成模型。
6.如权利要求1所述的方法,其中,所述文本生成模型为藏头诗生成模型,在所述将所述第一文本输入训练生成的文本生成模型,以获取第二文本之前,还包括:
获取第二训练数据集,其中,所述第二训练数据集包括多个诗歌文本;
获取每个所述诗歌文本中各语句的第一首字符;
将每个所述诗歌文本及所述各语句的第一首字符,输入至初始藏头诗生成模型,以获取第二预测文本;
在所述第二预测文本中的第二首字符与对应的所述诗歌文本中的第一首字符未匹配的情况下,根据所述第二首字符与对应的所述第一首字符之间的差异,对所述初始藏头诗生成模型进行修正,直至所述第二首字符与对应的所述第一首字符匹配,以生成所述藏头诗生成模型。
7.如权利要求1所述的方法,其中,所述文本生成模型为现代诗生成模型,在所述将所述第一文本输入训练生成的文本生成模型,以获取第二文本之前,还包括:
获取第三训练数据集,其中,所述第三训练数据集中包括多个普通文本及与每个所述普通文本语义匹配的现代诗文本;
将每个所述普通文本输入至初始现代诗生成模型,以获取第三预测文本;
在所述第三预测文本与对应的所述现代诗文本间的语义相似度小于阈值的情况下,根据所述第三预测文本与对应的所述现代诗文本间的语义相似度,对所述初始现代诗生成模型进行修正,直至所述第三预测文本与对应的所述现代诗文本间的语义相似度等于或大于所述阈值,以生成所述现代诗生成模型。
8.一种输入文本的处理装置,包括:
第一获取模块,用于获取用户在输入界面输入的第一文本;
第二获取模块,用于将所述第一文本输入训练生成的文本生成模型,以获取第二文本;
显示模块,用于在所述输入界面显示所述第二文本。
9.如权利要求8所述的装置,其中,所述文本生成模型为多个,所述第二获取模块,用于:
确定每个文本生成模型对应的应用场景;
对所述第一文本进行意图识别,以获取所述第一文本对应的意图;
根据所述意图分别与每个所述应用场景之间的匹配度,从多个文本生成模型中抽取目标文本生成模型;
将所述第一文本输入所述目标文本生成模型,以获取所述第二文本。
10.如权利要求8所述的装置,其中,所述输入界面包括多个文本处理控件,所述第二获取模块,用于:
在任一文本处理控件被选中的情况下,根据被选中的所述任一文本处理控件对应的处理类型,确定目标文本类型;
根据所述目标文本类型、及多个文本生成模型分别与文本类型之间的对应关系,从所述多个文本生成模型中抽取目标文本生成模型;
将所述第一文本输入所述目标文本生成模型,以获取所述第二文本。
11.如权利要求8所述的装置,其中,所述输入界面包括多个文本处理控件,所述第二获取模块,用于:
获取所述用户对所述多个文本处理控件的历史操作数据;
根据所述历史操作数据,从多个文本生成模型抽取目标文本生成模型;
将所述第一文本输入所述目标文本生成模型,以获取所述第二文本。
12.如权利要求8所述的装置,其中,所述文本生成模型为押韵文本生成模型,所述装置还包括:
第三获取模块,用于获取第一训练数据集,其中,所述第一训练数据集包括多个训练文本及每个所述训练文本的第一韵脚;
第一训练模块,用于将每个所述训练文本输入至初始押韵文本生成模型,以获取第一预测文本及第二韵脚;在所述第二韵脚与对应的所述第一韵脚不匹配的情况下,根据所述第二韵脚与对应的所述第一韵脚间的差异,对所述初始押韵模型进行修正,直至所述第二韵脚与对应的所述第一韵脚匹配,以生成所述押韵文本生成模型。
13.如权利要求8所述的装置,其中,所述文本生成模型为藏头诗生成模型,所述装置还包括:
第四获取模块,用于获取第二训练数据集,其中,所述第二训练数据集包括多个诗歌文本;
第五获取模块,用于获取每个所述诗歌文本中各语句的第一首字符;
第二训练模块,用于将每个所述诗歌文本及所述各语句的第一首字符,输入至初始藏头诗生成模型,以获取第二预测文本;在所述第二预测文本中的第二首字符与对应的所述诗歌文本中的第一首字符未匹配的情况下,根据所述第二首字符与对应的所述第一首字符之间的差异,对所述初始藏头诗生成模型进行修正,直至所述第二首字符与对应的所述第一首字符匹配,以生成所述藏头诗生成模型。
14.如权利要求8所述的装置,其中,所述文本生成模型为现代诗生成模型,所述装置还包括:
第六获取模块,用于获取第三训练数据集,其中,所述第三训练数据集中包括多个普通文本及与每个所述普通文本语义匹配的现代诗文本;
第三训练模块,用于将每个所述普通文本输入至初始现代诗生成模型,以获取第三预测文本;在所述第三预测文本与对应的所述现代诗文本间的语义相似度小于阈值的情况下,根据所述第三预测文本与对应的所述现代诗文本间的语义相似度,对所述初始现代诗生成模型进行修正,直至所述第三预测文本与对应的所述现代诗文本间的语义相似度等于或大于所述阈值,以生成所述现代诗生成模型。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110580302.0A CN113360001A (zh) | 2021-05-26 | 2021-05-26 | 输入文本的处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110580302.0A CN113360001A (zh) | 2021-05-26 | 2021-05-26 | 输入文本的处理方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113360001A true CN113360001A (zh) | 2021-09-07 |
Family
ID=77527732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110580302.0A Pending CN113360001A (zh) | 2021-05-26 | 2021-05-26 | 输入文本的处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360001A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114911553A (zh) * | 2022-03-28 | 2022-08-16 | 携程旅游信息技术(上海)有限公司 | 文本处理任务构建方法、装置、设备及存储介质 |
CN116861861A (zh) * | 2023-07-06 | 2023-10-10 | 百度(中国)有限公司 | 文本处理方法及装置、电子设备和存储介质 |
CN116861860A (zh) * | 2023-07-06 | 2023-10-10 | 百度(中国)有限公司 | 文本处理方法及装置、电子设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180286426A1 (en) * | 2017-03-29 | 2018-10-04 | Microsoft Technology Licensing, Llc | Voice synthesized participatory rhyming chat bot |
CN109086408A (zh) * | 2018-08-02 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、电子设备及计算机可读介质 |
CN109977390A (zh) * | 2017-12-27 | 2019-07-05 | 北京搜狗科技发展有限公司 | 一种生成文本的方法及装置 |
CN110134968A (zh) * | 2019-05-22 | 2019-08-16 | 网易(杭州)网络有限公司 | 基于深度学习的诗歌生成方法、装置、设备及存储介质 |
US20200051536A1 (en) * | 2017-09-30 | 2020-02-13 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for generating music |
CN111046648A (zh) * | 2019-10-29 | 2020-04-21 | 平安科技(深圳)有限公司 | 韵律控制的诗词生成方法、装置、设备及存储介质 |
CN111221940A (zh) * | 2020-01-03 | 2020-06-02 | 京东数字科技控股有限公司 | 一种文本生成方法、装置、电子设备及存储介质 |
CN111444679A (zh) * | 2020-03-27 | 2020-07-24 | 北京小米松果电子有限公司 | 诗词生成方法及装置、电子设备、存储介质 |
CN112101006A (zh) * | 2020-09-14 | 2020-12-18 | 中国平安人寿保险股份有限公司 | 一种诗歌生成方法、装置、计算机设备及存储介质 |
CN112651235A (zh) * | 2020-12-24 | 2021-04-13 | 北京搜狗科技发展有限公司 | 一种诗歌生成的方法及相关装置 |
CN112784599A (zh) * | 2020-12-23 | 2021-05-11 | 北京百度网讯科技有限公司 | 诗句的生成方法、装置、电子设备和存储介质 |
-
2021
- 2021-05-26 CN CN202110580302.0A patent/CN113360001A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180286426A1 (en) * | 2017-03-29 | 2018-10-04 | Microsoft Technology Licensing, Llc | Voice synthesized participatory rhyming chat bot |
US20200051536A1 (en) * | 2017-09-30 | 2020-02-13 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for generating music |
CN109977390A (zh) * | 2017-12-27 | 2019-07-05 | 北京搜狗科技发展有限公司 | 一种生成文本的方法及装置 |
CN109086408A (zh) * | 2018-08-02 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、电子设备及计算机可读介质 |
CN110134968A (zh) * | 2019-05-22 | 2019-08-16 | 网易(杭州)网络有限公司 | 基于深度学习的诗歌生成方法、装置、设备及存储介质 |
CN111046648A (zh) * | 2019-10-29 | 2020-04-21 | 平安科技(深圳)有限公司 | 韵律控制的诗词生成方法、装置、设备及存储介质 |
CN111221940A (zh) * | 2020-01-03 | 2020-06-02 | 京东数字科技控股有限公司 | 一种文本生成方法、装置、电子设备及存储介质 |
CN111444679A (zh) * | 2020-03-27 | 2020-07-24 | 北京小米松果电子有限公司 | 诗词生成方法及装置、电子设备、存储介质 |
CN112101006A (zh) * | 2020-09-14 | 2020-12-18 | 中国平安人寿保险股份有限公司 | 一种诗歌生成方法、装置、计算机设备及存储介质 |
CN112784599A (zh) * | 2020-12-23 | 2021-05-11 | 北京百度网讯科技有限公司 | 诗句的生成方法、装置、电子设备和存储介质 |
CN112651235A (zh) * | 2020-12-24 | 2021-04-13 | 北京搜狗科技发展有限公司 | 一种诗歌生成的方法及相关装置 |
Non-Patent Citations (2)
Title |
---|
徐菲菲等: "文本词向量与预训练语言模型研究", 《上海电力大学学报》 * |
徐菲菲等: "文本词向量与预训练语言模型研究", 《上海电力大学学报》, no. 04, 15 August 2020 (2020-08-15), pages 320 - 328 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114911553A (zh) * | 2022-03-28 | 2022-08-16 | 携程旅游信息技术(上海)有限公司 | 文本处理任务构建方法、装置、设备及存储介质 |
CN116861861A (zh) * | 2023-07-06 | 2023-10-10 | 百度(中国)有限公司 | 文本处理方法及装置、电子设备和存储介质 |
CN116861860A (zh) * | 2023-07-06 | 2023-10-10 | 百度(中国)有限公司 | 文本处理方法及装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560912B (zh) | 分类模型的训练方法、装置、电子设备和存储介质 | |
US12039286B2 (en) | Automatic post-editing model for generated natural language text | |
CN112560479B (zh) | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 | |
KR102565673B1 (ko) | 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체 | |
CN113360001A (zh) | 输入文本的处理方法、装置、电子设备和存储介质 | |
CN113220836A (zh) | 序列标注模型的训练方法、装置、电子设备和存储介质 | |
CN113450759A (zh) | 语音生成方法、装置、电子设备以及存储介质 | |
CN112580339B (zh) | 模型的训练方法、装置、电子设备及存储介质 | |
CN112633017A (zh) | 翻译模型训练、翻译处理方法、装置、设备和存储介质 | |
CN114416943B (zh) | 对话模型的训练方法、装置、电子设备及存储介质 | |
CN115309877A (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN116012481B (zh) | 图像生成处理方法、装置、电子设备及存储介质 | |
CN110851601A (zh) | 基于分层注意力机制的跨领域情感分类***及方法 | |
CN113657100A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111859953A (zh) | 训练数据的挖掘方法、装置、电子设备及存储介质 | |
CN112466289A (zh) | 语音指令的识别方法、装置、语音设备和存储介质 | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
CN110991175A (zh) | 多模态下的文本生成方法、***、设备及存储介质 | |
CN112541070A (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN114399772B (zh) | 样本生成、模型训练和轨迹识别方法、装置、设备和介质 | |
CN112527127B (zh) | 输入法长句预测模型的训练方法、装置、电子设备及介质 | |
CN117290515A (zh) | 文本标注模型的训练方法、文生图方法及装置 | |
CN112860995A (zh) | 交互方法、装置、客户端、服务器以及存储介质 | |
CN110457691B (zh) | 基于剧本角色的情感曲线分析方法和装置 | |
CN112466277A (zh) | 韵律模型训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210907 |