CN109817210A

CN109817210A - 语音写作方法、装置、终端和存储介质

Info

Publication number: CN109817210A
Application number: CN201910111502.4A
Authority: CN
Inventors: 赵洪飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2019-05-28
Anticipated expiration: 2039-02-12
Also published as: CN109817210B

Abstract

本发明实施例公开了一种语音写作方法、装置、终端和存储介质。该方法包括：在用户语音写作过程中，将获取的用户语音信息转换为用户文本信息；将所述用户文本信息与候选行为意图进行匹配，并将匹配到的候选行为意图作为目标行为意图；根据所述目标行为意图，对编辑区的文本内容进行编辑。本发明实施例通过对用户语音行为意图的识别，避免了用户端本身对用户语音复杂的学习过程，且在用户端实现了语音写作指令的匹配，提高了用户端对用户写作指令的响应效率和准确度，满足了用户在写作当中的任何需求，为用户带来了良好的语音写作体验。

Description

语音写作方法、装置、终端和存储介质

技术领域

本发明实施例涉及语音处理技术领域，尤其涉及一种语音写作方法、装置、终端和存储介质。

背景技术

随着语音处理技术的快速发展，越来越多的移动终端或设备采用语音处理技术进行语音的接收、处理和分析等，例如利用语音进行文本的输入等编辑操作。

目前，移动终端本身可以采用强匹配的方式，将语音转换的字符串与逻辑对应的字符串进行比对，在匹配完全相等的情况下而执行相应的逻辑处理；或者移动终端本身可以采用模糊匹配的方式，将语音转换的字符串拆成多个词块，当与逻辑对应的字符串匹配度达到一定比例时即可认为匹配成功，此时再执行相应的逻辑处理。此外，移动终端还可以借助于服务端强大的处理功能，将语音转换的字符串传回服务端，由服务端通过语义分析或深度学习等复杂的处理手段进行指令的匹配，并将匹配结果返回给移动终端进行执行处理。

然而，针对于语音写作场景中，现有移动终端本身的语音处理方式，对于用户输入语音格式要求较高，匹配的准确率较低；且现有借助服务端匹配的方式，对于网络质量要求较高，难以跟随用户的语音写作速度完成大篇幅的写作内容。因此现有语音文本编辑方式无法适应用户的写作过程，适用范围较少，降低用户体验。

发明内容

本发明实施例提供了一种语音写作方法、装置、终端和存储介质，能够提高移动终端用户写作指令的响应效率和准确度。

第一方面，本发明实施例提供了一种语音写作方法，包括：

在用户语音写作过程中，将获取的用户语音信息转换为用户文本信息；

将所述用户文本信息与候选行为意图进行匹配，并将匹配到的候选行为意图作为目标行为意图；

根据所述目标行为意图，对编辑区的文本内容进行编辑。

第二方面，本发明实施例提供了一种语音写作装置，包括：

语音转换模块，用于在用户语音写作过程中，将获取的用户语音信息转换为用户文本信息；

意图识别模块，用于将所述用户文本信息与候选行为意图进行匹配，并将匹配到的候选行为意图作为目标行为意图；

文本编辑模块，用于根据所述目标行为意图，对编辑区的文本内容进行编辑。

第三方面，本发明实施例提供了一种终端，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的语音写作方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的语音写作方法。

本发明实施例在用户语音写作过程中，将获取的用户语音信息转换为用户文本信息，通过将用户文本信息与候选行为意图进行匹配，从而将匹配到的候选行为意图作为目标行为意图，并根据目标行为意图对编辑区的文本内容进行编辑。本发明实施例通过对用户语音行为意图的识别，避免了用户端本身对用户语音复杂的学习过程，且在用户端实现了语音写作指令的匹配，提高了用户端对用户写作指令的响应效率和准确度，满足了用户在写作当中的任何需求，为用户带来了良好的语音写作体验。

附图说明

图1为本发明实施例一提供的一种语音写作方法的流程图；

图2为本发明实施例二提供的一种语音写作方法的流程图；

图3为本发明实施例二提供的用户语音写作过程中语音控制***图片的示例图；

图4为本发明实施例二提供的用户语音写作过程中语音控制***图片的另一示例图；

图5为本发明实施例二提供的语音写作的流程图；

图6为本发明实施例三提供的一种语音写作装置的结构示意图；

图7为本发明实施例四提供的一种终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种语音写作方法的流程图，本实施例可适用于用户通过语音控制进行语音写作和文本内容编辑的情况，该方法可由一种语音写作装置来执行，该装置可以采用软件和/或硬件的方式实现，优选是配置于移动终端。该方法具体包括如下：

S110、在用户语音写作过程中，将获取的用户语音信息转换为用户文本信息。

在本发明具体实施例中，语音写作是指移动终端通过接收用户输入的语音，并加以分析及识别等处理，实现无需用户手动操作，至少可以完成文字编辑、图片***、文本内容编辑、格式编辑、连网搜索等写作相关操作。

其中，用户语音信息可以为用户以语音形式输入的与写作相关的任何语音内容，可以为包括用户所***文字的语音信息，也可以为控制写作操作的语音控制指令。相应的，用户语音信息还可以为触发文字***的语音唤醒信息，也可以为触发控制写作操作的语音唤醒信息，从而在识别出语音唤醒信息时，根据语音唤醒信息之后的用户语音信息执行相关的语音写作操作。

具体的，在用户语音写作过程中，移动终端获取用户语音信息，并在本地将用户语音转换成文字字符，得到以字符形式呈现的用户文本信息。其中，本实施例不对语音的转换方式进行限定，任何能够实现语音转换文本的方式都可以应用于本实施例中。

S120、将用户文本信息与候选行为意图进行匹配，并将匹配到的候选行为意图作为目标行为意图。

在本发明具体实施例中，候选行为意图是指预先确定的用户在写作过程中可能会涉及到的操作行为。候选行为意图可以包括***图片意图、文字内容修改意图和文字格式修改意图中的至少一种。其中，文字内容修改意图包括内容删除子意图和/或内容替换子意图；文字格式修改意图包括标点子意图、换行子意图、加粗子意图、分隔符子意图和引用子意图中的至少一种。

本实施例在确定用户语音信息转换的用户文本信息之后，可以将用户文本信息与候选行为意图进行匹配，并将匹配到的候选行为意图作为目标行为意图。具体的，可以预先设置各个候选行为意图关联的行为匹配词，例如在***图片意图中可以预先设定匹配词为“***目标A的图片”，在文字内容修改意图中可以预先设定匹配词为“修改目标A词为目标B词”，在文字格式修改意图中可以预先设定匹配词为“将目标A词加粗”等。其中，候选行为意图可以为服务端基于语义分析或深度学习等算法，根据用户文本信息学习得到的。同时也可以基于每次用户文本信息的反馈结果，对候选行为意图进行验证、更新以及添加等重新确定。从而在移动终端每次对用户语音信息进行行为意图识别时，可以从服务端获取确定的候选行为意图，并基于获取的候选行为意图进行目标行为意图的识别。

此外，本实施例中将用户文本信息与候选行为意图进行匹配的触发条件是，用户文本信息之前的上一条用户文本信息是唤醒文本。具体的，在确定用户语音信息转换的用户文本信息之后，可以进行语音唤醒信息的匹配，从而识别用户即将进行的写作操作，并根据后续的用户语音信息执行对应的写作操作。或者，本实施例可以直接对用户文本信息进行识别，以识别用户输入的是文本内容还是指令内容。如果为文本内容则将用户语音信息转换的用户文本信息输入在文本的输入区；如果为指令内容，则对指令内容进行逻辑匹配，以执行相应的交互处理。其中，本实施例还可以对用户文本信息进行处理；根据处理结果，确定用户文本信息中包括的断句类标点符号、书名号和情感类标点符号中的至少一种，从而为文本内容自动断句并添加标点符号。

示例性的，在文本内容***时，用户可以进行滔滔不绝的语音信息输入，且支持用户的长句输入。移动终端通过对获取的语音信息进行文本转换，将文本内容添加至写作输入区域中。同时还可以对文本内容进行自动化的断句和标点添加。例如，根据书名判别，可以对语音信息中所包括的图书名称自动添加书名号。而在指令内容的输入时，通过对唤醒词的匹配，例如“小度小度”，既可以基于唤醒词的触发，对目标行为意图进行匹配和识别。

S130、根据目标行为意图，对编辑区的文本内容进行编辑。

在本发明具体实施例中，编辑区是指移动终端中进行语音写作的指定显示区域，在该显示区域进行文本内容编辑等写作操作。编辑区可以为具有语音写作功能的应用软件的显示编辑区域，也可以为指定文本文档的显示编辑区域。文本内容可以包括写作所涉及的文字、图片以及标点符号等不同形式的内容。文本内容编辑可以包括文本内容本身及其展现形式的增、删、改、查等编辑操作。其中，图片等形式的文本内容可以从移动终端本地获得，例如呼唤起本地相册进行制定图片的***；也可以在用户语音的控制下连网搜索获得，例如***搜索的图片。

本实施例中，根据目标行为意图确定目标编辑对象以及目标编辑动作，从而在编辑区内对目标编辑对象执行对应的目标编辑动作。具体的，若目标行为意图是***图片意图，则调用图片处理组件，根据用户文本信息确定图片来源和图片筛选条件；根据图片筛选条件，从图片来源获取待***的目标图片；将目标图片***到编辑区的文本内容中。若目标行为意图是内容删除子意图，则根据用户文本信息，确定待删除内容的起始位置和终止位置；根据待删除内容的起始位置和终止位置，对编辑区的文本内容执行删除操作。

本实施例的技术方案，在用户语音写作过程中，将获取的用户语音信息转换为用户文本信息，通过将用户文本信息与候选行为意图进行匹配，从而将匹配到的候选行为意图作为目标行为意图，并根据目标行为意图对编辑区的文本内容进行编辑。本发明实施例通过对用户语音行为意图的识别，避免了用户端本身对用户语音复杂的学习过程，且在用户端实现了语音写作指令的匹配，提高了用户端对用户写作指令的响应效率和准确度，满足了用户在写作当中的任何需求，为用户带来了良好的语音写作体验。

实施例二

本实施例在上述实施例一的基础上，提供了语音写作方法的一个优选实施方式，能够将行为意图的学习和反馈确定过程集成在服务端中，通过获取服务端确定的候选行为意图，在用户端实现了语音写作指令的匹配。图2为本发明实施例二提供的一种语音写作方法的流程图，如图2所示，该方法包括以下具体：

S210、在用户语音写作过程中，将获取的用户语音信息转换为用户文本信息。

S220、对用户文本信息进行处理；根据处理结果，确定用户文本信息中包括的断句类标点符号、书名号和情感类标点符号中的至少一种。

在本发明具体实施例中，对用户文本信息进行处理可以包括对文本信息的识别和/或语义分析等自动处理过程，确定用户文本信息所包含的停顿或间隔、所传达的情感以及专有词语等，从而自动为用户文本信息进行断句以及标点符号的添加。其中，可以在确定的断句处自动添加断句类标点符号，例如顿号、逗号、分号或句号等；可以根据情感信息的识别例如情感词的识别，自动添加情感类标点符号，例如感叹号或问号等。在书名号添加过程中，可以将用户文本信息与候选书名进行匹配，若匹配成功，则确定文本信息中包括匹配到的候选书名，并对文本信息中所包括的图书名称自动添加书名号；用户在写作过程中还可以通过语音方式指定书名，例如通过语音输入的用户文本信息是“书名是某某某”，则在编辑区生成《某某某》。此外，用户还有可以通过语音指令控制呼唤起标点快速选择方式，主动为文本信息添加标点符号。

S230、从服务端获取用户的候选行为意图。

在本发明具体实施例中，候选行为意图可以为服务端基于语义分析或深度学习等算法，根据用户文本信息学习得到的。同时也可以基于每次用户文本信息的反馈结果，对候选行为意图进行验证、更新以及添加等重新确定。在移动终端每次对用户语音信息进行行为意图识别时，可以从服务端获取确定的候选行为意图，并基于获取的候选行为意图进行目标行为意图的识别。从而将复杂的行为意图确定过程集成在服务端来执行，移动终端仅需根据获取的候选行为意图进行匹配即可，不仅提高了候选行为意图确定的准确度，而且进一步提高了用户端对于目标行为意图的匹配效率和准确度。

可选的，将用户文本信息与候选行为意图进行匹配的触发条件是，用户文本信息之前的上一条用户文本信息是唤醒文本。

本实施例中，在确定用户语音信息转换的用户文本信息之后，可以进行语音唤醒信息的匹配，从而识别用户即将进行的写作操作，并根据后续的用户语音信息执行对应的写作操作。示例性的，在指令内容的输入时，通过对唤醒词的匹配，例如“小度小度”，既可以基于唤醒词的触发，对目标行为意图进行匹配和识别。

S240、将用户文本信息与候选行为意图进行匹配，并将匹配到的候选行为意图作为目标行为意图。

S250、根据目标行为意图，对编辑区的文本内容进行编辑。

在本发明具体实施例中，根据目标行为意图确定目标编辑对象以及目标编辑动作，从而在编辑区内对目标编辑对象执行对应的目标编辑动作。

可选的，若目标行为意图是***图片意图，则调用图片处理组件，根据用户文本信息确定图片来源和图片筛选条件；根据图片筛选条件，从图片来源获取待***的目标图片；将目标图片***到编辑区的文本内容中。

本实施例中，***图片意图是指将用户指定的目标图片***至编辑区中。其中，用户文本信息可以限定了图片来源和图片筛选条件，图片来源可以包括本地图片以及网络搜索图片，图片筛选条件可以包括图片所关联的人物、时间、地点以及事件等限制条件，从而从图片来源中筛选出符合图片筛选条件的图片作为待***的目标图片。同时，用户文本信息还可以限定编辑区中图片的***位置，从而将目标图片***到编辑区中指定的***位置。

示例性的，若用户语音信息为“***昨天晚上7点的照片”、“***在A大厦拍摄的照片”或“***我与B的合影”等，则根据转换后的用户文本信息，可以确定图片来源为本地相册，图片筛选条件分别为图片的拍摄时间、图片的拍摄地点以及拍摄的内容，进而从本地相册中分别筛选出满足上述图片筛选条件的目标图片进行***。例如，图3为用户语音写作过程中语音控制***图片的示例图。如图3所示，图3左图为用户意图从本地进行图片***的语音控制示例图，通过唤醒词的触发，将用户行为意图识别为***图片意图，通过从本地查找符合图片筛选条件的图片，并展示给用户供选择，如图3右侧的本地图片搜索结果示例图。相应的，用户还可以通过语音控制，从符合图片筛选条件的至少两个图片中进行选择，并将最终选择的图片作为目标图片进行***。此外，还可以同时***至少两张图片。

再例如，若用户语音信息为“***电影A的海报”、“***明星B的街拍照片”或“***明星C的颁奖典礼照片”，则根据转换后的用户文本信息，可以确定图片来源为网络搜索，图片筛选条件均限制了图片内容，进而从网络中搜索满足上述图片筛选条件的目标图片进行***。例如，图4为用户语音写作过程中语音控制***图片的另一示例图。如图4所示，可以将从网络中搜索到的图片提供给用户进行选择和***。

可选的，若目标行为意图是内容删除子意图，则根据用户文本信息，确定待删除内容的起始位置和终止位置；根据待删除内容的起始位置和终止位置，对编辑区的文本内容执行删除操作。

本实施例中，文字内容修改意图是指对编辑区文本内容中的文字本身进行修改，可以包括内容删除子意图和/或内容替换子意图，其中，内容删除子意图是指对指定文字进行删除操作，内容替换子意图是指对指定文字进行替换操作。相应的，在进行文本内容修改时，可以根据用户文本信息确定待修改的文字内容和/或在编辑区的位置，从而对指定位置的内容进行修改操作。

示例性的，若用户语音信息为“删除从位置A到位置B”，则根据转换后的用户文本信息，可以确定待删除内容的起始位置为位置A，待删除内容的终止位置为位置B，进而删除编辑区中位于起始位置和终止位置之间的文本内容。

再例如，若用户语音信息为“从内容A替换为内容B”，则根据转换后的用户文本信息，可以确定待替换内容为内容A，进而替换内容A为内容B。其中，替换的内容可以为字符、词语、句子或段落等。

本实施例中，候选行为意图还可以为文字格式修改意图，文字格式修改意图是指对编辑区的指定文本内容进行排版、格式等形式上的修改。文字格式修改意图可以包括标点子意图、换行子意图、加粗子意图、分隔符子意图和引用子意图中的至少一种。由于部分文字修改较为复杂，或较少使用，且无从获知其操作方法，因此根据用户语音进行文字格式的修改，避免了用户复杂的手动操作，提高了格式的修改效率和准确度。

S260、向服务端发送目标行为意图关联的用户文本信息，由服务端根据接收的用户文本信息确定用户的候选行为意图。

在本发明具体实施例中，目标行为意图关联的用户文本信息是指确定目标行为意图所依据的用户文本信息。在一次的用户语音控制写作的过程执行后，可以将确定的目标行为意图关联的用户文本信息反馈给服务端，还可以将此次的实际写作操作反馈给服务端，从而由服务端根据接收到的用户文本信息，对目标行为意图进行验证、更新以及添加等重新确定。例如，若目标行为意图验证通过，则保留目标行为意图作为候选行为意图；若目标行为意图验证失败，则可以根据目标行为意图的历史识别准确率，对目标行为意图进行修正，并将修正后的目标行为意图作为候选行为意图，实现对候选行为意图的更新；还可以生成新的行为意图作为候选行为意图，以丰富用户语音写作控制的丰富性，满足用户需求。因此，本实施例将基于语义分析或深度学习的复杂的候选行为意图确定过程集成在服务端中，提高了候选行为意图的准确度，更进一步提高了移动终端对于行为意图的识别效率和准确度。

示例性的，图5为语音写作的流程图。如图5所示，在用于语音写作的应用程序启动后，可以从远程服务端拉取候选行为意图的配置信息，也可以在将用户文本信息与候选行为意图进行匹配之前拉取候选行为意图的配置信息。接收用户语音信息，并将用户语音信息转换为用户文本信息。判断用户文本信息中是否包括触发文本内容编辑的唤醒词。若不存在，则直接将文本内容输入至编辑区；若存在，则根据唤醒词后续输入的用户文本信息进行用户行为意图的识别。其中，若识别出配置信息所包括的候选行为意图，则执行关联的文本编辑操作；否则，直接将文本内容输入至编辑区，同时将用户文本信息反馈至远程服务端，由服务端根据反馈的用户文本信息进行候选行为意图的验证、更新或添加等重新确定操作，供用户端下一次语音写作时的调用。

本实施例的技术方案，在用户语音写作过程中，将获取的用户语音信息转换为用户文本信息，通过将用户文本信息与候选行为意图进行匹配，从而将匹配到的候选行为意图作为目标行为意图，并根据目标行为意图对编辑区的文本内容进行编辑。本发明实施例通过对用户语音行为意图的识别，将行为意图的学习和反馈确定过程集成在服务端中，提高了候选行为意图确定的准确度，避免了用户端本身对用户语音复杂的学习过程，进而通过获取服务端确定的候选行为意图，在用户端实现了语音写作指令的匹配，提高了用户端对用户写作指令的响应效率和准确度。且基于语音控制指令进行图片搜索和加载，提高了写作中文本内容的丰富性以及图片添加效率，满足了用户在写作当中的任何需求，为用户带来了良好的语音写作体验。

实施例三

图6为本发明实施例三提供的一种语音写作装置的结构示意图，本实施例可适用于用户通过语音控制进行语音写作和文本内容编辑的情况，该装置可实现本发明任意实施例所述的语音写作方法。该装置具体包括：

语音转换模块610，用于在用户语音写作过程中，将获取的用户语音信息转换为用户文本信息；

意图识别模块620，用于将所述用户文本信息与候选行为意图进行匹配，并将匹配到的候选行为意图作为目标行为意图；

文本编辑模块630，用于根据所述目标行为意图，对编辑区的文本内容进行编辑。

可选的，所述候选行为意图包括***图片意图、文字内容修改意图和文字格式修改意图中的至少一种；

所述文字内容修改意图包括内容删除子意图和/或内容替换子意图；

所述文字格式修改意图包括标点子意图、换行子意图、加粗子意图、分隔符子意图和引用子意图中的至少一种。

可选的，所述文本编辑模块630具体用于：

若所述目标行为意图是所述***图片意图，则调用图片处理组件，根据所述用户文本信息确定图片来源和图片筛选条件；

根据所述图片筛选条件，从所述图片来源获取待***的目标图片；

将所述目标图片***到编辑区的文本内容中。

可选的，所述文本编辑模块630具体用于：

若所述目标行为意图是所述内容删除子意图，则根据所述用户文本信息，确定待删除内容的起始位置和终止位置；

根据所述待删除内容的起始位置和终止位置，对编辑区的文本内容执行删除操作。

进一步的，所述装置还包括标点符号添加模块640；所述标点符号添加模块640具体用于：

在所述将获取的用户语音信息转化为用户文本信息之后，对所述用户文本信息进行处理；

根据处理结果，确定所述用户文本信息中包括的断句类标点符号、书名号和情感类标点符号中的至少一种。

可选的，将所述用户文本信息与候选行为意图进行匹配的触发条件是，所述用户文本信息之前的上一条用户文本信息是唤醒文本。

进一步的，所述装置还包括候选行为意图获取模块650；所述候选行为意图获取模块650具体用于：

在所述将所述用户文本信息与候选行为意图进行匹配之前，从服务端获取用户的候选行为意图；

相应地，所述装置还包括用户文本信息反馈模块660；所述用户文本信息反馈模块660具体用于：

在所述将匹配到的候选行为意图作为目标行为意图之后，向服务端发送所述目标行为意图关联的用户文本信息，由服务端根据接收的用户文本信息确定用户的候选行为意图。

本实施例的技术方案，通过各个功能模块之间的相互配合，实现了候选行为意图的获取、用户语音的转换、转换文本的识别、编辑操作的唤醒、标点符号的添加、文本格式的修改、图片的***以及用户文本信息的反馈等操作。相应的，服务端实现了候选行为意图的确定，以及根据反馈的用户文本信息，对候选行为意图进行验证、更新或添加的重新确定动作。本发明实施例通过对用户语音行为意图的识别，将行为意图的学习和反馈确定过程集成在服务端中，提高了候选行为意图确定的准确度，避免了用户端本身对用户语音复杂的学习过程，进而通过获取服务端确定的候选行为意图，在用户端实现了语音写作指令的匹配，提高了用户端对用户写作指令的响应效率和准确度。且基于语音控制指令进行图片搜索和加载，提高了写作中文本内容的丰富性以及图片添加效率，满足了用户在写作当中的任何需求，为用户带来了良好的语音写作体验。

实施例四

图7为本发明实施例四提供的一种终端的结构示意图，图7示出了适于用来实现本发明实施例实施方式的示例性终端的框图。图7显示的终端仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

图7显示的终端12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，终端12以通用计算设备的形式表现。终端12的组件可以包括但不限于：一个或者多个处理器16，***存储器28，连接不同***组件(包括***存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

终端12典型地包括多种计算机***可读介质。这些介质可以是任何能够被终端12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。终端12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。***存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如***存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

终端12也可以与一个或多个外部终端14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该终端12交互的设备通信，和/或与使得该终端12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，终端12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与终端12的其它模块通信。应当明白，尽管图中未示出，可以结合终端12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理器16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的语音写作方法。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时用于执行一种语音写作方法，该方法包括：

根据所述目标行为意图，对编辑区的文本内容进行编辑。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音写作方法，其特征在于，包括：

根据所述目标行为意图，对编辑区的文本内容进行编辑。

2.根据权利要求1所述的方法，其特征在于，所述候选行为意图包括***图片意图、文字内容修改意图和文字格式修改意图中的至少一种；

3.根据权利要求2所述的方法，其特征在于，若所述目标行为意图是所述***图片意图，则所述根据所述目标行为意图，对编辑区的文本内容进行编辑，包括：

调用图片处理组件，根据所述用户文本信息确定图片来源和图片筛选条件；

将所述目标图片***到编辑区的文本内容中。

4.根据权利要求2所述的方法，其特征在于，若所述目标行为意图是所述内容删除子意图，则所述根据所述目标行为意图，对编辑区的文本内容进行编辑，包括：

根据所述用户文本信息，确定待删除内容的起始位置和终止位置；

5.根据权利要求1所述的方法，其特征在于，在所述将获取的用户语音信息转化为用户文本信息之后，还包括：

对所述用户文本信息进行处理；

6.根据权利要求1所述的方法，其特征在于，将所述用户文本信息与候选行为意图进行匹配的触发条件是，所述用户文本信息之前的上一条用户文本信息是唤醒文本。

7.根据权利要求1所述的方法，其特征在于，在所述将所述用户文本信息与候选行为意图进行匹配之前，还包括：从服务端获取用户的候选行为意图；

相应地，在所述将匹配到的候选行为意图作为目标行为意图之后，还包括：向服务端发送所述目标行为意图关联的用户文本信息，由服务端根据接收的用户文本信息确定用户的候选行为意图。

8.一种语音写作装置，其特征在于，包括：

9.一种终端，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的语音写作方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的语音写作方法。