CN113378530A

CN113378530A - 语音编辑方法及装置、设备和介质

Info

Publication number: CN113378530A
Application number: CN202110717969.0A
Authority: CN
Inventors: 殷元江; 高发宝; 马添翼
Original assignee: Beijing Qiwei Visual Media Technology Co ltd
Current assignee: Beijing Qiwei Visual Media Technology Co ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-09-10

Abstract

本公开提供了一种语音编辑方法及装置、设备和介质。本公开的语音编辑方法包括：在语音编辑模式下，根据接收到的第一语音信息，从待编辑文本中确定至少一个候选词；采用相应的标识符对上述至少一个候选词中的每个候选词进行标记；根据接收到的第二语音信息，从上述至少一个候选词的标识符中确定目标标识符；以及根据接收到的第三语音信息，对上述至少一个候选词中由目标标识符标记的目标词进行编辑。

Description

语音编辑方法及装置、设备和介质

技术领域

本公开涉及数据处理技术领域，尤其涉及语音输入技术领域，具体涉及一种语音编辑方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

语音输入又称声控输入，是将用户的语音自动识别成文字的输入方法。现有的语音输入软件通常只能一次性进行语音输入，即用户讲完话后文字就生成了。但是，语音输入的准确率容易受到环境噪音、用户口音、同音词等方面的影响，常常出现语音识别出的文字不是用户想要输入的文字的情况。在这种情况下，用户需要通过手动输入来对文字进行修改，操作繁琐，使用不便，用户体验较差。在公共环境中，接触式的手动输入可能会带来卫生隐患。并且，对于不方便手动输入文字的用户来说也是一种障碍。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种语音编辑方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种语音编辑方法，包括：在语音编辑模式下，根据接收到的第一语音信息，从待编辑文本中确定至少一个候选词；采用相应的标识符对上述至少一个候选词中的每个候选词进行标记；根据接收到的第二语音信息，从上述至少一个候选词的标识符中确定目标标识符；以及根据接收到的第三语音信息，对上述至少一个候选词中由目标标识符标记的目标词进行编辑。

根据本公开的另一方面，还提供一种语音编辑装置，包括：第一定位模块，被配置为在语音编辑模式下，根据接收到的第一语音信息，从待编辑文本中确定至少一个候选词；标记模块，被配置为采用相应的标识符对上述至少一个候选词中的每个候选词进行标记；第二定位模块，被配置为根据接收到的第二语音信息，从上述至少一个候选词的标识符中确定目标标识符；以及编辑模块，被配置为根据接收到的第三语音信息，对上述至少一个候选词中由目标标识符标记的目标词进行编辑。

根据本公开的另一方面，还提供一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器。存储器存储有计算机程序，该计算机程序在被上述至少一个处理器执行时实现根据上述的语音编辑方法。

根据本公开的另一方面，还提供一种存储有计算机程序的非瞬时计算机可读存储介质，该计算机程序在被处理器执行时实现根据上述的语音编辑方法。

根据本公开的另一方面，还提供一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据上述的语音编辑方法。

根据本公开的一个或多个实施例，根据第一语音信息来从待编辑文本中确定至少一个候选词，采用相应的标识符对每个候选词进行标记，根据第二语音信息来确定目标标识符，根据第三语音信息来对由目标标识符标记的目标词进行编辑，使得用户仅通过发出语音指示即可实现对待编辑位置(即目标词)的精确定位并进行编辑，操作简单、方便，无需手动输入，避免了手动输入带来的卫生隐患和不便，提升了用户体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开实施例的语音编辑方法的流程图；

图2A-图2L示出了根据本公开实施例的示例性语音编辑界面的示意图；

图3示出了根据本公开实施例的语音编辑装置的结构框图；

图4示出了能够用于实现本公开实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开实施例的语音编辑方法100的流程图。方法100可以在电子设备中执行，即，方法100的执行主体可以是电子设备。更具体地，电子设备中可以安装有输入法软件，该输入法软件指示电子设备的处理器来执行方法100。在一些实施例中，电子设备可以是任何类型的移动式计算机设备，包括但不限于移动计算机、移动电话、智能可穿戴设备(例如智能手表、智能眼镜等)等。在另一些实施例中，电子设备也可以是任何类型的固定式计算设备，包括但不限于台式机、服务器计算机等。用于执行方法100的电子设备的实施例将于下文中进行详述。

如图1所示，语音编辑方法100可以包括：步骤110、在语音编辑模式下，根据接收到的第一语音信息，从待编辑文本中确定至少一个候选词；步骤120、采用相应的标识符对上述至少一个候选词中的每个候选词进行标记；步骤130、根据接收到的第二语音信息，从上述至少一个候选词的标识符中确定目标标识符；以及步骤140、根据接收到的第三语音信息，对上述至少一个候选词中由目标标识符标记的目标词进行编辑。

根据本公开的实施例，根据第一语音信息来从待编辑文本中确定至少一个候选词，采用相应的标识符对每个候选词进行标记，根据第二语音信息来确定目标标识符，根据第三语音信息来对由目标标识符标记的目标词进行编辑，使得用户仅通过发出语音指示即可实现对待编辑位置(即目标词)的精确定位并进行编辑，操作简单、方便，无需手动输入，避免了手动输入带来的卫生隐患和不便，提升了用户体验。

下文详细描述方法100的各个步骤。

参考图1，在步骤110，在语音编辑模式下，根据接收到的第一语音信息，从待编辑文本中确定至少一个候选词。

根据一些实施例，语音编辑模式可以响应于用户发出的语音编辑触发命令而进入。即，用户说出语音编辑触发命令，电子设备(例如通过麦克风等语音输入装置)接收到用户发出的语音编辑触发命令后，响应于该语音编辑触发命令，进入语音编辑模式。

在一些实施例中，语音编辑触发命令可以是任意预设的语音命令，例如“文字修改”、“文本编辑”、“进入编辑模式”等语音。在另一些实施例中，语音编辑触发命令也可以是包含预设关键词的任意语音，例如，预设的关键词为“编辑”，相应地，用户发出的任意包含“编辑”的语音均被视为语音编辑触发命令，语音编辑触发命令例如可以是“进入编辑模式”、“进入语音编辑模式”、“打开编辑模式”、“进行文本编辑”等。

语音编辑模式用于通过用户语音来对文本进行编辑。根据一些实施例，除了语音编辑模式之外，电子设备还可以提供其他工作模式，例如语音输入模式等。在语音输入模式下，电子设备对用户发出的语音进行语音识别，生成相应的文本。

不同工作模式之间可以通过相应的语音命令进行切换。例如，响应于语音输入触发命令，进入语音输入模式；响应于语音编辑触发命令，进入语音编辑模式。与语音编辑触发命令类似地，语音输入触发命令可以是任意预设的语音命令，例如“语音输入”、“声控输入”、“语音打字”等语音；也可以是包含预设关键词的任意语音，例如包含预设关键词“语音输入”的“进入语音输入模式”、“打开语音输入模式”、“进行语音输入”等。在一些实施例中，除语音输入模式、语音编辑模式之外，还可以包括其他工作模式，例如表情输入模式、皮肤设置模式等，其他工作模式也可以通过相应的语音命令进入。

一种比较常见的情况是，用户在语音输入模式中输入语音，电子设备对用户输入的语音进行语音识别，生成相应的文本。由于受到环境噪音、用户口音或其他方面的影响，所生成的文本可能不够准确，与用户期望的不符。因此，用户说出语音编辑触发命令，进入语音编辑模式，以执行本公开的语音编辑方法100的步骤110-140，对语音输入模式下生成的文本进行编辑修改。也就是说，步骤110中的待编辑文本为语音输入模式下生成的文本，即，待编辑文本是通过对用户在语音输入模式下输入的语音进行语音识别而得到的。

图2A示出了根据本公开实施例的示例性语音编辑界面200A的示意图。界面200A的区域210中展示出了示例性的待编辑文本。该待编辑文本是通过对用户在语音输入模式下输入的语音进行语音识别而得到的，其中存在多处错误，例如，将“文字”错误识别为“蚊子”，以及标点符号的错用等。

在步骤110中，当电子设备接收到用户输入的第一语音信息时，根据接收到的第一语音信息，从待编辑文本中确定至少一个候选词。

第一语音信息为用户发出的语音，用于指示用户想要编辑的词。例如，用户想要对待编辑文本中的“蚊子”一词进行编辑，则第一语音信息为用户说出的“蚊子”的语音。

在一些实施例中，可以通过文字或语音的方式向用户输出提示消息，以引导用户输入第一语音信息。例如，可以向用户播放语音提示消息“请说出您想要编辑的词或短语”，以提示用户输入第一语音信息。

可以有多种方式来确定步骤110中的至少一个候选词。根据一些实施例，可以通过文本匹配的方式来从待编辑文本中确定至少一个候选词，即：通过对第一语音信息进行语音识别，得到第一语音信息的同音词的集合；以及确定待编辑文本中的属于上述同音词的集合的至少一个词作为上述至少一个候选词。

例如，通过对第一语音信息进行语音识别，得到第一语音信息的读音“wenzi”的同音词的集合，得到的同音词的集合例如可以是{文字，蚊子，雯子，雯梓}。随后，将图待编辑文本中的属于集合{文字，蚊子，雯子，雯梓}的词确定为候选词。例如，在图2A所示的待编辑文本中，通过判断各个词是否属于第一语音信息的同音词的集合，确定出三个候选词，分别为位于第一行的“文字”，和分别位于第三行、第九行的“蚊子”。

根据另一些实施例，可以通过语音匹配的方式来从待编辑文本中确定至少一个候选词，即：分别确定待编辑文本中的各个词的语音与第一语音信息的相似度；以及基于所确定的相似度，确定待编辑文本中的各个词中相似度大于预设阈值的至少一个词作为上述至少一个候选词。

例如，可以获取待编辑文本中的各个词的语音特征和第一语音信息的语音特征。根据相应的语音特征分别计算出各个词的语音与第一语音信息的相似度(例如，计算某个词的语音特征与第一语音信息的语音特征的余弦相似度)，将相似度大于预设阈值的词作为候选词。语音特征例如可以是MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)、PLP(Perceptual Linear Prediction，线性感知预测)等音频特征，也可以是拼音特征。预设阈值的值可以由本领域技术人员根据实际情况来设置。例如，在图2A所示的待编辑文本中，通过确定待编辑文本中的各个词的语音与第一语音信息的相似度，得出三个候选词，分别为位于第一行的“文字”，和分别位于第三行、第九行的“蚊子”。

在通过步骤110确定出至少一个候选词后，执行步骤120。

在步骤120中，采用相应的标识符对上述至少一个候选词中的每个候选词进行标记。

每个候选词均对应于一个标识符，不同候选词的标识符不同。标识符可以是任意符号。由于在后续步骤130中，需要根据用户的第二语音信息来确定目标标识符，因此优选地，可以将标识符设置为任意具有读音的字符，以便于用户通过语音来指定目标标识符。例如，可以将标识符设置为数字。

例如，用户在图2A所示的界面200A下，发出“蚊子”的读音，即第一语音信息，基于该第一语音信息，从待编辑文本中确定出三个候选词，即位于第一行的“文字”，和分别位于第三行、第九行的“蚊子”。可以分别采用标识符①、②、③来对这三个候选词进行标记，并将标记结果呈现给用户，得到如图2B所示的界面200B。如图2B所示，位于第一行的“文字”，位于第三行的“蚊子”、位于第九行的“蚊子”对应的标识符分别为①、②、③。根据一些实施例，为了达到更好的呈现效果，便于用户选择候选词，可以采用与待编辑文本中的其他词不同的格式来突出显示各候选词及其对应的标识符。例如，可以将各候选词及其对应的标识符高亮显示，或者采用粗体、斜体、不同的颜色来显示，等等。

基于步骤120对各候选词的标记，执行步骤130。

在步骤130中，根据接收到的第二语音信息，从上述至少一个候选词的标识符中确定目标标识符。

第二语音信息为用户发出的语音，用于指示用户选中的标识符。在一些实施例中，可以通过文字或语音的方式向用户输出提示消息，以引导用户输入第二语音信息。例如，可以向用户播放语音提示消息“请说出您选择的词语编号”，以提示用户输入第二语音信息。由于每个标识符都对应于一个候选词，因此，用户可以通过发出用于指示标识符的第二语音信息来从多个候选词中精确定位其想要编辑的候选词(下文中，将用户想要编辑的候选词记为“目标词”)。

根据一些实施例，可以采用与其他标识符及其所标记的候选词不同的格式来突出显示目标标识符及其所标记的目标词，例如，可以将目标标识符及其所标记的目标词配置为按照预设频率进行闪烁，或者采用更大的字号、加粗的字体等方式来显示目标标识符及其所标记的目标词。

根据一些实施例，当标识符为数字时，可以通过对第二语音信息进行语音识别，从上述至少一个候选词的标识符中确定与第二语音信息对应的数字作为目标标识符。例如，在图2B所示的界面200B下，用户发出标识符“②”对应的语音(即第二语音信息)，电子设备对该语音进行语音识别，确定其对应的数字为2，则目标标识符即为“②”。可以将目标标识符“②”及其对应的目标词“蚊子”进行闪烁显示。

在一些实施例中，用户发出的第二语音信息可以包括多个标识符的语音，相应地，可以确定多个目标标识符。例如，在图2B所示的界面200B下，用户发出标识符“②”和“③”对应的语音(即第二语音信息)，电子设备对该语音进行语音识别，确定其对应的数字为2和3，则可以确定两个目标标识符，即“②”和“③”。可以将目标标识符“②”“③”及其对应的目标词“蚊子”进行闪烁显示。

基于步骤120所确定的目标标识符，执行步骤140。

在步骤140中，根据接收到的第三语音信息，对上述至少一个候选词中由目标标识符标记的目标词进行编辑。

第三语音信息为用户发出的语音，用于指示用户想要对目标词执行的编辑操作。根据一些实施例，可以通过对第三语音信息进行语音识别，确定编辑操作和编辑词；以及利用上述编辑词，对目标词执行上述编辑操作。

在一些实施例中，可以通过文字或语音的方式向用户输出提示消息，以引导用户输入第三语音信息。例如，可以向用户播放语音提示消息“请说出您想要进行的编辑操作”，以提示用户输入第三语音信息。

编辑操作可以包括修改、添加、删除等多种类型的操作。编辑词用于对目标词进行编辑。相应地，利用编辑词对目标词执行编辑操作，可以包括将目标词修改为编辑词、在目标词的后方或前方添加编辑词、或者删除目标词等多种操作。

具体地，根据一些实施例，编辑操作包括修改，相应地，对目标词执行编辑操作包括：将目标词修改为上述编辑词。在这种情况下，第三语音信息例如可以是用户发出的“修改，编辑词”的语音。例如，用户在图2B所示的界面200B中通过发出“②”和“③”对应的语音(即第二语音信息)，选中了第三行和第九行的“蚊子”作为目标词。随后，用户发出“修改，文字”的语音(即第三语音信息)，电子设备通过对该语音进行语音识别，确定编辑操作为修改，编辑词为“文字”，相应地，将位于第三行、第九行的目标词“蚊子”分别修改为编辑词“文字”，得到如图2C所示的界面200C。

根据另一些实施例，编辑操作包括添加，相应地，对目标词执行编辑操作包括：在目标词的后方或前方添加上述编辑词。在这种情况下，第三语音信息例如可以是用户发出的“添加，编辑词”的语音。需要说明的是，具体将编辑词添加在目标词的后方还是前方，可以由本领域技术人员根据实际情况预先设置。例如，用户在图2B所示的界面200B中通过发出“①”对应的语音(即第二语音信息)，选中了第一行的“文字”作为目标词。随后，用户发出“添加，内容”的语音(即第三语音信息)，电子设备通过对该语音进行语音识别，确定编辑操作为添加，编辑词为“内容”，相应地，在第一行的“文字”后方添加编辑词“内容”。

可以理解，在一些情况中，可能由于环境噪音、用户口音、存在同音词或其他方面的原因，导致电子设备无法从第三语音信息中准确识别出编辑词。在这种情况下，可以向用户提供第三语音信息对应的候选编辑词的列表，根据用户输入的第四语音信息来从该列表中选择出编辑词。即：可以对第三语音信息进行语音识别，确定编辑操作和候选编辑词的列表；以及根据接收到的第四语音信息，从候选编辑词的列表中确定编辑词。

例如，用户在图2A所示的界面200A下发出“语音输入”的语音(即第一语音信息)，电子设备从待编辑文本中确定出该语音对应的三个候选词“语音输入”，采用标识符①、②、③分别对三者进行标记，并对候选词及其标识符高亮显示，得如图2D所示的界面200D。随后，用户发出“②”的语音(即第二语音信息)，电子设备确定该语音对应的目标标识符为“②”，相应地，目标词为待编辑文本中的第二个“语音输入”。可以将目标标识符“②”及其对应的目标词“语音输入”闪烁显示。随后，用户发出“添加，都”的语音(第三语音信息)，电子设备确定该语音对应的编辑操作为添加，候选编辑词的列表为“1、都2、兜3、抖4、豆5、逗”，图2E示出了包含该候选编辑词的列表220的界面200E。随后，用户发出“1”的语音(即第四语音信息)，电子设备基于该语音，将相应的候选编辑词“都”作为编辑词，并将该编辑词添加至目标词，即由标识符“②”所标记的“语音输入”的后方，得到如图2F所示的界面200F。

根据一些实施例，方法100还包括：响应于符号巡检语音命令，对待编辑文本中的符号依次进行检查。

符号巡检语音命令可以是任意预设的语音命令，例如“符号巡检”、“标点巡检”、“标点符号巡检”等语音。当用户说出符号巡检语音命令后，电子设备接收并响应于该序号巡检语音命令，对待编辑文本中的符号依次进行检查。

根据一些实施例，对待编辑文本中的符号依次进行检查包括：通过对接收到的第五语音信息进行语音识别，确定该第五语音信息对应的目标符号；响应于光标所指示的当前符号与目标符号不同，将当前符号修改为目标符号；以及将光标移至待编辑文本中的下一个符号。

例如，用户在图2F所示的界面200F下说出符号巡检语音命令。电子设备响应于该符号巡检语音命令，将在待编辑文本中的第一个符号处显示光标，得到如图2G所示的界面200G，或如图2H所示的界面200H，以便对待编辑文本中的符号依次进行检查。应当理解，光标的呈现形式有多种，例如，在图2G所示的界面200G中，光标可以呈现为位于符号左侧的一条竖线230(进一步地，可以将该竖线230配置为按照预设的频率闪烁)。在其他实施例中，光标也可以呈现为位于符号右侧的一条竖线。又例如，在图2H所示的界面200H中，光标可以呈现为覆盖符号的高亮区域240。下文以图2G中示出的光标形式(即呈现为位于符号左侧的一条竖线230)为例来说明本公开的符号巡检方案。

在图2G所示的界面200G中，用户发出“句号”的语音(第五语音信息)，电子设备对该语音进行语音识别，确定其对应的目标符号为句号“。”。光标230所指示的当前符号为逗号“，”，与目标符号不同，因此，将当前符号“，”修改为目标符号“。”，随后，将光标230移至待编辑文本中的下一个符号，得到如图2I所示的界面200I。随后，用户在界面200I下，发出“逗号”的语音(第五语音信息)，电子设备对该语音进行识别，确定其对应的目标符号为逗号“，”。光标230所指示的当前符号为逗号“，”，与目标符号相同，因此不作修改，直接将光标230移至待编辑文本中的下一个符号。

重复上述过程，直至完成对待编辑文本中的所有符号的检查。这时，光标230将位于待编辑文本的最后一个符号处，如图2J的界面200J所示。

根据一些实施例，方法100还包括：响应于段落调整语音命令，对所述待编辑文本进行段落调整。

段落调整语音命令可以是任意预设的语音命令，例如“段落调整”、“调整段落”、“段落设置”等语音。当用户说出段落调整语音命令后，电子设备接收并响应于该段落调整语音命令，对待编辑文本进行段落调整。

根据一些实施例，对待编辑文本进行段落调整包括：根据接收到的第六语音信息，确定段落调整操作；以及对待编辑文本执行该段落调整操作。段落调整操作例如包括首行缩进、分段换行、调整段间距等。通过对第六语音信息进行语音识别，可以确定第六语音信息对应的段落调整操作，进而对待编辑文本执行该段落调整操作。

例如，用户在图2J所示的界面200J下说出段落调整语音命令。电子设备响应于该段落调整语音命令，可以发出语音提示消息“请说出您想进行的段落调整操作”。随后，用户发出“第一行缩进两个字符”的语音(即第六语音信息)，电子设备对该语音进行语音识别，以确定其对应的段落调整操作，并对待编辑文本执行该段落调整操作，即将待编辑文本的第一行缩进两个字符，得到如图2K所示的界面200K。在图2K所示的界面200K下，用户发出“第六行第十一个字换行”的语音，电子设备对该语音进行语音识别，以确定其对应的段落调整操作，并对待编辑文本执行该段落调整操作，即将待编辑文本的第六行第十一个字符进行换行，得到如图2L所示的界面200L。

基于上述实施例，本公开的语音编辑方法可以实现不同工作模式的切换和操作。例如，在语音输入模式下，将用户的语音转换为文字；切换到语音编辑模式后，可以通过用户语音对待编辑文本进行编辑，例如进行词的修改和/或添加、标点符号的检查和修改、以及段落调整等，实现了全语音的输入和编辑功能，无需任何手动操作，避免了手动操作造成的卫生隐患和不便，提升了用户体验。

根据本公开的另一方面，还提供一种语音编辑装置。图3示出了根据本公开实施例的语音编辑装置300的示意图。如图3所示，装置300包括第一定位模块310、标记模块320、第二定位模块330以及编辑模块340。

第一定位模块310被配置为在语音编辑模式下，根据接收到的第一语音信息，从待编辑文本中确定至少一个候选词。

标记模块320被配置为采用相应的标识符对上述至少一个候选词中的每个候选词进行标记。

第二定位模块330被配置为根据接收到的第二语音信息，从上述至少一个候选词的标识符中确定目标标识符。

编辑模块340被配置为根据接收到的第三语音信息，对上述至少一个候选词中由目标标识符标记的目标词进行编辑。

应当理解，图3中所示装置300的各个模块可以与参考图1描述的方法100中的各个步骤相对应。由此，上面针对方法100描述的操作、特征和优点同样适用于装置300及其包括的模块。为了简洁起见，某些操作、特征和优点在此不再赘述。

虽然上面参考特定模块讨论了特定功能，但是应当注意，本文讨论的各个模块的功能可以分为多个模块，和/或多个模块的至少一些功能可以组合成单个模块。本文讨论的特定模块执行动作包括该特定模块本身执行该动作，或者替换地该特定模块调用或以其他方式访问执行该动作(或结合该特定模块一起执行该动作)的另一个组件或模块。因此，执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。例如，上面描述的第一定位模块310和标记模块320在一些实施例中可以组合成单个模块。

还应当理解，本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图3描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如，这些模块可以被实现为计算机程序代码/指令，该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地，这些模块可以被实现为硬件逻辑/电路。例如，在一些实施例中，第一定位模块310、标记模块320、第二定位模块330、编辑模块340中的一个或多个可以一起被实现在片上***(System on Chip,SoC)中。SoC可以包括集成电路芯片(其包括处理器(例如，中央处理单元(Central ProcessingUnit,CPU)、微控制器、微处理器、数字信号处理器(Digital Signal Processor,DSP)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件)，并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。

根据本公开的另一方面，还提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有计算机程序，所述计算机程序在被所述至少一个处理器执行时实现根据上述的语音编辑方法。

根据本公开的另一方面，还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被处理器执行时实现根据上述的语音编辑方法。

根据本公开的另一方面，还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据上述的语音编辑方法。

参考图4，现将描述可以作为本公开的服务器或客户端的电子设备400的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向设备400输入信息的任何类型的设备，输入单元406可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元407可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元408可以包括但不限于磁盘、光盘。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙^TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理步骤，例如图1中的步骤110-140。例如，在一些实施例中，语音编辑方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的语音编辑方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音编辑方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、***和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种语音编辑方法，包括：

在语音编辑模式下，根据接收到的第一语音信息，从待编辑文本中确定至少一个候选词；

采用相应的标识符对所述至少一个候选词中的每个候选词进行标记；

根据接收到的第二语音信息，从所述至少一个候选词的标识符中确定目标标识符；以及

根据接收到的第三语音信息，对所述至少一个候选词中由所述目标标识符标记的目标词进行编辑。

2.根据权利要求1所述的方法，还包括：

响应于语音编辑触发命令，进入所述语音编辑模式。

3.根据权利要求1所述的方法，其中，所述待编辑文本是通过对用户在语音输入模式下输入的语音进行语音识别而得到的。

4.根据权利要求3所述的方法，还包括：

响应于语音输入触发命令，进入所述语音输入模式。

5.根据权利要求1-4中任一项所述的方法，其中，所述从待编辑文本中确定至少一个候选词包括：

通过对所述第一语音信息进行语音识别，得到所述第一语音信息的同音词的集合；以及

确定所述待编辑文本中的属于所述同音词的集合的至少一个词作为所述至少一个候选词。

6.根据权利要求1-4中任一项所述的方法，其中，所述从待编辑文本中确定至少一个候选词包括：

分别确定所述待编辑文本中的各个词的语音与所述第一语音信息的相似度；以及

基于所确定的相似度，确定所述待编辑文本中的各个词中相似度大于预设阈值的至少一个词作为所述至少一个候选词。

7.根据权利要求1-4中任一项所述的方法，其中，所述标识符为数字，并且

其中，所述确定目标标识符包括：通过对所述第二语音信息进行语音识别，从所述至少一个候选词的标识符中确定与所述第二语音信息对应的数字作为所述目标标识符。

8.根据权利要求1-4中任一项所述的方法，其中，所述对所述至少一个候选词中由所述目标标识符标记的目标词进行编辑包括：

通过对所述第三语音信息进行语音识别，确定编辑操作和编辑词；以及

利用所述编辑词，对所述目标词执行所述编辑操作。

9.根据权利要求8所述的方法，其中，所述确定编辑操作和编辑词包括：

通过对所述第三语音信息进行语音识别，确定所述编辑操作和候选编辑词的列表；以及

根据接收到的第四语音信息，从所述候选编辑词的列表中确定所述编辑词。

10.根据权利要求8所述的方法，其中，所述编辑操作包括修改，并且

其中，所述对所述目标词执行所述编辑操作包括：将所述目标词修改为所述编辑词。

11.根据权利要求8所述的方法，其中，所述编辑操作包括添加，并且

其中，所述对所述目标词执行所述编辑操作包括：在所述目标词的后方或前方添加所述编辑词。

12.根据权利要求1-4中任一项所述的方法，还包括：

响应于符号巡检语音命令，对所述待编辑文本中的符号依次进行检查。

13.根据权利要求12所述的方法，其中，所述对所述待编辑文本中的符号依次进行检查包括：

通过对接收到的第五语音信息进行语音识别，确定所述第五语音信息对应的目标符号；

响应于光标所指示的当前符号与所述目标符号不同，将所述当前符号修改为所述目标符号；以及

将所述光标移至所述待编辑文本中的下一个符号。

14.根据权利要求1-4中任一项所述的方法，还包括：

响应于段落调整语音命令，对所述待编辑文本进行段落调整。

15.根据权利要求14所述的方法，其中，所述对所述待编辑文本进行段落调整包括：

根据接收到的第六语音信息，确定段落调整操作；以及

对所述待编辑文本执行所述段落调整操作。

16.一种语音编辑装置，包括：

第一定位模块，被配置为在语音编辑模式下，根据接收到的第一语音信息，从待编辑文本中确定至少一个候选词；

标记模块，被配置为采用相应的标识符对所述至少一个候选词中的每个候选词进行标记；

第二定位模块，被配置为根据接收到的第二语音信息，从所述至少一个候选词的标识符中确定目标标识符；以及

编辑模块，被配置为根据接收到的第三语音信息，对所述至少一个候选词中由所述目标标识符标记的目标词进行编辑。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有计算机程序，所述计算机程序在被所述至少一个处理器执行时实现根据权利要求1-15中任一项所述的方法。

18.一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。