CN113409766A

CN113409766A - 一种识别方法、装置、用于识别的装置及语音合成方法

Info

Publication number: CN113409766A
Application number: CN202110605363.8A
Authority: CN
Inventors: 林国雯; 周明; 程龙; 姜伟; 曾可璇; 段文君; 刘恺; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-17

Abstract

本发明实施例提供了一种识别方法、装置、用于识别的装置以及语音合成方法。其中的识别方法包括：识别目标文本中的对话文本；根据当前对话文本的上下文，确定所述当前对话文本的候选说话人；获取所述候选说话人与所述当前对话文本之间的关系特征；根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。本发明实施例可以自动识别目标文本中各对话文本的目标说话人，可以减少人工成本并且提高识别效率，还可以提高识别目标说话人的准确性。

Description

一种识别方法、装置、用于识别的装置及语音合成方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种识别方法、装置、用于识别的装置以及语音合成方法。

背景技术

有声文学作品受到越来越多的关注，对于多角色的文学作品，需要区分文学作品中各个对话所属的角色，使得不同角色的演播人能够快速准确地录制自己的台词部分。

然而，目前通常通过人工通读文学作品的方式识别文本作品中各个对话所属的角色，不仅需要耗费大量的人力成本而且识别效率较低。

发明内容

本发明实施例提供一种识别方法、装置、用于识别的装置以及语音合成方法，可以自动识别目标文本中各对话文本的目标说话人，可以减少人工成本并且提高识别效率。

为了解决上述问题，本发明实施例公开了一种识别方法，所述方法包括：

识别目标文本中的对话文本；

根据当前对话文本的上下文，确定所述当前对话文本的候选说话人；

获取所述候选说话人与所述当前对话文本之间的关系特征；

根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。

可选地，所述根据当前对话文本的上下文，确定所述当前对话文本的候选说话人，包括：

将所述当前对话文本的上下文逐句输入识别模型，识别所述上下文中的指称；

将识别的指称作为所述当前对话文本的候选说话人。

可选地，所述方法还包括：

识别所述目标文本中的各指称是否对应相同实体；

将对应相同实体的指称进行共指消解，得到同一角色的所有对话文本。

可选地，所述方法还包括：

获取所述目标文本中的目标对话文本以及所述目标对话文本的目标说话人；

根据所述目标对话文本的目标说话人的角色特征以及所述目标对话文本的对话场景特征，对所述目标对话文本进行语音合成，得到所述目标对话文本的语音合成数据。

可选地，所述根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人，包括：

将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征输入预测模型，预测每个候选说话人为目标说话人的得分；

根据预测的每个候选说话人的得分，从所述候选说话人中确定所述当前对话文本的至少一个目标说话人。

可选地，所述将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征输入预测模型，预测每个候选说话人为目标说话人的得分，包括：

获取每个候选说话人分别对应的输入数据，其中，当前候选说话人对应的输入数据包括：所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的当前候选说话人、以及所述当前候选说话人与所述当前对话文本之间的关系特征；

将每个候选说话人对应的输入数据依次输入预测模型，分别预测每个候选说话人为目标说话人的得分。

将所述当前对话文本的所有候选说话人进行两两组合，得到候选说话人组合；

获取每个候选说话人组合分别对应的输入数据，其中，当前候选说话人组合对应的输入数据包括：所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的当前候选说话人组合、以及所述当前候选说话人组合中每个候选说话人与所述当前对话文本之间的关系特征；

将每个候选说话人组合对应的输入数据依次输入预测模型，分别预测每个候选说话人组合中每个候选说话人为目标说话人的得分。

将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的所有候选说话人、以及每个候选说话人与所述当前对话文本之间的关系特征共同输入预测模型，预测每个候选说话人为目标说话人的得分。

可选地，所述根据当前对话文本的上下文，确定所述当前对话文本的候选说话人之前，所述方法还包括：

对所述目标文本进行抽样，得到抽样文本；

确定抽样文本中出现次数满足预设条件的抽样指称；

所述根据当前对话文本的上下文，确定所述当前对话文本的候选说话人，包括：

将出现在所述抽样指称中且出现在所述当前对话文本的上下文中的指称确定为所述当前对话文本的候选说话人。

可选地，所述候选说话人与所述当前对话文本之间的关系特征包括如下任意一项或多项：所述候选说话人与所述当前对话文本的距离、所述候选说话人与所述当前对话文本是否跨段，所述候选说话人在所述当前对话文本的上下文中出现的次数。

可选地，所述识别目标文本中的对话文本，包括：

识别目标文本中的如下任意一种或多种文本：对白文本、旁白文本、独白文本、内心独白文本。

另一方面，本发明实施例公开了一种语音合成方法，所述方法包括：

利用上述任一权利要求所述的识别方法，确定目标文本中各对话文本的至少一个目标说话人；

根据所述目标文本中各对话文本的至少一个目标说话人，合成对应对话文本的语音数据。

再一方面，本发明实施例公开了一种识别装置，所述装置包括：

对话识别模块，用于识别目标文本中的对话文本；

候选确定模块，用于根据当前对话文本的上下文，确定所述当前对话文本的候选说话人；

特征获取模块，用于获取所述候选说话人与所述当前对话文本之间的关系特征；

目标确定模块，用于根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。

可选地，所述候选确定模块，包括：

模型识别子模块，用于将所述当前对话文本的上下文逐句输入识别模型，识别所述上下文中的指称；

候选确定子模块，用于将识别的指称作为所述当前对话文本的候选说话人。

可选地，所述装置还包括：

实体识别模块，用于识别所述目标文本中的各指称是否对应相同实体；

共指消解模块，用于将对应相同实体的指称进行共指消解，得到同一角色的所有对话文本。

可选地，所述装置还包括：

目标获取模块，用于获取所述目标文本中的目标对话文本以及所述目标对话文本的目标说话人；

语音合成模块，用于根据所述目标对话文本的目标说话人的角色特征以及所述目标对话文本的对话场景特征，对所述目标对话文本进行语音合成，得到所述目标对话文本的语音合成数据。

可选地，所述目标确定模块，包括：

得分预测子模块，用于将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征输入预测模型，预测每个候选说话人为目标说话人的得分；

目标确定子模块，用于根据预测的每个候选说话人的得分，从所述候选说话人中确定所述当前对话文本的至少一个目标说话人。

可选地，所述得分预测子模块，包括：

第一获取单元，用于获取每个候选说话人分别对应的输入数据，其中，当前候选说话人对应的输入数据包括：所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的当前候选说话人、以及所述当前候选说话人与所述当前对话文本之间的关系特征；

第一预测单元，用于将每个候选说话人对应的输入数据依次输入预测模型，分别预测每个候选说话人为目标说话人的得分。

可选地，所述得分预测子模块，包括：

候选组合单元，用于将所述当前对话文本的所有候选说话人进行两两组合，得到候选说话人组合；

第二获取单元，用于获取每个候选说话人组合分别对应的输入数据，其中，当前候选说话人组合对应的输入数据包括：所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的当前候选说话人组合、以及所述当前候选说话人组合中每个候选说话人与所述当前对话文本之间的关系特征；

第二预测单元，用于将每个候选说话人组合对应的输入数据依次输入预测模型，分别预测每个候选说话人组合中每个候选说话人为目标说话人的得分。

可选地，所述得分预测子模块，包括：

第三预测单元，用于将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的所有候选说话人、以及每个候选说话人与所述当前对话文本之间的关系特征共同输入预测模型，预测每个候选说话人为目标说话人的得分。

可选地，所述装置还包括：

文本抽样模块，用于对所述目标文本进行抽样，得到抽样文本；

抽样选取模块，用于确定抽样文本中出现次数满足预设条件的抽样指称；

所述候选确定模块，具体用于将出现在所述抽样指称中且出现在所述当前对话文本的上下文中的指称确定为所述当前对话文本的候选说话人。

可选地，所述对话识别模块，具体用于识别目标文本中的如下任意一种或多种文本：对白文本、旁白文本、独白文本、内心独白文本。

再一方面，本发明实施例公开了一种语音合成装置，其特征在于，所述装置包括：

匹配模块，用于利用上述任一权利要求所述的识别方法，确定目标文本中各对话文本的至少一个目标说话人；

合成模块，用于根据所述目标文本中各对话文本的至少一个目标说话人，合成对应对话文本的语音数据。

再一方面，本发明实施例公开了一种用于识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行上述任一权利要求所述的识别方法的指令。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的识别方法。

本发明实施例包括以下优点：

本发明实施例提供的识别方法可用于自动识别目标文本中各对话文本对应的目标说话人。具体地，首先识别目标文本中的对话文本，并根据当前对话文本的上下文，确定所述当前对话文本的候选说话人。然后，获取所述候选说话人与所述当前对话文本之间的关系特征，并根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。其中，候选说话人与当前对话文本之间的关系特征可以体现候选说话人与当前对话文本之间的关联性，进而可以将该关系特征作为确定当前对话文本的目标说话人的有效参数，以提高确定目标说话人的准确性。本发明实施例结合当前对话文本、当前对话文本的上下文、当前对话文本的候选说话人、以及候选说话人与当前对话文本之间的关系特征多方面因素，综合确定所述当前对话文本的至少一个目标说话人，可以提高识别目标说话人的准确性。并且可以减少人工成本以及提高识别效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种识别方法实施例的步骤流程图；

图2是本发明的一种语音合成方法实施例的步骤流程图；

图3是本发明的一种识别装置实施例的结构框图；

图4是本发明的一种语音合成装置实施例的结构框图；

图5是本发明的一种用于识别的装置800的框图；

图6是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、识别目标文本中的对话文本；

步骤102、根据当前对话文本的上下文，确定所述当前对话文本的候选说话人；

步骤103、获取所述候选说话人与所述当前对话文本之间的关系特征；

步骤104、根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。

本发明提供的识别方法可应用于电子设备，所述电子设备包括但不限于：服务器、智能手机、录音笔、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

本发明提供的识别方法可用于自动识别目标文本中每个对话文本对应的目标说话人。所述目标文本可以为电子文本，例如小说类电子书、剧本等。

本发明实施例首先识别目标文本中的对话文本。进一步地，所述识别目标文本中的对话文本，包括：识别目标文本中的如下任意一种或多种文本：对白文本、旁白文本、独白文本、内心独白文本。

其中，对白文本指描述至少两个人物之间的对话性文本。旁白文本指对剧情进行补充和解释的描述性文本。独白文本指描述人物自言自语的文本。内心独白文本指描述人物心理活动的文本。

在具体实施中，可以采用现有方案中任意可用的识别对话文本的方法。示例性的，可以通过对目标文本进行文本语句拆分、语句结构识别、语句语义分析等文本处理，识别出目标文本中的对话文本。

在本发明实施例中，通过对目标文本进行文本处理，识别其中的引号并判断引号内是否包含句末标点，将包含句末标点的引号内的文本确定为对话文本。

在实际应用中，对话文本的说话人通常会出现在对话文本前后的附近位置，也即，对话文本的说话人通常位于对话文本的上下文中。因此，对于识别的当前对话文本，本发明实施例根据当前对话文本的上下文，确定所述当前对话文本的候选说话人，并且获取所述候选说话人与所述当前对话文本之间的关系特征，最后根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。采用同样的方法处理下一个对话文本，将下一个对话文本作为当前对话文本，以确定下一个对话文本的目标说话人。

其中，当前对话文本的上下文可以包括当前对话文本的前N句文本(上文)以及后M句文本(下文)。M和N的具体数值可以根据实验统计或者经验设置。一个示例中，选取当前对话文本的前5句以及后5句文本作为当前对话文本的上下文。在具体实施中，当前对话文本的上下文中也可能包含其他对话文本。

在本发明的一种可选实施例中，所述候选说话人与所述当前对话文本之间的关系特征至少可以包括如下任意一项或多项：所述候选说话人与所述当前对话文本的距离、所述候选说话人与所述当前对话文本是否跨段，所述候选说话人在所述当前对话文本的上下文中出现的次数。

候选说话人与当前对话文本之间的关系特征可以体现候选说话人与当前对话文本之间的关联性，进而可以将该关系特征作为确定当前对话文本的目标说话人的有效参数，以提高确定目标说话人的准确性。

其中，候选说话人与当前对话文本的距离，指候选说话人在上下文中的位置与当前对话文本之间的距离，距离越小表示候选说话人与当前对话文本之间的关联性越强。本发明实施例对候选说话人与当前对话文本的距离的表示方式不做限制。一个示例中，可以通过候选说话人与当前对话文本之间的字符数表示候选说话人与当前对话文本之间的距离。所述字符数可以是汉字、单词、字符等的个数等。

候选说话人与所述当前对话文本是否跨段，指候选说话人与当前对话文本是否属于同一段落，如果不属于同一段落，则为跨段。如果没有跨段则表示候选说话人与当前对话文本之间的关联性较强，或者，跨的段落越少，表示候选说话人与当前对话文本之间的关联性越强。

候选说话人在当前对话文本的上下文中出现的次数越多，表示候选说话人与当前对话文本之间的关联性越强。

最后，根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述候选说话人与所述当前对话文本之间的关系特征，综合确定所述当前对话文本的至少一个目标说话人，不仅可以保证识别目标说话人的准确性，还可以提高识别效率。此外，本发明实施例在当前对话文本的候选说话人中确定至少一个目标说话人，可以避免出现对话文本不存在目标说话人的情况，进而可以避免后续处理中因空的目标说话人引起的异常情况。

在本发明的一种可选实施例中，所述根据当前对话文本的上下文，确定所述当前对话文本的候选说话人，包括：

步骤S11、将所述当前对话文本的上下文逐句输入识别模型，识别所述上下文中的指称；

步骤S12、将识别的指称作为所述当前对话文本的候选说话人。

所述识别模型可以为预先训练完成的神经网络模型，可用于识别文本中所有的指称。指称指文本中某说话人的称呼，可以是姓名(例如张三)、名字(例如小红)、代词指代(例如他、她、他们等)、名词指代(例如张先生、李老、孟博、刘Sir等)等。

本发明实施例将当前对话文本的上下文逐句输入识别模型，可以自动识别出上下文中的所有指称，并且将识别的所有指称作为所述当前对话文本的候选说话人。

本发明实施例对所述识别模型的模型结构和训练方式不做限制。一个示例中，所述识别模型可以为预训练语言模型，如BERT模型或Electra模型。所述识别模型的模型结构可以为BERT模型或Electra模型加一层全连接层。

预训练是指利用样本数据对模型进行训练之前做的训练。预训练的目的是提前训练好下游任务中底层的、共性的部分模型，然后再用下游任务各自的样本数据来训练各自的模型，这样可以极大地加快收敛速度。预训练得到的BERT模型或Electra模型可以在后续用于具体NLP(Natural Language Processing，自然语言处理)任务的时候进行微调(Fine-tuning阶段)，即可适用于多种不同的NLP任务。

训练所述识别模型的训练数据可以为包含标注指称的文本数据，利用该训练数据对预训练的BERT模型或Electra模型进行微调后，可以得到训练完成的识别模型。

在本发明的一种可选实施例中，所述根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人，包括：

步骤S21、将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征输入预测模型，预测每个候选说话人为目标说话人的得分；

步骤S22、根据预测的每个候选说话人的得分，从所述候选说话人中确定所述当前对话文本的至少一个目标说话人。

所述预测模型可以为预先训练完成的神经网络模型，可用于预测候选说话人为目标说话人的得分。得分越高，表示候选说话人为当前对话文本的目标说话人的概率越高。

本发明实施例对所述预测模型的模型结构和训练方式不做限制。一个示例中，所述预测模型可以为预训练语言模型如BERT模型或Electra模型。所述预测模型的模型结构可以为BERT模型或Electra模型加一层全连接层。

训练所述预测模型的训练数据可以为包含标注对话文本以及标注该对话文本对应的说话人的文本数据，且训练数据包括正例和负例。以<quote,mention>表示训练数据为例，其中，quote表示对话文本，mention表示对话文本quote的上下文中出现的指称。将<对话文本,真实的说话人>作为正例，将<对话，上下文出现过的其他角色>作为负例。

利用上述训练数据对预训练的BERT模型或Electra模型进行微调后，可以得到训练完成的预测模型。训练完成的预测模型的输出结果为预测的得分，例如得分为0.999(最高为1，最低为0)。

示例一中，目标文本包含的部分文本如下：

冬至也不客气，拿过手机开始换装备和召唤兽，然后组队下副本，动作娴熟流利，一看就是个没有夜生活的资深宅男。

汉子肃然起敬：“大佬你在哪个区，能不能分条大腿给我抱一下？”

冬至哭笑不得：“咱俩同区，你加我好友吧。”

一来二去，两人聊上了，冬至得知汉子叫何遇，也去长春，不过是部门旅游。

首先，通过文本分析处理，识别上述目标文本中的引号以及引号内是否包含句末标点，以识别其中的对话文本，并获取对话文本的上下文。

示例一中，识别出如下两个对话文本：“大佬你在哪个区，能不能分条大腿给我抱一下？”以及“咱俩同区，你加我好友吧。”

对于第一个对话文本(也即当前对话文本)“大佬你在哪个区，能不能分条大腿给我抱一下？”，假设获取该对话文本的上文包括“冬至也不客气，拿过手机开始换装备和召唤兽，然后组队下副本，动作娴熟流利，一看就是个没有夜生活的资深宅男。”以及“汉子肃然起敬：”。获取该对话文本的下文包括“冬至哭笑不得：“咱俩同区，你加我好友吧。””以及“一来二去，两人聊上了，冬至得知汉子叫何遇，也去长春，不过是部门旅游。”。在该示例中，第一个对话文本的下文中包括另一个对话“咱俩同区，你加我好友吧。”。

然后，将获取的第一个对话文本的上文和下文逐句输入识别模型，识别出如下三个指称：“冬至”、“汉子”、“何遇”，将这三个指称作为候选说话人。

接下来，获取每个候选说话人与第一个对话文本之间的关系特征。以候选说话人“汉子”为例，获取候选说话人“汉子”与第一个对话文本之间的关系特征如下：候选说话人“汉子”与第一个对话文本的距离为5，候选说话人“汉子”与第一个对话文本没有跨段，候选说话人“汉子”在第一个对话文本的上下文中出现的次数为2。同样地，可以分别获取候选说话人“冬至”和“何遇”与第一个对话文本之间的关系特征。

最后，将第一个对话文本、第一个对话文本的上下文、第一个对话文本的候选说话人、以及第一个对话文本的候选说话人与第一个对话文本之间的关系特征输入预测模型，预测每个候选说话人为目标说话人的得分；根据预测的每个候选说话人的得分，从所述候选说话人中确定第一个对话文本的目标说话人。如确定得分最高的候选说话人为第一个对话文本的目标说话人。

同样的方法处理第二个对话文本，可以得到第二个对话文本的目标说话人。

对于步骤S21，本发明提供了如下三种可选的实现方式。

可选方式一，所述将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征输入预测模型，预测每个候选说话人为目标说话人的得分，包括：

步骤A1、获取每个候选说话人分别对应的输入数据，其中，当前候选说话人对应的输入数据包括：所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的当前候选说话人、以及所述当前候选说话人与所述当前对话文本之间的关系特征；

步骤A2、将每个候选说话人对应的输入数据依次输入预测模型，分别预测每个候选说话人为目标说话人的得分。

可选方式一是对当前对话文本的多个候选说话人分别输入预测模型预测得分，也即，每次输入预测模型的是一个候选人对应的输入数据。

假设当前对话文本有A、B、C三个候选说话人，则将当前对话文本、当前对话文本的上下文、当前对话文本的当前候选说话人(如候选说话人A)、以及所述当前候选说话人(候选说话人A)与当前对话文本之间的关系特征，输入预测模型，可以得到候选说话人A为目标说话人的得分。

用同样的方法分别预测候选说话人B和C为目标说话人的得分。最后选择得分最高的候选说话人为当前对话文本的目标说话人。

以示例一中的第一个对话文本为例，将第一个对话文本、第一个对话文本的上下文、第一个对话文本的当前候选说话人(如候选说话人“汉子”)、以及所述当前候选说话人(“汉子”)与第一个对话文本之间的关系特征，输入预测模型，得到候选说话人“汉子”为目标说话人的得分。用同样的方法分别预测候选说话人“冬至”和“何遇”为目标说话人的得分。选择得分最高的候选说话人(如“汉子”)为第一个对话文本的目标说话人。

可选方式二，所述将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征输入预测模型，预测每个候选说话人为目标说话人的得分，包括：

步骤B1、将所述当前对话文本的所有候选说话人进行两两组合，得到候选说话人组合；

步骤B2、获取每个候选说话人组合分别对应的输入数据，其中，当前候选说话人组合对应的输入数据包括：所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的当前候选说话人组合、以及所述当前候选说话人组合中每个候选说话人与所述当前对话文本之间的关系特征；

步骤B3、将每个候选说话人组合对应的输入数据依次输入预测模型，分别预测每个候选说话人组合中每个候选说话人为目标说话人的得分。

可选方式二是对当前对话文本的所有候选说话人进行两两组合，得到候选说话人组合，分别对每个候选说话人组合进行预测，也即，每次输入预测模型的是一个候选人组合对应的输入数据。

假设当前对话文本有A、B、C三个候选说话人，将A、B、C三个候选说话人进行两两组合，可以得到如下候选说话人组合：(A,B)、(A,C)、(B,C)。

将当前对话文本、当前对话文本的上下文、当前对话文本的当前候选说话人组合(如候选说话人组合(A,B))、以及当前候选说话人组合中每个候选说话人与当前对话文本之间的关系特征(如候选说话人A与当前对话文本之间的关系特征、候选说话人B与当前对话文本之间的关系特征)，输入预测模型，得到候选说话人组合(A,B)中候选说话人A的得分以及候选说话人B的得分。

同样的方法处理候选说话人组合(A,C)和(B,C)。将三个候选说话人组合的得分进行比较，选择得分更高的项。例如候选说话人组合(A,B)中候选说话人A的得分更高，则继续比较包含候选说话人A的其他候选说话人组合，如继续比较候选说话人组合(A,C)，若(A,C)中候选说话人C的得分比A更高，则确定目标说话人为C。

以示例一中的第一个对话文本为例，对三个候选说话人“汉子”、“冬至”、“何遇”进行两两组合，可以得到如下候选说话人组合：(冬至，汉子)、(冬至，何遇)、(汉子，何遇)。假设候选说话人组合(冬至，汉子)中“汉子”的得分高于“冬至”，则继续比较包含候选说话人“汉子”的其他候选说话人组合，也即继续比较候选说话人组合(汉子，何遇)，在该组合中，候选说话人“汉子”的得分高于候选说话人“何遇”的得分，则可以确定“汉子”为第一个对话文本的目标说话人。

可选方式三，所述将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征输入预测模型，预测每个候选说话人为目标说话人的得分，包括：

可选方式三是对当前对话文本的多个候选说话人同时输入预测模型预测得分，也即，输入预测模型的是所有候选人对应的输入数据。

以示例一中的第一个对话文本为例，将第一个对话文本、第一个对话文本的上下文、第一个对话文本的所有候选说话人(“冬至”、“汉子”、“何遇”)、以及每个候选说话人与第一个对话文本之间的关系特征(候选说话人“冬至”与第一个对话文本的关系特征、候选说话人“汉子”与第一个对话文本的关系特征、候选说话人“何遇”与第一个对话文本的关系特征)，共同输入预测模型，模型输出三个候选说话人分别对应的得分。

假设该预测模型为五分类模型，则模型输出如下五个得分：[0.1,0.99,0.32,0,0]，其中，0.1为候选说话人“冬至”对应的得分，0.99为候选说话人“汉子”对应的得分，0.32为候选说话人“何遇”对应的得分，可以确定候选说话人“汉子”为第一个对话文本的目标说话人。

需要说明的是，在具体实施中，对于上述三种可选方式，预测模型的模型结构、输入数据、输出数据可能所有不同。

在本发明的一种可选实施例中，所述根据当前对话文本的上下文，确定所述当前对话文本的候选说话人之前，所述方法还可以包括：

步骤S31、对所述目标文本进行抽样，得到抽样文本；

步骤S32、确定抽样文本中出现次数满足预设条件的抽样指称；

所述根据当前对话文本的上下文，确定所述当前对话文本的候选说话人，包括：将出现在所述抽样指称中且出现在所述当前对话文本的上下文中的指称确定为所述当前对话文本的候选说话人。

本发明实施例在确定当前对话文本的候选人之前，对目标文本进行抽样，得到抽样文本，并且识别抽样文本中的所有指称，选取抽样文本中出现次数满足预设条件的抽样指称。抽样指称为用户更加关注的高频指称。例如，对于抽样文本中的所有指称，按照其出现次数从高到底进行排序，选取排序前K的指称为抽样指称。例如，对于目标文本，***自动识别出100个指称，但是用户可能只关注高频的前20个，其他指称可能是非重要角色，则选取出现次数排名前20的指称为抽样指称。

在确定抽样指称之后，在确定当前对话文本的候选说话人时，将出现在所述抽样指称中且出现在所述当前对话文本的上下文中的指称确定为所述当前对话文本的候选说话人。以示例一中的第一个对话文本为例，对目标文本进行抽样并确定抽样指称，假设确定20个抽样指称。在确定第一个对话文本的候选说话人时，由于指称“冬至”、“汉子”、“何遇”出现在所述抽样指称中且出现在第一个对话文本的上下文中，因此，将“冬至”、“汉子”、“何遇”确定为第一个对话文本的候选说话人。由于抽样指称中其他17个指称未出现在第一个对话文本的上下文中，因此不能作为第一个对话文本的候选说话人。

由此，本发明实施例可以保证确定的当前对话文本的候选说话人为目标文本中的高频指称，可以满足用户的实际需求，并且可以进一步提高确定候选说话人的准确性。

在本发明的一种可选实施例中，所述方法还可以包括：

步骤S41、识别所述目标文本中的各指称是否对应相同实体；

步骤S42、将对应相同实体的指称进行共指消解，得到同一角色的所有对话文本。

本发明实施例在识别目标文本中的所有指称之后，可以对识别出的指称进行共指消解。共指消解指对相同实体的指称进行绑定，进而可以整合得到同一角色的所有对话文本。便于后续对不同角色的对话文本进行进一步处理，如录制不同角色的对话音频、合成不同角色的语音数据等。

例如，在示例一中，通过文本“冬至得知汉子叫何遇”，可以得知“汉子”与“何遇”对应同一实体，也即对应相同的角色。本发明实施例对相同实体的指称进行共指消解。例如，将指称“汉子”与“何遇”进行绑定，如均绑定为角色“何遇”，从而可以整合得到角色“何遇”的所有对话文本。

本发明实施例对识别指称是否对应相同实体的具体方式不做限制。例如，可以预先训练分类模型，该分类模型的训练数据可以为包含标注是否为同一实体的标注指称以及标注指称所在的文本数据。在训练完成后，将各指称以及各指称所在文本输入该分类模型，可以输出各指称是否为同一实体的得分。

在本发明的一种可选实施例中，所述方法还可以包括：

步骤S51、获取所述目标文本中的目标对话文本以及所述目标对话文本的目标说话人；

步骤S52、根据所述目标对话文本的目标说话人的角色特征以及所述目标对话文本的对话场景特征，对所述目标对话文本进行语音合成，得到所述目标对话文本的语音合成数据。

本发明实施例在对目标文本中的对话文本识别目标说话人之后，还可以对目标文本中的目标对话文本按角色进行语音合成，得到所述目标对话文本的语音合成数据。通过播放不同角色的语音合成数据，可以给听众带来更加直观的听觉体验。

所述目标对话文本可以为目标文本中指定的对话文本，或者，可以为目标文本中的所有对话文本。其中，所述角色特征包括但不限于如下任意一项或多项：角色性格特征、角色音色特征、角色性别特征、角色年龄特征；所述对话场景特征包括但不限于如下任意一项或多项：对话语气特征、对话情绪特征、对话场所特征。

在本发明实施例中，目标对话文本可以包括如下任意一种或多种文本：对白文本、旁白文本、独白文本、内心独白文本。本发明实施例可以对目标文本中角色之间的对白文本按角色进行语音合成，还可以对目标文本中的旁白文本、独白文本、以及角色的内心独白文本按角色进行语音合成，得到的语音合成数据更加有针对性、更加丰富多元化，进一步给听众带来更加直观、身临其境的听觉体验。

综上，本发明实施例提供的识别方法可用于自动识别目标文本中各对话文本对应的目标说话人。具体地，首先识别目标文本中的对话文本，并根据当前对话文本的上下文，确定所述当前对话文本的候选说话人。然后，获取所述候选说话人与所述当前对话文本之间的关系特征，并根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。其中，候选说话人与当前对话文本之间的关系特征可以体现候选说话人与当前对话文本之间的关联性，进而可以将该关系特征作为确定当前对话文本的目标说话人的有效参数，以提高确定目标说话人的准确性。本发明实施例结合当前对话文本、当前对话文本的上下文、当前对话文本的候选说话人、以及候选说话人与当前对话文本之间的关系特征多方面因素，综合确定所述当前对话文本的至少一个目标说话人，可以提高识别目标说话人的准确性。并且可以减少人工成本以及提高识别效率。

参照图2，示出了本发明的一种语音合成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201、利用权利要求1至11中任一所述的识别方法，确定目标文本中各对话文本的至少一个目标说话人；

步骤202、根据所述目标文本中各对话文本的至少一个目标说话人，合成对应对话文本的语音数据。

本发明提供的语音合成可应用于电子设备，所述电子设备包括但不限于：服务器、智能手机、录音笔、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

在具体实施中，电子设备中可以执行图1所示的识别方法。例如，可以将待合成的目标文本输入电子设备，电子设备通过执行图1所示的识别方法确定目标文本中各对话文本的至少一个目标说话人，进而根据所述目标文本中各对话文本的至少一个目标说话人，合成对应对话文本的语音数据。

本发明实施例提供的语音合成方法首先自动对目标文本进行对话文本识别以及说话人匹配，确定目标文本中各对话文本的至少一个目标说话人；然后，对每个说话人文本根据识别的至少一个目标说话人进行语音合成，得到合成的语音数据。

例如，目标文本中识别出100个对话文本，对这100个对话文本中每个对话文本，可以确定至少一个目标说话人，进而可以针对每个对话文本，根据确定的其对应的目标说话人进行语音合成，得到每个对话文本的语音数据。

进一步地，识别的对话文本可以包括如下任意一种或多种文本：对白文本、旁白文本、独白文本、内心独白文本。本发明实施例可以对目标文本中的不同角色与对话文本进行匹配，并且对不同角色之间的对白文本按角色进行语音合成，还可以对目标文本中的旁白文本、独白文本、以及角色的内心独白文本按角色进行语音合成，得到的语音合成数据更加有针对性、更加丰富多元化，进一步给听众带来更加直观、身临其境的听觉体验。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图3，示出了本发明的一种识别装置实施例的结构框图，所述装置可以包括：

对话识别模块301，用于识别目标文本中的对话文本；

候选确定模块302，用于根据当前对话文本的上下文，确定所述当前对话文本的候选说话人；

特征获取模块303，用于获取所述候选说话人与所述当前对话文本之间的关系特征；

目标确定模块304，用于根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。

可选地，所述候选确定模块，包括：

可选地，所述装置还包括：

可选地，所述目标确定模块，包括：

可选地，所述得分预测子模块，包括：

可选地，所述装置还包括：

本发明实施例提供的识别装置可用于自动识别目标文本中各对话文本对应的目标说话人。具体地，首先通过对话识别模块识别目标文本中的对话文本，并通过候选确定模块根据当前对话文本的上下文，确定所述当前对话文本的候选说话人。然后，通过特征获取模块获取所述候选说话人与所述当前对话文本之间的关系特征，并通过目标确定模块根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。其中，候选说话人与当前对话文本之间的关系特征可以体现候选说话人与当前对话文本之间的关联性，进而可以将该关系特征作为确定当前对话文本的目标说话人的有效参数，以提高确定目标说话人的准确性。本发明实施例结合当前对话文本、当前对话文本的上下文、当前对话文本的候选说话人、以及候选说话人与当前对话文本之间的关系特征多方面因素，综合确定所述当前对话文本的至少一个目标说话人，可以提高识别目标说话人的准确性。并且可以减少人工成本以及提高识别效率。

参照图4，示出了本发明的一种语音合成装置实施例的结构框图，所述装置可以包括：

匹配模块401，用于利用权利要求1至11中任一所述的识别方法，确定目标文本中各对话文本的至少一个目标说话人；

合成模块402，用于根据所述目标文本中各对话文本的至少一个目标说话人，合成对应对话文本的语音数据。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：识别目标文本中的对话文本；根据当前对话文本的上下文，确定所述当前对话文本的候选说话人；获取所述候选说话人与所述当前对话文本之间的关系特征；根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。

图5是根据一示例性实施例示出的一种用于识别的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以测试装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的识别方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种识别方法，所述方法包括：识别目标文本中的对话文本；根据当前对话文本的上下文，确定所述当前对话文本的候选说话人；获取所述候选说话人与所述当前对话文本之间的关系特征；根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种识别方法、装置、用于识别的装置及语音合成方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种识别方法，其特征在于，所述方法包括：

识别目标文本中的对话文本；

获取所述候选说话人与所述当前对话文本之间的关系特征；

2.根据权利要求1所述的方法，其特征在于，所述根据当前对话文本的上下文，确定所述当前对话文本的候选说话人，包括：

将识别的指称作为所述当前对话文本的候选说话人。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

识别所述目标文本中的各指称是否对应相同实体；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征，确定所述当前对话文本的至少一个目标说话人，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征输入预测模型，预测每个候选说话人为目标说话人的得分，包括：

7.根据权利要求5所述的方法，其特征在于，所述将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征输入预测模型，预测每个候选说话人为目标说话人的得分，包括：

8.根据权利要求5所述的方法，其特征在于，所述将所述当前对话文本、所述当前对话文本的上下文、所述当前对话文本的候选说话人、以及所述关系特征输入预测模型，预测每个候选说话人为目标说话人的得分，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据当前对话文本的上下文，确定所述当前对话文本的候选说话人之前，所述方法还包括：

对所述目标文本进行抽样，得到抽样文本；

确定抽样文本中出现次数满足预设条件的抽样指称；

10.根据权利要求1至9任一所述的方法，其特征在于，所述候选说话人与所述当前对话文本之间的关系特征包括如下任意一项或多项：所述候选说话人与所述当前对话文本的距离、所述候选说话人与所述当前对话文本是否跨段，所述候选说话人在所述当前对话文本的上下文中出现的次数。

11.根据权利要求1至9任一所述的方法，其特征在于，所述识别目标文本中的对话文本，包括：

12.一种语音合成方法，其特征在于，所述方法包括：

利用权利要求1至11中任一所述的识别方法，确定目标文本中各对话文本的至少一个目标说话人；

13.一种识别装置，其特征在于，所述装置包括：

对话识别模块，用于识别目标文本中的对话文本；

14.一种用于识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行如权利要求1至11中任一所述的识别方法的指令。

15.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至11中任一所述的识别方法。