CN108877764B

CN108877764B - 有声电子书的音频合成方法、电子设备及计算机存储介质

Info

Publication number: CN108877764B
Application number: CN201810688295.4A
Authority: CN
Inventors: 陈欣润; 戴树颖; 殷祥; 杨丹; 文思远
Original assignee: Zhangyue Technology Co Ltd
Current assignee: Zhangyue Technology Co Ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2019-06-07
Anticipated expiration: 2038-06-28
Also published as: CN108877764A

Abstract

本发明公开了一种有声电子书的音频合成方法、电子设备及计算机存储介质，该方法包括：确定有声电子书的电子书文本中包含的多个对象，以及与有声电子书相对应的多个原始音频；分别针对每个对象确定该对象所对应的原始音频，根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段；根据提取出的各个对象所对应的至少一个音频段合成与有声电子书相对应的合成音频。根据该方法，能够使用户在收听电子书的过程中可以根据自己的偏好选择不同的人来阅读同一本书，从而提升了用户体验。

Description

有声电子书的音频合成方法、电子设备及计算机存储介质

技术领域

本发明涉及计算机领域，具体涉及一种有声电子书的音频合成方法、电子设备及计算机存储介质。

背景技术

随着科技的发展，越来越多的电子书被转换为有声电子书以供读者收听。通过有声电子书，用户不需要观看、直接听取便可获知书中的内容，因此更加的直观、方便、快捷，基于上述优势，有声电子书日益受到读者的喜爱。

但是，发明人在实现本发明的过程中发现，在现有技术中，一本有声电子书通常由一个配音人员录制完成，而且一个配音人员可以完成很多本有声电子书的配音，因此阅读用户在收听一本有声电子书的过程中，通常只能听到一个人的声音，所以较为单调乏味，并且用户不能选择自己喜爱的声音来阅读该有声电子书，导致用户体验不高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的有声电子书的音频合成方法、电子设备及计算机存储介质。

根据本发明的一个方面，提供了一种有声电子书的音频合成方法，包括：确定有声电子书的电子书文本中包含的多个对象，以及与有声电子书相对应的多个原始音频；分别针对每个对象确定该对象所对应的原始音频，根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段；根据提取出的各个对象所对应的至少一个音频段合成与有声电子书相对应的合成音频。

根据本发明的另一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行以下操作：确定有声电子书的电子书文本中包含的多个对象，以及与有声电子书相对应的多个原始音频；分别针对每个对象确定该对象所对应的原始音频，根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段；根据提取出的各个对象所对应的至少一个音频段合成与有声电子书相对应的合成音频。

根据本发明的又一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行以下操作：确定有声电子书的电子书文本中包含的多个对象，以及与有声电子书相对应的多个原始音频；分别针对每个对象确定该对象所对应的原始音频，根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段；根据提取出的各个对象所对应的至少一个音频段合成与有声电子书相对应的合成音频。

根据本发明提供的有声电子书的音频合成方法、电子设备及计算机存储介质，通过确定有声电子书的电子书文本中包含的多个对象，以及与有声电子书相对应的多个原始音频，并且分别针对每个对象确定该对象所对应的原始音频，根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段，进而根据提取出的各个对象所对应的至少一个音频段合成与有声电子书相对应的合成音频。根据该方法，能够根据用户的偏好来从各个对象所对应的原始音频中提取该对象所对应的至少一个音频段，并将其合成一个新的合成音频。这样用户在收听电子书的过程中可以根据自己的偏好选择不同的人来阅读同一本书，从而提升了用户体验，也促使了更多的用户来朗读电子书并上传以使更多的人听到，进而提升了用户的参与感。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明一个实施例提供的有声电子书的音频合成方法的流程图；

图2示出了本发明另一个实施例提供的有声电子书的音频合成方法的流程图；

图3示出了根据本发明另一个实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了本发明一个实施例提供的有声电子书的音频合成方法的流程图。如图1所示，该方法包括以下步骤：

步骤S110：确定有声电子书的电子书文本中包含的多个对象，以及与有声电子书相对应的多个原始音频。

其中，上述原始音频包括但不限于以下中的至少一个：多个不同版本和/或由不同原创者创作的原始音频。具体地，可以根据电子书中的人物角色、旁白信息、章节信息、各种知识点、和/或主题信息确定有声电子书的电子书文本中包含的多个对象。比如根据人物角色来确定书中包含的多个对象时，上述多个对象可以分别为电子书中的多个角色，又比如根据章节信息确定电子书文本包含的多个对象时，上述多个对象可以为电子书中的各个章节。由此可见，电子书文本中包含的多个对象可以由多种方式来确定，上述多个对象可以为各种不同类型的内容，此处不予以限制。

步骤S120：分别针对每个对象确定该对象所对应的原始音频，根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段。

具体地，可以根据预设的分别与各个原始音频相对应的音频选择入口，获取用户针对该音频输入的音频评价信息，根据音频评价信息确定每个对象所对应的原始音频；和/或，通过预设的分别与各个对象相对应的对象选择入口，获取用户针对该对象输入的对象评价信息，并根据上述对象评价信息确定每个对象所对应的原始音频。从而能够综合各种音频评价信息和对象评价信息来确定各个对象所对应的原始音频。

在根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段时，可以根据多种方式来提取。比如可以根据原始视频中的各个时间单元与电子书文本中的各个文本单元之间的对应关系，来获取与各个对象对应的电子书文本相对应的时间段的各个音频段，从而分别针对每个对象确定该对象所对应的原始音频，并从该对象所对应的原始音频中提取该对象所对应的至少一个音频段。可选地，还可以针对提取出的每个音频段，根据该音频段与电子书文本之间的对应关系，为该音频段设置序列信息。其中，该序列信息可以包括：文本位置信息和/或序号信息。通过为各个音频段设置序列信息，可以结合上述序列信息更加精确且方便地从各个对象所对应的原始音频中提取各个对象所对应的至少一个音频段。

步骤S130：根据提取出的各个对象所对应的至少一个音频段合成与有声电子书相对应的合成音频。

具体地，可以直接根据提取出的各个对象所对应的至少一个音频段与电子书文本之间的对应关系，依次按照电子书文本内容的先后顺序对上述各个视频段进行排序，从而合成与有声电子书相对应的合成音频。可选地，为了进一步提高合成效率以及准确率，还可以根据各个对象所对应的各个音频段的序列信息对各个音频段进行排序；针对排序后的各个音频段进行合成，以得到与有声电子书相对应的合成音频。除了上述方式外，还可以根据其它的方式来根据提取出的各个对象所对应的至少一个音频段合成与有声电子书相对应的合成音频，此处不一一类述。

根据本实施例提供的有声电子书的音频合成方法，通过确定有声电子书的电子书文本中包含的多个对象，以及与有声电子书相对应的多个原始音频，并且分别针对每个对象确定该对象所对应的原始音频，根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段，进而根据提取出的各个对象所对应的至少一个音频段合成与有声电子书相对应的合成音频。根据该方法，能够根据用户的偏好来从各个对象所对应的原始音频中提取该对象所对应的至少一个音频段，并将其合成一个新的合成音频。这样用户在收听电子书的过程中可以根据自己的偏好选择不同的人来阅读同一本书，从而提升了用户体验，也促使了更多的用户来朗读电子书并上传以使更多的人听到，进而提升了用户的参与感。

图2示出了本发明另一个实施例提供的有声电子书的音频合成方法的流程图。如图2所示，该方法包括以下步骤：

步骤S210：分别针对每个原始音频进行语音转文本处理，得到与原始音频相对应的转换文本，确定原始音频与转换文本之间的对应关系。

其中，该转换文本可以包括文字文本还可以包括拼音文本，还可以是两者的结合体。若转换文本为拼音文本，将原始音频转换为相对应的转换文本时可以不用考虑多音字等问题，则音频转换为文本时的转换的速度更高。具体地，获取与原始音频相对应的转换文本时可以对原始音频进行语音识别，为了进一步提高将音频转换为文本的转换效率以及正确率，还可以结合预设的转换词汇库确定与原始音频相对应的转换文本；其中上述转换词汇库包括但不限于人名库、和/或地名库。这样，当音频中出现不常见的人名或者地名时，可以直接根据预设的转换词汇库存储的不常见名词来确定与上述不常见的人名或者地名相对应的转换文本，从而减小失误率。进一步地，为了更加有针对性地对各类原始音频中的不常见或者特定词汇进行转换，提高转换效率，还可以将上述预设的转换词汇库进一步划分为多个分别对应于不同主题的主题库，比如针对武侠类的有声电子书，可以设置武侠类主题库，该武侠类主题库中可以设置比如郭靖、黄蓉、武当山等转换词汇；又比如针对言情类的有声电子书，可以设置言情类主题库，该言情类主题库中可以设置比如琼瑶剧中的人名、地名等转换词汇。则在结合预设的转换词汇库确定与原始音频相对应的转换文本时还可以进一步根据上述有声电子书的主题，确定与有声电子书相对应的主题库；并且结合主题库确定与原始音频相对应的转换文本，从而进一步提高了将原始音频转换为转换文本的效率以及准确率。

具体地，其中，原始音频与转换文本之间的对应关系包括：音频中的各个时间单元与转换文本中的各个文本单元之间的对应关系，其中，上述时间单元包括但不限于以下中的至少一个：根据时间戳确定的以毫秒、秒、分钟、和/或小时为时间单位的时间单元；上述文本单元包括但不限于以下中的至少一个：以文本行、文本段、句子、词汇、和/或字为文本单位的文本单元。具体地，可以根据将原始音频转换为转换文本时的识别精度以及转换精度，来确定原始音频与转换文本之间的对应关系。如果识别精度较高并且想要达到较高的转换精度则可以确定音频中的各个较小时间单位的时间单元与转换文本中的各个较小文本单位的文本单元之间的对应关系。比如上述对应关系可以为根据时间戳确定的以毫秒为时间单位的各个时间单元与转换文本中的以字为文本单位的各个文本单元之间的对应关系；相对应地，如果识别精度较低且对转换精度要求较低，则可以确定原始音频中根据时间戳确定的各个较大时间单位的时间单元与转换文本中的各个较大的文本单位的文本单元之间的对应关系，比如上述对应关系还可以为根据时间戳确定的以小时为时间单位的各个时间单元与转换文本中的以段为文本单位的各个文本单元之间的对应关系，除了上述对应关系外，还可以为其他的对应关系，具体可以根据将音频转换为转换文本的识别粒度、预先想要达到的转换精度来确定，本领域技术人员可以根据实际情况来自行选择。

步骤S220：根据电子书文本对转换文本进行校验，根据校验结果以及原始音频与转换文本之间的对应关系，确定电子书文本与原始音频之间的对应关系。

具体地，根据电子书文本(即电子书的标准文本)对转换文本进行校验时，可以从转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合，并从电子书文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合；将第一校验集合中的各个第一文本块分别与第二校验集合中的各个第二文本块进行比对，根据比对结果对第一校验集合中的各个第一文本块进行校验。这样，当转换文本的篇幅较长，则在对比以及校验的时候较为麻烦，通过执行该步骤可以将转换文本不断地进行拆分并加入到第一校验集合，并且将有声电子书对应的电子书文本不断地进行拆分并加入到第二校验集合，这样减小了每次进行对比和校验的文本量，从而使校验方式更加的灵活方便，并且增大了校验的准确率。

具体地，从转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合时可以每当从转换文本中按第一预设顺序提取第一预设数量的第一文本块加入第一校验集合后，将转换文本中已提取的第一文本块标记为第一已提取文本，并将转换文本中与第一已提取文本相对应的下一个文本所处的位置标记为第一待提取初始位置，以便下一次从第一待提取初始位置提取第一预设数量的第一文本块加入第一校验集合，以更新第一校验集合的内容。其中，当转换文本是横向排列的文本时，上述第一预设顺序可以是横向排列的顺序，当转换文本是纵向排列的文本时，上述第一预设顺序可以是纵向排列的顺序，当转换文本按照其它的顺序排列时，上述第一预设顺序还可以是其它形式的排列顺序。并且，上述第一预设数量可以由本领域技术人员根据实际情况灵活地设定为任意数量，此处不予以限制。比如针对横向排列的转换文本中的片段“当这个花朵绽开时，拇指姑娘便出生了，她生活得非常幸福，可是有一天”，可以依次提取“当这个花朵绽开时”作为第一文本块加入第一校验集合，并且将“当这个花朵绽开时”标记为第一已提取文本，并将“时”和“，”之间的位置标记为第一待提取初始位置，以便下一次从该位置后的文本“，拇指姑娘便出生了，她生活得非常幸福，可是有一天”中继续提取第一预设数量的第一文本块加入第一校验集合，从而更新第一校验集合的内容。相对应地，从有声电子书对应的电子书文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合时可以每当从电子书文本中按第二预设顺序提取第二预设数量的第二文本块加入第二校验集合后，将电子书文本中已提取的第二文本块标记为第二已提取文本，并将电子书文本中与第二已提取文本相对应的下一个文本所处的位置标记为第二待提取初始位置，以便下一次从第二待提取初始位置提取第二预设数量的第二文本块加入第二校验集合，以更新第二校验集合的内容。其中，当有声电子书对应的电子书文本是横向排列的文本时，上述第二预设顺序可以是横向排列的顺序，当有声电子书对应的电子书文本是纵向排列的文本时，上述第二预设顺序可以是纵向排列的顺序，当有声电子书对应的电子书文本按照其它的顺序排列时，上述第二预设顺序还可以是其它形式的排列顺序。并且，上述第二预设数量和第一预设数量是相对应的数量，上述第二预设数量也可以由本领域技术人员根据实际情况灵活地设定为任意数量，此处不予以限制。通过上述方式来提取第一文本块加入第一校验集合，提取第二文本块加入第二校验结合，这样可以连续地对第一校验集合以及第二校验集合进行不断地更新，直至将整个转换文本加入到第一校验集合，将整个电子书文本加入到第二校验集合，以完成整本书的对比以及校验，从而可以减少将第一文本块加入第一校验集合以及将第二文本块加入到第二校验集合的失误率，避免了重复或者遗漏地将文本加入到校验集合的情况。

在将第一校验集合中的各个第一文本块分别与第二校验集合中的各个第二文本块进行比对，根据比对结果对第一校验集合中的各个第一文本块进行校验的过程中，可以分别将第一校验集合中的各个第一文本块与第二校验集合中的各个第二文本块进行比对，根据比对结果确定第一校验集合中包含的至少一个第一匹配文本组以及第二校验集合中包含的与至少一个第一匹配文本组相对应的至少一个第二匹配文本组；根据第二校验集合中与至少一个第二匹配文本组相邻的第二非匹配文本，对第一校验集合中与至少一个第一匹配文本组相邻的第一非匹配文本进行校验。其中，第二校验集合中与至少一个第二匹配文本组相邻的第二非匹配文本可以是与至少一个第二匹配文本左边相邻或者右边相邻的第二非匹配文本，上述第一校验集合中与至少一个第一匹配文本组相邻的第一非匹配文本可以是与至少一个第一匹配文本组左边相邻或者右边相邻的第一非匹配文本。

具体地，根据比对结果确定第一校验集合中包含的至少一个第一匹配文本组以及第二校验集合中包含的与至少一个第一匹配文本组相对应的至少一个第二匹配文本组时，为了更加准确地确定第一匹配文本组以及第二匹配文本组，当第一校验集合与第二校验集合中连续匹配的文本个数大于预设阈值时，根据该连续匹配的多个文本确定第一校验集合中的第一匹配文本组以及第二校验集合中的第二匹配文本组；并根据第一校验集合与第二校验集合中不匹配的文本确定第一校验集合中的第一非匹配文本以及第二校验集合中的第二非匹配文本。其中预设阈值可以为3个、5个或者其它数量的文本数，具体的数值可以由本领域技术人员根据实际场景灵活设定。由此可见，第一匹配文本组和/或第二匹配文本组是指：由连续N个相互匹配的文本块构成的一个文本组，其中，N为大于1的自然数，具体数值由本领域技术人员灵活设定。也就是说，只有在连续N个文本块的匹配结果均为成功时，才将其确定为一个匹配文本组，若只有小于N个文本块匹配，则无法作为匹配文本组，以防止偶发性匹配。相应地，第一校验集合与第二校验集合中不匹配的文本是指：除第一匹配文本组以及第二匹配文本组之外的文本，也就是非连续匹配的文本。也就是说，将第一校验集合中除第一匹配文本组之外的其他文本块确定为第一校验集合中的第一非匹配文本；将第二校验集合中除第二匹配文本组之外的其他文本块确定为第二校验集合中的第二非匹配文本。实质上，第一非匹配文本与第二非匹配文本中可能存在少部分匹配成功的文本，但是，由于匹配成功的文本不连续或连续数量小于N而将其归为非匹配文本。通过预先设置上述阈值，可以更加准确地确定第一匹配文本组以及第二匹配文本组，减少了实际不匹配却由于其他情况导致的一两个字的偶发性匹配的问题，从而提高了确定精度，并且能够更加精确地以确定的第一匹配文字组以及第二匹配文字组为基准来确定第一非匹配文字组以及第二非匹配文字组。总之，由于匹配文本组的正确性是毋庸置疑的，因此，利用匹配文本组作为基准去校验其余的非匹配文本，能够提升校验准确性。

具体地，根据第二校验集合中与至少一个第二匹配文本组相邻的第二非匹配文本，对第一校验集合中与至少一个第一匹配文本组相邻的第一非匹配文本进行校验时可以根据第二非匹配文本对第一非匹配文本进行校验并且修正，从而使第一非匹配文本修正为第一匹配文本。可选地，还可以确定第一非匹配文本与第二非匹配文本之间的关系，从而可以根据第一非匹配文本与第二非匹配文本之间的关系，来确定原始音频与第二非匹配文本之间的关系。

除了根据上述步骤来实现根据有声电子书对应的电子书文本对转换文本进行校验外，可选地，当转换文本包括拼音文本时，则可以确定电子书文本中的各个文本对应的拼音，根据上述各个文本所对应到的拼音对上述拼音文本进行校验。

具体地，在根据校验结果以及原始音频与转换文本之间的对应关系时，可以根据校验结果确定转换文本与电子书文本之间的对应关系；从而根据原始音频与转换文本之间的对应关系以及转换文本与电子书文本之间的对应关系，确定电子书文本与原始音频之间的对应关系。

通过执行上述步骤S210～S220中的内容，可以确定电子书文本与原始音频之间的对应关系，从而能够根据上述关系来执行下述步骤S230～S250中的内容，以对原始视频进行各种拆分并且合成。

步骤S230：确定有声电子书的电子书文本中包含的多个对象，以及与有声电子书相对应的多个原始音频。

具体地，可以根据电子书文本中的人物角色、旁白信息、章节信息、和/或主题信息确定有声电子书的电子书文本中包含的多个对象。比如可以根据人物角色可以将电子书文本划分为多个角色，则有声电子书的电子书文本中包含的多个对象可以为电子书文本中的各个角色，又比如可以根据电子书文本中的章节信息确定有声电子书中的电子书文本中包含的多个对象，则上述多个对象可以为电子书文本中的各个章节，根据主题信息确定有声电子书的电子书文本中包含的多个对象时，上述多个对象可以为各种主题，比如为打斗主题、抒情主题等，总之本发明不限制确定有声电子书的电子书文本中包含的多个对象的具体方式，凡是能够确定有声电子书的电子书文本中包含的多个对象的方式均在本发明的保护范围之内。

其中，上述与有声电子书相对应的多个原始音频包括：多个不同版本和/或由不同原创者创作的原始音频。该原始音频可以为由不同的阅读用户以及其他的原创者来创作的原始音频，这样可以使每个原创者创作的音频都有机会被听到，增加了阅读用户的参与感。另外，上述原始音频也可以随着***或者软件的升级不断更新为不同的版本。

步骤S240：分别针对每个对象确定该对象所对应的原始音频，根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段。

具体地，为了帮助用户更加充分的了解各个对象所对应的原始音频，从而综合各个用户的评价信息来帮助用户选择评价较高的原始音频，在分别针对每个对象确定该对象所对应的原始音频的过程中可以分别针对每个对象确定该对象所对应的原始音频时，可以根据预设的分别与各个原始音频相对应的音频选择入口，获取用户针对该音频输入的音频评价信息，根据音频评价信息确定每个对象所对应的原始音频；和/或，通过预设的分别与各个对象相对应的对象选择入口，获取用户针对该对象输入的对象评价信息，根据对象评价信息确定每个对象所对应的原始音频。具体地，针对每个原始音频，用户可以通过预设的分别与各个原始音频相对应的音频选择入口，来获取用户针对该音频输入的音频评价信息，然后用户可以挑选上述音频评价信息中评价较高的音频评价信息或者符合自己要求的音频评价信息进行查看，并确定与上述音频评价信息相对应的原始音频，从而确定每个对象所对应的原始音频。其中，音频评价信息可以包括多种内容，例如，用户想法、评论、音频标签(诸如柔美型、浑厚型、萝莉型)等。可选地，针对每个对象，用户可以通过预设的分别与各个对象相对应的对象选择入口，获取用户针对该对象输入的对象评价信息，然后挑选评价较高或者符合自己要求的对象评价信息，然后确定与该对象评价信息相对应的原始音频，从而确定每个对象所对应的原始音频。具体地，在针对每个对象，用户通过预设的分别与各个对象相对应的对象选择入口获取用户针对该对象输入的对象评价信息时，既可以实时地获取当前用户输入的对象评价信息，例如，当前用户希望女主的声音采用萝莉音进行播放，希望男主的声音采用男中音进行播放，相应地，可以根据当前用户针对各个对象输入的对象评价信息(包括诸如声音特征等信息的对象标签信息等各类内容)，为当前用户生成量身定制的个性化合成音频，以满足当前用户的个性化需求。或者，也可以预先获取大量用户输入的对象评价信息，以便针对各个对象确定符合多数用户需求的原始音频，从而生成通用于大多数用户的大众化合成音频。相应地，上述的对象选择入口可以进一步分为对象实时选择入口，以便针对当前用户生成专门为其量身定制的个性化合成音频，和/或，对象预先选择入口，以便针对多数用户生成符合大众化需求的大众化合成音频。通过上述的对象选择入口，用户可以输入多种内容的对象评价信息，例如，对象标签信息、原始音频标识信息、用户评价内容、想法等。根据上述方式可以根据音频评价信息和/或对象评价信息来综合地确定每个对象所对应的原始音频，从而方便用户综合各个因素来进行选择，并且通过设置分别与各个原始音频相对应的音频选择入口来获取用户针对该音频输入的音频评价信息和/或设置分别与各个对象相对应的对象选择入口来获取用户针对该对象输入的对象评价信息，从而能够直接地获取音频评价信息和/或对象评价信息，方便了用户获取上述音频评价信息和/或对象评价信息。

在分别针对每个对象确定该对象所对应的原始音频，根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段。提取时可以根据原始视频中的各个时间单元与电子书文本中的各个文本单元之间的对应关系，来获取与各个对象在电子书文本中的位置对应的时间段的各个音频段，从而分别针对每个对象确定该对象所对应的原始音频，并从该对象所对应的原始音频中提取该对象所对应的至少一个音频段。

可选地，为了更加精确地从各个对象所对应的原始音频中提取各个对象所对应的至少一个音频段，在本步骤中可以针对提取出的每个音频段，根据该音频段与电子书文本之间的对应关系，为该音频段设置序列信息。其中，该序列信息可以包括：文本位置信息和/或序号信息。比如可以为各个音频段添加文本位置标识来为该音频段设置序列信息，上述文本位置标识比如可以为第一篇第一段，第一篇第二段等标识；可选地，还可以根据该音频段与电子书文本之间的对应关系，为上述各个音频段添加序号信息，比如可以根据在文本中的位置的先后顺序依次为各个音频段添加比如第一段、第二段等可以表示序号信息的标识。通过为各个音频段设置序列信息，可以结合上述序列信息更加精确且方便地从各个对象所对应的原始音频中提取各个对象所对应的至少一个音频段。具体地，在分别确定各个对象所对应的各个音频段的序列信息时，根据各个对象所对应的文本段在电子书中的位置，对各个对象所对应的文本段进行排序，以确定各个对象所对应的文本段的段序信息；根据所述段序信息以及各个对象所对应的文本段与各个对象所对应的各个音频段之间的对应关系，确定所述各个对象所对应的各个音频段的序列信息。

步骤S250：根据提取出的各个对象所对应的至少一个音频段合成与有声电子书相对应的合成音频。

具体地，分别确定各个对象所对应的各个音频段的序列信息，根据上述序列信息对各个音频段进行排序；针对排序后的各个音频段进行合成，以得到与有声电子书相对应的合成音频。具体地，根据序列信息对各个音频段进行排序可以根据上述序列信息，确定该音频段与电子书文本之间的对应关系，从而根据上述对应关系对各个音频段进行排序，以使合成的合成音频能够和电子书文本相互对应，提高了合成与有声电子书相对应的合成音频的准确率。

根据本实施例提供的有声电子书的音频合成方法，通过分别针对每个原始音频，获取与原始音频相对应的转换文本，确定原始音频与转换文本之间的对应关系，并根据电子书文本对转换文本进行校验，根据校验结果以及原始音频与转换文本之间的对应关系，确定电子书文本与原始音频之间的对应关系，从而根据上述对应关系能够对原始视频进行拆分并且合成；通过确定有声电子书的电子书文本中包含的多个对象，以及与有声电子书相对应的多个原始音频，并且分别针对每个对象确定该对象所对应的原始音频，根据该对象在电子书文本中的位置以及电子书文本与该对象所对应的原始音频之间的对应关系，从该对象所对应的原始音频中提取该对象所对应的至少一个音频段，最后根据提取出的各个对象所对应的至少一个音频段合成与有声电子书相对应的合成音频。根据该方法，能够根据用户的偏好来从各个对象所对应的原始音频中提取该对象所对应的至少一个音频段，并将其合成一个新的合成音频。这样用户在收听电子书的过程中可以根据自己的偏好选择不同的人来阅读同一本书，从而提升了用户体验，也促使了更多的用户来朗读电子书并上传以使更多的人听到，进而提升了用户的参与感。

本申请另一实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的有声电子书的音频合成方法。

可执行指令具体可以用于使得处理器执行以下操作：

确定所述有声电子书的电子书文本中包含的多个对象，以及与所述有声电子书相对应的多个原始音频；

分别针对每个对象确定该对象所对应的原始音频，根据该对象在所述电子书文本中的位置以及所述电子书文本与所述该对象所对应的原始音频之间的对应关系，从所述该对象所对应的原始音频中提取该对象所对应的至少一个音频段；

根据提取出的各个对象所对应的至少一个音频段合成与所述有声电子书相对应的合成音频。

在一种可选的方式中，可执行指令进一步使处理器执行以下操作：针对提取出的每个音频段，根据该音频段与所述电子书文本之间的对应关系，为该音频段设置序列信息；

则所述可执行指令还使所述处理器执行以下操作：

分别确定各个对象所对应的各个音频段的序列信息，根据所述序列信息对各个音频段进行排序；

针对排序后的各个音频段进行合成，以得到与所述有声电子书相对应的合成音频。

在一种可选的方式中，所述可执行指令还使所述处理器执行以下操作：根据各个对象所对应的文本段在电子书中的位置，对各个对象所对应的文本段进行排序，以确定各个对象所对应的文本段的段序信息；根据所述段序信息以及各个对象所对应的文本段与各个对象所对应的各个音频段之间的对应关系，确定所述各个对象所对应的各个音频段的序列信息。

在一种可选的方式中，其中，所述确定所述有声电子书的电子书文本中包含的多个对象的包括具体包括：

根据所述电子书文本中的人物角色、旁白信息、章节信息、和/或主题信息确定所述有声电子书的电子书文本中包含的多个对象。

在一种可选的方式中，可执行指令进一步使处理器执行以下操作：

根据预设的分别与各个原始音频相对应的音频选择入口，获取用户针对该音频输入的音频评价信息，根据所述音频评价信息确定每个对象所对应的原始音频；和/或，

通过预设的分别与各个对象相对应的对象选择入口，获取用户针对该对象输入的对象评价信息，根据所述对象评价信息确定每个对象所对应的原始音频。

在一种可选的方式中，其中，所述与所述有声电子书相对应的多个原始音频包括：多个不同版本和/或由不同原创者创作的原始音频。

在一种可选的方式中，可执行指令进一步使处理器执行以下操作：分别针对每个原始音频进行语音转文本处理，得到与所述原始音频相对应的转换文本，确定所述原始音频与所述转换文本之间的对应关系；

根据所述电子书文本对所述转换文本进行校验，根据校验结果以及所述原始音频与所述转换文本之间的对应关系，确定所述电子书文本与所述原始音频之间的对应关系。

在一种可选的方式中，可执行指令进一步使处理器执行以下操作：根据所述校验结果确定所述转换文本与所述电子书文本之间的对应关系；

根据所述原始音频与所述转换文本之间的对应关系以及所述转换文本与所述电子书文本之间的对应关系，确定所述电子书文本与所述原始音频之间的对应关系。

在一种可选的方式中，其中，所述原始音频与所述转换文本之间的对应关系包括：所述原始音频中的各个时间单元与所述转换文本中的各个文本单元之间的对应关系；

且所述电子书文本与所述原始音频之间的对应关系包括：所述原始音频中的各个时间单元与所述电子书文本中的各个文本单元之间的对应关系；

其中，所述时间单元包括：根据时间戳确定的以毫秒、秒、分钟、和/或小时为时间单位的时间单元；所述文本单元包括：以文本行、文本段、句子、词汇、和/或字为文本单位的文本单元。

在一种可选的方式中，可执行指令进一步使处理器执行以下操作：从所述转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合，并从所述电子书文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合；

将所述第一校验集合中的各个第一文本块分别与所述第二校验集合中的各个第二文本块进行比对，根据比对结果对所述第一校验集合中的各个第一文本块进行校验。

在一种可选的方式中，可执行指令进一步使处理器执行以下操作：每当从所述转换文本中按第一预设顺序提取第一预设数量的第一文本块加入第一校验集合后，将所述转换文本中已提取的第一文本块标记为第一已提取文本，并将所述转换文本中与所述第一已提取文本相对应的下一个文本所处的位置标记为第一待提取初始位置，以便下一次从所述第一待提取初始位置提取第一预设数量的第一文本块加入第一校验集合，以更新所述第一校验集合的内容；

所述从所述电子书文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合的步骤具体包括：

每当从所述电子书文本中按第二预设顺序提取第二预设数量的第二文本块加入第二校验集合后，将所述电子书文本中已提取的第二文本块标记为第二已提取文本，并将所述电子书文本中与所述第二已提取文本相对应的下一个文本所处的位置标记为第二待提取初始位置，以便下一次从所述第二待提取初始位置提取第二预设数量的第二文本块加入第二校验集合，以更新所述第二校验集合的内容。

在一种可选的方式中，可执行指令进一步使处理器执行以下操作：分别将所述第一校验集合中的各个第一文本块与所述第二校验集合中的各个第二文本块进行比对，根据比对结果确定所述第一校验集合中包含的至少一个第一匹配文本组以及所述第二校验集合中包含的与所述至少一个第一匹配文本组相对应的至少一个第二匹配文本组；

根据所述第二校验集合中与所述至少一个第二匹配文本组相邻的第二非匹配文本，对所述第一校验集合中与所述至少一个第一匹配文本组相邻的第一非匹配文本进行校验。

在一种可选的方式中，可执行指令进一步使处理器执行以下操作：当所述第一校验集合与所述第二校验集合中连续匹配的文本个数大于预设阈值时，根据该连续匹配的多个文本确定所述第一校验集合中的第一匹配文本组以及所述第二校验集合中的第二匹配文本组；

并根据所述第一校验集合与所述第二校验集合中不匹配的文本确定所述第一校验集合中的第一非匹配文本以及所述第二校验集合中的第二非匹配文本。

在一种可选的方式中，可执行指令进一步使处理器执行以下操作：确定所述电子书文本中的各个文本所对应的拼音，根据所述各个文本所对应的拼音对所述拼音文本进行校验。

对所述原始音频进行语音识别，并结合预设的转换词汇库确定与所述原始音频相对应的转换文本；

其中，所述转换词汇库包括：人名库、和/或地名库。

在一种可选的方式中，其中，所述预设的转换词汇库进一步包括：多个分别对应于不同主题的主题库；

所述可执行指令还使所述处理器执行以下操作：根据所述有声电子书的主题，确定与所述有声电子书相对应的主题库；

结合所述主题库确定与所述原始音频相对应的转换文本。

图3示出了根据本发明另一个实施例提供的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图3所示，该电子设备可以包括：处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。

其中：处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304，用于与其它设备比如客户端或其它服务器等的网元通信。处理器302，用于执行程序310，具体可以执行上述有声电子书的音频合成方法实施例中的相关步骤。

具体地，程序310可以包括程序代码，该程序代码包括计算机操作指令。

处理器302可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器306，用于存放程序310。存储器306可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行以下操作：

在一种可选的方式中，程序310进一步使得处理器302执行以下操作：针对提取出的每个音频段，根据该音频段与所述电子书文本之间的对应关系，为该音频段设置序列信息；

则所述根据提取出的各个对象所对应的至少一个音频段合成与所述有声电子书相对应的合成音频的步骤具体包括：

在一种可选方式中，所述可执行指令还使所述处理器执行以下操作：根据各个对象所对应的文本段在电子书中的位置，对各个对象所对应的文本段进行排序，以确定各个对象所对应的文本段的段序信息；根据所述段序信息以及各个对象所对应的文本段与各个对象所对应的各个音频段之间的对应关系，确定所述各个对象所对应的各个音频段的序列信息。

在一种可选方式中，其中，所述确定所述有声电子书的电子书文本中包含的多个对象的包括具体包括：

在一种可选的方式中，程序310进一步使得处理器302执行以下操作：根据预设的分别与各个原始音频相对应的音频选择入口，获取用户针对该音频输入的音频评价信息，根据所述音频评价信息确定每个对象所对应的原始音频；和/或，

在一种可选方式中，其中，所述与所述有声电子书相对应的多个原始音频包括：多个不同版本和/或由不同原创者创作的原始音频。

在一种可选的方式中，程序310进一步使得处理器302执行以下操作：分别针对每个原始音频进行语音转文本处理，得到与所述原始音频相对应的转换文本，确定所述原始音频与所述转换文本之间的对应关系；

在一种可选的方式中，程序310进一步使得处理器302执行以下操作：根据所述校验结果确定所述转换文本与所述电子书文本之间的对应关系；

在一种可选的方式中，程序310进一步使得处理器302执行以下操作：从所述转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合，并从所述电子书文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合；

在一种可选的方式中，程序310进一步使得处理器302执行以下操作：每当从所述转换文本中按第一预设顺序提取第一预设数量的第一文本块加入第一校验集合后，将所述转换文本中已提取的第一文本块标记为第一已提取文本，并将所述转换文本中与所述第一已提取文本相对应的下一个文本所处的位置标记为第一待提取初始位置，以便下一次从所述第一待提取初始位置提取第一预设数量的第一文本块加入第一校验集合，以更新所述第一校验集合的内容；

在一种可选的方式中，程序310进一步使得处理器302执行以下操作：分别将所述第一校验集合中的各个第一文本块与所述第二校验集合中的各个第二文本块进行比对，根据比对结果确定所述第一校验集合中包含的至少一个第一匹配文本组以及所述第二校验集合中包含的与所述至少一个第一匹配文本组相对应的至少一个第二匹配文本组；

在一种可选的方式中，程序310进一步使得处理器302执行以下操作：当所述第一校验集合与所述第二校验集合中连续匹配的文本个数大于预设阈值时，根据该连续匹配的多个文本确定所述第一校验集合中的第一匹配文本组以及所述第二校验集合中的第二匹配文本组；

在一种可选的方式中，程序310进一步使得处理器302执行以下操作：确定所述电子书文本中的各个文本所对应的拼音，根据所述各个文本所对应的拼音对所述拼音文本进行校验。

在一种可选的方式中，程序310进一步使得处理器302执行以下操作：

其中，所述转换词汇库包括：人名库、和/或地名库。

程序310进一步使得处理器302执行以下操作：根据所述有声电子书的主题，确定与所述有声电子书相对应的主题库；

结合所述主题库确定与所述原始音频相对应的转换文本。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种有声电子书的音频合成方法，包括：

根据提取出的各个对象所对应的至少一个音频段合成与所述有声电子书相对应的合成音频；其中，所述从所述该对象所对应的原始音频中提取该对象所对应的至少一个音频段的步骤具体包括：针对提取出的每个音频段，根据该音频段与所述电子书文本之间的对应关系，为该音频段设置序列信息；

2.根据权利要求1所述的方法，其中，所述分别确定各个对象所对应的各个音频段的序列信息的步骤具体包括：

根据各个对象所对应的文本段在电子书中的位置，对各个对象所对应的文本段进行排序，以确定各个对象所对应的文本段的段序信息；

根据所述段序信息以及各个对象所对应的文本段与各个对象所对应的各个音频段之间的对应关系，确定所述各个对象所对应的各个音频段的序列信息。

3.根据权利要求1所述的方法，其中，所述确定所述有声电子书的电子书文本中包含的多个对象的包括具体包括：

4.根据权利要求1所述的方法，其中，所述分别针对每个对象确定该对象所对应的原始音频的步骤具体包括：

5.根据权利要求1所述的方法，其中，所述与所述有声电子书相对应的多个原始音频包括：多个不同版本和/或由不同原创者创作的原始音频。

6.根据权利要求1所述的方法，其中，所述根据该对象在所述电子书文本中的位置以及所述电子书文本与所述该对象所对应的原始音频之间的对应关系，从所述该对象所对应的原始音频中提取该对象所对应的至少一个音频段的步骤之前，进一步包括：

分别针对每个原始音频进行语音转文本处理，得到与所述原始音频相对应的转换文本，确定所述原始音频与所述转换文本之间的对应关系；

7.根据权利要求6所述的方法，其中，所述根据校验结果以及所述原始音频与所述转换文本之间的对应关系，确定所述电子书文本与所述原始音频之间的对应关系的步骤具体包括：

根据所述校验结果确定所述转换文本与所述电子书文本之间的对应关系；

8.根据权利要求6或7所述的方法，其中，所述原始音频与所述转换文本之间的对应关系包括：所述原始音频中的各个时间单元与所述转换文本中的各个文本单元之间的对应关系；

9.根据权利要求6所述的方法，其中，所述根据所述电子书文本对所述转换文本进行校验的步骤具体包括：

从所述转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合，并从所述电子书文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合；

10.根据权利要求9所述的方法，其中，所述从所述转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合的步骤具体包括：

每当从所述转换文本中按第一预设顺序提取第一预设数量的第一文本块加入第一校验集合后，将所述转换文本中已提取的第一文本块标记为第一已提取文本，并将所述转换文本中与所述第一已提取文本相对应的下一个文本所处的位置标记为第一待提取初始位置，以便下一次从所述第一待提取初始位置提取第一预设数量的第一文本块加入第一校验集合，以更新所述第一校验集合的内容；

11.根据权利要求9或10所述的方法，其中，所述将所述第一校验集合中的各个第一文本块分别与所述第二校验集合中的各个第二文本块进行比对，根据比对结果对所述第一校验集合进行校验的步骤具体包括：

分别将所述第一校验集合中的各个第一文本块与所述第二校验集合中的各个第二文本块进行比对，根据比对结果确定所述第一校验集合中包含的至少一个第一匹配文本组以及所述第二校验集合中包含的与所述至少一个第一匹配文本组相对应的至少一个第二匹配文本组；

12.根据权利要求11所述的方法，其中，根据比对结果确定所述第一校验集合中包含的至少一个第一匹配文本组以及所述第二校验集合中包含的与所述至少一个第一匹配文本组相对应的至少一个第二匹配文本组的步骤具体包括：

当所述第一校验集合与所述第二校验集合中连续匹配的文本个数大于预设阈值时，根据该连续匹配的多个文本确定所述第一校验集合中的第一匹配文本组以及所述第二校验集合中的第二匹配文本组；

13.根据权利要求6或7所述的方法，其中，所述转换文本包括拼音文本，则所述根据所述电子书文本对所述转换文本进行校验的步骤具体包括：

确定所述电子书文本中的各个文本所对应的拼音，根据所述各个文本所对应的拼音对所述拼音文本进行校验。

14.根据权利要求6或7所述的方法，其中，所述获取与所述原始音频相对应的转换文本的步骤具体包括：

其中，所述转换词汇库包括：人名库、和/或地名库。

15.根据权利要求14所述的方法，其中，所述预设的转换词汇库进一步包括：多个分别对应于不同主题的主题库；

则所述结合预设的转换词汇库确定与所述原始音频相对应的转换文本的步骤具体包括：

根据所述有声电子书的主题，确定与所述有声电子书相对应的主题库；

结合所述主题库确定与所述原始音频相对应的转换文本。

16.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：

确定有声电子书的电子书文本中包含的多个对象，以及与所述有声电子书相对应的多个原始音频；

根据提取出的各个对象所对应的至少一个音频段合成与所述有声电子书相对应的合成音频；其中，所述可执行指令还使所述处理器执行以下操作：针对提取出的每个音频段，根据该音频段与所述电子书文本之间的对应关系，为该音频段设置序列信息；

则所述可执行指令还使所述处理器执行以下操作：

17.根据权利要求16所述的电子设备，其中，所述可执行指令还使所述处理器执行以下操作：根据各个对象所对应的文本段在电子书中的位置，对各个对象所对应的文本段进行排序，以确定各个对象所对应的文本段的段序信息；根据所述段序信息以及各个对象所对应的文本段与各个对象所对应的各个音频段之间的对应关系，确定所述各个对象所对应的各个音频段的序列信息。

18.根据权利要求16所述的电子设备，其中，所述确定所述有声电子书的电子书文本中包含的多个对象的包括具体包括：

19.根据权利要求16所述的电子设备，其中，所述可执行指令还使所述处理器执行以下操作：

20.根据权利要求16所述的电子设备，其中，所述与所述有声电子书相对应的多个原始音频包括：多个不同版本和/或由不同原创者创作的原始音频。

21.根据权利要求16所述的电子设备，其中，所述可执行指令还使所述处理器执行以下操作：

22.根据权利要求21所述的电子设备，其中，所述可执行指令还使所述处理器执行以下操作：

23.根据权利要求21或22所述的电子设备，其中，所述原始音频与所述转换文本之间的对应关系包括：所述原始音频中的各个时间单元与所述转换文本中的各个文本单元之间的对应关系；

24.根据权利要求21所述的电子设备，其中，所述可执行指令还使所述处理器执行以下操作：

25.根据权利要求24所述的电子设备，其中，所述可执行指令还使所述处理器执行以下操作：

26.根据权利要求24或25所述的电子设备，其中，所述可执行指令还使所述处理器执行以下操作：

27.根据权利要求26所述的电子设备，其中，所述可执行指令还使所述处理器执行以下操作：

28.根据权利要求21或22所述的电子设备，其中，所述可执行指令还使所述处理器执行以下操作：确定所述电子书文本中的各个文本所对应的拼音，根据所述各个文本所对应的拼音对所述拼音文本进行校验。

29.根据权利要求21或22所述的电子设备，其中，所述可执行指令还使所述处理器执行以下操作：

其中，所述转换词汇库包括：人名库、和/或地名库。

30.根据权利要求29所述的电子设备，其中，所述预设的转换词汇库进一步包括：多个分别对应于不同主题的主题库；

结合所述主题库确定与所述原始音频相对应的转换文本。

31.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：

则所述可执行指令还使所述处理器执行以下操作：

32.根据权利要求31所述的计算机存储介质，其中，所述可执行指令还使所述处理器执行以下操作：根据各个对象所对应的文本段在电子书中的位置，对各个对象所对应的文本段进行排序，以确定各个对象所对应的文本段的段序信息；根据所述段序信息以及各个对象所对应的文本段与各个对象所对应的各个音频段之间的对应关系，确定所述各个对象所对应的各个音频段的序列信息。

33.根据权利要求31所述的计算机存储介质，其中，所述确定所述有声电子书的电子书文本中包含的多个对象具体包括：

34.根据权利要求31所述的计算机存储介质，其中，所述可执行指令还使所述处理器执行以下操作：

35.根据权利要求31所述的计算机存储介质，其中，所述与所述有声电子书相对应的多个原始音频包括：多个不同版本和/或由不同原创者创作的原始音频。

36.根据权利要求31所述的计算机存储介质，其中，所述可执行指令还使所述处理器执行以下操作：

37.根据权利要求36所述的计算机存储介质，其中，所述可执行指令还使所述处理器执行以下操作：

38.根据权利要求36或37所述的计算机存储介质，其中，所述原始音频与所述转换文本之间的对应关系包括：所述原始音频中的各个时间单元与所述转换文本中的各个文本单元之间的对应关系；

39.根据权利要求36所述的计算机存储介质，其中，所述可执行指令还使所述处理器执行以下操作：

40.根据权利要求39所述的计算机存储介质，其中，所述可执行指令还使所述处理器执行以下操作：

41.根据权利要求39或40所述的计算机存储介质，其中，所述可执行指令还使所述处理器执行以下操作：

42.根据权利要求41所述的计算机存储介质，其中，所述可执行指令还使所述处理器执行以下操作：

43.根据权利要求36或37所述的计算机存储介质，其中，所述可执行指令还使所述处理器执行以下操作：确定所述电子书文本中的各个文本所对应的拼音，根据所述各个文本所对应的拼音对所述拼音文本进行校验。

44.根据权利要求36或37所述的计算机存储介质，其中，所述可执行指令还使所述处理器执行以下操作：

其中，所述转换词汇库包括：人名库、和/或地名库。

45.根据权利要求44所述的计算机存储介质，其中，所述预设的转换词汇库进一步包括：多个分别对应于不同主题的主题库；

结合所述主题库确定与所述原始音频相对应的转换文本。