CN113779958A

CN113779958A - 文本处理方法及装置、辅助阅读方法及装置

Info

Publication number: CN113779958A
Application number: CN202110909261.5A
Authority: CN
Inventors: 张微微
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-12-10

Abstract

本发明提供了一种文本处理方法及装置、辅助阅读方法及装置，涉及文本处理技术领域。该文本处理方法包括：基于待阅读文本确定待阅读文本对应的文本解析数据，文本解析数据包括能够表征待阅读文本的文本内容特征的数据；基于待阅读文本确定待阅读文本对应的参考音频数据；基于参考音频数据和文本解析数据，生成待阅读文本对应的阅读音频数据，阅读音频数据用于辅助待阅读文本的阅读者阅读待阅读文本。本发明实现了根据待阅读文本的具体文本内容，生成与待阅读文本更匹配的阅读音频数据的目的，进而实现了基于阅读音频数据给阅读者带来沉浸式的阅读体验的目的，提高了阅读者的阅读代入感和用户体验好感度。

Description

文本处理方法及装置、辅助阅读方法及装置

技术领域

本发明涉及文本处理技术领域，具体涉及一种文本处理方法及装置、计算机可读存储介质及电子设备。

背景技术

近年来，随着文本处理技术的迅速发展，基于文本的阅读方式也日益多元化，比如新兴的听书阅读方式。现有听书阅读方式主要包括两种，第一种为主播人声录制，第二种为利用文本到语音(Text To Speech，TTS)技术，将文字转成人工合成语音。

然而，第一种虽然能够为不同的角色分别录制不同音色的语音，但是成本高且效率低。第二种便只能使用单一音色阅读，无法为不同的角色配以不同音色，并且，不能提供相应的背景音效。由此可见，现有的听书阅读方式，难以在保证低成本且高效率的前提下，给阅读者带来沉浸式的阅读体验，用户体验好感度较差。

发明内容

为了解决上述技术问题，提出了本发明。本发明的实施例提供了一种文本处理方法及装置、辅助阅读方法及装置、计算机可读存储介质和电子设备。

第一方面，本发明一实施例提供一种文本处理方法，该方法包括：基于待阅读文本确定待阅读文本对应的文本解析数据，文本解析数据包括能够表征待阅读文本的文本内容特征的数据；基于待阅读文本确定待阅读文本对应的参考音频数据；基于参考音频数据和文本解析数据，生成待阅读文本对应的阅读音频数据，阅读音频数据用于辅助待阅读文本的阅读者阅读待阅读文本。

在本发明一实施例中，待阅读文本包括角色对话语句，角色对话语句对应有角色，文本解析数据包括角色对应的角色特征数据和角色对话内容数据。基于参考音频数据和文本解析数据，生成待阅读文本对应的阅读音频数据，包括：基于角色特征数据和参考音频数据，确定角色对应的发音特征信息；基于发音特征信息和角色对话内容数据，生成角色对应的对话音频数据；基于对话音频数据，生成阅读音频数据。

在本发明一实施例中，角色特征数据包括角色身份数据，参考音频数据包括基于待阅读文本对应的视频数据提取的影视音频数据。基于角色特征数据和参考音频数据，确定角色对应的发音特征信息，包括：基于角色身份数据和影视音频数据，提取角色对应的音频素材数据；基于音频素材数据，确定角色对应的发音特征信息。

在本发明一实施例中，角色特征数据包括年龄数据、性别数据和职业数据中的至少一种数据，参考音频数据包括多个角色样本以及多个角色样本各自对应的发音特征信息。基于角色特征数据和参考音频数据，确定角色对应的发音特征信息，包括：基于角色特征数据和多个角色样本，确定与角色匹配的角色样本；基于与角色匹配的角色样本所对应的发音特征信息，确定角色对应的发音特征信息。

在本发明一实施例中，基于角色特征数据和参考音频数据，确定角色对应的发音特征信息，包括：获取阅读者基于角色特征数据和参考音频数据发出的角色发音选择信息；基于角色发音选择信息和参考音频数据，确定角色对应的发音特征信息。

在本发明一实施例中，待阅读文本包括旁白文本，参考音频数据包括旁白文本发音特征信息。基于参考音频数据和文本解析数据，生成待阅读文本对应的阅读音频数据，包括：基于旁白文本发音特征信息和旁白文本，生成旁白文本对应的旁白音频数据；基于旁白音频数据，生成阅读音频数据。

在本发明一实施例中，文本解析数据包括氛围文本数据，参考音频数据包括氛围音效数据。基于参考音频数据和文本解析数据，生成待阅读文本对应的阅读音频数据，包括：基于氛围文本数据确定待阅读文本对应的氛围阅读标签信息；基于氛围阅读标签信息和氛围音效数据，生成阅读音频数据。

第二方面，本发明一实施例提供一种辅助阅读方法，该方法包括：基于阅读者确定的待阅读文本，获取待阅读文本对应的阅读音频数据，阅读音频数据基于上述第一方面所提及的文本处理方法确定；播放阅读音频数据，以辅助阅读者阅读待阅读文本。

在本发明一实施例中，该方法还包括：获取阅读者发出的发音切换信息，发音切换信息包括旁白文本发音切换信息和/或角色发音切换信息；基于发音切换信息更新阅读音频数据，得到更新后的阅读音频数据。其中，播放阅读音频数据，以辅助阅读者阅读待阅读文本，包括：基于更新时间点切换播放更新后的阅读音频数据，以辅助阅读者阅读待阅读文本。

第三方面，本发明一实施例提供一种文本处理装置，该装置包括：第一确定模块、第二确定模块和生成模块。其中，第一确定模块用于基于待阅读文本确定待阅读文本对应的文本解析数据，文本解析数据包括能够表征待阅读文本的文本内容特征的数据第二确定模块用于基于待阅读文本确定待阅读文本对应的参考音频数据。生成模块用于基于参考音频数据和文本解析数据，生成待阅读文本对应的阅读音频数据，阅读音频数据用于辅助待阅读文本的阅读者阅读待阅读文本。

在本发明一实施例中，待阅读文本包括角色对话语句，角色对话语句对应有角色，文本解析数据包括角色对应的角色特征数据和角色对话内容数据。生成模块还用于，基于角色特征数据和参考音频数据，确定角色对应的发音特征信息，基于发音特征信息和角色对话内容数据，生成角色对应的对话音频数据，基于对话音频数据，生成阅读音频数据。

在本发明一实施例中，角色特征数据包括角色身份数据，参考音频数据包括基于待阅读文本对应的视频数据提取的影视音频数据。生成模块还用于，基于角色身份数据和影视音频数据，提取角色对应的音频素材数据，基于音频素材数据，确定角色对应的发音特征信息。

在本发明一实施例中，角色特征数据包括年龄数据、性别数据和职业数据中的至少一种数据，参考音频数据包括多个角色样本以及多个角色样本各自对应的发音特征信息。生成模块还用于，基于角色特征数据和多个角色样本，确定与角色匹配的角色样本，基于与角色匹配的角色样本所对应的发音特征信息，确定角色对应的发音特征信息。

在本发明一实施例中，生成模块还用于，获取阅读者基于角色特征数据和参考音频数据发出的角色发音选择信息，基于角色发音选择信息和参考音频数据，确定角色对应的发音特征信息。

在本发明一实施例中，待阅读文本包括旁白文本，参考音频数据包括旁白文本发音特征信息。生成模块还用于，基于旁白文本发音特征信息和旁白文本，生成旁白文本对应的旁白音频数据，基于旁白音频数据，生成阅读音频数据。

在本发明一实施例中，文本解析数据包括氛围文本数据，参考音频数据包括氛围音效数据。生成模块还用于，基于氛围文本数据确定待阅读文本对应的氛围阅读标签信息，基于氛围阅读标签信息和氛围音效数据，生成阅读音频数据。

第四方面，本发明一实施例提供一种辅助阅读装置，该装置包括：第一获取模块和播放模块。其中，第一获取模块用于基于阅读者确定的待阅读文本，获取待阅读文本对应的阅读音频数据，阅读音频数据基于上述第一方面所提及的文本处理方法确定。播放模块，用于播放阅读音频数据，以辅助阅读者阅读待阅读文本。

在本发明一实施例中，该装置还包括：第二获取模块，用于获取阅读者发出的发音切换信息，发音切换信息包括旁白文本发音切换信息和/或角色发音切换信息；更新模块，用于基于发音切换信息更新阅读音频数据，得到更新后的阅读音频数据。其中，播放模块还用于，基于更新时间点切换播放更新后的阅读音频数据，以辅助阅读者阅读待阅读文本。

第五方面，本发明一实施例提供一种计算机可读存储介质，该存储介质存储有指令，当指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面和/或第二方面所提及的方法。

第六方面，本发明一实施例提供一种电子设备，该电子设备包括：处理器和用于存储计算机可执行指令的存储器。处理器用于执行计算机可执行指令，以实现上述第一方面和/或第二方面所提及的方法。

本发明实施例提供的文本处理方法，通过对待阅读文本进行文本解析，得到文本解析数据，进而基于文本解析数据生成待阅读文本对应的阅读音频数据的方式，实现了根据待阅读文本的具体文本内容，生成与待阅读文本更匹配的阅读音频数据的目的。换句话说，本发明实施例借助参考音频数据为生成阅读音频数据提供了丰富的音频素材，并且借助文本解析数据提高了所生成的阅读音频数据和待阅读文本的契合度。与现有主播事先录制阅读音频的方式相比，本发明实施例无需人工录制音频数据，成本低且效率高，且与现有利用TTS技术生成阅读音频的方式相比，本发明实施例不仅能够根据阅读者实际需求为不同的角色配以不同音色，而且能够为旁白文本配以相应的旁白音频，并为氛围文本配以相应的氛围音效，真正实现了基于阅读音频数据给阅读者带来沉浸式的阅读体验的目的，提高了阅读者的阅读代入感和用户体验好感度。

附图说明

图1所示为本发明一实施例提供的基于待阅读文本的听书场景示意图。

图2所示为本发明另一实施例提供的基于待阅读文本的听书场景示意图。

图3所示为本发明一实施例提供的文本处理方法的流程示意图。

图4所示为本发明一实施例提供的生成待阅读文本对应的阅读音频数据的路径示意图。

图5所示为本发明一实施例提供的基于参考音频数据和文本解析数据，生成阅读音频数据的流程示意图。

图6所示为本发明另一实施例提供的基于参考音频数据和文本解析数据，生成阅读音频数据的流程示意图。

图7所示为本发明又一实施例提供的基于参考音频数据和文本解析数据，生成阅读音频数据的流程示意图。

图8所示为本发明另一实施例提供的基于参考音频数据和文本解析数据，生成阅读音频数据的流程示意图。

图9所示为本发明又一实施例提供的基于参考音频数据和文本解析数据，生成阅读音频数据的流程示意图。

图10所示为本发明一实施例提供的辅助阅读方法的流程示意图。

图11所示为本发明一实施例提供的文本处理装置的结构示意图。

图12所示为本发明一实施例提供的辅助阅读装置的结构示意图。

图13所示为本发明一实施例提供的用于文本处理方法、辅助阅读方法的装置的结构示意图。

图14所示为本发明一实施例提供的服务器的结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

众所周知，阅读作为一项获取信息与知识的活动，具有非凡的意义。然而，传统的完全依赖文本的阅读方式，不仅对阅读环境要求高，而且阅读时间过长也可能会损伤阅读者视力。虽然新兴的听书阅读方式能够有效缓解完全依赖文本的阅读方式的缺陷，但是用户体验好感度较差。

具体而言，现有的听书阅读方式，主要依赖于主播或朗读者提前录制的音频数据，即，利用提前录制的音频数据实现听书阅读的目的。现有音频数据的形式单一、不能给阅读者带来沉浸式的阅读体验。此外，阅读者不能根据自身喜好调整音频数据，并且，在阅读过程中，阅读者不能根据自身的实际需求实时调整听书阅读的相关内容(比如待阅读文本中相关角色的发音音色等)，尤其涉及到多角色多场景的待阅读文本时，现有的听书阅读方式的缺陷更加明显。

为了解决上述问题，本发明实施例提供一种文本处理方法及装置、辅助阅读方法及装置，以实现给阅读者带来沉浸式的阅读体验的目的，提升用户体验好感度。

下面结合图1和图2对基于待阅读文本的听书场景进行简单的介绍。

图1所示为本发明一实施例提供的基于待阅读文本的听书场景示意图。该听书场景包括服务器110以及与服务器110通信连接的用户终端120。其中，用户终端120中存储有待阅读文本。服务器110用于执行本发明实施例提及的文本处理方法。用户终端120用于执行本发明实施例提及的辅助阅读方法。

示例性地，在实际应用过程中，用户终端120接收阅读者发出的辅助阅读请求，并基于辅助阅读请求将存储在用户终端120中的待阅读文本发送至服务器110，以便服务器110基于待阅读文本确定待阅读文本对应的阅读音频数据，并将阅读音频数据发送至用户终端120，用户终端120接收并播放阅读音频数据，以辅助阅读者阅读待阅读文本。

图2所示为本发明另一实施例提供的基于待阅读文本的听书场景示意图。该听书场景和图1所示的听书场景的主要区别在于，图2所示的听书场景中的待阅读文本是存储在服务器110中的。那么，示例性地，在实际应用过程中，用户终端120接收阅读者发出的辅助阅读请求和待阅读文本的选择信息，并基于辅助阅读请求将待阅读文本的选择信息发送至服务器110，服务器110基于阅读者选定的待阅读文本执行文本处理方法，并将生成的阅读音频数据发送至用户终端120。可以理解，服务器110也可将阅读音频数据和待阅读文本共同发送至用户终端120。

示例性地，上述提及的用户终端120为阅读者的平板电脑、手机等移动终端。

结合图1和图2所示场景可知，本发明提及的文本处理方法可以在相应的服务器中执行，对应地，本发明提及的辅助阅读方法可以在相应的用户终端中执行，以实现基于待阅读文本的听书场景。可以理解，本发明提及的文本处理方法亦可以直接在相应的用户终端中执行，以避免服务器和用户终端之间的数据交互，提高听书实时性。

下面结合图3至图9对本发明的文本处理方法进行简单的介绍。

图3所示为本发明一实施例提供的文本处理方法的流程示意图。如图3所示，本发明实施例提供的文本处理方法包括如下步骤。

步骤S100，基于待阅读文本确定待阅读文本对应的文本解析数据。

在一些实施例中，待阅读文本为小说类书籍文本，比如言情小说、武侠小说等。

示例性地，文本解析数据包括能够表征待阅读文本的文本内容特征的数据，比如，待阅读文本中的角色对应的角色特征数据和角色对话内容数据。其中，角色特征数据指的是能够表征角色特点的数据，角色对话内容数据指的是该角色对应的对话语句数据。比如，待阅读文本为《甄嬛传》小说文本，那么，文本解析数据可以包括针对“甄嬛”角色的解析数据，即角色为“甄嬛”，角色特征数据为“甄嬛”名字，角色对话内容数据为“甄嬛”所说的对话语句。

步骤S200，基于待阅读文本确定待阅读文本对应的参考音频数据。

在一些实施例中，待阅读文本对应的参考音频数据指的是与待阅读文本类型相同的音频数据。比如，待阅读文本为武侠类小说文本，对应地，参考音频数据为从武侠类影视作品中提取的音频数据。如此设置，是为了使参考音频数据与待阅读文本更契合。比如，参考音频数据中的打斗场景音频便可与待阅读文本的相关段落绑定，进而生成更生动丰富的阅读音频数据。此处提及的绑定可以理解为时序绑定。

举例说明，待阅读文本为武侠类小说文本，参考音频数据为从武侠类影视作品中提取的音频数据。待阅读文本中包含与打斗相关的段落，那么，可基于神经语言程序学(Neuro-Linguistic Programming，NLP)等自然语言处理技术为待阅读文本中与打斗相关的段落做相应标记，然后提取参考音频数据中的打斗场景音频，并将打斗场景音频与已做相应标记的、与打斗相关的段落绑定，对应地，在实际的阅读音频数据的播放过程中，播放到待阅读文本的相关段落时，便可自动播放该打斗场景音频。

又比如，待阅读文本为言情类小说文本，参考音频数据为从言情类影视作品中提取的音频数据。待阅读文本中包含与天气相关的段落，那么，可基于NLP等自然语言处理技术为待阅读文本中与天气(比如雨)相关的段落做相应标记，然后提取参考音频数据中的与天气相关的音频(比如雨声)，并将与天气相关的音频与已做相应标记的、与天气相关的段落绑定，对应地，在实际的阅读音频数据的播放过程中，播放到待阅读文本的相关段落时，便可自动播放该天气相关的音频(比如雨声)。

步骤S300，基于参考音频数据和文本解析数据，生成待阅读文本对应的阅读音频数据。

示例性地，阅读音频数据用于辅助待阅读文本的阅读者阅读待阅读文本。比如，阅读音频数据为与待阅读文本中的所有文字内容的完全对应的音频数据，那么，阅读者可以完全不用再看待阅读文本，只听阅读音频数据便可了解待阅读文本记载的相关内容，即，实现了听书的目的。

示例性地，在实际应用过程中，首先基于待阅读文本确定待阅读文本对应的文本解析数据，然后基于文本解析数据生成待阅读文本对应的阅读音频数据。

本发明实施例提供的文本处理方法，通过对待阅读文本进行文本解析，得到文本解析数据，进而基于文本解析数据生成待阅读文本对应的阅读音频数据的方式，实现了根据待阅读文本的具体文本内容，生成与待阅读文本更匹配的阅读音频数据的目的。本发明实施例借助参考音频数据为生成阅读音频数据提供了丰富的音频素材，并且借助文本解析数据提高了所生成的阅读音频数据和待阅读文本的契合度，进而实现了基于阅读音频数据给阅读者带来沉浸式的阅读体验的目的，提高了阅读者的阅读代入感和用户体验好感度。

在一些实施例中，图3所示实施例的执行主体为与用户终端连接的服务器，且待阅读文本存储在用户终端中。对应地，步骤S100的具体执行方式为：基于从用户终端获取的待阅读文本确定待阅读文本对应的文本解析数据。并且，在步骤S300之后，服务器还需执行步骤：将阅读音频数据发送至用户终端。

下面结合图4至图7详细举例说明生成待阅读文本对应的阅读音频数据的具体实现方式。

图4所示为本发明一实施例提供的生成待阅读文本对应的阅读音频数据的路径示意图。如图4所示，本发明实施例共提及了三种生成待阅读文本对应的阅读音频数据的路径，具体如下。

路径一：待阅读文本对应的影视视频数据。也就是说，根据待阅读文本对应的影视视频数据生成待阅读文本对应的阅读音频数据。

示例性地，待阅读文本为《射雕英雄传》小说文本，待阅读文本对应的影视视频数据为《射雕英雄传》电视剧视频数据。又比如，待阅读文本为《天龙八部》小说文本，待阅读文本对应的影视视频数据为《天龙八部》电视剧视频数据。

基于待阅读文本对应的影视视频数据生成待阅读文本对应的阅读音频数据，能够极大提高待阅读文本和所生成的阅读音频数据契合度，进而进一步提高用户体验好感度。尤其是阅读音频数据中包含角色的对话音频数据时，利用待阅读文本对应的影视视频数据能够优化阅读者的阅读效果。比如，为《射雕英雄传》小说文本中的“郭靖”角色匹配《射雕英雄传》电视剧视频数据中的“郭靖”角色的发音音色。

示例性地，提取《射雕英雄传》电视剧视频数据中的“郭靖”角色的音频数据，然后利用语音识别技术对提取的音频数据进行处理，得到“郭靖”角色的发音音色。即，借助语音识别技术从“郭靖”角色的音频数据中提取“郭靖”角色的发音音色。又比如，提取《射雕英雄传》电视剧视频数据中的“郭靖”角色的音频数据，然后将“郭靖”角色的音频数据输入预先训练好的音色提取模型，以得到“郭靖”角色的发音音色。其中，音色提取模型为神经网络模型，该神经网络模型的训练数据包括待提取音频数据样本以及待提取音频数据样本对应的发音音色参数。在实际应用过程中，首先建立初始网络模型，然后基于上述提及的训练数据训练初始网络模型，进而得到能够提取发音音色的音色提取模型。

路径二：待阅读文本同类型的音频数据。也就是说，根据与待阅读文本同类型的音频数据生成待阅读文本对应的阅读音频数据。

示例性地，待阅读文本为《白鹿原》小说文本，待阅读文本对应的音频数据为基于《平凡的世界》电视剧视频数据提取的音频数据。可以理解，《白鹿原》和《平凡的世界》均属于农村题材的现实主义类型。

根据与待阅读文本同类型的音频数据生成待阅读文本对应的阅读音频数据，不仅能够充分利用音频数据中的背景音频和/或氛围音频，而且能够极大拓宽音频数据的获取范围，避免待阅读文本没有完全对应的影视视频数据时，便无法生成待阅读文本对应的阅读音频数据的情况。此外，还能够给阅读者带来新奇体验，提高用户体验好感度。

路径三：阅读者发出的角色发音选择信息。也就是说，根据阅读者发出的角色发音选择信息生成待阅读文本对应的阅读音频数据。基于路径三，能够极大提高用户体验好感度。

示例性地，待阅读文本为《甄嬛传》小说文本，且阅读音频数据中包含角色的对话音频数据，那么阅读者针对《甄嬛传》中的“温太医”角色发出角色发音选择信息，要求“温太医”角色匹配歌手“刘德华”的发音音色(又称发音特征)。基于阅读者要求，基于歌手“刘德华”的发音音色生成“温太医”角色的对话音频数据，进而生成最终的阅读音频数据。可以理解，歌手“刘德华”的发音音色可预先基于歌手“刘德华”演唱的歌曲采集得到。

下面结合图5和图6举例说明路径一和路径二，结合图7举例说明路径三，以进一步明确生成待阅读文本对应的阅读音频数据的具体实现方式。

图5所示为本发明一实施例提供的基于参考音频数据和文本解析数据，生成阅读音频数据的流程示意图。在本发明图3所示实施例基础上延伸出本发明图5所示实施例，下面着重叙述图5所示实施例与图3所示实施例的不同之处，相同之处不再赘述。

具体地，在本发明实施例中，待阅读文本包括角色对话语句，角色对话语句对应有至少一个角色。即，角色对话语句可以为同一角色的自言语句，亦可以为不同角色之间的对话语句。文本解析数据包括角色对应的角色特征数据和角色对话内容数据。

如图5所示，在本发明实施例提供的文本处理方法中，基于参考音频数据和文本解析数据，生成阅读音频数据步骤，包括如下步骤。

步骤S221，基于角色特征数据和参考音频数据，确定角色对应的发音特征信息。

如前所述，角色特征数据指的是能够表征角色特点的数据，角色对话内容数据指的是角色对应的对话语句数据。示例性地，角色对应的发音特征信息指的是发音音色特征信息。

可以理解，步骤S221中提及的参考音频数据，既可以是待阅读文本对应的影视音频数据(即图4所示实施例中提及的路径一)，也可以是与待阅读文本同类型的音频数据(即图4所示实施例中提及的路径二)。如果参考音频数据是待阅读文本对应的影视音频数据，那么，角色特征数据可以包括角色身份数据。并且，步骤S221的具体执行方式可以为：基于角色身份数据和影视音频数据，提取角色对应的音频素材数据；基于音频素材数据，确定角色对应的发音特征信息。其中，音频素材数据可以为该角色说出的一段音频数据。

步骤S222，基于发音特征信息和角色对话内容数据，生成角色对应的对话音频数据。

下面举例说明角色特征数据和角色对话内容数据的含义。

比如，《甄嬛传》小说文本原文记载有文本内容。

端妃淡淡微笑，娓娓道来：“是夜臣妾遥遥见婕妤独自出扶荔殿似有醉意，一时不放心便与侍女同去看顾，在翻月湖边玉带桥遇见婕妤，一同步行至臣妾的雨花阁，相谈甚欢，聊了许久。”她的笑似苍白浮云，转首对身边侍女道：“如意。”。

对应地，基于上述文本内容提取角色特征数据包括“端妃”，角色对话内容数据包括“是夜臣妾遥遥见婕妤独自出扶荔殿似有醉意，一时不放心便与侍女同去看顾，在翻月湖边玉带桥遇见婕妤，一同步行至臣妾的雨花阁，相谈甚欢，聊了许久。”以及“如意。”。

可以理解，角色对应的对话音频数据指的是，基于角色对应的发音特征信息生成的、与角色对话内容数据完全对应的音频数据。

步骤S223，基于对话音频数据，生成阅读音频数据。

在一些实施例中，对话音频数据即为阅读音频数据。即，步骤S223的具体执行方式为，将对话音频数据作为阅读音频数据。

在另外一些实施例中，阅读音频数据不仅包括对话音频数据，还可能包括下述实施例提及的旁白音频数据和氛围音效数据等等。

本发明实施例能够为待阅读文本中的角色匹配更契合的发音音色，尤其当待阅读文本中包括多个不同的角色时，本发明实施例能够为各个不同的角色匹配各自更合理生动的发音音色，进而提高所生成的阅读音频数据的趣味性，增强阅读者听书时的代入感。

图6所示为本发明另一实施例提供的基于参考音频数据和文本解析数据，生成阅读音频数据的流程示意图。在本发明图5所示实施例基础上延伸出本发明图6所示实施例，下面着重叙述图6所示实施例与图5所示实施例的不同之处，相同之处不再赘述。

具体地，在本发明实施例中，角色特征数据包括年龄数据、性别数据和职业数据中的至少一种数据。参考音频数据可以包括多个角色样本以及所述多个角色样本各自对应的发音特征信息。

如图6所示，在本发明实施例提供的文本处理方法中，基于参考音频数据和文本解析数据，生成阅读音频数据步骤，包括如下步骤。

步骤S224，基于角色特征数据和多个角色样本，确定与角色匹配的角色样本。

在一些实施例中，角色特征数据是通过分析角色对应的角色对话内容数据得到的。

步骤S225，基于与角色匹配的角色样本所对应的发音特征信息，确定角色对应的发音特征信息。

示例性地，将与角色匹配的角色样本所对应的发音特征信息，确定为角色对应的发音特征信息。

本发明实施例能够根据角色的实际特点为角色匹配更合理的发音音色，进而提高结合阅读音频数据进行辅助阅读的效果。尤其当待阅读文本中包含多个不同的角色时，借助本发明实施例生成的阅读音频数据能够实现对话式的听书模式。

图7所示为本发明又一实施例提供的基于参考音频数据和文本解析数据，生成阅读音频数据的流程示意图。如图7所示，在本发明实施例提供的文本处理方法中，基于参考音频数据和文本解析数据，生成阅读音频数据步骤，包括如下步骤。

步骤S226，获取阅读者基于角色特征数据和参考音频数据发出的角色发音选择信息。

步骤S227，基于角色发音选择信息和参考音频数据，确定角色对应的发音特征信息。

也就是说，本发明实施例能够支持阅读者根据自身喜好为待阅读文本中的角色选择发音音色，进而生成符合阅读者个性化要求的阅读音频数据。如此设置，能够进一步提高用户体验好感度。

图8所示为本发明另一实施例提供的基于参考音频数据和文本解析数据，生成阅读音频数据的流程示意图。在本发明图3所示实施例基础上延伸出本发明图8所示实施例，下面着重叙述图8所示实施例与图3所示实施例的不同之处，相同之处不再赘述。

具体地，在本发明实施例中，待阅读文本包括旁白文本，参考音频数据包括旁白文本发音特征信息。对应地，可通过对待阅读文本进行文本解析的方式得到旁白文本(即文本解析数据)。示例性地，将待阅读文本中无角色对话内容的文本划归为旁白文本。如图8所示，基于参考音频数据和文本解析数据，生成阅读音频数据步骤，包括如下步骤。

步骤S310，基于旁白文本发音特征信息和旁白文本，生成旁白文本对应的旁白音频数据。

步骤S320，基于旁白音频数据，生成阅读音频数据。

在一些实施例中，步骤S320的具体执行方式为：将旁白音频数据确定为阅读音频数据。在另外一些实施例中，步骤S320的具体执行方式为：结合旁白音频数据和上述实施例提及的对话音频数据，生成阅读音频数据。

此外，需要说明的是，旁白文本的发音音色亦可以根据阅读者的实际要求切换，比如阅读者将旁白文本的发音音色指定为“袁阔成”，本发明实施例对此不再赘述。

本发明实施例能够借助旁白音频数据进一步优化阅读者的沉浸式阅读体验。

图9所示为本发明又一实施例提供的基于参考音频数据和文本解析数据，生成阅读音频数据的流程示意图。在本发明图3所示实施例基础上延伸出本发明图9所示实施例，下面着重叙述图9所示实施例与图3所示实施例的不同之处，相同之处不再赘述。

具体地，在本发明实施例中，文本解析数据包括氛围文本数据，参考音频数据包括氛围音效数据。其中，氛围文本数据可以包括背景氛围文本数据和气氛氛围文本数据等。如图9所示，基于参考音频数据和文本解析数据，生成阅读音频数据步骤，包括如下步骤。

步骤S410，基于氛围文本数据确定待阅读文本对应的氛围阅读标签信息。

示例性地，对待阅读文本进行文本解析，得到氛围文本数据，并为氛围文本数据绑定对应的氛围阅读标签信息。氛围阅读标签信息用于标注后续氛围音效数据在阅读音频数据中的播放时序节点。

步骤S420，基于氛围阅读标签信息和氛围音效数据，生成阅读音频数据。

比如，待阅读文本中的氛围文本数据包括“小丽来到了繁华的城市，车水马龙，人头攒动”，通过分析可知，该氛围文本数据应对应有“汽车、汽笛”的氛围阅读标签信息，对应地，氛围音效数据为汽车汽笛音频数据。那么，在实际播放过程中，当播放到该氛围文本数据时，便可播放该汽车汽笛音频数据。

本发明实施例能够利用氛围音效数据进一步丰富所生成的阅读音频数据，进而进一步提高阅读者的沉浸式体验效果。

在一些实施例中，可以利用氛围音效数据、旁白音频数据和对话音频数据共同生成阅读音频数据，即，将上述实施例根据实际需求自由结合，以便优化听书体验。由此可见，与现有主播事先录制阅读音频的方式相比，本发明实施例无需人工录制音频数据，成本低且效率高，且与现有利用TTS技术生成阅读音频的方式相比，本发明实施例不仅能够根据阅读者实际需求为不同的角色配以不同音色，而且能够为旁白文本配以相应的旁白音频，并为氛围文本配以相应的氛围音效，真正实现了基于阅读音频数据给阅读者带来沉浸式的阅读体验的目的，提高了阅读者的阅读代入感和用户体验好感度。

图10所示为本发明一实施例提供的辅助阅读方法的流程示意图。示例性地，本发明实施例提及的辅助阅读方法可在阅读者的移动终端中执行。如图10所示，本发明实施例提供的辅助阅读方法包括如下步骤。

步骤S500，基于阅读者确定的待阅读文本，获取待阅读文本对应的阅读音频数据。

示例性地，步骤S500提及的待阅读文本对应的阅读音频数据，可基于上述任一实施例提及的文本处理方法确定。

步骤S600，播放阅读音频数据，以辅助阅读者阅读待阅读文本。

本发明实施例提供的辅助阅读方法，通过基于阅读者确定的待阅读文本获取待阅读文本对应的阅读音频数据，并播放阅读音频数据的方式，实现了辅助阅读者阅读待阅读文本的目的。本发明实施例实现了基于阅读音频数据给阅读者带来沉浸式的阅读体验的目的，提高了阅读者的阅读代入感和用户体验好感度。

在一些实施例中，图10所示实施例的执行主体为与服务器连接的用户终端，且待阅读文本存储在用户终端中。对应地，步骤S500的具体执行方式为：基于阅读者确定的待阅读文本，从服务器获取待阅读文本对应的阅读音频数据。

在图10所示实施例基础上延伸出本发明另一实施例。本发明实施例提供的辅助阅读方法还包括：获取阅读者发出的发音切换信息，发音切换信息包括旁白文本发音切换信息和/或角色发音切换信息；基于发音切换信息更新阅读音频数据，得到更新后的阅读音频数据。并且，播放阅读音频数据，以辅助阅读者阅读待阅读文本步骤，包括：基于更新时间点切换播放更新后的阅读音频数据，以辅助阅读者阅读待阅读文本。

也就是说，本发明实施例能够满足阅读者在听书过程中根据文本具体情况切换发音音色的要求，进而能够进一步提高用户体验好感度。

上文结合图3至图10，详细描述了本发明的方法实施例，下面结合图11至图14，详细描述本发明的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图11所示为本发明一实施例提供的文本处理装置的结构示意图。如图11所示，本发明实施例提供的文本处理装置包括第一确定模块100、第二确定模块200和生成模块300。第一确定模块100用于基于待阅读文本确定待阅读文本对应的文本解析数据。第二确定模块200用于基于待阅读文本确定待阅读文本对应的参考音频数据。生成模块200用于基于参考音频数据和文本解析数据，生成待阅读文本对应的阅读音频数据。

在一些实施例中，生成模块200还用于基于角色特征数据和参考音频数据，确定角色对应的发音特征信息，基于发音特征信息和角色对话内容数据，生成角色对应的对话音频数据，并基于对话音频数据，生成阅读音频数据。

在一些实施例中，生成模块200还用于基于角色特征数据和多个角色样本，确定与角色匹配的角色样本，并基于与角色匹配的角色样本所对应的发音特征信息，确定角色对应的发音特征信息。

在一些实施例中，生成模块200还用于获取阅读者基于角色特征数据和参考音频数据发出的角色发音选择信息，并基于角色发音选择信息和参考音频数据，确定角色对应的发音特征信息。

在一些实施例中，生成模块200还用于基于旁白文本发音特征信息和旁白文本，生成旁白文本对应的旁白音频数据，并基于旁白音频数据，生成阅读音频数据。

在一些实施例中，生成模块200还用于基于氛围文本数据确定待阅读文本对应的氛围阅读标签信息，并基于氛围阅读标签信息和氛围音效数据，生成阅读音频数据。

图12所示为本发明一实施例提供的辅助阅读装置的结构示意图。如图12所示，本发明实施例提供的辅助阅读装置包括第一获取模块500和播放模块600。第一获取模块500用于基于阅读者确定的待阅读文本，获取待阅读文本对应的阅读音频数据。播放模块600用于播放阅读音频数据，以辅助阅读者阅读待阅读文本。

在一些实施例中，本发明实施例提供的辅助阅读装置还包括第二获取模块和更新模块。第二获取模块，用于获取阅读者发出的发音切换信息，发音切换信息包括旁白文本发音切换信息和/或角色发音切换信息。更新模块用于基于所述发音切换信息更新阅读音频数据，得到更新后的阅读音频数据。对应地，播放模块600还用于基于更新时间点切换播放更新后的阅读音频数据，以辅助阅读者阅读待阅读文本。

图13所示为本发明一实施例提供的用于文本处理方法、辅助阅读方法的装置的结构示意图。例如，装置700可以是机器人，移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图13，装置700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件77，以及通信组件716。

处理组件702通常控制装置700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令，待阅读文本，阅读音频数据等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理***，一个或多个电源，及其他与为装置700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当装置700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当装置700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号，比如输出阅读音频数据。

I/O接口712为处理组件702和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为装置700提供各个方面的状态评估。例如，传感器组件714可以检测到装置700的打开/关闭状态，组件的相对定位，例如所述组件为装置700的显示器和小键盘，传感器组件714还可以检测装置700或装置700一个组件的位置改变，用户与装置700接触的存在或不存在，装置700方位或加速/减速和装置700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络，如WiFi，2G或8G，或它们的组合。在一个示例性实施例中，通信部件716经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由装置700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图14是本发明一实施例提供的服务器的结构示意图。该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central ProcessingUnits，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源824，一个或一个以上有线或无线网络接日850，一个或一个以上输入输出接口858，一个或一个以上键盘854，和/或，一个或一个以上操作***841，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

示例性地，该服务器800可用于执行上述实施例提及的文本处理方法和/或辅助阅读方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(Read Only Memory，ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明的一种具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种文本处理方法，其特征在于，包括：

基于待阅读文本确定所述待阅读文本对应的文本解析数据，所述文本解析数据包括能够表征所述待阅读文本的文本内容特征的数据；

基于所述待阅读文本确定所述待阅读文本对应的参考音频数据；

基于所述参考音频数据和所述文本解析数据，生成所述待阅读文本对应的阅读音频数据，所述阅读音频数据用于辅助所述待阅读文本的阅读者阅读所述待阅读文本。

2.根据权利要求1所述的文本处理方法，其特征在于，所述待阅读文本包括角色对话语句，所述角色对话语句对应有角色，所述文本解析数据包括所述角色对应的角色特征数据和角色对话内容数据；

所述基于所述参考音频数据和所述文本解析数据，生成所述待阅读文本对应的阅读音频数据，包括：

基于所述角色特征数据和所述参考音频数据，确定所述角色对应的发音特征信息；

基于所述发音特征信息和所述角色对话内容数据，生成所述角色对应的对话音频数据；

基于所述对话音频数据，生成所述阅读音频数据。

3.根据权利要求2所述的文本处理方法，其特征在于，所述角色特征数据包括角色身份数据，所述参考音频数据包括基于所述待阅读文本对应的视频数据提取的影视音频数据；

所述基于所述角色特征数据和所述参考音频数据，确定所述角色对应的发音特征信息，包括：

基于所述角色身份数据和所述影视音频数据，提取所述角色对应的音频素材数据；

基于所述音频素材数据，确定所述角色对应的发音特征信息。

4.根据权利要求2所述的文本处理方法，其特征在于，所述角色特征数据包括年龄数据、性别数据和职业数据中的至少一种数据，所述参考音频数据包括多个角色样本以及所述多个角色样本各自对应的发音特征信息；

基于所述角色特征数据和所述多个角色样本，确定与所述角色匹配的角色样本；

基于所述与所述角色匹配的角色样本所对应的发音特征信息，确定所述角色对应的发音特征信息。

5.根据权利要求2所述的文本处理方法，其特征在于，所述基于所述角色特征数据和所述参考音频数据，确定所述角色对应的发音特征信息，包括：

获取所述阅读者基于所述角色特征数据和所述参考音频数据发出的角色发音选择信息；

基于所述角色发音选择信息和所述参考音频数据，确定所述角色对应的发音特征信息。

6.根据权利要求1至5任一项所述的文本处理方法，其特征在于，所述待阅读文本包括旁白文本，所述参考音频数据包括旁白文本发音特征信息；

基于所述旁白文本发音特征信息和所述旁白文本，生成所述旁白文本对应的旁白音频数据；

基于所述旁白音频数据，生成所述阅读音频数据。

7.根据权利要求1至5任一项所述的文本处理方法，其特征在于，所述文本解析数据包括氛围文本数据，所述参考音频数据包括氛围音效数据；

基于所述氛围文本数据确定所述待阅读文本对应的氛围阅读标签信息；

基于所述氛围阅读标签信息和所述氛围音效数据，生成所述阅读音频数据。

8.一种辅助阅读方法，其特征在于，包括：

基于阅读者确定的待阅读文本，获取所述待阅读文本对应的阅读音频数据，所述阅读音频数据基于上述权利要求1至7任一项所述的文本处理方法确定；

播放所述阅读音频数据，以辅助所述阅读者阅读所述待阅读文本。

9.根据权利要求8所述的辅助阅读方法，其特征在于，还包括：

获取所述阅读者发出的发音切换信息，所述发音切换信息包括旁白文本发音切换信息和/或角色发音切换信息；

基于所述发音切换信息更新所述阅读音频数据，得到更新后的阅读音频数据；

其中，所述播放所述阅读音频数据，以辅助所述阅读者阅读所述待阅读文本，包括：

基于更新时间点切换播放所述更新后的阅读音频数据，以辅助所述阅读者阅读所述待阅读文本。

10.一种文本处理装置，其特征在于，包括：

第一确定模块，用于基于待阅读文本确定所述待阅读文本对应的文本解析数据，所述文本解析数据包括能够表征所述待阅读文本的文本内容特征的数据；

第二确定模块，用于基于所述待阅读文本确定所述待阅读文本对应的参考音频数据；

生成模块，用于基于所述参考音频数据和所述文本解析数据，生成所述待阅读文本对应的阅读音频数据，所述阅读音频数据用于辅助所述待阅读文本的阅读者阅读所述待阅读文本。

11.根据权利要求10所述的文本处理装置，其特征在于，所述待阅读文本包括角色对话语句，所述角色对话语句对应有角色，所述文本解析数据包括所述角色对应的角色特征数据和角色对话内容数据；

所述生成模块还用于，基于所述角色特征数据和所述参考音频数据，确定所述角色对应的发音特征信息，基于所述发音特征信息和所述角色对话内容数据，生成所述角色对应的对话音频数据，基于所述对话音频数据，生成所述阅读音频数据。

12.根据权利要求11所述的文本处理装置，其特征在于，所述角色特征数据包括角色身份数据，所述参考音频数据包括基于所述待阅读文本对应的视频数据提取的影视音频数据；

所述生成模块还用于，基于所述角色身份数据和所述影视音频数据，提取所述角色对应的音频素材数据，基于所述音频素材数据，确定所述角色对应的发音特征信息。

13.根据权利要求11所述的文本处理装置，其特征在于，所述角色特征数据包括年龄数据、性别数据和职业数据中的至少一种数据，所述参考音频数据包括多个角色样本以及所述多个角色样本各自对应的发音特征信息；

所述生成模块还用于，基于所述角色特征数据和所述多个角色样本，确定与所述角色匹配的角色样本，基于所述与所述角色匹配的角色样本所对应的发音特征信息，确定所述角色对应的发音特征信息。

14.根据权利要求11所述的文本处理装置，其特征在于，所述生成模块还用于，获取所述阅读者基于所述角色特征数据和所述参考音频数据发出的角色发音选择信息，基于所述角色发音选择信息和所述参考音频数据，确定所述角色对应的发音特征信息。

15.根据权利要求10至14任一项所述的文本处理装置，其特征在于，所述待阅读文本包括旁白文本，所述参考音频数据包括旁白文本发音特征信息；

所述生成模块还用于，基于所述旁白文本发音特征信息和所述旁白文本，生成所述旁白文本对应的旁白音频数据，基于所述旁白音频数据，生成所述阅读音频数据。

16.根据权利要求10至14任一项所述的文本处理装置，其特征在于，所述文本解析数据包括氛围文本数据，所述参考音频数据包括氛围音效数据；

所述生成模块还用于，基于所述氛围文本数据确定所述待阅读文本对应的氛围阅读标签信息，基于所述氛围阅读标签信息和所述氛围音效数据，生成所述阅读音频数据。

17.一种辅助阅读装置，其特征在于，包括：

第一获取模块，用于基于阅读者确定的待阅读文本，获取所述待阅读文本对应的阅读音频数据，所述阅读音频数据基于上述权利要求1至7任一项所述的文本处理方法确定；

播放模块，用于播放所述阅读音频数据，以辅助所述阅读者阅读所述待阅读文本。

18.根据权利要求17所述的辅助阅读装置，其特征在于，还包括：

第二获取模块，用于获取所述阅读者发出的发音切换信息，所述发音切换信息包括旁白文本发音切换信息和/或角色发音切换信息；

更新模块，用于基于所述发音切换信息更新所述阅读音频数据，得到更新后的阅读音频数据；

其中，所述播放模块还用于，基于更新时间点切换播放所述更新后的阅读音频数据，以辅助所述阅读者阅读所述待阅读文本。

19.一种计算机可读存储介质，其特征在于，所述存储介质存储有指令，当所述指令由电子设备的处理器执行时，使得所述电子设备能够执行上述权利要求1至9任一项所述的方法。

20.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储计算机可执行指令的存储器；

所述处理器，用于执行所述计算机可执行指令，以实现上述权利要求1至9任一项所述的方法。