CN116564272A

CN116564272A - 提供语音内容的方法及电子设备

Info

Publication number: CN116564272A
Application number: CN202310545946.5A
Authority: CN
Inventors: 周晨颖; 郭淑明
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-08-08

Abstract

本申请实施例公开了提供语音内容的方法及电子设备，所述方法包括：获取用户的声纹数据；确定所述用户选择的目标阅读对象，根据所述声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容；将所述个性化语音内容提供给客户端，以便对所述个性化语音内容进行播放。通过本申请实施例，可以使得播放出的语音内容具有用户的语音特征，在母婴幼教、亲子阅读等场景中，进而使得儿童获得父母亲自为其阅读的体验。

Description

提供语音内容的方法及电子设备

技术领域

本申请涉及信息处理技术领域，特别是涉及提供语音内容的方法及电子设备。

背景技术

在儿童及幼儿教育、娱乐等场景中，由于儿童或幼儿的阅读能力有限，声音是非常重要的信息媒介。一般情况下，可以由父母等家长帮忙阅读，但是，父母经常会因为工作繁忙没有足够的时间和精力来陪同孩子教育和娱乐，或者，有些父母可能存在阅读能力欠缺(例如，一些英文读物等)的问题，等等。因此，一些有声读物类的产品也便应运而生了。例如，一些商品信息服务***的应用程序(App)中可能会提供“电台”等音频频道，其自身定位是向消费者提供有声书、播客、达人音频等丰富的音频内容消费，另外，通过该频道，用户也可以选择购买并收听一些儿童故事等音频内容，使得儿童可以收听到具体的音频内容；或者，市面上还存在一些智能阅读机器人类的产品，能够播放一些内置的有声内容，或者，还可以通过摄像头等设备，实现对实体书(包括绘本、故事书等)的阅读，使得儿童或者幼儿可以边看实体书，边收听由机器人阅读的声音，等等。通过这些技术可以代替父母进行阅读，但是，具体的实现效果还有待提升。

发明内容

本申请提供了提供语音内容的方法及电子设备，可以使得播放出的语音内容具有用户的语音特征，在母婴幼教、亲子阅读等场景中，进而使得儿童获得父母亲自为其阅读的体验。

本申请提供了如下方案：

一种提供语音内容的方法，包括：

获取用户的声纹数据；

确定所述用户选择的目标阅读对象，根据所述声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容；

将所述个性化语音内容提供给客户端，以便对所述个性化语音内容进行播放。

其中，所述获取用户的声纹数据，包括：

对所述用户的语音信号进行采集；

调用人工智能AI大规模参数模型对所采集到的语音信号进行处理，以确定可用于对所述用户的语音特征进行模拟的个性化模型参数值，并保存所述个性化模型参数值与所述用户的标识之间的对应关系；

所述根据所述声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容，包括：

以所述用户的标识以及所述目标阅读对象为输入信息，调用所述AI大规模参数模型，以便由所述AI大规模参数模型利用所述用户对应的个性化模型参数值以及所述目标阅读对象对应的文本内容，生成所述个性化语音内容。

其中，所述根据所述声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容，包括：

响应于所述用户发起的对目标阅读对象进行实时语音播放的请求，根据所述声纹数据以及所述目标阅读对象，实时生成所述个性化语音内容，以便提供给所述客户端进行实时播放。

响应于所述用户发起的将至少一个目标阅读对象加入到待语音播放集合的请求，根据所述声纹数据以及所述目标阅读对象，离线生成所述个性化语音内容；

所述将所述个性化语音内容提供给客户端，包括：

将所述离线生成的个性化语音内容提供给客户端进行缓存，以便所述客户端在响应所述用户的语音播放请求时，从缓存读取所述个性化语音内容并进行播放。

其中，还包括：

通过对所述目标阅读对象的内容进行模型理解，为所述目标阅读对象生成插画内容；

将所述插画内容与所述个性化语音内容进行同步对齐处理后，提供给所述客户端，以便在播放所述个性化语音内容的过程中，通过所述客户端展示所述插画内容。

其中，还包括：

通过对所述目标阅读对象的内容进行模型理解，获取用户的阅读偏好信息；

通过将有声读物类商品库中多个有声读物关联的多模态信息转化为对有声读物的理解，确定符合所述阅读偏好的至少一个推荐有声读物，并提供给客户端进行展示。

一种提供语音内容的方法，包括：

响应于用户对目标阅读对象的选择操作，将所述目标阅读对象的信息提交到服务端，以便由所述服务端根据所述用户的声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容；

接收所述服务端返回的所述个性化语音内容，以便基于所述个性化语音内容进行语音播放。

其中，在所述方法之前还包括：

提供用于生成声纹数据的操作选项；

响应于通过所述操作选项接收到的用户操作请求，对所述用户的语音信号进行采集，并提交到所述服务端，以便由所述服务端调用AI大规模参数模型对所采集到的语音信号进行处理，以确定可用于对所述用户的语音特征进行模拟的个性化模型参数值，所述个性化模型参数值对应所述声纹数据；所述AI大规模参数模型还用于生成所述个性化语音内容。

其中，还包括：

在通过所述操作选项接收到采集请求后，提供关于参考文本的提示信息，以便所述用户通过阅读所述参考文本的方式完成语音信号的采集。

其中，所述用户对目标阅读对象的选择操作包括：所述用户发起的对目标阅读对象进行实时语音播放的请求；

所述接收所述服务端返回的所述个性化语音内容，包括：

接收所述服务端返回的实时生成的所述个性化语音内容，并基于所述个性化语音内容进行语音播放。

其中，所述用户对目标阅读对象的选择操作包括：所述用户发起的将至少一个目标阅读对象加入到待语音播放集合的请求；

所述接收所述服务端返回的所述个性化语音内容，包括：

将所述服务端返回的离线生成的个性化语音内容并进行缓存，以便通过从缓存读取的方式对所述个性化语音内容进行播放。

其中，还包括：

将所述缓存的个性化语音内容提供给关联的智能硬件设备，以便通过所述智能硬件设备对所述个性化语音内容进行播放。

其中，还包括：

在播放所述个性化语音内容的过程中，对所述服务端提供的插画内容进行展示，其中，所述插画内容是通过对所述目标阅读对象的文本内容进行模型理解后生成的。

一种提供语音内容的装置，包括：

声纹数据获取单元，用于获取用户的声纹数据；

个性化语音内容生成单元，用于确定所述用户选择的目标阅读对象，根据所述声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容；

个性化语音内容提供单元，用于将所述个性化语音内容提供给客户端，以便对所述个性化语音内容进行播放。

一种提供语音内容的装置，包括：

信息提交单元，用于响应于用户对目标阅读对象的选择操作，将所述目标阅读对象的信息提交到服务端，以便由所述服务端根据所述用户的声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容；

个性化语音内容接收单元，用于接收所述服务端返回的所述个性化语音内容，以便基于所述个性化语音内容进行语音播放。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述的方法的步骤。

一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，可以获取到用户的声纹数据，这样，针对用户选择的目标阅读对象，可以根据所述声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容，并提供给客户端，以便基于所述个性化语音内容进行语音播放。通过这种方式，由于可以使得播放出的语音内容具有用户的语音特征，因此，在母婴幼教、亲子阅读等场景中，使得儿童获得父母亲自为其阅读的体验。

在优选的实施方式下，可以通过AI大模型的方式，实现对个性化语音内容的生成，这样，可以充分利用AI大模型拥有的更多参数和更强的学习能力，实现更准确地模拟人类语音的细节和音调变化，从而提升声音的自然度和真实性。另外，AI大模型通过从大量的语音样本中学习并模拟出不同情感下的语音表现，如愉悦、悲伤、惊喜等情感状态，因此，相比于传统模型可以提升语音合成的情感表达能力。

另外，还可以利用AI大模型实现相关插画内容的生成，使得儿童在收听到个性化语音内容的过程中，还可以通过查看这种插画内容，实现对阅读对象内容更深入的理解，或者提升儿童的使用兴趣。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的***架构的示意图；

图2是本申请实施例提供的服务端方法的流程图；

图3是本申请实施例提供的客户端方法的示意图；

图4是本申请实施例提供的服务端装置的示意图；

图5是本申请实施例提供的客户端装置的示意图；

图6是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

首先需要说明的是，本申请发明人在实现本申请实施例的过程中发现，现有的App或者智能阅读机器人等虽然能够提供有声内容，但是，由于具体的声音通常都是由机器合成产生，或者，预先由他人(例如，一些配音演员等)进行录制，等等，因此，在儿童听起来，与父母亲自阅读还是有比较明显的差异的，难以使得儿童获得父母亲自陪伴的感受，甚至可能会使得儿童产生排斥心里。

为此，针对上述情况，本申请实施例提供了相应的解决方案，在该方案中，可以首先通过一些方式获取到用户(这里的用户就可以是一些儿童或幼儿的父母等)的声纹数据，这种声纹数据可以用于表达用户的语音特征，包括声色、说话时惯用的音调等。之后，在用户选择了具体需要语音播放的阅读对象(例如，App中已经购买的故事、书等内容，或者，也可以是绘本等实体书)后，可以根据这种声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容，这样，可以对这种个性化语音内容进行播放。通过这种方式，可以使得具体播放出的语音内容带有用户的语音特征，以此使得儿童或幼儿感觉到是父母在亲自为其阅读，因此，可以使得这种有声内容能够更有效地起到代替父母陪伴儿童的作用。

具体实现时，可以使用相关的深度学习模型的方式来实现上述个性化语音内容生成的过程，或者，在优选的方式下，也可以使用AI(Artificial Intelligence，人工智能)大规模参数模型(简称AI大模型)的能力，完成上述个性化语音内容的生成。从这个角度来说，本申请实施例可以属于这种AI大模型在母婴、亲子阅读等相关场景中的应用，对此，后文中会有详细介绍。另外，对于儿童而言，阅读对象中的插画内容通常也是很重要的，因此，在可选的实施方式下，针对一些没有插画内容或者插画内容比较少的阅读对象，还可以通过上述AI大模型对阅读对象中的文本内容进行充分理解等情况下，生产出插画内容。这样，在播放上述个性化语音内容的同时，还可以展示这种插画内容，从而使得儿童在听觉以及视觉两个维度上更好地理解书中或者故事的内容。

从***架构角度而言，参见图1，本申请实施例可以在与音频内容相关的应用程序(例如，商品信息服务***中的音频内容频道等)，或者相关的智能阅读机器人***来实现。具体的，上述应用程序或者智能阅读机器人***都可以包括服务端，以用于进行声纹数据的获取，个性化语音内容的生产等处理。另外，对于应用程序而言，还可以包括运行在用户终端设备(手机等)中的客户端，对于智能阅读机器人***而言，具体的客户端可以运行在机器人设备中，但无论具体是何种实现形式，客户端都是主要用于与用户进行交互，以及对个性化语音内容的播放。或者，具体实现时，还可以实现上述应用程序与智能阅读机器人设备、智能音箱等硬件设备的联动，例如，通过应用程序客户端选择一些阅读对象，由服务端离线生产出上述个性化语音内容，并发送到客户端侧进行缓存，之后，用户在具体需要进行播放时，可以选择将缓存的个性化语音内容同步到智能音箱上进行播放，等等。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

首先，本申请实施例一从服务端的角度，提供了一种提供语音内容的方法，参见图2，该方法具体可以包括：

S201：获取用户的声纹数据。

具体的，由于每个人说话的声音是不同的，并且，对于成年人而言，其说话的声音可保持长期相对稳定不变，也即一个人说话时的声音不仅具有特定性，而且有相对稳定性的特点，因此，关于声纹数据，具体就可以用于反映具体用户在说话时的语音特征，具体可以包括音色、音高、音强、音长特征，还可以包括说话时惯用的语调等。

其中，具体在获取用户的声纹数据时可以有多种方式，例如，一种方式下，可以在客户端为用户提供用于录制语音信号的操作选项，这样，用户可以通过该操作选项发起录制流程，这样，可以由用户录制自己说出的一段话的方式，进行声纹数据的获取。其后在，具体在获取声纹数据时，可以通过语图仪等将采集到的声波的变化转换成电讯号的强度、波长、频率、节奏变化，之后，仪器又可以把这些电讯号的变化绘制成波谱图形，就成了声纹图，该声纹图可以用于后续的个性化语音内容的生产。此时，用户的声纹数据可以以一种特征信息的形式存在。

或者，另一种更为优选的方式，如前文所述，在本申请实施例中，可以使用AI大模型来实现上述个性化语音内容的生产，此时，具体对用户的声纹数据进行获取的过程，也可以通过AI大模型来完成，相应的，用户的声纹数据可以以该AI大模型中一组具体的模型参数值的形式来存在。

为便于理解，下面首先对AI大模型的相关概念进行简单的介绍。AI大模型可以是指一类基础模型(Foundation Model)，具体可以指在使用海量数据下训练出来的参数量巨大的、能适应一系列下游任务的模型。对于AI大模型而言，不仅在参数规模上存在参数量巨大(随着模型的不断迭代，参数量通常也会呈指数级增长，从亿到万亿，再到百万亿，甚至还可以更多)的特点，并且，从模态支持上看，AI大模型也从支持图片、图像、文本、语音、视频等单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。也即，大型模型通常还具备多种模态信息的高效理解能力、跨模态的感知能力以及跨差异化任务的迁移与执行能力等，甚至可能会具备如人类大脑体现的多模态信息感知能力。

从另一角度而言，AI大模型是“人工智能预训练大型模型”的简称，包含了“预训练”和“大模型”两层含义，二者结合产生了一种新的人工智能模式，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能支撑各类下游应用。也就是说，AI大模型得益于其“大规模预训练﹢微调”的范式，可以很好地适应不同下游任务，展现出它强大的通用性。这种具有通用性的AI大模型，在共享参数的情况下，只需在不同下游应用场景中做出相应微调就能得到优越的表现，突破传统AI模型难以泛化到其他任务上的局限性。

从处理结果的角度而言，上述AI大模型还属于一种生成式模型(GenerativeModel)。因为这类模型不但能根据特征预测结果，还能“理解”数据是如何产生的，并以此为基础“创造”数据。

正是由于AI大模型的上述特征以及能力，使得其可以在本申请实施例的应用场景中发挥作用。也即，在本申请实施例中，可以借助于AI大模型的能力，使其生产出具有具体用户语音特征的个性化语音内容。而在这种方式下，具体获取用户的声纹数据的过程中，也可以是通过调用该AI大模型的方式来实现。具体的，首先可以通过客户端对用户的语音信号进行采集，然后，可以在服务端调用上述AI大模型对所采集到的语音信号进行处理，并确定出可用于对所述用户的语音特征进行模拟的个性化模型参数值。也就是说，AI大模型可以针对某个具体的用户确定出一组个性化的模型参数值，在这一组模型参数值的作用下，可以模拟生成具有该用户语音特征的个性化语音内容，因此，这组模型参数值就可以作为该用户的声纹数据而存在。当然，在为其他用户生成声纹数据时，也可以利用同样的方式，为其他用户生成一组新的模型参数值，不同用户之间可以对应不同的模型参数值集合，以用于对不同用户的语音特征进行模拟。具体实现时，在为具体用户生成上述个性化的模型参数值后，保存具体的个性化模型参数值与用户的标识(例如，用户ID等)之间的对应关系，以便后续根据用户标识查询到对应的个性化模型参数值，并利于这种个性化模型参数值，生成个性化语音内容。

这里需要说明的是，在具体实现时，为了能够采集到用户的语音信号，可以在客户端为用户提供用于进行语音录制的操作选项，在用户发起录制后，可以对用户说话或者阅读的过程进行录音。例如，可以长按住具体的操作选项，并进行讲话，相应的，客户端可以将录音信息上传到服务端，由服务端调用上述AI大模型对所采集到的语音信号进行处理，并确定出可用于对所述用户的语音特征进行模拟的个性化模型参数值。相应的，客户端的界面中还可以展示出具体的处理进度，直到完成对声纹数据的采集后，用户可以结束对操作选项的长按操作，同时，可以结束录制过程。

其中，在用户进行语音录制时，具体的说话内容可以不限，也即，用户可以任意说出一段话，服务端便可以利用AI大模型等方式获取到用户的声纹数据。或者，在实际应用中，可能会出现用户不知道说什么内容的情况，因此，为了便于帮助用户完成录制过程，还可以为用户提供关于参考文本的提示内容。例如，可以在录制界面中展示这种参考文本内容，这样，用户可以通过读出这种参考文本内容的方式，完成录制过程。

另外，还可以为用户提供验证录制效果的功能，例如，在用户完成一段话的录制，并相应采集到用户的声纹数据后，还可以利用该采集到的声纹数据实时生成一段语音内容并进行播放，用户可以通过收听该语音内容，判断具体的生成效果，如果用户认为不满意，则可以重新进行录制。这样，通过这种过程型的即时反馈，使得用户可以边听边调，直到达到用户满意的生成效果。

S202：确定所述用户选择的目标阅读对象，根据所述声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容。

在获取到用户的声纹数据后，在该用户选择具体的目标阅读对象后，可以根据这种声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容。具体实现时，如前文所述，具体的个性化语音内容可以是通过调用AI大模型的方式而生成的。在这种情况下，还可以在获取用户声纹数据的过程中，获取到可用于对用户的语音特征进行模拟的个性化模型参数值，并保存个性化模型参数值与用户的标识之间的对应关系。这样，具体在需要生成语音内容时，就可以以用户的标识以及所述目标阅读对象为输入信息，调用所述AI大规模参数模型，以便由所述AI大规模参数模型利用所述用户对应的个性化模型参数值以及所述目标阅读对象对应的文本内容，生成所述个性化语音内容。

通过这种方式，由于相比于传统的机器学习模型，AI大模型最显式的差别就是使用数据量和生产模型参数量上的“大”，这意味着它可以处理更复杂的任务。另外，AI大模型通常采用更加复杂的机制来实现其功能。例如，大型模型通常采用注意力机制来实现对输入的选择性关注，或者采用残差连接来加速模型的训练和优化过程。因此，在本申请实施例的场景下使用这种AI大模型时，可以充分利用AI大模型拥有的更多参数和更强的学习能力，从而更准确地模拟人类语音的细节和音调变化，提升声音的自然度和真实性。另外，AI大模型通过从大量的语音样本中学习并模拟出不同情感下的语音表现，如愉悦、悲伤、惊喜等情感状态，因此，相比于传统模型可以提升语音合成的情感表达能力。

这里需要说明的是，关于上述AI大模型，可以是具体***内部自研的AI大模型，或者，也可以使用第三方开源的AI大模型。当然，在使用第三方开源的大模型时，可以基于具体场景的需求，对AI大模型进行一些微调。例如，在本申请实施例中，为了使得具体的AI大模型在声纹学习、个性化语音内容生成方面变得更“聪明”，可以在具体应用该AI大模型之前，向AI大模型中输入一些公开的声纹、音频文件等，使得AI大模型能够从中学习获得或提升对人类语音的细节、音调变化、情感表达等方面进行模拟的能力，然后再部署到具体的应用中。

需要说明的是，服务端在生成上述个性化语音内容时，可以根据实际用户需求的不同，进行实时生成或者离线生成等不同的处理方式。例如，假设某用户刚刚完成了声纹数据的采集，想要听一下语音内容的生成效果，则此时，对于用户发起的这种对目标阅读对象进行实时语音播放的请求，可以实时调用AI大模型生成所述个性化语音内容，以便提供给所述客户端进行实时播放。当然，这种实时生成个性化语音内容的方式，技术成本会比较高，因此，还可以采用与离线生成相结合的方式。例如，还可以引用用户将一些想要阅读的目标阅读对象进行选择的方式，发起离线生成请求，此时，服务端可以根据所述声纹数据以及所述目标阅读对象，离线生成对应的个性化语音内容，等等。

S203：将所述个性化语音内容提供给客户端，以便通过所述客户端对所述个性化语音内容进行播放。

在生成具体的个性化语音内容后，可以提供给客户端。其中，在实时生成个性化语音内容的情况下，可以将生成的个性化语音内容实时提供给客户端，以便在客户端进行播放。或者，在离线生成个性化语音内容的情况下，则可以将离线生成的个性化语音内容提供给客户端进行缓存，这样，客户端在响应所述用户的语音播放请求时，从缓存读取所述个性化语音内容并进行播放，通过该方式，可以实现对个性化语音内容的离线播放。

其中，在上述离线生成一些个性化语音内容的情况下，具体的个性化语音内容可以以音频文件等形式缓存在用户的终端设备中，此时，可以直接使用前述终端设备中的应用程序客户端对这种个性化语音内容进行播放，或者，还可以实现与智能音箱、智能阅读机器人等硬件设备的联动。具体的，对于儿童而言，可能不擅长操作手机等比较复杂的设备，此时，可能会更需要在智能音箱等智能硬件设备进行收听，因此，在可选的实施方式下，客户端还可以将服务端提供的上述个性化语音内容同步到上述智能硬件设备中，从而可以实现在智能硬件设备中对个性化语音内容的播放。例如，父母提前在手机上将几本故事书加入阅读清单，此时，服务端可以离线生成这些故事书对应的个性化语音内容，并发送到手机上进行缓存，之后，父母可以将手机上缓存的个性化语音内容发送到智能音箱设备上，这样，儿童可以通过对智能音箱设备发出语音指令的方式，使得智能音箱设备为其播放某本故事书对应的个性化语音内容，等等。

另外，由于一些阅读对象中可能以文字内容为主，或者仅存在少量的插画，但是，插画内容实际上对于儿童或幼儿理解具体文字的含义，或者吸引儿童的注意等方面，是具有很积极意义的。因此，在本申请可选的实施方式下，还可以以目标阅读对象为输入信息调用所述AI大模型，并通过所述AI大模型通过理解所述目标阅读对象的文本内容的含义，为所述目标阅读对象生成插画内容。之后，还可以将所述插画内容与所述个性化语音内容进行同步对齐处理后，提供给所述客户端，这样，在播放所述个性化语音内容的过程中，可以通过所述客户端展示所述插画内容。例如，可以以“段落”或者“页”为单位生成个性化语音内容，以及对应的插画内容，这样，在播放某段或者某页对应的个性化语音内容时，还可以展示出该段或者该页对应的插画内容，等等。

这里需要说明的是，由于具体的阅读对象中可能会存在一些自带的插画内容，此时，可以将这种插画内容输入到AI大模型中，使得AI大模型生产出的插画内容在风格或者人物造型等方面，可以与阅读对象中自带的插画内容保持一致，等等。

再者，在实际应用中，考虑到一些父母在平时说话时可能会使用一些方言，或者，普通话不够标准等情况，此时，为了能够使得AI大模型生产出的个性化语音内容更像是用户在亲自阅读，还可以在通过AI大模型生成声纹数据时，同时获取到用户的发音或者咬字等方面的特征，例如，是否存在前后鼻音不分，或者“n”、“l”不分等情况，等等。如果存在，则也可以在生产个性化语音内容时，对这些情况进行模拟，以进一步提升真实感。当然，关于是否在生成的个性化语音内容中体现上述发音、咬字等方面的特征，可以由用户进行选择，例如，有的父母就是想让孩子学习到更标准的普通话，或者更标准的英语发音，此时，也可以不必在个性化语音内容中体现上述特征，从而可以让孩子感受到父母声音的同时，避免受到父母由于发音不标准而导致的被误导等情形。

另外，在具体实现时，AI模型不仅可以生成上述个性化语音内容、插画内容等的生产，还可以在阅读的过程中，为用户进行更精确的有声读物类商品的推荐。例如，AI模型可以通过对用户当前选择的目标阅读对象中的内容进行模型理解，获取所述用户对有声读物类商品的阅读偏好信息，进而，通过对商品库中的有声读物类商品关联的多模态信息进行模型理解，生成符合所述阅读偏好信息的推荐商品信息。也就是说，可以通过模型理解具体用户选择的目标阅读对象的方式，来总结出用户的阅读偏好信息后，而这种阅读偏好信息可能是比较具体的、复杂的、描述了多方面偏好的信息，在这种情况下，通常难以通过预先对商品进行打标并通过标签匹配的方式来进行准确的商品推荐。因此，在本申请实施例中，可以利用AI模型的能力，实现将商品库中多个商品关联的多模态信息转化为对商品的理解，进而可以根据模型对商品的理解，确定出满足具体用户阅读偏好信息的推荐商品。也就是说，在本申请实施例中，具体在进行商品推荐时，是通过AI模型将有声读物类商品关联的文本、图片、视频、用户评价等多模态等信息转化为模型对商品的理解，这样，再结合对用户阅读偏好信息的理解，可以给出更精确化的商品推荐结果。相应的，用户可以基于这种推荐结果执行购买等操作。

总之，通过本申请实施例，可以获取到用户的声纹数据，这样，针对用户选择的目标阅读对象，可以根据所述声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容，并提供给客户端，以便基于所述个性化语音内容进行语音播放。通过这种方式，由于可以使得播放出的语音内容具有用户的语音特征，因此，在母婴幼教、亲子阅读等场景中，可以使得儿童获得父母亲自为其阅读的体验。

实施例二

该实施例二是与实施例一相对应的，从客户端的角度，提供了一种提供语音内容的方法，参见图3，该方法具体可以包括：

S301：响应于用户对目标阅读对象的选择操作，将所述目标阅读对象的信息提交到服务端，以便由所述服务端根据所述用户的声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容；

S302：接收所述服务端返回的所述个性化语音内容，以便基于所述个性化语音内容进行语音播放。

具体实现时，还可以提供用于生成声纹数据的操作选项，响应于通过所述操作选项接收到的用户操作请求，可以对所述用户的语音信号进行采集，并提交到所述服务端，以便由所述服务端调用AI大规模参数模型对所采集到的语音信号进行处理，以确定可用于对所述用户的语音特征进行模拟的个性化模型参数值，所述个性化模型参数值对应所述声纹数据；所述AI大规模参数模型还用于生成所述个性化语音内容。

另外，为了帮助用户完成声纹数据的采集，还可以在通过所述操作选项接收到采集请求后，提供关于参考文本的提示信息，以便所述用户通过阅读所述参考文本的方式完成语音信号的采集。

具体的，所述用户对目标阅读对象的选择操作包括：所述用户发起的对目标阅读对象进行实时语音播放的请求；此时，可以接收所述服务端返回的实时生成的所述个性化语音内容，并基于所述个性化语音内容进行语音播放。

或者，所述用户对目标阅读对象的选择操作包括：所述用户发起的将至少一个目标阅读对象加入到待语音播放集合的请求；此时，可以将所述服务端返回的离线生成的个性化语音内容并进行缓存，以便通过从缓存读取的方式对所述个性化语音内容进行播放。

另外，还可以将所述缓存的个性化语音内容提供给关联的智能硬件设备，以便通过所述智能硬件设备对所述个性化语音内容进行播放。

再者，在播放所述个性化语音内容的过程中，还可以对所述服务端提供的插画内容进行展示，其中，所述插画内容是由AI大模型通过理解所述目标阅读对象的文本内容的含义并生成的。

关于该实施例二中的未详述部分，可以参见前述实施例一以及本说明书其他部分的记载，这里不再赘述。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与实施例一相对应，本申请实施例还提供了一种提供语音内容的装置，参见图4，该装置可以包括：

声纹数据获取单元401，用于获取用户的声纹数据；

个性化语音内容生成单元402，用于确定所述用户选择的目标阅读对象，根据所述声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容；

个性化语音内容提供单元403，用于将所述个性化语音内容提供给客户端，以便对所述个性化语音内容进行播放。

其中，所述声纹数据获取单元具体可以用于：

对所述用户的语音信号进行采集；

此时，所述个性化语音内容生成单元具体可以用于：

具体的，所述个性化语音内容生成单元具体可以用于：

或者，所述个性化语音内容生成单元具体可以用于：

所述个性化语音内容提供单元具体可以用于：

另外，该装置还可以包括：

插画内容生成单元，用于通过对所述目标阅读对象的内容进行模型理解，为所述目标阅读对象生成插画内容；

插画内容提供单元，用于将所述插画内容与所述个性化语音内容进行同步对齐处理后，提供给所述客户端，以便在播放所述个性化语音内容的过程中，通过所述客户端展示所述插画内容。

再者，该装置还可以包括：

阅读偏好信息获取单元，用于通过对所述目标阅读对象的内容进行模型理解，获取用户的阅读偏好信息；

推荐单元，用于通过将有声读物类商品库中多个有声读物关联的多模态信息转化为对有声读物的理解，确定符合所述阅读偏好的至少一个推荐有声读物，并提供给客户端进行展示。

与实施例二相对应，本申请实施例还提供了一种提供语音内容的装置，参见图5，该装置可以包括：

信息提交单元501，用于响应于用户对目标阅读对象的选择操作，将所述目标阅读对象的信息提交到服务端，以便由所述服务端根据所述用户的声纹数据以及所述目标阅读对象，生成带有所述用户的语音特征的个性化语音内容；

个性化语音内容接收单元502，用于接收所述服务端返回的所述个性化语音内容，以便基于所述个性化语音内容进行语音播放。

具体实现时，该装置还可以包括：

操作选项提供单元，用于提供用于生成声纹数据的操作选项；

语音信号采集单元，用于响应于通过所述操作选项接收到的用户操作请求，对所述用户的语音信号进行采集，并提交到所述服务端，以便由所述服务端调用AI大规模参数模型对所采集到的语音信号进行处理，以确定可用于对所述用户的语音特征进行模拟的个性化模型参数值，所述个性化模型参数值对应所述声纹数据；所述AI大规模参数模型还用于生成所述个性化语音内容。

另外，该装置还可以包括：

参考文本提供单元，用于在通过所述操作选项接收到采集请求后，提供关于参考文本的提示信息，以便所述用户通过阅读所述参考文本的方式完成语音信号的采集。

具体的，所述用户对目标阅读对象的选择操作包括：所述用户发起的对目标阅读对象进行实时语音播放的请求；

此时，个性化语音内容接收单元具体可以用于：

或者，所述用户对目标阅读对象的选择操作包括：所述用户发起的将至少一个目标阅读对象加入到待语音播放集合的请求；

此时，个性化语音内容接收单元具体可以用于：

另外，该装置还可以包括：

联动单元，用于将所述缓存的个性化语音内容提供给关联的智能硬件设备，以便通过所述智能硬件设备对所述个性化语音内容进行播放。

再者，该装置还可以包括：

插画展示单元，用于在播放所述个性化语音内容的过程中，对所述服务端提供的插画内容进行展示，其中，所述插画内容是通过对所述目标阅读对象的文本内容进行模型理解后生成的。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图6示例性的展示出了电子设备的架构，例如，设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，飞行器等。

参照图6，设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成本公开技术方案提供的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为设备600的各种组件提供电力。电源组件606可以包括电源管理***，一个或多个电源，及其他与为设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为设备600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为设备600的显示器和小键盘，传感器组件614还可以检测设备600或设备600一个组件的位置改变，用户与设备600接触的存在或不存在，设备600方位或加速/减速和设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于设备600和其他设备之间有线或无线方式的通信。设备600可以接入基于通信标准的无线网络，如WiFi，或2G、3G、4G/LTE、5G等移动通信网络。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由设备600的处理器620执行以完成本公开技术方案提供的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的提供语音内容的方法及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种提供语音内容的方法，其特征在于，包括：

获取用户的声纹数据；

2.根据权利要求1所述的方法，其特征在于，

所述获取用户的声纹数据，包括：

对所述用户的语音信号进行采集；

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，

所述将所述个性化语音内容提供给客户端，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.一种提供语音内容的方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，在所述方法之前还包括：

提供用于生成声纹数据的操作选项；

9.根据权利要求8所述的方法，其特征在于，还包括：

10.根据权利要求7所述的方法，其特征在于，

所述用户对目标阅读对象的选择操作包括：所述用户发起的对目标阅读对象进行实时语音播放的请求；

所述接收所述服务端返回的所述个性化语音内容，包括：

11.根据权利要求7所述的方法，其特征在于，

所述用户对目标阅读对象的选择操作包括：所述用户发起的将至少一个目标阅读对象加入到待语音播放集合的请求；

所述接收所述服务端返回的所述个性化语音内容，包括：

12.根据权利要求7所述的方法，其特征在于，还包括：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至12任一项所述的方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至12任一项所述的方法的步骤。