CN112786026A

CN112786026A - 基于语音迁移学习的亲子故事个性化音频生成***及方法

Info

Publication number: CN112786026A
Application number: CN202011622856.4A
Authority: CN
Inventors: 黄元忠; 卢庆华; 魏静
Original assignee: Shenzhen Muyu Technology Co ltd
Current assignee: Shenzhen Muyu Technology Co ltd
Priority date: 2019-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11
Anticipated expiration: 2040-12-31
Also published as: CN112786026B

Abstract

本发明提供基于语音迁移学习的亲子故事个性化音频生成***，包括：音频上传模块，用于将用户记录下的给孩子讲故事时的音频数据，通过客户端上传至服务器；其中，音频数据分别对应带有相应的用户标识；数据存储模块，用于根据用户标识，存储音频数据至对应用户标识的语音数据库中；数据处理模块，用于将语音数据库中存储的音频数据处理，成模型训练所需的音频数据输入和对应的文本输入数据；迁移训练模块，用于将数据处理模块处理后的音频数据，作为训练数据，通过迁移学习，训练构建出能够克隆出用户个性化声音的迁移模型；声音合成模块，用于将亲子故事\教学内容输入至迁移模型中，通过迁移模型合成基于用户个性化声音的故事\教学音频。

Description

基于语音迁移学习的亲子故事个性化音频生成***及方法

技术领域

本发明设计自动语音识别技术中语音合成、个性化语音故事合成，尤其设计基于迁移学习的亲子讲故事声音克隆；主要用于亲子之间讲故事常用，促进孩子的学习兴趣。

背景技术

语音识别是通过语音信号处理和模式识别让计算机能够自动识别和理解人类的口述语，随着语音识别技术的不断提高，机器对于语音信号的识别准确率也极大提升。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音合成是计算机接收到的文字信息转变为可以听得懂的、流畅的口语输出的技术。端到端的语音合成，可以直接利用录音文本和对应的语音数据对，进行模型训练，而无需过多的专家知识和专业处理能力，大大降低了进入语音合成领域的门槛，极大的促进了语音合成技术的进步。

风格转换是最早来源于图像领域的概念，即：将一张图片的艺术风格应用到另外一张图片上。音频中的风格迁移，是通过设计模型结构，使得模型学习音频的声纹特征，从而将输入的音频声音特征迁移到种子模型中，合成基于用户声音的亲子讲故事音频集，为用户提供更优质的教育服务，提升孩子的学习兴趣，促进亲子情感和互动。

发明内容

本发明的目的在于提供基于迁移学习的亲子讲故事声音克隆***，根据用户自身提供的给孩子讲故事的音频数据，解析用户声纹信息，利用风格迁移，快速合成基于用户声音的亲子故事音频，自动化生成个性化教学课程，提升孩子的学习兴趣，促进亲子情感和互动。

本申请提供一种基于语音迁移学习的亲子故事个性化音频***，包含以下模块：

音频上传模块，用于将用户记录下的给孩子讲故事时的音频数据，通过客户端上传至服务器；其中，上传的音频数据分别对应带有相应的用户标识；

数据存储模块，用于根据所述用户标识，存储所述音频数据至对应所述用户标识的语音数据库中；

数据处理模块，用于将所述语音数据库中存储的音频数据处理，成模型训练所需的音频数据输入和对应的文本输入数据；

迁移训练模块，用于将所述数据处理模块处理后的音频数据，作为训练数据，通过迁移学习，训练构建出能够克隆出用户个性化声音的迁移模型；

声音合成模块，用于将亲子故事\教学内容输入至所述迁移模型中，通过所述迁移模型合成基于用户个性化声音的故事\教学音频。

由上，本申请根据用户自身提供的给孩子讲故事的音频数据，解析用户声纹信息，利用风格迁移，快速合成基于用户声音的亲子故事音频，自动化生成个性化教学课程，提升孩子的学习兴趣，促进亲子情感和互动。

优选地，所述音频上传模块，包括：

匹配子模块，用于将用户输入用户名和密码与指定信息相匹配；

上传子模块，用于当所述用户输入用户名和密码与指定信息相匹配之后，将用户在客户端输入的音频数据分别对应标记相应的用户标识后上传至服务器。

优选地，所述数据存储模块，包括：

查询子模块，用于根据所述用户标识，在音频数据库中查询所述用户标识对应的数据表；

存储子模块，用于将上传的音频数据存储至其对应的用户标识对应的数据表中。

优选地，所述数据处理模块，包括：

下载子模块，用于将用户的音频数据从音频数据库下载；

预处理子模块，用于将从音频数据库下载的用户的音频数据进行预处理，所述预处理包括：降噪、语音增强、音频采样、分句处理、音频转化文字处理。

优选地，所述迁移训练模块，包括：

第一输入子模块，用于将经过所述预处理的音频数据作为训练数据，输入到训练模型中；

训练子模块，通过迁移学习，训练构建出能够克隆出用户声音的迁移模型。

优选地，所述声音合成模块，包括：

第二输入子模块，用于将亲子故事\教学的内容输入至所述迁移模型中；

处理子模块，用于通过所述迁移模型对输入的所述亲子故事的文本或语音进行处理；

输出子模块，用于输出通过所述处理子模块处理后的基于用户个性化声音的故事\教学音频。

优选地，所述***，还包括：

定时播放子模块，用于根据指定时间定时播放所述输出子模块输出的故事\教学音频。

本申请还提供一种基于语音迁移学习的亲子故事个性化音频生成方法，基于前述的***，包含以下处理步骤：

A、音频上传，包括：将用户记录下的给孩子讲故事时的音频数据，通过客户端上传至服务器；其中，上传的音频数据分别对应带有相应的用户标识；

B、数据存储，包括：根据所述用户标识，存储所述音频数据至对应所述用户标识的语音数据库中；

C、数据处理，包括：将所述语音数据库中存储的音频数据处理，成模型训练所需的音频数据输入和对应的文本输入数据；

D、迁移训练，包括：将所述数据处理模块处理后的音频数据，作为训练数据，通过迁移学习，训练构建出能够克隆出用户个性化声音的迁移模型；

E、声音合成，包括：将亲子故事\教学内容输入至所述迁移模型中，通过所述迁移模型合成基于用户个性化声音的故事\教学音频。

优选地，所述步骤E，之后还包括：

F、根据指定时间定时播放所述基于用户个性化声音的故事\教学音频。

综上所述，本申请根据用户自身提供的给孩子讲故事的音频数据，解析用户声纹信息，利用风格迁移，快速合成基于用户声音的亲子故事音频，自动化生成个性化教学课程，提升孩子的学习兴趣，促进亲子情感和互动。

附图说明

以下结合附图和具体实施方式对本申请做进一步详细说明；

图1为本申请提供的一种基于语音迁移学习的亲子故事***结构示意图；

图2为一种基于语音迁移学习的亲子故事生成方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图对本申请进行说明。

实施例一

如图1所示，本申请提供一种基于语音迁移学习的亲子故事***，包含以下模块：

音频上传模块101，用于将用户记录下的给孩子讲故事时的音频数据，通过客户端上传至服务器；其中，上传的音频数据分别对应带有相应的用户标识；具体的，所述音频上传模块，包括：匹配子模块，用于将用户输入用户名和密码与指定信息相匹配。上传子模块，用于当所述用户输入用户名和密码与指定信息相匹配之后，将用户在客户端输入的音频数据分别对应标记相应的用户标识后上传至服务器。

数据存储模块102，用于根据所述用户标识，存储所述音频数据至对应所述用户标识的语音数据库中；具体的，所述数据存储模块，包括：查询子模块，用于根据所述用户标识，在音频数据库中查询所述用户标识对应的数据表。存储子模块，用于将上传的音频数据存储至其对应的用户标识对应的数据表中。

数据处理模块103，用于将所述语音数据库中存储的音频数据处理，成模型训练所需的音频数据输入和对应的文本输入数据；具体的，所述数据处理模块，包括：下载子模块，用于将用户的音频数据从音频数据库下载；预处理子模块，用于将从音频数据库下载的用户的音频数据进行预处理，所述预处理包括：降噪、语音增强、音频采样、分句处理、音频转化文字处理。

迁移训练模块104，用于将所述数据处理模块处理后的音频数据，作为训练数据，通过迁移学习，训练构建出能够克隆出用户个性化声音的迁移模型；具体的，所述迁移训练模块，包括：第一输入子模块，用于将经过所述预处理的音频数据作为训练数据，输入到训练模型中；训练子模块，通过迁移学习，训练构建出能够克隆出用户声音的迁移模型。

声音合成模块105，用于将亲子故事\教学内容输入至所述迁移模型中，通过所述迁移模型合成基于用户个性化声音的故事\教学音频。具体的，所述声音合成模块，包括：第二输入子模块，用于将亲子故事\教学的内容输入至所述迁移模型中；处理子模块，用于通过所述迁移模型对输入的所述亲子故事的文本或语音进行处理；输出子模块，用于输出通过所述处理子模块处理后的基于用户个性化声音的故事\教学音频。

定时播放子模块106，用于根据指定时间定时播放所述输出子模块输出的故事\教学音频。

实施例二

本申请还提供一种基于语音迁移学习的亲子故事生成方法，基于实施例一所述的***，包含以下处理步骤：

S201、音频上传，包括：将用户记录下的给孩子讲故事时的音频数据，通过客户端上传至服务器；其中，上传的音频数据分别对应带有相应的用户标识；

S202、数据存储，包括：根据所述用户标识，存储所述音频数据至对应所述用户标识的语音数据库中；

S203、数据处理，包括：将所述语音数据库中存储的音频数据处理，成模型训练所需的音频数据输入和对应的文本输入数据；

S204、迁移训练，包括：将所述数据处理模块处理后的音频数据，作为训练数据，通过迁移学习，训练构建出能够克隆出用户个性化声音的迁移模型；

S205、声音合成，包括：将亲子故事\教学内容输入至所述迁移模型中，通过所述迁移模型合成基于用户个性化声音的故事\教学音频。

S205、定时播放，包括：根据指定时间定时播放所述基于用户个性化声音的故事\教学音频。

综上所述，本申请提供的一种基于语音迁移学习的亲子故事***，通过用户自身提供的给孩子讲故事的音频数据，解析用户声纹信息，利用风格迁移，快速合成基于用户声音的亲子故事音频，自动化生成个性化教学课程，提升孩子的学习兴趣，促进亲子情感和互动。

以上所述仅为本发明的典型实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音迁移学习的亲子故事个性化音频生成***，其特征在于，包含以下模块：

2.根据权利要求1所述的***，其特征在于，所述音频上传模块，包括：

3.根据权利要求2所述的***，其特征在于，所述数据存储模块，包括：

4.根据权利要求3所述的***，其特征在于，所述数据处理模块，包括：

下载子模块，用于将用户的音频数据从音频数据库下载；

5.根据权利要求4所述的***，其特征在于，所述迁移训练模块，包括：

6.根据权利要求5所述的***，其特征在于，所述声音合成模块，包括：

7.根据权利要求6所述的***，其特征在于，还包括：

8.一种基于语音迁移学习的亲子故事个性化音频生成方法，基于权利要求1-7任一项所述的***，其特征在于，包含以下处理步骤：

9.根据权利要求8所述的方法，其特征在于，所述步骤E，之后还包括：

F、定时播放，包括：根据指定时间定时播放所述基于用户个性化声音的故事\教学音频。