CN112786026A - 基于语音迁移学习的亲子故事个性化音频生成***及方法 - Google Patents

基于语音迁移学习的亲子故事个性化音频生成***及方法 Download PDF

Info

Publication number
CN112786026A
CN112786026A CN202011622856.4A CN202011622856A CN112786026A CN 112786026 A CN112786026 A CN 112786026A CN 202011622856 A CN202011622856 A CN 202011622856A CN 112786026 A CN112786026 A CN 112786026A
Authority
CN
China
Prior art keywords
user
audio
data
migration
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011622856.4A
Other languages
English (en)
Other versions
CN112786026B (zh
Inventor
黄元忠
卢庆华
魏静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Muyu Technology Co ltd
Original Assignee
Shenzhen Muyu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Muyu Technology Co ltd filed Critical Shenzhen Muyu Technology Co ltd
Publication of CN112786026A publication Critical patent/CN112786026A/zh
Application granted granted Critical
Publication of CN112786026B publication Critical patent/CN112786026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供基于语音迁移学习的亲子故事个性化音频生成***,包括:音频上传模块,用于将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,音频数据分别对应带有相应的用户标识;数据存储模块,用于根据用户标识,存储音频数据至对应用户标识的语音数据库中;数据处理模块,用于将语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;迁移训练模块,用于将数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;声音合成模块,用于将亲子故事\教学内容输入至迁移模型中,通过迁移模型合成基于用户个性化声音的故事\教学音频。

Description

基于语音迁移学习的亲子故事个性化音频生成***及方法
技术领域
本发明设计自动语音识别技术中语音合成、个性化语音故事合成,尤其设计基于迁移学习的亲子讲故事声音克隆;主要用于亲子之间讲故事常用,促进孩子的学习兴趣。
背景技术
语音识别是通过语音信号处理和模式识别让计算机能够自动识别和理解人类的口述语,随着语音识别技术的不断提高,机器对于语音信号的识别准确率也极大提升。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音合成是计算机接收到的文字信息转变为可以听得懂的、流畅的口语输出的技术。端到端的语音合成,可以直接利用录音文本和对应的语音数据对,进行模型训练,而无需过多的专家知识和专业处理能力,大大降低了进入语音合成领域的门槛,极大的促进了语音合成技术的进步。
风格转换是最早来源于图像领域的概念,即:将一张图片的艺术风格应用到另外一张图片上。音频中的风格迁移,是通过设计模型结构,使得模型学习音频的声纹特征,从而将输入的音频声音特征迁移到种子模型中,合成基于用户声音的亲子讲故事音频集,为用户提供更优质的教育服务,提升孩子的学习兴趣,促进亲子情感和互动。
发明内容
本发明的目的在于提供基于迁移学习的亲子讲故事声音克隆***,根据用户自身提供的给孩子讲故事的音频数据,解析用户声纹信息,利用风格迁移,快速合成基于用户声音的亲子故事音频,自动化生成个性化教学课程,提升孩子的学习兴趣,促进亲子情感和互动。
本申请提供一种基于语音迁移学习的亲子故事个性化音频***,包含以下模块:
音频上传模块,用于将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;
数据存储模块,用于根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;
数据处理模块,用于将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;
迁移训练模块,用于将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;
声音合成模块,用于将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频。
由上,本申请根据用户自身提供的给孩子讲故事的音频数据,解析用户声纹信息,利用风格迁移,快速合成基于用户声音的亲子故事音频,自动化生成个性化教学课程,提升孩子的学习兴趣,促进亲子情感和互动。
优选地,所述音频上传模块,包括:
匹配子模块,用于将用户输入用户名和密码与指定信息相匹配;
上传子模块,用于当所述用户输入用户名和密码与指定信息相匹配之后,将用户在客户端输入的音频数据分别对应标记相应的用户标识后上传至服务器。
优选地,所述数据存储模块,包括:
查询子模块,用于根据所述用户标识,在音频数据库中查询所述用户标识对应的数据表;
存储子模块,用于将上传的音频数据存储至其对应的用户标识对应的数据表中。
优选地,所述数据处理模块,包括:
下载子模块,用于将用户的音频数据从音频数据库下载;
预处理子模块,用于将从音频数据库下载的用户的音频数据进行预处理,所述预处理包括:降噪、语音增强、音频采样、分句处理、音频转化文字处理。
优选地,所述迁移训练模块,包括:
第一输入子模块,用于将经过所述预处理的音频数据作为训练数据,输入到训练模型中;
训练子模块,通过迁移学习,训练构建出能够克隆出用户声音的迁移模型。
优选地,所述声音合成模块,包括:
第二输入子模块,用于将亲子故事\教学的内容输入至所述迁移模型中;
处理子模块,用于通过所述迁移模型对输入的所述亲子故事的文本或语音进行处理;
输出子模块,用于输出通过所述处理子模块处理后的基于用户个性化声音的故事\教学音频。
优选地,所述***,还包括:
定时播放子模块,用于根据指定时间定时播放所述输出子模块输出的故事\教学音频。
本申请还提供一种基于语音迁移学习的亲子故事个性化音频生成方法,基于前述的***,包含以下处理步骤:
A、音频上传,包括:将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;
B、数据存储,包括:根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;
C、数据处理,包括:将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;
D、迁移训练,包括:将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;
E、声音合成,包括:将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频。
优选地,所述步骤E,之后还包括:
F、根据指定时间定时播放所述基于用户个性化声音的故事\教学音频。
综上所述,本申请根据用户自身提供的给孩子讲故事的音频数据,解析用户声纹信息,利用风格迁移,快速合成基于用户声音的亲子故事音频,自动化生成个性化教学课程,提升孩子的学习兴趣,促进亲子情感和互动。
附图说明
以下结合附图和具体实施方式对本申请做进一步详细说明;
图1为本申请提供的一种基于语音迁移学习的亲子故事***结构示意图;
图2为一种基于语音迁移学习的亲子故事生成方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图对本申请进行说明。
实施例一
如图1所示,本申请提供一种基于语音迁移学习的亲子故事***,包含以下模块:
音频上传模块101,用于将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;具体的,所述音频上传模块,包括:匹配子模块,用于将用户输入用户名和密码与指定信息相匹配。上传子模块,用于当所述用户输入用户名和密码与指定信息相匹配之后,将用户在客户端输入的音频数据分别对应标记相应的用户标识后上传至服务器。
数据存储模块102,用于根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;具体的,所述数据存储模块,包括:查询子模块,用于根据所述用户标识,在音频数据库中查询所述用户标识对应的数据表。存储子模块,用于将上传的音频数据存储至其对应的用户标识对应的数据表中。
数据处理模块103,用于将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;具体的,所述数据处理模块,包括:下载子模块,用于将用户的音频数据从音频数据库下载;预处理子模块,用于将从音频数据库下载的用户的音频数据进行预处理,所述预处理包括:降噪、语音增强、音频采样、分句处理、音频转化文字处理。
迁移训练模块104,用于将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;具体的,所述迁移训练模块,包括:第一输入子模块,用于将经过所述预处理的音频数据作为训练数据,输入到训练模型中;训练子模块,通过迁移学习,训练构建出能够克隆出用户声音的迁移模型。
声音合成模块105,用于将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频。具体的,所述声音合成模块,包括:第二输入子模块,用于将亲子故事\教学的内容输入至所述迁移模型中;处理子模块,用于通过所述迁移模型对输入的所述亲子故事的文本或语音进行处理;输出子模块,用于输出通过所述处理子模块处理后的基于用户个性化声音的故事\教学音频。
定时播放子模块106,用于根据指定时间定时播放所述输出子模块输出的故事\教学音频。
综上所述,本申请根据用户自身提供的给孩子讲故事的音频数据,解析用户声纹信息,利用风格迁移,快速合成基于用户声音的亲子故事音频,自动化生成个性化教学课程,提升孩子的学习兴趣,促进亲子情感和互动。
实施例二
本申请还提供一种基于语音迁移学习的亲子故事生成方法,基于实施例一所述的***,包含以下处理步骤:
S201、音频上传,包括:将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;
S202、数据存储,包括:根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;
S203、数据处理,包括:将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;
S204、迁移训练,包括:将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;
S205、声音合成,包括:将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频。
S205、定时播放,包括:根据指定时间定时播放所述基于用户个性化声音的故事\教学音频。
综上所述,本申请提供的一种基于语音迁移学习的亲子故事***,通过用户自身提供的给孩子讲故事的音频数据,解析用户声纹信息,利用风格迁移,快速合成基于用户声音的亲子故事音频,自动化生成个性化教学课程,提升孩子的学习兴趣,促进亲子情感和互动。
以上所述仅为本发明的典型实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于语音迁移学习的亲子故事个性化音频生成***,其特征在于,包含以下模块:
音频上传模块,用于将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;
数据存储模块,用于根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;
数据处理模块,用于将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;
迁移训练模块,用于将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;
声音合成模块,用于将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频。
2.根据权利要求1所述的***,其特征在于,所述音频上传模块,包括:
匹配子模块,用于将用户输入用户名和密码与指定信息相匹配;
上传子模块,用于当所述用户输入用户名和密码与指定信息相匹配之后,将用户在客户端输入的音频数据分别对应标记相应的用户标识后上传至服务器。
3.根据权利要求2所述的***,其特征在于,所述数据存储模块,包括:
查询子模块,用于根据所述用户标识,在音频数据库中查询所述用户标识对应的数据表;
存储子模块,用于将上传的音频数据存储至其对应的用户标识对应的数据表中。
4.根据权利要求3所述的***,其特征在于,所述数据处理模块,包括:
下载子模块,用于将用户的音频数据从音频数据库下载;
预处理子模块,用于将从音频数据库下载的用户的音频数据进行预处理,所述预处理包括:降噪、语音增强、音频采样、分句处理、音频转化文字处理。
5.根据权利要求4所述的***,其特征在于,所述迁移训练模块,包括:
第一输入子模块,用于将经过所述预处理的音频数据作为训练数据,输入到训练模型中;
训练子模块,通过迁移学习,训练构建出能够克隆出用户声音的迁移模型。
6.根据权利要求5所述的***,其特征在于,所述声音合成模块,包括:
第二输入子模块,用于将亲子故事\教学的内容输入至所述迁移模型中;
处理子模块,用于通过所述迁移模型对输入的所述亲子故事的文本或语音进行处理;
输出子模块,用于输出通过所述处理子模块处理后的基于用户个性化声音的故事\教学音频。
7.根据权利要求6所述的***,其特征在于,还包括:
定时播放子模块,用于根据指定时间定时播放所述输出子模块输出的故事\教学音频。
8.一种基于语音迁移学习的亲子故事个性化音频生成方法,基于权利要求1-7任一项所述的***,其特征在于,包含以下处理步骤:
A、音频上传,包括:将用户记录下的给孩子讲故事时的音频数据,通过客户端上传至服务器;其中,上传的音频数据分别对应带有相应的用户标识;
B、数据存储,包括:根据所述用户标识,存储所述音频数据至对应所述用户标识的语音数据库中;
C、数据处理,包括:将所述语音数据库中存储的音频数据处理,成模型训练所需的音频数据输入和对应的文本输入数据;
D、迁移训练,包括:将所述数据处理模块处理后的音频数据,作为训练数据,通过迁移学习,训练构建出能够克隆出用户个性化声音的迁移模型;
E、声音合成,包括:将亲子故事\教学内容输入至所述迁移模型中,通过所述迁移模型合成基于用户个性化声音的故事\教学音频。
9.根据权利要求8所述的方法,其特征在于,所述步骤E,之后还包括:
F、定时播放,包括:根据指定时间定时播放所述基于用户个性化声音的故事\教学音频。
CN202011622856.4A 2019-12-31 2020-12-31 基于语音迁移学习的亲子故事个性化音频生成***及方法 Active CN112786026B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019114133834 2019-12-31
CN201911413383 2019-12-31

Publications (2)

Publication Number Publication Date
CN112786026A true CN112786026A (zh) 2021-05-11
CN112786026B CN112786026B (zh) 2024-05-07

Family

ID=75754402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011622856.4A Active CN112786026B (zh) 2019-12-31 2020-12-31 基于语音迁移学习的亲子故事个性化音频生成***及方法

Country Status (1)

Country Link
CN (1) CN112786026B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743630A (zh) * 2024-02-20 2024-03-22 卓世未来(天津)科技有限公司 基于语音迁移学习的新闻播报个性化音频生成***及方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104867489A (zh) * 2015-04-27 2015-08-26 苏州大学张家港工业技术研究院 一种模拟真人朗读发音的方法及***
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
CN106328139A (zh) * 2016-09-14 2017-01-11 努比亚技术有限公司 一种语音交互的方法和***
US20170011306A1 (en) * 2015-07-06 2017-01-12 Microsoft Technology Licensing, Llc Transfer Learning Techniques for Disparate Label Sets
CN107093421A (zh) * 2017-04-20 2017-08-25 深圳易方数码科技股份有限公司 一种语音模拟方法和装置
CN107221344A (zh) * 2017-04-07 2017-09-29 南京邮电大学 一种语音情感迁移方法
CN107230397A (zh) * 2017-07-26 2017-10-03 绮语(北京)文化传媒有限公司 一种亲子幼教用音频生成与处理方法与装置
CN108648763A (zh) * 2018-04-04 2018-10-12 深圳大学 基于声学信道的个人计算机使用行为监测方法及***
CN109065018A (zh) * 2018-08-22 2018-12-21 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及***
CN109346057A (zh) * 2018-10-29 2019-02-15 深圳市友杰智新科技有限公司 一种智能儿童玩具的语音处理***
CN109616105A (zh) * 2018-11-30 2019-04-12 江苏网进科技股份有限公司 一种基于迁移学习的带噪语音识别方法
CN110070855A (zh) * 2018-01-23 2019-07-30 中国科学院声学研究所 一种基于迁移神经网络声学模型的语音识别***及方法
CN110136687A (zh) * 2019-05-20 2019-08-16 深圳市数字星河科技有限公司 一种基于语音训练克隆口音及声韵方法
CN110136689A (zh) * 2019-04-02 2019-08-16 平安科技(深圳)有限公司 基于迁移学习的歌声合成方法、装置及存储介质
KR102035088B1 (ko) * 2018-12-31 2019-10-23 주식회사 이르테크 스토리텔링 기반 멀티미디어 무인 원격 1:1 맞춤형 교육시스템
CN110459208A (zh) * 2019-09-09 2019-11-15 极限元(杭州)智能科技股份有限公司 一种基于知识迁移的序列到序列语音识别模型训练方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104867489A (zh) * 2015-04-27 2015-08-26 苏州大学张家港工业技术研究院 一种模拟真人朗读发音的方法及***
US20170011306A1 (en) * 2015-07-06 2017-01-12 Microsoft Technology Licensing, Llc Transfer Learning Techniques for Disparate Label Sets
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
CN106328139A (zh) * 2016-09-14 2017-01-11 努比亚技术有限公司 一种语音交互的方法和***
CN107221344A (zh) * 2017-04-07 2017-09-29 南京邮电大学 一种语音情感迁移方法
CN107093421A (zh) * 2017-04-20 2017-08-25 深圳易方数码科技股份有限公司 一种语音模拟方法和装置
CN107230397A (zh) * 2017-07-26 2017-10-03 绮语(北京)文化传媒有限公司 一种亲子幼教用音频生成与处理方法与装置
CN110070855A (zh) * 2018-01-23 2019-07-30 中国科学院声学研究所 一种基于迁移神经网络声学模型的语音识别***及方法
CN108648763A (zh) * 2018-04-04 2018-10-12 深圳大学 基于声学信道的个人计算机使用行为监测方法及***
CN109065018A (zh) * 2018-08-22 2018-12-21 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及***
CN109346057A (zh) * 2018-10-29 2019-02-15 深圳市友杰智新科技有限公司 一种智能儿童玩具的语音处理***
CN109616105A (zh) * 2018-11-30 2019-04-12 江苏网进科技股份有限公司 一种基于迁移学习的带噪语音识别方法
KR102035088B1 (ko) * 2018-12-31 2019-10-23 주식회사 이르테크 스토리텔링 기반 멀티미디어 무인 원격 1:1 맞춤형 교육시스템
CN110136689A (zh) * 2019-04-02 2019-08-16 平安科技(深圳)有限公司 基于迁移学习的歌声合成方法、装置及存储介质
CN110136687A (zh) * 2019-05-20 2019-08-16 深圳市数字星河科技有限公司 一种基于语音训练克隆口音及声韵方法
CN110459208A (zh) * 2019-09-09 2019-11-15 极限元(杭州)智能科技股份有限公司 一种基于知识迁移的序列到序列语音识别模型训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743630A (zh) * 2024-02-20 2024-03-22 卓世未来(天津)科技有限公司 基于语音迁移学习的新闻播报个性化音频生成***及方法
CN117743630B (zh) * 2024-02-20 2024-04-26 卓世未来(天津)科技有限公司 基于语音迁移学习的新闻播报个性化音频生成***及方法

Also Published As

Publication number Publication date
CN112786026B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN108962217B (zh) 语音合成方法及相关设备
US10607595B2 (en) Generating audio rendering from textual content based on character models
US9330657B2 (en) Text-to-speech for digital literature
CN110782900B (zh) 协作ai讲故事
CN101030368B (zh) 在保持情感的同时跨通道进行通信的方法和***
CN110867177A (zh) 音色可选的人声播放***、其播放方法及可读记录介质
JP6238312B2 (ja) テキストの音声化及び意味に基づくオーディオhip
US20080161948A1 (en) Supplementing audio recorded in a media file
KR20170022445A (ko) 통합 모델 기반의 음성 인식 장치 및 방법
JP2016057986A (ja) 音声翻訳装置、方法およびプログラム
CN116009748B (zh) 儿童互动故事中图片信息交互方法及装置
Mello „Methodological issues for spontaneous speech corpora compilation “
Campbell Developments in corpus-based speech synthesis: Approaching natural conversational speech
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
Mirkin et al. A recorded debating dataset
US9087512B2 (en) Speech synthesis method and apparatus for electronic system
CN112786026A (zh) 基于语音迁移学习的亲子故事个性化音频生成***及方法
CN110767233A (zh) 一种语音转换***及方法
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
JP2016224283A (ja) 外国語の会話訓練システム
US20210142685A1 (en) Literacy awareness skills tools implemented via smart speakers and conversational assistants on smart devices
JP3930402B2 (ja) オンライン教育システム、情報処理装置、情報提供方法及びプログラム
US8219402B2 (en) Asynchronous receipt of information from a user
Halimah et al. Voice recognition system for the visually impaired: Virtual cognitive approach
WO2020110744A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant