CN109241331B

CN109241331B - 一种面向智能机器人的故事数据处理方法

Info

Publication number: CN109241331B
Application number: CN201811114587.3A
Authority: CN
Inventors: 贾志强
Original assignee: Beijing Guangnian Infinite Technology Co ltd
Current assignee: Beijing Guangnian Infinite Technology Co ltd
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2022-03-15
Anticipated expiration: 2038-09-25
Also published as: CN109241331A

Abstract

本发明公开了一种面向智能机器人的故事数据处理方法以及***。方法包括：获取故事文本数据；解析所述故事文本数据，其中，对所述故事文本数据进行文本识别及分词处理；基于故事音效模型对故事文本分词结果进行音效数据匹配，获取与所述故事文本分词结果对应的音效数据并确定所述音效数据与其对应的文本分词结果间的相互关系；基于所述相互关系，融合所述音效数据与所述故事文本数据，生成故事内容音频数据并输出。相较于现有技术，根据本发明的方法及***，可以将文本形式的故事转化为带有音效的故事内容音频数据，从而大大提高讲述故事时聆听者的用户体验。

Description

一种面向智能机器人的故事数据处理方法

技术领域

本发明涉及计算机领域，具体涉及一种面向智能机器人的故事数据处理方法。

背景技术

在传统的人类日常生活中，文字阅读是人们鉴赏文学作品的主要途径。但是，在某些特定场景下，人们也通过声音鉴赏文学作品，例如，聆听评书、聆听朗诵等。其中最常见的，针对文字阅读能力不够的儿童，其通常是通过他人的讲述(听别人讲故事)来聆听文学作品。

随着多媒体技术的不断发展，越来越多的多媒体设备被应用于人类的日常生活当中。在多媒体技术的支持下，文学作品的声音形式的播放，尤其是讲故事，的主体逐渐转换到了多媒体设备上。

一般的，利用多媒体设备讲故事通常是事先人工讲故事并录制音频文件。多媒体设备只是播放录制好的音频文件。随着计算机技术的发展，为了简单方便的获取声源，在现有技术中，还采用了将文字数据转化为音频数据的方式。这样，就不需要人工进行文字朗诵并录音，只需要提供故事文本就可以实现利用多媒体设备讲故事。但是，利用计算机技术直接进行文本到语音的转换，只能保证文本内容的直接转换，其无法做到真人在故事讲述时的声情并茂，这就导致在现有技术中，基于文本转换技术的故事讲述十分干涩无趣，只能简单的传达直接的文字含义，用户体验很差。

发明内容

为了提高用户体验，本发明提供了一种面向智能机器人的故事数据处理方法，所述方法包括：

获取故事文本数据；

解析所述故事文本数据，其中，对所述故事文本数据进行文本识别及分词处理；

基于故事音效模型对故事文本分词结果进行音效数据匹配，获取与所述故事文本分词结果对应的音效数据并确定所述音效数据与其对应的文本分词结果间的相互关系；

基于所述相互关系，融合所述音效数据与所述故事文本数据，生成故事内容音频数据并输出。

在一实施例中：

所述相互关系包括所述音效数据对应的故事位置；

融合所述音效数据与所述故事文本数据生成故事内容音频数据，其中，所述音效数据对应的音频被融合在所述故事内容音频数据中对应的故事位置上。

在一实施例中，所述音效数据包括：

音效标签，所述音效标签包括音效类型；

和/或，

音效控制数据，所述音效控制数据包括音效时长。

在一实施例中：

解析所述故事文本数据，其中，获取当前故事文本数据所对应的故事类型；

基于故事音效模型对故事文本分词结果进行音效数据匹配，其中，基于所述故事类型调用匹配的故事音效模型。

在一实施例中，基于故事音效模型对故事文本分词结果进行音效数据匹配，获取与所述故事文本分词结果对应的音效数据并确定所述音效数据与其对应的文本分词结果间的匹配细节描述，其中：

根据所述文本分词结果对应的故事元素和/或所述文本分词结果的语义从音效库中选取对应的所述音效数据并确定所述音效数据与其对应的文本分词结果间的匹配细节描述。

本发明还提出了一种存储介质，所述存储介质上存储有可实现如本发明所述方法的程序代码。

本发明还提出了一种面向智能机器人的故事数据处理***，所述***包括：

文本获取模块，其配置为获取故事文本数据；

文本解析模块，其配置为解析所述故事文本数据，其中，对所述故事文本数据进行文本识别及分词处理；

音效处理模块，其配置为基于故事音效模型对故事文本分词结果进行音效数据匹配，获取与所述故事文本分词结果对应的音效数据并确定所述音效数据与其对应的文本分词结果间的相互关系；

多模态故事数据生成模块，其配置为基于所述相互关系，融合所述音效数据与所述故事文本数据，生成故事内容音频数据并输出。

在一实施例中：

所述文本解析模块还配置为获取当前故事文本数据所对应的故事类型；

所述音效处理模块还配置为基于所述故事类型调用匹配的故事音效模型。

在一实施例中：

所述文本解析模块还配置为获取所述文本分词结果对应的故事元素和/或所述文本分词结果的语义；

所述音效处理模块还配置为根据所述文本分词结果对应的故事元素和/或所述文本分词结果的语义从音效库中选取对应的所述音效数据并确定所述音效数据与其对应的文本分词结果间的匹配细节描述。

本发明还提出了一种智能故事机，所述故事机包括：

输入获取模块，其配置为采集用户多模态输入，确认用户故事需求；

如本发明所述的故事数据处理***，其配置为根据所述用户故事需求获取对应的故事文本数据，生成故事内容音频数据；

输出模块，其配置为向用户输出所述故事内容音频数据。

相较于现有技术，根据本发明的方法及***，可以将文本形式的故事转化为带有音效的故事内容音频数据，从而大大提高讲述故事时聆听者的用户体验。

本发明的其它特征或优点将在随后的说明书中阐述。并且，本发明的部分特征或优点将通过说明书而变得显而易见，或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一实施例的方法流程图；

图2以及图3是根据本发明实施例的方法的部分流程图；

图4是根据本发明实施例的***结构简图；

图5以及图6是根据本发明实施例的故事机结构简图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

为了提高用户体验，本发明提出了一种面向智能机器人的故事数据处理方法。在本发明的方法中，为故事匹配对应的音效，将音效数据与故事文本数据融合，生成故事内容音频数据，从而提高故事内容的表现力。

进一步的，在实际应用场景中，音效的播放是需要匹配特定的播放时机的，在错误的时间播放音效，不仅不会提高故事内容的表现力，反而会降低聆听故事的用户体验。因此，在本发明的方法中，获取与故事文本分词结果对应的音效数据并确定音效数据与其对应的文本分词结果间的相互关系。然后基于相互关系，融合所述音效数据与所述故事文本数据，使得最终音效的播放达到最完美的表现效果。

接下来基于附图详细描述根据本发明实施例的方法的详细流程，附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机***中执行。虽然在流程图中示出了各步骤的逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，在一实施例中，方法包括以下流程：

S110，获取故事文本数据；

S120，解析故事文本数据，其中，对故事文本数据进行文本识别及分词处理；

S130，基于故事音效模型对故事文本分词结果进行音效数据匹配，获取与故事文本分词结果对应的音效数据(S131)并确定音效数据与其对应的文本分词结果间的相互关系(S132)；

S140，基于音效数据与其对应的文本分词结果间的相互关系，融合音效数据与故事文本数据，生成故事内容音频数据并输出。

具体的，在一实施例中，基于文字-语音转化引擎(TTS)，将故事文本转化为故事语音并在故事语音中融合音效数据中的音效音频。

进一步的，在一实施例中，将音效数据与故事文本数据进行融合，首先要考虑的是音效数据融合到故事文本数据的什么位置。具体的，在一实施例中，音效数据与其对应的文本分词结果间的相互关系包括音效数据对应的故事位置。在融合音效数据与故事文本数据生成故事内容音频数据的过程中，音效数据对应的音频被融合在故事内容音频数据中对应的故事位置上。

进一步的，为了尽可能完美的将音效数据对应的音频被融合在故事内容音频数据中对应的故事位置上，在一实施例中，在融合音频的过程中需要参考音频的播放时长。具体的，在一实施例中，音效数据包括：

音效标签，音效标签包括音效类型；

和/或，

音效控制数据，音效控制数据包括音效时长。

进一步的，在一实施例中，将音效数据与故事文本数据进行融合，还要考虑的是音效数据融合到故事文本数据的方式。例如，是将音效音频直接***故事文本，还是使用音效音频取代一部分的故事文本，或者是使用音效音频作为背景音。

在一实施例中，通过音效数据与其对应的文本分词结果间的相互关系确定音效数据融合到故事文本数据的方式。具体的，在一实施例中，音效数据与其对应的文本分词结果间的相互关系包括音效数据与其对应的文本分词结果间的匹配细节描述，通过音效数据与其对应的文本分词结果间的匹配细节描述来确定音效数据融合到故事文本数据的方式。

进一步的，为了确保音效可以提高故事表现的生动性，而不是采用了错误的音效反而降低了故事表现力，在一实施例中，根据文本分词结果的语义确定对应的音效数据。

进一步的，在一实施例中，根据故事元素确定对应的音效。具体的，在一实施例中，对故事文本进行文本识别，基于文本识别结果对故事进行内容元素拆解，提取故事元素；根据与文本分词结果对应的故事元素确定匹配文本分词结果的音效数据。

具体的，在一实施例中，将解析目标分为具体的几类(几种故事元素)，针对每一种故事元素进行关键词提取，将提取的关键词连同故事元素标签保存为解析结果。具体的，在一实施例中，故事元素包括故事背景、故事角色、事件内容、事件发生环境和/或事件进展阶段。例如，在一具体应用场景中，“下课铃声响起来，他急匆匆的进推开教室的大门进入教室“，当讲述到下课铃响起来的时候，播放混入故事的学校铃声，从而带领小朋友进入到这种情景之中。

具体的，在一实施例中，基于故事音效模型对故事文本分词结果进行音效数据匹配，获取与故事文本分词结果对应的音效数据，其中：

根据文本分词结果对应的故事元素和/或文本分词结果的语义从音效库中选取对应的音效数据并确定音效数据与其对应的文本分词结果间的匹配细节描述。

具体的，在一实施例中，如图2所示，方法包括以下流程：

S210，对故事文本数据进行文本识别及分词处理；

S220，基于文本识别结果对故事进行内容元素拆解，提取故事元素；

S230，为故事文本分词结果匹配故事元素；

S240，调用故事音效模型；

S250，根据文本分词结果对应的故事元素和/或文本分词结果的语义从音效库中选取对应的音效数据；

S260，确定音效数据对应的故事位置；

S270，确定音效数据与其对应的文本分词结果间的匹配细节描述。

进一步的，在实际应用场景中，针对不同类型的故事，其听众类型是不同的，对应的，听众的聆听偏好也就有所不同，这就使得，如果要尽可能的提高用户体验，需要根据故事类型的不同，采用对应的音效选取策略，比如，对于森林冒险类的故事，则优先采用动物相关，且音效风格较为紧张的音效策略。

具体的，在一实施例中，根据不同的故事类型，采用不同风格的音效。进一步的，在一实施例中，对应同一故事，采用统一风格的音效，这样就可以避免不同风格的音效在切换时产生的突兀感，从而提高用户体验。

进一步的，在一实施例中，对应不同类型的故事，调用不同的故事音效模型，从而确保最终匹配到的音效数据与故事类型相匹配。具体的，在一实施例中：

解析故事文本数据，其中，获取当前故事文本数据所对应的故事类型；

基于故事音效模型对故事文本分词结果进行音效数据匹配，其中，基于故事类型调用匹配的故事音效模型。

具体的，在一实施例中，如图3所示，方法包括以下流程：

S310，对故事文本数据进行文本识别及分词处理；

S320，基于文本识别结果对故事进行内容元素拆解，提取故事元素；

S330，基于文本识别结果确定故事类型；

S340，为故事文本分词结果匹配故事元素；

S350，调用匹配故事类型的故事音效模型；

S360，根据文本分词结果对应的故事元素和/或文本分词结果的语义从音效库中选取对应的音效数据；

S370，确定音效数据对应的故事位置；

S380，确定音效数据与其对应的文本分词结果间的匹配细节描述。

进一步的，基于本发明的方法，本发明还提出了一种存储介质，该存储介质上存储有可实现如本发明所述方法的程序代码。

进一步的，基于本发明的方法，本发明还提出了一种面向智能机器人的故事数据处理***。

具体的，如图4所示，在一实施例中，***包括：

文本获取模块410，其配置为获取故事文本数据；

文本解析模块420，其配置为解析故事文本数据，其中，对故事文本数据进行文本识别及分词处理；

音效处理模块430，其配置为基于故事音效模型对故事文本分词结果进行音效数据匹配，获取与故事文本分词结果对应的音效数据并确定音效数据与其对应的文本分词结果间的相互关系；

多模态故事数据生成模块440，其配置为基于音效数据与其对应的文本分词结果间的相互关系，融合音效数据与故事文本数据，生成故事内容音频数据并输出。

具体的，在一实施例中，音效处理模块430配置为从故事音效模型库431中调用故事音效模型，利用故事音效模型从音效库432中选取匹配的音效数据。

进一步的，在一实施例中：

文本解析模块420还配置为获取当前故事文本数据所对应的故事类型；

音效处理模块430还配置为基于故事类型调用匹配的故事音效模型。

进一步的，在一实施例中：

文本解析模块420还配置为获取文本分词结果对应的故事元素和/或文本分词结果的语义；

音效处理模块430还配置为根据文本分词结果对应的故事元素和/或文本分词结果的语义从音效库中选取对应的音效数据并确定音效数据与其对应的文本分词结果间的匹配细节描述。

进一步的，基于本发明提出的故事数据处理***，本发明还提出了一种智能故事机。具体的，如图5所示，在一实施例中，故事机包括：

输入获取模块510，其配置为采集用户多模态输入，确认用户故事需求；

故事数据处理***520，其配置为根据用户故事需求获取对应的故事文本数据，生成故事内容音频数据；

输出模块530，其配置为向用户输出故事内容音频数据。

具体的，在一实施例中，输出模块530包含播放单元，播放单元配置为播放故事内容音频数据。

具体的，如图6所示，在一实施例中，故事机包括智能设备610以及云端服务器620，其中：

云端服务器620包含故事数据处理***630。故事数据处理***630配置为调用云端服务器620的能力接口获取故事文本数据并解析，生成并输出包含融合有音效的故事内容音频数据。具体的，故事数据处理***630在数据解析处理过程中各个能力接口分别调用对应的逻辑处理。

具体的，在一实施例中，云端服务器620的能力接口包括文本分词接口624、文本识别接口621、文本/语音转换接口622、音效合成接口623。

智能设备610包括人机交互输入输出模块611、通信模块612、播放模块613。

所述智能设备610可以为平板电脑、机器人，手机，故事机，绘本阅读机器人。

人机交互输入输出模块611配置为获取用户的控制指令，确定用户故事聆听需求。

通信模块612配置为输出人机交互输入输出模块611获取到的用户故事聆听需求到云端服务器620，并接收来自云端服务器620的多模态数据。

播放模块613配置为播放故事内容音频数据。

具体的，在一具体应用场景中，人机交互输入输出模块611获取用户的控制指令，确定用户故事聆听需求。

通信模块612将用户故事聆听需求发送到云端服务器620。

云端服务器620基于用户故事聆听需求选取对应的故事文本数据。云端服务器620中的故事数据处理***获取故事文本数据并解析，生成并输出故事内容音频数据。

通信模块612接收云端服务器620发送的故事内容音频数据。

播放模块613播放通信模块612接收的故事内容音频数据。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变或变形，但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

Claims

1.一种面向智能机器人的故事数据处理方法，其特征在于，所述方法包括：

获取故事文本数据；

基于所述相互关系，融合所述音效数据与所述故事文本数据，生成故事内容音频数据并输出；

在基于故事音效模型对故事文本分词结果进行音效数据匹配的过程中，获取与所述故事文本分词结果对应的音效数据并确定所述音效数据与其对应的文本分词结果间的匹配细节描述，其中：

基于文本识别结果对故事进行内容元素拆解，提取故事元素；根据与文本分词结果对应的故事元素确定匹配文本分词结果的音效数据；

根据所述文本分词结果对应的故事元素和/或所述文本分词结果的语义从音效库中选取对应的所述音效数据并确定所述音效数据与其对应的文本分词结果间的匹配细节描述；

具体的，将待解析目标分为具体的几类故事元素，针对每一种故事元素进行关键词提取，将提取的关键词连同故事元素标签保存为解析结果；故事元素包括故事背景、故事角色、事件内容、事件发生环境和/或事件进展阶段。

2.根据权利要求1所述的方法，其特征在于：

所述相互关系包括所述音效数据对应的故事位置；

3.根据权利要求1所述的方法，其特征在于，所述音效数据包括：

音效标签，所述音效标签包括音效类型；

和/或，

音效控制数据，所述音效控制数据包括音效时长。

4.根据权利要求1所述的方法，其特征在于：

5.一种存储介质，其特征在于，所述存储介质上存储有可实现如权利要求1-4中任一项所述方法的程序代码。

6.一种面向智能机器人的故事数据处理***，其特征在于，所述***包括：

文本获取模块，其配置为获取故事文本数据；

多模态故事数据生成模块，其配置为基于所述相互关系，融合所述音效数据与所述故事文本数据，生成故事内容音频数据并输出；

所述音效处理模块还配置为根据所述文本分词结果对应的故事元素和/或所述文本分词结果的语义从音效库中选取对应的所述音效数据并确定所述音效数据与其对应的文本分词结果间的匹配细节描述；

所述音效处理模块具体配置为基于文本识别结果对故事进行内容元素拆解，提取故事元素；根据与文本分词结果对应的故事元素确定匹配文本分词结果的音效数据；

具体的，所述文本解析模块将待解析目标分为具体的几类故事元素，针对每一种故事元素进行关键词提取，将提取的关键词连同故事元素标签保存为解析结果；故事元素包括故事背景、故事角色、事件内容、事件发生环境和/或事件进展阶段。

7.根据权利要求6所述的***，其特征在于：

8.一种智能故事机，其特征在于，所述故事机包括：

如权利要求6或7所述的故事数据处理***，其配置为根据所述用户故事需求获取对应的故事文本数据，生成故事内容音频数据；

输出模块，其配置为向用户输出所述故事内容音频数据。