CN109036388A

CN109036388A - 一种基于对话设备的智能语音交互方法

Info

Publication number: CN109036388A
Application number: CN201810827885.0A
Authority: CN
Inventors: 李智彤; 李达
Original assignee: Individual
Current assignee: Li Zhitong
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2018-12-18

Abstract

本发明涉及语音对话技术领域，具体涉及一种基于对话设备的智能语音交互方法，包括以下步骤：A）建立标准声线模型，录制真人语音，调整标准声线模型参数，生成真人专属声线模型；B）根据交互内容建立或更新包括语速、语调或语气中至少一项的播放策略，根据播放策略调整真人专属声线模型参数，将交互内容代入调整后的真人专属声线模型，生成交互语音并播放；C）监测使用者声音，根据使用者声音更新交互内容。本发明的有益效果是：通过语音交互过程中收集使用者语音，分析得出使用者语音交互的反馈，根据反馈对交互内容合成音的声音合成策略进行调整或更新语音交互内容，增强使用者参与感，提高语音交互效果。

Description

一种基于对话设备的智能语音交互方法

技术领域

本发明涉及语音对话技术领域，具体涉及一种基于对话设备的智能语音交互方法。

背景技术

目前人工智能技术迅猛发展，在多个技术领域中体现了其巨大的优势作用，尤其在声音合成领域取得的最新进展，通过人工智能程序已经可以合成出足够比拟真人声音的合成音，普通人难以将人工智能合成音与真人声音区分开来，且人工智能程序能够将被模仿人未曾说过的语句，通过程序合成出来。这项技术已经有了多个领域及方向的应用，其中一个就是能够模拟真人对话的对话设备。当对话设备的使用者为儿童时，能够为儿童提供乐趣和陪伴。在当前社会压力增大，节奏变快，家长陪伴儿童的时间越来越被挤压的情况下，人工智能实现的对话设备对于儿童陪伴作用，有助于儿童的快乐健康成长。尤其是睡前给儿童讲故事的活动，是具有传统特色的亲子活动。有助于儿童形成健康完善的性格及人格体系，对儿童日后的健康发展具有关键和重要的意义。而快节奏的工作生活，使得家长陪伴儿童的这项亲子活动通常无法很好实现和持续。虽然在利用对话设备讲故事过程中，儿童缺少目视亲人的视觉体验，以及触感体验，但申请人认为仅依靠声音仍然足够建立起沉浸式的富有陪伴感和亲切感的体验。其原因在于当一个人足够专注声音信息时，会减弱对视觉以及触觉的感受，甚至忽略视觉与触觉。这一规律对于儿童以及成年人均适用。

然而在语音交互中需要检测到使用者的使用反馈，获得使用反馈的方法为监测使用者语音。当使用者为儿童时，会因为儿童并不能很好的使用语音及时准确的表达自己的使用感受和实时需要，难以清楚表达自己的需求；而且儿童在不感兴趣、害怕、兴奋等时，并不会发出声音，对话设备也没有相应的传感器进行检测；以及儿童容易注意力分散，不能保证对语音交互的足够持续时间关注，导致语音交互中儿童参与度低，效果差。由于儿童反馈信息的收集困难，以及儿童注意力集中时间短的问题，导致语音交互设备的使用者为儿童时，语音交互效果差。

中国专利CN103680222B，公开日2017年10月24日，一种儿童故事问答交互方法，包括步骤1：在儿童与故事交互***进行交互之初，***首先判断交互类型，如是***主动讲故事，则执行步骤2；如是点播，则执行步骤3；步骤2：***将获取交互历史信息和儿童模型信息，并据此从儿童故事库和故事问题库选择故事类别及内容；步骤3：播放所择故事；步骤4：在智能故事交互控制的引导下，执行智能交互动作；步骤5：***根据步骤4选择的候选SIDL交互动作，执行相应动作；步骤6：***得到儿童的反馈信息，并记录交互历史信息；步骤7：更新交互历史信息，并根据更新后的交互历史信息重新计算儿童模型；步骤8：判断故事对话结束条件是否满足，若满足，则结束本次故事对话，否则转到步骤4重新执行。其交互动作为预设交互动作集里的动作，虽然每次动作可以从集中选择并列动作中的另一个进行，但其目的仅是为了增加在讲故事过程中的趣味性，交互动作仍然是固定程式固定方式的动作，其交互目的并不是为了获取儿童听故事过程中的反馈进而调节讲故事策略。在仅能增加趣味性之后，不能增加儿童的存在感和陪伴感，更不能起到助于儿童健康成长的作用。

中国专利CN101683567B，公开日2011年12月21日，一种做动作自动讲故事的类生物装置，提供了一种应用于类生物装置的做动作自动讲故事的方法，通过该方法，该类生物装置接收输入信号，选择一动作参数，获取相应的动作参数，执行该动作参数及输出该动作参数相应的动作，获取该动作参数对应的描述性信息，获取该描述性信息对应的故事音频，及输出该故事音频及播放相应的故事。所以该类生物装置在执行动作的同时，能够根据动作参数讲述相应的故事，且，在不同时间执行同一动作可讲述不同的故事，使该类生物装置更加有趣化。但其故事为与动作相关的描述性内容，仅增加了趣味性，并不能对儿童形成教育和表率作用，不能帮助儿童性格成长。且其体积大，成本高昂，易出现故障。

从现代国外语境研究看，波兰人类学家马林诺夫斯基（Mlinowski）（1930）通过对南太平洋上的土著居民的语言进行观察后首次提出语境的概念，并得出结论：“如果没有语境，就没有意义。”他把语境分为两类：文化语境（context of culture）和情境语境（context of situation）。“文化语境”指说话人生活于其中的社会文化背景；“情境语境”指言语行为发生时的具体情景。关于语境理论是有成熟的专业理论研究，也就是说语境的不同对于人们的认知是不同作用的，也证明了多个语境下的真人专属声线模型，对于促进语音交互效果，在增强使用者的理解和认识上有积极意义的。

心理学是一门研究人类的心理现象、精神功能和行为的科学，既是一门理论学科，也是一门应用学科。心理学研究涉及知觉、认知、情绪、人格、行为、人际关系、社会关系等许多领域，也与日常生活的许多领域——家庭、教育、健康、社会等发生关联。心理学一方面尝试用大脑运作来解释个体基本的行为与心理机能，同时，心理学也尝试解释个体心理机能在社会行为与社会动力中的角色；同时它也与神经科学、医学、生物学等科学有关，因为这些科学所探讨的生理作用会影响个体的心智。通过故事场景和相应的预设问题结合提问的技巧，来捕捉讲故事对象对于生活中各个领域的认知、逻辑、兴趣等，结合大数据分析综合的给出个人心智成熟度方面的意见，在不知不觉中获取真实有效大数据样本，探索人类自身大脑的前瞻性科学。常用的提问方式有：正面提问、引导性提问、追问、假设性提问以及反问，而问题分为开放型和闭和型两种。

发明内容

本发明要解决的技术问题是：目前智能语音交互设备的使用者为儿童时，难以准确、及时地获得儿童的反馈，导致语音交互效果差的技术问题。提出了一种通过播放预设提问以及关怀提问，并根据儿童回答问题的情况分析得出儿童语音交互反馈，而后更新交互内容的智能语音交互方法。

为解决上述技术问题，本发明所采取的技术方案为：一种基于对话设备的智能语音交互方法，包括以下步骤：A）建立标准声线模型，录制真人语音，调整标准声线模型参数，生成真人专属声线模型；B）根据交互内容建立或更新播放策略，根据播放策略调整真人专属声线模型参数，将交互内容代入调整后的真人专属声线模型，生成交互语音并播放；C）监测使用者声音，根据使用者声音更新交互内容，重复步骤B-C直到交互结束。根据交互内容对已经建立的真人专属声线模型做进一步的调整，可以使声音结合内容场景而更加贴近真人发声，提高交互体验。

作为优选，所述播放策略包括语速、语调或语气中的至少一项。

作为优选，所述录制真人语音时，录制真人在至少两个语境下的语音，分别建立对应所录制语境下的真人专属声线模型，所述步骤B中的播放策略还包括语境选择和更新。所述语境为：朗诵语境、歌唱语境、拟音语境或假音语境。由于人的声音在不同语境情况下的差异较大，软件难以准确用一个语境声音调整后模拟另一个语境下的声音，因而需要录制至少两个语境下的语音，建立至少两个语境下的真人专属声线模型，在语音交互过程中，根据内容切换不同语境下的声音进行播放，提高交互语音的丰富性和与交互内容的关联性，提高语音交互效果。

作为优选，所述录制真人语音时，录制至少两个真人的语音，并分别生成对应真人的真人专属声线模型，所述步骤B中的播放策略包括真人语音对应的真人专属声线模型选择和更换。获得两个真人的真人专属声线模型后，可以在语音交互中根据语音交互内容切换真人声音，提高交互语音的丰富性和与交互内容的关联性，提高语音交互效果。

作为优选，所述交互内容为儿童读物，所述儿童读物文本标注有预设提问，所述预设播放策略根据所述标注暂停儿童读物播放，并播放预设提问，而后收集儿童回答语音。录制与儿童相关的真人声音并建立声线模型，而后使用真人对应的专属声线模型进行语音交互，提高语音交互过程对儿童的亲切感和舒适感。通过预设并根据标注播放提问，提高儿童参与度，增加获取儿童反馈的机会，提高获取到的反馈的相关性，提高互动性，提高语音交互效果。

作为优选，所述收集儿童回答语音时，分析回答语义，当回答语义超出设定范围的次数，达到设定阈值N1时，采取以下a~f播放策略中的至少一种：a.重复播放预设问题一次，并重新收集时间T内的儿童回答语音；b.提高儿童读物播放音量；c.增大儿童读物播放声音对比度；d.更换不同语境下的真人专属声线模型；e.更换不同真人的真人专属声线模型；f.播放预设互动提问，根据回答更换儿童读物或真人专属声线模型；若采取上述a~f播放策略中任一播放策略后，儿童回答后续预设问题的回答语义超出设定范围时，通过通信模块连线家长。通过回答语义是否落入设定范围，判断儿童是否在听语音交互播放，以及当前播放的交互内容是否适合当前使用设备的儿童。

作为优选，所述收集儿童回答语音时，记录儿童回答语音，并计算儿童开始回答时刻与预设问题播放完成时刻的间隔时间t，当儿童回答预设问题的间隔时间t平均值超过设定阈值t1时，采取以下a~f播放策略中的至少一种：a.重复播放预设问题一次，并重新收集时间T内的儿童回答语音；b.提高儿童读物播放音量；c.增大儿童读物播放声音对比度；d.更换不同语境下的真人专属声线模型；e.更换不同真人的真人专属声线模型；f.播放预设互动提问，根据回答更换儿童读物或真人专属声线模型；若采取上述a~f播放策略中任一播放策略后，儿童回答后续预设问题的间隔时间t超过设定阈值t2，通过通信模块连线家长。通过回答时间间隔判断儿童是否在听语音交互播放，以及当前播放的交互内容是否适合当前使用设备的儿童。

作为优选，所述收集儿童回答语音时，记录儿童回答语音，并分析回答语义，计算儿童开始回答时刻与预设问题播放完成时刻的间隔时间t，当儿童回答预设问题的间隔时间t超过设定阈值t1且回答语义属于设定范围时，恢复播放儿童读物，并延长设定阈值t1；当儿童回答预设问题的间隔时间t超过设定阈值t1且回答语义超出设定范围时，采取以下a~f播放策略中的至少一种：a.重复播放预设问题一次，并重新收集时间T内的儿童回答语音；b.提高儿童读物播放音量；c.增大儿童读物播放声音对比度；d.更换不同语境下的真人专属声线模型；e.更换不同真人的真人专属声线模型；f.播放预设互动提问，根据回答更换儿童读物或真人专属声线模型；若采取上述a~f播放策略中任一播放策略后，儿童回答后续预设问题的间隔时间t超过设定阈值t2且回答语义超出设定范围时，通过通信模块连线家长。通过回答时间间隔和回答语义综合判断儿童是否在听语音交互播放，以及当前播放的交互内容是否适合当前使用设备的儿童。

作为优选，所述收集儿童回答语音时，记录儿童回答语音及语义和开始回答时刻与预设问题播放完成时刻的间隔时间t作为儿童听儿童读物反应的反馈信息，当某次儿童回答预设问题的间隔时间t超过设定阈值t1且回答语义超出设定范围时，通过通信模块推送给家长，由家长判断儿童的回答是否视为落入预设范围，若视为落入预设范围，则提高设定阈值t1。

作为优选，所述通过通信模块连线家长时，向家长推送当前儿童读物播放进度以及儿童读物前后文片段、儿童最近n次回答预设问题的情况和当前真人专属声线模型对应的真人。向家长推送相关信息方便家长迅速掌握儿童当前语音交互情况，方便家长与儿童沟通并做出处理。

作为优选，所述儿童读物内容包括儿童读物文本和预设标注，所述预设标注标注在儿童读物文本上，所述预设标注与播放策略通过建立或更新映射关系表互相映射。预设标注与播放策略具有映射关系，通过预设标注可以方便的控制儿童读物播放时的播放策略，如语速、语气、语调以及语境选择。

作为优选，在步骤B中根据交互内容语义建立或更新播放策略，所述交互内容语义的来源为文本识别和/或人工标注；所述文本识别的方法为：建立文本与语义的映射库，文本与所述映射库匹配获得文本语义；所述人工标注的方法为在对应文本上标注语义，所述语义与播放策略通过建立或更新映射关系表互相映射。通过标注语义将如角色名等通过文本识别难以识别正确含义的文本标注出来，提高交互内容语义识别的准确度。

作为优选，在所述步骤C中，监测使用者声音时，实时进行语义识别，若语义识别出使用者提出问题，则根据预设回答库选择回答文本并代入真人专属声线模型生成语音回答。识别提问语义，与预设回答库中的问题及回答数据对进行对比，找出问题语义与预设问题相似度符合条件且相似度高低排序前三个回答，从所述前三个回答中随机抽取一个作为回答内容，生成回答语音并播放。

作为优选，在所述步骤C中，监测使用者声音时，若监测到使用者未发出声音的时间超过设定阈值，则终止语音交互。在使用者可能睡着且忘记进行关闭语音交互设备时，语音交互设备根据监测声音情况，自动停止语音交互，还可以设置随后自动关机。

作为优选，在所述步骤C中，监测使用者声音时，若监测到使用者未发出声音时间超过设定阈值，则发出相应的预设提问，若使用者在设定时间内未回答则终止讲语音交互，若使用者在设定时间内做出回答则恢复语音交互。若使用者为儿童，则可能出现因疲倦而入睡或不希望再进行语音交互的情况，此时通过预设的相关的关怀提问，准确的获取反馈，而后根据反馈继续语音交互或者终止语音交互。

作为优选，在步骤B前设置预设关怀提问，在步骤B中语音交互过程中，周期性或者由语义触发或者由步骤C中的使用者声音监测结果触发，进行预设关怀提问的播放，并识别使用者回答语义，将回答语义和预设的回答语义与播放动作映射表匹配，执行匹配的播放动作。当使用者为儿童时，需要考虑儿童的特殊性，即儿童的主动性不高，如儿童需要喝水、休息、更换儿童读物以及上厕所等，因而需要语音交互设备主动发出关怀提问，通过监测回答来判断儿童是否有上述的需要。

作为优选，根据儿童读物内容制作动物叫声和环境背景声音，将儿童读物内容的语义与动物叫声和环境背景声音分别通过建立或更新映射关系表关联，在步骤B中根据交互内容的语义与动物叫声和环境背景声音的映射关系表，播放动物叫声和环境背景声音。

作为优选，根据儿童读物内容制作动物叫声和环境背景声音，将儿童读物内容的语义与动物叫声和环境背景声音分别通过建立或更新映射关系表关联，导入儿童年龄、胆量、活泼程度以及性格数据中的至少一种，在步骤B中根据交互内容的语义与动物叫声和环境背景声音的映射关系表，获得所需播放的动物叫声和环境背景声音，根据所导入的儿童年龄、胆量、活泼程度以及性格数据，调整所需播放的动物叫声和环境背景声音播放时的音量、音速、音调或音色中的至少一项。儿童读物中会出现动物等拟人化的角色，并具有语音内容，因而需要模仿或者播放相应的动物叫声或拟声，对于不同类型的使用者而言，选择不同的动物叫声样本播放，同时根据使用者的年龄、胆量、活泼程度以及性格数据，调整动物叫声，提高语音交互效果，避免使用者感到不适。

作为优选，还包括步骤D，D）将儿童听儿童读物过程中以下信息中的至少一个：喜爱的儿童读物类型、提问次数、未完整播放次数及未完成度、提问的语义、真人专属声线模型对应真人的播放次数及比重、回答预设提问的语义及思考时间以及家长连线次数，作为数据样本采集并存储，由人工标注儿童性格信息、心理成熟度、逻辑分析能力以及兴趣爱好中的至少一种后，作为有效数据样本，建立儿童分析神经网络模型，在后续使用以及其他儿童的使用中，通过神经网络给出儿童性格信息、心理成熟度、逻辑分析能力以及兴趣爱好中相应的神经网络分析结果。通过收集数据并标注后作为有效样本数据，而后将样本数据导入神经网络学习，后续或者其他使用者使用时，可以根据使用者的使用情况及使用情况，由神经网络给出使用者性格信息、心理成熟度、逻辑分析能力以及兴趣爱好中相应的分析结果。

作为优选，收集儿童的年龄、胆量、活泼程度以及性格数据中的至少一种数据，由人工标注所需播放的动物叫声和环境背景声音播放时的音量、音速、音调或音色中的至少一项调整策略，建立调整策略适配神经网络，为后续使用或其他儿童建立或更新初始调整策略。不同是使用者对于声音调整策略有不同的喜好，由初始声音调整策略调整则需要较长时间，通过同类别归纳并由人工标注后，生成更符合同类别使用者的初始声音调整策略，提高语音交互的舒适度和效果。

一种语音对话设备，适用于如前述的一种基于对话设备的智能语音交互方法，包括壳体、声音收集器、扬声器、供电模块、存储模块和控制模块，所述声音收集器、扬声器、供电模块、存储模块和控制模块安装在壳体上，所述声音收集器、扬声器、存储模块和供电模块均与控制模块连接。

本发明的实质性效果是：通过语音交互过程中收集使用者语音，分析得出使用者语音交互的反馈，根据反馈对交互内容合成音的声音合成策略进行调整或更新语音交互内容，增强使用者参与感，提高语音交互效果。

附图说明

图1为语音交互方法流程框图。

图2为儿童读物语音交互方法流程框图。

图3为语音对话设备结构示意图。

其中：100、控制模块，200、壳体，300、声音收集器，400、扬声器，500、供电模块，600、存储模块，700、通信模块。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的具体实施方式作进一步具体说明。

如图1所示，为语音交互方法流程框图，智能语音交互方法包括以下步骤：A）建立标准声线模型，录制真人语音，调整标准声线模型参数，生成真人专属声线模型；B）根据交互内容建立或更新播放策略，根据播放策略调整真人专属声线模型参数，将交互内容代入调整后的真人专属声线模型，生成交互语音并播放；C）监测使用者声音，根据使用者声音更新交互内容，重复步骤B-C直到交互结束。播放策略包括语速、语调或语气中的至少一项。例如，交互内容为诗歌时，设置语速更慢、声音更洪亮、声调变化更明显的播放策略，根据这个播放策略，调整真人专属声线模型的参数，而后将诗歌内容代入，生成交互语音播放。而当交互内容为新闻时，设置语速更快、声音音量正常、声调变化更不明显的播放策略。

调整真人专属声线模型参数，来改变最终声音的效果为现有技术，通过多次试验，将真人专属声线模型参数调整方法与播放策略所要求的声音效果建立对应关系表，在应用中根据该对应关系表进行调整操作。

根据交互内容对已经建立的真人专属声线模型做进一步的调整，可以使声音结合内容场景而更加贴近真人发声，提高交互体验。录制真人语音时，录制真人在至少两个语境下的语音，分别建立对应所录制语境下的真人专属声线模型，步骤B中的播放策略还包括语境选择和更新。语境为：朗诵语境、歌唱语境、拟音语境或假音语境。由于人的声音在不同语境情况下的差异较大，软件难以准确用一个语境声音调整后模拟另一个语境下的声音，因而需要录制至少两个语境下的语音，建立至少两个语境下的真人专属声线模型，在语音交互过程中，根据内容切换不同语境下的声音进行播放，提高交互语音的丰富性和与交互内容的关联性，提高语音交互效果。

录制真人语音时，录制至少两个真人的语音，并分别生成对应真人的真人专属声线模型，步骤B中的播放策略包括真人语音对应的真人专属声线模型选择和更换。获得两个真人的真人专属声线模型后，可以在语音交互中根据语音交互内容切换真人声音，提高交互语音的丰富性和与交互内容的关联性，提高语音交互效果。

如图2所示，为儿童读物语音交互方法流程框图，作为本发明方法的一个实施例，交互内容为儿童读物，儿童读物文本标注有预设提问，预设播放策略根据标注暂停儿童读物播放，并播放预设提问，而后收集儿童回答语音。录制儿童相关的真人声音并建立声线模型，而后使用真人对应的专属声线模型进行语音交互，提高语音交互过程对儿童的亲切感和舒适感。通过预设并根据标注播放提问，提高儿童参与度，增加获取儿童反馈的机会，提高获取到的反馈的相关性，提高互动性，提高语音交互效果。

作为本发明方法的一个实施例，收集儿童回答语音时，分析回答语义，当回答语义超出设定范围的次数，达到设定阈值N1时，采取以下a~f播放策略中的至少一种：a.重复播放预设问题一次，并重新收集时间T内的儿童回答语音；b.提高儿童读物播放音量；c.增大儿童读物播放声音对比度；d.更换不同语境下的真人专属声线模型；e.更换不同真人的真人专属声线模型；f.播放预设互动提问，根据回答更换儿童读物或真人专属声线模型；若采取上述a~f播放策略中任一播放策略后，儿童回答后续预设问题的回答语义超出设定范围时，通过通信模块连线家长。通过回答语义是否落入设定范围，判断儿童是否在听语音交互播放，以及当前播放的交互内容是否适合当前使用设备的儿童。

作为本发明方法的一个实施例，收集儿童回答语音时，记录儿童回答语音，并计算儿童开始回答时刻与预设问题播放完成时刻的间隔时间t，当儿童回答预设问题的间隔时间t平均值超过设定阈值t1时，采取以下a~f播放策略中的至少一种：a.重复播放预设问题一次，并重新收集时间T内的儿童回答语音；b.提高儿童读物播放音量；c.增大儿童读物播放声音对比度；d.更换不同语境下的真人专属声线模型；e.更换不同真人的真人专属声线模型；f.播放预设互动提问，根据回答更换儿童读物或真人专属声线模型；若采取上述a~f播放策略中任一播放策略后，儿童回答后续预设问题的间隔时间t超过设定阈值t2，通过通信模块连线家长。通过回答时间间隔判断儿童是否在听语音交互播放，以及当前播放的交互内容是否适合当前使用设备的儿童。

作为本发明方法的一个实施例，收集儿童回答语音时，记录儿童回答语音，并分析回答语义，计算儿童开始回答时刻与预设问题播放完成时刻的间隔时间t，当儿童回答预设问题的间隔时间t超过设定阈值t1且回答语义属于设定范围时，恢复播放儿童读物，并延长设定阈值t1；当儿童回答预设问题的间隔时间t超过设定阈值t1且回答语义超出设定范围时，采取以下a~f播放策略中的至少一种：a.重复播放预设问题一次，并重新收集时间T内的儿童回答语音；b.提高儿童读物播放音量；c.增大儿童读物播放声音对比度；d.更换不同语境下的真人专属声线模型；e.更换不同真人的真人专属声线模型；f.播放预设互动提问，根据回答更换儿童读物或真人专属声线模型；若采取上述a~f播放策略中任一播放策略后，儿童回答后续预设问题的间隔时间t超过设定阈值t2且回答语义超出设定范围时，通过通信模块连线家长。通过回答时间间隔和回答语义综合判断儿童是否在听语音交互播放，以及当前播放的交互内容是否适合当前使用设备的儿童。其中t1,t2由家长根据儿童历史使用情况，即历史回答问题的时间间隔进行设定。可选的，播放策略还包括g.播放由家长预先设置的提醒语音内容，用于使儿童注意力集中。

作为本发明方法的一个实施例，收集儿童回答语音时，记录儿童回答语音及语义和开始回答时刻与预设问题播放完成时刻的间隔时间t作为儿童听儿童读物反应的反馈信息，当某次儿童回答预设问题的间隔时间t超过设定阈值t1且回答语义超出设定范围时，通过通信模块推送给家长，由家长判断儿童的回答是否视为落入预设范围，若视为落入预设范围，则提高设定阈值t1的值，给儿童留出更多思考的时间。

作为本发明方法的一个实施例，通过通信模块连线家长时，向家长推送当前儿童读物播放进度以及儿童读物前后文片段、儿童最近n次回答预设问题的情况和当前真人专属声线模型对应的真人。向家长推送相关信息方便家长迅速掌握儿童当前语音交互情况，方便家长与儿童沟通并做出处理。

儿童读物内容包括儿童读物文本和预设标注，预设标注标注在儿童读物文本上，预设标注与播放策略通过建立或更新映射关系表互相映射。预设标注与播放策略具有映射关系，通过预设标注可以方便的控制儿童读物播放时的播放策略，如语速、语气、语调以及语境选择。

作为本发明方法的一个实施例，在步骤B中根据交互内容语义建立或更新播放策略，交互内容语义的来源为文本识别和/或人工标注；文本识别的方法为：建立文本与语义的映射库，文本与映射库匹配获得文本语义；人工标注的方法为在对应文本上标注语义，语义与播放策略通过建立或更新映射关系表互相映射。通过标注语义将如角色名等通过文本识别难以识别正确含义的文本标注出来，提高交互内容语义识别的准确度。

作为本发明方法的一个实施例，在步骤B中作为交互内容的儿童读物内容播放完成时，若儿童回答不符合设定条件的次数小于设定次数N3，则播放预设结束语，结束语内容由家长设置，推荐结束语内容为：夸奖儿童认真进行语音交互、与寓言故事相应的叮嘱以及提醒儿童睡觉中的一各或多个。该设定条件为：回答语义处于设定范围、回答时间间隔t小于设定阈值T1中的一个或者二者的并集或者二者的交集。

作为本发明方法的一个实施例，在步骤C中，监测使用者声音时，实时进行语义识别，若语义识别出使用者提出问题，则根据预设回答库选择回答文本并代入真人专属声线模型生成语音回答。识别提问语义，与预设回答库中的问题及回答数据对进行对比，找出问题语义与预设问题相似度符合条件且相似度高低排序前三个回答，从前三个回答中随机抽取一个作为回答内容，生成回答语音并播放。

作为本发明方法的一个实施例，在步骤C中，监测使用者声音时，若监测到使用者未发出声音的时间超过设定阈值，则终止语音交互。在使用者可能睡着且忘记进行关闭语音交互设备时，语音交互设备根据监测声音情况，自动停止语音交互，还可以设置随后自动关机。

作为本发明方法的一个实施例，在步骤C中，监测使用者声音时，若监测到使用者未发出声音时间超过设定阈值，则发出相应的预设提问，若使用者在设定时间内未回答则终止讲语音交互，若使用者在设定时间内做出回答则恢复语音交互。若使用者为儿童，则可能出现因疲倦而入睡或不希望再进行语音交互的情况，此时通过预设的相关的关怀提问，准确的获取反馈，而后根据反馈继续语音交互或者终止语音交互。

作为本发明方法的一个实施例，在步骤B前设置预设关怀提问，在步骤B中语音交互过程中，周期性或者由语义触发或者由步骤C中的使用者声音监测结果触发，进行预设关怀提问的播放，并识别使用者回答语义，将回答语义和预设的回答语义与播放动作映射表匹配，执行匹配的播放动作。当使用者为儿童时，需要考虑儿童的特殊性，即儿童的主动性不高，如儿童需要喝水、休息、更换儿童读物以及上厕所等，因而需要语音交互设备主动发出关怀提问，通过监测回答来判断儿童是否有上述的需要。

根据儿童读物内容制作动物叫声和环境背景声音，将儿童读物内容的语义与动物叫声和环境背景声音分别通过建立或更新映射关系表关联，在步骤B中根据交互内容的语义与动物叫声和环境背景声音的映射关系表，播放动物叫声和环境背景声音。

作为本发明方法的一个实施例，根据儿童读物内容制作动物叫声和环境背景声音，将儿童读物内容的语义与动物叫声和环境背景声音分别通过建立或更新映射关系表关联，导入儿童年龄、胆量、活泼程度以及性格数据中的至少一种，在步骤B中根据交互内容的语义与动物叫声和环境背景声音的映射关系表，获得所需播放的动物叫声和环境背景声音，根据所导入的儿童年龄、胆量、活泼程度以及性格数据，调整所需播放的动物叫声和环境背景声音播放时的音量、音速、音调或音色中的至少一项。儿童读物中会出现动物等拟人化的角色，并具有语音内容，因而需要模仿或者播放相应的动物叫声或拟声，对于不同类型的使用者而言，选择不同的动物叫声样本播放，同时根据使用者的年龄、胆量、活泼程度以及性格数据，调整动物叫声，提高语音交互效果，避免使用者感到不适。

播放策略不仅包括对声音效果的调整策略，还包括声音内容的调整策略。声音效果的调整策略，至少包括以下调整项目中的一个：语速、语调、音量、声音对比度、语气、语境选择、真人专属声线模型对应真人的选择。声音内容的调整策略，至少包括以下调整内容的一个：关联角色配音以及背景配音。关联角色为交互文本中涉及的动物、人以及自然声音等角色声音，如虎叫、人笑声以及风雨声，背景配音为根据交互内容场景设定的配音。

作为本发明方法的一个实施例，还包括步骤D，D）将儿童听儿童读物过程中以下信息中的至少一个：喜爱的儿童读物类型、提问次数、未完整播放次数及未完成度、提问的语义、真人专属声线模型对应真人的播放次数及比重、回答预设提问的语义及思考时间以及家长连线次数，作为数据样本采集并存储，由人工标注儿童性格信息、心理成熟度、逻辑分析能力以及兴趣爱好中的至少一种后，作为有效数据样本，建立儿童分析神经网络模型，在后续使用以及其他儿童的使用中，通过神经网络给出儿童性格信息、心理成熟度、逻辑分析能力以及兴趣爱好中相应的神经网络分析结果。通过收集数据并标注后作为有效样本数据，而后将样本数据导入神经网络学习，后续或者其他使用者使用时，可以根据使用者的使用情况及使用情况，由神经网络给出使用者性格信息、心理成熟度、逻辑分析能力以及兴趣爱好中相应的分析结果。

收集儿童的年龄、胆量、活泼程度以及性格数据中的至少一种数据，由人工标注所需播放的动物叫声和环境背景声音播放时的音量、音速、音调或音色中的至少一项调整策略，建立调整策略适配神经网络，为后续使用或其他儿童建立或更新初始调整策略。不同是使用者对于声音调整策略有不同的喜好，由初始声音调整策略调整则需要较长时间，通过同类别归纳并由人工标注后，生成更符合同类别使用者的初始声音调整策略，提高语音交互的舒适度和效果。

使用举例一，使用本发明方法为儿童讲述一个包含多个动物角色的童话寓言故事时，首先录制并建立儿童至少两个相关真人的声音，并相应建立真人专属声线模型，在故事内容文本上标注，不同真人对应讲述的不同段落，标注预设提问，如“你觉得故事中角色A应不应该收到惩罚”，在故事文本中动物角色具有的角色名上标注该动物种类，根据故事文本或标注，找到对应动物种类的事先录制的动物叫声配音，并根据标注修改动物叫声配音的音量、播放时长以及是否跳过本次播放，当播放到标注有预设提问的文本时，播放相应的提问，而后等待儿童的回答语音，若回答符合设定条件，则继续播放，若不符合则进行播放策略调整，调整后下一次预设提问的回答若符合设定调节，则继续播放，若不符合则连线家长，若整个故事播放过程中，儿童对预设问题的回答不符合设定条件的次数少于3次，则播放家长预设的结束语，将寓言故事的寓意播放给儿童，而后结束交互过程，其中，在播放过程中，监测儿童是否有提问，如儿童发问“为什么角色B要做这样的事”，则从预设回答库中对应选择一条进行回答，若提问不在预设回答范围内，则连线家长，由家长作答。

使用举例二，为语音交互装置配备远程服务器，使用者是儿童，交互内容为童话故事，触发交互开启时，根据输入或者历史存储的使用者年龄、性格信息、兴趣爱好信息等，从远程服务器推送经过人工标记匹配的若干个故事到交互设备，交互设备依次询问使用者是否选择当前故事播放，当使用者选定故事后，开始播放故事，根据故事内容及内容语境匹配表，选择匹配到的语境代入真人专属声线模型后生成交互语音播放，而后监测使用者声音，在交互语音播放过程中，根据预设的故情节提问进行预设提问的播放，采集使用者的回答内容、答时间间隔及回答语速、语气、声调等声音特征信息，经人工标记逻辑分析能力、性格特征、心理状态后，作为神经网络模型的样本数据，用于建立分析儿童逻辑分析能力、性格特征、心理状态的智能模型；在交互语音播放过程中监测到使用者提问时，暂停交互语音播放并从预设的问题回答库中选择匹配的回答播放，若使用者的提问不在问题回答库中，则通过通信模块推送给家长，有家长做出回答，而后将该问题回答作为数据存储到问题回答库中；周期性的发出关怀提问，如是否需要休息等，若未监测到使用者发出声音的时间超过设定值，则判断使用者已经疲倦，需要睡眠或者已经入睡，则逐步降低交互语音播放声音至停止播放；当使用者触发直接连线家长时，通过通信模块连线家长，并在连线时推送当前的交互内容、交互进度、最近若刚辞回答预设问题的情况给家长。

采集多个语境的方法举例，E1）选定若干个带有不同语境的标准文本；E2）触发语音交互设备进入声线学习模式，并输入标识信息；E3）提示语境；E4）由目标真人按照提示语境要求读标准文本；E5）语音交互设备采集目标真人声音，并根据标准声线模型建立该语境下的真人专属声线模型；E6）重复步骤E3-E5直至全部语境均被采集或者使用者终止声线学习。

如图3所示，为语音对话设备结构示意图，一种语音对话设备，包括壳体200、声音收集器300、扬声器400、供电模块500、存储模块600、通信模块700和控制模块100，声音收集器300、扬声器400、供电模块500、存储模块600、通信模块700和控制模块100均安装在壳体200上，声音收集器300、扬声器400、供电模块500、存储模块600以及通信模块700均与控制模块100连接。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种基于对话设备的智能语音交互方法，其特征在于，

包括以下步骤：

A）建立标准声线模型，录制真人语音，调整标准声线模型参数，生成真人专属声线模型；

B）根据交互内容建立或更新播放策略，根据播放策略调整真人专属声线模型参数，将交互内容代入调整后的真人专属声线模型，生成交互语音并播放；

C）监测使用者声音，根据使用者声音更新交互内容。

2.根据权利要求1所述的一种基于对话设备的智能语音交互方法，其特征在于，

所述录制真人语音时，录制真人在至少两个语境下的语音，分别建立对应所录制语境下的真人专属声线模型，所述步骤B中的播放策略包括语境的选择和更新。

3.根据权利要求1或2所述的一种基于对话设备的智能语音交互方法，其特征在于，

所述交互内容为儿童读物，所述儿童读物文本标注有预设提问，所述预设播放策略根据所述标注暂停儿童读物播放，并播放预设提问，而后收集儿童回答语音。

4.根据权利要求3所述的一种基于对话设备的智能语音交互方法，其特征在于，

所述收集儿童回答语音时，分析回答语义，当回答语义超出设定范围的次数，达到设定阈值N1时，采取以下a~f播放策略中的至少一种：a.重复播放预设问题一次，并重新收集时间T内的儿童回答语音；b.提高儿童读物播放音量；c.增大儿童读物播放声音对比度；d.更换不同语境下的真人专属声线模型；e.更换不同真人的真人专属声线模型；f.播放预设互动提问，根据回答更换儿童读物或真人专属声线模型；

若采取上述a~f播放策略中任一播放策略后，儿童回答后续预设问题的回答语义超出设定范围时，通过通信模块连线家长。

5.根据权利要求3所述的一种基于对话设备的智能语音交互方法，其特征在于，

所述收集儿童回答语音时，记录儿童回答语音，并计算儿童开始回答时刻与预设问题播放完成时刻的间隔时间t，当儿童回答预设问题的间隔时间t平均值超过设定阈值t1时，采取以下a~f播放策略中的至少一种：a.重复播放预设问题一次，并重新收集时间T内的儿童回答语音；b.提高儿童读物播放音量；c.增大儿童读物播放声音对比度；d.更换不同语境下的真人专属声线模型；e.更换不同真人的真人专属声线模型；f.播放预设互动提问，根据回答更换儿童读物或真人专属声线模型；

若采取上述a~f播放策略中任一播放策略后，儿童回答后续预设问题的间隔时间t超过设定阈值t2，通过通信模块连线家长。

6.根据权利要求3所述的一种基于对话设备的智能语音交互方法，其特征在于，

所述收集儿童回答语音时，记录儿童回答语音及语义和开始回答时刻与预设问题播放完成时刻的间隔时间t作为儿童听儿童读物反应的反馈信息，当某次儿童回答预设问题的间隔时间t超过设定阈值t1且回答语义超出设定范围时，通过通信模块推送给家长，由家长判断儿童的回答是否视为落入预设范围，若视为落入预设范围，则提高设定阈值t1。

7.根据权利要求3所述的一种基于对话设备的智能语音交互方法，其特征在于，

所述儿童读物内容包括儿童读物文本和预设标注，所述预设标注标注在儿童读物文本上，所述预设标注与播放策略通过建立或更新映射关系表互相映射。

8.根据权利要求1或2所述的一种基于对话设备的智能语音交互方法，其特征在于，

在步骤B中根据交互内容语义建立或更新播放策略，所述交互内容语义的来源为文本识别和/或人工标注；

所述文本识别的方法为：建立文本与语义的映射库，文本与所述映射库匹配获得文本语义；

所述人工标注的方法为在对应文本上标注语义，所述语义与播放策略通过建立或更新映射关系表互相映射。

9.根据权利要求1或2所述的一种基于对话设备的智能语音交互方法，其特征在于，

在所述步骤C中，监测使用者声音时，实时进行语义识别，若语义识别出使用者提出问题，则根据预设回答库选择回答文本并代入真人专属声线模型生成语音回答。

10.根据权利要求1或2所述的一种基于对话设备的智能语音交互方法，其特征在于，

在所述步骤C中，监测使用者声音时，若监测到使用者未发出声音时间超过设定阈值，则发出相应的预设提问，若使用者在设定时间内未回答则终止讲语音交互，若使用者在设定时间内做出回答则恢复语音交互。

11.根据权利要求1或2所述的一种基于对话设备的智能语音交互方法，其特征在于，

在步骤B前设置预设关怀提问，在步骤B中语音交互过程中，周期性或者由语义触发或者由步骤C中的使用者声音监测结果触发，进行预设关怀提问的播放，并识别使用者回答语义，将回答语义和预设的回答语义与播放动作映射表匹配，执行匹配的播放动作。

12.根据权利要求1或2所述的一种基于对话设备的智能语音交互方法，其特征在于，

根据儿童读物内容制作动物叫声和环境背景声音，将儿童读物内容的语义与动物叫声和环境背景声音分别通过建立或更新映射关系表关联，导入儿童年龄、胆量、活泼程度以及性格数据中的至少一种，在步骤B中根据交互内容的语义与动物叫声和环境背景声音的映射关系表，获得所需播放的动物叫声和环境背景声音，根据所导入的儿童年龄、胆量、活泼程度以及性格数据，调整所需播放的动物叫声和环境背景声音播放时的音量、音速、音调或音色中的至少一项。

13.根据权利要求3所述的一种基于对话设备的智能语音交互方法，其特征在于，

还包括步骤D，D）将儿童听儿童读物过程中以下信息中的至少一个：喜爱的儿童读物类型、提问次数、未完整播放次数及未完成度、提问的语义、真人专属声线模型对应真人的播放次数及比重、回答预设提问的语义及思考时间以及家长连线次数，作为数据样本采集并存储，由人工标注儿童性格信息、心理成熟度、逻辑分析能力以及兴趣爱好中的至少一种后，作为有效数据样本，建立儿童分析神经网络模型，在后续使用以及其他儿童的使用中，通过神经网络给出儿童性格信息、心理成熟度、逻辑分析能力以及兴趣爱好中相应的神经网络分析结果。

14.一种语音对话设备，适用于如权利要求1至13任一项所述的一种基于对话设备的智能语音交互方法，其特征在于，

包括壳体、声音收集器、扬声器、供电模块、存储模块和控制模块，所述声音收集器、扬声器、供电模块、存储模块和控制模块安装在壳体上，所述声音收集器、扬声器、存储模块和供电模块均与控制模块连接；

控制模块工作时执行以下步骤：

B）根据交互内容建立或更新包括语速、语调或语气中至少一项的播放策略，根据播放策略调整真人专属声线模型参数，将交互内容代入调整后的真人专属声线模型，生成交互语音并播放；

C）监测使用者声音，根据使用者声音更新交互内容。