CN106653016B

CN106653016B - 智能交互方法和装置

Info

Publication number: CN106653016B
Application number: CN201610969856.9A
Authority: CN
Inventors: 何嘉; 朱频频
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2020-07-28
Anticipated expiration: 2036-10-28
Also published as: CN106653016A

Abstract

本发明实施例提供了一种智能交互方法和装置，解决了现有智能交互方式无法为不同用户提供不同应答服务的问题。该智能交互方法包括：获取采集的用户语音的语义所对应的标准服务信息；根据所述用户语音确定所述用户语音所匹配的用户声音模型；以及结合所述匹配的用户声音模型以及所述标准服务信息确定对应的应答服务信息。

Description

智能交互方法和装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种智能交互方法和装置。

背景技术

随着人工智能技术的不断发展以及人们对于交互体验要求的不断提高，智能交互方式已逐渐开始替代一些传统的人机交互方式，并而已成为一个研究热点。然而，现有智能交互方式虽然能大概分析出用户消息的语义内容，却仅能单纯地根据该语义内容提供应答服务。实际上，不同的用户即使输入了相同的用户消息，所期望得到的应答服务也有可能是不同的，但若采用现有智能交互方式却只能得到相同的应答服务。例如，即使成年人和儿童输入了相同的用户消息“给我讲故事”，成年人所希望听到的故事可能为悬疑类故事，而儿童所希望听到的故事可能为童话故事，但采用现有的智能交互方式是无法根据成年人和儿童的身份区别播放不同的故事文件的。由此可见，急需一种能为不同用户提供不同应答服务的智能交互方式。

发明内容

有鉴于此，本发明实施例提供了一种智能交互方法和装置，解决了现有智能交互方式无法为不同用户提供不同应答服务的问题。

本发明一实施例提供的一种智能交互方法包括：

获取采集的用户语音的语义所对应的标准服务信息；

根据所述用户语音确定所述用户语音所匹配的用户声音模型；以及

结合所述匹配的用户声音模型以及所述标准服务信息确定对应的应答服务信息。

本发明一实施例提供的一种智能交互装置包括：

语音采集模块，配置为采集用户语音；

标准服务提取模块，配置为获取所述用户语音的语义所对应的标准服务信息；

声音模型模块，配置为根据所述用户语音确定所述用户语音所匹配的用户声音模型；以及

应答模块，配置为结合所述匹配的用户声音模型以及所述标准服务信息确定对应的应答服务信息。

本发明实施例提供的一种智能交互方法和装置，先根据用户语音的语义获取对应的标准服务信息，再根据用户语音确定所匹配的用户声音模型，并结合所匹配的用户声音模型以及标准服务信息二者确定最终的应答服务信息。由于不同用户的用户语音可匹配到不同的用户声音模型，因此根据不同用户的用户语音所最终确定的应答服务信息也可有所不同，从而实现了为不同用户提供不同的应答服务，提高了用户的体验效果，使得智能交互更加智能和准确。

附图说明

图1所示为本发明一实施例提供的一种智能交互方法的流程示意图。

图2所示为本发明一实施例提供的一种智能交互方法中标准服务信息的获取流程示意图。

图3所示为本发明一实施例提供的一种智能交互方法中用户声音模型的预先建立流程示意图。

图4所示为本发明一实施例提供的一种智能交互装置的结构示意图。

图5所示为本发明另一实施例提供的一种智能交互装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1所示为本发明一实施例提供的一种智能交互方法的流程示意图。如图1所示，该方法包括：

步骤101：获取采集的用户语音的语义所对应的标准服务信息。

用户语音可为用户输入的自然语音格式的语音内容。通过语义理解过程获取用户语音所对应的语义内容，然后再根据该语义内容确定对应的标准服务信息。该标准服务信息虽然也对应一个大概的服务内容，但却并不是最终执行的细分的服务内容，因为后续还要结合用户声音模型的匹配过程以确定用户的身份，并结合用户的身份确定最终所需要的细分的服务内容，该细分的服务内容即为最终确定的应答服务信息。例如，当用户语音为“放个歌曲听吧”，该语义内容所对应的标准服务信息就为“播放歌曲”。然而，由于不同的用户所想要听到的歌曲可能有所不同，例如，儿童用户想要听到的歌曲为儿歌，而老年人想要听到的歌曲为民歌，因此就需要后续的用户声音模型匹配过程来先确定用户的身份，并根据不同的用户身份来提供不同的细分的服务内容。

在本发明一实施例中，如图2所示，用户语音所对应的标准服务信息可通过如下过程获取：

步骤1011：将用户语音与多个预先存储的标准语义模板进行相似度计算。在本发明一实施例中，标准语义模板可以呈文本形式，例如“给我唱歌吧”或“给我讲故事吧”等。此时，上述相似度计算过程其实是将用户语音所对应的文本内容与多个预先存储的标准语义模板之间进行文本相似度的计算。

步骤1012：根据相似度最高的标准语义模板获取对应的标准服务信息，其中标准语义模板与标准服务信息之间的映射关系为预先建立。

虽然用户语音与标准语义模板可能并不相同，但通过相似度计算过程可以找到相似度最高的标准语义模板作为匹配的标准语义模板。例如，当用户语音为“你会唱歌吗”时，虽然用户语音的文本内容与标准语义模板“给我唱歌吧”并不相同，但由于二者存在相同的词语“唱歌”，因而相似度较高，仍会将“给我唱歌吧”作为对应的标准语义模板。相比之下，“给我讲故事吧”与用户语音“你会唱歌吗”之间的相似度则较低，因而并不会被用作匹配的标准语义模板。

预先存储的标准语义模板与标准服务信息之间的映射关系可通过训练过程预先建立起来。例如，标准语义模板“给我唱歌吧”所对应的标准服务信息就为“播放歌曲文件”，标准语义模板“给我讲故事吧”所对应的标准服务信息就为“播放故事文件”。

步骤102：根据用户语音确定用户语音所匹配的用户声音模型。

该用户声音模型可为根据用户语音预先建立，不同的用户对应建立不同的用户声音模型。这样当不同用户的用户语音被采集时，就可匹配到不同的用户声音模型。

在本发明一实施例中，用户声音模型可包括用户声纹特征信息。该用户声纹特征信息用于与用户语音中的声纹特征相匹配。具体而言，在根据用户语音确定用户语音所匹配的用户声音模型时，首先要提取用户语音中的声纹特征信息，然后将提取的声纹特征信息与已存储的用户声音模型中的用户声纹特征信息相匹配。在一进一步实施例中，用户声音模型还可包括用户静态属性信息。该用户静态属性信息则用于表明该用户声音模型所对应的用户的身份信息，例如性别，年龄，职业，喜好和家庭角色等。

在本发明一实施例中，如图3所示，用户声音模型可通过如下过程预先建立起来：

步骤301：接收用户输入的语料语音信息，提取语料语音信息中的用户声纹特征信息。语料语音信息可为预设的一些训练语料，不同用户即使阅读相同的训练语料，所提取到的用户声纹特征信息也是有所不同的，而这些提取到的用户声纹特征信息正是用于与用户语音中的声纹特征相匹配的依据。

步骤302：接收用户静态属性信息。用户静态属性信息可由用户输入或通过第三方直接获取。用户可通过语音交互、文本交互等方式输入用户静态属性信息。第三方可为具体应用场景下的第三方业务***，如银行客户***、商家会员***等，该第三方业务***中预先存储有用户的用户静态属性信息。本发明对此不做限定。

步骤303：训练用户声纹特征信息与用户静态属性信息之间的映射关系以生成用户声音模型。建立起用户声纹特征信息与用户静态属性信息之间的映射关系后，只要根据用户语音的声纹特征确定了所匹配的用户声音模型，就相当于确定了用于表明用户身份的用户静态属性信息。

在本发明一实施例中，还可根据用户语音与所匹配的用户声音模型之间的声纹特征信息的差别自适应调整所匹配的用户声音模型的用户声纹特征信息。这样随着与用户的交互层级的不断加深，用户声音模型也在不断的修正，从而可提高后续用户声音模型匹配过程的准确性。

步骤103：结合匹配的用户声音模型以及标准服务信息确定对应的应答服务信息。

如前所述，当确定了与用户语音相匹配的用户声音模型后，就获得了与用户身份对应的用户静态属性信息。根据该匹配的用户声音模型中的用户静态属性信息以及标准服务信息便可确定对应的应答服务信息，其中标准服务信息和用户静态属性信息与应答服务信息之间的映射关系为预先建立。根据该最终确定的应答服务信息便可提供与用户身份相对应的应答服务。

例如，在预先建立的用户A所对应的用户声音模型中的用户静态属性信息包括：男，年龄38岁，家庭成员角色为爸爸；而用户B所对应的用户声音模型中的用户静态属性信息包括：男，年龄8岁，家庭成员为儿子。

当用户A输入“给我唱歌吧”的用户语音时，根据声纹特征匹配到用户A的用户声音模型，便会根据用户A的用户声音模型中的用户静态属性信息来为用户A播放：周杰伦的《青花瓷》。而当用户B输入相同的用户语音时，便会根据声纹特征匹配到用户B的用户声音模型，并根据用户B的用户静态属性信息播放：儿歌《两只老虎》。

应当理解，当所确定的标准服务信息的具体细分内容无法根据用户的身份而产生变化时，不同用户的用户语音所最终确定的应答服务信息也有可能是相同的。此外，还应当理解，应答服务信息可以是具体的服务指令，例如随机聊天、播放歌曲、播放故事和播放诗文等；也有可能是特别设置的应答语句，此时根据用户身份的不同，对于同一个用户语音的应答语句也可能不同。本发明对应答服务信息的具体内容和形式并不做限定。

例如，仍以上述的用户A和用户B为例。当用户A输入“你会写毛笔字吗？”的用户语音时，虽然根据声纹特征匹配到用户A的用户声音模型，但由于并无法提供写毛笔字的服务，便会直接回复应答服务信息“我不会哦”。但当用户A进一步输入“这个都不会啊”，根据用户A的用户声音模型中的用户静态属性信息可确定的应答服务信息可为“对的啊，这个你天天工作又没有教过我”。

而当用户B输入“你会写毛笔字吗？”的用户语音时，同样地，虽然根据声纹特征匹配到用户B的用户声音模型，但由于无法提供写毛笔字的服务便会直接回复应答服务信息“我不会哦”。但当用户B进一步输入“这个都不会啊”，根据用户B的用户声音模型中的用户静态属性信息可确定的应答服务信息可为“不好意思啊，这个我还在学习中，要不你教我吧”。

由此可见，采用本发明实施例提供的一种智能交互方法，先根据用户语音的语义获取对应的标准服务信息，再根据用户语音确定所匹配的用户声音模型，并结合所匹配的用户声音模型以及标准服务信息二者确定最终的应答服务信息。由于不同用户的用户语音可匹配到不同的用户声音模型，因此根据不同用户的用户语音所最终确定的应答服务信息也可有所不同，从而实现了为不同用户提供不同的应答服务。

在本发明一实施例中，为了提高用户输入的语音内容的利用率，用户所输入的语音内容需要经过预处理，该用户输入的语音内容既可以是交互过程中的用户语音，也可以是用户声音模型建立过程中用户输入的语料语音信息。该预处理过程可包括声音信号的采集与转化、预滤波、预加重、加窗分帧、端点检测等过程，在此不再赘述。

在本发明一实施例中，还可将应答服务信息所调用的应答服务的服务记录信息存入匹配的用户声音模型。这样在后续的交互过程中，就可以根据用户声音模型中的服务记录信息快速确定用户对具体服务内容的习惯要求，从而提供更加智能准确的交互体验。具体而言，在确定所匹配的用户声音模型后，获取该匹配的用户声音模型中与标准服务信息对应的服务记录信息，再根据该获取的服务记录信息确定对应的应答服务信息。例如，用户语音“打开空调”所对应的标准服务信息为“开启空调模式”，根据该标准服务信息搜寻所匹配的用户声音模型，发现其中存在服务记录信息“空调制冷23度”，这说明制冷23度可能是用户对于空调服务的习惯要求，那么则根据该服务记录信息直接将空调开启并调整至23度。

应当理解，根据标准服务信息确定服务记录信息的过程可通过关键词识别或文本相似度计算的方式实现，当标准服务信息与一个服务记录信息之间存在相同或相近的关键词，或文字相似度较高时，则可将该服务记录信息作为与标准服务信息相对应的服务记录信息。然而，本发明对此过程并不做具体限定。

还应当理解，服务记录信息的具体内容可根据交互过程中所涉及到的服务种类而不断丰富和更新，例如对于空调服务，所涉及到的服务记录信息就可能包括空调模式、温度、耗电模式、风量大小、开启关闭时间等。本发明对服务记录信息的具体内容并不做限定。

在本发明一实施例中，服务记录信息可包括服务时间属性，这意味着服务记录信息的具体内容可能与时间属性相关，此时在确定最终的应答服务信息时则还需要考虑该服务时间属性，即，要获取匹配的用户声音模型中与标准服务信息相对应且服务时间属性与当前时间相对应的服务记录信息。仍以上述例子说明，当确定所匹配的用户声音模型后，虽然用户语音“打开空调”所对应的标准服务信息为“开启空调模式”，但所匹配的用户声音模型中可能存在两个与标准服务信息相匹配的服务记录信息，分别为“下午2点到4点开启空调模式为制冷23度”和“晚上8点到11点开启空调模式为制冷26度”。由于当前的时间为2点30分，因此选取其中的“午2点到4点开启空调模式为制冷23度”作为与标准服务信息对应的服务记录信息，并直接将空调调整至制冷23度。

在本发明一实施例中，用户声音模型还包括用户静态属性信息，此时在确定应答服务信息时就需要同时考虑用户静态属性信息以及服务记录信息两个方面的因素。考虑到服务记录信息所代表的习惯要求一般是优先于用户静态属性信息所代表的用户身份的，因此可先判断是否能获取所述匹配的用户声音模型中与所述标准服务信息对应的服务记录信息；若可以获取，则根据所获取的服务记录信息确定对应的应答服务信息；若无法获取，则根据匹配的用户声音模型中的用户静态属性信息以及标准服务信息确定对应的应答服务信息，其中标准服务信息和用户静态属性信息与应答服务信息之间的映射关系为预先建立。

例如，成年妈妈经常需要给小孩点播儿童故事，这样该成年妈妈在交互的过程中经常确定的应答服务信息就为“播放儿童故事”，因此“播放儿童故事”就会被作为服务记录信息存入该成年妈妈的用户声音模型。虽然“播放儿童故事”与成年妈妈的用户静态属性信息“成年人，母亲”是相冲突的，但当该成年妈妈输入“播放故事”的用户语音时，直接根据与该成年妈妈匹配的用户声音模型中的服务记录信息播放儿童故事，而并不考虑用户静态信息“成年人，母亲”。而当另一个成年人也输入“播放故事”的用户语音时，如果该另一个成年人所匹配的用户声音模型中并不存在与播放故事相关的服务记录信息时，则根据该另一个成年人的用户静态属性播放悬疑故事。

应当理解，用户声音模型可以为一种包含多个组成要素的模型，声纹特征信息、用户静态属性以及服务记录信息都可以是其中的组成要素。这样对于声纹特征信息和用户静态属性的训练过程以及服务记录信息的存储过程都可以被看成是对一个原始标准模型中各组成要素内容的更新过程。在本发明另一实施例中，该用户声音模型还可包括声音子模型和用户子模型，其中声音子模型对应存储和更新声纹特征信息，用户子模型对应存储和更新用户静态属性以及服务记录信息，声音子模型与用户子模型之间存在一定的映射关系。然而，本发明对用户声音模型的具体构建形式并不做限定，只要用户声音模型包括声纹特征信息、用户静态属性、服务记录信息以及相关的映射关系即可。

图4所示为本发明一实施例提供的一种智能交互装置的结构示意图。如图4所示，该智能交互装置40，包括：

语音采集模块41，配置为采集用户语音；

标准服务提取模块42，配置为获取用户语音的语义所对应的标准服务信息；

声音模型模块43，配置为根据用户语音确定用户语音所匹配的用户声音模型；以及

应答模块44，配置为结合匹配的用户声音模型以及标准服务信息确定对应的应答服务信息。

在本发明一实施例中，如图5所示，标准服务提取模块42包括：

相似度单元421，配置为将用户语音与多个预先存储的标准语义模板进行相似度计算；以及

标准服务匹配单元422，配置为根据相似度最高的标准语义模板获取对应的标准服务信息，其中标准语义模板与标准服务信息之间的映射关系为预先建立。

在本发明一实施例中，用户声音模型包括：用户声纹特征信息；

其中，如图5所示，声音模型模块43包括：

声纹提取单元431，配置为提取用户语音中的声纹特征信息；

声纹匹配单元432，配置为将声纹提取单元431提取的声纹特征信息与已存储的用户声音模型中的用户声纹特征信息相匹配。

在本发明一实施例中，声音模型模块43进一步包括：

自适应调整单元，配置为根据用户语音与匹配的用户声音模型之间声纹特征信息的差别自适应调整匹配的用户声音模型的用户声纹特征信息。

在本发明一实施例中，用户声音模型进一步包括：用户静态属性信息；应答模块44进一步配置为根据匹配的用户声音模型中的用户静态属性信息以及标准服务信息确定对应的应答服务信息，其中标准服务信息和用户静态属性信息与应答服务信息之间的映射关系为预先建立。

在本发明一实施例中，声音模型模块43进一步配置为预先建立用户声音模型。

在本发明一实施例中，语音采集模块41进一步配置为，接收用户输入的语料语音信息；

声纹提取单元431进一步配置为，提取语料语音信息中的用户声纹特征信息；

其中，如图5所示，声音模型模块43进一步包括：

属性接收单元433，配置为接收用户静态属性信息；以及

训练单元434，配置为训练用户声纹特征信息与用户静态属性信息之间的映射关系以生成用户声音模型。

在本发明一实施例中，属性接收单元433通过用户输入或第三方输入的方式接收用户静态属性信息。

在本发明一实施例中，智能交互装置40进一步包括：记录模块45，配置为将应答服务信息所调用的应答服务的服务记录信息存入匹配的用户声音模型。

在本发明一实施例中，应答模块44进一步配置为，获取匹配的用户声音模型中与标准服务信息对应的服务记录信息，以及根据所获取的服务记录信息确定对应的应答服务信息。

在本发明一实施例中，用户声音模型进一步包括：用户静态属性信息；

此时，应答模块44进一步配置为，若无法获取与标准服务信息对应的服务记录信息，则根据匹配的用户声音模型中的用户静态属性信息以及标准服务信息确定对应的应答服务信息，其中标准服务信息和用户静态属性信息与应答服务信息之间的映射关系为预先建立。

在本发明一实施例中，服务记录信息包括服务时间属性；

此时，应答模块44进一步配置为，获取匹配的用户声音模型中与标准服务信息相对应且服务时间属性与当前时间相对应的服务记录信息，以及根据所获取的服务记录信息确定对应的应答服务信息。

在本发明一实施例中，智能交互装置40为智能玩具，由此实现在家庭应用场景下针对不同家庭角色的不同个性化交互体验。

应当理解，上述实施例所提供的智能交互装置40中记载的每个模块或单元都与前述的一个方法步骤相对应。由此，前述的方法步骤描述的操作和特征同样适用于该装置40及其中所包含的对应的模块和单元，重复的内容在此不再赘述。

本发明的教导还可以实现为一种计算机可读存储介质的计算机程序产品，包括计算机程序代码，当计算机程序代码由处理器执行时，其使得处理器能够按照本发明实施方式的方法来实现如本文实施方式所述的智能交互方法。计算机存储介质可以为任何有形媒介，例如软盘、CD-ROM、DVD、硬盘驱动器、甚至网络介质等。

应当理解，虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品，但是本发明的实施方式的方法或装置可以被依软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行***，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当理解，尽管在上文的详细描述中提及了装置的若干模块或单元，但是这种划分仅仅是示例性而非强制性的。实际上，根据本发明的示例性实施方式，上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中实现，反之，上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来实现。此外，上文描述的某些模块/单元在某些应用场景下可被省略。

应当理解，为了不模糊本发明的实施方式，说明书仅对一些关键、未必必要的技术和特征进行了描述，而可能未对一些本领域技术人员能够实现的特征做出说明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种智能交互方法，其特征在于，包括：

获取采集的用户语音的语义所对应的标准服务信息；

根据所述用户语音确定所述用户语音所匹配的用户声音模型，其中，所述用户声音模型基于预设的训练语料和用户静态属性信息通过训练过程预先建立；以及

结合所述匹配的用户声音模型以及所述标准服务信息确定对应的应答服务信息；

其中，所述方法进一步包括：根据所述用户语音与所述匹配的用户声音模型之间声纹特征信息的差别自适应调整所述匹配的用户声音模型的用户声纹特征信息；

其中，所述用户声音模型进一步包括：用户静态属性信息；

其中所述结合所述匹配的用户声音模型以及所述标准服务信息确定对应的应答服务信息包括：

根据所述匹配的用户声音模型中的用户静态属性信息以及所述标准服务信息确定对应的应答服务信息，其中所述标准服务信息和所述用户静态属性信息与所述应答服务信息之间的映射关系为预先建立，

其中，所述用户声音模型通过如下步骤预先建立：

接收用户输入的语料语音信息，提取所述语料语音信息中的用户声纹特征信息；

接收用户静态属性信息；

以及训练所述用户声纹特征信息与所述用户静态属性信息之间的映射关系以生成所述用户声音模型。

2.根据权利要求1所述的方法，其特征在于，获取采集的用户语音的语义所对应的标准服务信息包括：

将所述用户语音与多个预先存储的标准语义模板进行相似度计算；以及

根据相似度最高的所述标准语义模板获取对应的所述标准服务信息，其中所述标准语义模板与所述标准服务信息之间的映射关系为预先建立。

3.根据权利要求1所述的方法，其特征在于，所述用户声音模型包括：用户声纹特征信息；

其中所述根据所述用户语音确定所述用户语音所匹配的用户声音模型包括：

提取所述用户语音中的声纹特征信息；以及

将所述提取的声纹特征信息与已存储的用户声音模型中的用户声纹特征信息相匹配。

4.根据权利要求1所述的方法，其特征在于，所述用户静态属性信息包括以下几项中的至少一项：性别，年龄，职业，喜好和家庭角色。

5.根据权利要求1所述的方法，其特征在于，所述用户静态属性信息由用户输入或通过第三方获取。

6.根据权利要求1至3中任一所述的方法，其特征在于，进一步包括：

将所述应答服务信息所调用的应答服务的服务记录信息存入所述匹配的用户声音模型。

7.根据权利要求6所述的方法，其特征在于，所述结合所述匹配的用户声音模型以及所述标准服务信息确定对应的应答服务信息包括：

获取所述匹配的用户声音模型中与所述标准服务信息对应的服务记录信息；以及

根据所获取的服务记录信息确定对应的应答服务信息。

8.根据权利要求6所述的方法，其特征在于，所述用户声音模型进一步包括：用户静态属性信息；

其中结合所述匹配的用户声音模型以及所述标准服务信息确定对应的应答服务信息进一步包括：

判断是否能获取所述匹配的用户声音模型中与所述标准服务信息对应的服务记录信息；

若可以获取，则根据所获取的服务记录信息确定对应的应答服务信息；以及

若无法获取，则根据所述匹配的用户声音模型中的用户静态属性信息以及所述标准服务信息确定对应的应答服务信息，其中所述标准服务信息和所述用户静态属性信息与所述应答服务信息之间的映射关系为预先建立。

9.根据权利要求7所述的方法，其特征在于，所述服务记录信息包括服务时间属性；

其中获取所述匹配的用户声音模型中与所述标准服务信息对应的服务记录信息包括：

获取所述匹配的用户声音模型中与所述标准服务信息相对应且服务时间属性与当前时间相对应的服务记录信息。

10.根据权利要求1至3中任一所述的方法，其特征在于，所述应答服务信息所对应的应答服务包括以下几项中的一种或多种：随机聊天、播放歌曲、播放故事和播放诗文。

11.一种智能交互装置，其特征在于，包括：

语音采集模块，配置为采集用户语音；

声音模型模块，配置为根据所述用户语音确定所述用户语音所匹配的用户声音模型，其中，所述用户声音模型基于预设的训练语料和用户静态属性信息通过训练过程预先建立；以及

应答模块，配置为结合所述匹配的用户声音模型以及所述标准服务信息确定对应的应答服务信息；

其中，所述声音模型模块进一步包括：

自适应调整单元，配置为根据所述用户语音与所述匹配的用户声音模型之间声纹特征信息的差别自适应调整所述匹配的用户声音模型的用户声纹特征信息；

其中，所述用户声音模型进一步包括：用户静态属性信息；

其中所述应答模块进一步配置为根据所述匹配的用户声音模型中的用户静态属性信息以及所述标准服务信息确定对应的应答服务信息，其中所述标准服务信息和所述用户静态属性信息与所述应答服务信息之间的映射关系为预先建立，

其中，所述语音采集模块进一步配置为，接收用户输入的语料语音信息；

所述声纹提取单元进一步配置为，提取所述语料语音信息中的用户声纹特征信息；

其中所述声音模型模块进一步包括：

属性接收单元，配置为接收用户静态属性信息；以及

训练单元，配置为训练所述用户声纹特征信息与所述用户静态属性信息之间的映射关系以生成所述用户声音模型。

12.根据权利要求11所述的装置，其特征在于，所述标准服务提取模块包括：

相似度单元，配置为将所述用户语音与多个预先存储的标准语义模板进行相似度计算；以及

标准服务匹配单元，配置为根据相似度最高的所述标准语义模板获取对应的所述标准服务信息，其中所述标准语义模板与所述标准服务信息之间的映射关系为预先建立。

13.根据权利要求11所述的装置，其特征在于，所述用户声音模型包括：用户声纹特征信息；

其中所述声音模型模块包括：

声纹提取单元，配置为提取所述用户语音中的声纹特征信息；

声纹匹配单元，配置为将所述声纹提取单元提取的声纹特征信息与已存储的用户声音模型中的用户声纹特征信息相匹配。

14.根据权利要求11所述的装置，其特征在于，所述属性接收单元通过用户输入或第三方输入的方式接收所述用户静态属性信息。

15.根据权利要求11至13中任一所述的装置，其特征在于，进一步包括：

记录模块，配置为将所述应答服务信息所调用的应答服务的服务记录信息存入所述匹配的用户声音模型。

16.根据权利要求15所述的装置，其特征在于，所述应答模块进一步配置为，获取所述匹配的用户声音模型中与所述标准服务信息对应的服务记录信息，以及根据所获取的服务记录信息确定对应的应答服务信息。

17.根据权利要求16所述的装置，其特征在于，所述用户声音模型进一步包括：用户静态属性信息；

其中所述应答模块进一步配置为，判断是否能获取所述匹配的用户声音模型中与所述标准服务信息对应的服务记录信息；若可以获取，则根据所获取的服务记录信息确定对应的应答服务信息；若无法获取，则根据所述匹配的用户声音模型中的用户静态属性信息以及所述标准服务信息确定对应的应答服务信息，其中所述标准服务信息和所述用户静态属性信息与所述应答服务信息之间的映射关系为预先建立。

18.根据权利要求16所述的装置，其特征在于，所述服务记录信息包括服务时间属性；

其中所述应答模块进一步配置为，获取所述匹配的用户声音模型中与所述标准服务信息相对应且服务时间属性与当前时间相对应的服务记录信息，以及根据所获取的服务记录信息确定对应的应答服务信息。

19.根据权利要求11至13中任一所述的装置，其特征在于，所述智能交互装置为智能玩具。